Un factor importante que condujo al equipo multidisciplinario e interinstitucional, encabezado por científicas de la UNAM, a obtener el Trofeo CAMDA 2023 (Evaluación Crítica del Análisis Masivo de Datos, por sus siglas en inglés), fue proponer un método innovador para llevar a cabo la caracterización de muestras genéticas de microorganismos y su resistencia a antibióticos, colectados en distintos sistemas de transporte colectivo en el mundo.
Es importante para la Universidad Nacional y para México esta distinción porque certifica que se cuenta con la capacidad y los expertos para conducir el análisis masivo de datos genómicos, al mismo nivel que naciones desarrolladas, afirmó la investigadora del Centro de Ciencias Matemáticas (CCM), de esta casa de estudios, Nelly Sélem Mojica, responsable de la organización y coordinación del proyecto, el cual triunfó al superar a representantes de países como Australia, Alemania y Polonia.
El Trofeo CAMDA es el máximo reconocimiento que otorga la Sociedad Internacional de Biología Computacional (ISCB) al proyecto que resuelva, de manera sobresaliente, alguno de los retos propuestos: predecir la ciudad de origen de ciertos aislados bacterianos utilizando su perfil antimicrobiano y/o el desafío forense para identificar el origen de la ciudad utilizando los perfiles taxonómicos y funcionales obtenidos de los metagenomas.
Se trata de la primera vez que un conjunto mexicano participa en el prestigiado certamen; además, México fue el único país de Latinoamérica en asistir con dos equipos al encuentro realizado en la ciudad de Lyon, Francia, el 27 de julio pasado.
El equipo ganador estuvo conformado por 26 integrantes de entidades de la UNAM: el CCM y la Escuela Nacional de Estudios Superiores (ENES), ambos en el campus Morelia; así como del Instituto de Ciencias del Mar y Limnología (ICML). De igual manera, por instituciones externas: los centros de Investigación en Matemáticas (CIMAT) y el de Investigación y Estudios Avanzados (CINVESTAV).
En el grupo -donde intervienen matemáticos, biólogos, computólogos, entre otros especialistas- también se contó con representantes del proyecto Alianza Innovación Huawei de Microbiomas de Rizósfera, además de trabajadores de las empresas C3, Amphora y Bimbo, donde se realizan análisis de datos biológicos.
Sélem Mojica, experta en biomatemáticas, tuvo la iniciativa de convocar a estudiantes de licenciatura y posgrado de distintas dependencias educativas y de investigación, así como a expertos del sector privado, a participar en un hackatón que con el apoyo del CCM y de la Sociedad Matemática Mexicana tuvo lugar del 3 al 7 de julio pasado, en las instalaciones del CCM, en el que se reunieron los integrantes del equipo para resolver uno de los retos que la CAMDA propuso.
Analizaron datos masivos de muestras genéticas de microorganismos, colectadas en distintos sistemas de transporte colectivo en el mundo, al igual que genomas provenientes de hospitales para investigar la resistencia de los microorganismos a los antibióticos en distintas especies.
Con los resultados obtenidos enviaron una propuesta de proyecto preliminar al comité organizador de la Conferencia Internacional de ISCB, el cual determinó que el trabajo del grupo mexicano sería uno de los que competiría por el Trofeo CAMDA.
En representación del equipo asistieron a la citada ciudad francesa: Adriana Haydeé Contreras Peruyero, investigadora posdoctoral en el CCM; y Mirna Vázquez Rosas Landa, investigadora del ICML, quienes presentaron, respectivamente, el póster y la ponencia, ante expertos internacionales.
“Muchos gigas”
El trabajo, relató Contreras Peruyero, comenzó hace meses, incluso antes del hackatón, desde que se descargaron los datos y uno de los estudiantes de la ENES realizó su análisis previo.
Él “curó” la calidad de la información para que pudiéramos laborar y luego pulir los resultados. Incluso, antes llevamos a cabo otro hackatón con información de años pasados, a manera de ensayo, describió Nelly Sélem.
A su vez, Vázquez Rosas Landa explicó que se trató de “muchos gigas”, correspondientes a 400 metagenomas (o conjuntos de información genética de un ambiente o un ecosistema). Fue muy interesante utilizar todo eso para contestar una pregunta, ponernos todos a pensar en un mismo problema, con referencias de ese nivel y llegar a conclusiones.
Esas bases de información gigantes corresponden a 16 ciudades distribuidas en el mundo, entre ellas Nueva York, Tokio, Baltimore, Oakland, São Paulo y Zúrich. Algunos de los datos provienen de MetaSub Project, que recolecta muestras, por ejemplo, de los tubos o pasamanos en el Metro y secuencia el ADN presente, el cual conforma un metagenoma, expuso la integrante del ICML.
Además, hay bacterias resistentes a antibióticos de las que se obtienen los llamados “perfiles de resistencia a antibióticos”; de esa base nos proporcionaron 500 genes. Con ambas informaciones sería posible predecir de qué ciudad provenía una muestra. En eso consistió el desafío que en el futuro “podría ser útil en modelos epidemiológicos”, recalcó la universitaria.
Al tener el ADN, añadió Sélem Mojica, se sabe qué especies o géneros de microorganismos están en la muestra. Con base en ello se construyen tablas de abundancia, o sea, se determina cuánto tenemos de cada microorganismo y qué marcadores de resistencia a antibióticos están presentes o ausentes. Cada muestra metagenómica puede contener cientos o miles de microorganismos diferentes. Una vez que las secuencias genéticas están plasmadas en números, “podemos aplicar técnicas estándar de ecología microbiana”.
Una situación similar sería ver que en un lugar hay leones y jirafas, y en otro ballenas, con lo cual se puede establecer que los primeros provienen de una sabana africana, y las segundas del océano. En este caso “conocemos los perfiles taxonómicos, qué microorganismos y en qué proporción están presentes, y así como los animales macro nos dicen el lugar de dónde vienen, también lo hace la diversidad ecológica microbiana”.
Para lograr el poder de procesamiento computacional necesario, el Instituto de Radioastronomía y Astrofísica de la UNAM facilitó sus servidores para trabajar, de manera conjunta, con las computadoras del CIMAT, CCM, Huawei y el ICML.
Haydeé Contreras opinó que un factor que los llevó al triunfo fue que, además de usar métodos convencionales como Machine Learning, se efectuó análisis topológico de datos y metapangenómico, que resultaron innovadores.
El equipo obtuvo una respuesta: la muestra misteriosa provenía de Nueva York. Aunque la ciudad correcta era Baltimore, los mexicanos identificaron las dificultades de distinguir entre ambas metrópolis e hicieron una propuesta de mejora, es decir, qué hacer para llegar a la predicción real y perfeccionar los algoritmos. Eso llamó la atención y también nos invitaron a publicar nuestros resultados en Frontiers in Microbiology, agregó Vázquez Rosas Landa.
Concluimos que es necesario generar mayor cantidad de información para obtener un resultado más robusto; gracias a eso, se dieron cuenta de que la razón por la que nadie “llegó” a Baltimore fue la pandemia de la COVID-19; la emergencia sanitaria retrasó la secuenciación de metagenomas de las metrópolis y las bases de datos estaban incompletas.
Foto: UNAM