Artificial Intelligence Bioinformatics Data Analysis

Búsqueda de fármacos antivirales mediante machine learning

26/10/2021

Foto: Furiosa-L en Pixabay.

En este entrada del blog aprovechamos para entrevistar a Manuel Guillermo Moreno Pérez, recién titulado del Máster Universitario en Bioinformática y Bioestadística ofrecido por la Universitat Oberta de Catalunya (UOC) y la Universitat de Barcelona (UB). Manuel presentó su Trabajo de Fin de Máster sobre la búsqueda de fármacos antivirales contra el virus SARS-CoV-2 mediante métodos de Machine Learning en el 17th simposio SCS 2021 organizado por la International Society for Computational Biology, trabajo que fue reconocido con el Best Poster Presentation Award.

Uso de técnicas computacionales para el diseño de fármacos

¿Qué te motivó a realizar el Máster Universitario en Bioinformática y Bioestadística UOC-UB?

Desde mis inicios en ingeniería biotecnológica y mis estudios de doctorado, he visto el avance de la tecnología en las herramientas que usamos en diferentes campos de investigación como la epidemiología, la interacción huésped patógeno, la evolución, el estudio de los genes de resistencia a enfermedades, etc. Estos avances nos permiten tener mayor entendimiento de estos fenómenos con una mayor cantidad de datos, lo que requiere también de una mayor capacidad de análisis y nuevas estrategias de interpretación.

Un ejemplo claro es el incremento en la capacidad de lectura tanto de tamaño como de número de secuencias de ADN de los equipos de secuenciación masiva en los últimos 10 años. Cuando terminé mi ingeniería y trabajé en el Instituto Colombiano Agropecuario (ICA) y en el Centro Internacional de Agricultura Tropical (CIAT), secuenciamos y analizamos fragmentos 400 pares de bases de nucleótidos (pb), en mi doctorado la capacidad fue de aproximadamente 1 – 2 kb de nucleótidos y en mi última estancia postdoctoral ya estábamos amplificando y enviando a secuenciar 12Kb por Real-Time (SMRT) Sequencing en el CSIC (El Consejo Superior de Investigaciones Científicas, CEBAS, Murcia, España). En algunos casos estas secuencias las usamos para análisis filogenéticos, estudiar la estructura de la población, etc, y en otros casos para modelizar proteínas y estudiar los genes de resistencia y su interacción con los genes del patógeno, etc.

Así como cada vez es mayor la cantidad de datos también es la diversidad de las variables cuantitativas y cualitativas. Actualmente analizar esta cantidad de datos requiere de un conocimiento en bioestadística y programación. He venido realizando cursos y también siendo autodidacta para adquirir estas habilidades. Sin embargo cuando conocí el máster de Bioinformática y Bioestadística de la UOC-UB lo tomé porque vi que las asignaturas y la experiencia de los profesores me podrían ayudar a adquirir estos conocimientos, así como la flexibilidad de la UOC me permite compaginar mi trabajo con los estudios.

¿Cómo decidiste en qué área específica realizar tu Trabajo de Fin de Máster?

Cuando inicie el máster escogí las asignaturas que complementaban mi interés y área de estudio en su momento. Sin embargo me interesé por la inteligencia artificial y el machine learning porque observé que tiene gran potencial, que se puede implementar desde el análisis de secuencias, el modelado de proteínas, hasta la toma de decisiones y que se puede adaptar a la resolución de cualquier problema que necesita la interpretación de datos a gran escala, que requiera ya sea clasificar o predecir y cuyas variables puedan ser difíciles de interpretar.

Escogí el área de diseño y desarrollo de fármacos porque complementaba mi conocimiento en interacción huésped – patógeno con la búsqueda de moléculas que puedan impedir esta interacción ya sea bloqueando los sitios de unión o bloqueando la proteína que esté funcionando mal y de esta forma prevenir la patología.

Uniendo estos dos intereses con la necesidad de aportar conocimiento desde la academia a la lucha contra la pandemia del CoVID-19 me interesé por la búsqueda de fármacos antivirales contra el virus SARS-CoV-2 mediante métodos de Machine Learning, título que lleva mi trabajo del Máster.

Realizaste tu Trabajo de Fin de Máster (TFM) mediante un convenio con el Institute Jean-Pierre Bourgin INRAE, ¿podrías explicarnos cómo se produjo ese contacto?

Cuando inicié el TFM venía colaborando con Dennys Marcela Gómez-Páez actual Postdoctoral del INRAE (l’Institut national de recherche pour l’agriculture, l’alimentation et l’environnement, Francia) que antes había estado en el CBGP (Centro de Biotecnología y Genómica de Plantas) donde realizamos el doctorado, ella también está interesada en la implementación de Machine Learning, el análisis masivo de secuencias genéticas y cuenta con una buena capacidad de cómputo debido a su trabajo con imágenes de microscopía alta resolución, esto permite compartir recursos y tener diferentes puntos de vista. También gracias a este contacto presenté mi TFM en el 17th simposio SCS 2021 organizado por la International Society for Computational Biology.

Presentaste tu TFM en el 17th simposio SCS 2021 organizado por la International Society for Computational Biology y éste obtuvo por votación de los asistentes y organizadores el Best Poster Presentation Award. ¡Muchas felicidades por este reconocimiento! ¿Podrías explicarnos cómo fue la experiencia? ¿Tuviste la oportunidad de asistir presencialmente o se desarrolló virtualmente?

Gracias, algo que me pareció muy novedoso de la participación es que además del póster en alta resolución y el resumen del trabajo también nos solicitaron grabarnos haciendo una explicación en 5 minutos del trabajo, esto me permitió dar a conocer mi trabajo de una forma más directa y conocer científicos de áreas muy afines, esto es satisfactorio y permite ampliar la red de contactos.

El evento fue virtual y en simultáneo en diferentes países, con grandes invitados y muy bien organizado. Habían mesas virtuales donde se podía entrar libremente a hablar sobre un tema, así como en la sesión de póster teníamos una mesa asignada donde se unían hasta cuatro personas a discutir sobre el tema del póster en video-chat, pude entrevistarme con diferentes participantes y responder preguntas así como recibir sugerencias y conocer posibles contactos para colaboraciones futuras, algo muy gratificante.

Entrando más al detalle del contenido de tu TFM, ¿podrías hacernos una breve explicación sobre el trabajo desarrollado?

El TFM fue la búsqueda de fármacos antivirales contra el virus SARS-CoV-2 mediante métodos de Machine Learning.

Con este fin lo primero que hice fue investigar qué región del virus tiene mayor potencial para ser usada como diana de un fármaco antiviral, escogí la proteasa 3CL-PRO y como posibles fármacos analise diferentes estudio in vitro donde probaron el efecto inhibidor pequeñas moléculas contra SARS-CoV-2. Estas moléculas se clasificaron según su actividad IC50 y calculé sus descriptores moleculares con dos aproximación JAVA y R. Con estos datos se entrenaron algoritmos de Machine Learning y se modificaron sus parámetros hasta conseguir los más óptimos en la clasificación según su precisión (accuracy), especificidad y sensibilidad.

¿Qué técnicas de Machine Learning has usado en el contexto de tu trabajo?

Se implementaron diferentes técnicas de filtrado y preparación de datos debido a que el proceso de generación de descriptores a partir de la estructura de las moléculas pequeñas dio una gran cantidad de variables que tienen alta correlación. Por otro lado los algoritmos que se implementaron fueron Random forest, Árbol de decisión y Clasificación Naive Bayes.

¿Te planteaste en algún momento el uso de Redes Neuronales?

Sí, desde el principio nos planteamos el uso de Redes Neuronales y otros algoritmos que no incluimos, pero primero quise implementar los algoritmos que por su antecedente bibliográfico tenían mejores resultados según este tipo de variables y ya con los resultados obtenidos que fueron satisfactorios podríamos probar estos otros algoritmos incluidos las redes neuronales y comparar los resultados.

El COVID-19 es una pandemia que está afectando a millones de personas a nivel mundial. ¿Qué ha supuesto para ti trabajar con este tipo de datos?

En mi trabajo y estudios anteriores a este he venido trabajando con diferentes modelos virus huésped, estudiando su dinámica epidemiológica, la interacción y evolución, aspectos muy descriptivos. Sin embargo trabajar con un virus que es una pandemia da un grado de compromiso mayor así como entusiasmo.

Me ha parecido muy interesante trabajar con este nuevo virus y enfoque ya que es un trabajo muy dinámico debido a que cada semana están saliendo nuevos resultados de variantes y trabajos enfocados en la búsqueda de fármacos antivirales. También da satisfacción pensar que estos trabajos pueden aportar soluciones no solo para esta pandemia actual sino también para futuras.

¿Qué conclusiones sacarías del trabajo realizado?

La primera conclusión es que hay que revisar muy bien la literatura antes de iniciar este tipo de trabajos para ir por el camino que dé mejores resultados, al inicio del trabajo invertí mucho tiempo estudiando los trabajos previos relacionados tanto con Machine Learning como los que en in vitro analizaron diferentes moléculas. Esto me permitió tener un conocimiento más amplio de las metodologías que mejor se adaptan a los datos así como el tratamiento previo de estos datos.

La segunda es que hay que apropiarse de los avances científicos y llevarlos a la práctica, vi que eran las iniciativas empresariales y unos pocos países los que se enfocan desde un principio en esta aproximación de búsqueda de fármacos antivirales.

La tercera fue que existen factores limitantes en el entrenamiento de los algoritmos pero la principal fue la calidad de los datos más que la cantidad de ellos. Algunos algoritmos con pocas modificaciones ya arrojaron resultados optimistas mientras que otros solo mejoraron con el cambio en la calidad de los datos, eliminando algunas variables poco informativas.

¿Qué asignaturas del máster te han sido más útiles para la realización del TFM?

Indiscutiblemente la asignatura de Machine Learning, pero también fue necesario los conocimientos de R en la asignatura software para análisis estadístico, los conocimientos en Python en la asignatura programación para la bioinformáticas, los conceptos matemáticos y estadísticos de las asignaturas Inferencia estadística y análisis multivariante entre otras.

Por último, ¿nos podrías contar qué planes te depara el futuro?

Me gustaría ampliar la investigación de mi TFM y publicar los resultados en una revista de divulgación científica, para darle más difusión a este trabajo. Actualmente me encuentro en Francia donde espero seguir profundizando en el uso del machine learning no sólo para la búsqueda de fármacos sino también en su aplicación a otros problemas de investigación que he venido estudiando y me siguen interesando como es el campo de la epidemiológica, la filogenética y el diseño y modelación de proteínas.

Artículo relacionado: