La ‘hemeroteca’ de las proteínas humanas

La base de datos más extensa sobre la materia podría cambiar el rumbo de las investigaciones sanitarias y la búsqueda de tratamientos

valentina Raffio

Para entender cómo funciona el mundo, a veces, hay que empezar por lo más básico. Por las piezas sobre las que se construye todo lo demás. Muchos de los grandes descubrimientos científicos, de hecho, empiezan interpelando a las protagonistas ocultas sobre las que se construyen todas las formas de vida: las proteínas.

Entender cómo funcionan, cómo interactúan con el entorno o cómo se pliegan resulta clave tanto para descifrar enigmas de la biología como para plantear soluciones efectivas ante problemas estructurales. Todo este complejo camino se simplifica, en parte, con la publicación de la base de datos más completa hasta la fecha sobre predicciones de estructuras 3D de proteínas humanas.

DeepMind, el sistema de inteligencia artificial desarrollado por Google, y el Laboratorio Europeo de Biología Molecular (EMBL) anunciaron el pasado miércoles la creación de esta iniciativa que proporcionará de manera gratuita y abierta los datos sobre 20.000 proteínas expresadas en el genoma humano.

En la práctica, esta iniciativa se convertirá en una hemeroteca para entender el 98,5% de todas las proteínas humanas. Este “tesoro de datos”, a su vez, también proporcionará información muy valiosa para comprender los procesos biológicos, para entender la base de enfermedades raras y para guiar el desarrollo de tratamientos y fármacos.

La estrella de este anuncio es ni más ni menos que un algoritmo de inteligencia artificial de última generación: AlphaFold. La herramienta fue diseñada como un algoritmo de aprendizaje automático (o deep-learning) que, lejos de quedarse exclusivamente con las instrucciones de los programadores, aprende y mejora sobre la marcha.

En diciembre del año pasado, DeepMind anunció que su algoritmo había logrado predecir de manera rápida y precisa la forma tridimensional de las proteínas humanas. Hoy, esta información se transforma en una herramienta accesible para toda la comunidad.

“Este será uno de los conjuntos de datos más importantes desde el mapa del Genoma Humano”, argumenta el director general de EMBL, Ewan Birney. “Hacer que las predicciones de AlphaFold sean accesibles a la comunidad científica internacional abre muchas nuevas vías de investigación, desde enfermedades desatendidas hasta nuevas enzimas para la biotecnología”, valora Birney.

Hasta ahora, décadas de investigación solo habían logrado desentrañar el 17% de los aminoácidos del proteoma humano. El algoritmo de AlphaFold ha logrado avanzar hasta predecir el 58% de estas estructuras. En algunos casos, la inteligencia artificial proporcionará un pronóstico certero sobre estas proteínas para que, posteriormente, los científicos puedan certificar su estructura a través de experimentos. Pero en al menos el 35% de los casos, todo apunta a que las predicciones darán “un grado de confianza muy alto”. Prácticamente una certeza.

La hemeroteca de AlphaFold albergará datos sobre 20 organismos utilizados como modelo de estudio como, por ejemplo, el E. coli, la mosca de la fruta, el ratón, el pez cebra y el parásito de la malaria. Solo el tiempo dirá qué avances generará este recurso. Las posibilidades, al menos sobre el papel, son inabarcables.