Las proteínas, piezas fundamentales de la vida, tienen una forma tridimensional única y determinarla supone un reto, por lo que la inteligencia artificial (IA) es clave. ESMFold, el sistema desarrollado por Meta, ha logrado ya predecir la estructura de más de 740 millones de estas moléculas.
Este atlas metagenómico de Meta, que se dio a conocer en noviembre de 2022 y que ahora se amplía, incluye estructuras de proteínas de microorganismos, como bacterias y virus, que aún no se han caracterizado, lo que abre la puerta a acelerar nuevos descubrimientos en campos como la medicina, la química verde o energías renovables.
La inteligencia artificial desarrollada por Meta para este fin se llama ESMFold y está basada en modelos de lenguaje. Normalmente, estos se utilizan para predecir textos a partir de un conjunto de palabras pero, en este caso, sirven para autocompletar secuencias de proteínas y revelar la estructura 3D de millones de estas, incluso de muchas desconocidas.
Meta dio a conocer los primeros datos de este atlas con la predicción de estructuras de más de 617 millones de proteínas en noviembre del pasado año y lo publicó en la plataforma bioRxiv, pero aún estaba pendiente de la revisión por pares -el escrutinio de otros científicos y su publicación en una revista-.
"Predicciones de alta confianza"
Este juéves (16.03.2023) publicó esos datos en un artículo en Science, que describe que del total de proteínas incluidas, 225 millones se consideran "predicciones de alta confianza". En la actualidad, el atlas se ha ampliado hasta más de 740 millones de proteínas, según han señalado a EFE fuentes de Meta. Estas predicciones adicionales fueron completadas por ESMFold en solo seis días.
Del mismo modo que los grandes modelos lingüísticos pueden aprender patrones en las lenguas sin supervisión explícita, los autores del estudio demuestran que también pueden aprender patrones evolutivos subyacentes a las secuencias de las proteínas, resume la revista. Según los autores, ESMFold puede realizar predicciones precisas de la estructura de las proteínas 60 veces más rápido que otros enfoques.
Las proteínas, moléculas complejas y dinámicas, codificadas por nuestros genes, son responsables de muchos de los variados y fundamentales procesos de la vida. Son cadenas de cientos de aminoácidos y la secuencia de estos determina la estructura tridimensional única de cada una de ellas.
Útiles para la medicina
Es esta estructura la que las lleva a encajar unas en otras y la que define lo que hacen y cómo lo hacen. Conocerla supone, en definitiva, entender el funcionamiento de la célula y del organismo humano.
Determinar experimentalmente las estructuras tridimensionales de cientos de millones de proteínas está muy lejos del alcance de técnicas de laboratorio que requieren mucho tiempo, como la cristalografía de rayos X. Los enfoques computacionales pueden dar una visión de las proteínas que no es posible con las técnicas experimentales.
El "Atlas Metagenómico ESM" -con datos en abierto- permitirá a los científicos buscar y analizar las estructuras de las proteínas a escala de cientos de millones de proteínas, lo que puede ayudar a identificar estructuras que no se han caracterizado antes y descubrir nuevas proteínas que pueden ser útiles en medicina y otras aplicaciones, resumió en 2022 Meta.