Microsoft abre el código fuente de EvoDiff, una novedosa IA generadora de proteínas


Las proteínas, las moléculas naturales que llevan a cabo funciones celulares clave dentro del cuerpo, son los componentes básicos de todas las enfermedades. La caracterización de proteínas puede revelar los mecanismos de una enfermedad, incluidas formas de frenarla o potencialmente revertirla, al tiempo que creando Las proteínas pueden conducir a clases completamente nuevas de fármacos y terapias.

Pero el proceso actual para diseñar proteínas en el laboratorio es costoso, tanto desde el punto de vista computacional como de recursos humanos. Implica idear una estructura proteica que pueda plausiblemente realizar una tarea específica dentro del cuerpo y luego encontrar una secuencia de proteínas (la secuencia de aminoácidos que componen una proteína) que probablemente se «pliegue» en esa estructura. (Las proteínas deben plegarse correctamente en formas tridimensionales para llevar a cabo su función prevista).

No necesariamente tiene que ser así de complicado.

Esta semana, Microsoft presentó un marco de propósito general, EvoDiff, que según la compañía puede generar proteínas “diversas” de “alta fidelidad” dada una secuencia de proteínas. A diferencia de otros marcos generadores de proteínas, EvoDiff no requiere ninguna información estructural sobre la proteína objetivo, lo que elimina lo que suele ser el paso más laborioso.

Disponible en código abierto, EvoDiff podría usarse para crear enzimas para nuevas terapias y métodos de administración de fármacos, así como nuevas enzimas para reacciones químicas industriales, afirma Kevin Yang, investigador principal de Microsoft.

«Prevemos que EvoDiff ampliará las capacidades en ingeniería de proteínas más allá del paradigma estructura-función hacia un diseño programable que priorice la secuencia», dijo Yang, uno de los cocreadores de EvoDiff, a TechCrunch en una entrevista por correo electrónico. «Con EvoDiff, estamos demostrando que es posible que en realidad no necesitemos estructura, sino que ‘la secuencia de proteínas es todo lo que necesitamos’ para diseñar nuevas proteínas de forma controlable».

El núcleo del marco EvoDiff es un modelo de 640 millones de parámetros entrenado con datos de todas las diferentes especies y clases funcionales de proteínas. (“Los parámetros” son las partes de un modelo de IA aprendidas a partir de datos de entrenamiento y esencialmente definen la habilidad del modelo en un problema, en este caso generar proteínas). Los datos para entrenar el modelo se obtuvieron del conjunto de datos OpenFold para alineaciones de secuencias. y UniRef50, un subconjunto de datos de UniProt, la base de datos de secuencias de proteínas e información funcional mantenida por el consorcio UniProt.

EvoDiff es un modelo de difusión, similar en arquitectura a muchos modelos modernos de generación de imágenes, como Stable Diffusion y DALL-E 2. EvoDiff aprende cómo restar gradualmente el ruido de una proteína inicial compuesta casi exclusivamente de ruido, acercándola, lentamente, paso a paso, a una secuencia de proteínas.

El proceso por el cual EvoDiff genera proteínas. Créditos de imagen: Microsoft EvoDiff

Los modelos de difusión se han aplicado cada vez más a dominios fuera de la generación de imágenes, desde la creación de diseños para proteínas novedosas, como EvoDiff, hasta la creación de música e incluso la síntesis de voz.

“Si hay algo que sacar [from EvoDiff]»Creo que sería esta idea que podemos (y deberíamos) generar proteínas en lugar de secuenciar debido a la generalidad, escala y modularidad que podemos lograr», dijo Ava Amini, investigadora principal de Microsoft y otra co-contribuyente de EvoDiff. , dijo vía correo electrónico. «Nuestro marco de difusión nos brinda la capacidad de hacer eso y también de controlar cómo diseñamos estas proteínas para cumplir objetivos funcionales específicos».

Según lo que señala Amini, EvoDiff no sólo puede crear nuevas proteínas sino también llenar los “huecos” en un diseño de proteína existente, por así decirlo. Siempre que una parte de una proteína se una a otra proteína, el modelo puede generar una secuencia de aminoácidos de proteína alrededor de esa parte que cumpla con un conjunto de criterios, por ejemplo.

Debido a que EvoDiff diseña proteínas en el «espacio de secuencia» en lugar de en la estructura de las proteínas, también puede sintetizar «proteínas desordenadas» que no terminan plegándose en una estructura tridimensional final. Al igual que las proteínas que funcionan normalmente, las proteínas desordenadas desempeñan funciones importantes en la biología y las enfermedades, como mejorar o disminuir la actividad de otras proteínas.

Ahora bien, cabe señalar que la investigación detrás de EvoDiff no ha sido revisada por pares, al menos no todavía. Sarah Alamdari, científica de datos de Microsoft que contribuyó al proyecto, admite que queda «mucho más trabajo de ampliación» por hacer antes de que el marco pueda utilizarse comercialmente.

«Este es sólo un modelo de 640 millones de parámetros, y es posible que veamos una mejor calidad de generación si ampliamos la escala a miles de millones de parámetros», dijo Alamdari por correo electrónico. «Si bien demostramos algunas estrategias generales, para lograr un control aún más detallado, quisiéramos condicionar EvoDiff al texto, información química u otras formas de especificar la función deseada».

Como siguiente paso, el equipo de EvoDiff planea probar las proteínas que generó el modelo en el laboratorio para determinar si son viables. Si resulta ser así, comenzarán a trabajar en la próxima generación del marco.



Source link-48