Biotecnologíaciencia_tecnologiaTecnología

Adivinando a las proteínas: Inteligencia natural y artificial

Desde hace más de medio siglo el Laboratorio Nacional de Brookhaven, en los EE.UU., y la Universidad de Cambridge, en el Reino Unido, se asociaron para crear un almacén de información acerca de la constitución de proteínas que se iban obteniendo a partir de mediciones experimentales. Inicialmente eran una pocas, pues una sola determinación era muy costosa en tiempo y recursos. Se trata del famoso “Protein Data Bank” o simplemente PDB. Hoy tienen diversos datos estructurales de cerca de 200 000 proteínas.

Paralelamente algunos científicos también se dedicaron a crear modelos teóricos de las estructuras de las proteínas. Si se sabe cómo están dispuestos los núcleos en los veinte aminoácidos y también la forma como ellos se asocian para producir las diversas proteínas es teóricamente posible saber cómo será la estructura terciaria de cualquier asociación de aminoácidos, usando la mecánica cuántica y algunas simplificaciones de esta.

Por las dos vías, y, sobre todo, asociando ambos procedimientos teóricos y experimentales, se han logrado éxitos grandiosos para el conocimiento humano que nos han permitido simular procesos en estos escenarios nanoscópicos y así entenderlos. Son muchos los resultados de este tipo que permiten que hoy podamos, por ejemplo, saber cómo es el antígeno que nos permitió hacer las vacunas contra el COVID-19.

Estamos tratando con información. El PDB tiene la de procedencia experimental, aunque los métodos teóricos intervienen determinantemente en los datos finales. No tiene que contar ni con una sola muestra física de alguna proteína porque lo que ellos colectan son datos. Los modelos teóricos son también información, pero producida por presupuestos conceptuales a partir de cálculos. Todo está construido a partir de como esos veinte aminoácidos pueden encadenarse como eslabones, e interactuar entre las diversas cadenas para dar las conformaciones que permiten que las proteínas desempeñen sus papeles respectivos en este maravilloso escenario.

El gigante informático Google acaba de dar a conocer que su sistema de inteligencia artificial tiene ya almacenadas las estructuras de 200 000 proteínas “obtenidas” con inteligencia artificial. Esto suena muy bien, pero requiere precisiones.

La corporación Alphabet, propietaria de la marca Google y de una empresa con ese nombre, dedica cuantiosos recursos a la investigación científica y la innovación. Si no hubiera sido así, no existirían o hubieran desaparecido hace tiempo del universo corporativo de este siglo. Muchos de esos recursos y resultados obtenidos y por obtener no tienen un propósito comercial inmediato y se ofrecen como licencias de código abierto y gratuito, lo que forma parte también de su estrategia comercial, aunque no lo parezca.

Dentro de las iniciativas de investigación está una de inteligencia artificial basada en el llamado “aprendizaje automático”. En esencia se trata de algoritmos que permiten que sistemas de cómputo electrónico busquen regularidades en cantidades muy grandes de datos, las “filtren” de acuerdo con criterios que va ajustando el ser humano que los diseña, y lleguen a obtener respuestas y predicciones sobre la base de esas regularidades.

La lógica es tan simple como la que usamos para acomodar las piezas de un rompecabezas. Nuestra mente tiene “aprendidas” las regularidades de cómo encajan las diversas formas de las piezas a partir de haber hecho otros antes o de la simple observación. También tenemos “aprendida” la lógica de la continuidad de las figuras que puedan conducir a una imagen final coherente del rompecabezas. Todos esos aprendizajes de las formas y las imágenes los acumulamos a través de nuestra vida, probando y errando o triunfando. Las máquinas también pueden aprenderlo, pero a velocidades mucho mayores que nosotros y por eso lo hacen con fuentes de datos inmensas.

El rompecabezas de cómo se pueden disponer dos, tres, cuatro y hasta cientos de aminoácidos en una proteína se logra a partir de un conjunto de estructuras conocidas que se seleccionan más o menos aleatoriamente en el mismo PDB. A este se le llama “conjunto de entrenamiento” o de aprendizaje porque es el que va a usar la máquina para “aprender” esas regularidades. Una vez que haya aprendido se verifica con otro conjunto diferente también seleccionado de forma aleatoria para ver si la predicción es correcta. A este otro se le llama “conjunto de prueba”.

¿Y cómo es que la computadora “aprende”? Hay varios métodos, algunos mejores que otros en dependencia de lo que se desee aprender. Uno muy popular y con un nombre espectacular es el de las llamadas “redes neuronales”. Su lógica básica es también muy simple. Ciertas fórmulas matemáticas a las que se les llama “neuronas” son evaluadas con un conjunto de datos. El resultado de las evaluaciones se somete a una selección a partir de otra fórmula matemática que las “aprueba” o “desaprueba” según el criterio que el programador le imponga. Los resultados “aprobados” pueden ser ya los deseados y entonces se generan expresiones matemáticas triunfadoras que nos reflejan tal aprendizaje. La máquina ha creado “neuronas” que se saben las reglas y está lista para aplicarlas a otros datos y darnos una predicción con muchas probabilidades de acertar. Las hay así de simples, pero también pueden tener muchos capas o pasos de selección. En estos casos se suele denominar al proceso como “aprendizaje profundo” (deep learning).

De esa forma es que el llamado “Alphafold” de Google ha creado un procedimiento de aprendizaje automático que permite que si usted le suministra una estructura primaria, él le haga propuestas de la o las terciarias que corresponderían. Anuncia ahora que tiene predichas las estructuras, al menos terciarias, de unas 200 000 proteínas a las que se les conoce la primaria1.

Tener estas predicciones significa un avance extraordinario. Tener la forma de hacerlo es mucho más. Y el camino que abre es aún más excelso. No es absurdo pensar que se trata de un primer paso para “diseñar” seres vivos, en toda su complejidad.

La nota triste es que estos sitios de la red de redes donde se pueden tener resultados tan alentadores, de forma libre de costo por un servicio tan apegado a la ciencia, no se puedan acceder desde un nodo de computadoras registrado en Cuba. ¿Quién sabrá cuál de las inmorales medidas del bloqueo a Cuba es la que se está aplicando para violar uno de los más elementales y humanos principios de la ciencia, que es la libertad de la diseminación del conocimiento? Es una verdadera vergüenza para cualquier científico que tenga que aplicar estas restricciones. Siempre tenemos que confiar en que la razón y la buena voluntad prevalecerán y que este tipo de medidas, y muchas otras, tienen sus días contados.

(Tomado de Cubadebate)