Premio Nobel de Química: Demis Hassabis y John Jumper por AlphaFold de Google DeepMind, y David Baker por RoseTTA

Por Francisco R. Villatoro, el 9 octubre, 2024. Categoría(s): Bioquímica • Ciencia • Historia • Noticias • Personajes • Science ✎ 17

Se confirma lo que parecía imposible, dos premios Nobel a la inteligencia artificial. Y también que he acertado mi predicción para el de Química; como ya comenté, me parecía imposible que, a pesar de que la inteligencia artificial es el campo más revolucionario en la actualidad, copara dos Nobel, así que me decanté por el más claro. El británico Demis Hassabis (48 años) y el estadounidense John M. Jumper (39 años), ambos de Google DeepMind, Londres, Reino Unido, reciben el galardón por la inteligencia artificial AlphaFold2 para la predicción de la estructura de proteínas, y el estadounidense David Baker (62 años), Universidad de Washington, Seattle, Estados Unidos, lo recibe por la inteligencia artificial RoseTTAFold y su anterior versión, RoseTTA, que permitió el diseño computacional de una proteína. El plegamiento de proteínas es el primer gran problema que se ha sido resuelto de forma definitiva por las inteligencias artificiales.

Parecía imposible allá por el año 2020 cuando AlphaFold2 arrasó en el concurso CASP14 (LCMF, 03 dic 2020; LCMF, 26 jul 2021; LCMF, 30 jul 2021). Pero dos años más tarde, en 2022, el problema estaba resuelto y la alfombra roja estaba puesta para que Hassabis y Jumper recibieran el Nobel. La idea de AlphaFold fue de Hassabis, pero fue Jumper quien marcó la diferencia para llegar al revolucionario AlphaFold2. En paralelo Baker transformó su RoseTTA original en la inteligencia artificial RoseTTAFold, que completó la revolución ofreciendo funcionalidades que solo ha ofrecido AlphaFold3 en 2024. Pero para premiar a Baker con la mitad del galardón, la Academia Sueca ha decidido destacar el primer éxito de su primitivo software RoseTTA en 2003, el diseño de novo de la proteína Top7 con 93 residuos α/β, que fue predicha y validad mediante cristalografía (el hito previo de Dahiyat y Mayo en 1997, con el diseño computacional de 6 de los 28 residuos de una proteína ha quedado eclipsado por RoseTTAFold). La revolución en el campo del plegamiento y función de las proteínas en los últimos dos años, no solo con AlphaFold y RoseTTAFold, sino con muchas otras inteligencias artificiales, es el espejo en el que tenemos que ver el futuro de la inteligencia artificial en la ciencia, un antes y un después.

La inteligencia artificial es sinónimo de análisis estadístico avanzado de datos. Todas las ciencias experimentales, observacionales y computacionales requieren el análisis estadístico avanzado de datos. Todas ellas estarán dominadas por la inteligencia artificial en pocos años. Todas las carreras científicas en todas las universidades del mundo acabarán teniendo una asignatura de inteligencia artificial. Tiempo al tiempo. El anuncio oficial del Nobel en YouTubeNota de Prensa [pdf], Popular Information [PDF], y Scientifc Background [PDF]. Recomiendo leer a Antonio Martínez Ron, «Premio Nobel de Química de 2024 para los científicos que diseñan y predicen la estructura de las proteínas», Diario.es, 09 oct 2024; Francisco Doménech, «Nobel de Química 2024 a David Baker, Demis Hassabis y John Jumper por revelar los secretos de las proteínas con IA y computación», Materia, El País, 09 oct 2024; «Baker, Hassabis y Jumper, Nobel de Química por descifrar la estructura de las proteínas», AgenciaSINC, 09 oct 2024; En inglés puedes disfrutar de Ewen Callaway, «Chemistry Nobel goes to developers of AlphaFold AI that predicts protein structures,» News, Nature, 09 oct 2024; Cathleen O’Grady, Hannah Richter, «Protein designer and structure solvers win chemistry Nobel,» News, Science, 09 oct 2024.

Los artículos premiados según la información Nobel son: [1] Kim T. Simons, Rich Bonneau, …, David Baker, «Ab initio protein structure prediction of CASP III targets using ROSETTA,» Proteins 37: 171-176 (1999), doi: https://doi.org/c4ttz7; [2]Brian Kuhlman, Gautam Dantas, …, David Baker, «Design of a Novel Globular Protein Fold with Atomic-Level Accuracy,» Science 302: 1364-1368 (2003), doi: https://doi.org/10.1126/science.1089427; [3] L. Jiang, E. A. Althoff, …, D. Baker, «De novo computational design of retro-aldol enzymes,» Science 319: 1387-1391 (2008), doi: https://doi.org/10.1126/science.1152692; [4] D. Röthlisberger, O. Khersonsky, …, D. Baker, «Kemp elimination catalysts by computational enzyme design,» Nature 453: 190-195 (2008), doi: https://doi.org/10.1038/nature06879; [5] Po-Ssu Huang, Scott E. Boyken, David Baker, «The coming of age of de novo protein design,» Nature 537: 320-327 (2016), doi: https://doi.org/10.1038/nature19946; [6] A. W. Senior, …, J. Jumper, …, D. Hassabis, «Improved protein structure prediction using potential from deep learning,» Nature 577: 706-710 (2020), doi: https://doi.org/10.1038/s41586-019-1923-7; [7] J. Jumper, R. Evans, …, D. Hassabis, «Highly accurate protein structure prediction with AlphaFold,» Nature 596: 583-589 (2021), doi: https://doi.org/10.1038/s41586-021-03819-2; [8] M. Baek, F. DiMaio, …, D. Baker, «Accurate prediction of protein structures and interactions using a three-track neural network,» Science 373: 871-876 (2021), doi: https://doi.org/10.1126/science.ade2574; [9] K. Tunyasuvunakool, … J. Jumper, D. Hassabis, «Highly accurate protein structure prediction for the human proteome,» Nature 596: 590-596 (2021), doi: https://doi.org/10.1038/s41586-021-03828-1; y [10] Mihaly Varadi, …, John Jumper, …, Demis Hassabis, Sameer Velankar, «AlphaFold Protein Structure Database: massively expanding the structural coverage of protein-sequence space with high-accuracy models,» Nucleic Acids Research 50: D439-D444 (2022), doi: https://doi.org/10.1093/nar/gkab1061.

Como el premio se ha concedido a la revolución de AlphaFold2, la información Nobel se inicia hablando de Hassabis y Jumper. Las primeras estructuras tridimensionales de proteínas se obtuvieron por cristalografía de rayos X en 1958 y 1960. En aquella época la máxima era que la estructura (de una proteína) determina la función (biológica de dicha proteína). Una proteína es un polímero formado por aminoácidos (residuos), su estructura primaria, que forman motivos de tipo hélice alfa (amarillo) y láminas beta (azul), su estructura secundaria, cuya conformación tridimensional define su estructura terciaria y que se agrupan en complejos proteicos, su estructura cuaternaria. Christian Anfinsen recibió el Nobel de Química en 1972 por demostrar que la estructura primaria determina una única estructura terciaria (desnaturalizó proteínas que recuperaron su conformación tridimensional original de forma espontánea). En aquella época resolver el problema del plegamiento de proteínas parecía un problema del siglo XXI. Y ha sido en este siglo, tras 60 años de investigación y muchos palos de ciego, cuando se ha logrado resolver (aunque no de forma definitiva, pues quedan muchos flecos que darán para unas décadas de investigación).

Margaret O. Dayhoff (1925–1983), quimicofísica pionera de la bioinformática, fue la gran responsable de la creación del Atlas of Protein Sequence and Structure en 1965 (con solo 65 proteínas). Su Atlas fue el germen de las bases de datos biológicas bioinformáticas actuales, como el Protein Data Bank (PDB), que nació en los 1970 (Berstein et al. JMB (1977), https://doi.org/10.1016/S0022-2836(77)80200-3). Hoy en día el PDB contiene unas 220 000 estructuras de proteínas. Por cierto, el galardón más famoso en Biofísica es el Permio Margaret O. Dayhoff, que se instituyó en 1984 tras su temprano fallecimiento a los 57 años. La inteligencia artificial nunca hubiera sido posible sin estas bases de datos; de hecho, AlphaFold2 fue entrenada con todas las estructuras de proteínas publicadas en el PDB, en su momento unas 170 000 estructuras de proteínas.

La hipótesis de los expertos (la mayoría físicos y quimicofísicos) era que la predicción de la estructura de las proteínas requería entender las leyes físicas y químicas del plegamiento. Por desgracia, el problema resultó ser mucho más difícil de lo esperado a partir de los primeros resultados (Regan y DeGrado, Science (1988), https://doi.org/10.1126/science.3043666). A pesar de ello, algunos pioneros se atrevieron incluso a diseñar proteínas (en realidad, pequeñas regiones de la proteína, de hecho, las más relevantes para su función biológica, su sitio activo), como Dahiyat y Mayo, Science (1997), https://doi.org/10.1126/science.278.5335.82.

El diseño de novo de proteínas completas (aunque pequeñas en número de residuos) no se logró hasta la revolución computacional liderada por David Baker. Su software RoseTTA (1999) [1] le permitió publicar en 2003 en Science [2] el diseño de una proteína globular con 93 residuos llamada Top17; todo hito ya que esta proteína tenía dos hélices alfa y una lámina beta, con cinco cadenas beta. Su novedad es que su plegamiento era nuevo, no se conocía ninguna proteína natural que presentara un plegamiento similar. Además, el diseño fue validado con cristalografía de rayos X hasta la escala atómica. La biología computacional, la bioinformática, estaba dando sus primeros éxitos en la resolución del problema más difícil. Pero RoseTTA no usaba inteligencia artificial; estaba basado en un método de optimización de Montecarlo para minimizar la función de energía asociada a la proteína y sus interacciones de van der Waals con los enlaces de hidrógeno del agua que la rodeaba durante el plegamiento.

El objetivo era diseñar enzimas con actividad catalítica. El grupo de Baker lo logró en 2008, publicando sendos artículos en Science [3] y Nature [4]. El campo parecía viento en popa y en 2016, en Nature [5], Baker se venía arriba prometiendo una nueva era en la biología molecular en la que se podrían diseñar proteínas de novo para aplicaciones biomédicas y biotecnológicas. Todos los aficionados a la biología estructural nos quedamos fascinados con su promesa. Pero algunos la tomamos con cierto escepticismo, pues el problema de base, la resolución del problema del plegamiento de proteínas, seguía aparentando necesitar otros 60 años de avances. Bastaba ver los resultados en los concursos CASP (Critical Assessment of protein Structure Prediction) del grupo de Baker y de todos competidores. Rara vez se alcanzaba más del 30 % de fidelidad entre la predicción y la estructura cristalográfica. Todo parecía estar estancado. El campo pedía un golpe en la mesa, una revolución…

La revolución se inició en CASP12 en 2016, con la llegadas de la inteligencia artificial y el aprendizaje automático mediante redes de neuronas artificiales. La calidad de las predicciones alcanzó el 45 %; parece una pequeña diferencia, pero era un salto de gigante. Demis Hassabis, fundador de la empresa DeepMind, que fue comprada por Google, quería que sus inteligencias artificiales de la familia Alpha (como AlphaGo, AlphaZero, etc.), además de jugar a juegos (Atari, Go, ajedrez, etc.) también resolvieran algún problema relevante a nivel científico. Apostó por el plegamiento de proteínas y el concurso CASP. Lideró el desarrollo de AlphaFold (ahora llamada AlphaFold1) que venció de forma aplastante en CASP13 alcanzando un inaudito 70 %, publicado en Nature [6]. Pero la gran revolución fue el liderazgo de John M. Jumper, pues su conocimiento experto y sus geniales ideas fueron clave para en el rediseño por completo de AlphaFold2 respecto a AlphaFold1. En el año 2020, AlphaFold2 arrasó en CASP14 con una precisión que alcanzó en algunos casos hasta el 90 %, hito publicado en Nature [7]. Baker no se quedó de brazos cruzados y contraatacó con ESMFold, publicado en Science [7]. Para más detalles sobre su funcionamiento te recomiendo mis piezas en este blog, como «El plegamiento de proteínas de AlphaFold 2 vence de forma rotunda en CASP14», LCMF, 03 dic 2020; y mis intervenciones en podcast sobre este tema: LCMF, 26 jul 2021; LCMF, 30 jul 2021; LCMF, 02 ago 2021; y LCMF, 17 nov 2023.

Estas inteligencias artificiales estaban alcanzado una precisión del orden de 1 Å. A ojos de todos los expertos, el problema del plegamiento estaba próximo a su solución gracias a las inteligencias artificiales. Máxime tras la publicación de la base de datos de proteínas predichas por AlphaFold DB (https://alphafold.ebi.ac.uk) [10]. Todos los bioquímicos empezaron a recurrir a las estructuras de proteínas predichas por AlphaFold, no solo los bioquímicos estructurales, todos. Así que desde 2022 se empezó a comentar en todas las conferencias científicas que Baker, Hassabis y Jumper eran candidatos firmes para un Premio Nobel de Química. Y cuando el río suena, … es que llueven nominaciones. Y tienen que haber sido muchas en poco tiempo para que en solo dos años estos genios hayan recibido la más ansiada recompensa, a pesar de su juventud (por cierto, Jumper es doctor desde hace unos 7 años, así que es un pipiolo en investigación). Las revoluciones siempre son premiadas por los Nobel, porque premios como este prestigian más al Nobel de lo que prestigian a los galardonados.



17 Comentarios

  1. Hola, y como sabes que la idea del alphafold fue de Hassabis? Osea entiendo que no es experto en redes neuronales profundas. Mas me parecia como Jobs alguien que lidera mas a nivel ejecutivo un batallon de cientificos con tantisimos recursos. Saludos!.

    1. Marko, en muchas entrevistas a Hassabis, como CEO de la empresa, ha dicho que su intención era aportar algo a la ciencia y que por ello ha atacado desde la empresa diferentes problemas científicos, ente ellos el grupo de trabajo en la predicción de proteínas (que ha sido el más exitoso). Lo ha dicho él y es vox populi, por ello habrá recibido nominaciones al Nobel. Si no te has enterado, quizás sea porque no te ha interesado leer sobre el tema.

      1. Es cierto que lo ha dicho. Aunque mas me suena a un objetivo personal y sin duda el debe ser motor de todo como al menos Steve Jobs. Pero se me hace algo inusual que siendo CEO de una empresa haya sido clave en los avances cientificos de ese modelo. Se supone que el Nobel deberia premiar ello.

        Esa idea me vino cuando en una entrevista el indicó que estaba desfasado en la parte tecnica.

        Por otro lado, por ejemplo, Altman podria recibir el Nobel de literatura si ChatGPT arma una supernovela.

        Igual pienso tiene merecimiento pero no sé si han ocultado a algun científico que realmente hizo el trabajo, solo que la frontera entre empresario y cientifico deberia ser mas clara. Obviamente al ser dueño de empresa multimillonaria es probable que ningun cientifico empleado o que sea cercano pueda decir nada. Aún una persona pública podría ser afectada por apuntar ello. Bueno sorry por ser incómodo, solo que el mayor premio de ciencias deberia ser dado a los que hacen aporte científico riguroso o no crees eso?.

  2. Una maravilla.

    «… se ha logrado resolver (aunque no de forma definitiva, pues quedan muchos flecos que darán para unas décadas de investigación)».

    ¿Podrías mencionar someramente algunos de estos flecos, para buscar información y algún detalle a partir de ahí? Gracias.

    1. Geibros J3, cualquier artículo de revisión sobre el tema te mostrará la gran cantidad de problemas abiertos, desde la predicción de las partes móviles de las proteínas, a los acoplamientos proteína-metabolito, a la dinámica de los complejos proteicos, o incluso a la identificación de sitios activos. Prácticamente todo está aún por resolver en el área; solo se ha resuelto el primer problema difícil, pero el campo tiene decenas de problemas difíciles que se están empezando a atacar ahora, porque ahora es cuando se pueden atacar. Busca en Google Scholar, hay muchos artículos de revisión sobre el tema que te contarán el estado del arte y lo que queda por desvelar.

  3. Me parece alucinante que tengamos acceso gratuito a un artículo de la calidad del que nos ha regalado Francis. Muchísimas gracias, Francis. He disfrutado y aprendido muchísimo leyéndolo. Tenía ciertas nociones sobre el asunto, pero este artículo me ha hecho apreciar el premio otorgado muchísimo más precisamente. Menuda época nos ha tocado vivir.

    1. Claro. Pero si dice a 30 ingenieros que hagan tal cosa.. es probable que lo hagan si se puede hacer con IA. No se niega que fue un prodigio y genio, pero otra cosa es que el haya contribuido con ideas clave creo ya qye hay muchos talentos. Con tanto dinero podrian contratar a los top 30 del mundo. Ahora si podria ser que realmente intervino a lo Oppenheimer, o mas que el.. pero es a la vez CEO de una empresa. Eso no me cuadra mucho.

      1. ¿Como sabe usted que el no sabe y no ha colaborado con su equipo de trabajo para el descubrimiento sobre las proteínas por la que se le dió el premio Nobel? Usted supone que por ser CEO de la empresa no tiene conocimientos ni ideas para hacer el descubrimiento por el que se lo ha premiado.
        Son sus propios prejuicios lo que le hacen pensar eso: precisamente por estar en la posición de CEO y entender de ciencia probablemente conoce muy bien como y donde invertir el dinero para conseguir resultados. No es solo «dar ideas»(puede haber muchas) sino también ser capaz de elegir las correctas y utilizar el dinero de forma óptima en ellas. Ese probablemente sea el mayor trabajo de Hassabi, y si no se hace bien no se consiguen resultados(y además su empresa comienza a tambalearse).

        1. El error de tu razonamiento seria que debo demostrar que no ha colaborado. Cuando deberia ser al reves. Si tu afirmas que ha colaborado deberias mostrarlo. ;). En el caso de CEO pues no solo es el tema científico, es el tema de tiempo. Osea de verdad crees que alguien con una empresa de recursos infinitos, billonaria tiene tiempo para hacer investigación? :/. Eso es lo que no me cuadra. Ahora el tipo es un genio, sin duda. Pero es ya otro cantar que haya sido decisivo. Si resumes a que su merito es «saber invertir dinero» pues se honesto.. realmente crees que ello merece el Nobel, el máximo premio de la ciencia. Yo entiendo a Francis que no quiere ser suspicaz porque es una persona pública.. sin duda no caería bien que el dude así en realidad piense así.

          1. Le han dado el premio Nobel. Yo no tengo que demostrar eso. Dígale a los del comité del Nobel que ellos tienen que demostrar que el colaboró en la investigación. Usted es el que tiene que demostrar que los del comité Nobel se equivocan. No yo.
            Y usted ha cometido una falacia diciendo que yo digo solo «saber invertir dinero»(cuando no es exactamente eso lo que digo) …. De lo que hablo es de seleccionar las buenas ideas de las malas e incluso refinarlas y luego invertir dinero en ello(o invertir dinero en el proceso de refinar las ideas). Eso es lo que realmente suele hacer el investigador en jefe de cualquier instalación de investigación en el mundo. Puede tener ideas propias pero se usan las ideas de todo el equipo investigador y es el investigador en jefe el que selecciona que camino tomar(y que ideas podrían refinarse).

          2. Nunca dije que no le dieran el Nobel.. lees bien?. Es imposible demostrar que se equivocan. Solo resalto algo obvio. Un CEO que a la vez haga aportes tecnicos en equipo de decenas de genios.. pues lo veo difícil. Lo de dinero tu lo mencionaste. Ahora sobre elegir idea, igual.. no crees que con tanto genio alguno pudo dar esa eleccion de ideas. El amigo no es experto de clase mundial en ML de ese tipo, el mismo en una entrevista dijo que se encuentra desfasado en parte tecnicas de proyectos. Lo que afirmas que el eligio las ideas dado que fue el jefe cientifico de proyecto.. me parece algo ingenuo. Pero estas en tu derecho y tiene chance. Pero siendo CEO de una empresa billonaria con multiples desarrollos.. pues no me es obvio que le de tiempo. No quiere decir que haya sido totalmente ajeno.. pero no estaría seguro que un empresario haya aportado cientificamente al nivel de un Einsteino Feynman. Solo falta que Altman saque el Nobel en estos años. Igual reconozco que solo es suspicacia mía. Puede que el tipo haya elegido ideas y que sin ser super quimico ni superexperto de IA realmente haya sido decisivo y a la vez dueño de empresa de recursos ilimitados. Entonces seria superman :).

  4. 2024 no fue solo el año de la inteligencia artificial, los 3 premios Nobel han sido a los nuevos conocimientos en biología computacional: microARN y postranscripción, neuronas artificiales para la actual inteligencia generativa (textos e imágenes), plegado de proteínas. Estaba yo en lo cierto, es 2024 el año de la biología no importa si fisiología, sí física de los semiconductores y programas para aprendizaje, si bioquímica del plegado proteico. La genómica y biología molecular están en un auge nunca antes tan pronunciado quizá desde los embriólogos en Suecia y Lituania antes de Darwin y de la Teoría Celular de 1838.
    Hay que estudiar biología computacional? Leer que sea.

  5. Francis, mientras te escuchaba en CB:S&R hablando de los(miARN) recordé la metilación y acetilacion en epigenética ; esto sería otra forma de activación y apagado de genes ?

    1. Sí, Anibal, la metilación y la acetilación son mecanismos epigenéticos para la regulación de la expresión de genes. La metilación del ADN (adición de un grupo metilo (CH₃) a la citosina) impide el acoplamiento a los genes metilados de los factores de transcripción que controlan su expresión (la metilación suele «apagar» genes). La acetilación de las histonas (adición de grupos acetilo (COCH₃) a los residuos de lisina) afectan a cómo se empaqueta el ADN, influyendo en la expresión (la acetilación ayuda a desempaquetar genes, luego suele «activar» genes).

Deja un comentario