Premio Nobel de Física: John Hopfield y Geoffrey Hinton por el aprendizaje automático con redes de neuronas artificiales

Por Francisco R. Villatoro, el 8 octubre, 2024. Categoría(s): Ciencia • Física • Historia • Informática • Noticias • Personajes • Physics • Science ✎ 9

La inteligencia artificial es el campo más revolucionario en la actualidad. Si Alfred Nobel estuviera vivo, con seguridad concedería un Nobel a este campo. Y siguiendo su estela, la Academia Sueca galardona a dos de los padres (aún vivos) del aprendizaje automático mediante redes de neuronas artificiales, el estadounidense John J. Hopfield (91 años), Universidad de Princeton, Estados Unidos, y el británico Geoffrey E. Hinton (76 años), Universidad de Toronto (y Google), Canadá. Quizás algún ignorante te diga que el físico Hopfield no merece el galardón de Física, aunque haya recibido la Medalla Dirac (2001), la Medalla Boltzmann (2022) y otros galardones para físicos. De hecho, Hopfield hubiera sido mejor compañía para Parisi que Manabe y Hasselmann en el Nobel de Física de 2021. La Academia Sueca ha decidido que le acompañe Hinton, que no es físico, pero que es un todoterreno, que ha recibido premios como el Turing (2018) y el Princesa de Asturias (2022). Un premio al abuelo de la IA, padre de la biofísica de la red de Hopfield, que queda redondeado gracias al padrino de la IA, padre de la biofísica del aprendizaje gracias a la máquina de Boltzmann, su versión estocástica.

En 1982, Hopfield era un físico de 49 años que se había reconvertido en biofísico (biólogo teórico) interesado en los sistemas complejos, como el cerebro y los vidrios de espines. Propuso un modelo de red de neuronas artificiales con un paisaje energético que actuaba como memoria asociativa. En 1986, Hinton aplicó los principios de la física estadística a la red de Hopfield, con objeto de modelar el aprendizaje de patrones visuales, en el contexto del reconocimiento y la clasificación de imágenes. Ambos trabajos tuvieron tal impacto en la década de la quinta generación japonesa que yo estudié sus contribuciones durante mi carrera de informática (c. 1990), en el contexto de los modelos computacionales. Lo que la inteligencia artificial no logró en dicha década prodigiosa, con la llegada del invierno de la década de los 1990, se ha logrado en este siglo y, en especial, en esta última década. La inteligencia artificial basada en redes de neuronas artificiales, en gran parte inspiradas en el trabajo de Hopfield y bajo la batuta de Hinton, ya es una tecnología transparente (invisible) que está en todas partes. Además, en el último lustro se ha hecho visible en nuestra vida cotidiana gracias a las IA generativas. La revolución de ChatGPT y sus primas tenía que ser premiada con un Nobel y qué mejor año que 2024.

La física es una herramienta que ha revolucionado la inteligencia artificial gracias a los trabajos de Hopfield y Hinton, entre otros. Y ahora la inteligencia artificial está revolucionando la física, pues ya es sinónimo de análisis estadístico avanzado de datos (experimentales, observacionales y computacionales). El anuncio oficial del Nobel en YouTubeNota de Prensa [pdf], Popular Information [PDF], y Scientifc Background [PDF]. Recomiendo leer a Miguel Ángel Criado, «Premio Nobel de Física 2024 a John Hopfield y Geoffrey Hinton por poner las bases de la inteligencia artificial», Materia, El País, 08 oct 2024; «Nobel de Física 2024 para dos pioneros en redes neuronales artificiales», Agencia SINC, 08 oct 2024. En inglés puedes disfrutar de Elizabeth Gibney, Davide Castelvecchi, «Physics Nobel scooped by machine-learning pioneers,» News, Nature, 08 oct 2024.

Los artículos premiados según la información Nobel son: [1]  J. J. Hopfield, «Neural networks and physical systems with emergent collective computational abilities,» PNAS 79: 2554-2558 (15 Apr 1982), doi: https://doi.org/10.1073/pnas.79.8.2554; [2] John J. Hopfield, David W. Tank, «Computing with Neural Circuits: A Model,» Science 233: 625-633 (1986), doi: https://doi.org/10.1126/science.3755256; [3] Scott E. Fahlman, Geoffrey E. Hinton, «Massively Parallel Architectures for Al: NETL, Thistle, and Boltzmann Machines,» In: Proceedings of the AAAI-83 conference, Washington D.C. (1983), PDF; [4] D.H. Ackley, G.E. Hinton, T.J. Sejnowski, «A learning algorithm for Boltzmann machines,» Cognitive Science 9: 147-169 (1985), doi: https://doi.org/10.1016/S0364-0213(85)80012-4; [5] David E. Rumelhart, Geoffrey E. Hinton, Ronald J. Williams, «Learning representations by back-propagating errors,» Nature 323: 533-536 (1986), doi: https://doi.org/10.1038/323533a0; [6] Geoffrey E. Hinton, «Training Products of Experts by Minimizing Contrastive Divergence,» Neural Computation 14: 1771-1800 (2002), doi: https://doi.org/10.1162/089976602760128018.

Las redes de neuronas artificiales se inspiran en las redes de neuronas biológicas (Warren McCulloch y Walter Pitts, 1943). Están formadas por un conjunto de «neuronas» (nodos de cálculo descritos por cierta función de activación) conectadas por un conjunto de «sinapsis» (acoplamientos ponderados descritos por una matriz de números). Se llama aprendizaje (o entrenamiento) a la estimación de los «pesos sinápticos» para que «memoricen» un conjunto de datos de entrada (Donald Hebb, 1949). Las redes formadas por varias capas permitían reconocer patrones en imágenes, como dígitos manuscritos (Frank Rosenblatt, 1957). Pero estas redes directas (sin recurrencia) tenían un poder computacional limitado (no eran un sistema universal de cálculo); por ejemplo, eran incapaces de aprender la función o-exclusivo (XOR), la suma sin acarreo de números binarios (Marvin Minsky y Seymour Papert, 1969).

Los genios como John Hopfield están dotados de un sexto sentido, que les permite trabajar en un problema hasta dar con una solución aceptable, para luego abandonar dicho tema en manos de otros y ponerse a trabajar en otro problema sin ninguna relación con el anterior. Las contribuciones de Hopfield en los 1970 sobre la transferencia de electrones en macromoléculas y en el análisis de reacciones bioquímicas le convirtieron en famoso en el campo de la biofísíca (o física biológica). Pero en 1980, decidió abandonar su plaza de profesor en la Universidad de Princeton para ocupar una plaza en la otra costa, en el CalTech (Instituto Tecnológico de California), hasta 1997 (para más tarde retornar a Princeton). Le atraía del CalTech la posibilidad de usar ordenadores no disponibles en Princeton, le atraía la física computacional y los modelos computacionales.

En 1982, Hopfield publicó en PNAS [1] un nuevo modelo de red de neuronas recurrente (hoy llamado red de Hopfield). Su inspiración fue el modelo del campo molecular de Weiss (1907), el modelo de espines de Ising (1925), la memoria de contenido direccionable de Kramers y Wannier (1941), y la neurona artificial de McCulloch y Pitts (1943). Su red está formada por N nodos binarios s_i \in {0, 1} conectados a pares s_i y s_j por pesos simétricos w_{ij} = w_{ji}; estos valores se actualizan cada cierto tiempo aleatorio, para ello se calcula una función de activación h_i = \sum_{j\ne i} w_{ij}\,s_j, tal que s_i = 1, si h_i> 0, y s_i = 0, en otro caso. La red tiene asociada una función de energía, E = - \sum_{i<j} w_{ij}\,s_i\,s_j, que resulta ser monótona decreciente bajo dicha actualización. Como anécdota, esta primera red de Hopfield tenía unas 30 neuronas conectadas por 435 pesos sinápticos (se usaba un ordenador que no podría almacenar más de 100 neuronas); hoy en día los grandes modelos de lenguaje (LLMs) usan hasta un billón (millón de millones) de pesos sinápticos.

La dinámica de la red de Hopfield se suele ilustrar con un paisaje energético con una serie de mínimos locales con estados estacionarios asociados; dichos mínimos representan los patrones almacenados en la red como memoria asociativa (la letra J en este ejemplo). Estos mínimos son aprendidos en la fase de entrenamiento usando la regla de Hebb (1949). Cuando se introduce un patrón de entrada (la letra J con ruido) el estado del sistema desciende por el paisaje energético hasta alcanzar un mínimo local (que en este caso coincide con el patrón almacenado de la letra J).

La red de Hopfield tiene muchas limitaciones prácticas. Por ejemplo, el número de patrones que puede almacenar está muy limitado (aunque hay técnicas para aliviar este problema). Pero destaca el problema de los mínimos locales espurios, que no representan ningún patrón almacenado; la dinámica de la red siempre converge a un mínimo, pero solo de forma excepcional converge a uno que representa un patrón entrenado. De hecho, cada patrón tiene una cuenca de atracción que hace que solo se converja a dicho patrón cuando la entrada está en dicha cuenca (cuyos bordes son muy irregulares, lo que lleva a sorpresas a veces inesperadas en el funcionamiento práctico de la red). En los 1980 se usaron técnicas de física estadística para entender el comportamiento de esta red; un buen resumen en el libro de Marc Mezard, Giorgio Parisi y Miguel Ángel Virasoro, «Spin glass theory and beyond: An introduction to the replica method and its applications,»World Scientific (1987).

Como buen físico, Hopfield desarrolló implementaciones físicas de su red de neuronas artificiales; la más famosa la publicó en Science, usando un circuito eléctrico con amplificadores operacionales, con resonadores RC para emular las neuronas artificiales (John J. Hopfield, David W. Tank, «Computing with Neural Circuits: A Model,» Science 233: 625-633 (1986), doi: https://doi.org/10.1126/science.3755256). Sin entrar en muchos detalles, las ecuaciones de los circuitos son muy parecidas a las de la red de Hopfield: C_j du_i/dt = \sum_{j=1}^N T_{ij}\,V_j - u_i/R_i + I_i, con V_j = g_j(u_j) (J. J. Hopfield, «Neurons with graded response have collective computational properties like those of two-state neurons,» PNAS 81: 3088-3092 (15 May 1984), doi: https://doi.org/10.1073/pnas.81.10.3088; J. J. Hopfield, D.W. Tank,  «“Neural” computation of decisions in optimization problems,» Biological Cybernetics 52: 141-152 (1985), doi: https://doi.org/10.1007/BF00339943).

La idea de que la dinámica se podía representar mediante un paisaje energético facilitó que la red de Hopfield se volviera muy popular y muy inspiradora. Además, Hopfield y Tank (1985) mostraron que se podían resolver muchos problemas de optimización usando estas redes. Para evitar los mínimos locales se podía recurrir a la técnica de recocido simulado de Kirpatrick, Gelatt y Vecchi (1983) que asociaba una temperatura efectiva que determinaba el grado de aleatoriedad en la dínámica. Dicho método tenía la ventaja de que se podía aplicar a implementaciones analógicas con circuitos de la red.

Entre 1983 y 1985, Geoffrey Hinton, junto con Terrence Sejnowski y otros colegas desarrollaron una versión estocástica de la red de Hopfield, bautizada máquina de Boltzmann; como suele ser habitual en informática y en inteligencia artificial publicaron sus primeros artículos en conferencias científicas, lo que no quita que las fotocopias de dichos artículos corrieran como la pólvora entre los investigadores en redes de neuronas artificiales de todo el mundo. En la máquina de Boltzmann el vector de estado de la red {\bf s} = (s_1, \ldots, s_N) tiene asociada a una distribución de probabilidad de Boltzmann, P({\bf s}) \propto e^{-E/T}, con E = -\sum_{i<j} w_{ij}\,s_i\,s_j - \sum_i \theta_i\,s_i, donde T es la temperatura y \theta_i es un campo local.

La gran diferencia con la red de Hopfield es que la máquina de Boltzmann es un modelo generativo. Además, almacena distribuciones estadísticas de patrones, en lugar de patrones individuales. Gracias a la existencia de nodos (neuronas) ocultas puede describir distribuciones de probabilidad generales. Hinton y sus colegas desarrollaron un algoritmo de aprendizaje (entrenamiento) basado en el algoritmo del gradiente que era muy eficiente (en comparación con el usado para la red de Hopfield).

La red de Hopfield y la máquina de Boltzmann son redes de neuronas recurrentes. El gran avance de Hinton y sus colegas fue el algoritmo de retropropagación (back-propagation) de errores para redes directas (no recurrentes), el nacimiento del llamado aprendizaje profundo (deep learning). Lo publicaron en la revista Nature en 1986, siendo uno de los artículos más citados del campo de la inteligencia artificial. La idea de David Rumelhart, Hinton y Ronald Williams fue comparar los patrones a aprender con la salida de la red para obtener una estimación del error que se propaga hacia atrás modulando los pesos sinápticos de una conjunto de capas de neuronas; se llaman capas ocultas a las que están entre la capa de entrada y la de salida. El procedimiento era muy sencillo de implementar y tuvo un enorme impacto.

Las redes de neuronas convolucionales multicapa no tardaron en llegar, LeCun et al. (1989), ver también LeCun et al. (1998). La futura revolución del aprendizaje profundo en el siglo XXI ya estaba en marcha. Las redes de neuronas artificiales empezaron a usarse para todo (en especial, en biomedicina, donde las preferidas eran redes de pequeño tamaño para resolver problemas muy sencillos, pero que requerían conocimiento experto). El campo explotó y describir todos los avances raya lo imposible. Como no puede ser de otra forma, la información Nobel destaca otro gran avance de Hinton relacionado con la física, la máquina de Boltzmann recurrente de 2002. Pero se podrían citar muchos otros trabajos, pues Hinton se convirtió en la gran figura científica que ha liderado la revolución científica en inteligencias artificiales en este siglo, incluyendo las generativas que ahora están tan  de moda.

Hoy en día la inteligencia artificial se usa para todo y es usada por todo el mundo. Muchas personas la usan sin saberlo. Ni Hopfield ni Hinton pudieron soñar con el estado actual de las redes de neuronas artificiales. Pero llevan muchos años disfrutando de ser prestigiosos pioneros a los que solo les faltaba un Premio Nobel. Hasta hoy, pues ya ostentan el más ansiado galardón, el rayo que truena en el firmamento marcando el inicio de la eternidad.



9 Comentarios

  1. Excelente entrada y elogios bien merecidos para ambos investigadores. Estaba esperando qué podía decir un doctor en informática y física al respecto y concuerdo con el espíritu festivo y de regocijo fruto del anuncio.

  2. Va a ser muy interesante ver qué ocurre cuando los medios se enteren de que uno de los galardonados (Hinton) abandonó su trabajo en Google (entro otros motivos), porque «no quería seguir participando en el desarrollo de la nueva especie dominante del planeta» y que dice cosas como:
    «I want to talk about AI safety issues without having to worry about how it interacts with Google’s business. As long as I’m paid by Google, I can’t do that.»
    «These things are totally different from us. Sometimes I think it’s as if aliens had landed and people haven’t realized because they speak very good English.»
    Seguro que reponen «Terminator».

  3. Durante más de cinco décadas, Geoffrey Hinton ha sido una figura pionera en el desarrollo de la tecnología que fundamenta los chatbots, como ChatGPT. Su trabajo ha sido tan influyente que ha sido galardonado con el Premio Nobel. Sin embargo, recientemente ha expresado su preocupación por el potencial de esta tecnología para causar daños significativos. Esta preocupación es comprensible; refleja el temor de un creador que contempla los posibles usos malintencionados de su invención. Es un dilema tan antiguo como la tecnología misma: Aunque estas herramientas puedan servir a propósitos nefastos, también ofrecen beneficios significativos, y generalmente, son más las personas que las utilizan para el bien.
    Una noticia sobre las preocupaciones de Hinton:
    https://www.nytimes.com/2023/05/01/technology/ai-google-chatbot-engineer-quits-hinton.html

  4. Pues es que es verdad. La AI puede ser tan amenaza como las bombas nucleares. Tan simple como eso.
    Sin embargo llevamos 70 años que nos ibamos a destruir a bombazos nucleares y acá seguimos(la amenaza continua, eso si).
    Yo supongo que la AI con el control que se requiera no debe ser un problema mayor a los bombazos nucleares.
    Respecto al Nobel completamente merecido. Si, yo también creo que Alfred Nobel hubiera premiado esto.

    1. Pero yo veo una diferencia respecto a otros peligros anteriores. Y es que todos estaban localizados en un contexto identificable y único, y aquí estamos hablando de poner puertas al campo cuando hagan un salto cualitativo, y no sea necesario ya un aumento cuantitativo. Un arma nuclear, por ejemplo, sigue y seguirá necesitando uranio, pero el día que una IA no precise de tanta base de memoria, estaremos en un cambio social tan importante como la revolución industrial.

      ¿Cómo haremos para parar las IA que generen ingresos pasivos a sus dueños dedicándose a estafar por múltiples medios a la vez, sin descanso, cambiando de ubicación y «corteza» externa constantemente de forma creativa y cambiante? ¿Cómo haremos, tal como decía en una entrevista, Terence Tao, para demostrar nosotros, la veracidad de nuestros actos, dichos o escritos? Pues de la única forma posible…con otras IA…ergo vamos a tener que depender de ellas…y en una sociedad preparada para ello, es necesario la democratización de las mismas fuera de las multinacionales…Ahora bien, nuestra sociedad actual no sabe calcular, y nos va bien, no fue ningún fiasco como se llegó a pensar cuando aparecieron las calculadoras…por eso nadie se alarmó con los ordenadores, pero..¿estaremos preparados para no saber abstraer información relevante de una fuente de información? Dicho de otra forma ¿estamos preparados para ser todos analfabetos de segundo grado? Una sociedad con ese grado de analfabetismo dependiente de las IA ¿se moverá bien? ¿avanzará? Son cosas que ahora mismo no sabemos…

      1. «es necesario la democratización de las mismas fuera de las multinacionales»

        4 gb de VRAM*. Es lo mínimo que necesitas para declarar la independencia, ejecutar en local los modelos más pequeños y empezar a trastear.

        A mí la criatura de Hinton me fascina. En los primeros modelos de Stable Diffusion, el live preview de las iteraciones de la imagen se parece mucho a las alucinaciones hipnagógicas que produce la corteza visual al formar la imagen del sueño.

        * Es lo que tengo yo y va a acabar tostao.

      2. A lo mejor el sol nos hace el favor, manda una tormenta solar y nos deja en la edad media y a las IA fritas. Eso parece más peligroso que las IA actuales.
        Hay riesgos pero yo tampoco veo que sea para llenarnos de catastrofismo(que ha existido toda la vida) que entre otras cosas no conduce a nada. Se pueden tomar medidas(como se hizo con las armas nucleares), y ya estuvo. Hay que pensar en las medidas que deban ser correctivas.
        Respecto a las multinacionales, yo le tengo más miedo al poder de las IA en manos de los gobiernos. Especialmente porque el nivel de mentiras y estulticia en los gobiernos suele ser muy superior al de las multinacionales que no se pueden dedicar a mentirle a sus clientes sobre sus productos en demasía, sopena de que si te pillan no te compran más(y vas a la quiebra después de que los clientes te cojan ojeriza). Los gobiernos en cambio pueden mentir y mentir y la gente les sigue votando(así es como funciona, que se puede hacer).

  5. Muy merecido premio ellos han hecho super aportes. Pero sobre el tema de si es merecedor de premio en Física no sé. Es cierto que usaron matematicas y principios de física para desarrollar modelos asociativos. Pero esos modelos no sé si son tan clave para el desarrollo de la IA. Son muy interesantes eso si no creo que hayan marcado hito. En realidad el hito del exito de la IA está en entrenar con muchas capas. El modelo de Hopfield no aparece tener tanta relevancia. Dicho eso, la verdad que era la mejor apuesta si querian dar premio Nobel de fisica aunque veo la conexión algo débil. De todas formas son los fisicos investigadores activos los que deberian opinar.

Deja un comentario