Podcast CB SyR 438: Estatua en Gobekli Tepe, códice Voynich, cuásar UHZ1, espín de Sgr A*, galaxia barrada CEERS-2112 y el futuro de AlphaFold2, ESMFold y ProteinMPNN

Por Francisco R. Villatoro, el 17 noviembre, 2023. Categoría(s): Astrofísica • Biología • Ciencia • Física • Historia • Informática • Nature • Noticias • Physics • Podcast Coffee Break: Señal y Ruido • Recomendación • Science ✎ 8

He participado en el episodio 438 del podcast Coffee Break: Señal y Ruido [Acast AAcast BiVoox AiVoox BiTunes A y iTunes B], titulado “Ep438: Gobekli Tepe; Voynich; Galaxias; Agujeros Negros; LLMs y Proteínas», 16 nov 2023. «La tertulia semanal en la que repasamos las últimas noticias de la actualidad científica. En el episodio de hoy: Cara A: Nuevos hallazgos de esculturas de 11,000 años de antigüedad en la zona de Gobekli-Tepe (10:00). Hallada una carta de la Sra. Voynich sobre el misterioso códice (30:00). Cara B: Un agujero negro supermasivo a z~10 apunta a semillas pesadas (00:00). El agujero negro Sag A* rota a casi la velocidad de la luz (27:11). Una galaxia espiral como la Vía Láctea a z=3 (44:41). LLMs para predecir estructura de proteínas (a la AlphaFold) (01:08:11). Señales de los Oyentes (01:43:00). Imagen de portada realizada por Héctor con Midjourney. Todos los comentarios vertidos durante la tertulia representan únicamente la opinión de quien los hace… y a veces ni eso».

¿Quieres patrocinar nuestro podcast como mecenas? «Coffee Break: Señal y Ruido es la tertulia semanal en la que nos leemos los papers para que usted no tenga que hacerlo. Sírvete un café y acompáñanos en nuestra tertulia». Si quieres ser mecenas de nuestro podcast, puedes invitarnos a un café al mes, un desayuno con café y tostada al mes, o a un almuerzo completo, con su primer plato, segundo plato, café y postre… todo sano, eso sí. Si quieres ser mecenas de nuestro podcast visita nuestro Patreon (https://www.patreon.com/user?u=93496937); ya sois 114, muchas gracias a todas las personas que nos apoyan. Recuerda, el mecenazgo nos permitirá hacer locuras cientófilas. Si disfrutas de nuestro podcast y te apetece contribuir… ¡Muchísimas gracias!

Descargar el episodio 437 cara A en Acast.

Descargar el episodio 437 cara B en Acast.

Como muestra el vídeo participamos por videoconferencia Héctor Socas Navarro @HSocasNavarro (@pCoffeeBreak), María Ribes Lafoz @Neferchitty (solo cara A), Gastón Giribet @GastonGiribet (solo cara B), y Francis Villatoro @eMuleNews.

Tras su presentación, Héctor rectifica un comentario que se hizo sobre las vidrieras de las catedrales. El vidrio se comporta como un fluido en escalas de tiempo muy largas. Pero no es cierto que el grosor del vidrio de las vidrieras sea mayor en su parte baja por dicho proceso. La razón es que el proceso de fabricación los vidrios tenían un extremo más grueso que otro; por ello, los vidrieros colocaban la parte más gruesa en la parte inferior (pensaban que actuaba como refuerzo estructural). Además, comenta que la semana próxima hablaremos de la polémica actual sobre Loeb y sus esférulas BeLaU de supuesto origen extraterrestre (interestelar).

Nos cuenta María que se ha encontrado una curiosa estatua gigante de 11 000 años de antigüedad en el complejo megalítico Karahan–Gobekli Tepe (Turquía); Karahan Tepe significa «colina del príncipe oscuro», y está a unos 40 km de Gobekli Tepe, que significa la «colina con panza». Estos sitios megalíticos asociados a una sociedad de cazadores y recolectores. Se ha descubierto una estatua de un jabalí que está policromada (uno de los restos más antiguos conocidos que están policromados). Pero lo que destaca María es otra nueva estatua que aparenta ser un hombre de 2.3 metros de altura con una cara muy alargada y con las costillas marcadas, como si fuera un cadáver. María propone que podría ser una representación de un ancestro.

Lo más sorprendente de esta estatua antropomorfa es que está sujetando su pene con las manos. Comenta María que las figuras fálicas son muy habituales en este tipo de yacimientos. En estos  sitios megalíticos hay muchos pilares en forma de T y esculturas que representan animales, símbolos abstractos y manos humanas. Se cree que el sitio se usó en rituales funerarios, pues no parece que una sociedad de cazadores y recolectores tuviera habitara en un sitio como este (unos 6000 años que Stonehenge). Los expertos  no se ponen de acuerdo sobre cómo interpretar la nueva estatua encontrada (podría simbolizar que fue el progenitor del grupo social); de hecho, tampoco cómo interpretar el resto de las estatuas encontradas en el yacimiento. Como comenta María, solo se pueden hacer conjeturas sobre este lugar y sobre las estatutas representadas. Más información divulgativa en Owen Jarus, «11,000-year-old statue of giant man clutching penis unearthed in Turkey,» LiveScience, 16 Oct 2023.

María también nos cuenta que se ha hallado una carta de la Sra. Voynich sobre el códice de su marido en el Museo Voynich de Burgos. La carta de Ethel Lilian Voynich está fechada el 24 de febrero de 1931. La carta revela su interés en los dibujos de flores del manuscrito Voynich. El Museo Voynich de Burgos tiene la única réplica oficial del Libro de Voynich, ya que el original está en la Beinecke Rare Book & Manuscript Library. Más información en Yolanda Fernández Blanco, «El nuevo hallazgo del Museo Voynich en Burgos. El Museo Voynich ha descubierto una carta escrita por la esposa de Voynich en 1931 oculta en el nuevo libro incorporado a la colección», Burgos Conecta, 23 feb 2023.

Por cierto, Héctor recomienda leer las novelas de Enrique Joven Álvarez que incorporan el códice Voynich. Creo que son «El castillo de las estrellas», «The Book of God and Physics», y «El templo del cielo» (debo confesar que no he leído ninguno). Enrique Joven (Zaragoza, 1964) es doctor en Ciencias Físicas y trabaja como ingeniero en el Instituto de Astrofísica de Canarias desde 1991.

Especulo que usando grandes modelos multimodales (LMMs), similares a GPT-4v, se podrá obtener una traducción del Voynich. Para ello se requiere una gran ventana de contexto (ahora mismo se limita a unos 128 kilotokens, que no permite introducir imágenes de las 240 páginas del Voynich); pero algún día será suficiente para hacerlo, con lo que será (casi) trivial obtener una traducción. Con cuatro LMMs diferentes obtendremos cuatro traducciones diferentes; si son compatibles o coherentes entre sí, estaremos bastante seguros de que es una traducción fiable. En Twitter comenta Sara que «estos modelos colaborativos existen y se usan mucho, además hay muchos tipos». Auguro que en menos de cinco años alguien llevará a cabo esta idea y tendremos una traducción del Voynich consensuada por varias IAs.

Nos comenta Gastón una galaxia con z ~ 10 con un agujero negro supermasivo activo en rayos X con una masa estimada que apunta a un origen por colapso directo. El problema del huevo y la gallina para las galaxias y los agujeros negros aún no tiene solución. Se publica en Nature Astronomy lo que podría ser el primer paso para su solución. Usando el telescopio JWST gracias al efecto de lente gravitacional del cúmulo de Abell 2744, se ha encontrado la posible fuente de una emisión de rayos X entre 0.5 y 7 keV observada por el telescopio Chandra, un cuásar llamado UHZ1 situado a z ≈ 10.3 (fotométrico). Para este cuásar se estima una luminosidad volumétrica de ~5 × 1045 erg/s lo que implica una agujero negro con una masa ~107−108 M para una tasa de acreción compatible con el límite de Eddington.

Lo sorprendente es que la masa estelar de una galaxia con z ~ 10 (cuando el universo tenía unos 500 millones de años) es comparable a la masa de este agujero negro (cuando lo habitual en galaxias con z ~ 0 es que la masa del agujero negro sea inferior ~ 0.1 % de la masa estelar de su galaxia). Se interpreta este resultado como que este agujero negro tan masivo no pudo formarse por la fusión de muchos agujeros negros de masa estelar (aunque para las estrellas de población III su masa sería de cientos de masas estelares). Así se afirma que este agujero negro tuvo que formarse por colapso directo de una nube de gas (recomiendo la transcripción de mi charla «Agujeros Negros Supermasivos (mi charla en la Noche Europea de los Investigadores 2023 en Málaga)», LCMF, 02 oct 2023). Esto sugiere que primero fueron los agujeros negros supermasivos y luego las galaxias. Pero, dado que solo hay un único ejemplo y que la estimación de sus parámetros es muy discutible, todavía es muy pronto para afirmarlo con rotundidad.

El artículo es Ákos Bogdán, Andy D. Goulding, …, Irina Zhuravleva, «Evidence for heavy-seed origin of early supermassive black holes from a z ≈ 10 X-ray quasar,» Nature Astronomy (06 Nov 2023), doi: https://doi.org/10.1038/s41550-023-02111-9, arXiv:2305.15458 [astro-ph.GA] (24 May 2023); más información divulgativa en Alexandra Witze, «Giant black hole is one of the earliest ever seen —with clues for how these weird objects form. Data from the James Webb and Chandra space telescopes reveal a massive object in a galaxy that formed less than half a billion years after the Big Bang,» News, Nature, 06 Nov 2023, doi: https://doi.org/10.1038/d41586-023-03475-8, y en Lee Mohon, «NASA Telescopes Discover Record-Breaking Black Hole,» News, NASA, 06 Nov 2023.

Gastón también nos comenta que se ha logrado estimar el momento angular (espín) del agujero negro Sagitario A*. Se ha usado el método llamada de flujo de salida (outflow), es decir, usando la colimación, luminosidad y espectro del flujo de radiación en rayos X. Se han usado datos históricos del telescopio Chandra para la emisión de Sgr A* entre 2 y 7 keV. Los agujeros negros en rotación (tipo Kerr) como Sgr A* tienen un momento angular máximo (que el horizonte rote con velocidad lineal igual a la velocidad de la luz en el vacío); así el momento angular se suele normalizar en un parámetro adimensional a = 1 para un agujero negro extremal, y a = 0 para un agujero de Scharwzchild (que no rota). Gracias al método de outflow se ha estimado que a = 0.90 ± 0.06⁠ (el grupo de investigación liderado por Daly ya obtuvo un valor previo con este método, a = 0.93 ± 0.15, que Gastón destaca que es compatible con el nuevo resultado). El artículo es Ruth A Daly, Megan Donahue, …, Anan Lu, «New black hole spin values for Sagittarius A* obtained with the outflow method,» Monthly Notices of the Royal Astronomical Society (MNRAS) 527: 428-436 (01 January 2024), doi: https://doi.org/10.1093/mnras/stad3228, arXiv:2310.12108 [astro-ph.GA] (18 Oct 2023).

Nos cuenta Héctor que se ha descubierto una galaxia espiral barrada a z = 3 (la Vía Láctea también lo es). Las simulaciones de la formación de galaxias muestran que las galaxias espirales barradas están ausentes para z > 1.5 en las galaxias progenitoras de las actuales galaxias espirales; por ello, se asume que las galaxias barradas son galaxias maduras. De hecho, destaca Héctor que para que se forme una barra es necesario que la población de estrellas de la galaxia se «enfríe»: la velocidad de las estrellas tiene una dispersión (en la Vía Láctea actual es de unos 30 km/s) que es mucho más pequeña que su velocidad típica alrededor del núcleo galáctico (para el Sol es de unos 270 km/s), por ello se dicen que sus estrellas están «enfriadas»; se dice que una galaxia joven es «caliente» si la dispersión de las velocidades estelares es comparable a la velocidad galáctica típica de sus estrellas. Por eso se espera que las barras (que son sobredensidades de estrellas que cruzan el núcleo) aparezcan en galaxias «envejecidas».

Por todo ello ha sido toda una sorpresa que las imágenes de NIRCam del JWST de la galaxia CEERS-2112 con z = 3.03± 0.05 (desplazamiento al rojo fotométrico que se fecha cuando el universo tenía unos 2000 millones de años); estas imágenes muestran indicios de una barra central de unos 3.3 kpc (las siglas CEERS significan Cosmic Evolution Early Release Science). Se supone que la galaxia se formó en z ~ 5, su barra se formó en z ~ 4 y la estamos viendo cómo era a z ~ 3. La masa estelar de esta galaxia se estima en M  = 3.9 × 109 M (masas solares) lo que implica una edad de unos 620 ± 160 millones de años, habiéndose formado la barra en sus últimos 400 millones de años. Recuerda que la Vía Láctea tiene una masa estelar M  = 4–7 × 1010 M, y que en z ~ 3 tendría una masa similar a la de CEERS-2112 (aunque no sabemos si entonces la Vía Láctea también era barrada).

En algunos medios se ha publicado que esta galaxia es «gemela» a la Vía Láctea (p.ej., Manuel Ansede, «Descubierta una galaxia gemela de la Vía Láctea en los confines del universo», El País, 08 Nov 2023). En realidad sollo sabemos que es una galaxia a z = 3 parecida a como pudo ser la Vía Láctea para z = 3, en caso de que la Vía Láctea también fuera una galaxia barrada entonces. Según las simulaciones de la formación de galaxias Illustris TNG50 (TNG por The Next Generation) no hay galaxias barradas similares a la Vía Láctea para z > 1.5 (luego la barra de la Vía Láctea podría ser posterior a z = 1.5). Sin embargo, según las simulaciones TNG50, una galaxia con la masa de CEERS-2112 podría alcanzar una masa estelar similar a la de la Vïa Láctea para z = 0 (como muestra la curva naranja en esta figura). Combinando ambos resultados parece obvio que CEERS-2112 no puede ser como era la Vía Láctea en z = 3 (no puede ser su «gemela»); pero tampoco se puede descartar que lo sea (una simple especulación periodística; de hecho, el sensacionalismo de los medios requiere ver «gemelas» donde quizás no las haya).

Como siempre, hay que tener mucho cuidado con los titulares de las piezas periodísticas. El artículo es Luca Costantin, Pablo G. Pérez-González, …, L. Y. Aaron Yung, «A Milky Way-like barred spiral galaxy at a redshift of 3,» Nature 623: 499-501 (08 Nov 2023), doi: https://doi.org/10.1038/s41586-023-06636-x, arXiv:2311.04283 [astro-ph.GA] (07 Nov 2023).

 

Me toca comentar el uso de los grandes modelos lingüísticos (LLM) para predecir estructura de proteínas. Los software como AlphaFold y RoseTTAFold usan como entrada un alineamiento múltiple de secuencia (MSA) para la secuencia de la proteína, que representa la «información evolutiva» disponible sobre ella; este tipo de alineamientos son costosos de obtener y no es fácil lograr una entrada de calidad. La idea de usar un LLM es evitar el uso de los MSA, usando como entrada solamente la secuencia de aminoácidos de la proteína, los llamados PLMs (Protein Language Models). Esta idea se remonta UniRep (2019) en el laboratorio de George Church en Harvard, pero el gran hito a finales de 2022, fue la presentación de Meta de los modelos lingüísticos para el plegamiento de proteínas, el modelo se llama ESM-2 y el predictor de la estructura ESMfold; este modelo tiene 15 mil millones de pesos sinápticos, siendo el mayor modelo actual para resolver este problema. El artículo es Zeming Lin, Halil Akin, …, Alexander Rives, «Evolutionary-scale prediction of atomic level protein structure with a language model,» Science 379: 1123-1130 (16 Mar 2023), doi: https://doi.org/10.1126/science.ade2574, bioRxiv preprint 500902 (21 Dec 2022).

La ventaja de usar ESM-2/ESMFold es que parece ser tan preciso como AlphaFold, pero sin requerir las MSA y con un coste computacional mucho menor (hasta 60 veces más rápido). Además, ESMFold predice con mayor precisión que AlphaFold las proteínas huérfanas, que carecen de homológos ancestrales conocidos (que son los que aparecen en el MSA). Pero hay algo aún más espectacular: la posibilidad de usar los modelos linguísticos para generar nuevas proteínas, diferentes a todo lo que haya existido en la Naturaleza. En esta aplicación AlphaFold y RoseTTAFold no se pueden aplicar. En el futuro se podrán diseñar proteínas para aplicaciones biomédicas y farmacéuticas. El artículo es Robert Verkuil, Ori Kabeli, …, Alexander Rives, «Language models generalize beyond natural proteins,» bioRxiv preprint 2022.12.21.521521 (), doi: https://doi.org/10.1101/2022.12.21.521521.

Ya se han publicado los primeros intentos, como ProteinMPNN y RFdiffusion, del laboratorio de David Baker en la Universidad de Washington, para el diseño de proteínas. Todavía están en una fase muy inicial, pero se espera que podamos diseñar nuevas terapias proteicas para muchas enfermedades humanas, desde el cáncer hasta las enfermedades autoinmunes, desde la diabetes hasta los trastornos neurodegenerativos. Los artículos son J. Dauparas, I. Anishchenko, …, D. Baker, «Robust deep learning based protein sequence design using ProteinMPNN,» Science 378: 49-56 (15 Sep 2022), doi: https://doi.org/10.1126/science.add2187, bioRxiv preprint 494563 (04 Jun 2022); Joseph L. Watson, David Juergens, …, David Baker, «Broadly applicable and accurate protein design by integrating structure prediction networks and diffusion generative models,» bioRxiv preprint 519842 (14 Dec 2022), doi: https://doi.org/10.1101/2022.12.09.519842.

Todo esto nos lo cuenta Rob Toews, «The Next Frontier For Large Language Models Is Biology,» Forbes, 16 Jul 2023. Por cierto, se siguen publicando mejoras de AlphaFold2, como el reciente artículo publicado en Nature donde se estudia el efecto de modificar el MSA; quizás no sorprenda que dicha modificación permite obtener múltiples conformaciones para proteínas con partes móviles (se estudia en detalle la proteína KaiB de Rhodobacter sphaeroides). El artículo es Hannah K. Wayment-Steele, Adedolapo Ojoawo, …, Dorothee Kern, «Predicting multiple conformations via sequence clustering and AlphaFold2,» Nature (13 Nov 2023), doi: https://doi.org/10.1038/s41586-023-06832-9.

Ejemplo de AlphaFold DB: https://alphafold.ebi.ac.uk/entry/Q7RTU9.

Hoy en día, lo más fácil para un biólogo es introducir su nueva proteína en la base de datos UniProt y esperar a que se genere de forma automática (serán unas semanas de espera) la predicción de AlphaFold2 para dicha proteína gracias al AlphaFold DB (AlphaFold Database Protein Structure Databasehttps://alphafold.ebi.ac.uk). Ya se ha publicado la predicción de AlphaFold2 para la conformación tridimensional de unas 214 millones de proteínas (en 2021 se anunciaron las primeras 300 mil). AlphaFold DB ya está integrado en las bases de datos biológicas de proteínas (PDB, UniProt, Ensembl, InterPro y MobiDB). Más información en Mihaly Varadi, …, Demis Hassabis, Sameer Velankar, «AlphaFold Protein Structure Database in 2024: providing structure coverage for over 214 million protein sequences,» Nucleic Acids Research 2023: gkad1011 (02 Nov 2023), doi: https://doi.org/10.1093/nar/gkad1011. Aún así, el futuro será prescindir del MSA y usar solo la secuencia de aminoácidos como entrada; gracias a ello todos los biólogos sin formación especializada en la construcción de grandes MSA, y que quieran retrasar la inserción de sus nuevas proteínas en estas bases de datos, podrán usar con éxito y de forma sencilla estas herramientas para la predicción de la conformación tridimensional de nuevas proteínas.

Y pasamos a Señales de los Oyentes. Néstor Martínez pregunta: «Si el área de influencia del agujero negro supermasivo en una galaxia es diminuta en comparación al disco, ¿por qué a pesar de eso toda la galaxia parece estar conformada por él?» Héctor contesta que no es cierto que la galaxia esté conformada por el agujero negro supermasivo. Tampoco que toda la galaxia rote alrededor de él. La galaxia rota respecto a su centro de masas, en cuyo entorno hay un pozo de potencial en el que acaba cayendo el agujero negro supermasivo. Pero toda la galaxia rota entorno a su centro de masas. Por ejemplo, Sgr A* tiene cuatro millones de masas solares, pero la Vía Láctea tiene una masa estelar de unos 60 mil millones de masas solares, con lo que si Sgr A* desapareciera de forma mágica, la Vía Láctea no notaría nada (por cierto la masa total de la Vía Láctea, incluyendo su materia oscura, se estima en unos 2 billones de masas solares).

Lorenzo Escartín pregunta: «¿Se han detectado dos agujeros negros supermasivos en una galaxia? ¿O alguno no rotacional?» Héctor contesta que sí, pero solo en las fusiones de galaxias. Contesto que LISA observará muchas fusiones de agujeros negros supermasivos y nos permitirá explorar la estadística de las galaxias que tienen en su núcleo dos agujeros negros supermasivos orbitando en movimiento espiral. Por otro lado, contesto que los agujeros negros estáticos no existen en la Naturaleza; por supuesto, todo agujero negro en rotación con un momento angular pequeño (pongamos, menos del 1 % del máximo) se puede aproximar por uno que no rota (tipo Schwarzchild). Pero en la Naturaleza solo existen agujeros negros en rotación (tipo Kerr): todo lo que puede rotar, si no está aislado del resto del universo, acaba rotando (por las leyes de conservación del momento angular).

P pregunta: «¿Existen discrepancias entre la acreción de un agujero negro y la expulsión de su inverso temporal?» Contesto que en la Naturaleza se observa el primer proceso (acreción), pero no se puede observar el segundo fenómeno (sea lo que sea «la expulsión de su inverso temporal»). No se pueden contestar si hay o no hay «discrepancias» entre algo que existe y algo que que no puede existir. Por tanto, en mi opinión, la pregunta está mal construida.

¡Que disfrutes del podcast!



8 Comentarios

  1. Perdón Francis, hice la última pregunta sobre el análisis de la evolución de un agujero negro en sentido inverso de la flecha del tiempo. Que puedas interpretar un agujero blanco al analizar cierto agujero negro en sentido inverso es totalmente trivial, me sorprende que sea nuevo para tí. No implica que existan los agujeros blancos en la dirección ordinaria de la flecha del tiempo ni que conecten con otros universos.

    Preguntar, «¿coincide la acreción de un agujero negro con la expulsión de su inverso temporal?», es un pregunta correcta y trivial, incluso es sencillo suponer que coinciden en el caso de Schwarszchild pero que en agujeros negros más complejos puede haber discrepancias. (Schwarszchild es una solución de vacío, todo se simplifica)

  2. Que gozada de programa, para escucharlo muchas veces y completarlo con tu blog, (perdona el tuteo pero a mis 67 tacos tuteo a todo el mundo), sobre todo lo referente a AlfaFold 2 que comprendo mejor al ser bióloga, que bien te explicas, he sido profesora y se cuando alguien explica bien o no, (por ejemplo a Maldacena no se le entiende nada), pero María Ribes, Héctor Socas y Gastón Giribet ( una vez aplicado el diccionario Gastón-español, es broma solo hay que prestar mas atención) sois muy didácticos, además Héctor siempre está al quite para aclarar algún termino del español, del inglés o del Gastonés.
    Que sigamos viéndonos y escuchándonos en el espacio-tiempo.
    Un saludo afectuoso.

    1. Mariana, en rigor no. Preparé la intervención dos semanas antes de que este artículo apareciera. Este nuevo artículo sobre predicción de proteínas va en la línea de lo que comenté, pero no usa modelos de lenguaje (que es lo que comenté); en su lugar usa modelos generativos bayesianos, cuya aplicabilidad al campo de la predicción de conformaciones me parece menos prometedora. De hecho, en la información suplementaria de este artículo en Nature tienes una comparación entre las predicción de Chroma (v0 y v1) con AlphaFold, ESMfold, and OmegaFold; en muchos casos (incluso para proteínas pequeñas de menos de 1000 residuos) las predicciones de Chroma discrepan con las de estos otros tres software. Obviamente, se trata de una prueba de concepto y habrá que esperar a futuras versiones de Chroma para tener una comparación más fiable.

Deja un comentario