Sobre la resolución de problemas de Erdős usando inteligencia artificial generativa

Las redes sociales hierven con la resolución de problemas de Erdős usando inteligencia artificial (IA) generativa. Cada día se publican nuevas soluciones obtenidas con ayuda de alguna IA. Por ello, mucha gente tiene la falsa sensación de que todos los problemas de Erdős serán resueltos con IA en los próximos meses. De hecho, ya se ha publicado en arXiv la que se afirma que es la primera resolución de un problema de Erdős generada de forma íntegra con IA, sin ninguna intervención humana, la resolución del problema #728. La demostración ha sido obtenida por GPT-5.2 Pro en lenguaje matemático humano, luego se ha usado Aristotle para transformarla en una demostración formal en Lean, que ha permitido su verificación de forma automática. La metodología usada promete revolucionar la matemática: con la ayuda de una IA generativa (ChatGPT, Gemini, Opus, AlphaEvolve, etc.) generar una demostración, formalizarla en Lean con Aristotle para verificarla de forma automática, si no es correcta, repetir el primer paso (con una intervención humana para guiar a la IA) hasta que se obtenga una que sea correcta; una vez obtenida se vuelve a usar la IA generativa para escribirla en un lengaje matemático humano. Esta metodología vibe mathematics (en analogía con el vibe coding) parece tan «fácil de usar» que muchos matemáticos aficionados, incluso informáticos, la están usando sin un conocimiento matemático profundo.

Me gustaría recordar que la mayoría de los intentos de resolución de problemas de Erdős usando esta metodología conducen a fracaso (hay una web que reporta algunos de estos fracasos, Erdos Problems LLM Hunter). Se requieren muchos intentos fallidos para lograr una demostración correcta. Pero, cuidado, incluso si Lean verifica la corrección de la demostración, hay que tener mucho cuidado, pues la IA generativa a veces obtiene una demostración correcta de un resultado diferente del enunciado original del problema. Por ello, la mayoría de los matemáticos aficionados que obtienen estas demostraciones no están seguros de su corrección hasta que algún matemático profesional (muchos se las envían a Terence Tao, en la imagen con 10 años junto Paul Erdős, «que le trató como un igual») para que les de el visto bueno. La mejor recomendación es tener una precaución máxima. Un buen ejemplo es el caso de David Budden (ex-DeepMind y fundador de la startup PingYou) que apostó en diciembre de 2025 contra varios unos 45 000 dólares a que había “resuelto” el Problema del Milenio de las ecuaciones de Navier–Stokes. Su demostración en Lean era correcta, ¿pero resolvía este problema? Él creía que sí, pero tras su publicación se ha comprobado que no es así. La publicación en la web de la demostracíon muestra que es una «chorrada» (contiene argumentos erróneos, para los que cualquier experto conoce contraejemplos sencillos); no demuestra nada que se parezca al problema del milenio. Así que, en vez de ganar un suculento millón de dólares, ha perdido todo el dinero que apostó (pagó su apuesta el 6 de enero de 2026). Si eres aficionado a la vibe math, recuerda lo que le ha pasado.

La demostración del problema de Erdős #728 se ha publicado en arXiv gracias a Nat Sothanaphan (MIT), «Resolution of Erdős Problem #728: a writeup of Aristotle’s Lean proof,» arXiv:2601.07421 [math.NT] (12 Jan 2026), doi: https://doi.org/10.48550/arXiv.2601.07421. Este problema consiste en determinar el máximo “hueco” k = a+b−n que cumple la divisibilidad factorial a! b! | n! k! (que equivale a a! b! | n! (a+b−n)!). La demostración encuentra un «hueco» logarítmico, es decir, que para constantes 0 < C₁ < C₂ existen infinitos tripletes con C₁ log n < a+b−n < C₂ log n, manteniendo esa divisibilidad. La estrategia de demostración reduce el problema a una divisibilidad de coeficientes binomiales y a un análisis p-ádico usando el teorema de Kummer (interpretado en términos de los acarreos que aparecen al sumar números en base p). Por cierto, Sothanaphan ha publicado en diciembre de 2025 un par de artículos asistidos con ChatGPT-5.2 Pro (https://arxiv.org/abs/2512.14251, https://arxiv.org/abs/2512.11983). Más detalles sobre ataques fallidos y existosos en Nat Sothanaphan, «AI contributions to Erdős problems,» GitHub, https://github.com/teorth/erdosproblems/wiki/AI-contributions-to-Erd%C5%91s-problems.

Terence Tao es uno de los líderes de una iniciativa (The Equational Theories Project) para la resolución de problemas matemáticos mediante la colaboración entre inteligencias artificiales y humanos. Te recomiendo seguir su cuenta en Mathstodon (https://mathstodon.xyz/@tao). También nos lo cuenta en Matthew Bolan, …, Terence Tao, …, Fan Zheng, «The Equational Theories Project: Advancing Collaborative Mathematical Research at Scale,» arXiv:2512.07087 [math.RA] (08 Dec 2025), doi: https://doi.org/10.48550/arXiv.2512.07087; más información en Terence Tao, «The Equational Theories Project: Advancing Collaborative Mathematical Research at Scale,» What’s New, 09 Dec 2025. El software Aristotle se publicó en Tudor Achim, Alex Best, …, Lawrence Wu, «Aristotle: IMO-level Automated Theorem Proving,» arXiv:2510.01346 [cs.AI] (01 Oct 2025), doi: https://doi.org/10.48550/arXiv.2510.01346.

Recomiendo leer Haocheng Ju, Bin Dong, “AI for Mathematics: Progress, Challenges, and Prospects,” arXiv:2601.13209 [math.HO] (19 Jan 2026), doi: https://doi.org/10.48550/arXiv.2601.13209.

La clave del reciente interés en demostrar problemas de Erdős es una página web que los recopila. Nació para incentivar la solución de estos problemas, a petición de Terence Tao, Thomas Bloom creó a finales de marzo de 2023 la página web Erdős Problems (https://www.erdosproblems.com/); en mayo de 2023 ya contenía unos 200 problemas y ahora tiene 1136 problemas (aunque no todos son originales del propio Erdős, pues algunos son problemas de otros colegas que le gustaban y que él trataba como si fuesen propios). Se estima que estos problemas deben ser unos 1500. De los 1136 problemas publicados han sido resueltos 469 (41 %), 181 de ellos desde abril de 2024. En concreto, mes a mes, 18 problemas (ene/26), 17 (dic/25), 3 (nov/25), 23 (oct/25), 9 (sep/25), 9 (ago/25), 3 (jul/25), 1 (jun/25), 11 (abr/25), 4 (feb/25), 11 (ene/25), 9 (dic/24), 5 (nov/24), 4 (oct/24), 7 (sep/24), 16 (ago/24), 15 (jul/24), 4 (jun/24), 6 (may/24) y 6 (arb/24). El día de la grabación del podcast se ha publicado la solución del problema #347 (jueves 22/01/26), y en la última semana del #1021 (miércoles 21/01/26), #281 #652 (domingo 18/01/26), #591 #1129 #1130 (sábado 17/01/26), y #570 #965 #1044 (viernes 16/01/26).

Como nos cuenta Thomas Bloom, «A new blog and a site retrospective,» 19 Jan 2026, la gran revolución en esta web ha sido la llegada de la IA generativa en octubre de 2025. Primero, facilitó la búsqueda bibliográfica exhaustiva de soluciones, que reveló muchas demostraciones en artículos desconocidos. Luego, desde diciember de 2025, empezaron a aparecer soluciones generadas por IA. Hay que destacar que no siempre son novedosas, pues en muchos casos una búsqueda bibliográfica posterior ha encontrado dicha demostración, o una muy parecida, en artículos ya publicados. Además, algunas soluciones son demasiado «fáciles», lo que ocurrió con la primera solución de IA del problema #728, lo que indica que el enunciado en la web no reflejaba lo que, en apariencia, tenía en su mente Erdős; en dichos casos, la colaboración de varios matemáticos ha permitido reformular el enunciado del problema, con lo que el problema pasa a estar sin solución (en el caso del problema #728 se obtuvo una demostración posterior usando IA).

Me gustaría recalcar que los problemas de Erdős tienen dificultades muy diferentes (Terence Tao considera que son ejemplo de la paradoja de Berkson). Hay unos pocos problemas que son muy difíciles (ninguno ha sido resuelto, ni se espera que una IA pueda lograrlo en los próximos meses). Otros tienen dificultad intermedia, pero la gran mayoría son de dificultad mínima. Estos últimos no han sido resueltos porque o bien carecen de interés y ningún matemático se ha puesto a hacerlo, o bien alguien los ha resuelto sin saber que estaba resolviendo un problema de Erdős y la demostración está oculta en la literatura científica. Ahora usando la IA generativa muchos matemáticos se están atreviendo a atacar este tipo de problemas de forma sistemática (por el minuto de gloria que supone resolver uno, aunque su interés práctico sea ridículo y su impacto en la matemática sea despreciable). Por otro lado, muy pocos problemas son de gran interés matemático (resuelven problemas necesarios en muchas áreas y por ello han atraído mucha atención entre los matemáticos). La mayoría tienen poco interés, o incluso carecen de interés. De hecho, la mayoría de los problemas resueltos con IA o con ayuda de la IA carecen de interés; por ello, estos resultados no serán publicados en ninguna revista científica.

La mayoría de los problemas de Erdős se están resolviendo gracias al diálogo entre matemáticos humanos que debaten las soluciones que ofrecen las IA generativa y que las guían en la dirección. Un ejemplo excelente es la resolución del problema #1026, cuya historia nos la cuenta de forma magnífica Terence Tao, «The story of Erdős problem #1026,» What’s new, 08 Dec 2025. En solo 48 horas este problema pasó de tener un enunciado ambiguo publicado en 1975 a tener una solución completa gracias a una combinación de ideas clásicas, colaboración online intensa y herramientas de IA. El problema se reinterpretó como un juego en el que Alicicia reparte pilas de monedas y Berto elige una subsecuencia monótona. Usando resultados conocidos (Erdős–Szekeres, Hanani) y algunos cálculos exactos para valores pequeños, se logró un enunciado y una demostración que se formalizó en Lean con Aristotle y cuya corrección se verificó. Un elemento clave fue el uso de AlphaEvolve de DeepMind, que permitió conectar el problema con un problema clásico de empaquetamiento de cuadrados (el problema de Erdős #106). El logro fue un resultado coral y transparente, gracias al ecosistema matemático moderno, que es híbrido, combinando IA generativa y personas; según Tao, sin las IA, las personas habrían logrado este resultado tras semanas o quizás meses.

Según nos cuenta Terence Tao, la mayoría de los fracasos de la IA se ocultan y se pierden como lágrimas en la lluvia. Con fecha de enero de 2026, estima que la tasa real de éxito de los LLM de frontera (como ChatGPT-5.2 Pro) es baja, entre el 1–2 %. Con cientos de problemas abiertos, este porcentaje se traduce en varias soluciones diarias, aunque para los problemas más fáciles. Además, hoy en día, cuanto más autónoma es la IA generativa, menos profundo o menos novedoso suele ser el resultado. Y cuanto más complejo es el avance, más intervención humana, apoyada en la IA, ha sido necesaria. El cuello de botella es la necesidad de la opinión de expertos. A pesar de ello, Tao es optimista y cree que el futuro es prometedor; en los próximos años la autonomía de las futuras IA permitirá que solo los problemas más difíciles requieran mucha intervención humana.

En resumen, el futuro de la vibe mathematics es muy prometedor, sobre todo como herramienta que ayude a demostrar lemas y teoremas usando herramientas estándares. Pero para los grandes problemas abiertos de la matemática se una creatividad mucho más allá de lo que alcanzan las IA generativas actuales. Quien sabe lo que pasará en el futuro… pero yo tengo serias dudas de que problemas de gran dificultad, como los Problemas del Milenio, algún día estén al alcance de las IA generativas.

7 Comentarios

Pedro Mascarós dice:

24 enero, 2026 a las 1:23 pm

Si un académico con cierto renombre, ya tenía que soportar una cantidad de correos de supuestas demostraciones en el buzón, no me quiero imaginar ahora con el auge de la IA…

Responder
mariana dice:

25 enero, 2026 a las 2:08 am

Francis en este video Arora dice que en 5 años se podran resolver grandes problemas matematicos gracias a «autosuperacion» que piensas? https://www.youtube.com/watch?v=HKj2KCsuCYs

Responder
1. Francisco R. Villatoro dice:
  
  25 enero, 2026 a las 1:04 pm
  
  Mariana, Tom Crawford (Tom Rocks Maths) entrevista a Sanjeev Arora en relación a su charla «Will There Be a Superhuman AI Mathematician?» que puedes disfrutar en YouTube https://youtu.be/q9MJWfo3DCE?t=216 (desde 03:40 hasta 20:40). Se centra en el concepto de «automejora recursiva» (recursive self-improvement), que se puede entender en el contexto del aprendizaje sin refuerzo como un método de autoaprendizaje (self-training by bootstraping). La idea es que en matemáticas este tipo de aprendizaje es más prometedor que en otras áreas de conocimiento (gracias a los verificadores automáticos de demostración, como Lean).
  
  En mi opinión es imposible predecir el estado que alcanzará la IA en cinco años, ni tampoco si la «automejora recursiva» permitirá resolver algún gran problema matemático. Yo soy pesimista sobre el impacto del bootstraping en matemáticas (y en ciencia en general); no me parece el mecanismo más prometedor. Creo que iniciativas como la de Terence Tao (Equational Theories Project) son mucho más prometedoras en matemáticas. Una colaboración entre las IA y grupos de humanos que sesgan sus soluciones mediante heurísticas más allá del alcance de las primeras. La IA puede hacer la fuerza bruta, pero el humano marca el rumbo epistemológico. Algo que se podría llamar «heuristically guided self-improvement» o «human-in-the-loop mathematical self-improvement».
  
  Como siempre, predecir el futuro es imposible (por definición de futuro), incluso el futuro a tan solo cinco años vista.
  
  Responder
mariana dice:

29 enero, 2026 a las 7:36 pm

Francis hablando de AI que piensas de este tipo de ai https://www.nature.com/articles/s41586-025-10014-0 lograra lo que dice que es un limite el poder enteder causas de enfermedades complejas a traves de entender el funcionamiento de genes y partes no funcionales? o solo se quedara en rutas moleculares? Finally, application to complex trait analysis is limited because AlphaGenome predicts molecular consequences of variants, whereas these phenotypes involve broader biological processes (including gene function, development and environmental factors) and gene-to-disease effects42 beyond the direct sequence-to-function scope of the model.

Responder
1. Francisco R. Villatoro dice:
  
  31 enero, 2026 a las 7:25 pm
  
  Mariana, nadie puede contestar a tu pregunta. AlphaGenome es una versión avanzada de la técnica de asociación GWAS, que asocia el genotipo con el fenotipo; la gran esperanza del Proyecto Genoma Humano era que GWAS revolucionara la medicina, pero no lo logró (salvo para enfermedades raras monogénicas). Nadie puede saber si AlphaGenome, que va mucho más allá de GWAS, podrá revolucionar la medicina. Yo creo que la mayoría de los expertos considera que el fracaso de GWAS apunta a que AlphaGenome fracasará (salvo en ciertas enfermedades). El éxito de AlphaFold2 (que era impredecible tras AlphaFold) no nos debe cegar, nadie puede predecir lo que ofrecerá AlphaGenome2 (si algún día llega a existir).
  
  Responder
Jose Brox dice:

3 febrero, 2026 a las 5:58 pm

Bueno, lo que hemos hecho en The Equational Theories Project tiene puntos en común con la resolución de problemas mediante IAs generativas, pero en realidad es bastante distinto. Principalmente hemos usado demostradores automáticos de teoremas (ATPs), que forman parte de la IA simbólica, y hemos formalizado los resultados en Lean, tanto los automáticos (para los que hemos automatizado el proceso de formalización), como los automáticos semiguiados por humanos, como los completamente generados por humanos. Además hemos colaborado en GitHub para poder masificar la colaboración (más de 300 colaboradores humanos en el chat, casi 90 en GitHub, 34 en el paper). El énfasis lo hemos puesto en la infraestructura correcta para conseguir una colaboración masiva entre agentes (artificiales o humanos) de distintas especialidades y niveles de experiencia, en la que la formalización permita mantener la confianza en los resultados ajenos y trabajar de forma particionada.

Responder
1. Francisco R. Villatoro dice:
  
  4 febrero, 2026 a las 10:46 pm
  
  Gracias, José, por tu instructivo comentario.
  
  Responder