La inteligencia artificial ha dado un paso que va más allá del simple cálculo: ciertos modelos de lenguaje ya son capaces de generar razonamientos que los especialistas califican como conexiones sorprendentes entre distintas ramas de las matemáticas. Así lo reportó la prestigiosa revista científica Nature. Thang Luong, quien lidera el equipo de Razonamiento Sobrehumano en Google DeepMind, aventuró que “quizás para 2030” la IA y los matemáticos podrían compartir una Medalla Fields, el galardón más codiciado en esta ciencia.
Un caso que marcó un antes y después ocurrió el mes pasado, cuando Liam Price, un joven del suroeste de Inglaterra sin formación universitaria en matemáticas, logró resolver, con la ayuda de ChatGPT, el enigma conocido como #1196 de Erdős. La solución fue detallada en una
Price ya había resuelto otros problemas de Erdős junto a Kevin Barreto, estudiante de matemáticas en la Universidad de Cambridge, pero en esos casos se apoyaron en técnicas ya documentadas. En el caso del problema #1196, los matemáticos detectaron indicios de que el modelo no solo combinó métodos existentes, sino que generó conexiones que no figuraban en su material de entrenamiento.
“Hace un año, la gente pensaba que tal vez habría algún obstáculo fundamental, que los modelos de lenguaje nunca podrían ir más allá de sus datos de entrenamiento”, comentó Sébastien Bubeck, matemático de OpenAI en San Francisco.
El matemático de la Universidad de Toronto Daniel Litt opinó que el resultado es “razonablemente interesante”, a diferencia de otros casos recientes de soluciones de IA a problemas de Erdős. Aunque se mostró poco impresionado por muchos avances hasta ahora y crítico de la exageración que los rodea, sostuvo que los escépticos subestiman el potencial futuro de estos sistemas.
Litt expresó su sorpresa porque las grandes máquinas de lenguaje no generan descubrimientos mayores, dado que poseen un conocimiento sobre las matemáticas existentes que describió como sobrehumano, muestran capacidad de razonamiento y no padecen cansancio ni desmotivación. “Parte del misterio es que no sabemos qué hace bueno a un matemático humano en matemáticas”, explicó.

Demostraciones más extensas, verificación más compleja
Uno de los desafíos actuales en la producción matemática de IA es la longitud de las demostraciones: los modelos disponibles pueden generar pruebas de 3 o 4 páginas como máximo. Luong indicó que modelos evaluados internamente ya superan ese límite y podrían alcanzar pronto las 10 páginas.
“100 no está ahora dentro de sus capacidades, pero estamos trabajando hacia eso y vemos mejoras”, señaló Luong. Este avance, argumentó, plantea nuevos retos, ya que la revisión humana de textos matemáticos generados por IA ya había llegado a su límite antes de la explosión actual de estos sistemas.
La matemática de la Universidad de Harvard Lauren Williams declaró que estos modelos pueden producir trabajos “muy convincentes” cuya verificación exige mucho tiempo para detectar posibles errores. También alertó sobre la proliferación de contenido generado por IA de baja calidad o directamente erróneo —lo que denominó “basura de IA”— y subrayó que varios editores de revistas matemáticas ya enfrentan este fenómeno.
Una respuesta común consiste en pedirle a otro modelo, o incluso al mismo, que revise la demostración. Price y Barreto, por ejemplo, reintroducen en ChatGPT las soluciones propuestas para que encuentre sus propios errores y reelabore el intento hasta que la prueba parezca correcta; muchos matemáticos ya usan este método también con textos propios. A pesar de ello, los modelos aún pasan por alto fallos y a veces detectan errores inexistentes.

Google ha desarrollado un sistema especializado de múltiples agentes, Aletheia, que incorpora un módulo verificador para texto matemático. No obstante, la alternativa considerada más fiable por varios investigadores es traducir las pruebas al lenguaje formal Lean, un sistema de código abierto que permite verificaciones automáticas.
El matemático computacional Bin Dong y sus colaboradores
De acuerdo con la revista, cualquiera podía presentar soluciones generadas por IA. Casi todas se redactaron en lenguaje natural y solo una se verificó en Lean; algunas se comprobaron manualmente y en otras aún no está claro si son correctas.
En junio, los organizadores de First Proof someterán un nuevo conjunto de preguntas a varios sistemas de IA y verificarán las respuestas de forma manual. Williams, una de las organizadoras, indicó que la prueba se centrará en modelos de acceso público porque son los más habituales para la mayoría de matemáticos: “Esperamos que lo que hagamos sea un servicio para la comunidad de matemáticos”.
A pesar del ritmo de los cambios, el consenso entre los investigadores es que los matemáticos humanos seguirán al frente de la disciplina durante algún tiempo. “Qué problemas estudiar es más una cuestión de juicio. Durante un tiempo, serán los humanos quienes lo hagan”, afirmó Mark Sellke, matemático de OpenAI.
El matemático de la Universidad Brown Javier Gómez-Serrano graficó la velocidad de este cambio con una advertencia: “Ahora ni siquiera me atrevo a pensar cómo será el futuro dentro de cinco años”. Para Jeremy Avigad, matemático de Carnegie Mellon University, el criterio central permanece otro: “En última instancia, el objetivo de las matemáticas es entender los fenómenos matemáticos. Para eso, necesitamos seguir dentro del circuito”.
Fuente: Infobae