La innovación tecnológica ha alcanzado un nuevo nivel con Project Genie, un modelo de inteligencia artificial de carácter experimental que Google dio a conocer en enero. Esta herramienta destaca por su capacidad técnica: a partir de una simple imagen o una breve descripción textual, es capaz de generar un entorno interactivo y explorable. Por ejemplo, si un usuario introduce una obra de Georges Seurat, el sistema permite realizar un recorrido virtual por el parque con la estética puntillista del autor.
Aunque su funcionamiento recuerda al de un videojuego, sus desarrolladores sostienen que “modelo del mundo” es el término adecuado para describirlo. Este concepto es visto como una pieza fundamental para que los sistemas de IA logren comprender los entornos físicos, a menudo caóticos, donde operarán en el futuro. Según la compañía, hitos como el despliegue de coches autónomos en zonas rurales o robots humanoides realizando compras domésticas no serían factibles sin estos modelos integrados.
Raíces históricas y evolución teórica
La idea central no es nueva. En 1943, el psicólogo de origen escocés Kenneth Craik propuso que los seres vivos poseen un “modelo a pequeña escala” de la realidad en sus mentes, permitiéndoles evaluar escenarios antes de actuar. Para Craik, esta capacidad es lo que diferencia a un organismo con propósito de uno meramente reactivo, que solo responde a estímulos básicos como el dolor o el hambre.
Si bien esta línea de investigación era muy activa en la década de 1990, quedó en segundo plano con el auge de los grandes modelos de lenguaje (LLM). No obstante, el interés por dotar a la IA de una comprensión espacial ha resurgido con fuerza en la actualidad.
Tres caminos hacia la comprensión del entorno
En la actualidad, la comunidad científica explora tres vías principales para consolidar estos modelos:
- Generación de video: Se basa en la premisa de que para crear un video coherente, la IA debe simular leyes físicas estables. Estos sistemas pueden predecir qué sucede fuera de una imagen; por ejemplo, si ven una mano sujetando un frasco, pueden deducir los movimientos para abrirlo.
- Inteligencia espacial en 3D: Propuesto por Fei Fei Li, académica de la Universidad de Stanford. Este enfoque busca crear mundos digitales tridimensionales, consistentes y multimodales.
- Arquitecturas predictivas: Defendidas por Yann LeCun, quien propone modelos que no necesitan ser literales, sino capaces de prever consecuencias a largo plazo.
Project Genie representa la cima del primer enfoque. Su utilidad radica en que permite a otros sistemas, como un robot comerciante, entrenarse en simulaciones precisas sin necesidad de miles de millones de horas de datos reales, acelerando su aprendizaje mediante el auto-entrenamiento.
Limitaciones y el salto al 3D
Pese a sus avances, el video tiene carencias. No puede captar estímulos invisibles como el olor de pescado podrido en un congelador averiado o elementos fuera del cuadro de cámara. Por ello, la startup World Labs, dirigida por la Dra. Li, ha desarrollado Marble. A diferencia de las simulaciones en 2D que fallan tras 60 segundos, Marble crea mundos en tres dimensiones con coherencia interna total desde el inicio. Esta tecnología ya se está promocionando entre arquitectos para que exploren virtualmente sus diseños antes de materializarlos.
“Qué secuencia de acciones realizará de forma óptima la tarea que estoy planteando”
Por otro lado, Yann LeCun, quien fuera científico jefe en Meta, sostiene que la IA debe modelar entornos de forma menos literal. Tras dejar Meta en noviembre de 2025, LeCun fundó Advanced Machine Intelligence para trabajar en la Arquitectura Predictiva de Integración Conjunta (JEPA). Su objetivo es que la IA tome decisiones rápidas y estratégicas, similar a como un humano decide llevar un paraguas tras mirar el cielo, sin visualizar cada detalle del día. Actualmente, colabora con la firma de salud Nabla para aplicar esta visión.
¿Contienen los LLM un modelo del mundo oculto?
Existe un debate sobre si las IA actuales ya poseen esta capacidad. Ilya Sutskever, cofundador de OpenAI, argumentó en 2023 que comprimir la información de internet implica aprender principios subyacentes de la realidad. Experimentos con un modelo entrenado en movimientos de Othello demostraron que el sistema representaba el tablero internamente sin haberlo visto nunca.
Asimismo, laboratorios como Anthropic han identificado en su modelo Claude grupos de neuronas que reaccionan a conceptos específicos como el puente Golden Gate o sentimientos de culpa. Esto sugiere una comprensión física más profunda de lo que parece a simple vista.
Sin embargo, la Dra. Li se mantiene escéptica, calificando a los LLM como
“creadores de palabras en la oscuridad”
. Para ella, conocer el lenguaje no equivale a comprender la realidad física, comparándolo con un estudiante que lee sobre un país pero nunca lo visita. Independientemente de qué teoría prevalezca, es evidente que la inteligencia artificial está cada vez más cerca de salir del mundo digital para interactuar con el nuestro.
Fuente: Fuente