No data was found

IA anticipa accidentes, pero falla al leer expresiones faciales

Un equipo de la Universidad Cornell descubrió que los sistemas de inteligencia artificial (IA) integrados en robots pueden anticipar el desenlace de situaciones tensas con mayor precisión que muchas personas cuando observan el contexto completo. Sin embargo, su desempeño es deficiente al intentar interpretar las expresiones faciales, una limitación que podría retrasar su integración en espacios donde convivan con humanos. La información fue difundida por el portal especializado TechXplore.

La investigación, presentada durante la ACM/IEEE International Conference on Human-Robot Interaction 2026, evaluó la capacidad de los denominados modelos de visión y lenguaje (VLM) para predecir si una escena breve terminaría de forma positiva o negativa. Cuando las pruebas se basaron en reacciones faciales, la exactitud de los modelos osciló entre 44,5% y 53,8%, y algunos incluso dieron la misma respuesta para todos los videos analizados.

María Teresa Parreira, doctoranda en Ciencias de la Información y autora principal del estudio, explicó que el objetivo es dotar a los robots de inteligencia social, es decir, la habilidad de interpretar gestos, anticipar necesidades y desenvolverse adecuadamente en la sociedad. “Emitimos señales sociales cuando interactuamos con el mundo. Para un robot que trabaja en un espacio humano compartido, la capacidad de incorporar esta información es clave para que opere de manera satisfactoria”, señaló la investigadora.

El estudio, titulado ‘Bad Idea or Good Prediction? Comparing VLM and Human Anticipatory Judgment’, examinó si los sistemas capaces de procesar imágenes y lenguaje podían anticipar el final de escenas como la de un niño pequeño que transporta una taza de café demasiado llena. Además, se les pidió que hicieran la misma predicción basándose únicamente en los rostros de las personas que observaban dichas escenas.

La investigación evaluó modelos de visión y lenguaje para predecir si una situación breve terminaría bien o mal a partir de escenas completas y de expresiones faciales (Imagen Ilustrativa Infobae)

Contexto versus rostros: la brecha de los modelos de IA

El equipo utilizó el mismo conjunto de escenas de un trabajo previo, en el que habían logrado entrenar modelos de IA para predecir desenlaces a partir de expresiones faciales de individuos que reaccionaban a esos videos. En esta nueva fase, buscaron comprobar si los modelos comerciales disponibles ya poseían esa capacidad de forma inherente.

Para ello, probaron tres modelos de código cerrado, entre ellos GPT-4o de OpenAI y Gemini 2.0 Flash de Google, así como tres modelos de código abierto, incluyendo DeepSeek. Esta distinción tiene implicaciones prácticas: los sistemas cerrados son más grandes, potentes y entrenados con más datos, mientras que los abiertos son más viables para su uso en robots, ya que no dependen del acceso a la nube y ofrecen mejores condiciones de privacidad, según detalló el portal.

Los videos incluían secuencias de acción como un hombre que maneja una cortadora de césped a alta velocidad o un robot humanoide que intenta saltar entre bloques. El mejor modelo de código abierto acertó el desenlace en un 70% de los casos, mientras que el mejor modelo de código cerrado alcanzó cerca del 63%, un nivel similar al del humano promedio.

Estos resultados respondieron a la pregunta central del trabajo: en la actualidad, los modelos pueden inferir riesgos de forma razonable cuando observan la situación completa, pero fallan al leer lo que otras personas expresan con el rostro. Esta diferencia evidencia un déficit de inteligencia social anticipatoria en los VLM actuales, señaló el portal.

Wendy Ju, profesora de Cornell Tech y autora principal del estudio, afirmó que la sensibilidad humana ante las reacciones ajenas sigue siendo un punto de referencia difícil de igualar. “Los humanos son muy buenos y muy sensibles a las reacciones de otras personas. Eso nos permite saber cosas de otras personas que nosotros mismos no sabemos, y eso es precisamente lo que intentamos darles también a los robots”, manifestó.

El mejor modelo de código abierto acertó el desenlace en 70% de los casos, mientras que el mejor modelo de código cerrado llegó a cerca de 63%, un nivel similar al humano promedio (Imagen Ilustrativa Infobae)

Robots en entornos humanos: límites y próximos pasos

La incapacidad de los modelos para leer expresiones faciales define el siguiente paso de la investigación. Los científicos intentan ahora comprender por qué estos sistemas fallan en esa tarea y si es posible mejorar su rendimiento mediante nuevas instrucciones.

Parreira sostuvo que el campo de estudio es amplio y aún poco explorado. “Es un espacio realmente grande para explorar. Hay mucha información expresada a través de señales sociales. Aprovecharla será clave para integrar robots en entornos humanos”, dijo.

El trabajo también reforzó la idea de que los robots deberían desarrollarse junto a las personas y no en aislamiento. Ju cuestionó la práctica de esperar a que una máquina parezca terminada antes de probarla en condiciones reales: “Demasiadas personas esperan hasta haber construido un robot que creen que funciona perfectamente. Cuando lo prueban, siempre se sorprenden al descubrir lo que exige el contexto y cómo reacciona la gente”.

La profesora defendió una estrategia distinta: desplegar robots antes de que alcancen una supuesta perfección para observar sus errores y la interacción humana, y luego adaptar su diseño. “Los robots pueden aprender mientras trabajan”, concluyó.

Fuente: Infobae

COMPARTIR ESTA NOTICIA

Facebook
Twitter

FACEBOOK