No data was found

La IA mejora su fiabilidad en 2025 apoyada en herramientas externas

En marzo de 2025, una investigación difundida en la revista npj Digital Medicine, perteneciente al prestigioso grupo Nature, sometió a ChatGPT a una evaluación exhaustiva consistente en 48 tareas de cálculo médico de carácter estándar. Los resultados iniciales fueron alarmantes: la herramienta falló en una de cada tres consultas planteadas. No obstante, al repetir el proceso integrando una calculadora médica especializada al modelo, la precisión se disparó de un escaso 4,8% a un contundente 95% en los sistemas de GPT, logrando reducir el margen de error hasta 13 veces.

Este fenómeno demuestra una realidad contundente: la tecnología no ha incrementado su coeficiente intelectual, sino que ha aprendido a solicitar asistencia externa. Este es el eje central de la evolución de la inteligencia artificial durante el último año, según un análisis detallado publicado recientemente por The Wall Street Journal bajo la firma del especialista Christopher Mims. Aunque los modelos actuales son utilizados por 500 millones de personas semanalmente y muestran ser más seguros que hace un año, este progreso no es el resultado de una superinteligencia emergente, sino de la implementación de diversos soportes técnicos por parte de los desarrolladores.

La carencia de razonamiento lógico en los LLM

Hacia finales de 2024, un equipo de seis investigadores de Apple, bajo el liderazgo de Iman Mirzadeh, presentó un documento técnico titulado GSM-Symbolic. Este estudio, que generó incomodidad en los círculos tecnológicos, evaluó a más de 20 modelos —incluyendo desarrollos de OpenAI, Google y Meta— mediante 5.000 problemas de matemáticas de nivel escolar. La prueba consistía en alterar únicamente los valores numéricos de problemas ya resueltos, manteniendo intacta la estructura lógica.

Los resultados fueron reveladores: el rendimiento disminuyó en todos los sistemas evaluados. De hecho, al introducir una oración totalmente irrelevante en el planteamiento —un dato que cualquier niño de diez años ignoraría—, la efectividad de las respuestas se desplomó hasta en un 65%. La investigación concluyó de forma tajante que los modelos de lenguaje extenso (LLM) basados en redes neuronales no realizan razonamiento lógico genuino, replican pasos de razonamiento desde sus datos de entrenamiento. En esencia, son motores de reconocimiento de patrones que calculan probabilidades estadísticas para determinar la palabra siguiente.

La confiabilidad de la inteligencia artificial mejoró gracias a la integración de herramientas tradicionales como calculadoras y buscadores.(Imagen Ilustrativa Infobae)

Las tres herramientas que sostienen la IA actual

De acuerdo con el análisis de Christopher Mims, existen tres pilares fundamentales que justifican la mejora en la utilidad de estos sistemas:

  • Conocimiento especializado: Los modelos actuales ya no solo se alimentan de información genérica de internet, sino que incluyen bases de datos generadas por humanos expertos contratados específicamente para esta tarea.
  • Uso de herramientas externas: Los sistemas han sido programados para delegar tareas. Si detectan un cálculo complejo, recurren a Python; si requieren datos actualizados, consultan en tiempo real a Google.
  • Auditoría interna cruzada: Se han implementado protocolos donde un modelo de producción solicita a otro sistema que revise su respuesta antes de entregarla al usuario final.

Esta estructura no representa una evolución en el razonamiento, sino ingeniería de software tradicional rodeando un predictor probabilístico. Según reportes obtenidos por The Wall Street Journal, OpenAI ha confirmado que su modelo estrella actual comete un 26% menos de errores factuales en comparación con el anterior GPT-4o. Esta mejora se atribuye exclusivamente a la capacidad del sistema para verificar, delegar y consultar fuentes.

«Los LLM siguen siendo igual de poco fiables que siempre, pero ahora se pueden combinar con tecnologías deterministas que habían perdido prestigio y que resultan utilísimas.»

Esta afirmación pertenece a Gary Marcus, uno de los analistas más críticos del sector, quien destaca que el éxito actual reside precisamente en lo opuesto al concepto de superinteligencia.

El hallazgo inesperado en Anthropic

Una de las pruebas más evidentes de esta desconfianza técnica surgió accidentalmente el pasado 31 de marzo. El investigador Chaofan Shou detectó que Anthropic dejó expuesto el código fuente de Claude Code, uno de sus agentes más rentables. La empresa confirmó a medios como The Register y Axios que se trató de un error humano de empaquetado. Sin embargo, el código reveló que el sistema —que genera ingresos anualizados de 2.500 millones de dólares— contiene instrucciones directas para que el modelo desconfíe de su propia memoria y valide cada dato contra el código real antes de emitir una respuesta.

Esto sugiere que incluso los ingenieros de Anthropic han programado desconfianza en sus propios sistemas, obligándolos a realizar chequeos constantes bajo una fachada de razonamiento avanzado.

El avance de la IA depende de la integración con recursos y soluciones ya existentes, y no de un salto en su capacidad de razonamiento. (Imagen Ilustrativa Infobae)

Implicaciones para el mercado laboral

Esta situación plantea una paradoja para el sector empresarial. Muchos directivos que planean reducir personal bajo la premisa de que la IA sustituirá sus funciones, están adquiriendo una herramienta que no funciona de forma autónoma. La utilidad real reside en una arquitectura donde el modelo de lenguaje es solo una pieza de un rompecabezas que incluye gestión de memoria, buscadores y sistemas de auditoría.

En lugar de requerir menos personal, la implementación efectiva de estas tecnologías demanda más profesionales capacitados en la integración de estas piezas. El verdadero valor económico de la próxima década no se encontrará en los modelos en sí mismos, sino en la capacidad humana para construir los andamios técnicos que los sostienen. Aquellas organizaciones que pretendan reemplazar la inteligencia humana por una simple suscripción a un chatbot, podrían estar invirtiendo en una promesa sin fundamentos reales.

Fuente: Fuente

COMPARTIR ESTA NOTICIA

Facebook
Twitter

FACEBOOK

TWITTER