Una reciente investigación ha puesto de manifiesto una vulnerabilidad crítica en los sistemas de inteligencia artificial generativa. Herramientas de gran alcance como ChatGPT y Gemini fueron inducidas a replicar datos totalmente falsos tras ser publicados en la web con una apariencia de veracidad.
El experimento comprobó que la difusión de contenidos inventados, presentados bajo una estructura profesional en un blog, bastó para que estas plataformas de IA los adoptaran como referencias válidas. Este hallazgo reaviva las alarmas sobre los procesos de verificación que emplean los modelos automatizados al generar respuestas para los usuarios.
Esta prueba fue ejecutada por el periodista de tecnología Thomas Germain, colaborador de BBC, quien decidió crear una entrada en su blog personal cargada de información ficticia. En su artículo, el autor mencionaba la realización de un inexistente campeonato internacional que vinculaba a periodistas con la gastronomía, además de adjudicarse logros que jamás ocurrieron, involucrando tanto a personas reales como a nombres inventados.

La rapidez de la indexación errónea
El propósito de Thomas Germain era observar el comportamiento de la IA cuando se enfrenta a temas sobre los que no existe registro previo en sus bases de datos. El resultado fue alarmante: en un lapso menor a 24 horas, diversos buscadores y herramientas conversacionales empezaron a citar el texto falso como si fuera una fuente de autoridad.
Este fenómeno expone las debilidades en los mecanismos de recuperación de información de gigantes tecnológicos como OpenAI y Google. Sus sistemas operan mediante una combinación de entrenamiento previo y consultas dinámicas a internet. Cuando la IA carece de antecedentes históricos sobre un tópico, tiende a apoyarse en lo primero que encuentra disponible en línea, facilitando la integración de datos manipulados.

Especialistas en la materia denominan a esta problemática como “contaminación de fuentes abiertas”. Este concepto describe la facilidad con la que se puede inyectar desinformación en el ecosistema digital, con la meta de que los algoritmos la prioricen basándose en su estructura textual o relevancia aparente, en lugar de realizar una validación de contexto profunda.
Para lograr este engaño, no se requirió de ataques cibernéticos ni de vulnerar protocolos de seguridad complejos. El blog simplemente fue redactado con un lenguaje convincente, una arquitectura periodística estándar y referencias que parecían plausibles a simple vista. Esta optimización para ser indexado fue suficiente para que los modelos de lenguaje lo interpretaran como material fidedigno.
La respuesta de las grandes tecnológicas
Ante la controversia generada por este experimento, voceros de Google indicaron que sus algoritmos de clasificación trabajan constantemente para mantener los resultados “mayoritariamente libres de spam”, utilizando diversas señales de calidad y confiabilidad. No obstante, la empresa admitió que sus modelos aún son susceptibles a cometer errores de este tipo.
Por su parte, desde OpenAI se informó que se encuentran en el desarrollo de nuevas funciones para detectar intentos de influencia indebida y mejorar la evaluación de sus fuentes externas. Sin embargo, los desarrolladores de la tecnología admitieron que estos sistemas no son infalibles.

El ensayo de Germain no afectó a todos los sistemas por igual. Durante las pruebas con otras plataformas, como las desarrolladas por Anthropic, se observó una mayor prudencia. En ciertos escenarios, estos sistemas mostraron cautela al responder o advirtieron sobre la falta de evidencia independiente, identificando que la información presentada en el blog era de carácter dudoso.
El incidente resalta un desafío estructural de la IA generativa: su dependencia absoluta de la calidad de los datos en la red. A diferencia de los motores de búsqueda convencionales que ofrecen una lista de enlaces para que el usuario juzgue la fuente, los sistemas conversacionales sintetizan todo en una respuesta única. Esta característica puede generar una falsa sensación de certeza en quienes consultan estas herramientas.
«La facilidad con la que se puede generar texto convincente y posicionarlo en la web reduce las barreras de entrada para influir en debates públicos o difundir datos engañosos sobre salud y finanzas.»
Expertos en desinformación advierten que esta dinámica podría ser utilizada con fines más sensibles que un simple experimento. La capacidad de manipular la percepción algorítmica representa un riesgo real para la integridad de la información en internet.

Como medida de prevención, analistas recomiendan a la audiencia mantener una actitud crítica frente a los contenidos generados artificialmente. Es fundamental verificar las fuentes originales siempre que sea posible y contrastar cualquier dato relevante con múltiples referencias que gocen de independencia y reputación comprobada.
Fuente: Fuente