La incorporación masiva de herramientas de inteligencia artificial en el sector sanitario está transformando profundamente la manera en que la ciudadanía accede a datos de índole médica. Sistemas conversacionales de gran alcance, tales como ChatGPT, Gemini y otros modelos avanzados, han ganado terreno rápidamente debido a su inmediatez para contestar dudas, volviéndose una alternativa para personas con acceso limitado a servicios médicos tradicionales.
A pesar de esta adopción acelerada, el incremento en la confianza depositada en estas plataformas ha despertado serias dudas sobre su fiabilidad. La posibilidad de recibir guías médicas automatizadas conlleva peligros intrínsecos que han sido analizados recientemente por la comunidad científica internacional.
Un nuevo análisis publicado por la prestigiosa revista médica BMJ Open ha puesto bajo la lupa las deficiencias y amenazas que supone el uso de estos instrumentos para resolver inquietudes de salud. El informe es contundente:
“casi la mitad de las respuestas generadas por los principales chatbots públicos resultan problemáticas, inexactas o potencialmente peligrosas”
.
Los investigadores sostienen que, bajo una fachada de rapidez y precisión, subyace una carencia estructural en cuanto a la seguridad y calidad de la información entregada al usuario final.
Para llegar a estas conclusiones, se evaluó el comportamiento de cinco modelos destacados: Gemini 2.0, DeepSeek V3, Llama 3.3, ChatGPT 3.5 y Grok 2. El experimento consistió en realizar 250 consultas sobre temas de alta sensibilidad como el cáncer, las vacunas, el rendimiento deportivo, la nutrición y el uso de células madre.
Tras una revisión exhaustiva por parte de especialistas independientes, se determinó que el 49,6 % de las respuestas fue catalogado como riesgoso o problemático. En contraparte, apenas el 50,4 % logró alinearse con los estándares médicos internacionales vigentes.
¿Por qué fallan los modelos de inteligencia artificial?
Las fallas detectadas se fundamentan en que estos sistemas no poseen la capacidad de realizar un razonamiento clínico real. En su lugar, operan mediante predicciones estadísticas de palabras, lo que les otorga un tono persuasivo que puede engañar al usuario, llevándolo a creer en datos sin sustento científico o incluso en consejos que ponen en riesgo su bienestar físico.

La investigación detalla que la estructura de la consulta influye directamente en el error: las preguntas abiertas derivaron en un 32 % de respuestas altamente conflictivas, mientras que en las preguntas cerradas este indicador bajó al 7,2 %. En cuanto a las temáticas, los chatbots mostraron mayor precisión en oncología y vacunación, pero fallaron notablemente en nutrición (índice de +4,35) y rendimiento deportivo (+3,74). Respecto a los modelos, se observó que Grok 2 generó una cantidad de respuestas peligrosas superior a lo esperado, con una desviación de +2,07.
Otro punto de alarma es la escasa resistencia de los sistemas a emitir diagnósticos o consejos sobre temas críticos. Solo en el 0,8 % de los casos los chatbots se negaron a responder, una cifra alarmantemente baja que facilita la propagación de desinformación en casos complejos.
Debilidades en rigor científico y comprensión
El estudio también auditó el respaldo bibliográfico de las respuestas, encontrando que un 40 % de las citas científicas eran de baja calidad o insuficientes. Mientras que Gemini fue la plataforma que menos referencias aportó, modelos como DeepSeek y Grok lograron un 60 % de referencias completas específicamente en preguntas de formato cerrado.
Adicionalmente, se identificó una barrera de lenguaje: el nivel de complejidad de los textos generados requiere, por lo general, una formación universitaria avanzada. Esto dificulta que gran parte de la población pueda interpretar correctamente las advertencias o la información técnica suministrada.

En el análisis comparativo, aunque los temas de cáncer y vacunas tuvieron mejores resultados, la vulnerabilidad en áreas de estilo de vida fue evidente. Grok se posicionó como el modelo con mayor tendencia a emitir juicios riesgosos, superando las previsiones negativas iniciales sobre su desempeño técnico.
Alertas para la salud pública y recomendaciones
Ante la alta incidencia de respuestas erróneas y la seguridad excesiva con la que la IA presenta datos falsos, los expertos recomiendan una precaución absoluta. La supervisión humana y la mejora en la educación digital son pasos urgentes para mitigar estos riesgos globales.

El equipo investigador puntualizó que su análisis se limitó a un conjunto de datos específico por modelo y que los criterios de referencia podrían haber dejado fuera otras fuentes válidas. No obstante, ante el avance de la tecnología en la salud, la conclusión es tajante:
“buscar consejo en chatbots exige escepticismo extremo y priorizar siempre la consulta con profesionales capacitados”
.
Fuente: Fuente