El lanzamiento de Claude Fable 5, presentado por Anthropic como uno de los modelos de inteligencia artificial más avanzados y seguros, ha quedado bajo la lupa. Apenas 48 horas después de su debut, un investigador conocido en la comunidad de IA como “Pliny the Liberator” aseguró haber vulnerado las barreras de seguridad del sistema mediante una serie de técnicas de jailbreak que lograron eludir los filtros diseñados por la compañía.
La información fue difundida por el propio investigador a través de una publicación en la red social X. Según explicó, consiguió “liberar” a Claude Fable 5 apenas un día después de que Anthropic pusiera a disposición del público este modelo, que fue presentado como una alternativa más accesible a Mythos y equipado con mecanismos de protección reforzados para impedir respuestas relacionadas con actividades potencialmente peligrosas.
Un hackeo que pone a prueba las promesas de Anthropic
Anthropic había destacado que Claude Fable 5 incorporaba uno de los sistemas de seguridad más sofisticados desarrollados hasta ahora. Entre sus mecanismos figuraban clasificadores capaces de detectar solicitudes relacionadas con ciberseguridad, química, biología e intentos de extracción del conocimiento interno del modelo.

Cuando el sistema identificaba una consulta considerada riesgosa, esta era redirigida automáticamente hacia Claude Opus 4.8, una versión especializada en gestionar preguntas sensibles.
Sin embargo, Pliny sostuvo que estas barreras pudieron ser superadas utilizando una combinación de estrategias avanzadas. Entre ellas mencionó el uso de caracteres Unicode y homoglifos, marcos narrativos y académicos, técnicas de descomposición y recomposición de peticiones y una versión modificada de Claude Opus 4.8.
De acuerdo con el investigador, el objetivo consistía en lograr que la inteligencia artificial respondiera preguntas que normalmente habrían sido bloqueadas por los filtros de seguridad.

La técnica más efectiva consistió en fragmentar las preguntas
Según la explicación difundida por Pliny, el método que ofreció mejores resultados fue la denominada “descomposición y recomposición en el backend”.
En lugar de formular directamente una solicitud que pudiera activar las alarmas del sistema, las preguntas eran divididas en varias partes aparentemente inofensivas. Cada fragmento superaba los controles de forma independiente y, posteriormente, eran reunidos para reconstruir la petición original.
Esta estrategia permitió obtener respuestas que, en teoría, debían permanecer restringidas. El caso ha reabierto el debate sobre la eficacia real de las barreras de seguridad implementadas en los modelos de inteligencia artificial más avanzados.

Quién es Pliny the Liberator
Pliny the Liberator es una figura anónima ampliamente conocida entre investigadores y desarrolladores de IA. Durante los últimos años se ha dedicado a descubrir vulnerabilidades en sistemas como ChatGPT, Grok y versiones anteriores de Claude.
Según un reportaje de la revista Time, comenzó a compartir públicamente sus técnicas después de que varias empresas ignoraran las advertencias privadas que les había enviado acerca de diferentes fallos.
Actualmente administra una comunidad en Discord con más de 20.000 miembros, donde se desarrollan colectivamente nuevos métodos de jailbreak.
Su trabajo también ha contado con apoyo financiero del inversor Marc Andreessen y ha colaborado con OpenAI en tareas relacionadas con el fortalecimiento de los sistemas de seguridad.

Un debate abierto sobre la seguridad de la IA
Aunque las técnicas de jailbreak suelen generar controversia, Pliny sostiene que su intención no es provocar daños, sino demostrar que los riesgos existen y que deben ser comprendidos antes de que sean explotados por actores maliciosos.
Entre sus actividades también figura la extracción de los llamados prompts de sistema, es decir, las instrucciones ocultas que determinan cómo se comporta un modelo de inteligencia artificial. El investigador defiende que, a medida que estas herramientas adquieren un papel más importante en la sociedad, los usuarios tienen derecho a conocer los principios que rigen sus respuestas.
El caso de Claude Fable 5 plantea nuevas preguntas para la industria. Si uno de los modelos que Anthropic presentó como más seguros pudo ser vulnerado en menos de dos días, expertos y desarrolladores deberán evaluar hasta qué punto las actuales barreras son capaces de resistir frente a técnicas cada vez más sofisticadas.
Por el momento, Anthropic no ha emitido un pronunciamiento público sobre las afirmaciones realizadas por Pliny the Liberator ni sobre el supuesto alcance de la vulneración reportada.
Fuente: Infobae