Peter Park, del Instituto de Tecnología de Massachusetts (EE.UU.), y otros tres expertos en seguridad de la inteligencia artificial (IA) afirmaron que una variedad de sistemas de IA actuales ha aprendido a engañar deliberadamente a los humanos. En su estudio, el equipo de Park sostiene que los grandes modelos de lenguaje y otros sistemas de inteligencia artificial ya han aprendido, gracias a su entrenamiento, la capacidad de engañar mediante técnicas como la manipulación, la adulación y el engaño en la prueba de seguridad.
Los científicos también alertan, en su artículo publicado el pasado viernes en Cell, que las crecientes capacidades de engaño de la IA plantean riesgos graves, que van desde «riesgos a corto plazo, como el fraude y la manipulación electoral, hasta riesgos a largo plazo, como la pérdida de control de los sistemas de IA».
«Resultó ser un mentiroso experto«
Los investigadores centraron su estudio en el análisis de sistemas de IA de uso especial (incluido CICERO de Meta*) y de propósito general (incluidos los grandes modelos de lenguaje) para ejemplificar las diferentes estrategias de engaño de estos sistemas.
Los especialistas señalaron que Meta desarrolló el sistema de inteligencia artificial CICERO para jugar Diplomacia, un juego de construcción de alianzas y conquista que se ambienta en la Europa del siglo XX, antes de la Primera Guerra Mundial. Los jugadores negocian y se engañan los unos a los otros, en un delicado equilibrio de cooperación y competencia que tiene por finalidad la conquista del territorio.
Sin embargo, los investigadores plantean que, a pesar de los esfuerzos de Meta por que CICERO fuera «en gran medida honesto y servicial con sus interlocutores», este «resultó ser un mentiroso experto«. Subrayaron que «no solo traicionó a otros jugadores, sino que también participó en un engaño premeditado, planeando de antemano construir una alianza falsa con un jugador humano para engañarlo y dejarlo indefenso ante un ataque». Señalaron que en este caso CICERO fue manipulador.
Asimismo, señalaron que AlphaStar, de DeepMind, realizó fintas en el juego de estrategia en tiempo real Starcraft II.5. Los investigadores manifestaron que Pluribus, un modelo de juego de póquer creado por Meta, logró engañar mediante faroles a los jugadores humanos para que se retiraran. De esta manera, mediante varios ejemplos, los sistemas de inteligencia artificial aprendieron a engañar para aumentar su rendimiento en un tipo específico de juego o tarea.
La solución
«Se necesitan soluciones proactivas, como marcos regulatorios para evaluar los riesgos de engaño de la IA, leyes que exijan transparencia sobre las interacciones de la IA y más investigaciones para detectar y prevenir el engaño de la IA», son algunas de las propuestas de solución que sugirieron los especialistas.
Reacciones de los expertos
La posición de otros especialistas frente a las propuestas de Park y su equipo fue diversa, tal y como recogió Science Media Centre, el pasado viernes. El profesor Harin Sellahewa, decano de la Facultad de Informática, Derecho y Psicología de la Universidad de Buckingham (Reino Unido) critica que en el estudio «se destacan muchos ejemplos de ‘engaño’ de la IA, pero es cuestionable si la IA actuó ‘intencionalmente’ […] en la consecución de sus objetivos».
Sellahewa también reprocha que en el estudio falta mencionar un «mecanismo de seguridad esencial» que se corresponde con la necesidad de que los «desarrolladores de sistemas y algoritmos de IA deben establecer barreras de seguridad sólidas y precisas para evitar que la IA lleve a cabo acciones que se consideren engañosas, incluso si es probable que esas acciones lleven a la IA a lograr sus objetivos».
Por su parte, Anthony G Cohn, profesor de razonamiento automatizado en la Universidad de Leeds (Reino Unido) alabó el estudio. «Este estudio sobre el engaño de la IA es oportuno y bienvenido: con la creciente prevalencia y despliegue de la IA aparentemente en todos los aspectos de nuestra vida cotidiana y empresarial, saber más sobre las capacidades y los peligros de la IA es vital para beneficiarse de ellos y al mismo tiempo limitar su potencial para causar daño«, expresó.
«Todos los ejemplos que describen en el artículo fueron diseñados para optimizar su rendimiento en entornos donde el engaño puede ser ventajoso. Desde esta perspectiva, estos sistemas están funcionando como se supone que deben hacerlo«, subrayó Daniel Chávez Heras, profesor de Cultura Digital y Computación Creativa del King’s College de Londres. «El engaño existe en el mundo. ¿Por qué esperaríamos que estos sistemas no lo detecten y lo pongan en funcionamiento si eso les ayuda a alcanzar los objetivos que se les asignan?», recalcó. RT
ra