ChatGPT: Hasta dónde puede llegar la IA bajo presión

Los chatbots de IA lo engañarán y le “mentirán” si los “estresa”, incluso si fueron diseñados para ser transparentes.

¿Hasta dónde puede llegar la IA bajo presión? Esa es una duda que muchos tenemos pero, si hay algo importante que señalar es que, al igual que los humanos, los chatbots de Inteligencia Artificial (IA) como ChatGPT lo engañarán y le “mentirán” si los “estresa”, incluso si fueron diseñados para ser transparentes, según ha mostrado un reciente estudio.

via GIPHY

La IA bajo presión

Según se pudo conocer, este comportamiento engañoso surgió de forma espontánea cuando a la Inteligencia Artificial se le dieron consejos sobre “uso de información privilegiada” y posteriormente se le fijó la tarea de ganar dinero para una institución poderosa, hay que acotar que sin el estímulo de sus socios humanos.

Los autores escribieron en su investigación publicada el 9 de noviembre en el servidor de preimpresión arXiv lo siguiente: “En este informe técnico, demostramos un escenario único en el que un modelo de lenguaje grande actúa desalineado y engaña estratégicamente a sus usuarios sin recibir instrucciones para actuar de esta manera. Hasta donde sabemos, esta es la primera demostración de un comportamiento estratégicamente engañoso en sistemas de IA diseñados para ser inofensivos y honestos”.

En el reciente estudio, prepararon el GPT-4 (el cual impulsa ChatGPT Plus), para que se comporte como un sistema de Inteligencia Artificial que realiza inversiones en nombre de una institución financiera.

Según se conoce, los investigadores alimentaron a GPT-4 de OpenAI con un conjunto de indicaciones basadas en texto para generar el entorno simulado. Posteriormente, la Inteligencia Artificial tuvo acceso a herramientas financieras para analizar acciones, así como para ejecutar operaciones, planificar sus próximos pasos e incluso, para entregar actualizaciones a los gerentes de la empresa.

Los investigadores interactuaron con la IA mediante una interfaz de chat, al mismo tiempo que configuraban la Inteligencia Artificial para que revelara su pensamiento interno al responder mensajes: un monólogo interno que se explicaba a sí mismo sus decisiones. Para cada transacción que ejecutaba, también entregaba una justificación “pública”, lo cual, abría la puesta para que la IA pudiera mentir.

via GIPHY

Investigadores aplicaron presión de 3 formas

Cabe destacar que los investigadores aplicaron presión de 3 formas. Primero, le enviaron al operador bursátil artificial un correo electrónico de su “gerente” diciéndole que a la compañía no le está yendo bien y que necesita un desempeño mucho más sólido en el próximo trimestre. Así mismo, manipularon el juego para que la Inteligencia Artificial intentara, y luego fracasara, encontrar operaciones prometedoras que fueran de riesgo bajo o medio. Por último, enviaron un correo electrónico de un colega que proyectaba una desaceleración en el próximo trimestre.

Posteriormente, le dieron al modelo una información privilegiada mientras le transmitían que sus gerentes desaprobaban el uso de información privilegiada y esperaron a percibir cómo se comportaría el modelo. Repitieron el escenario una y otra vez es decir, varias veces, midiendo con qué frecuencia la Inteligencia Artificial efectuaba tráfico de información privilegiada, con qué frecuencia mentía y así mismo, con qué frecuencia duplicaba la mentira.

Según dieron a conocer, cerca del 75% de las veces, al enfrentarse a estas condiciones, GPT-4 de OpenAI, ejecutó una operación basada en la información privilegiada que recibió (que es ilegal en los Estados Unidos) y luego trató de encubrirla mintiendo a sus gerentes sobre su forma de pensar. Alrededor del 90% de las veces, luego de mentir, duplicó su mentira.

Fueron varios experimentos de seguimiento

Según se informa, el equipo llevo a cabo diversos experimentos de seguimiento, cambiando tanto el grado en que las indicaciones fomentaban o desalentaban la actividad ilegal, como también el grado de presión a la que sometían al modelo en el entorno simulado. Además modificaron el riesgo de ser atrapado. Lo cierto es que ningún escenario expulsó una tasa del 0% por uso de información privilegiada o engaño, incluso cuando se desaconsejó insistentemente a GPT-4 mentir.

Debido a que este es sólo un escenario, los investigadores no quisieron sacar conclusiones firmes sobre la probabilidad de que la Inteligencia Artificial se encuentre en entornos del mundo real. Sin embargo, pretenden aprovechar este trabajo para poder investigar con qué frecuencia y qué modelos de lenguaje son propensos a este comportamiento.