Según se informa, OpenAI se encuentra ampliando sus procesos de seguridad internos para defenderse de la amenaza de la Inteligencia Artificial (IA) dañina. Un nuevo “grupo asesor de seguridad” se sentará por encima de los equipos técnicos y hará recomendaciones a los líderes, y a la junta se le ha otorgado poder de veto. ¡Todos los detalles los traemos aquí en TECHcetera!
OpenAI da poder de veto a su junta
Habitualmente, los embrollos de políticas como estas no necesitan cobertura, debido a que en la práctica equivalen a un montón de reuniones a puertas cerradas con funciones oscuras y flujos de responsabilidad de los que los externos rara vez estarán al tanto. Aunque es posible que eso también sea cierto en este caso, la reciente disputa de liderazgo y la evolución del debate sobre los riesgos de la Inteligencia Artificial justifican echar un vistazo a cómo se está acercando la empresa de desarrollo de IA líder en el mundo a consideraciones de seguridad.
Vale la pena señalar que en un nuevo documento y publicación de blog, OpenAI analiza su “Marco de Preparación” actualizado. Según se conoce, el objetivo principal de la actualización parece ser mostrar un camino claro para identificar, así como para analizar y decidir qué hacer con los riesgos “catastróficos” inherentes a los modelos que están desarrollando. Lo definen de esta forma:
Por riesgo catastrófico nos referimos a cualquier riesgo que pueda generar cientos de miles de millones de dólares en daños económicos o provocar daños graves o la muerte de muchas personas; esto incluye, entre otros, el riesgo existencial.
Los modelos en producción se encuentran gobernados por un equipo de “sistemas de seguridad”; lo cual es para, digamos, abusos sistemáticos de ChatGPT que pueden aminorarse con restricciones o ajustes de API. Según se conoce, los modelos de frontera en desarrollo cuentan con el equipo de “preparación”, que intenta identificar y cuantificar los riesgos antes de que se publique el modelo. Y posteriormente, se encuentra el equipo de “superalineación”, que está trabajando en guías teóricas para modelos “superinteligentes”, de los que podemos estar cerca o todavía no.
Cabe acotar que las 2 primeras categorías, al ser reales y no ficticias, poseen una rúbrica relativamente fácil o practica de entender. Sus equipos califican cada modelo en 4 categorías de riesgo: ciberseguridad, así como “persuasión” (por ejemplo, desinformación), autonomía del modelo (es decir, actuar por sí solo) y QBRN (amenazas químicas, biológicas, así como también radiológicas y nucleares; por ejemplo, la capacidad de crear nuevos patógenos).
Se suponen diversas mitigaciones; por ejemplo, una reticencia razonable a describir el proceso de fabricación de napalm o bombas caseras. Luego de tener en cuenta las mitigaciones conocidas, si todavía se evalúa que un modelo posee un riesgo “alto”, no se puede implementar, y si un modelo cuenta con riesgos “críticos”, no se desarrollará más.
Es de resaltar que en realidad, estos niveles de riesgo se encuentran documentados en el marco, en caso de que se pregunte si deben dejarse a discreción de algún ingeniero o gerente de producto.
Lo cierto es que, de un modo u otro sólo deben tolerarse riesgos medios y altos. Pero las personas que fabrican esos modelos no son precisamente las mejores para evaluarlos y hacer recomendaciones. Por tal motivo, OpenAI está creando un “Grupo Asesor de Seguridad multifuncional” que se ubicará en la parte superior del aspecto técnico, revisará los informes de los expertos y así mismo, hará recomendaciones que incluyan una ventaja superior. Con suerte (señalan) esto descubrirá algunas “incógnitas desconocidas”, aunque por su naturaleza son bastante difíciles de detectar.
Según se conoce, el proceso requiere que estas recomendaciones se envíen simultáneamente a la junta directiva y al liderazgo, lo que entendemos que significa el CEO Sam Altman y la CTO Mira Murati, además de sus lugartenientes. El liderazgo tomará la decisión sobre si enviarlo o congelarlo, pero la junta tendrá la capacidad de poder revertir esas decisiones.