Lo que ocurre en el trabajo de las redes neuronales artificiales es en gran medida un misterio, incluso para sus creadores. Pero los investigadores de Anthropic han logrado vislumbrarlo.
Durante la última década, el investigador en IA Chris Olah ha estado obsesionado con las redes neuronales artificiales. Una pregunta en particular le atraía y ha sido el centro de su trabajo, primero en Google Brain, luego en OpenAI y hoy en la startup de IA Anthropic, de la que es cofundador: “¿Qué pasa dentro de ellas?”, dice. “Tenemos estos sistemas y no sabemos qué pasa. Parece una locura”.
Esa pregunta se ha convertido en una preocupación central ahora que la IA generativa se ha vuelto omnipresente. Los grandes modelos de lenguaje (LLM por sus siglas en inglés) como ChatGPT, Gemini y el propio Claude de Anthropic han deslumbrado por su destreza lingüística y enfurecido por su tendencia a inventar cosas. Su potencial para resolver problemas hasta ahora insolubles encanta a los tecno-optimistas. Pero los LLM son extraños entre nosotros. Ni siquiera las personas que los construyen saben exactamente cómo funcionan, y se requiere un gran esfuerzo para crear barandillas que impidan que produzcan sesgos, desinformación e incluso planos de armas químicas mortales. Si la gente que construye los modelos supiera lo que ocurre dentro de estas “cajas negras”, sería más fácil hacerlas más seguras.
Abriendo la caja negra
Olah cree que vamos por buen camino. Dirige un equipo antrópico que se ha asomado al interior de esa caja negra. Esencialmente, intentan aplicar ingeniería inversa a grandes modelos de lenguaje para entender por qué producen resultados específicos y, según un artículo publicado hoy, han hecho progresos significativos.
Tal vez hayas visto estudios neurocientíficos que interpretan resonancias magnéticas para identificar si un cerebro humano está pensando en un avión, en un oso de peluche o en un reloj. De forma similar, Anthropic se ha sumergido en la maraña digital de la red neuronal de su LLM, Claude, y ha identificado con precisión qué combinaciones de sus rudimentarias neuronas artificiales evocan conceptos o “rasgos” específicos. Los investigadores de la empresa han identificado la combinación de neuronas artificiales que significan rasgos tan dispares como burritos, puntos y comas en código de programación y –en gran medida para el objetivo más amplio de la investigación– armas biológicas mortales. Este tipo de trabajo puede tener enormes implicaciones para la seguridad de la IA: Si puedes averiguar dónde acecha el peligro dentro de un LLM, presumiblemente estarás mejor equipado para detenerlo.
El progreso y los hallazgos iniciales
Me reuní con Olah y tres de sus colegas, entre los 18 investigadores antrópicos del equipo de “interpretabilidad mecanicista”. Explican que su enfoque trata a las neuronas artificiales como a las letras de los alfabetos occidentales, que no suelen tener significado por sí solas pero pueden encadenarse secuencialmente para tenerlo: “C no suele significar algo”, dice Olah, “pero carro sí”. Interpretar las redes neuronales según ese principio implica una técnica llamada aprendizaje de diccionario, que permite asociar una combinación de neuronas que, cuando se disparan al unísono, evocan un concepto específico, denominado rasgo.
“Es algo desconcertante”, dice Josh Batson, investigador científico de Anthropic, “estamos en un orden de 17 millones de conceptos diferentes [en un LLM], y no aparecen etiquetados para nuestra comprensión. Así que nos limitamos a ver, ¿cuándo apareció ese patrón?”.
El año pasado, el equipo empezó a experimentar con un modelo diminuto que utiliza una sola capa de neuronas. (Los LLM sofisticados tienen docenas de capas.) La esperanza era que en el entorno más simple posible pudieran descubrir patrones que designaran características. Hicieron innumerables experimentos sin éxito: “Probamos un montón de cosas y nada funcionaba. Parecía un montón de basura aleatoria”, dice Tom Henighan, miembro del equipo técnico de Anthropic. Entonces, un experimento apodado “Johnny” –a cada experimento se le asignaba un nombre aleatorio– empezó a asociar patrones neuronales con conceptos que aparecían en sus resultados.
“Chris lo miró y dijo: ‘Dios mio. Esto tiene una pinta estupenda”, dice Henighan, que también se quedó atónito. “Yo lo miré y me quedé como: ‘Wow, espera, ¿esto funciona?’”.
Descifrando modelos más grandes
Una vez que demostraron que podían identificar rasgos en el modelo diminuto, los investigadores se lanzaron a la peliaguda tarea de descodificar un LLM de tamaño natural. Utilizaron Claude Sonnet, la versión de tamaño medio de los tres modelos actuales de Anthropic. También funcionó. Una característica que les llamó la atención estaba asociada con el puente Golden Gate. Trazaron el conjunto de neuronas que, cuando se disparaban juntas, indicaban que Claude estaba “pensando” en la enorme estructura que une San Francisco con el condado de Marin.
Es más, cuando se disparaban conjuntos similares de neuronas, evocaban temas adyacentes al puente Golden Gate: Alcatraz, el gobernador de California Gavin Newsom y la película de Hitchcock Vértigo, ambientada en San Francisco. En total, el equipo identificó millones de características, una especie de piedra Rosetta para descodificar la red neuronal de Claude. Muchos de los rasgos estaban relacionados con la seguridad, como “acercarse a alguien por algún motivo oculto”, “hablar de guerra biológica” y “complots de villanos para apoderarse del mundo”.
El equipo de Anthropic dio entonces el siguiente paso, ver si podían utilizar esa información para cambiar el comportamiento de Claude. Empezaron a manipular la red neuronal para aumentar o disminuir ciertos conceptos, una especie de cirugía cerebral de la IA, con el potencial de hacer más seguros a los LLM y aumentar su poder en áreas seleccionadas. “Digamos que tenemos este tablero de características. Encendemos el modelo, se ilumina una de ellas y vemos que está pensando en el puente Golden Gate”, explica Shan Carter, científico antropólogo del equipo, “y ahora pensamos: ¿y si ponemos un pequeño dial en todas ellas? ¿Y si giramos ese dial?”.
La manipulación de características y su impacto
Hasta ahora, la respuesta a esa pregunta parece ser que es muy importante girar el dial lo justo. Suprimiendo esas características, dice Anthropic, el modelo puede producir programas informáticos más seguros y reducir los sesgos. Por ejemplo, el equipo encontró varias características que representaban prácticas peligrosas, como código informático inseguro, correos electrónicos fraudulentos e instrucciones para fabricar productos peligrosos. CORTESÍA DE ANTHROPIC
Lo contrario ocurrió cuando el equipo provocó intencionadamente que se dispararan esas combinaciones de neuronas peligrosas. Claude produjo programas informáticos con peligrosos errores de desbordamiento del búfer, correos electrónicos fraudulentos y consejos para fabricar armas de destrucción. Si se retuerce demasiado el dial, hasta el 11 en el sentido de Spinal Tap, el modelo lingüístico se obsesiona con esa característica. Por ejemplo, cuando el equipo de investigación le subió el volumen a la característica del Golden Gate, Claude cambió constantemente de tema para referirse a ese glorioso palmo. Cuando se le preguntó cuál era su forma física, el LLM respondió: “Yo soy el puente Golden Gate… mi forma física es el propio puente icónico”.
Según el artículo, cuando los investigadores de Anthropic aumentaron 20 veces el valor habitual de un rasgo relacionado con el odio y los insultos, “Claude alternó entre el discurso racista y el odio a sí misma”, lo que desconcertó incluso a los investigadores.
A la vista de estos resultados, me pregunté si Anthropic, que pretendía contribuir a la seguridad de la IA, no estaría haciendo lo contrario, proporcionando un conjunto de herramientas que también podría utilizarse para generar estragos en la IA. Los investigadores me aseguraron que había otras formas más sencillas de crear esos problemas, si el usuario así lo deseaba.
Otros enfoques en el campo de la IA
El equipo de Anthropic no es el único que trabaja para abrir la caja negra de los LLM. Hay un grupo en DeepMind que también trabaja en el problema, dirigido por un investigador que solía trabajar con Olah. Un equipo dirigido por David Bau, de la Universidad Northeastern, ha trabajado en un sistema para identificar y editar hechos dentro de un LLM de código abierto.
El equipo llamó al sistema “Roma” porque con un solo ajuste los investigadores convencieron al modelo de que la Torre Eiffel estaba justo enfrente del Vaticano y a unas manzanas del Coliseo. Olah afirma que le anima el hecho de que más gente esté trabajando en el problema, utilizando diversas técnicas. “Ha pasado de ser una idea que hace dos años y medio nos rondaba la cabeza y nos preocupaba bastante, a ser ahora una comunidad de tamaño decente que está tratando de impulsar esta idea.
Los investigadores de Anthropic no quisieron comentar la disolución por parte de OpenAI de su propia gran iniciativa de investigación sobre seguridad, ni las declaraciones del codirector del equipo, Jan Leike, quien dijo que el grupo había estado “navegando contra el viento”, incapaz de conseguir suficiente potencia informática. (OpenAI ha reiterado desde entonces que está comprometida con la seguridad.) En cambio, el equipo del Diccionario de Anthropic afirma que sus considerables necesidades de computación fueron satisfechas sin resistencia por los responsables de la empresa. “No es barato”, añade Olah.
Limitaciones y futuros desafíos
El trabajo de Anthropic es solo el principio. Cuando pregunté a los investigadores si afirmaban haber resuelto el problema de la caja negra, su respuesta fue un no instantáneo y unánime. Y los descubrimientos anunciados hoy tienen muchas limitaciones. Por ejemplo, las técnicas que utilizan para identificar rasgos en Claude no ayudarán necesariamente a descodificar otros grandes modelos lingüísticos. Bau, de Northeastern, dice que está entusiasmado con el trabajo del equipo de Anthropic; entre otras cosas, su éxito en la manipulación del modelo “es una excelente señal de que están encontrando rasgos significativos”.
Pero Bau dice que su entusiasmo se ve atenuado por algunas de las limitaciones del enfoque. El aprendizaje por diccionario no puede identificar ni de lejos todos los conceptos que tiene en cuenta un LLM, dice, porque para identificar una característica hay que estar buscándola. Por tanto, la imagen es incompleta, aunque Anthropic afirma que los diccionarios más grandes podrían mitigar este problema.
Con todo, el trabajo de Anthropic parece haber abierto una grieta en la caja negra. Y es entonces cuando entra la luz