 |
|
—llevándolo al 11 en el sentido de Spinal Tap—
el modelo de lenguaje se obsesiona con esa característica. Cuando el equipo de
investigación aumentó la potencia de la característica del Puente Golden Gate,
por ejemplo, Claude cambiaba constantemente el tema para referirse a ese
espléndido puente. Cuando se le preguntó cuál era su forma física, el LLM
respondió, “Soy el Puente Golden Gate... mi forma física es el icónico puente en
sí”.
Cuando los investigadores de Anthropic
aumentaron una característica relacionada con el odio y los insultos a 20 veces
su valor habitual, según el artículo, “esto hizo que Claude alternara entre
diatribas racistas y odio a sí mismo”, lo cual inquietó incluso a los
investigadores.
Dada esos resultados, surge la cuestión de si Anthropic, con la intención de
ayudar a hacer que la IA sea más segura, podría estar haciendo lo contrario,
proporcionando un conjunto de herramientas que también podrían usarse para
generar caos en la IA. Los investigadores aseguraron que había otras formas, más
fáciles, de crear esos problemas, si un usuario lo deseara.
El equipo de Anthropic no es el único que trabaja para abrir la caja negra de
los LLM. Hay un grupo en DeepMind que también está trabajando en el problema,
dirigido por un investigador que solía trabajar con Olah. Un equipo liderado por
David Bau de la Universidad Northeastern ha trabajado en un sistema para
identificar y editar hechos dentro de un LLM de código abierto. El equipo llamó
al sistema “Roma” porque con un solo ajuste convencieron al modelo de que la
Torre Eiffel estaba justo enfrente del Vaticano, y a unas pocas cuadras del
Coliseo. Olah dice que está alentado de que más personas estén trabajando en el
problema, utilizando una variedad de técnicas. “Ha pasado de ser una idea que
hace dos años y medio estábamos pensando y nos preocupaba bastante, a ahora ser
una comunidad de tamaño decente que está tratando de avanzar en esta idea”.
Los investigadores de Anthropic no quisieron comentar sobre la disolución del
principal proyecto de investigación de seguridad de OpenAI, y las declaraciones
del co-líder del equipo Jan Leike, quien dijo que el grupo había estado “remando
contra el viento”, incapaz de obtener suficiente poder computacional. (OpenAI ha
reiterado desde entonces que está comprometida con la seguridad). En contraste,
el equipo de Diccionario de Anthropic dice que sus considerables requisitos de
cómputo fueron satisfechos sin resistencia por parte de los líderes de la
empresa. “No es barato”, agrega Olah.

El trabajo de Anthropic es solo el
comienzopues los investigadores si afirman no haber resuelto el problema de la
caja negra. Y hay muchas limitaciones en los descubrimientos anunciados en el
informe. Por ejemplo, las técnicas que usan para identificar características en
Claude no necesariamente ayudarán a decodificar otros modelos de lenguaje
grande. Bau de Northeastern dice que está emocionado con el trabajo del equipo
de Anthropic; entre otras cosas, su éxito en manipular el modelo “es una
excelente señal de que están encontrando características significativas”.
Pero Bau dice que su entusiasmo se ve atenuado por algunas de las limitaciones
del enfoque. El aprendizaje de diccionario no puede identificar ni de cerca
todos los conceptos que considera un LLM, dice, porque para identificar una
característica tienes que estar buscándola. Así que la imagen está destinada a
ser incompleta, aunque Anthropic dice que diccionarios más grandes podrían
mitigar esto.
Aun así, el trabajo de Anthropic parece haber abierto una grieta en la caja
negra. Y así es como entra la luz.
|
En la última década, el investigador
de IA Chris Olah ha dedicado su vida a desentrañar el funcionamiento
interno de las redes neuronales artificiales. Su obsesión ha guiado su
trayectoria desde Google Brain, pasando por OpenAI, hasta su posición
actual como cofundador de la startup de inteligencia artificial
Anthropic. “¿Qué está ocurriendo dentro de ellas?” se pregunta Olah.
“Tenemos estos sistemas y no sabemos qué está pasando. Es una locura”.
Esta cuestión ha cobrado mayor relevancia ahora que la inteligencia
artificial generativa se ha vuelto omnipresente. Modelos de lenguaje
como ChatGPT, Gemini y Claude, de la propia Anthropic, han sorprendido
con sus habilidades lingüísticas y frustrado con su propensión a
inventar información. Los optimistas tecnológicos se sienten encantados
con su potencial para resolver problemas complejos, mientras que su
naturaleza opaca genera inquietud. Incluso los propios desarrolladores
desconocen su funcionamiento interno, y se requiere un gran esfuerzo
para establecer mecanismos de seguridad que eviten la propagación de
sesgos, desinformación y hasta planos de armas químicas mortales. Si los
desarrolladores entendieran mejor el interior de estas “cajas negras”,
sería más sencillo hacerlas más seguras.

Olah cree que estamos en el camino
correcto para lograrlo. Lidera un equipo en Anthropic que ha logrado
vislumbrar el interior de estas cajas negras. En esencia, están
intentando invertir el proceso de ingeniería de los modelos de lenguaje
grande (LLM) para entender por qué generan ciertos resultados. Según un
artículo publicado hace algunos días, han hecho progresos
significativos.
Tal vez hayas visto estudios de neurociencia que interpretan escáneres
de resonancia magnética para identificar si un cerebro humano está
pensando en un avión, un oso de peluche o una torre del reloj. De manera
similar, Anthropic se ha sumergido en el enredo digital de la red
neuronal de su modelo LLM, Claude, y ha identificado qué combinaciones
de neuronas artificiales evocan conceptos específicos o
“características”. Los investigadores de la empresa han identificado
combinaciones de neuronas artificiales que representan características
tan dispares como burritos, puntos y comas en código de programación y,
de manera crucial para el objetivo de la investigación, armas biológicas
mortales. Este tipo de trabajo tiene implicaciones enormes para la
seguridad en IA: si puedes identificar dónde se esconden los peligros
dentro de un LLM, estarías mejor equipado para detenerlos.
Olah y tres de sus colegas, entre los 18 investigadores de Anthropic en
el equipo de “interpretabilidad mecanicista”, explican que su enfoque
trata a las neuronas artificiales como letras del alfabeto occidental,
que no suelen tener significado por sí solas pero que, al combinarse,
adquieren significado. “C generalmente no significa algo”, dice Olah.
“Pero ‘coche’ sí”. Interpretar redes neuronales bajo ese principio
implica una técnica llamada aprendizaje de diccionario, que permite
asociar una combinación de neuronas que, cuando se activan al unísono,
evocan un concepto específico, conocido como una característica.
“Es algo desconcertante”, dice Josh Batson, científico investigador de
Anthropic. “Tenemos del orden de 17 millones de conceptos diferentes en
un LLM, y no vienen etiquetados para nuestra comprensión. Así que
simplemente observamos cuándo aparece ese patrón”.
El año pasado, el equipo comenzó
experimentando con un modelo diminuto que utiliza solo una capa de
neuronas. (Los LLM sofisticados tienen docenas de capas). La esperanza
era que, en el entorno más simple posible, pudieran descubrir patrones
que designen características. Realizaron innumerables experimentos sin
éxito. “Intentamos un montón de cosas, y nada
funcionaba. Parecía un montón de basura
aleatoria”, dice Tom Henighan, miembro del
|
|
personal técnico de Anthropic. Luego, una
ejecución denominada “Johnny”—cada experimento recibía un nombre
aleatorio—comenzó a asociar patrones neuronales con conceptos que aparecían en
sus salidas.
“Chris lo vio y dijo, ‘Santo cielo. Esto se ve genial’”, dice Henighan, quien
también quedó atónito. “Yo lo miré y pensé, ‘Oh, vaya, espera, ¿esto está
funcionando?’”.
De repente, los investigadores podían identificar las características que un
grupo de neuronas estaba codificando. Podían echar un vistazo dentro de la caja
negra. Henighan dice que identificó las primeras cinco características que
examinó. Un grupo de neuronas representaba textos en ruso. Otro estaba asociado
con funciones matemáticas en el lenguaje de programación Python. Y así
sucesivamente.
Una vez demostraron que podían identificar características en el modelo
diminuto, los investigadores se enfrentaron a la tarea más compleja de
decodificar un LLM de tamaño completo en uso. Utilizaron Claude Sonnet, la
versión de potencia media de los tres modelos actuales de Anthropic. También
funcionó. Una característica que les llamó la atención estaba asociada con el
Puente Golden Gate. Mapeando el conjunto de neuronas que, al activarse juntas,
indicaban que Claude estaba “pensando” en la enorme estructura que conecta San
Francisco con el condado de Marin. Además, cuando conjuntos de neuronas
similares se activaban, evocaban temas relacionados con el Puente Golden Gate:
Alcatraz, el gobernador de California Gavin Newsom y la película de Hitchcock
Vértigo, ambientada en San Francisco. En total, el equipo identificó millones de
características—una especie de piedra de Rosetta para decodificar la red
neuronal de Claude. Muchas de las características estaban relacionadas con la
seguridad, incluyendo “acercarse a alguien con algún motivo ulterior”,
“discusión sobre guerra biológica” y “planes villanos para dominar el mundo”.
El equipo de Anthropic luego dio el siguiente paso: ver si podían usar esa
información para cambiar el comportamiento de Claude. Comenzaron a manipular la
red neuronal para aumentar o disminuir ciertos conceptos—una especie de cirugía
cerebral en IA, con el potencial de hacer que los LLM sean más seguros y
potenciar su capacidad en áreas seleccionadas. “Digamos que tenemos este tablero
de características. Encendemos el modelo, una de ellas se ilumina, y vemos, ‘Oh,
está pensando en el Puente Golden Gate’”, dice Shan Carter, científico de
Anthropic en el equipo. “Entonces ahora, estamos pensando, ¿qué pasaría si le
ponemos un pequeño dial a todas estas? ¿Y qué pasa si giramos ese dial?”.
Hasta ahora, la respuesta a esa pregunta
parece ser que es muy importante girar el dial en la cantidad correcta. Al
suprimir esas características, Anthropic afirma que el modelo puede producir
programas informáticos más seguros y reducir el sesgo. Por ejemplo, el equipo
encontró varias características que representaban prácticas peligrosas, como
código informático inseguro, correos electrónicos de estafa e instrucciones para
fabricar productos peligrosos.
Lo contrario ocurrió cuando el equipo provocó intencionalmente que esas
combinaciones problemáticas de neuronas se activaran. Claude generó programas
informáticos con errores peligrosos de desbordamiento de búfer, correos
electrónicos de estafa y ofreció alegremente consejos sobre cómo fabricar armas
de destrucción. Si giras el dial demasiado
|