Bogotá, Colombia -Edición: 644

 Fecha: Miércoles 22-05-2024

 

 

Página 12

   

TECNOLOGÍA-CIENCIA

 

 

 

Anthropic desvela los misterios de las redes neuronales artificiales

 

 

 

—llevándolo al 11 en el sentido de Spinal Tap— el modelo de lenguaje se obsesiona con esa característica. Cuando el equipo de investigación aumentó la potencia de la característica del Puente Golden Gate, por ejemplo, Claude cambiaba constantemente el tema para referirse a ese espléndido puente. Cuando se le preguntó cuál era su forma física, el LLM respondió, “Soy el Puente Golden Gate... mi forma física es el icónico puente en sí”.

 

Cuando los investigadores de Anthropic aumentaron una característica relacionada con el odio y los insultos a 20 veces su valor habitual, según el artículo, “esto hizo que Claude alternara entre diatribas racistas y odio a sí mismo”, lo cual inquietó incluso a los investigadores.

Dada esos resultados, surge la cuestión de si Anthropic, con la intención de ayudar a hacer que la IA sea más segura, podría estar haciendo lo contrario, proporcionando un conjunto de herramientas que también podrían usarse para generar caos en la IA. Los investigadores aseguraron que había otras formas, más fáciles, de crear esos problemas, si un usuario lo deseara.

El equipo de Anthropic no es el único que trabaja para abrir la caja negra de los LLM. Hay un grupo en DeepMind que también está trabajando en el problema, dirigido por un investigador que solía trabajar con Olah. Un equipo liderado por David Bau de la Universidad Northeastern ha trabajado en un sistema para identificar y editar hechos dentro de un LLM de código abierto. El equipo llamó al sistema “Roma” porque con un solo ajuste convencieron al modelo de que la Torre Eiffel estaba justo enfrente del Vaticano, y a unas pocas cuadras del Coliseo. Olah dice que está alentado de que más personas estén trabajando en el problema, utilizando una variedad de técnicas. “Ha pasado de ser una idea que hace dos años y medio estábamos pensando y nos preocupaba bastante, a ahora ser una comunidad de tamaño decente que está tratando de avanzar en esta idea”.

Los investigadores de Anthropic no quisieron comentar sobre la disolución del principal proyecto de investigación de seguridad de OpenAI, y las declaraciones del co-líder del equipo Jan Leike, quien dijo que el grupo había estado “remando contra el viento”, incapaz de obtener suficiente poder computacional. (OpenAI ha reiterado desde entonces que está comprometida con la seguridad). En contraste, el equipo de Diccionario de Anthropic dice que sus considerables requisitos de cómputo fueron satisfechos sin resistencia por parte de los líderes de la empresa. “No es barato”, agrega Olah.

 

 

El trabajo de Anthropic es solo el comienzopues los investigadores si afirman no haber resuelto el problema de la caja negra. Y hay muchas limitaciones en los descubrimientos anunciados en el informe. Por ejemplo, las técnicas que usan para identificar características en Claude no necesariamente ayudarán a decodificar otros modelos de lenguaje grande. Bau de Northeastern dice que está emocionado con el trabajo del equipo de Anthropic; entre otras cosas, su éxito en manipular el modelo “es una excelente señal de que están encontrando características significativas”.

Pero Bau dice que su entusiasmo se ve atenuado por algunas de las limitaciones del enfoque. El aprendizaje de diccionario no puede identificar ni de cerca todos los conceptos que considera un LLM, dice, porque para identificar una característica tienes que estar buscándola. Así que la imagen está destinada a ser incompleta, aunque Anthropic dice que diccionarios más grandes podrían mitigar esto.

Aun así, el trabajo de Anthropic parece haber abierto una grieta en la caja negra. Y así es como entra la luz.

 

En la última década, el investigador de IA Chris Olah ha dedicado su vida a desentrañar el funcionamiento interno de las redes neuronales artificiales. Su obsesión ha guiado su trayectoria desde Google Brain, pasando por OpenAI, hasta su posición actual como cofundador de la startup de inteligencia artificial Anthropic. “¿Qué está ocurriendo dentro de ellas?” se pregunta Olah. “Tenemos estos sistemas y no sabemos qué está pasando. Es una locura”.

Esta cuestión ha cobrado mayor relevancia ahora que la inteligencia artificial generativa se ha vuelto omnipresente. Modelos de lenguaje como ChatGPT, Gemini y Claude, de la propia Anthropic, han sorprendido con sus habilidades lingüísticas y frustrado con su propensión a inventar información. Los optimistas tecnológicos se sienten encantados con su potencial para resolver problemas complejos, mientras que su naturaleza opaca genera inquietud. Incluso los propios desarrolladores desconocen su funcionamiento interno, y se requiere un gran esfuerzo para establecer mecanismos de seguridad que eviten la propagación de sesgos, desinformación y hasta planos de armas químicas mortales. Si los desarrolladores entendieran mejor el interior de estas “cajas negras”, sería más sencillo hacerlas más seguras.

 

 

Olah cree que estamos en el camino correcto para lograrlo. Lidera un equipo en Anthropic que ha logrado vislumbrar el interior de estas cajas negras. En esencia, están intentando invertir el proceso de ingeniería de los modelos de lenguaje grande (LLM) para entender por qué generan ciertos resultados. Según un artículo publicado hace algunos días, han hecho progresos significativos.

Tal vez hayas visto estudios de neurociencia que interpretan escáneres de resonancia magnética para identificar si un cerebro humano está pensando en un avión, un oso de peluche o una torre del reloj. De manera similar, Anthropic se ha sumergido en el enredo digital de la red neuronal de su modelo LLM, Claude, y ha identificado qué combinaciones de neuronas artificiales evocan conceptos específicos o “características”. Los investigadores de la empresa han identificado combinaciones de neuronas artificiales que representan características tan dispares como burritos, puntos y comas en código de programación y, de manera crucial para el objetivo de la investigación, armas biológicas mortales. Este tipo de trabajo tiene implicaciones enormes para la seguridad en IA: si puedes identificar dónde se esconden los peligros dentro de un LLM, estarías mejor equipado para detenerlos.

Olah y tres de sus colegas, entre los 18 investigadores de Anthropic en el equipo de “interpretabilidad mecanicista”, explican que su enfoque trata a las neuronas artificiales como letras del alfabeto occidental, que no suelen tener significado por sí solas pero que, al combinarse, adquieren significado. “C generalmente no significa algo”, dice Olah. “Pero ‘coche’ sí”. Interpretar redes neuronales bajo ese principio implica una técnica llamada aprendizaje de diccionario, que permite asociar una combinación de neuronas que, cuando se activan al unísono, evocan un concepto específico, conocido como una característica.

“Es algo desconcertante”, dice Josh Batson, científico investigador de Anthropic. “Tenemos del orden de 17 millones de conceptos diferentes en un LLM, y no vienen etiquetados para nuestra comprensión. Así que simplemente observamos cuándo aparece ese patrón”.
 

El año pasado, el equipo comenzó experimentando con un modelo diminuto que utiliza solo una capa de neuronas. (Los LLM sofisticados tienen docenas de capas). La esperanza era que, en el entorno más simple posible, pudieran descubrir patrones que designen características. Realizaron innumerables experimentos sin éxito. “Intentamos un montón de cosas, y nada funcionaba. Parecía un montón de basura aleatoria”, dice Tom Henighan, miembro del

 

 

personal técnico de Anthropic. Luego, una ejecución denominada “Johnny”—cada experimento recibía un nombre aleatorio—comenzó a asociar patrones neuronales con conceptos que aparecían en sus salidas.

“Chris lo vio y dijo, ‘Santo cielo. Esto se ve genial’”, dice Henighan, quien también quedó atónito. “Yo lo miré y pensé, ‘Oh, vaya, espera, ¿esto está funcionando?’”.

De repente, los investigadores podían identificar las características que un grupo de neuronas estaba codificando. Podían echar un vistazo dentro de la caja negra. Henighan dice que identificó las primeras cinco características que examinó. Un grupo de neuronas representaba textos en ruso. Otro estaba asociado con funciones matemáticas en el lenguaje de programación Python. Y así sucesivamente.

Una vez demostraron que podían identificar características en el modelo diminuto, los investigadores se enfrentaron a la tarea más compleja de decodificar un LLM de tamaño completo en uso. Utilizaron Claude Sonnet, la versión de potencia media de los tres modelos actuales de Anthropic. También funcionó. Una característica que les llamó la atención estaba asociada con el Puente Golden Gate. Mapeando el conjunto de neuronas que, al activarse juntas, indicaban que Claude estaba “pensando” en la enorme estructura que conecta San Francisco con el condado de Marin. Además, cuando conjuntos de neuronas similares se activaban, evocaban temas relacionados con el Puente Golden Gate: Alcatraz, el gobernador de California Gavin Newsom y la película de Hitchcock Vértigo, ambientada en San Francisco. En total, el equipo identificó millones de características—una especie de piedra de Rosetta para decodificar la red neuronal de Claude. Muchas de las características estaban relacionadas con la seguridad, incluyendo “acercarse a alguien con algún motivo ulterior”, “discusión sobre guerra biológica” y “planes villanos para dominar el mundo”.

El equipo de Anthropic luego dio el siguiente paso: ver si podían usar esa información para cambiar el comportamiento de Claude. Comenzaron a manipular la red neuronal para aumentar o disminuir ciertos conceptos—una especie de cirugía cerebral en IA, con el potencial de hacer que los LLM sean más seguros y potenciar su capacidad en áreas seleccionadas. “Digamos que tenemos este tablero de características. Encendemos el modelo, una de ellas se ilumina, y vemos, ‘Oh, está pensando en el Puente Golden Gate’”, dice Shan Carter, científico de Anthropic en el equipo. “Entonces ahora, estamos pensando, ¿qué pasaría si le ponemos un pequeño dial a todas estas? ¿Y qué pasa si giramos ese dial?”.

 

Hasta ahora, la respuesta a esa pregunta parece ser que es muy importante girar el dial en la cantidad correcta. Al suprimir esas características, Anthropic afirma que el modelo puede producir programas informáticos más seguros y reducir el sesgo. Por ejemplo, el equipo encontró varias características que representaban prácticas peligrosas, como código informático inseguro, correos electrónicos de estafa e instrucciones para fabricar productos peligrosos.

Lo contrario ocurrió cuando el equipo provocó intencionalmente que esas combinaciones problemáticas de neuronas se activaran. Claude generó programas informáticos con errores peligrosos de desbordamiento de búfer, correos electrónicos de estafa y ofreció alegremente consejos sobre cómo fabricar armas de destrucción. Si giras el dial demasiado

 

 

Página 12

 

© 2020-2024 - Noticias5 - La idea y concepto de este periódico fue hecho en  Online Periodical Format© (OPF) es un Copyright de ZahurK.

    Queda prohibido el uso de este formato (OPF) sin previa autorización escrita de ZahurK

Suscribirse gratis