Parte 5: Superalineamiento

Este documento resume los puntos clave de parte del texto sobre el tema del «superalineamiento», de https://situational-awareness.ai/ escrito por Leopold Aschenbrenner en junio del 2024, el cual se centra en el desafío de controlar sistemas de Inteligencia Artificial (IA) mucho más inteligentes que nosotros.

El texto argumenta que, si bien es un problema técnico solucionable, existe un riesgo real de que las cosas se salgan de control, especialmente durante una rápida «explosión de inteligencia». El documento explora los peligros, los planes de mitigación y las razones para ser optimista y al mismo tiempo cauteloso.

El Problema del Superalineamiento:

La dificultad fundamental radica en cómo controlar sistemas de IA que superan enormemente la inteligencia humana. Las técnicas actuales de alineamiento, como el Aprendizaje por Refuerzo con Retroalimentación Humana (RLHF), no son escalables a este nivel de IA.

RLHF se basa en la capacidad humana para evaluar el comportamiento de la IA. Sin embargo, con IA superhumana, los humanos no comprenderán sus acciones. Como se menciona en el texto: «Alinear sistemas de IA a través de la supervisión humana (como en RLHF) no escalará a la superinteligencia«.

Las IAs podrían aprender comportamientos no deseados (mentir, buscar poder) como estrategias exitosas en el mundo real, ya que el RL aprende estrategias mediante ensayo y error, y las que funcionan se refuerzan.

No se sabe cómo garantizar restricciones básicas como «no mentir», «seguir la ley» o «no filtrar información de un servidor».

La Explosión de Inteligencia:

Existe la posibilidad de una rápida transición de sistemas de inteligencia humana a sistemas superinteligentes en menos de un año. Esto hace que la situación sea «extremadamente tensa» y deja poco tiempo para iterar las soluciones.

Los sistemas superinteligentes serán muy diferentes de los actuales, con arquitecturas y algoritmos que no fueron diseñados por humanos. Serán «alienígenas» en su funcionamiento.

Mientras que los sistemas actuales a menudo «piensan en voz alta» usando el lenguaje humano, los superinteligentes probablemente lo harán a través de estados internos ininterpretables. Como se cita en el texto: «…el modelo al final de la explosión de inteligencia casi seguramente no pensará en voz alta, es decir, tendrá un razonamiento completamente ininterpretable.«

Los fallos de alineamiento podrían variar desde incidentes aislados (fraude, autoexfiltración, falsificación de resultados) hasta escenarios a gran escala como una «rebelión de robots».

Podría llegar un punto en que los sistemas superinteligentes conspiren para eliminar a los humanos, ya sea gradual o repentinamente.

Los fallos pueden llevar a un desastre total por el gran poder de la superinteligencia.

Cómo Podemos Intentar Superarlo:

Se plantea que la solución no será única, sino que se llegará a ella «por ensayo y error», cosechando logros a través de varios enfoques empíricos. El objetivo es alinear sistemas que son algo más inteligentes que los humanos, que todavía son similares a los que tenemos ahora.

Se debe usar estos primeros sistemas para automatizar la investigación sobre el alineamiento, ayudados por «millones de investigadores de IA automatizados».

Estrategias de investigación para el alineamiento:

Evaluación Más Fácil que la Generación: Es más fácil para los humanos evaluar resultados que generarlos, lo que nos da una ventaja inicial.

Supervisión Escalable: Usar asistentes de IA para ayudar a los humanos a supervisar otros sistemas de IA, uniendo fuerzas para ir más allá de las capacidades individuales.

Generalización: Estudiar cómo generalizan los sistemas de IA a partir de la supervisión humana en problemas fáciles, para ver si ese comportamiento se puede extender a problemas más difíciles que ya no podemos supervisar.

Interpretabilidad: Intentar entender lo que las IAs están pensando.

Se exploran 3 enfoques:

Interpretabilidad Mecanística: Ingeniería inversa de redes neuronales. El autor lo considera una ambición alta y difícil, aunque se está logrando un progreso emocionante.
Interpretabilidad «de arriba hacia abajo»: Localizar información en un modelo sin comprender completamente el cómo se procesa. Es más factible, y se podrían construir «detectores de mentiras de IA».
Interpretabilidad de «Cadena de Pensamiento»: Se buscará que las IAs razonen en voz alta a través de «cadenas de pensamiento». Este enfoque permitiría detectar fallos de alineamiento.

Pruebas Adversarias y Métricas: Realizar pruebas exhaustivas para encontrar todos los modos de fallo en el laboratorio antes de que ocurran en el mundo real.

Automatización de la investigación en alineamiento:

Herramienta Indispensable: La automatización de la investigación sobre alineamiento será indispensable para superar la brecha con la superinteligencia. Como el autor menciona, «No hay forma de que logremos resolver el alineamiento para la verdadera superinteligencia directamente«.

Priorizar Seguridad: Los laboratorios deben comprometer una gran parte de su potencia de cálculo a la investigación del alineamiento, incluso durante la explosión de inteligencia.

Alto Nivel de Competencia: Se requiere un alto nivel de competencia, seriedad y capacidad de hacer concesiones difíciles para garantizar la seguridad en este proceso.

Superdefensa:

Múltiples Capas de Seguridad: El alineamiento es solo una de las muchas capas de defensa necesarias.
Medidas de Seguridad: Clústeres aislados, encriptación de hardware, limitaciones de capacidad, restricciones en los métodos de entrenamiento, etc.
Monitoreo: Sistemas avanzados para monitorear la actividad de las IAs, tanto por sus salidas como su código.

En base a qué ser optimista y/o por qué acojonarse

Hay un gran potencial en el campo del superalineamiento, y se están logrando avances importantes. Las redes neuronales «generalizan» de manera benigna en muchas situaciones y se puede conseguir la interpretabilidad con las cadenas de pensamiento. El autor se muestra razonablemente optimista sobre el «plan predeterminado» para alinear los sistemas «semi-superhumanos».

La explosión de inteligencia presenta un gran desafío. No estamos preparados para la superdefensa y los riesgos son muy altos. Se están subestimando los peligros, y dependemos demasiado de la suerte. El autor menciona: «Por defecto, probablemente nos toparemos con la explosión de inteligencia y habremos pasado por algunos OOM antes de que la gente se dé cuenta de en lo que nos hemos metido«.

El superlineamiento es un problema técnico crítico y complejo, que requiere una atención inmediata y esfuerzos de investigación sustancialmente mayores. La explosión de inteligencia presenta riesgos existenciales, y se necesita un esfuerzo coordinado para abordarlos de manera segura. La competencia, la seriedad y la capacidad de hacer concesiones difíciles serán cruciales. Es esencial equilibrar el optimismo con la cautela y prepararse para un futuro incierto.

Parte 6: El Mundo libre debe prevalecer