Presentamos un marco para crear agentes de IA que puedan comprender instrucciones humanas y realizar acciones en entornos abiertos
El comportamiento humano es notablemente complejo. Incluso una simple solicitud como » Pon la pelota cerca de la caja » aún requiere una comprensión profunda de la intención y el lenguaje situados. El significado de una palabra como «cerrar» puede ser difícil de precisar: colocar la pelota dentro de la caja técnicamente podría ser el más cercano, pero es probable que el orador quiera que la pelota se coloque al lado de la caja. Para que una persona actúe correctamente sobre la solicitud, debe ser capaz de comprender y juzgar la situación y el contexto circundante.
La mayoría de los investigadores de inteligencia artificial (IA) ahora creen que es imposible escribir un código de computadora que pueda capturar los matices de las interacciones situadas. Alternativamente, los investigadores modernos de aprendizaje automático (ML) se han centrado en aprender sobre este tipo de interacciones a partir de datos. Para explorar estos enfoques basados en el aprendizaje y crear rápidamente agentes que puedan dar sentido a las instrucciones humanas y realizar acciones de manera segura en condiciones abiertas, creamos un marco de investigación dentro de un entorno de videojuegos.
Hoy publicamos un artículo y una colección de videos que muestran nuestros primeros pasos en la creación de IA para videojuegos que pueden comprender conceptos humanos confusos y, por lo tanto, pueden comenzar a interactuar con las personas en sus propios términos.
Gran parte del progreso reciente en el entrenamiento de la IA de los videojuegos se basa en optimizar la puntuación de un juego. Los poderosos agentes de IA para StarCraft y Dota fueron entrenados utilizando ganancias/pérdidas claras calculadas por código de computadora. En lugar de optimizar la puntuación de un juego, le pedimos a la gente que invente tareas y juzgue el progreso por sí misma.
Usando este enfoque, desarrollamos un paradigma de investigación que nos permite mejorar el comportamiento de los agentes a través de una interacción abierta y fundamentada con los humanos. Si bien aún está en su infancia, este paradigma crea agentes que pueden escuchar, hablar, hacer preguntas, navegar, buscar y recuperar, manipular objetos y realizar muchas otras actividades en tiempo real.
Esta compilación muestra los comportamientos de los agentes después de las tareas planteadas por los participantes humanos:
Aprendiendo en “la casa de juegos”
Nuestro marco comienza con personas que interactúan con otras personas en el mundo de los videojuegos. Usando el aprendizaje por imitación, imbuimos a los agentes con un conjunto amplio pero no refinado de comportamientos. Este «comportamiento previo» es crucial para permitir interacciones que puedan ser juzgadas por humanos. Sin esta fase de imitación inicial, los agentes son completamente aleatorios y es prácticamente imposible interactuar con ellos. El juicio humano adicional sobre el comportamiento del agente y la optimización de estos juicios mediante el aprendizaje por refuerzo (RL) produce mejores agentes, que luego pueden mejorarse nuevamente.
Primero construimos un mundo de videojuego simple basado en el concepto de la «casa de juegos» de un niño. Este entorno proporcionó un entorno seguro para que los humanos y los agentes interactuaran y facilitó la recopilación rápida de grandes volúmenes de estos datos de interacción. La casa presentaba una variedad de habitaciones, muebles y objetos configurados en nuevos arreglos para cada interacción. También creamos una interfaz para la interacción.
Tanto el humano como el agente tienen un avatar en el juego que les permite moverse y manipular el entorno. También pueden chatear entre ellos en tiempo real y colaborar en actividades, como llevar objetos y entregárselos, construir una torre de bloques o limpiar una habitación juntos. Los participantes humanos establecen los contextos para las interacciones navegando por el mundo, estableciendo objetivos y haciendo preguntas a los agentes. En total, el proyecto recopiló más de 25 años de interacciones en tiempo real entre agentes y cientos de participantes (humanos).
Observando los comportamientos que emergen
Los agentes que entrenamos son capaces de realizar una gran variedad de tareas, algunas de las cuales no fueron previstas por los investigadores que las construyeron. Por ejemplo, descubrimos que estos agentes pueden construir filas de objetos usando dos colores alternos o recuperar un objeto de una casa que es similar a otro objeto que tiene el usuario.
Estas sorpresas surgen porque el lenguaje permite un conjunto casi infinito de tareas y preguntas a través de la composición de significados simples. Además, como investigadores, no especificamos los detalles del comportamiento de los agentes. En cambio, los cientos de humanos que participan en las interacciones plantearon tareas y preguntas durante el curso de estas interacciones.
Construyendo el marco para crear estos agentes
Para crear nuestros agentes de IA, aplicamos tres pasos. Comenzamos entrenando a los agentes para que imitaran los elementos básicos de las interacciones humanas simples en las que una persona le pide a otra que haga algo o que responda una pregunta. Nos referimos a esta fase como la creación de un comportamiento anterior que permite a los agentes tener interacciones significativas con un ser humano con alta frecuencia. Sin esta fase imitativa, los agentes simplemente se mueven al azar y dicen tonterías. Es casi imposible interactuar con ellos de una manera razonable y darles retroalimentación es aún más difícil. Esta fase se cubrió en dos de nuestros artículos anteriores, Imitar la inteligencia interactiva y Crear agentes interactivos multimodales con imitación y aprendizaje autosupervisado , que exploraron la creación de agentes basados en la imitación.
Ir más allá del aprendizaje por imitación
Si bien el aprendizaje por imitación conduce a interacciones interesantes, trata cada momento de interacción como igualmente importante. Para aprender un comportamiento eficiente y dirigido a un objetivo, un agente necesita perseguir un objetivo y dominar movimientos y decisiones particulares en momentos clave. Por ejemplo, los agentes basados en la imitación no toman atajos ni realizan tareas con mayor destreza que un jugador humano promedio.
Aquí mostramos un agente basado en el aprendizaje por imitación y un agente basado en RL siguiendo la misma instrucción humana:
Para dotar a nuestros agentes de un sentido de propósito, superando lo que es posible a través de la imitación, confiamos en RL, que utiliza prueba y error combinado con una medida de rendimiento para la mejora iterativa. A medida que nuestros agentes probaron diferentes acciones, se reforzaron las que mejoraban el rendimiento, mientras que se penalizaban las que disminuían el rendimiento.
En juegos como Atari, Dota, Go y StarCraft, la puntuación proporciona una medida de rendimiento para mejorar. En lugar de usar una puntuación, les pedimos a los humanos que evaluaran situaciones y proporcionaran comentarios, lo que ayudó a nuestros agentes a aprender un modelo de recompensa.
Entrenamiento del modelo de recompensas y optimización de agentes
Para entrenar un modelo de recompensa, les pedimos a los humanos que juzgaran si observaron eventos que indicaran un progreso notorio hacia la meta instruida actual o errores o equivocaciones notorios. Luego trazamos una correspondencia entre estos eventos positivos y negativos y las preferencias positivas y negativas. Dado que tienen lugar a lo largo del tiempo, llamamos a estos juicios «intertemporales». Entrenamos una red neuronal para predecir estas preferencias humanas y obtuvimos como resultado un modelo de recompensa (o utilidad/puntuación) que refleja la retroalimentación humana.
Una vez que entrenamos el modelo de recompensa usando las preferencias humanas, lo usamos para optimizar los agentes. Colocamos a nuestros agentes en el simulador y les indicamos que respondieran preguntas y siguieran instrucciones. A medida que actuaban y hablaban en el entorno, nuestro modelo de recompensa entrenado calificó su comportamiento y usamos un algoritmo RL para optimizar el rendimiento del agente.
Entonces, ¿de dónde vienen las instrucciones y preguntas de la tarea? Exploramos dos enfoques para esto. Primero, reciclamos las tareas y preguntas planteadas en nuestro conjunto de datos humanos. En segundo lugar, capacitamos a los agentes para imitar cómo los humanos establecen tareas y plantean preguntas, como se muestra en este video, donde dos agentes, uno capacitado para imitar a los humanos que establecen tareas y plantean preguntas (azul) y otro capacitado para seguir instrucciones y responder preguntas (amarillo) , Interactuar el uno con el otro:
Evaluar e iterar para seguir mejorando los agentes
Usamos una variedad de mecanismos independientes para evaluar a nuestros agentes, desde pruebas escritas a mano hasta un nuevo mecanismo para la puntuación humana fuera de línea de tareas abiertas creadas por personas, desarrollado en nuestro trabajo anterior Evaluación de agentes interactivos multimodales . Es importante destacar que les pedimos a las personas que interactuaran con nuestros agentes en tiempo real y juzgaran su desempeño. Nuestros agentes entrenados por RL se desempeñaron mucho mejor que aquellos entrenados solo por aprendizaje por imitación.
Finalmente, experimentos recientes muestran que podemos iterar el proceso de RL para mejorar repetidamente el comportamiento de los agentes. Una vez que un agente está capacitado a través de RL, le pedimos a las personas que interactúen con este nuevo agente, anoten su comportamiento, actualicen nuestro modelo de recompensa y luego realicen otra iteración de RL. El resultado de este enfoque fueron agentes cada vez más competentes. Para algunos tipos de instrucciones complejas, incluso podríamos crear agentes que superaran a los jugadores humanos en promedio.
El futuro del entrenamiento de IA para preferencias humanas situadas
La idea de entrenar la IA utilizando las preferencias humanas como recompensa existe desde hace mucho tiempo. En Aprendizaje de refuerzo profundo a partir de preferencias humanas , los investigadores fueron pioneros en enfoques recientes para alinear agentes basados en redes neuronales con preferencias humanas. El trabajo reciente para desarrollar agentes de diálogo por turnos exploró ideas similares para capacitar asistentes con RL a partir de comentarios humanos . Nuestra investigación ha adaptado y ampliado estas ideas para construir IA flexibles que pueden dominar una amplia gama de interacciones multimodales, encarnadas y en tiempo real con las personas.
Esperamos que nuestro marco algún día conduzca a la creación de IA de juegos que sean capaces de responder a nuestros significados expresados naturalmente, en lugar de depender de planes de comportamiento escritos a mano. Nuestro marco también podría ser útil para construir asistentes digitales y robóticos para que las personas interactúen todos los días. Esperamos explorar la posibilidad de aplicar elementos de este marco para crear una IA segura que sea verdaderamente útil.