OpenAI propone utilizar la reciprocidad para alentar a los agentes de inteligencia artificial a trabajar juntos

Muchos problemas del mundo real requieren una coordinación compleja entre múltiples agentes, como personas o algoritmos. Una técnica de aprendizaje automático llamada aprendizaje por refuerzo de múltiples agentes (MARL) ha mostrado éxito con respecto a esto, principalmente en juegos de dos equipos como Go, DOTA 2, Starcraft, hide and seek y capture the flag. Pero el mundo humano es mucho más complicado que los juegos. Esto se debe a que los humanos se enfrentan a dilemas sociales en múltiples escalas, desde interpersonales a internacionales, y deben decidir no solo cómo cooperar, sino también cuándo cooperar.

Para abordar este desafío, los investigadores de OpenAI proponen capacitar a los agentes de IA con lo que ellos llaman preferencias sociales inciertas aleatorias (RUSP), un aumento que expande la distribución de entornos en los que se entrenan los agentes de aprendizaje por refuerzo. Durante el entrenamiento, los agentes comparten diferentes cantidades de recompensas entre ellos; sin embargo, cada agente tiene un grado independiente de incertidumbre acerca de sus relaciones, lo que crea una «asimetría» que, según la hipótesis de los investigadores, impulsa a los agentes a aprender comportamientos socialmente reactivos.

Para demostrar el potencial de RUSP, los coautores pidieron a los agentes que jugaran a Prisoner’s Buddy, un juego basado en cuadrículas en el que los agentes reciben una recompensa «por encontrar un amigo». En cada paso en el tiempo, los agentes actúan eligiendo a otro agente o decidiendo no elegir a nadie y permanecer sentados. Si dos agentes se eligen entre sí, cada uno recibe una recompensa de «2». Si una agente Alice elige a Bob pero la opción no se devuelve, Alice recibe «-2» y Bob recibe «1». Los agentes que no eligen ninguno reciben «0»

OpenAI Oasis

Los coautores también exploraron la dinámica preliminar del equipo en un entorno mucho más complejo llamado Oasis. Se basa en la física y encarna a los agentes con supervivencia; su recompensa es «+1» por cada período de tiempo que permanecen con vida y una gran recompensa negativa cuando mueren. Su salud declina con cada paso, pero pueden recuperar la salud comiendo gránulos de comida y pueden atacar a otros para reducir su salud. Si la salud de un agente se reduce por debajo de «0», muere y se regenera en el borde del área de juego después de 100 pasos.

Solo hay comida suficiente para mantener a dos de los tres agentes en Oasis, lo que crea un dilema social. Los agentes deben romper la simetría y unirse al tercero para asegurarse de que la fuente de alimento se mantenga viva.

Los agentes de RUSP en Oasis se desempeñaron mucho mejor que una línea de base «egoísta» en el sentido de que obtuvieron una recompensa más alta y murieron con menos frecuencia, informan los investigadores. (Para los agentes entrenados con altos niveles de incertidumbre, hasta el 90% de las muertes en un episodio fueron atribuibles a un solo agente, lo que indica que dos agentes han aprendido a formar una coalición y excluyen principalmente al tercero de la fuente de alimento). Y en Prisoner’s Buddy, los agentes de RUSP se dividieron con éxito en equipos que tendían a ser estables y mantenidos a lo largo de un episodio.

Los investigadores señalan que RUSP es ineficiente: con la configuración de entrenamiento en Oasis, 1,000 iteraciones correspondieron a aproximadamente 3.8 millones de episodios de experiencia. Siendo ese el caso, argumentan que RUSP y técnicas similares merecen una mayor exploración. «La reciprocidad y la formación de equipos son comportamientos característicos de la cooperación sostenida tanto en animales como en humanos», escribieron en un documento presentado en la conferencia NeurIPS 2020. «Los cimientos de muchas de nuestras estructuras sociales están arraigados en estos comportamientos de base e incluso están explícitamente escritos en ellos: hace casi 4.000 años, el castigo mutuo estaba en el corazón del código de leyes de Hammurabi. Si queremos ver el surgimiento de estructuras y normas sociales más complejas, parece un primer paso prudente comprender cómo pueden desarrollarse formas simples de reciprocidad en agentes artificiales «.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *