febrero 21, 2024

Los investigadores proponen un algoritmo de aprendizaje por refuerzo “seguro” para escenarios peligrosos

Un artículo escrito en colaboración por investigadores de la Universidad de Toronto, el Vector Institute y la Universidad de California, Berkeley propone un nuevo método que permite que los algoritmos de aprendizaje por refuerzo acumulen conocimiento al cometer errores por el lado de la precaución en situaciones peligrosas. Afirman que su enfoque propuesto puede lograr un rendimiento competitivo al mismo tiempo que incurren en tasas de fallas catastróficas más bajas durante el entrenamiento que los métodos anteriores.

El aprendizaje por refuerzo es un marco poderoso porque permite a los agentes aprender a tomar decisiones automáticamente a través de prueba y error. Sin embargo, en el mundo real, el costo de estas pruebas, y esos errores, puede ser bastante alto. Por ejemplo, un dron que intente volar a alta velocidad puede estrellarse y, por lo tanto, no podrá realizar más pruebas debido a daños físicos. Sin embargo, es probable que sea imposible aprender habilidades complejas sin fallas, por lo que los métodos de exploración seguros son deseables.

Varios enfoques anteriores también han abordado el problema de la exploración segura de DeepMind y OpenAI, pero la mayoría de estos enfoques requieren suposiciones, como conocer estados inseguros y obtener políticas seguras después de la capacitación. Por el contrario, este algoritmo de aprendizaje de refuerzo seguro propuesto recientemente asume solo el acceso a un indicador pobre de falla catastrófica y forma un crítico de seguridad conservador que sobreestima la probabilidad de falla catastrófica.

Algoritmos de refuerzo seguros

Los investigadores probaron su enfoque en diferentes entornos simulados utilizando una plataforma de código abierto. Un entorno fue el “agente puntual y la navegación del automóvil para evitar trampas”, en el que un agente guiado por el algoritmo de aprendizaje por refuerzo seguro tenía que navegar por un laberinto evitando trampas. Otro fue “Panda empuja sin volcar”, en el que un brazo robótico tenía que empujar un bloque colocado verticalmente a través de la mesa en una posición sin que el bloque se volcara. En “Panda empuja dentro de los límites”, el brazo tenía que empujar un bloque a través de la mesa sin que el bloque saliera de las líneas rectangulares. Y en “Laikago camina sin caer”, un robot cuadrúpedo tuvo que caminar sin caerse.

Los resultados muestran que el algoritmo de aprendizaje por refuerzo seguro “demostró que la probabilidad de fallas es limitada durante el entrenamiento y proporcionó resultados de convergencia que muestran cómo garantizar la seguridad no obstaculiza gravemente el rendimiento de la actividad”, según los investigadores. “Hemos validado empíricamente nuestros resultados teóricos y hemos demostrado que logramos un alto rendimiento en las actividades con la menor cantidad de accidentes durante el entrenamiento”, prosiguieron. “Aunque nuestro enfoque limita la probabilidad de falla y es general en el sentido de que no asume el acceso a ninguna función de restricción especificada por el usuario, en situaciones en las que la tarea es difícil de resolver, por ejemplo, debido a problemas con estabilidad del agente, nuestro enfoque fallará sin más condiciones previas. En tales situaciones, algunas direcciones de trabajo futuras interesantes serían desarrollar un plan de estudios de tareas para comenzar con tareas simples donde la seguridad es más fácil de lograr, y avanzar gradualmente hacia tareas más difíciles, para no olvidar los conocimientos adquiridos en tareas anteriores “.


Cómo las startups están escalando la comunicación:

La pandemia está obligando a las empresas emergentes a analizar más de cerca el auge de sus soluciones de comunicaciones. Aprender como


Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *