febrero 7, 2023

Investigadores de Stanford proponen inteligencia artificial que entiende cómo usar objetos del mundo real

Contenidos

Un objetivo de larga data de la investigación de IA es permitir que los robots interactúen de manera significativa con entornos del mundo real. En un artículo reciente, investigadores de Stanford y Facebook dieron un paso en este sentido al extraer información relacionada con acciones como empujar o tirar de objetos con partes móviles y usarla para entrenar un modelo de inteligencia artificial. Por ejemplo, dado un cajón, su diseño puede predecir que la aplicación de una fuerza de tracción en el asa abriría el cajón.

Como señalan los investigadores, los humanos interactúan con una gran cantidad de objetos a su alrededor. Lo que hace que esto sea posible es nuestra comprensión de lo que se puede hacer con cada objeto, dónde puede ocurrir esta interacción y cómo necesitamos mover nuestros cuerpos para que suceda. Las personas no solo comprenden qué acciones tendrán éxito, sino que también saben intuitivamente cuáles no.

Los coautores vieron las interacciones a largo plazo con objetos como secuencias de interacciones “atómicas” a corto plazo, como empujar y tirar. Esto limitó el alcance de su trabajo a interacciones plausibles a corto plazo que un robot podría realizar dado el estado actual de un objeto. Estas interacciones se han dividido aún más en “dónde” y “cómo”: por ejemplo, qué manija en un gabinete debe tirar un robot y si un robot debe tirar en paralelo o perpendicular a la manija.

Estas observaciones permitieron a los investigadores formular su tarea como una predicción visual densa. Desarrollaron un modelo que, dada una imagen de profundidad o color de un objeto, aprendió a deducir si se podía realizar una determinada acción y cómo se debía realizar. Para cada píxel, el modelo proporcionó una puntuación de “usabilidad”, propuestas de acción y probabilidad de éxito.

Investigación de movimiento de Stanford

“Nuestro enfoque permite que un agente los aprenda simplemente interactuando con varios objetos y registrando los resultados de sus acciones, etiquetando los exitosos que causan un cambio de estado deseable”, escribieron los coautores. “Demostramos empíricamente que nuestro método aprende con éxito a predecir posibles acciones para nuevos objetos y lo hace para categorías nunca antes vistas”.

Los investigadores utilizaron un simulador llamado SAPIEN para aprender y probar su enfoque a través de seis tipos de interacciones que cubren 972 formas en 15 categorías de objetos internos comúnmente vistos. En los experimentos, visualizaron las predicciones de puntuación de acción del modelo en escaneos 3D del mundo real de conjuntos de datos de código abierto. Si bien admiten que no hay garantía para las predicciones de píxeles fuera de las partes articuladas, los resultados tenían sentido si se permitía el movimiento de objetos completos.

“Nuestra [model] aprender a extraer características geométricas que son específicas de la acción y conscientes del agarre Por ejemplo, para la tracción, predijo puntuaciones más altas en regiones de alta curvatura, como los límites de las piezas y los mangos, mientras que para el empuje, casi todas Los píxeles de superficie plana que pertenecen a una parte móvil están igualmente resaltados y los píxeles alrededor de los mangos son razonablemente previsibles que no se pueden mover debido a colisiones entre objetos y pinzas … Aunque utilizamos entornos simulados para el aprendizaje, ya que permiten la interacción. eficiente, también encontramos que nuestro sistema aprendido se generaliza a escaneos e imágenes del mundo real “.

Los investigadores admiten que su trabajo tiene limitaciones. Por un lado, el modelo solo puede tomar un solo fotograma como entrada, lo que introduce ambigüedad si la parte articulada está en movimiento. También se limita a trayectorias de movimiento codificadas. Sin embargo, en trabajos futuros, los coautores pretenden generalizar el modelo a interacciones de forma libre.

VentureBeat

La misión de VentureBeat es ser una plaza urbana digital para que los tomadores de decisiones técnicas obtengan información sobre la tecnología y las transacciones transformadoras. Nuestro sitio proporciona información esencial sobre tecnologías y estrategias de datos para guiarlo a medida que lidera sus organizaciones. Te invitamos a convertirte en miembro de nuestra comunidad, para acceder a:

  • información actualizada sobre temas de su interés,
  • nuestros boletines
  • Contenido privado líder en el pensamiento y acceso con descuento a nuestros eventos premium, como Transform
  • capacidades de red y más.

Hazte miembro

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *