La inteligencia artificial que escupe OpenAI es aprender a generar imágenes

En esencia, GPT-2 es un poderoso motor de predicción. Aprendió a comprender la estructura del idioma inglés mirando miles de millones de ejemplos de palabras, oraciones y párrafos, extraídos de los rincones de Internet. Con esa estructura, podría manipular palabras en nuevas oraciones prediciendo estadísticamente el orden en que deberían aparecer.

Entonces, los investigadores de OpenAI decidieron intercambiar palabras con píxeles y entrenar el mismo algoritmo de imagen en ImageNet, el banco de imágenes más popular para el aprendizaje profundo. Dado que el algoritmo fue diseñado para trabajar con datos unidimensionales, es decir, cadenas de texto, desplegaron las imágenes en una sola secuencia de píxeles. Descubrieron que el nuevo modelo, llamado iGPT, aún podía capturar las estructuras bidimensionales del mundo visual. Dada la secuencia de píxeles para la primera mitad de una imagen, podría predecir la segunda mitad de una manera que un humano pensaría razonable.

A continuación, puedes ver algunos ejemplos. La columna de la izquierda es la entrada, la columna de la derecha es la original y las columnas del medio son las terminaciones esperadas de iGPT. (Ver otros ejemplos aquí.)

OPENAI

Los resultados son sorprendentemente impresionantes y demuestran un nuevo camino para el uso del aprendizaje no supervisado, que se entrena en datos no etiquetados, en el desarrollo de sistemas de visión artificial. Si bien los primeros sistemas de visión artificial a mediados de la década de 2000 ya habían experimentado con estas técnicas, no resultaron favorables porque el aprendizaje supervisado, que utiliza datos etiquetados, ha demostrado ser mucho más efectivo. Sin embargo, la ventaja del aprendizaje no supervisado es que permite que un sistema de inteligencia artificial conozca el mundo sin un filtro humano y reduce significativamente el trabajo manual de etiquetado de datos.

El hecho de que iGPT use el mismo algoritmo GPT-2 también muestra su prometedora adaptabilidad entre dominios. Esto está en línea con la ambición final de OpenAI de lograr una inteligencia artificial más generalizable.

Al mismo tiempo, el método presenta una nueva forma de crear imágenes falsas profundas. Las redes generativas contradictorias, la categoría más común de algoritmos utilizados para crear falsificaciones profundas en el pasado, deben estar capacitadas en datos altamente precisos. Para hacer que una GAN genere una cara, por ejemplo, sus datos de entrenamiento deben incluir solo las caras. iGPT, por el contrario, simplemente aprende lo suficiente de la estructura del mundo visual a través de millones y miles de millones de ejemplos para escupir imágenes que puedan existir dentro de él. Si bien la capacitación modelo todavía es computacionalmente costosa, ofrece una barrera natural para el acceso, que puede no ser el caso por mucho tiempo.

OpenAI no otorgó una solicitud de entrevista y, por lo tanto, no proporcionó un contexto adicional para planes futuros con respecto a su investigación. Pero en un equipo político interno que lo encuentra Revisión de la tecnología MIT asistió el año pasado, su director político Jack Clark reflexionó sobre los riesgos futuros de la generación al estilo GPT, incluido lo que sucedería si se aplicara a las imágenes. «El video está llegando», dijo, proyectando dónde vio ir la trayectoria de búsqueda del campo. «En cinco años, probablemente tendrá una generación de video condicional dentro de cinco a diez segundos. El tipo de cosas que imagino es que eventualmente podrá poner una foto de Angela Merkel como condición, con una explosión al lado de ella, y generará un resultado probable, que Angela Merkel será asesinada «.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *