Los investigadores investigan por qué los algoritmos populares de IA clasifican los objetos según la textura, no la forma

En un artículo aceptado en la conferencia NeurIPS 2020, los investigadores de Google y Stanford exploran el sesgo exhibido por ciertos tipos de algoritmos de visión por computadora, redes neuronales convolucionales (CNN), entrenados en el conjunto de datos ImageNet de código abierto. A diferencia de los humanos, las CNN capacitadas en ImageNet tienden a clasificar las imágenes en función de la textura en lugar de la forma. Su trabajo indica que el sesgo de CNN hacia las historias puede deberse no a diferencias en su funcionamiento interno, sino a diferencias en los datos que ven.

Las CNN logran resultados de vanguardia en actividades de visión por computadora, incluida la clasificación de imágenes, la detección de objetos y la segmentación. Aunque su desempeño en muchas de estas tareas se aproxima al de los humanos, hallazgos recientes muestran que las CNN difieren fundamentalmente de la visión humana. Por ejemplo, un trabajo reciente comparó a los humanos con las CNN capacitadas por ImageNet en un conjunto de datos de imágenes con información contradictoria sobre la forma y la textura (por ejemplo, un cuchillo con la textura de un elefante), concluyendo que los modelos tienden a clasificar según el material (por ejemplo, «a cuadros») y la forma humana (por ejemplo, «círculo»).

El equipo de Google y Stanford descubrió que aumentar los datos «naturalistas» que implican distorsión de color, ruido y desenfoque puede reducir este sesgo de la trama de CNN, mientras que aumentar el «recorte aleatorio» aumenta el sesgo. Al combinar estas observaciones, entrenaron modelos que clasifican imágenes ambiguas según la forma la mayor parte del tiempo. Estos modelos aparentemente incluso superan las líneas de base en conjuntos de datos que ejemplifican diferentes nociones de forma.

Según los investigadores, las arquitecturas de modelo de CNN que funcionan mejor en ImageNet generalmente tienen menos sesgo de textura, pero las arquitecturas diseñadas para adaptarse al sistema visual humano no tienen un sesgo fundamentalmente diferente de las CNN ordinarias. En el curso de la experimentación, los investigadores también encontraron que se puede extraer más información sobre la forma de una CNN de la que se refleja en las clasificaciones del modelo.

Como señalan los coautores, las personas que crean e interactúan con herramientas de visión por computadora, especialmente aquellas que no tienen un entrenamiento profundo en aprendizaje automático, a menudo tienen un modelo mental de modelos de visión por computadora similar a la visión humana. Pero los hallazgos del artículo se basan en un cuerpo de trabajo que muestra que este punto de vista es incorrecto. Las diferencias entre la visión humana y la visión artificial del tipo estudiado por los coautores podrían llevar a los científicos de datos a cometer errores importantes al anticipar y razonar sobre el comportamiento de los sistemas de visión artificial. Argumentan que las personas de una amplia gama de orígenes pueden crear modelos seguros, predecibles y justos que requieren que los sistemas de visión funcionen al menos aproximadamente de acuerdo con sus expectativas.

«Hacer modelos de visión por computadora que compartan los mismos sesgos inductivos que los humanos es un paso importante hacia este objetivo», escribieron los investigadores. “Al mismo tiempo, reconocemos las posibles consecuencias negativas de vincular ciegamente los juicios del modelo para que estén de acuerdo con las personas: los juicios visuales humanos muestran formas de sesgo que deben mantenerse fuera de los modelos informáticos. De manera más general, creemos que un trabajo como el nuestro puede tener un impacto positivo en la sociología interna de la comunidad de aprendizaje automático. Al identificar las conexiones con la psicología del desarrollo y la neurociencia, esperamos mejorar las conexiones interdisciplinarias entre los campos y alentar a las personas con una gama más amplia de formación y experiencia a participar en la investigación del aprendizaje automático «.


Mejores prácticas para un centro de excelencia de IA exitoso:

Una guía para CoE y unidades de negocio Inicie sesión aquí


Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *