Contenidos
En el subcampo del aprendizaje automático conocido como procesamiento del lenguaje natural (NLP), la prueba de robustez es la excepción y no la norma. Esto es particularmente problemático a la luz del trabajo que muestra que muchos modelos de PNL explotan conexiones falsas que inhiben su desempeño fuera de pruebas específicas. Un informe encontró que del 60% al 70% de las respuestas proporcionadas por los modelos de PNL se incorporaron en algún lugar de los conjuntos de entrenamiento de referencia, lo que indica que los modelos generalmente simplemente memorizan las respuestas. Otro estudio, un metanálisis de más de 3000 artículos sobre inteligencia artificial, encontró que las métricas utilizadas para comparar la IA y los modelos de aprendizaje automático tendían a ser inconsistentes, irregulares y no particularmente informativas.
Esto motivó a Nazneen Rajani, investigadora senior de Salesforce que lidera el grupo de PNL de la compañía, a crear un ecosistema para evaluaciones de robustez de modelos de aprendizaje automático. Junto con el profesor asociado de Ciencias de la Computación de Stanford Christopher Ré y la Universidad de Carolina del Norte en Mohit Bansal en Chapel Hill, Rajani y el equipo desarrollaron Robustness Gym, que tiene como objetivo unificar el mosaico de bibliotecas de robustez existentes para acelerar el desarrollo de nuevas estrategias de prueba del modelo PNL.
“Si bien las herramientas de robustez existentes implementan estrategias específicas como ataques contradictorios o aumentos basados en modelos, Robustness Gym ofrece una ventanilla única para ejecutar y comparar una amplia gama de estrategias de evaluación”, dijo Rajani a VentureBeat por correo electrónico. “Esperamos que Robustness Gym haga de las pruebas de robustez un componente estándar en el proceso de aprendizaje automático”.
Robustness Gym proporciona orientación a los profesionales sobre cómo las variables clave (su tarea, necesidades de evaluación y limitaciones de recursos) pueden ayudar a priorizar las evaluaciones a realizar. La suite describe la influencia de una tarea determinada a través de una estructura conocida y evaluaciones previas; necesidades como la generalización de pruebas, la equidad o la seguridad; y limitaciones como la competencia, el acceso a la informática y los recursos humanos.
Robustness Gym transforma todas las pruebas de robustez en cuatro “modismos” de evaluación: subpoblaciones, transformaciones, conjuntos de evaluación y ataques del adversario. Los profesionales pueden crear lo que se denominan secciones, donde cada sección define una colección de ejemplos de evaluación elaborados utilizando uno o una combinación de expresiones de evaluación. Los usuarios están estructurados en un flujo de trabajo simple de dos pasos, separando el almacenamiento de información lateral estructurada en los ejemplos de los detalles de la creación de secciones mediante programación utilizando esta información.
Robustness Gym también consolida secciones y resultados para prototipos, iteraciones y colaboración. Los profesionales pueden organizar las secciones en un banco de pruebas que se puede actualizar y compartir, lo que permite a una comunidad de usuarios crear puntos de referencia juntos y realizar un seguimiento del progreso. Para los informes, Robustness Gym proporciona informes de robustez estándar y personalizados que se pueden generar automáticamente a partir de bancos de prueba e incluir en apéndices en papel.
En un estudio de caso, Rajani y sus coautores tenían un equipo de modelado de sentimientos en una “gran empresa de tecnología” para medir el sesgo de su modelo utilizando subpoblaciones y transformaciones. Después de probar el sistema en 172 segmentos que abarcan tres expresiones idiomáticas de evaluación, el equipo de modelado encontró una degradación del rendimiento en 16 segmentos de hasta un 18%.
En una prueba más reveladora, Rajani y el equipo utilizaron Robustness Gym para comparar las API comerciales de PNL de Microsoft (API de análisis de texto), Google (API Cloud Natural Language) y Amazon (API Comprehend) con los sistemas de código abierto BOOTLEG. WAT y REL en dos conjuntos de datos de referencia para vincular entidades nombradas. (Vincular entidades nombradas implica identificar elementos clave en un texto, como nombres de personas, lugares, marcas, valores monetarios y más). Descubrieron que los sistemas comerciales luchaban por vincular entidades raras o menos populares, eran sensibles a la capitalización de entidades y, a menudo, ignoraban las señales contextuales al realizar pronósticos. Microsoft ha superado a otros sistemas comerciales, pero BOOTLEG ha superado a los demás en términos de coherencia.
“Tanto Google como Microsoft muestran un rendimiento excelente en algunos temas, por ejemplo, Google en” deportes alpinos “y Microsoft en” patinaje “… [but] Los sistemas comerciales evaden el difícil problema de eliminar la ambigüedad de entidades ambiguas a favor de devolver la respuesta más popular “, escribieron Rajani y los coautores en el artículo que describe su trabajo.” En general, nuestros hallazgos sugieren que los sistemas académicos de vanguardia superan sustancialmente API comerciales para vincular entidades nombradas “.
En un experimento final, el equipo de Rajani implementó cinco subpoblaciones que capturan la abstracción de la síntesis, la destilación de contenido, la distorsión de posición, la dispersión de la información y el reordenamiento de la información. Después de comparar siete modelos de PNL, incluidos T5 y Pegasus de Google en un conjunto de datos de resumen de código abierto en estas subpoblaciones, los investigadores encontraron que los modelos tenían dificultades para funcionar bien en ejemplos que estaban altamente destilados, que requerían mayores cantidades de abstracción o contenía múltiples referencias a entidades. Sorprendentemente, los modelos con diferentes mecanismos de predicción parecían cometer errores “altamente correlacionados”, lo que sugiere que las métricas existentes no pueden capturar diferencias significativas en el rendimiento.
“Con Robustness Gym, demostramos que la robustez sigue siendo un desafío incluso para gigantes corporativos como Google y Amazon”, dijo Rajani. “Específicamente, mostramos que las API públicas de estas empresas funcionan significativamente peor que los algoritmos de coincidencia de cadenas simples para la tarea de desambiguación de entidades cuando se evalúan en entidades poco frecuentes (en cola)”.
Tanto el documento anterior como el código fuente de Robustness Gym están disponibles hoy.
VentureBeat
La misión de VentureBeat es ser una plaza urbana digital para que los responsables de la toma de decisiones técnicas obtengan información sobre la tecnología y las transacciones transformadoras. Nuestro sitio proporciona información esencial sobre tecnologías y estrategias de datos para guiarlo mientras dirige sus organizaciones. Te invitamos a convertirte en miembro de nuestra comunidad, para acceder a:
- información actualizada sobre temas de su interés
- nuestros boletines
- Contenido privado líder en el pensamiento y acceso con descuento a nuestros eventos premium, como Transform
- capacidades de red y más
Hazte miembro