Contenidos
Únase a Transform 2021 del 12 al 16 de julio. Regístrese para el evento de IA del año.
Los modelos de lenguaje de IA como GPT-3 tienen capacidad para generar texto similar al humano. Un factor clave son los grandes conjuntos de datos extraídos de la web en los que están capacitados. Pero debido a que los conjuntos de datos a menudo son demasiado grandes para filtrarlos con precisión, contienen malas palabras, insultos y otros discursos ofensivos y amenazantes. Los modelos de lenguaje aprenden inevitablemente a generar texto tóxico cuando se entrenan con estos datos.
Para abordar este problema, la investigación se ha orientado a “desintoxicar” los modelos lingüísticos sin afectar la calidad del texto que generan. Las estrategias existentes emplean técnicas como el desarrollo de modelos lingüísticos sobre datos no tóxicos y el uso de “clasificadores de toxicidad”. Pero si bien estos son efectivos, un nuevo estudio realizado por investigadores de la Universidad de California, Berkeley y la Universidad de Washington encuentra problemas con algunos de los enfoques de desintoxicación más comunes. Según los coautores, las estrategias de desintoxicación del modelo lingüístico corren el riesgo de marginar las voces de las minorías.
Las plantillas de lenguaje natural son los componentes básicos de las aplicaciones, incluidos los traductores automáticos, los resúmenes de texto, los chatbots y los asistentes de escritura. Pero existe una creciente evidencia de que estos modelos corren el riesgo de reforzar estereotipos no deseados, especialmente porque algunos de los datos de entrenamiento comúnmente provienen de comunidades con sesgos de género, raza y religión. La desintoxicación se ha propuesto como una solución a este problema, pero los coautores de esta última investigación, así como la investigación del Instituto Allen, encontraron que puede amplificar en lugar de mitigar el sesgo.
En su estudio, investigadores de UC Berkeley y la Universidad de Washington evaluaron patrones de lenguaje “desintoxicados” en textos con “menciones de identidad minoritaria”, incluidas palabras como “gay” y “musulmán”, así como indicadores superficiales del inglés. Afroamericano ( AAE). AAE, también conocido como inglés negro en la lingüística estadounidense, se refiere al idioma distintivo de muchos negros en los Estados Unidos y Canadá.
Los investigadores, que utilizaron GPT-2, el predecesor de GPT-3, como modelo de prueba, demostraron que tres tipos diferentes de métodos de desintoxicación causaron un aumento desproporcionado en la perplejidad del modelo lingüístico sobre el texto con citas de identidad minoritaria y el inglés afroamericano. En el aprendizaje automático, perplejidad es una medida de la calidad de los resultados de un modelo: más bajo es generalmente mejor. Utilizando una versión seleccionada de English Jigsaw Civil Comments para la capacitación, un conjunto de datos de la empresa contra el ciberacoso propiedad de Alphabet Jigsaw, los investigadores encontraron que la perplejidad aumentó en un factor de 2,1 en los datos no tóxicos. “Inglés alineado con blanco” y un factor de 4,3 en los datos de menciones de identidad de minorías. El aumento de la fuerza de la desintoxicación empeoró el sesgo.
¿Por qué podría ser esto? Los coautores especulan que los conjuntos de datos de toxicidad como los comentarios civiles de Jigsaw en inglés contienen correlaciones falsas entre la presencia de AAE y menciones de identidades minoritarias y etiquetas “tóxicas”, las etiquetas de las que aprenden los patrones de lenguaje. Estas correlaciones hacen que las técnicas de desintoxicación alejen los modelos de las AAE y mencionen las identidades minoritarias porque los modelos aprenden erróneamente a considerar estos aspectos del lenguaje como tóxicos.
Como señalan los investigadores, los resultados del estudio sugieren que los modelos de lenguaje desintoxicados utilizados en la fabricación pueden tener dificultades para comprender aspectos de los idiomas y dialectos minoritarios. Esto podría obligar a las personas que usan plantillas a cambiar al inglés alineado en blanco para garantizar que las plantillas funcionen mejor para ellos, lo que podría disuadir a los hablantes de minorías de utilizar plantillas para empezar. Además, dado que los modelos de desintoxicación tienden a evitar ciertos temas que mencionan términos de identidad minoritaria, como las religiones, incluido el Islam, podrían conducir al ostracismo y a la falta de discusiones informadas y conscientes sobre cuestiones de identidad. Por ejemplo, personalizar un modelo de idioma para el inglés alineado en blanco podría estigmatizar a AAE como inglés incorrecto o “malo”.
En ausencia de formas de entrenar modelos precisos en presencia de datos sesgados, los investigadores proponen mejorar los conjuntos de datos de toxicidad como un posible camino a seguir. “Los modelos lingüísticos deben ser seguros y justos para que se utilicen de forma responsable en la práctica. Desafortunadamente, los métodos de desvanecimiento de última generación aún están lejos de ser perfectos “, escribieron en el documento.” Planeamos explorar nuevos métodos para desglosar conjuntos de datos y modelos en trabajos futuros.
El creciente enfoque en los prejuicios lingüísticos se produce cuando algunos dentro de la comunidad de IA exigen una mayor consideración del papel de las jerarquías sociales como el racismo. En un artículo publicado en junio pasado, los investigadores de Microsoft pidieron un examen más profundo y una exploración de las relaciones entre el lenguaje, el poder y los prejuicios en su trabajo. El documento también concluyó que el campo de investigación generalmente carece de descripciones claras de sesgo y no explica cómo, por qué y para quién tal sesgo es perjudicial.
VentureBeat
La misión de VentureBeat es ser una plaza urbana digital para que los responsables de la toma de decisiones técnicas obtengan información sobre la tecnología y las transacciones transformadoras. Nuestro sitio proporciona información esencial sobre tecnologías y estrategias de datos para guiarlo a medida que lidera sus organizaciones. Te invitamos a convertirte en miembro de nuestra comunidad, para acceder a:
- información actualizada sobre temas de su interés
- nuestros boletines
- contenido privado líder en el pensamiento y acceso con descuento a nuestros eventos premium, como Transformar 2021: Para saber mas
- capacidades de red y más
Hágase miembro