Los puntos de referencia pueden ser muy engañosos, dice Douwe Kiela de Facebook AI Research, quien dirigió al equipo detrás de la herramienta. Centrarse demasiado en los puntos de referencia puede significar perder de vista objetivos más amplios. La prueba puede convertirse en la tarea.
“Terminas con un sistema que es mejor en pruebas que los humanos, pero no mejor en la tarea general”, dice. “Es muy engañoso, porque parece que estamos mucho más allá de lo que realmente somos”.
Kiela cree que es un problema particular con la PNL en este momento. Un modelo de lenguaje como GPT-3 parece inteligente porque es muy bueno imitando el lenguaje. Pero es difícil decir cuánto comprenden realmente estos sistemas.
Piense en intentar medir la inteligencia humana, dice. Puedes hacer pruebas de CI a las personas, pero eso no te dice si realmente comprenden un tema. Para ello tienes que hablar con ellos, hacerles preguntas.
Dynabench hace algo similar, utilizando personas para interrogar a las IA. Lanzado hoy en línea, invita a las personas a visitar el sitio web y consultar los modelos detrás de él. Por ejemplo, podría darle a un modelo de lenguaje una página de Wikipedia y luego hacerle preguntas, evaluando sus respuestas.
En cierto modo, la idea es similar a la forma en que la gente ya está jugando GPT-3, probando sus límites, o cómo se evalúan los chatbots para el Premio Loebner, un concurso donde los bots intentan pasar por humano. Pero con Dynabench, las fallas que surjan durante las pruebas se retroalimentarán automáticamente en los modelos futuros, siempre mejorándolos.
Por ahora, Dynabench se centrará en los modelos de lenguaje porque son uno de los tipos de IA más fáciles con los que los humanos pueden interactuar. “Todo el mundo habla un idioma”, dice Kiela. “No se necesita ningún conocimiento real sobre cómo romper estos patrones”.
Pero el enfoque también debería funcionar para otros tipos de redes neuronales, como los sistemas de reconocimiento de voz o imágenes. Solo necesitas una forma de permitir que las personas carguen sus propias imágenes o que dibujen cosas para probarlo, dice Kiela: “La visión a largo plazo de esto es abrirlo para que cualquiera pueda crear su propio modelo y comenzar. recopilar sus datos “.
“Queremos convencer a la comunidad de IA de que existe una mejor manera de medir el progreso”, agrega. “Con suerte, se traduce en un progreso más rápido y una mejor comprensión de por qué los modelos de aprendizaje automático siguen fallando”.