Facebook afirma que su nuevo chatbot supera a Google como el mejor del mundo

La habilidad de Blender proviene de la inmensa escala de sus datos de entrenamiento. Inicialmente se formó a partir de 1.500 millones de conversaciones de Reddit disponibles públicamente, para proporcionar una base para generar respuestas en un diálogo. Luego se desarrolló con conjuntos de datos adicionales para cada una de las tres habilidades: conversaciones que contenían un tipo de emoción, para enseñarle empatía (si un usuario dice «Obtuve un ascenso», por ejemplo, puede decir: «¡Felicidades!» ); conversaciones llenas de información con un experto, para enseñar conocimiento; y conversaciones entre personas con personalidades distintas, para enseñarle personalidad. El modelo resultante es 3.6 veces más grande que el chatbot de Google Meena, que se anunció en enero, tan grande que no cabe en un solo dispositivo y en su lugar tiene que pasar por dos chips de procesamiento.

Registro de chat de Facebook Blender
Un ejemplo de una conversación entre un ser humano y Blender.

FACEBOOK

En ese momento, Google proclamó que Meena era la mejor chatbot del mundo. Sin embargo, en las pruebas de Facebook, el 75% de los evaluadores humanos encontraron a Blender más atractivo que Meena y el 67% encontró que sonaba más como un ser humano. El chatbot también engañó a los evaluadores humanos el 49% del tiempo para que pensaran que sus registros de conversación eran más humanos que los registros de conversación del mundo real, lo que significa que no había mucha diferencia cualitativa entre los dos. Google no había respondido a una solicitud de comentarios cuando se publicó la historia.

Sin embargo, a pesar de estos impresionantes resultados, las habilidades de Blender aún no son cercanas a las de un ser humano. Hasta ahora, el equipo ha calificado el chatbot solo en conversaciones cortas con 14 rondas. Si seguía charlando más tiempo, sospechan los investigadores, pronto dejaría de tener sentido. «Estos modelos no pueden profundizar mucho», dice Emily Dinan, la otra líder del proyecto. «No puedo recordar la historia de la conversación más allá de unas pocas vueltas».

Blender también tiene una tendencia a «alucinar» el conocimiento, o inventar hechos, una limitación directa de las técnicas de aprendizaje profundo utilizadas para construirlo. Al final, está generando sus oraciones a partir de correlaciones estadísticas en lugar de a partir de una base de datos de conocimiento. Como resultado, puede armar una descripción detallada y consistente de una celebridad famosa, por ejemplo, pero con información completamente falsa. El equipo planea experimentar con la integración de una base de datos de conocimiento en la generación de la respuesta de chatbot.

Calificación de Facebook Blender
Los evaluadores humanos compararon las conversaciones de varios turnos con varios chatbots.

FACEBOOK

Otro gran desafío con cualquier sistema de chatbot abierto es evitar que diga cosas tóxicas o distorsionadas. Dado que estos sistemas finalmente se entrenan en las redes sociales, pueden terminar regurgitando el vitriolo de Internet. (Esto sucedió infamemente en el chatbot de Microsoft Tay en 2016). El equipo trató de resolver esto pidiendo a los trabajadores que filtraran el lenguaje malicioso de los tres conjuntos de datos que usaba para el ajuste, pero no lo hizo. lo mismo con el conjunto de datos Reddit debido a su tamaño. (Cualquiera que haya pasado mucho tiempo en Reddit sabrá por qué esto podría ser problemático).

El equipo espera experimentar con mejores mecanismos de seguridad, incluido un clasificador de lenguaje tóxico que puede verificar la respuesta del chatbot. Sin embargo, los investigadores admiten que este enfoque no será completo. A veces, una frase como «Sí, es fantástico» puede parecer satisfactoria, pero en un contexto delicado, como en respuesta a un comentario racista, puede tener significados dañinos.

A la larga, el equipo de inteligencia artificial de Facebook también está interesado en desarrollar agentes de conversación más sofisticados capaces de responder solo a señales visuales y palabras. Un proyecto está desarrollando un sistema llamado Image Chat, por ejemplo, capaz de conversar con sensatez y personalidad sobre las fotos que un usuario podría enviar.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

+ 30 = 35