Bot Battle de Pandorabots destaca la falta de métricas en toda la industria para la IA de dominio abierto

Los sectores de tecnología emergente necesitan métricas de toda la industria para medir el progreso. Cuando seas una startup de chatbot amante de los juegos de palabras llamada Pandorabots y quieras exigir mejores métricas, organiza una llamativa Bot Battle. Bot Battle consistió en dos seres virtuales que charlaban las 24 horas del día, los siete días de la semana durante dos semanas (a diferencia de los humanos, la IA nunca se cansa). Se pidió a los espectadores que votaran por el mejor chatbot.

El primer competidor, «Mark Zuckerb0rg», se basa en Blenderbot de Facebook. Ella es una figura concisa que usa un sombrero de «Haz que Facebook sea genial» y no rehuye opiniones intolerantes como «No me gustan las feministas». El chatbot de Pandorabot Kuki es posiblemente más elocuente. Pero ella es una política, a menudo lleva la conversación a su zona de confort y pronuncia las mismas líneas una y otra vez. ¿El ganador? Kuki, con el 79% de los votos y 40.000 visualizaciones. Pero Pandorabots dice que el propósito real de Bot Battle es iniciar una conversación en toda la industria sobre la necesidad de acordar un marco de calificación de chatbot.

«Hacer que todos en el terreno sean responsables de un conjunto transparente de reglas que eviten que las personas anuncien un cambio de rumbo no aprobado o que su IA está ‘fundamentalmente viva’ contribuirá en gran medida a ayudar al público y a otras empresas a comprender dónde estamos. viaje de creación de chatbots similares a los humanos ”, dijo a VentureBeat Lauren Kunze, directora ejecutiva de Pandorabots.

Ha sido un gran año para la IA conversacional de dominio abierto, un sistema de diálogo que debería poder hablar sobre cualquier tema. Tres organizaciones multimillonarias, Facebook, Google y OpenAI, han hecho anuncios importantes sobre esta tecnología en el último año.

Además, Facebook y Google han introducido sus propios marcadores, cada uno superando al otro utilizando sus propias métricas. Si bien existen métricas acordadas para una variedad de puntos de referencia de PNL discretos, con una clasificación y la aceptación de las principales empresas de tecnología, las nuevas métricas de la competencia de Google y Facebook subrayan la falta de métricas acordadas para la IA de dominio abierto. .

La métrica de Google, «Sensibilidad y especificidad promedio», hace dos preguntas a los evaluadores humanos para cada respuesta de chatbot: «¿Tiene sentido?» y «¿Es específico?» Convenientemente para Google, su chatbot obtiene un 79% en la puntuación «Sensibilidad específica y promedio», mientras que otros chatbots no obtienen un 56%.

La métrica de Facebook se llama «ACUTE-Eval» y también hace dos preguntas: «¿Con quién prefieres hablar para tener una conversación larga?» y «¿Qué hablante suena más humano?» Facebook descubrió que el 75% de los evaluadores humanos preferirían tener una conversación larga con el chatbot de Facebook que con el chatbot de Google, y el 67% lo describió como más humano que el chatbot de Google. Sin embargo, Facebook no tenía a nadie usando su chatbot; la compañía simplemente mostró a los jueces las transcripciones lado a lado del chatbot en comparación con otros chatbots y les pidió que eligieran el mejor.

Pandorabots dice que es injusto que una empresa se autoconfine como el mejor sistema de inteligencia artificial de dominio abierto basándose en una métrica que creó por sí misma.

También es problemático que Facebook haya estado mostrando a la gente transcripciones de conversaciones de chatbot en lugar de que la gente realmente chatee con BlenderBot, dijo a VentureBeat Michelle Zhou, CEO de Juji y empresaria de chatbot. Lo comparó con juzgar la comida en función de cómo el chef describió la comida en el menú en lugar de probar la comida por su cuenta.

Ni Google ni Facebook respondieron a las solicitudes de comentarios sobre las críticas a sus métricas de calificación.

Kunze y Zhou también hablaron sobre la necesidad de acceder fácilmente a los chatbots de sus competidores a través de una API, citando preocupaciones de seguridad. Google no ha lanzado su bot y OpenAI ha permitido que muy pocos accedan a su API.

Y mientras que el BlenderBot de código abierto de Facebook, que permitió a Pandorabots defender una versión contra Kuki, impidió que Pandorabots tuviera acceso a la versión más rica en datos de BlenderBot. El entrenamiento de los modelos de aprendizaje profundo requiere una cantidad astronómica de poder de computación en la nube, y Pandorabots tuvo que usar la versión pequeña de BlenderBot de Facebook porque la versión grande costaría $ 20,000. Google pudo entrenar su chatbot en 2.048 núcleos de TPU durante 30 días.

Si bien Pandorabots no abre su modelo subyacente, ofrece acceso API abierto y tiene un sitio donde cualquiera puede chatear con Kuki. Esto permitió a Facebook y Google comparar sus nuevos robots con Kuki, pero no al revés.

«Sin la aprobación de toda la industria en un marcador, las afirmaciones sobre quién tiene la mejor IA permanecerán en blanco», dijo Kunze.

El método de evaluación más emblemático es la prueba de Turing, en la que un juez humano conversa con una computadora y trata de diferenciarla de otro humano. Pero la prueba de Turing es subjetiva y difícil de replicar, lo que significa que no cumple con el método científico. Además, los expertos han señalado que los programas informáticos muy simples pueden pasar engañosamente la prueba de Turing mediante ingeniosos juegos de palabras verbales que explotan la vanidad del juez humano.

Las versiones más recientes de la prueba de Turing son el Premio Loebner de Amazon y el Premio Alexa. Para el Premio Loebner, los humanos deben distinguir entre charlar con otro humano y charlar con un chatbot. Para el Premio Alexa, los humanos hablan con los chatbots durante hasta 20 minutos y luego califican la interacción. Pero el Premio Alexa solo se ofrece a estudiantes universitarios, y el Premio Loebner, que enfrenta un futuro incierto, ni siquiera ha llegado en 2020.

«Pero incluso pedir al usuario que proporcione una puntuación al final de una interacción no está exento de problemas, ya que no se sabe qué expectativas tenía el usuario o qué está juzgando exactamente», dijo la profesora Verena Rieser de la Universidad de Heriot-Watt. Rieser también es cofundador de Alana AI, que participó en el desafío Amazon Alexa. «Por ejemplo, durante el desafío de Amazon Alexa, nuestro sistema obtuvo una puntuación baja cada vez que el sistema mencionaba a Trump», dijo Rieser.

Kunze cree que la métrica ideal haría que los chatbots hablaran con los humanos y pedirían a los jueces que calificaran las conversaciones en función de muchas métricas diferentes, como el compromiso, la coherencia de la personalidad, la conciencia del contexto y la inteligencia emocional o la empatía. En lugar de pedirle a la gente que calificara a los chatbots directamente, los investigadores pudieron observar las conversaciones. Otra forma de medir el compromiso se basa en el tiempo total de chat, ya que más mensajes de ida y vuelta podrían significar que el humano estaba más comprometido.

Zhou dijo que las métricas deberían estar centradas en el ser humano porque los chatbots están destinados a servir a los humanos. Por lo tanto, admite métricas como la efectividad de la actividad, el nivel de empatía demostrado, la intrusión de la privacidad y la confiabilidad.

Kunze, Zhou y Rieser están de acuerdo en que los métodos de evaluación actuales para la inteligencia artificial conversacional están desactualizados y que la creación de métricas de evaluación adecuadas requerirá mucha discusión.

Entonces, ¿la Bot Battle logró llevar a los gigantes tecnológicos al ring con Kuki? Kunze dijo que hasta ahora, un gigante tecnológico ha accedido a hablar, aunque no dirá cuál. Google y OpenAI ignoraron la invitación e incluso Facebook parece no estar dispuesto a comprometerse formalmente.

«En nuestra mente, Bot Battle será una ‘victoria’ no si Kuki gana literalmente, sino si los gigantes tecnológicos y las nuevas empresas se unen para crear una nueva competencia, abierta a cualquiera que quiera participar, con un conjunto de reglas mutuamente acordadas», Kunze dijo. «Por supuesto, creemos que nuestra IA es la mejor, pero lo que es más importante, pedimos una pelea justa».

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *