diciembre 8, 2024

MLCommons lanza conjuntos de datos de código abierto para reconocimiento de voz

Escuche a los CIO, CTO y otros ejecutivos y ejecutivos de alto nivel sobre los datos y las estrategias de IA en la Cumbre sobre el futuro del trabajo el 12 de enero de 2022. Saber más


Deja el Boletín de OSS Enterprise conduce el tuyo abrir fuente ¡viaje! Registrate aquí.

MLCommons, el consorcio sin fines de lucro dedicado a crear herramientas y recursos de desarrollo de IA abiertos, anunció hoy el lanzamiento de People’s Speech Dataset y Multilingual Spoken Words Corpus. El consorcio afirma que People’s Speech Dataset se encuentra entre los conjuntos de datos de habla en inglés más completos del mundo con licencia para uso académico y comercial, con decenas de miles de horas de grabaciones, y que el Multilingual Spoken Words Corpus (MSWC) es uno de los discursos de audio más grandes del mundo. conjuntos de datos con palabras clave en 50 idiomas.

Los desarrolladores han tenido durante mucho tiempo conjuntos de datos gratuitos como TED-LIUM y LibriSpeech para entrenar, probar y comparar sistemas de reconocimiento de voz. Pero algunos, como Fisher y Switchboard, requieren licencias relativamente altas o pagos únicos. Esto también coloca a las organizaciones con recursos adecuados en desventaja en comparación con los gigantes tecnológicos como Google, Apple y Amazon, que pueden recopilar grandes cantidades de datos de entrenamiento a través de dispositivos como teléfonos inteligentes y parlantes inteligentes. Por ejemplo, hace cuatro años, cuando los investigadores de Mozilla comenzaron a desarrollar el sistema de reconocimiento de voz en idioma inglés DeepSpeech, el equipo tuvo que ponerse en contacto con las estaciones de radio y televisión de la universidad y los departamentos de idiomas para integrar los datos de voz pública que pudieron encontrar.

Con el lanzamiento de People’s Speech Dataset y MSWC, la esperanza es que más desarrolladores puedan construir sus propios sistemas de reconocimiento de voz con menos restricciones presupuestarias y logísticas que nunca, según Keith Achorn. Achorn, un ingeniero de aprendizaje automático en Intel, es uno de los investigadores que supervisó la curaduría del conjunto de datos People’s Speech y el MSWC durante los últimos años.

“Los modelos modernos de aprendizaje automático se basan en grandes cantidades de datos de entrenamiento. Tanto “The People’s Speech” como “MSWC” se encuentran entre los conjuntos de datos más grandes en sus respectivas clases. MSWC es de particular interés debido a su inclusión de 50 idiomas “, dijo Achorn a VentureBeat por correo electrónico.” En nuestra investigación, la mayoría de estos 50 idiomas no tenían conjuntos de datos de voz para localizar palabras clave disponibles públicamente hasta ahora, e incluso aquellos que si hubiera tenido vocabularios muy limitados “.

Herramientas de voz de código abierto

A partir de 2018, se formó un grupo de trabajo bajo los auspicios de MLCommons para identificar y rastrear los 50 idiomas más utilizados del mundo en un solo conjunto de datos y encontrar una manera de hacer que el conjunto de datos sea útil. Los miembros del equipo eran de Harvard y la Universidad de Michigan, así como de Alibaba, Oracle, Google, Baidu, Intel y otros.

Los investigadores que reunieron el conjunto de datos fueron un grupo internacional de Estados Unidos, América del Sur y China. Se reunieron semanalmente durante varios años por teleconferencia, cada uno aportando una experiencia particular al proyecto.

Al final nació el proyecto Dos conjuntos de datos en lugar de uno (People’s Speech Dataset y MSWC), que se detallan individualmente en los informes técnicos presentados esta semana en la Conferencia Anual sobre Sistemas de Procesamiento de Información Neural (NeurIPS). People’s Speech Dataset aborda las tareas de reconocimiento de voz, mientras que MSWC proporciona detección de palabras clave, que se ocupa de identificar palabras clave (por ejemplo, “OK, Google”, “Hola, Siri”) en las grabaciones.

Conjunto de datos de voz de personas versus MSWC

People’s Speech Dataset incluye más de 30.000 horas de audio conversacional supervisado publicado bajo una licencia Creative Commons, que se puede utilizar para crear el tipo de patrones de reconocimiento de voz que impulsan a los asistentes de voz y al software de transcripción. Por otro lado, MSWC, que tiene más de 340.000 palabras clave con más de 23,4 millones de ejemplos, que abarcan los idiomas hablados por más de 5 mil millones de personas, está diseñado para aplicaciones como centros de llamadas y dispositivos inteligentes.

Los conjuntos de datos de voz anteriores se basaban en esfuerzos manuales para recopilar y verificar miles de ejemplos de palabras clave individuales y, en general, se limitaban a un solo idioma. Además, estos conjuntos de datos no aprovecharon el “habla diferente”, lo que significa que tergiversaron un entorno natural, desprovisto de variables que mejoran la precisión, como ruido de fondo, patrones de habla informal y una combinación de equipos de grabación.

Tanto el People’s Speech Dataset como el MSWC también tienen términos de licencia laxos, incluido el uso comercial, que está en desacuerdo con muchas bibliotecas de capacitación del habla. Por lo general, los conjuntos de datos no formalizan sus licencias, se basan en la responsabilidad del usuario final o son restrictivos en el sentido de prohibir su uso en productos de mercado abierto.

“El equipo visualizó varios casos de uso durante el proceso de desarrollo. Sin embargo, también somos conscientes de que estos conjuntos de datos verbales pueden encontrar un mayor uso por parte de modelos y sistemas que aún no habíamos anticipado “, continuó Achorn.” A medida que ambos conjuntos de datos continúan creciendo y desarrollándose bajo la dirección de MLCommons, buscamos más diversidad , fuentes de datos de voz de alta calidad. Encontrar fuentes que cumplan con nuestros términos de licencia abierta hace que todo sea más difícil, especialmente para otros idiomas además del inglés. En un nivel más técnico, nuestra canalización utiliza la alineación forzada para hacer coincidir el audio de voz con el texto de la transcripción. Los métodos están diseñados para compensar la calidad de la transcripción mixta, la mejora de la precisión tiene un costo para la cantidad de datos.

Tendencia de código abierto

People’s Speech Dataset integra Common Voice de la Fundación Mozilla, otro de los conjuntos de datos de voz más grandes del mundo, con más de 9.000 horas de datos de voz en 60 idiomas diferentes. Como una señal del creciente interés en la industria, Nvidia anunció recientemente que invertirá $ 1.5 millones en Common Voice para involucrar a más comunidades y voluntarios y apoyar la contratación de nuevo personal.

Recientemente, de acuerdo con Speechmatics, la adopción de la tecnología de voz ha aumentado, particularmente entre las empresas, con un 68% de las empresas diciendo que tienen una estrategia para la tecnología de voz, un aumento del 18% en comparación con 2019. cinco años.

La creación de conjuntos de datos para el reconocimiento de voz sigue siendo una actividad laboriosa, pero un enfoque prometedor que se utiliza cada vez más es el aprendizaje no supervisado, que podría reducir la necesidad de bibliotecas de formación a medida. Los sistemas tradicionales de reconocimiento de voz requieren ejemplos de voz etiquetada para indicar lo que se dice, pero los sistemas no supervisados ​​pueden aprender sin etiquetas detectando relaciones sutiles dentro de los datos de entrenamiento.

Los investigadores del acelerador de tecnología GNCode y Stanford, con sede en Guinea, han sido pioneros en el uso de archivos de radio en la creación de sistemas no supervisados ​​para idiomas de “bajos recursos”, sobre todo Maninka, Pular y Susu en la familia Niger Congo. Un equipo de MLCommons llamado 1000 Words in 1000 Languages ​​está construyendo una canalización que puede tomar cualquier discurso grabado y generar clips automáticamente para entrenar modelos compactos de reconocimiento de voz. Por separado, Facebook ha desarrollado un sistema, denominado Wave2vec-U, que puede aprender a reconocer el habla a partir de datos sin etiquetar.

VentureBeat

La misión de VentureBeat es ser una plaza urbana digital para que los tomadores de decisiones técnicas obtengan información sobre la tecnología y las transacciones transformadoras. Nuestro sitio proporciona información esencial sobre tecnologías y estrategias de datos para guiarlo en la conducción de sus organizaciones. Te invitamos a convertirte en miembro de nuestra comunidad, para acceder a:

  • información actualizada sobre temas de su interés
  • nuestros boletines
  • contenido privado líder en el pensamiento y acceso con descuento a nuestros valiosos eventos, como Transformar 2021: Para saber mas
  • funciones de red y más

Hazte miembro

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *