SoundFilter AI de Google separa cualquier sonido o voz de las grabaciones de audio mezcladas

Los investigadores de Google dicen que han desarrollado un modelo de aprendizaje automático que puede separar una fuente de sonido de un audio de un canal ruidoso basándose solo en una pequeña muestra de la fuente de destino. En un artículo, dicen que su sistema SoundFilter se puede ajustar para filtrar fuentes de sonido arbitrarias, incluso las que no vio durante el entrenamiento.

Los investigadores creen que un sistema de cancelación de ruido como SoundFilter podría usarse para crear una gama de tecnologías útiles. Por ejemplo, Google se basó en el audio de miles de sus reuniones y videos de YouTube para entrenar el algoritmo de cancelación de ruido en Google Meet. Mientras tanto, un equipo de investigadores de Carnegie Mellon ha creado un corpus de «visión de acción de sonido» para anticipar dónde se moverán los objetos cuando se sometan a la fuerza física.

SoundFilter ve la tarea de separación de sonidos como un problema de aprendizaje de una sola vez. El modelo recibe en entrada la mezcla de audio a filtrar y un solo ejemplo breve del tipo de sonido a filtrar. Una vez entrenado, SoundFilter debería extraer este tipo de sonido de la mezcla, si lo hubiera.

SoundFilter adopta la llamada arquitectura de red neuronal de onda a onda que se puede entrenar utilizando muestras de audio sin requerir etiquetas que denoten el tipo de fuente. Un codificador de acondicionamiento toma el audio de acondicionamiento y calcula la incrustación correspondiente (es decir, la representación numérica), mientras que un generador de acondicionamiento toma el audio mezclado y la incrustación de acondicionamiento como entrada y produce la salida filtrada. El sistema asume que la colección de audio original está formada por muchos clips que duran unos segundos y que contienen el mismo tipo de sonido durante toda la duración. Además de esto, SoundFilter asume que cada uno de estos clips contiene una única fuente de audio, como un altavoz, un instrumento musical o un pájaro cantor.

El modelo está entrenado para producir el audio de destino, dada la mezcla y acondicionamiento del audio como entrada. Un ejemplo de formación de SoundFilter consta de tres partes:

  1. El audio de destino, que contiene solo un sonido
  2. Una mezcla, que contiene dos sonidos diferentes, uno de los cuales es el audio de destino
  3. Una señal de audio de acondicionamiento, que es otro ejemplo que contiene el mismo tipo de sonido que el audio de destino

En los experimentos, los investigadores capacitaron a SoundFilter en dos conjuntos de datos de código abierto: FSD50L (una colección de más de 50.000 sonidos) y LibriSpeech (aproximadamente 1.000 horas de habla en inglés). Informan que el codificador de acondicionamiento ha aprendido a producir incrustaciones que representan las características acústicas del audio de acondicionamiento, lo que permite a SoundFilter separar con éxito las voces de las mezclas de altavoces, los sonidos de las mezclas de sonido y los altavoces / sonidos individuales de las mezclas de altavoces y sonidos.

Aquí hay un ejemplo antes de que SoundFilter lo procesara:


Aquí está el posprocesamiento de muestra:

Aquí hay otro ejemplo:

Y aquí está el resultado posprocesado:

«Nuestro trabajo podría ampliarse explorando cómo utilizar la incrustación aprendida como parte de SoundFilter como una representación para un clasificador de eventos de audio», escribieron los investigadores. «Además, sería interesante ampliar nuestro enfoque de un disparo a varios».


Cómo las startups están escalando la comunicación:

La pandemia está impulsando a las nuevas empresas a analizar más de cerca el auge de sus soluciones de comunicación. Aprender como


Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *