Cómo Google creó su función Hum to Search basada en IA

En octubre, Google anunció que permitiría a los usuarios buscar canciones simplemente tarareando o silbando melodías, inicialmente en inglés en iOS y en más de 20 idiomas en Android. En ese momento, el gigante de las búsquedas solo insinuó cómo funciona la nueva función Hum to Search. Pero en una publicación de blog de hoy, Google detalló los sistemas subyacentes que permiten que la Búsqueda de Google encuentre canciones usando solo interpretaciones rumoreadas.

Identificar canciones a partir de los rumores es un desafío de larga data en IA. Con letras, coros y una variedad de instrumentos, el audio de una música o una grabación de estudio puede ser muy diferente al de una versión tarareada. Cuando alguien tararea su interpretación de una canción, el tono, la tonalidad, el tempo y el ritmo suelen variar leve o significativamente del original. Es por eso que tantos enfoques existentes para interrogar tarareando hacen coincidir la melodía tarareada con una base de datos de versiones tarareadas o solo melódicas preexistentes de una canción en lugar de identificar directamente la canción.

Por el contrario, Hum by Search de Google empareja una melodía tarareada directamente con las grabaciones originales sin depender de una base de datos de grabaciones emparejadas con versiones tarareadas de cada una. Google señala que este enfoque permite que Hum to Search se actualice con millones de registros originales de todo el mundo, incluidas las últimas versiones.

Este es solo un ejemplo de cómo Google está aplicando inteligencia artificial para mejorar la experiencia de búsqueda. Una reciente mejora algorítmica de la función de revisión ortográfica de Google ha permitido sugerencias ortográficas más precisas y precisas. La búsqueda ahora aprovecha la inteligencia artificial para capturar los matices del contenido de la página web que indexa. Y Google dice que está utilizando la visión por computadora para resaltar puntos importantes en videos dentro de la Búsqueda, como una captura de pantalla que compara diferentes productos o un paso clave en una receta.

Melodías a juego

Hum to Search se basa en el extenso trabajo de Google en el reconocimiento de música. En 2017, la compañía lanzó Now Playing con su línea de teléfonos inteligentes Pixel, que utiliza un algoritmo de aprendizaje automático fuera de línea en el dispositivo y una base de datos de huellas digitales para reconocer la música cercana. Al identificar una canción, Now Playing registra el nombre de la pista en un historial en el dispositivo. Y si un Pixel está inactivo y se está cargando mientras está conectado a Wi-Fi, un servidor de Google a veces lo invita a unirse a un «giro» informático con cientos de otros teléfonos Pixel. El resultado permite a los ingenieros de Google mejorar la base de datos de las canciones que se reproducen sin que ningún teléfono revele qué canciones se han escuchado.

Google ha perfeccionado esta tecnología en Sound Search, que proporciona un servicio de reconocimiento basado en servidor para permitir a los usuarios encontrar más de 100 millones de canciones con mayor rapidez y precisión. Sound Search se creó antes del uso generalizado de algoritmos de aprendizaje automático, pero Google lo renovó en 2018 utilizando versiones reducidas de los modelos de IA que impulsan Now Playing. Google también ha comenzado a calificar el índice de búsqueda de sonido en función de la popularidad, reduciendo el umbral de las canciones populares y elevándolo para las canciones oscuras.

Google Hum para buscar

Pero combinar melodías tarareadas con canciones requería un nuevo enfoque. Como explica Google, tuvo que desarrollar un modelo que pudiera aprender a concentrarse en la melodía dominante de una canción ignorando la voz, los instrumentos y el timbre vocal; diferencias derivadas de ruidos de fondo; y reverberaciones de la sala.

Un modelo vibrante

Para Hum to Search, Google ha cambiado los modelos de reconocimiento de música aprovechados en Now Playing y Sound Search para que funcionen con grabaciones murmuradas. Google ha entrenado estos modelos de recuperación mediante el uso de pares de audio tarareado o cantado con audio grabado para producir incrustaciones (también conocidas como representaciones numéricas) para cada entrada. En la práctica, los modelos modificados producen incrustaciones con pares de audio que contienen la misma melodía muy juntos (incluso si tienen diferentes acompañamientos instrumentales y voces de canto) y pares de audio que contienen melodías diferentes y distantes. Encontrar la canción correspondiente es una cuestión de buscar incrustaciones similares en la base de datos de grabaciones de Google.

Dado que el entrenamiento de modelos requería pares de canciones (canciones grabadas y canciones cantadas), el primer obstáculo fue obtener suficientes datos de entrenamiento. Google afirma que su conjunto de datos inicial consistía principalmente en segmentos de música cantada (muy pocos de los cuales contenían zumbidos) y que hizo que los modelos fueran más robustos al aumentar el audio durante el entrenamiento. Lo hizo variando el tono o el tempo de la entrada cantada al azar, por ejemplo.

Los modelos resultantes funcionaron lo suficientemente bien para las personas que cantan, pero no para las que tararean o silban. Para superar este problema, Google generó datos de entrenamiento adicionales mediante la simulación de melodías «zumbantes» del conjunto de datos de audio existente utilizando SPICE, un modelo de extracción de tonos desarrollado por el equipo más amplio de la compañía como parte del proyecto FreddieMeter. FreddieMeter utiliza modelos de aprendizaje automático en el dispositivo desarrollados por Google para ver qué tan cerca están el timbre vocal, el tono y la melodía de una persona al artista Freddie Mercury.

SPICE extrae los valores de tono de un audio determinado, que los investigadores de Google utilizaron para generar una melodía compuesta de tonos discretos. Posteriormente, la compañía perfeccionó este enfoque al reemplazar el sintetizador de tono simple con un modelo que genera un audio similar a una melodía real que zumba o silba.

Aquí está el rumor generado:


Y aquí está el silbato generado:

Como paso final, los investigadores de Google compararon los datos de entrenamiento mezclando y haciendo coincidir el audio. Por ejemplo, si hubiera un clip similar de dos cantantes diferentes, alinee esos dos clips con sus modelos de juegos previos. Esto permitió a los investigadores mostrar al modelo un par adicional de clips de audio que representan la misma melodía.

«Descubrimos que podíamos mejorar la precisión de nuestro modelo tomando [this] datos de entrenamiento adicionales … en consideración, particularmente al formular una noción general de confiabilidad del modelo a través de una serie de ejemplos «, explicó Google. Esto ayuda a la máquina a mejorar el comportamiento de aprendizaje, tanto cuando encuentra una melodía diferente como es demasiado fácil … o porque es demasiado difícil, dado su estado actual de aprendizaje «.

Buzz for Research toca todas estas técnicas para mostrar las coincidencias más probables basadas en una melodía determinada. Los usuarios pueden seleccionar la mejor combinación y explorar la información de la canción y el artista, ver los videos musicales que lo acompañan o escuchar la canción en su aplicación de música favorita. También pueden encontrar la letra, leer análisis y comprobar otras grabaciones de la canción cuando estén disponibles.


Cómo las startups están escalando la comunicación:

La pandemia está impulsando a las nuevas empresas a analizar más de cerca el auge de sus soluciones de comunicación. Aprender como


Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *