Amazon está abandonando las GPU de Nvidia en favor de su propio silicio

¿Lo que acaba de suceder? Amazon ha anunciado que está migrando su procesamiento de IA a chips AWS Inferentia personalizados. Esto significa que los servicios de inferencia más grandes de Amazon, como el asistente virtual Alexa, se ejecutarán en un silicio especializado más rápido en lugar de en GPU de usos múltiples.

Amazon ya ha trasladado alrededor del 80% del procesamiento de Alexa a las instancias Inf1 de Elastic Compute Cloud (EC2), que utilizan los nuevos chips AWS Inferentia. En comparación con las instancias G4, que usaban GPU tradicionales, las instancias Inf1 aumentan el rendimiento en un 30% y reducen los costos en un 45%. Amazon cree que son las mejores instancias del mercado para inferir cargas de trabajo de procesamiento del habla y del lenguaje natural.

Alexa funciona así: el gabinete del altavoz (o cilindro, como puede ser) no hace prácticamente nada, mientras que los procesadores AWS en la nube lo hacen todo. O para decirlo más técnicamente … el sistema se activa una vez que el chip del dispositivo Echo detecta la palabra de activación. Comience a transmitir audio a la nube en tiempo real. En un centro de datos en algún lugar, el audio se convierte en texto (este es un ejemplo de inferencia). Luego, el significado se elimina del texto (otro ejemplo de inferencia). Se han completado todas las acciones necesarias, como ver la información meteorológica del día.

Una vez que Alexa haya completado su solicitud, deberá darle la respuesta. Lo que debería decir se elige de un script modular. Luego, el script se convierte en un archivo de audio (otro ejemplo de inferencia) y se envía a su dispositivo Echo. El Echo reproduce el archivo y decides llevar un paraguas para trabajar contigo.

Evidentemente, la inferencia es una parte importante del trabajo. Como era de esperar, Amazon ha invertido millones de dólares para hacer los chips de inferencia perfectos.

Por cierto, los chips Inferentia constan de cuatro NeuronCores. Cada uno implementa un «motor multiplicador de matriz de matriz sistólica de alto rendimiento». Más o menos, cada NeuronCore está compuesto por una gran cantidad de pequeñas unidades de procesamiento de datos (DPU) que procesan datos de forma lineal e independiente. Cada chip de Inferentia también tiene un caché enorme, lo que mejora las latencias.

Enlace permanente a la historia.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *