mayo 13, 2021

Las CPU escalables Xeon de tercera generación de Intel ofrecen procesamiento de FPU de 16 bits

Intel anunció hoy su tercera generación de procesadores escalables Xeon (que significa oro y platino), junto con las nuevas generaciones de su memoria Optane persistente (léase: SSD de latencia extremadamente baja, alta resistencia) y FPGA AI Stratix.

El hecho de que AMD esté superando a Intel en casi todas las mediciones de rendimiento posibles excepto La IA acelerada por hardware no es nueva en este momento. Claramente, esto no es nuevo para Intel, ya que la compañía no ha hecho ningún reclamo con respecto al rendimiento de Xeon escalable en comparación con los competidores de los procesadores Epyc Rome. Aún más interesante, Intel acaba de mencionar las cargas de trabajo de TI para fines generales.

Encontrar una explicación de la única mejora de generación en generación que no sea IA se muestra necesaria para saltar a través de múltiples notas. Con suficiente determinación, finalmente encontramos que la «ganancia de rendimiento promedio 1.9X» mencionada en la diapositiva general se refiere a los puntos de referencia SPECrate 2017 «estimados o simulados» que comparan un sistema Platinum 8380H de cuatro zócalos con un niño de cinco años a las cuatro zócalo E7-8890 v3.

Para ser sincero, Intel parece haber introducido algunas innovaciones inusualmente impresionantes en el espacio de IA. «Deep Learning Boost», que era formalmente la única marca para el conjunto de instrucciones AVX-512, ahora también incluye un tipo de datos de punto flotante completamente nuevo de 16 bits.

Con generaciones anteriores de Xeon escalable, Intel ha sido pionero y ha presionado mucho para el uso de todo el sistema de 8 bits:INT8—Desarrollo de la inferencia con su biblioteca OpenVINO. Para las cargas de trabajo de inferencia, Intel afirmó que la precisión de INT8 fue aceptable en la mayoría de los casos, al tiempo que ofrecía una aceleración extrema de la tubería de inferencia. Sin embargo, para la capacitación, la mayoría de las aplicaciones aún necesitaban mayor precisión que FP32 Procesamiento de coma flotante de 32 bits.

La nueva generación agrega soporte para el procesador de punto flotante de 16 bits, que Intel llama bfloat16. Cortar FP32 El ancho de medio bit de los modelos acelera el procesamiento en sí, pero sobre todo, reduce a la mitad la RAM necesaria para mantener los modelos en la memoria. La explotación del nuevo tipo de datos también es más fácil para los programadores y las bases de código. FP32 serían los modelos que se convierten a números enteros.

Intel también proporcionó un juego centrado en la eficiencia del tipo de datos BF16. No podemos recomendarlo como un juego o como una herramienta educativa.

Óptima aceleración de almacenamiento

Intel también anunció una nueva generación un 25% más rápida que sus SSD Optane de «memoria persistente», que pueden usarse para acelerar drásticamente la inteligencia artificial y otras tuberías de almacenamiento. Los SSD Optane funcionan con la tecnología Xpoint 3D en lugar de los SSD flash NAND típicos. 3D Xpoint tiene una resistencia de escritura tremendamente más alta y una latencia más baja que NAND. La menor latencia y la mayor resistencia de escritura lo hacen particularmente atractivo como una tecnología de caché rápida, que incluso puede acelerar todas las matrices de estado sólido.

La gran ventaja aquí es que la latencia extremadamente baja de Optane permite que las tuberías de IA aceleren, lo que a menudo limita el espacio de almacenamiento, ofreciendo un acceso muy rápido a modelos demasiado grandes para permanecer completamente en RAM. Para las tuberías que involucran escrituras rápidas y pesadas, un nivel de caché Optane también puede aumentar significativamente la esperanza de vida del almacenamiento primario NAND subyacente, reduciendo el número total de escrituras que realmente deben confirmarse.

Latencia vs. IOPS, con una carga de trabajo de lectura / escritura de 70/30. Las líneas naranja y verde son SSD NAND de nivel de centro de datos tradicionales; La línea azul es Optane.
Acercarse / / Latencia vs. IOPS, con una carga de trabajo de lectura / escritura de 70/30. Las líneas naranja y verde son SSD NAND de nivel de centro de datos tradicionales; La línea azul es Optane.

Por ejemplo, un Optane de 256 GB tiene una especificación de resistencia de escritura de 360 ​​PB, mientras que un SSD Samsung 850 Pro de 256 GB está diseñado solo para una resistencia de 150 TB, mayor que una ventaja de 1,000: 1 sobre el Optane.

Mientras tanto, esta excelente revisión de Tom’s Hardware de 2019 demuestra hasta qué punto Optane deja los SSD tradicionales de nivel de centro de datos en términos de latencia.

FPGA Stratix 10 NX

Finalmente, Intel ha anunciado una nueva versión de su Stratix FPGA. Los arreglos programables Field Gate se pueden usar como aceleración de hardware para algunas cargas de trabajo, lo que permite que múltiples núcleos de CPU para fines generales se ocupen de tareas que los FPGA no pueden.

Listado de la imagen de Intel

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *