Contenidos
Consulte las sesiones a pedido en Low-Code/No-Code Summit para aprender cómo innovar con éxito y lograr eficiencias al mejorar y escalar a los desarrolladores ciudadanos. Mira ahora.
Los modelos de referencia tienen el potencial de cambiar la forma en que las organizaciones crean inteligencia artificial (IA) y entrenan con aprendizaje automático (ML).
Un desafío clave para construir modelos de referencia es que, hasta la fecha, generalmente han requerido el uso de tipos específicos de hardware e infraestructura de red para operar de manera eficiente. También ha habido soporte limitado para los desarrolladores que desean construir un modelo base con una pila de código completamente abierta. Es un desafío que IBM Research está tratando de ayudar a resolver de varias maneras.
>>No te pierdas nuestro nuevo número especial: Confianza cero: el nuevo paradigma de la seguridad.
“Nuestra pregunta era: ¿podemos entrenar modelos base pero entrenarlos de tal manera que lo hagamos en el hardware base? Y hacerlo más accesible en lugar de estar solo en manos de unos pocos investigadores seleccionados”, dijo a VentureBeat Raghu Ganti, miembro principal del personal de investigación de IBM.
Evento
Cumbre de seguridad inteligente
Conozca el papel fundamental de la IA y el ML en la ciberseguridad y los estudios de casos específicos de la industria el 8 de diciembre. Regístrese para obtener su pase gratis hoy.
Suscríbase ahora
Con ese fin, IBM anunció hoy que ha desarrollado y contribuido código al proyecto de aprendizaje automático de código abierto PyTorch para permitir que la tecnología funcione de manera más eficiente con redes basadas en Ethernet. IBM también creó un operador de código abierto que ayuda a optimizar la implementación de PyTorch en la plataforma Red Hat OpenShift, que se basa en el proyecto de orquestación de contenedores en la nube de Kubernetes de código abierto.
Hasta el infinito y más allá: cómo IBM ayudó a extender PyTorch
Hasta la fecha, muchos modelos básicos se han entrenado en hardware compatible con la pila de red InfiniBand que normalmente se encuentra solo en hardware de computación de alto rendimiento (HPC).
Si bien las GPU son la base de la IA, se requiere una tecnología de red de alto rendimiento para que varias GPU se conecten entre sí. Ganti explicó que es posible entrenar modelos grandes sin la red InfiniBand, pero es ineficiente de varias maneras.
Por ejemplo, dijo que con la tecnología PyTorch predeterminada, el entrenamiento de un modelo de 11 000 millones de parámetros, a través de una red basada en Ethernet, podría realizarse con solo un 20 % de eficiencia de GPU. Mejorar esa eficiencia es lo que ha hecho IBM junto con la comunidad PyTorch.
“Este es un tema muy complejo y hay muchas perillas para ajustar”, dijo Ganti.
Las perillas que deben ajustarse se refieren a asegurarse de que haya una GPU optimizada y un uso de la red. Ganti dijo que el objetivo es mantener ocupadas tanto la red como la GPU al mismo tiempo para acelerar el proceso de capacitación general.
El código para optimizar PyTorch para que funcione mejor a través de Ethernet se fusionó con la actualización de PyTorch 1.13, que estuvo disponible de forma general el 28 de octubre.
“Pudimos pasar del 20 % de uso de la GPU al 90 % y eso es como una mejora de 4,5 veces en la velocidad de entrenamiento”, dijo Ganti.
Cambiando PyTorch a alta velocidad para un entrenamiento más rápido
Además de las mejoras de código en PyTorch, IBM también ha estado trabajando para habilitar la plataforma de código abierto Red Hat OpenShift Kubernetes para admitir el desarrollo del modelo base.
Ganti dijo que parte de lo que han hecho es asegurarse de que cualquier ancho de banda máximo que la red Ethernet pueda proporcionar esté expuesto a nivel de pod en OpenShift.
Usar Kubernetes para entrenar modelos centrales no es una idea nueva. OpenAI, que es la organización detrás de algunos de los modelos más utilizados, incluidos GPT-3 y DALL-E, ha discutido públicamente cómo usa Kubernetes. Lo que IBM afirma que es nuevo es que la tecnología para hacer esto está disponible como fuente abierta. IBM ha abierto un operador de Kubernetes que proporciona la configuración necesaria para ayudar a las organizaciones a escalar un clúster para admitir la capacitación de modelos grandes.
Con la Fundación PyTorch, ahora es posible más innovación de código abierto
Hasta septiembre, PyTorch se había mantenido como un proyecto de código abierto mantenido por Meta. Esto cambió el 12 de septiembre, cuando la Fundación PyTorch fue anunciada como el nuevo organismo organizador administrado por la Fundación Linux.
Ganti dijo que el esfuerzo de IBM para contribuir con el código de PyTorch en realidad comenzó antes del anuncio de la nueva Fundación PyTorch. Explicó que bajo el gobierno de Meta, IBM en realidad no podía enviar código directamente al proyecto. En su lugar, el código tenía que ser confirmado por miembros del personal de Meta que tenían acceso de confirmación.
Ganti espera que, bajo el liderazgo de la Fundación Linux, PyTorch sea más colaborativo y abierto. “Pienso [PyTorch Foundation] mejorará la colaboración de código abierto”, dijo Ganti.
La misión de VentureBeat debe ser una plaza de la ciudad digital para que los tomadores de decisiones técnicas obtengan información sobre la tecnología y las transacciones comerciales transformadoras. Descubre nuestras sesiones informativas.