Compartir en Facebook Compartir en Twitter

En 2019, Microsoft y OpenAI se asociaron con el objetivo de crear recursos de supercomputación especializados que permitieran a OpenAI entrenar una colección en constante expansión de modelos avanzados de IA. OpenAI requería una infraestructura de computación en la nube que no se parecía a nada que se haya intentado en la industria.

A medida que ha pasado el tiempo, la asociación se ha fortalecido y, recientemente, el 13 de marzo, 2023, Microsoft anunció el lanzamiento de máquinas virtuales nuevas, de alta potencia y fácilmente ampliables. Estas máquinas están equipadas con las últimas GPU NVIDIA H100 Tensor Core y redes NVIDIA Quantum-2 InfiniBand. Estas actualizaciones son parte de un esfuerzo continuo para abordar el enorme desafío de ampliar las capacidades de entrenamiento del modelo de IA de OpenAI.

“El codiseño de supercomputadoras con Azure ha sido crucial para escalar nuestras exigentes necesidades de capacitación en IA, haciendo posible nuestro trabajo de investigación y alineación en sistemas como ChatGPT”, dijo Greg Brockman, presidente y cofundador de OpenAI..

Microsoft ha lanzado la máquina virtual (VM) ND H100 v5, que permite a los clientes ampliar sus recursos informáticos según sea necesario, con la capacidad de usar entre ocho y miles de GPU NVIDIA H100. Estas GPU están vinculadas con la red NVIDIA Quantum-2 InfiniBand, que según Microsoft dará como resultado velocidades de procesamiento mucho más rápidas para los modelos de IA en comparación con la generación anterior.

Nidhi Chappell, quien es el Jefe de Producto de Azure High-Performance Computing de Microsoft ha revelado que sus avances recientes se lograron al descubrir cómo construir, ejecutar y mantener decenas de miles de GPU ubicadas juntas y conectadas a través de una red InfiniBand de alta velocidad con un retraso mínimo. Según Chappell, esta fue una hazaña desafiante porque nunca antes lo habían intentado las empresas que suministran las GPU y los equipos de red. Esencialmente, ella dijo que se estaban aventurando en un territorio desconocido y que no estaba seguro de si el hardware podría soportar ser llevado al límite sin fallar.

Además, Chappell mencionó que lograr el mejor rendimiento posible requiere una cantidad significativa de optimización a nivel del sistema. Esta optimización implica el uso de un software que maximiza la eficacia tanto de las GPU como de los equipos de red. En la actualidad, la infraestructura de Azure se ha optimizado específicamente para entrenar modelos de lenguaje grande y se puede acceder a través de las capacidades de supercomputación de IA basadas en la nube de Azure.

Microsoft afirma que es el único proveedor de las GPU requeridas, redes InfiniBand y la infraestructura de IA distinta necesaria para construir modelos de IA transformadores a gran escala, que solo está disponible en Microsoft Azure.

A través de Microsoft

By Maisy Hall

Trabajo como escritora independiente. También soy vegana y ecologista. Siempre que tengo tiempo, me centro en la meditación.