Compartilhar no Facebook Compartilhar no Twitter

Em 2019, a Microsoft e a OpenAI se uniram com o objetivo de criar recursos especializados de supercomputação que permitiriam à OpenAI treinar uma coleção cada vez maior de modelos avançados de IA. A OpenAI exigia uma infraestrutura de computação em nuvem diferente de tudo o que já havia sido tentado no setor.

Com o passar do tempo, a parceria ficou mais forte e, recentemente, em 13 de março, Em 2023, a Microsoft anunciou o lançamento de novas máquinas virtuais de alta potência e facilmente expansíveis. Essas máquinas são equipadas com as mais recentes GPUs NVIDIA H100 Tensor Core e rede NVIDIA Quantum-2 InfiniBand. Essas atualizações fazem parte de um esforço contínuo para enfrentar o enorme desafio de ampliar os recursos de treinamento de modelos de IA da OpenAI.

“O co-projeto de supercomputadores com o Azure foi crucial para dimensionar nossas exigentes necessidades de treinamento em IA, tornando possível nosso trabalho de pesquisa e alinhamento em sistemas como o ChatGPT”, disse Greg Brockman, presidente e cofundador da OpenAI.

A Microsoft lançou a máquina virtual (VM) ND H100 v5, que permite aos clientes ampliar seus recursos de computação conforme necessário, com a capacidade de usar de oito a milhares de GPUs NVIDIA H100. Essas GPUs estão conectadas à rede NVIDIA Quantum-2 InfiniBand, que a Microsoft afirma que resultará em velocidades de processamento muito mais rápidas para modelos de IA em comparação com a geração anterior.

Nidhi Chappell, que é o chefe de produto do Azure A computação de alto desempenho da Microsoft revelou que seus avanços recentes foram alcançados descobrindo como construir, executar e manter dezenas de milhares de GPUs localizadas juntas e conectadas por meio de uma rede InfiniBand de alta velocidade com atraso mínimo. De acordo com Chappell, isso foi um feito desafiador porque nunca havia sido tentado antes pelas empresas que fornecem GPUs e equipamentos de rede. Essencialmente, ela disse que eles estavam se aventurando em um território desconhecido e não tinha certeza se o hardware aguentaria ser levado ao limite sem falhar.

Além disso, Chappell mencionou que alcançar o melhor desempenho possível requer uma quantidade significativa de otimização no nível do sistema. Essa otimização envolve o uso de software que maximiza a eficácia das GPUs e dos equipamentos de rede. No momento, a infraestrutura do Azure foi otimizada especificamente para treinar grandes modelos de linguagem e pode ser acessada por meio dos recursos de supercomputação AI baseados em nuvem do Azure.

A Microsoft afirma ser o único fornecedor das GPUs necessárias, rede InfiniBand , e a distinta infraestrutura de IA necessária para construir modelos transformadores de IA em larga escala, disponível apenas no Microsoft Azure.

Via Microsoft

By Maxwell Gaven

Trabalho com TI há 7 anos. É divertido observar a constante mudança no setor de TI. TI é meu trabalho, hobby e vida.