在 Facebook 上分享 在 Twitter 上分享
早在 2019 年,Microsoft 和 OpenAI 就共同製定了一個目標,即創建專門的超級計算資源,使 OpenAI 能夠訓練不斷擴展的高級 AI 模型集合。 OpenAI 需要一個雲計算基礎設施,這與業界從未嘗試過的任何東西都不同。
隨著時間的推移,合作夥伴關係變得更加牢固,就在最近,3 月 13 日, 2023年,微軟宣布發布新的、高性能的、易於擴展的虛擬機。這些機器配備了最新的 NVIDIA H100 Tensor Core GPU 和 NVIDIA Quantum-2 InfiniBand 網絡。這些升級是為應對擴大 OpenAI 人工智能模型訓練能力這一巨大挑戰而不斷努力的一部分。
“與 Azure 共同設計超級計算機對於擴展我們苛刻的 AI 培訓需求至關重要,使我們能夠在 ChatGPT 等系統上進行研究和調整工作,”OpenAI 總裁兼聯合創始人 Greg Brockman 說.
Microsoft 推出了 ND H100 v5 虛擬機 (VM),它允許客戶根據需要擴展他們的計算資源,能夠在任何地方使用八到數千個 NVIDIA H100 GPU。這些 GPU 與 NVIDIA Quantum-2 InfiniBand 網絡連接在一起,微軟聲稱與上一代相比,這將使 AI 模型的處理速度更快。
Nidhi Chappell,Azure 產品負責人微軟的高性能計算部門透露,他們最近的突破是通過弄清楚如何構建、運行和維護數以萬計的 GPU 來實現的,這些 GPU 位於一起並通過高速 InfiniBand 網絡以最小延遲連接。根據 Chappell 的說法,這是一項具有挑戰性的壯舉,因為提供 GPU 和網絡設備的公司以前從未嘗試過。從本質上講,她說他們正在冒險進入未知領域,並且不確定硬件是否可以在不失敗的情況下被推到極限。
此外,Chappell 提到要實現最佳性能需要在系統級別進行大量優化。這種優化涉及使用能夠最大限度地提高 GPU 和網絡設備效率的軟件。目前,Azure 基礎設施已經專門為訓練大型語言模型進行了優化,可以通過 Azure 基於雲的 AI 超級計算能力訪問。
微軟聲稱他們是所需 GPU、InfiniBand 網絡的唯一供應商,以及構建大規模變革性 AI 模型所必需的獨特 AI 基礎設施,這僅在 Microsoft Azure 上可用。
通過 Microsoft