แชร์บน Facebook แชร์บน Twitter
ย้อนไปในปี 2019 Microsoft และ OpenAI ร่วมมือกันโดยมีเป้าหมายเพื่อสร้างทรัพยากรซูเปอร์คอมพิวติ้งแบบพิเศษที่จะช่วยให้ OpenAI สามารถฝึกคอลเลกชันโมเดล AI ขั้นสูงที่มีการขยายตัวเพิ่มขึ้น OpenAI ต้องการโครงสร้างพื้นฐานการประมวลผลแบบคลาวด์ที่ไม่เหมือนสิ่งใดในอุตสาหกรรม
เมื่อเวลาผ่านไป ความร่วมมือก็แข็งแกร่งขึ้น และล่าสุดเมื่อวันที่ 13 มีนาคม ในปี 2023 Microsoft ประกาศเปิดตัวเครื่องเสมือนรุ่นใหม่ พลังสูง และขยายได้ง่าย เครื่องเหล่านี้มาพร้อมกับ NVIDIA H100 Tensor Core GPUs ล่าสุดและเครือข่าย NVIDIA Quantum-2 InfiniBand การอัปเกรดเหล่านี้เป็นส่วนหนึ่งของความพยายามอย่างต่อเนื่องเพื่อจัดการกับความท้าทายครั้งใหญ่ในการขยายขีดความสามารถในการฝึกโมเดล AI ของ OpenAI
“การออกแบบซูเปอร์คอมพิวเตอร์ร่วมกับ Azure มีความสำคัญต่อการปรับขยายความต้องการการฝึกอบรม AI ของเรา ทำให้การวิจัยและการจัดตำแหน่งของเราทำงานบนระบบอย่างเช่น ChatGPT ได้” Greg Brockman ประธานและผู้ร่วมก่อตั้ง OpenAI กล่าว.
Microsoft ได้เปิดตัว ND H100 v5 Virtual Machine (VM) ซึ่งช่วยให้ลูกค้าสามารถเพิ่มขนาดทรัพยากรการประมวลผลได้ตามต้องการ ด้วยความสามารถในการใช้งาน GPU NVIDIA H100 จากแปดถึงพัน GPU เหล่านี้เชื่อมโยงกันกับเครือข่าย NVIDIA Quantum-2 InfiniBand ซึ่ง Microsoft อ้างว่าจะส่งผลให้โมเดล AI ประมวลผลได้เร็วขึ้นมากเมื่อเทียบกับรุ่นก่อนหน้า
Nidhi Chappell ซึ่งเป็นหัวหน้าฝ่ายผลิตภัณฑ์ของ Azure High-Performance Computing ของ Microsoft ได้เปิดเผยว่าความก้าวหน้าล่าสุดของพวกเขาประสบความสำเร็จโดยการหาวิธีสร้าง เรียกใช้ และบำรุงรักษา GPU นับหมื่นตัวที่อยู่รวมกันและเชื่อมต่อผ่านเครือข่าย InfiniBand ความเร็วสูงโดยมีความล่าช้าน้อยที่สุด จากข้อมูลของ Chappell นี่เป็นความสำเร็จที่ท้าทายเพราะไม่เคยมีความพยายามมาก่อนโดยบริษัทที่จัดหา GPU และอุปกรณ์เครือข่าย โดยพื้นฐานแล้ว เธอกล่าวว่าพวกเขากำลังผจญภัยไปยังดินแดนที่ไม่มีใครรู้จัก และไม่แน่ใจว่าฮาร์ดแวร์จะรองรับการถูกผลักดันจนถึงขีดจำกัดโดยไม่ล้มเหลวหรือไม่
นอกจากนี้ Chappell ยังกล่าวอีกว่าการบรรลุประสิทธิภาพที่ดีที่สุดนั้นต้องการการเพิ่มประสิทธิภาพจำนวนมากในระดับระบบ การเพิ่มประสิทธิภาพนี้เกี่ยวข้องกับการใช้ซอฟต์แวร์ที่เพิ่มประสิทธิภาพสูงสุดทั้ง GPU และอุปกรณ์เครือข่าย ในปัจจุบัน โครงสร้างพื้นฐานของ Azure ได้รับการปรับให้เหมาะสมโดยเฉพาะสำหรับการฝึกอบรมโมเดลภาษาขนาดใหญ่ และสามารถเข้าถึงได้ผ่านความสามารถซูเปอร์คอมพิวติ้ง AI บนคลาวด์ของ Azure
Microsoft อ้างว่าเป็นผู้ให้บริการ GPU ที่จำเป็นเพียงรายเดียว เครือข่าย InfiniBand และโครงสร้างพื้นฐาน AI ที่แตกต่างกันซึ่งจำเป็นต่อการสร้างโมเดล AI ที่เปลี่ยนแปลงได้ในสเกลขนาดใหญ่ ซึ่งมีเฉพาะใน Microsoft Azure เท่านั้น
ผ่าน Microsoft