Andrew 是 Cerebras Systems 的聯合創始人兼首席執行官。他是一位致力於突破計算領域界限的企業家。在加入 Cerebras 之前,他與他人共同創立了 SeaMicro 並擔任首席執行官,SeaMicro 是節能、高帶寬微服務器的先驅。 SeaMicro 於 2012 年以 3.57 億美元的價格被 AMD 收購。在加入 SeaMicro 之前,Andrew 是 Force10 Networks 的產品管理、營銷和 BD 副總裁,該公司後來以 8 億美元的價格賣給了 Dell Computing。在加入 Force10 Networks 之前,從公司成立到 2001 年首次公開募股,Andrew 一直擔任 RiverStone Networks 的營銷和企業發展副總裁。Andrew 擁有斯坦福大學的文學學士和工商管理碩士學位。

Cerebras Systems 正在構建一個新型計算機系統,根據第一性原理設計,以加速 AI 和改變 AI 工作的未來為單一目標。

您能否分享 Cerebras Systems 背後的起源故事?

我的聯合創始人和我都我和我的首席技術官加里在 2007 年創辦的一家名為 SeaMicro 的初創公司合作過(2012 年以 3.34 億美元的價格賣給了 AMD)。我的聯合創始人是業內一些領先的計算機架構師和工程師——Gary Lauterbach、Sean Lie、JP Fricker 和 Michael James。當我們在 2015 年讓樂隊重新聚在一起時,我們在白板上寫了兩件事——我們想一起工作,我們想建立一些可以改變行業並進入計算機歷史博物館的東西,這相當於計算名人堂。當計算機歷史博物館認可我們的成就並在去年將 WSE-2 處理器添加到其館藏中時,我們感到非常榮幸,理由是它如何改變了人工智能領域。

Cerebras Systems 是一個先驅計算機架構師團隊,計算機科學家、深度學習研究人員和喜歡無畏工程的各種類型的工程師。當我們聚在一起時,我們的使命是構建一種新型計算機來加速深度學習,深度學習已成為我們這個時代最重要的工作負載之一。

我們意識到深度學習具有獨特的、龐大的、和不斷增長的計算需求。它與圖形處理單元 (GPU) 等傳統機器不太匹配,這些機器從根本上是為其他工作而設計的。因此,今天的 AI 不受應用程序或想法的限制,而是受計算可用性的限制。測試一個新的假設——訓練一個新模型——可能需要幾天、幾週甚至幾個月的時間,並花費數十萬美元的計算時間。這是創新的主要障礙。

因此,Cerebras 的起源是從一張白紙開始,構建一種專門針對深度學習優化的新型計算機。為了滿足深度學習的巨大計算需求,我們設計並製造了有史以來最大的芯片——晶圓級引擎 (WSE)。在創造世界上第一個晶圓級處理器的過程中,我們克服了設計、製造和封裝方面的挑戰——在整個 70 年的計算機歷史中,所有這些都被認為是不可能的。 WSE 的每個元素都旨在以前所未有的速度和規模進行深度學習研究,為業界最快的 AI 超級計算機 Cerebras CS-2 提供動力。

CS-2 的每個組件都針對 AI 工作進行了優化,以比任何其他系統更少的空間和更低的功率提供更高的計算性能。它這樣做的同時從根本上降低了編程複雜性、掛鐘計算時間和解決問題的時間。根據工作負載的不同,從 AI 到 HPC,CS-2 提供的性能是傳統替代方案的數百或數千倍。 CS-2 提供相當於數百個 GPU 的深度學習計算資源,同時提供單個設備的編程、管理和部署便利性。

在過去的幾個月裡,Cerebras 似乎是遍布新聞,關於新的 Andromeda AI 超級計算機,您能告訴我們什麼?

我們在去年 11 月發布了 Andromeda,它是有史以來最大、功能最強大的 AI 超級計算機之一。 Andromeda 提供超過 1 Exaflop 的人工智能計算和 120 Petaflops 的密集計算,在 16 個 CS-2 系統中擁有 1350 萬個內核,並且是唯一一台在大型語言模型工作負載上表現出近乎完美線性擴展的人工智能超級計算機。它的使用也非常簡單。

提醒一下,地球上最大的超級計算機 Frontier 擁有 870 萬個內核。在原始核數中,仙女座的大小是其一倍半以上。它的工作方式顯然不同,但這給出了範圍的概念:近 100 太比特的內部帶寬,近 20,000 個 AMD Epyc 內核為其提供支持,而且-與需要數年才能站起來的巨型超級計算機不同-我們在三天內讓仙女座站起來緊接著,它提供了近乎完美的 AI 線性擴展。

阿貢國家實驗室是我們第一個使用 Andromeda 的客戶,他們將其應用於解決了一個名為 Polaris 的 2,000 GPU 集群正在崩潰的問題。問題是運行非常大的 GPT-3XL 生成模型,同時將整個 Covid 基因組放在序列窗口中,這樣你就可以在 Covid 整個基因組的背景下分析每個基因。 Andromeda 在 1、2、4、8 和 16 個節點上運行具有長序列長度(MSL 為 10K)的獨特遺傳工作負載,具有近乎完美的線性縮放。線性擴展是大型集群最受歡迎的特徵之一。與單個 CS-2 相比,Andromeda 在 16 個 CS-2 系統中提供了 15.87 倍的吞吐量,並且匹配訓練時間減少了。

您能告訴我們關於 與 Jasper 的合作夥伴關係 11 月底,這對兩家公司意味著什麼?

Jasper 是一家非常有趣的公司。他們是用於營銷的生成 AI 內容的領導者,他們的產品被全球超過 100,000 名客戶用於為營銷、廣告、書籍等撰寫文案。這顯然是一個非常令人興奮且發展迅速的空間。去年,我們宣布與他們建立合作夥伴關係,以加速採用並提高生成人工智能在企業和消費者應用程序中的準確性。 Jasper 正在使用我們的 Andromeda 超級計算機在很短的時間內訓練其高度計算密集型模型。這將把生成式人工智能模型的範圍擴大到大眾。

借助 Cerebras Andromeda 超級計算機的強大功能,Jasper 可以顯著推進人工智能工作,包括訓練 GPT 網絡以適應人工智能輸出到所有級別的終端-用戶的複雜性和粒度。這提高了生成模型的上下文準確性,並使 Jasper 能夠快速、輕鬆地個性化跨多類客戶的內容。

我們的合作夥伴關係使 Jasper 能夠通過做一些不切實際或不切實際的事情來創造生成人工智能的未來傳統基礎設施根本無法實現,並加速生成人工智能的潛力,為我們在全球快速增長的客戶群帶來好處。

在最近的Wafer-Scale Engine (WSE) 是我們的深度學習計算機系統 CS-2 的革命性 AI 處理器。與傳統的通用處理器不同,WSE 是為加速深度學習而全新構建的:它擁有 850,000 個針對稀疏張量運算的 AI 優化內核、海量高帶寬片上內存以及比傳統處理器快幾個數量級的互連集群可能實現。總而言之,它為您提供了相當於傳統機器集群的深度學習計算資源,所有這些資源都在單個設備中,易於作為單個節點進行編程——從根本上降低了編程複雜性、掛鐘計算時間和解決問題的時間。

為我們的 CS-2 系統提供支持的第二代 WSE-2 可以極快地解決問題。足夠快以允許對感興趣的工程系統進行實時、高保真模型。這是成功“強縮放”的罕見示例,“強縮放”是使用並行性來減少解決固定大小問題的時間。

這就是國家能源技術實驗室和匹茲堡超級計算中心正在使用它的目的.我們剛剛公佈了一些非常令人興奮的計算流體動力學 (CFD) 模擬結果,該模擬由大約 2 億個細胞組成,速度接近實時。 此視頻展示了高分辨率模擬Rayleigh-Bénard 對流,當流體層從底部加熱並從頂部冷卻時發生。這些熱驅動的流體流動無處不在——從大風天到湖泊效應暴風雪,再到地核中的岩漿流和太陽中的等離子體運動。正如解說員所說,重要的不僅僅是模擬的視覺美感:我們計算它的速度也很重要。 NETL 首次使用我們的晶圓級引擎,能夠近乎實時地操縱由近 2 億個單元組成的網格。

正在模擬什麼類型的數據?

測試的工作負載是熱驅動流體流動,也稱為自然對流,是計算流體動力學 (CFD) 的應用。流體流動在我們周圍自然發生——從大風天到湖泊效應暴風雪,再到構造板塊運動。該模擬由大約 2 億個單元組成,重點關註一種稱為“Rayleigh-Bénard”對流的現象,這種現象發生在流體從底部加熱並從頂部冷卻時。在自然界中,這種現象會導致惡劣的天氣事件,例如下擊暴流、微下擊暴流和斷流。它還負責地核中的岩漿運動和太陽中的等離子體運動。

早在 2022 年 11 月,NETL 就推出了一種由 CS-2 系統提供支持的新場方程建模 API,它與比 NETL 的焦耳超級計算機快 470 倍。這意味著它可以提供超出任何數量的 CPU 或 GPU 集群所能達到的速度。 WFA 使用一個簡單的 Python API,為大部分計算科學實現晶圓級處理,提供了傳統計算機和超級計算機無法獲得的性能和可用性增益——事實上,它在 NETL 的 Joule 2.0 超級計算機上的性能超過了 OpenFOAM 兩個數量級以上解決方案的時間量級。

由於 WFA API 的簡單性,結果在短短幾週內就取得了成果,並繼續 NETL、PSC 和 Cerebras Systems 之間的密切合作。

通過在我們的 WSE 上轉換 CFD(這一直是一項緩慢的離線任務)的速度,我們可以為此以及許多其他核心 HPC 應用程序開闢大量新的實時用例。我們的目標是通過啟用更多的計算能力,我們的客戶可以進行更多的實驗並發明更好的科學。 NETL 實驗室主任布賴恩安德森告訴我們,這將大大加快和改進 NETL 正在圍繞緩解氣候變化和實現安全能源未來而開展的一些真正大型項目的設計過程——如碳封存和藍氫生產。

在發布超級計算機方面,Cerebras 的表現一直優於競爭對手,構建最先進的超級計算機背後有哪些挑戰?

具有諷刺意味的是,大型 AI 最艱鉅的挑戰之一併不是 AI。這就是分佈式計算。

為了訓練當今最先進的神經網絡,研究人員通常使用成百上千個圖形處理單元 (GPU)。這並不容易。跨 GPU 集群擴展大型語言模型訓練需要將工作負載分佈在許多小型設備上,處理設備內存大小和內存帶寬限制,並仔細管理通信和同步開銷。

我們採取了完全通過開發Cerebras Wafer-Scale Cluster Cerebras Weight Streaming 執行模式。借助這些技術,Cerebras 基於三個關鍵點提出了一種新的擴展方式:

用 Cerebras CS-2 系統等晶圓級加速器取代 CPU 和 GPU 處理。這一變化減少了實現可接受的計算速度所需的計算單元數量。

為了應對模型大小的挑戰,我們採用了一種將計算與模型存儲分離的系統架構。基於 CS-2 系統集群(提供足夠的計算帶寬)的計算服務與內存服務(具有大內存容量)緊密耦合,內存服務按需向計算集群提供模型子集。與往常一樣,數據服務根據需要向計算服務提供批量訓練數據。

一種創新模型,用於在 CS-2 集群中調度和協調訓練工作,該模型採用數據並行性,層位於具有按需流式傳輸的稀疏權重的時間訓練,並在計算服務中保留激活。

近十年來人們一直擔心摩爾定律的終結,還有多少年可以行業擠入,為此需要什麼類型的創新?

我認為我們都在努力解決的問題是摩爾定律——正如摩爾所寫的那樣——是否已死。獲得更多晶體管不需要兩年時間。現在需要四五年時間。這些晶體管的價格並不相同——它們的價格要高得多。所以問題就變成了,從七納米到五納米再到三納米,我們還能得到同樣的好處嗎?收益更小,成本更高,因此解決方案變得比簡單的芯片更複雜。

領先的計算機架構師 Jack Dongarra 最近發表演講說:“我們已經變得更好了在製作 FLOP 和製作 I/O 時。”這是真的。我們將數據移出芯片的能力遠遠落後於我們提高芯片性能的能力。在 Cerebras,當他這麼說時我們很高興,因為它證實了我們製造更大芯片並減少芯片外移動的決定。它還提供了一些關於未來如何使帶有芯片的系統性能更好的方法的指導。有很多工作要做,不僅僅是擠出更多的 FLOPs,還有移動它們和將數據從芯片移動到芯片的技術——甚至是從非常大的芯片到非常大的芯片。

關於 Cerebras Systems,您還有什麼想分享的嗎?

無論好壞,人們經常將 Cerebras 歸入“真正的芯片巨頭”這一類別。我們已經能夠為非常非常大的神經網絡提供令人信服的解決方案,從而消除了進行痛苦的分佈式計算的需要。我相信這非常有趣,也是我們的客戶喜歡我們的核心原因。 2023 年有趣的領域將是如何使用更少的 FLOP 進行更高精度的大型計算。

我們在稀疏性方面的工作提供了一種非常有趣的方法。我們不做不能使我們朝著目標線前進的工作,乘以零是個壞主意。我們將很快發布一篇關於稀疏性的非常有趣的論文,我認為將會有更多的努力來研究我們如何達到這些有效點,以及我們如何以更少的功率做到這一點。不僅僅是為了減少力量和訓練;我們如何最小化推理中使用的成本和功率?我認為稀疏性在兩個方面都有幫助。

感謝您提供這些深入的答案,希望了解更多信息的讀者應該訪問 Cerebras Systems .

By Maisy Hall

我是一名自由作家。 我也是素食主義者和環保主義者。 每當我有時間時,我都會專注於冥想。