它似乎花了很長時間才到達這裡,但今天,英特爾正式推出其圍繞 Sapphire Rapids 平台構建的第 4 代 Xeon 系列。該系列不僅包括我們在前幾代中看到的典型可擴展 SKU,還包括全新的“Max”系列,英特爾在幾個月前首次談到了這一點。

採用藍寶石Rapids,英特爾表示,最新的至強處理器是迄今為止最具可持續性的,並且它還擁有迄今為止所有服務器處理器中最多的內置加速器。這兩部分都是可信的,但後者意味著商業,因為英特爾在這些 CPU 中包含了許多加速優點,其中一些需要更新軟件才能充分利用潛在收益。

英特爾提供的處理器 SKU 的絕對數量幾乎達到了幽默的模因水平。它在桌面上和在服務器上是一樣的。誰不喜歡這個更新後的彩色服務器 SKU 表?


英特爾的第 4 代 Xeon Scalable 和 Xeon Max 系列

有了這麼多的 Xeon 選項,很明顯,英特爾正試圖捕捉盡可能多的服務器市場,因為它可以提供最新產品。雖然可能有一些領域可以加入其他模型,但這仍然感覺像是一個詳盡的列表。

雖然英特爾為許多不同的目的提供 Xeons,但沒有一個是無緣無故開發的。您可能會看到這兩個液冷選項並想知道實際使用它們的人是誰,但英特爾付出了很多努力使這些 CPU 脫穎而出,與行業合作夥伴合作開發更好的液冷服務器芯片方法,並儘可能多地努力

自最初的 Xeon Scalable 發布以來,我們已經看到了像上面那樣的 SKU 表,但是這個有許多額外的細節值得一提。首先,核心配置將列為 XCC 或 MCC。 XCC 代表內部有多個“瓦片”的 CPU,而 MCC 是一個整體的、更傳統的設計:


英特爾第 4 代至強封裝配置

XCC 設計幫助英特爾在高端,這一代 Xeon 的 8490H 達到 60 核的峰值。當前一代 MCC 設計最多 32 個內核,例如虛擬化優化的 6448H 和 2S 性能綁定的 6448Y。

Xeon Max 系列代表第三種設計,與 XCC 實際上相同,但在芯片周圍放置了 HBM2e 內存。上個月我們“親身體驗”了 Max CPU:


英特爾的第 4 代 Xeon Max 非常適合自拍

雖然 Xeon Max CPU 在整個陣容中只佔據五個位置,但它們可以說是最多的有趣的一群。這些 CPU 配備了足夠的內置內存,使服務器無需額外內存即可運行。想像一下——一台服務器啟動、運行,完全沒有內存插槽被佔用。這非常令人討厭。

Xeon Max CPU 將 HBM2e 芯片放置在每個區塊旁邊,最終提供 64GB 的總密度,每個內核高達 1.14GB。英特爾將這些 Max SKU 直接瞄準 HPC 市場,雖然許多 HPC 工作負載需要大量內存,但仍有許多可以輕鬆容納在 64GB 以內。當然,如果 64GB HBM2e 密度不夠,您可以在此 HBM2e 之上構建 DDR5-4800。

這裡更詳細地介紹了每種 CPU 配置的規定規格:


基於封裝的英特爾第 4 代 Xeon 規格

上面的幻燈片有助於突出另一個值得關注的角度。在 Max CPU 上,其他 SKU 擁有的許多功能都消失了,例如英特爾的 QuickAssist 技術、動態負載平衡器和內存分析加速器。數據流加速器仍然存在,突出了 Max CPU 的激光聚焦目標受眾。

Max 中未內置的那些技術使我們在這個最新一代 Xeon 系列中看到了另一個不同之處。您可能已經註意到上面的一個新條目,“Intel On Demand Capable”;這指的是可以在沒有所有高級功能的情況下購買的 CPU,但稍後會通過系統合作夥伴和英特爾本身啟用它們。

雖然在上個月的簡報中,隨需應變的主題似乎讓很多人感到困惑,甚至今天,我們還沒有完全理解這個機制。 On Demand 聽起來像是服務器 CPU 的 DLC,但由於未使用技術,它應該使一些人能夠以更公平的價格購買 CPU,並且客戶以後仍然可以選擇改變方向。

換個角度可能是英特爾的某些技術可能無法在工作環境中得到適當利用,但如果建立了支持,則 On Demand 可以從 CPU 中解鎖該功能。據我們了解,鎖定功能的至強 CPU 不會讓這些功能對整體功率負載產生影響。它們實際上處於休眠狀態,直到它們被解鎖並投入使用。

如果您回顧之前共享的 SKU 表,您會注意到這些受點播影響的功能在不同設備上可能會有很大差異董事會。例如,針對雲優化的 SKU 幾乎沒有 DSA、QAT、DLB 和 IAA 設備,而高端 8490H 則有很多。根據您所追求的工作量,無論您最終選擇哪種型號,您都可能會感到束手無策。

這是 Sapphire Rapids(咳咳,第 4 代 Xeon)功能的概述,它有助於涵蓋我們的內容尚未:


英特爾第四代至強平台特性

這款最新一代至強平台支持 PCIe 5.0 和 4.0,以及頻率高達 4800MHz 的 DDR5。和以前一樣,這個平台有一個 8 通道內存控制器,最終每個插槽最多支持 16 個 DIMM。

值得注意的是,英特爾繼續支持其 4 插槽和 8 插槽系統,這很有趣考慮到其主要競爭對手 AMD EPYC(霄龍),其 2 插槽配置達到了頂峰。英特爾表示,它仍然看到對這些多 CPU 服務器的需求,尤其是內存數據庫智能工作、數據倉庫和可視化、數據中心整合等。


英特爾第四代至強加速引擎

一開始,我們提到第 4 代 Xeon 處理器包括可能(或更準確地說,可能會)需要更新才能充分利用的加速器。雖然許多第 4 代 Xeon Scalable 和 Max 處理器支持不同級別的 DSA/QAT/DLB/IAA,但它們都包含全新的 AMX 矩陣加速器,這是英特爾 ISA(指令集架構)的最新成員。

Intel 喜歡 AI,至強 CPU 已經討論了很長一段時間。但在 GPU 在許多 AI 工作負載上速度如此之快的時候,是什麼原因導致英特爾想要在這裡實施像 AMX 這樣的解決方案?對於初學者來說,CPU 本身也大量參與 AI 工作負載,將 AMX 放在內核旁邊可以提供出色的性能——可能甚至不需要安裝獨立的 GPU,具體取決於整體工作負載。

英特爾聲稱其 AMX 在計算線性代數方面比其向量引擎快約八倍,目標客戶包括那些操作推薦系統、圖像識別、自然語言處理等。


英特爾第 4 代 Xeon AMX 和 vRAN 擴展

vRAN 還注入了一些 AVX 更新,添加了 42 條新指令,這些指令利用了用 FP16 編寫的算法,此處的用途針對信號和媒體處理、前端傳輸格式化和層映射。

加速似乎真的是 Sapphire Rapids 的遊戲名稱。已實施多個加速器以減少 CPU 本身的負載,最終在相同的時間內完成更多工作。


每個 Xeon 可擴展代的加速器引擎

值得慶幸的是,雖然某些加速器功能在選擇中不存在Xeon SKU,AMX 正在成為事實上的標準。這很重要,因為我們知道許多軟件供應商需要更新他們的位才能充分利用它。

對每個人的支持可能不會像我們希望看到的那樣快,但是因為 AMX 是一個標準,這意味著開發人員可以放心地花時間圍繞它進行開發。當一個很酷的新功能在整個產品系列中的支持有限時,它就更難賣了。值得注意的是,TensorFlow 和 PyTorch 都內置了 AMX 支持,因此我們似乎有了一個良好的開端。

此外,所有這些加速器引擎在內核和加速器之間共享一致的共享內存空間,再次強調了英特爾在盡可能減少瓶頸的情況下提供盡可能高效的架構的努力。

談到性能,英特爾高級研究員 Ronak Singhal 在他的演講中與我們交談,他指出這是多麼重要通過相關測試對處理器進行基準測試。預先構建和預先調整的基準測試有其目的,但歸根結底,對客戶來說重要的是新平台如何影響他們的特定工作負載。

這張幻燈片說明了一切:

英特爾強調現實世界的重要性性能測試

SPEC 是一個涉及大多數行業最大半導體廠商的聯盟,因此發布的基準往往得到所有人的認可——測試中不會存在固有的偏見。但是,這些測試是嚴格的,它們的結果不會反映大多數工作負載。英特爾自己與客戶合作,衡量大多數基準與實際場景的脫節程度,從而強調使用相關基准進行測試的必要性。

為此,在更多真實世界的測試中,Sapphire Rapids 執行與上一代高端 Xeon 8380 相比:


英特爾第 4 代 Xeon 性能預期

全面的性能改進令人欣喜,但當然,其中一些結果比其他。 RocksDB 尤其有趣,因為它突出了英特爾更新的內存分析加速器的優勢。但即使是適度的收益仍然令人印象深刻,例如在使用 TLS 時 WordPress 性能提高了約 50%。

我們找不到明確提及它,但我們必須想像所有 AI 工作負載由於 AMX 的引入,在該幻燈片的右側看到瞭如此巨大的提升。雖然最後四個欄都飆升至頂部,但實時推理 BF16 結果在 10 倍左右確實非常突出。


優化的工具有助於充分利用英特爾的第四代 Xeon 可擴展和 Max 處理器

因為英特爾的 CPU 擁有如此多獨特的硬件,該公司竭盡全力確保每個人都擁有適合工作的正確工具和信息。英特爾的 oneAPI 不斷更新,許多其他工具也在不斷更新,例如 oneDNN、QPL 和 DML。該文檔也經常更新。

同樣,英特爾也知道,為了讓客戶充分利用其 AI 功能,應該提供示例。這就是該公司提供數十種預訓練人工智能模型的原因,人們可以將這些模型直接集成到他們的項目中,或從中學習。

在一次演示中,英特爾指出,只有 53% 的人工智能項目被踢掉了——關閉並最​​終看到完成,這是一個相當大的失敗率。像 oneAPI 這樣的解決方案可以從 CPU 或內置加速器中獲取處理能力,其目標是確保用戶能夠以最有效的方式完成計算。隨著時間的推移,我們有望看到 53% 的數字增長。

最終想法

英特爾洩露了有關其第 4 代 Xeon Scalable 和 Max 系列的大量信息,最終,我們儘管討論了很多有用的信息,但這裡只是觸及了表面。從上個月的面對面簡報中走出來,很明顯這次發布對英特爾來說很重要,這是有充分理由的。這裡有很多新奇有趣的東西。

一如既往,英特爾提供了大量選擇——無論您的用例是什麼,您一定會找到滿足需要的 CPU。底部是 1 路平台通用的 8 核 3408U,頂部是可用於 8 路系統的龐然大物 60 核 8490H。


英特爾 Sapphire Rapids 與上一代相比的性能優勢

不可否認,Xeon Max 系列最令我們著迷。在 CPU 中內置 64GB 的超快內存對於某些工作負載來說可能是一個福音,尤其是在根本不需要大量內存的情況下。 Xeon Max 服務器可以在沒有安裝單個 DIMM 的情況下正常啟動和運行這一事實不僅令人印象深刻,而且很有用。

Sapphire Rapids 最終如何在競爭中脫穎而出將需要其他人進行詳盡的基準測試弄清楚,我們確信大量的性能即將到來。也就是說,我們並不完全確定發射性能是否會描繪出最準確的畫面,因為 Sapphire Rapids 的某些設計特徵需要進行軟件更新。我們已經討論過 PyTorch 和 TensorFlow 支持 AMX 開門見山,但還有更多針對 AI 的軟件。

最終,我們很高興看到 Sapphire Rapids 的發布,因為已經有很長時間了,我們同樣很高興有這麼多有趣的話題可以討論。與所有服務器一樣,新產品進入生態系統的速度會很慢,所以看看年中和晚些時候的情況會很有趣。

支持我們的努力!由於書面網站的廣告收入處於歷史最低水平,我們比以往任何時候都更加依賴讀者的支持來幫助我們繼續在此類內容上投入大量精力。您可以通過成為贊助人或使用我們文章中列出的亞馬遜購物附屬鏈接來支持我們。感謝您的支持!

By Maxwell Gaven

我在 IT 行業工作了 7 年。 觀察 IT 行業的不斷變化很有趣。 IT 是我的工作、愛好和生活。