1 月 9 日更新:添加了 NVIDIA 的 GeForce RTX 4070 Ti 的結果。

我們很難不談論 Blender,那麼迎接 2023 年的文章還有什麼比深入了解最新 3.4 版本的性能?一如既往,我們將通過 Cycles 和 Eevee 的渲染測試以及交互式視口內部的幀速率來查看最新版本的 GPU 集合。

Blender 的發布3.4 與名為 Charge 的新 Blender Studio 開放電影的發布有關。這些開放影片的存在不僅僅是為了突出 Blender 的功能,而是為了提供實際的項目文件,以便用戶可以深入了解並更好地理解一切是如何組合在一起的。如果您還沒有看過 Charge,一定要去看看:

我們曾希望將 Charge 閃屏項目包含在我們的基準測試結果中,但它目前崩潰了Blender 在嘗試渲染到我們的任何一種配置時。我們將在 3.5 發布之前重新審視該項目,因為它是我們所見過的最漂亮的項目之一,所以將其包含在測試中真的很棒。

對於那些想要快速了解的人查看添加到 Blender 3.4 的主要功能,查看解釋它的官方視頻 5分鐘。如果您想深入了解細節,您應該探索完整的發行說明.

儘管這是一篇專注於 GPU 的文章,但 Blender 3.4 中的一個顯著特性圍繞著英特爾的路徑引導庫展開,它可以顯著提高 CPU 綁定渲染工作負載的採樣效率。實際上,您會看到具有相同樣本級別的更詳細的結果。我們尚未測試 Blender 3.4 的 CPU 渲染,但會在不久後進行審查。

雖然 Blender 3.3 引入了對 Intel Arc 的支持,但建議使用最新的驅動程序以獲得最佳體驗在它和 3.4。對於 Linux 中的 AMD HIP,需要升級到 ROCm 5.3 或更新版本才能渲染到 Radeon。在 Apple 上,Intel GPU 現在可用於在 macOS 13 中進行渲染。

AMD、Intel 和 NVIDIA GPU 陣容,我們的測試方法

下表代表了當前和最新的來自所有三個圖形供應商的 gen GPU 陣容。自從我們的 Blender 3.3 深入研究發布後,AMD 推出了其最新的 Radeons,它是 RDNA3 架構的一部分。

AMD 的 Radeon Creator 和遊戲 GPU 系列核心提升 MHz 峰值 FP32 顯存帶寬 TDP 價格 RX 7900 XTX 6,144 2,500 61 TFLOPS 24 GB 1 960 GB/s 355W $999 RX 7900 XT 5,376 2,400 52 TFLOPS 20 GB 1 800 GB/s 300W $899 RX 6950 XT 5,120 2,310 23.6 TFLOPS 16 GB 1 576 GB/s 335W $1,099 RX 6900 XT 5,120 2,250 23 TFLOPS 16 GB 1 512 GB/s 300W $999 RX 6800 XT 4,608 2,250 20.7 TFLOPS 16 GB 1 512 GB/s 300W $649 RX 6800 3,840 2,105 16.2 TFLOPS 16 GB 1 512 GB/s 250W $579 RX 6750 XT 2,560 2,600 13.3 TFLOPS 12 GB 1 432 GB/s 250W $549 RX 6700 XT 2,560 2,581 13.2 TFLOPS 12 GB 1 384 GB/s 230W $479 RX 6650 XT 2,048 2,635 10.8 TFLOPS 8 GB 1 280 GB/S 180W $ 399 RX 6600 XT 2,048 2,589 10.6 TFLOPS 8 GB 1 256 GB 1 256 GB/S 1 160W 1,024 2,815 5.77 TFLOPS 4 GB 1 144 GB/s 107W $199 RX 6400 768 2,321 3.57 TFLOPS 4 GB 1 128 GB/s 53W $159 Xe 內核渲染切片 GPU 時鐘內存帶寬 TDP SRP Arc A770 32 8 2.1 GHz 16/8 GB 1 560/512 GB/s 225W $329 Arc A750 28 7 2.05 GHz 8 GB 1 512 GB/s 225W $289 Arc A580 24 4 1.70 GHz 8 GB 1 512 GB/s 175W $??? Arc A380 8 2 2.0 GHz 6 GB 1 186 GB/s 75W $139 Arc A310 6 2 2.0 GHz 4 GB 1 124 GB/s 75W $???註釋
NVIDIA 的 GeForce Gaming 和 Creator GPU 系列 核心提升 MHz 峰值 FP32 顯存帶寬 TDP SRP RTX 4090 16,384 2,520 82.6 TFLOPS 24GB 1 1008 GB/s 450W $1,599 RTX 4080 9,728 2,510 48.8 TFLOPS 16GB/1s 7 320W $1,199 RTX 4070 Ti 7,680 2,610 40.1 TFLOPS 12GB 1 504 GB/s 285W $799 RTX 3090 Ti 10,752 1,860 40 TFLOPS 24GB 1 1008 GB/s 450W $1,999 RTX 3090 10,496 1,700 35.6 TFLOPS 24GB 1 936 GB/s 350W $1,499 RTX 3080 Ti 10,240 1,670 34.1 TFLOPS 12GB 1 912 GB/s 350W $1,199 RTX 3080 8,704 1,710 29.7 TFLOPS 10GB 1 760 GB/s 320W $699 RTX 3070 Ti 6,144 1,770 21.7 TFLOPS 8GB 1 608 GB/s 290W $599 RTX 3070 5,888 1,730 20.4 TFLOPS 8GB 2 448 GB/s 220W $ 499 RTX 3060 TI 4,864 1,670 16.2 TFLOPS 8GB 2 448 GB/S 200W $ 399 RTX 3060 3,584 1,780 12.7 TFLOPS 12GB 12GB 2 360 GB/S 170W $ 329 RTX RTX 329 RTX 3050 2,5560 1,170 1,170 1,1790 1,1790 1,1790 1,170 1,170 tfl table>

隨著 GPU 定價最近到處都是,比以往任何時候都更難將一種型號固定為成為物超所值的“最佳”。就 SRP 而言,對我們來說最具吸引力的選擇仍然是 NVIDIA 的 GeForce RTX 3070,儘管對於更現代的工作負載,其 8GB 幀緩衝區可能很快就會感到受限。

目前,AMD 和 NVIDIA 的最新 GPU 迎合了那些願意在他們的新顯卡上花費 800 美元或更多的人,所以如果這對你的血液來說太豐富了,二手市場將值得一看。隨著這些新一代 GPU 的推出,上一代卡正在充斥各種市場,因此如果您保持警惕,您可能能夠以極具吸引力的價格獲得一款功能強大的上一代 GPU 型號。

儘管如此,性能是本文的全部內容,所以讓我們繼續快速查看我們的測試 PC 和一般測試指南,然後繼續展示:

所有基準測試都是針對本文是使用最新的 Windows 11 (22H2)、最新的 AMD 芯片組驅動程序以及最新的(截至測試時)圖形驅動程序完成的。

以下是一些通用的我們遵循的準則:

破壞性服務被禁用;例如:搜索、Cortana、用戶帳戶控制、Defender 等。圖形驅動程序不安裝覆蓋和/或其他附加功能。 Vsync 在驅動程序級別被禁用。操作系統永遠不會從一台機器移植到另一台機器。我們在開始任何測試運行之前驗證系統配置。直到 PC 空閒(保持穩定的最小瓦數)後,測試才會開始。重複所有測試,直到對結果有高度的信心。

請注意,本文測試的所有渲染項目都可以直接從 Blender 自己的網站下載。每個項目的默認值都保持不變,因此您可以設置渲染設備,按 F12,並將給定項目中的渲染時間與我們的進行比較。

Cycles GPU:AMD HIP、Intel oneAPI 和 NVIDIA OptiX

將這些結果與我們的 Blender 3.3 中的結果進行比較深入研究性能,我們可以看到變化不大。有些數字確實發生了變化——變得更好了——但幅度不大。最主要的區別是這些最新的圖表有 AMD 的新 RDNA3 GPU。 RX 7900 XT 和 RX 7900 XTX 在與低端 GPU 一起使用時都難以跟上 NVIDIA 的 OptiX API,儘管它們在 White Lands 項目中都證明是強大的。

我們開始聽起來像破紀錄,但就 Blender 的 Cycles 而言,NVIDIA 無可匹敵。當 AMD 的高端當前一代旗艦產品努力超越上一代 NVIDIA 的低端選項之一時,它確實說明了一些問題。 OptiX 太強大了,現在的競爭對手無法跟上,這導致我們:

沒有 OptiX:AMD HIP、Intel oneAPI 和 NVIDIA CUDA

設置渲染時在現代版本的 Blender 中,您會看到 CUDA 和 OptiX 選項,它們可以與 NVIDIA GPU 一起使用。 OptiX 選項首次出現在 2.81 版本中,很快就讓我們大吃一驚。在初始部署之後,我們定期測試 CUDA 和 OptiX,以顯示它們之間巨大的性能差異。

大約一年前,我們認為它最終足夠安全,可以考慮將 Blender 中的 OptiX 視為 CUDA 的替代品,因此我們完全放棄了 CUDA,並通過對每個供應商的最佳 API 進行基準測試來簡化我們的測試。因為 OptiX 可以利用 RTX GPU 的加速光線追踪核心,並且因為生成的圖像質量是相同的,所以選擇 OptiX 是顯而易見的。

隨著英特爾 Arc GPU 幾個月前的推出,我們從多位讀者那裡聽說,現在可能是比較所有 GPU 的好時機——即選擇 CUDA 和 NVIDIA GPU,堅持 AMD 的 HIP 和英特爾的 oneAPI.這實際上意味著所有 GPU 供應商都處於公平的競爭環境中。

因此,接下來的幾張圖使用與上面相同的項目,但將 NVIDIA 的 OptiX 換成 CUDA。我們還包括 NVIDIA 專用圖表,可以輕鬆突出 OptiX 全面實現的性能優勢:

從所有這些結果中可以收集到很多信息。例如,在 Secret Deer 項目中,當涉及 OptiX 時,AMD 的高端 Radeon RX 7900 XTX 落後於 GeForce RTX 3060,但在使用 CUDA 時,它設法推動自己與 NVIDIA 的上一代高端產品並駕齊驅。 AMD 的這些性能優勢在其他圖表中得到延續。

另一件引人注目的事情是,即使沒有 OptiX,NVIDIA 最新的高端 Ada Lovelace GeForces 也無法觸及。他們都把自己拉到足夠的前面,發現自己處於另一個水平的表現。當我們查看 Optix 與無 OptiX 圖表時,我們看到大量示例,其中這些 RT 內核可以將渲染時間減半以上。

這給了我們希望,當 AMD 和 Intel 獲得他們的 RT 加速能力時在 Blender 中,我們也可能會看到它們的性能大幅提升。也就是說,在我們看到它之前我們不會指望任何東西,因為正如我們過去所見,AMD 的 Radeon ProRender 為 AMD 的 GPU 提供 RT 加速,而 NVIDIA 甚至設法贏得了這些戰鬥,沒有能力進入 OptiX。

我們特別熱衷於了解英特爾獲得 RT 加速將如何提供幫助。雖然英特爾目前只迎合低端市場,但其 Arc 卡已被證明可以為其價位提供出色的渲染性能。在我們的 CUDA 戰鬥中,Arc A770 在每個項目中都僅次於 RTX 3070——我們通常稱之為物超所值的 NVIDIA GPU。與此同時,上一代可比較的 AMD 卡 6700 XT 落後於兩者。

預計 AMD 和英特爾至少會在 Blender 3.6 版本中添加 RT 加速,所以如果一切順利的話,我們將在接下來的六個月內得到所有問題的答案。

Cycles 渲染引擎只是 Blender 方程式的一部分;在下一頁(也是最後一頁)中,我們將探索使用 Eevee 進行渲染以及在視口內部工作時的性能。

支持我們的努力! 廣告收入在書面網站的歷史最低點,我們比以往任何時候都更加依賴讀者的支持來幫助我們繼續為此類內容投入大量精力。您可以通過成為贊助人或使用我們文章中列出的亞馬遜購物附屬鏈接來支持我們。感謝您的支持!

By Maxwell Gaven

我在 IT 行業工作了 7 年。 觀察 IT 行業的不斷變化很有趣。 IT 是我的工作、愛好和生活。