日本a√视频在线,久久青青亚洲国产,亚洲一区欧美二区,免费g片在线观看网站

        <style id="k3y6c"><u id="k3y6c"></u></style>
        <s id="k3y6c"></s>
        <mark id="k3y6c"></mark>
          
          

          <mark id="k3y6c"></mark>

          新聞中心

          EEPW首頁 > 智能計算 > 市場分析 > AMD RDNA4 GPU架構(gòu),亮相

          AMD RDNA4 GPU架構(gòu),亮相

          作者:chips and cheese 時間:2025-09-16 來源:半導(dǎo)體產(chǎn)業(yè)縱橫 收藏

          是 AMD 最新的以圖形為核心的架構(gòu),并用于打造其 RX 9000 系列獨立 GPU。AMD 指出,打造一款優(yōu)秀的游戲 GPU 需要理解當(dāng)前的工作負(fù)載,同時也要考慮到未來五年工作負(fù)載可能呈現(xiàn)的樣子。因此,AMD 一直致力于提升在光柵化、計算和光線追蹤各方面的效率。機器學(xué)習(xí)(包括在游戲中的應(yīng)用)的重要性日益凸顯,所以 AMD 的新 GPU 架構(gòu)也兼顧了機器學(xué)習(xí)工作負(fù)載。

          從 AMD 的角度看, 代表了在光線追蹤和機器學(xué)習(xí)效率上的巨大飛躍,同時在光柵化方面也有所改進(jìn)。改進(jìn)的壓縮技術(shù)有助于持續(xù)為圖形架構(gòu)供給數(shù)據(jù)。除了 GPU 核心的圖形加速職責(zé)外, 還帶來了增強的媒體和顯示功能,使產(chǎn)品更加完善。


          媒體引擎

          媒體引擎為多種編解碼器提供硬件加速的視頻編碼和解碼功能。高端 RDNA4 型號(如 RX 9070 XT)配備雙媒體引擎。RDNA4 的媒體引擎具有更快的解碼速度,通過「競速至空閑」(racing to idle) 策略有助于節(jié)省視頻播放時的功耗。在視頻編碼方面,AMD 致力于提升 H.264、H.265 和 AV1 編碼質(zhì)量,尤其是在低延遲編碼方面。

          低延遲編碼模式主要對流媒體傳輸有益,媒體引擎造成的延遲最終會轉(zhuǎn)化為延遲的流。降低延遲可能會使質(zhì)量優(yōu)化更具挑戰(zhàn)性。視頻編解碼器致力于編碼幀間差異以節(jié)省存儲空間。緩沖更多幀能為編碼器提供更多機會來尋找?guī)g的相似內(nèi)容,并允許其為復(fù)雜序列分配更多的碼率預(yù)算。但緩沖幀會引入延遲。另一個挑戰(zhàn)是一些流行的流媒體平臺主要使用 H.264,這是一種比 AV1 效率更低的老式編解碼器。更新的編解碼器正在測試中,隨著未來幾十年的發(fā)展,情況可能會開始改變。但目前,由于 H.264 的廣泛支持,它仍然很重要。

          使用《上古卷軸 Online》的老游戲片段進(jìn)行測試顯示,在使用受延遲約束的 VBR 模式 (-rc vbr_latency) 和針對低延遲編碼調(diào)優(yōu)的編碼器 (-usage lowlatency) 時,RDNA4 的媒體引擎展現(xiàn)出明顯優(yōu)勢。Netflix 的 VMAF 視頻質(zhì)量指標(biāo)在整個碼率范圍內(nèi)都給 RDNA4 打了更高的分?jǐn)?shù)。仔細(xì)檢查的結(jié)果通常與 VMAF 指標(biāo)一致。

          RDNA4 在保留高對比度輪廓方面做得更好。差異在文本周圍尤其明顯,RDNA4 以更低的碼率處理文本的效果優(yōu)于其前代產(chǎn)品。在如此近距離的審視下,兩者的結(jié)果都不算完美,示例中的文本都有模糊現(xiàn)象,并且精細(xì)細(xì)節(jié)被視頻編碼偽影所破壞。但值得記住的是,受延遲約束的 VBR 模式使用的 VBV 緩沖區(qū)最多為三幀,而更高延遲的模式可以使用覆蓋多秒視頻的 VBV 緩沖區(qū)大小。編碼速度也略有提高,從 RDNA3.5 到 RDNA4,速度從約 190 FPS 躍升至約 200 FPS。


          顯示引擎

          顯示引擎從內(nèi)存中獲取屏幕幀數(shù)據(jù),將其合成為最終圖像,并驅(qū)動到顯示輸出。這是一項大多數(shù)人都認(rèn)為理所當(dāng)然的基本任務(wù),但顯示引擎也是執(zhí)行各種圖像增強功能的好地方。一個傳統(tǒng)的例子是使用查找表(LUT)進(jìn)行色彩校正。顯示引擎的增強對用戶軟件是不可見的,并且通常在硬件中執(zhí)行,功耗成本極低。在 RDNA4 上,AMD 增加了一個「Radeon 圖像銳化」(Radeon Image Sharpening) 過濾器,讓顯示引擎能夠銳化最終圖像。使用顯示引擎的專用硬件而非 GPU 的可編程著色器意味著銳化過濾器不會影響性能,并且可以以更高的能效來執(zhí)行。而且,AMD 無需依賴游戲開發(fā)者來實現(xiàn)該效果。銳化甚至可應(yīng)用于桌面,雖然我不確定為什么會有人需要這樣做。

          功耗是顯示引擎的另一個重要優(yōu)化領(lǐng)域。傳統(tǒng)上,這更多是移動產(chǎn)品關(guān)注的問題,因為在低負(fù)載下最大化電池壽命是首要任務(wù)。但 RDNA4 以其更新的顯示引擎瞄準(zhǔn)了多顯示器空閑功耗。AMD 的演示指出,他們利用了 FreeSync 顯示器上的可變刷新率 (VRR) 功能。他們沒有透露更多細(xì)節(jié),但不難想象 AMD 可能采取的做法。高分辨率和高刷新率顯示器意味著高像素速率,這反過來又驅(qū)動了對更高內(nèi)存帶寬的需求。動態(tài)降低刷新率可以讓 RDNA4 的內(nèi)存子系統(tǒng)進(jìn)入低功耗狀態(tài),同時仍能滿足刷新截止期限。


          (圖表描述了不同刷新率組合下的功耗和 GDDR6 數(shù)據(jù)速率。當(dāng)內(nèi)存總線能夠空閑時,AMD 的監(jiān)控軟件(及其他軟件)會讀出極低的內(nèi)存時鐘,因此未列出這些讀數(shù)。)

          我有一塊 RX 9070,通過 HDMI 連接到 Viotek GN24CW 1080P 顯示器,以及一臺支持最高 360 Hz 刷新率的 MSI MAG271QX 1440P 顯示器。后者通過 DisplayPort 連接。即使在高刷新率設(shè)置下,RX 9070 也能將內(nèi)存保持在空閑時鐘。移動鼠標(biāo)會導(dǎo)致顯卡提高內(nèi)存時鐘并消耗更多功率,這暗示 RDNA4 在屏幕內(nèi)容不變時會降低刷新率。此外,RDNA4 獲得了一個中間 GDDR6 功耗狀態(tài),使其能夠處理 1080P 60 Hz + 1440P 240 Hz 的組合,而無需達(dá)到最大內(nèi)存時鐘。在 RDNA2 上,情況更傾向于「全有或全無」。老款顯卡更容易為了提高以處理高像素速率而提高內(nèi)存時鐘,并且即使屏幕內(nèi)容不變,功耗也保持高位。

          計算單元變更

          RDNA4 的工作組處理器(WGP)保持了與之前 RDNA 世代相同的高級布局。然而,它獲得了針對光線追蹤的重大改進(jìn),例如改進(jìn)的光線追蹤單元和更寬的 BVH 節(jié)點、動態(tài)寄存器分配模式,以及一個不再受波(wave)間錯誤內(nèi)存依賴關(guān)系影響的調(diào)度器。我在之前的文章中介紹過這些。除了這些改進(jìn),AMD 的演示還討論了一些其他值得關(guān)注的細(xì)節(jié)。


          標(biāo)量浮點指令

          AMD 長期以來一直使用標(biāo)量單元來卸載波內(nèi)恒定的操作。標(biāo)量卸載通過避免冗余計算來節(jié)省功耗,并釋放向量單元以提高計算受限序列的性能。RDNA4 的標(biāo)量單元增加了一些浮點指令,擴展了標(biāo)量卸載的機會。此功能在 RDNA3.5 上首次亮相,但 RDNA4 將其帶到了獨立 GPU 上。

          雖然 AMD 的演示中沒有討論,但標(biāo)量卸載可以帶來額外的性能優(yōu)勢,因為標(biāo)量指令有時比對應(yīng)的向量指令延遲更低。RDNA4 上的大多數(shù)基本向量指令具有 5 周期延遲。標(biāo)量單元上的 FP32 加法和乘法具有 4 周期延遲。不過,最大的延遲優(yōu)勢仍然來自卸載整數(shù)操作。

          分離屏障

          GPU 使用屏障(barrier)來同步線程并強制執(zhí)行內(nèi)存排序。例如,在舊的 AMD GPU 上,一條`s_barrier`指令會導(dǎo)致一個線程等待,直到其工作組中的所有對等線程也都到達(dá)該`s_barrier`指令。屏障會降低性能,因為任何碰巧更快到達(dá)屏障的線程都必須停滯,直到其對等線程趕上。


          RDNA4 將屏障分離為獨立的「信號」(signal) 和「等待」(wait) 操作。RDNA4 沒有`s_barrier`,而是有`s_barrier_signal`和`s_barrier_wait`。一個線程一旦產(chǎn)生其他線程可能需要的數(shù)據(jù),就可以「發(fā)出」屏障信號。然后它可以進(jìn)行獨立的工作,并且只有在需要使用其他線程產(chǎn)生的數(shù)據(jù)時才等待屏障。隨后,`s_barrier_wait`將使該線程停滯,直到工作組中的所有其他線程都已發(fā)出屏障信號。

          內(nèi)存子系統(tǒng)

          最大的 RDNA4 變體擁有 8 MB 的 L2 緩存,與之前的 RDNA 世代相比,L2 容量顯著增加。RDNA3 和 RDNA2 的最大 L2 容量分別為 6 MB 和 4 MB。AMD 發(fā)現(xiàn),像光線追蹤這樣的繁重工作負(fù)載受益于更大的 L2。光線追蹤涉及在 BVH 遍歷期間進(jìn)行指針追逐,因此它對訪問由較慢的 Infinity Cache(無限緩存)而非 L2 提供服務(wù)更為敏感也就不足為奇了。在 3DMark 的 DXR 功能測試的初始場景中(在 Explorer 模式下運行),RDNA4 大幅減少了必須從 L2 之外獲取的數(shù)據(jù)量。

          就絕對值而言,RDNA2 在將數(shù)據(jù)保留在 L2 方面仍然表現(xiàn)良好。但值得注意的是,在兩個平臺上,命中 InfinityCache 相比命中 L2 都會增加超過 50 ns 的額外延遲。這遠(yuǎn)超過 100 個周期,因為 RDNA2 和 RDNA4 的運行頻率都高于 2 GHz。雖然 AMD 的圖形戰(zhàn)略已轉(zhuǎn)向增大更快的緩存,但這仍然與 Nvidia 將更多資源投入 L2 緩存的策略形成對比。Blackwell 的 L2 緩存同時承擔(dān)了 AMD 的 L2 和 Infinity Cache 的功能,并且其延遲介于這兩個緩存級別之間。Nvidia 還有一個靈活的 L1/共享內(nèi)存分配方案,根據(jù)工作負(fù)載請求的本地存儲(共享內(nèi)存)容量,可以在 L2 前面提供更多的低延遲緩存容量。

          中層 L1 緩存是之前 RDNA 世代的常見配置。它在 RDNA4 以及 AMD 的演示中明顯缺失。一種可能性是 L1 緩存命中率不夠高,不足以證明增加額外緩存層復(fù)雜性的合理性。也許 AMD 認(rèn)為其芯片面積和晶體管預(yù)算更好地用于增加 L2 容量。為了支持這一理論,RDNA1 上的 L1 命中率通常低于 50%。同時,RDNA 系列一直享有高帶寬和低延遲的 L2。為了減少 L2 未命中而給 L2 施加更大壓力可能是一個誘人的權(quán)衡。另一種可能性是 AMD 在 L1 緩存方面遇到了驗證問題,并決定在這一代跳過它。當(dāng)然,無法驗證這兩種可能性,但我認(rèn)為前者的理由更合理。

          除了調(diào)整緩存層次結(jié)構(gòu),RDNA4 還帶來了對透明壓縮(transparent compression)的改進(jìn)。AMD 強調(diào)他們在整個 SoC 中使用壓縮技術(shù),包括在顯示引擎和媒體引擎等節(jié)點。壓縮數(shù)據(jù)可以存儲在緩存中,并在寫回內(nèi)存之前解壓縮。壓縮減少了數(shù)據(jù)傳輸,從而降低了帶寬需求并提高了能效。

          透明壓縮并非新功能。它作為 GPU 工具箱中減少內(nèi)存帶寬使用的工具之一已有很長歷史,很難找到?jīng)]有任何壓縮功能的現(xiàn)代 GPU。即使在顯示引擎等其他模塊中的壓縮也有先例。例如,英特爾的顯示引擎使用幀緩沖區(qū)壓縮(FBC),它可以寫入幀數(shù)據(jù)的壓縮副本,并持續(xù)獲取該壓縮副本來降低數(shù)據(jù)傳輸功耗,只要數(shù)據(jù)不發(fā)生變化。之前的 RDNA 世代也具備壓縮功能,AMD 的文檔總結(jié)了一些壓縮目標(biāo)。雖然 AMD 沒有討論壓縮效率,但我嘗試在 RDNA1 和 RDNA4 上使用 RGP(Radeon GPU Profiler)捕獲相似的幀,以查看每幀內(nèi)存訪問是否存在巨大差異。結(jié)果并不完全符合我的預(yù)期,但我還是會將它們放在這里,并討論評估壓縮效能為何具有挑戰(zhàn)性。


          第一個挑戰(zhàn)是兩種架構(gòu)都能從 L0 或 L1 滿足大多數(shù)內(nèi)存請求。AMD 關(guān)于 RDNA1 的幻燈片表明 L0 和 L1 只保存解壓縮后的數(shù)據(jù),至少對于增量顏色壓縮(DCC)是如此。壓縮確實適用于 L2。對于 RDNA4,AMD 的幻燈片表明它也適用于 Infinity Cache。然而,由于這些 RDNA 世代之間存在巨大的緩存層次結(jié)構(gòu)差異,專注于 L2 的數(shù)據(jù)傳輸是行不通的。

          (圖示表明壓縮/解壓縮發(fā)生在 L2 之前)

          DCC(增量顏色壓縮)并非唯一的壓縮形式。但這張幻燈片展示了壓縮/解壓縮發(fā)生在 L2 前方的一個例子。

          另一個問題是,很容易想象一種不改變所涉及緩存請求數(shù)量的壓縮方案。例如,數(shù)據(jù)可能被壓縮到只占用緩存行的一部分。一個請求只導(dǎo)致緩存行的子集被讀出,然后由解壓縮模塊擴展為完整的 128B。較早的 RDNA1 幻燈片對此表述模糊,指出 DCC 以 256B 粒度(兩個緩存行)操作,但沒有提供更多細(xì)節(jié)。

          無論如何,壓縮可能是 RDNA4 在僅配備 256 位 GDDR6 顯存設(shè)置的情況下,能夠使用比前代更小的 Infinity Cache 卻實現(xiàn)更好性能的一個因素。

          SoC 功能

          AMD 概述了 RDNA4 中的 RAS(可靠性、可用性和可服務(wù)性)功能?,F(xiàn)代芯片使用奇偶校驗和 ECC(糾錯碼)來檢測和糾正錯誤,顯然 RDNA4 也是如此。不可恢復(fù)的錯誤通過驅(qū)動程序干預(yù)來處理,「重新初始化 SoC 的相關(guān)部分,從而防止平臺關(guān)閉」。對這種說法有兩種解讀方式。一種是 GPU 可以被重新初始化以從硬件錯誤中恢復(fù),這顯然會影響任何依賴 GPU 加速的軟件。另一種是 GPU 的某些部分可以在 GPU 繼續(xù)處理工作的同時被重新初始化。我認(rèn)為前者更可能,盡管我也能想象后者在有限形式下是可能的。例如,如果從 GDDR6 讀取數(shù)據(jù)時發(fā)生不可恢復(fù)的錯誤,假設(shè)該數(shù)據(jù)在系統(tǒng)內(nèi)存中有備份,則理論上可以修復(fù)。驅(qū)動程序可以將已知良好的數(shù)據(jù)從主機傳輸過來以替換損壞的副本。但是,涉及已修改數(shù)據(jù)的錯誤將難以恢復(fù),因為系統(tǒng)中其他地方可能沒有最新的副本。

          在安全方面,微處理器擁有通往「關(guān)鍵模塊」的私有總線和受保護的寄存器訪問機制。這里的安全功能針對 HDCP 和其他 DRM 功能,我個人覺得這并不特別有趣。但幻燈片上顯示的術(shù)語很有趣,因為 MP0 和 MP1 在 AMD 的 CPU 端文檔中也有涉及。在 CPU 端,MP0(微處理器 0)處理一些安全加密虛擬化(SEV)功能,有時也稱為平臺安全處理器(PSP)。CPU 上的 MP1 稱為系統(tǒng)管理單元(SMU),負(fù)責(zé)電源控制功能。奇怪的是,AMD 的幻燈片在 RDNA4 上分別標(biāo)注了 MP1 和 SMU。當(dāng)然,MP0/MP1 在 GPU 上可能具有完全不同的功能。但共同的術(shù)語提高了 CPU 和 GPU SoC 設(shè)計之間存在大量共享工作的可能性。RAS 也是非常傳統(tǒng)的 CPU 功能,盡管隨著 GPU 計算的興起,GPU 也逐漸具備了 RAS 功能。

          Infinity Fabric

          CPU 和 GPU 方面共享努力的最明顯例子之一是 Infinity Fabric 進(jìn)入圖形設(shè)計。這始于多年前的 Vega,盡管當(dāng)時使用 Infinity Fabric 更像是一個實現(xiàn)細(xì)節(jié)。但多年后,Infinity Fabric 組件提供了一種優(yōu)雅的方式來實現(xiàn)大型末級緩存,或具有巨型 iGPU(如 MI300A)的多插槽一致性系統(tǒng)。

          (來自 Hot Chips 29 的幻燈片,涉及 AMD 舊款 Vega GPU 中使用的 Infinity Fabric)

          RDNA4 上的 Infinity Fabric 內(nèi)存端子系統(tǒng)由 16 個 CS(一致性站)模塊組成,每個模塊與一個統(tǒng)一內(nèi)存控制器(UMC)配對。一致性站接收來自圖形 L2 和其他客戶端的請求。它們通過從 UMC 獲取數(shù)據(jù),或者如果另一個模塊擁有所請求緩存行的更新副本則發(fā)送探測(probe),來確保一致性內(nèi)存訪問。CS 是實現(xiàn)內(nèi)存端緩存的邏輯位置,在 RDNA4 中,每個 CS 實例擁有 4 MB 緩存。

          為了節(jié)省功耗,Infinity Fabric 支持 DVFS(動態(tài)電壓和頻率縮放),時鐘頻率在 1.5 至 2.5 GHz 之間。Infinity Fabric 的帶寬為每時鐘周期 1024 位,這表明 Infinity Cache 可以提供 2.5 TB/s 的理論帶寬。這與 Nemes 基于 Vulkan 的 GPU 緩存和內(nèi)存帶寬微基準(zhǔn)測試的結(jié)果大致吻合。

          AMD 還概述了其禁用各種 SoC 組件以篩選晶圓(harvest dies)并創(chuàng)建不同 SKU 的能力。著色器引擎(SE)、工作組處理器(WGP)和內(nèi)存控制器通道都可以被禁用。AMD 和其他制造商過去曾使用過類似的篩選能力。我不確定這里有什么新內(nèi)容。很可能,AMD 希望重新強調(diào)他們的篩選選項。

          最后,AMD 提到他們?yōu)?RDNA4 選擇了單片(monolithic)設(shè)計,因為這對于其規(guī)模的圖形引擎來說是合理的。他們考慮了性能目標(biāo)、封裝組裝和周轉(zhuǎn)時間以及成本。在評估這些因素后,他們認(rèn)為單片設(shè)計是正確的選擇。這并不令人驚訝。畢竟,AMD 在圖形引擎較小的低端 RDNA3 產(chǎn)品上使用了單片設(shè)計,僅在最頂級的 SKU 上使用了小芯片(chiplet)設(shè)計。這反而提醒我們,沒有放之四海而皆準(zhǔn)的解決方案。是單片還是基于小芯片的設(shè)計更合理,很大程度上取決于設(shè)計目標(biāo)。


          結(jié)語

          RDNA4 帶來了許多令人興奮的改進(jìn),同時放棄了任何試圖攻克頂級性能領(lǐng)域的嘗試。與其追求極致性能,RDNA4 看起來更側(cè)重于優(yōu)化以提高相對于前幾代的效率。盡管 RX 9070 的功耗預(yù)算更低、內(nèi)存帶寬更少、末級緩存更小,但其在光柵化工作負(fù)載中提供了與 RX 7900 XT 相似的性能。Techspot 的數(shù)據(jù)也顯示 RX 9070 在光線追蹤工作負(fù)載中領(lǐng)先,這與 AMD 提升光線追蹤性能的目標(biāo)一致。

          (來自 RDNA4 發(fā)布演示的幻燈片,非 Hot Chips 2025)

          AMD 通過壓縮技術(shù)、更好的光線追蹤結(jié)構(gòu)和更大的 L2 緩存實現(xiàn)了這種效率。因此,RDNA4 能夠?qū)⑵湫阅芊庋b在相對較小的 356.5 mm2芯片中,并使用適度的 256 位 GDDR6 顯存配置。顯示和媒體引擎的改進(jìn)也備受歡迎。多顯示器空閑功耗感覺是獨立 GPU 的一個被忽視的領(lǐng)域,盡管我知道許多人使用多顯示器進(jìn)行生產(chǎn)力工作。在這些設(shè)置中降低空閑功耗非常值得贊賞。在媒體引擎方面,AMD 的視頻編碼能力常常落后于競爭對手。RDNA4 的進(jìn)步至少防止了 AMD 像以前那樣落后太多。



          關(guān)鍵詞: RDNA4

          評論


          技術(shù)專區(qū)

          關(guān)閉