日本a√视频在线,久久青青亚洲国产,亚洲一区欧美二区,免费g片在线观看网站

        <style id="k3y6c"><u id="k3y6c"></u></style>
        <s id="k3y6c"></s>
        <mark id="k3y6c"></mark>
          
          

          <mark id="k3y6c"></mark>

          新聞中心

          EEPW首頁 > 網(wǎng)絡(luò)與存儲 > 業(yè)界動態(tài) > DPU構(gòu)建新一代AI網(wǎng)絡(luò)的優(yōu)勢與關(guān)鍵技術(shù)

          DPU構(gòu)建新一代AI網(wǎng)絡(luò)的優(yōu)勢與關(guān)鍵技術(shù)

          作者:鄢貴海 時間:2025-09-24 來源: 收藏

          一、算力與智能的大背景

          當(dāng)前,我們正處于兩個“ Scaling Law”激烈碰撞的時代。一個是摩爾定律的Scaling Law,就是摩爾定律,大家的看到的共識就是摩爾定律從2015年開始就已經(jīng)顯著放緩了,也就意味著單位芯片面積上能提供的性能增量變得越來越小。但是我們感受到,芯片的性能還是在快速上升的,最主要的原因必然就是單顆芯片的面積變得越來越大。

          與此同時,我們看到了另外一個Scaling Law,大模型的Scaling Law,為把芯片做大,把算力做高提供了直接動機。大模型的Scaling Law發(fā)現(xiàn)的關(guān)鍵現(xiàn)象就是越多的模型參數(shù),越高的算力、越大的數(shù)據(jù)集,就能提供越高的預(yù)測精度,俗稱“大力出奇跡”。這不是黔驢技窮,而可能是智能“涌現(xiàn)”的必要條件。至此,我們看到了智能與算力構(gòu)成了閉環(huán),并相互強化。

          算力來自于各種形式的并行計算系統(tǒng)。算力即涉及到應(yīng)用層面的數(shù)據(jù)共享、同步、一致性、任務(wù)劃分、調(diào)度、容錯等問題,也涉及到物理結(jié)構(gòu)層面的帶寬、延遲、網(wǎng)絡(luò)拓撲、傳輸協(xié)議、物理距離、能耗、制冷等等問題。今天的報告內(nèi)容主要關(guān)注高速網(wǎng)絡(luò)的問題,討論在當(dāng)前這個“算力即智能”的時代給高速網(wǎng)絡(luò)帶來了什么樣的變化和挑戰(zhàn)。認清這個變化可能就能看到其中蘊藏著的機遇。

          圖片.png

          二、AI芯片們

          首先我們看一下芯片。毋庸置疑,AI需要“AI芯片”。但是AI芯片應(yīng)該包括哪些核心芯片類型呢?單純的GPU或者NPU是顯然不夠的。況且GPU出現(xiàn)30年,AI這個概念出現(xiàn)更早的多,但為什么之前GPU不被稱為AI芯片呢。還有現(xiàn)在一些優(yōu)化的很好的AI算法,在CPU上也可以執(zhí)行,或者用FPGA來加速AI算法執(zhí)行的案例也不勝枚舉,那這些CPU和FPGA也可以貼上AI芯片的標(biāo)簽嗎?還有一些類腦芯片,Neuromorphic芯片,大都不夠成熟,甚至不能執(zhí)行當(dāng)前主流的大模型算法,好像稱之為AI芯片還是有點尷尬。這個問題其實不是要咬文嚼字,而是試圖準(zhǔn)確刻畫在這一次如此重要的科技革命下,定位到真正的革命性的芯片,就好比PC時代定義了通用處理器芯片,移動互聯(lián)網(wǎng)定義了智能手機的芯片。

          當(dāng)然,構(gòu)建AI基礎(chǔ)設(shè)施必須要CPU,但是我們通常不把CPU稱之為AI芯片,原因是CPU技術(shù)先于AI技術(shù)的發(fā)展,沒有理由在AI時代就將其冠以AI芯片的稱謂。實則也沒有必要,個人認為CPU已經(jīng)是構(gòu)建起來了我們整個信息化大廈的最粗的那根支柱,其地位之重要并不需要AI來加持?,F(xiàn)在真正存在變數(shù)的兩類芯片是負責(zé)多精度高密度計算的GPU/NPU芯片,和負責(zé)高速IO的/IPU/NIC芯片。這兩類芯片的演進與AI技術(shù)的發(fā)展直接相關(guān)。沒有AI技術(shù)的發(fā)展,NVIDIA不會成為當(dāng)前全球最具價值的企業(yè)。沒有AI的發(fā)展,也不會急劇催生對高帶寬、低延遲網(wǎng)絡(luò)的要求,NVLink技術(shù)也不會成為行業(yè)的標(biāo)桿,也就不會有后來的NVL72超節(jié)點AI服務(wù)器。

          鑒于此,我們嘗試給出AI芯片的一種“定義”:具備與特定AI算法的運算特征高度匹配的計算架構(gòu)的芯片或芯片組就可稱之為 AI 芯片。這里所謂“定義”,不需要教條的理解,更多是為了方便后續(xù)的描述和分類。這里的運算特征主要取決于算法,包括模型可并行、數(shù)據(jù)可并行、流水線并行、數(shù)據(jù)精度自適應(yīng)、迭代、概率性與確定性、Memory footprint、非線性運算、Softmax等,計算架構(gòu)主要取決于硬件實現(xiàn),包括計算單元、緩存結(jié)構(gòu)、陣列規(guī)模、互聯(lián)拓撲、IO 帶寬、指令集、可擴展性、虛擬化支持、處理延時、運行能耗、可靠性設(shè)計等。

          從這個定義上看,AI芯片不僅包括大家耳熟能詳?shù)母黝怗PU/NPU芯片,還包括為了給這些GPU傳輸數(shù)據(jù),構(gòu)建大規(guī)模并行系統(tǒng)的網(wǎng)絡(luò)芯片。簡言之,要想得到有效的算力,不僅需要大量高性能的GPU算力芯片,還需要將這些芯片通過高效的網(wǎng)絡(luò)有機的組合起來,協(xié)同工作。不妨稱之為算力乘法定律:有效算力=算力x網(wǎng)絡(luò),缺一不可。

          圖片.png

          之前我們做過一個比喻:如果把CPU比做大腦、那么GPU就好比是肌肉、而就是神經(jīng)中樞。CPU承載了應(yīng)用生態(tài),決定了計算系統(tǒng)是否可以通用,GPU提供了大量不同精度要求的算力,決定了系統(tǒng)是否有足夠的力量”,負責(zé)數(shù)據(jù)在各種CPU和GPU之間高效流通,決定了系統(tǒng)是否能協(xié)同工作。DPU就是構(gòu)建數(shù)據(jù)網(wǎng)絡(luò)的根結(jié)點”,掛載了各種計算、存儲資源的葉節(jié)點”,無論這些處理器核是真實的物理核,還是虛擬化的核?,F(xiàn)在看來,這個比喻是越來越反映出當(dāng)前算力底座的發(fā)展趨勢。當(dāng)前無論是Scale-Out,還是Scale-Up,目的都是讓系統(tǒng)中的GPU能協(xié)同工作。

          圖片.png

          三、超并行的GPU/NPU架構(gòu)

          首先,在計算層面,從一個簡單的PE,最后構(gòu)建為一個超節(jié)點的過程,技術(shù)路線很清晰。比如,假設(shè)一個PE理想情況下每個時鐘周期可以完成128個INT8的MAC(乘累加)操作,每128個PE組成一個Group,每8個Group組成一個Cluster,一顆芯片由4個Cluster組成,總計有4096個PE,所以每個時鐘周期的峰值性能就是512K個操作,假設(shè)系統(tǒng)運行主頻為1G,那么芯片的峰值性能就是512Tops/s @INT8——基本就是現(xiàn)在的主流AI算力芯片的標(biāo)稱性能。

          顯然,實際性能受限于算法的在執(zhí)行過程中的變化和數(shù)據(jù)依賴,不可能每個時鐘周期都能填滿所有的PE,因此一定會低于、甚至遠低于標(biāo)稱性能。如果這個性能差異過大并且穩(wěn)定的存在,那說明架構(gòu)的設(shè)計就不夠優(yōu)化。然而設(shè)計一個理想的PE、PE陣列其實并不容易。難點主要不在于PE設(shè)計本身,而是在于PE是否能與應(yīng)用程序的指令流適配,而這很多時候就會面臨是“雞生蛋”,還是“蛋生雞”的問題,而且這個問題的答案很大程度上決定了相應(yīng)的存儲層次,訪存帶寬等關(guān)鍵指標(biāo)的設(shè)計。限于篇幅,這里就不再展開了。但是有一點是確定的,那就是單芯片的算力要求越高,PE的數(shù)量規(guī)模就一定越大,隨之片上存儲器諸如HBM的容量就必須要越大,訪問這些存儲的帶寬要求也就越高,出入芯片的IO帶寬也必然越高。一個經(jīng)驗規(guī)則就是“10倍率定律”,內(nèi)部HBM訪存的帶寬,是IO帶寬的10倍,PE間的互連網(wǎng)絡(luò)的對分帶寬是HBM帶寬的10倍。例如,如果芯片的IO帶寬是800Gbps,那么對應(yīng)的HBM的帶寬應(yīng)該是8Tbps量級??梢源篌w作為一個參考。

          四、AI網(wǎng)絡(luò)催生DPU芯片的大發(fā)展

          顯然,計算芯片這個“巧婦”沒有數(shù)據(jù)的“米”也難為之炊,而這些“米”就是數(shù)據(jù),都需要通過IO獲得,特別是各種高速網(wǎng)絡(luò)IO,因此IO的重要性不言而喻。數(shù)據(jù)分析表明,在過去的10年,IO的性能指標(biāo)的發(fā)展速度遠遠超過CPU年化性能增長的速度,但是低于GPU算力增長的速度??梢哉f當(dāng)前對于高帶寬IO的需求主要來自于GPU算力的提升。

          圖片.png

          我們來看一個最具體的案例,就是在大模型中混合專家系統(tǒng)MoE機制帶來的高頻All-to-All的通信需求,MoE模型在訓(xùn)練與推理中通常采用專家并行(Expert Parallelism,EP),即將單個MoE層的專家分布到多張GPU上。由于EP常與數(shù)據(jù)并行(Data Parallelism,DP)結(jié)合使用,token所在的 GPU 與其路由到的專家所在GPU未必一致,因此EP需要執(zhí)行兩次all-to-all 通信:在專家計算前將 token 分發(fā)至對應(yīng)的GPU,在計算完成后再將結(jié)果回傳至原始 token 所在的GPU。該過程要求所有 GPU 之間進行雙向消息交換,通信開銷顯著。字節(jié)跳動的研究(CoMet)表明,在Qwen2等MoE模型的前向推理階段,約47%的時間消耗在MoE的all-to-all通信上。這個負載類型也許也是催生Scale-Up網(wǎng)絡(luò)的最重要的動機之一。  

          在過去兩年,行業(yè)對于網(wǎng)絡(luò)的關(guān)注度空前上升,各種“Link”猶如雨后春筍,NVLink,UALink,EtherLink,ALink等等,其原因是AI對于網(wǎng)絡(luò)的需求已經(jīng)不可能用原來的網(wǎng)絡(luò)技術(shù)通過量變來給予滿足,已經(jīng)到了要觸發(fā)質(zhì)變的時候。

          圖片.png

          通過簡單分析我們也可以看到網(wǎng)絡(luò)也是天然分層的架構(gòu),連接不同數(shù)據(jù)中心的網(wǎng)絡(luò),和連接不同芯片IP的網(wǎng)絡(luò),雖然都是為了傳輸數(shù)據(jù),但他們在性能、確定性、擴展性、空間的跨度等指標(biāo)的權(quán)衡上有著天壤之別。下圖反應(yīng)了不同互聯(lián)層級中所使用的關(guān)鍵技術(shù):從最底層用于互聯(lián)IP所使用的片上網(wǎng)絡(luò)和總線,到不同晶圓互聯(lián)所使用的Chiplet互聯(lián)協(xié)議,到模塊、服務(wù)器內(nèi)的設(shè)備互聯(lián)的PCIe、NVLink技術(shù),再到上層機架范圍互聯(lián)中的Scale-Up、RDMA等技術(shù),和長距離數(shù)據(jù)中心互聯(lián)的VXLAN協(xié)議、SD-WAN技術(shù)等。我們無法將缺乏拓展性的片上網(wǎng)絡(luò)技術(shù)應(yīng)用于數(shù)據(jù)中心網(wǎng)絡(luò),也不會在芯片互聯(lián)中考慮不高效的VXLAN技術(shù),但這些技術(shù)都是實現(xiàn)各層次數(shù)據(jù)傳輸?shù)年P(guān)鍵。越上層的技術(shù)網(wǎng)絡(luò)屬性就越明顯,越是底層的技術(shù),IO特征就越清晰。

          圖片.png

          而涉及到高速IO,其復(fù)雜度非常高。相較于處理器芯片內(nèi)部,只需要處理確定性的計算,而IO要處理的任務(wù)是高度不確定性的。比如,數(shù)據(jù)只要進入了處理器芯片內(nèi)部,除非有硬件的故障,基本不會需要處理由數(shù)據(jù)錯誤產(chǎn)生的異常。但是網(wǎng)絡(luò)IO不同,任何類型的信道都有信噪比,都存在誤碼率,IO速率越高,處理這些非理想信道導(dǎo)致的異常就越具挑戰(zhàn)性,所以對于追求的無損網(wǎng)絡(luò),是非常高技術(shù)含量的活。在此之前,大家詬病RDMA組網(wǎng)規(guī)模不能大,因為RDMA要求的無損網(wǎng)絡(luò),一旦出現(xiàn)丟包重傳的情況,網(wǎng)絡(luò)性能就是大幅下降,甚至完全喪失RDMA高帶寬的優(yōu)勢。這也是目前UEC等技術(shù)試圖解決的主要挑戰(zhàn)之一。

          通常意義的“網(wǎng)絡(luò)”也是一個很大的領(lǐng)域,伴隨著因特網(wǎng)和無線通信技術(shù)的發(fā)展,傳統(tǒng)的通信網(wǎng)絡(luò)已經(jīng)成為人類歷史發(fā)展最重要的基礎(chǔ)設(shè)施之一。當(dāng)前AI模型對算力需求的急劇攀升,使得面向智算中心的高帶寬低延遲網(wǎng)絡(luò)也隨之成為技術(shù)發(fā)展的一個熱點,例如英偉達提出的NVLink技術(shù)。這也是計算機系統(tǒng)架構(gòu)又一次應(yīng)需求的變化而演進的經(jīng)典案例。不同于傳統(tǒng)的基于TCP/IP的以“盡量服務(wù)”為設(shè)計原則的網(wǎng)絡(luò)協(xié)議,除了帶寬延遲指標(biāo)不在一個數(shù)量級以外,面向AI模型的智算中心網(wǎng)絡(luò)需要的是確定性的“無損”網(wǎng)絡(luò),典型如在超算中普遍采用的IB網(wǎng)絡(luò)——一種RDMA網(wǎng)絡(luò)。不同的網(wǎng)絡(luò)協(xié)議需要設(shè)計不同的網(wǎng)絡(luò)芯片來滿足,所以面向的芯片,也理所當(dāng)然成為當(dāng)下最重要的機遇之一。

          五、Scale-OutScale-Up

          當(dāng)大語言模型(LLM)的參數(shù)量已經(jīng)從千億(GPT-3)達到萬億(Kimi K2),沒有任何單一的GPU/NPU能夠容納一個完整的大型模型及其在訓(xùn)練過程中產(chǎn)生的梯度和優(yōu)化器狀態(tài),即便模型能被勉強裝入,單個GPU/NPU的算力也無法在合理的時間內(nèi)完成訓(xùn)練或推理任務(wù)。將模型的訓(xùn)練和推理拆分到多個GPU/NPU上協(xié)同處理成為唯一可行的路徑,網(wǎng)絡(luò)是實現(xiàn)多GPU/NPU協(xié)同計算的的剛需。

          超級以太網(wǎng)(UEC)總結(jié)了一個AI/HPC網(wǎng)絡(luò)的特征圖,將ScaleUp,ScaleOut,PCIe/CXL和以太網(wǎng)所在系統(tǒng)中的位置做了一個劃分,可以作為參考。作為支撐諸如LLM分布式訓(xùn)練等AI計算的核心基礎(chǔ)設(shè)施,其整體架構(gòu)通??梢詣澐譃槿鐖D所示三個主要部分:前端(Frontend)網(wǎng)絡(luò)、后端(Backend)Scale-Out網(wǎng)絡(luò)和后端Scale-Up網(wǎng)絡(luò)。前端網(wǎng)絡(luò)是數(shù)據(jù)中心的基礎(chǔ)運營網(wǎng)絡(luò),負責(zé)將所有計算節(jié)點與外部世界(如互聯(lián)網(wǎng)用戶或存儲集群)連接起來。Scale-Out網(wǎng)絡(luò)的主要作用是連接計算集群內(nèi)的各個服務(wù)器或超節(jié)點,普遍基于Ethernet或者InfiniBand實現(xiàn)。Scale-Out網(wǎng)絡(luò)通常與前端網(wǎng)絡(luò)物理隔離,以確保關(guān)鍵的計算流量不受干擾。后端Scale-Up網(wǎng)絡(luò)是用于服務(wù)器或超節(jié)點內(nèi)加速器(XPU)的短距離高速互聯(lián)技術(shù)。設(shè)計目標(biāo)上看,Scale-Up帶寬是Scale-Out帶寬的一個數(shù)量級以上。Scale-Up網(wǎng)絡(luò)典型代表包括 NVIDIA的NVLink、AMD的Infinity Fabric、Broadcom的Scale-UP Ethernet以及業(yè)界標(biāo)準(zhǔn)UALink等。這類網(wǎng)絡(luò)的特點是提供超高的帶寬(Tbps級)、極低的延遲(通常在亞微秒級別)和面向加速器的內(nèi)存語義訪問能力。

          當(dāng)然,對于整個系統(tǒng)而言,當(dāng)前,Scale-Up和Scale-Out都是極其重要的,我們在10年前深入的研究過針對處理器設(shè)計的Scale-Up和Scale-Out的關(guān)系問題,最后得到的最重要的結(jié)論就是二者雖然都是提升性能的手段,但是作用是不可相互替代。這個結(jié)論放在今天的AI計算架構(gòu)下,仍然適用。

          LLM既需要更高帶寬、更低延遲和更大規(guī)模的Scale-Up網(wǎng)絡(luò),也需要Scale-Out網(wǎng)絡(luò)。LLM訓(xùn)練和推理的效率,在很大程度上取決于通信開銷。張量并行將模型中的大矩陣運算切分到多個GPU/NPU上,每個GPU/NPU只計算矩陣的一部分,然后在后向傳播中利用諸如All-Reduce集合通信原語將梯度聚合。All-Reduce通信量大且對延遲極其敏感,如果GPU A在等待GPU B的結(jié)果,那么GPU A就處于空閑狀態(tài),浪費了寶貴的計算資源。因此,需要超低延遲和超高帶寬的連接來最小化同步開銷。與此同時,當(dāng)前熱門大模型廣泛采用混合專家架構(gòu)(MoE),將GPU/NPU之間互聯(lián)的性能推向極致。MoE引入了專家并行維度,Dispatch階段需要將GPU A上的Token發(fā)送到GPU B上的專家,Combine階段需要將Token輸出結(jié)果從GPU B再送回GPU A,這兩個階段都需要使用All-to-All集合通信原語。All-to-All通信過程中,每個節(jié)點都需要和集合中的其他節(jié)點交換數(shù)據(jù),其性能直接取決于網(wǎng)絡(luò)對分帶寬。在Scale-Up網(wǎng)絡(luò)內(nèi)部 (例如單個DGX H100節(jié)點內(nèi)的8個GPU),GPU之間通過NVLink Switch連接,每個GPU可以通過900GB/s的NVLink訪問節(jié)點內(nèi)的7個GPU,延遲為亞微秒,All-to-All速度極快,幾乎沒有瓶頸。但是如果需要跨越到Scale-Out網(wǎng)絡(luò),則通信必須經(jīng)過50GB/s的RDMA網(wǎng)卡,延遲上升到數(shù)微秒級。All-to-All要求每個參與者都能高效地與其他所有參與者通信。這種全員參與”的模式對網(wǎng)絡(luò)拓撲的一致性和低延遲有極高的要求。Scale-Up網(wǎng)絡(luò)提供了可預(yù)測的低延遲路徑。而規(guī)模龐大的Scale-Out網(wǎng)絡(luò)拓撲更復(fù)雜,延遲抖動和擁塞的可能性更大,對All-to-All這種全局同步操作的負面影響也更大。因此,為了維持MoE模型的訓(xùn)練效率,必須盡可能地將參與All-to-All的專家放置在同一個Scale-Up域內(nèi)。

          六、Scale-Up的共性技術(shù)

          國內(nèi)外主流方案,無論是NVIDIA的封閉生態(tài)NVLink,還是UALink、Broadcom SUE等開放標(biāo)準(zhǔn),均展現(xiàn)出鮮明的共性。

          1)超高帶寬與超低延遲:所有Scale-Up技術(shù)的核心目標(biāo)完全一致:為LLM訓(xùn)練中對通信極其敏感的集合通信原語(如All-Reduce和All-to-All)提供極致性能。它們的帶寬目標(biāo)普遍在Tbps級別,XPU-XPU延遲目標(biāo)則追求亞微秒級別,從而最大限度地減少XPU的等待時間,提升計算效率。

          2)支持面向XPU計算核心的內(nèi)存語義訪問:這是Scale-Up技術(shù)與傳統(tǒng)RDMA網(wǎng)絡(luò)的關(guān)鍵區(qū)別。幾乎所有方案(NVLink, SUE, UALink, UB-Mesh, EthLink等)都支持內(nèi)存語義,允許一個XPU的計算核心直接對另一個XPU的顯存進行l(wèi)oad/store/atomic操作,如同訪問本地內(nèi)存。這省去了傳統(tǒng)RDMA需要的數(shù)據(jù)拷貝-計算”流程,實現(xiàn)了計算在遠端”,極大降低了訪存開銷和延遲。

          3)主流采用單跳(Single-Hop)全連接交換拓撲以及Mesh拓撲:為實現(xiàn)域內(nèi)任意兩個XPU間可預(yù)測的、均一的低延遲,基于交換機的單跳全連接(Non-blocking Fully-Connected Crossbar)拓撲成為事實上的主流選擇。無論是NVIDIA自DGX-2以來采用的NVSwitch方案,還是Broadcom SUE和UALink規(guī)范首選的Single Hop Switch”拓撲,其核心思想都是通過中心交換層,讓任意XPU到另一XPU的通信都只需一跳”,避免了多跳帶來的延遲抖動和擁塞。

          4)內(nèi)置的可靠傳輸機制:高速互聯(lián)必須保證數(shù)據(jù)的完整性和可靠性。所有Scale-Up方案都在協(xié)議棧的不同層次內(nèi)置了可靠性機制。這包括物理層的前向糾錯(FEC),數(shù)據(jù)鏈路層的鏈路級重傳(LLR),信元流控(CFBC)和網(wǎng)絡(luò)層的Go-back-N、ACK/NAK機制和CRC校驗。其中物理層和鏈路層可靠傳輸和完整性機制普遍依賴于最新以太網(wǎng),網(wǎng)絡(luò)層則專屬于Scale-Up協(xié)議。

          5)與計算單元的緊密硬件集成:Scale-Up互聯(lián)并非簡單的外部網(wǎng)卡,而是與XPU芯片緊密集成的片上系統(tǒng)的一部分。

          七、DPU變形記

          業(yè)界很多人一直DPU當(dāng)作一顆新型芯片來看待,這個觀念直到現(xiàn)在仍然是這樣。所以在去年,我們借K2Pro芯片發(fā)布的時機做了一次發(fā)聲,主題就是“重新定義DPU”,背后核心邏輯就是應(yīng)該把DPU當(dāng)作網(wǎng)絡(luò)側(cè)的載體,作為連接各類資源的代理,無論是真實的物理資源、還是軟件虛擬的資源。業(yè)內(nèi)普遍的理解DPU是通過下面這個邏輯圖:即SmartNIC包括了NIC,而DPU包括了SmartNIC,所以DPU就是超級網(wǎng)卡,SuperNIC。

          圖片.png

          這個觀點有其合理性,但是只反映了DPU的廣度,不反映深度。DPU不僅僅是NIC,SmartNIC發(fā)展的延續(xù),而是為了適應(yīng)AI原生、云原生的創(chuàng)新產(chǎn)品。比如從廣度而言,DPU既可以支持云原生網(wǎng)絡(luò)里的OVS,存儲卸載、彈性裸金屬服務(wù)器等應(yīng)用,也可以支持網(wǎng)絡(luò)底層的無損網(wǎng)絡(luò),自定義流控算法,安全加密算法卸載等。但是,當(dāng)前的一些網(wǎng)絡(luò),是有專用屬性的,正所謂Domain-Specific Networking,需要與應(yīng)用深度的結(jié)合,比如Scale-Up網(wǎng)絡(luò)就可以被視為一種專用網(wǎng)絡(luò)連接各種XPU,自然需要一種DPU的變體來支持。我們認為大體有三種DPU的變體:

          1)DPU-Endpoint:DPU作為獨立的設(shè)備,內(nèi)置于服務(wù)器中,連接在服務(wù)器內(nèi)部的高速總線上,比如PCIE。這也是當(dāng)前DPU最常見的一種呈現(xiàn)方式。DPU-Endpoint的功能是傳統(tǒng)NIC的延伸,在增加帶寬的同時,增加了大量的應(yīng)用卸載能力。可以說DPU-Endpoint就是把原來的被動響應(yīng)的NIC變成了一個主動配合網(wǎng)絡(luò)的IO服務(wù)器,因此在涉及網(wǎng)絡(luò)數(shù)據(jù)的計算、網(wǎng)絡(luò)協(xié)議、存儲協(xié)議、安全機制等維度給予了系統(tǒng)極大的靈活性和優(yōu)化空間。

          2)DPU-Switch:DPU作為數(shù)據(jù)交換的中心,配合DPU-Endpoint構(gòu)造全連接的單跳無損網(wǎng)絡(luò)拓撲。高速網(wǎng)絡(luò)發(fā)展的一個技術(shù)趨勢是Smart Edge,Dumb Core”,這里Edge指服務(wù)器,或者更確切來說就是網(wǎng)絡(luò)IO設(shè)備,而Core指核心交換機,就是交換設(shè)備。意思是Edge端要承擔(dān)更多的任務(wù),解決業(yè)務(wù)復(fù)雜度的問題,而交換端要極其高效,解決高基(High-Radix)組網(wǎng)的問題——這才能高效地滿足當(dāng)前大模型算力對于大帶寬、低延遲、無損網(wǎng)絡(luò)的需求。

          3)DPU-Phy:DPU與算力芯片融合,作為算力芯片組網(wǎng)的直接出口。傳統(tǒng)的算力芯片的高速IO主要有兩類:PCIE和DDR,前者用于和宿主服務(wù)器交互數(shù)據(jù),后者直接連接大容量DDR存儲器。顯然,這些都是不具備組網(wǎng)條件的IO,而DPU可以作為高速的網(wǎng)絡(luò)IO,天然具備組網(wǎng)的條件,與大算力芯片集成,可以直接連接交換機。這個目前在博通提出的Scale-Up網(wǎng)絡(luò)協(xié)議SUE里得到了直接的體現(xiàn)。這不僅可以節(jié)省系統(tǒng)成本,還破解了PCIE等高速總線的瓶頸,開辟了全新的獨立后端網(wǎng)絡(luò)。

          八、立足當(dāng)下,用產(chǎn)品迭代開拓DPU的廣闊前景

          DPU的出現(xiàn)就是為了將高速IO的數(shù)據(jù)處理整合到一套體系化的數(shù)據(jù)流處理架構(gòu)中,并且繼承SDN等軟件定義技術(shù)的協(xié)議無關(guān)性和應(yīng)用無關(guān)性,做到通用和可獨立演進。DPU從誕生之初,就帶著網(wǎng)絡(luò)基因,并且天生傾向于通過數(shù)據(jù)加速處理來優(yōu)化系統(tǒng)的性能,通過全棧協(xié)議支持對CPU屏蔽網(wǎng)絡(luò)的多樣性和網(wǎng)絡(luò)傳輸天然的不可靠性。當(dāng)前國際上DPU的代表性廠商AMD、NVIDIA、Intel、Marvell等,這些廠商都把DPU當(dāng)作一條重要的產(chǎn)品線來對待。但凡之前涉及到高速網(wǎng)絡(luò)業(yè)務(wù)的廠商,大都會斥巨資投入DPU的研發(fā)或并購DPU。國內(nèi)的字節(jié)跳動也披露自研DPU,2024年投入了800億元在相關(guān)的研發(fā)上,預(yù)計后續(xù)2025年投入還將翻倍,將DPU與GPU結(jié)合使用,自研虛擬化技術(shù),VPC內(nèi)同時支持TCP和RDMA的虛擬NIC技術(shù),自研了vSwitch,相較于OVS,PPS提升3倍多,單機包轉(zhuǎn)發(fā)性能達到5000萬包每秒,延遲低至20微秒。這些優(yōu)勢都是深入結(jié)合DPU技術(shù)才能做到。

          最后介紹一下馭數(shù)當(dāng)前的產(chǎn)品情況。中科馭數(shù)聚焦于高速網(wǎng)絡(luò)數(shù)據(jù)處理芯片的研發(fā),旨在解決計算節(jié)點間遠程資源訪問本地化、硬件資源虛擬化、數(shù)據(jù)安全內(nèi)聯(lián)化、系統(tǒng)運維一體化過程中所面臨的挑戰(zhàn)。隨著AI時代對算力的爆發(fā)式需求,通用計算、智能計算、高性能計算走向融合,在平臺層面云原生疊加上AI原生,使得對網(wǎng)絡(luò)的核心需求已經(jīng)不僅是互聯(lián)互通,而是網(wǎng)絡(luò)與計算一體化、即算網(wǎng)融合”發(fā)展。DPU在繼承傳統(tǒng)網(wǎng)卡功能的基礎(chǔ)上,承載AI原生和云原生衍生的核心需求,以極高的性價比和網(wǎng)絡(luò)線速處理能力來解決數(shù)據(jù)傳輸帶寬、延遲、運維、安全等核心問題。為了適應(yīng)并推動這個計算機體系結(jié)構(gòu)的變革,中科馭數(shù)自主研發(fā)了通用DPU的芯片架構(gòu),在繼承傳統(tǒng)網(wǎng)絡(luò)處理器的基礎(chǔ)上創(chuàng)新了針對 AI 和云原生場景下的低時延、高帶寬屬性和靈活的應(yīng)用卸載能力,其傳輸層兼容以太網(wǎng),可以平滑切入廣泛的應(yīng)用場景,基于DPU芯片開發(fā)了面向四個場景的產(chǎn)品線(可以通過馭數(shù)的官方主頁來了解這些產(chǎn)品的具體情況):

          1)符合行業(yè)標(biāo)準(zhǔn)的的高性能網(wǎng)卡,特點是通用性,為國產(chǎn)的高端服務(wù)器提供媲美英偉達和英特爾的同類高性能網(wǎng)卡產(chǎn)品,并針對國產(chǎn)CPU 進行深度優(yōu)化。當(dāng)前主力產(chǎn)品是FlexFlow 2200T。

          2)面向金融行業(yè)的超低時延網(wǎng)卡和超低時延計算開發(fā)平臺,特點是亞微秒級的回環(huán)時延,為電子交易場景提供極致的數(shù)據(jù)鏈路,產(chǎn)品性能對標(biāo)證券期貨行業(yè)內(nèi)主流使用標(biāo)桿Solarflare的方案,當(dāng)前主力產(chǎn)品是Swift 2200N、2502N,NDPP X500、X1100、X3000。

          3)面向云原生網(wǎng)絡(luò)的數(shù)據(jù)流卸載的網(wǎng)卡,特點是靈活的數(shù)據(jù)流處理,包括高效的流表卸載、虛擬轉(zhuǎn)發(fā)卸載、Hypervisor 卸載等靈活的功能,相當(dāng)于在服務(wù)器側(cè)的網(wǎng)卡上再生”一個輔助專用服務(wù)器。當(dāng)前主力產(chǎn)品是Conflux 2200E、2200P。

          4)面向AI集群的后端網(wǎng)絡(luò)網(wǎng)卡,特點是支持 Scale-Out 的高性能 RDMA網(wǎng)卡和支持 Scale-Up 的高性能網(wǎng)卡,前者兼容 RoCE 協(xié)議,后者將支持基于各種GPU構(gòu)造算力的超節(jié)點。當(dāng)前主力產(chǎn)品是FlexFlow 2200R。

          以上產(chǎn)品傳輸數(shù)據(jù)帶寬覆蓋25G、40G、100G、200G,同時兼容X86平臺和國產(chǎn)主流CPU和操作系統(tǒng),可廣泛適用于云數(shù)據(jù)中心、智算中心、金融計算、5G邊緣計算、高性能計算、高速存儲等場景。部分產(chǎn)品的競爭力已經(jīng)可以與國外產(chǎn)品對標(biāo),甚至在一些細分場景上還有優(yōu)勢,但也必須承認整體競爭力與國外廠商還有一定差距。從整體市場趨勢看,需求側(cè)將會持續(xù)強勁,中科馭數(shù)有望在這個階段抓住機會,實現(xiàn)跨越式發(fā)展,為國產(chǎn)算力平臺補上 DPU 芯片這個短板。

          (本文節(jié)選自鄢貴海博士在新一代計算標(biāo)準(zhǔn)工作委員會主辦的“新一代計算產(chǎn)業(yè)大會”上的報告內(nèi)容。)


          關(guān)鍵詞: DPU AI網(wǎng)絡(luò)

          評論


          相關(guān)推薦

          技術(shù)專區(qū)

          關(guān)閉