日本a√视频在线,久久青青亚洲国产,亚洲一区欧美二区,免费g片在线观看网站

        <style id="k3y6c"><u id="k3y6c"></u></style>
        <s id="k3y6c"></s>
        <mark id="k3y6c"></mark>
          
          

          <mark id="k3y6c"></mark>

          新聞中心

          EEPW首頁 > 智能計算 > 業(yè)界動態(tài) > WAIC 2025最大看點,中國智算超節(jié)點,新亮相

          WAIC 2025最大看點,中國智算超節(jié)點,新亮相

          作者: 時間:2025-07-28 來源:半導(dǎo)體產(chǎn)業(yè)縱橫 收藏

          2025 世界人工智能大會()的現(xiàn)場人頭攢動。

          一踏入 的現(xiàn)場,就能感受到撲面而來的人氣。無論是主會場還是各個分展區(qū),到處都是攢動的身影。人們穿梭在不同的展品之間,而智算超節(jié)點的展臺前,更是聚集了不少行業(yè)內(nèi)的人士,他們或站著傾聽講解,或圍著設(shè)備仔細(xì)觀察。

          今年的 現(xiàn)場中,智算超節(jié)點在眾多展品中顯得尤為突出,華為的昇騰 384 超節(jié)點更是其中翹楚。但除了華為,中興、新華三、超聚變等中國企業(yè)的超節(jié)點方案也紛紛亮相,共同上演了一場中國智算超節(jié)點的「集體秀」。

          超節(jié)點是什么?

          想要了解華為昇騰 384 超節(jié)點,就得先知道什么是超節(jié)點。

          超節(jié)點這個概念最開始是英偉達(dá)提出的,英文名叫 SuperPod。

          GPU 作為重要的算力硬件,為 AI 的訓(xùn)練和推理提供有力的支撐。但是隨著大模型參數(shù)的不斷增長,對于 GPU 集群的規(guī)模需求也就越來越大。

          從之前的千卡集群,到現(xiàn)在的萬卡集群,再到未來的十萬卡集群。那么越來越大的 GPU 集群如何構(gòu)建呢?

          答案就是,Scale Up 和 Scale Out。

          Scale Up,向上擴(kuò)展,也叫做縱向擴(kuò)展,增加的是單節(jié)點的資源數(shù)量。Scale Out,向外擴(kuò)展,也就是橫向擴(kuò)展,增加節(jié)點的數(shù)量。簡單理解,每臺服務(wù)器里面多塞幾塊 GPU,這時一臺服務(wù)器就是一個節(jié)點。在通過網(wǎng)絡(luò),將多臺節(jié)點連接起來,就是 Scale Out。

          超節(jié)點技術(shù)的核心就與此:

          第一,突破單服務(wù)器限制。超節(jié)點允許把數(shù)十塊甚至數(shù)百塊 GPU 集成在一個機(jī)架內(nèi),形成「一個機(jī)架就是一個節(jié)點」。

          第二,超帶寬域(HBD)技術(shù)。通過 NVLink/UB 等高速互聯(lián)技術(shù),將 GPU 間通信時延壓縮至百納秒級(傳統(tǒng)網(wǎng)絡(luò)時延為 10 微秒),實現(xiàn) GPU 間數(shù)據(jù)交換的無縫銜接。

          第三,Scale Up 與 Scale Out 融合。既支持單節(jié)點內(nèi)增加 GPU(縱向擴(kuò)展),又能通過網(wǎng)絡(luò)連接多節(jié)點(橫向擴(kuò)展),實現(xiàn)「樂高式」靈活搭建。

          英偉達(dá)把這種以超大帶寬互聯(lián) 16 卡以上 GPU-GPU 的 Scale Up 系統(tǒng),稱為超節(jié)點。發(fā)展到現(xiàn)在,英偉達(dá)的 NVL72 超節(jié)點,可以把 36 個 Grace CPU 和 72 個 Blackwell GPU 集成到一個液冷機(jī)柜中,實現(xiàn)總計 720 PFLOPs 的 AI 訓(xùn)練性能,或 1440 PFLOPs 的推理性能。

          在 WAIC 現(xiàn)場,中國企業(yè)也帶來了自己的超節(jié)點方案。

          華為昇騰 384 超節(jié)點

          作為本次 WAIC 的「明星展品」,華為首次線下展出的昇騰 384 超節(jié)點(Atlas 900 A3 SuperPoD)堪稱「巨無霸」。由 12 個計算柜和 4 個總線柜組成,集成了 384 個昇騰 910C NPU 和 192 個鯤鵬 920 CPU,是目前業(yè)界規(guī)模最大的超節(jié)點。

          昇騰 384 超節(jié)點集成了384 個昇騰 910C神經(jīng)網(wǎng)絡(luò)處理單元 (NPU) 和192 個鯤鵬920中央處理器 (CPU)。采用華為自研的 MatrixLink 高速互聯(lián)技術(shù),實現(xiàn)全對等互聯(lián)。

          從性能測試上看,在昇騰超節(jié)點集群上,LLaMA 3 等千億稠密模型性能相比傳統(tǒng)集群提升 2.5 倍以上;在通信需求更高的 Qwen、DeepSeek 等多模態(tài)、MoE 模型上,性能提升可達(dá) 3 倍以上,較業(yè)界其他集群高出 1.2 倍。

          根據(jù)官方表示,這個算力平臺基于 384 顆昇騰芯片構(gòu)建,通過全互聯(lián)對等架構(gòu)實現(xiàn)芯片間高效協(xié)同,可提供高達(dá) 300 PFLOPs 的稠密 BF16 算力。這個方案性能接近英偉達(dá) B200 NVL 72 平臺的兩倍。內(nèi)存帶寬達(dá)到 1229TB/s,總的內(nèi)存容量超出英偉達(dá)方案的 3.6 倍。

          關(guān)于大家關(guān)心的幾個問題,我們也替大家問到了。

          第一,在如此多芯片、機(jī)柜下,如何在不降低數(shù)據(jù)傳輸速遞下,保證芯片的互連?

          之前業(yè)內(nèi)普遍采用以 CPU 為中心的馮·諾依曼結(jié)構(gòu),但華為昇騰超節(jié)點提出的是:對等計算架構(gòu)。把總線從服務(wù)器內(nèi)部,擴(kuò)展到整機(jī)柜、甚至跨機(jī)柜。特點就是點對點、完全互聯(lián)的超高帶寬網(wǎng)絡(luò),通過 UB 協(xié)議連接所有 NPU 和 CPU。

          并且,華為的 Scale Up 互聯(lián)采用了去銅全光的方案。每個 GPU 用 7 個 400G LPO Sipho 光模塊提供的 2800Gbit/s 帶寬來實現(xiàn) Scale Up 互聯(lián),合計 384 張 GPU 一共通過 4 個 CloudEngine Switch 的單層扁平拓?fù)鋵崿F(xiàn)互聯(lián)。

          工作人員向記者介紹,在超節(jié)點范圍內(nèi),用高速總線互聯(lián)替代傳統(tǒng)以太,通信帶寬提升了 15 倍;單跳通信時延也從 2 微秒做到 200 納秒,降低了 10 倍。

          第二,昇騰 384 超節(jié)點冷卻方式是?

          液冷加風(fēng)冷的模式。對于 384 顆昇騰 910C 芯片采用冷板式液冷;對于電源、網(wǎng)卡等低功耗模塊保留風(fēng)冷設(shè)計。

          第三,昇騰 384 超節(jié)點的客戶是?

          目前硅基流動基于昇騰 384 部署 DeepSeek-R1 模型,能夠?qū)崿F(xiàn)在單用戶 20TPS 負(fù)載下實現(xiàn) 1920 tokens/秒的吞吐量,超越國際主流芯片的 1850 tokens/秒,且生成精度在知識問答、代碼生成等任務(wù)中表現(xiàn)更優(yōu)。

          訓(xùn)練方面,華為內(nèi)部的大模型,以及工行、郵儲銀行的內(nèi)部大模型在使用昇騰 384 進(jìn)行訓(xùn)練。此外,美團(tuán)、字節(jié)、螞蟻、京東、百度等是相關(guān)客戶。

          據(jù)記者了解,這個超節(jié)點可以進(jìn)一步擴(kuò)展為包含數(shù)萬卡的 Atlas 900 SuperCluster 超節(jié)點集群。華為相關(guān)人士向記者介紹:「相當(dāng)于我們用工程化的方案,彌補(bǔ)了技術(shù)和算力上的差距?!?/span>

          中興智算超節(jié)點方案

          中興通訊也有自家的超節(jié)點方案。在本次展臺中展示的智算超節(jié)點,內(nèi)部搭載的是百度昆侖心 P800,主打「高密度集成」。

          中興的智算超節(jié)點服務(wù)器,單機(jī)柜可搭載 64 個 GPU,內(nèi)置 16 個計算節(jié)點,8 個交換節(jié)點,采用正交互聯(lián)架構(gòu),降低互聯(lián)成本,GPU 間通信帶寬達(dá)到 400GB/S-1.6TB/S,時延達(dá)到百納秒級,液冷占比達(dá)到 80%,機(jī)內(nèi) Scale up 可擴(kuò)展至 2048 張算力卡,機(jī)間支持 Scale out 拓展至萬卡規(guī)模。

          中興智算超節(jié)點方案能夠適配英偉達(dá)的 AI 加速卡,也能夠適配國內(nèi)大多數(shù) GPU 企業(yè),如海光、寒武紀(jì)、沐曦、摩爾線程等。

          據(jù)中興工作人員介紹,中興能夠做到單機(jī)架節(jié)點集成 64 卡,而目前華為的單機(jī)架節(jié)點是 32 張卡。

          新華三:UniPoD 超節(jié)點

          新華三帶來的是超節(jié)點產(chǎn)品 H3C UniPod S80000 全球首秀。

          據(jù)了解,新華三 UniPoD 超節(jié)點支持單機(jī)柜、多機(jī)柜等多種形態(tài),Scale-up 互聯(lián)規(guī)模提升 300%。依托以太互聯(lián)協(xié)議,實現(xiàn) Scale-up 南向互聯(lián)。能夠?qū)崿F(xiàn)單機(jī)柜 64 卡(和中興一樣)高密部署及互聯(lián)互通,并同時具備向 1024 卡互聯(lián)演進(jìn)的能力。

          超聚變:單柜 128 個 AI 加速卡

          超聚變帶來全球首個多元智算即插即用超級集群系統(tǒng)。

          實現(xiàn)全面軟硬件基礎(chǔ)設(shè)施技術(shù)和全面算力生態(tài),能夠兼容10+加速卡,提供雙生態(tài)南北向安全異構(gòu)算力。做到單柜 240kW 的超級供電,一柜頂 32 柜;單柜128 個 AI 加速卡,112G/224G 的高速互連;使用第 5 代 100% 原生液冷,能夠?qū)崿F(xiàn)節(jié)能 20% 以上。

          據(jù)超聚變介紹,該方案能夠規(guī)模化部署 10 萬+節(jié)點。

          結(jié)語

          超節(jié)點并非簡單的硬件堆砌,而是面向大模型時代,在芯片性能、地緣政治與工程實踐三重約束下,必然催生的一種高效、可擴(kuò)展、標(biāo)準(zhǔn)化的算力集群架構(gòu)。

          超節(jié)點將復(fù)雜的系統(tǒng)工程問題在工廠端解決,為客戶提供了一個標(biāo)準(zhǔn)化的、樂高積木式的算力單元。對于中國而言,選擇超節(jié)點的道路更增添了一層戰(zhàn)略必然性。

          我們已經(jīng)看到,國內(nèi) AI 企業(yè)都在前后推出自家的超節(jié)點產(chǎn)品和解決方案。

          華為昇騰 384 超節(jié)點在世界級展會上亮相,并不是偶然。昇騰 384 超節(jié)點的出現(xiàn),為中國企業(yè)終結(jié)了底層算力的憂慮,也給予國產(chǎn)算力很大的信心。


          關(guān)鍵詞: WAIC

          評論


          相關(guān)推薦

          技術(shù)專區(qū)

          關(guān)閉