日本a√视频在线,久久青青亚洲国产,亚洲一区欧美二区,免费g片在线观看网站

        <style id="k3y6c"><u id="k3y6c"></u></style>
        <s id="k3y6c"></s>
        <mark id="k3y6c"></mark>
          
          

          <mark id="k3y6c"></mark>

          "); //-->

          博客專欄

          EEPW首頁 > 博客 > “翼”展鋒芒,天翼云高性能計(jì)算領(lǐng)域論文被IEEE HPCC 2025收錄!

          “翼”展鋒芒,天翼云高性能計(jì)算領(lǐng)域論文被IEEE HPCC 2025收錄!

          發(fā)布人:天翼云開發(fā)者 時(shí)間:2025-09-11 來源:工程師 發(fā)布文章

          近日,由天翼云科技有限公司基礎(chǔ)架構(gòu)事業(yè)部(操作系統(tǒng)技術(shù)部)高性能網(wǎng)絡(luò)研發(fā)團(tuán)隊(duì)撰寫的論文《APSCC: Adaptive Congestion Control for Packet-Sprayed RDMA Networks in AI Clusters》被2025年第27屆IEEE國際高性能計(jì)算與通信會(huì)議(HPCC)高分錄用。這標(biāo)志著天翼云在高性能網(wǎng)絡(luò)與人工智能集群通信領(lǐng)域的核心技術(shù)已達(dá)到國際領(lǐng)先水平,體現(xiàn)了天翼云在自主創(chuàng)新方面的強(qiáng)大實(shí)力。

          2-1.png

          IEEE HPCC是高速網(wǎng)絡(luò)領(lǐng)域內(nèi)享有盛譽(yù)的國際學(xué)術(shù)會(huì)議,獲中國計(jì)算機(jī)學(xué)會(huì)(CCF)推薦,并受到IEEE、IEEE計(jì)算機(jī)協(xié)會(huì)和IEEE可擴(kuò)展計(jì)算技術(shù)委員會(huì)(TCSC)大力支持。會(huì)議對論文評審嚴(yán)格,近三年平均接收率僅為17%。此次論文的成功收錄,再次彰顯了天翼云作為云服務(wù)國家隊(duì)在高性能網(wǎng)絡(luò)與人工智能集群領(lǐng)域的前沿技術(shù)實(shí)力與持續(xù)創(chuàng)新能力。

          隨著大型語言模型(LLM)訓(xùn)練對遠(yuǎn)程直接內(nèi)存訪問(RDMA)的依賴加深,高效數(shù)據(jù)傳輸成為可能。然而,LLM訓(xùn)練流量的稀疏性和帶寬密集特性,在等價(jià)多路徑(ECMP)路由下,可能導(dǎo)致嚴(yán)重的負(fù)載不均衡問題。例如,ECMP路由機(jī)制在分配流量時(shí)可能無法有效識(shí)別和處理帶寬密集型的大數(shù)據(jù)流,從而加劇了鏈路擁塞,出現(xiàn)嚴(yán)重的負(fù)載不均衡問題。數(shù)據(jù)包噴射(Packet Spraying, PS)通過將流量分散到多條路徑,為這一問題提供了一種有前景的解決方案,但它對網(wǎng)絡(luò)擁塞動(dòng)態(tài)的影響還缺乏系統(tǒng)性研究。

          本次被收錄的論文基于NS-3仿真平臺(tái),深入研究了人工智能(AI)集群環(huán)境下的數(shù)據(jù)包噴射機(jī)制,系統(tǒng)評估了在擁塞分布、數(shù)據(jù)包重排序以及流完成時(shí)間等方面的性能影響。研究結(jié)果表明,擁塞模式隨工作負(fù)載強(qiáng)度和拓?fù)涑~訂閱比例的變化發(fā)生顯著改變,而現(xiàn)有擁塞控制方案難以有效適應(yīng)通用包噴灑(PS)網(wǎng)絡(luò)中路徑和擁塞熱點(diǎn)頻繁動(dòng)態(tài)變化的場景。

          針對上述問題,本研究提出了一種名為APSCC的新型擁塞控制算法。該算法通過亂序(OoO)數(shù)據(jù)包推斷擁塞位置,并跨路徑聚合顯式擁塞通知(ECN)信號(hào),實(shí)現(xiàn)精確的速率控制。如下圖所示,APSCC由三個(gè)核心組件構(gòu)成:發(fā)送方、網(wǎng)絡(luò)和接收方。

          2-2.png

          算法概要流程

          (1)發(fā)送方負(fù)責(zé)發(fā)送數(shù)據(jù)包,并執(zhí)行擁塞控制的主要響應(yīng)邏輯,包括目標(biāo)閾值計(jì)算和窗口更新;

          (2)交換機(jī)在隊(duì)列深度超過預(yù)設(shè)閾值時(shí),對數(shù)據(jù)包進(jìn)行ECN標(biāo)記;

          (3)接收方則維護(hù)每個(gè)隊(duì)列對(QP)上ECN標(biāo)記數(shù)據(jù)包的統(tǒng)計(jì)信息,并將累積的ECN標(biāo)記數(shù)量嵌入至確認(rèn)包中。

          發(fā)送方在接收到ACK后觸發(fā)APSCC算法,該算法基于以下三個(gè)關(guān)鍵輸入運(yùn)行:(1)傳輸層報(bào)告的亂序距離;(2)ACK中傳遞的ECN標(biāo)記數(shù)量;(3)當(dāng)前ACK事件所確認(rèn)的數(shù)據(jù)包數(shù)量。

          為進(jìn)一步在統(tǒng)一ECN標(biāo)記閾值下實(shí)現(xiàn)交換機(jī)間的公平性與收斂性,APSCC采用動(dòng)態(tài)計(jì)算公式來確定目標(biāo)ECN比率。如下圖所示,該閾值函數(shù)以當(dāng)前擁塞窗口大小作為主輸入?yún)?shù):窗口增大時(shí),閾值相應(yīng)降低,使發(fā)送方能夠更迅速地響應(yīng)擁塞并傾向于降速;相反,擁塞窗口較小的流則被分配較高閾值,從而獲得更大容忍度與更多速率增長機(jī)會(huì)。2-3.png

          動(dòng)態(tài)目標(biāo)值計(jì)算曲線

          該機(jī)制內(nèi)置負(fù)反饋?zhàn)饔茫@著增強(qiáng)系統(tǒng)穩(wěn)定性。當(dāng)流因閾值過于敏感而導(dǎo)致窗口過度縮小時(shí),隨之升高的閾值將抑制進(jìn)一步縮減,促使窗口恢復(fù)正常水平。同樣,在加法增加階段,也展現(xiàn)出良好的自穩(wěn)定特性:隨著各流逐漸收斂至公平窗口大小,競爭QP之間的同步行為共同作用,有效穩(wěn)定了擁塞交換機(jī)的隊(duì)列占用率。

          論文實(shí)驗(yàn)結(jié)果表明,與現(xiàn)有先進(jìn)機(jī)制相比,APSCC能夠?qū)⒛P陀?xùn)練時(shí)間最多縮短30%,展現(xiàn)出優(yōu)越的綜合性能。

          目前,APSCC是天翼云自主研發(fā)的一款面向智算網(wǎng)絡(luò)的高性能擁塞控制算法,專為當(dāng)前大規(guī)模人工智能訓(xùn)推基礎(chǔ)設(shè)施設(shè)計(jì)。該算法具備包粒度負(fù)載均衡下的自適應(yīng)流量調(diào)度能力,通過對網(wǎng)絡(luò)時(shí)延與吞吐量的協(xié)同優(yōu)化,能夠在高速RDMA環(huán)境中顯著提升模型訓(xùn)練與推理任務(wù)的效率,幫助企業(yè)充分釋放底層網(wǎng)絡(luò)性能潛力,為AI業(yè)務(wù)提供高效、穩(wěn)定的運(yùn)行支撐。

          在AI大模型邁向萬卡級(jí)集群的背景下,網(wǎng)絡(luò)性能已成為制約訓(xùn)練和推理效率的關(guān)鍵瓶頸。未來,天翼云將深入貫徹落實(shí)創(chuàng)新驅(qū)動(dòng)發(fā)展戰(zhàn)略,緊密結(jié)合科技創(chuàng)新,積極探索前沿技術(shù),在關(guān)鍵核心技術(shù)領(lǐng)域不斷取得新突破,為筑牢國云底座、助力數(shù)字強(qiáng)國建設(shè)貢獻(xiàn)更多力量。


          *博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。



          技術(shù)專區(qū)

          關(guān)閉