數(shù)據(jù)中心提高電壓以提高效率
當(dāng)今 HPC 和 AI 數(shù)據(jù)中心中使用的電源架構(gòu)即將發(fā)生重大變化,以提高能效。雖然芯片級(jí)的電壓將保持不變,但通向這些芯片的電壓將在更遠(yuǎn)的距離內(nèi)保持較高。
這一變化對(duì)DC-DC轉(zhuǎn)換器具有廣泛的影響?,F(xiàn)有架構(gòu)將交流電帶到每個(gè)機(jī)架上,將其轉(zhuǎn)換為直流電,然后分兩級(jí)將電壓降至必要的芯片電壓。新方法以為電動(dòng)汽車(chē) (EV) 市場(chǎng)制定的協(xié)議為藍(lán)本,將交流轉(zhuǎn)換轉(zhuǎn)移到建筑物的邊緣或一排機(jī)架的末端,并為該排中的所有機(jī)架提供比目前采用的更高的直流電壓。其結(jié)果是電流更低、損耗更低、銅更少。
這一變化發(fā)生之際,數(shù)據(jù)中心正在努力應(yīng)對(duì)不斷增長(zhǎng)的能源需求,而且看不到盡頭。“人工智能、GPU和數(shù)據(jù)中心驅(qū)動(dòng)的力量正在極大地改變?nèi)藗兲幚硎挛锏姆绞剑盇nsys電子和半導(dǎo)體業(yè)務(wù)部總監(jiān)Rich Goldman說(shuō),Ansys(現(xiàn)為新思科技的一部分)?!澳阋呀?jīng)看到人們將數(shù)據(jù)中心放置在靠近能源的地步?!?/p>
今天,每個(gè)機(jī)架都有交流電
今天的數(shù)據(jù)中心電源設(shè)置將交流電分配到所有機(jī)架。每個(gè)機(jī)架底部的托盤(pán)包含一個(gè)電源單元 (PSU),可將交流電轉(zhuǎn)換為標(biāo)稱(chēng) 48 VDC。如有必要,一些系統(tǒng)在 54 VDC 下實(shí)施,以將電池充電至 48 V。
“電源被轉(zhuǎn)換為直流電,經(jīng)過(guò)多次轉(zhuǎn)換以降低到高性能芯片的可用電壓,”Amkor Technology 計(jì)算產(chǎn)品營(yíng)銷(xiāo)總監(jiān) John Dinh 說(shuō)。
該 48 V 為所有上層服務(wù)器以及架頂式 (ToR) 交換機(jī)供電。在每塊板上,電壓分兩級(jí)下降,驅(qū)動(dòng) MOS (DrMOS) 芯片將最終電壓帶到被供電的芯片?!暗谝患?jí)有一個(gè)電源模塊,它們從 48 V 轉(zhuǎn)換為 12 V,有時(shí)轉(zhuǎn)換為 6 V,”Dinh 解釋道。“第二階段,他們將有一個(gè)額外的控制器和 DrMOS 芯片,將進(jìn)一步轉(zhuǎn)換為 1 V、3 V、0.8 V 或芯片所需的任何電壓?!?/p>

無(wú)花果。 1:當(dāng)前高階數(shù)據(jù)中心電源架構(gòu)。交流電為每個(gè)機(jī)架底部的電源單元 (PSU) 供電,其中交流電轉(zhuǎn)換為 48 VDC(標(biāo)稱(chēng)值)。每個(gè)服務(wù)器或主板上都會(huì)發(fā)生進(jìn)一步的電壓降。資料來(lái)源:Bryon Moyer/Semiconductor Engineering
由于不同的芯片可能有不同的電源電壓要求,因此第二級(jí)需要多次復(fù)制。除了必要的電壓外,DrMOS 芯片還必須提供足夠的電流。每個(gè)電源線都有一個(gè)電流限制,因此可能需要并聯(lián)多個(gè)電源線才能達(dá)到指定的電流。
例如,NVIDIA 在其 Grace/Hopper 和 Grace/Blackwell 板上有許多此類(lèi)芯片?!暗诙A段使用了大量的 DrMOS 芯片,”Dinh 說(shuō)?!癎H200 使用 19 個(gè) DrMOS 用于 Grace,56 個(gè) DrMOS 用于 Hopper,而 GB200 使用 19 個(gè) DrMOS 用于 Grace,130 個(gè) DrMOS 用于 Blackwell。”
這說(shuō)明了現(xiàn)有設(shè)置的挑戰(zhàn)?!八麄儽仨毟淖兗軜?gòu),”他說(shuō)?!八辉僦皇窃?GPU 周?chē)畛涓嗟?DrMOS。這是不可持續(xù)的。
這在精神上類(lèi)似于最近幾代 DRAM 的變化,其中模塊現(xiàn)在托管自己的 PMIC,這絕非偶然?!斑@個(gè)概念就像他們?cè)跀?shù)據(jù)中心所做的那樣,”Rambus 內(nèi)存接口芯片產(chǎn)品營(yíng)銷(xiāo)副總裁 John Eble 說(shuō)。讓我們向使用點(diǎn)(在本例中為存儲(chǔ)器)提供更高的電壓和更低的電流,然后讓我們有一個(gè)電源管理 IC,它可以吸收這些電壓,然后產(chǎn)生所有必要的電壓。
不是第一個(gè)電壓提升
數(shù)據(jù)中心的電源架構(gòu)只有一個(gè)目的——獲取交付的交流電源,并將盡可能多的電力輸送到芯片和其他組件上。這談到了電源效率,但這種效率是相對(duì)的。早期,數(shù)據(jù)中心機(jī)架使用 12 VDC,但隨著機(jī)架功率增長(zhǎng)到 15 kW 以上,該行業(yè)轉(zhuǎn)向 48 V。
當(dāng)時(shí)的原因與下一組擬議的更改相同。由于功率計(jì)算為 VI,因此對(duì)于給定的功率量,增加電壓會(huì)導(dǎo)致電流成比例地減少。電流量對(duì)數(shù)據(jù)中心有幾個(gè)影響。
首先,電流決定了連接電源所需的電線尺寸。今天的設(shè)置預(yù)計(jì)每個(gè)機(jī)架需要大約 200 公斤的銅來(lái)支持人工智能和其他計(jì)算密集型工作負(fù)載所需的巨大功率。通過(guò)降低電流,數(shù)據(jù)中心可以使用更少的銅布線,這是一項(xiàng)不小的投資。
第二個(gè)影響與給定電線中交流電線與直流電線的載流能力差異有關(guān)。集膚效應(yīng)意味著對(duì)于交流電,大部分電流在電線表面附近移動(dòng),內(nèi)部流動(dòng)的電流較少。
“在系統(tǒng)層面,使用相同數(shù)量的交流銅,您可以使用直流電流提供更高的功率,”Dinh 說(shuō)。僅此一項(xiàng)就可以通過(guò)現(xiàn)有電線提供更多電力。
但減少交流電量也可能意味著給定的電流可以在更小的電線中傳播——整根電線,而不僅僅是外邊緣。這也會(huì)導(dǎo)致更少的銅。
最后,導(dǎo)通損耗與電流成正比。這意味著減少電流可以減少損耗,從而提高效率。在盡可能多的布線中保持較高的電壓意味著將電壓降至盡可能靠近芯片的位置。這樣可以節(jié)省電力,并保持較高的電源完整性。
新的數(shù)據(jù)中心電源配置
現(xiàn)在,擬議的電源架構(gòu)將 PSU 移出到數(shù)據(jù)中心的外圍,或者至少移動(dòng)到一排機(jī)架末端的自己的機(jī)架(有時(shí)稱(chēng)為 sidecar 機(jī)架)中。
“下一代機(jī)架級(jí)計(jì)算引入了集中式電源架構(gòu),”Dinh 解釋道?!癙ower 正在擁有自己的機(jī)架。它不再只是機(jī)架底部的托盤(pán)。在這種架構(gòu)中,數(shù)千伏的交流電在數(shù)據(jù)中心外圍轉(zhuǎn)換為直流電。輸出的電壓為 800 VDC,將輸送到大廳或一排機(jī)架。
這移除了現(xiàn)在為每個(gè)機(jī)架供電的空調(diào)。相反,機(jī)架接收到高直流電壓,然后在負(fù)載附近的板上分多個(gè)階段將其降至芯片所需的電壓。

無(wú)花果。 2:新的數(shù)據(jù)中心電源架構(gòu)。交流電轉(zhuǎn)換為 800 VDC,要么在建筑物邊緣附近,要么在機(jī)架末端。然后,高壓會(huì)下降到它供電的芯片附近,從而減少沿途的損耗。資料來(lái)源:Bryon Moyer/Semiconductor Engineering
這種設(shè)置稱(chēng)為高壓直流電 (HVDC),并利用了電動(dòng)汽車(chē)充電器所做的一些工作?!坝捎陔妱?dòng)汽車(chē)充電技術(shù),這種設(shè)置更便宜并且可以部署,”Dinh 指出?!皵?shù)據(jù)中心向高壓直流輸電的過(guò)渡恰好與電動(dòng)汽車(chē)充電基礎(chǔ)設(shè)施的增長(zhǎng)相交。”
800 V 并不是神圣不可侵犯的,有些人認(rèn)為 400 V 是一個(gè)更容易實(shí)現(xiàn)的數(shù)字。但 NVIDIA 已經(jīng)公開(kāi)表示,其 Kyber 機(jī)架架構(gòu)將于 2027 年上市,將采用 800 V 設(shè)置和邊車(chē)機(jī)架來(lái)容納 PSU 和冷卻基礎(chǔ)設(shè)施。
當(dāng)然,這將導(dǎo)致每個(gè)建筑物或每行一次交流到直流轉(zhuǎn)換,而不是每個(gè)機(jī)架一次。在現(xiàn)有設(shè)置中,如果一個(gè) PSU 出現(xiàn)故障,它只會(huì)關(guān)閉一個(gè)機(jī)架。如果新的 PSU 出現(xiàn)故障,它會(huì)關(guān)閉更多?!案俚慕M件可能會(huì)造成單點(diǎn)故障。為了解決這個(gè)問(wèn)題,他們必須提供冗余,“Dinh 補(bǔ)充道。
功率 FET 和電源完整性
今天的安排意味著從 PSU 降低電壓的半導(dǎo)體必須能夠支持超過(guò) 50 V 的電壓。這與即將推出的 800 V 電壓相去甚遠(yuǎn),后者將需要高壓半導(dǎo)體。這應(yīng)該會(huì)增加對(duì) SiC 晶體管的需求,SiC 晶體管可以比硅和 GaN 更好地處理高電壓。實(shí)際上,現(xiàn)在針對(duì)電動(dòng)汽車(chē)的一些設(shè)計(jì)應(yīng)該具有適應(yīng)性,從而簡(jiǎn)化過(guò)渡。
“我們看到對(duì)功率器件的要求激增,”Ansys產(chǎn)品營(yíng)銷(xiāo)總監(jiān)Marc Swinnen說(shuō)。“功率 FET 無(wú)處不在。需要切換的功率如此之大,以至于需要一個(gè)功率 FET。
對(duì)于此類(lèi)芯片,對(duì)電源完整性驗(yàn)證的需求變得更加強(qiáng)烈,因?yàn)樵O(shè)計(jì)參數(shù)的微小變化可能會(huì)產(chǎn)生很大的不同。
“有一些專(zhuān)門(mén)設(shè)計(jì)的特定工具可以非常詳細(xì)地分析功率晶體管,”Swinnen 說(shuō)?!八麄兪褂?2D 網(wǎng)格劃分,因?yàn)樗鼈兂休d的功率太大,以至于電阻 RDSon,是最重要的參數(shù)。The RDSon必須非常準(zhǔn)確地計(jì)算,并且您希望準(zhǔn)確確定電壓降的位置,這樣就沒(méi)有熱點(diǎn),過(guò)多的電壓下降在拐角或其他地方并導(dǎo)致局部發(fā)熱。這不是僅使用 RC 的傳統(tǒng)電源完整性分析。
溫度在這里起著重要作用,因?yàn)樗梢约ぐl(fā)正反饋循環(huán)?!肮β释ǔJ菬崮艿拇?,”Swinnen 繼續(xù)說(shuō)道。“當(dāng)人們說(shuō),'我擔(dān)心電力'時(shí),他們真正擔(dān)心的是它會(huì)變得太熱。還有反饋,因?yàn)樾酒a(chǎn)生的功率取決于其溫度。因此,較熱的芯片會(huì)消耗更多功率。當(dāng)然,更大的功率意味著更熱的芯片。這是先有雞還是先有蛋的事情。
并非每個(gè)數(shù)據(jù)中心
都出現(xiàn)考慮到目前正在運(yùn)行的數(shù)據(jù)中心的數(shù)量,將它們?nèi)哭D(zhuǎn)換為這種新架構(gòu)是令人望而卻步的。這既不切實(shí)際又沒(méi)有必要。很少有工作負(fù)載需要這種架構(gòu)提供的那種能力。相反,由于推斷了未來(lái) AI 工作負(fù)載預(yù)計(jì)需要的那種能力,它已成為一個(gè)問(wèn)題。人工智能和高性能計(jì)算 (HPC) 以外的應(yīng)用程序可以在當(dāng)前基礎(chǔ)設(shè)施上繼續(xù)使用。
與此同時(shí),供電基礎(chǔ)設(shè)施(電氣和機(jī)械)的制造商正在準(zhǔn)備支持這種架構(gòu)。NVIDIA 的承諾消除了一些風(fēng)險(xiǎn),預(yù)計(jì)將在幾年內(nèi)安裝。











評(píng)論