為什么存內(nèi)計(jì)算對邊緣AI如此重要
在流行媒體中,“AI”通常意味著在昂貴、耗電的數(shù)據(jù)中心中運(yùn)行的大型語言模型。但是,對于許多應(yīng)用程序,在本地硬件上運(yùn)行的較小模型更適合。
自動(dòng)駕駛汽車需要實(shí)時(shí)響應(yīng),沒有數(shù)據(jù)傳輸延遲。醫(yī)療和工業(yè)應(yīng)用通常依賴于無法與第三方共享的敏感數(shù)據(jù)。但是,盡管邊緣 AI 應(yīng)用程序可以更快、更安全,但它們的計(jì)算資源要有限得多。它們沒有 TB 內(nèi)存占用或有效無限的功率。
對于數(shù)據(jù)中心來說,可能有些抽象的約束對邊緣人工智能施加了硬性限制。在 2025 年 IEEE 國際內(nèi)存研討會(huì)的一篇特邀論文和隨后的預(yù)印本中,ETH 計(jì)算機(jī)科學(xué)教授 Onur Mutlu 和他的同事指出,在典型的移動(dòng)工作負(fù)載中,將數(shù)據(jù)移入和移出內(nèi)存占總能耗的驚人 62%。內(nèi)存是硬件空間的最大用戶,但內(nèi)存延遲通常是執(zhí)行時(shí)間的最大貢獻(xiàn)者。
多年來,設(shè)備擴(kuò)展一直是降低功耗的關(guān)鍵,但現(xiàn)在卻使問題變得更糟。Mutlu 說,高度規(guī)模的 DRAM 不太穩(wěn)定,需要更頻繁的刷新周期。大型內(nèi)存陣列更難訪問,因?yàn)閹捲鲩L速度不如內(nèi)存組本身。
內(nèi)存中和近內(nèi)存計(jì)算提供了可能的解決方案。即使是商用現(xiàn)成的 DRAM 也可以執(zhí)行原始數(shù)據(jù)復(fù)制、初始化和按位邏輯作,前提是軟件基礎(chǔ)設(shè)施支持它們。
混合解決方案結(jié)合了 RRAM、鐵電
體然而,DRAM 刷新功率的問題仍然存在。在神經(jīng)網(wǎng)絡(luò)模型中,訓(xùn)練和推理任務(wù)都會(huì)重復(fù)使用存儲的權(quán)重矩陣。不過,兩者有截然不同的要求。
正如 CEA-Leti 的 Michele Martemucci 及其同事所解釋的那樣,訓(xùn)練任務(wù)涉及對權(quán)重矩陣的許多小更新,因?yàn)樗饾u收斂到一個(gè)穩(wěn)定的值。這些任務(wù)需要具有高寫入耐久性和存儲精確值的能力的內(nèi)存。相比之下,推理使用穩(wěn)定、不變的權(quán)重矩陣,但可能會(huì)多次將其應(yīng)用于輸入數(shù)據(jù)。推理任務(wù)受益于具有高讀取耐久性的非易失性存儲器。在這兩種情況下,近內(nèi)存計(jì)算都需要與標(biāo)準(zhǔn)CMOS邏輯工藝兼容的器件。
RRAM 是簡單的器件,依靠在氧化層中形成的導(dǎo)電絲來實(shí)現(xiàn)非常高的讀取耐久性。通過精心設(shè)計(jì)的編程方案,它們可以存儲模擬值,從而減小內(nèi)存陣列的大小。根據(jù) Martemucci 的說法,RRAM 已經(jīng)足夠成熟,可以在邊緣推理情況下進(jìn)行商業(yè)部署。
不幸的是,RRAM 的寫入耐久性相對較低。隨著時(shí)間的推移,編程脈沖會(huì)模糊存儲值之間的電阻差。設(shè)計(jì)人員通常使用傳統(tǒng)硬件訓(xùn)練模型,然后將預(yù)先計(jì)算的權(quán)重加載到 RRAM 陣列中。然而,在許多應(yīng)用中,邊緣設(shè)備需要能夠“學(xué)習(xí)”。要么需要針對用戶的特定要求進(jìn)行訓(xùn)練,要么需要修改模型以反映實(shí)際過程中的變化。
同時(shí),鐵電電容器支持非??斓拈_關(guān)和非常高的寫入耐久性。它們可以輕松忍受訓(xùn)練任務(wù)中遇到的頻繁寫入作。然而,雖然存儲值是非易失性的,但讀取作是破壞性的。Martemucci 說,這些設(shè)備不適合長期存儲權(quán)重矩陣,也不適合需要頻繁讀取作的推理任務(wù)。
將鐵電晶體管整合到 CMOS 工藝中非常復(fù)雜,需要高溫工藝和額外的掩模層。鐵電電容器和隧道結(jié)要簡單得多,允許多個(gè)研究小組將 RRAM 和鐵電結(jié)構(gòu)結(jié)合起來。例如,在今年的 VLSI 技術(shù)研討會(huì)上展示的工作中,SK 海力士的研究人員展示了一種同時(shí)具有電阻和鐵電開關(guān)的混合鐵電隧道結(jié) (FTJ)。
在傳統(tǒng)的 FTJ 中,頂部和底部電極之間的隧道勢壘取決于鐵電極性。SK 海力士器件在兩個(gè)電極之間夾有鐵電鉿氧化鋯 (HZO) 層,鉭層用作氧空位儲層。鉭層附近的導(dǎo)電絲在器件頂部提供歐姆傳導(dǎo),從而減少了鐵電隧道勢壘的有效厚度。這些器件實(shí)現(xiàn)了精確的模擬乘法累加運(yùn)算,效率高達(dá)每瓦 224.4 萬億次運(yùn)算 (TOPS/W)。
在另一種混合方法中,Martemucci 的團(tuán)隊(duì)結(jié)合了硅摻雜的 HfO2帶有鈦除氧層的電容器采用標(biāo)準(zhǔn) CMOS BEOL 工藝。這些器件最初表現(xiàn)為鐵電電容器,其中一些接收一次性“喚醒”脈沖以穩(wěn)定鐵電響應(yīng)。與此同時(shí),電容器陣列的另一部分經(jīng)歷了一次性的“成型”過程,產(chǎn)生了氧空位的導(dǎo)電絲。鈦層充當(dāng)氧空位儲罐,防止細(xì)絲溶解。然后,生成的憶阻器器件可以在高電阻和低電阻狀態(tài)之間切換。

圖1:金屬-鐵電-金屬堆棧既可以用作FeCAP也可以用作憶阻器。來源:CEA-Leti/知識共享許可
鐵電電容器充當(dāng)二進(jìn)制元件,存儲用于訓(xùn)練計(jì)算的高精度權(quán)重。憶阻器以足夠的精度存儲模擬權(quán)重來執(zhí)行推理任務(wù)。在訓(xùn)練作過程中,憶阻器陣列每百步輸入一步后更新,而鐵電陣列則不斷更新。為標(biāo)準(zhǔn)數(shù)字識別任務(wù)訓(xùn)練此結(jié)構(gòu)的寫入作總數(shù)比憶阻器耐久性小 17 倍,比鐵電電容器耐久性小 75 倍,同時(shí)消耗的能量比連續(xù)更新憶阻器陣列所需的能量少 38 倍。
比神經(jīng)網(wǎng)絡(luò)更適合人工智能雖然內(nèi)存計(jì)算可以使傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)計(jì)算更加節(jié)能,
但它也促進(jìn)了替代建模方法。例如,許多具有計(jì)算挑戰(zhàn)性的問題可以建模為伊辛格鏡,其中一組連接的節(jié)點(diǎn)共同演化到最小能量狀態(tài)。 此類現(xiàn)實(shí)世界的問題可能涉及數(shù)千或數(shù)百萬個(gè)連接。
解決伊辛玻璃問題是量子計(jì)算更有趣的潛在應(yīng)用之一。更傳統(tǒng)的是,在去年的 IEEE 電子器件會(huì)議上,德克薩斯大學(xué)研究員 Tanvir Haider Pantha 和他的同事提議構(gòu)建一個(gè) 3D 結(jié)構(gòu),將 FeFET 納入 CMOS 邏輯過程的 BEOL。每個(gè)節(jié)點(diǎn)由四個(gè)交叉耦合的 FeFET 組成,可以存儲一個(gè)有符號的模擬值,映射到所解決問題的伊辛耦合矩陣。每個(gè)節(jié)點(diǎn)的輸出是其鄰居節(jié)點(diǎn)的輸入,在整個(gè)網(wǎng)絡(luò)中建立振蕩,并最終達(dá)到穩(wěn)定的最小能量配置。

圖2:四個(gè)交叉耦合的雙門FeFET形成相變納米振蕩器。所提出的伊辛玻璃模型每個(gè)節(jié)點(diǎn)使用其中一種結(jié)構(gòu)。資料來源:IEDM
內(nèi)存計(jì)算需要新的框架傳統(tǒng)的
CPU 和 GPU 是通用設(shè)備。只需更改軟件,它們就可以應(yīng)用于許多不同的問題。近內(nèi)存和內(nèi)存加速器目前與其預(yù)期任務(wù)密不可分。伊辛玻璃求解器、點(diǎn)云網(wǎng)絡(luò)和圖像識別網(wǎng)絡(luò)將以不同的方式處理其數(shù)據(jù),需要不同的硬件設(shè)計(jì)。根據(jù) Mutlu 的說法,內(nèi)存計(jì)算的下一步將需要可以重新映射內(nèi)存訪問以滿足特定問題要求的軟件框架。反過來,這些框架將需要能夠獨(dú)立于外部內(nèi)存控制器進(jìn)行自我管理的內(nèi)存硬件。









評論