TPU突圍,谷歌積極推銷自研芯片
據(jù)報道,谷歌近來接觸了一批主要購買英偉達(dá)芯片的小型云服務(wù)供應(yīng)商,商談在他們的數(shù)據(jù)中心里同時部署谷歌芯片。知情人士稱,谷歌已經(jīng)有所進(jìn)展,與總部位于倫敦的 Fluidstack 達(dá)成協(xié)議,在其紐約的一處數(shù)據(jù)中心托管谷歌 TPU。
谷歌也曾試接觸過其他云服務(wù)商,包括有「英偉達(dá)親兒子」之稱的 CoreWeave。谷歌的談判表明其正試圖接近那些「背靠英偉達(dá)扶持」的新興云服務(wù)供應(yīng)商。與谷歌、亞馬遜這樣的大型云服務(wù)公司不同,這些新興企業(yè)幾乎只使用英偉達(dá)的芯片,而且更愿意采購多種英偉達(dá)產(chǎn)品。英偉達(dá)已向其中的許多公司注資,并優(yōu)先供應(yīng)眼下最搶手的芯片。
據(jù)悉,谷歌談妥 Fluidstack 的方式很簡單粗暴——如果 Fluidstack 無法承擔(dān)建造紐約數(shù)據(jù)中心的費用,谷歌同意作為「后備擔(dān)保」來介入,并提供最高 32 億美元的資金支持。
目前尚不清楚為何谷歌積極向外部數(shù)據(jù)中心推銷自研芯片。要知道在此之前,谷歌基本不對外出售自研 TPU。Capvision 此前數(shù)據(jù)顯示,谷歌 TPU70%-80% 的算力用于內(nèi)部業(yè)務(wù)場景使用,剩余 20%-30% 以自建租賃方式供外使用。
有分析認(rèn)為,或許是由于谷歌自建數(shù)據(jù)中心速度難以追上芯片需求增長,或可能是希望通過其他云服務(wù)商為自家 TPU 尋找更多新客戶。如果是第二種原因,那么谷歌無異于更直接地在與英偉達(dá)展開競爭。分析指出,第二種做法類似于云服務(wù)商租賃英偉達(dá) GPU 的模式,英偉達(dá)主要是向這些云服務(wù)商銷售芯片,而谷歌擴(kuò)大部署 TPU,自然會導(dǎo)致這些數(shù)據(jù)中心中的英偉達(dá) GPU 數(shù)量減少。
谷歌下代 TPU 性能暴增 16 倍
近日,谷歌詳細(xì)披露第七代 TPU 架構(gòu)「Ironwood」超級計算平臺,主要聚焦在單個 Superpod 的硬件構(gòu)成與架構(gòu)設(shè)計。
據(jù)介紹,單個 Ironwood Superpod 集成 9216 枚芯片,每片配備 192GB、帶寬 7.4TB/s 的高帶寬存儲,峰值算力高達(dá) 4614TFLOPs。相較之下,2022 年發(fā)布的 TPU v4 集成 4096 枚芯片、配備 32GB HBM,峰值算力 275 TFLOPs,而 2023 年發(fā)布的 TPU v5p 集成 8960 枚芯片,配備 95GB HBM,峰值算力 459 TFLOPs,這意味著 Ironwood Superpod 單芯片性能較 TPU v4 提升超過 16 倍。
在物理布局上,Ironwood 沿用過去三代的 3D Torus(立方環(huán)網(wǎng))拓?fù)洌總€邏輯單元為 4×4×4 節(jié)點陣列,即 64 芯片,封裝于單個機(jī)架。而一個 Superpod 包含 144 個機(jī)架,還配備光學(xué)交換機(jī)機(jī)箱以實現(xiàn)跨模塊互連,以及用于液冷的冷卻分配單元(CBU)機(jī)架,互連方面為提高靈活性與可擴(kuò)展性,采用 PCB 走線、銅纜和光纖的混合方式。
在機(jī)架設(shè)計上,頂部設(shè)有泄漏檢測盤以監(jiān)控液冷系統(tǒng),下方是供電模塊,具備兩路電源域,將 416V 交流電經(jīng)整流轉(zhuǎn)換為直流電。整套系統(tǒng)支持液冷散熱,滿載運行功率可超過 100kW。
谷歌 TPU 需求正在上升
據(jù)報道,谷歌的第六代 Trillium TPU 芯片自去年 12 月向外部客戶開放后需求強(qiáng)勁。分析師預(yù)計,第七代 Ironwood TPU 的需求將顯著上升。谷歌的 TPU 芯片算力最高可達(dá) 42.5 exaflops(百億億次浮點運算),并已大幅提升高帶寬內(nèi)存容量。這些芯片成本效率也顯著提升,這是吸引更多前沿實驗室關(guān)注的主要原因之一。
初創(chuàng)公司 Anthropic 此前雖在小規(guī)模上使用 TPU,但分析師指出,該公司近期正在招聘 TPU 內(nèi)核工程師,這可能意味著他們正考慮從使用 Amazon Web Services 提供的 Trainium 芯片轉(zhuǎn)向 TPU。Trainium 是亞馬遜為 AI 訓(xùn)練設(shè)計的芯片,該公司已對 Anthropic 投資 80 億美元。
分析師還指出,馬斯克的 xAI 公司也對購買 TPU 表現(xiàn)出興趣,部分原因在于今年「JAX-TPU 工具支持的顯著改進(jìn)」。JAX 是谷歌開發(fā)的一個高性能計算 Python 庫,能夠讓程序在 TPU 上高效運行。直到最近,JAX 生態(tài)系統(tǒng)還限制了 TPU 在 Google 外部大規(guī)模部署的可能性。
今年 6 月,OpenAI 啟動了一項重要戰(zhàn)略調(diào)整:將租用谷歌云平臺 TPU,為其核心產(chǎn)品 ChatGPT 提供關(guān)鍵運算支持。這是 OpenAI 首次在核心業(yè)務(wù)場景中規(guī)?;敕怯ミ_(dá)芯片,也標(biāo)志著打破了英偉達(dá)長期以來的壟斷地位。


評論