日本a√视频在线,久久青青亚洲国产,亚洲一区欧美二区,免费g片在线观看网站

        <style id="k3y6c"><u id="k3y6c"></u></style>
        <s id="k3y6c"></s>
        <mark id="k3y6c"></mark>
          
          

          <mark id="k3y6c"></mark>

          新聞中心

          EEPW首頁 > 嵌入式系統(tǒng) > 設(shè)計應(yīng)用 > FPGA找到自己的聲音:Achronix和語音識別的經(jīng)濟(jì)學(xué)

          FPGA找到自己的聲音:Achronix和語音識別的經(jīng)濟(jì)學(xué)

          作者: 時間:2025-09-23 來源: 收藏

          已成為最普遍的人工智能應(yīng)用之一。它存在于我們的手機、汽車、呼叫中心——我們需要快速、自然的人機界面的任何地方。訓(xùn)練實現(xiàn)此目的的模型是一個云規(guī)模的 GPU 問題,但在生產(chǎn)環(huán)境中日復(fù)一日地運行這些模型就是推理。這就是經(jīng)濟(jì)開始重要的地方。

          的推理既是吞吐量驅(qū)動的,也是延遲敏感的。您需要實時處理大量音頻流,每個響應(yīng)只需幾十毫秒即可傳遞。如果管道停滯,用戶會立即注意到。延遲是自然交互的大敵:延遲使語音系統(tǒng)感覺像機器人、脆弱和令人沮喪。GPU 可以處理大量工作負(fù)載,但它們的批處理策略通常會引入不可預(yù)測的延遲。CPU 跟不上。ASIC 需要數(shù)年時間來設(shè)計,到發(fā)貨時,模型通常已經(jīng)發(fā)生了變化。這就是 適合的差距。

          在這里特別引人注目的是它們的適應(yīng)性。工作負(fù)載不需要到處都具有浮點精度。將位寬降低到 16 位或 8 位,您幾乎無法觸及精度。在某些層中走得更遠(yuǎn)——低至 4 位甚至三元——模型仍然提供可用的結(jié)果。這為自定義數(shù)據(jù)路徑打開了大門,這些數(shù)據(jù)路徑以極小的功率咀嚼推理。由于 邏輯具有確定性和深度流水線化,因此即使在重負(fù)載下,它也能以始終如一的低延遲提供結(jié)果。

          在 FPGA 供應(yīng)商中, 處于一個有趣的位置。與 AMD/Xilinx 或 Intel/Altera 不同,它們并不局限于服務(wù)于大型母公司的廣泛戰(zhàn)略優(yōu)先事項。這使他們可以自由地在更窄但利潤豐厚的機會上加倍努力,例如語音識別。AMD 收購 Xilinx 是為了其數(shù)據(jù)中心加速和嵌入式產(chǎn)品組合,但語音推理不太可能成為 AMD 產(chǎn)品戰(zhàn)略的首位。英特爾對 Altera 的管理經(jīng)歷了多年的干擾,直到現(xiàn)在,該品牌才以更清晰的路線圖重新出現(xiàn)。Xilinx 和 Altera 都構(gòu)建了出色的 FPGA,但它們的組織不可避免地瞄準(zhǔn)了廣泛的橫向市場。

          沒有這個包袱。他們有能力查看語音識別等應(yīng)用程序,看到經(jīng)濟(jì)最佳點,并為其定制故事。對我來說,這是一個聰明的游戲。在廣泛的人工智能加速器市場與英偉達(dá)正面競爭將是一場失敗的戰(zhàn)斗。NVIDIA 擁有這種對話,他們不會輕易被趕走。但語音識別是一個特定的、有限的問題,其中經(jīng)濟(jì)性恰好發(fā)揮了 FPGA 的優(yōu)勢:降低精度、低功耗、可預(yù)測的低延遲、可重構(gòu)性和部署靈活性。通過傾向于這一點, 可以開辟一個可防御的利基市場。

          Speedster 7t 架構(gòu)放大了這些優(yōu)勢。其高性能計算結(jié)構(gòu)、緊密集成的片上網(wǎng)絡(luò) (NoC) 以及對高速內(nèi)存和 I/O 的支持將基于 FPGA 的推理的適應(yīng)性轉(zhuǎn)化為實際吞吐量。憑借 GDDR6 內(nèi)存及其確定性 NoC,Speedster 7t FPGA 可以以最小的延遲和最大的并行度流式傳輸多個并發(fā)音頻通道和神經(jīng)網(wǎng)絡(luò)張量。您不僅可以獲得靈活的管道,還可以根據(jù)不斷發(fā)展的模型架構(gòu)進(jìn)行調(diào)整、重新配置和擴展的管道。無需從頭開始。


          Achronix 還將該技術(shù)打包到 VectorPath 815 加速卡中,將 Speedster 7t 性能引入標(biāo)準(zhǔn) PCIe 外形尺寸。對于數(shù)據(jù)中心運營商來說,這意味著不需要定制板設(shè)計:您可以將卡放入現(xiàn)有服務(wù)器中,加載模型,然后開始加速推理。該卡集成了與基礎(chǔ)芯片相同的 GDDR6 內(nèi)存接口和高速 SERDES,為開發(fā)人員提供了一種交鑰匙方式來大規(guī)模評估或部署語音識別,而無需等待 OEM 硬件設(shè)計周期。而且,至關(guān)重要的是,由于結(jié)構(gòu)是基于 FPGA,因此延遲仍然是確定性的,從而避免了經(jīng)常困擾 GPU 工作負(fù)載的抖動。

          實際上,這意味著基于 Speedster 7t 構(gòu)建的語音識別部署(或直接構(gòu)建在 VectorPath 815 卡上)可以提供與基于 GPU 的系統(tǒng)相同或更好的準(zhǔn)確性,同時每次推理使用的瓦數(shù)要少得多,并且實時響應(yīng)更一致。計算、內(nèi)存和數(shù)據(jù)流邏輯的更緊密耦合意味著您將更多的功率預(yù)算花在實際的數(shù)學(xué)上,而更少的資源預(yù)算用于打亂位。這也意味著,隨著模型量化技術(shù)的改進(jìn),您只需重新編譯和重新映射邏輯,就可以將相同的硬件用于模型的更新版本,這比固定架構(gòu) ASIC 或靈活性較低的加速器具有明顯的優(yōu)勢。

          電力消耗已成為整個社會的核心問題。目前正在建設(shè)的大型人工智能數(shù)據(jù)中心預(yù)計將消耗千兆瓦的電力。從這個角度來看:一個專門用于人工智能訓(xùn)練和推理的超大規(guī)模設(shè)施可以消耗與中型城市一樣多的電力。這些站點附近的社區(qū)正在提出關(guān)于電力從何而來的尖銳問題。僅冷卻就消耗了相當(dāng)于數(shù)千個家庭的水。推理中燃燒的每一焦耳不僅僅是運營支出中的一個項目,還包括碳排放、水壓力和本已脆弱的電網(wǎng)的壓力。

          這就是為什么降低精度推理如此重要的原因。降低語音識別的功耗要求不僅使部署成本更低,而且使其更具可持續(xù)性。如果您可以將每次推理的瓦數(shù)減少一半,您就可以在不增加占用空間的情況下增加服務(wù)的用戶數(shù)量。由于 Speedster 7t FPGA 允許您將精度精確地調(diào)整到模型的容差,因此它們可以讓您比固定架構(gòu)替代方案更有效地節(jié)省這些成本。

          架構(gòu)在這里也發(fā)揮著重要作用,Achronix 的高帶寬片上網(wǎng)絡(luò) (NoC) 結(jié)構(gòu)將計算和內(nèi)存資源與可預(yù)測的確定性延遲連接起來。這對于數(shù)據(jù)流效率可以決定性能成敗的語音工作負(fù)載至關(guān)重要。NoC 不是在傳統(tǒng) FPGA 路由結(jié)構(gòu)中解決擁塞問題,而是提供專用的高速通道,使管道保持滿載并立即響應(yīng)。

          內(nèi)存帶寬是推理的另一個限制因素,Achronix 對 GDDR6 的支持是明智之舉。雖然一些競爭對手嚴(yán)重依賴 HBM,但 GDDR6 以更低的成本提供出色的帶寬,并具有更熟悉的設(shè)計和供應(yīng)生態(tài)系統(tǒng)。對于語音等推理任務(wù),精度可能會降低,內(nèi)存效率為王,帶寬和經(jīng)濟(jì)性的平衡會得到回報。

          最后,還有 I/O。語音識別系統(tǒng)通常需要實時攝取和處理大量并行流。Speedster 7t FPGA 提供非常高的 I/O 帶寬和 SERDES 速度,這使得將加速器直接連接到網(wǎng)絡(luò)結(jié)構(gòu)中變得更加容易,而不會出現(xiàn)瓶頸。在毫秒級延遲可以決定自然和笨拙用戶體驗的應(yīng)用程序中,這些快速管道很重要。

          自公司成立以來,我一直在關(guān)注和撰寫有關(guān) Achronix 的文章,他們表現(xiàn)出了隨著市場和技術(shù)變化而調(diào)整的不可思議的能力。他們一次又一次地設(shè)法確定了正確的利基市場——他們不必與最大的參與者正面交鋒的地方——并制定可靠的戰(zhàn)略來利用。這種關(guān)注使他們能夠蓬勃發(fā)展,而更大的競爭對手往往被公司議程拉向多個方向。

          當(dāng)您查看總擁有成本時,所有這些因素加起來。購買硬件是最便宜的部分。在多年的部署中對其進(jìn)行喂食和冷卻是賬單增加的地方。您節(jié)省的每一瓦特都轉(zhuǎn)化為節(jié)省的美元,每年通過重新配置而不是更換來延長硬件的使用壽命是另一個盈利項目。這就是這里的真實故事:大規(guī)模語音識別不是誰擁有最大模型的戰(zhàn)斗,而是誰能夠以最低的功耗、最低的延遲和最長的壽命提供相同的準(zhǔn)確性的戰(zhàn)斗。

          這就是為什么我認(rèn)為 Achronix 的 Speedster 7t 驅(qū)動戰(zhàn)略值得關(guān)注。雖然大型 FPGA 參與者被企業(yè)優(yōu)先事項拉向多個方向,但 Achronix 可以將賭注放在他們的技術(shù)齊頭并進(jìn)的應(yīng)用程序上。他們不需要在整個人工智能領(lǐng)域取代 NVIDIA。他們只需要讓語音識別比替代方案更便宜、更快、更可持續(xù)地運行。如果他們能做到這一點,他們就會在人工智能市場中分得一塊既有意義又可防御的份額。

          最后,語音識別不僅僅是教機器理解我們。這是關(guān)于以一種在經(jīng)濟(jì)和環(huán)境上都有意義的方式做到這一點。這就是我看到 FPGA(尤其是 Achronix 的 Speedster 7t 設(shè)備)脫穎而出的地方:它們不僅能聽到文字,還能聽到文字。他們傾聽資產(chǎn)負(fù)債表,甚至可能聽取地球的聲音。



          關(guān)鍵詞: FPGA Achronix 語音識別

          評論


          相關(guān)推薦

          技術(shù)專區(qū)

          關(guān)閉