日本a√视频在线,久久青青亚洲国产,亚洲一区欧美二区,免费g片在线观看网站

        <style id="k3y6c"><u id="k3y6c"></u></style>
        <s id="k3y6c"></s>
        <mark id="k3y6c"></mark>
          
          

          <mark id="k3y6c"></mark>

          "); //-->

          博客專(zhuān)欄

          EEPW首頁(yè) > 博客 > 大模型 | VLA 初識(shí)及在自動(dòng)駕駛場(chǎng)景中的應(yīng)用

          大模型 | VLA 初識(shí)及在自動(dòng)駕駛場(chǎng)景中的應(yīng)用

          發(fā)布人:地平線(xiàn)開(kāi)發(fā)者 時(shí)間:2025-10-24 來(lái)源:工程師 發(fā)布文章
          一、VLA 簡(jiǎn)介1.1 VLA 定義

          VLA (Vision Language Action)是一種多模態(tài)機(jī)器學(xué)習(xí)模型,結(jié)合了視覺(jué)、語(yǔ)言和動(dòng)作三種能力,旨在實(shí)現(xiàn)從感知輸入直接映射到控制動(dòng)作的完整閉環(huán)能力。VLA 強(qiáng)調(diào)一體化多模態(tài)端到端架構(gòu),非感知規(guī)控的模塊化方案。


          下圖是常見(jiàn)端到端的框架,是 RT-2、OpenVLA、CLIP-RT 等 VLA 系統(tǒng)的典型代表,這些系統(tǒng)均采用基于 Transformer 的視覺(jué)和語(yǔ)言骨干網(wǎng)絡(luò),并通過(guò)跨模態(tài)注意力機(jī)制進(jìn)行融合。



          該架構(gòu)融合視覺(jué)、語(yǔ)言和本體感受三類(lèi)編碼器,視覺(jué)編碼器(如 ViT、DINOv2)提取圖像特征,語(yǔ)言編碼器(如 PaLM、LLaMA)將自然語(yǔ)言指令嵌入相同空間,狀態(tài)編碼器則將機(jī)器人感知與運(yùn)動(dòng)狀態(tài)編碼為輔助 tokens,支持可達(dá)性推理與反饋調(diào)整。


          所有 tokens 拼接后送入 Transformer,可通過(guò)擴(kuò)散策略(如 Diffusion Policy)或直接映射策略得到控制命令。輸出可為連續(xù)動(dòng)作信號(hào)(如執(zhí)行器速度)。

          1.2 VLA 典型結(jié)構(gòu)

          VLA 模型典型結(jié)構(gòu)如下,圍繞視覺(jué)編碼器、語(yǔ)言編碼器和動(dòng)作解碼器三個(gè)關(guān)聯(lián)模塊構(gòu)建



          視覺(jué)編碼器中:


          • 基于 CLIP 和 SigLIP 的編碼器因?qū)Ρ葘W(xué)習(xí)帶來(lái)的強(qiáng)視覺(jué)文本對(duì)齊能力受青睞,應(yīng)用于 CLIPort 等模型;

          • DINOv2、Qwen2 VIT 等 ViT 變體因能建模長(zhǎng)距離空間依賴(lài)和高級(jí)視覺(jué)語(yǔ)義,應(yīng)用于 HybridVLA 等模型;

          • ResNet、EfficientNet 等基于 CNN 的編碼器則出現(xiàn)在 CLIPort、ACT、RT-1、QUAR-VLA 等模型中;


          語(yǔ)言編碼器:


          • LLaMA 和 Vicuna 系列用于 RevLA、OpenVLA 等模型,支持指令理解和零樣本推理;

          • T5 風(fēng)格模型應(yīng)用于 VIMA、Octo 等,提供靈活的編碼器 - 解碼器結(jié)構(gòu);

          • GPT 和 Qwen 系列在 VoxPoser 等模型中平衡泛化能力與緊湊部署;

          • Gemma-2B 用于 Pi-0、FAST;

          • CLIP 文本編碼器則在 CLIPort 等中完成基礎(chǔ)對(duì)齊任務(wù);


          動(dòng)作解碼器:


          • 基于擴(kuò)散的 Transformer 是 Octo 等模型首選,通過(guò)迭代去噪實(shí)現(xiàn)細(xì)粒度、平滑控制;

          • 自回歸 Transformer 頭在 Gato 等中逐步生成動(dòng)作序列,優(yōu)化實(shí)時(shí)響應(yīng);

          • VoxPoser 等模型嵌入模型預(yù)測(cè)控制或規(guī)劃頭支持動(dòng)態(tài)決策;

          • MLP 或 tokens 預(yù)測(cè)器頭用于 OpenVLA 等實(shí)現(xiàn)高效低級(jí)控制;


          總結(jié):


          • 視覺(jué)編碼器多采用 CLIP 和 SigLIP 基于的 ViT 骨干網(wǎng)絡(luò);

          • 語(yǔ)言領(lǐng)域以 LLaMA 家族為主;

          • 動(dòng)作解碼中基于擴(kuò)散的 Transformer 頭因建模復(fù)雜多模態(tài)動(dòng)作分布能力最受青睞;

          二、智駕場(chǎng)景引入 VLA2.1 智駕 VLM 的問(wèn)題

          視覺(jué)語(yǔ)言模型(VLM)雖然擅長(zhǎng)理解復(fù)雜場(chǎng)景,但存在以下問(wèn)題:


          1. 空間精度不高:輸出軌跡點(diǎn)是基于語(yǔ)言生成的,易產(chǎn)生偏差。


          傳統(tǒng)端到端模塊雖然推理快,但缺乏全局語(yǔ)義理解能力??梢酝ㄟ^(guò)一種“慢 → 快”的協(xié)同機(jī)制來(lái)連接兩者,Trajectory Refinement(軌跡優(yōu)化) 就是這個(gè)橋梁。Trajectory Refinement 用于提升路徑規(guī)劃的精度與實(shí)時(shí)性,其本質(zhì)是使用 DriveVLM(慢系統(tǒng))輸出的粗略軌跡作為參考,引導(dǎo)傳統(tǒng)自動(dòng)駕駛模塊(快系統(tǒng))進(jìn)行高頻率、實(shí)時(shí)的精細(xì)軌跡生成。


          1. 端到端快系統(tǒng) 的輸入端是以視覺(jué)為主的傳感器信息,輸出端是行駛軌跡。VLM 慢系統(tǒng) 的輸入端是 2D 視覺(jué)信息、導(dǎo)航信息,輸出端是文本而非軌跡(VLM 并非端到端神經(jīng)網(wǎng)絡(luò))。

          2. 端到端模型和 VLM 是兩個(gè)獨(dú)立的模型,且運(yùn)行頻率不同,做聯(lián)合訓(xùn)練與優(yōu)化非常困難。

          3. VLM 在語(yǔ)義推理空間和純數(shù)值軌跡的行動(dòng)空間之間仍然存在巨大鴻溝。

          4. VLM 通過(guò)疊加多幀的圖像信息完成時(shí)序建模,會(huì)受到 VLM 的 Token 長(zhǎng)度限制,會(huì)增加額外的計(jì)算開(kāi)銷(xiāo)。

          2.2 智駕 VLA 的優(yōu)勢(shì)

          VLA 的輸入端是視覺(jué)為主的傳感器信息、2D 視覺(jué)信息、3D 視覺(jué)信息、導(dǎo)航信息、語(yǔ)音指令信息,輸出端是文本和行駛軌跡。


          VLA 視覺(jué)-語(yǔ)言-動(dòng)作 模型與端到端系統(tǒng),均為(傳感輸入)端到(控制輸出)端神經(jīng)網(wǎng)絡(luò),在神經(jīng)網(wǎng)絡(luò)架構(gòu)上均能實(shí)現(xiàn)全程可導(dǎo)。


          VLM 視覺(jué)-語(yǔ)言模型因?yàn)槠洳⒉恢苯虞敵鲕壽E,導(dǎo)致無(wú)法受益于真實(shí)數(shù)據(jù)和生成數(shù)據(jù)的驅(qū)動(dòng)。



          全程可求導(dǎo)和非全程可求導(dǎo)的區(qū)別在于,無(wú)論是數(shù)據(jù)驅(qū)動(dòng)的端到端還是知識(shí)驅(qū)動(dòng)的 VLA,都能高效率、低成本地通過(guò)自動(dòng)化的數(shù)據(jù)閉環(huán)實(shí)現(xiàn)駕駛場(chǎng)景數(shù)據(jù)驅(qū)動(dòng),而 VLM 視覺(jué)語(yǔ)言模型無(wú)法借助數(shù)據(jù)閉環(huán),實(shí)現(xiàn)高效率、低成本的數(shù)據(jù)驅(qū)動(dòng)。


          在算法架構(gòu)層面,VLA 引入了大語(yǔ)言模型,在算法形式層面,VLA 保持了從傳感輸入到軌跡輸出的端到端神經(jīng)網(wǎng)絡(luò)形式。

          三、智駕中典型 VLA 架構(gòu)3.1 MindVLA:理想

          MindVLA 整合空間智能、語(yǔ)言智能和行為智能,基于端到端和 VLM 雙系統(tǒng)架構(gòu),通過(guò) 3D 空間編碼器和邏輯推理生成合理的駕駛決策(LM),并利用擴(kuò)散模型優(yōu)化駕駛軌跡。LLM 基座模型采用 MoE 混合專(zhuān)家架構(gòu)和稀疏注意力技術(shù)。



          • V 空間智能模塊:輸入為多模態(tài)傳感器數(shù)據(jù),使用 3D 編碼器提取時(shí)空特征,然后將所有傳感器與語(yǔ)義信息融合成統(tǒng)一的特征。

          • L 語(yǔ)言智能模塊:大語(yǔ)言模型 MindGPT,用于空間 + 語(yǔ)言的聯(lián)合推理,支持語(yǔ)音指令和反饋,可實(shí)現(xiàn)人車(chē)交互。

          • A 動(dòng)作策略模塊:使用擴(kuò)散模型生成車(chē)輛未來(lái)軌跡,引入噪聲來(lái)引導(dǎo)擴(kuò)散過(guò)程,從而生成多樣化的動(dòng)作規(guī)劃。

          • 強(qiáng)化學(xué)習(xí)模塊:使用 World Model 模擬外部環(huán)境響應(yīng),評(píng)估行為后果;使用獎(jiǎng)勵(lì)模型(Reward Model)提供駕駛偏好,將人類(lèi)駕駛偏好轉(zhuǎn)化為獎(jiǎng)勵(lì)函數(shù)(RLHF)。

          3.2 ORION:華科 &小米

          通過(guò)視覺(jué)語(yǔ)言指令指導(dǎo)軌跡生成的端到端自動(dòng)駕駛框架。ORION 引入了 QT-Former 用于聚合長(zhǎng)期歷史上下文信息,VLM 用于駕駛場(chǎng)景理解和推理,并啟發(fā)式地利用生成模型對(duì)齊了推理空間與動(dòng)作空間,實(shí)現(xiàn)了視覺(jué)問(wèn)答(VQA)和規(guī)劃任務(wù)的統(tǒng)一端到端優(yōu)化。



          • VLM:結(jié)合用戶(hù)指令、長(zhǎng)時(shí)和當(dāng)前的視覺(jué)信息,能夠?qū)︸{駛場(chǎng)景進(jìn)行多維度分析,包括場(chǎng)景描述、關(guān)鍵物體行為分析、歷史信息回顧和動(dòng)作推理,并且利用自回歸特性聚合整個(gè)場(chǎng)景信息以生成規(guī)劃 token,用來(lái)指導(dǎo)生成模型進(jìn)行軌跡預(yù)測(cè)。

          • 生成模型:通過(guò)生成模型,將 VLM 的推理空間與預(yù)測(cè)軌跡的動(dòng)作空間對(duì)齊。生成模型使用變分自編碼器(VAE)或擴(kuò)散模型,以規(guī)劃 token 作為條件去控制多模態(tài)軌跡的生成,確保模型在復(fù)雜場(chǎng)景中做出合理的駕駛決策。生成模型彌補(bǔ)了 VLM 的推理空間與軌跡的動(dòng)作空間之間的差距。

          • QT-Former:通過(guò)引入歷史查詢(xún)和記憶庫(kù),有效聚合長(zhǎng)時(shí)視覺(jué)上下文信息,增強(qiáng)了模型對(duì)歷史場(chǎng)景的理解能力,聚合歷史場(chǎng)景信息,使模型能夠?qū)v史信息整合到當(dāng)前推理和動(dòng)作空間中??梢詼p少計(jì)算開(kāi)銷(xiāo),還能更好地捕捉靜態(tài)交通元素和動(dòng)態(tài)物體的運(yùn)動(dòng)狀態(tài)。


          四、參考鏈接

          https://developer.horizon.auto/blog/13051 https://developer.horizon.auto/blog/12961 https://mp.weixin.qq.com/s/j3DYoYfkp0yrNlO9oR2tgA https://zhuanlan.zhihu.com/p/1888994290799195699 https://mp.weixin.qq.com/s/nP70QtcVLjgLq8Ue95BdJw https://mp.weixin.qq.com/s/j3DYoYfkp0yrNlO9oR2tgA https://mp.weixin.qq.com/s/PR_RFtbEfOV2L0cQXg574A


          *博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



          相關(guān)推薦

          技術(shù)專(zhuān)區(qū)

          關(guān)閉