大模型 | VLA 初識(shí)及在自動(dòng)駕駛場(chǎng)景中的應(yīng)用
VLA (Vision Language Action)是一種多模態(tài)機(jī)器學(xué)習(xí)模型,結(jié)合了視覺(jué)、語(yǔ)言和動(dòng)作三種能力,旨在實(shí)現(xiàn)從感知輸入直接映射到控制動(dòng)作的完整閉環(huán)能力。VLA 強(qiáng)調(diào)一體化多模態(tài)端到端架構(gòu),非感知規(guī)控的模塊化方案。
下圖是常見(jiàn)端到端的框架,是 RT-2、OpenVLA、CLIP-RT 等 VLA 系統(tǒng)的典型代表,這些系統(tǒng)均采用基于 Transformer 的視覺(jué)和語(yǔ)言骨干網(wǎng)絡(luò),并通過(guò)跨模態(tài)注意力機(jī)制進(jìn)行融合。

該架構(gòu)融合視覺(jué)、語(yǔ)言和本體感受三類(lèi)編碼器,視覺(jué)編碼器(如 ViT、DINOv2)提取圖像特征,語(yǔ)言編碼器(如 PaLM、LLaMA)將自然語(yǔ)言指令嵌入相同空間,狀態(tài)編碼器則將機(jī)器人感知與運(yùn)動(dòng)狀態(tài)編碼為輔助 tokens,支持可達(dá)性推理與反饋調(diào)整。
所有 tokens 拼接后送入 Transformer,可通過(guò)擴(kuò)散策略(如 Diffusion Policy)或直接映射策略得到控制命令。輸出可為連續(xù)動(dòng)作信號(hào)(如執(zhí)行器速度)。
1.2 VLA 典型結(jié)構(gòu)VLA 模型典型結(jié)構(gòu)如下,圍繞視覺(jué)編碼器、語(yǔ)言編碼器和動(dòng)作解碼器三個(gè)關(guān)聯(lián)模塊構(gòu)建

視覺(jué)編碼器中:
基于 CLIP 和 SigLIP 的編碼器因?qū)Ρ葘W(xué)習(xí)帶來(lái)的強(qiáng)視覺(jué)文本對(duì)齊能力受青睞,應(yīng)用于 CLIPort 等模型;
DINOv2、Qwen2 VIT 等 ViT 變體因能建模長(zhǎng)距離空間依賴(lài)和高級(jí)視覺(jué)語(yǔ)義,應(yīng)用于 HybridVLA 等模型;
ResNet、EfficientNet 等基于 CNN 的編碼器則出現(xiàn)在 CLIPort、ACT、RT-1、QUAR-VLA 等模型中;
語(yǔ)言編碼器:
LLaMA 和 Vicuna 系列用于 RevLA、OpenVLA 等模型,支持指令理解和零樣本推理;
T5 風(fēng)格模型應(yīng)用于 VIMA、Octo 等,提供靈活的編碼器 - 解碼器結(jié)構(gòu);
GPT 和 Qwen 系列在 VoxPoser 等模型中平衡泛化能力與緊湊部署;
Gemma-2B 用于 Pi-0、FAST;
CLIP 文本編碼器則在 CLIPort 等中完成基礎(chǔ)對(duì)齊任務(wù);
動(dòng)作解碼器:
基于擴(kuò)散的 Transformer 是 Octo 等模型首選,通過(guò)迭代去噪實(shí)現(xiàn)細(xì)粒度、平滑控制;
自回歸 Transformer 頭在 Gato 等中逐步生成動(dòng)作序列,優(yōu)化實(shí)時(shí)響應(yīng);
VoxPoser 等模型嵌入模型預(yù)測(cè)控制或規(guī)劃頭支持動(dòng)態(tài)決策;
MLP 或 tokens 預(yù)測(cè)器頭用于 OpenVLA 等實(shí)現(xiàn)高效低級(jí)控制;
總結(jié):
視覺(jué)編碼器多采用 CLIP 和 SigLIP 基于的 ViT 骨干網(wǎng)絡(luò);
語(yǔ)言領(lǐng)域以 LLaMA 家族為主;
動(dòng)作解碼中基于擴(kuò)散的 Transformer 頭因建模復(fù)雜多模態(tài)動(dòng)作分布能力最受青睞;
視覺(jué)語(yǔ)言模型(VLM)雖然擅長(zhǎng)理解復(fù)雜場(chǎng)景,但存在以下問(wèn)題:
空間精度不高:輸出軌跡點(diǎn)是基于語(yǔ)言生成的,易產(chǎn)生偏差。
傳統(tǒng)端到端模塊雖然推理快,但缺乏全局語(yǔ)義理解能力??梢酝ㄟ^(guò)一種“慢 → 快”的協(xié)同機(jī)制來(lái)連接兩者,Trajectory Refinement(軌跡優(yōu)化) 就是這個(gè)橋梁。Trajectory Refinement 用于提升路徑規(guī)劃的精度與實(shí)時(shí)性,其本質(zhì)是使用 DriveVLM(慢系統(tǒng))輸出的粗略軌跡作為參考,引導(dǎo)傳統(tǒng)自動(dòng)駕駛模塊(快系統(tǒng))進(jìn)行高頻率、實(shí)時(shí)的精細(xì)軌跡生成。
端到端快系統(tǒng) 的輸入端是以視覺(jué)為主的傳感器信息,輸出端是行駛軌跡。VLM 慢系統(tǒng) 的輸入端是 2D 視覺(jué)信息、導(dǎo)航信息,輸出端是文本而非軌跡(VLM 并非端到端神經(jīng)網(wǎng)絡(luò))。
端到端模型和 VLM 是兩個(gè)獨(dú)立的模型,且運(yùn)行頻率不同,做聯(lián)合訓(xùn)練與優(yōu)化非常困難。
VLM 在語(yǔ)義推理空間和純數(shù)值軌跡的行動(dòng)空間之間仍然存在巨大鴻溝。
VLM 通過(guò)疊加多幀的圖像信息完成時(shí)序建模,會(huì)受到 VLM 的 Token 長(zhǎng)度限制,會(huì)增加額外的計(jì)算開(kāi)銷(xiāo)。
VLA 的輸入端是視覺(jué)為主的傳感器信息、2D 視覺(jué)信息、3D 視覺(jué)信息、導(dǎo)航信息、語(yǔ)音指令信息,輸出端是文本和行駛軌跡。
VLA 視覺(jué)-語(yǔ)言-動(dòng)作 模型與端到端系統(tǒng),均為(傳感輸入)端到(控制輸出)端神經(jīng)網(wǎng)絡(luò),在神經(jīng)網(wǎng)絡(luò)架構(gòu)上均能實(shí)現(xiàn)全程可導(dǎo)。
VLM 視覺(jué)-語(yǔ)言模型因?yàn)槠洳⒉恢苯虞敵鲕壽E,導(dǎo)致無(wú)法受益于真實(shí)數(shù)據(jù)和生成數(shù)據(jù)的驅(qū)動(dòng)。

全程可求導(dǎo)和非全程可求導(dǎo)的區(qū)別在于,無(wú)論是數(shù)據(jù)驅(qū)動(dòng)的端到端還是知識(shí)驅(qū)動(dòng)的 VLA,都能高效率、低成本地通過(guò)自動(dòng)化的數(shù)據(jù)閉環(huán)實(shí)現(xiàn)駕駛場(chǎng)景數(shù)據(jù)驅(qū)動(dòng),而 VLM 視覺(jué)語(yǔ)言模型無(wú)法借助數(shù)據(jù)閉環(huán),實(shí)現(xiàn)高效率、低成本的數(shù)據(jù)驅(qū)動(dòng)。
在算法架構(gòu)層面,VLA 引入了大語(yǔ)言模型,在算法形式層面,VLA 保持了從傳感輸入到軌跡輸出的端到端神經(jīng)網(wǎng)絡(luò)形式。
三、智駕中典型 VLA 架構(gòu)3.1 MindVLA:理想MindVLA 整合空間智能、語(yǔ)言智能和行為智能,基于端到端和 VLM 雙系統(tǒng)架構(gòu),通過(guò) 3D 空間編碼器和邏輯推理生成合理的駕駛決策(LM),并利用擴(kuò)散模型優(yōu)化駕駛軌跡。LLM 基座模型采用 MoE 混合專(zhuān)家架構(gòu)和稀疏注意力技術(shù)。

V 空間智能模塊:輸入為多模態(tài)傳感器數(shù)據(jù),使用 3D 編碼器提取時(shí)空特征,然后將所有傳感器與語(yǔ)義信息融合成統(tǒng)一的特征。
L 語(yǔ)言智能模塊:大語(yǔ)言模型 MindGPT,用于空間 + 語(yǔ)言的聯(lián)合推理,支持語(yǔ)音指令和反饋,可實(shí)現(xiàn)人車(chē)交互。
A 動(dòng)作策略模塊:使用擴(kuò)散模型生成車(chē)輛未來(lái)軌跡,引入噪聲來(lái)引導(dǎo)擴(kuò)散過(guò)程,從而生成多樣化的動(dòng)作規(guī)劃。
強(qiáng)化學(xué)習(xí)模塊:使用 World Model 模擬外部環(huán)境響應(yīng),評(píng)估行為后果;使用獎(jiǎng)勵(lì)模型(Reward Model)提供駕駛偏好,將人類(lèi)駕駛偏好轉(zhuǎn)化為獎(jiǎng)勵(lì)函數(shù)(RLHF)。
通過(guò)視覺(jué)語(yǔ)言指令指導(dǎo)軌跡生成的端到端自動(dòng)駕駛框架。ORION 引入了 QT-Former 用于聚合長(zhǎng)期歷史上下文信息,VLM 用于駕駛場(chǎng)景理解和推理,并啟發(fā)式地利用生成模型對(duì)齊了推理空間與動(dòng)作空間,實(shí)現(xiàn)了視覺(jué)問(wèn)答(VQA)和規(guī)劃任務(wù)的統(tǒng)一端到端優(yōu)化。

VLM:結(jié)合用戶(hù)指令、長(zhǎng)時(shí)和當(dāng)前的視覺(jué)信息,能夠?qū)︸{駛場(chǎng)景進(jìn)行多維度分析,包括場(chǎng)景描述、關(guān)鍵物體行為分析、歷史信息回顧和動(dòng)作推理,并且利用自回歸特性聚合整個(gè)場(chǎng)景信息以生成規(guī)劃 token,用來(lái)指導(dǎo)生成模型進(jìn)行軌跡預(yù)測(cè)。
生成模型:通過(guò)生成模型,將 VLM 的推理空間與預(yù)測(cè)軌跡的動(dòng)作空間對(duì)齊。生成模型使用變分自編碼器(VAE)或擴(kuò)散模型,以規(guī)劃 token 作為條件去控制多模態(tài)軌跡的生成,確保模型在復(fù)雜場(chǎng)景中做出合理的駕駛決策。生成模型彌補(bǔ)了 VLM 的推理空間與軌跡的動(dòng)作空間之間的差距。
QT-Former:通過(guò)引入歷史查詢(xún)和記憶庫(kù),有效聚合長(zhǎng)時(shí)視覺(jué)上下文信息,增強(qiáng)了模型對(duì)歷史場(chǎng)景的理解能力,聚合歷史場(chǎng)景信息,使模型能夠?qū)v史信息整合到當(dāng)前推理和動(dòng)作空間中??梢詼p少計(jì)算開(kāi)銷(xiāo),還能更好地捕捉靜態(tài)交通元素和動(dòng)態(tài)物體的運(yùn)動(dòng)狀態(tài)。

https://developer.horizon.auto/blog/13051 https://developer.horizon.auto/blog/12961 https://mp.weixin.qq.com/s/j3DYoYfkp0yrNlO9oR2tgA https://zhuanlan.zhihu.com/p/1888994290799195699 https://mp.weixin.qq.com/s/nP70QtcVLjgLq8Ue95BdJw https://mp.weixin.qq.com/s/j3DYoYfkp0yrNlO9oR2tgA https://mp.weixin.qq.com/s/PR_RFtbEfOV2L0cQXg574A
*博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。







