日本a√视频在线,久久青青亚洲国产,亚洲一区欧美二区,免费g片在线观看网站

        <style id="k3y6c"><u id="k3y6c"></u></style>
        <s id="k3y6c"></s>
        <mark id="k3y6c"></mark>
          
          

          <mark id="k3y6c"></mark>

          "); //-->

          博客專欄

          EEPW首頁 > 博客 > 理想汽車智駕方案介紹 4 | World model + 強(qiáng)化學(xué)習(xí)重建自動駕駛交互環(huán)境

          理想汽車智駕方案介紹 4 | World model + 強(qiáng)化學(xué)習(xí)重建自動駕駛交互環(huán)境

          發(fā)布人:地平線開發(fā)者 時間:2025-09-06 來源:工程師 發(fā)布文章
          一、前言

          【理想汽車智駕方案介紹專題 -1】端到端+VLM 方案介紹

          【理想汽車智駕方案介紹專題 -2】MindVLA 方案詳解

          【理想汽車智駕方案介紹專題 -3】MoE+Sparse Attention 高效結(jié)構(gòu)解析

          在前面的 3 篇文章中,筆者已經(jīng)比較詳細(xì)地介紹了 V、L、A 模塊,本帖介紹 World Model + 強(qiáng)化學(xué)習(xí)打通自動駕駛閉環(huán)仿真鏈路。

          自動駕駛達(dá)到人類駕駛水平是遠(yuǎn)遠(yuǎn)不夠的,這項(xiàng)技術(shù)的使命是超越人類的駕駛水平,使得駕駛過程更加安全、可靠、輕松。通常大家認(rèn)為強(qiáng)化學(xué)習(xí)是自動駕駛超越人類駕駛水平的核心技術(shù),但是以往的一些嘗試都沒有取得比較明顯的成果。理想認(rèn)為這里主要有兩個限制因素:

          • **無法實(shí)現(xiàn)車端端到端訓(xùn)練:**傳統(tǒng)的車端架構(gòu)不能實(shí)現(xiàn)端到端的可訓(xùn)練,強(qiáng)化學(xué)習(xí)做一種稀疏的弱監(jiān)督過程,在當(dāng)前的架構(gòu)上無法實(shí)現(xiàn)高效無損的信息傳遞,強(qiáng)化學(xué)習(xí)的效果的大大降弱;

          • **缺乏真實(shí)的自動駕駛交互環(huán)境:**過去都是基于 3D 的游戲引擎,場景真實(shí)性不足,缺少真實(shí)的交互自動駕駛交互環(huán)境,而且場景建設(shè)效率低下且場景建設(shè)規(guī)模小,模型很容易學(xué)偏,發(fā)生 hack reward model,模型往往不可用。

          img

          VLA 模型的出現(xiàn)解決了上述第一個限制,第二個限制則依賴于真實(shí)、良好的 3D 交互環(huán)境數(shù)據(jù)做 3D 重建和生成。

          純生成模型的具備良好的泛化能力能夠生成多變的場景,但也會出現(xiàn)不符合物理世界規(guī)律的幻覺,必然不滿足自動駕駛場景的嚴(yán)格要求。純重建模型依賴于真實(shí)數(shù)據(jù)呈現(xiàn)出 3D 場景,在大視角變幻下可能出現(xiàn)空洞和變形,也無法滿足自動駕駛場景的需求。

          理想的解決方案是:以真實(shí)數(shù)據(jù)的 3D 重建為基礎(chǔ),在不同的視角下添加噪音來訓(xùn)練模型的生成能力,從而恢復(fù)模糊的視角,這樣的話生成模型就具有了多視角的生成能力。

          自動駕駛場景重建和生成結(jié)合的相關(guān)技術(shù)細(xì)節(jié)可參見理想團(tuán)隊(duì)今年 CVPR2025 中的四篇論文:StreetCrafter、DrivingSphere、DriveDreamer4D 與 ReconDreamer,參考文獻(xiàn)中貼出了鏈接。

          本帖將以 DrivingSphere 為例來解析這個過程。

          二、DrivingSphere
          2.1 解決問題
          1. 開環(huán)模擬在動態(tài)決策評估方面的問題:目前的開環(huán)模擬方式(例如根據(jù)公開數(shù)據(jù)集進(jìn)行固定路線的路點(diǎn)預(yù)測),雖然能生成很逼真的傳感器數(shù)據(jù),但它沒有動態(tài)反饋機(jī)制,無法評估自動駕駛系統(tǒng)在動態(tài)場景下的決策能力。此外,它的數(shù)據(jù)分布是固定的,數(shù)據(jù)種類不多,很難檢驗(yàn)算法在不同情況下的適應(yīng)能力。

          2. 閉環(huán)模擬在視覺真實(shí)性和傳感器兼容性上的問題:傳統(tǒng)的閉環(huán)模擬方法(例如基于交通流或游戲引擎的方法),雖然支持通過反饋來驅(qū)動多個智能體之間的交互,但存在兩個主要問題:

            1. 它無法處理視覺傳感器傳來的信息,與基于視覺的端到端模型不太適配。

            2. 它輸出的傳感器數(shù)據(jù)與真實(shí)世界的情況差異較大,導(dǎo)致訓(xùn)練場景和驗(yàn)證場景存在“差異”,難以有效檢驗(yàn)算法在輸入真實(shí)數(shù)據(jù)時的表現(xiàn)。

          2.2 創(chuàng)新點(diǎn)
          1. 閉環(huán)仿真框架與 4D 世界表示

            1. DrivingSphere 是首個融合了幾何先驗(yàn)信息的生成式閉環(huán)仿真框架。它構(gòu)建 4D 世界表示(就是把靜態(tài)背景和動態(tài)對象融合成占用網(wǎng)格),能生成逼真且可控制的駕駛場景。這樣就解決了開環(huán)仿真沒有動態(tài)反饋,以及傳統(tǒng)閉環(huán)仿真視覺效果和真實(shí)數(shù)據(jù)有差距的問題。

            2. 我們首次將文本提示和 BEV 地圖結(jié)合起來,用于驅(qū)動 3D 占用生成。借助場景擴(kuò)展機(jī)制,我們可以構(gòu)建城市規(guī)模的靜態(tài)場景,而且這個場景的區(qū)域可以無限擴(kuò)大。

          2. 多維度仿真能力突破

          3. 模塊化設(shè)計(jì)與技術(shù)整合

          2.3 模型結(jié)構(gòu)

          img

          如上圖所示,DrivingSphere 由動態(tài)環(huán)境組成模塊(Dynamic Environment Composition)、視覺場景合成模塊(Visual Scene Synthesis)和閉環(huán)反饋機(jī)制(Agent Interplay and Closed-Loop Simulation)組成,下面將逐一對這 3 個模塊進(jìn)行介紹。

          2.3.1 動態(tài)環(huán)境組成模塊

          該模塊構(gòu)建包含靜態(tài)背景與動態(tài)主體的 4D 駕駛世界,核心技術(shù)圍繞 OccDreamer 擴(kuò)散模型與動作動態(tài)管理展開。

          將 4D 世界表示定義為:

          img

          其中 *S_*city 為靜態(tài)背景,An 為動態(tài)智能體,Pn 為智能體時空位置序列。

          所有元素以占用網(wǎng)格(Occupancy Grid) 形式存儲,支持空間布局與動態(tài)智能體的統(tǒng)一建模。

          OccDreamer 結(jié)構(gòu)如下圖所示,基于 BEV 地圖與文本提示,生成城市級 3D 靜態(tài)場景,解決傳統(tǒng)方法依賴固定數(shù)據(jù)集的局限。其技術(shù)路徑為 3 階段架構(gòu),即:

          img

          • 占用標(biāo)記器(Occupancy Tokenizer):使用 VQVAE 將 3D 占用數(shù)據(jù)映射為潛在特征 \(Z^S\),通過組合損失函數(shù)(CE 損失、Lovász 損失)優(yōu)化重建精度。

          • 可控區(qū)域生成:結(jié)合 CLIP 文本嵌入與 ControlNet 驅(qū)動的 BEV 地圖編碼,通過擴(kuò)散模型實(shí)現(xiàn)文本 - 幾何聯(lián)合控制的區(qū)域占用生成。

          • 場景擴(kuò)展機(jī)制:利用相鄰區(qū)域重疊掩碼作為條件約束,通過擴(kuò)散模型迭代擴(kuò)展場景,確保城市級空間一致性。

          2.3.2 視覺場景合成模塊

          該模塊將 4D 占用數(shù)據(jù)轉(zhuǎn)換為高保真多視圖視頻,核心在于雙路徑條件編碼與 ID 感知表示。

          VideoDreamer 框架

          VideoDreamer 的輸入數(shù)據(jù)為 4D 駕駛世界和智能體增強(qiáng)嵌入;輸出為多視圖、多幀的高保真視頻序列,支持自動駕駛系統(tǒng)的感知測試。其結(jié)構(gòu)如下圖所示:

          img

          主要由時空擴(kuò)散 Transformer(ST-DiT)、條件編碼機(jī)制、噪聲處理與視頻生成組成,下面進(jìn)行逐一介紹。

          1. 時空擴(kuò)散 Transformer(ST-DiT):

            1. 視圖感知空間自注意力(VSSA):處理多視圖特征的空間一致性,將視圖、高度、寬度維度合并為序列,降低跨視圖注意力的計(jì)算復(fù)雜度。

            2. 時間自注意力:捕捉視頻幀間的時間依賴關(guān)系,確保動作連續(xù)性(如車輛運(yùn)動軌跡平滑)。

            3. 交叉注意力:注入場景上下文與智能體身份信息(如\(F_{\text{fuse}}\)),增強(qiáng)生成視頻的語義準(zhǔn)確性。

            4. 前饋網(wǎng)絡(luò)(FFN):特征非線性變換,提升表示能力。

            5. 作為核心網(wǎng)絡(luò)架構(gòu),包含多個 ST-DiT 模塊,每個模塊集成:

          2. 條件編碼機(jī)制:

            1. 全局幾何特征:通過 4D 占用編碼器提取場景的整體空間結(jié)構(gòu)(如道路布局、建筑物位置)。

            2. 智能體 ID 與位置編碼:使用傅里葉編碼將智能體的 3D 位置和唯一 ID 轉(zhuǎn)換為特征向量,確保不同幀中同一智能體的外觀一致性(如紅色車輛在各視角中保持顏色和形狀)。

            3. 文本描述嵌入:通過 T5 模型編碼智能體的文本說明(如 “一群行人”),指導(dǎo)語義細(xì)節(jié)生成。

          3. 噪聲處理與視頻生成流程:

            1. 輸入隨機(jī)噪聲,通過擴(kuò)散模型的去噪過程逐步生成視頻幀。

            2. 自回歸生成策略:基于前一幀生成后續(xù)幀,確保時間維度的連貫性(如車輛轉(zhuǎn)彎動作的平滑過渡)。

          2.3.3 閉環(huán)反饋機(jī)制

          閉環(huán)反饋機(jī)制是 DrivingSphere 實(shí)現(xiàn)動態(tài)仿真的核心模塊,通過自動駕駛代理與模擬環(huán)境的雙向交互,形成 “代理動作 - 環(huán)境響應(yīng)” 的實(shí)時循環(huán),支持算法在真實(shí)場景下的驗(yàn)證。其技術(shù)核心與創(chuàng)新點(diǎn)為:

          1. 雙向動態(tài)反饋

            1. 代理動作直接影響環(huán)境(如自我代理轉(zhuǎn)向?qū)е轮苓呠囕v避障),環(huán)境變化又反作用于代理感知,模擬真實(shí)交通中的交互復(fù)雜性。

          2. 多智能體協(xié)同控制

            1. 通過交通流引擎實(shí)現(xiàn)大規(guī)模智能體協(xié)同(如車流、行人集群),支持復(fù)雜場景(如十字路口通行、環(huán)島繞行)的仿真。

          3. 數(shù)據(jù)閉環(huán)驗(yàn)證

            1. 支持 “仿真 - 測試 - 優(yōu)化” 的迭代流程:通過閉環(huán)反饋暴露算法缺陷(如緊急制動誤觸發(fā)),指導(dǎo)模型改進(jìn)。

          三、參考文獻(xiàn)

          StreetCrafter: Street View Synthesis with Controllable Video Diffusion Models

          Balanced 3DGS: Gaussian-wise Parallelism Rendering with Fine-Grained Tiling

          ReconDreamer: Crafting World Models for Driving Scene Reconstruction via Online Restoration

          DrivingSphere: Building a High-fidelity 4D World for Closed-loop Simulation

          igh-fidelity 4D World for Closed-loop Simulation](https://link.zhihu.com/?target=https%3A//arxiv.org/pdf/2411.11252)

          DriveDreamer4D: World Models Are Effective Data Machines for 4D Driving Scene Representation


          *博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點(diǎn),如有侵權(quán)請聯(lián)系工作人員刪除。



          相關(guān)推薦

          技術(shù)專區(qū)

          關(guān)閉