日本a√视频在线,久久青青亚洲国产,亚洲一区欧美二区,免费g片在线观看网站

        <style id="k3y6c"><u id="k3y6c"></u></style>
        <s id="k3y6c"></s>
        <mark id="k3y6c"></mark>
          
          

          <mark id="k3y6c"></mark>

          "); //-->

          博客專欄

          EEPW首頁 > 博客 > CVPR2023 l 自動駕駛中統(tǒng)一感知和預(yù)測的隱式占位流場新范式!

          CVPR2023 l 自動駕駛中統(tǒng)一感知和預(yù)測的隱式占位流場新范式!

          發(fā)布人:計算機(jī)視覺工坊 時間:2023-07-19 來源:工程師 發(fā)布文章
          1 前言

          自動駕駛車輛必須能夠感知周圍環(huán)境并預(yù)測其他交通參與者的未來行為?,F(xiàn)有的研究要么進(jìn)行目標(biāo)檢測,然后對檢測到的目標(biāo)進(jìn)行軌跡預(yù)測,要么對整個場景進(jìn)行密集的占位和流格預(yù)測。前者存在安全問題,因為為了提高效率,需要保持較低的檢測數(shù)量,從而犧牲了目標(biāo)的回收率。后者由于輸出格的高維度和完全卷積網(wǎng)絡(luò)固有的有限感受野而計算成本高。此外,這兩種方法都利用了許多計算資源來預(yù)測可能永遠(yuǎn)不會被運(yùn)動規(guī)劃器查詢的區(qū)域或?qū)ο蟆?/p>

          本文介紹了一種統(tǒng)一的感知和預(yù)測方法:通過單個神經(jīng)網(wǎng)絡(luò)隱式地表示占位和流格隨時間變化。該方法避免了不必要的計算,因為運(yùn)動規(guī)劃器可以直接在連續(xù)的時空位置查詢它。此外,論文作者設(shè)計了一種架構(gòu),通過添加高效而有效的全局注意機(jī)制,克服了先前明確的占位預(yù)測方法的有限感受野。通過在城市和高速公路環(huán)境中進(jìn)行大量實驗,論文作者證明了他們的隱式模型優(yōu)于當(dāng)前的最先進(jìn)技術(shù)。

          2 算法介紹2.1 基礎(chǔ)概念補(bǔ)充——隱式幾何重建:

          幾何重建是指在給定某個不完整表示(如圖像、LiDAR、體素)的情況下,預(yù)測對象的三維形狀的任務(wù)。隱式神經(jīng)幾何重建方法已被證明優(yōu)于顯式對應(yīng)方法,后者將三維形狀表示為網(wǎng)格、點集、體素或網(wǎng)格。相反,隱式方法訓(xùn)練一個神經(jīng)網(wǎng)絡(luò)來預(yù)測一個連續(xù)場,為3D空間中的每個點分配一個值,以便從等值面中提取出形狀。具體而言,該網(wǎng)絡(luò)可以預(yù)測3D空間中的非線性二值占位,或者是到表面的有符號距離函數(shù)。論文作者則將它們應(yīng)用在自動駕駛的感知和預(yù)測任務(wù)中的。

          2.2 任務(wù)參數(shù)化

          輸入?yún)?shù)化:模型接受體素化的LiDAR表示()和高清地圖的光柵()作為輸入。對于LiDAR,設(shè)作為最近  次掃描的序列更準(zhǔn)確地說,是在時間步長t '結(jié)束的LiDAR掃描,其中包含Pt '個點,每個點由三個特征描述:(,,)。是點相對于當(dāng)前時間步長下的SDV參考框架的位置,該參考框架以SDV的當(dāng)前位置為中心并且x軸沿著其行進(jìn)方向。表示點相對于地面的高度。最后,,采用多次掃描鳥瞰圖體素化方法,沿著BEV平面法線方向分為D個深度通道,高度像素為H,寬度像素為W。對于光柵地圖,將高清地圖中表示車道中心線的多段線C進(jìn)行光柵化,生成具有相同的空間維度的單通道光柵圖。輸出參數(shù)化:設(shè)為BEV中的一個時空點,在未來的時間t。這項工作是預(yù)測占位概率和流向量,指定占據(jù)該位置的任何車輛在BEV中的運(yùn)動。采用反向流來建模流向量f,因為它可以用單個反向流向量來捕捉多模態(tài)的前向運(yùn)動。更具體地,反向流描述了時間t和位置(x, y)處的運(yùn)動,它是該位置從的平移向量,如果該位置有一個對象占據(jù),則為:

          其中,(,)表示時間時占據(jù)()點在t時的BEV位置。

          2.3 網(wǎng)絡(luò)架構(gòu)

          作者使用一個多頭神經(jīng)網(wǎng)絡(luò)ψ來參數(shù)化預(yù)測的占位概率和流向量。該網(wǎng)絡(luò)以體素化的LiDAR數(shù)據(jù)、光柵地圖和一個包含個時空查詢點的小批量作為輸入,并行估計小批量的占位概率和流向量:

          其中,網(wǎng)絡(luò)ψ分為卷積編碼器和隱式****兩部分,用于計算場景特征并輸出占位概率和流向量的估計結(jié)果,如下圖所示。

          圖片

          編碼器由兩個處理BEV LiDAR和地圖光柵的卷積模塊組成,一個接收LiDAR和地圖光柵特征拼接的ResNet 輸出多分辨率特征平面,以及一個輕量級特征金字塔網(wǎng)絡(luò)(FPN)來處理這些特征平面。這樣就得到了一個分辨率為輸入的一半的BEV特征圖,其中包含了場景的幾何、語義和運(yùn)動等上下文特征。值得注意的是,特征圖中的每個空間位置(特征向量)都包含了關(guān)于其鄰域(編碼器的感受野大?。┑目臻g信息,以及過去秒的時間信息。換句話說,Z中的每個特征向量可能包含關(guān)于運(yùn)動、局部道路幾何和鄰近車輛的重要線索。

          作者設(shè)計了一個隱式占位概率和流向量****,靈感來自于這樣的直覺:查詢點的占位概率可能是由于一個在時間t之前以快速速度移動的遠(yuǎn)處物體引起的。因此,我們希望利用時空查詢位置周圍的局部特征來指示接下來應(yīng)該觀察的區(qū)域。例如,關(guān)于一個對象的特征可能在其原始位置周圍(在時間{}更具表達(dá)力,因為那里有LiDAR的證據(jù)。與在時間t占據(jù)查詢點的對象可能發(fā)生交互的鄰近交通參與者也是需要關(guān)注的(例如,前車、在相似時間到達(dá)合并點的另一輛車)。

          為了實現(xiàn)這些直覺,作者首先使用雙線性插值在查詢BEV位置處對特征圖進(jìn)行插值,得到包含查詢周圍局部信息的特征向量。然后,我們通過偏移初始查詢點來預(yù)測K個參考點,其中偏移量?q是通過使用基于全連接的ResNet架構(gòu)計算得到的。對于所有的偏移量都獲得相應(yīng)的特征。這可以看作是一種形變卷積的形式;它預(yù)測并添加2D偏移量到卷積的規(guī)則網(wǎng)格采樣位置,并在這些偏移位置進(jìn)行特征向量的雙線性插值。為了聚合來自形變采樣位置的信息,我們使用了學(xué)習(xí)的線性投影的之間的交叉注意力。結(jié)果是聚合的特征向量z。有關(guān)該特征聚合過程的可視化。最后,將z和z_q與q進(jìn)行拼接,然后通過另一個基于全連接的ResNet架構(gòu),帶有兩個線性層頭來預(yù)測占位概率和流向。

          3 網(wǎng)絡(luò)分析

          圖片

          1. 在目標(biāo)位置對進(jìn)行插值操作;
          2. 使用該插值的特征向量來預(yù)測到特征圖中其他位置的K個注意力偏移;
          3. 在偏移位置處對Z進(jìn)行插值以獲得更多的特征向量;
          4. 在所有插值的特征上執(zhí)行交叉關(guān)注以生成最終特征向量Z;
          5. 并使用Z來預(yù)測每個查詢點的占位率和流格。
          4 總結(jié)

          本文介紹了一種針對自動駕駛的聯(lián)合感知和預(yù)測的統(tǒng)一方法,通過神經(jīng)網(wǎng)絡(luò)隱式地表示隨時間變化的占位和流格。這種可查詢的隱式表示能夠更有效、更高效地向下游的運(yùn)動規(guī)劃器提供信息。

          5 參考資料

          [1]Ben Agro, Quinlan Sykora, Sergio Casas, Raquel Urtasun.  Implicit Occupancy Flow Fields for Perception and Prediction in Self-Driving.CVPR.2023. [2] https://zhuanlan.zhihu.com/p/552854503


          *博客內(nèi)容為網(wǎng)友個人發(fā)布,僅代表博主個人觀點,如有侵權(quán)請聯(lián)系工作人員刪除。



          關(guān)鍵詞: AI

          相關(guān)推薦

          技術(shù)專區(qū)

          關(guān)閉