日本a√视频在线,久久青青亚洲国产,亚洲一区欧美二区,免费g片在线观看网站

        <style id="k3y6c"><u id="k3y6c"></u></style>
        <s id="k3y6c"></s>
        <mark id="k3y6c"></mark>
          
          

          <mark id="k3y6c"></mark>

          "); //-->

          博客專欄

          EEPW首頁(yè) > 博客 > CVPR 2022 | 高質(zhì)量捕捉人物動(dòng)作,網(wǎng)易互娛AI Lab提出高效視頻動(dòng)捕技術(shù)

          CVPR 2022 | 高質(zhì)量捕捉人物動(dòng)作,網(wǎng)易互娛AI Lab提出高效視頻動(dòng)捕技術(shù)

          發(fā)布人:機(jī)器之心 時(shí)間:2022-04-20 來(lái)源:工程師 發(fā)布文章

          以下文章來(lái)源于CVer ,作者網(wǎng)易互娛AI Lab

          iCap是網(wǎng)易互娛AI Lab研發(fā)的一款產(chǎn)品級(jí)的視覺(jué)動(dòng)作捕捉工具,近日研發(fā)團(tuán)隊(duì)已將手部動(dòng)作捕捉部分的算法進(jìn)行了整理,相關(guān)論文已被CVPR 2022接收。


          動(dòng)作捕捉技術(shù)在影視和游戲行業(yè)已得到廣泛的應(yīng)用,其中最常用的技術(shù)方案是光學(xué)動(dòng)作捕捉。光學(xué)動(dòng)捕需要演員穿著緊身動(dòng)捕服,并且在身上粘貼光學(xué)標(biāo)記點(diǎn),在配置好光學(xué)動(dòng)捕設(shè)備的場(chǎng)地進(jìn)行表演和動(dòng)作錄制。光學(xué)動(dòng)捕設(shè)備通常價(jià)格不菲,同時(shí)還需要固定的室內(nèi)場(chǎng)地,使用成本和門檻較高,很多小型動(dòng)畫(huà)工作室只能望而卻步。如果可以從手機(jī)拍攝的視頻中高精度地捕捉人物動(dòng)作,那將是動(dòng)畫(huà)師的福音。

          現(xiàn)在,動(dòng)畫(huà)師的福音來(lái)了。一起來(lái)看下面的視頻,只需用手機(jī)從兩個(gè)視角拍攝同一組人物動(dòng)作,便可快速高質(zhì)量地捕捉到人物的動(dòng)作,得到骨骼動(dòng)畫(huà)數(shù)據(jù)。這些都是通過(guò)iCap——網(wǎng)易互娛AI Lab研發(fā)的一款產(chǎn)品級(jí)的視覺(jué)動(dòng)作捕捉工具實(shí)現(xiàn)的。
          相比于傳統(tǒng)光學(xué)動(dòng)作捕捉流程,iCap有以下優(yōu)勢(shì):
          1.快速產(chǎn)出:能夠快速產(chǎn)出動(dòng)作數(shù)據(jù),更適用于敏捷開(kāi)發(fā),方便前期試錯(cuò);2.隨時(shí)隨地:只需光照條件足夠讓拍攝清晰,便可隨時(shí)隨地拍攝視頻,產(chǎn)出結(jié)果;3.節(jié)約人力,節(jié)約成本。
          值得一提的是,iCap不僅支持身體關(guān)節(jié)數(shù)據(jù)捕捉,也支持手部數(shù)據(jù)捕捉。近日,網(wǎng)易互娛AI Lab已經(jīng)將手部動(dòng)作捕捉部分的算法進(jìn)行了整理,相關(guān)論文已被CVPR 2022接收。

          圖片


          論文鏈接:https://arxiv.org/pdf/2203.16202.pdf
          現(xiàn)有的手部動(dòng)作捕捉方法大部分是將手部信息和身體信息分開(kāi)考慮的,即這些方案的輸入是單純的手部視覺(jué)信息。這樣做的問(wèn)題是,捕捉到的手部動(dòng)作可能會(huì)和手臂動(dòng)作存在不匹配,不協(xié)調(diào)的情況,在整合進(jìn)全身動(dòng)作捕捉數(shù)據(jù)時(shí)容易產(chǎn)生不合理的姿態(tài)。另外,現(xiàn)有的手部動(dòng)作捕捉方法大多都只考慮了當(dāng)前幀的信息,未能考慮幀間連續(xù)性,輸出的動(dòng)作容易出現(xiàn)抖動(dòng),也難以應(yīng)對(duì)復(fù)雜的手部動(dòng)作捕捉場(chǎng)景(模糊、遮擋等)。這些問(wèn)題都導(dǎo)致現(xiàn)有方案比較難以推向?qū)嶋H應(yīng)用。
          為解決現(xiàn)有方案的痛點(diǎn),網(wǎng)易互娛AI Lab提出了解決方案,該方案的主要貢獻(xiàn)點(diǎn)如下:
          1.考慮到手臂動(dòng)作和手部動(dòng)作之間的相關(guān)性,設(shè)計(jì)模型同時(shí)預(yù)測(cè)手臂和手部動(dòng)作;通過(guò)利用此相關(guān)性,輸出的手臂和手部姿態(tài)會(huì)更加合理;2.通過(guò)兩個(gè)transformer模型分別在時(shí)間和空間維度上提取相關(guān)性信息,使得手臂和手部的相關(guān)性能夠更好地被利用,與此同時(shí)也能輸出幀間連續(xù)的結(jié)果;另外,論文還定制了合適的目標(biāo)函數(shù)以獲得準(zhǔn)確而穩(wěn)定的輸出序列。 方法介紹
          此項(xiàng)工作的目標(biāo)是從視頻中捕捉手臂和手的動(dòng)作,具體地,此方案以骨骼旋轉(zhuǎn)量來(lái)表示動(dòng)作。實(shí)現(xiàn)上述目標(biāo)最簡(jiǎn)單的思路是直接學(xué)習(xí)一個(gè)圖像到骨骼旋轉(zhuǎn)量的映射,但這就需要有能夠和動(dòng)作捕捉數(shù)據(jù)逐幀匹配圖像數(shù)據(jù)(即和動(dòng)作捕捉數(shù)據(jù)對(duì)齊的視頻),這通常是難以獲取的。研究者認(rèn)為,直接從圖像輸入中學(xué)習(xí)旋轉(zhuǎn)量信息難度要大于從關(guān)鍵點(diǎn)輸入中學(xué)習(xí)旋轉(zhuǎn)量信息,因?yàn)榍罢呷鄙儆?xùn)練數(shù)據(jù),后者則可以很方便地從動(dòng)作捕捉數(shù)據(jù)中提取出(輸出關(guān)鍵點(diǎn),輸出旋轉(zhuǎn)量)數(shù)據(jù)對(duì)。基于上述分析,方案的整體框架主要包括了一個(gè)關(guān)鍵點(diǎn)預(yù)測(cè)模塊和一個(gè)旋轉(zhuǎn)量估計(jì)模塊。
          下圖展示了iCap中手部動(dòng)作捕捉算法的整體框架。

          圖片


          模型結(jié)構(gòu)
          手部動(dòng)作捕捉方案由兩個(gè)模塊組成,一個(gè)是關(guān)鍵點(diǎn)預(yù)測(cè)模塊,另一個(gè)是旋轉(zhuǎn)量預(yù)測(cè)模塊。我們首先獲取手部2D關(guān)鍵點(diǎn)以及手臂處的3D關(guān)鍵點(diǎn),然后在基于這些關(guān)鍵點(diǎn),設(shè)計(jì)了合適的模型用來(lái)估計(jì)旋轉(zhuǎn)量。
          關(guān)鍵點(diǎn)預(yù)測(cè)模塊包含一個(gè)手部2D關(guān)鍵點(diǎn)定位模型和一個(gè)手臂3D關(guān)鍵點(diǎn)預(yù)測(cè)模型。手部2D關(guān)鍵點(diǎn)定位模型是基于MobileNetV3結(jié)構(gòu)設(shè)計(jì)的,具體結(jié)構(gòu)是基于one shot NAS搜索得出。手臂3D關(guān)鍵點(diǎn)則直接采用CVPR 2018的VPose3D預(yù)測(cè)全身3D姿態(tài),再?gòu)闹刑崛∈直坳P(guān)鍵點(diǎn)。
          旋轉(zhuǎn)量預(yù)測(cè)模塊主要包含兩個(gè)Transformer模型,一個(gè)是Temporal Transformer,一個(gè)是Spatial Transformer,整個(gè)模塊稱為Spatial-Temporal Parallel Arm-Hand Motion Transformer(PAHMT)。
          Temporal Transformer的主要目標(biāo)是提取手臂和手部動(dòng)作的時(shí)序先驗(yàn)信息,以求輸出幀間連續(xù)的動(dòng)作數(shù)據(jù)。Spatial Transformer的主要目標(biāo)是提取手臂姿態(tài)和手勢(shì)姿態(tài)之間的全局相關(guān)性(揮動(dòng)手臂往往和揮動(dòng)手掌高度相關(guān))以及不同關(guān)節(jié)點(diǎn)之間的局部相關(guān)性(譬如無(wú)名指的運(yùn)動(dòng)通常會(huì)帶動(dòng)中指和小拇指)。
          對(duì)于一段輸入序列,將其Reshape成不同形狀以作為兩個(gè)Transformer的輸入。不論是全局相關(guān)性還是局部相關(guān)性,他們?cè)诓煌瑤g都應(yīng)該保持一致,故論文受到ViT中的classification token的啟發(fā),設(shè)置了一個(gè)可學(xué)習(xí)的regression token,用來(lái)表征空間相關(guān)性特征。我們將Spatial Transformer輸出的空間相關(guān)性特征和Temporal Transformer時(shí)序特征進(jìn)行逐元素相加(element-wise adding)得到最后的特征,最后經(jīng)過(guò)一個(gè)簡(jiǎn)單的回歸網(wǎng)絡(luò)得到最后的輸出。
          目標(biāo)函數(shù)
          用來(lái)引導(dǎo)模型訓(xùn)練的目標(biāo)函數(shù)主要包含兩個(gè)部分,一部分是重建目標(biāo)函數(shù),一部分是對(duì)抗目標(biāo)函數(shù)。

          圖片


          對(duì)抗目標(biāo)函數(shù)的主要目的是引導(dǎo)模型輸出具有“真實(shí)感”的手臂和手部動(dòng)作。
          重建目標(biāo)函數(shù)是負(fù)責(zé)去學(xué)習(xí)骨骼旋轉(zhuǎn)量的,主要由三個(gè)部分組成,L1 loss,F(xiàn)K loss和幀間平滑loss,

          圖片


          重建損失的基本目標(biāo)是L1 loss。

          圖片


          考慮到在以骨骼樹(shù)的形式表示一個(gè)姿態(tài)的旋轉(zhuǎn)量的時(shí)候,不同關(guān)節(jié)的重要程度是不一樣的(父節(jié)點(diǎn)的旋轉(zhuǎn)量會(huì)直接影響到子節(jié)點(diǎn)的位置,故同樣的旋轉(zhuǎn)誤差作用于父子節(jié)點(diǎn)時(shí),父節(jié)點(diǎn)帶來(lái)的整體誤差更大),論文引入了FK loss,即對(duì)輸出旋轉(zhuǎn)量通過(guò)FK函數(shù)計(jì)算得到關(guān)節(jié)點(diǎn)位置,用它與ground truth關(guān)節(jié)點(diǎn)位置計(jì)算loss。 

          圖片


          考慮到幀間連續(xù)性,論文還引入了幀間平滑loss。 

          圖片

          實(shí)驗(yàn)結(jié)果
          由于缺少包含手部數(shù)據(jù)的開(kāi)源動(dòng)作捕捉數(shù)據(jù)集,研究者收集了一套包含身體關(guān)節(jié)和手部動(dòng)作的動(dòng)作捕捉數(shù)據(jù),數(shù)據(jù)包含500段動(dòng)作,總計(jì)約20萬(wàn)幀。該動(dòng)捕數(shù)據(jù)主要包含了一些舞蹈和體育動(dòng)作,覆蓋了很多肢體動(dòng)作和手勢(shì)。研究者對(duì)該數(shù)據(jù)進(jìn)行了劃分(90%訓(xùn)練集,10%驗(yàn)證集),在此動(dòng)作捕捉數(shù)據(jù)集上訓(xùn)練模型并進(jìn)行了消融實(shí)驗(yàn)對(duì)比。下圖展示了該數(shù)據(jù)的樣例。

          圖片


          另外,論文還通過(guò)動(dòng)捕數(shù)據(jù)渲染得到了一批包含手部動(dòng)作標(biāo)簽的視頻數(shù)據(jù),用來(lái)和state-of-the-art算法進(jìn)行對(duì)比。下圖展示了渲染數(shù)據(jù)集的樣例。

          圖片


          • 評(píng)價(jià)指標(biāo):論文同時(shí)以MPJPE(Mean Per Joint Position Error)和MPJRE(Mean Per Joint Rotation Error)作為評(píng)價(jià)指標(biāo);

          • Baseline: 模型backbone為普通CNN,目標(biāo)函數(shù)只包含對(duì)抗損失和L1 loss,輸入輸出和論文提出的方案一致,訓(xùn)練涉及的batch size,learning rate等信息均與消融實(shí)驗(yàn)中其他方法一致;

          • AHMT:只考慮Temporal Transformer的方案;

          • h2h和ah2ah:h2h表示輸入手部關(guān)鍵點(diǎn)輸出手部旋轉(zhuǎn)量;ah2ah表示同時(shí)輸入手臂和手臂關(guān)鍵點(diǎn)并同時(shí)輸出手臂和手部旋轉(zhuǎn)量。


          下表展示了消融實(shí)驗(yàn)的結(jié)果。結(jié)果顯示,通過(guò)利用幀間相關(guān)性信息,普通Temporal Transformer表現(xiàn)出顯著優(yōu)于CNN的性能。而通過(guò)引入Spatial Transformer來(lái)利用手臂姿態(tài)和手勢(shì)姿態(tài)之間的全局相關(guān)性以及不同關(guān)節(jié)點(diǎn)之間的局部相關(guān)性之后,實(shí)驗(yàn)誤差繼續(xù)顯著降低(MPJPE降低13%,MPJRE降低16%)。對(duì)于目標(biāo)函數(shù),可以看出單獨(dú)引入FK loss能夠降低實(shí)驗(yàn)誤差,而單獨(dú)引入幀間平滑損失則于誤差降低無(wú)益,這是因?yàn)閹g平滑損失的主要目標(biāo)是提高輸出的幀間連續(xù)性。但值得注意的是,當(dāng)FK loss和幀間平滑損失結(jié)合使用時(shí),實(shí)驗(yàn)誤差比單獨(dú)使用任意一種都更低。綜上所述,實(shí)驗(yàn)驗(yàn)證了論文提出的并行時(shí)空transformer結(jié)構(gòu)以及目標(biāo)函數(shù)的有效性。 

          圖片


          下表是論文方案和state-of-the-art算法(ExPose,F(xiàn)rankMocap)在渲染數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,結(jié)果表明論文方案顯著優(yōu)于之前的state-of-the-art方法。

          圖片


          下圖展示了論文方案和state-of-the-art算法的直觀對(duì)比,第一行是一些包含識(shí)別難度較高的手部動(dòng)作的視頻幀,第二行是FrankMocap的結(jié)果,第三行是ExPose的結(jié)果,最后一行是論文方案的結(jié)果。不難看出論文方案表現(xiàn)出了明顯更佳的準(zhǔn)確性和魯棒性。

          圖片


          網(wǎng)易互娛AI Lab提出了一套高效的手部動(dòng)作捕捉算法,該算法在準(zhǔn)確性和穩(wěn)定性上都顯著優(yōu)于現(xiàn)有的方案。目前該算法已接入其視覺(jué)動(dòng)作捕捉產(chǎn)品iCap中,并持續(xù)幫助多個(gè)游戲工作室進(jìn)行動(dòng)作資源輔助生產(chǎn)。



          *博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



          關(guān)鍵詞: AI

          相關(guān)推薦

          技術(shù)專區(qū)

          關(guān)閉