日本a√视频在线,久久青青亚洲国产,亚洲一区欧美二区,免费g片在线观看网站

        <style id="k3y6c"><u id="k3y6c"></u></style>
        <s id="k3y6c"></s>
        <mark id="k3y6c"></mark>
          
          

          <mark id="k3y6c"></mark>

          "); //-->

          博客專(zhuān)欄

          EEPW首頁(yè) > 博客 > 谷歌多模態(tài)預(yù)訓(xùn)練框架:視頻字幕、動(dòng)作分類(lèi)、問(wèn)答全部實(shí)現(xiàn)SOTA

          谷歌多模態(tài)預(yù)訓(xùn)練框架:視頻字幕、動(dòng)作分類(lèi)、問(wèn)答全部實(shí)現(xiàn)SOTA

          發(fā)布人:機(jī)器之心 時(shí)間:2022-06-16 來(lái)源:工程師 發(fā)布文章

          一個(gè)模型在五項(xiàng)基準(zhǔn)上都實(shí)現(xiàn)了重大進(jìn)步,該研究已被 CVPR 2022 大會(huì)收錄。


          多模態(tài)視頻字幕系統(tǒng)利用視頻幀和語(yǔ)音來(lái)生成視頻的自然語(yǔ)言描述(字幕)。這樣的系統(tǒng)是朝著構(gòu)建多模態(tài)對(duì)話系統(tǒng)的長(zhǎng)期目標(biāo)前進(jìn)的一步,后者可以輕松地與用戶(hù)交流,同時(shí)通過(guò)多模態(tài)輸入流感知環(huán)境。
          與關(guān)鍵挑戰(zhàn)在于處理和理解多模態(tài)輸入視頻的視頻理解任務(wù)不同,多模態(tài)視頻字幕的任務(wù)包括生成實(shí)用化字幕的額外挑戰(zhàn)。這項(xiàng)任務(wù)被采用最廣泛的方法是使用手動(dòng)注釋數(shù)據(jù)聯(lián)合訓(xùn)練編碼器 - ****網(wǎng)絡(luò)。
          然而,由于缺乏大規(guī)模的人工標(biāo)注數(shù)據(jù),為視頻注釋可用字幕的任務(wù)是非常耗費(fèi)人力的,在許多情況下不切實(shí)際。VideoBERT 和 CoMVT 等先前的研究通過(guò)利用自動(dòng)語(yǔ)音識(shí)別(ASR)對(duì)未標(biāo)記視頻的模型進(jìn)行預(yù)訓(xùn)練。然而,此類(lèi)模型通常無(wú)法生成自然語(yǔ)言句子,因?yàn)樗鼈內(nèi)鄙?***,因此只有視頻編碼器被轉(zhuǎn)移到下游任務(wù)。
          在 CVPR 2022 大會(huì)上發(fā)表的論文《End-to-end Generative Pretraining for Multimodal Video Captioning》上,谷歌研究人員為多模態(tài)視頻字幕引入了一種全新的預(yù)訓(xùn)練框架,被稱(chēng)為多模態(tài)視頻生成預(yù)訓(xùn)練或 MV-GPT,它從未標(biāo)記的視頻中聯(lián)合訓(xùn)練多模態(tài)視頻編碼器和句子****,以輸出未來(lái)語(yǔ)句文本,制定新的雙向生成任務(wù)作為目標(biāo)。

          圖片


          論文鏈接:https://arxiv.org/pdf/2201.08264.pdf
          實(shí)驗(yàn)證明 MV-GPT 的能力可以有效地轉(zhuǎn)移到多模態(tài)視頻字幕上,在各種基準(zhǔn)測(cè)試中取得了 SOTA 結(jié)果。此外,多模態(tài)視頻編碼器在多種視頻理解任務(wù)方面具有競(jìng)爭(zhēng)力,例如 VideoQA、文本視頻檢索和動(dòng)作識(shí)別。
          未來(lái)語(yǔ)句作為附加文本信號(hào)
          通常,用于多模態(tài)視頻字幕的每個(gè)訓(xùn)練視頻剪輯都要與兩個(gè)不同的文本相關(guān)聯(lián):其一作為多模態(tài)輸入流的一部分,與剪輯對(duì)齊的語(yǔ)音轉(zhuǎn)錄本;其二是目標(biāo)字幕,通常需要手動(dòng)注釋。編碼器需要學(xué)習(xí)將文本中的信息與視覺(jué)內(nèi)容融合,目標(biāo)標(biāo)簽用于訓(xùn)練****進(jìn)行生成。
          但在未標(biāo)記視頻的情況下,每個(gè)視頻剪輯僅帶有來(lái)自 ASR 的腳本,沒(méi)有手動(dòng)注釋的目標(biāo)標(biāo)簽。此外,我們不能對(duì)編碼器輸入和****目標(biāo)使用相同的文本(ASR 轉(zhuǎn)錄本),因?yàn)檫@對(duì)生成目標(biāo)沒(méi)有多少意義。
          MV-GPT 通過(guò)利用未來(lái)的話語(yǔ)作為附加文本信號(hào)并啟用編碼器和****的聯(lián)合預(yù)訓(xùn)練來(lái)規(guī)避這一挑戰(zhàn)。但是,訓(xùn)練模型以生成通常不以輸入內(nèi)容為基礎(chǔ)的未來(lái)話語(yǔ)效果并不理想。因此,谷歌應(yīng)用了一種新的雙向生成損失函數(shù)來(lái)加強(qiáng)與輸入的關(guān)聯(lián)。
          雙向生成損失
          我們可以通過(guò)制定包括前向和后向生成的雙向生成損失來(lái)緩解非基礎(chǔ)文本生成的問(wèn)題。前向生成在給定視覺(jué)框架及其相應(yīng)的轉(zhuǎn)錄本的情況下生成未來(lái)語(yǔ)句,并允許模型學(xué)習(xí)將視覺(jué)內(nèi)容與其相應(yīng)的轉(zhuǎn)錄本融合。反向生成采用視覺(jué)幀和未來(lái)語(yǔ)句來(lái)訓(xùn)練模型,以生成包含更多視頻剪輯基礎(chǔ)文本的腳本。
          MV-GPT 中的雙向生成損失允許對(duì)編碼器和****進(jìn)行訓(xùn)練以處理基于視覺(jué)的文本。

          圖片

          MV-GPT 中的雙向生成,已訓(xùn)練兩代損失。在前向生成中,模型在給定幀和當(dāng)前話語(yǔ)(紅色框)的情況下生成未來(lái)話語(yǔ)(藍(lán)色框),而現(xiàn)在是從后向生成中的未來(lái)話語(yǔ)生成的。兩個(gè)特殊的句首標(biāo)記([BOS-F] 和 [BOS-B])為****啟動(dòng)前向和后向生成。
          多模態(tài)視頻字幕生成結(jié)果
          研究人員將 MV-GPT 與使用相同模型架構(gòu)的現(xiàn)有預(yù)訓(xùn)練損失進(jìn)行比較,在 YouCook2 上使用標(biāo)準(zhǔn)評(píng)估指標(biāo)(Bleu-4、Cider、Meteor 和 Rouge-L)。雖然所有預(yù)訓(xùn)練技術(shù)都可以提高字幕性能,但聯(lián)合預(yù)訓(xùn)練****提高模型性能的效果最為明顯。
          實(shí)驗(yàn)證明了 MV-GPT 比之前最先進(jìn)的聯(lián)合預(yù)訓(xùn)練方法高出 3.5% 以上,并且在所有四個(gè)指標(biāo)上都有相對(duì)增益。

          圖片

          MV-GPT 在 YouCook2 上不同預(yù)訓(xùn)練損失的四個(gè)指標(biāo)(Bleu-4、Cider、Meteor 和 Rouge-L)?!割A(yù)訓(xùn)練部分」表示模型的哪些部分是預(yù)訓(xùn)練的 —— 僅編碼器或編碼器和****。作者重新實(shí)現(xiàn)了現(xiàn)有方法的損失函數(shù),但使用新模型和訓(xùn)練策略進(jìn)行公平比較。
          研究人員將 MV-GPT 預(yù)訓(xùn)練的模型轉(zhuǎn)移到四個(gè)不同的字幕基準(zhǔn):YouCook2、MSR-VTT、ViTT 和 ActivityNet-Captions 上。
          谷歌的模型在所有四個(gè)基準(zhǔn)測(cè)試中都以顯著優(yōu)勢(shì)實(shí)現(xiàn)了最先進(jìn)性能。例如在 Meteor 指標(biāo)上,MV-GPT 在所有四個(gè)基準(zhǔn)測(cè)試中都顯示出超過(guò) 12% 的相對(duì)改進(jìn)。

          圖片

          業(yè)內(nèi)最佳方法和 MV-GPT 在四個(gè)基準(zhǔn)上的度量分?jǐn)?shù)。
          盡管 MV-GPT 是旨在訓(xùn)練多模態(tài)視頻字幕的生成模型,但研究發(fā)現(xiàn)新預(yù)訓(xùn)練技術(shù)學(xué)習(xí)了一個(gè)強(qiáng)大的多模態(tài)視頻編碼器,可應(yīng)用于多種視頻理解任務(wù),包括 VideoQA、文本視頻檢索和動(dòng)作分類(lèi)等任務(wù)。
          與最佳可比基線模型相比,從 MV-GPT 遷移的模型在五個(gè)視頻理解基準(zhǔn)的主要指標(biāo)上表現(xiàn)出卓越的性能 —— 如在 VideoQA 和動(dòng)作分類(lèi)基準(zhǔn)的 top 1 準(zhǔn)確度,以及檢索基準(zhǔn)的召回率上。

          圖片

          在五個(gè)視頻理解基準(zhǔn)上將 MV-GPT 與最佳可比基線模型進(jìn)行比較。對(duì)于每個(gè)數(shù)據(jù)集,此處報(bào)告了廣泛使用的主要指標(biāo),即 MSRVTT-QA 和 ActivityNet-QA:Top-1 回答準(zhǔn)確率;MSR-VTT:Recall at 1;和 Kinetics:Top-1 分類(lèi)準(zhǔn)確度。
          總結(jié)
          本文介紹了 MV-GPT,一種用于多模態(tài)視頻字幕的新生成預(yù)訓(xùn)練框架。它通過(guò)雙向生成目標(biāo),使用在未標(biāo)記視頻中不同時(shí)間采樣的話語(yǔ)聯(lián)合預(yù)訓(xùn)練多模態(tài)編碼器和字幕****。該預(yù)訓(xùn)練模型在多個(gè)視頻字幕基準(zhǔn)和其他視頻理解任務(wù)(如 VideoQA、視頻檢索和動(dòng)作分類(lèi))上取得了最先進(jìn)的結(jié)果。
          原文鏈接:https://ai.googleblog.com/2022/06/end-to-end-generative-pre-training-for.html


          *博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



          關(guān)鍵詞: AI

          相關(guān)推薦

          技術(shù)專(zhuān)區(qū)

          關(guān)閉