日本a√视频在线,久久青青亚洲国产,亚洲一区欧美二区,免费g片在线观看网站

        <style id="k3y6c"><u id="k3y6c"></u></style>
        <s id="k3y6c"></s>
        <mark id="k3y6c"></mark>
          
          

          <mark id="k3y6c"></mark>

          "); //-->

          博客專欄

          EEPW首頁(yè) > 博客 > 基于深度學(xué)習(xí)的特征提取和匹配(1)

          基于深度學(xué)習(xí)的特征提取和匹配(1)

          發(fā)布人:計(jì)算機(jī)視覺(jué)工坊 時(shí)間:2021-05-14 來(lái)源:工程師 發(fā)布文章

          作者丨黃浴@知乎

          來(lái)源丨h(huán)ttps://zhuanlan.zhihu.com/p/78053406

          編輯丨計(jì)算機(jī)視覺(jué)life

          計(jì)算機(jī)視覺(jué)需要圖像預(yù)處理,比如特征提取,包括特征點(diǎn),邊緣和輪廓之類。以前做跟蹤和3-D重建,首先就得提取特征。特征點(diǎn)以前成功的就是SIFT/SURF/FAST之類,現(xiàn)在完全可以通過(guò)CNN模型形成的特征圖來(lái)定義。

          特征提取

          ? Discriminative learning of deep convolutional feature point descriptors【1】

          該方法通過(guò)卷積神經(jīng)網(wǎng)絡(luò)(CNN)學(xué)習(xí)鑒別式補(bǔ)丁表示,特別是訓(xùn)練具有成對(duì)(非)相應(yīng)補(bǔ)丁的Siamese網(wǎng)絡(luò)。在訓(xùn)練和測(cè)試期間它使用L2距離,提出了一種128-D描述符,其歐幾里德距離反映了補(bǔ)丁相似性,并且可作任何涉及SIFT的替代。

          如圖所示,用一個(gè)Siamese網(wǎng)絡(luò)來(lái)學(xué)習(xí)這樣的描述符,其中非線性映射由CNN表示,它對(duì)對(duì)應(yīng)或非對(duì)應(yīng)補(bǔ)丁對(duì)優(yōu)化。補(bǔ)丁通過(guò)模型提取描述符然后計(jì)算其L2范數(shù),作為圖像描述符的標(biāo)準(zhǔn)相似性度量。而目標(biāo)是學(xué)習(xí)一個(gè)描述符,在其空間中讓非對(duì)應(yīng)的補(bǔ)丁相隔甚遠(yuǎn),而在對(duì)應(yīng)的補(bǔ)丁緊密相連。

          1.jpg

          考慮每個(gè)圖像塊xi具有索引pi,該索引pi唯一地標(biāo)識(shí)從給定視點(diǎn)大致投影到2D圖像塊的3D點(diǎn),而目標(biāo)函數(shù)定義如下:

          2.png

          其中p1,p2分別是投影到x1,x2的3D點(diǎn)索引。

          這里下表給出的是三層網(wǎng)絡(luò)架構(gòu):64×64輸入在第3層中產(chǎn)生128維輸出。每個(gè)卷積層由四個(gè)子層組成:濾波器層,非線性層,池化層和歸一化層。

          3.jpg

          非線性層,使用雙曲線切線單元(Tanh)池化層使用L2池化,歸一化很重要,這里使用減法歸一化,在第一和二層之后用高斯核減去5×5鄰域的加權(quán)平均值。

          ? Learned Invariant Feature Transform【2】

          LIFT是一種深度網(wǎng)絡(luò)架構(gòu),實(shí)現(xiàn)了完整的特征點(diǎn)檢測(cè)、朝向估計(jì)和特征描述,如圖所示。

          4.jpg

          下圖是以Siamese架構(gòu)為基礎(chǔ)的整個(gè)特征檢測(cè)和描述流水線。為了訓(xùn)練網(wǎng)絡(luò),采用圖中的四分支Siamese結(jié)構(gòu)。每個(gè)分支包含三個(gè)不同CNN,一個(gè)檢測(cè)器、一個(gè)朝向估計(jì)器和一個(gè)描述子。使用四聯(lián)(quadruplets)圖像補(bǔ)丁。每個(gè)包括:圖像塊P1和P2對(duì)應(yīng)于同樣3D點(diǎn)的不同視圖,圖像塊P3包含不同3D點(diǎn)的投影,圖像塊P4不包含任何顯著特征點(diǎn)。在訓(xùn)練期間,每個(gè)四聯(lián)第i個(gè)補(bǔ)丁Pi將通過(guò)第i個(gè)分支。

          5.jpg

          為了實(shí)現(xiàn)端到端可微分,每個(gè)分支的組件連接如下:

          1) 給定輸入圖像塊P,檢測(cè)器提供得分圖S;

          2) 在得分圖S上執(zhí)行soft argmax 并返回單個(gè)潛在特征點(diǎn)位置x。

          3) 用空間變換器層裁剪(Spatial Transformer layer Crop)提取一個(gè)以x為中心的較小的補(bǔ)丁p(如圖5-3), 作為朝向估計(jì)器的輸入。

          4) 朝向估計(jì)器預(yù)測(cè)補(bǔ)丁方向θ。

          5) 根據(jù)該方向第二個(gè)空間變換器層(圖中的Rot)旋轉(zhuǎn)p產(chǎn)生pθ。

          6) pθ送到描述子網(wǎng)絡(luò)計(jì)算特征向量d。

          最后的運(yùn)行結(jié)構(gòu)如圖所示。由于朝向估計(jì)器和描述子只在局部最大值進(jìn)行評(píng)估,將檢測(cè)器解耦并在傳統(tǒng)NMS的尺度空間中運(yùn)行,以獲得其他兩個(gè)組件的建議。

          6.jpg

          最后看LIFT和SIFT結(jié)果比較的例子,如圖所示。

          7.jpg

          征匹配

          MatchNet【3】

          MatchNet由一個(gè)深度卷積網(wǎng)絡(luò)組成,該網(wǎng)絡(luò)從補(bǔ)丁中提取特征,并由三個(gè)全連接層組成網(wǎng)絡(luò)計(jì)算所提取特征之間的相似性。

          如圖是MatchNet訓(xùn)練時(shí)的網(wǎng)絡(luò)架構(gòu)(圖C),聯(lián)合學(xué)習(xí)將補(bǔ)丁映射到特征表示的特征網(wǎng)絡(luò)(圖 A)和將特征對(duì)映射到相似性的測(cè)度網(wǎng)絡(luò)(圖 B)。輸出尺寸由(高×寬×深)給出。PS是卷積和池化層的補(bǔ)丁大小; S是步幅。層類型:C=卷積,MP=最大池化,F(xiàn)C=全連接。因?yàn)樘畛渚矸e層和池化層,故輸出高度和寬度是輸入除以步幅的值。對(duì)FC層,大小B,F(xiàn)選自:B∈{64,128,256,512},F(xiàn)∈{128,256,512,1024}。除FC3外,所有卷積層和FC層用ReLU激活,輸出用Softmax歸一化。

          8.jpg

          下圖是MatchNet預(yù)測(cè)的流水線圖,網(wǎng)絡(luò)拆解為并行的特征網(wǎng)絡(luò)和測(cè)度網(wǎng)絡(luò)。分兩個(gè)階段使用特征網(wǎng)絡(luò)和測(cè)度網(wǎng)絡(luò):首先為所有補(bǔ)丁生成特征編碼,然后將這些特征配對(duì)并推送它們通過(guò)測(cè)度網(wǎng)絡(luò)獲得分?jǐn)?shù)。

          9.jpg


          *博客內(nèi)容為網(wǎng)友個(gè)人發(fā)布,僅代表博主個(gè)人觀點(diǎn),如有侵權(quán)請(qǐng)聯(lián)系工作人員刪除。



          關(guān)鍵詞: 深度學(xué)習(xí)

          相關(guān)推薦

          技術(shù)專區(qū)

          關(guān)閉