付苗苗,杜光星(通信作者)
(1洛陽(yáng)師范學(xué)院信息技術(shù)學(xué)院 河南 洛陽(yáng) 471000)
(2武漢理工大學(xué)計(jì)算機(jī)與人工智能學(xué)院 湖北 武漢 430070)
圖像匹配用于幾何對(duì)齊傳感器在相同或不同時(shí)間從不同視點(diǎn)拍攝的同一場(chǎng)景的多個(gè)圖像,是圖像處理中的一項(xiàng)最重要且最基礎(chǔ)的任務(wù)。圖像匹配不僅廣泛應(yīng)用于圖像分類(lèi)與檢索、圖像拼接以及3D重建等計(jì)算機(jī)視覺(jué)任務(wù)中,還應(yīng)用于人臉識(shí)別和指紋解鎖等實(shí)際工程應(yīng)用中。圖像匹配方法分為基于區(qū)域的方法和基于特征的方法2種類(lèi)型[1]?;趨^(qū)域的圖像匹配方法處理圖像用于檢查參考圖像和感測(cè)圖像之間像素的相似性,而無(wú)需使用優(yōu)化算法檢測(cè)顯著特征。但該方法會(huì)受到強(qiáng)度分布、光照變化和噪聲引起的幾何變形的影響,具有局限性。而基于特征的圖像匹配方法直接使用從兩幅圖像中提取的顯著特征匹配,不受圖像強(qiáng)度值影響,更適合光照變化和復(fù)雜的幾何變形?;谔卣鞯膱D像匹配由于其靈活性、魯棒性和廣闊的應(yīng)用前景而受到國(guó)內(nèi)外科研工作者的廣泛關(guān)注。
由于深度學(xué)習(xí)技術(shù)在深度特征獲取和非線性表達(dá)方面具有強(qiáng)大能力,常被應(yīng)用于圖像信息表示或相似性度量,是當(dāng)前圖像匹配任務(wù)中的熱點(diǎn)話題。與傳統(tǒng)方法相比,基于深度學(xué)習(xí)的圖像局部特征描述已被證明具有更好的匹配性能和更大的潛力。一般基于局部特征描述的圖像匹配方法通常分為如圖1所示的3個(gè)步驟。
圖1 基于局部特征描述的圖像匹配方法流程圖
文章全面客觀的比較與分析當(dāng)前主流傳統(tǒng)經(jīng)驗(yàn)驅(qū)動(dòng)的基于手工設(shè)計(jì)的圖像局部特征描述方法和由數(shù)據(jù)驅(qū)動(dòng)的基于深度學(xué)習(xí)的圖像局部特征描述方法,總結(jié)圖像局部特征描述的現(xiàn)狀,以期為未來(lái)該領(lǐng)域研究者給出一定的參考。
基于梯度的圖像局部特征描述方法因在多種應(yīng)用中均有良好性能表現(xiàn)而受到研究者的廣泛關(guān)注,其中最具有代表性的是Lowe[1]在1999年所發(fā)表,并在2004年得到修正完善的尺度不變特征變換(Scale-invariant feature transform,SIFT)方法。該方法將獲取的支撐區(qū)域劃分成4×4的子區(qū)域,并對(duì)每個(gè)子區(qū)域中的直方圖進(jìn)行統(tǒng)計(jì),然后將這些直方圖串連并進(jìn)行歸一化得到一個(gè)128維的特征描述向量,即為SIFT描述子(如圖2所示),其在視角變化、尺度變化、旋轉(zhuǎn)變化等多種圖像變化的圖像上表現(xiàn)出較強(qiáng)的區(qū)分性。但該描述子在場(chǎng)景較復(fù)雜的圖像上表現(xiàn)的匹配性能不佳。王志衡等[2]受到SIFT描述子鄰域位置劃分思想的啟發(fā)而提出了直線特征描述子MSLD,接著又將其應(yīng)用到曲線特征描述當(dāng)中,從而獲得了曲線特征描述子MSCD。MSLD(如圖3所示)和MSCD描述子分別解決了因直線和曲線長(zhǎng)短不一而造成直線與曲線無(wú)法統(tǒng)一描述的問(wèn)題,但在視角變換圖像上,圖像變形會(huì)使區(qū)域形狀發(fā)生畸變,從而導(dǎo)致描述子匹配能力下降。陳璐璐等[3]通過(guò)采用梯度序映射的方法獲得描述子GOCD,該描述子是基于全局梯度幅值級(jí)來(lái)劃分子區(qū)域和局部梯度序映射的,因此其不但能夠克服因采用固定形狀來(lái)劃分子區(qū)域的相關(guān)算法而產(chǎn)生的邊界誤差缺陷問(wèn)題,還能克服因圖像遮擋而造成的錯(cuò)誤匹配問(wèn)題,但存在匹配速度較慢的缺陷。
圖2 SIFT描述子
圖3 直線特征描述子MSLD
基于圖像亮度的圖像局部特征方法用于比較不同位置采樣的像素的亮度,目前許多方法都是使用像素值的順序而不是原始亮度來(lái)設(shè)計(jì)的,亮度對(duì)旋轉(zhuǎn)和單調(diào)的強(qiáng)度變化是具有不變性的,它還將有序信息編碼到描述符中,同時(shí)可以保持描述子的旋轉(zhuǎn)不變性,而無(wú)需估計(jì)參考方向(如SIFT),這是大多數(shù)現(xiàn)有方法的主要誤差源。智珊珊等[4]受到根據(jù)亮度序映射來(lái)對(duì)子區(qū)域進(jìn)行劃分的思想啟發(fā)而提出了局部特征描述子IOCD,該方法在旋轉(zhuǎn)變化、視角變化、光照變化、噪聲變化等多種圖像變化上表現(xiàn)出較強(qiáng)的區(qū)分性和良好的匹配性能。但若圖像上存在遮擋或陰影情況時(shí),根據(jù)亮度序映射來(lái)劃分子區(qū)域時(shí)會(huì)出現(xiàn)子區(qū)域錯(cuò)誤劃分的狀況,從而導(dǎo)致不正確的匹配。王志衡等[5]在MSCD的基礎(chǔ)上,通過(guò)將亮度序劃分子區(qū)域的方法引入而提出了描述子IOMSD,該算法是根據(jù)全局梯度幅值序列和亮度序映射構(gòu)建的,該算法原理簡(jiǎn)單、穩(wěn)定,但在弱紋理圖像上并不適用。江燕等[6]在已有的IOMSD和IOCD基礎(chǔ)上,通過(guò)將重疊亮度序劃分的思想引入而提出曲線特征描述子OIOMSD和OIOCD,兩個(gè)算法在一般的變換圖像上表現(xiàn)出較強(qiáng)的區(qū)分性和良好的匹配性能,特別是OIOCD在非線性光照變化圖像上表現(xiàn)出更好的區(qū)分性和魯棒性,但對(duì)尺度變化并不適用。
近年來(lái),隨著大量實(shí)時(shí)系統(tǒng)和嵌入式設(shè)備的廣泛應(yīng)用,對(duì)空間占用小和匹配速度高的描述子的需求越來(lái)越高,因此該領(lǐng)域相關(guān)的研究人員也提出了許多存儲(chǔ)空間占用更少與匹配速度更快的二值描述子。LBP需要根據(jù)給定圖像塊的LBP特征,在像素距離r處將像素的灰度亮度與相鄰像素k的灰度亮度進(jìn)行比較,可以從比較中獲得表示感興趣點(diǎn)處灰度亮度與其每個(gè)相鄰點(diǎn)灰度亮度之間關(guān)系的二元向量,該方法具有在旋轉(zhuǎn)變化和灰度上具有較強(qiáng)的區(qū)分性等優(yōu)點(diǎn),但其不僅會(huì)在運(yùn)算時(shí)產(chǎn)生較長(zhǎng)的直方圖,而且在平面圖像區(qū)域中魯棒性不明顯。Huang等[7]提出了BGP,在局部區(qū)域提取結(jié)構(gòu)梯度模式作為二值描述子,BGP及其增強(qiáng)的BGPM對(duì)各種變化具有魯棒性。Liu等[8]提出了BDVRP,該算法是通過(guò)聯(lián)合引入的局部梯度特征信息和灰度特征信息來(lái)對(duì)關(guān)鍵點(diǎn)周?chē)奶卣餍畔⑦M(jìn)行描述表達(dá)。以上幾種描述子都是基于局部二值模式統(tǒng)計(jì)信息進(jìn)行確定的。
二值描述子的另一種形式是基于局部特征信息的比較,其核心是比較選擇規(guī)則。Calonder等[9]提出了BRIEF,該算法是通過(guò)圖像拼接中幾個(gè)隨機(jī)點(diǎn)對(duì)強(qiáng)度的二進(jìn)制測(cè)試結(jié)果串聯(lián)而成。Gao等[10]提出了LTD,與BRIEF相比,LTD引入了一個(gè)閾值,將兩個(gè)像素的差異描述為三個(gè)值,與BRIEF相比,其可分辨性更高,同時(shí)對(duì)圖像變形更具有魯棒性。這些二值型描述子占有更少的存儲(chǔ)空間且擁有更快的匹配速度,極大地促進(jìn)了相關(guān)應(yīng)用的發(fā)展。
隨著深度學(xué)習(xí)在圖像識(shí)別任務(wù)中的不斷成功,近年來(lái),利用深度學(xué)習(xí)進(jìn)行圖像局部特征描述和匹配的嘗試也顯示了巨大的機(jī)遇?;谏疃葘W(xué)習(xí)的圖像局部特征描述方法其實(shí)可以當(dāng)做是對(duì)基于學(xué)習(xí)方法的擴(kuò)充。Tian等[11]提出了基于不帶度量學(xué)習(xí)層的全卷積結(jié)構(gòu)的CNN模型L2-Net(如圖4所示),并在訓(xùn)練過(guò)程中比較了所有正樣本和負(fù)樣本之間的距離,這大大超過(guò)了以前的方法的性能,進(jìn)而表明L2-Net可以作為現(xiàn)有手工描述子的直接替代。Mishchuk等[12]提出了HardNet,在訓(xùn)練時(shí)只考慮一批訓(xùn)練數(shù)據(jù)中正樣本與最難分辨的負(fù)樣本之間的距離,進(jìn)一步提高了網(wǎng)絡(luò)的匹配性能?;粽紡?qiáng)等[13]通過(guò)直接從原圖像塊中進(jìn)行訓(xùn)練學(xué)習(xí)而獲得了直線特征描述子,并在相關(guān)實(shí)驗(yàn)中取得了良好的性能,但由于構(gòu)造的訓(xùn)練樣本缺乏多樣性,該方法對(duì)遮擋和低紋理變化較為敏感。
圖4 L2-Net網(wǎng)絡(luò)架構(gòu)圖
圖像局部特征描述作為圖像匹配技術(shù)當(dāng)中的核心算法已被廣泛應(yīng)用于3D重建、智慧安防、視頻導(dǎo)航、指紋解鎖、零件自動(dòng)檢測(cè)和質(zhì)量檢測(cè)等視覺(jué)和實(shí)際工程領(lǐng)域當(dāng)中。局部圖像特征描述方法是把局部區(qū)域描述成一個(gè)具有唯一性的特征描述子。一個(gè)魯棒的描述子應(yīng)該對(duì)于匹配塊不會(huì)因?yàn)橐暯?、光照、旋轉(zhuǎn)、模糊和噪音等的變化而變化,同時(shí)對(duì)于非匹配塊要保持不同圖像塊之間的區(qū)分性。
在過(guò)去的幾十年里,相關(guān)研究人員在這一領(lǐng)域也取得了重大進(jìn)展。因此本文對(duì)現(xiàn)有的圖像局部特征描述方法(從手工設(shè)計(jì)到可訓(xùn)練的)進(jìn)行了全面的回顧,以便為該領(lǐng)域的研究人員提供更好的參考和理解,本文做了以下總結(jié):
(1)在實(shí)際的應(yīng)用過(guò)程中,常常遇到復(fù)雜且多樣的圖像變換情況,而傳統(tǒng)經(jīng)驗(yàn)驅(qū)動(dòng)的基于手工設(shè)計(jì)的圖像局部特征描述方法在面對(duì)復(fù)雜環(huán)境時(shí),已經(jīng)無(wú)法取得令人滿意的結(jié)果,并且基于手工設(shè)計(jì)的方法幾乎接近瓶頸。
(2)近年來(lái),深度學(xué)習(xí)在諸多視覺(jué)任務(wù)中也成功地展現(xiàn)出了其具有強(qiáng)大的函數(shù)擬合能力。而局部圖像特征描述算法的本質(zhì)任務(wù)也是設(shè)計(jì)一個(gè)復(fù)雜的函數(shù)映射使得相同物理的局部圖像輸出距離相近的特征向量,同時(shí)保證不同物理的局部圖像輸出距離較大的特征向量。因此,為了能夠充分利用深度學(xué)習(xí)的強(qiáng)大學(xué)習(xí)能力,基于深度學(xué)習(xí)設(shè)計(jì)局部圖像特征描述算法以獲得更加強(qiáng)區(qū)分性的特征描述子也是研究發(fā)展的必然趨勢(shì)。
(3)但是數(shù)據(jù)驅(qū)動(dòng)的基于深度學(xué)習(xí)的圖像局部特征描述方法也有一些不足之處。該類(lèi)方法的缺陷表現(xiàn)為:訓(xùn)練樣本缺乏多樣性且泛化的問(wèn)題,如今不能獲得具有普遍且通用的數(shù)據(jù)集,因此導(dǎo)致在面對(duì)訓(xùn)練數(shù)據(jù)集中未出現(xiàn)的場(chǎng)景圖像時(shí)具有較強(qiáng)的敏感性。這其實(shí)是圖像局部特征描述方法的最大且重要的問(wèn)題之一。與此同時(shí),由于加入深度學(xué)習(xí)而加大了計(jì)算量,一部分方法需要加入大量的運(yùn)行內(nèi)存、性能較好的CPU以及顯存較高的GPU,然而這對(duì)低功耗與實(shí)時(shí)性要求較為嚴(yán)格的領(lǐng)域便顯得更加明顯。
(4)近年來(lái),隨著深度遷移學(xué)習(xí)、圖神經(jīng)網(wǎng)絡(luò)以及多任務(wù)學(xué)習(xí)的不斷深入發(fā)展,不僅可以看到解決訓(xùn)練樣本不足且多樣性問(wèn)題的曙光,還可看到局部特征描述與圖像匹配使用一個(gè)框架來(lái)解決的曙光。