黃妍妍, 蓋紹彥,*, 達(dá)飛鵬
(1. 東南大學(xué)自動(dòng)化學(xué)院, 江蘇 南京 210096;2. 東南大學(xué)復(fù)雜工程系統(tǒng)測量與控制教育部重點(diǎn)實(shí)驗(yàn)室, 江蘇 南京 210096)
圖像匹配是數(shù)字圖像處理領(lǐng)域的重要研究方向之一,是圖像拼接、三維重建、無人機(jī)航拍等技術(shù)的基礎(chǔ)。圖像匹配是指在兩張或兩張以上圖片中使用某些特定的算法對相同或相似物體在空間上進(jìn)行對準(zhǔn),或用已知模式到待匹配的圖像上尋找相應(yīng)模式的過程[1]。圖像匹配的實(shí)際上就是對圖像的特征進(jìn)行處理,其主要包含圖像特征提取、圖像特征描述、圖像特征匹配這3個(gè)步驟。
對于傳統(tǒng)的圖像特征提取與描述算法,根據(jù)特征點(diǎn)的類型不同,可以分為基于斑點(diǎn)的特征提取與描述算法和基于角點(diǎn)的特征提取與描述算法[2]。基于斑點(diǎn)的特征提取與描述的算法中,最具有代表性的算法是Lowe提出的尺度不變特征變換(scale-invariant feature transform, SIFT)算法[3],該算法在構(gòu)建尺度空間時(shí)候采取高斯核函數(shù)進(jìn)行濾波,使原始圖像保存最多的細(xì)節(jié)特征,經(jīng)過高斯濾波后細(xì)節(jié)特征逐漸減少來模擬大尺度情況下的特征表示,算法在應(yīng)對多種情況下的數(shù)據(jù)時(shí)比較穩(wěn)定,但是運(yùn)行時(shí)間比較長,針對SIFT的這個(gè)缺點(diǎn),Bay等人提出了基于SIFT算法的改進(jìn)算法加速穩(wěn)健特征(speeded up robust feature, SURF)算法[4],SURF算法通過Hessian矩陣檢測特征點(diǎn),在犧牲了一定的旋轉(zhuǎn)、尺度不變性等性能的條件下,將算法的速度提升到了原SIFT算法的3倍。Mikolajczyk等人在SIFT中引入主成分分析(principal components analysis, PCA)技術(shù)和梯度位置方向直方圖(gradient location and orientation histogram, GLOH)算法[5],算法增強(qiáng)了特征描述子的獨(dú)立性和描述性。基于角點(diǎn)的方法有Rosten等人提出了加速分段測試特征(features from accelerated segment test, FAST)算法[6-7],該算法根據(jù)中心點(diǎn)與其鄰域點(diǎn)的像素差來確定是否將該中心點(diǎn)作為圖像的特征點(diǎn)。Rublee等人結(jié)合FAST算法和使用二進(jìn)制進(jìn)行描述子編碼的二進(jìn)制魯棒特征(binary robust independent elementary features, BRIEF)算法[8],提出了定向FAST和旋轉(zhuǎn)BRIEF(orienfed FAST and rofated BRIEF, ORB)算法[9],一定程度上解決了FAST不具有尺度不變性和BRIEF不具有旋轉(zhuǎn)不變性的問題。陳世偉等人基于風(fēng)格遷移不變特征合成人工光學(xué)圖像從而進(jìn)行特征提取[10]。劉自金等人基于信息熵的思路將原圖像劃分為高熵域和低熵域,直接在高熵域上提取特征點(diǎn),從而極大地提高了特征點(diǎn)提取的效率[11]。
隨著計(jì)算機(jī)硬件性能的提高和深度學(xué)習(xí)的發(fā)展,基于卷積神經(jīng)網(wǎng)絡(luò)的特征提取、描述的方法也相繼被提出。Tian等人提出了L2-Net網(wǎng)絡(luò)[12],該網(wǎng)絡(luò)通過深度學(xué)習(xí)的方法獲取到了圖像塊的特征描述子,并采用遞進(jìn)采樣策略使網(wǎng)絡(luò)可以經(jīng)過較少的訓(xùn)練輪次訪問到較多的數(shù)據(jù),使用了3個(gè)損失函數(shù),減少匹配圖像對的距離同時(shí)增大不匹配圖像對的距離以此加大特征的緊湊程度。Mishchuk等人在L2-Net的基礎(chǔ)上,提出了HardNet網(wǎng)絡(luò)[13],在設(shè)計(jì)新的損失函數(shù)時(shí),使用三元組匹配策略,最大化不匹配樣本之間的距離,得到了比L2-Net更好的結(jié)果。Miles等人在HardNet網(wǎng)絡(luò)的基礎(chǔ)上,提出深度卷積逐點(diǎn)層(convolution depthwise pointwise, CDP)[14],在保證一定的匹配精度的同時(shí),通過有效地張量分解來減少網(wǎng)絡(luò)的參數(shù),從而減少計(jì)算量,提高性能。Garg等人結(jié)合了二維主成分分析和遺傳算法對特征描述子進(jìn)行降維,并使用卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)進(jìn)行對虹膜的分類識別,取得了96.49%的高分類準(zhǔn)確率[15]。許多算法是針對不同任務(wù)類型的圖像而被提出,如Liu等人針對合成孔徑雷達(dá)(synthetic aperture radar, SAR)圖像和光學(xué)圖像匹配對輻射失真敏感的問題,提出了一種基于相位同余的圖像頻域小波分解的非均勻圖像匹配算法[16],該算法比SIFT方法具有更好的匹配效果,是一種有效的異構(gòu)圖像匹配算。Shahid等人使用航拍圖構(gòu)建跨平臺圖像數(shù)據(jù)集,并使用該數(shù)據(jù)集訓(xùn)練兩階段輕量級卷積神經(jīng)網(wǎng)絡(luò),接著利用光譜、時(shí)間和流特征以及聚類分析來微調(diào)整個(gè)圖像匹配算法,在跨平臺圖像匹配場景下取得較好的效果[17]。Yu等人針對高光照,低分辨率的無人機(jī)圖像和衛(wèi)星遙感圖像提出了一種基于圖像邊緣特征的二次匹配方法[18],該算法與傳統(tǒng)的SURF相比,具有具有更快的匹配速度和更好的匹配精度。
傳統(tǒng)的特征處理方法具有通用性強(qiáng),對硬件、數(shù)據(jù)的需求較低等優(yōu)點(diǎn),而深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的大區(qū)域特征描述能力、鑒別能力更強(qiáng),兩者結(jié)合的方法也是一個(gè)研究熱點(diǎn)。Liu等人首先使用SIFT特征來簡單地檢測圖像的重復(fù)區(qū)域,再將匹配的區(qū)域輸入CNN計(jì)算相似度從而判斷圖像是否匹配[19]。Zhou等人先使用SIFT提取底層特征進(jìn)行初步匹配,將匹配部分的圖像塊取出,輸入CNN得到深層特征來度量特征的相似性以此進(jìn)行二次匹配[20]。
當(dāng)待測圖像與模板圖像具有較大的旋轉(zhuǎn)、縮放、平移等空間變換差距時(shí),深度學(xué)習(xí)的傳統(tǒng)做法是增加具有這些空間變換的樣本來提高整個(gè)網(wǎng)絡(luò)的泛化能力和魯棒性,這會導(dǎo)致網(wǎng)絡(luò)學(xué)習(xí)而來的參數(shù)量變多,在實(shí)際應(yīng)用的場景下測試時(shí)間增加,導(dǎo)致算法實(shí)時(shí)性方面的性能下降。
本文提出了一種對大幅度空間變換待測圖像具有較強(qiáng)魯棒性和匹配速度較快的傳統(tǒng)手工特征點(diǎn)提取和卷積神經(jīng)網(wǎng)絡(luò)特征描述相結(jié)合的圖像特征匹配算法,首先使用ORB算法對待測圖像進(jìn)行特征點(diǎn)的提取,并以特征點(diǎn)為中心,截取一定尺寸的圖像塊輸入后續(xù)神經(jīng)網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)部分以HardNet為基礎(chǔ),在淺層部分加入通道注意力分支和空間變換注意力分支,這兩個(gè)分支與原輸入合并最后輸入簡化的HardNet網(wǎng)絡(luò)得出每個(gè)圖像塊的特征描述,最后,使用K最近臨(K-neanest neighbor,KNN)算法將待測圖像的特征描述與模板的特征描述進(jìn)行匹配。由于特征描述部分加入了側(cè)重學(xué)習(xí)空間變換參數(shù)的注意力模塊,但是該模塊網(wǎng)絡(luò)層較淺屬于輕量級網(wǎng)絡(luò)模塊,插入模塊前后并沒有使整個(gè)算法參數(shù)量劇增,反而使得匹配的準(zhǔn)確率有所提升,匹配時(shí)間卻沒有因此變慢。
對于具有較大空間變換的圖像特征匹配問題,比如以圖1的圖像匹配任務(wù)為例,圖1(a)為待測圖像,該圖像帶有一定的旋轉(zhuǎn)和尺度變換,圖1(b)為模板圖像,該圖像特征匹配任務(wù)需要對兩張圖提取特征并描述,基于特征描述子進(jìn)行匹配,最后根據(jù)匹配相似度來度量整個(gè)算法的性能。
圖1 帶有一定旋轉(zhuǎn)變換和尺度變換的圖像匹配任務(wù)
整個(gè)算法的流程圖如圖2所示,輸入圖像先是經(jīng)過ORB算法檢測特征點(diǎn),以特征點(diǎn)為中心在原圖像上劃分出一些尺寸為64×64的圖像塊,將每一個(gè)圖像塊降維到32×32尺寸并輸入到帶有空間變換注意力模塊的簡化版HardNet網(wǎng)絡(luò)得到每個(gè)圖像塊的128維特征描述子,最后將模板圖像和待測圖像的特征描述子通過KNN算法度量相似度從而得出待測圖像與模板圖像的差距。
圖2 匹配算法流程圖
整個(gè)圖像匹配算法的流程一般是先使用一些算法檢測出圖像的特征點(diǎn)并根據(jù)特征點(diǎn)劃分出圖像塊,并將這些圖像塊輸入到特征描述網(wǎng)絡(luò)得到特征描述子,最后對比模板圖像的特征描述子得到匹配結(jié)果。其中特征描述網(wǎng)絡(luò)是算法中極為重要的一步,HardNet是主流的提取特征描述子的網(wǎng)絡(luò),網(wǎng)絡(luò)使用UBC Phototour數(shù)據(jù)集[21]進(jìn)行訓(xùn)練,包括Liberty、NotreDame和Yosemite這3個(gè)子集,使用三維點(diǎn)重建的方式來獲取圖像塊的匹配關(guān)系并制作正負(fù)樣本集,通常是兩個(gè)數(shù)據(jù)集用于訓(xùn)練,剩下的一個(gè)用于測試,其架構(gòu)與L2-Net相同,但HardNet在L2-Net算是函數(shù)的基礎(chǔ)上提出三元組匹配損失函數(shù),其目的是最大化樣本集中最近正樣本和最近負(fù)樣本的L2距離,即減小匹配描述子之間的距離的同時(shí)增大不匹配描述子之間的距離。
為了避免網(wǎng)絡(luò)退化和過擬合問題,本文對原來的HardNet網(wǎng)絡(luò)進(jìn)行簡化,如圖3所示,減少中間的3層卷積層,在簡化網(wǎng)絡(luò)深度的情況下,極大地保留網(wǎng)絡(luò)學(xué)習(xí)核心語義的能力。對于有較大空間變換的圖像(旋轉(zhuǎn)、平移、尺度變換等),卷積神經(jīng)網(wǎng)絡(luò)也有一定的學(xué)習(xí)能力,如果要增強(qiáng)這樣的空間不變性,需要增加相應(yīng)的圖像數(shù)據(jù),但是在實(shí)際應(yīng)用時(shí),相關(guān)數(shù)據(jù)不易準(zhǔn)備,且數(shù)據(jù)量增多時(shí),網(wǎng)絡(luò)規(guī)模增大,運(yùn)行速度有可能減慢,也為實(shí)際部署增加困難。因此,本文在該特征描述子網(wǎng)絡(luò)前部加入空間變換不變性注意力模塊,該模塊包括通道注意力和空間注意力兩個(gè)分支。圖3中BN和ReLU分別為激活函數(shù)和組歸一化操作,Conv為卷積操作。
圖3 簡化HardNet網(wǎng)絡(luò)架構(gòu)
該分支主要是參考傳統(tǒng)的通道注意力模塊和triplet attention[22]的通道注意力部分,由于輸入的圖像為bmp格式的灰度圖,通道上的信息不是很多,因此僅分出一個(gè)分支作為通道信息注意力權(quán)重信息的提取,該分支的框架如圖4所示。輸入的特征首先經(jīng)過一個(gè)Z-Pool層,該層的計(jì)算如下所示:
圖4 通道注意力分支
(1)
Z-Pool的操作使得該層能夠保留實(shí)際張量的豐富表示,同時(shí)縮小其深度以使進(jìn)一步的計(jì)算量更輕,接著輸入卷積層進(jìn)行進(jìn)一步核心語義學(xué)習(xí),最后通過Sigmoid激活函數(shù)將特征映射到[0,1]得到特征圖的權(quán)重值,最后與原輸入點(diǎn)乘生成空間注意力權(quán)重。由于通道信息量并不多,所以不需要深層和復(fù)雜的卷積操作,且Z-Pool的操作只將通道信息的平均值和最大值保留下來,已經(jīng)盡可能地把通道信息保留下來,又減少了參數(shù)量。該分支的計(jì)算如下所示:
(2)
空間注意力分支又分為兩個(gè)支路,分別對應(yīng)圖5中的上半部分和下半部分,這里分別簡稱為上支路和下支路,上支路參考了全局信息學(xué)習(xí)網(wǎng)絡(luò)non-local[23]網(wǎng)絡(luò)的簡化版網(wǎng)絡(luò)GCNet[24],原來的non-local網(wǎng)絡(luò)所針對的每一個(gè)查詢位置,有重要聯(lián)系的區(qū)域基本是同一塊區(qū)域,也就是每個(gè)位置的關(guān)注位置幾乎都是相同的,所以把這些重要區(qū)域的特征加在每個(gè)位置之后,網(wǎng)絡(luò)的準(zhǔn)確率幾乎沒有下降,但是計(jì)算量卻減少了很多。特征圖進(jìn)入上支路之后經(jīng)過一個(gè)卷積層和softmax得到學(xué)習(xí)空間變換后每個(gè)像素點(diǎn)的權(quán)重,最后與沒有學(xué)習(xí)到權(quán)重的特征圖做矩陣點(diǎn)乘,這一部分的操作稱為context modeling,通過該模塊可得到結(jié)合上下文信息重要性的特征圖。接著,參考壓縮和激勵(lì)網(wǎng)絡(luò)(squeeze and excitation network,SENet)[25]的思路并加以簡化,將特征圖輸入卷積層后再輸入BatchNorm和ReLU歸一化和增加網(wǎng)絡(luò)的非線性性,最后再經(jīng)過卷積層。
圖5 空間注意力分支
上分支的計(jì)算操作如下所示:
(3)
而下分支不是簡單地使用原輸入與學(xué)習(xí)了全局信息的特征圖相加,而是使用多個(gè)STN[26]和CNN串聯(lián),STN模塊的整體架構(gòu)如圖6所示,其由定位網(wǎng)絡(luò)、坐標(biāo)變換和像素采樣3部分組成,輸入特征圖經(jīng)過空間變換模塊得到輸出特征圖像素采樣。定位網(wǎng)絡(luò)將輸入的特征圖送到卷積層和全連接層中提取特征,得到空間變換參數(shù)θ;坐標(biāo)變換根據(jù)θ確定一個(gè)空間變換,并創(chuàng)建采樣網(wǎng)絡(luò)以確定輸入圖中哪些點(diǎn)會被用于變換;像素采樣根據(jù)采樣網(wǎng)絡(luò)對輸入特征圖進(jìn)行采樣,從而得到最終的輸出。下分支由STN網(wǎng)絡(luò)串聯(lián)3×3卷積網(wǎng)絡(luò)組合而成,經(jīng)過實(shí)驗(yàn)發(fā)現(xiàn),兩個(gè)這樣的組合方式串聯(lián)起來的網(wǎng)絡(luò)在精度和時(shí)間上是最佳的,先由STN學(xué)習(xí)到空間變換并采樣,之后輸入CNN學(xué)習(xí)深層特征最后再輸出,STN結(jié)合CNN的方法,允許網(wǎng)絡(luò)自動(dòng)地學(xué)習(xí)如何進(jìn)行特征圖的轉(zhuǎn)變,從而有助于降低網(wǎng)絡(luò)訓(xùn)練中整體的代價(jià)。定位網(wǎng)絡(luò)中輸出的值,指明了如何對每個(gè)訓(xùn)練數(shù)據(jù)進(jìn)行轉(zhuǎn)化。
圖6 STN架構(gòu)
整個(gè)空間注意力分支表示如下:
(4)
整個(gè)空間變換不變性注意力模塊如圖7所示,特征圖輸入該模塊后分為兩個(gè)支路,通道注意力支路學(xué)習(xí)通道信息的平均值和最大值,空間注意力支路學(xué)習(xí)圖像空間全局信息的權(quán)重,最后將兩個(gè)支路的輸出相加取平均值。最后模塊輸出計(jì)算方式即將式(2)與式(4)相加,也就是y1與y2相加再取平均值,(對應(yīng)圖7的1/2處操作)如下所示:
圖7 空間變換不變性注意力模塊
(5)
對于改進(jìn)的特征描述子神經(jīng)網(wǎng)絡(luò)的訓(xùn)練和測試,本文選擇使用UBC Phototour數(shù)據(jù)集進(jìn)行訓(xùn)練,使用三維點(diǎn)重建的方式來獲取圖像塊的匹配關(guān)系并制作正負(fù)樣本集,樣本集里的每一個(gè)樣本都是64×64大小的圖像塊,通常是兩個(gè)數(shù)據(jù)集用來訓(xùn)練,剩下的一個(gè)用來測試[27-28]。UBC Phototour數(shù)據(jù)集是圖像匹配和描述研究領(lǐng)域常使用的公共數(shù)據(jù)集,數(shù)據(jù)集的圖像包含特征清楚或模糊、特征選擇或縮放等多種情況,數(shù)據(jù)量豐富,且該數(shù)據(jù)集被HardNet、DBLD等多個(gè)圖像匹配算法所使用,并使用相同的指標(biāo)來評價(jià)算法性能,這有利于本文算法與其他主流匹配算法進(jìn)行對比,使得實(shí)驗(yàn)結(jié)果更客觀。本文會分別測試3個(gè)子數(shù)據(jù)集作為測試集的情況。
對于整個(gè)算法的測試,則使用40張正在生產(chǎn)線上生產(chǎn)的1 563×1 563的電路板圖像,所有圖像都是待測圖像經(jīng)過不同程度的旋轉(zhuǎn)變換、尺度變換的結(jié)果。另外,針對兩種型號的電路板,特別準(zhǔn)備了兩張1 563×1 563的模板圖像。實(shí)驗(yàn)的運(yùn)行環(huán)境如表1所示。
表1 實(shí)驗(yàn)運(yùn)行環(huán)境
2.2.1 誤差比例
由于本文主要是對于特征描述網(wǎng)絡(luò)HardNet進(jìn)行修改,而原本HardNet網(wǎng)絡(luò)的測試數(shù)據(jù)集為UBC Phototour數(shù)據(jù)集,且該數(shù)據(jù)集也是許多特征描述網(wǎng)絡(luò)所使用的數(shù)據(jù)集,故本文也會在該數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)并和多個(gè)特征描述網(wǎng)絡(luò)進(jìn)行對比。UBC Phototour數(shù)據(jù)集的評價(jià)指標(biāo)是UBC Phototour測試集匹配正確率為95%時(shí)的誤差比例(false positive rate at true positive rate equal to 95%, FPR95),即在UBC Phototour的測試集上,95%的匹配關(guān)系都正確的情況下,非匹配關(guān)系錯(cuò)誤的比例。測試集樣本可以組合成三元組集合,三元組設(shè)為(ptest,ptemp,label)。其中,ptest和ptemp分別為待測圖像塊和模板圖像塊,label表示這兩個(gè)圖像塊的匹配關(guān)系且只有0或1兩個(gè)值,1表示匹配,0表示不匹配。FPR95的具體實(shí)現(xiàn)是將求出來的每組圖像塊對之間的距離從小到大排序,選取95%的匹配關(guān)系都包含在內(nèi)的值作為匹配與非匹配的閾值,閾值內(nèi)的數(shù)據(jù)中會有錯(cuò)誤的匹配對(false positive, FP),閾值外會有正確的匹配對(true nagetive, TN),最終的FPR95值越小越好,其計(jì)算如下所示:
(6)
FPR95是基于UBC Phototour數(shù)據(jù)集的性能指標(biāo),而針對實(shí)際應(yīng)用時(shí)所涉及的印制電路板圖像數(shù)據(jù)集,則使用匹配精度、匹配分?jǐn)?shù)和匹配時(shí)間這3個(gè)性能指標(biāo)。
2.2.2 匹配精度
對于整個(gè)圖像匹配算法,可以使用匹配精度反饋算法的可靠性。由特征匹配得到的匹配點(diǎn)對有可能存在著錯(cuò)誤匹配的情況,需要對匹配點(diǎn)對進(jìn)行篩選,剔除誤匹配。精度p的計(jì)算方法如下所示:
(7)
式中:m為正確匹配的點(diǎn)對數(shù);n為所有匹配點(diǎn)對數(shù)。
2.2.3 匹配分?jǐn)?shù)
計(jì)算方法如下所示:
(8)
式中:m表示正確匹配點(diǎn)數(shù);q1和q2分別表示待測圖像和模板圖像所檢測到的特征點(diǎn)數(shù)量,匹配分?jǐn)?shù)就可以表示為正確的匹配點(diǎn)數(shù)量與兩張圖像的特征點(diǎn)數(shù)最小值的比值。匹配分?jǐn)?shù)越大,說明整個(gè)算法的匹配鑒別能力越強(qiáng)。
2.2.4 匹配時(shí)間
匹配時(shí)間指從特征點(diǎn)檢測開始,經(jīng)過特征描述、特征匹配得到圖像匹配結(jié)果的過程所花費(fèi)的時(shí)間。實(shí)際生產(chǎn)現(xiàn)場對算法的實(shí)時(shí)性要求很高,所以匹配時(shí)間也是一個(gè)重要的評價(jià)指標(biāo)。
對于特征描述的網(wǎng)絡(luò)訓(xùn)練所使用的數(shù)據(jù)集是UBC Phototour數(shù)據(jù)集,在訓(xùn)練時(shí),使用數(shù)據(jù)增強(qiáng)的在線增強(qiáng)模式,基于深度學(xué)習(xí)框架對原本的批量數(shù)據(jù)進(jìn)行增強(qiáng),如旋轉(zhuǎn)、平移、翻折等相應(yīng)的變化,有利于提升網(wǎng)絡(luò)的泛化能力并且讓網(wǎng)絡(luò)在訓(xùn)練的過程中預(yù)先學(xué)習(xí)并適應(yīng)這些變化。本文分別使用了3個(gè)子集進(jìn)行訓(xùn)練,同時(shí)使用其他兩個(gè)子集測試,并且將本文提出的網(wǎng)絡(luò)與傳統(tǒng)的ORB匹配算法、現(xiàn)常用的特征描述網(wǎng)絡(luò)進(jìn)行對比,結(jié)果如表2所示。在UBC Phototour數(shù)據(jù)集上以FPR95作為評判標(biāo)準(zhǔn),本文提出的網(wǎng)絡(luò)在大部分情況下比其他網(wǎng)絡(luò)的測試效果要好,其FPR95較低。
表2 電路板數(shù)據(jù)測試結(jié)果
將訓(xùn)練得到的權(quán)重文件在電路圖數(shù)據(jù)集上進(jìn)行測試,選取其中某一型號電路板為例,分別使用了ORB、HardNet和本文提出的算法進(jìn)行可視化測試,效果如圖8所示,自上而下分別為ORB、HardNet、簡化版HardNet、小器官分割網(wǎng)絡(luò)(small organ segmentation network, SOSNet)、多量化深度二進(jìn)制描述符(deep binary descriptor with multi-quantization, DBD-MQ)[29]、緊湊判別二進(jìn)制描述符(compact discriminative binary descriptor,CDBin)[30]、深度二進(jìn)制局部描述符(deep binary local descriptor,DBLD)[31]和本文所提算法在該型號的電路板圖像上的匹配效果,每個(gè)算法的效果由4個(gè)子圖顯示,4個(gè)子圖從上至下從左至右分別是待測圖像相對模板圖像旋轉(zhuǎn)45°、90°、135°以及135°與待測圖像縮小0.7的組合變換,每個(gè)子圖中,左邊為待測圖像,右邊為模板圖像,可以看到本文所提出的算法對比其他算法,匹配點(diǎn)對更多,圖上整齊的線段更密集,特別是旋轉(zhuǎn)135°外加縮小0.7的組合變換,其他算法在解決該組合變換的匹配問題時(shí)都失敗了,出現(xiàn)了較大的匹配失誤,本文算法表現(xiàn)較好。而3種算法在40張測試圖像集上的平均匹配精度、平均匹配分?jǐn)?shù)和平均匹配時(shí)間對比如表2所示,總體上,在時(shí)間較好的情況下,匹配精度、匹配分?jǐn)?shù)和匹配時(shí)間都有提升,尤其時(shí)匹配分?jǐn)?shù),本文提出的算法匹配分?jǐn)?shù)為0.348,與改進(jìn)前的HardNet算法相比提升了0.122,與同為特征描述子算法的SOSNet算法相比提升了0.15,其中模板圖像和待測圖像分別檢測出401和356個(gè)特征點(diǎn),并且在這些特征點(diǎn)中匹配到了124對特征點(diǎn)。在匹配精度上,匹配精度是0.99,與未改進(jìn)前的HardNet算法相比,匹配精度提升了0.06,使用KNN算法對網(wǎng)絡(luò)提出的特征描述子進(jìn)行匹配,并使用隨機(jī)采樣一致性(random sample consensus,RANSAC)算法剔除錯(cuò)誤匹配后,在124對匹配點(diǎn)對中,僅有一對匹配錯(cuò)誤匹配對。在匹配時(shí)間上,本文算法僅次于ORB算法,但是匹配精度和匹配分?jǐn)?shù)效果卻遠(yuǎn)優(yōu)于ORB算法。
圖8 電路板圖像匹配效果
HardNet和SOSNet輸出的特征描述子均為浮點(diǎn)型描述子,其訓(xùn)練的網(wǎng)絡(luò)均為卷積層、池化層和全連接層單純疊加的前向神經(jīng)網(wǎng)絡(luò),這樣的神經(jīng)網(wǎng)絡(luò)雖然對于旋轉(zhuǎn)、尺度等空間變換具有一定的魯棒性,但是這樣的特性是通過數(shù)據(jù)增強(qiáng)獲取的,不是主動(dòng)地進(jìn)行學(xué)習(xí)。而本文算法加入的專注空間變換學(xué)習(xí)的注意力模塊,首先是STN部分對于圖像的空間變換進(jìn)行顯式地學(xué)習(xí),而且整個(gè)注意力模塊偏重于對圖像的核心語義部分進(jìn)行學(xué)習(xí),而不是像原來的卷積神經(jīng)網(wǎng)絡(luò)單純地對整張圖片的全局信息進(jìn)行學(xué)習(xí),解決核心語義的空間變換問題才能解決圖像的空間變換問題且能排除掉一些非核心語義的干擾。而DBD-MQ、CDBin和DBLD這3個(gè)算法輸出的是二進(jìn)制描述子,算法的前半段也都是通過單個(gè)的卷積神經(jīng)網(wǎng)絡(luò)堆疊學(xué)習(xí)得到特征描述子,后半段是通過編碼器或損失函數(shù)對前面卷積網(wǎng)絡(luò)的浮點(diǎn)型描述子進(jìn)行二值化,故也存在著前面所說的圖像空間變換學(xué)習(xí)能力不夠的情況,且二進(jìn)制描述子只有0和1兩個(gè)值,進(jìn)行描述子匹配的時(shí)候比較漢明距離,即兩個(gè)描述子中不相同的位數(shù),這樣的匹配方式相對于浮點(diǎn)型描述子匹配時(shí)比較歐式距離精度較低,因此這3個(gè)算法在匹配精度匹配分?jǐn)?shù)上表現(xiàn)并不好。另外,從表2和表3中簡化HardNet比原HardNet在各項(xiàng)評價(jià)指標(biāo)中表現(xiàn)得更優(yōu)異,這是因?yàn)樵璈ardNet存在著網(wǎng)絡(luò)退化的問題,即網(wǎng)絡(luò)層數(shù)到達(dá)一定數(shù)量后,再一味地只增加網(wǎng)絡(luò)深度,訓(xùn)練和測試效果反而下降,而原HardNet相比于簡化的HardNet多出來地網(wǎng)絡(luò)層為恒等映射,神經(jīng)網(wǎng)絡(luò)是非線性的,很難將多出來的恒等映射參數(shù)學(xué)習(xí)正確,那么就不如稍微簡化網(wǎng)絡(luò)結(jié)構(gòu)的性能,并且網(wǎng)絡(luò)結(jié)構(gòu)簡單也能避免過擬合的問題,使得網(wǎng)絡(luò)模型不僅僅在訓(xùn)練集上取得較好效果,在訓(xùn)練時(shí)從未學(xué)習(xí)過的測試集上仍能取得優(yōu)良結(jié)果。表4從算法參數(shù)量、參數(shù)大小以及模型大小3個(gè)方面對原來的HardNet算法、簡化的HardNet算法以及加入空間變換不變性注意力模塊并簡化HardNet算法的本文算法進(jìn)行網(wǎng)絡(luò)復(fù)雜度比較。其中模型大小包含參數(shù)大小和網(wǎng)絡(luò)結(jié)構(gòu)大小,故比參數(shù)大小指標(biāo)稍大。對比表3的數(shù)據(jù)可發(fā)現(xiàn),簡化的HardNet算法網(wǎng)絡(luò)結(jié)構(gòu)比其他兩個(gè)算法簡單,所以其參數(shù)量、參數(shù)大小和模型大小明顯小于其他兩個(gè)算法。而本文算法是簡化了HardNet的同時(shí),又加入了空間變換不變性注意力模塊,故本文算法的網(wǎng)絡(luò)復(fù)雜度肯定是高于簡化HardNet算法的,這在表3數(shù)據(jù)中也有所體現(xiàn),但是本文算法的網(wǎng)絡(luò)復(fù)雜度又低于原HardNet算法,說明本文算法對HardNet算法的改進(jìn)操作并沒有增加原算法的網(wǎng)絡(luò)復(fù)雜度甚至是將網(wǎng)絡(luò)結(jié)構(gòu)精簡了,由于網(wǎng)絡(luò)結(jié)構(gòu)精簡了,參數(shù)減少了,將網(wǎng)絡(luò)模型應(yīng)用于測試集時(shí),處理時(shí)間也會有所減少。
表4 改進(jìn)前后的網(wǎng)絡(luò)復(fù)雜度
表2所列的5種算法中,ORB算法匹配時(shí)間最優(yōu),但是匹配精度、匹配分?jǐn)?shù)缺遠(yuǎn)低于本文算法,且本文算法的匹配時(shí)間為3.55 s,僅比ORB算法的匹配時(shí)間高0.03 s,本文算法在時(shí)間與ORB算法相當(dāng)?shù)幕A(chǔ)上,其他指標(biāo)都優(yōu)于實(shí)驗(yàn)中用到的各種方法。
針對電路板圖像匹配任務(wù)中待測目標(biāo)具有較大空間變換的情況,本文在簡化HardNet特征描述網(wǎng)絡(luò)的基礎(chǔ)上,設(shè)計(jì)并加入了具有通道注意力和空間變換注意力分支的注意力模塊,本文提出了使用ORB算法提取待測圖像特征點(diǎn)并根據(jù)特征點(diǎn)截取一定大小的圖像塊,后將圖像塊輸入具有空間變換注意力模塊的特征描述子網(wǎng)絡(luò),最后通過KNN算法對待測圖像與模板圖像進(jìn)行相似性度量的圖像匹配算法。通過多次實(shí)驗(yàn),證明本文算法相比于其他算法具有較高的匹配精度、匹配分?jǐn)?shù),匹配時(shí)間滿足實(shí)際生產(chǎn)的需求,具有很高的使用價(jià)值。