翟永杰,趙振遠(yuǎn),王乾銘,白康
(華北電力大學(xué)自動(dòng)化系, 河北 保定 071003)
為了支撐起不斷擴(kuò)大的工業(yè)生產(chǎn)規(guī)模,實(shí)現(xiàn)工業(yè)生產(chǎn)的自動(dòng)化智能化已勢在必行[1]。各種測量儀表作為自動(dòng)化系統(tǒng)的信息輸入來源,其數(shù)量也急劇增加,如何準(zhǔn)確地獲取測量儀表的讀數(shù)成為實(shí)現(xiàn)工業(yè)自動(dòng)化的首要問題。目前的測量儀表從顯示形式上分為兩種,指針式儀表和數(shù)字式儀表。對(duì)于指針式儀表,一方面因其本身結(jié)構(gòu)簡單、可靠性高、反應(yīng)靈敏、制造成本低等優(yōu)點(diǎn)被廣泛應(yīng)用在工業(yè)生產(chǎn)中[2-3];另一方面,雖然數(shù)字化儀表已經(jīng)成為儀表行業(yè)發(fā)展的新趨勢,但是在很多實(shí)際生產(chǎn)環(huán)境中,如變電站,由于電磁干擾等環(huán)境因素的影響,不宜采用數(shù)字式儀表[4-5];第三,因歷史遺留原因造成了指針式儀表大規(guī)模應(yīng)用,且無法在短時(shí)間內(nèi)全部進(jìn)行升級(jí),因此實(shí)現(xiàn)對(duì)指針式儀表的自動(dòng)讀數(shù)就顯得尤為重要[6-7]。
指針式儀表沒有數(shù)據(jù)輸出接口,其測量結(jié)果無法直接被計(jì)算機(jī)系統(tǒng)采集分析,需要通過人工手動(dòng)采集并輸入計(jì)算機(jī)系統(tǒng)[8-9]??紤]到在高危生產(chǎn)環(huán)境中運(yùn)維人員不方便進(jìn)入現(xiàn)場抄表,并且人工讀數(shù)存在成本高、效率低、結(jié)果易引入主觀因素等原因[10],利用智能巡檢機(jī)器人攜帶攝像頭代替人工進(jìn)入現(xiàn)場,通過計(jì)算機(jī)視覺技術(shù)完成對(duì)測量儀表的自動(dòng)讀數(shù)是當(dāng)前主流的方式[11-12]。儀表的自動(dòng)讀數(shù)分為兩個(gè)階段[13],分別是儀表的檢測和儀表的識(shí)別,前者從復(fù)雜背景中將儀表表盤區(qū)域標(biāo)出,后者在前者的基礎(chǔ)上進(jìn)行儀表讀數(shù)的判定。儀表識(shí)別的準(zhǔn)確率嚴(yán)重依賴儀表表盤區(qū)域檢測的準(zhǔn)確性,因此高精度的儀表檢測技術(shù)成為實(shí)現(xiàn)指針式儀表自動(dòng)讀數(shù)系統(tǒng)的前提條件。
針對(duì)儀表檢測方法,國內(nèi)外的學(xué)者進(jìn)行了大量研究,大致可以分為兩類:
一類是基于傳統(tǒng)計(jì)算機(jī)視覺原理的算法。文獻(xiàn)[14]利用SIFT(Scale Invariant Feature Transform)算法通過關(guān)鍵點(diǎn)匹配完成指針式儀表檢測;文獻(xiàn)[15]提出了利用改進(jìn)的ORB算法實(shí)現(xiàn)了指針式儀表的搜索;文獻(xiàn)[16]提取待識(shí)別圖片和模板圖片的KAZE特征,并采用KNN(K-Nearest Neighbor)算法完成特征匹配,從而得到了表盤區(qū)域。該類算法對(duì)噪聲太敏感、泛化能力差、復(fù)雜度高、容易漏檢和誤檢,不適用工程應(yīng)用;
另一類是基于深度學(xué)習(xí)的目標(biāo)檢測算法。隨著深度學(xué)習(xí)的發(fā)展,已經(jīng)有許多學(xué)者利用其解決指針式儀表目標(biāo)檢測的問題,且已經(jīng)取得不錯(cuò)的成效。文獻(xiàn)[17]通過SSD目標(biāo)檢測模型對(duì)指針式儀表進(jìn)行檢測定位,并取得不錯(cuò)的檢測結(jié)果;文獻(xiàn)[18]提出一種基于Faster R-CNN的指針式儀表識(shí)別算法,通過引入Focal loss損失函數(shù)和特征金字塔(FPN)來提升檢測精度;文獻(xiàn)[19]提出一種基于改進(jìn)預(yù)訓(xùn)練MobileNetV2網(wǎng)絡(luò)模型與圓形Hough變換相結(jié)合的方法來提升對(duì)圓形指針式儀表的檢測精度和速度;文獻(xiàn)[20]提出了一種基于YOLOv4和霍夫變換的指針式儀表檢測方法,通過對(duì)YOLOv4提取出的區(qū)域進(jìn)行霍夫變換精確定位指針式儀表。上述算法都在一定程度上提高了儀表的檢測精度,但是由于指針式儀表種類繁多,算法需要大量數(shù)據(jù)進(jìn)行訓(xùn)練才能保證神經(jīng)網(wǎng)絡(luò)收斂,進(jìn)而達(dá)到有效的檢測精度,然而在實(shí)際生產(chǎn)環(huán)境中采集到足夠多的數(shù)據(jù)往往是不切實(shí)際的,因此實(shí)際檢測精度依然較低。文獻(xiàn)[21]提出一種基于深度卷積神經(jīng)網(wǎng)絡(luò)與虛擬樣本結(jié)合的指針式儀表檢測方法,利用先驗(yàn)知識(shí)構(gòu)建指針式儀表虛擬樣本生成模型,解決深度神經(jīng)網(wǎng)絡(luò)面臨的小樣本難題;文獻(xiàn)[22]使用網(wǎng)絡(luò)爬蟲及數(shù)據(jù)增強(qiáng)技術(shù)擴(kuò)充數(shù)據(jù)集來解決指針式儀表檢測過程中樣本不足的問題,并在YOLOv3的基礎(chǔ)上結(jié)合Kmeans++初始化的Mini Batch Kmeans方法得到改進(jìn)模型。上述算法通過使用人工虛擬圖像或使用爬蟲技術(shù)爬取指針式儀表的圖像對(duì)訓(xùn)練集進(jìn)行擴(kuò)充,但是這些圖像與實(shí)際生產(chǎn)環(huán)境中的圖像有較大的差異,無法通過簡單混合訓(xùn)練集使神經(jīng)網(wǎng)絡(luò)得到有效的訓(xùn)練,導(dǎo)致在實(shí)際生產(chǎn)環(huán)境中檢測效果差、精度低。
以上研究表明,相對(duì)于傳統(tǒng)的機(jī)器視覺算法,基于深度學(xué)習(xí)的目標(biāo)檢測算法在進(jìn)行指針式儀表檢測任務(wù)時(shí)更具優(yōu)勢,但真實(shí)場景下的樣本數(shù)量不足和質(zhì)量過低問題嚴(yán)重制約著深度學(xué)習(xí)在本任務(wù)中的應(yīng)用。
針對(duì)這一問題,提出了一種基于人工-真實(shí)樣本度量學(xué)習(xí)的指針式儀表檢測方法,通過深入研究指針式儀表的結(jié)構(gòu)并結(jié)合人工抄表的經(jīng)驗(yàn),提取出指針式儀表在表盤檢測中的顯著部分,并對(duì)其進(jìn)行建模;同時(shí)將度量學(xué)習(xí)機(jī)制引入目標(biāo)檢測模型中,定義一種相似度量損失函數(shù)來驅(qū)動(dòng)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。以上方法可實(shí)現(xiàn)在少樣本情況下更高的檢測精度,為指針式儀表的檢測提供了新的思路。
通過對(duì)指針式儀表結(jié)構(gòu)的分析和研究,以及結(jié)合度量學(xué)習(xí)的網(wǎng)絡(luò)特性,文中算法總體框架如圖1所示。
圖1 文中算法框架
文中算法以Faster R-CNN目標(biāo)檢測模型為基線模型(Baseline),在其基礎(chǔ)上以相似度量損失函數(shù)的形式融合度量學(xué)習(xí)機(jī)制。在網(wǎng)絡(luò)訓(xùn)練時(shí),首先將真實(shí)樣本與人工基準(zhǔn)樣本分別輸入權(quán)值共享的特征提取網(wǎng)絡(luò)提取特征,然后,一方面利用真實(shí)樣本生成的特征在真實(shí)樣本上生成建議框,結(jié)合標(biāo)注信息通過感興趣區(qū)域池化操作將特征縮放到統(tǒng)一大小,并通過預(yù)測網(wǎng)絡(luò)對(duì)真實(shí)樣本中目標(biāo)的位置和類別進(jìn)行預(yù)測,將預(yù)測結(jié)果與標(biāo)注信息進(jìn)行對(duì)比,從而計(jì)算位置損失和類別損失。另一方面,將人工基準(zhǔn)樣本與真實(shí)樣本中目標(biāo)區(qū)域?qū)?yīng)的特征輸入特征相似性度量模塊,計(jì)算相似度量損失。最后,將三種損失按一定比例結(jié)合進(jìn)行統(tǒng)一優(yōu)化。相似度量分支通過相似度量損失函數(shù)間接參與到真實(shí)圖像的預(yù)測網(wǎng)絡(luò)中,該分支僅在訓(xùn)練時(shí)起作用,不降低原模型的預(yù)測速度。
一般指針式儀表如圖2所示,按結(jié)構(gòu)可以大致劃分為四個(gè)部分,分別是刻度線、刻度值、指針、表盤背景。
圖2 指針式儀表
在指針式儀表圖像中,刻度線由多段短線組成,短線的長度一般呈規(guī)律變化,間隔均勻或非均勻(非線性指針式儀表)地分布在儀表表盤上,并在特定圓周上做輻射狀排布。由于拍攝角度和拍攝設(shè)備的內(nèi)參數(shù)導(dǎo)致圖像出現(xiàn)不同程度的畸變,使得原來按照?qǐng)A周排布的刻度線變成按照橢圓排布,刻度線的長度也發(fā)生一些微小變化;刻度值與刻度線在儀表表盤上的排列相似,并與刻度線相鄰,按照儀表種類的不同可能出現(xiàn)在刻度線的內(nèi)側(cè)、外側(cè)或者兩側(cè)(雙刻度指針式儀表),刻度數(shù)值一般遵循等差數(shù)列或者等比數(shù)列(非線性指針式儀表);指針為細(xì)長條狀,圍繞某一定點(diǎn)作回轉(zhuǎn)運(yùn)動(dòng),該定點(diǎn)一般與刻度線圍成的圓周圓心重合,其長度比刻度線圍成的圓周半徑略長并小于直徑。上述三種結(jié)構(gòu)都有利于指針式儀表的檢測,但是通過分析刻度線、刻度值與指針在表盤區(qū)域的像素占比可知,如圖3所示,刻度線的像素占比明顯高于刻度值與指針的像素占比,因此稱刻度線為指針式儀表檢測過程中的顯著特征,刻度值與指針稱為非顯著特征。在建模時(shí)應(yīng)優(yōu)先考慮顯著特征,并稱通過建模得到的、只包括顯著特征信息的圖像為人工基準(zhǔn)圖像或人工基準(zhǔn)樣本。表盤背景包括儀表名稱、儀表單位、生產(chǎn)廠家、適用條件等,這些信息出現(xiàn)位置不定,數(shù)量不定,內(nèi)容不同,無法成為有效的儀表檢測特征。
圖3 指針式儀表結(jié)構(gòu)占比分析
為使神經(jīng)網(wǎng)絡(luò)有充足的數(shù)據(jù)得到訓(xùn)練,并且優(yōu)先學(xué)到指針式儀表的顯著特征,設(shè)計(jì)了人工基準(zhǔn)樣本生成算法(Artificial Benchmark Sample Generation Algorithm,ABSGA),該算法流程圖如圖4所示。
圖4 ABSGA 流程圖
ABSGA通過輸入不同隨機(jī)種子,隨機(jī)生成不同的人工基準(zhǔn)圖像,該算法分為三個(gè)部分:
首先生成人工基準(zhǔn)圖像背景,通過統(tǒng)計(jì)分析,真實(shí)場景中表盤背景的顏色多為灰(gray)、白(white)、黑(black),因此ABSGA在HSV顏色空間按照表1所示參數(shù),并根據(jù)式(1)對(duì)表盤背景進(jìn)行隨機(jī)顏色初始化。
表1 HSV顏色對(duì)照表
(1)
其次按照式(2)隨機(jī)生成與表盤背景有一定對(duì)比度的刻度線特征。
(2)
式中c′表示刻度線顏色。
最后將圖像從HSV顏色空間轉(zhuǎn)回RGB顏色空間,并施加式(3)所示的仿射變換。
(3)
人工基準(zhǔn)圖像樣例如圖5所示,相較于其他方式生成的人工圖像,ABSGA生成的人工基準(zhǔn)圖像僅包含指針式儀表的顯著特征,可以使得神經(jīng)網(wǎng)絡(luò)更加專注顯著特征的學(xué)習(xí),更有利于引導(dǎo)網(wǎng)絡(luò)的訓(xùn)練。
圖5 人工基準(zhǔn)圖像樣例
度量指衡量兩個(gè)元素之間距離的函數(shù),也叫做距離度量函數(shù)。度量學(xué)習(xí)[23-25]也稱為距離度量學(xué)習(xí)或者相似度學(xué)習(xí),指通過給定的或?qū)W習(xí)到的距離度量函數(shù)計(jì)算兩樣本對(duì)之間的距離,從而度量樣本間相似度。基于度量學(xué)習(xí)方法的一般流程如圖6所示,該框架具有兩個(gè)模塊,分別是嵌入模塊F和度量模塊S,嵌入模塊F通過對(duì)樣本進(jìn)行特征提取操作得到特征向量,并將其映射到低維向量空間以減少運(yùn)算量和降低特征之間的耦合,提高不同特征之間的差異;之后根據(jù)度量模塊S計(jì)算出特征之間的差異,進(jìn)而計(jì)算相似度得分。度量模塊S通常采用余弦相似度[26]。
度量學(xué)習(xí)發(fā)展至今已有廣泛的研究和應(yīng)用,文獻(xiàn)[27]在2015年提出使用孿生神經(jīng)網(wǎng)絡(luò)(Siamese Neural Network)進(jìn)行圖像分類任務(wù),如圖7(a)所示。該網(wǎng)絡(luò)是一種相似性度量模型,通過兩個(gè)共享權(quán)值和參數(shù)的卷積神經(jīng)網(wǎng)絡(luò)將輸入的圖像對(duì)映射到低維向量空間,使用簡單的距離函數(shù)進(jìn)行相似度計(jì)算。按照最小化同類樣本之間距離、最大化異類樣本之間距離的規(guī)則定義損失函數(shù),并用其驅(qū)動(dòng)神經(jīng)網(wǎng)絡(luò)的訓(xùn)練。
圖6 度量學(xué)習(xí)一般流程圖
由孿生神經(jīng)網(wǎng)絡(luò)的特性,很自然有如下觀點(diǎn):如圖7(b)所示,假設(shè)在孿生神經(jīng)網(wǎng)絡(luò)的一側(cè)輸入人工基準(zhǔn)圖像,另一側(cè)輸入真實(shí)圖像,由于人工基準(zhǔn)圖像包括了真實(shí)圖像的顯著特征信息,因此在損失函數(shù)的驅(qū)動(dòng)下,兩側(cè)圖像的特征將逐漸相互靠近,在特征空間中形成點(diǎn)簇,即兩側(cè)圖像通過該網(wǎng)絡(luò)提取到的特征會(huì)“自然”聚集在一起。一方面該特性可以在特征空間中降低或消除人工圖像和真實(shí)圖像的分布差異,另一方面,由于人工基準(zhǔn)圖像只包含顯著特征信息,由人工基準(zhǔn)圖像提取到的特征向量會(huì)更具有針對(duì)性和稀疏性,有利于使特征提取網(wǎng)絡(luò)學(xué)會(huì)區(qū)分顯著特征信息。對(duì)目標(biāo)檢測網(wǎng)絡(luò)來說,通常前置網(wǎng)絡(luò)是一個(gè)特征提取網(wǎng)絡(luò),本質(zhì)上是一個(gè)特征嵌入模塊F。因此,將度量學(xué)習(xí)引入目標(biāo)檢測網(wǎng)絡(luò),同時(shí)把通過建模生成的指針式儀表圖像作為人工基準(zhǔn)圖像,同樣會(huì)使待檢測圖像的特征和人工設(shè)計(jì)圖像的特征相互靠近。與孿生網(wǎng)絡(luò)不同的是,為了適配目標(biāo)檢測任務(wù),實(shí)際參與匹配的是輸入圖像對(duì)的一部分。具體來說,待檢測圖像經(jīng)過特征提取之后,通過標(biāo)注的真值框(GT_boxes)提取出指針式儀表表盤區(qū)域,取該區(qū)域在特征圖上的映射作為感興趣區(qū)域(Region of Interest,RoI),由該RoI參與度量模塊的計(jì)算。同理,輸入人工圖像的分支也進(jìn)行相同的操作。
通過對(duì)指針式儀表結(jié)構(gòu)的研究和分析,對(duì)指針式儀表的顯著特征刻度線進(jìn)行建模,并以此生成人工基準(zhǔn)圖像輸入網(wǎng)絡(luò),使得輸入的真實(shí)圖像經(jīng)過特征提取網(wǎng)絡(luò)后,在低維特征向量空間內(nèi)都會(huì)與該基準(zhǔn)圖像的特征彼此靠近。通過引入指針式儀表的顯著特征,使得特征提取網(wǎng)絡(luò)能夠“有選擇”地學(xué)習(xí)真實(shí)圖像中與人工基準(zhǔn)圖像相似的特征,達(dá)到指導(dǎo)神經(jīng)網(wǎng)絡(luò)訓(xùn)練的目的。
為了更加充分地闡述特征相似度量模塊,以Faster R-CNN為基線模型,詳細(xì)說明該模塊的結(jié)構(gòu)。如圖8所示,在Faster R-CNN中引入新的網(wǎng)絡(luò)分支,該分支的特征提取網(wǎng)絡(luò)與Faster R-CNN的特征提取網(wǎng)絡(luò)共享一套權(quán)值,用于提取輸入圖像的特征。之后使用自適應(yīng)全局平均池化操作,將特征圖的尺寸壓縮為2 048維的向量。為了進(jìn)一步對(duì)圖像特征向量進(jìn)行精煉簡化,通過一個(gè)全連接層對(duì)特征向量進(jìn)一步壓縮,并使用反余弦函數(shù)(Tanh)和糾正線性單元(Rectified Linear Unit,ReLU)作為激活函數(shù)進(jìn)行非線性操作,將全連接層輸出的特征值限制在特定的范圍內(nèi)。最終輸出更低維度的向量,稱為輸入圖像的特征向量,網(wǎng)絡(luò)結(jié)構(gòu)如表2所示。通過比較兩圖像RoI的特征描述向量,完成特征相似性度量。
圖8 融合相似度量損失的Faster R-CNN結(jié)構(gòu)示意圖
表2 特征相似性度量模塊網(wǎng)絡(luò)結(jié)構(gòu)
對(duì)度量模塊而言,盡管其輸入向量已經(jīng)被嵌入低維向量空間,但從圖像處理任務(wù)的角度考量,輸入的低維特征描述向量依然有著較高的維度,而夾角余弦在處理相似性度量問題時(shí),在不同維度下具有相同的判定準(zhǔn)則,對(duì)維度具有良好的魯棒性。鑒于此,采用向量之間的夾角余弦作為度量模塊S,余弦值越大表明特征描述向量之間的夾角越小,兩待比較對(duì)象越相似。
(4)
(5)
由于特征提取網(wǎng)絡(luò)最后使用的激活函數(shù)不同,使得特征描述向量元素的取值范圍不同,因此采用了不同的誤差函數(shù)訓(xùn)練網(wǎng)絡(luò)。分別是:
(1)基于Tanh激活函數(shù)對(duì)輸出向量進(jìn)行非線性操作。Tanh的值域?yàn)閇-1,1],經(jīng)過歸一化后特征描述向量元素的取值范圍為[-1,1],使得相似度的取值范圍S∈[-1,1]。誤差函數(shù)如下:
(6)
(7)
式中Si為每個(gè)圖像對(duì)之間的相似度得分;NBatch為在訓(xùn)練過程中一個(gè)批次(Batch)包含真實(shí)圖像的個(gè)數(shù);Mj為一張真實(shí)圖像內(nèi)包含GT_boxes的個(gè)數(shù);M為一個(gè)Batch中所有GT_boxes的數(shù)量。
(2)基于ReLU激活函數(shù)對(duì)輸出向量進(jìn)行非線性操作。ReLU的值域?yàn)閇0,∞],經(jīng)過歸一化后特征描述向量元素的取值范圍為[0,1],使得相似度的取值范圍S∈[0,1]。誤差函數(shù)如下:
(8)
式中 log()為以自然底數(shù)e為底的對(duì)數(shù)函數(shù)。
融合相似度量損失的Faster R-CNN模型的總損失為:
loss=lossRPN+lossFrR+λ·lossS
(9)
式中l(wèi)ossRPN為基線模型中與建議框生成網(wǎng)絡(luò)(Region Proposal Network,RPN)相關(guān)的損失,包括RPN結(jié)構(gòu)的分類損失和回歸損失;lossFrR為基線模型中與Faster R-CNN預(yù)測器相關(guān)的損失,包括預(yù)測器的分類損失和定位損失;lossS為相似度量損失,可以取lossR或者lossT;λ為平衡系數(shù),用以維護(hù)相似度量損失與原基線模型損失的平衡。
為便于對(duì)該模塊定性和定量的分析,采用Faster R-CNN為Baseline,在該模型的基礎(chǔ)上驗(yàn)證特征相似性度量模塊的有效性。為了說明基于人工-真實(shí)樣本度量學(xué)習(xí)的指針式儀表檢測算法在少樣本情況下的效果,在電力系統(tǒng)的實(shí)際生產(chǎn)環(huán)境中采集指針式儀表圖像構(gòu)造數(shù)據(jù)集,包括多種類型的壓力表、溫度表、電壓表、電流表、密度表等,共計(jì)220張,囊括了工業(yè)生產(chǎn)常見的指針式儀表類型。為了充分說明該方法的有效性,避免產(chǎn)生偶然性因素,通過隨機(jī)采樣,從總數(shù)據(jù)集中隨機(jī)采樣20張圖像作為訓(xùn)練集,剩余200張作為驗(yàn)證集,并每10次訓(xùn)練取平均值作為最終結(jié)果。人工基準(zhǔn)圖像由ABSGA隨機(jī)生成,通過Faster R-CNN的度量分支參與訓(xùn)練。
文中所有算法均運(yùn)行在Ubuntu18.04 LTS操作系統(tǒng)下,借助Pytorch神經(jīng)網(wǎng)絡(luò)框架,使用Python編程語言實(shí)現(xiàn)算法的搭建,并通過CUDA10.1調(diào)用NVIDIA 1080Ti專業(yè)級(jí)顯卡進(jìn)行GPU加速,以期更快地完成訓(xùn)練和測試。
為了量化說明文中算法的有效性,采用目前目標(biāo)檢測模型中常用的評(píng)價(jià)指標(biāo):平均精度均值(mean Average Precision,mAP)對(duì)模型進(jìn)行評(píng)估。由于本算法針對(duì)的是指針式儀表這一單目標(biāo),因此mAP退化為精度均值(Average Precision,AP)。按照目標(biāo)檢測框與真值框間的交并比(Intersection over Union,IoU)不同,AP評(píng)價(jià)指標(biāo)可以分為AP50(IoU=0.5計(jì)算得到的AP)、AP75(IoU=0.75計(jì)算得到的AP)、AP50_95(IoU分別取0.5~0.95,間隔0.05計(jì)算的平均AP)。結(jié)合文中研究內(nèi)容,分別對(duì)以上三種指標(biāo)進(jìn)行比較。
表3給出了融合相似度量損失前后的指針式儀表檢測的AP結(jié)果,為10次訓(xùn)練和驗(yàn)證后的平均值。訓(xùn)練階段選擇的Batchsize為1,優(yōu)化器為隨機(jī)梯度下降(Stochastic Gradient Descent,SGD),初始學(xué)習(xí)率設(shè)為0.005,動(dòng)量參數(shù)設(shè)為0.9,學(xué)習(xí)率衰減為5,最大迭代次數(shù)(epoch)為50。檢測可視化結(jié)果如圖9所示,其中x軸為不同的AP評(píng)價(jià)標(biāo)準(zhǔn),y軸為在特定評(píng)價(jià)標(biāo)準(zhǔn)下的AP值。橫線柱為基線模型Faster R-CNN的檢測結(jié)果,縱線柱為融合相似度量損失后Faster R-CNN的檢測結(jié)果,縱線柱上方的數(shù)字表示改進(jìn)模型相對(duì)于基線模型的提升情況。兩柱內(nèi)的散點(diǎn)分別表示10次訓(xùn)練的檢測結(jié)果。
表3 融合相似度量損失前后的指針式儀表檢測結(jié)果(10次平均)
圖9 融合相似度量損失前后的指針式儀表檢測結(jié)果統(tǒng)計(jì)圖
圖10表示指針式儀表檢測任務(wù)特殊性的示意圖。圖中框(右)為真值框,框(左)為與真值框IoU=0.643的檢測框,按照AP50的評(píng)價(jià)標(biāo)準(zhǔn),該框(左)檢測框應(yīng)歸為正確檢測框。但是,從指針式儀表檢測任務(wù)的目的來看,檢測是為了后續(xù)對(duì)檢出目標(biāo)進(jìn)行處理,后續(xù)處理的準(zhǔn)確度嚴(yán)重依賴于本階段檢測的精度,因此僅僅依賴AP50這種比較松弛的評(píng)價(jià)標(biāo)準(zhǔn)顯然是不合適的,應(yīng)更加側(cè)重AP75和AP50_95的結(jié)果。
圖10 指針式儀表檢測任務(wù)特殊性示意圖
結(jié)合表3和圖9可以看出,對(duì)基線模型來說,雖然AP50較高,但AP75與AP50_95較低,鑒于本任務(wù)的特殊性,基線模型還是存在較大提升空間的。在融合相似度量損失后,三種性能指標(biāo)均有所提升,其中AP75提升最為明顯,提升幅度高達(dá)22.14%,AP50_95也有10.73%的提升。由于基線模型的AP50本身就很高,因此在融合相似度量損失之后AP50的提升幅度最少,只有2.41%。綜上可知,融合相似度量損失之后的目標(biāo)檢測模型可以有效利用人工基準(zhǔn)樣本的引導(dǎo)作用,通過在低維向量空間中進(jìn)行相似性度量,降低模型對(duì)數(shù)據(jù)集樣本數(shù)量的要求,有效緩解了真實(shí)場景中指針式儀表樣本缺少的問題。
為全面評(píng)估基于人工-真實(shí)樣本度量學(xué)習(xí)的指針式儀表檢測模型性能,文中比較了SSD512[28]、Cascade RCNN[29]、Faster R-CNN[30]、RetinaNet-101[31]、改進(jìn)的YOLOv3[22]、改進(jìn)的YOLOv4-Tiny[32]以及文中算法的檢測效果,如表4所示。
表4 不同檢測方法性能對(duì)比
由表4可知,相較于其他模型,基于人工-真實(shí)樣本度量學(xué)習(xí)的指針式儀表檢測模型在三種指標(biāo)上都有較大的提升,其中AP75提升最為明顯。與RetinaNet-101相比,AP75提升幅度高達(dá)86.57%。由此可以看出文中算法在處理少樣本數(shù)據(jù)的優(yōu)勢。
圖11給出了融合相似度量損失前后的Faster R-CNN模型在進(jìn)行指針式儀表檢測后的定性可視化結(jié)果??梢钥闯觯€模型在檢測指針式儀表時(shí),容易出現(xiàn)以下問題:預(yù)測框過大,如圖11(a),雖然完全包括檢測目標(biāo),但是由于預(yù)測框過大,包含的干擾信息占比增加,對(duì)后續(xù)指針式儀表讀數(shù)的識(shí)別非常不利;預(yù)測框與真實(shí)目標(biāo)交并比較小,指針式儀表未完全標(biāo)出,如圖11(b),無法進(jìn)行后續(xù)儀表讀數(shù)識(shí)別;出現(xiàn)較多誤檢測,如圖11(c)和圖11(d),將其他物體錯(cuò)誤預(yù)測為目標(biāo)。針對(duì)以上問題,本文融合相似度量損失的Faster R-CNN模型有很好的改善效果,通過引入人工基準(zhǔn)圖像,使得特征提取網(wǎng)絡(luò)在訓(xùn)練階段得到引導(dǎo),有效提升指針式儀表的檢測精度,如圖11(e),有效提升檢出目標(biāo)的完整率,如圖11(f),并有效抑制誤檢,如圖11(g)和圖11(h)。從以上結(jié)果來看,充分驗(yàn)證了文中算法的有效性。
圖11 融合相似度量損失前后的指針式儀表檢測可視化結(jié)果
為了深入理解特征相似性度量模塊在本算法中的作用,通過修改部分超參數(shù)進(jìn)行消融實(shí)驗(yàn),包括損失函數(shù)、相似度量損失在Faster R-CNN總損失中的比例λ及特征描述向量維度D。
表5和圖12是在采用D=256、λ=0.2時(shí),對(duì)損失函數(shù)進(jìn)行消融實(shí)驗(yàn)的結(jié)果。
表5 損失函數(shù)消融實(shí)驗(yàn)結(jié)果
圖12 損失函數(shù)消融實(shí)驗(yàn)結(jié)果統(tǒng)計(jì)圖
由表5和圖12可以看出,在其它參數(shù)不變的情況下,很明顯基于ReLU激活函數(shù)的損失lossR要比基于Tanh激活函數(shù)的損失lossT效果更優(yōu)。相比lossT,基于lossR的AP50、AP75、AP50_95分別有1.52%、12.75%、7.84%的提升。
表6和圖13是在采用lossR作為損失函數(shù)、D=256時(shí),對(duì)相似度量損失在Faster R-CNN總損失中所占比例λ進(jìn)行消融實(shí)驗(yàn)的結(jié)果。由表6和圖13可以看出,在其它參數(shù)不變的情況下,隨著λ的增大,AP50、AP75及AP50_95的變化趨勢大致相同,都是先增大后減小。除λ=10.0,其他λ情況下三項(xiàng)指標(biāo)均有提升,在λ=0.2時(shí)三項(xiàng)評(píng)價(jià)指標(biāo)均較高,其中AP75和AP50_95達(dá)到最高,AP50達(dá)到次高,只比最高值低0.5%。在λ=10.0時(shí),除AP50有較少的提升外,AP75和AP50_95都有所下降。綜合來看,相似度量損失的加入使模型的精度有較大的提升,引入損失的比例決定著精度提升的幅度,過小或過大的比例會(huì)使精度提升較小,更大的比例會(huì)使系統(tǒng)失去平衡,精度不升反降。
表6 λ消融實(shí)驗(yàn)結(jié)果
圖13 λ消融實(shí)驗(yàn)結(jié)果統(tǒng)計(jì)圖
表7和圖14是在采用lossR作為損失函數(shù)、λ=0.2時(shí),對(duì)特征描述向量維度D進(jìn)行消融實(shí)驗(yàn)的結(jié)果。由表7和圖14可以看出,其它參數(shù)不變的情況下,隨著D的變化,AP50和AP50_95變化不太明顯,分別只有1.6%和1.9%的變化幅度;而AP75的變化幅度較大,在D=256時(shí)該指標(biāo)達(dá)到最大,D=1 024時(shí)最小。隨D的增大,三個(gè)指標(biāo)都有先增大后減小的趨勢,同時(shí)在D=256時(shí)達(dá)到最優(yōu)。綜上所述,特征壓縮維度D對(duì)AP75指標(biāo)影響最為明顯,對(duì)另外兩個(gè)指標(biāo)影響較小,并且使用過低的特征壓縮維度會(huì)因丟失過多信息導(dǎo)致精度下降,過高的特征壓縮維度會(huì)引起特征冗余,不僅不能提高檢測精度,且會(huì)使計(jì)算量增大。
表7 D消融實(shí)驗(yàn)結(jié)果
圖14 D消融實(shí)驗(yàn)結(jié)果統(tǒng)計(jì)圖
在對(duì)指針式儀表結(jié)構(gòu)充分分析的基礎(chǔ)上,結(jié)合度量學(xué)習(xí)的特性,提出了基于人工-真實(shí)樣本度量學(xué)習(xí)的指針式儀表檢測模型。通過對(duì)指針式儀表顯著特征區(qū)域進(jìn)行建模,并以此生成人工基準(zhǔn)圖像,在相似度量損失函數(shù)的驅(qū)動(dòng)下,利用人工基準(zhǔn)圖像對(duì)特征提取網(wǎng)絡(luò)進(jìn)行先驗(yàn)指導(dǎo)。通過對(duì)比實(shí)驗(yàn),基于人工-真實(shí)樣本度量學(xué)習(xí)的指針式儀表檢測模型在進(jìn)行指針式儀表檢測任務(wù)上,相對(duì)于基線模型,AP50、AP75、AP50_95分別有2.41%,22.14%,10.73%的提升,其中AP75提升最為顯著。
實(shí)驗(yàn)表明,將度量學(xué)習(xí)引入目標(biāo)檢測模型,有利于緩解人工圖像與真實(shí)圖像之間的分布差異,并且可以在先驗(yàn)人工圖像的指導(dǎo)下對(duì)特征提取網(wǎng)絡(luò)進(jìn)行校正,提升模型的檢測能力,緩解了指針式儀表檢測精度對(duì)訓(xùn)練樣本數(shù)量的嚴(yán)重依賴,有效提升了少樣本情況下指針式儀表的檢測精度。