李文舉,何茂賢,張耀星,陳慧玲,李培剛
1.上海應(yīng)用技術(shù)大學(xué)計(jì)算機(jī)科學(xué)與信息工程學(xué)院,上海201418
2.上海應(yīng)用技術(shù)大學(xué)軌道交通學(xué)院,上海201418
高鐵產(chǎn)業(yè)快速發(fā)展,在帶來(lái)便利的同時(shí)也存在著無(wú)法及時(shí)維護(hù)軌道板的安全隱患。為減少交通隱患,及時(shí)掌握軌道裂縫情況,需要實(shí)現(xiàn)對(duì)軌道裂縫的高效檢測(cè)。其中,無(wú)砟軌道因穩(wěn)定性較好而作為中國(guó)主流的軌道結(jié)構(gòu),但是隨著服役時(shí)間的增加以及長(zhǎng)期受較大晝夜溫差等復(fù)雜環(huán)境因素的影響,產(chǎn)生了大量裂縫[1-2],影響了列車(chē)的正常運(yùn)行。現(xiàn)有的人工檢測(cè)方法[3-5]受到了照明設(shè)備、工作經(jīng)驗(yàn)、環(huán)境變化等因素的限制,不但常常發(fā)生漏檢和誤檢情況,而且費(fèi)時(shí)費(fèi)力,主觀性強(qiáng),不利于客觀評(píng)估軌道結(jié)構(gòu)安全。
為了解決以上問(wèn)題,開(kāi)始以圖像處理方法替代人工檢測(cè)方法,然而傳統(tǒng)的圖像處理方法很容易受到光照環(huán)境和拍攝方式的影響。因此,隨著人工智能技術(shù)的發(fā)展,研究人員通常采用卷積神經(jīng)網(wǎng)絡(luò)來(lái)處理圖像問(wèn)題。與人工檢測(cè)方法和傳統(tǒng)的圖像處理方法相比,該方法只需導(dǎo)入圖片就能準(zhǔn)確完成檢測(cè)任務(wù)。
卷積神經(jīng)網(wǎng)絡(luò)執(zhí)行圖像分類(lèi)任務(wù)時(shí)采用的分類(lèi)決策主要依賴(lài)于充當(dāng)分類(lèi)器的全連接層。如果將特征圖直接展開(kāi)成一維特征以適配后續(xù)全連接層的輸入,那么原本特征信息就會(huì)喪失其空間拓?fù)浣Y(jié)構(gòu)而使最終模型取得次優(yōu)解。文獻(xiàn)[6]指出:深度卷積神經(jīng)網(wǎng)絡(luò)(deep convolutional neural network,DCNN)從架構(gòu)上就難以保證平移不變性,而基于數(shù)據(jù)增強(qiáng)訓(xùn)練的卷積神經(jīng)網(wǎng)絡(luò)仍能學(xué)到部分不變性。受基于區(qū)域的全卷積神經(jīng)網(wǎng)絡(luò)(region-based fully convolutional network,R-FCN)啟發(fā)[7],本文將高層特征圖分組后依次進(jìn)行注意力加權(quán)處理和單組預(yù)測(cè),以相對(duì)獨(dú)立的弱分類(lèi)器分別量化分析各組的預(yù)測(cè)結(jié)果,以強(qiáng)分類(lèi)器匯聚所有弱分類(lèi)器的預(yù)測(cè)信息,并輸出最終的分類(lèi)結(jié)果。
文獻(xiàn)[8]調(diào)整檢測(cè)網(wǎng)絡(luò)模型的超參數(shù)和輸入圖像的尺寸,利用卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)了對(duì)混凝土路面缺陷的準(zhǔn)確檢測(cè)。文獻(xiàn)[9]針對(duì)裂縫可能存在水漬以及分布不規(guī)律等問(wèn)題,采用深度學(xué)習(xí)的方法分別對(duì)隧道襯砌裂縫進(jìn)行分類(lèi)和分割。文獻(xiàn)[10]將橋梁裂縫圖像劃分為較小的橋梁裂縫面元圖像和橋梁背景面元圖像,然后深入分析面元圖像的特點(diǎn),進(jìn)而提出了一種基于卷積神經(jīng)網(wǎng)絡(luò)的深度橋梁裂縫分類(lèi)器(deep bridge crack classify,DBCC)用于橋梁背景面元和橋梁裂縫面元的識(shí)別。文獻(xiàn)[11]利用Deep Labv3+實(shí)現(xiàn)了瀝青路面的像素級(jí)分類(lèi)。
在軌道板裂縫檢測(cè)方面,文獻(xiàn)[12]首先根據(jù)軌道梁裂縫的視覺(jué)特點(diǎn)調(diào)整相機(jī)、光源、拍攝距離等環(huán)境因素,獲取了裂縫圖像;然后采用最大類(lèi)間方差法獲取圖像特征,提高了軌道橋梁裂縫的檢測(cè)率。文獻(xiàn)[13]提出了一種非接觸式的基于圖像處理的軌道板裂縫檢測(cè)模型,依次執(zhí)行圖像增強(qiáng)和二值化處理以準(zhǔn)確定位裂縫位置。文獻(xiàn)[14]經(jīng)調(diào)研確定裂縫的表現(xiàn)形式和結(jié)構(gòu)特征,根據(jù)紅外熱成像檢測(cè)原理研究了環(huán)境溫度等因素對(duì)裂縫檢測(cè)的影響程度,從而優(yōu)化了檢測(cè)條件。
傳統(tǒng)的機(jī)器學(xué)習(xí)模型著重于解決聚類(lèi)以及簡(jiǎn)單的分類(lèi)問(wèn)題,而一旦面對(duì)高維特征的映射和多分類(lèi)問(wèn)題就難以奏效,因此不適合直接應(yīng)用到圖像分類(lèi)領(lǐng)域。自從AlexNet[15]在ILSVRC-2012競(jìng)賽中以15.30%的錯(cuò)誤率奪冠后,深度學(xué)習(xí)技術(shù)逐漸成為計(jì)算機(jī)視覺(jué)和圖像處理的主流解決方案。隨后的VGG[16]、Inception[17]、殘差網(wǎng)絡(luò)[18](residual network,ResNet)等都試圖從主干網(wǎng)絡(luò)結(jié)構(gòu)尋找突破口,在提升精度的同時(shí)權(quán)衡浮點(diǎn)運(yùn)算次數(shù)(f loating point of operations,FLOPs)。如果僅以增加模型的深度來(lái)提升模型的復(fù)雜度,那么淺層的參數(shù)就很難更新。為此,ResNet[18]設(shè)計(jì)殘差模塊,避免淺層參數(shù)無(wú)法更新導(dǎo)致的梯度爆炸或者彌散現(xiàn)象。然而,文獻(xiàn)[19]認(rèn)為ResNet[18]的殘差模塊沒(méi)有利用全部特征信息,因?yàn)橐?×1大小、2為步長(zhǎng)的卷積核進(jìn)行卷積丟棄了3/4的特征信息。文獻(xiàn)[20]提出了全卷積網(wǎng)絡(luò)(fully convolutional network,FCN)模型,但執(zhí)行語(yǔ)義分割時(shí)無(wú)法充分輸出多尺度特征信息。文獻(xiàn)[21]在設(shè)計(jì)整體嵌套邊緣檢測(cè)(holistically-nested edge detection,HED)結(jié)構(gòu)時(shí),為了能夠處理多尺度變化問(wèn)題,在每個(gè)下采樣階段取出最后一層特征圖放入深監(jiān)督模塊進(jìn)行訓(xùn)練。文獻(xiàn)[22]采用更加豐富的卷積特征(richer convolutional features,RCF),進(jìn)一步加深淺層特征和深層語(yǔ)義之間的聯(lián)系。文獻(xiàn)[23]構(gòu)建了特征金字塔網(wǎng)絡(luò)(feature pyramid network,FPN),旨在影響卷積金字塔式的語(yǔ)義特征層次,反向建立一個(gè)含有高層次語(yǔ)義的特征金字塔。
文獻(xiàn)[24-26]利用注意力機(jī)制凸顯有用信息,同時(shí)抑制易干擾模型判斷的負(fù)面信息。其中文獻(xiàn)[24]提出了擠壓和激變網(wǎng)絡(luò)[24](squeeze-and-excitation network,SENet),由全局池化層和兩個(gè)全連接層獲取一組辨別通道特征重要程度的掩碼。
圖1展示了部分現(xiàn)場(chǎng)拍攝的軌道板裂縫,當(dāng)光線(xiàn)不足時(shí),裂縫與暗處融為一體,人工以及簡(jiǎn)單的模型難以區(qū)分背景和裂縫的邊界,因而無(wú)法有效檢測(cè)裂縫圖片。于是本文根據(jù)R-FCN[7]中感興趣區(qū)域(region of interest,ROI)的分值確定樣本類(lèi)別的判別方式,以多分類(lèi)器共同協(xié)作的方式完成樣本類(lèi)別決策。本文在訓(xùn)練階段變換輸入的圖像信息,從而使每個(gè)分類(lèi)器能依靠隨機(jī)的特征進(jìn)行分類(lèi)判決。這種采用圖像處理技術(shù)的非接觸式方法能夠簡(jiǎn)化檢測(cè)過(guò)程。為減少誤檢和漏檢現(xiàn)象,在分類(lèi)器中添加注意力機(jī)制進(jìn)行投票式裂縫檢測(cè),以此減弱圖像背景對(duì)裂縫檢測(cè)的影響程度,達(dá)到提升準(zhǔn)確率的目的。
圖1 不同光照環(huán)境下的軌道板裂縫Figure 1 Track slab crack under different photograph conditions
卷積神經(jīng)網(wǎng)絡(luò)在執(zhí)行N分類(lèi)任務(wù)時(shí),將高層抽象特征展開(kāi)或者執(zhí)行全局池化操作得到低維特征,滿(mǎn)足了全連接層的輸入要求。然而,這類(lèi)特征在形成過(guò)程中因失去原有的空間拓?fù)浣Y(jié)構(gòu)而喪失層次感。若分類(lèi)器用該特征向量執(zhí)行決策,則整個(gè)模型不能達(dá)到最優(yōu)解。為了在一定程度上解決上述問(wèn)題,本文提出了一種以特征組為單位的分類(lèi)投票機(jī)制。該機(jī)制的依據(jù)是高層特征圖中的特征點(diǎn)都具備一定的感受野,因此每個(gè)特征點(diǎn)都能用來(lái)描述局部圖像類(lèi)別的信息內(nèi)容,具體示意圖如圖2所示。
圖2 裂縫分組檢測(cè)示意圖Figure 2 Sketch map of crack detection in grouping stage
主干網(wǎng)絡(luò)對(duì)圖像進(jìn)行特征提取后可以獲取高層抽象特征圖u∈RC×m×m,再將所有通道上固定位置的特征點(diǎn)提取出來(lái)形成低維特征組vi∈R1×C,把分類(lèi)器和特征組相連接共得到M=m×m組N類(lèi)別預(yù)測(cè)結(jié)果,最后匯聚所有預(yù)測(cè)信息以強(qiáng)分類(lèi)的輸出作為當(dāng)前樣本的類(lèi)別概率。整個(gè)檢測(cè)流程如圖3所示。
圖3 裂縫檢測(cè)示意圖Figure 3 Schematic diagram of crack detection
圖4展示了在圖像分類(lèi)任務(wù)中兩種不同的處理高層特征圖的方法。圖(a)將特征圖壓縮成特征向量,然后將特征向量輸入全連接層用于分類(lèi)決策。圖(b)體現(xiàn)了本文的分組策略,首先提取相同位置的特征信息形成多個(gè)特征向量,隨后交由分類(lèi)器獨(dú)立預(yù)測(cè),最后匯總所有預(yù)測(cè)結(jié)果輸出最終的類(lèi)別。
圖4 兩種處理特征圖的方法Figure 4 Two methods of processing feature maps
不斷變換輸入圖像可以讓卷積神經(jīng)網(wǎng)絡(luò)獲得平移不變性。如果對(duì)不同的特征組采用權(quán)重參數(shù)共享策略,并將分類(lèi)器參數(shù)保持相對(duì)獨(dú)立,就可以有效減少模型在預(yù)測(cè)階段所需要的參數(shù)量。本文模型共設(shè)置3層全連接層,每層的節(jié)點(diǎn)變量分別為C1、C2、N,每層全連接所需要的參數(shù)量為輸入節(jié)點(diǎn)數(shù)量與輸出節(jié)點(diǎn)數(shù)量的乘積。
由于每個(gè)特征組的信息是獨(dú)有的,分類(lèi)器之間的性能會(huì)存在差異。為了減少這種差異對(duì)最終預(yù)測(cè)結(jié)果產(chǎn)生的負(fù)面影響,本文采用強(qiáng)分類(lèi)器匯聚弱分類(lèi)器信息的方式,以M個(gè)可學(xué)習(xí)參數(shù)θ來(lái)控制預(yù)測(cè)結(jié)果Z的大小,達(dá)到模型輸出最終類(lèi)別前能自動(dòng)識(shí)別有用信息的目的。軟投票分類(lèi)器的預(yù)測(cè)公式為
式中:f為預(yù)測(cè)函數(shù)。對(duì)于圖像分類(lèi)任務(wù),VGG[16]將特征圖u∈RC×m×m展開(kāi)成向量。默認(rèn)的全連接層包含4 096個(gè)節(jié)點(diǎn),即在分類(lèi)子網(wǎng)中C1=C2=4 096。分組模式與展開(kāi)方式在預(yù)測(cè)階段所需參數(shù)比例的計(jì)算公式為
由式(2)可知:當(dāng)全連接層的節(jié)點(diǎn)數(shù)量Ci固定時(shí),如果類(lèi)別數(shù)量N較少,那么R1≤1,說(shuō)明本文模型所需的參數(shù)數(shù)量較少。在具體實(shí)施過(guò)程中,本文模型將高層特征分為4組(即M為4)。在預(yù)測(cè)階段采用3層全連接層結(jié)構(gòu)執(zhí)行二分類(lèi)任務(wù)(即N為1),此時(shí)根據(jù)式(2)算得R1為0.75,即采用本文分類(lèi)方法能在全連接層結(jié)構(gòu)上減少約25%的參數(shù)。然而,各組特征值會(huì)重復(fù)進(jìn)入共享全連接層,導(dǎo)致模型整體的FLOPs消耗提升2倍,提升系數(shù)計(jì)算公式為
為了區(qū)分不同通道的重要性,根據(jù)文獻(xiàn)[24]把側(cè)重點(diǎn)轉(zhuǎn)移到不同通道之間的關(guān)系上,而并不局限于特征的空間關(guān)系、多尺度多層次的問(wèn)題上。整體執(zhí)行流程如圖5所示,SENet[24]中的注意力機(jī)制模塊以特征圖ui∈Rm×m作為輸入,隨后將每個(gè)特征圖的通道池化為一組實(shí)數(shù),接著調(diào)整參數(shù)將實(shí)數(shù)訓(xùn)練成通道對(duì)應(yīng)的權(quán)重,最后利用權(quán)重對(duì)特征通道加權(quán)。這樣模型可以突顯含有重要信息的特征通道,最終輸出層次較為分明的特征圖。整個(gè)注意力加權(quán)過(guò)程可簡(jiǎn)化為
圖5 SENet編碼示意圖Figure 5 SENet encoding diagram
為了專(zhuān)注于跨通道間的信息融合,本文把經(jīng)過(guò)1×1卷積核卷積后的特征圖作為注意力模塊的輸入,因?yàn)?×1卷積核只進(jìn)行通道之間的交流而不會(huì)去學(xué)習(xí)局部像素信息。
將每組特征預(yù)測(cè)子網(wǎng)看作相對(duì)獨(dú)立的弱分類(lèi)器,以加權(quán)方式聚合全局信息來(lái)預(yù)測(cè)結(jié)果,達(dá)到降低方差的目的。在訓(xùn)練階段,共有M個(gè)損失函數(shù)用于輔助更新各個(gè)分類(lèi)器的參數(shù)。若分類(lèi)器給出預(yù)測(cè)分值為[Z1,Z2,···,ZM],激活函數(shù)f(Z)以分值作為輸入,輸出預(yù)測(cè)概率表示當(dāng)前樣本是裂縫的可能性,則整個(gè)集成預(yù)測(cè)的具體公式為
式中:Sign為投票函數(shù)。本文采用的是軟投票的方式,輸入為各個(gè)分類(lèi)器預(yù)測(cè)的類(lèi)別概率,P為模型最終輸出的類(lèi)別概率。
本文采用NVIDIA RTX 2070驗(yàn)證本文算法。將ResNet-18[18]作為主干網(wǎng)絡(luò),取消全局平均池化層,再將該模型原本的分類(lèi)子網(wǎng)替換為分組投票式進(jìn)行預(yù)測(cè)。由于軌道裂縫檢測(cè)是二分類(lèi)任務(wù),模型采用sigmoid作為激活函數(shù),根據(jù)分類(lèi)器輸出的置信度判定當(dāng)前樣本是否為軌道裂縫。
本文以現(xiàn)場(chǎng)拍攝的800幅分辨率大小為1 200×1 400的軌道裂縫圖像作為原始數(shù)據(jù)集,利用圖像增強(qiáng)技術(shù)將原始數(shù)據(jù)集擴(kuò)充至5 000幅軌道板裂縫圖像。每幅圖像的大小為256×256,并加入5 000幅負(fù)樣本共同構(gòu)成軌道裂縫數(shù)據(jù)集,按照9∶1的比例劃分訓(xùn)練集和測(cè)試集。初始訓(xùn)練學(xué)習(xí)率為1×10?4,采用最大池化操作使特征圖分為4組特征向量和5個(gè)分類(lèi)器Mi,每個(gè)分類(lèi)器的訓(xùn)練曲線(xiàn)如圖6所示。
圖6 裂縫檢測(cè)訓(xùn)練曲線(xiàn)Figure 6 Training curve of crack detection
將部分裂縫特征圖可視化,如圖7所示。當(dāng)光線(xiàn)較為充足時(shí)(見(jiàn)第2行的4個(gè)小圖),主干網(wǎng)絡(luò)響應(yīng)了細(xì)微的裂縫。在夜晚拍攝時(shí),因?yàn)榕臄z時(shí)人工照明不均勻,所以圖像成像后的對(duì)比度較低,導(dǎo)致裂縫無(wú)法準(zhǔn)確識(shí)別。當(dāng)拍攝距離較近時(shí)(見(jiàn)第1行的4個(gè)小圖),模型仍然能夠識(shí)別出裂縫并給出響應(yīng);當(dāng)拍攝距離較遠(yuǎn)時(shí)(見(jiàn)第3行的4個(gè)小圖),模型已無(wú)法準(zhǔn)確辨別出裂縫區(qū)域,而錯(cuò)誤地響應(yīng)了右上角的區(qū)域;稍微拉近距離拍攝后(見(jiàn)第4行的4個(gè)小圖),模型雖然能夠準(zhǔn)確辨別橫向裂縫,但是對(duì)雨水沖刷形成的縱向污漬處響應(yīng)強(qiáng)烈。為了更好地觀察不同結(jié)構(gòu)對(duì)檢測(cè)準(zhǔn)確率的影響,本文將圖像增強(qiáng)技術(shù)和投票策略作為自變量進(jìn)行實(shí)驗(yàn)。模型在軌道板裂縫測(cè)試集的預(yù)測(cè)準(zhǔn)確率如表1所示,缺乏圖像增強(qiáng)技術(shù)和投票機(jī)制加持的模型預(yù)測(cè)結(jié)果較差,而僅加入圖像增強(qiáng)技術(shù)就能使準(zhǔn)確率提升7.90%,添置投票機(jī)制能再次提升1.60%的準(zhǔn)確率。
表1 不同條件下的裂縫檢測(cè)準(zhǔn)確率Table 1 Accuracy of crack detection under different conditions
圖7 裂縫特征圖可視化Figure 7 Visualization of crack feature maps
預(yù)測(cè)準(zhǔn)確率的影響因素除了模型的結(jié)構(gòu)外,還包括每一批訓(xùn)練的圖像數(shù)量。表2展示了批次大小對(duì)預(yù)測(cè)準(zhǔn)確率的影響,由表中數(shù)據(jù)可知:每一批輸入的圖像越多,在測(cè)試集上的預(yù)測(cè)準(zhǔn)確率就越高。因?yàn)檩斎雸D片的數(shù)量越多,模型越能擬合預(yù)測(cè)樣本,但是過(guò)多的圖像數(shù)據(jù)會(huì)加重內(nèi)存的負(fù)擔(dān)。
表2 批次大小對(duì)準(zhǔn)確率的影響Table 2 Inf luence of batch size on accuracy
本文從測(cè)試集選擇20幅圖像來(lái)測(cè)試不同模型的預(yù)測(cè)性能,圖8展示了所有模型的預(yù)測(cè)曲線(xiàn),橫坐標(biāo)為20幅圖像的編號(hào),縱坐標(biāo)為模型認(rèn)定該圖片為裂縫的預(yù)測(cè)概率P。圖(a)中的藍(lán)色曲線(xiàn)展示了ResNet-18[18]對(duì)裂縫測(cè)試圖像的預(yù)測(cè)結(jié)果,紅色曲線(xiàn)給出了每幅圖像的標(biāo)簽值。對(duì)比兩條曲線(xiàn)可以看出:該模型存在1/4的錯(cuò)誤預(yù)測(cè)概率,而從綠色曲線(xiàn)中可以得出正則化能夠提升模型預(yù)測(cè)準(zhǔn)確率的結(jié)論。其中,第4、6、10、11幅測(cè)試圖的背景在訓(xùn)練集中出現(xiàn)次數(shù)較少,導(dǎo)致多個(gè)模型均做出錯(cuò)誤判斷。正因?yàn)槿绱耍?dāng)模型過(guò)擬合時(shí),所有分類(lèi)器均錯(cuò)誤地認(rèn)為這4幅圖都是非裂縫圖的場(chǎng)景,如圖(b)所示。圖(c)給出了本文模型加入L2正則化后各個(gè)分類(lèi)器的預(yù)測(cè)曲線(xiàn)。對(duì)比圖(b)和圖(c)可以看出這種因樣本不均衡導(dǎo)致的誤判現(xiàn)象有所減緩,因?yàn)樘砑诱齽t化等訓(xùn)練策略后削弱了背景樣式對(duì)模型的影響。分類(lèi)器對(duì)第4幅和第6幅的預(yù)測(cè)概率約為0.40,并認(rèn)為第10幅和第11幅很有可能是裂縫圖。圖(d)展示了圖(a)和(c)模型的預(yù)測(cè)差值,其曲線(xiàn)較大浮動(dòng)處均為不均衡樣本的圖像。
圖8 20幅測(cè)試圖像在各個(gè)模型上的預(yù)測(cè)值Figure 8 Prediction curve of different models for 20 pictures
當(dāng)網(wǎng)絡(luò)隨機(jī)初始化參數(shù)時(shí),通常采用較大學(xué)習(xí)率輔助參數(shù)更新,但是在模型收斂階段可能導(dǎo)致?lián)p失函數(shù)一直處于局部極小值附近,于是文獻(xiàn)[27]提出了一種學(xué)習(xí)率回暖策略。在第1階段,學(xué)習(xí)率在前h次訓(xùn)練迭代時(shí)從0開(kāi)始線(xiàn)性增加到設(shè)定值,即每輪學(xué)習(xí)率的大小為其中i∈[1,h],l為初始值。在第2階段,迭代次數(shù)到達(dá)h′之前,保持學(xué)習(xí)率為預(yù)定大小,讓損失函數(shù)向極小值方向移動(dòng)。在第3階段,采用指數(shù)衰減法微調(diào)學(xué)習(xí)率,讓損失函數(shù)到達(dá)最小值。文獻(xiàn)[18]將初始學(xué)習(xí)率設(shè)為0.10,僅在第32 000次迭代和第48 000次迭代時(shí)將學(xué)習(xí)率除以10。文獻(xiàn)[28]提出了一種余弦退火策略,該方法根據(jù)余弦函數(shù)在[0,π]區(qū)間內(nèi)下降的特性,將下降周期d與整體迭代次數(shù)g的關(guān)系映射到這個(gè)區(qū)間中,具體計(jì)算公式為
為了進(jìn)一步防止網(wǎng)絡(luò)在訓(xùn)練后期出現(xiàn)學(xué)習(xí)率過(guò)低、無(wú)法跳出局部最優(yōu)解的情況。本文在余弦退火法的基礎(chǔ)上采用了多項(xiàng)式衰減法,幫助網(wǎng)絡(luò)獲得最佳檢測(cè)能力。當(dāng)時(shí),將再一次進(jìn)入衰減周期,在接下來(lái)的迭代過(guò)程中將基礎(chǔ)學(xué)習(xí)率設(shè)為原來(lái)的rd倍,同時(shí)將下降周期也延長(zhǎng)為ru倍。
在軌道板裂縫檢測(cè)實(shí)驗(yàn)中,本文將rd設(shè)置為0.70,ru設(shè)置為2.00,模型迭代次數(shù)h和h′分別設(shè)置為35和50,則整個(gè)訓(xùn)練階段學(xué)習(xí)率的變化函數(shù)為
本文以交叉熵作為損失函數(shù),用梯度下降法優(yōu)化參數(shù)。在實(shí)驗(yàn)過(guò)程中,批歸一化(batch normalization,BN)層[29]用來(lái)加速損失函數(shù)的收斂過(guò)程,同時(shí)將所有卷積核中的偏置項(xiàng)初始化為0??紤]到激活函數(shù)和網(wǎng)絡(luò)參數(shù)的適應(yīng)性,將he_normal[30]作為卷積核參數(shù)的初始化方式。
在實(shí)驗(yàn)過(guò)程中發(fā)現(xiàn):若直接將原始圖像輸入模型,則會(huì)產(chǎn)生過(guò)擬合現(xiàn)象。盡管模型在訓(xùn)練集上的預(yù)測(cè)效果較好,但在測(cè)試集上的預(yù)測(cè)表現(xiàn)糟糕。本文決定借鑒與文獻(xiàn)[31]相似的圖像增強(qiáng)方式,即隨機(jī)將原圖縮放0.8~1.5倍,隨機(jī)位置裁剪,隨機(jī)旋轉(zhuǎn)以及翻轉(zhuǎn)。圖像增強(qiáng)技術(shù)支持分配隨機(jī)特征給各個(gè)分類(lèi)器,達(dá)到加強(qiáng)模型整體魯棒性、避免過(guò)擬合的目的。
為了進(jìn)一步證明投票機(jī)制有助于提升模型在分類(lèi)問(wèn)題上的預(yù)測(cè)準(zhǔn)確率,本節(jié)選擇ResNet-18[18]和VGG-16[16]作為主干網(wǎng)絡(luò)測(cè)試CIFAR-10和CIFAR-100[32]的數(shù)據(jù)集。這兩類(lèi)數(shù)據(jù)集分別擁有10和100個(gè)數(shù)據(jù)類(lèi)別,每類(lèi)有5 000幅和500幅圖片用于訓(xùn)練,則用于訓(xùn)練的圖片共50 000幅,測(cè)試圖片有10 000幅。在使用VGG-16[16]為主干網(wǎng)絡(luò)進(jìn)行消融實(shí)驗(yàn)時(shí),為避免只有一個(gè)分組,采用雙線(xiàn)性插值法將原圖像分辨率擴(kuò)大至64×64。因?yàn)閷儆诙喾诸?lèi)問(wèn)題,所以將Softmax函數(shù)充當(dāng)分類(lèi)器激活函數(shù),直接采用軟投票分類(lèi)器作為最終輸出。經(jīng)實(shí)驗(yàn)發(fā)現(xiàn):模型添加了投票機(jī)制策略能在CIFAR-10測(cè)試集上達(dá)到93.40%的準(zhǔn)確率,在CIFAR-100測(cè)試集上達(dá)到70.13%的準(zhǔn)確率。
相比于單個(gè)分類(lèi)器進(jìn)行預(yù)測(cè)的方法[15,18,31,33-34],本文致力于提升現(xiàn)有模型的預(yù)測(cè)準(zhǔn)確率,而非超越最先進(jìn)的模型。表3列舉了8種模型在CIFAR[32]數(shù)據(jù)集上的準(zhǔn)確率。以ResNet-18[18]作為主干網(wǎng)絡(luò),加入投票機(jī)制能提升0.37%的準(zhǔn)確率。從表3中可以看出:本文模型雖然在CIFAR-10測(cè)試集上的準(zhǔn)確率低于ALL-CNN[34],但在CIFAR-100測(cè)試集的準(zhǔn)確率較高。
表3 CIFAR-10&CIFAR-100的分類(lèi)準(zhǔn)確率對(duì)比Table 3 Contrast of classif ication accuracy between CIFAR-10 and CIFAR-100 %
以VGG為主干網(wǎng)絡(luò),各組不同準(zhǔn)確率的弱分類(lèi)器在CIFAR[32]測(cè)試集上的損失程度如圖9所示。由圖9可以看出:即使是最終預(yù)測(cè)準(zhǔn)確率最高的模型(藍(lán)色曲線(xiàn)),所對(duì)應(yīng)的第1個(gè)和第3個(gè)弱分類(lèi)器的預(yù)測(cè)損失率也是最高的。
圖9 各個(gè)弱分類(lèi)器的預(yù)測(cè)損失值Figure 9 Loss of each weak classif ier
以CIFAR-10[32]測(cè)試集中準(zhǔn)確率最高的模型為例,該模型下所有分類(lèi)器的預(yù)測(cè)準(zhǔn)確率如圖10所示,其中圖(a)和(c)對(duì)應(yīng)分類(lèi)器的預(yù)測(cè)準(zhǔn)確率較低,加入投票機(jī)制可以有效地集成弱分類(lèi)器結(jié)果而自動(dòng)過(guò)濾掉錯(cuò)誤信息,達(dá)到提升最終分類(lèi)器預(yù)測(cè)準(zhǔn)確率的目的。
圖10 分類(lèi)器在CIFAR-10上的表現(xiàn)Figure 10 Performance of classif iers in CIFAR-10
3.3.1 結(jié)構(gòu)對(duì)測(cè)試準(zhǔn)確率的影響
本節(jié)添加了消融實(shí)驗(yàn)來(lái)量化分析在通道加權(quán)前小卷積核對(duì)準(zhǔn)確率的貢獻(xiàn)程度,結(jié)果如表4所示。因?yàn)槲墨I(xiàn)[16]沒(méi)有給出具體值,所以表中baseline的準(zhǔn)確率是基于當(dāng)前學(xué)習(xí)環(huán)境下多次訓(xùn)練得出的最佳值。在該結(jié)構(gòu)上添加投票模塊后能提升0.50%的準(zhǔn)確率,在通道加權(quán)前添加1×1卷積核能再提升0.10%的準(zhǔn)確率。僅添加投票模塊的對(duì)比模型得不到層次分明的特征圖,同時(shí)缺乏可學(xué)習(xí)得到的平移不變性,因此導(dǎo)致模型的泛化能力和預(yù)測(cè)準(zhǔn)確率較差;SENet[24]會(huì)使模型出現(xiàn)過(guò)擬合現(xiàn)象,進(jìn)而影響模型在測(cè)試集上的預(yù)測(cè)準(zhǔn)確率。
表4 不同的結(jié)構(gòu)和訓(xùn)練策略在CIFAR-10上的表現(xiàn)Table 4 Performance in CIFAR-10 with different structures and training tactics
3×3卷積核相比于1×1卷積核,其優(yōu)勢(shì)在于能夠?qū)W習(xí)局部的信息??紤]到模型的輸入大小為64×64,經(jīng)過(guò)5次下采樣后得到的特征圖u∈IRC×2×2。如果采用較大卷積核進(jìn)行卷積填充,那么特征圖中每個(gè)特征點(diǎn)已經(jīng)擁有了全局感受野,此時(shí)本文提出的由不完全相同感受野的特征組共同決定類(lèi)別的集成理念就不再適用,因此采用3×3卷積核的模型在性能方面不如采用1×1卷積核的模型。
將本文提出的投票機(jī)制策略和圖像增強(qiáng)技術(shù)進(jìn)行疊加,添加2個(gè)大小為1×1的卷積層可以讓模型的準(zhǔn)確率最多提升2.80%。應(yīng)該明確的是:卷積操作需先于注意力加權(quán)執(zhí)行,使后續(xù)的特征圖層次分明。若在注意力加權(quán)后再進(jìn)行卷積,則會(huì)使通道信息重新交互,破壞已經(jīng)形成的對(duì)比度。
3.3.2 節(jié)點(diǎn)數(shù)量對(duì)測(cè)試準(zhǔn)確率的影響
全連接層的節(jié)點(diǎn)數(shù)量同樣也會(huì)影響最終的分類(lèi)準(zhǔn)確率,節(jié)點(diǎn)數(shù)量過(guò)少可能使模型分類(lèi)不穩(wěn)定,而節(jié)點(diǎn)數(shù)量過(guò)多可能造成不必要的計(jì)算開(kāi)支。在VGG[16]模型中,全連接層的節(jié)點(diǎn)數(shù)量為4 096。為了討論本文模型在共享全連接層中的節(jié)點(diǎn)數(shù)量對(duì)測(cè)試集的影響,測(cè)試節(jié)點(diǎn)數(shù)量分別為4 096、2 048、1 024時(shí)的準(zhǔn)確率,詳細(xì)結(jié)果如表5所示。當(dāng)設(shè)置節(jié)點(diǎn)數(shù)量為4 096時(shí),準(zhǔn)確率能夠達(dá)到最佳,相比節(jié)點(diǎn)數(shù)量為1 024和2 048時(shí)分別提升了1.20%和1.00%,但模型的參數(shù)量增長(zhǎng)了102.97%和66.34%。
表5 節(jié)點(diǎn)數(shù)量對(duì)模型及其準(zhǔn)確率的影響Table 5 Inf luence of node number on model and its accuracy
為了減少軌道板裂縫檢測(cè)上的漏檢和誤檢測(cè)現(xiàn)象,本文提出了一種結(jié)合投票機(jī)制和注意力機(jī)制的卷積神經(jīng)網(wǎng)絡(luò)。首先通過(guò)注意力機(jī)制突出有用特征,選擇隨機(jī)特征進(jìn)行分組;然后連接弱分類(lèi)器分組訓(xùn)練;最后由強(qiáng)分類(lèi)器匯總?cè)醴诸?lèi)器的結(jié)果信息并輸出類(lèi)別概率。相比于其他的裂縫檢測(cè)方式,該模型在軌道板裂縫測(cè)試集上能達(dá)到96.80%的準(zhǔn)確率,在CIFAR-10和CIFAR-100測(cè)試集上的準(zhǔn)確率能分別達(dá)到93.40%和70.13%,并且可以避免手動(dòng)提取特征和單一分類(lèi)器分類(lèi)決策,在執(zhí)行類(lèi)別較少的分類(lèi)任務(wù)時(shí)能夠有效降低整個(gè)模型的復(fù)雜度并減少參數(shù)數(shù)量。