黃翰鵬,羅建橋,李柏林
(西南交通大學機械工程學院,成都 610031)
鐵路運維工作中重要環(huán)節(jié)之一是檢查用于固定鋼軌的鐵路扣件工作狀態(tài),一般包括正常、斷裂、丟失、遮擋4種,如圖1所示。由于戶外光照變化、局部道砟遮擋的廣泛存在,正??奂菀妆徽`判為失效狀態(tài),造成大量誤檢。目前,扣件視覺檢測方法主要通過設計判別性的特征,來確保及時發(fā)現(xiàn)失效扣件[1-4]。這些方法有效降低了失效扣件的漏檢率,卻未針對性地解決正??奂`檢問題。雖然卷積神經(jīng)網(wǎng)絡(Convolutional Neural Networks,CNN)能夠自動學習圖像特征,但依然無法克服扣件誤檢問題。這是因為包含大量參數(shù)的CNN往往快速且充分地擬合到訓練數(shù)據(jù)上,導致了CNN過擬合問題,削弱了網(wǎng)絡泛化能力。即使正常扣件圖像發(fā)生細微變化,例如少量道砟,過擬合的網(wǎng)絡也會將扣件誤判為失效。采用單一圖像標簽訓練網(wǎng)絡是造成過擬合的重要原因,標簽平滑被證明可有效緩解過擬合問題[5-6]。因此,針對扣件狀態(tài)設計合理的標簽平滑方式是解決誤檢問題的關鍵。
圖1 鐵路扣件示意
標簽分布學習(label distribution learning,LDL)是一種標簽平滑手段,通過為每個訓練樣本賦予一個標簽分布向量對單標簽進行平滑,解決了傳統(tǒng)單標簽學習中存在的標簽歧義問題,同時,相比單標簽學習,標簽分布學習能夠緩解單標簽學習的過擬合問題,提高模型適應性[7]。標簽分布向量取代了傳統(tǒng)單標簽,向量內元素代表對每種分類狀態(tài)的描述程度,常應用于面部年齡估計、頭部姿態(tài)估計等領域[8-14]。一般的,LDL基于高斯分布,圖2(a)顯示了年齡估計任務中常用的標簽分布,年齡估計任務中之所以能夠直接使用高斯分布,是因為面部特征的時序性及相近年齡的特征相似性,高斯分布能夠準確且合理表達樣本標簽。但并不是所有任務都能夠直接使用高斯分布等現(xiàn)有分布,扣件狀態(tài)就無法像年齡分布一樣將真實年齡平滑至附近年齡,故針對不同問題,合理的分布構建方法是LDL的主要限制。
針對扣件誤檢問題,結合DS理論(Dempster Shafer,DS)融合多個層次的語義多項式(Semantic Multinomial,SMN)形成扣件狀態(tài)分布,提出基于層次語義多項式DS融合的扣件狀態(tài)分布學習方法(SMN-DS)。首先,根據(jù)圖像子塊卷積特征構造圖像語義多項式SMN,表達扣件狀態(tài)分布;然后,提取多層卷積特征分別建立SMN,對層次化SMN進行DS融合形成最終的狀態(tài)分布。狀態(tài)分布用于模型訓練,測試階段以概率最大的狀態(tài)作為檢測結果。算法流程如圖3所示。
與關注特征的現(xiàn)有方法不同,所提算法改進樣本的標簽表達,目的是建立狀態(tài)分布表達圖像語義內容。如圖2(b)所示,狀態(tài)分布不僅表達了正常狀態(tài),而且反映了扣件被道砟遮擋。將正常狀態(tài)上的標簽值平滑到遮擋狀態(tài),是為了提高模型適應性,防止含有少量道砟的正常扣件被誤檢。
圖2 狀態(tài)分布及圖像
圖3 SMN-DS算法流程
將LDL遷移到扣件檢測任務需要構造扣件狀態(tài)分布來表達圖像語義內容。為此,提出基于SMN-DS的扣件狀態(tài)分布構造方法。
SMN是一種基于子塊的弱監(jiān)督學習方法,根據(jù)每個子塊的類別概率計算圖像的語義分布。采用這種弱監(jiān)督的語義表達可提高模型適應性[15-19]。構造SMN步驟如下。
首先,將任意類別c=1~C建模成關于子塊的概率分布。類別c可表示成混合高斯模型
(1)
(2)
(3)
然后,進行歸一化
(4)
由于僅指定了圖像類別,未給出子塊類別,因此,SMN是關于子塊的弱監(jiān)督學習。圖像語義分布由所有子塊信息共同決定。如圖2(b)所示,道砟區(qū)域的子塊表達了遮擋狀態(tài),扣件彈條和螺母區(qū)域的子塊則反映了正??奂顟B(tài)。對應的圖像狀態(tài)分布同時表達了多種狀態(tài)。
不同層次的卷積特征具有互補的表達能力?;谥械蛯犹卣鞯腟MN,根據(jù)灰度、方向等底層信息表達圖像語義分布,基于高層特征的SMN,則從更加抽象的角度反映扣件狀態(tài)分布。因此,融合不同層次的SMN,可提高表達圖像內容的能力。
m1⊕m2⊕…⊕mn(A)=
(5)
式中,mn(A)為第n個SMN對狀態(tài)A的基本概率;K為歸一化系數(shù),計算方式如下
(6)
證據(jù)合成即為層次SMN融合方式,可得
(7)
(8)
從狀態(tài)分布可視化、學習曲線分析、分類性能對比3個方面進行算法驗證。
數(shù)據(jù)集來自滬昆線云南至大理路段扣件圖像,正常/斷裂/丟失/遮擋樣本數(shù)量分別為8 375,723,420,824。數(shù)據(jù)集隨機劃分為訓練集、驗證集、測試集。訓練、驗證集中各類樣本數(shù)量分別為200,100。測試集包含“正?!? 000張,“斷裂”200張,“丟失”50張,“遮擋”200張。實驗測試集“正?!睌?shù)量遠大于其他狀態(tài)數(shù)量的原因在于,“正?!笨奂徽`檢為其他狀態(tài),是影響扣件分類準確率的最主要因素,同時也是扣件分類問題的重難點,故設置較多“正?!笨奂y試集。
算法參數(shù)方面,為防止高斯混合模型在訓練中停留在局部最小值的問題,SMN中的高斯分量K應大于扣件類別4,但不應過大,從而加大計算量且對上述問題也無明顯改善。故將高斯分量K設置為5,初始模型選用ImageNet上的預訓練VGG-16模型。采用SGD訓練模型100個epoch,學習率、動量、權重衰減、批量分別為0.001,0.95,0.000 5和8,算法實現(xiàn)基于Python和Pytorch。
為分析所提算法表達圖像內容的能力,圖4展示了20個扣件樣本構造的狀態(tài)分布及其部分對應的圖像,左側為扣件圖像,黑色直線連接了該張扣件圖片對應的狀態(tài)分布,狀態(tài)分布內各元素大小如右側映射表所示。如圖4所示,紅色虛線框內為兩張“正?!笨奂D像,區(qū)別為下方扣件存在少量道砟。通過這兩張“正常”扣件的狀態(tài)分布可知,SMN能夠保證對扣件真實標簽狀態(tài)描述的準確性,“正?!痹貫闋顟B(tài)分布內最大元素。同時,從第2張扣件圖像的狀態(tài)分布看出,因存在少量道砟,引起了“遮擋”元素標簽值的變化,該張圖像“遮擋”元素的標簽值明顯大于無道砟“正?!笨奂摹罢趽酢痹貥撕炛?。第10張樣本為“斷裂”扣件,從“斷裂”扣件構建的狀態(tài)分布可以看出,“斷裂”標簽值大于其他非真實狀態(tài)標簽值,但由于“斷裂”圖像與“正?!眻D像整體相似,僅在局部彈條區(qū)域存在差異,故部分“斷裂”樣本的狀態(tài)分布中,“正?!睜顟B(tài)的標簽值相較于其他非真實標簽值可能較大。第14張為“丟失”扣件,由于“丟失”樣本與其他三類有明顯區(qū)別,故標簽紙集中在“丟失”狀態(tài)。對于“遮擋”樣本,扣件標簽值主要集中在“遮擋”狀態(tài)上,但由于道砟遮擋程度的不一致,導致裸露出的扣件彈條面積不同,造成“正?!睒撕炛禃霈F(xiàn)較大變化。例如:第18張“遮擋”樣本,由于圖像上有部分區(qū)域能夠明顯看出扣件彈條的外觀輪廓,故“正?!睒撕炛颠_到了0.2。因此,基于SMN-DS的扣件狀態(tài)分布,能夠自適應地描述圖像內容,實現(xiàn)標簽平滑。
圖4 部分狀態(tài)分布可視化
為分析狀態(tài)分布在緩解訓練過擬合方面的效果,圖5畫出了網(wǎng)絡學習階段訓練集和驗證集上的精度曲線。精度=分類正確樣本數(shù)量/總樣本數(shù)量。采用單標簽訓練的VGG-16時,精度收斂迅速,在15Epoch就接近收斂,訓練精度接近飽和(接近100%),但驗證精度在較低水平停止變化,約為95%。飽和的訓練精度和較低的驗證精度說明單標簽引起了過擬合問題,模型適應性差。對比而言,SMN-DS的訓練精度緩慢收斂到較低水平,約98%,但驗證精度明顯超過VGG-16。因此,SMN-DS縮小了訓練精度和驗證精度的差異,表明過擬合問題得到緩解,網(wǎng)絡適應新樣本的泛化能力提高。
圖5 學習曲線對比
為分析SMN-DS的扣件狀態(tài)分類性能,表1列出了近年來不同方法的分類結果。其中,正??奂活A測為其他狀態(tài)稱為誤檢,誤檢率=誤檢圖像數(shù)量/正常扣件總數(shù)×100%;扣件若斷裂、丟失、遮擋被預測為正常稱為漏檢,漏檢率=漏檢圖像數(shù)量/失效扣件總數(shù)×100%。
表1 扣件狀態(tài)分類性能對比
表1中序號1將方向梯度直方圖作為其算法底層特征,并用其訓練高斯混合部件模型;序號2通過固有頻率的頻譜特征訓練SVM判斷扣件狀態(tài);序號3通過K-means算法提取視覺單詞,然后描述為LDA主題模型,最后使用SVM訓練LDA主題分布判斷扣件;序號4直接使用初始模型VGG-16;序號5為改進YOLOv3算法;序號6~8采用單一卷積特征構造狀態(tài)分布;序號9為本文所提算法。表1數(shù)據(jù)為測試集分類結果,為5次隨機數(shù)據(jù)劃分實驗的平均值。
從表1可知,所有方法漏檢率均較低,說明扣件的失效種類容易判別,扣件分類的難點在于降低誤檢率。序號1~2皆是對扣件進行正負二類判斷,分類類別少,誤檢率較高;基于特征工程的序號3分類性能較高,但扣件局部特征編碼導致了較大的計算量;序號4~5是基于深度學習的分類方法,二者在訓練過程中都出現(xiàn)了過擬合現(xiàn)象,導致測試集分類性能不佳;采用狀態(tài)分布的方法序號6~8,誤檢率皆低于使用單一標簽的VGG-16及YOLOv3,說明SMN能夠起到標簽平滑的作用,緩和了過擬合問題。而對比方法6~8實驗結果,高層SMN模型的分類性能弱于低層SMN模型和中層SMN模型,這是因為高層卷積特征的感受野寬,容易丟失局部圖像特征,造成狀態(tài)分布僅反映與單標簽相同的全局信息。從實驗結果上判斷,SMN-DS的性能最佳,說明基于狀態(tài)分布訓練的模型適應性強,大幅降低了誤檢。
針對扣件狀態(tài)檢測中誤檢率高的問題,提出基于SMN-DS的狀態(tài)分布構造算法,根據(jù)圖像子塊卷積特征構造樣本SMN,然后融合不同層次卷積特征生成的SMN。所提算法與現(xiàn)有關注特征工程及改進深度學習網(wǎng)絡的方法不同,從平滑標簽的角度出發(fā),緩和了傳統(tǒng)深度卷積網(wǎng)絡訓練過程中過擬合的現(xiàn)象,從而提高了模型分類性能。結論如下。
(1)融合后的SMN能夠自適應表達圖像內容,實現(xiàn)了標簽平滑。
(2)構造的狀態(tài)分布可緩解訓練過擬合問題,提高了模型適應性。
(3)相比單標簽,SMN-DS減少降低了扣件誤檢。
SMN-DS的不足之處是需對狀態(tài)分布進行人工校正。下階段計劃改進SMN中的弱監(jiān)督學習方法,使求解的類別模型能夠保證狀態(tài)分布中樣本真實狀態(tài)具有最高概率。