蔣麗潔, 柴曉冬,李立明, 鄭樹彬
(上海工程技術(shù)大學(xué) 城市軌道交通學(xué)院, 上海 201620)
隨著科技的進(jìn)步,提出將圖像處理與機(jī)械化鐵路巡檢結(jié)合起來,通過研究接觸網(wǎng)立柱信息,完成對接觸網(wǎng)立柱或標(biāo)識牌數(shù)字信息的識別,最終達(dá)到軌道區(qū)間定位的目的。武翔宇等應(yīng)用Hough直線檢測的接觸網(wǎng)支柱定位方法,利用HOG特征和SVM分類器結(jié)合的方式成功完成支柱號碼牌識別[1],其缺點是需要大量的正負(fù)樣本來收集特征;徐可佳將4C系統(tǒng)所拍攝接觸網(wǎng)支柱號作為研究對象,設(shè)計了基于Faster R-CNN的深度學(xué)習(xí)算法[2],但圖像分辨率不高;劉華春等采用視覺顯著性檢測算法定位車牌[3];陳曦等利用顯著性檢測算法自動過濾不感興趣區(qū)域的干擾,高效的計算方式減少計算資源的浪費(fèi)[4];姜博文等將馬爾可夫鏈與先驗知識融合,擺脫前景區(qū)域的影響[5]。
對圖像簡單線性迭代(simple linear iterative cluster ,SLIC)超像素分割后,本文提出利用吸收馬爾可夫鏈的顯著性檢測,對接觸網(wǎng)立柱區(qū)域初步定位,將接觸網(wǎng)區(qū)域進(jìn)行前景分割后,排除一切背景的干擾,利用基于MLP分類器的算法對接觸網(wǎng)標(biāo)識牌信息進(jìn)行識別,為地鐵線路的軌道區(qū)間定位提供新思路,識別過程算法如圖1所示。
為了構(gòu)造吸收馬爾可夫鏈的顯著性檢測模型,首先利用強(qiáng)健的背景先驗的算法來選擇吸收節(jié)點,以吸收馬爾科夫鏈中的轉(zhuǎn)移節(jié)點到吸收節(jié)點的被吸收時間作為轉(zhuǎn)移節(jié)點的顯著值。
邊界連通性是衡量圖像中區(qū)域連接到邊界程度的標(biāo)準(zhǔn)。由于SLIC超像素分割是在CIELAB顏色空間內(nèi)進(jìn)行的,節(jié)點間的權(quán)重dapp(p,q)以歐氏距離算法來計算。相應(yīng)的,根據(jù)節(jié)點間沿最短路徑累積邊界權(quán)重來計算兩節(jié)點的測地線距離公式(1):
(1)
其中,n代表最短路徑經(jīng)過的節(jié)點個數(shù),定義該式中dgeo(p,p)=0。
圖1 識別過程算法
邊界連通性定義公式為式(2)、式(3),N是擴(kuò)展的超像素數(shù)目,圖像邊界的像素塊δ(·)=1,σclr=10。
(2)
(3)
(4)
判斷邊界中像素節(jié)點是否為背景的不等式(5),記寬度為d個像素的邊界中超像素的個數(shù)為K。本文取β=0.8。
(5)
根據(jù)邊界節(jié)點選擇方式,對超像素數(shù)目為625和200圖像做邊界選擇,選出的背景集合,如圖2所示。在原圖(a)中,接觸網(wǎng)立柱區(qū)域處在圖像邊界,通過該方法很好的把立柱篩選出來。
圖2 基于強(qiáng)健的背景先驗的邊界選擇
設(shè)吸收馬爾可夫鏈的狀態(tài)集合S={s1,s2,…,sn}中,吸收狀態(tài)與轉(zhuǎn)移狀態(tài)的數(shù)目分別為k和m,將轉(zhuǎn)移狀態(tài)放在吸收狀態(tài)之前,則矩陣P的標(biāo)準(zhǔn)形式如式(6)所示:
(6)
其中,轉(zhuǎn)移狀態(tài)間、轉(zhuǎn)移狀態(tài)與吸收狀態(tài)間的概率轉(zhuǎn)移矩陣分別為Q∈[0,1]m*m,R∈[0,1]m*k。
該鏈的基本矩陣N,計算公式如式(7)所示:
N=(I-Q)-1=I+Q+Q2+….
(7)
元素nij(nij∈N)描述的是起始狀態(tài)為si,被吸收之前經(jīng)歷過轉(zhuǎn)移狀態(tài)sj的期望時間,行和∑jnij揭示了被吸收之前,從狀態(tài)si出發(fā)經(jīng)歷所有轉(zhuǎn)移狀態(tài)的期望時間。每個轉(zhuǎn)移狀態(tài)的期望吸收時間組成向量為式(8):
y=N×c.
(8)
其中,c為m維的單位列向量。
為了確保邊界節(jié)點的顯著值能夠計算,復(fù)制圖像的邊界節(jié)點作為虛擬吸收節(jié)點,圖3為復(fù)制邊界后建立的包含虛擬吸收節(jié)點的圖模型G=(V,E),無向邊構(gòu)成集合E,超像素作為節(jié)點V。
圖3 吸收馬爾可夫鏈的虛擬吸收節(jié)點
邊的權(quán)重wi,j的計算公式為式(9):
(9)
其中ci,cj分別表示節(jié)點在CIELAB顏色空間的均值,權(quán)重的控制力度由常數(shù)σ=0.05來把握。
重新排列新的圖模型對應(yīng)的關(guān)聯(lián)矩陣A=(aij),使得在矩陣A中t個轉(zhuǎn)移節(jié)點在前,r個吸收節(jié)點在后,aij為新圖模型中相鄰節(jié)點之間的相關(guān)性,i相鄰節(jié)點集合N(i)。
(10)
對角矩陣D=diag(∑jaij)表示連接到每個節(jié)點的權(quán)重之和。
在該圖模型下吸收馬爾可夫鏈的概率轉(zhuǎn)移矩陣P的計算公式為式(11):
P=D-1×A.
(11)
已知轉(zhuǎn)移節(jié)點與吸收節(jié)點的個數(shù)分別為t和r,依據(jù)公式(8)可以提取矩陣Q,進(jìn)一步得到基本矩陣N=(I-Q)-1,利用公式(10)計算每個節(jié)點被不同吸收節(jié)點的吸收時間y,最后對時間y進(jìn)行歸一化處理得到每個節(jié)點的顯著值,式(12):
(12)
實驗結(jié)果顯示排除包括樹木在內(nèi)的背景的干擾,完成立柱定位檢測,如圖4所示。
圖4 顯著性檢測結(jié)果
對顯著圖通過立柱標(biāo)識牌的幾何特征包括區(qū)域面積、周長、矩形度和致密程度在內(nèi)的特征值,進(jìn)一步分割得到標(biāo)識牌區(qū)域,如圖5所示。
圖5 標(biāo)識牌區(qū)域分割
獲取標(biāo)識牌區(qū)域之后,需要對單個字符進(jìn)行分割,像素投影法算法簡單、速率快,能夠達(dá)到本文快速識別算法的要求。首先,二值化標(biāo)識牌區(qū)域,使得數(shù)字區(qū)域轉(zhuǎn)化為白色像素點,其余區(qū)域為黑色。垂直投影是統(tǒng)計二值圖中每列的白色像素,將投影曲線用函數(shù)的形式表示出來,函數(shù)圖像會出現(xiàn)明顯的波峰波谷,波谷代表白色像素為0的某列,即數(shù)字的分割點。垂直投影得到的函數(shù)圖像如圖6所示。
從圖6可以看出,標(biāo)識牌中3個數(shù)字區(qū)域?qū)?yīng)像素投影函數(shù)圖中3個連續(xù)的波形區(qū)域,數(shù)字間隔對應(yīng)像素投影函數(shù)圖的波谷。以垂直投影圖中波谷對應(yīng)的列數(shù)對標(biāo)識牌進(jìn)行分割,分割結(jié)果如圖7所示。
為了規(guī)避標(biāo)識牌區(qū)域小、像素值不高的問題,通過多層感知機(jī)神經(jīng)網(wǎng)絡(luò)(Multi-Layer Perceptron, MLP)分類器,將每個標(biāo)識牌區(qū)域的紋理特征作為訓(xùn)練樣本,合理的選擇神經(jīng)網(wǎng)絡(luò)模型的參數(shù),最終輸出識別結(jié)果。
(a) 標(biāo)識牌“111”
(b) 標(biāo)識牌“194”
圖7 數(shù)字分割結(jié)果
提取圖像局部紋理特征,可以用局部二值模式(Local Binary Pattern,LBP)描述子來描述。LBP模式的基本操作單元是小鄰域內(nèi)的圖像紋理,具有計算量小、旋轉(zhuǎn)不變性和灰度不變性等優(yōu)點[6]。
(13)
(14)
旋轉(zhuǎn)不變統(tǒng)一模式的計算公式為式(15):
(15)
將提取得到的特征值轉(zhuǎn)化為LBP直方圖,數(shù)字“1”、“9”、“4”的標(biāo)識牌樣本圖的LBP圖譜如圖8所示,降維處理之后的特征直方圖維數(shù)為32。
圖8 LBP特征圖譜
多層感知器(MLP)層間連接方式是全連接。輸入特征向量X、層與層之間的權(quán)重W與偏置b、激勵函數(shù)是MLP神經(jīng)網(wǎng)絡(luò)最主要的參數(shù),通過公式(16)可了解基本MLP模型的數(shù)學(xué)關(guān)系,Softmax(·)代表輸出層的邏輯回歸函數(shù)。
y(x)=Softmax(b2+W2(f(W1X+b1))).
(16)
在MLP神經(jīng)網(wǎng)絡(luò)模型中,為了改變線性規(guī)則需要添加激活函數(shù)(Activation Function),使得輸出結(jié)果與特征存在非線性相關(guān),本文采用Sigmod (S型) 激活函數(shù)。該激活函數(shù)與其導(dǎo)函數(shù)可表示為式(17):
(17)
MLP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程就是調(diào)整邊界權(quán)重與偏置參數(shù)的過程,最終結(jié)果是使得總均方誤差盡可能小。本文所用BP算法是最經(jīng)典的訓(xùn)練算法,以輸入層到隱含層為代表,參數(shù)更新如下:
將輸入層、隱含層的節(jié)點分別定義為xi,hj,層間節(jié)點的權(quán)值定義為wxi,hj,層與層之間權(quán)重更新如(18):
(18)
其中,隱藏層的學(xué)習(xí)率為ηxi,hj。
將隱含層偏置定義為bh,則輸入到隱含層的偏置的更新為公式(19):
(19)
其中,該層偏置的學(xué)習(xí)率為ηh。
本文采用均方誤差(Mean Squared Error, MSE)作為誤差估計的方法,用來測試網(wǎng)絡(luò)的訓(xùn)練性能,MSE的數(shù)學(xué)計算公式如(20)所示:
(20)
其中,h(x)、outoi分別為輸出層的輸出數(shù)據(jù)與期望輸出數(shù)據(jù),則N類輸出的總均方誤差公式為式(21):
(21)
本實驗研究對象為一段基于接觸網(wǎng)立柱的短視頻,將數(shù)字圖像尺寸統(tǒng)一調(diào)整到50×120的像素大小,經(jīng)過對各類數(shù)字的紋理特征提取,輸入層特征向量維度為10×32,輸出層即為“0-9”十類。
神經(jīng)網(wǎng)絡(luò)模型搭建完成后,對標(biāo)識牌區(qū)域測試集和樣本集進(jìn)行特征提取,訓(xùn)練得到的特征,其訓(xùn)練誤差曲線如圖9所示。將誤差目標(biāo)設(shè)定為0.001,經(jīng)過168次迭代后,誤差小于設(shè)置的目標(biāo)值,MLP分類器訓(xùn)練截止,輸入測試集對標(biāo)識牌信息識別。
圖9 誤差曲線
為了解決圖像數(shù)據(jù)集過少的問題,標(biāo)識牌區(qū)域旋轉(zhuǎn)合并到數(shù)據(jù)集中,最終得到200張標(biāo)識牌圖像,分割數(shù)字字符后,基于MLP神經(jīng)網(wǎng)絡(luò)的標(biāo)識牌識別最終結(jié)果如圖10所示。在標(biāo)識牌區(qū)域有接觸網(wǎng)線的干擾下,仍能準(zhǔn)確識別數(shù)字信息。
本章算法從基于視覺顯著性的研究出發(fā),在將接觸網(wǎng)立柱區(qū)域前景分割后,根據(jù)標(biāo)識牌區(qū)域的特征對其進(jìn)行下一步的分割,利用像素投影完成單個字符的提取,最終通過基于MLP分類器算法完成標(biāo)識牌信息識別,如圖11所示。該算法最終的識別準(zhǔn)確率達(dá)到了93.5%。
圖10 標(biāo)識牌識別結(jié)果
(a) 接觸網(wǎng)立柱顯著圖
(b) 標(biāo)識牌信息識別
由于立柱區(qū)域與背景樹木顏色及灰度值太過相近,傳統(tǒng)分割效果并不明顯。受視覺顯著性檢測的啟發(fā),本文提出以強(qiáng)健的背景先驗與吸收馬爾可夫鏈結(jié)合的方式提取立柱顯著圖,為了提高檢測效率,以SLIC超像素算法對圖像進(jìn)行預(yù)處理;利用標(biāo)識牌的底層特征對標(biāo)識牌區(qū)域精定位。該算法的提出很好的定位了接觸網(wǎng)立柱及標(biāo)識牌區(qū)域。搭建MLP神經(jīng)網(wǎng)絡(luò)分類器,輸入標(biāo)識牌紋理特征并訓(xùn)練該模型,使得該神經(jīng)網(wǎng)絡(luò)模型參數(shù)達(dá)到最優(yōu),對標(biāo)識牌的識別準(zhǔn)確率達(dá)到93.5%。因此該算法基本達(dá)到了對接觸網(wǎng)標(biāo)識牌識別定位的要求,為智能化軌道巡檢提供了新思路。