林涵陽,詹永照,陳羽中,3
1(江蘇大學 計算機科學與通信工程學院,江蘇 鎮(zhèn)江 212013)2(江蘇實達迪美數(shù)據(jù)處理有限公司,江蘇 昆山 215332)3(福州大學 數(shù)學與計算機科學學院,福州 350108)
機動車行駛證是車輛管理的主要證件,隨著社會信用體系不斷完善,行駛證的應(yīng)用范圍不再局限于交通領(lǐng)域,還能作為個人信用憑證,應(yīng)用到保險、銀行等部門.但是傳統(tǒng)的人工錄入行駛證信息存在效率低、易出錯的問題.隨著模式識別技術(shù)的進步,行駛證的自動識別成為可能,但是直接從圖像識別出證件信息仍然面臨一系列挑戰(zhàn).首先,拍攝行駛證圖像時的光照條件存在巨大差異,容易造成圖像偏暗或偏亮的現(xiàn)象產(chǎn)生,給背景分割造成很大困難.其次,拍攝的行駛證圖像通常具有一定程度的傾斜、偏移,算法需要確定行駛證的輪廓區(qū)域,并進行校正,在校正的過程中,還需要排除拍攝背景和行駛證上覆膜的影響.此外,行駛證上的底紋,在光照偏暗的場景下,易誤判為文字邊緣,對文字識別準確率就有一定影響.
針對上述問題,本文對機動車行駛證識別算法進行了進一步研究:基于背景校正技術(shù),通過背景模板匹配的區(qū)域提取算法對行駛證邊緣輪廓的位置進行定位以完成傾斜校正,再使用關(guān)鍵區(qū)域的多尺度檢測定位算法對校正結(jié)果進行正確性評判,再經(jīng)模板分割以及融合OTSU和自適應(yīng)局部的二值化算法,得到區(qū)域二值化圖像,最后通過基于深度神經(jīng)網(wǎng)絡(luò)的識別引擎進行識別,得到行駛證中的文本信息.實驗結(jié)果表明,算法在識別效率以及多角度、復雜背景、不同光照條件的識別魯棒性等方面具有優(yōu)勢.
對于證照識別的研究,相關(guān)工作可以分為圖像預處理、字段分割和文字識別幾個方面.
其中,圖像預處理一般經(jīng)過以下的步驟:
1)傾斜校正:主要采用水平投影法、直線統(tǒng)計法、輪廓提取法.水平投影法通過計算圖像投影直方圖的峰值變化梯度,來估計圖像旋轉(zhuǎn)的角度.直線統(tǒng)計法統(tǒng)計邊緣圖像中各個直線的傾斜角度,來估算整張圖像的傾斜角度.輪廓提取法通過目標物體的邊緣得到透視變換矩陣,并用該矩陣校正原圖像.吳一全等人提出基于投影坐標p次方差及粒子群優(yōu)化的車牌傾斜檢測算法,根據(jù)邊緣點水平投影縱坐標值的最小p次方差準則確定車牌的傾斜角,并利用改進的帶極值擾動的粒子群算法尋找或直接計算最優(yōu)傾斜角[1].苗立剛提出使用Radon變換統(tǒng)計車牌的傾斜角度,該方法在車牌校正上取得較好的效果[2].
2)二值化:分為全局和局部二值化兩種.全局二值化包括最大類間方差法(OTSU)、迭代最佳閾值法等;局部二值化包括Bernsen、Niblack、Taxt等算法.田破荒等人提出的文字二值化算法,通過檢測重線獲取文字像素關(guān)鍵點,結(jié)合啟發(fā)式規(guī)則完成二值化[3].S Milyaev等人針對自然圖像中端對端文本的二值化問題,提出基于全局優(yōu)化框架的二值化方法,提高了OCR識別準確率[4].
3)去噪:常用中值濾波、高斯濾波等方法.Escande P等人提出以變分模型來移除結(jié)構(gòu)噪聲,通過分析噪聲的相似性信息,具有較好的去噪效果[5].
針對字段分割,一些學者采用最大穩(wěn)定極值區(qū)域(MSER)、筆畫寬度變換(SWT)等算法提取文字區(qū)域.而對于行分割和版面分析,一般使用水平和垂直投影相結(jié)合的方法,適用于已經(jīng)傾斜校正過的圖像中.段露等人為解決問卷圖像的版面分析問題,提出一種連通域和神經(jīng)網(wǎng)絡(luò)相結(jié)合的分析算法,可以準確地識別各種問卷圖像中的信息填寫區(qū)域[6].
文字識別需從連通域分析、字符切割步驟開始,再到字符識別、語義校正,最后得到文字識別結(jié)果.Achint Kaur等人使用SVM對字符密度特征進行訓練,能較好識別多語言交叉混用文本[7].C.Y.Lee等人提出的循環(huán)神經(jīng)網(wǎng)絡(luò)模型可對圖像中的文字進行提取識別,并取得了較好的效果[8].
3.1.1 背景模板匹配的區(qū)域提取算法
基于背景模板匹配的區(qū)域提取算法通過行駛證圖像與模板圖像的匹配結(jié)果計算透視變換矩陣,利用該矩陣對目標圖像進行傾斜校正.常用的特征匹配算法有ORB、SIFT、SURF等,其中SURF算法在圖像處理應(yīng)用中取得較好的效果[9,10].但是通過實驗發(fā)現(xiàn),SURF算法應(yīng)用于行駛證檢測時存在檢測時間較長、準確率偏低的問題.
針對上述不足,本文提出以FAST算法為核心的改進算法.FAST算法提取特征點的速度快,但存在不能同時生成特征描述子的問題,需要在提取特征點后選取合適的特征描述子進行匹配.行駛證圖像中漢字字體的局部梯度特征明顯,不同漢字之間梯度變化有所不同,而HOG特征能夠描述局部梯度的變化[11],因此本文使用HOG特征作為特征描述子進行特征匹配,算法步驟如下:
步驟1.創(chuàng)建模板圖像,模板圖像去除了行駛證中各個字段的文字內(nèi)容,只保留標題和字段標題等行駛證圖像共有的部分.
步驟2.利用FAST算法從模板圖像獲取特征點;根據(jù)每個特征點的中心位置,截取16×16像素大小的圖像作為HOG計算窗口.如果該區(qū)域超過圖像的范圍,則適當調(diào)整區(qū)域,保證其包含在圖像范圍內(nèi),調(diào)整過程中該區(qū)域一直保持16×16像素的大小.設(shè)置HOG特征參數(shù),對該區(qū)域進行HOG特征提取,得到HOG特征向量.組合所有特征向量,得到特征矩陣,即特征描述子.
步驟3.利用FAST算法提取目標圖像的特征點及特征描述子.
步驟4.將模板圖像和目標圖像的特征描述子輸入到FlannBasedMatcher匹配器中,得到匹配結(jié)果,統(tǒng)計匹配結(jié)果中歐式距離的最小值dmin,遍歷匹配結(jié)果,若當前匹配的歐氏距離di滿足di≤λdmin,則將當前匹配結(jié)果放入最佳匹配集合中.
步驟5.根據(jù)最佳匹配集合,進行透視變換估計,得到透視變換矩陣.估計過程使用隨機采樣算法(Random Sample Consensus,RANSAC)[12]找到最佳單應(yīng)性矩陣,提升匹配精度.
步驟6.使用透視變換矩陣對目標圖像進行變換,得到正對的行駛證圖像.
上述特征提取算法的具體實現(xiàn)如算法1所示:
算法1.FAST+HOG的特征提取算法輸入:行駛證圖像I,FAST的閾值τ,HOG窗口大小s,塊元大小b,塊滑動距離t,胞元大小c;1)Igray=0.299IR+0.587IG+0.114IB2)M=FAST(Igray, τ)3)mat=[]4)for m in M {5) roi=rect(m.x-s.width/2, m.y-s.height/2, s.width,s.height)6) if roi.x<0 {roi.x=0}7) if roi.br.x≥I.width {roi.x -= roi.br.x - I.width + 1}8) if roi.y<0 {roi.y=0}9) if roi.br.y≥I.height {roi.y -= roi.br.y - I.height + 1}10)feature=HOG(roi,b,t,c)11)mat.append(feature)12)}13)return [M, mat]輸出:特征點集合M及其描述子矩陣mat
其中,Igray表示使用常規(guī)灰度化方法得到的灰度圖像,FAST函數(shù)的參數(shù)為灰度圖像和閾值,輸出為特征點集合M.遍歷M中的每個特征點m,根據(jù)該點坐標和HOG窗口大小計算得到感興趣區(qū)域roi,并對roi進行調(diào)整,防止其大小超出圖像邊界.HOG函數(shù)的參數(shù)為感興趣區(qū)域和其他三個HOG參數(shù),返回感興趣區(qū)域的HOG特征描述值向量feature,feature將添加到特征矩陣mat中.
本文提出的區(qū)域提取算法不依賴于邊緣分析,可以克服行駛證圖像存在的邊緣不連續(xù)、多邊緣干擾的問題.同時,該算法不需要亮度信息,對光照不均勻的情況也具有一定的適應(yīng)性.此外,由于特征匹配考慮的是全局特征,局部光照的劇烈變化對算法不會產(chǎn)生影響,對光照具有良好的魯棒性.
3.1.2 字段分割模板微調(diào)
理想情況下,經(jīng)過傾斜校正后的行駛證圖像,各個字段的位置均處于圖像中的某個固定位置,可以直接對各個字段進行模板分割.如圖1(a)所示,矩形框表示定位到的行駛證字段的區(qū)域,可以看出每個字段對應(yīng)的矩形的頂點坐標是相對固定的,只需要提取該區(qū)域內(nèi)的圖像,就能得到行駛證各個字段對應(yīng)的內(nèi)容.但是在實際應(yīng)用中,行駛證圖像中的字段位置常存在較嚴重的偏差,需要對模板進行微調(diào).微調(diào)算法步驟如下:
步驟1.取行駛證中的第一個區(qū)域“號牌號碼”字段作為參照對象,對其進行二值化,得到二值化圖像.
步驟2.累計圖像中各行的像素點值為0的像素個數(shù),得到一個向量.
步驟3.對于向量的每一行ri,若ri>τ,則標記ri為文字的開始行,跳轉(zhuǎn)到步驟4,否則繼續(xù)遍歷下一行.
步驟4.若i≥h/2(h為區(qū)域高度),說明字段位置整體偏下,將模板整體向下移動φ(i-h/2),再進行字段的分割提取.
圖1(b)展示了字段存在偏差的行駛證圖像及字段分割模板微調(diào)的過程.觀察“號牌號碼”字段,如果按照固定的坐標進行分割提取,將得到偏上的矩形,該矩形的下邊緣穿過號牌號碼的內(nèi)容,說明該分割并不準確,需要進行微調(diào)操作.根據(jù)上述算法,其i值大于h/2,也就是說分割區(qū)域中至多h/2高度的內(nèi)容是文字,其余都是無關(guān)的內(nèi)容,同時也說明了其正確的分割區(qū)域應(yīng)該在偏下的位置.所以將所有的模板矩形的頂點坐標向下偏移一定長度,例如“號牌號碼”字段偏上的矩形移動到偏下的矩形的位置.經(jīng)過微調(diào)后的矩形完整包含了文字內(nèi)容,都能做到準確的分割.
圖1 字段分割模版微調(diào)Fig.1 Template fine adjustment
3.1.3 關(guān)鍵區(qū)域的多尺度檢測定位算法
從上述區(qū)域提取算法獲得的校正結(jié)果,需要進行校正準確性評估.本文提出一種關(guān)鍵區(qū)域的多尺度檢測定位算法,通過檢測關(guān)鍵區(qū)域是否存在來判斷校正是否準確.
由于行駛證標題和各個字段的標題不會發(fā)生變化,可以通過檢測這些區(qū)域的相對位置確定校正是否正確.這些區(qū)域就稱為行駛證檢測的關(guān)鍵區(qū)域.如圖2中的四個文字區(qū)域所示,設(shè)定關(guān)鍵區(qū)域為行駛證標題中“華”、“證”兩字以及“品牌型號”、“發(fā)證日期”兩個字段標題.這四個位置分別確定了行駛證的上下左右部分,還可以根據(jù)“品牌型號”這個中間位置,對行駛證字段分割做進一步微調(diào),得到正確的分割.該算法不依賴于行駛證的輪廓確定字段的相對位置,對傾斜和光照不均勻的圖像也能檢測出關(guān)鍵區(qū)域的位置.算法具體步驟如下:
步驟1.采集各個區(qū)域的正負樣本,構(gòu)成訓練樣本庫.
步驟2.計算訓練圖像的HOG特征,生成HOG特征矩陣,使用SVM進行學習,得到HOG檢測器[13].
步驟3.對于各關(guān)鍵區(qū)域,對原始圖像進行感興趣區(qū)域分割,以減小HOG的掃描范圍,避免為了檢測單個關(guān)鍵區(qū)域而遍歷完整圖像,降低檢測時間.感興趣區(qū)域分割如圖2中的矩形區(qū)域所示.
步驟4.在縮小范圍的區(qū)域中,對關(guān)鍵區(qū)域進行多尺度檢測.多尺度檢測使用滑動窗口,通過設(shè)置合理的窗口大小,能提高檢測的性能和準確率.本文算法根據(jù)不同關(guān)鍵區(qū)域的情況,通過實驗設(shè)置合理的窗口大小以及滑動間距.多尺度檢測對窗口內(nèi)的圖像進行多個比率的縮放,對各個尺度的圖像進行適應(yīng)性檢測,從而解決不同圖像中關(guān)鍵區(qū)域大小不一致的問題.
本文的關(guān)鍵區(qū)域多尺度檢測定位算法不依賴于行駛證的輪廓,對于行駛證圖片邊緣缺失的情況也可以正常定位.多尺度檢測則解決了拍攝的行駛證偏小或偏大的特殊情況下對關(guān)鍵區(qū)域的檢測問題,保證了檢測的正確性.
圖2 關(guān)鍵區(qū)域檢測Fig.2 Key area detection
完成行駛證字段分割后,需要對字段區(qū)域進行二值化操作,只保留文字信息用于文字識別.由于行駛證圖片背景存在底紋,常用的二值化算法難以滿足要求[14,15].本文根據(jù)融合二值化[16]的思路,提出了結(jié)合OTSU和自適應(yīng)局部的二值化算法.
通過分析OTSU的實驗結(jié)果發(fā)現(xiàn),利用OTSU進行二值化,保留的像素點較多,容易產(chǎn)生筆劃粘連.對于某些文字區(qū)域,利用OTSU對該區(qū)域的灰度圖像進行二值化的效果較差,但使用RGB顏色空間下的G通道的灰度化圖像,則能取得不錯的效果.同樣的情況,也會發(fā)生在HLS顏色空間下L通道和LAB顏色空間下的L通道,說明使用不同的灰度化方法,對于OTSU算法有著較大的影響.
與OTSU算法的實驗結(jié)果相比,自適應(yīng)局部算法保留的像素點較少,但易產(chǎn)生筆劃缺失.自適應(yīng)局部算法對參數(shù)閾值較敏感,包括鄰域大小b以及閾值偏移量C,且難以在保留文字細節(jié)的同時降低背景噪聲.
為達到既過濾大部分背景信息,又同時保留文字細節(jié)的目標,本文融合OTSU和自適應(yīng)局部算法,以二者在不同通道或參數(shù)下的二值圖像為基礎(chǔ),以統(tǒng)計得分的方式生成新的二值圖像.算法先利用自適應(yīng)局部算法去除大部分背景像素點,但該過程會丟失文字的細節(jié),為了減少文字細節(jié)的缺失,再使用OTSU進行二值化,并通過設(shè)置兩種算法的權(quán)重,使OTSU算法帶來的背景信息受到自適應(yīng)局部算法的抑制,獲得更好的二值化效果.算法步驟如下:
步驟1.利用OTSU算法,對常規(guī)灰度化圖像、RGB顏色空間的G通道、HLS顏色空間的L通道、LAB顏色空間的L通道以及黑帽操作后的圖像進行二值化,得到二值化圖像I1~I5.
步驟2.利用自適應(yīng)局部算法,使用三組不同的參數(shù)對HLS顏色空間的L通道進行二值化,得到二值化圖像I6~I8.
步驟3.設(shè)置I1~I8的權(quán)重系數(shù)為{w1,w2,…,w8}.對于圖像中的一個像素點fx,y,計算其目標分值Sx,y,公式如下:
(1)
(2)
目標分值表示fx,y為目標像素點的可能性,分值越高,該像素點越有可能就是文字,反之該像素點越可能是背景像素.
步驟4.設(shè)定閾值τ,若Sx,y≥τ,將fx,y標記為目標像素點,灰度值設(shè)置為0.否則將fx,y標記為背景像素點,灰度值設(shè)置為255.得到新的二值化圖像I′.
上述二值化算法的具體實現(xiàn)如算法2所示.
算法2.融合OTSU和自適應(yīng)局部的二值化算法輸入:行駛證圖像I,黑帽操作迭代次數(shù)n,自適應(yīng)局部算法的鄰域大小[b1,b2,b3],閾值偏移量[C1,C2,C3],二值權(quán)重[w1,w2,…,w8],得分閾值τ;1)I1=OTSU(GRAY(IR,IG,IB)); I2=OTSU(IG)2)I3=OTSU(HLS(I)[′L′]); I4=OTSU(LAB(I)[′L′])3)I5=OTSU(Blackhat(I,n)); I6=AL(HLS(I)[′L′],b1,C1)4)I7=AL(HLS(I)[′L′],b2,C2); I8=AL(HLS(I)[′L′],b3,C3)5)Ib=zeros(I.width,I.height)6)for i in I {7) score=08) for index=1 to 8 {9) sign=Iindex(i.x,i.y)==0?1:-110) score+=sign?windex11) }12) if score≥τ{Ib(x,y)=0}13) else {Ib(x,y)=255}14)} 15)return Ib輸出:二值圖像Ib
其中,GRAY函數(shù)表示常規(guī)灰度化處理.HLS函數(shù)表示對原圖像進行RGB到HLS顏色空間的轉(zhuǎn)換,其索引值表示某個通道.同理,LAB函數(shù)表示RGB到LAB顏色空間的轉(zhuǎn)換.OTSU和AL函數(shù)分別表示OTSU和局部二值化算法.算法遍歷二值圖像I1~I8,根據(jù)OTSU和局部二值化兩種算法的二值化結(jié)果計算每個像素點的分值,根據(jù)分值標記為目標像素點或背景像素點,產(chǎn)生新的二值圖像Ib.
本文使用Tesseract文字識別引擎進行字段內(nèi)容識別.由于本文主要解決行駛證檢測定位以及區(qū)域二值化問題,因此未對文字識別做進一步優(yōu)化.
本文所有實驗均使用Intel Pentium CPU G3260@3.30GHz.由于行駛證屬于個人隱私數(shù)據(jù),目前沒有公共測試數(shù)據(jù)集,本文利用收集的行駛證圖像構(gòu)建測試集.
本節(jié)實驗將760張的行駛證圖片隨機分為10組測試集,每組76張圖片,比較本文提出的結(jié)合FAST算法和HOG特征的匹配算法與SURF算法的性能,實驗結(jié)果如表1所示,本文算法簡寫為HF.
表1 特征匹配算法實驗結(jié)果
Table 1 Experimental results of feature matching algorithms
分組透視變換準確率(%)字段分割準確率(%)平均運行時間(s)SURFHFSURFSURFHFSURF178.9594.7475.3293.261.630.59282.8992.1180.5490.381.720.61390.7998.6888.9797.851.660.64481.5896.0579.6695.331.620.64582.8992.1180.8290.261.620.57678.9592.1175.7391.061.750.62776.3297.3774.2596.351.790.60881.5894.7478.2694.131.650.62984.2192.1182.1991.641.750.591086.8496.0584.2895.271.730.63Avg82.5094.6180.0093.551.690.61
從表1可以看出,本文方法的透視變換準確率明顯高于SURF算法,平均準確率提高約12%,且運行時間比SURF減少約63%.原因在于HOG特征為梯度特征,更適合描述文字內(nèi)容;且FAST算法的提取效率高于SURF算法,計算HOG特征也快于SURF的特征生成方法.因此,本文算法能夠獲得優(yōu)于SURF算法的變換準確率和運行性能.
圖3(a)-圖3(b)顯示了行駛證圖像較完整時透視變換的結(jié)果.圖3(a)為透視變換前圖像,圖3(b)為透視變換后圖像.可以看出,原來向里傾斜的行駛證圖像經(jīng)過透視變換后,變?yōu)檎龑Φ男旭傋C圖像,從標題和“住址”字段等內(nèi)容可以看出傾斜校正的效果良好.
圖3(c)-圖3(d)顯示了行駛證圖像中字段標題存在缺失時透視變換的結(jié)果.圖3(c)中,“號牌號碼”、“所有人”等字段標題均有較多缺失,而圖3(d)為采用本文算法進行匹配和透視變換后的結(jié)果.可以看出,本文算法仍可以完成傾斜校正.原因在于本文算法不依賴于局部的特征點,全局的特征點也能反映行駛證的區(qū)域位置,在部分局部特征點無法提取的情況下,通過全局特征點的匹配來彌補局部特征點的缺失,保證透視變換的正確進行.
圖3 透視變換和字段分割實驗結(jié)果Fig.3 Results of perspective transform and field segmentation
圖3(e)-圖3(f)顯示了行駛證圖像的背景中包含文字的情況下透視變換的結(jié)果.圖3(e)中行駛證圖像的背景包含文字,算法可能提取這部分區(qū)域的特征點,在特征點匹配時易造成錯誤匹配,而對透視變換結(jié)果產(chǎn)生影響.但圖3(f)證明本文算法仍能夠正確地定位到行駛證的輪廓.原因同樣在于算法考慮的是全局特征點,部分局部特征點的錯誤匹配不會影響整體的定位校正結(jié)果.
圖3(g)-圖3(h)為圖3(d)的字段模板定位結(jié)果,圖中矩形框表示分割的字段區(qū)域,可以看出,各個字段均被準確分割,驗證了透視變換的正確性,也反映了特征匹配方法的準確性.此外,注意到圖3(g)的行駛證圖像在透視變換后,左側(cè)出現(xiàn)較大的黑色區(qū)域,原因在于行駛證圖像在拍攝時左側(cè)區(qū)域存在缺失,透視變換本身無法填補缺失區(qū)域的信息,但這種情況不會影響對字段的分割.
綜合上述實驗結(jié)果可以看出,本文算法根據(jù)全局的特征點計算透視變換矩陣,能夠很好地處理局部特征點缺失或者局部特征點錯誤匹配的情況,具有較好的魯棒性.
本節(jié)實驗使用280張行駛證圖片,測試關(guān)鍵區(qū)域的多尺度檢測定位算法的各項性能.測試結(jié)果如表2所示.“品牌型號”關(guān)鍵區(qū)域準確率較低,由于“品牌型號”所在的感興趣區(qū)域中,文字內(nèi)容較多,對于HOG檢測,容易產(chǎn)生錯誤的判斷,而其他三個區(qū)域因文字內(nèi)容較少,所以準確率均較高.而“品牌型號”關(guān)鍵區(qū)域的檢測時間較長也與其所在的感興趣區(qū)域范圍較大有關(guān).
表2 關(guān)鍵區(qū)域多尺度檢測定位算法測試結(jié)果
Table 2 Results of multi-scale key area detection algorithm
關(guān)鍵區(qū)域檢測率(%)準確率(%)平均檢測時間(s)“華”95.3695.130.16“證”96.4397.410.19“品牌型號”94.6489.060.65“發(fā)證日期”97.1495.220.26四個區(qū)域92.5089.181.26
圖4(a)為行駛證圖像色調(diào)有較大偏差時的關(guān)鍵區(qū)域檢測結(jié)果.可以看出,算法能夠準確定位四個關(guān)鍵區(qū)域.原因在于算法考慮梯度因素,對圖像色調(diào)變化有一定適應(yīng)能力,對于光照偏暗或偏亮的圖片也能較好地完成檢測.圖4(b)為行駛證圖像有一定角度歪斜時的關(guān)鍵區(qū)域檢測結(jié)果,造成歪斜的原因是拍攝時證件左半部分向里傾斜.由于算法是在感興趣區(qū)域內(nèi)對關(guān)鍵區(qū)域進行檢測,傾斜的情況對于感興趣區(qū)域以及關(guān)鍵區(qū)域都不會造成很大的影響.所以仍然能夠準確定位四個關(guān)鍵區(qū)域,說明算法能夠處理內(nèi)容傾斜的行駛證圖像.
圖4 色調(diào)偏差和傾斜圖像中的關(guān)鍵區(qū)域檢測結(jié)果Fig.4 Results of key area detection in image with hue deviation and skew image
本節(jié)實驗使用50張行駛證圖片,共500個字段區(qū)域,對三種二值化算法進行對比測試,并將二值化后文字清晰、筆劃無缺失粘連、無較多背景噪聲的圖像歸為良好一類,將背景噪聲較多的圖像歸為一類,將筆劃缺失的圖像歸為一類,分別統(tǒng)計三種二值化算法處理后的圖像類別比例.實驗結(jié)果如表3所示.從表3可以看出,本文算法能獲得更好的二值化效果,其中良好區(qū)域數(shù)量所占比例提升約30%.產(chǎn)生的二值化圖像的背景噪聲較少,筆劃細節(jié)保留更加完整,有利于提升文字識別精度.
圖5(a)-圖5(d)為三種二值化算法對行駛證字段區(qū)域進行二值化的結(jié)果.對比三種二值化算法的結(jié)果可以看出,本文算法處理后的二值化圖像中各個字段區(qū)域的文字內(nèi)容筆劃清晰,粘連現(xiàn)象幾乎不存在,而筆劃缺失的情況也得到較好彌補,相比OTSU和局部適應(yīng)算法,本文算法在保留文字細節(jié)和過濾背景噪聲上具有較大的優(yōu)勢.
圖5 區(qū)域二值化結(jié)果Fig.5 Result of region binarization
圖6(a)-圖6(c)為三種二值化算法對單個地址字段區(qū)域進行二值化的結(jié)果,正確的文字內(nèi)容為“重慶市大足縣回龍鎮(zhèn)永興村4組”.從圖6可以看出,OTSU算法產(chǎn)生的二值化圖像存在較大的背景噪聲,“重慶市”三字完全不能辨識,而其他字如“足”、“回”、“鎮(zhèn)”存在筆劃粘連的現(xiàn)象,會對文字識別產(chǎn)生較大不利影響;自適應(yīng)局部算法產(chǎn)生的二值化圖像背景噪聲較少,但“重”、“鎮(zhèn)”等字筆劃存在缺失現(xiàn)象,文字的筆劃整體偏細,也會影響文字識別;本文算法產(chǎn)生的二值圖像,則幾乎不存在背景噪聲,“重”、“鎮(zhèn)”等字缺失的筆劃也得到補償,文字的筆劃整體較粗,更接近正常的文字,在進行文字識別時,特征點也會更加明顯,更有利于文字識別.此外,由于本文算法進行多次二值化操作,比單次操作更能適應(yīng)亮度值的強烈變化,對光照不均勻的圖像也能正常進行處理,生成較好的二值化圖像.
圖6 地址字段二值化結(jié)果Fig.6 Binary images of address field
表3 三種二值化算法的測試結(jié)果
Table 3 Result of three binarization methods
二值化方法背景噪聲較多的區(qū)域數(shù)量筆劃缺失較多的區(qū)域數(shù)量二值化良好的區(qū)域數(shù)量OTSU算法15972256自適應(yīng)局部算法86143263本文算法2642406
本文提出了一種基于復雜場景的機動車行駛證快速檢測與識別算法.針對行駛證圖片存在的背景復雜、角度傾斜的問題,利用FAST算法和HOG特征高效地提取特征點并進行特征匹配,從而計算透視變換對原始圖像進行校正;之后使用關(guān)鍵區(qū)域的多尺度檢測定位算法對校正結(jié)果進行正確性評判,避免錯誤的校正結(jié)果對后續(xù)識別的影響;針對光照不均和背景底紋問題,提出融合OTSU和自適應(yīng)局部算法的二值化算法,解決光照和底紋影響以及文字筆劃粘連缺失的問題.實驗結(jié)果證明算法在性能、識別準確率和魯棒性等方面具有優(yōu)勢,達到實用性的標準.今后將針對更為復雜的拍攝場景進行進一步優(yōu)化.