陳建促,王 越,李章宇,林志航
(重慶理工大學(xué) 計算機科學(xué)與工程學(xué)院, 重慶 400054)
在日常辦公中,通過掃描紙質(zhì)文檔進行電子存檔十分常見。傳統(tǒng)的機器掃描方法存在效率低、耗材昂貴等問題,而通過攝像頭對文稿進行實時掃描則較為方便和環(huán)保。使用攝像頭對文稿進行拍攝過程中會存在攝像頭畸變問題,導(dǎo)致文稿產(chǎn)生形變,達不到傳統(tǒng)機器掃描的效果。因此,對圖像中的文稿進行糾偏是很重要的環(huán)節(jié),而對文稿進行準(zhǔn)確糾偏的核心在于對圖像中的文稿邊緣進行準(zhǔn)確檢測。在實際應(yīng)用環(huán)境中,受復(fù)雜背景的干擾,往往無法準(zhǔn)確檢測出文稿邊緣。本文對復(fù)雜背景下的文稿邊緣檢測進行邊緣定位精度與檢測準(zhǔn)確率的提升,以完成復(fù)雜背景下的文稿邊緣檢測。
在文稿糾偏的相關(guān)研究中,王咸鋒等[1]提出的基于OpenCV實現(xiàn)文檔物體的糾偏方法能夠準(zhǔn)確完成單一背景下的文稿糾偏,但不適用于復(fù)雜背景的情況;王恒友等[2]提出的基于低秩矩陣分解的方法通過迭代對每一列進行適當(dāng)旋轉(zhuǎn),對圖像進行偏轉(zhuǎn)角的估計與糾偏,平均耗時為1.5 s;張盛南等[3]提出的斜角檢測方法通過預(yù)估傾斜角度,在二值圖像中檢測文檔的傾斜情況;Kao Chih-Hong等[4]從文字字符本身的特征出發(fā),采用文本的線性度量在圖像中對文字內(nèi)容進行定位及矯正。但是上述方法[2-4]僅考慮了圖像的偏移角度,未能去除文稿區(qū)域以外的復(fù)雜背景干擾。苑擎飏等[5]提出了改進Hough變換圖像糾偏方法,但也未考慮到文稿區(qū)域以外的復(fù)雜背景干擾。綜上,以上方法雖取得了一定的成果,但不適用于受復(fù)雜背景干擾的文稿邊緣檢測與糾偏。
在邊緣檢測算法中,Canny算法[6]的檢測精度高,但存在抗噪能力差、穩(wěn)定性低以及適用場景受限制的問題。針對這種情況,很多學(xué)者對其進行了改進。侯濤等[7]使用加權(quán)中值濾波對圖像進行預(yù)處理,并添加45°與135°方向梯度模板對高速列車車輪輪踏面的損傷程度進行評估;顏麗等[8]針對AAM主動表現(xiàn)模型對外輪廓定位不準(zhǔn)確、容易陷入局部最優(yōu)解的問題,通過與Canny算法進行融合完成對人臉輪廓的定位;楊先鳳等[9]將融合梯度計算、邊緣連接及閾值選取的方法應(yīng)用于油管裂紋的檢測;徐駿驊[10]結(jié)合Canny算法與Lab顏色空間轉(zhuǎn)換解決車臉識別中存在的車輛成像效果差與光照干擾強的問題;王慧[11]將邊緣檢測算法應(yīng)用到紅棗分級,通過Canny算法、小波變換以及梯度算法結(jié)合的方式對紅棗大小及表面缺陷比率進行評估與分級;王忠華等[12]在幀間差分法的基礎(chǔ)上改進Canny算子與運動關(guān)聯(lián)法,解決傳統(tǒng)幀間差分法在運動目標(biāo)檢測時造成的目標(biāo)空洞以及輪廓丟失問題,以提升檢測性能并保證運動目標(biāo)輪廓;王鳳燕等[13]通過雙邊濾波對Canny算法進行改進,并根據(jù)多數(shù)投票原則對年輪圖像進行樹齡檢測;高春霞等[14]使用人頭顏色空間和輪廓信息進行行人檢測,在輪廓提取時使用了改進的Canny算法;黃山等[15]通過數(shù)據(jù)場理論進行圖像灰度值特征空間與數(shù)據(jù)場勢空間的轉(zhuǎn)換,并引入歐式距離完成圖像勢值計算,最后采用Canny算法對勢值圖進行邊緣提取。
結(jié)合前期研究,本文將Canny邊緣檢測算法應(yīng)用于文稿的邊緣檢測,提出了一種動態(tài)文稿邊緣自適應(yīng)檢測與糾偏方法。該方法在融合圖像壓縮比、形態(tài)學(xué)變換與Canny算子的基礎(chǔ)上,根據(jù)文稿輪廓特征,結(jié)合多邊形逼近、最小矩形包裹與面積篩選的方法對復(fù)雜背景下的文稿進行邊緣檢測與糾偏。本文的主要貢獻如下:
1) 引入圖像壓縮比的方法,保持了文稿布局在糾偏前后的一致性。
2) 將Canny邊緣檢測算法運用于文稿邊緣檢測,結(jié)合Canny算法的邊緣檢測的優(yōu)勢,通過引入多邊形逼近、最小矩形包裹與面積篩選方法,降低復(fù)雜背景對文稿邊緣檢測與糾偏的影響,提升文稿邊緣檢測的準(zhǔn)確率與糾偏效果。
基于文字區(qū)域的文稿動態(tài)檢測與糾偏方法的核心在于對文稿中的文字區(qū)域進行提取。對文稿進行特征提取之前,對圖像進行灰度化預(yù)處理,并使用Sobel對文稿進行邊緣檢測,然后通過形態(tài)學(xué)變換與文字區(qū)域篩選方法確認(rèn)待糾偏區(qū)域,最后使用仿射變換進行文稿糾偏?;谖淖謪^(qū)域的文稿檢測方法處理過程如圖1所示。
圖1 基于文字區(qū)域的文稿檢測方法處理過程
使用攝像頭進行圖像捕捉,捕捉到的圖像為RGB顏色模式。對RGB圖像需要進行3種分量的處理,處理的復(fù)雜度高,且不能反映圖像的形態(tài)特征,而灰度化能夠?qū)GB圖像轉(zhuǎn)化為二維圖像。Sobel邊緣檢測算法分別將表示橫向和縱向亮度的3×3矩陣與圖像作平面卷積,得到橫向及縱向的差分亮度近似值。形態(tài)學(xué)變換中的二值化能夠在保持像素值與位置關(guān)系不變的基礎(chǔ)上,減少后期的數(shù)據(jù)處理量與壓縮量。使用膨脹方法對兩個集合進行合并,生成的連通區(qū)域圖像能夠突出所需要的特征,弱化其他特征。最終通過矩形輪廓篩選與仿射變換完成糾偏。該方法對單一背景的文字區(qū)域選擇有較好的效果;對于復(fù)雜背景,會形成虛假塊,直接影響文字區(qū)域的檢測與糾偏結(jié)果。針對復(fù)雜背景影響以及基于文字區(qū)域檢測方法的局限性,本文基于文稿邊緣進行分析。
動態(tài)文稿邊緣自適應(yīng)檢測與糾偏方法的核心在于能夠忽略掉背景的影響,對文稿外邊緣進行準(zhǔn)確檢測。文稿邊緣自適應(yīng)檢測與糾偏方法處理過程如圖2所示。
圖2 文稿邊緣自適應(yīng)檢測與糾偏方法處理過程
視頻由連續(xù)的視頻圖像幀組成,動態(tài)檢測的基礎(chǔ)在于調(diào)用攝像頭對視頻中每一幀圖像進行實時捕獲。為了使糾偏后的圖像保持原有的布局,通過獲取相機行和列的最大值與閾值的比例,對后續(xù)糾偏后的文稿圖像大小進行調(diào)整。在圖像預(yù)處理階段,使用圖像灰度化減少后期處理的復(fù)雜度。對預(yù)處理后的圖像采用Canny邊緣檢測算法、多邊形逼近、最小矩形包裹與面積篩選及仿射變換,完成文稿邊緣的檢測與糾偏。
圖像壓縮比為攝像頭獲取到的圖像寬高比。通過圖像壓縮比對進行仿射變換的文稿區(qū)域的4個角點坐標(biāo)做調(diào)整,保證糾偏文稿的原始布局。
對于攝像頭獲取的彩色圖像,每個像素點的顏色分別由R、G、B3個分量決定,每個分量分別有155種取值。1個像素點的顏色變化范圍達1 600多萬(255×255×255)。但對于R、G、B3個分量相同的灰度圖像,1個像素點的顏色變化范圍為255,大幅度減少了圖像的計算量。由于圖像邊緣存在于灰度值發(fā)生劇烈變化的區(qū)域內(nèi),灰度變化率最大的位置極可能代表了圖像的邊緣,因此,對圖像的灰度化處理有利于后期的圖像邊緣分割。
邊緣檢測提取目標(biāo)與背景之間的邊界,圖像邊緣的表現(xiàn)形式包括階躍型、脈沖型與屋頂型。在對文稿進行邊緣檢測與糾偏的應(yīng)用過程中,背景顏色與文稿顏色對比度大時,圖像像素點的變化特征為先快速增大、后快速減小,適合采用1階零點或2階極值點對邊緣點進行求解;背景顏色與文稿顏色對比度小時,圖像像素點的變化特征為穩(wěn)定增大或穩(wěn)定減小,適合采用1階極值點或2階零點的方式進行求解。1階檢測算法在進行灰度化處理時存在邊緣無法檢測的情況,而采用2階微分運算對于檢測邊緣效果顯著。另外,考慮到文稿邊緣為直線的特性,以及對文稿邊緣的檢測要求不及對行人、汽車檢測的邊緣細(xì)節(jié)要求高,為了計算的高效與簡單,本文選用Canny算法進行文稿邊緣檢測。
假設(shè)Canny算法采用的卷積算子為
(1)
其x向、y向的1階偏導(dǎo)數(shù)矩陣分別為:
P[i,j]=(f[i,j+1]-f[i,j]+
f[i+1,j+1]-f[i+1,j])/2
(2)
Q[i,j]=(f[i,j]-f[i+1,j]+
f[i,j+1]-f[i+1,j+1])/2
(3)
梯度幅值為
(4)
梯度方向為
θ[i,j]=arctan(Q[i,j]/P[i,j])
(5)
圖像邊緣是指圖像周圍的像素灰度值有階躍變化、脈沖變化或屋頂變化的像素集合點,反映了圖像灰度的不連續(xù)性。圖像邊緣是包含了幅度以及方向的矢量對象。在一定條件下,不同的邊緣點包含了不同的圖像信息。由于復(fù)雜背景以及攝像頭畸變導(dǎo)致文稿存在矩形、梯形或不規(guī)則四邊形的情況,因而需要篩選出文稿的邊緣。
根據(jù)文稿特性,邊緣查找與邊緣檢測的保留準(zhǔn)則包括:
1) 對檢測輪廓采用多邊形逼近approxPolyDP方法,并篩選去除相近的點;
2) 篩選去除相近的點之后不為四邊形,使用最小矩形包裹;
3) 根據(jù)邊緣查找到輪廓的起始點位置,按照面積進行排序篩選。
仿射變換的本質(zhì)是將圖像投影到一個給定4個角點位置、最大寬度與最大高度的新平面上。假設(shè)世界坐標(biāo)點為(xi,yi),圖像坐標(biāo)點為(ui,vi),若要將(xi,yi)映射到{(ui,vi),i=1,2,3,4},則
(6)
對式(8)進行仿射變換系數(shù)求解:
ui=C00×xi+C01×yi+C02
(7)
vi=C10×xi+C11×yi+C12
(8)
1=C20×xi+C21×yi+C22
(9)
即:
ui=C00×xi+C01×yi+C02=
ui×(C20×xi+C21×yi+C22)
(10)
vi=C10×xi+C11×yi+C12=
vi×(C20×xi+C21×yi+C22)
(11)
Intel(R) Core(TM) i7-6700HQ,CPU @2.60 GHz 2.59 GHz,Windows10 64位操作系統(tǒng),Android SDK。
為了對比基于文字區(qū)域與基于文稿邊緣的檢測與糾偏方法,分別進行單一純色背景、單一非純色背景和復(fù)雜背景下的文稿檢測與糾偏結(jié)果對比。圖3為基于文字區(qū)域方法在3種背景條件下的文稿糾偏結(jié)果。其中,圖3(a)~(c)為視頻獲取的待糾偏圖片,(d)~(f)為對應(yīng)的糾偏結(jié)果。圖4為基于文稿邊緣方法在3種背景條件下的文稿糾偏結(jié)果。其中,圖4(a)~(c)為視頻獲取的糾偏圖片,(d)~(f)為對應(yīng)的糾偏結(jié)果。
圖3 基于文字區(qū)域的檢測與糾偏方法
圖4 基于文稿邊緣的自適應(yīng)檢測與糾偏方法
實驗結(jié)果表明:基于文字區(qū)域的檢測方法僅在單一純色背景下有良好的表現(xiàn),在單一非純色背景及復(fù)雜背景下的糾偏表現(xiàn)均不理想,文稿邊緣定位精度低,不能對文稿完成準(zhǔn)確糾偏。另外,雖然在單一純色背景下表現(xiàn)出良好的糾偏能力,但基于文字區(qū)域的糾偏結(jié)果會破壞文稿的原始布局,達不到類似掃描的效果;而基于文稿邊緣自適應(yīng)動態(tài)檢測方法在單一純色背景、單一非純色背景與復(fù)雜背景下均表現(xiàn)出了良好的定位精度與準(zhǔn)確的糾偏能力,且保留了原始的文稿布局。
為了驗證本文方法的實時性與有效性,對完成糾偏的平均時間以及適應(yīng)場景進行實驗。圖5顯示了基于文字區(qū)域方法與基于文稿邊緣方法在單一或復(fù)雜背景下進行100次糾偏試驗的耗時。表1為基于文字區(qū)域方法和基于文稿邊緣方法在不同場景下的平均耗時與場景適應(yīng)情況?;谖淖謪^(qū)域方法在單一背景下100次實驗的平均耗時為0.327 2 s,而基于文稿邊緣的自適應(yīng)動態(tài)檢測與糾偏方法在單一背景或復(fù)雜背景下100次實驗的平均耗時分別為0.609 2 s和0.663 8 s,耗時高于前者,但能滿足實時檢測的要求;而基于文字區(qū)域檢測與糾偏方法在復(fù)雜情況下實驗100次的平均耗時為1.666 7 s,且不能準(zhǔn)確糾偏。因此,基于文稿邊緣的自適應(yīng)檢測與糾偏方法在整體上性能更優(yōu)。
圖5 進行100次糾偏試驗的耗時分布
表1 不同場景下的平均耗時與場景適應(yīng)情況
本文提出了一種基于文稿邊緣的自適應(yīng)檢測與糾偏方法。該方法將Canny邊緣檢測算法運用于文稿邊緣檢測,結(jié)合Canny對邊緣檢測的優(yōu)勢,引入高斯濾波減少噪聲的影響以提升檢測性能。另外,通過多邊形逼近、最小矩形包裹與面積篩選相結(jié)合的方法去除稿件畸變或復(fù)雜背景對文稿檢測與糾偏的影響,增加了文稿糾偏的適用場景,且滿足文稿糾偏的實時性要求。由于在實際糾偏過程中,因光照產(chǎn)生的陰影未得到去除,因此對糾偏后的圖像進行陰影去除是下一步研究的內(nèi)容。