張祥祥,呂學強,韓 晶,游新冬,張 凱
1(北京信息科技大學 網(wǎng)絡(luò)文化與數(shù)字傳播北京市重點實驗室,北京100101)
2(首都師范大學 中國語言智能研究中心,北京100048)
隨著智能手機、數(shù)字相機、手提電腦等移動拍照設(shè)備與圖像識別的不斷發(fā)展與應(yīng)用,外部數(shù)字影像信息的獲取與智能化分析變得愈發(fā)簡單與方便化,這為使用移動拍照設(shè)備與光學字符識別技術(shù)(OCR)對紙質(zhì)文檔數(shù)據(jù)進行快速的采集、備份、自動化識別與分析等提供了新的方法與途徑.
然而,使用移動拍照設(shè)備采集的文檔圖像中文檔會因文檔的擺放姿態(tài)與拍攝的角度產(chǎn)生透視傾斜變形,該變形是文檔圖像變形中最為常見的變形類型,其在一般的手工拍攝場景下通常難以避免甚至不可避免,這將會對后續(xù)的文字與其它內(nèi)容的檢測、OCR識別、文檔圖像的版面分析等帶來困難[1],因此在進行后續(xù)的處理之前需要對文檔圖像進行透視傾斜矯正恢復(fù)[2].文檔圖像透視傾斜變形的矯正普遍采用“四點法”,不同的方法的區(qū)別一般在于所使用的獲取“四點”的方法不同[3],其通過尋找圖像矯正前與矯正后對應(yīng)的圖像文檔中的4個角點來達到矯正目的,但如何準確的定位到文檔的4個角點并實現(xiàn)通用化的透視傾斜文檔圖像矯正一直是難以攻克的難點,對此國內(nèi)外學者進行了一些相關(guān)研究.尚新萍等人[4]提出一種基于改進的Hough變換的文檔圖像傾斜矯正算法,該算法主要針對僅有“旋轉(zhuǎn)變形”的文檔圖像的矯正,當圖像發(fā)生“透視變形”時,算法將不再適用,另外該算法需要先驗的閾值設(shè)定,泛化性差且運行速度較慢;馮雷等人[5]提出一種基于Hough變換與分級傾角檢測的優(yōu)化的文檔圖像傾斜矯正算法,該算法主要通過縮小Hough變換的角度遍歷區(qū)間以改善Hough變換運行速度慢的問題,但該算法同樣只能矯正“旋轉(zhuǎn)變形”且依賴閾值的先驗設(shè)定;Abbas等人[6]提出一種基于深度卷積神經(jīng)網(wǎng)絡(luò)的文檔圖像矯正算法,該算法通過對文檔的4個角點進行回歸實現(xiàn)透視傾斜文檔圖像的矯正,論文中模型使用合成數(shù)據(jù)集進行訓練,其在合成數(shù)據(jù)集上效果較好,然而模擬數(shù)據(jù)集與真實的數(shù)據(jù)集存在一定的差異,故該模型在實際場景中效果較差,同時其對數(shù)據(jù)量要求較高,當數(shù)據(jù)量不足時將不再適用;Javed,K等人[7]提出一種遞歸調(diào)用的卷積神經(jīng)網(wǎng)絡(luò)實現(xiàn)文檔圖像中文檔角點的檢測與遞歸化預(yù)測修正,并通過預(yù)測的角點最終實現(xiàn)文檔的矯正,該算法在ICDAR2015會議組織的智能手機文檔捕獲與識別挑戰(zhàn)賽[8]中取得較好結(jié)果,但該方法抗干擾性差且同樣依賴于大批量的數(shù)據(jù)訓練,不適用背景干擾性大、可用樣本少的場景.以上算法雖然理論上可以面向任意領(lǐng)域的文檔圖像進行矯正,但因為預(yù)定的閾值或數(shù)據(jù)場景分布等問題,以上算法對任意領(lǐng)域的矯正都存在抗干擾性差等問題.
針對以上文檔圖像矯正現(xiàn)狀,本文從圖像匹配的角度尋求解決文檔圖像矯正問題的更佳解決方案,主要的貢獻有:1)將領(lǐng)域性透視傾斜文檔圖像剖離出來進行矯正處理,并引入基于BRISK[9]的圖像匹配算法用于透視傾斜變形的領(lǐng)域文檔圖像矯正,相比之前的傳統(tǒng)方法與深度學習方法,具有矯正速度快、矯正效果好、抗干擾性強且無需像深度學習場景下的大批量的訓練樣本支持等優(yōu)點;2)針對矯正模板圖像檢測的無關(guān)特征點冗余問題,提出基于先驗特征點過濾算法,實現(xiàn)了矯正速度的提升;3)針對矯正模板圖像檢測的低質(zhì)量特征點冗余問題,提出迭代匹配過濾算法,從而提煉出高質(zhì)量的穩(wěn)定性特征點,進一步提升矯正速度.
BRISK算法是Leutenegger S[9]于2011年針對SURF[10]算法特征點檢測與匹配速度慢而提出的特征點檢測與描述算法.其通過構(gòu)建多尺度圖像金字塔并在各個尺度空間進行特征點檢測以保證算法的尺度不變性.其中,BRISK算法的圖像尺度空間金字塔由8層組成,包括4層普通圖像層與4個內(nèi)層圖像層,分別用ci與di表示(i={0,1,2,…,n-1},n=4).其中普通圖像c0為原始圖像,普通圖像ci由ci-1層2倍下采樣生成;內(nèi)層圖像d0由原始圖像c0的1.5倍下采樣生成,內(nèi)層圖像di由di-1層2倍下采樣生成.若用t表示原圖像與尺度圖像ci與di的相對比例關(guān)系,則有:
t(ci)=2i
(1)
t(di)=2i·1.5
(2)
BRISK算法使用AGAST9-16[11]與FAST5-8[12]進行關(guān)鍵點檢測.其中,AGAST9-16應(yīng)用于圖像尺度金字塔的各個尺度層,F(xiàn)AST5-8應(yīng)用于額外增加的d-1層.通過在圖像尺度金字塔的每個尺度上進行檢測得出每個特征點及關(guān)鍵的AGAST得分,再對檢測出的特征點在相鄰的兩個尺度空間上使用非極大值抑制以實現(xiàn)強響應(yīng)關(guān)鍵點的篩選,AGAST得分值為檢測的特征點的響應(yīng)值.由于在圖像尺度金字塔的各個尺度層由原圖像或采樣得到的尺度層采樣得來,故在尺度層上檢測的特征點的坐標值并非實際圖像上的坐標值,因此篩選出的特征點需要通過插值來還原特征點在原圖像中的真實位置,如此便可以得到特征點位置.
BRISK算法的特征點描述子主要有兩個關(guān)鍵點:1)是描述子的“二進制”描述[13];2)是描述子的特殊采樣模式,前者保證BRISK算法在匹配過程中的高效性,后者保證描述子描述的特征點的旋轉(zhuǎn)不變性[14].BRISK算法的描述子由圖像特征點鄰域精心設(shè)定的不同點位的亮度對比結(jié)果構(gòu)成的二進制字符串組成.由于BRISK描述符的“二進制性”描述,不同圖像特征點描述符的距離可以使用位運算進行計算,這種描述方法保證BRISK算法在匹配過程中的高效性.BRISK的采樣模式為N=60采樣,把N個采樣點任意的兩個不同采樣點Pi與Pj分別兩兩組合得到N(N-1)/2個采樣點對集,將該集合用A表示,則該集合可以表示為:
A={(Pi,Pj)∈R2×R2|i≤N,j
(3)
其中,(Pi,Pj)表示Pi與Pj構(gòu)成的采樣點對.若將g(Pi,Pj)表示為采樣點對的局部梯度集合,I(Pi,σi)與I(Pj,σj)分別表示高斯濾波后的采樣點,則有:
(4)
記δ為采樣點對之間的距離,分別設(shè)定特定的距離閾值δS,δL,從點對集合A中劃分出短距離點對子集S與長距離點對子集L,則兩者可以表示為:
S={(Pi,Pj)∈A|‖Pi-Pj‖<δS}
(5)
L={(Pi,Pj)∈A|‖Pi-Pj‖<δL}
(6)
其中,δS,δL分別取值為9.75t與13.67t;t為特征點所對應(yīng)的尺度比例值.
BRISK算法使用長距離子集L計算特征點的方向,計算公式如公式(7)所示:
(7)
其中,g是特征點的主方向;gx,gy分別為長距離點對子集L中各個采樣點對在兩坐標軸x與y方向上的梯度;l為子集L中所有采樣點對之間的距離的和.在生成特征點描述子之前,為保證方向不變性,還需要將采樣模板沿著中心順時針旋轉(zhuǎn)θ度,其中θ為:
θ=tan-1(gy,gx)
(8)
采樣模板旋轉(zhuǎn)后,再通過對比短距離子集S中采樣點對對應(yīng)的圖像點的灰度值,最終生成二進制描述子.比對方法如公式(9)所示:
(9)
模板圖像匹配矯正算法主要分為5步,如圖1(a)所示.具體流程的細節(jié)原理如下:
圖1 算法流程圖Fig.1 Algorithm flow chart
3.1.1 矯正模板圖像制作
選取一張領(lǐng)域內(nèi)的透視傾斜文檔圖像,通過交互式選取其4個頂點,通過透視變換將其矯正得到文檔圖像的正向平行視圖圖像,記該正向平行矯正模板文檔圖像為IT.
3.1.2 特征點檢測與描述
將矯正模板圖像與待矯正文檔圖像輸入BRISK算法中進行特征點檢測.若將BRISK特征點檢測器的檢測過程用P,D=fBRISK(I)表示,則其輸入為圖像I、輸出為檢測出的特征點坐標序列P與相應(yīng)的特征點描述子序列D.記正向文檔圖像為IT、待矯正文檔圖像為IR,并記兩者經(jīng)過BRISK算法得到的特征點序列與描述子序列分別為PT、DT與PR、DR,則兩者的特征點檢測過程可由公式(10)與公式(11)表示.
PT,DT=fBRISK(IT)
(10)
PR,DR=fBRISK(IR)
(11)
3.1.3 特征點匹配
兩幅圖像特征點的匹配即為兩幅圖像特征點對應(yīng)的描述符的匹配.本文使用簡單方便的暴力(Brutal Force,BF)匹配實現(xiàn)BRISK特征描述子的匹配,若將特征點暴力匹配算法記為函數(shù)PPair12=fBF(P1,D1,P2,D2),則其輸入為兩幅圖像的特征點P1、P2與對應(yīng)的特征點描述子D1,D2,輸出為成對的特征點序列PPair12.若矯正模板圖像與待矯正文檔圖像之間匹配的特征點對序列為PPairTR,則PPairTR可由公式(12)表示.其中本文采用漢明距離進行特征點距離計算,則輸入的兩個特征點描述符序列單元的不同值的數(shù)量即為兩個不同特征點的距離.若dT與dR為正向文檔圖像與待矯正文檔圖像的兩個描述子,又因為BRISK算法的描述子數(shù)量為n=512,則兩者的漢明距離可由公式(13)表示:
PPairTR=fBF(PT,DT,PR,DR)
(12)
(13)
其中,⊕表示異或運算.
3.1.4 單應(yīng)矩陣估計
單應(yīng)矩陣表示同一平面在不同視角投影下的變換關(guān)系[15],其反應(yīng)了兩個視角投影下的相同點的一一對應(yīng)關(guān)系.設(shè)矯正模板圖像上的一點Pt坐標為(xt,yt)、與Pt相對應(yīng)的待矯正文檔圖像的一點Pr的坐標為(xr,yr),并設(shè)Pr變換到Pt的單應(yīng)變換矩陣為Hr2t,Hr2t可由公式(14)表示,則在齊次坐標下Pr到Pt的透視變換關(guān)系可以由公式(15)表示,消去齊次坐標項可得公式(16),整理后可以得到矩陣形式如公式(17)所示.由于單應(yīng)矩陣具有8個未知參數(shù),則求解單應(yīng)矩陣各個參數(shù)的值就至少需要8個線性方程組,又因為圖像上的一對匹配坐標點的坐標代入公式(17)可以構(gòu)成兩個線性方程,故至少需要4對相匹配坐標點才可求解單應(yīng)矩陣.本文采用RANSAC算法進行單應(yīng)矩陣的求解,以不斷循環(huán)迭代的方式,從包含異常或誤差樣本的數(shù)據(jù)樣本中隨機選出一部分樣本數(shù)據(jù)進行模型參數(shù)估計,最終找出符合正常樣本個數(shù)最多、誤差最小的模型參數(shù),其中這里的包含誤差的樣本即為特征點的匹配結(jié)果PPairTR,模型參數(shù)即為Hr2t.若將RANSAC算法用H=fRANSAC(PPair)表示,則Hr2t可由公式(18)表示.
(14)
(15)
(16)
(17)
Hr2t=fRANSAC(PPairTR)
(18)
3.1.5 文檔圖像矯正
求得單應(yīng)矩陣Hr2t后,即得到待矯正文檔圖像IR到正向文檔圖像IT的坐標變換關(guān)系,要求得矯正結(jié)果圖像即需要對待矯正文檔圖像IR的每一個像素進行單應(yīng)變換,而矯正結(jié)果即為每個像素單應(yīng)變換后的集合,若記矯正結(jié)果圖像為IR2T,IR的寬高為wR與hR,則IR2T可以由公式(19)表示.
(19)
由于BRISK特征點廣泛且大量存在,所以基于BRISK算法的圖像匹配具有較高的匹配精度與匹配可靠性[9],其可以保證TIMR算法矯正效果的高精度性,但與之相對的廣泛且大量的特征點之間的逐一匹配也會使算法實時性變差[16],而由3.1.4可知TIMR算法中只要保證有4個高質(zhì)量的匹配點就可以保證較好的匹配與矯正效果.因此,對檢測的特征點進行一定數(shù)量的過濾可以在保證匹配與矯正的精度的同時提升算法的實時性.
基于以上分析,本文提出特征點先驗過濾與迭代匹配過濾實現(xiàn)TIMR算法中矯正模板圖像的特征點的過濾以實現(xiàn)算法實時性的改善.特征點過濾優(yōu)化后的TIMR算法流程圖如圖1(b)所示,具體算法原理與分析如下:
3.2.1 特征點先驗過濾
TIMR算法主要針對特定領(lǐng)域的文檔圖像的矯正,而領(lǐng)域性文檔圖像中存在不變的文字或圖像內(nèi)容,這些不變的內(nèi)容區(qū)域所檢測出的特征點一般會穩(wěn)定性存在,即在理想的尺度不變、旋轉(zhuǎn)不變、色彩不變等情況對該特定領(lǐng)域的任意的文檔圖像進行特征點檢測時均會檢測出相同的特征點,這些穩(wěn)定存在的特征點保證了TIMR算法的可行性;而相對就有變化的文字或圖像內(nèi)容,這些區(qū)域一般為文檔的個性化內(nèi)容區(qū)域,其一般為文檔使用者個人信息相關(guān)聯(lián)的內(nèi)容,如使用者需要自己填寫或者隨使用者信息打印的姓名、性別與日期等內(nèi)容,這些內(nèi)容會隨著文檔使用者的不同而不同,因此這些區(qū)域檢測出的特征點在進行匹配時一般得不到正確的匹配結(jié)果,同時還會影響算法的實時性.
綜上所述,對文檔圖像非穩(wěn)定性特征點的過濾是非常必要的.為提升TIMR算法的實時性,本文提出特征點先驗過濾(Prior Filtering,PF)對矯正模板圖像的特征點進行過濾優(yōu)化從而實現(xiàn)算法的加速,具體處理方法如下:首先,將文檔圖像的矯正模板圖像中穩(wěn)定不變區(qū)域進行矩形框選標注,獲取由多個矩形框內(nèi)部坐標點構(gòu)成的圖像點集,記該點集為PBBOX,若標注的邊框數(shù)量為NBBOX,第i個邊框的左上角坐標與寬高為(xi,yi,wi,hi),則PBBOX可由公式(20)表示;然后將得到的點集PBBOX與BRISK檢測得到的特征點集PBRISK-t進行集合間的交運算得到兩者的公共點集,該公共點集即為先驗過濾后的特征點點集,記該點集為PPF,則先驗過濾后的特征點點集PPF可以由公式(21)表示.
(20)
PPF=PBRISK-t∩PBBOX
(21)
3.2.2 特征點迭代匹配過濾
BRISK算法的特征點具有較強的穩(wěn)定性,但目前的圖像一般均為橫向與豎向的等距排布柵格影像,其本質(zhì)為具有一定采樣距離的二維離散信號,因此,其是離散的,也正因為圖像的離散型性,任何的特征點檢測算法檢測的特征點都不具有完全的、絕對的穩(wěn)定性;所以即使是文檔圖像中的不變的穩(wěn)定性區(qū)域依然存在冗余的不穩(wěn)定的特征點,因此,對這些不穩(wěn)定的特征點的進一步過濾是非常有必要的.
基于以上分析,本文提出迭代匹配過濾算法(Iterative Matching Filtering,IMF)實現(xiàn)非穩(wěn)定性特征點過濾,詳細過程如下:首先獲取一定數(shù)量的不同角度與不同環(huán)境下的透視變形文檔圖像,然后對每一張圖像進行遍歷,對遍歷的每一張圖像進行特征點檢測,并將檢測得到的特征點與前面先驗過濾后的特征點進行匹配,匹配正確的特征點保留,匹配錯誤的特征點過濾,每次循環(huán)過濾后保留的特征點作為下一次迭代匹配過濾的輸入,當循環(huán)遍歷完所有圖像時保留的特征點即為在不同角度不同光照環(huán)境下篩選過濾的最終的穩(wěn)定的性特征點.若記用于迭代匹配過濾的文檔圖像數(shù)量為NIMF,記第i次輸入的文檔圖像為IIMF(i)、第i次匹配時正確匹配的模板文檔圖像特征點集合為PIMF(i)(i=1,2,…,NIMF),并將每次的匹配過濾的過程用函數(shù)fIMF表示,則fIMF函數(shù)的輸入為上一次的匹配正確的模板特征點點集與新輸入的文檔圖像檢測出的特征點集合,其中第一次輸入的匹配正確的模板特征點為上一節(jié)邊框過濾后的特征點,即PIMF(1)=PPF,則迭代匹配過濾可用公式(22)表示.
PIMF(i+1)=fIMF(PIMF(i),fBRISK(IIMF(i)))
(i=1,2,…,NIMF)
(22)
實驗集數(shù)據(jù)由某醫(yī)療公司提供的來自不同檢驗者、不同檢驗項目的真實檢驗單在自然環(huán)境下人工拍攝而成,采用的拍攝設(shè)備為型號為vivo U3x的智能手機.為保證數(shù)據(jù)的多樣性,拍攝時在保證文檔內(nèi)容盡可能完整且內(nèi)容可人工分辨的前提下采取隨機的背景、隨機的擺放角度、隨機的拍攝角度、隨機的拍攝距離以及隨機的自然光照環(huán)境,最終拍攝的文檔圖像數(shù)據(jù)集共計41張,尺寸為4160×3120或3120×4160像素.根據(jù)實驗需求將該數(shù)據(jù)集隨機劃分為3部分,具體細節(jié)如表1所示.圖2顯示了該文檔圖像數(shù)據(jù)集下的4張圖像樣例.特別地,為了方便實驗結(jié)果的量化分析,我們對第3部分中的文檔圖像做了角點坐標標注.
表1 數(shù)據(jù)集劃分與用途描述Table 1 Data set partition and usage description
圖2 數(shù)據(jù)集中的部分圖像樣例Fig.2 Some image samples in the dataset
文檔圖像矯正一般應(yīng)用于紙質(zhì)文檔的掃描與識別等處理,其一般對矯正的效果要求較高,同時在一定的場景下要求一定的實時性.良好的矯正效果可以方便對掃描文檔的進一步處理與分析,實時性處理可以在實際應(yīng)用中帶來良好的交互體驗.因此,本文從矯正效果與矯正速度兩方面對本文所提算法進行評估.
(23)
本文的所有實驗均在個人PC上進行,實驗的基本環(huán)境如表2所示.
表2 實驗環(huán)境Table 2 Experimental environment
在進行實驗之前必須先制作一張矯正模板圖像,這是TIMR算法的關(guān)鍵一步.此處使用數(shù)據(jù)集第1部分的單張透視傾斜變形文檔圖像進行制作,選取變形文檔圖像的4個角點通過透視變換得到矯正模板圖像.其中,用于制作矯正模板的原圖與標注如圖3(a)所示,制作好的矯正模板圖像如圖3(b)所示.其中,論文中涉及隱私的圖例我們做了掩碼處理.
圖3 正向矯正模板圖像制作Fig.3 Positive rectification template image making
4.3.1 特征點過濾實驗
矯正模板特征點過濾包括兩個階段:1)個是特征點先驗過濾(Prior Filtering,PF);2)另一個是特征點迭代匹配過濾(Iterative Matching Filtering,IMF).兩個階段的過濾旨在實現(xiàn)算法的加速,PF過濾的為與“矯正無關(guān)”的特征點,其可以實現(xiàn)算法的提速且不會影響算法精度,而IMF為“矯正相關(guān)”的穩(wěn)定性特征點過濾,其在實現(xiàn)算法提速的同時需要驗證特征點的過濾是否會影響算法的矯正精度.因此,本文在對特征點過濾前后的算法速度進行對比的同時也對過濾前后的矯正精度進行了對比,詳情如圖4-圖6所示.
PF為特征點過濾的第1階段,過濾前后的相關(guān)指標變化由圖4-圖6中第1條豎直虛線左側(cè)所示.由圖4可知,經(jīng)過PF后特征點數(shù)量發(fā)生驟降,由7215個特征點下降到4208個特征點,數(shù)量下降了3007個,占總數(shù)量的41.68%;又由圖5可知經(jīng)過PF后算法的矯正用時從平均2.21秒一張下降到1.74秒一張,實現(xiàn)了平均0.47秒的速度提升,速度提升比例約21.27%;同時再由圖6可知經(jīng)過PF后算法的矯正精度呈現(xiàn)較穩(wěn)定地狀態(tài).因此,PF可以通過過濾掉矯正模板中的無關(guān)特征點實現(xiàn)不損失矯正精度的同時提升算法矯正速度,這也驗證了上文的分析.
圖4 矯正模板圖像特征點數(shù)量隨特征點過濾次數(shù)的變化Fig.4 Number of key points of rectification template image varying with the filtering times of key points圖5 算法用時隨特征點過濾次數(shù)的變化Fig.5 Algorithm time varying with the filtering times of key points圖6 平均矯正精度隨特征點過濾次數(shù)的變化Fig.6 Average rectification accuracy varying with the filtering times of key points
IMF為銜接PF的第2階段特征點過濾,每次迭代過濾前后的相關(guān)指標由圖4-圖6中第1條豎直虛線右側(cè)所示.由圖4可知,經(jīng)過第1次與第2次IMF后特征點數(shù)量發(fā)生大比例的下降,特征點數(shù)量由4208下降到351個,兩次過濾特征點下降的比例達到了91.66%,這說明BRISK特征點中存在大量穩(wěn)定性弱的特征點,而第3次-第10次IMF后,特征點的數(shù)量降低程度不再明顯,這說明了由BRISK特征點存在穩(wěn)定性差異,并且IMF能夠有效篩選出其中穩(wěn)定性足夠強的特征點.再由圖5可知,算法的整體矯正用時與中間各個部分的用時的下降趨勢與特征點數(shù)量下降的趨勢相近,均為先驟降在逐漸變緩,這說明特征點數(shù)量與算法的速度成一定的正相關(guān)關(guān)系.結(jié)合圖6可知,第1次-第5次IMF過程中,算法的矯正精度有細微的波動,但均保持在39個像素之內(nèi)(MDEIMF4=38.63 pixel<39 pixel)且最大像素波動值保持在6個像素以內(nèi)(MDEIMF4-MDEPF1=5.79 pixel<6pixel),這樣的誤差相比較于4160×3120或3120×4160像素的測試集文檔圖像而言可以說微乎其微,基本不影響矯正效果,而在迭代匹配的第6次-第10次,矯正精度在測試集上呈現(xiàn)出稍大且不可忽略的波動,這間接地驗證了特征點的穩(wěn)定性不是絕對的,對特征點的過濾需要在改善算法效率的同時且保證矯正精度的情況下進行.因此,綜合矯正效率與算法穩(wěn)定性,本文采用第5次迭代匹配過濾的結(jié)果作為矯正模板.
經(jīng)過兩階段的過濾,特征點數(shù)量由7215下降到209,總體減少了97.10%,圖7中3幅圖展示了兩階段過濾前后特征點由稠密到稀疏的變化,圖中“+”形符號表示檢測到的特征點;矯正速度由平均2.18秒下降到平均1.20秒,提升了44.95%;而矯正精度又可以保持在可以忽略的范圍之內(nèi),圖8展示了經(jīng)過兩階段過濾后的特征點匹配可視化結(jié)果與良好的矯正結(jié)果.這說明了特征點過濾可以在保證良好的矯正效果的情況下優(yōu)化算法速度.其中過濾前后TIMR算法的各項指標匯總后如表3所示.
圖7 特征點過濾變化對比圖Fig.7 Comparison chart of feature point filtering varying
表3 特征點過濾前后各項指標對比Table 3 Comparison of each index before and after key point filtering
圖8 特征點匹配與矯正Fig.8 Key point matching and rectification
4.3.2 矯正精度與速度對比實驗
為驗證本文所提算法的有效性,本文以當前的主流的商業(yè)文檔圖像處理軟件(CamScanner(1)https://www.camscanner.com/與ABBYYFineReader(2)https://www.abbyy.com/)與主流的深度學習算法(文獻[6]中算法與文獻[7]中算法)進行對比.矯正精度與速度的對比驗證仍采用算法預(yù)測的文檔角點坐標與真實坐標的平均絕對誤差(MDE)與平均每張文檔圖像的矯正時間,同時對矯正成功的數(shù)量與正向性矯正結(jié)果數(shù)量進行統(tǒng)計,相關(guān)的對比結(jié)果如表4所示,各種算法的文檔角點預(yù)測結(jié)果與矯正結(jié)果對比如表5所示.
表4 矯正效果對比Table 4 Comparison of rectification effect
由表4可知,本文算法在矯正精度、矯正成功數(shù)量、正向性矯正結(jié)果數(shù)量均遠遠優(yōu)于其它算法;對于算法速度,本文算法雖未達到最優(yōu),但亦保持了一個可觀的結(jié)果.再結(jié)合表5,可知其它各種算法對文檔背景簡單(如表5中Image1)的情況下可以實現(xiàn)可觀的矯正效果,在復(fù)雜的背景(如表5中Image2)的情況下則矯正效果較差,在文檔缺角(如表5中的Image3)的情況下只有ABBYY FineReader有較好的矯正效果,而本文算法在以上各種情況下均有良好的矯正效果.綜上,可知本文算法在矯正效果上最好,具有矯正效果好抗干擾性強可實現(xiàn)正向性矯正結(jié)果等優(yōu)點.
表5 算法矯正效果對比Table 5 Comparison of algorithm rectification effect
本文根據(jù)當前文檔圖像矯正的現(xiàn)狀將領(lǐng)域性文檔圖像單獨剖離出來處理,引入BRISK圖像匹配算法對透視傾斜文檔圖像進行矯正,提出模板圖像匹配矯正算法,同時將BRISK算法在矯正模板圖像上的檢測的冗余與高質(zhì)量特征點進行過濾優(yōu)化,并在某醫(yī)療公司的真實檢驗單圖像數(shù)據(jù)集上進行測試、與主流商業(yè)軟件和深度學習方法對比.實驗結(jié)果表明,模板圖像匹配矯正算法使用簡單便捷、矯正速度快、矯正效果好、抗干擾性強且能夠有效避免當文檔圖像傾斜角較大時引起的矯正文檔圖像側(cè)立或倒立的情況,可以有效勝任領(lǐng)域性的文檔圖像矯正任務(wù).