王漳 梁祖紅 羅孝波
摘要:CTPN文本檢測(cè)模型在細(xì)粒度文本檢測(cè)過程中會(huì)出現(xiàn)斷連、漏檢的情況,尤其是在細(xì)粒度的文本場(chǎng)景下。針對(duì)以上問題,提出了一種細(xì)粒度文本檢測(cè)算法。該算法基于CTPN模型網(wǎng)絡(luò)進(jìn)行改進(jìn),重新設(shè)計(jì)了垂直錨點(diǎn)尺度,以適應(yīng)細(xì)粒度文本的特征;同時(shí)調(diào)整主干網(wǎng)絡(luò)的結(jié)構(gòu)適應(yīng)錨點(diǎn)的尺度。在anchor的連接過程中采用了自適應(yīng)間隔的連接方式,從而保留水平語義信息的完整性。文本識(shí)別階段采用CRNN方式進(jìn)行識(shí)別。通過PyTorch環(huán)境驗(yàn)證細(xì)粒度的發(fā)票數(shù)據(jù)集,所提方法相比于原CTPN文本定位方法效果顯著提高。
關(guān)鍵詞:文本檢測(cè);細(xì)粒度;錨點(diǎn)機(jī)制;文本識(shí)別;深度學(xué)習(xí)
中圖分類號(hào):TP18? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2022)10-0009-06
隨著社會(huì)經(jīng)濟(jì)的發(fā)展,票據(jù)的重要性越來越被人們重視,尤其是在各個(gè)企業(yè)中使用增值稅發(fā)票報(bào)賬的人數(shù)日益劇增[1],財(cái)務(wù)管理人員錄入發(fā)票的工作量大幅度提高。而傳統(tǒng)人工錄入票據(jù)內(nèi)容的方式,工作強(qiáng)度高、效率低下,很容易導(dǎo)致工作人員在疲憊狀態(tài)下疏忽出錯(cuò)。如能實(shí)現(xiàn)自動(dòng)化地從圖像上提取文字信息,會(huì)大大降低企業(yè)的人力和物力,為企業(yè)帶來極大的便利。
使用電子設(shè)備將紙質(zhì)中的字符翻譯成計(jì)算機(jī)文字的過程被稱為光學(xué)字符識(shí)別[2](Optical Chatacter Recognition,OCR)技術(shù)。OCR技術(shù)核心在于文本的檢測(cè)和文本識(shí)別兩部分。傳統(tǒng)的文本檢測(cè)包含基于連通域的方法[3-4]和基于滑動(dòng)窗口(Sliding-window Method)的方法[5-6]。基于連通域的方法利用圖像的形態(tài)學(xué)的特征,通過二值化、膨脹、腐蝕等一系列形態(tài)學(xué)操作將連通域找出來作為文本位置的候選集,通過人為設(shè)計(jì)特征規(guī)則過濾候選集,粗略定位圖像中文本的位置。但若圖像中存在背景噪聲就可能造成連通錯(cuò)誤的情況;其次,人為設(shè)定的過濾規(guī)則并不能有效區(qū)分文本與非文本區(qū)域?;诨瑒?dòng)窗口的方法設(shè)計(jì)多尺度的窗口大小,從左到右、從上到下依次掃描圖像,通過分類器對(duì)窗口滑到的位置做是文本和非文本的判別。該類方法的不足在于對(duì)窗口的依賴難以把握,窗口的尺度、滑窗步長設(shè)置較為困難。
近幾年,隨著深度學(xué)習(xí)的發(fā)展,研究者們對(duì)于自然場(chǎng)景文本的檢測(cè)有了大量的研究,成了當(dāng)下的研究熱點(diǎn)。文字檢測(cè)在一定程度上是一種特殊的目標(biāo)檢測(cè)任務(wù),從2014年開始,用于目標(biāo)檢測(cè)的R-CNN[7-9]系列論文被提出。該方法是基于RPN (Regions with Convolutional Neural Network)網(wǎng)絡(luò)進(jìn)行運(yùn)作的;首先做特征提取工作,通過主干網(wǎng)絡(luò)獲取輸入圖像的特征圖;然后通過錨點(diǎn)機(jī)制,計(jì)算錨點(diǎn)對(duì)應(yīng)的置信度;對(duì)初步結(jié)果篩選并做出細(xì)致調(diào)整,最后得到檢測(cè)結(jié)果。在國內(nèi),鄭祖兵等人[10]將醫(yī)療票據(jù)的信息分為出廠印刷的內(nèi)容和后期打印的內(nèi)容,利用Faster RCNN[9]算法完成后期打印內(nèi)容的定位,再將文本分割開來進(jìn)行單字符的識(shí)別,總體準(zhǔn)確率達(dá)到95.4%。何鎏一等人[11]使用連通域分析方法完成整個(gè)增值稅發(fā)票版面文本的檢測(cè);連通域最優(yōu)閾值的大小很難確定,可能會(huì)存在斷連情況,同時(shí)也不利于文本的篩選,魯棒性較差?;赗PN的思想,Tian等人[12]提出了專門用于文本檢測(cè)的開山之作CTPN(Connectionist Text Proposal Network)算法。隨后,EAST[13]、TextBox++[14]等系列場(chǎng)景文本檢測(cè)算法相繼提出。
公認(rèn)的自然場(chǎng)景文本檢測(cè)任務(wù)是國際文檔分析與識(shí)別國際會(huì)議(International Conference on Document Analysis and Recognition,ICDAR)舉辦的比賽。以ICDAR2015[15]文本檢測(cè)任務(wù)為例,比賽所用數(shù)據(jù)集圖像像素規(guī)格為1280×720,其單個(gè)文字的高度從50px到80px,甚至達(dá)到100px,占比高達(dá)近14%。票據(jù)識(shí)別隸屬于自然場(chǎng)景文本檢測(cè)的子類任務(wù),不同于自然場(chǎng)景文本字體大的特點(diǎn),票據(jù)圖像文字排列分散、字體較小,在一張圖上的文字規(guī)格基本統(tǒng)一,文字高度占比通常在20px左右,高度占比僅為3%左右。如果不對(duì)圖像做任何處理就直接使用傳統(tǒng)OCR技術(shù)進(jìn)行識(shí)別;或是直接用自然場(chǎng)景文本檢測(cè)模型對(duì)其進(jìn)行檢測(cè)和識(shí)別,往往會(huì)出現(xiàn)漏檢斷檢,效果不好、魯棒性差等問題。
針對(duì)自然場(chǎng)景文本檢測(cè)模型在細(xì)粒度的文本上出現(xiàn)的斷檢漏檢情況,本文搭建一種面向漏檢斷連的細(xì)粒度票據(jù)文本檢測(cè)與識(shí)別方法,該方法的文本檢測(cè)階段和文本識(shí)別部分均由深度學(xué)習(xí)模型實(shí)現(xiàn),兩者模型串聯(lián)起來形成端到端的完整架構(gòu)。文本定位模型采用改進(jìn)的CTPN網(wǎng)絡(luò),主要改進(jìn)在:(1)調(diào)整CTPN主干網(wǎng)絡(luò)池化層和卷積層,更少的最大池化層使得Anchor在特征圖上的移動(dòng)對(duì)應(yīng)原圖更短的步長,即捕捉更精細(xì)的文字特征;(2)針對(duì)細(xì)粒度的文本,重新設(shè)計(jì)CTPN模型中的Anchor尺度和數(shù)量;(3)對(duì)于生成一系列文本建議區(qū)域,采取了自適應(yīng)間距解決了文本的斷連問題,提高文本行檢測(cè)的完整性。文本識(shí)別模型采用CRNN模型[16]。對(duì)比實(shí)驗(yàn)結(jié)果表明,自制的細(xì)粒度票據(jù)數(shù)據(jù)集上,效果顯著。
1 本文方法
本文提出的面向漏檢斷連的細(xì)粒度票據(jù)文本檢測(cè)與識(shí)別主要由圖像采集模塊、圖像預(yù)處理模塊、文本檢測(cè)網(wǎng)絡(luò)模塊、文本識(shí)別網(wǎng)絡(luò)模塊、文本輸出模塊等5個(gè)主要模塊組成,該算法的整體設(shè)計(jì)流程圖如圖1所示。
1.1 圖像采集與圖像處理
隨著電子設(shè)備的層出不窮,圖像采集的方式也有許多可選的操作——掃描儀、智能手機(jī)、攝像機(jī)、高拍儀等。大多數(shù)人往往更傾向于手機(jī)移動(dòng)端便捷的拍照方式,本文所采用的發(fā)票數(shù)據(jù)集是由高拍儀完成。為了后期能夠更好地進(jìn)行文本的區(qū)域劃分、文本檢測(cè)和文本識(shí)別,需要將采集到的傾斜圖像進(jìn)行仿射變換或者水平校正的操作。一般對(duì)于傾斜圖像的矯正需要借助于Hough變換[17],其主要是利用圖片所在的笛卡爾空間和霍夫空間之間的變換。在Hough變換中,常用式(1)表示直線:
[ρ=xcosθ+ysinθ] (1)
其中,ρ為點(diǎn)到直線的距離,θ為直線與X軸正向的夾角度數(shù);在Hough空間中(ρ,θ)為已知量,(ρ,θ)為未知量。笛卡爾空間上一個(gè)點(diǎn)的n個(gè)方向映射到Hough空間中為一條正弦曲線,當(dāng)多個(gè)共線的點(diǎn)在多個(gè)方向上的映射就會(huì)交于一個(gè)(ρ,θ);在霍夫空間圖像上,具有最多交線的點(diǎn)具有便是一條直線,此時(shí)可以求出傾斜角度θ完成圖像的水平矯正。
1.2 文本區(qū)域劃分
基對(duì)文本區(qū)域進(jìn)行劃分的依據(jù)是發(fā)票的尺寸規(guī)格為國家稅務(wù)局統(tǒng)一規(guī)定大小,通過等比例縮放可以將輸入的圖像進(jìn)行文本區(qū)域的粗劃分。文本區(qū)域通常包含購買方信息、銷售方信息、銷售明細(xì)、密碼區(qū)和備注等信息區(qū)域。增值稅票據(jù)的模板樣式如圖2所示,其信息框的高H、寬W及任何一個(gè)小框的位置信息(x,y,h,w)都可以先驗(yàn)測(cè)出。
假設(shè)給定一張票據(jù)圖,通過openCV直線檢測(cè)將票據(jù)中信息框主體裁出來,測(cè)得其尺寸為H’×W’,通過公式(2)可以得到輸入圖像與標(biāo)準(zhǔn)模板的縮放比例α。輸入圖像中每一小框的位置信息(x’,y’,h’,w’)可以按照公式(3)進(jìn)行線性變換。分割出的小區(qū)域信息示例如圖3所示。
[α=H / H'] (2)
[x' =α×xy' =α×yh' =α×hw' =α×w] (3)
2 基于CTPN的文本位置檢測(cè)
本文檢測(cè)方法在CTPN基礎(chǔ)上做出了3個(gè)改進(jìn):(1) 重新設(shè)置Anchor的尺度,以適應(yīng)票據(jù)細(xì)粒度的特點(diǎn);(2)調(diào)整特征提取的主干網(wǎng)絡(luò),即減少原VGG的Conv5階段(包含一個(gè)最大池化層),使得Anchor的每一次移動(dòng)都對(duì)應(yīng)原圖更小尺度的移動(dòng),以適應(yīng)Anchor的尺度;(3)在Anchor的合成階段摒棄了固定閾值的做法,先對(duì)行進(jìn)行聚類,再自動(dòng)計(jì)算Anchor的最大間隔,并將其設(shè)為閾值,使得間隔過長的Anchor也能得以連上。
2.1 CTPN算法
由于發(fā)票中的文本具有較好的水平性質(zhì),本文提出的票據(jù)文本定位方法是基于CTPN算法的,其結(jié)合了卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò),如圖4所示。
首先通過主干網(wǎng)絡(luò)VGG16[18]進(jìn)行卷積操作,得到conv5的特征圖。為了得到基于時(shí)序的特征,在特征圖上以3×3的窗口進(jìn)行滑窗拆分特征圖,得到基于序列的特征后將其輸入到BiLSTM[19]中。通過BiLSTM輸出的特征轉(zhuǎn)換成向量的形式輸入到全連接層(Fully connected layer,F(xiàn)C)后準(zhǔn)備輸出。輸出層主要有三個(gè)部分,2k個(gè)anchor的位置信息、2k個(gè)文本與非文本的得分和k個(gè)anchor的水平偏移量。獲取文本建議框以后將得分較低的候選框剔除,并使用NMS過濾多余候選框。
CTPN的思想是基于固定錨點(diǎn)機(jī)制的,在特征圖上每個(gè)像素點(diǎn)的垂直方向上設(shè)置了[k]個(gè)不同高度的anchor,在[y]方向上從11px~273px(依次除以0.7),在[x]方向上固定尺寸(16px)?;貧w層的輸出是預(yù)測(cè)anchor的中心位置高度y軸坐標(biāo)和矩形框的高度h值,每個(gè)anchor的位置信息由兩部分組成,[k]個(gè)anchor對(duì)應(yīng)[2k]個(gè)值。關(guān)于anchor垂直坐標(biāo)的計(jì)算如公式(4)所示。
[VC=(Cy-Cay)/haVh=log (h/ha)V*C=(C*y-Cay)/haV*h=log (h*/ha)] (4)
其中,[{vc,vh}]和[{v*c,v*h}]分別是預(yù)測(cè)坐標(biāo)和真實(shí)坐標(biāo)。[{cay,ha}]是anchor的y軸坐標(biāo)和高度,[{cy,h}]是預(yù)測(cè)出來的y軸坐標(biāo)和高度,[{c*y,h*}]是真實(shí)的y軸坐標(biāo)和高度。
在正負(fù)樣本分類問題上,其本質(zhì)是一個(gè)二分類問題,采用softmax損失作為損失函數(shù),對(duì)應(yīng)的輸出為文本的得分和非文本的得分,[k]個(gè)Anchor對(duì)應(yīng)[2k]個(gè)值。在[x]方向上的回歸任務(wù),主要用來精修文本行的兩個(gè)端點(diǎn),表示每個(gè)Anchor的水平偏移量,其計(jì)算如公式(5)所示。
[o=(Xside- CαX) / Wαo*=(X*side- CαX) / Wα] (5)
以上三個(gè)分支對(duì)應(yīng)三部分的學(xué)習(xí)任務(wù),其損失函數(shù)是分類損失和回歸損失的和,如公式(6)所示。
[L(si,vj,ok)=1NsiLcls(si,s*i)+λ1NvjLrev(vj,v*j)+λ2NokLreo(ok,o*k)] (6)
其中,[Lcls]為分類損失,采用softmax loss;[{Lrev,Lreo}]為垂直方向上和水平方向上的回歸損失,使用Smooth L1 loss。[{Si,Vj,Ok}]為網(wǎng)絡(luò)預(yù)測(cè)輸出,[{S*i,V*j,O*k}]代表真值標(biāo)簽。[{λ1,λ2}]為權(quán)重系數(shù),用于平衡各學(xué)習(xí)任務(wù)的損失。[{Ns,Nv,No}]為歸一化參數(shù),表示對(duì)應(yīng)任務(wù)的樣本數(shù)量。
2.2 調(diào)整特征提取的主干網(wǎng)
VGG16包含了13個(gè)卷積層和3個(gè)全連接層,其網(wǎng)絡(luò)如圖5所示。CTPN算法選取Stage1至Stage5的卷積層用來提取輸入圖像的特征,conv5_3層的特征圖經(jīng)歷了4次Max-pooling Layer,特征圖上的感受野對(duì)應(yīng)原圖的1/16,在特征圖上移動(dòng)1個(gè)像素對(duì)應(yīng)原圖移動(dòng)16個(gè)像素。對(duì)于自然場(chǎng)景文本數(shù)據(jù)集而言,街景文字的尺度普遍較大,對(duì)于這樣的感受野,CTPN算法中的anchor檢測(cè)級(jí)別仍能夠?qū)?yīng)到文字的一部分,獲得部分文字特征。
而本文使用的數(shù)據(jù)集圖像尺寸為1024×768,略小于ICDAR2015數(shù)據(jù)集的尺度,對(duì)比圖如圖6所示。此外,本文數(shù)據(jù)集中文字的尺度遠(yuǎn)不及自然場(chǎng)景中文本的尺度,若經(jīng)過原始的CTPN卷積層后,Anchor所對(duì)應(yīng)原圖的感受野區(qū)域包含多個(gè)文字,檢測(cè)級(jí)別不夠精細(xì)。為了適應(yīng)這種小尺度的文本、捕捉更精細(xì)的特征,本文算法將卷積操作進(jìn)行到Stage4即可。輸入的圖像經(jīng)歷3次Max-pooling Layer,特征圖上的感受野對(duì)應(yīng)原圖的1/8,在特征圖上移動(dòng)1個(gè)像素對(duì)應(yīng)原圖移動(dòng)8個(gè)像素,從而Anchor可以獲得更細(xì)的特性表征。
2.3 小尺度錨點(diǎn)策略
CTPN針對(duì)不同尺度的自然場(chǎng)景文本,設(shè)置了不同尺寸的Anchor。如圖7(a)所示,其中,在x方向上的尺度固定(16px),在[y]方向上設(shè)置了10個(gè)不同尺度,從11px(依次除以0.7)直到283px。本文數(shù)據(jù)集中的文字,其規(guī)格較為統(tǒng)一,每一行文本字體大小一致;最高的文字為中間標(biāo)題,其像素值在25px左右。針對(duì)細(xì)粒度的文本,從優(yōu)化anchor的思想出發(fā),本文設(shè)計(jì)了更少、更小尺度的anchor。如圖7(b)所示,在[x]方向?qū)nchor的尺度縮小為原來的一半(8px),適應(yīng)減少1個(gè)Max-pooling Layer的改變所帶來的影響,即anchor覆蓋原圖每個(gè)點(diǎn)且不相互重疊;同時(shí)能將anchor檢測(cè)的級(jí)別精確到文字更細(xì)的特征上。在y方向上設(shè)置了5個(gè)不同尺度{7px,10px,14px,20px,29px},滿足本文數(shù)據(jù)在y方向上的最大需求。
2.4 自適應(yīng)間距的文本行構(gòu)造算法
在獲得一系列的text proposal之后,需要將建議框連接成文本線。CTPN先將分類得分低的Anchor判定為非文本并將其剔除,然后使用非極大值抑制,將剩下的anchor中重疊程度大的Anchor進(jìn)行合并。
CTPN中按照水平[x]坐標(biāo)排序Anchor, 將水平距離小于固定閾值(50px)和垂直方向上重合度大于0.7的篩選出,再挑出分類得分最大的anchor。如此依次篩選,將符合的Anchor組成一個(gè)系列,如圖8所示。最后將此系列的Anchor合并成語句獲得最終的文本檢測(cè)框。由于票據(jù)數(shù)據(jù)集有良好的分行特征,基于該思想在對(duì)[x]排序之前對(duì)[y]左邊進(jìn)行聚類,類別數(shù)N即為文本區(qū)域的行數(shù)。
在每一行上分別計(jì)算最大的Anchor間隔,將其作為閾值;這種動(dòng)態(tài)設(shè)置閾值的方式,將一行的文本框連接起來,保證間隔較大的文字也能被連接起來,便于后續(xù)字符識(shí)別網(wǎng)絡(luò)的使用。
3 基于CRNN的文本識(shí)別
字符文本識(shí)別是將圖像中的文字序列轉(zhuǎn)換成計(jì)算機(jī)語言描述字符的序列。目前,在文字識(shí)別上的深度學(xué)習(xí)方法主要有兩種實(shí)現(xiàn)方式:一是基于Attention注意力機(jī)制[20],二是基于CRNN實(shí)現(xiàn)。本文采用的CRNN是一種端到端的卷積循環(huán)神經(jīng)網(wǎng)絡(luò)模型,它采用了“CNN+LSTM+CTC”的網(wǎng)絡(luò)結(jié)構(gòu),如圖9所示。網(wǎng)絡(luò)具體的詳細(xì)參數(shù)如表1所示。
識(shí)別流程包含了三部分,自底向上依次是:(1)卷積層由固定的卷積層和最大池化層組成,主要是從輸入的圖像中完成文本特征序列的提取;(2)循環(huán)層作為一個(gè)序列建模,由一個(gè)雙向的LSTM組成完成,從卷積層獲取的特征序列分析過程;(3)轉(zhuǎn)錄層把從循環(huán)層獲取的標(biāo)簽分布通過去重整合等操作轉(zhuǎn)換成最終的識(shí)別結(jié)果。
4 實(shí)驗(yàn)與結(jié)果
4.1 實(shí)驗(yàn)環(huán)境
本文實(shí)驗(yàn)硬件平臺(tái)的CPU型號(hào)為Intel Xeon E5-2620 v4,GPU為NVIDIA Corporation GP100GL,16G顯存,詳細(xì)實(shí)驗(yàn)環(huán)境如表2所示。
4.2 數(shù)據(jù)集
本文從細(xì)粒度票據(jù)文本檢測(cè)和識(shí)別兩個(gè)方面進(jìn)行測(cè)試分析。在財(cái)務(wù)部門共隨機(jī)采集330幅圖像用于文本檢測(cè)和識(shí)別,其中300張用于訓(xùn)練文本定位模型,測(cè)試采用與訓(xùn)練樣本無交集的30張數(shù)據(jù)集。將采集處理的圖像通過Labelimg標(biāo)注工具進(jìn)行標(biāo)注,樣例如圖10所示。得到對(duì)應(yīng)PascalVOC數(shù)據(jù)格式的文件,如圖11(a)所示,每個(gè)標(biāo)注框都對(duì)應(yīng)一個(gè)Object標(biāo)簽,編寫腳本將其中bndbox標(biāo)簽和name標(biāo)簽的內(nèi)容提取出來制作為icdar數(shù)據(jù)集格式如圖11(b)所示。
4.3 評(píng)價(jià)指標(biāo)
本文的文本檢測(cè)采用ICDRA大賽常用的評(píng)價(jià)指標(biāo):準(zhǔn)確率(Pression)、召回率(Recall)和F1值;準(zhǔn)確率可以反映識(shí)別錯(cuò)和多識(shí)別的情況,召回率可以反映識(shí)別錯(cuò)和漏識(shí)別的情況;其表達(dá)式如公式(7)~(9)。
[Pression= NTPNTP+NFP] (7)
[Recall=NTPNTP+NFN] (8)
[F1=2×Pression×RecallPression+Recall] (9)
其中,[NTP]表示將正樣本預(yù)測(cè)為正樣本的數(shù)量,[NFP]表示將負(fù)樣本預(yù)測(cè)為正樣本的數(shù)量,[NFN]表示將正樣本預(yù)測(cè)為負(fù)樣本的數(shù)量。
4.4 實(shí)驗(yàn)結(jié)果
在訓(xùn)練CTPN模型時(shí),采用SGD隨機(jī)梯度下降法,超參數(shù)Momentum為0.9,學(xué)習(xí)率多次對(duì)比測(cè)試最終設(shè)置為0.003,batchsize設(shè)置為128,在此基礎(chǔ)上迭代30輪,共60000次,間隔采取20000次繪圖如圖12所示。
CRNN模型訓(xùn)練圖像的高度歸一化到32像素;訓(xùn)練采用Adam優(yōu)化器,自適應(yīng)動(dòng)態(tài)調(diào)整學(xué)習(xí)率。初始化學(xué)習(xí)率為0.0001,BatchSize為256,當(dāng)進(jìn)行不同次數(shù)的迭代時(shí),模型識(shí)別的準(zhǔn)確率必定也會(huì)有所影響。理論上迭代次數(shù)越多,模型的準(zhǔn)確率越高,最終趨于收斂。由表3可知,當(dāng)?shù)?個(gè)Epoch后,網(wǎng)絡(luò)的損失維持在0.03左右,準(zhǔn)確率維持在97%上下幾乎不再變化,趨于收斂。
將CTPN用于細(xì)粒度文本的圖像檢測(cè)任務(wù)上,改進(jìn)策略主要基于調(diào)整其Anchor的尺寸,以適應(yīng)小尺度的文本圖像。抽取5張票據(jù),將票據(jù)主體的信息框作為輸入,分別用CTPN模型和本文改進(jìn)Anchor機(jī)制的CTPN模型做對(duì)比實(shí)驗(yàn),在產(chǎn)生Anchor的數(shù)量上,結(jié)果如表4所示。可以發(fā)現(xiàn)在同樣的輸入上,本文改進(jìn)的模型產(chǎn)生的候選Anchor遠(yuǎn)大于原文方案,并且本文方法產(chǎn)生Anchor的數(shù)量近似為原文的2倍,主要是因?yàn)楦倪M(jìn)的錨點(diǎn)在x方向上的尺寸減小一半。
為了驗(yàn)證本文改進(jìn)的文本檢測(cè)方法在細(xì)粒度文本上的優(yōu)越性,將本文模型和原ctpn模型分別在icdar2015數(shù)據(jù)集上和細(xì)粒度票據(jù)數(shù)據(jù)集的測(cè)試集上進(jìn)行測(cè)試驗(yàn)證,最終結(jié)果如圖13所示。從圖中可以看出,本文方法在準(zhǔn)確率、召回率和F值上對(duì)icdar數(shù)據(jù)集的適應(yīng)性都不如原ctpn模型,精度分別降低了3.6%、2.1%和2.7%。但是在細(xì)粒度的發(fā)票數(shù)據(jù)集上,準(zhǔn)確率、召回率和F值上都高于原ctpn模型的效果,精度分別高出了2.7%、2.3%和2.5%。相比較之下,本文方法有效地提高了細(xì)粒度文本場(chǎng)景的檢測(cè)精度。
將分割出的購買方、銷售方和詳細(xì)信息區(qū)域分別送入兩個(gè)檢測(cè)模型中,得到檢測(cè)出的位置信息后再還原到票據(jù)圖中,測(cè)試的結(jié)果如圖14所示。在ctpn檢測(cè)模型中,出現(xiàn)的“名”字漏檢,“合計(jì)”“稅額”斷檢等問題,在筆者所提算法中均被很好地解決。
為了進(jìn)一步驗(yàn)證對(duì)本文細(xì)粒度文本檢測(cè)改進(jìn)的有效性,在上述兩種不同算法的文本檢測(cè)后,接上同一CRNN文字識(shí)別模型進(jìn)行字符識(shí)別。識(shí)別的結(jié)果如表5所示,本文改進(jìn)的檢測(cè)算法接上CRNN模型方式優(yōu)于CTPN接上CRNN模型的方式,在準(zhǔn)確率、召回率和F值分別高出1.3%、1.1%和1.2%,間接證明了本文所提算法能檢測(cè)出漏檢的文字。
5 結(jié)論
本文針對(duì)CPTN網(wǎng)絡(luò)用于細(xì)粒度的文本檢測(cè)任務(wù)中出現(xiàn)的漏檢和斷連情況,提出了一種適合細(xì)粒度文本檢測(cè)的方法。針對(duì)細(xì)粒度的圖像文本,重新設(shè)計(jì)ctpn網(wǎng)絡(luò)中的錨點(diǎn)機(jī)制,在x方向上縮小步長提取更細(xì)的特征信息,在y方向上減少不必要的尺寸、減少計(jì)算的代價(jià),并減少主干網(wǎng)絡(luò)中的一個(gè)最大池化層適應(yīng)Anchor寬度的改變。通過對(duì)所提的算法進(jìn)行評(píng)估,從各項(xiàng)指標(biāo)的結(jié)果表明,本文提出的算法能夠比原模型更好地適應(yīng)細(xì)粒度場(chǎng)景文本的檢測(cè),為類似細(xì)粒度的場(chǎng)景文本檢測(cè)提供了新思路。
參考文獻(xiàn):
[1] 何文琦.基于OCR技術(shù)的高校財(cái)務(wù)報(bào)銷新探索[J].商業(yè)會(huì)計(jì),2020(10):79-81.
[2] Govindan V K,Shivaprasad A P.Character recognition—A review[J].Pattern Recognition,1990,23(7):671-683.
[3] Matas J,Chum O,Urban M,et al.Robust wide-baseline stereo from maximally stable extremal regions[J].Image and Vision Computing,2004,22(10):761-767.
[4] Chen H Z,Tsai S S,Schroth G,et al.Robust text detection in natural images with edge-enhanced Maximally Stable Extremal Regions[C]//2011 18th IEEE International Conference on Image Processing.September 11-14,2011,Brussels,Belgium.IEEE,2011:2609-2612.
[5] Chen X R,Yuille A L.Detecting and reading text in natural scenes[C]//Proceedings of the 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2004.CVPR 2004.June 27 - July 2,2004,Washington,DC,USA.IEEE,2004:II.
[6] Lee J J,Lee P H,Lee S W,et al.AdaBoost for text detection in natural scene[C]//2011 International Conference on Document Analysis and Recognition.September 18-21,2011,Beijing,China.IEEE,2011:429-434.
[7] Girshick R,Donahue J,Darrell T,et al.Rich feature hierarchies for accurate object detection and semantic segmentation[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition.June 23-28,2014,Columbus,OH,USA.IEEE,2014:580-587.
[8] Girshick R.Fast R-CNN[C]//2015 IEEE International Conference on Computer Vision.December 7-13,2015,Santiago,Chile.IEEE,2015:1440-1448.
[9] Ren S Q,He K M,Girshick R,et al.Faster R-CNN:towards real-time object detection with region proposal networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149.
[10] 鄭祖兵,盛冠群,謝凱,等.雙網(wǎng)絡(luò)模型下的智能醫(yī)療票據(jù)識(shí)別方法[J].計(jì)算機(jī)工程與應(yīng)用,2020,56(12):141-148.
[11] 何鎏一,楊國為.基于深度學(xué)習(xí)的光照不均勻文本圖像的識(shí)別系統(tǒng)[J].計(jì)算機(jī)應(yīng)用與軟件,2020,37(6):184-190,217.
[12] Tian Z,Huang W L,He T,et al.Detecting text in natural image with connectionist text proposal network[C]//Computer Vision – ECCV 2016,2016:56-72.
[13] Zhou X Y,Yao C,Wen H,et al.EAST:an efficient and accurate scene text detector[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition.July 21-26,2017,Honolulu,HI,USA.IEEE,2017:2642-2651.
[14] Liao M H,Shi B G,Bai X.TextBoxes:a single-shot oriented scene text detector[J].IEEE Transactions on Image Processing,2018,27(8):3676-3690.
[15] Karatzas D,Gomez-Bigorda L,Nicolaou A,et al.ICDAR 2015 competition on robust reading[C]//2015 13th International Conference on Document Analysis and Recognition (ICDAR).August 23-26,2015,Tunis,Tunisia.IEEE,2015:1156-1160.
[16] Shi B G,Bai X,Yao C.An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(11):2298-2304.
[17] Srihari S N,Govindaraju V.Analysis of textual images using the Hough transform[J].Machine Vision and Applications,1989,2(3):141-153.
[18] Simonyan K,Zisserman A.Very deep convolutional networks for large-scale image recognition[J].CoRR,2014,abs/1409.1556.
[19] Hochreiter S,Schmidhuber J.Long short-term memory[J].Neural Computation,1997,9(8):1735-1780.
[20] Bahdanau D,Cho K,Bengio Y.Neural machine translation by jointly learning to align and translate[J].CoRR,2014,abs/1409.0473.
【通聯(lián)編輯:唐一東】
收稿日期:2021-12-15
基金項(xiàng)目:國家基金:?jiǎn)卧魉囬g雙重資源優(yōu)化配置(項(xiàng)目編號(hào):71402033)
作者簡(jiǎn)介:王漳(1996—) ,男,湖北襄陽人,碩士,研究方向?yàn)橛?jì)算機(jī)視覺;梁祖紅(1980—) ,男,廣東惠陽人,教授,博士研究生,研究方向?yàn)樯疃葘W(xué)習(xí);羅孝波(1997—) ,男,湖南婁底人,碩士,研究方向?yàn)槲谋緮?shù)據(jù)挖掘。