基于優(yōu)化錨點(diǎn)的細(xì)粒度文本檢測(cè)與識(shí)別

2022-05-30 02:51王漳梁祖紅羅孝波

電腦知識(shí)與技術(shù) 2022年10期

王漳梁祖紅羅孝波

摘要：CTPN文本檢測(cè)模型在細(xì)粒度文本檢測(cè)過程中會(huì)出現(xiàn)斷連、漏檢的情況，尤其是在細(xì)粒度的文本場(chǎng)景下。針對(duì)以上問題，提出了一種細(xì)粒度文本檢測(cè)算法。該算法基于CTPN模型網(wǎng)絡(luò)進(jìn)行改進(jìn)，重新設(shè)計(jì)了垂直錨點(diǎn)尺度，以適應(yīng)細(xì)粒度文本的特征;同時(shí)調(diào)整主干網(wǎng)絡(luò)的結(jié)構(gòu)適應(yīng)錨點(diǎn)的尺度。在anchor的連接過程中采用了自適應(yīng)間隔的連接方式，從而保留水平語義信息的完整性。文本識(shí)別階段采用CRNN方式進(jìn)行識(shí)別。通過PyTorch環(huán)境驗(yàn)證細(xì)粒度的發(fā)票數(shù)據(jù)集，所提方法相比于原CTPN文本定位方法效果顯著提高。

關(guān)鍵詞：文本檢測(cè);細(xì)粒度;錨點(diǎn)機(jī)制;文本識(shí)別;深度學(xué)習(xí)

中圖分類號(hào)：TP18? ? ? 文獻(xiàn)標(biāo)識(shí)碼：A

文章編號(hào)：1009-3044（2022）10-0009-06

隨著社會(huì)經(jīng)濟(jì)的發(fā)展，票據(jù)的重要性越來越被人們重視，尤其是在各個(gè)企業(yè)中使用增值稅發(fā)票報(bào)賬的人數(shù)日益劇增[1]，財(cái)務(wù)管理人員錄入發(fā)票的工作量大幅度提高。而傳統(tǒng)人工錄入票據(jù)內(nèi)容的方式，工作強(qiáng)度高、效率低下，很容易導(dǎo)致工作人員在疲憊狀態(tài)下疏忽出錯(cuò)。如能實(shí)現(xiàn)自動(dòng)化地從圖像上提取文字信息，會(huì)大大降低企業(yè)的人力和物力，為企業(yè)帶來極大的便利。

使用電子設(shè)備將紙質(zhì)中的字符翻譯成計(jì)算機(jī)文字的過程被稱為光學(xué)字符識(shí)別[2]（Optical Chatacter Recognition，OCR）技術(shù)。OCR技術(shù)核心在于文本的檢測(cè)和文本識(shí)別兩部分。傳統(tǒng)的文本檢測(cè)包含基于連通域的方法[3-4]和基于滑動(dòng)窗口（Sliding-window Method）的方法[5-6]。基于連通域的方法利用圖像的形態(tài)學(xué)的特征，通過二值化、膨脹、腐蝕等一系列形態(tài)學(xué)操作將連通域找出來作為文本位置的候選集，通過人為設(shè)計(jì)特征規(guī)則過濾候選集，粗略定位圖像中文本的位置。但若圖像中存在背景噪聲就可能造成連通錯(cuò)誤的情況;其次，人為設(shè)定的過濾規(guī)則并不能有效區(qū)分文本與非文本區(qū)域?；诨瑒?dòng)窗口的方法設(shè)計(jì)多尺度的窗口大小，從左到右、從上到下依次掃描圖像，通過分類器對(duì)窗口滑到的位置做是文本和非文本的判別。該類方法的不足在于對(duì)窗口的依賴難以把握，窗口的尺度、滑窗步長設(shè)置較為困難。

近幾年，隨著深度學(xué)習(xí)的發(fā)展，研究者們對(duì)于自然場(chǎng)景文本的檢測(cè)有了大量的研究，成了當(dāng)下的研究熱點(diǎn)。文字檢測(cè)在一定程度上是一種特殊的目標(biāo)檢測(cè)任務(wù)，從2014年開始，用于目標(biāo)檢測(cè)的R-CNN[7-9]系列論文被提出。該方法是基于RPN （Regions with Convolutional Neural Network）網(wǎng)絡(luò)進(jìn)行運(yùn)作的;首先做特征提取工作，通過主干網(wǎng)絡(luò)獲取輸入圖像的特征圖;然后通過錨點(diǎn)機(jī)制，計(jì)算錨點(diǎn)對(duì)應(yīng)的置信度;對(duì)初步結(jié)果篩選并做出細(xì)致調(diào)整，最后得到檢測(cè)結(jié)果。在國內(nèi)，鄭祖兵等人[10]將醫(yī)療票據(jù)的信息分為出廠印刷的內(nèi)容和后期打印的內(nèi)容，利用Faster RCNN[9]算法完成后期打印內(nèi)容的定位，再將文本分割開來進(jìn)行單字符的識(shí)別，總體準(zhǔn)確率達(dá)到95.4%。何鎏一等人[11]使用連通域分析方法完成整個(gè)增值稅發(fā)票版面文本的檢測(cè);連通域最優(yōu)閾值的大小很難確定，可能會(huì)存在斷連情況，同時(shí)也不利于文本的篩選，魯棒性較差?；赗PN的思想，Tian等人[12]提出了專門用于文本檢測(cè)的開山之作CTPN（Connectionist Text Proposal Network）算法。隨后，EAST[13]、TextBox++[14]等系列場(chǎng)景文本檢測(cè)算法相繼提出。

公認(rèn)的自然場(chǎng)景文本檢測(cè)任務(wù)是國際文檔分析與識(shí)別國際會(huì)議（International Conference on Document Analysis and Recognition，ICDAR）舉辦的比賽。以ICDAR2015[15]文本檢測(cè)任務(wù)為例，比賽所用數(shù)據(jù)集圖像像素規(guī)格為1280×720，其單個(gè)文字的高度從50px到80px，甚至達(dá)到100px，占比高達(dá)近14%。票據(jù)識(shí)別隸屬于自然場(chǎng)景文本檢測(cè)的子類任務(wù)，不同于自然場(chǎng)景文本字體大的特點(diǎn)，票據(jù)圖像文字排列分散、字體較小，在一張圖上的文字規(guī)格基本統(tǒng)一，文字高度占比通常在20px左右，高度占比僅為3%左右。如果不對(duì)圖像做任何處理就直接使用傳統(tǒng)OCR技術(shù)進(jìn)行識(shí)別;或是直接用自然場(chǎng)景文本檢測(cè)模型對(duì)其進(jìn)行檢測(cè)和識(shí)別，往往會(huì)出現(xiàn)漏檢斷檢，效果不好、魯棒性差等問題。

針對(duì)自然場(chǎng)景文本檢測(cè)模型在細(xì)粒度的文本上出現(xiàn)的斷檢漏檢情況，本文搭建一種面向漏檢斷連的細(xì)粒度票據(jù)文本檢測(cè)與識(shí)別方法，該方法的文本檢測(cè)階段和文本識(shí)別部分均由深度學(xué)習(xí)模型實(shí)現(xiàn)，兩者模型串聯(lián)起來形成端到端的完整架構(gòu)。文本定位模型采用改進(jìn)的CTPN網(wǎng)絡(luò)，主要改進(jìn)在：（1）調(diào)整CTPN主干網(wǎng)絡(luò)池化層和卷積層，更少的最大池化層使得Anchor在特征圖上的移動(dòng)對(duì)應(yīng)原圖更短的步長，即捕捉更精細(xì)的文字特征;（2）針對(duì)細(xì)粒度的文本，重新設(shè)計(jì)CTPN模型中的Anchor尺度和數(shù)量;（3）對(duì)于生成一系列文本建議區(qū)域，采取了自適應(yīng)間距解決了文本的斷連問題，提高文本行檢測(cè)的完整性。文本識(shí)別模型采用CRNN模型[16]。對(duì)比實(shí)驗(yàn)結(jié)果表明，自制的細(xì)粒度票據(jù)數(shù)據(jù)集上，效果顯著。

1 本文方法

本文提出的面向漏檢斷連的細(xì)粒度票據(jù)文本檢測(cè)與識(shí)別主要由圖像采集模塊、圖像預(yù)處理模塊、文本檢測(cè)網(wǎng)絡(luò)模塊、文本識(shí)別網(wǎng)絡(luò)模塊、文本輸出模塊等5個(gè)主要模塊組成，該算法的整體設(shè)計(jì)流程圖如圖1所示。

1.1 圖像采集與圖像處理

隨著電子設(shè)備的層出不窮，圖像采集的方式也有許多可選的操作——掃描儀、智能手機(jī)、攝像機(jī)、高拍儀等。大多數(shù)人往往更傾向于手機(jī)移動(dòng)端便捷的拍照方式，本文所采用的發(fā)票數(shù)據(jù)集是由高拍儀完成。為了后期能夠更好地進(jìn)行文本的區(qū)域劃分、文本檢測(cè)和文本識(shí)別，需要將采集到的傾斜圖像進(jìn)行仿射變換或者水平校正的操作。一般對(duì)于傾斜圖像的矯正需要借助于Hough變換[17]，其主要是利用圖片所在的笛卡爾空間和霍夫空間之間的變換。在Hough變換中，常用式（1）表示直線：

[ρ=xcosθ+ysinθ] （1）

其中，ρ為點(diǎn)到直線的距離，θ為直線與X軸正向的夾角度數(shù);在Hough空間中（ρ，θ）為已知量，（ρ，θ）為未知量。笛卡爾空間上一個(gè)點(diǎn)的n個(gè)方向映射到Hough空間中為一條正弦曲線，當(dāng)多個(gè)共線的點(diǎn)在多個(gè)方向上的映射就會(huì)交于一個(gè)（ρ，θ）;在霍夫空間圖像上，具有最多交線的點(diǎn)具有便是一條直線，此時(shí)可以求出傾斜角度θ完成圖像的水平矯正。

1.2 文本區(qū)域劃分

基對(duì)文本區(qū)域進(jìn)行劃分的依據(jù)是發(fā)票的尺寸規(guī)格為國家稅務(wù)局統(tǒng)一規(guī)定大小，通過等比例縮放可以將輸入的圖像進(jìn)行文本區(qū)域的粗劃分。文本區(qū)域通常包含購買方信息、銷售方信息、銷售明細(xì)、密碼區(qū)和備注等信息區(qū)域。增值稅票據(jù)的模板樣式如圖2所示，其信息框的高H、寬W及任何一個(gè)小框的位置信息（x，y，h，w）都可以先驗(yàn)測(cè)出。

假設(shè)給定一張票據(jù)圖，通過openCV直線檢測(cè)將票據(jù)中信息框主體裁出來，測(cè)得其尺寸為H’×W’，通過公式（2）可以得到輸入圖像與標(biāo)準(zhǔn)模板的縮放比例α。輸入圖像中每一小框的位置信息（x’，y’，h’，w’）可以按照公式（3）進(jìn)行線性變換。分割出的小區(qū)域信息示例如圖3所示。

[α=H / H'] （2）

[x' =α×xy' =α×yh' =α×hw' =α×w] （3）

2 基于CTPN的文本位置檢測(cè)

本文檢測(cè)方法在CTPN基礎(chǔ)上做出了3個(gè)改進(jìn)：（1）重新設(shè)置Anchor的尺度，以適應(yīng)票據(jù)細(xì)粒度的特點(diǎn);（2）調(diào)整特征提取的主干網(wǎng)絡(luò)，即減少原VGG的Conv5階段（包含一個(gè)最大池化層），使得Anchor的每一次移動(dòng)都對(duì)應(yīng)原圖更小尺度的移動(dòng)，以適應(yīng)Anchor的尺度;（3）在Anchor的合成階段摒棄了固定閾值的做法，先對(duì)行進(jìn)行聚類，再自動(dòng)計(jì)算Anchor的最大間隔，并將其設(shè)為閾值，使得間隔過長的Anchor也能得以連上。

2.1 CTPN算法

由于發(fā)票中的文本具有較好的水平性質(zhì)，本文提出的票據(jù)文本定位方法是基于CTPN算法的，其結(jié)合了卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)，如圖4所示。

首先通過主干網(wǎng)絡(luò)VGG16[18]進(jìn)行卷積操作，得到conv5的特征圖。為了得到基于時(shí)序的特征，在特征圖上以3×3的窗口進(jìn)行滑窗拆分特征圖，得到基于序列的特征后將其輸入到BiLSTM[19]中。通過BiLSTM輸出的特征轉(zhuǎn)換成向量的形式輸入到全連接層（Fully connected layer，F(xiàn)C）后準(zhǔn)備輸出。輸出層主要有三個(gè)部分，2k個(gè)anchor的位置信息、2k個(gè)文本與非文本的得分和k個(gè)anchor的水平偏移量。獲取文本建議框以后將得分較低的候選框剔除，并使用NMS過濾多余候選框。

CTPN的思想是基于固定錨點(diǎn)機(jī)制的，在特征圖上每個(gè)像素點(diǎn)的垂直方向上設(shè)置了[k]個(gè)不同高度的anchor，在[y]方向上從11px～273px（依次除以0.7），在[x]方向上固定尺寸（16px）?；貧w層的輸出是預(yù)測(cè)anchor的中心位置高度y軸坐標(biāo)和矩形框的高度h值，每個(gè)anchor的位置信息由兩部分組成，[k]個(gè)anchor對(duì)應(yīng)[2k]個(gè)值。關(guān)于anchor垂直坐標(biāo)的計(jì)算如公式（4）所示。

[VC=（Cy-Cay）/haVh=log （h/ha）V*C=（C*y-Cay）/haV*h=log （h*/ha）] （4）

其中，[{vc，vh}]和[{v*c，v*h}]分別是預(yù)測(cè)坐標(biāo)和真實(shí)坐標(biāo)。[{cay，ha}]是anchor的y軸坐標(biāo)和高度，[{cy，h}]是預(yù)測(cè)出來的y軸坐標(biāo)和高度，[{c*y，h*}]是真實(shí)的y軸坐標(biāo)和高度。

在正負(fù)樣本分類問題上，其本質(zhì)是一個(gè)二分類問題，采用softmax損失作為損失函數(shù)，對(duì)應(yīng)的輸出為文本的得分和非文本的得分，[k]個(gè)Anchor對(duì)應(yīng)[2k]個(gè)值。在[x]方向上的回歸任務(wù)，主要用來精修文本行的兩個(gè)端點(diǎn)，表示每個(gè)Anchor的水平偏移量，其計(jì)算如公式（5）所示。

[o=（Xside- CαX） / Wαo*=（X*side- CαX） / Wα] （5）

以上三個(gè)分支對(duì)應(yīng)三部分的學(xué)習(xí)任務(wù)，其損失函數(shù)是分類損失和回歸損失的和，如公式（6）所示。

[L（si，vj，ok）=1NsiLcls（si，s*i）+λ1NvjLrev（vj，v*j）+λ2NokLreo（ok，o*k）] （6）

其中，[Lcls]為分類損失，采用softmax loss;[{Lrev，Lreo}]為垂直方向上和水平方向上的回歸損失，使用Smooth L1 loss。[{Si，Vj，Ok}]為網(wǎng)絡(luò)預(yù)測(cè)輸出，[{S*i，V*j，O*k}]代表真值標(biāo)簽。[{λ1，λ2}]為權(quán)重系數(shù)，用于平衡各學(xué)習(xí)任務(wù)的損失。[{Ns，Nv，No}]為歸一化參數(shù)，表示對(duì)應(yīng)任務(wù)的樣本數(shù)量。

2.2 調(diào)整特征提取的主干網(wǎng)

VGG16包含了13個(gè)卷積層和3個(gè)全連接層，其網(wǎng)絡(luò)如圖5所示。CTPN算法選取Stage1至Stage5的卷積層用來提取輸入圖像的特征，conv5_3層的特征圖經(jīng)歷了4次Max-pooling Layer，特征圖上的感受野對(duì)應(yīng)原圖的1/16，在特征圖上移動(dòng)1個(gè)像素對(duì)應(yīng)原圖移動(dòng)16個(gè)像素。對(duì)于自然場(chǎng)景文本數(shù)據(jù)集而言，街景文字的尺度普遍較大，對(duì)于這樣的感受野，CTPN算法中的anchor檢測(cè)級(jí)別仍能夠?qū)?yīng)到文字的一部分，獲得部分文字特征。

而本文使用的數(shù)據(jù)集圖像尺寸為1024×768，略小于ICDAR2015數(shù)據(jù)集的尺度，對(duì)比圖如圖6所示。此外，本文數(shù)據(jù)集中文字的尺度遠(yuǎn)不及自然場(chǎng)景中文本的尺度，若經(jīng)過原始的CTPN卷積層后，Anchor所對(duì)應(yīng)原圖的感受野區(qū)域包含多個(gè)文字，檢測(cè)級(jí)別不夠精細(xì)。為了適應(yīng)這種小尺度的文本、捕捉更精細(xì)的特征，本文算法將卷積操作進(jìn)行到Stage4即可。輸入的圖像經(jīng)歷3次Max-pooling Layer，特征圖上的感受野對(duì)應(yīng)原圖的1/8，在特征圖上移動(dòng)1個(gè)像素對(duì)應(yīng)原圖移動(dòng)8個(gè)像素，從而Anchor可以獲得更細(xì)的特性表征。

2.3 小尺度錨點(diǎn)策略

CTPN針對(duì)不同尺度的自然場(chǎng)景文本，設(shè)置了不同尺寸的Anchor。如圖7（a）所示，其中，在x方向上的尺度固定（16px），在[y]方向上設(shè)置了10個(gè)不同尺度，從11px（依次除以0.7）直到283px。本文數(shù)據(jù)集中的文字，其規(guī)格較為統(tǒng)一，每一行文本字體大小一致;最高的文字為中間標(biāo)題，其像素值在25px左右。針對(duì)細(xì)粒度的文本，從優(yōu)化anchor的思想出發(fā)，本文設(shè)計(jì)了更少、更小尺度的anchor。如圖7（b）所示，在[x]方向?qū)nchor的尺度縮小為原來的一半（8px），適應(yīng)減少1個(gè)Max-pooling Layer的改變所帶來的影響，即anchor覆蓋原圖每個(gè)點(diǎn)且不相互重疊;同時(shí)能將anchor檢測(cè)的級(jí)別精確到文字更細(xì)的特征上。在y方向上設(shè)置了5個(gè)不同尺度{7px，10px，14px，20px，29px}，滿足本文數(shù)據(jù)在y方向上的最大需求。

2.4 自適應(yīng)間距的文本行構(gòu)造算法

在獲得一系列的text proposal之后，需要將建議框連接成文本線。CTPN先將分類得分低的Anchor判定為非文本并將其剔除，然后使用非極大值抑制，將剩下的anchor中重疊程度大的Anchor進(jìn)行合并。

CTPN中按照水平[x]坐標(biāo)排序Anchor，將水平距離小于固定閾值（50px）和垂直方向上重合度大于0.7的篩選出，再挑出分類得分最大的anchor。如此依次篩選，將符合的Anchor組成一個(gè)系列，如圖8所示。最后將此系列的Anchor合并成語句獲得最終的文本檢測(cè)框。由于票據(jù)數(shù)據(jù)集有良好的分行特征，基于該思想在對(duì)[x]排序之前對(duì)[y]左邊進(jìn)行聚類，類別數(shù)N即為文本區(qū)域的行數(shù)。

在每一行上分別計(jì)算最大的Anchor間隔，將其作為閾值;這種動(dòng)態(tài)設(shè)置閾值的方式，將一行的文本框連接起來，保證間隔較大的文字也能被連接起來，便于后續(xù)字符識(shí)別網(wǎng)絡(luò)的使用。

3 基于CRNN的文本識(shí)別

字符文本識(shí)別是將圖像中的文字序列轉(zhuǎn)換成計(jì)算機(jī)語言描述字符的序列。目前，在文字識(shí)別上的深度學(xué)習(xí)方法主要有兩種實(shí)現(xiàn)方式：一是基于Attention注意力機(jī)制[20]，二是基于CRNN實(shí)現(xiàn)。本文采用的CRNN是一種端到端的卷積循環(huán)神經(jīng)網(wǎng)絡(luò)模型，它采用了“CNN+LSTM+CTC”的網(wǎng)絡(luò)結(jié)構(gòu)，如圖9所示。網(wǎng)絡(luò)具體的詳細(xì)參數(shù)如表1所示。

識(shí)別流程包含了三部分，自底向上依次是：（1）卷積層由固定的卷積層和最大池化層組成，主要是從輸入的圖像中完成文本特征序列的提取;（2）循環(huán)層作為一個(gè)序列建模，由一個(gè)雙向的LSTM組成完成，從卷積層獲取的特征序列分析過程;（3）轉(zhuǎn)錄層把從循環(huán)層獲取的標(biāo)簽分布通過去重整合等操作轉(zhuǎn)換成最終的識(shí)別結(jié)果。

4 實(shí)驗(yàn)與結(jié)果

4.1 實(shí)驗(yàn)環(huán)境

本文實(shí)驗(yàn)硬件平臺(tái)的CPU型號(hào)為Intel Xeon E5-2620 v4，GPU為NVIDIA Corporation GP100GL，16G顯存，詳細(xì)實(shí)驗(yàn)環(huán)境如表2所示。

4.2 數(shù)據(jù)集

本文從細(xì)粒度票據(jù)文本檢測(cè)和識(shí)別兩個(gè)方面進(jìn)行測(cè)試分析。在財(cái)務(wù)部門共隨機(jī)采集330幅圖像用于文本檢測(cè)和識(shí)別，其中300張用于訓(xùn)練文本定位模型，測(cè)試采用與訓(xùn)練樣本無交集的30張數(shù)據(jù)集。將采集處理的圖像通過Labelimg標(biāo)注工具進(jìn)行標(biāo)注，樣例如圖10所示。得到對(duì)應(yīng)PascalVOC數(shù)據(jù)格式的文件，如圖11（a）所示，每個(gè)標(biāo)注框都對(duì)應(yīng)一個(gè)Object標(biāo)簽，編寫腳本將其中bndbox標(biāo)簽和name標(biāo)簽的內(nèi)容提取出來制作為icdar數(shù)據(jù)集格式如圖11（b）所示。

4.3 評(píng)價(jià)指標(biāo)

本文的文本檢測(cè)采用ICDRA大賽常用的評(píng)價(jià)指標(biāo)：準(zhǔn)確率（Pression）、召回率（Recall）和F1值;準(zhǔn)確率可以反映識(shí)別錯(cuò)和多識(shí)別的情況，召回率可以反映識(shí)別錯(cuò)和漏識(shí)別的情況;其表達(dá)式如公式（7）～（9）。

[Pression= NTPNTP+NFP] （7）

[Recall=NTPNTP+NFN] （8）

[F1=2×Pression×RecallPression+Recall] （9）

其中，[NTP]表示將正樣本預(yù)測(cè)為正樣本的數(shù)量，[NFP]表示將負(fù)樣本預(yù)測(cè)為正樣本的數(shù)量，[NFN]表示將正樣本預(yù)測(cè)為負(fù)樣本的數(shù)量。

4.4 實(shí)驗(yàn)結(jié)果

在訓(xùn)練CTPN模型時(shí)，采用SGD隨機(jī)梯度下降法，超參數(shù)Momentum為0.9，學(xué)習(xí)率多次對(duì)比測(cè)試最終設(shè)置為0.003，batchsize設(shè)置為128，在此基礎(chǔ)上迭代30輪，共60000次，間隔采取20000次繪圖如圖12所示。

CRNN模型訓(xùn)練圖像的高度歸一化到32像素;訓(xùn)練采用Adam優(yōu)化器，自適應(yīng)動(dòng)態(tài)調(diào)整學(xué)習(xí)率。初始化學(xué)習(xí)率為0.0001，BatchSize為256，當(dāng)進(jìn)行不同次數(shù)的迭代時(shí)，模型識(shí)別的準(zhǔn)確率必定也會(huì)有所影響。理論上迭代次數(shù)越多，模型的準(zhǔn)確率越高，最終趨于收斂。由表3可知，當(dāng)?shù)?個(gè)Epoch后，網(wǎng)絡(luò)的損失維持在0.03左右，準(zhǔn)確率維持在97%上下幾乎不再變化，趨于收斂。

將CTPN用于細(xì)粒度文本的圖像檢測(cè)任務(wù)上，改進(jìn)策略主要基于調(diào)整其Anchor的尺寸，以適應(yīng)小尺度的文本圖像。抽取5張票據(jù)，將票據(jù)主體的信息框作為輸入，分別用CTPN模型和本文改進(jìn)Anchor機(jī)制的CTPN模型做對(duì)比實(shí)驗(yàn)，在產(chǎn)生Anchor的數(shù)量上，結(jié)果如表4所示。可以發(fā)現(xiàn)在同樣的輸入上，本文改進(jìn)的模型產(chǎn)生的候選Anchor遠(yuǎn)大于原文方案，并且本文方法產(chǎn)生Anchor的數(shù)量近似為原文的2倍，主要是因?yàn)楦倪M(jìn)的錨點(diǎn)在x方向上的尺寸減小一半。

為了驗(yàn)證本文改進(jìn)的文本檢測(cè)方法在細(xì)粒度文本上的優(yōu)越性，將本文模型和原ctpn模型分別在icdar2015數(shù)據(jù)集上和細(xì)粒度票據(jù)數(shù)據(jù)集的測(cè)試集上進(jìn)行測(cè)試驗(yàn)證，最終結(jié)果如圖13所示。從圖中可以看出，本文方法在準(zhǔn)確率、召回率和F值上對(duì)icdar數(shù)據(jù)集的適應(yīng)性都不如原ctpn模型，精度分別降低了3.6%、2.1%和2.7%。但是在細(xì)粒度的發(fā)票數(shù)據(jù)集上，準(zhǔn)確率、召回率和F值上都高于原ctpn模型的效果，精度分別高出了2.7%、2.3%和2.5%。相比較之下，本文方法有效地提高了細(xì)粒度文本場(chǎng)景的檢測(cè)精度。

將分割出的購買方、銷售方和詳細(xì)信息區(qū)域分別送入兩個(gè)檢測(cè)模型中，得到檢測(cè)出的位置信息后再還原到票據(jù)圖中，測(cè)試的結(jié)果如圖14所示。在ctpn檢測(cè)模型中，出現(xiàn)的“名”字漏檢，“合計(jì)”“稅額”斷檢等問題，在筆者所提算法中均被很好地解決。

為了進(jìn)一步驗(yàn)證對(duì)本文細(xì)粒度文本檢測(cè)改進(jìn)的有效性，在上述兩種不同算法的文本檢測(cè)后，接上同一CRNN文字識(shí)別模型進(jìn)行字符識(shí)別。識(shí)別的結(jié)果如表5所示，本文改進(jìn)的檢測(cè)算法接上CRNN模型方式優(yōu)于CTPN接上CRNN模型的方式，在準(zhǔn)確率、召回率和F值分別高出1.3%、1.1%和1.2%，間接證明了本文所提算法能檢測(cè)出漏檢的文字。

5 結(jié)論

本文針對(duì)CPTN網(wǎng)絡(luò)用于細(xì)粒度的文本檢測(cè)任務(wù)中出現(xiàn)的漏檢和斷連情況，提出了一種適合細(xì)粒度文本檢測(cè)的方法。針對(duì)細(xì)粒度的圖像文本，重新設(shè)計(jì)ctpn網(wǎng)絡(luò)中的錨點(diǎn)機(jī)制，在x方向上縮小步長提取更細(xì)的特征信息，在y方向上減少不必要的尺寸、減少計(jì)算的代價(jià)，并減少主干網(wǎng)絡(luò)中的一個(gè)最大池化層適應(yīng)Anchor寬度的改變。通過對(duì)所提的算法進(jìn)行評(píng)估，從各項(xiàng)指標(biāo)的結(jié)果表明，本文提出的算法能夠比原模型更好地適應(yīng)細(xì)粒度場(chǎng)景文本的檢測(cè)，為類似細(xì)粒度的場(chǎng)景文本檢測(cè)提供了新思路。

參考文獻(xiàn)：

[1] 何文琦.基于OCR技術(shù)的高校財(cái)務(wù)報(bào)銷新探索[J].商業(yè)會(huì)計(jì)，2020（10）：79-81.

[2] Govindan V K，Shivaprasad A P.Character recognition—A review[J].Pattern Recognition，1990，23（7）：671-683.

[3] Matas J，Chum O，Urban M，et al.Robust wide-baseline stereo from maximally stable extremal regions[J].Image and Vision Computing，2004，22（10）：761-767.

[4] Chen H Z，Tsai S S，Schroth G，et al.Robust text detection in natural images with edge-enhanced Maximally Stable Extremal Regions[C]//2011 18th IEEE International Conference on Image Processing.September 11-14，2011，Brussels，Belgium.IEEE，2011：2609-2612.

[5] Chen X R，Yuille A L.Detecting and reading text in natural scenes[C]//Proceedings of the 2004 IEEE Computer Society Conference on Computer Vision and Pattern Recognition，2004.CVPR 2004.June 27 - July 2，2004，Washington，DC，USA.IEEE，2004：II.

[6] Lee J J，Lee P H，Lee S W，et al.AdaBoost for text detection in natural scene[C]//2011 International Conference on Document Analysis and Recognition.September 18-21，2011，Beijing，China.IEEE，2011：429-434.

[7] Girshick R，Donahue J，Darrell T，et al.Rich feature hierarchies for accurate object detection and semantic segmentation[C]//2014 IEEE Conference on Computer Vision and Pattern Recognition.June 23-28，2014，Columbus，OH，USA.IEEE，2014：580-587.

[8] Girshick R.Fast R-CNN[C]//2015 IEEE International Conference on Computer Vision.December 7-13，2015，Santiago，Chile.IEEE，2015：1440-1448.

[9] Ren S Q，He K M，Girshick R，et al.Faster R-CNN：towards real-time object detection with region proposal networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence，2017，39（6）：1137-1149.

[10] 鄭祖兵，盛冠群，謝凱，等.雙網(wǎng)絡(luò)模型下的智能醫(yī)療票據(jù)識(shí)別方法[J].計(jì)算機(jī)工程與應(yīng)用，2020，56（12）：141-148.

[11] 何鎏一，楊國為.基于深度學(xué)習(xí)的光照不均勻文本圖像的識(shí)別系統(tǒng)[J].計(jì)算機(jī)應(yīng)用與軟件，2020，37（6）：184-190，217.

[12] Tian Z，Huang W L，He T，et al.Detecting text in natural image with connectionist text proposal network[C]//Computer Vision – ECCV 2016，2016：56-72.

[13] Zhou X Y，Yao C，Wen H，et al.EAST：an efficient and accurate scene text detector[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition.July 21-26，2017，Honolulu，HI，USA.IEEE，2017：2642-2651.

[14] Liao M H，Shi B G，Bai X.TextBoxes：a single-shot oriented scene text detector[J].IEEE Transactions on Image Processing，2018，27（8）：3676-3690.

[15] Karatzas D，Gomez-Bigorda L，Nicolaou A，et al.ICDAR 2015 competition on robust reading[C]//2015 13th International Conference on Document Analysis and Recognition （ICDAR）.August 23-26，2015，Tunis，Tunisia.IEEE，2015：1156-1160.

[16] Shi B G，Bai X，Yao C.An end-to-end trainable neural network for image-based sequence recognition and its application to scene text recognition[J].IEEE Transactions on Pattern Analysis and Machine Intelligence，2017，39（11）：2298-2304.

[17] Srihari S N，Govindaraju V.Analysis of textual images using the Hough transform[J].Machine Vision and Applications，1989，2（3）：141-153.

[18] Simonyan K，Zisserman A.Very deep convolutional networks for large-scale image recognition[J].CoRR，2014，abs/1409.1556.

[19] Hochreiter S，Schmidhuber J.Long short-term memory[J].Neural Computation，1997，9（8）：1735-1780.

[20] Bahdanau D，Cho K，Bengio Y.Neural machine translation by jointly learning to align and translate[J].CoRR，2014，abs/1409.0473.

【通聯(lián)編輯：唐一東】

收稿日期：2021-12-15

基金項(xiàng)目：國家基金：?jiǎn)卧魉囬g雙重資源優(yōu)化配置（項(xiàng)目編號(hào)：71402033）

作者簡(jiǎn)介：王漳（1996—），男，湖北襄陽人，碩士，研究方向?yàn)橛?jì)算機(jī)視覺;梁祖紅（1980—），男，廣東惠陽人，教授，博士研究生，研究方向?yàn)樯疃葘W(xué)習(xí);羅孝波（1997—），男，湖南婁底人，碩士，研究方向?yàn)槲谋緮?shù)據(jù)挖掘。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于優(yōu)化錨點(diǎn)的細(xì)粒度文本檢測(cè)與識(shí)別