国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度學(xué)習(xí)的任意形狀場景文字識別

2020-04-01 03:08徐富勇盛鐘松
關(guān)鍵詞:解碼器矯正注意力

徐富勇, 余 諒, 盛鐘松

(四川大學(xué)計(jì)算機(jī)學(xué)院, 成都 610065)

1 引 言

近年來,由于自然場景文字識別在廣泛應(yīng)用中的重要性,其引起了學(xué)術(shù)界和工業(yè)界的廣泛關(guān)注.很多應(yīng)用都受益于場景文字的豐富語義信息,比如:交通標(biāo)志的識別[1-2]、產(chǎn)品識別[3-4]、圖片搜索和無人駕駛[5]等.隨著場景文字檢測方法的發(fā)展,場景文字識別也成為當(dāng)前研究的前沿課題,也是一個(gè)開放性和極具挑戰(zhàn)性的研究課題.

目前,規(guī)則的文字識別[6]取得了顯著的成功.基于卷積神經(jīng)網(wǎng)絡(luò)的方法[6]得到了廣泛的應(yīng)用.有很多研究方法將遞歸神經(jīng)網(wǎng)絡(luò)[7-8]和注意機(jī)制[9-12]結(jié)合到識別模型中,并且還取得了很好的效果.然而,目前大多數(shù)的識別模型仍然不穩(wěn)定,無法處理來自環(huán)境的多種干擾.不規(guī)則文字的各種形狀和扭曲模式對識別造成了更大的困難.如圖1所示,透視和曲線形狀等不規(guī)則的場景文字仍然很難識別.

圖1 規(guī)則和不規(guī)則場景文字例子(a) 規(guī)則文字;(b)、(c) 不規(guī)則文字.Fig.1 Examples of regular and irregular scene text(a) Regular text;(b)~(c) irregular text.

因此,我們提出了一種帶有靈活矯正功能的注意力增強(qiáng)網(wǎng)絡(luò)FRAEN (Flexible Rectification Attention Enhanced Network),它可以識別自然場景中縮放和拉伸的文字.此網(wǎng)絡(luò)由靈活矯正網(wǎng)絡(luò)FRN (Flexible Rectification Network)和基于注意力增強(qiáng)的網(wǎng)絡(luò)AEN (Attention Enhanced Network)的識別網(wǎng)絡(luò)組成.我們把困難的識別任務(wù)分成兩部分.首先,F(xiàn)RN作為一種圖像空間轉(zhuǎn)換器,對包含任意形狀文字的圖像進(jìn)行矯正.如圖2所示,經(jīng)過FRN的矯正,傾斜的文字變得更加水平,更容易識別.緊接著,AEN將矯正后的圖像作為輸入,直接輸出預(yù)測的單詞.

當(dāng)前的文字識別網(wǎng)絡(luò),那些具有注意力機(jī)制的解碼器更可能利用經(jīng)過矯正的圖像預(yù)測正確的單詞.但是Cheng等人[9]發(fā)現(xiàn)現(xiàn)有的基于注意力的方法會出現(xiàn)注意力偏移的情況.因此,根據(jù)他們所提出方法的啟發(fā),我們針對自己的模型,提出了注意力增強(qiáng)的方法來改進(jìn)和訓(xùn)練AEN.提出了基于相鄰注意力權(quán)重的雙向GRU(Gated Recurrent Unit)解碼器.由于注意力增強(qiáng)的作用,AEN對于上下文的變化更加魯棒.簡而言之,本文的主要貢獻(xiàn)如下:(1) 本文提出的FRAEN能夠很好地處理和識別不規(guī)則的場景文字;(2) 本文提出了一種基于注意力增強(qiáng)的解碼器方法,本方法可以解決注意力偏移的問題;(3) 本文提出的方法可以以弱監(jiān)督的方式進(jìn)行訓(xùn)練,只需要提供文字標(biāo)簽,這樣省去了大量的標(biāo)注工作.

2 相關(guān)工作

近年來,由于神經(jīng)網(wǎng)絡(luò)的快速發(fā)展[13-15],對規(guī)則場景文字的識別能力已經(jīng)大大提高.文獻(xiàn)[11]概述了場景文字檢測和識別領(lǐng)域的主要進(jìn)展.由神經(jīng)網(wǎng)絡(luò)提取的模式特征相比于手工制作的特征變得占主導(dǎo)地位,例如Semi-Markov條件隨機(jī)場和生成形狀模型.Jaderberg等人[16]和Yin等人[17]使用卷積神經(jīng)網(wǎng)絡(luò)CNNs(Convolutional Neural Networks),提出了無約束識別的各種方法.

隨著遞歸神經(jīng)網(wǎng)絡(luò)RNN(Recurrent NeuralNetwork)的廣泛應(yīng)用,基于CNN(Convolutional Neural Network)與RNN結(jié)合的方法可以更好地學(xué)習(xí)上下文信息.Shi等人[18]提出了一個(gè)具有CNN和RNN的端到端可訓(xùn)練網(wǎng)絡(luò),稱為CRNN(Convolutional Recurrent Neural Network).此外,注意力機(jī)制側(cè)重于信息區(qū)域以實(shí)現(xiàn)更好的性能.文獻(xiàn)[11]提出了一種基于注意力機(jī)制的遞歸網(wǎng)絡(luò),用于場景文字識別.Cheng等人[9]使用聚焦注意網(wǎng)絡(luò)來糾正注意力機(jī)制的變化,實(shí)現(xiàn)更準(zhǔn)確的注意力位置預(yù)測.

與規(guī)則場景文字識別工作相比,不規(guī)則文字識別更加困難.一種不規(guī)則的文字識別方法是自底向上的方法[12],它搜索每個(gè)字符的位置然后連接它們.另一種是自頂向下的方法[8]直接從整個(gè)輸入圖像識別文本,而不是檢測和識別單個(gè)字符.我們提出的FRAEN方法采用的是自頂向下的方法.注意力增強(qiáng)方法被用于提高FRAEN注意力的準(zhǔn)確度.我們使用端到端的方式訓(xùn)練FRAEN,可以使得文字矯正網(wǎng)絡(luò)和文字識別網(wǎng)絡(luò)很好的結(jié)合.

3 方 法

FRAEN包含兩部分,F(xiàn)RAEN的整體架構(gòu)圖如圖2所示.第一部分是FRN,在本部分,由于目前提出的矯正網(wǎng)絡(luò)都僅僅矯正水平方向,在本文中,我們加入一個(gè)由基本CNN構(gòu)成的方向標(biāo)準(zhǔn)化網(wǎng)絡(luò),將垂直方向的文字轉(zhuǎn)為水平方向文字,統(tǒng)一進(jìn)行圖像矯正,F(xiàn)RN網(wǎng)絡(luò)的作用是學(xué)習(xí)圖像每個(gè)部分的偏移量,根據(jù)學(xué)習(xí)的偏移量,我們通過雙線性插值采樣獲得矯正后的文字圖像;另一部分是AEN,由帶有注意力增強(qiáng)解碼器的CNN-BLSTM(Bi-directional Long Short-Term Memory)-GRU架構(gòu)構(gòu)成.直接處理和識別矯正后的圖像,輸出預(yù)測結(jié)果.

圖2 FRAEN整體架構(gòu) Fig.2 Overall structure of FRAEN

3.1 FRN

常用的模式矯正方法,如仿射變換網(wǎng)絡(luò),其受到一定的幾何約束,僅限于旋轉(zhuǎn),縮放和平移.然而,一個(gè)圖像可能有多種變形,尤其自然場景文字的變形更是復(fù)雜多變的.由于識別模型對各種形狀的多擾動處理能力不強(qiáng).所以,我們考慮對圖像進(jìn)行矯正以降低識別的難度.如圖2所示,F(xiàn)RN架構(gòu)首先對傳入網(wǎng)絡(luò)的圖像進(jìn)行一個(gè)二分類判斷,只判斷圖像中文字是否為垂直方向,并進(jìn)行旋轉(zhuǎn)處理,將處理后的圖像傳入由CNN構(gòu)成的矯正網(wǎng)絡(luò),進(jìn)行文字矯正處理.我們將一個(gè)最大池化層放在矯正網(wǎng)絡(luò)之前,這樣可以避免噪聲和減少計(jì)算量.

表1 FRN架構(gòu)

FRN架構(gòu)如表1所示.在我們實(shí)現(xiàn)此網(wǎng)絡(luò)時(shí),除最后一個(gè)卷積層外,每個(gè)卷積層后面都有一個(gè)批處理歸一化層和一個(gè)ReLU(Rectified Linear Unit)層.由表1可以看出,首先,F(xiàn)RN將圖像分割為3×11=33個(gè)部分,預(yù)測每個(gè)部分的偏移量,輸入大小為32×100,得到的偏移量圖包含兩個(gè)部分,分別代表原圖像素在x坐標(biāo)和y坐標(biāo)方向的偏移量;然后,我們使用雙線性插值平滑地調(diào)整偏移量圖,使其與輸入圖像大小相同都為32×100.

偏移量圖中的每個(gè)值表示原圖原始位置的偏移量,因此我們先為輸入圖像生成一個(gè)基網(wǎng)格來表示像素的原始位置,該基網(wǎng)格使用x和y坐標(biāo)表示輸入圖像像素的位置.將每個(gè)像素的坐標(biāo)歸一化至[-1,1].左上角像素的坐標(biāo)為(-1,-1),右下角的坐標(biāo)為(1,1).最后,將基網(wǎng)格和得到的偏移量圖以如下方式進(jìn)行求和.

offset′(c,i,j)=offset(c,i,j)+

basic(c,i,j),c=1,2

(1)

公式(1)中,(i,j)代表網(wǎng)格第i行和第j列的位置.c=1,2分別代表x坐標(biāo)和y坐標(biāo).對于偏移量圖而言,對應(yīng)的是需要對原圖x和y坐標(biāo)位置的像素進(jìn)行調(diào)整的偏移量.而對于基網(wǎng)格則是輸入圖像像素位置的x和y坐標(biāo).

采樣前,偏移量圖上的x坐標(biāo)和y坐標(biāo)分別歸一化到[0,W]和[0,H].這里,H×W是輸入圖像的大小.矯正后的圖像I’的第i行和第j列的像素值由以下公式得到:

I′(i,j)=I(i′,j′)

(2)

(3)

其中,I是輸入圖像;i′和j′分別對應(yīng)于式(1)中c=1和2的取值.這里得到的i’和j’都是實(shí)數(shù),而不是整數(shù),因此,經(jīng)過矯正的圖像I’,是我們采用雙線性插值方法從圖像I中采樣得到.由于式(2)是可微的,F(xiàn)RN可以進(jìn)行梯度反向傳播訓(xùn)練.

如圖3所示,左邊顯示未進(jìn)行矯正處理的不規(guī)則文本圖像,右邊顯示的是經(jīng)過FRN矯正處理后的文本圖像.從圖3可以看出,經(jīng)過校正的圖像中的文本更規(guī)則和更具可讀性,傾斜和透視的文本經(jīng)過矯正后變得緊密結(jié)合,彎曲文本也變得更規(guī)則.

圖3 FRN矯正不規(guī)則文字的結(jié)果Fig.3 Results of the FRN on irregular text.

3.2 AEN

如圖2所示,AEN的主要結(jié)構(gòu)是CNN-BLSTM-GRU框架.編碼器部分我們采用的是CNN-BLSTM架構(gòu).目前方法的解碼器是基于GRU直接生成目標(biāo)序列(y1,y2,…,yT).解碼器生成的最大步數(shù)為T.解碼器在預(yù)測到序列結(jié)束標(biāo)記EOS時(shí)停止處理.在時(shí)間步t,輸出yt如下.

yt=Softmax(Woutst+bout)

(4)

式(4)中,st是時(shí)間第t步隱藏層狀態(tài),我們使用GRU來更新st,由如下公式計(jì)算更新.

st=GRU(yprev,gt,st-1)

(5)

式(5)中,yprev代表的是前一個(gè)時(shí)間段的輸出yt-1的嵌入向量;gt代表注意力權(quán)重向量.

yprev=Embedding(yt-1)

(6)

(7)

式(7)中,hi代表的是序列特征向量;L是特征圖的長度.而第一項(xiàng)αt,i是注意力權(quán)重向量,計(jì)算如下.

(8)

et,i=Tanh(Wsst-1+Whhi+b)

(9)

在式(4)~式(9)中,Wout,bout,Ws,Wh和b都是可訓(xùn)練的參數(shù).注意:在訓(xùn)練階段yprev是來自最后一步的真實(shí)標(biāo)記.然而,在測試階段使用最后一步的預(yù)測輸出作為yt-1.本文解碼器是基于注意力增強(qiáng)的解碼器,借鑒文獻(xiàn)[5]的思想,本文提出了相鄰注意力權(quán)重和雙向GRU解碼器方法,在3.3節(jié)和3.4節(jié)詳細(xì)說明.AEN的架構(gòu)詳細(xì)信息見表2.編碼器部分采用了45層的殘差網(wǎng)絡(luò)結(jié)構(gòu)作為卷積神經(jīng)網(wǎng)絡(luò),每個(gè)殘差單元都由一個(gè)1×1的卷積層伴隨一個(gè)3×3的卷積層組成.在第1個(gè)和第2個(gè)殘差塊中,圖像被2×2步長的卷積層所降采樣.而在最后的三個(gè)殘差塊中,降采樣步長變?yōu)?×1,這樣能夠更好地區(qū)分寬度較窄的字母.卷積神經(jīng)網(wǎng)絡(luò)之后是兩層的雙向LSTM網(wǎng)絡(luò),其中的每一層都由一對LSTM網(wǎng)絡(luò)組成,LSTM的隱藏層單元數(shù)量均為256.解碼器是帶有注意力機(jī)制的GRU網(wǎng)絡(luò),注意力機(jī)制的單元數(shù)和隱藏層單元數(shù)均為256.

表2 AEN架構(gòu)

圖4 是否帶相鄰注意力權(quán)重方法訓(xùn)練的比較Fig.4 Difference of training with and without adjacent attention weight methods

3.3 相鄰注意力權(quán)重方法

解碼器通過正確注意力的反饋,可以增強(qiáng)選擇正確注意力區(qū)域的能力.但是,自然場景圖像中存在著各種類型的噪聲.在實(shí)際應(yīng)用中,解碼器可能會被欺騙以關(guān)注模糊背景區(qū)域.如果解碼器生成不正確的注意力區(qū)域,選擇非對應(yīng)的特征,這將會導(dǎo)致預(yù)測失敗.如圖4所示,圖像包含具有陰影以及復(fù)雜背景的文字.左邊的解碼器產(chǎn)生了錯(cuò)誤的注意力區(qū)域,得到了錯(cuò)誤的預(yù)測結(jié)果,遺漏了字母i.

我們使用了一種稱為相鄰注意力權(quán)重的訓(xùn)練方法,它在訓(xùn)練階段每一個(gè)時(shí)間步都獲取一對相鄰的特征.通過此方法訓(xùn)練的注意力解碼器可以感知相鄰的字符.我們在解碼器的每個(gè)時(shí)間步選擇和修改一對注意力.在時(shí)間步t,αt,k和αt,k+1以如下方式更新.

(10)

其中,β是(0,1)間隨機(jī)生成的小數(shù);k是[1,T-1]間隨機(jī)生成的整數(shù);T代表解碼器的最大步長.

基于相鄰注意力權(quán)重方法的解碼器,在αt,k和αt,k+1中都加入了隨機(jī)性.這意味著:即使對于相同的圖像,在訓(xùn)練階段的每個(gè)時(shí)間步長,αt的分布都會發(fā)生變化.如式(7)所述,注意力向量gt根據(jù)αt的各種分布來獲取序列特征向量hi,其等同于特征區(qū)域在變化.β和k的隨機(jī)性不僅可以避免過擬合,并且可以增強(qiáng)解碼器的魯棒性.注意:αt,k和αt,k+1是相鄰的.在不使用相鄰注意力權(quán)重方法時(shí),序列特征向量hk的誤差項(xiàng)是

δhk=δgtαt,k

(11)

上式中,δgt是注意力向量gt的誤差項(xiàng);δhk僅與αt,k有關(guān).但是,使用相鄰注意力權(quán)重方法,誤差項(xiàng)變?yōu)?/p>

δhk=δgt(βαt,k+(1-β)αt,k+1)

(12)

其中,αt,k+1與hk相關(guān),如式(8)和式(9)所示,這意味著δhk受相鄰特征決定.因此,反向傳播的梯度能夠在更寬范圍的相鄰區(qū)域上動態(tài)地優(yōu)化解碼器.

使用上述方法訓(xùn)練的FRAEN在每個(gè)時(shí)間步驟產(chǎn)生更平滑的αt.所以,我們不僅可以提取目標(biāo)字符的特征,而且還提取了前景和背景上下文的特征.如圖4所示,使用此方法能夠正確地預(yù)測目標(biāo)字符.

3.4 雙向解碼器

在我們上述的方法中,使用的序列到序列注意力模型只能捕捉一個(gè)方向上的標(biāo)簽相關(guān)性.在實(shí)際中,從左到右和從右到左兩個(gè)方向上的相關(guān)性對識別都有利.例如,一個(gè)從左到右工作的解碼器可能會因?yàn)槿狈ι衔亩y以識別一些單詞的首字母,尤其是當(dāng)該字母為大寫‘I’或小寫‘l’這樣容易混淆的字母時(shí).相比之下,一個(gè)從右到左的解碼器則可能更容易識別這些字母,因?yàn)樗梢愿鶕?jù)語言先驗(yàn)知識,由其余字母去推測首字母.

上述的例子表明,工作在相反方向上的兩個(gè)解碼器可能存在互補(bǔ)性.為了同時(shí)利用兩個(gè)方向上的相關(guān)性,我們提出一種雙向解碼器.如圖5所示,雙向解碼器由兩個(gè)預(yù)測方向相反的解碼器構(gòu)成.一個(gè)從左到右地識別字母序列,另一個(gè)從右到左.從右到左解碼器的輸出和另一個(gè)解碼器的輸出進(jìn)行得分比較.得分較高的標(biāo)簽序列被輸出,較低的被丟棄.這里的得分為解碼器每一步的判斷得分的累加值.實(shí)際中,我們使用基于貪心算法的解碼器,在每一步解碼中都選取得分最高的標(biāo)簽作為輸出,當(dāng)輸出為EOS時(shí)停止.

圖5 雙向解碼器Fig.5 Bidirectional decoder

3.5 模型訓(xùn)練

FRAEN的訓(xùn)練是端到端且是多任務(wù)的.因此,訓(xùn)練的損失函數(shù)為

logprtl(yt|I))

(13)

其中,y1,…,yt,…,yT表示標(biāo)注的字母標(biāo)簽序列.損失函數(shù)為兩個(gè)解碼器(其預(yù)測概率分別由pltr和prtl表示)各自損失函數(shù)的平均.等式的右側(cè)只需由圖像和標(biāo)簽序列標(biāo)注計(jì)算得到,因此網(wǎng)絡(luò)的訓(xùn)練只需要圖像和對應(yīng)的標(biāo)注文字.

模型的所有網(wǎng)絡(luò)層參數(shù)都是隨機(jī)初始化的.通過隨機(jī)梯度下降法進(jìn)行訓(xùn)練,梯度通過反向傳播算法進(jìn)行計(jì)算,我們采用的卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)都可以進(jìn)行反向傳播,因此FRAEN可以將其接收的誤差梯度傳遞到每一個(gè)網(wǎng)絡(luò)層上,將所有網(wǎng)絡(luò)進(jìn)行端到端訓(xùn)練.

網(wǎng)絡(luò)訓(xùn)練的優(yōu)化算法使用Adadelta,通過Adadelta分別計(jì)算每個(gè)參數(shù)上的學(xué)習(xí)率.在實(shí)際使用中,Adadelta的收斂速度快.

4 實(shí) 驗(yàn)

在本節(jié)中,我們在各種基準(zhǔn)數(shù)據(jù)集上進(jìn)行廣泛實(shí)驗(yàn),包括規(guī)則和不規(guī)則文字?jǐn)?shù)據(jù)集.所有方法的性能都是通過單詞級的精度來衡量的.我們在表3中列出了逐步組合本文各方法得到的結(jié)果.可以看出在將所有方法都統(tǒng)一為一個(gè)網(wǎng)絡(luò)結(jié)構(gòu)時(shí),取得了最好的效果.

表3 FRAEN的準(zhǔn)確率

4.1 數(shù)據(jù)集

IIIT5K-Words (IIIT5K)[20]包含用于測試的3 000張裁剪單詞圖像.每張圖像都有一個(gè)50詞的詞匯表和一個(gè)1 000詞的詞匯表.詞匯表由一個(gè)正確的單詞和其他隨機(jī)選擇的單詞組成.

SVT (Street View Text)[19]采集自Google Street View,其測試集包含647張裁剪后的圖片.許多圖片都受到噪聲的嚴(yán)重影響,或者分辨率很低.每個(gè)圖像都與一個(gè)50詞的詞匯表相關(guān)聯(lián).

ICDAR 2003(IC03)是ICDAR 2003競賽所使用的數(shù)據(jù)集.本文只使用其識別數(shù)據(jù)集.包含非字母數(shù)字和長度小于3的文字圖片被從數(shù)據(jù)集中剔除.過濾后的識別數(shù)據(jù)集包含860張裁剪圖片.

ICDAR 2013 (IC13)[21]的大部分樣本都繼承自IC03.它包含1015個(gè)裁剪文字圖像.沒有與此數(shù)據(jù)集關(guān)聯(lián)的詞匯表.

SVT-P (SVT-Perspective)[22]被用于文字識別,并且是一個(gè)不規(guī)則文字?jǐn)?shù)據(jù)集.主要由側(cè)視文字組成,其圖片來自于非正面拍攝的街景,因此很多圖片都伴隨強(qiáng)烈的視角扭曲.SVT-P包含639張裁剪圖片.該測試集每張圖片關(guān)聯(lián)了一個(gè)50詞的詞匯表.

CUTE80[23]專門用于評估彎曲文字識別的性能.其包含288個(gè)裁剪的自然圖像的測試集.沒有詞匯表與此數(shù)據(jù)集相關(guān)聯(lián).

ICDAR 2015(IC15)[24]包含2077個(gè)裁剪圖像,包括200多張不規(guī)則文字圖片.沒有詞匯表與此數(shù)據(jù)集相關(guān)聯(lián).

4.2 實(shí)現(xiàn)細(xì)節(jié)

(1) 網(wǎng)絡(luò)結(jié)構(gòu):有關(guān)FRN和AEN的詳細(xì)信息分別在表1和表2中給出.解碼器中GRU的隱藏單元數(shù)為256.AEN輸出37個(gè)類別,包括26個(gè)字母,10數(shù)字和1個(gè)代表EOS的符號.

(2) 模型訓(xùn)練:FRAEN以端到端的方式進(jìn)行訓(xùn)練.訓(xùn)練數(shù)據(jù)由Jaderberg等人[25]發(fā)布的800萬張合成圖像和Gupta等人[26]發(fā)布的600萬合成圖像構(gòu)成.我們的實(shí)驗(yàn)中不使用任何像素級標(biāo)簽.使用Adadelta自適應(yīng)學(xué)習(xí)率調(diào)整的優(yōu)化方法,我們在開始時(shí)將學(xué)習(xí)率設(shè)置為1.0,每三個(gè)epoch之后降低10倍,批量大小設(shè)置為256,訓(xùn)練完全耗費(fèi)了46 h左右的時(shí)間.

(3) 實(shí)現(xiàn):我們基于PyTorch0.4框架實(shí)現(xiàn)了我們的方法.我們的實(shí)驗(yàn)中使用NVIDIA RTX-2070 GPU,CUDA 10.0和CuDNN v7后端,我們的模型使用GPU加速,所有圖像尺寸都調(diào)整為32×100.

4.3 FRAEN在規(guī)則文字?jǐn)?shù)據(jù)集上的性能

我們在常用規(guī)則文字?jǐn)?shù)據(jù)集上進(jìn)行評估,這些數(shù)據(jù)集中大多數(shù)測試樣本是規(guī)則文字,其中有一小部分是不規(guī)則文字.我們將本文方法與之前9種方法進(jìn)行比較,結(jié)果如表4所示.FRAEN在沒有詞匯表的模式下優(yōu)于所有當(dāng)前最好的方法.

4.4 在不規(guī)則文字上的識別結(jié)果

我們還在不規(guī)則文字?jǐn)?shù)據(jù)集上進(jìn)行了評估,在存在大量不規(guī)則文字的SVT-P,CUTE80和IC15三個(gè)測試集上進(jìn)行測試.結(jié)果如表5所示,F(xiàn)RAEN表現(xiàn)優(yōu)異.

對于SVT-P數(shù)據(jù)集,許多樣本都是低分辨率和透視的.具有50字詞匯表的FRAEN的結(jié)果與Liu等人[27]的方法的結(jié)果相同.但是,F(xiàn)RAEN在沒有任何詞匯表的情況下優(yōu)于所有方法.

表4 FRAEN在規(guī)則文字測試集上的準(zhǔn)確率

表5 FRAEN在不規(guī)則文字測試集上的準(zhǔn)確率

4.5 FRAEN的局限

為了公平比較和良好的可重復(fù)性,我們選擇了廣泛使用的訓(xùn)練數(shù)據(jù)集進(jìn)行測試.如圖6所示,可以看出最后兩張圖像本文方法預(yù)測錯(cuò)誤,因此,在場景文字背景復(fù)雜和文字彎曲角度太大時(shí),本文方法可能會失效,因?yàn)槠淇赡軙e(cuò)誤地將復(fù)雜背景視為前景,從而影響預(yù)測結(jié)果.上述實(shí)驗(yàn)均基于裁剪文字識別,沒有文字檢測器的FRAEN還不是端到端場景文字檢測識別系統(tǒng).在更多應(yīng)用場景中,不規(guī)則和多方向的文字對于檢測和識別都具有很大的挑戰(zhàn)性.

圖6 SVT-Perspective和CUTE80數(shù)據(jù)集上的結(jié)果Fig.6 Results on SVT-Perspective and CUTE80

在本文中,我們提出了一個(gè)用于任意形狀場景文字識別的帶有靈活矯正功能的注意力增強(qiáng)網(wǎng)絡(luò).本文方法分成兩個(gè)階段來解決不規(guī)則文字識別問題:文字矯正和文字識別.首先,由矯正網(wǎng)絡(luò)處理復(fù)雜的變形文字,將其矯正為更易識別的文字.然后,使用基于相鄰注意力權(quán)重的雙向解碼器的序列識別網(wǎng)絡(luò)來識別矯正后的圖像并預(yù)測輸出.我們在規(guī)則和不規(guī)則文字?jǐn)?shù)據(jù)集上進(jìn)行了大量實(shí)驗(yàn),都表現(xiàn)出了優(yōu)異的識別性能,尤其在不規(guī)則文字?jǐn)?shù)據(jù)集上.將來,我們有必要擴(kuò)展這種方法來處理任意方向和任意弧度的文字識別問題,由于文字和背景的多樣性,這個(gè)問題更具挑戰(zhàn)性.由于端到端文字識別性能的改進(jìn)不僅取決于識別模型,還取決檢測模型.所以,找到一種將FRAEN與場景文字檢測器結(jié)合起來的正確有效方法也是值得研究的方向.

猜你喜歡
解碼器矯正注意力
讓注意力“飛”回來
科學(xué)解碼器(一)
社區(qū)矯正期限短期化趨勢探討
科學(xué)解碼器(二)
科學(xué)解碼器(三)
如何培養(yǎng)一年級學(xué)生的注意力
寬帶發(fā)射機(jī)IQ不平衡的矯正方法
線圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍(lán)蜻蜓解碼器
攻心治本開展社區(qū)矯正
A Beautiful Way Of Looking At Things