一種用于自然場(chǎng)景文本識(shí)別的多路并行位置關(guān)聯(lián)網(wǎng)絡(luò)

2023-04-19 05:12葉東毅陳羽中

小型微型計(jì)算機(jī)系統(tǒng) 2023年4期

陳敏,葉東毅,陳羽中

(福州大學(xué) 計(jì)算機(jī)與大數(shù)據(jù)學(xué)院,福州 350116) (福建省網(wǎng)絡(luò)計(jì)算與智能信息處理重點(diǎn)實(shí)驗(yàn)室,福州 350116) E-mail：yzchen@fzu.edu.cn

1 引言

文字具有豐富的語義信息,可以作為一種信息交流的方式嵌入到文檔或自然場(chǎng)景中,是人類信息傳遞與交互的主要途徑之一.自然場(chǎng)景中的文字識(shí)別可以幫助我們客觀地理解世界,在無人駕駛、圖像檢索、機(jī)器人導(dǎo)航、遙感圖像識(shí)別等領(lǐng)域獲得了廣泛應(yīng)用.目前,傳統(tǒng)的用于文檔文本的光學(xué)字符識(shí)別系統(tǒng)已經(jīng)非常成熟,但如何在自然場(chǎng)景下精確識(shí)別文本仍然是一個(gè)具有挑戰(zhàn)性的問題.主要原因在于文本圖像中存在字體變化多樣、光照不均、文本布局不規(guī)則、文本過度彎曲等問題,導(dǎo)致模型所輸出的字符序列和輸入圖像之間存在錯(cuò)位,嚴(yán)重影響模型的文本識(shí)別精度.因此,研究者逐漸開始關(guān)注現(xiàn)實(shí)生活中理解難度較大的復(fù)雜場(chǎng)景下的不規(guī)則文本識(shí)別任務(wù).

隨著卷積神經(jīng)網(wǎng)絡(luò)CNN(Convolutional Neural Network)和循環(huán)神經(jīng)網(wǎng)絡(luò)RNN(Recurrent Neural Network)得到廣泛的應(yīng)用,提升了場(chǎng)景文本識(shí)別網(wǎng)絡(luò)的上下文建模能力并且取得了很好的效果.然而,目前大多數(shù)的模型魯棒性較差,不規(guī)則文本的各種形狀和彎曲模式對(duì)識(shí)別造成了更大的困難.一方面,由于圖像背景復(fù)雜,相鄰字符黏連緊密,容易產(chǎn)生識(shí)別誤差,需要對(duì)單個(gè)字符進(jìn)行順序定位.另一方面,主流識(shí)別網(wǎng)絡(luò)只考慮局部序列上下文依賴關(guān)系,在預(yù)測(cè)字符序列時(shí),缺少全局語義信息的監(jiān)督,會(huì)錯(cuò)誤識(shí)別邊緣特征,需考慮獲取全局語義信息作為補(bǔ)充.由此可見,對(duì)于自然場(chǎng)景下的文本識(shí)別,不僅依賴于圖像的視覺特征,還取決于相鄰字符間的位置信息和全局語義信息.

要正確識(shí)別文本圖像中的內(nèi)容,必須準(zhǔn)確感知每個(gè)字符的順序.通常,一個(gè)文本中的字符大小是相同的.然而,不同場(chǎng)景文本中的字符布局可能不同.因此,從場(chǎng)景圖片中獲取字符的位置信息將有利于對(duì)數(shù)據(jù)信息更深層次的挖掘.基于上述分析,本文提出了位置關(guān)聯(lián)模塊,該模塊通過將高維特征圖逐列分離成一維向量,在每個(gè)時(shí)間步上將一維向量連接到長(zhǎng)短期記憶單元,并采用多層連接設(shè)計(jì)順序關(guān)聯(lián)一維向量,不僅對(duì)上下文信息進(jìn)行編碼,而且對(duì)位置信息進(jìn)行編碼.最后通過雙層卷積神經(jīng)網(wǎng)絡(luò)歸一化序列特征,生成與形狀和字符排列相適應(yīng)的特征圖,有助于順序獲取字符間的位置信息以大致確定字符位置.

針對(duì)全局語義信息不足問題,主流的文本識(shí)別方法[1,2]都采用單向串行傳輸?shù)姆绞?遞歸地感知當(dāng)前解碼時(shí)間步的語義信息.但這些方法都只能從每個(gè)解碼時(shí)間步中獲取有限的語義信息,并且第1個(gè)解碼時(shí)間步?jīng)]有可用的語義信息,甚至?xí)蛳聜鬟f錯(cuò)誤的語義信息,導(dǎo)致錯(cuò)誤積累.同時(shí),串行傳輸模式效率較低.針對(duì)上述問題,本文提出了一個(gè)并行注意力模塊,該模塊基于多路并行傳輸?shù)姆绞将@取全局語義信息,通過多頭自注意力機(jī)制進(jìn)行上下文通信,可以同時(shí)感知一個(gè)字符或一行中所有字符的語義信息,選擇性地關(guān)注文本關(guān)鍵信息而忽略其他次要信息,提升了模型的高效性.

基于上述問題,本文提出了一種基于多路并行的位置關(guān)聯(lián)網(wǎng)絡(luò)(Multi-Path Parallel Location Association Network,MPLAN),MPLAN能夠有效對(duì)齊字符,確保字符間位置信息相關(guān)聯(lián),同時(shí)能夠并行捕獲全局語義信息,避免了注意力漂移問題.主要貢獻(xiàn)如下：

1)MPLAN通過關(guān)聯(lián)字符位置信息與全局語義信息,提高了場(chǎng)景文本識(shí)別網(wǎng)絡(luò)的準(zhǔn)確性和有效性.

2)MPLAN提出了位置關(guān)聯(lián)模塊,在序列特征中順序捕獲相鄰字符間的位置信息,使得特征向量表達(dá)出空間位置特性.解決了缺少字符間位置信息的問題.

3)MPLAN提出了并行注意力模塊來獲取全局語義信息,該模塊通過關(guān)聯(lián)局部特征的相關(guān)性,采用多路并行的傳輸方式獲取全局語義信息,解決了場(chǎng)景文本識(shí)別中全局語義信息不足的問題.

4)MPLAN在訓(xùn)練階段只需要單詞級(jí)注釋,可充分利用真實(shí)數(shù)據(jù)和合成數(shù)據(jù)進(jìn)行訓(xùn)練.并在包括規(guī)則文本、不規(guī)則文本在內(nèi)的幾個(gè)測(cè)試數(shù)據(jù)集基準(zhǔn)上達(dá)到了最先進(jìn)的性能.

2 相關(guān)工作

早期的場(chǎng)景文本識(shí)別方法[3,4]大多基于逐個(gè)字符分類的方法完成場(chǎng)景文本識(shí)別,即先通過滑動(dòng)窗口檢測(cè)單個(gè)字符,利用設(shè)計(jì)好的字符分類模型識(shí)別出每個(gè)字符類別,再采用動(dòng)態(tài)規(guī)劃的方法將其整合得到文本單詞內(nèi)容.但這些方法依賴于人工設(shè)計(jì)的特征工程和驗(yàn)證規(guī)則,將難以滿足復(fù)雜的自然場(chǎng)景文本識(shí)別需求.隨后,又提出了基于單詞分類的識(shí)別方法,即直接從整個(gè)圖像中預(yù)測(cè)文本實(shí)例,以單詞表為依據(jù),進(jìn)行單詞類別識(shí)別,不需要檢測(cè)單個(gè)字符.Jaderberg等人[5]將場(chǎng)景文本圖像的識(shí)別任務(wù)轉(zhuǎn)換為文本分類任務(wù),將整張文本圖像輸入到CNN網(wǎng)絡(luò)中,以高召回率的區(qū)域建議方法和過濾階段來進(jìn)一步回歸字符邊界框,采用字典分類模型輸出目標(biāo)文本序列.Almazan等人[6]提出從輸入圖像中預(yù)測(cè)標(biāo)簽嵌入向量,將輸入圖像和對(duì)應(yīng)的文本標(biāo)注映射到同一個(gè)公共的向量空間中計(jì)算最近距離.文獻(xiàn)[7]采用具有結(jié)構(gòu)化輸出層的卷積神經(jīng)網(wǎng)絡(luò)與條件隨機(jī)場(chǎng)CRF(Conditional Random Field)相結(jié)合的模型,實(shí)現(xiàn)了無字典約束的文本識(shí)別.

近年來,隨著深度學(xué)習(xí)的進(jìn)一步發(fā)展,場(chǎng)景文本識(shí)別算法取得了巨大進(jìn)展.場(chǎng)景文本通常以字符序列的形式出現(xiàn),因此通常將其建模為序列識(shí)別問題,并使用RNN對(duì)序列特征進(jìn)行建模.Sutskever等人[8]用序列特征表示圖像,采用遞歸神經(jīng)網(wǎng)絡(luò)將輸入特征映射成固定維度的向量,再使用另一個(gè)遞歸神經(jīng)網(wǎng)絡(luò)從向量中解碼目標(biāo)字符序列.Shi等人[9]將CNN與RNN相結(jié)合運(yùn)用到場(chǎng)景文本識(shí)別中,使用CNN從輸入文本圖像中提取圖像特征,使用RNN對(duì)其進(jìn)行序列重構(gòu),采用聯(lián)結(jié)主義時(shí)間分類損失來識(shí)別字符數(shù),實(shí)現(xiàn)字符序列預(yù)測(cè).由于這類方法賦予不同位置上的序列特征相同的權(quán)重,將難以定位關(guān)鍵字符識(shí)別區(qū)域,并且串行計(jì)算降低了運(yùn)算效率.因此,Yang等人[10]提出了一種基于Transformer[11,12]的注意力解碼器,可以有效地處理長(zhǎng)序列,而且能并行地執(zhí)行訓(xùn)練,提升了模型的收斂速度.

隨著注意力機(jī)制[13]在自然語言處理領(lǐng)域的成功,越來越多的研究者將其運(yùn)用到場(chǎng)景文本識(shí)別領(lǐng)域.Lee等人[14]提出使用具有注意力建模的遞歸卷積神經(jīng)網(wǎng)絡(luò)來構(gòu)建更加緊密的特征空間和捕獲長(zhǎng)距離的上下文依賴關(guān)系.該模型將輸入文本圖像水平編碼為一維序列特征,然后利用上一個(gè)時(shí)間步驟的語義信息引導(dǎo)視覺特征隱式建模字符級(jí)語言模型,之后由解碼器生成目標(biāo)字符序列.Cheng等人[15]指出現(xiàn)有注意力機(jī)制存在的注意力漂移問題,并提出了一個(gè)關(guān)注注意力網(wǎng)絡(luò)FAN(Focusing Attention Network),使得偏移的注意力重新聚焦在目標(biāo)區(qū)域上,從而確保解碼階段的字符與序列特征能夠?qū)R.FAN能夠自動(dòng)調(diào)整注意力網(wǎng)絡(luò)的注意力中心,但需要額外的字符級(jí)的標(biāo)注.Wang等人[16]提出了一個(gè)解耦注意力網(wǎng)絡(luò)DAN(Decoupled Attention Network),該網(wǎng)絡(luò)設(shè)計(jì)了一個(gè)卷積對(duì)齊模塊CAM替換傳統(tǒng)注意力解碼器中的遞歸對(duì)齊模塊,將對(duì)齊操作與歷史解碼結(jié)果解耦合,避免了錯(cuò)誤信息的積累,使得識(shí)別算法的性能進(jìn)一步提升.Litman等人[17]提出了一個(gè)選擇性上下文優(yōu)化網(wǎng)絡(luò)SCATTER(Selective Context ATtentional Text Recognizer),采用堆疊特征監(jiān)督塊的方式,細(xì)化視覺特征表示,編碼上下文相關(guān)性,并將視覺特征與上下文特征拼接,提升了選擇性解碼器的識(shí)別精度.

上述模型主要針對(duì)水平方向上的規(guī)則文本圖像,難以準(zhǔn)確識(shí)別存在透視失真或任意形狀彎曲的不規(guī)則文本圖像中的字符.為了準(zhǔn)確識(shí)別復(fù)雜場(chǎng)景下的不規(guī)則文本圖像,研究人員嘗試在預(yù)處理階段對(duì)不規(guī)則文本圖像進(jìn)行矯正.Shi等人[18]提出基于空間變換網(wǎng)絡(luò)STN(Space Transformer Network)[19],使用薄板樣條算法TPS(Thin Plate Spline)將不規(guī)則的文本矯正為線性排列的文字序列,并采用雙向長(zhǎng)短期記憶網(wǎng)絡(luò)進(jìn)行序列建模,提高了識(shí)別性能.ESIR[20]采用一種新穎的線性擬合變換估計(jì)文本行中的字符位置,并通過多次迭代空間變換網(wǎng)絡(luò)的方法產(chǎn)生更精確的失真矯正.Yang等人[21]提出一種對(duì)稱約束的矯正網(wǎng)絡(luò)ScRN(Symmetry-constrained Rectification Network),使用每個(gè)文本實(shí)例的中心線,并通過一些幾何屬性(包括文本中心線方向、字符方向和比例)添加對(duì)稱約束.由于對(duì)文本形狀的詳細(xì)描述和對(duì)稱約束的顯式描述,ScRN在文本矯正方面具有較強(qiáng)的魯棒性.Lin等人[22]提出了一個(gè)以分解為核心思想的圖像矯正網(wǎng)絡(luò)STAN(Sequential Transformation Attention-based Network),利用空間變換網(wǎng)絡(luò)將仿射變換獨(dú)立作用在分割后的圖像塊上,通過網(wǎng)格投影子模塊平滑相鄰塊之間的連接來矯正不規(guī)則文本.由于文本矯正網(wǎng)絡(luò)無法有效解決復(fù)雜場(chǎng)景中的模糊、光照不均等問題,一些研究人員考慮通過獲取2D空間信息進(jìn)行不規(guī)則文本識(shí)別.Li等人[23]設(shè)計(jì)了一個(gè)二維注意力編碼器網(wǎng)絡(luò)SAR(Show-Attend-and-Read),通過額外添加一個(gè)二維注意力分支,為單個(gè)字符選擇局部特征和字符領(lǐng)域信息,提升了文本識(shí)別精度.Huang等人[24]提出了有效區(qū)域注意網(wǎng)絡(luò)EPAN(Effective Parts Attention Network),該網(wǎng)絡(luò)引入了兩階段注意力機(jī)制,第2階段的注意力機(jī)制從第一階段的注意力機(jī)制生成的過濾特征中選擇輔助信息用于定位有效字符區(qū)域.

為了獲取字符位置信息,一些研究工作采用語義分割的方法對(duì)單個(gè)字符位置進(jìn)行分割.Wan等[25]設(shè)計(jì)了一種基于語義分割的雙分支識(shí)別系統(tǒng)TextScanner,兩個(gè)分支可以獨(dú)立預(yù)測(cè)字符的類別和幾何信息,借助字符間的位置順序提高了模型識(shí)別性能.Two-Attention[26]是基于FCN(Fully ConvolutionalNeural Networks)的語義分割識(shí)別網(wǎng)絡(luò),將不規(guī)則文本識(shí)別視為圖像分割問題,設(shè)計(jì)了二維注意力編碼器網(wǎng)絡(luò),通過搜索字符的空間位置關(guān)系提升了識(shí)別性能.不過基于分割的方法需要精確到字符級(jí)的標(biāo)注,訓(xùn)練代價(jià)較大.

3 模型

3.1 模型框架

本文所提出的并行位置關(guān)聯(lián)網(wǎng)絡(luò)MPLAN的框架如圖1所示.MPLAN是一個(gè)可端到端訓(xùn)練的網(wǎng)絡(luò)模型,包括文本矯正模塊、特征提取模塊、位置關(guān)聯(lián)模塊、并行注意力模塊和字符預(yù)測(cè)模塊.給定一個(gè)輸入圖像I,由文本矯正模塊對(duì)輸入圖像進(jìn)行歸一化矯正,得到矯正圖像Ir,然后通過特征提取模塊從矯正圖像Ir中提取視覺特征F,位置關(guān)聯(lián)模塊從視覺特征F中逐列捕獲字符位置信息,其輸出是一個(gè)包含不同字符位置信息的特征向量M.并行注意力模塊通過多通道對(duì)位置關(guān)聯(lián)模塊輸出的特征向量M并行解碼,生成N個(gè)對(duì)齊的一維序列特征P,每個(gè)特征對(duì)應(yīng)文本中的一個(gè)字符,并捕獲對(duì)齊后的全局語義信息.最后,將對(duì)齊后的特征向量征P輸入字符預(yù)測(cè)模塊,輸出N個(gè)預(yù)測(cè)字符.

3.2 文本矯正模塊

在自然場(chǎng)景中,過度彎曲文本和透視失真文本十分常見,給識(shí)別工作帶來了極大的挑戰(zhàn).本文在圖像預(yù)處理階段針對(duì)不規(guī)則文本進(jìn)行水平矯正.文本矯正網(wǎng)絡(luò)是以空間變換網(wǎng)絡(luò)STN為基礎(chǔ),并結(jié)合TPS進(jìn)行參數(shù)變換.其中,TPS是基于二維空間的插值方法,針對(duì)彎曲文本進(jìn)行非剛性變換,廣泛運(yùn)用于在文本圖像的變換和匹配.STN由定位網(wǎng)絡(luò)、網(wǎng)格生成器和采樣器3個(gè)部分組成.定位網(wǎng)絡(luò)會(huì)沿輸入圖像I中文本的上下邊界預(yù)測(cè)一組固定數(shù)量的控制點(diǎn),通過控制點(diǎn)間的線性關(guān)系計(jì)算TPS變換矩陣,網(wǎng)格生成器根據(jù)控制點(diǎn)的位置和TPS變換矩陣確定采樣點(diǎn)的位置,將采樣點(diǎn)的位置信息輸入到采樣器中生成最終的矯正圖像Ir.

圖1 MPLAN整體框圖Fig.1 Overall framework of MPLAN

3.3 特征提取模塊

在特征提取階段,通過不斷堆疊卷積層和最大池化層,并使用殘差連接加深網(wǎng)絡(luò)的深度,從而提取更豐富的視覺特征.特征提取模塊以改進(jìn)的ResNet50作為骨干網(wǎng)絡(luò).改進(jìn)的ResNet50每層對(duì)應(yīng)于一個(gè)輸出,且將Block3、Block4、Block5這3個(gè)殘差塊中的步幅由(2,2)改為(1,1),并額外添加3個(gè)最大池化層用于對(duì)特征圖進(jìn)行下采樣操作.其中,最大池化層的卷積核大小為(2,1),可以在水平軸上保留更多的信息,有利于避免多字符的粘連問題.特征提取模塊以采樣器輸出的矯正圖像作為輸入,最后一層輸出特征圖,F∈H×W×D,H為高,W為寬,D為通道的數(shù)量.為了保持原始的高寬比,調(diào)整輸入圖像的大小,使其具有固定高度和可變寬度.

3.4 位置關(guān)聯(lián)模塊

要正確地識(shí)別文本圖像中的內(nèi)容,就必須依賴于順序讀取字符的位置信息.針對(duì)復(fù)雜背景下的不規(guī)則文本,不僅要關(guān)注相鄰字符間的上下文語義信息,還需捕獲字符位置信息.常用的方法都需要將輸入圖像轉(zhuǎn)換為中間序列表示,并使用RNN對(duì)其進(jìn)行編碼和解碼,在解碼過程的后幾個(gè)時(shí)間步中,將會(huì)出現(xiàn)字符位置信息不足,從而導(dǎo)致字符對(duì)齊不一致的錯(cuò)誤識(shí)別.針對(duì)在特征圖上精確定位字符的問題,MPLAN提出了位置關(guān)聯(lián)模塊來順序捕獲字符間的位置信息,使輸出的特征映射帶有字符位置信息.位置關(guān)聯(lián)模塊的詳細(xì)架構(gòu)如圖2所示.

圖2 位置關(guān)聯(lián)模塊結(jié)構(gòu)圖Fig.2 Structure of location association module

位置關(guān)聯(lián)模塊直接對(duì)特征提取模塊輸出的視覺特征映射F以寬度為基準(zhǔn),采用兩層單向的LSTM逐列使用512個(gè)隱藏狀態(tài)大小來順序捕獲字符位置信息和關(guān)聯(lián)上下文語義信息.對(duì)于所有特征行,可在LSTM單元內(nèi)共享參數(shù),以克服過擬合和減少參數(shù)量.然后,使用兩個(gè)3×1的卷積層,并在層間插入了一個(gè)ReLU函數(shù)來輸出包含位置信息的特征向量Fk.位置關(guān)聯(lián)模塊生成特征向量Fk的運(yùn)算過程如下：

(1)

(2)

Fk=f(F2)

(3)

位置關(guān)聯(lián)模塊將特征提取模塊的輸出F與Fk進(jìn)行級(jí)聯(lián)相加得到最后的輸出特征M∈dmodel,其中dmodel表示輸出的特征維度.這使得輸出特征能夠?qū)W習(xí)表示字符的位置信息.

3.5 并行注意力模塊

注意力機(jī)制廣泛應(yīng)用于序列識(shí)別問題,其核心思想是特征對(duì)齊,將輸入特征的相關(guān)信息對(duì)齊對(duì)應(yīng)的輸出信息.在識(shí)別問題上,使得字符之間的特征相關(guān)性可以在高階特征中相互關(guān)聯(lián).傳統(tǒng)的注意力機(jī)制存在時(shí)間依賴和串行計(jì)算的問題.本文提出了一個(gè)并行注意力模塊,并行注意力模塊由多頭注意力機(jī)制和前饋神經(jīng)網(wǎng)絡(luò)構(gòu)成的網(wǎng)絡(luò)堆疊2次而成,使用殘差網(wǎng)絡(luò)連接每一個(gè)子層,通過并行訓(xùn)練增強(qiáng)網(wǎng)絡(luò)性能.并行注意力模塊采用多頭注意力機(jī)制在不同特征子空間中學(xué)習(xí)相關(guān)信息,并使用前饋神經(jīng)網(wǎng)絡(luò)作用于注意力機(jī)制輸出的每一個(gè)位置上,進(jìn)而從多角度得到更全面的特征表示.

多頭注意力機(jī)制是集成多個(gè)獨(dú)立運(yùn)行的自注意力機(jī)制,可以在不同的位置聯(lián)合處理來自不同特征表示子空間的信息,從而實(shí)現(xiàn)并行編碼.其中,自注意力機(jī)制是注意力機(jī)制的一個(gè)特例,可以快速提取局部特征內(nèi)部的依賴關(guān)系,并且只針對(duì)重要信息進(jìn)行學(xué)習(xí).自注意力機(jī)制主要采用縮放點(diǎn)積注意力,首先將位置關(guān)聯(lián)模塊的輸出特征M通過3次不同的線性變換得到3個(gè)維度均為dk的輸入矩陣：查詢Q、鍵K、值V,輸出是根據(jù)Q與K的相似度計(jì)算V上的加權(quán)和.縮放點(diǎn)積注意力計(jì)算公式如下：

(4)

Softmax可以將Q和K的點(diǎn)積運(yùn)算結(jié)果進(jìn)行歸一化處理.并行注意力模塊可以并行計(jì)算n_head次縮放點(diǎn)積注意力,然后將n_head次的縮放點(diǎn)積注意力結(jié)果進(jìn)行拼接得到多頭注意力權(quán)重求和結(jié)果C=[c1,c2,c3,…,cN],計(jì)算公式如下：

(5)

ct=MultiHead(Q,K,V)=Concat(head1,…,headn_head)W0

(6)

前饋神經(jīng)網(wǎng)絡(luò)包含了兩個(gè)線性變換,中間有一個(gè)ReLU激活函數(shù).將多頭注意力機(jī)制的輸出C經(jīng)過前饋神經(jīng)網(wǎng)絡(luò)得到并行注意力模塊的輸出P=[p1,p2,…,pN].前饋神經(jīng)網(wǎng)絡(luò)的定義公式為：

FFN(x)=max(0,xW1+b1)W2+b2

(7)

其中,W1、b1、W2和b2都是可訓(xùn)練參數(shù).此外,運(yùn)用同一個(gè)線性變換作用在不同的位置上,權(quán)重參數(shù)在層間是共享的.

3.6 字符預(yù)測(cè)模塊

字符預(yù)測(cè)模塊的作用是將輸入的序列特征向量轉(zhuǎn)換為目標(biāo)字符串,能夠輸出任意長(zhǎng)度的字符序列.字符預(yù)測(cè)模塊是一個(gè)單向的循環(huán)網(wǎng)絡(luò),由注意力機(jī)制和字符級(jí)的門控循環(huán)神經(jīng)網(wǎng)絡(luò)GRU組成.識(shí)別階段的注意力機(jī)制用于捕獲輸出字符間的依賴關(guān)系,使得模型在每個(gè)時(shí)間步驟上聚焦于目標(biāo)字符區(qū)域.該網(wǎng)絡(luò)更新每一個(gè)解碼步驟處的狀態(tài)都可以再次訪問序列特征中的所有狀態(tài),會(huì)更明確關(guān)注到目標(biāo)字符部分.每個(gè)序列特征都將迭代N次,產(chǎn)生長(zhǎng)度為N的目標(biāo)字符序列,表示為Y=(y1,…,yN).

在第t步,識(shí)別網(wǎng)絡(luò)根據(jù)并行注意力模塊的的序列輸出P、GRU內(nèi)部隱藏層狀態(tài)st-1和上一步的預(yù)測(cè)yt-1來預(yù)測(cè)目標(biāo)字符或序列結(jié)束符號(hào)(EOS).當(dāng)預(yù)測(cè)出一個(gè)“EOS”時(shí),將停止預(yù)測(cè).整個(gè)識(shí)別網(wǎng)絡(luò)采用GRU學(xué)習(xí)注意依賴關(guān)系.在時(shí)間步長(zhǎng)t時(shí),輸出yt,公式如下：

yt=Softmax(WoutSt+bout)

(8)

其中,st是第t時(shí)間步GRU單元的隱藏層狀態(tài).隱藏層狀態(tài)st通過GRU的循環(huán)過程進(jìn)行更新,公式如下：

st=GRU(yp,gt,st-1)

(9)

其中,yp是上一時(shí)間步輸出yt-1的嵌入向量,gt表示上下文向量,計(jì)算特征P=[p1,p2,…,pN]的加權(quán)和,公式如下：

(10)

其中,T表示特征長(zhǎng)度,pi∈P表示在第i時(shí)間步的序列特征向量,αt,i是注意力權(quán)重向量,公式如下：

(11)

et,i=Tanh(Wsst-1+Whpi+b)

(12)

其中,et,i為對(duì)齊得分,表示高級(jí)特征表示與當(dāng)前輸出的相關(guān)度,st-1是GRU單元的上一時(shí)間步的隱藏層狀態(tài),Wout、Ws、Wh、bout和b分別表示線性變換和分類器的偏差,都是可訓(xùn)練參數(shù).

4 實(shí)驗(yàn)結(jié)果

4.1 數(shù)據(jù)集與對(duì)比模型

本文在兩個(gè)合成數(shù)據(jù)集Synth90K[28]和SynthText[29]上進(jìn)行訓(xùn)練,并在6個(gè)公開數(shù)據(jù)集上進(jìn)行測(cè)試,包括IIIT5K-Words(IIIT5K)[30]、Street View Text(SVT)[31]、ICDAR 2013(IC13)[32]、ICDAR 2015(IC15)[33]、SVT-Perspective(SVT-P)[34]、CUTE80(CUTE)[35].其中,IIIT5K、SVT和IC13屬于規(guī)則文本數(shù)據(jù)集,IC15、SVT-P和CUTE屬于不規(guī)則文本數(shù)據(jù)集.

實(shí)驗(yàn)中采用的對(duì)比模型有文本矯正模型Aster[18]、Esir[20]和ScRN[21],語義分割模型TextScanner[25]和Two-Attention[26],以及注意力機(jī)制模型SAR[23]、EPAN[24]、Holistic[10]、DAN[16]、Seed[27]、STAN[22].

4.2 實(shí)驗(yàn)設(shè)置和評(píng)估指標(biāo)

本文實(shí)驗(yàn)中,原始圖像調(diào)整為64×256輸入到文本矯正模塊中,采用較大的輸入尺寸是為了保留高分辨率.文本矯正模塊輸出大小為32×100的矯正圖像作為識(shí)別網(wǎng)絡(luò)的輸入圖像,控制點(diǎn)數(shù)量設(shè)為20.特征提取模塊中采用改進(jìn)的ResNet50作為骨干網(wǎng)絡(luò).其中,最大池化層采用2×1的下采樣步幅,有利于沿橫軸保留了更多的分辨率以區(qū)分相鄰特征.骨干網(wǎng)絡(luò)之后是兩層單向連接的LSTM單元,每一層的LSTM采用512個(gè)隱藏單元,LSTM的輸出經(jīng)過兩個(gè)3×1卷積層和ReLU激活函數(shù)將特征圖線性投影為512維.并行注意力模塊是由2個(gè)Transformer單元塊組成,其中head=8,隱藏單元數(shù)為512,最后由字符預(yù)測(cè)模塊輸出最終的字符序列.模型訓(xùn)練采用ADADELTA作為優(yōu)化器,批處理大小為128,初始學(xué)習(xí)率為0.8.設(shè)置輸出序列N的最大長(zhǎng)度為25.性能評(píng)估指標(biāo)采用單詞級(jí)的識(shí)別精度.

在測(cè)試推理階段,模型采用波束搜索法,即每步保持累積分?jǐn)?shù)最高的k個(gè)候選項(xiàng),k=5.

4.3 模型性能分析

表1展示了MPLAN和對(duì)比模型在6個(gè)測(cè)試數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果.除MPLAN模型外,其他對(duì)比模型的相關(guān)數(shù)據(jù)均來自相關(guān)文獻(xiàn).從表1的實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),在僅使用合成訓(xùn)練數(shù)據(jù)集的情況下,MPLAN模型在IIIT5K、SVT、IC13、IC15、SVT-P和CUTE這6個(gè)測(cè)試數(shù)據(jù)集上的精度為94.7%、91.5%、93.2%、82.2%、82.5%、88.2%,總體識(shí)別表現(xiàn)優(yōu)于其他對(duì)比模型,特別地,與其他對(duì)比模型相比,MPLAN在具有挑戰(zhàn)性的不規(guī)則文本數(shù)據(jù)集IC15和CUTE上性能提升顯著.MPLAN只在IC13和SVT-P測(cè)試數(shù)據(jù)集上的精度略低于TextScanner和EPAN.但是,TestScanner在訓(xùn)練階段需要額外的字符級(jí)注釋,EPAN在不規(guī)則文本數(shù)據(jù)集上的識(shí)別精度不高.

與文本矯正模型Aster、Esir和ScRN相比,MPLAN在規(guī)則文本數(shù)據(jù)集和不規(guī)則文本數(shù)據(jù)上均有顯著提升.與語義分割模型Two-Attention和TextScanner相比,MPLAN在IIIT5K、SVT、IC13、IC15、SVT-P和CUTE 這6個(gè)測(cè)試數(shù)據(jù)集上的精度相比Two-Attention模型分別提升了0.7%、1.4%、0.5%、5.9%、0.2%、1.4%.MPLAN在SVPT數(shù)據(jù)集上略低于TextScanner,在IIIT5K、SVT、IC13、IC15和CUTE 5個(gè)測(cè)試數(shù)據(jù)集上的精度相比TextScanner則分別提升了0.8%、1.4%、0.3%、2.6%、4.9%.與基于注意力機(jī)制的模型SAR、EPAN、Holistic、DAN、Seed、STAN相比,MPLAN在IC15、SVT-P和CUTE 這3個(gè)不規(guī)則文本數(shù)據(jù)集上至少獲得2.2%、0.3%和2.8%的提升,證明MPLAN在不規(guī)則文本數(shù)據(jù)集上更具優(yōu)勢(shì).與采用語義分割或傳統(tǒng)注意力機(jī)制的模型相比,MPLAN考慮了相鄰字符間的位置信息與全局語義信息,能夠順序捕獲字符位置信息,并關(guān)聯(lián)上下文語義信息,從而提升了識(shí)別精度.

表1 MPLAN與基準(zhǔn)模型的性能對(duì)比Table 1 Overall performance of MPLAN and baseline models

4.4 消融分析

本節(jié)通過消融實(shí)驗(yàn)評(píng)估不同模塊對(duì)模型總體性能的影響.為了公平起見,訓(xùn)練以及測(cè)試設(shè)置均相同.MPLAN的消融模型包括了MPLAN w/o RECT、MPLAN w/o LAPA、MPLANw/oLOCATION 這3個(gè)實(shí)驗(yàn).其中,MPLAN w/o RECT表示從MPLAN去除文本矯正網(wǎng)絡(luò),將原始圖像直接輸入到識(shí)別網(wǎng)絡(luò)中.MPLANw/oLAPA表示從MPLAN中去除位置關(guān)聯(lián)模塊和并行注意力模塊,僅采用Bi-LSTM進(jìn)行序列建模.MPLANw/oLOCATION表示去除位置關(guān)聯(lián)模塊,使用Transformer中的正余弦位置編碼進(jìn)行替換.

實(shí)驗(yàn)結(jié)果如表2所示,可以看出各模塊對(duì)MPLAN的整體性能均有提升作用.與MPLAN相比,MPLAN w/oRECT在數(shù)據(jù)集IIIT5K、SVT、IC13、IC15、SVT-P、CUTE上分別下降了0.7%,0.8%、0.6%、2.9%、2.7%、2.8%.上述結(jié)果表明文本矯正網(wǎng)絡(luò)可以將不規(guī)則文本調(diào)整為線性排列的規(guī)則文本,在一定程度上降低彎曲文本的識(shí)別難度.與MPLAN相比,MPLANw/oLAPA在數(shù)據(jù)集IIIT5K、SVT、IC13、IC15、SVT-P、CUTE上分別下降了0.7%,0.6%、0.9%、2.6%、0.6%、4.2%.上述結(jié)果表明使用Bi-LSTM進(jìn)行序列建模的效果不佳,因?yàn)锽i-LSTM為不同的特征分配相同的權(quán)重,使得模型難以識(shí)別到字符的有效區(qū)域,相反,結(jié)合位置關(guān)聯(lián)模塊和并行注意力模塊的序列建?？梢愿咝У捻樞蚨ㄎ蛔址挠行^(qū)域,為字符區(qū)域分配更高的權(quán)重.與MPLAN相比,MPLANw/oLOCATION在數(shù)據(jù)集IIIT5K、SVT、IC13、IC15、SVT-P、CUTE上分別下降了0.7%,0.8%、1.5%、2.4%、3.7%、3.8%.因?yàn)門ransformer中基于正余弦的位置編碼只學(xué)習(xí)特征的相對(duì)位置表征,無法隱式地學(xué)習(xí)序列特征的位置信息,相反,位置關(guān)模塊能在序列特征中順序捕獲相鄰字符間的位置信息,使得特征向量表達(dá)出空間位置特性,有助于提高序列特征與目標(biāo)字符的對(duì)齊準(zhǔn)確度.

表2 不同模塊對(duì)MPLAN性能影響Table 2 Effect of different modules on the performance of MPLAN

位置關(guān)聯(lián)模塊是本文提出的MPLAN模型的重要改進(jìn).為了進(jìn)一步驗(yàn)證位置關(guān)聯(lián)模塊的有效性,本文在當(dāng)前最先進(jìn)的自然場(chǎng)景文本識(shí)別模型ASTER模型中添加位置關(guān)聯(lián)模塊,觀察位置關(guān)聯(lián)模塊對(duì)ASTER模型的性能影響.ASTER模型由文本矯正網(wǎng)絡(luò)和注意力識(shí)別網(wǎng)絡(luò)組成,在文本識(shí)別階段采用Bi-LSTM進(jìn)行序列建模.由于Bi-LSTM存在難以準(zhǔn)確識(shí)別字符有效區(qū)域的問題,因此在ASTER模型添加位置關(guān)聯(lián)模塊用于順序定位字符有效區(qū)域,在相同實(shí)驗(yàn)參數(shù)設(shè)置下,實(shí)驗(yàn)結(jié)果如表3所示.從實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),在不規(guī)則文本數(shù)據(jù)集IC15、SVT-P和CUTE上,添加了位置關(guān)聯(lián)模塊的ASTER+LOCATION模型相較ASTER模型在精度上分別提升了5.2%、1.7%與3.8%.上述實(shí)驗(yàn)結(jié)果表明位置關(guān)聯(lián)模塊通過捕獲字符位置信息,能夠顯著提高序列特征與目標(biāo)字符的對(duì)齊準(zhǔn)確度,有效提高模型的識(shí)別性能,進(jìn)一步證明了位置關(guān)聯(lián)模塊的有效性.

表3 位置關(guān)聯(lián)模塊對(duì)ASTER模型的性能影響Table 3 Effect of location association module on the performance of ASTER

4.5 參數(shù)分析

本節(jié)通過實(shí)驗(yàn)分析MPLAN模型中的Transformer單元塊數(shù)量對(duì)MPLAN的性能影響.MPLAN在并行注意力模塊中,使用Transformer的處理單元并行編碼字符的全局語義信息,從而達(dá)到傳播字符上下文通信的作用.并行注意力模塊中Transformer單元塊的數(shù)量是影響MPLAN實(shí)驗(yàn)效果的重要參數(shù).表4給出了相同實(shí)驗(yàn)參數(shù)配置下,不同Transformer單元塊數(shù)量對(duì)MPLAN模型性能的影響.在包含常規(guī)文本、不規(guī)則文本在內(nèi)的6個(gè)測(cè)試數(shù)據(jù)集上,當(dāng)Transformer單元塊為2時(shí),獲取全局語義信息的效果最佳,識(shí)別精度最高,且在CUTE數(shù)據(jù)集上顯著高于其余兩個(gè)參數(shù)實(shí)驗(yàn),表明模型的穩(wěn)定性還有待提高.當(dāng)Transformer單元塊為1時(shí),存在無法有效捕獲長(zhǎng)距離依賴關(guān)系,使序列特征缺少完整的全局語義信息.當(dāng)Transformer單元塊為4時(shí),單元塊數(shù)過多導(dǎo)致引入了一些無關(guān)信息,賦予復(fù)雜背景過多的權(quán)重而錯(cuò)誤識(shí)別為字符前景.上述實(shí)驗(yàn)表明,在堆疊兩層Transformer處理單元時(shí),模型的性能最佳.

表4 不同Transformer單元塊對(duì)MPLAN性能影響Table 4 Effect of different number of transformer unit blocks on the performance of MPLAN

5 總結(jié)

本文認(rèn)為字符位置信息和全局語義信息對(duì)于自然場(chǎng)景下的文本識(shí)別是重要的.基于這一發(fā)現(xiàn),本文提出了一個(gè)并行位置關(guān)聯(lián)網(wǎng)絡(luò)用于解決文本識(shí)別問題.MPLAN將字符位置信息和全局語義信息相結(jié)合,從而獲得準(zhǔn)確的序列表征向量.為了有效定位字符的位置,MPLAN提出了一個(gè)位置關(guān)聯(lián)模塊來順序捕獲字符間的位置信息.在全局語義信息的獲取上,MPLAN采用了多路并行的思想,通過多通道并行獲取語義信息,有效建模目標(biāo)字符間的關(guān)聯(lián)信息.在包括規(guī)則文本和不規(guī)則文本在內(nèi)的6個(gè)公開數(shù)據(jù)集中,MPLAN都取得了最佳的識(shí)別精度效果,表明該算法明顯優(yōu)于現(xiàn)有算法.經(jīng)過驗(yàn)證,本文所提出的MPLAN在針對(duì)不規(guī)則文本數(shù)據(jù)集上表現(xiàn)出了魯棒性.在未來工作中,本文將會(huì)擴(kuò)展該方法來處理無明顯上下文信息的文本識(shí)別問題,將字符位置信息同更深層次的序列建模相結(jié)合也是值得研究的一個(gè)方向.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡