国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于錯誤糾正模塊的場景文本識別算法

2023-03-15 10:12:04于潔瀟張大壯
關鍵詞:解碼器注意力語義

于潔瀟,張大壯,何 凱

(天津大學電氣自動化與信息工程學院,天津 300072)

場景文本識別(scene text recognition,STR)一直是計算機視覺領域中一個重要的課題[1].近年來,STR因其在自動駕駛、機器人等領域的應用而受到廣泛關注.STR早期只能用于水平分布圖像的文本識別,近年來則主要關注于復雜的場景文本識別.后者中存在大量的遮蔽、扭曲等不規(guī)則情況,極大地增加了場景文本的識別難度.

現(xiàn)有的場景文本識別算法大致可以分為兩大類:非語義方法和語義方法.

(1) 非語義方法.大多數(shù)場景文本識別方法[2-4]是基于視覺信息實現(xiàn).例如,一些學者提出使用滑動窗口[2-3]或手動標記[5]的方式來識別場景文本圖像.后來,Jaderberg等[6]以圖像分類的形式來處理 STR問題.Shi等[7]在 CTC解碼器[8]之前采用卷積網(wǎng)絡和殘差網(wǎng)絡結合的方法來提取序列信息.Liao等[9]先利用語義分割算法將文本從背景圖像中分離出來,再進行識別.除此之外,有學者提出了基于 STR的空間矯正網(wǎng)絡.例如,Shi等[10]首先提出了基于薄板樣條(thin plate spline,TPS)的空間變換網(wǎng)絡,可將不規(guī)則圖像轉換成水平的規(guī)則圖像.在此基礎上,Zhang等[11]提出了一種消除透視失真的迭代機制.Chen等[12]提出了一種針對于場景文本識別的超分辨率模型.此外,部分學者提出采用不同的學習策略和訓練數(shù)據(jù)集來提高模型的識別精度.例如,Singh等[13]創(chuàng)建了TextOCR數(shù)據(jù)集,Baek等[14]將半監(jiān)督與自監(jiān)督的訓練方式相結合,來解決數(shù)據(jù)集多樣性不足的問題.

(2) 語義方法.為了提高場景文本識別器的性能,一些學者提出利用文本圖像中上下文相關性的語義方法.例如,Lee等[15]將圖像轉換成一維序列后,根據(jù)相鄰的時間步長引導文本識別器對圖像進行識別.Qiao等[16]通過訓練語義模型(semantics enhanced encoder-decoder,SEED)來指導全局信息的解碼過程.Litman等[17]通過增加解碼器的數(shù)量來強化解碼器對上下文信息的學習.此外,隨著Transformer[18]的廣泛使用,越來越多的學者傾向于采用注意力方法來提取圖像中豐富的語義信息.例如,Yang等[19]提出了一種基于雙向解碼的 Transformer解碼器,F(xiàn)ang等[20]在Transformer的基礎上實現(xiàn)了自然語言處理模型和計算機視覺模型的結合,但該方法大大增加了訓練成本.

現(xiàn)有方法(如 RNN或 LSTM)通?;谛蛄?,或者通過語義信息來監(jiān)督文本識別器的訓練,過于強調視覺的重要性,容易受到上下文語義信息的影響.鑒于從純文本中比從圖像中提取語義信息容易得多,本文提出了一個糾錯(error correction,EC)模塊,可直接修正文本識別器的識別結果.此外,提出了一個多特征(multi-feature,MF)提取器,可以從初始的圖像中提取空間和序列信息.

1 本文算法

不規(guī)則數(shù)據(jù)集中存在的視覺障礙是造成識別錯誤的關鍵因素.為此,本文提出了一個 EC模塊來糾正拼寫錯誤.EC模塊是一個基于文本的序列信息處理模塊,可通過派生詞來獨立訓練EC模塊的糾錯能力,有助于解決視覺障礙所帶來的負面影響.此外,現(xiàn)有 STR算法中僅采用 Resnet-45最后一個模塊的輸出來提取相關特征,容易忽略淺層 Resnet網(wǎng)絡中的信息,特別是場景文本圖像中所包含的空間特征信息.為此,提出了一個多特征提取器,其由 5個 MF單元構成,分別對應 Resnet-45的后 5個模塊,每個MF單元由注意力網(wǎng)絡和殘差網(wǎng)絡組成,以確保模型能夠提取足夠多的圖像特征信息.

與現(xiàn)有算法不同,所提算法屬于一個識別-糾錯的框架,具體如圖1所示.其中,STR識別器由 MF提取器和Transformer編解碼器構成.在識別STR圖像時,先采用 MF提取器來提取場景文本圖像特征,再利用文本識別器中的編解碼框架從特征圖中識別文本信息,最后使用EC模塊來糾正識別錯誤的字符.

圖1 模型整體識別-糾錯框架Fig.1 Overall recognition-correction framework of the model

STR識別器負責對圖像中的文本信息進行識別,其輸出為錯誤結果“roards”(真值為“boards”,其中,綠色表示結果預測正確,紅色表示預測錯誤),利用 EC模塊糾正該錯誤拼寫,最終獲得正確的輸出結果.

1.1 EC模塊

為了解決單詞中的個別字母識別錯誤的問題,提出了一種由記憶編碼器、注意力網(wǎng)絡和循環(huán)解碼器組成的 EC模塊,具體如圖2所示.其中,循環(huán)解碼器每一次解碼都會調用注意力網(wǎng)絡.記憶編碼器對輸入的文本(例:roards)進行編碼,并輸出一個輸出態(tài)(o0)和一個隱藏態(tài)(h0).每次解碼過程中,o0均會與權重矩陣(wi)相乘,生成語義特征圖(Si).解碼器從語義特征圖(Si)中解碼出當前位置字符;與此同時,GRU會生成一個新的輸出態(tài)(oi)和隱藏態(tài)(hi),并在下一次的循環(huán)解碼過程中通過注意力網(wǎng)絡生成新的權重矩陣.最終,利用權重矩陣與o0生成新的語義特征圖,并解碼出下個位置的字符.

圖2 EC糾錯模塊框架Fig.2 Framework of the EC correction module

(1) 記憶力編碼器.為了提高編碼器的性能,在EC模塊中增加了記憶編碼器,采用學習感知機來提高學習能力.同時,使用一個由雙向 GRU函數(shù)組成的 BiGRU序列來提高信息的存儲能力.在保留文本中相鄰字符的上下文信息的同時,提高了模型對整體文本的記憶能力.

如圖2所示,首先將文本識別器的結果通過嵌入詞向量編碼器,獲得詞向量.其中,M表示單詞的最大長度,D表示詞向量的維度.使用嵌入詞向量編碼器,可以使得模型在訓練過程中學到最合適的編碼方式.在減少人工編碼成本的同時,使得編碼方式更加適合模型任務.

(2) 注意力網(wǎng)絡.注意力網(wǎng)絡負責連接編碼器和解碼器.記憶編碼器和循環(huán)解碼器輸出的oi、hi拼接后進入注意力網(wǎng)絡中,最終計算出權重矩陣wi.

如圖3所示,本文注意力網(wǎng)絡由多個注意力單元和一個融合單元組成.每個注意力單元由線性層和激活函數(shù)組成.鑒于特征圖的通道數(shù)會隨著網(wǎng)絡深度的增加而增加,因此特征提取的精度會逐漸提高.不同注意力單元的特征圖維度不同,因此,在注意力單元之間添加 L變換器來平衡維度.L變換器在擴展上一級輸出特征圖維度的同時,可進一步減小注意力單元輸出到融合單元的特征圖維度.

圖3 注意力網(wǎng)絡框架Fig.3 Framework of the attention network

在傳遞過程中,注意力單元負責接收上一個注意力單元的特征圖;經(jīng)過維度變換和相關計算后,將輸出送到下一個注意力單元和融合單元.注意力網(wǎng)絡的整體過程可以表示為

式中:hi和oi分別表示編碼器或解碼器的第 i次循環(huán)的輸出;Attn表示注意力網(wǎng)絡;c1,c2,…,cn表示每個注意力單元的輸出;CAT表示拼接處理.與大多數(shù)場景文本識別算法通道數(shù)一致,注意力單元的第1層通道數(shù)設為 512.隨著注意網(wǎng)絡深度的增加,通道數(shù)也會相應增加.

在注意力網(wǎng)絡中采用自適應學習策略,可以保證各個注意力單元性能穩(wěn)定.每個注意力單元都被賦予一個可學習的參數(shù)(λk,k = 1 ,2,…,n),該參數(shù)通過在整體模型的梯度反向傳播中進行優(yōu)化,訓練后參數(shù)達到最優(yōu)值.融合過程為

式中初始參數(shù)kλ設為1.0.

根據(jù)式(3)和式(4),注意力機制網(wǎng)絡輸出權重矩陣wi,與o0相乘后得到語義特征圖Si.最終,循環(huán)解碼器可從Si中解碼得到糾錯后的文本.有兩種乘法策略可供選擇:普通乘法策略和殘差策略.其中普通乘法策略適用于注意力網(wǎng)絡相對較淺的情況,其計算式為

殘差策略適用于網(wǎng)絡層較深、注意力單元數(shù)量較多的情況,其計算式為

實驗表明,使用 2個注意力單元時,模型參數(shù)量性能最優(yōu),因此本文采取式(5)的乘法策略.

(3) 循環(huán)解碼器.不同于多數(shù)序列預測的文本識別器,EC模塊并非一次解碼出全部文本,而是采用了循環(huán)解碼策略,以充分提取相鄰字母之間的上下文信息.如圖2所示,在每次循環(huán)中,解碼器中的GRU 函數(shù)可根據(jù)Si計算出下一循環(huán)的oi+1和hi+1,利用 Linear線性函數(shù)和 Softmax分類器,從oi+1中計算出當前字符(Ci).在下一次循環(huán)中,注意力網(wǎng)絡根據(jù)oi+1和hi+1來計算wi+1,若當前位置不存在字符,則以null表示解碼完畢,最后,刪除‘null’即可得到糾錯后的文本.上述過程用公式描述如下.

與其他領域不同,場景文本識別的最終準確性取決于每一個字母的識別精度,而循環(huán)解碼策略可有效避免上述個別字符識別錯誤的情況.EC模塊采用帶有循環(huán)機制的 GRU編解碼框架,利用 GRU特性和循環(huán)機制可有效學習文本中的序列信息,最終根據(jù)上下文信息來糾正拼寫錯誤.例如:文本“roards”中只有字母‘b’被錯誤識別成了‘r’,類似的拼寫錯誤均可以使用EC模塊來進行有效糾正.

1.2 MF提取器

STR識別器可將場景文本圖像轉換為文本,這是一種由圖像到字符串的轉換.如圖4所示,文本識別器由 MF提取器和 Transformer編解碼器組成.在許多STR算法中,特征提取器僅由Resnet-45網(wǎng)絡組成,而MF提取器中包含有5個MF單元,分別連接Resnet-45的最后 5個模塊,每個 MF單元都可以視為一個注意力特征提取器.

圖4 采用MF提取器的STR框架Fig.4 STR framework with MF extractor

為了從圖像中獲得直觀的空間信息,將底層Resnet-45模塊輸出到淺層的 MF單元中,再利用各個MF單元從5個Resnet-45輸出模塊中學習特征信息.如圖4所示,MF單元由2個(卷積層-標準化層-激活層)序列和一個 Softmax分類器構成.利用殘差思想,將MF輸入和Softmax輸出的權重進行乘加操作,再使用拼接函數(shù)將5個MF單元的輸出拼接在一起,作為Transformer編解碼器的輸入.

與文獻[19]類似,Transformer編解碼器主要由多頭注意力機制組成,解碼器的數(shù)量影響模型的性能和參數(shù)量,本文選用3個Transformer編解碼器.

2 實驗結果與分析

2.1 數(shù)據(jù)集

為了驗證本文提出模型的有效性,選取 MJSynth(MJ)[6]、SynthText(ST)[21]、SynthAdd(SA)[22]為訓練數(shù)據(jù)集,選取 IIIT5k-words(IIIT5k)[23]、Street View Text(SVT)[2]、ICDAR2003(IC03)[24]、ICDAR2013(IC-13)[25]、ICDAR2015(IC15)[26]、CUTE80(CUTE)[27]、SVTP[28]等7個公共數(shù)據(jù)集作為測試數(shù)據(jù)集.

2.2 實驗環(huán)境以及參數(shù)

實驗選用2個NVIDIA 2080Ti圖形處理器.STR模型經(jīng)過 6個周期的訓練,批尺寸設為 146.為了在一個周期內讀取所有訓練數(shù)據(jù),一個批尺寸中的MJ、ST和 SA的比例設為 5∶4∶1.為公平起見,所有實驗均未采用數(shù)據(jù)增強,而是直接使用原始數(shù)據(jù)集進行訓練或測試.與大多數(shù) STR算法的參數(shù)設置相同,輸入圖像尺寸統(tǒng)一調整為:高32像素;寬100像素;初始學習率設為1.00,在第4個和第5個周期后衰減至 0.10和 0.01.由于 EC模塊主要關注語義信息,因此,本文實驗中忽略了特殊字符和標點符號.識別的字符類別總數(shù)為 36,其中包括 10個數(shù)字和26個小寫字母.

使用經(jīng)過干擾處理的派生詞訓練EC模塊,通過對 9×104個英文單詞隨機替換或添加字符來產(chǎn)生派生詞.在此機制下,一個單詞可對應多個派生詞(可以視作存在拼寫錯誤的單詞).利用這種多對一的映射關系來訓練 EC模塊的糾錯能力.此外,訓練數(shù)據(jù)中仍然保留了真值,以確保 EC模塊不會“糾正”原本正確的預測.當模型基本穩(wěn)定后終止訓練,該模型訓練約600個周期,批尺寸設為2000,初始學習率設為0.001.鑒于本文字符種類只有36個,詞向量維度設為10.

2.3 MF、EC有效性消融實驗

為了討論 MF提取器和 EC模塊對識別準確率的影響,選取了 7個公共數(shù)據(jù)集(IIIT5k、SVT、IC03、IC13、IC15、SVTP和 CUTE)進行測試,結果如表1所示.

表1 MF和EC對識別結果的影響Tab.1 Influence of MF and EC on the recognition results%

從表1中可以看出,采用MF提取器可有效提高模型的識別準確率.特別是在規(guī)則數(shù)據(jù)集(SVT)上,準確率從 88.3%提高到了 91.7%;在不規(guī)則數(shù)據(jù)集(SVTP)上,準確率也從78.4%提高到了83.9%.實驗結果證明了 MF提取器的有效性.與傳統(tǒng)的 Resnet-45相比,MF提取器能夠從不同深度的特征圖中提取信息,它不僅能夠提取圖像的深層細節(jié),還能夠學習圖像中初始的空間信息.當 STR模型性能不夠優(yōu)秀時,該機制可以獲得良好的效果.

此外,從表1中還可以看出,在使用EC模塊后,在 7個測試數(shù)據(jù)集上的準確率均有明顯提升.與僅使用 MF提取器的基礎模型相比,使用 EC模塊后,IC15的準確率提高了 1.6%,SVTP的準確率提高了1.4%,CUTE的準確率提高了 1.4%.不規(guī)則數(shù)據(jù)集中的各種形變、遮擋容易產(chǎn)生更多的字符識別錯誤,所以在不規(guī)則數(shù)據(jù)集上效果更加明顯.盡管低質量圖像導致的識別錯誤很難用現(xiàn)有的方法進行糾正,但使用 EC模塊仍然可以根據(jù)語義信息來實現(xiàn)有效的糾正.

表2展示了EC模塊對網(wǎng)絡識別性能的影響,幾張樣例圖像分別代表存在模糊、遮蔽、文本分布扭曲以及書寫不規(guī)范等視覺障礙.從表2中可以看出,未使用 EC模塊時,這些視覺障礙會產(chǎn)生識別錯誤,而使用EC模塊則可以有效糾正上述拼寫錯誤,證明了EC模塊的有效性.

表2 EC模塊對識別性能的影響Tab.2 Effects of the EC module on the recognition ability

2.4 參數(shù)選擇

為了討論 EC模塊中注意力網(wǎng)絡深度對網(wǎng)絡糾錯能力的影響,分別選取 IC15、SVTP、CUTE 3個不規(guī)則數(shù)據(jù)集進行測試,結果如圖5所示.可以看出,隨著注意力單元數(shù)量的增加,識別準確率逐漸提高;但當注意力單元數(shù)量過大時,準確率不再提高,甚至略有下降.綜合考慮,最終將注意力單元數(shù)設為n=2.

圖5 注意力單元數(shù)量對性能的影響Fig.5 Effects of the number of attention units on performance

2.5 EC模塊查全率、查準率以及FP值

為了進一步驗證 EC模塊的性能,將 STR問題看成 26類字母分類問題,在 7個公共數(shù)據(jù)集上,分別對使用 EC模塊前后的查全率、查準率以及FP(false positive)值進行了計算,其中FP值表示負樣本被識別成正樣本的個數(shù),平均結果如表3所示.從表3中可以看出:使用EC模塊后,查全率、查準率在7個數(shù)據(jù)集上均有提高,證明了 EC模塊可有效提升算法性能.FP值在使用EC模塊后均有所下降,進一步證明EC模塊的糾錯能力.

表3 查全率、查準率及FP對比結果Tab.3 Comparison results of recall,precision and FP

2.6 與當前算法對比實驗

為了驗證提出算法的有效性,將其與當前該領域的最新算法進行了比較,并在7個常用的場景文本識別測試集上進行了測試,結果如表4所示.為公平起見,ABInet采用與其他算法相同的數(shù)據(jù)集來進行訓練.從表4中可以看出,本文提出算法在數(shù)據(jù)集IIIT5k、SVT、IC03獲得了3個最高的準確率,并在數(shù)據(jù)集 IC13、IC15、SVTP、CUTE上取得了次高的準確率.實驗結果表明,該模型識別效果優(yōu)于當前最優(yōu)模型.此外,與其他具有語義模塊或新式監(jiān)督訓練方法模型,如:SEED[16]、ABInet[20]、TRBA-PR[14]等相比,所提出模型性能更優(yōu).其主要原因是傳統(tǒng)模型對語義信息不夠重視,往往將語義信息與視覺模型混合;雖然這一操作在一定程度上提高了文本識別器的性能,但在整體框架中,語義信息所占比例被大大削弱;然而,EC模塊獨立于視覺模型,在訓練過程中可直接從文本中學習語義信息,因此可以有效地糾正拼寫錯誤.

表4 不同算法識別效果對比Tab.4 Comparison of recognition effects of different methods %

3 結 語

本文提出了一個用于場景文本識別的 EC模塊與MF提取器.與大多數(shù)從視覺角度提取語義信息的模型不同,EC模塊可獨立地在純文本中進行訓練,可以保證獲得更加豐富的上下文信息.所提出的 EC模塊結構簡單,處理速度快,實用性強,可靈活應用于STR模型當中.此外,與傳統(tǒng)的Resnet-45特征提取器不同,MF提取器保留并學習了圖像的初始空間信息.實驗結果表明,所提出模型在 7個公共測試數(shù)據(jù)集上都取得了較好的效果.

設計具有糾錯能力的文本識別解碼器是今后一個值得嘗試的方向.在訓練場景文本識別器的同時,可通過訓練來不斷提高解碼器的糾錯能力.

猜你喜歡
解碼器注意力語義
讓注意力“飛”回來
科學解碼器(一)
科學解碼器(二)
科學解碼器(三)
語言與語義
線圣AudioQuest 發(fā)布第三代Dragonfly Cobalt藍蜻蜓解碼器
“揚眼”APP:讓注意力“變現(xiàn)”
傳媒評論(2017年3期)2017-06-13 09:18:10
A Beautiful Way Of Looking At Things
“上”與“下”語義的不對稱性及其認知闡釋
認知范疇模糊與語義模糊
岳普湖县| 保德县| 肃宁县| 彭泽县| 昔阳县| 昌黎县| 长宁县| 巍山| 太和县| 仁布县| 孝义市| 阜阳市| 淄博市| 郑州市| 塔城市| 克什克腾旗| 察雅县| 镇原县| 淮南市| 景德镇市| 邹城市| 东山县| 漳浦县| 浦东新区| 琼中| 松桃| 全南县| 岚皋县| 长乐市| 武威市| 奉贤区| 高陵县| 临海市| 赤水市| 陈巴尔虎旗| 鲁甸县| 收藏| 体育| 台湾省| 敦煌市| 彭州市|