羅昱成
(四川大學(xué)計算機學(xué)院,成都 610065)
文字是人從日常交流中語音中演化出來,用來記錄信息的重要工具。文字對于人類意義非凡,以中國為例,中國地大物博,各個地方的口音都不統(tǒng)一,但是人們使用同一套書寫體系,使得即使遠(yuǎn)隔千里,我們依然能夠通過文字進行無障礙的溝通。文字也能夠跨越時空,給予了我們了解古人的通道。隨著計算機的誕生,文字也進行了數(shù)字化的進程,但是不同于人類,讓計算機能夠正確地進行字符識別是一個復(fù)雜又艱巨但意義重大的工作。從計算機誕生開始,無數(shù)的研究者在這方面做了很多工作與嘗試,但面臨的困難艱巨。
主要面臨的困難是:(1)場景復(fù)雜變化很大;(2)字體形態(tài)顏色多變;(3)光照條件變化大;(4)文字排列方式不確定;(5)文本行與文本行之間的距離,大小格式,字體變化大。
近年來,深度學(xué)習(xí)的引入,使得在我們在復(fù)雜場景下進行字符識別都達(dá)到了更高的水平。本文希望對場景文字識別的成果進行梳理、分類和對比,進而分析領(lǐng)域發(fā)展趨勢。
首先,我們將識別問題定義為,將原始圖片中只包含一個單詞或者只包含一行單詞的文本的部分切割出來,接著將這個切割的小圖片中的字符通過設(shè)計的算法提取出來。
傳統(tǒng)的方法將這個問題又切割為三部分,預(yù)處理、字符分割和字符識別。對于背景比較復(fù)雜的場景,字符切割是一個很艱巨的任務(wù)。為了避免將字符進行切割,主要通過兩個技術(shù)來進行改進,一個是CTC[13],一個是基于注意力機制的序列到序列模型[1,18]。
深度學(xué)習(xí)為文本行識別帶來了端到端方法,無須像傳統(tǒng)方法那樣進行大量預(yù)處理和手工設(shè)計特征。我們主要將深度學(xué)習(xí)文本行識別的方法分為三個部分,一是矯正部分,二是特征提取部分,三是序列轉(zhuǎn)化部分。
矯正部分主要源于STN[4],STN通過預(yù)測圖像的形變矩陣,再在原圖上進行重采樣的方式,可以在無須額外標(biāo)注數(shù)據(jù)的情況下,對輸入圖片進行矯正。而在文本檢測任務(wù)中,更常使用的是TPS-STN[6,8]。TPS-STN包括三個步驟。一是定位網(wǎng)絡(luò)定位控制點,二是計算形變矩陣計算出重采樣?xùn)鸥?,三是在原圖上重采樣。
(1)定位網(wǎng)絡(luò)
首先使用定位網(wǎng)絡(luò)定位K個控制點,預(yù)測字符串出現(xiàn)在原圖中中的位置。定位網(wǎng)絡(luò)是一個獨立的網(wǎng)絡(luò)模塊,包括卷積層和全連接層,最后的全連接層的輸出通道為2*K,對應(yīng)輸出K個控制點的坐標(biāo)。同時最后一層的激活函數(shù)為tanh,將輸出坐標(biāo)的值映射到到-1到1之間。
(2)柵格獲取
接著根據(jù)預(yù)測到的k個控制點,計算變形后的柵格與原圖對應(yīng)位置之間的關(guān)系,得到一個映射矩陣,根據(jù)映射矩陣將變形后柵格中的點對應(yīng)到原圖。最后使用雙線性插值在構(gòu)造新的變形圖片。
(3)重采樣
最后,在已知采樣?xùn)鸥竦那闆r下,在原始圖片上進行雙線性插值,用以計算,柵格中對應(yīng)位置的像素值,最后重采樣得到經(jīng)過矯正后的圖像。經(jīng)過TPS-STN模塊可以使一些彎曲,或發(fā)生透視形變的文本得到比較好的矯正。將矯正模塊獨立分出,能夠有效提高整個端到端系統(tǒng)的精確度。
特征提取方法主要分為兩個部分,第一部分是圖像特征提取,第二部分是序列特征提取。
圖像特征提取通常使用卷積神經(jīng)網(wǎng)絡(luò)進行特征學(xué)習(xí),由于字符識別相較于物體分類的不同,通常不會完全照搬分類網(wǎng)絡(luò)來直接進行圖形特征提取,會在分類網(wǎng)絡(luò)的基礎(chǔ)上為了適應(yīng)目標(biāo)任務(wù)的改進。文獻(xiàn)[5]提出了使用類似VGG[15]網(wǎng)絡(luò)的多個堆疊卷積來進行特征提取。文獻(xiàn)[9]提出使用GRCNN來進行特征提取,GRCNN從GRU[18]中獲得靈感,減少參數(shù)的同時使得CNN擁有類似RNN的能力。文獻(xiàn)[8]提出使用了更先進的ResNet[16]來對圖像進行特征提取,ResNet能夠很好地提取圖像中的特征信息。最新的論文通常都為卷積核配備了BN模塊,BN模塊在使用少量參數(shù)的情況下,能夠有效地解決梯度消失和提供正則化的效果。
由于卷積神經(jīng)網(wǎng)絡(luò)會受到感受野的限制,因此提出了需要使用序列特征提取模型對特征進行建模,學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)提取到的圖像特征之間的上下文關(guān)系。文獻(xiàn)[5,8,9]使用了Bi-RNN[17]模塊來學(xué)習(xí)序列特征,文獻(xiàn)[14]提到由于RNN訓(xùn)練的困難性,以及RNN無法并行的問題,使用了多個堆疊的卷積核來對序列特征進行建模。
序列轉(zhuǎn)化的任務(wù)主要是將前面得到的特征序列轉(zhuǎn)化為最后輸出的字符串序列。主要使用的序列轉(zhuǎn)化方法包括兩種。一種是CTC[13],一種是基于注意力機制的seq2seq模型。CTC模型根據(jù)特整體輸出的在詞典中所有單詞的概率分布序列定義了一種給定序列,是標(biāo)簽序列的條件概率,并忽略中每個標(biāo)簽的位置,避免為單獨字符標(biāo)注位置。而基于注意力機制的seq2seq模型是基于Encoder-Decoder的網(wǎng)絡(luò)結(jié)構(gòu),包括Encoder和Decoder兩個模塊,Encoder將CNN提取出的特征序列轉(zhuǎn)換為固定長度的語義向量,Decoder在將這個語義向量表示轉(zhuǎn)化為輸出序列,使得模型可以學(xué)習(xí)到在一個可變序列的條件下生成另一可變序列的轉(zhuǎn)換,同時也定義對應(yīng)的條件概率。
(1)CTC
CTC方法將輸出改率分布序列y=(y1,y2,…,yn)解釋為可能的標(biāo)簽序列上的條件概率。標(biāo)簽空間為所有可能輸出字符(如阿拉伯?dāng)?shù)字和英文字母),以及引入的空白字符{blank}。通過引入空白空字符可以解決兩個問題,第一個問題是則對于序列π對應(yīng)的條件概率為:
其中,t表示第t個神經(jīng)網(wǎng)絡(luò)輸出的序列,n表示共有n個輸出步驟。表示在步驟t中出現(xiàn)標(biāo)簽πt的概率。為了計算給定x的條件下輸出Y的概率,CTC會枚舉所有可能的對齊方式然后把這些概率累積起來。然后多對一映射到B,以將序列π轉(zhuǎn)換為更短的序列,作為最終的預(yù)測。將重復(fù)的連續(xù)標(biāo)簽合并為單個標(biāo)簽,然后刪除空白標(biāo)簽。例如,序列“-hhe-l-ll-o”映射為“ hello”,其中“-”代表空白。
一般而言,對于給定的序列,存在大量的映射路徑。因此,公式中的和的計算是耗時的。為了解決這個問題,通常使用基于動態(tài)規(guī)劃的前向算法來高效地計算條件概率。
(2)基于注意力機制的序列到序列方法
基于注意力機制的序列到序列方法首先基于序列到序列的方法,序列到序列方法是一種將一串序列輸入轉(zhuǎn)化成另一種規(guī)則的序列輸出的方法,被廣泛使用在語音識別,自然語言處理,特別是機器翻譯中。序列到序列方法包括兩個結(jié)構(gòu),一個是Encoder模塊,一個是Decoder模塊。Encoder模塊通常由LSTM[17]或者GRU[18]實現(xiàn),將序列的輸入O(o1,o2,…,on)轉(zhuǎn)化為一個包含上下文信息的張量c。而Decoder模塊接受張量c,并輸出目標(biāo)序列T(t1,t2,…,tm)。
基于注意力機制的序列到序列方法,在Encoder-Decoder方法的基礎(chǔ)上增加了注意力模塊。在Encoder對數(shù)據(jù)進行編碼的過程中,接受序列s輸入O(o1,o2,…,on),輸出序列H(h1,h2,…,hn),同時輸出編碼上下文信息后的張量c。注意力模塊結(jié)構(gòu)出每一個步驟的注意力分布α,使用注意力分布從輸出序列H(h1,h2,…,hn)中得到一個新的信息張量g,將信息張量g送入Decoder模塊進行解碼,通過softmax函數(shù)得到預(yù)測標(biāo)簽,并重復(fù)使用注意力模塊和Decoder模塊進行解碼操作,直到輸出完畢。
表1
IIIT5000K[19]:該數(shù)據(jù)集具有從互聯(lián)網(wǎng)收集的3000個裁剪的測試詞圖像和2000個裁剪的訓(xùn)練圖像。每個圖像具有50個單詞的詞典和1000個單詞的詞典。
SVT[20]:包含從Google街景收集的戶外街景圖像。這些圖像中有些是嘈雜的、模糊的或低分辨率的。SVT由257張訓(xùn)練圖像和647張評估圖像組成。
ICDAR 2003(IC03)[21]:IC03包含用于訓(xùn)練的1,156張圖像和用于評估的1,110張圖像。忽略所有太短(少于3個字符)或包含非字母數(shù)字字符的單詞,會將1,110張圖像減少到867張。
ICDAR2013(IC13)[22]:繼承了IC03的大部分圖像,也是為ICDAR 2013比賽而創(chuàng)建的。它包含848幅用于訓(xùn)練的圖像和1,095幅用于評估的圖像,其中具有非字母數(shù)字字符的修剪詞可生成1,015幅圖像。
ICDAR2015(IC15)[23]:是為 ICDAR 2015 比賽而創(chuàng)建的,其中包含4,468張用于訓(xùn)練的圖像和2,077張用于評估的圖像。這些圖像是在佩戴者自然運動的情況下由Google眼鏡捕獲的。因此,許多噪聲,模糊和旋轉(zhuǎn),還有一些分辨率較低。
SVTP[24]:SVTP中的圖像是從Google街景視圖中的側(cè)視圖圖像中拾取的。它們中的許多由于非正面視角而嚴(yán)重變形。數(shù)據(jù)集包含639張裁剪的圖像進行測試,每個圖像都帶有從SVT數(shù)據(jù)集中繼承的50個單詞的詞典。
文本行識別評價標(biāo)準(zhǔn)主要有兩種方法,一種是基于字符級別的正確率,對于一段字符串,會計算預(yù)測字符串和標(biāo)簽字符串的編輯距離,用以計算字符級別的正確率。一種是文本行級的正確率,只有整行文本行都預(yù)測正確,才會將該樣本算作正例,目前的算法通常采用文本行的正確率作為評估標(biāo)準(zhǔn)。
性能評估上,主要考慮預(yù)測模型對于單張圖像的平均預(yù)測時間。當(dāng)然,網(wǎng)絡(luò)模型的參數(shù)量也是一項重要的性能評估標(biāo)準(zhǔn)。
近年來,由于深度學(xué)習(xí)的引入,使得場景字符識別問題用更簡單直接的方式得到了更好的解決,但是對于很多特殊場景(如:曲線場景等)還不能完美的解決,最新的方法也在往這些方向努力。同時深度學(xué)習(xí)的可解釋性也是困擾學(xué)術(shù)界和工業(yè)界的巨大難題,如果不能夠合理合適的解釋深度學(xué)習(xí)技術(shù),我們就沒有辦法很好地將這項技術(shù)應(yīng)用到安全要求極高的場景中,因為目前的方法很容易通過細(xì)微的修改圖像個別像素值而對整個方法的結(jié)果造成干擾。