郭 闖,邱曉暉
(南京郵電大學(xué) 通信與信息工程學(xué)院,江蘇 南京 210003)
自然場景中包含豐富的文本信息,這些信息在工業(yè)自動化、智能圖像檢索、機(jī)器人導(dǎo)航、無人汽車等眾多領(lǐng)域有著重要的意義,因而高效準(zhǔn)確的文本檢測方法成為計算機(jī)視覺領(lǐng)域備受關(guān)注的研究內(nèi)容。但是自然場景中的文本在尺度、方向、光照、字體、顏色等方面嚴(yán)重影響了文本檢測的準(zhǔn)確率。所以自然場景文本檢測被認(rèn)為是在文本分析領(lǐng)域中最有價值的挑戰(zhàn)之一,受到了廣泛的關(guān)注[1-3]。盡管前人在文本檢測和文本識別的工作中取得了不錯的進(jìn)展,但是由于文本模式的差異和背景的高度復(fù)雜性,文本識別仍然是一個巨大的挑戰(zhàn)。
現(xiàn)在一般將場景文本閱讀分為文本檢測和文本識別兩部分,分別作為兩個獨立的任務(wù)進(jìn)行研究處理[4-5]。在文本檢測中,通常使用卷積神經(jīng)網(wǎng)絡(luò)從場景圖像中[6-8]提取特征,然后使用不同的解碼器對區(qū)域進(jìn)行解碼[9]。文本檢測作為文本識別的前提,在整個文本信息提取和理解過程中起著重要的作用。文本檢測的核心是設(shè)計文本與背景的特征區(qū)分,傳統(tǒng)基于深度學(xué)習(xí)的算法大致分為三類,第一類是直接從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)有效的特征[10-12],第二類是根據(jù)像素連通域分類學(xué)習(xí)[13-14],第三類是特征融合進(jìn)行學(xué)習(xí)[15-16]。雖然這些方法很優(yōu)秀,但是在某些特定的場景下,對于感受野不都長的文本檢測,效果不是很好。為解決感受野不足的問題,文中選取目前檢測效果較為優(yōu)秀的EAST算法作為基礎(chǔ)算法,改進(jìn)網(wǎng)絡(luò)結(jié)構(gòu),增大感受野,從而改進(jìn)文本檢測算法的性能。
EAST不同于傳統(tǒng)的文本檢測方法[10]和一些基于深度學(xué)習(xí)的文本檢測方法,它的貢獻(xiàn)在于提出了端到端的文本定位方法,消除了中間多個stage,直接預(yù)測文本行。EAST只有兩個階段。該算法使用全卷積網(wǎng)絡(luò)(FCN)模型[17]直接生成單詞或文本行級別預(yù)測,剔除冗余和慢速中間步驟。生成的文本預(yù)測(可以是旋轉(zhuǎn)的矩形或四邊形)被送到非最大抑制算法(NMS)[18]中以產(chǎn)生最終結(jié)果。根據(jù)標(biāo)準(zhǔn)基準(zhǔn)的定性和定量實驗,與現(xiàn)有的方法相比,該算法顯著增強了性能,同時運行速度更快。
EAST網(wǎng)絡(luò)可以分解為三個部分(如圖1所示):特征提取、特征合并和輸出層。
圖1 算法流程
特征合并:
(1)
(2)
輸出層:包含若干個conv1×1操作,以將32個通道的特征圖投影到一個通道的分?jǐn)?shù)特征圖Fs和一個多通道幾何特征圖Fg。
幾何形狀圖可以是RBOX或QUAD中的任意一種,如表1所示。
表1 輸出幾何設(shè)計
其中,RBOX的幾何形狀由4個通道的水平邊界框(AABB)R和一個通道的旋轉(zhuǎn)角度θ表示;AABB4個通道分別表示像素位置到矩形的頂部,右側(cè),底部,左側(cè)邊界的4個距離;QUAD使用8個數(shù)字來表示從矩形的四個頂點到像素位置的坐標(biāo)偏移,由于每個距離偏移量都包含兩個數(shù)字(Δxi;Δyi),因此幾何形狀輸出包含8個通道。損失函數(shù)公式為Loss:
L=Ls+Lgλg
(3)
其中,Ls和Lg分別表示該像素是否存在文字(score map)以及IoU和角度(genmetry map)的損失,λg表示兩個損失之間的重要性。原文的實驗中將λg設(shè)置為1。
目前的方法中,多數(shù)在訓(xùn)練圖像通過均衡采樣和hard negative mining以解決目標(biāo)的不均衡分布問題,這樣做可能會提高網(wǎng)絡(luò)性能。然而,使用這種技術(shù)不可避免地引入一個階段和更多參數(shù)來調(diào)整pipeline,這與EAST算法的設(shè)計初衷相矛盾。為了簡化訓(xùn)練過程,文中使用類平衡交叉熵(用于解決類別不平衡,β=反例樣本數(shù)量/總樣本數(shù)量),公式如下:
(4)
(5)
Lg幾何圖損失又分為兩部分,一部分為IoU損失,一部分為旋轉(zhuǎn)角度損失:
(6)
(7)
Lg=LAABB+λθLθ
(8)
在卷積神經(jīng)網(wǎng)絡(luò)中,感受野的定義是卷積神經(jīng)網(wǎng)絡(luò)中的每一層輸出的特征圖上的像素點在輸出圖上映射的區(qū)域大小。EAST算法可以處理的文本實例的最大大小與網(wǎng)絡(luò)的感受野成正比。這限制了網(wǎng)絡(luò)預(yù)測長文本區(qū)域的能力,例如跨越圖像的文本行。文本具有很強的連續(xù)字符,其中連續(xù)的上下文信息對于做出可靠決策很重要。在CPTN算法中,把一個完整的文本框拆分成多個小文本框集合,通過BLSTM[19]對過去或未來的信息進(jìn)行學(xué)習(xí)和預(yù)測。因為一個小文本框,對于它的預(yù)測,文中不僅與其左邊的小文本框有關(guān)系,而且還與其右邊的小文本框有關(guān)系。當(dāng)參考這個框的左邊和右邊的小框的信息后,再做預(yù)測就會大大提高準(zhǔn)確率。所以,可以根據(jù)CPTN[20]的思想,在EAST算法中加入BLSTM網(wǎng)絡(luò),理論上可以擴(kuò)大算法本身的感受野。
文中算法的主要步驟如下:
(1)在特征提取層抽出不同的特征。
(2)將抽出的特征層從后向前做上采樣,然后進(jìn)行特征融合。
(3)在特征融合之后加入BLSTM網(wǎng)絡(luò)。
(4)將步驟(3)后的結(jié)果輸入到輸出層,最終輸出一個score map和8個坐標(biāo)的信息。
使用resnet-50網(wǎng)絡(luò)模型作為預(yù)訓(xùn)練模型,使用ADAM優(yōu)化器對網(wǎng)絡(luò)進(jìn)行端到端訓(xùn)練。為了加快學(xué)習(xí)速度,從圖像中均勻采樣512×512大小的特征圖,經(jīng)過旋轉(zhuǎn)、平移等處理后,以每個batch size等于16開始訓(xùn)練。ADAM的學(xué)習(xí)率從1e-3開始,每10 000批次衰減十分之一,訓(xùn)練次數(shù)到模型較優(yōu)為止。
使用的數(shù)據(jù)集是ICDAR2013和ICDAR2015數(shù)據(jù)集,以ICDAR2015為例,它是ICDAR 2015魯棒性比賽的挑戰(zhàn)4,該挑戰(zhàn)通常面向自然場景的文本定位。該數(shù)據(jù)集包括1 000幅訓(xùn)練圖片和500張測試圖片。這些圖片是不考慮位置任意拍攝的,其中的場景文本可以是任意方向的。它的檢測難點在于它的文字旋轉(zhuǎn)性。
將文中算法與其他算法在ICDAR2015數(shù)據(jù)集上進(jìn)行比較,結(jié)果如表2所示。
表2 文中算法與其他算法的比較
從表2中可以看出,在準(zhǔn)確率和召回率方面,相較于原論文的結(jié)果都有一定的提高。
該算法在EAST的基礎(chǔ)上引入了BLSTM網(wǎng)絡(luò),改善了網(wǎng)絡(luò)感受野。和經(jīng)典EAST算法相比,準(zhǔn)確率和召回率均有提高,和其他優(yōu)秀算法相比,綜合性能均有提高。