陳 旸 趙爾敦 吳 靖
(華中師范大學計算機學院 武漢 430079)
隨著手機、平板等可拍照工具的普及,生活中包含文本的自然場景圖片數(shù)量迅速增加,檢測圖片中的文本信息有著巨大的潛在價值。因此自然場景文本檢測在商品推薦、自動駕駛、視覺障礙輔助等應用方向上受到越來越多的關注。相較于傳統(tǒng)的印刷文檔文本檢測[1~2],自然場景文本檢測存在背景復雜、文字與背景對比度低、光照不均、文字區(qū)域分布不一等問題,因此它仍然存在挑戰(zhàn)。為此,許多學者提出了自己的研究方法?,F(xiàn)有的自然場景的文本檢測方法大致可以分為兩大類,基于傳統(tǒng)特征的方法[3]和基于深度學習的方法[4]。
基于傳統(tǒng)特征方法又可以分為兩類:基于連通域分析的方法和基于滑動窗口檢測的方法?;谶B通域分析的方法之一是基于筆畫寬度變化算法(SWT)[5],該算法主要根據(jù)文本的筆畫寬度性質來獲取文本候選區(qū)域。利用SWT 算法可以提取出多尺度多方向的文本候選區(qū)域,但是當圖片邊緣不明顯或者圖片場景復雜時其魯棒性較差。另一種基于連通域的文本檢測方法是最大穩(wěn)定極值區(qū)域(MSER)方法[6],該算法的原理是對圖像進行二值化處理,在一個全黑到全白的處理過程中,連通域面積隨閾值變化很小的區(qū)域為最大穩(wěn)定極值區(qū)域,該區(qū)域即為文本候選區(qū)域。在處理復雜的場景圖片上MSER 方法有不錯的文本檢測性能,但是在處理低對比度圖像時魯棒性較差。基于滑動窗口檢測方法[7]通常采用多尺度滑動窗口對圖像進行掃描以獲得文字候選區(qū)域,然后根據(jù)手工特征來對文字候選區(qū)域進行分類,判斷是否為文本。
雖然這些傳統(tǒng)的文本檢測方法取得了一些效果,但是在自然場景下,文本圖像通常具有遮蔽物多、文本背景對比度低、光照不一等特點,導致這些基于傳統(tǒng)特征的方法存在檢測能力不足、魯棒性不夠好的問題。因此,基于深度學習的文字檢測方法近年來已經(jīng)成為自然場景文本檢測研究中的主要方法。
不同于傳統(tǒng)的人工特征分類器方法,深度學習方法可以通過自主學習將低層特征組合成抽象的高層屬性特征,這樣避免了繁瑣的人工提取特征的過程,而且提高了準確性。在基于深度學習的自然場景文本檢測方法中,基于圖像分割的方法和基于文字區(qū)域邊框回歸方法應用得十分廣泛。在基于圖像分割的文字檢測方法中,常見算法是用全卷積網(wǎng)絡(FCN)[7]在像素級別進行文字背景分類,然后經(jīng)過復雜的后處理獲得文本區(qū)域,該方法在檢測多方向自然場景文本中效果顯著,但是需要的計算量比較大。另一種主要的深度學習方法是基于文字區(qū)域邊框回歸的方法,這類方法一般在圖象上提取很多文字候選區(qū)域,然后通過分類網(wǎng)絡對文字候選區(qū)域進行分類,同時訓練回歸網(wǎng)絡對候選區(qū)域位置進行精調(diào),比較常見的如Faster R-CNN[8],CTPN[9],Text Box[10]等,這種方法在復雜的自然場景文本上能取得非常不錯的效果。
然而以上這些深度學習方法都忽略了候選文本區(qū)域之間關系,因而未能把文本區(qū)域的關系特征加入到檢測網(wǎng)絡中。文獻[11]中提出了一種不改變其他層,可以方便插入基于注意力的目標關系模型,使關系模型能夠被方便應用于其他網(wǎng)絡中。Han Hu[12]等的論文在多目標檢測中也證明了將目標間關系引入網(wǎng)絡模型中會對目標檢測產(chǎn)生直接的增益效果。
本文針對場景文本檢測問題,在深度學習方法的基礎上,結合注意力機制中的關系模型,提出了一種基于關系模型的自然場景文本檢測方法。本方法先利用自動設置錨檢測的卷積神經(jīng)網(wǎng)絡來提取文字候選區(qū)域的特征,然后利用關系模型結合文字候選區(qū)域之間的關系,從而可以準確提取文字區(qū)域。該方法在ICDAR2013 和ICDAR2015 數(shù)據(jù)集上的實驗結果表明,與其他方法比較,本文提出的算法能取得更好效果,并表現(xiàn)出優(yōu)良的魯棒性。
本文設計的基于關系模型的深度學習網(wǎng)絡結構如圖1所示。
圖1 自然場景文本檢測網(wǎng)絡結構圖
該模型主要包括如下四個部分:
1)特征提取網(wǎng)絡(FEN):本模型采用Resnet[13]結合FPN網(wǎng)絡結構為基礎網(wǎng)絡來提取圖像特征圖。
2)候選區(qū)域生成網(wǎng)絡(SRPN):用特征提取網(wǎng)絡提取的特征圖作為輸入,通過錨自生成網(wǎng)絡學習配置錨,然后通過候選區(qū)域生成網(wǎng)絡檢測生成文本候選區(qū)域。
3)感興趣區(qū)域池化(ROI pooling):通過ROI 策略將上一步得到的對應候選區(qū)域的特征轉為固定寬高,提供給后續(xù)網(wǎng)絡進行分類和回歸。
4)基于關系模塊的增強全連接層:用來增強輸出特征,通過訓練關系模型得到關系模型權重,然后融合關系模型得到的特征和圖片原有特征,最后輸入分類和回歸網(wǎng)絡中,得到最終文本區(qū)域。
本文的特征提取網(wǎng)絡使用ResNet101 作為骨干網(wǎng)絡結合FPN[14]特征金字塔來提取特征圖,如圖1 所示。首先,通過ResNet 網(wǎng)絡可以輸出特征金字塔{C2,C3,C4,C5},它們的尺寸與輸入圖像尺寸的比例為{1/4,1/8,1/16,1/32}。把高層特征進行兩倍上采樣(最鄰近上采樣法),然后將其和對應的前一層特征結合(前一層要經(jīng)過1 * 1 的卷積核才能用,目的是改變channels,和后一層的channels相同),結合的方式是做像素間的加法。例如在C5上進行1 * 1 卷積降通道得到P5。將P5 兩倍上采樣結果與C4 的1*1 卷積對應特征圖結合(對應像素相加)得到P4。將迭代融合產(chǎn)生的特征圖P1-P5再進行3*3 卷積消除上采樣效應得到了特征金字塔{P2,P3,P4,P5}。然后,P5 經(jīng)過MaxPooling 得到P6,這僅用在SRPN 中應對尺度特別大的情況。這樣能針對不同尺度的特征圖進行處理,獲取結合了底層特征和高層特征的特征圖。因此,可以適應不同尺度文本候選區(qū)域。
2.2.1 錨自生成模塊
候選區(qū)域生成網(wǎng)絡(SRPN)的具體流程是將FEN 中輸出的特征圖先進行3 * 3 掃描,然后使用兩條并行的1 * 1 卷積操作,分別用于產(chǎn)生前背景分類和框位置回歸。前背景分類與框位置回歸是在錨(anchor)的基礎上進行。先定義一些框,然后在SRPN 中基于這些框進行調(diào)整。Faster R-CNN通常會預設不同尺度,不同寬高比率的錨來密集地掃描全特征圖,進行后處理獲得候選區(qū)域,但是存在一些問題。
為此,很多學者針對錨的設置進行了研究,文獻[15]提出了一種在目標檢測中能預測非固定、任意形狀錨的方法,并證明其在目標檢測中具有增益的效果。本文的候選區(qū)域生成網(wǎng)絡也是通過加入錨自生成模塊,能獲取稀疏的、更符合文本特征寬高比例的錨,借此用來獲取候選文本區(qū)域。
本文設計的錨自生成模塊參照文獻[15],如圖2 所示。錨自生成模塊分為兩個分支,一個是錨生成分支,用來預測錨的位置和大小,另一個是特征映射分支,用于生成配置錨的檢測文本候選區(qū)域的特征圖。
圖2 錨自生成模塊設計
錨自生成分支中又分為了兩個子分支,一個錨位置預測子分支NL,對輸入大小W×H的特征圖經(jīng)過1*1 的卷積得到W×H×1 的目標得分圖,然后經(jīng)過Sigmoid函數(shù),可以得到每個位置的置信度,其值代表目標物的中心位于該位置的概率,用于預測錨的中心區(qū)域。另一個為錨形狀預測子分支NS,輸入特征圖通過一個1*1 的卷積網(wǎng)絡輸出同分辨率的雙通道特征圖,預測錨的寬度w 和高度h。在特征映射分支NT中,首先用錨形狀預測分支中獲得的錨寬和高,通過1×1 卷積對每個位置預測寬高偏移量offset,形成一個偏移場。然后根據(jù)該偏移場offset field 進行3×3 的可變形卷積[16],利用原始的特征圖結合offset 獲得了錨自適應映射特征圖【Fl'】。
SRPN 網(wǎng)絡模型(圖1)的訓練損失由四部分構成,錨自生成模塊中錨位置預測子分支損失(αLloc),錨自生成模塊中錨形狀預測子分支損失(βLshape),RPN Class 部分分類損失(Lcls),RPN Box部分回歸損失(Lreg),其總體損失構成如式(1)所示:
2.2.2 RPN Class網(wǎng)絡與RPN Box回歸
在區(qū)域建議網(wǎng)絡RPN(Region Proposal Net-work)Class 網(wǎng)絡中,對得到的候選區(qū)域進行正負樣本的分類,與Faster R-CNN 相同。正樣本包括:與訓練標簽中的ground truth 框之間的交并比(IOU)最大的錨對應候選區(qū)域且與任意ground truth框交并比大于0.7的候選區(qū)域。負樣本則包括其他候選窗口中與ground truth 框交并比小于0.3的錨對應候選區(qū)域。其他剩余的候選區(qū)域則直接排除。
訓練時,SRPN 中候選區(qū)域分類置信度損失函數(shù)采用二分類交叉熵,如式(2)所示,其中y 為標簽0或者1,p為模型預測輸出的置信度。
SRPN 的RPN box 回歸損失采用的與Faster R-CNN一致,如式(3)所示:
SRPN 網(wǎng)絡提取出的候選區(qū)域大小是變化的,而Faster R-CNN 后續(xù)的分類和文本邊界框回歸用的全連接層的輸入必須固定長度,因此本文使用ROI Pooling來解決。ROI Pooling具體操作如下:
1)根據(jù)輸入圖像,將ROI映射到特征圖對應位置;
2)將映射后的區(qū)域劃分為相同大小的切片,切片數(shù)量與輸出的維度相同;
3)對每個切片進行Max Pooling操作。
這樣我們就可以從不同大小的候選區(qū)域得到固定大小的特征圖,最后將固定尺寸的包含候選區(qū)域的特征圖分別送入兩條全連接層支路進行分類和回歸。
本文采用如圖3 所示的關系模型[11]來建立候選區(qū)域目標之間的關系,以提高文本檢測的效果。關系模型以注意力形式將關系特征融合進原有的特征中,用于分類和回歸。
圖3 關系模型示意圖
目前注意力模型在自然場景文本檢測中逐漸得到應用[18]。注意力機制(Attention)粗略來說是根據(jù)預設的查找(Query)和鍵值表(Key-Value Pairs),計算其相關程度(關系)來將Value映射到正確的輸出的過程。Attention的計算過程如下:
1)計算比較Query 和所有假設n 個Key 之間的關系相似度f,這可以表示為點乘:
2)將得到的相似度進行Softmax 操作,歸一化得到查詢和對應鍵的權重:
3)針對計算出來的關系權重,對所有的Value進行加權求和計算,得到Attention Value向量:
Attention 機制采用Scaled Dot-Product Attention 模型和Multi-head Attention 模塊[11]進行上述計算。
ICDAR2013 和ICDAR2015 是自然場景文本檢測的常用數(shù)據(jù)集,本文在兩種數(shù)據(jù)集上驗證基于關系模型的場景文字檢測方法。ICDAR2013 總共462張圖片,分為229張訓練圖片,233張測試圖,該數(shù)據(jù)集涵蓋了不同尺寸,不同光照,不同顏色的文本圖像。ICDAR2015 總共1500 張圖片,分為1000張訓練圖片,500 張測試圖,該數(shù)據(jù)集拍攝的終端不一,有相當部分來自于手機,分辨率非常低,背景十分復雜。本文在兩個數(shù)據(jù)集上,對基于關系模型的深度學習網(wǎng)絡模型進行了實驗,部分檢測效果如圖4 所示,從視覺檢測效果上看,本文的方法具有較好的檢測結果。
圖4 基于關系模型的場景文本檢測效果圖
本文在數(shù)據(jù)集上對本文提出的基于關系模型的檢測方法和原始的Faster RCNN 進行對比,部分實驗結果對照如圖5所示。
圖5 兩種檢測方法檢測效果對比圖
從圖中可以看到,本文提出的基于關系模型的場景文本檢測模型在文本區(qū)域檢測效果上明顯優(yōu)于未加入關系模型的Faster-RCNN網(wǎng)絡。
本文在ICDAR2013 上與其他自然場景文本檢測算法的對比結果如表1所示。
表1 Results on ICDAR2013 datasets
如表1所示,在ICDAR2013數(shù)據(jù)集上本文的文本檢測算法Precision和Recall分別達到了86.1%和82.3%,F(xiàn)值達到了84.2%。與傳統(tǒng)的自然場景文本檢測方法如Yin[19]的自適應聚類方法,Liang et al[20]采用的MERS+SWT 方法相比,本文的檢測方法Precision,Recall,F(xiàn) 值均得到了提升。與同樣采用滑動窗回歸的Textbox 相比,本文的檢測方法的Precision,Recall,F(xiàn) 值也明顯提升。與目前水平文本檢測的流行算法CTPN 相比,本文的文本檢測算在Recall 和F 值兩項指標上提升,但是在Precision上還有一定差距。與Yang 的語義分割方法相比,本文的方法在Precision,Recall,F(xiàn) 值均得到了提升。從總體上來看,本文的檢測方法在數(shù)據(jù)集上達到了較好的水平。
在ICDAR2015 上與其他自然場景文本檢測算法的對比如表2 所示。本文檢測算法的Precision和Recall 分別達到了77.3%和74.2%,F(xiàn) 值達到了75.7%。與Zhang et al[22]和CTPN 相比,本文的Precision和Recall,以及F值都得到了提升。本文算法與Seglink[23]相比,Precision 和F 值都有改進。本文算法和SSTD相比Recall更好,F(xiàn)值接近,Precison稍差。與Yang 的語義分割方法相比,本文的Recall接近,Precison 略低,F(xiàn) 值稍差。從總體上看,本文的算法具有較好的性能,可以視為一種自然場景文本檢測的可行算法。
表2 Results on ICDAR2015 datasets
本文提出了基于關系模型的場景文本檢測方法,該方法利用加入錨自生成網(wǎng)絡的區(qū)域生成網(wǎng)絡獲得文本候選區(qū)域,融合關系特征去準確提取文字區(qū)域。實驗發(fā)現(xiàn),與其他方法比較,該模型被用于自然場景文本檢測時具有較好的檢測效果,同時具有一定魯棒性。在試驗中我們發(fā)現(xiàn)雖然本方法提出的自然場景文本檢測方法具備了不錯的性能,進一步需要研究的問題包括:1)曲形文字檢測;2)帶方向的文本框表示方式等。