楊劍鋒,王潤(rùn)民,何 璇,李秀梅,錢(qián)盛友
1.湖南師范大學(xué) 信息科學(xué)與工程學(xué)院,長(zhǎng)沙410081
2.湖南師范大學(xué) 物理與電子科學(xué)學(xué)院,長(zhǎng)沙410081
文字相較其他的自然場(chǎng)景內(nèi)容具有高度的概括性與描述性,自然場(chǎng)景文字檢測(cè)技術(shù)在圖像/視頻檢索、智能手機(jī)或可穿戴式視覺(jué)系統(tǒng)等方面具有重要的應(yīng)用價(jià)值,目前自然場(chǎng)景文字檢測(cè)已成為計(jì)算機(jī)視覺(jué)與模式識(shí)別、文檔分析與識(shí)別領(lǐng)域的研究熱點(diǎn)。然而自然場(chǎng)景文字檢測(cè)有別于傳統(tǒng)的印刷文檔中的文字檢測(cè),印刷文檔圖像中的文字字體規(guī)范且背景簡(jiǎn)單,文字與背景之間具有明顯的差異性,從而背景信息對(duì)文字難以造成強(qiáng)烈的干擾。然而在自然場(chǎng)景圖像中,受文字本身及其他干擾因素的影響,文字與背景之間很難得到有效地分割,比如:文字與背景對(duì)比度低、光照不均勻等。此外,自然場(chǎng)景文字還存在大小尺寸、空間布局、顏色及排列方向的多變性,這些干擾因素均給文字檢測(cè)帶來(lái)巨大的挑戰(zhàn)。相比成熟的印刷文檔中的文字檢測(cè)問(wèn)題,自然場(chǎng)景文字檢測(cè)仍具有較大的提升空間。
基于自然場(chǎng)景文字檢測(cè)技術(shù)所具有的理論意義與應(yīng)用價(jià)值,該領(lǐng)域受到了研究者的廣泛關(guān)注并提出了大量有效的文字檢測(cè)方法?,F(xiàn)有的文字檢測(cè)方法主要采用了手工設(shè)計(jì)的特征(Handcraft Features)以及深度學(xué)習(xí)提取的特征來(lái)分類(lèi)文字區(qū)域與背景區(qū)域。
基于手工設(shè)計(jì)特征的傳統(tǒng)文字檢測(cè)方法[1-9]大致分為三類(lèi):基于滑動(dòng)檢測(cè)窗方法、基于連通域分析方法以及混合方法?;跈z測(cè)窗的文字檢測(cè)方法[1-2]通常采用多尺度滑動(dòng)窗口的方式對(duì)圖像進(jìn)行掃描以獲得文字候選區(qū)域,然后使用分類(lèi)模型判斷候選區(qū)域是否是文字區(qū)域。基于連通域分析的文字檢測(cè)方法[3-6]主要通過(guò)顏色聚類(lèi)方法(Color Clustering)、文字筆畫(huà)寬度變換(Stroke Width Transform,SWT)、最大穩(wěn)態(tài)極值區(qū)域(Maximally Stable Extremal Regions,MSERs)等方法提取文字候選連通域,然后使用分類(lèi)模型對(duì)文字候選連通域進(jìn)行判斷,最后設(shè)計(jì)一系列后續(xù)關(guān)聯(lián)組合和分詞手段來(lái)獲取最終文字區(qū)域。混合方法[7]結(jié)合了基于滑動(dòng)檢測(cè)窗方法和基于連通域分析方法,利用這兩類(lèi)方法的優(yōu)勢(shì)來(lái)提高文字檢測(cè)性能。盡管采用手工設(shè)計(jì)的特征方法可以取得不錯(cuò)的表現(xiàn),但手工設(shè)計(jì)的特征無(wú)法有效地應(yīng)對(duì)復(fù)雜的自然場(chǎng)景情形,比如光照不均勻或者部分遮擋等。
基于深度學(xué)習(xí)的文字檢測(cè)方法[10-17]相較于手工設(shè)計(jì)的特征方法在文字檢測(cè)性能上取得了很大的突破。在基于深度學(xué)習(xí)的自然場(chǎng)景文字檢測(cè)方法中,基于文字區(qū)域建議(Text region proposal)的方法和基于圖像分割的方法使用最為廣泛?;趨^(qū)域建議的文字檢測(cè)方法[10-13]一般先在圖像上提取很多個(gè)文字候選區(qū)域,然后訓(xùn)練一個(gè)分類(lèi)器對(duì)文字候選區(qū)域分類(lèi)篩選,最后對(duì)包含文字的候選區(qū)域的位置進(jìn)行精修。基于文字區(qū)域建議的文字檢測(cè)方法對(duì)復(fù)雜的自然場(chǎng)景文字檢測(cè)具有很好的魯棒性,但提取多個(gè)文字候選區(qū)域往往很耗時(shí)?;趫D像分割的文字檢測(cè)方法[14-16]通常利用全卷積網(wǎng)絡(luò)(Fully Convolutional Networks,F(xiàn)CN)等方式來(lái)進(jìn)行像素級(jí)別的文字/背景標(biāo)注,該類(lèi)方法可以較好地避免文字排列方向以及文字區(qū)域長(zhǎng)寬比變化的影響,但其后續(xù)處理通常比較復(fù)雜。Zhang等人在文獻(xiàn)[14]中首次提出采用全卷積網(wǎng)絡(luò)從像素層面對(duì)圖像進(jìn)行處理,預(yù)測(cè)每個(gè)像素屬于文字的概率,進(jìn)而獲得文字顯著圖,最后基于顯著圖得到文字候選區(qū)域。
為獲得最終的文字檢測(cè)結(jié)果,目前主要采用了文字邊界框回歸處理以及直接提取外接文字邊界框的方法。在文獻(xiàn)[15-16]中均采用了全卷積網(wǎng)絡(luò)輸出文字區(qū)域像素級(jí)檢測(cè)結(jié)果,然后回歸邊界點(diǎn)來(lái)確定候選文字邊界框的位置,最后采用非極大值抑制(Non-Maximum Suppression,NMS)去篩選出邊界框作為最終檢測(cè)結(jié)果。TextBoxes[10]、SegLink[18]、CTPN[11]在獲取文字邊界檢測(cè)框時(shí)同樣采用位置回歸方法,可以得到精確的文字邊界框,這類(lèi)方法均取得不錯(cuò)檢測(cè)效果,但往往以犧牲計(jì)算量為代價(jià)。在文獻(xiàn)[19]中直接通過(guò)實(shí)例分割處理來(lái)獲得文字位置信息而無(wú)需進(jìn)行文字邊界框回歸處理,結(jié)合文字與非文字預(yù)測(cè)和像素連接預(yù)測(cè)的信息來(lái)提取文字邊界框。直接提取外接文字邊界框的方法從整體上處理文字行,充分利用了預(yù)測(cè)文字候選區(qū)域的方向信息檢測(cè)多方向排列文字。本文受到文獻(xiàn)[19]方法啟發(fā),利用文字與非文字預(yù)測(cè)得分圖信息獲取外接文字邊界框,取得了更好的檢測(cè)效果。
通常自然場(chǎng)景圖像中的一些文字間距非常近,使得在文字與非文字預(yù)測(cè)得到的文字候選區(qū)域會(huì)難以完全分隔開(kāi),在獲取外接文字邊界框時(shí)會(huì)導(dǎo)致多個(gè)文字被檢測(cè)到一個(gè)矩形邊界框中。為解決這個(gè)問(wèn)題,在生成文字標(biāo)簽時(shí)放棄選擇標(biāo)注的文字區(qū)域,而是選擇標(biāo)注文字區(qū)域的縮進(jìn)區(qū)域。因此,在分割的得分圖上得到的邊界框區(qū)域會(huì)是真實(shí)文字的縮進(jìn)區(qū)域,為此本文設(shè)計(jì)了自適應(yīng)的加權(quán)擴(kuò)大函數(shù)對(duì)參考邊界框進(jìn)行補(bǔ)償擴(kuò)大處理,使得最終邊界框能完全包圍文字區(qū)域。
本文創(chuàng)新點(diǎn)包括以下幾個(gè)方面:
(1)全卷積網(wǎng)絡(luò)結(jié)合多特征層融合,通過(guò)像素級(jí)分類(lèi),取得了更有競(jìng)爭(zhēng)力的結(jié)果。
(2)設(shè)計(jì)簡(jiǎn)單而高效的方法實(shí)現(xiàn)了多方向文字檢測(cè)。
(3)縮進(jìn)的標(biāo)注文字區(qū)域生成得分圖,解決了單個(gè)邊界框檢測(cè)多個(gè)文字問(wèn)題。
本文所提出的文字檢測(cè)框架如圖1(a)所示,輸入待檢測(cè)圖像送入到已訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)模型中,提取圖像中的文字特征,結(jié)合全卷積網(wǎng)絡(luò)上采樣并逐層融合多層特征圖進(jìn)行像素分割,輸出得到每個(gè)像素的預(yù)測(cè)得分圖。預(yù)測(cè)得分圖采用雙線(xiàn)性插值擴(kuò)大和二值化處理后,直接獲取預(yù)測(cè)文字候選區(qū)域的外接文字邊界框作為參考文字邊界框,然后進(jìn)行加權(quán)補(bǔ)償處理來(lái)修正參考文字邊界框,最后通過(guò)篩選條件過(guò)濾掉非文字邊界框得到最終的文字檢測(cè)框。如圖1所示,本文算法僅僅由兩個(gè)步驟組成,全卷積網(wǎng)絡(luò)FCN 多尺度特征融合部分和生成并補(bǔ)償文字邊界框部分,相比文獻(xiàn)[11,14,20]中的算法更為簡(jiǎn)單,去除了很多中間步驟,省略了多個(gè)處理環(huán)節(jié),避免了多個(gè)處理環(huán)節(jié)和組成部分可能局部最優(yōu)但整體未必最優(yōu)以及耗時(shí)的問(wèn)題,任何環(huán)節(jié)的處理結(jié)果都將會(huì)影響系統(tǒng)的檢測(cè)性能。在圖1中,(b)為文獻(xiàn)[11]中提出方法,通過(guò)CTPN實(shí)現(xiàn)水平方向文字檢測(cè);(c)為Yao等人在文獻(xiàn)[20]中提出的方法;(d)為文獻(xiàn)[14]中提出的方法。
本文方法所提出的基于全卷積網(wǎng)絡(luò)的文字檢測(cè)模型如圖2 所示,該模型主要由三個(gè)部分組成:特征提取網(wǎng)絡(luò),特征融合部分和文字與非文字預(yù)測(cè)。首先把自然場(chǎng)景文字圖像送入模型中,使用特征提取網(wǎng)絡(luò)來(lái)提取圖像中的文字特征,然后結(jié)合全卷積網(wǎng)絡(luò)(FCN)語(yǔ)義分割的方法對(duì)圖像進(jìn)行像素級(jí)分類(lèi),預(yù)測(cè)每一個(gè)像素是否為文字區(qū)域,從而分割出文字區(qū)域提取出自然場(chǎng)景圖像中可能出現(xiàn)的文字位置。該模型采用U-Net[21]的思想融合淺層網(wǎng)絡(luò)與深層網(wǎng)絡(luò)的多層特征圖,綜合了精細(xì)信息及其高度抽象信息,用于檢測(cè)不同尺度的文字。
2.1.1 特征提取網(wǎng)絡(luò)
自然場(chǎng)景文字檢測(cè)作為一種典型的模式識(shí)別問(wèn)題,文字描述特征分類(lèi)性能的好壞將直接影響到最終的檢測(cè)結(jié)果。本文方法所采用的網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)如表1所示,特征提取網(wǎng)絡(luò)使用ResNet-50[22]作為基礎(chǔ)網(wǎng)絡(luò)來(lái)提取文字特征,其中Conv1,Res2,Res3,Res4,Res5均為ResNet-50中的操作,每一次操作后分別輸出的該層的特征圖,其尺寸大小分別為輸入圖像的1/2,1/4,1/8,1/16,1/32。
表1 網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)
圖1 本文文字檢測(cè)框架及其與其他算法的比較
圖2 文字檢測(cè)網(wǎng)絡(luò)結(jié)構(gòu)圖
2.1.2 特征融合網(wǎng)絡(luò)
在特征融合部分,首先對(duì)Res5 操作后提取的特征圖進(jìn)行上采樣處理使得大小擴(kuò)大為輸入圖像的1/16,然后與Res4 操作提取的特征圖合并,特征圖合并后進(jìn)行1×1,3×3 不同尺度卷積核的卷積操作來(lái)融合特征圖和降低通道數(shù),本文中選擇依此方式逐層往上融合特征層,經(jīng)過(guò)多層的特征融合后的特征圖大小為輸入圖像的1/4。最后經(jīng)過(guò)卷積核為1×1 大小的卷積操作后輸出得到文字與非文字的預(yù)測(cè)得分圖。
本文算法中獲取的文字與非文字預(yù)測(cè)得分圖為單一通道,相比文獻(xiàn)[13,16,19]等中所提出的算法,減少了通道數(shù)與計(jì)算量。
本文方法中用于訓(xùn)練的文字區(qū)域得分圖的生成如圖3 所示,放棄選擇標(biāo)注的真實(shí)文字框來(lái)生成得分圖,而是選擇標(biāo)注的真實(shí)文字框的縮進(jìn)框,其目的有以下兩點(diǎn):(1)真實(shí)文字框包圍了文字區(qū)域的同時(shí)也會(huì)包圍一些非文字區(qū)域,而縮進(jìn)標(biāo)注真實(shí)文字框以保證全部包圍的為文字區(qū)域;(2)在文字與非文字預(yù)測(cè)時(shí),如圖4所示獲取的得分圖中的候選文字區(qū)域間的間隔會(huì)變大,解決了得分圖中候選文字區(qū)域連接在一起從而被一個(gè)矩形框檢測(cè)的問(wèn)題。
圖3 得分圖的生成
圖4 得分圖對(duì)比
對(duì)于標(biāo)注的文字框四邊形Q(如圖3(a)黃色框所示),其中di(i=1,2,3,4)是四邊形左上頂點(diǎn)起順時(shí)針順序的頂點(diǎn)。為了縮小Q,首先計(jì)算每個(gè)頂點(diǎn)di的參考長(zhǎng)度li,參考長(zhǎng)度li,計(jì)算如下:
其中L(di,dj)是頂點(diǎn)di與dj的L2 范數(shù),首先收縮一個(gè)四邊形Q 的兩個(gè)較長(zhǎng)的邊。對(duì)于四邊形的兩對(duì)邊,通過(guò)比較它們的長(zhǎng)度的平均值來(lái)確定較長(zhǎng)的一對(duì)邊,然后收縮兩個(gè)較短的邊。對(duì)于每個(gè)邊,通過(guò)將它的兩個(gè)端點(diǎn)分別向內(nèi)移動(dòng)0.3li和0.3l(imod4)+1來(lái)收縮文字框得到文字框四邊形Q′(如圖3(a)綠色框所示)。如圖3(a)所示,文字框四邊形Q 的頂點(diǎn)由di收縮到d′i生成四邊形Q′,然后由文字框四邊形Q′生成得分圖如圖3(b)所示。
在經(jīng)過(guò)全卷積網(wǎng)絡(luò)后,輸出文字與非文字預(yù)測(cè)結(jié)果,對(duì)每一個(gè)像素進(jìn)行預(yù)測(cè),每個(gè)像素預(yù)測(cè)產(chǎn)生一個(gè)預(yù)測(cè)值,代表該像素為文字區(qū)域的置信度,該值在0到1之間。像素預(yù)測(cè)置信度值越大則表示該像素越有可能為文字區(qū)域像素,置信度值越小,則代表該像素更可能位于非文字區(qū)域??紤]到輸出的文字與非文字預(yù)測(cè)得分圖為輸入圖像大小的1/4,為了使預(yù)測(cè)得分圖與輸入圖像的每一個(gè)像素有一一對(duì)應(yīng)的關(guān)系,本文將得分圖雙線(xiàn)性插值處理將其放大到與輸入圖像同樣大小。本文對(duì)測(cè)試集圖像中的文字置信度值的分布范圍進(jìn)行了統(tǒng)計(jì),在實(shí)驗(yàn)中發(fā)現(xiàn),在生成文字與非文字預(yù)測(cè)得分圖中的像素預(yù)測(cè)值呈現(xiàn)典型雙峰特點(diǎn),像素預(yù)測(cè)值絕大部分在0.8 至1 和0 至0.2 的區(qū)間內(nèi),特別時(shí)絕大部分的文字區(qū)域像素預(yù)測(cè)值明顯大于其周?chē)鷧^(qū)域非文字區(qū)域的像素預(yù)測(cè)值。基于上述特點(diǎn)本文采用了自適應(yīng)閾值最大類(lèi)間方差法(OTSU)對(duì)預(yù)測(cè)圖進(jìn)行二值化處理,通過(guò)OTSU二值化后的文字與非文字預(yù)測(cè)分類(lèi)圖如圖5 所示。當(dāng)文字與非文字預(yù)測(cè)的像素預(yù)測(cè)值大于或等于該閾值則該像素值置為1,將其判定為文字區(qū)域,否則該像素值置為0,并將判定為非文字區(qū)域。
圖5 原圖(上)和對(duì)應(yīng)文字與非文字預(yù)測(cè)分類(lèi)圖(下)
在文字與非文字分類(lèi)的結(jié)果上,語(yǔ)義分割包含了文字的位置信息和邊緣信息,因此本文直接采用最小外接矩形邊界框粗糙地檢測(cè)出文字區(qū)域。文字與非文字預(yù)測(cè)得分圖在插值放大和二值化處理后利用OpenCV 中的minAreaRect()函數(shù)直接獲取圖像分割文字的檢測(cè)矩形框,該矩形框包含了預(yù)測(cè)文字區(qū)域的方向信息,可以檢測(cè)任意方向的文字。但由于在生成得分圖中,文字的得分圖由標(biāo)注四邊形的縮進(jìn)四邊形生成,所以在文字與非文字預(yù)測(cè)時(shí),得分圖中的預(yù)測(cè)文字區(qū)域都是實(shí)際文字區(qū)域的縮小區(qū)域,所以提取到的文字檢測(cè)矩形框均小于實(shí)際文字區(qū)域包圍矩形框,文字區(qū)域不能完全被檢測(cè)框包圍住。因此在本文中設(shè)計(jì)了加權(quán)補(bǔ)償函數(shù)來(lái)對(duì)檢測(cè)框補(bǔ)償放大,使得檢測(cè)框能更好地檢測(cè)文字區(qū)域,增大檢測(cè)框與真實(shí)文字框的交并比(Intersection Over Union,IOU),來(lái)提升文字檢測(cè)性能。
檢測(cè)矩形框做加權(quán)補(bǔ)償擴(kuò)大處理如圖6所示,檢測(cè)矩形框R′加權(quán)補(bǔ)償后得到矩形框R,加權(quán)補(bǔ)償擴(kuò)大函數(shù)設(shè)計(jì)如下。
常數(shù)補(bǔ)償系數(shù):把標(biāo)注文字四邊形的縮進(jìn)的四邊形作為訓(xùn)練的真實(shí)文字區(qū)域,縮進(jìn)的長(zhǎng)度為kli和k=0.3,同理,把矩形框R′放大到R,放大的長(zhǎng)度為rl′i和rl′(imod4)+1,r 是補(bǔ)償系數(shù),其可按照公式(2)計(jì)算:
假設(shè)p′i是檢測(cè)矩形框R′自左上頂點(diǎn)起順時(shí)針順序的矩形頂點(diǎn)。為了擴(kuò)大R′,為每個(gè)頂點(diǎn)p′i的參考長(zhǎng)度,l′i的計(jì)算參考公式(1),k′為常數(shù)補(bǔ)償系數(shù),補(bǔ)償規(guī)則如下:
(1)擴(kuò)大檢測(cè)矩形框R′的較短的對(duì)邊,如圖6中的h 與其對(duì)邊的各個(gè)頂點(diǎn)沿著h 方向向外延伸長(zhǎng)度rl′i和。
(2)擴(kuò)大檢測(cè)矩形框R′的較長(zhǎng)的對(duì)邊,如圖6中的w 與其對(duì)邊的各個(gè)頂點(diǎn)沿著h 方向向外延伸長(zhǎng)度rl′i和
圖6 矩形邊界框做加權(quán)補(bǔ)償擴(kuò)大處理示意圖
實(shí)驗(yàn)發(fā)現(xiàn),如果所有候選檢測(cè)矩形框均采用常數(shù)補(bǔ)償來(lái)擴(kuò)大矩形框,則小字符檢測(cè)矩形框不能完全包圍住文字區(qū)域,所以候選檢測(cè)矩形框min(w,h)越小,在擴(kuò)大補(bǔ)償處理時(shí)補(bǔ)償系數(shù)r 越大,由得分圖預(yù)測(cè)文字區(qū)域的特征和檢測(cè)矩形框的特點(diǎn)設(shè)計(jì)并對(duì)比了以下幾種自適應(yīng)加權(quán)補(bǔ)償函數(shù)。
(1)線(xiàn)性補(bǔ)償函數(shù),其計(jì)算公式為:
其中,hthreshold為檢測(cè)矩形框較短邊的閾值,hmin=min(w,h)。
(2)三角非線(xiàn)性補(bǔ)償函數(shù),其計(jì)算公式為:
(3)高斯非線(xiàn)性補(bǔ)償函數(shù),其計(jì)算公式為:
由于采用語(yǔ)義分割的方法得到文字與非文字預(yù)測(cè)得分圖時(shí),將不可避免地出現(xiàn)少數(shù)非文字區(qū)域會(huì)獲得較高的預(yù)測(cè)值,從而導(dǎo)致在文字與非文字分類(lèi)時(shí)會(huì)將這些非文字區(qū)域誤判定成文字區(qū)域,最終導(dǎo)致錯(cuò)誤的檢測(cè)結(jié)果。為盡可能地減少錯(cuò)誤檢測(cè),有必要設(shè)計(jì)相應(yīng)的后處理算法以進(jìn)一步提高檢測(cè)準(zhǔn)確率。本文算法主要設(shè)計(jì)了如下兩種后處理算法:
(1)在實(shí)驗(yàn)測(cè)試圖像中的文字區(qū)域大小絕大部分超過(guò)10 個(gè)像素和面積不低于300 個(gè)像素,所以將hmin<hthreshold=10 或者w×h <300 的候選檢測(cè)框?yàn)V除掉。
(2)定義矩形框置信度,矩形框置信度為非線(xiàn)性插值得分預(yù)測(cè)圖中矩形框內(nèi)的所有像素預(yù)測(cè)值的均值,如果矩形框置信度小于某一閾值則被判斷為無(wú)效矩形框。
本文方法中訓(xùn)練損失函數(shù)為Dice's 系數(shù),也稱(chēng)作Dice 系數(shù),是一種集合相似度度量函數(shù),對(duì)于信息檢索中的關(guān)鍵字集合X 和Y ,系數(shù)可以定義為:
Dice 系數(shù)和Jaccard 指數(shù)的方法相似,所以在本文中設(shè)計(jì)的損失函數(shù)計(jì)算公式如下:
Sscore_map為得分圖,即文字非文字分類(lèi)的語(yǔ)義分割區(qū)域,
Sground_truth為標(biāo)注文字區(qū)域。
為了驗(yàn)證本文方法的有效性,在ICDAR 2013 與ICDAR 2015 自然場(chǎng)景文字檢測(cè)競(jìng)賽數(shù)據(jù)集進(jìn)行了實(shí)驗(yàn),ICDAR 2015自然場(chǎng)景文字檢測(cè)競(jìng)賽數(shù)據(jù)集共包含1 500張圖像(其中訓(xùn)練集1 000張,測(cè)試集500張),該數(shù)據(jù)集中的場(chǎng)景文字其排列方向是任意的,且包括了運(yùn)動(dòng)模糊和低分辨率的問(wèn)題。ICDAR 2013 自然場(chǎng)景文字檢測(cè)數(shù)據(jù)集包含了229 張訓(xùn)練圖像和233 張測(cè)試圖像,共462張圖像,該數(shù)據(jù)集圖像中的文字以水平方向排列為主,且涵蓋了復(fù)雜光照、模糊和低分辨率等各種極端情況。上述數(shù)據(jù)集作為基準(zhǔn)數(shù)據(jù)集在各類(lèi)文字檢測(cè)算法的評(píng)估中被廣泛地使用。
本文方法使用的模型采用自適應(yīng)矩估計(jì)(Adaptive Moment Eestimation,ADAM)優(yōu)化器進(jìn)行訓(xùn)練,為了加速學(xué)習(xí)過(guò)程,訓(xùn)練樣本均調(diào)整為512×512 大小,每執(zhí)行一步使用的batch數(shù)量為24。ADAM的學(xué)習(xí)率從0.000 1開(kāi)始,衰減速率為0.94,最大執(zhí)行步數(shù)為100 000,每10 000執(zhí)行步數(shù)更新一次學(xué)習(xí)率,當(dāng)性能不再提高而停止訓(xùn)練。本文所采用的ResNet-50 與FCN 網(wǎng)絡(luò)都是基于深度學(xué)習(xí)框架TensorFlow并均為python實(shí)現(xiàn)。
本文在ICDAR 2013 與ICDAR 2015 測(cè)試數(shù)據(jù)集中所獲得的檢測(cè)結(jié)果如圖7所示,可以看出本文方法能有效地應(yīng)對(duì)復(fù)雜的場(chǎng)景圖像中的多方向排列的文字檢測(cè)問(wèn)題。
圖7 本文方法在ICDAR數(shù)據(jù)集的檢測(cè)效果
圖8 一些檢測(cè)失敗的結(jié)果
為進(jìn)一步驗(yàn)證本文方法的有效性,本文與最近的其他文字檢測(cè)方法進(jìn)行了對(duì)比,在ICDAR 2015 測(cè)試集實(shí)驗(yàn)結(jié)果的對(duì)比如表2 所示,本文方法利用設(shè)計(jì)的高斯補(bǔ)償函數(shù)在ICDAR 2015數(shù)據(jù)集上的Precision與Fmeasure 指標(biāo)上相對(duì)于其他補(bǔ)償函數(shù)取得了更好的效果,其中Precision 為0.803,F(xiàn)-measure 指標(biāo)為0.773。本文方法在Precision 指標(biāo)均高于表2 中其他方法,F(xiàn)measure指標(biāo)結(jié)果高于表2中絕大多數(shù)的方法,如SegLink[18]與CTPN[11]等。然而與方法RRPN[13]比較,本文方法在Recall、F-measure 指標(biāo)上還有進(jìn)一步提升的空間。本文方法利用設(shè)計(jì)的高斯補(bǔ)償函數(shù)與其他文字檢測(cè)方法在ICDAR 2013 測(cè)試集實(shí)驗(yàn)結(jié)果的對(duì)比如表3 所示,相對(duì)于I2R NUS[25]、Text[26]、Faster-RCNN[27]等方法,本文方法取得了更有競(jìng)爭(zhēng)力的結(jié)果。
表2 ICDAR 2015場(chǎng)景文字檢測(cè)競(jìng)賽測(cè)試集實(shí)驗(yàn)結(jié)果
表3 ICDAR 2013場(chǎng)景文字檢測(cè)競(jìng)賽測(cè)試集實(shí)驗(yàn)結(jié)果
盡管本文方法取得了令人滿(mǎn)意的結(jié)果,但在實(shí)驗(yàn)中依然發(fā)現(xiàn)本文方法對(duì)如下一些特殊場(chǎng)景或者特殊文字的檢測(cè)效果有待進(jìn)一步改善:(1)對(duì)弧形排列的文字檢測(cè)效果不佳,這些文字只能被矩形邊界框檢測(cè)(如圖8(a)所示),原因在于本文選擇帶有方向信息的矩形框去提取文字區(qū)域,適用于文字單個(gè)方向的排列;(2)另外會(huì)錯(cuò)誤地檢測(cè)一些和文字相類(lèi)似的物體,如條紋狀圖形(如欄桿)、窗戶(hù)、符號(hào)等(如圖8(b)、(c)所示),這些物體與文字在紋理或形狀上都極為相似,以至于很難被區(qū)分開(kāi)來(lái);(3)一些文字尺寸太大導(dǎo)致無(wú)法被檢測(cè)(如圖8(d)所示)。
本文提出一種基于全卷積網(wǎng)絡(luò)的多方向自然場(chǎng)景文字檢測(cè)方法,該方法利用深度卷積網(wǎng)絡(luò)提取文字特征,融合多層文字特征并采用語(yǔ)義分割方法分割文字區(qū)域,然后直接提取對(duì)應(yīng)文字區(qū)域的包含方向信息的外接矩形框。在生成得分圖時(shí)選擇了標(biāo)注文字區(qū)域的縮進(jìn)區(qū)域,進(jìn)行文字與非文字預(yù)測(cè)處理時(shí),對(duì)外接矩形邊界框擴(kuò)大補(bǔ)償處理得到最后的文字邊界框。與其他一些最新方法相比,本文算法在ICDAR 13 和ICDAR 15 標(biāo)準(zhǔn)數(shù)據(jù)集上均取得了更具競(jìng)爭(zhēng)力的結(jié)果。在實(shí)驗(yàn)中發(fā)現(xiàn)盡管本文所提出的自然場(chǎng)景文字檢測(cè)方法取得了不錯(cuò)的性能,但仍然有不足之處,以下幾個(gè)方面是未來(lái)研究工作中所需要進(jìn)一步考慮的問(wèn)題:(1)弧形方向排列的文字檢測(cè);(2)多語(yǔ)種共存的文字檢測(cè)。