国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

共享核空洞卷積與注意力引導(dǎo)FPN文本檢測

2021-10-04 11:46:36孟月波劉光輝徐勝軍韓九強石德旺
光學(xué)精密工程 2021年8期
關(guān)鍵詞:候選框特征提取卷積

孟月波,金 丹,劉光輝,徐勝軍,韓九強,石德旺

(西安建筑科技大學(xué) 信息與控制工程學(xué)院,陜西 西安 710055)

1 引 言

圖像中的文本信息可以傳達豐富而準確的高層語義信息,具有高度的概括性和抽象的描述能力,是理解圖像場景內(nèi)容的重要線索。自然場景文本檢測技術(shù)使用邊界框精確捕捉與定位場景中的文本實例,在智能交通、基于內(nèi)容的圖像/視頻檢索以及可穿戴/便攜式視覺系統(tǒng)等諸多領(lǐng)域具有重要的應(yīng)用[1-2]。

深度神經(jīng)網(wǎng)絡(luò)因其具有較強的深層次特征提取能力以及非線性擬合能力,相較于傳統(tǒng)文本檢測方法,能夠較好地解決復(fù)雜自然場景下的文本圖像到文本位置和文本內(nèi)容的映射問題[3],并且已取得了諸多的研究成果。按照文本目標的排列方向不同,這些方法可以分為水平方向文本檢測方法[4]、傾斜方向文本檢測方法[5-11]、彎曲文本乃至任意方向文本檢測方法[12-16]。文獻[4]針對水平方向文本首次利用垂直錨點回歸機制得到固定寬度的豎直矩形文本區(qū),通過卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)聯(lián)合預(yù)測文本的位置和類別,最終定位水平文本行;但垂直錨點結(jié)構(gòu)的設(shè)計,使得該方法無法檢測傾斜文本。文獻[5]利用局部信息連接文本行切片,實現(xiàn)傾斜文本檢測;但信息的切片與連接過程會引入一定的誤差,影響檢測精度。為降低中間步驟對性能的影響,文獻[8]直接 通 過 全 卷 積 網(wǎng) 絡(luò)[17](Fully Convolutional Net‐works,F(xiàn)CN)產(chǎn)生文本框的預(yù)測,實現(xiàn)了端到端的訓(xùn)練和優(yōu)化;但受感受野限制,對較長文本框檢測效果欠佳。文獻[9]提出了將長文本檢測問題轉(zhuǎn)換為檢測文本頭部和尾部邊界問題的新思路,但當該模型應(yīng)用于各種形狀及大小共存的自然場景文本檢測任務(wù)時,魯棒性較差。至此,實現(xiàn)彎曲乃至任意形狀大小的文本檢測成為難點問題。文獻[13]通過對輸出層采用不規(guī)則卷積核來適應(yīng)文本長度變化,克服了較大長寬比對文本檢測任務(wù)的影響;但該模型在比例變化劇烈的情況下效果仍不理想。文獻[15]結(jié)合回歸思想,通過提出新的文本邊緣點回歸方式,克服了對文本目標長寬比大小的限制,實現(xiàn)多邊形文本重構(gòu);但由于回歸方式的約束,該方法對于彎曲程度較大的文本檢測效果不佳。文獻[16]首次提出了一種基于實例分割的掩模文本檢測方法,通過掩膜分支完成文本實例的分割任務(wù),打破了形狀與大小的限制,且有效避免了同一圖片中多目標的類間競爭問題,實現(xiàn)了任意形狀文本區(qū)域的檢測,檢測精度提升顯著。

隨著科技水平的不斷進步,高分辨率圖像越來越普及,逐漸成為文本檢測的主要對象。該類圖像特征尺度差異較大,想要獲取其多尺度信息,需要有更豐富的感受野,否則在提取文本目標特征時,會造成細粒度特征難以捕獲、多尺度特征不佳問題。同時,復(fù)雜場景中的文本實例具有極端長寬比特點,現(xiàn)有候選框篩選方式難以實現(xiàn)偽目標的精細過濾,導(dǎo)致檢測結(jié)果存在掩膜過度重疊問題,影響檢測性能。

針對上述問題,本文借鑒文獻[16]的掩膜文本檢測思想,提出一種共享核空洞卷積與注意力機制引導(dǎo)FPN(Kernel-sharing Dilated Convolutions and Attention-guided FPN,KDA-FPN)的文本檢測方法。特征提取部分通過具有共享核的空洞卷積,擴大感受野,深挖感受野細粒度特征,獲取多尺度特征;同時,減少參數(shù)量,提升計算效率。并引入上下文注意模塊與內(nèi)容注意模塊,加強對特征間語義關(guān)系與空間位置信息的關(guān)注,得到更全面的特征表達,提升特征融合質(zhì)量。文本后處理部分,提出最小交集的候選框篩選策略(Intersec‐tion Over Minimum,IOM),將候選框中面積最大的框與相鄰文本框之間區(qū)域的交集面積占較小框面積的比值作為候選框篩選評價指標,抑制采用交并比(Intersection Over Union,IOU)[28]策略衡量兩個集合的重疊度時,因文本區(qū)域長寬比和大小的劇烈變化導(dǎo)致掩膜重疊的問題,實現(xiàn)候選框精細篩選,從而提高檢測 精度。ICDAR2013[21],ICDAR2015[22]以及Total-Text[23]數(shù)據(jù)集的實驗結(jié)果表明,本文方法顯著提高了文本檢測性能。

2 共享核空洞卷積與注意力引導(dǎo)FPN文本檢測模型

2.1 網(wǎng)絡(luò)結(jié)構(gòu)

本文方法整體結(jié)構(gòu)如圖1所示,具體包括4個部分:特征提取網(wǎng)絡(luò)、候選框生成網(wǎng)絡(luò)(Region Proposal Network,RPN)[20]、分類與回歸網(wǎng)絡(luò)、Mask分支。特征提取網(wǎng)絡(luò)以Resnet50為主干網(wǎng)絡(luò)采用自底向上的前向傳播方式,得到多尺度特征圖{F2、F3、F4、F5},通過共享核空洞卷積與注意力引導(dǎo)的特征金字塔網(wǎng)絡(luò)KDA-FPN,提升特征的辨識能力。候選框生成網(wǎng)絡(luò)通過anchor錨框機制[20]生成大量文本候選區(qū)域,本文anchor的大小設(shè)置為{32×32,64×64,128×128,256×256,512×512},長寬比為{0.5,1,2},候選區(qū)域經(jīng)ROI Align[24]實現(xiàn)輸出與輸入像素的一一對應(yīng)。候選框生成網(wǎng)絡(luò)RPN可看作文本區(qū)域粗檢測過程,經(jīng)ROI Align后的本文候選框區(qū)域為文本類別,非候選框區(qū)域為背景類別。分類與回歸網(wǎng)絡(luò)采用Fast RCNN模型[25],分類分支通過全連接層輸出置信度大小,將候選框生成網(wǎng)絡(luò)RPN得到的文本區(qū)域進一步細分為文本區(qū)域與背景區(qū)域兩類;回歸分支將全連接層作為邊界框回歸器,通過真值與預(yù)測值的偏差權(quán)重,取得分類分支得到的本文區(qū)域的坐標位置信息。Mask分支用于像素級別的文本實例輸出,通過非極大值抑制NMS[18]以及提出的IOM最小邊界框生成策略精細過濾候選框,生成與目標文本區(qū)域大小、形狀一致的Mask掩模。

圖1 整體結(jié)構(gòu)Fig.1 Overall structure

2.2 基于核共享空洞卷積與注意力引導(dǎo)的特征提取網(wǎng)絡(luò)

特征金字塔網(wǎng)絡(luò)FPN在文本檢測任務(wù)中特征提取效果顯著,但對高分辨率圖像而言,其粗細粒度特征的尺度差異懸殊,使得模型捕獲特征能力受到限制,造成部分細節(jié)信息缺失;同時,多尺度感受野間信息缺乏溝通,導(dǎo)致特征圖質(zhì)量欠佳。本文提出一種共享核空洞卷積與注意力引導(dǎo)的特征金字塔網(wǎng)絡(luò)KDA-FPN,具體結(jié)構(gòu)如圖2所示,該網(wǎng)絡(luò)通過共享核空洞卷積,在減少參數(shù)量的同時改善多層次特征捕獲能力,引入自注意力機制獲得更強的語義和更準的定位信息,增強特征圖辨識能力。

圖2 共享卷積核空洞卷積與注意力引導(dǎo)的特征金字塔KDA-FPN網(wǎng)絡(luò)結(jié)構(gòu)圖Fig.2 Shared convolution kernel dilated convolution and attention-guided FPN structure diagram

2.2.1 共享核空洞卷積模塊

共享核空洞卷積模塊(Kernel-sharing Dilat‐ed Convolution Module,KDM)結(jié)構(gòu)如圖2所示,通過共享3×3卷積核的空洞卷積擴大輸入特征F5的感受野,挖掘深層次細粒度特征,利用共享機制加強各感受野間的聯(lián)系,減少參數(shù)量,降低模型復(fù)雜度;同時,對F5進行上采樣得到全局粗粒度信息描述特征,并將其與獲取的細粒度特征進行融合,得到模塊KDM的輸出特征F。圖2中,⊕表示特征融合操作。

2.2.2 注意力引導(dǎo)模塊

特征F雖包含豐富的感受野信息,但由于冗余信息的存在,會降低檢測精度。本文通過引入注意力引導(dǎo)模塊(Attention-guide Module,AM),獲得語義與定位信息之間的依賴關(guān)系,精確定位,提升特征質(zhì)量,進而提高檢測精度。AM模塊如圖2所示,由兩部分組成:上下文注意模塊(Context Attention Module,CxAM)以及內(nèi)容注意模塊(Content Attention Module,CnAM)。其中,CxAM模塊強化相關(guān)區(qū)域間特征的語義關(guān)系,使輸出特征語義表達更加清晰;CnAM模塊加強對空間位置信息的關(guān)注,弱化共享核空洞卷積對特征幾何特性的影響,精確目標位置。最后,將CxAM、CnAM與KDM模塊的輸出特征融合,得到更全面的特征表達F'。

2.2.2 .1上下文注意模塊CxAM

如圖3所示,通道數(shù)為C、高度為H、寬度為W的輸入特征圖F經(jīng)式(1)~式(3),獲得通道數(shù)為C'的隱層子區(qū)域特征Q、K以及圖像增強特征

圖3 上下文注意模塊Fig.3 Context attention module

V,{Q,K}∈RC'×H×W,V∈RC×H×W:

采用公式(4)計算Q和K的關(guān)系矩陣A,A∈RX×H×W,X=H×W。通過sigmoid激活函數(shù)和平均池化操作,得子區(qū)域特征相關(guān)性注意力矩陣A',A'∈R1×H×W。

式中,?表示張量相乘。

最后,采用公式(5)獲取區(qū)域間特征語義關(guān)系的注意力表征E,E∈RC×H×W:

式中,⊙表示按元素相乘。

2.2.2 .2內(nèi)容注意模塊CnAM

Resnet50網(wǎng)絡(luò)中通道數(shù)為C''、高度為H、寬度為W的F5特征圖包含豐富空間位置信息。如圖4所示,將F5特征圖作為輸入,經(jīng)公式(6)和(7),獲得通道數(shù)為C'的隱層子區(qū)域特征P,Z;通過公式(8)生成其關(guān)系矩陣S;之后,經(jīng)sigmoid激活函數(shù)和平均池化操作,得子區(qū)域特征相關(guān)性注意 力 矩 陣S'。{P,Z}∈RC'×H×W,S∈RX×H×W,X=H×W,S'∈R1×H×W。

圖4 內(nèi)容注意模塊Fig.4 Content attention module

式中,?表示張量相乘。

最后,將S'結(jié)合式(3)生成圖像增強特征V,通過式(9)獲取區(qū)域間特征空間位置信息的注意力表征D,D∈RC×H×W:

式中,⊙表示按元素相乘。

2.3 IOM后處理算法

檢測任務(wù)通常采用非極大值抑制算法(Non-Maximum Suppression,NMS)[18],通過計算邊界框之間交集與并集的比值IOU過濾多余候選框,尋找最佳檢測位置。然而,文本數(shù)據(jù)具有長寬比變化劇烈特點,候選區(qū)域經(jīng)IOU篩選后,預(yù)測的結(jié)果仍會出現(xiàn)掩膜重疊現(xiàn)象,影響檢測效果。

本文提出一種IOM(Intersection Over Mini‐mum)的后處理篩選策略,實現(xiàn)候選框的精確過濾,具體步驟如下:

(1)同一文本區(qū)域預(yù)測得到N個候選框,分別計算候選框面積,并按照面積大小將其排序,記作Si(i=1,2…,N),S1>S2>…>SN。

(2)將當前面積最大候選框S1分別與其他候選框按照公式(10)計算評價閾值Tj,j=1,2…,N-1,將依據(jù)該閾值進行候選框篩選。

其中,分子部分描述兩個對比候選框的交疊面積,評價閾值Tj反映對比候選框的交疊程度:

i.若Tj>0.5,說明候選框交疊程度占比較大,將S1+j移出候選框集合。為防止有效信息丟失,移除S1+j前需保留兩部分的最小外接矩形;

ii.若Tj<0.5,說明候選框交疊程度占比較小,分別保留兩個對比候選框S1與S1+j。

(3)計算當前候選框個數(shù),假設(shè)個數(shù)為N',令N=N',重復(fù)步驟(1)操作,直到Tj均小于0.5,得到篩選結(jié)果。

2.4 損失函數(shù)

本文采用如式(11)所示多任務(wù)損失函數(shù),具體包括RPN網(wǎng)絡(luò)損失Lrpn,F(xiàn)ast Rcnn模塊損失Lrcnn和掩碼損失Lmask三部分。

Lrpn和Lrcnn采用Faster RCNN中的損失定義形式[20],掩碼損失Lmask采用交叉熵損失形式,計算如式(12)所示:

式中,M表示所有像素數(shù)目,xm和ym表示第m個像素的坐標位置(m=1,2,…,M),S表示sigmoid函數(shù)。

3 實驗及分析

3.1 實驗環(huán)境和數(shù)據(jù)集

本文及所對比算法均在Ubuntu系統(tǒng)下進行,GPU型號為TitanV,環(huán)境配置為CUDA9.0+ana‐conda3+python3+tensorflow1.11.0。采用自然場景文本數(shù)據(jù)集ICDAR2013[21],ICDAR2015[22]和Total-Text[23]進行實驗,驗證本文方法的有效性。

3.2 評價指標

準確度、召回率和F度量值是文本檢測任務(wù)常采用的評價指標,具體計算如式(13)、(14)和(15)所示。準確度表示預(yù)測為正的樣本中預(yù)測正確的數(shù)目,常用P表示;召回率表示正樣本被預(yù)測正確的數(shù)目,常用R表示;F度量值是基于準確度和召回率的調(diào)和平均值,常用F表示。

其中,TP表示正樣本被判斷為正確樣本的數(shù)目,F(xiàn)N表示正樣本被判斷為錯誤樣本的數(shù)目,F(xiàn)P表示負樣本被判斷為正確樣本的數(shù)目。

3.3 網(wǎng)絡(luò)訓(xùn)練

主 干 網(wǎng) 絡(luò)ResNet50選 擇ImageNet[29]預(yù) 訓(xùn) 練結(jié)果作為初始化參數(shù),其余模塊的初始化參數(shù)采用隨機生成方式。采用隨機梯度下降算法SGD對網(wǎng)絡(luò)參數(shù)進行訓(xùn)練,動量、權(quán)重衰減系數(shù)以及初始學(xué)習(xí)率分別設(shè)置為0.9,5×10-4,0.001。網(wǎng)絡(luò)訓(xùn)練過程中,Batch Size均設(shè)置為8,IC‐DAR2013數(shù)據(jù)集設(shè)置迭代次數(shù)為5 000次,IC‐DAR2015數(shù)據(jù)集設(shè)置迭代次數(shù)為50 000次,To‐tal-text數(shù)據(jù)集設(shè)置迭代次數(shù)為60 000次。以IC‐DAR2015數(shù)據(jù)集為例對網(wǎng)絡(luò)訓(xùn)練過程進行分析,其損失下降曲線如圖5所示??梢钥闯觯W(wǎng)絡(luò)訓(xùn)練初期損失下降較快,迭代到26 000次左右時損失曲線下降趨于平穩(wěn),最終收斂在0.2左右,說明本文網(wǎng)絡(luò)參數(shù)的訓(xùn)練結(jié)果較為理想。

圖5 損失下降曲線Fig.5 Loss decline curve

3.4 KDA-FPN各模塊特征提取實驗

本文KDA-FPN網(wǎng)絡(luò)的特征提取過程如圖6所示,首先利用Resnet50主干網(wǎng)絡(luò)獲取多尺度特征圖{F2、F3、F4、F5};然后采用共享核空洞卷積KDM模塊改善多層次特征的捕獲能力;之后通過AM模塊中的上下文注意模塊CxAM、內(nèi)容注意模塊CnAM分別強化特征的語義關(guān)系和空間位置信息,提高特征表達能力;最后采用特征金字塔網(wǎng)絡(luò)FPN將特征圖{F2、F3、F4、F5}與其相鄰特征圖通過上采樣和1×1卷積進行橫向鏈接合并,得到描述不同語義信息的特征映射{P2、P3、P4、P5}。

圖6 KDA-FPN特征提取過程Fig.6 KDA-FPN feature extraction network process

本文以圖1展示的文本圖像為例,對上述各模塊文本特征提取過程進行實驗說明。待檢測圖像經(jīng)Resnet50主干網(wǎng)絡(luò)提取到的多尺度特征{F2、F3、F4、F5}如圖7所示,KDM、AM中的CxAM和CnAM模塊特征提取與融合結(jié)果如圖8所示。

圖7 Resnet50主干網(wǎng)絡(luò)多尺度特征提取結(jié)果Fig.7 Resnet50 network multi-scale feature extraction re‐sults

圖8 KDM,CxAM和CnAM模塊特征提取與融合結(jié)果Fig.8 KDM,CxAM and CnAM module feature extrac‐tion and fusion results

由實驗結(jié)果可以看出,KDM模塊提取的特征圖細節(jié)表達更豐富;CxAM模塊提取到的特征圖更為關(guān)注語義信息;CnAM模塊提取到的特征圖對空間位置關(guān)系更敏感;將三個模塊輸出的特征進行融合,為后續(xù)文本檢測提供了強辨識能力特征圖。

為進一步說明KDM與AM模塊作用,此處對兩個模塊引入前后特征金字塔網(wǎng)絡(luò)FPN特征提取結(jié)果進行對比分析。如圖6所示,不引入KDM模塊、AM模塊時,將特征金字塔網(wǎng)絡(luò)FPN得到的特征映射記作{C2、C3、C4、C5},具體實驗結(jié)果如圖9(a)所示;引入KDM模塊、AM模塊時,將特征金字塔網(wǎng)絡(luò)FPN得到的特征映射記作{P2、P3、P4、P5},實驗結(jié)果如圖9(b)所示。由實驗結(jié)果可以看出,相較于{C2、C3、C4、C5},{P2、P3、P4、P5}特征表征能力更強,文本信息捕獲更全面。

圖9 特征金字塔網(wǎng)絡(luò)FPN特征提取實驗結(jié)果Fig.9 Feature pyramid network FPN feature extraction experimental results

3.5 IOM后處理策略實現(xiàn)過程

IOM后處理策略是一個迭代過程,這里仍以圖1展示的文本圖像為例,通過其某一文本區(qū)域的一次迭代過程對IOM策略的實現(xiàn)進行說明。

待檢測圖像的當前次迭代輸入如圖10(a)所示,紅框位置文本區(qū)域包含6個交疊候選框,按照面積大小將其排序,記為S1,S2,S3,S4,S5,S6,如圖10(b)所示。將S1與S2按照 公 式10進 行計 算 交疊閾值T1,可以看出T1>0.5,因此將S2移除并保留S1與S2的最小外接矩形S'1,該過程如圖10(c)、圖10(d)所示。繼續(xù)重復(fù)上述操作,最終得到該區(qū)域候選框篩選結(jié)果,如圖10(e)所示。

圖10 IOM后處理過程Fig.10 IOM post-processing process

3.6 ICDAR2013數(shù)據(jù)集實驗及分析

該數(shù)據(jù)集是在2013年ICDAR閱讀挑戰(zhàn)賽中提出的,包含229張訓(xùn)練樣本和233張測試樣本,樣本為外景街拍的水平文本圖像,一幅圖像中存在多種尺寸和多種字體的文本區(qū)域。實驗結(jié)果如圖11所示,多算法性能結(jié)果對比如表1所示。

圖11 ICDAR2013數(shù)據(jù)集結(jié)果對比圖Fig.11 Comparison of ICDAR2013 data set result

由圖11中箭頭指向處可見,本文算法明顯改善了水平文本檢測任務(wù)中的掩膜重疊問題,且改進后的定位結(jié)果更加準確。

由表1可知,本文算法的準確度P較對比算法文獻[16]提升了1.2,召回率R提升了2.3,F(xiàn)度量值提升了1.8。表明本文算法對復(fù)雜自然場景中的水平方向文本檢測效果較好,優(yōu)于近幾年先進的文本檢測算法。

表1 ICDAR2013數(shù)據(jù)集算法性能對比Tab.1 Algorithm performance comparison of the IC‐DAR2013 dataset

3.7 ICDAR2015數(shù)據(jù)集實驗及分析

該數(shù)據(jù)集是2015年ICDAR閱讀挑戰(zhàn)賽中提出的,包含1 000個訓(xùn)練樣本和500個測試樣本,樣本為商場里隨拍的傾斜文本圖像,一幅圖像中存在大小差異較大的文本區(qū)域。實驗結(jié)果如圖 12所示,多算法性能結(jié)果對比如表2所示。

圖12 ICDAR2015數(shù)據(jù)集結(jié)果對比圖Fig.12 Comparison of ICDAR2015 data set results

表2 ICDAR2015數(shù)據(jù)集算法性能對比Tab.2 Algorithm performance comparison of the IC‐DAR2015 dataset

從圖12箭頭指向處可見,本文算法明顯抑制了水平和傾斜文本檢測時掩膜重疊的現(xiàn)象,使定位結(jié)果更加準確。并且對于一些較小的文本區(qū)域,本文算法表現(xiàn)優(yōu)異。

由表2可知,本文算法的準確度P較對比算法文獻[16]提升了1.3,召回率R提升了3,F(xiàn)度量值提升了2.2;相較對比算法文獻[31],本文算法召回率R、F度量值均較高,準確度P與其相當。表明本文算法對復(fù)雜自然場景中的傾斜方向文本檢測效果較好,優(yōu)于近幾年先進的文本檢測算法。

3.8 Total-text數(shù)據(jù)集實驗及分析

該數(shù)據(jù)集包含1 255個訓(xùn)練樣本和300個測試樣本,樣本多采自現(xiàn)實生活場景和商業(yè)標識等,圖像中存在水平、傾斜和彎曲三種文本區(qū)域。實驗結(jié)果如圖13所示,多算法性能結(jié)果對比如表3所示。

圖13 Total-text數(shù)據(jù)集結(jié)果對比圖Fig.13 Comparison of Total-text data set results

表3 Total-text數(shù)據(jù)集算法性能對比Tab.3 Algorithm performance comparison of the Totaltext dataset

圖13中箭頭處表明本文算法對于任意形狀文本檢測的掩膜重疊問題有明顯的改善,使定位更加精準。對于圖中出現(xiàn)的漏檢情況,分析其原因主要為:受訓(xùn)練數(shù)據(jù)的影響,有一些“文本”區(qū)域的標記帶有背景,這樣的訓(xùn)練數(shù)據(jù)在一定程度上影響訓(xùn)練過程。

由表3可知,相較對比算法文獻[16],本文算法準確度P提升了0.6,召回率R提升了2.3,F(xiàn)度量值提升了1.6;相較對比算法文獻[32],本文算法準確度P,F(xiàn)度量值均較高,召回率R與其相當。表明本文算法對復(fù)雜自然場景中的水平方向、傾斜方向以及彎曲方向文本檢測效果較好,具有一定的競爭力。

3.9 消融實驗

為了驗證本文提出的后處理篩選策略IOM有 效 性,在ICDAR2013數(shù) 據(jù) 集、ICDAR2015數(shù)據(jù)集以及Total-text數(shù)據(jù)集上進行了測試,結(jié)果如表4所示。可以看出,相比IOU,提出的IOM后處理篩選策略在ICDAR2013數(shù)據(jù)集上將算法的準確度P提升了0.7,召回率R提升了0.6,F(xiàn)度量值提升了0.7;在ICDAR2015數(shù)據(jù)集上將算法的準確度P提升了0.5,召回率R提升了1.5,F(xiàn)度量值提升了1;在Total-text數(shù)據(jù)集上將算法的準確度P提升了0.4,召回率R提升了1.4,F(xiàn)度量值提升了1.1。消融實驗結(jié)果表明,IOM后處理篩選策略顯著提高了算法的檢測性能。

表4 ICDAR2013、ICDAR2015、Total-text數(shù)據(jù)集后處理算法消融研究Tab.4 Research on ablation of post-processing algorithms for ICDAR2013、ICDAR2015 and Total-text datasets

4 結(jié) 論

本文提出了一種復(fù)雜場景下共享核空洞卷積與注意力引導(dǎo)FPN的文本檢測方法(KDAFPN)。該方法在特征提取階段,通過共享核空洞卷積深層次挖掘細粒度特征,同時減少參數(shù)量、降低模型復(fù)雜度。利用上下文注意模塊與內(nèi)容注意模塊精確表達目標位置信息,促進多尺度特征融合,提高特征圖質(zhì)量。提出IOM后處理策略來改善文本區(qū)域長寬比變化較大所帶來的掩膜重疊問題,進而實現(xiàn)檢測性能的提升。實驗結(jié)果證明:本文模型對于自然場景水平文本檢測的精度和召回率分別為95.3和90.4;對于傾斜文本檢測的精度和召回率分別為87.1和84.2;對于任意形狀文本檢測的精度和召回率分別為69.6和57.3,效果提升顯著。未來的工作將考慮把復(fù)雜場景下任意形狀文本的識別作為最終目標。

猜你喜歡
候選框特征提取卷積
重定位非極大值抑制算法
面向自然場景文本檢測的改進NMS算法
基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
基于Soft-NMS的候選框去冗余加速器設(shè)計*
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
基于傅里葉域卷積表示的目標跟蹤算法
一種針對特定目標的提議算法
Bagging RCSP腦電特征提取算法
基于MED和循環(huán)域解調(diào)的多故障特征提取
康平县| 星子县| 香格里拉县| 饶阳县| 邢台县| 格尔木市| 赫章县| 顺昌县| 米脂县| 海宁市| 新龙县| 无锡市| 商丘市| 禄丰县| 松潘县| 忻城县| 台江县| 红原县| 荆州市| 吴川市| 阳山县| 宁陕县| 新龙县| 广饶县| 郁南县| 泰安市| 乌兰察布市| 佛学| 邵阳县| 稷山县| 德令哈市| 岑溪市| 盖州市| 乐山市| 陵水| 虞城县| 宁南县| 刚察县| 元江| 和林格尔县| 汉川市|