国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向自然街景改進(jìn)的文本檢測

2023-04-21 13:10:34程艷云
關(guān)鍵詞:尺度卷積特征

丁 澤,程艷云

(南京郵電大學(xué) 自動(dòng)化學(xué)院、人工智能學(xué)院,江蘇 南京 210023)

0 引 言

文本在人機(jī)交互中扮演著重要的角色,隨著智能機(jī)器人、無人駕駛、醫(yī)療診斷的飛速發(fā)展,文本的檢測與識(shí)別已經(jīng)成為定位和理解物體信息的重要途徑。

經(jīng)典的文本檢測方法可分為兩大類:基于連通域分析的文本檢測方法和基于滑動(dòng)窗口的文本檢測方法。然而,基于連通域的方法對噪聲的包容性較差,而基于滑動(dòng)檢測窗的方法雖然可以避免該問題,但該方法卻對滑窗依賴極大,通用性不強(qiáng)。近年來,出現(xiàn)了大量的基于深度學(xué)習(xí)的自然場景文本檢測方法,這些方法多采用2種深度學(xué)習(xí)圖像處理策略:(1)目標(biāo)檢測算法中得到區(qū)域建議的策略;(2)圖像語義分割策略。

基于區(qū)域建議的方法一般以通用目標(biāo)檢測網(wǎng)絡(luò)作為基本模型,并在此基礎(chǔ)上結(jié)合實(shí)際應(yīng)用對算法進(jìn)行改良。2017年Liao等人[1]提出的TextBoxs網(wǎng)絡(luò)可根據(jù)不同卷積層的多尺度特征有效檢測出不同尺度文本。2018年,Liao等人[2]又在此基礎(chǔ)上提出了TextBoxs++文本檢測模型,利用旋轉(zhuǎn)角度的傾斜文本框?qū)崿F(xiàn)不規(guī)則的文本檢測窗。2019年,Zhong等人[3]提出一種無錨區(qū)域建議網(wǎng)絡(luò)(AF-RPN)替代Faster R-CNN中的基于參考框的區(qū)域建議方法。該方法能夠擺脫復(fù)雜的參考框設(shè)計(jì),在水平和多方向文本檢測任務(wù)中均取得了更高的召回率。2020年,Wang等人[4]提出了ContourNet文本檢測模型,該模型設(shè)計(jì)了一種與尺度無關(guān)的自適應(yīng)區(qū)域建議網(wǎng)絡(luò)(Adaptive-RPN),該網(wǎng)絡(luò)能有效地解決算法產(chǎn)生的偽召回及對尺度變化劇烈的文本檢測不準(zhǔn)確的問題。然而,上述方法在檢測任意形狀或極端縱橫比的文本時(shí)效果依舊不理想。

基于分割的方法以語義分割為基本技術(shù)手段,通過深度學(xué)習(xí)語義分割網(wǎng)絡(luò)對自然場景圖片進(jìn)行處理,獲取像素級(jí)別的標(biāo)簽預(yù)測。2018年,Deng等人[5]提出PixelLink模型,采用實(shí)例分割的方法,分割出文本行區(qū)域,然后直接找對應(yīng)文本行的外接矩形框,但其需針對不同數(shù)據(jù)集調(diào)整pixel和link的閾值,并設(shè)計(jì)不同的后處理方法,且無法處理背景復(fù)雜的數(shù)據(jù)。2019年,Xu等人[6]提出Text Field來學(xué)習(xí)一個(gè)方向場來鏈接相鄰像素,并使用一個(gè)簡單的基于形態(tài)學(xué)的后處理來實(shí)現(xiàn)最終檢測,但其后處理過程過于復(fù)雜,模型的檢測速度很慢。2019年,Wang等人[7]提出了PAN模型,通過像素聚合的方式來讓網(wǎng)絡(luò)學(xué)習(xí)文本相似性矢量,有選擇地聚合文本內(nèi)核附近的像素,有效地提升了文本的檢測速率但對任意形狀的文本檢測不夠魯棒。2021年,Wang等人[8]在PAN的基礎(chǔ)上又提出了PAN++網(wǎng)絡(luò),該網(wǎng)絡(luò)展示了一種基于文本內(nèi)核的任意形狀文本的表示方法,不僅能夠描述任意形狀的文本,還能在保持精度的同時(shí)實(shí)現(xiàn)較高的推理速度,但該方法表征能力較弱,在應(yīng)對極端縱橫比和旋轉(zhuǎn)文本的效果不佳。2020年,Liao等人[9]提出的MaskTextSpotterV3采用ResNet50作為主干網(wǎng)絡(luò),能有效地提取文本特征,并且該模型設(shè)計(jì)了一個(gè)無錨分割建議網(wǎng)絡(luò),可以提供對任意形狀建議的準(zhǔn)確描述,并且在檢測旋轉(zhuǎn)、極端長高比或不規(guī)則形狀的文本實(shí)例時(shí)具有魯棒性,但該方法因感受野較小且在特征融合階段將不同尺度特征直接融合,故在處理極端縱橫比、大尺度文本檢測時(shí)容易出現(xiàn)漏檢、誤檢的現(xiàn)象且易引入過多的噪聲,影響模型對小尺度文本的檢測效果。

為解決以上問題,該文在MaskTextSpotterV3的基礎(chǔ)上提出了一種融合多尺度模塊的文本檢測方法(text detection method incorporating multi-scale modules,IMSM)。該檢測方法采用改進(jìn)的特征提取模塊和改進(jìn)的特征融合模塊,在有效擴(kuò)大感受野的同時(shí)抑制噪聲信息,能有效地捕捉中長文本的特征信息,減少漏檢、誤檢的現(xiàn)象且對極端縱橫比的文本具有魯棒性。

1 融合多尺度模塊的文本檢測網(wǎng)絡(luò)

1.1 總體網(wǎng)絡(luò)架構(gòu)

該文提出的IMSM模塊如圖1所示,具體分為三個(gè)模塊,分別是改進(jìn)的特征提取模塊、改進(jìn)的特征融合模塊和分割候選模塊。主要內(nèi)容如下:為了平衡模型的體積和檢測效果,采用Resnet50作為主干網(wǎng)絡(luò),同時(shí)將FPN與改進(jìn)的感受野模塊(receptive field block for integrating attention,RFBIA)相融合以擴(kuò)大感受野、捕捉中長文本的特征信息。針對RFB模塊[10]下采樣融合后與輸入特征圖相加引入過多的噪聲信息,嵌入極化自注意力機(jī)制[11](polarized self attention,PSA)對特征進(jìn)行處理,以提取有效的文本特征。針對特征分布不確定性及遠(yuǎn)距離特征融合效果不佳的問題,在特征融合模塊中引入條形池化(strip pooling module,SPM)模塊[12]來捕獲更長距離之間的依賴關(guān)系,以此提升檢測方法的魯棒性。

特征提取模塊 特征融合模塊

1.2 特征提取與多尺度模塊

在特征金字塔網(wǎng)絡(luò)對主干網(wǎng)絡(luò)提取的高語義特征和高分辨率特征進(jìn)行融合時(shí),由于采用3*3的卷積,其對于極端縱橫比、大尺度文本的融合效果較差,易造成漏檢、誤檢的現(xiàn)象。為解決此問題,該文將融合后的高語義特征和高分辨率特征送入RFBIA模塊,通過擴(kuò)大感受野來對大尺度文本進(jìn)行檢測,同時(shí)RFBIA模塊也能有效抑制因?yàn)閿U(kuò)大感受野而引入的噪聲信息,提取有效特征,從而提高文本檢測效果。

RFBIA模塊如圖2所示,RFB模塊由多分支卷積層和膨脹卷積層組成,圖中用大小不同的圓形表示不同尺寸卷積核構(gòu)成的卷積層;膨脹卷積層的作用在于增加感受野,圖中用不同的rate表示膨脹卷積層的參數(shù)。其中,多分支卷積層使用多種尺寸的卷積核來實(shí)現(xiàn),相比于固定尺寸的卷積核而言,多尺寸的卷積核提取的信息更加豐富,從而能盡量避免信息的丟失。每個(gè)分支的卷積層后面會(huì)級(jí)聯(lián)一個(gè)膨脹卷積層,膨脹卷積層在保持參數(shù)量的同時(shí)能擴(kuò)大感受野,用來獲取更高分辨率的特征。

圖2 RFBIA結(jié)構(gòu)

然而,在RFB模塊下采樣得到高語義信息并擴(kuò)大感受野的同時(shí),由于分辨率的降低會(huì)丟失輸入圖像的部分特征信息。為了精確地從特征圖像中分割出文本信息,需要底層的特征圖提供重要的細(xì)節(jié)信息和邊緣信息,所以該文設(shè)計(jì)將輸入特征圖通過一個(gè)極化自注意力機(jī)制(PSA)來提供所需的細(xì)節(jié)信息和邊緣信息。輸入特征圖經(jīng)過PSA模塊后提取出豐富的局部信息和邊緣信息;而RFB模塊擴(kuò)大感受野后,提取出不同尺度的空間信息,得到包含高語義、抽象化的特征信息的輸出,將兩者提取出的信息相融合以進(jìn)行聯(lián)合預(yù)測,從而提高檢測效果。

在RFBIA模塊中,為有效地提取重要的細(xì)節(jié)信息和邊緣信息,并聯(lián)了一個(gè)精細(xì)的雙重注意力機(jī)制(PSA)。PSA采用了一種極化濾波(polarized filtering)的機(jī)制,類似于光學(xué)透鏡過濾光一樣,每個(gè)自注意力的作用都是用于增強(qiáng)或抑制特征,該機(jī)制在通道和空間維度能保持較高的分辨率,這能夠減少降維所造成的信息損失。該模塊還在通道和空間分支中采用了Softmax和Sigmoid相結(jié)合的非線性函數(shù),從而能夠擬合出細(xì)粒度回歸結(jié)果的輸出分布,如圖3所示。PSA分為兩個(gè)分支,一個(gè)分支做通道維度的自注意力機(jī)制,另一個(gè)分支做空間維度的自注意力機(jī)制。兩分支采用并行的方式來獲取注意力權(quán)重,這充分利用了自注意力結(jié)構(gòu)的建模能力,在保證計(jì)算量的情況下,實(shí)現(xiàn)了一種非常有效的長距離建模。輸入的特征再對分別經(jīng)過這兩個(gè)分支后產(chǎn)生的結(jié)果進(jìn)行融合就得到了極化自注意力結(jié)構(gòu)的輸出。

圖3 PSA網(wǎng)絡(luò)

通道維度的自注意力機(jī)制中,輸入的特征會(huì)經(jīng)過一個(gè)1*1的卷積將特征X轉(zhuǎn)換成Q(C/2×H×W)和V(1×H×W),其中Q通道被完全壓縮,而V的通道維度依舊保持在C/2的水平,由于Q的通道維度被完全壓縮,故而采用Softmax對Q通道的信息進(jìn)行增強(qiáng)。然后將Q和V進(jìn)行矩陣乘法,特征圖大小變?yōu)镃/2×1×1,然后特征圖再經(jīng)過一個(gè)1×1的卷積和LayerNorm層將通道維度從C/2上升為C。最后使用Sigmoid函數(shù)使得所有的參數(shù)都保持在[0,1]的范圍內(nèi)。通道維度的注意力權(quán)重如下:

Ach(X)=FSG[WZ|θ1(σ1(Wv(X))×

FSM(σ2(Wq(X))))]

其中,Wq、Wv、Wz均為1×1的卷積層,σ1、σ2是兩個(gè)張量reshape操作,而FSM(·)代表Softmax運(yùn)算,×則代表矩陣乘法運(yùn)算。通道分支的輸出結(jié)果則為通道權(quán)重與輸入特征的逐通道相乘。

與通道維度的自注意力機(jī)制相似,空間自注意力機(jī)制中輸入的特征圖也是先經(jīng)過一個(gè)1×1的卷積,將特征轉(zhuǎn)換為Q(C/2×H×W)和V(C/2×H×W),其中特征Q采用了全局池化來對空間維度進(jìn)行壓縮轉(zhuǎn)換成1×1的大小,而特征V的空間維度則保持在H×W的水平。由于特征Q的空間維度被完全壓縮,故而在全局池化后使用Softmax函數(shù)對Q的信息進(jìn)行增強(qiáng)。然后再將Q和V進(jìn)行矩陣乘法,將輸出結(jié)果進(jìn)行reshape和Sigmoid操作后,使得所有的參數(shù)都保持在[0,1]之間??臻g維度的注意力權(quán)重如下:

Asp(X)=FSG[σ3(FSM(σ1(FGP(Wq(X))))×

σ2(Wv(X)))]

其中,Wq和Wv是1×1的卷積,σ1、σ2和σ3表示三個(gè)張量reshape操作,FSM(·)表示Softmax操作,FGP(·)表示全局池化函數(shù),×表示矩陣點(diǎn)積運(yùn)算。

以上兩個(gè)分支并聯(lián)運(yùn)算輸出的結(jié)果為PSA(X)=Ach(X)⊙Xch+Asp(X)⊙Xsp,其中+代表逐元素相加。

1.3 特征融合模塊

在特征金字塔(FPN)融合高層信息和底層信息后,融合的特征圖將送到后續(xù)分割模塊中進(jìn)行分割以進(jìn)行文本的檢測與后續(xù)的識(shí)別,這就需要對輸出的特征進(jìn)行融合,將多尺度的特征融合到一張?zhí)卣鲌D中。由于自然場景中的文本信息大多呈長條形,或離散分布,為解決特征分布不確定性及遠(yuǎn)距離特征融合效果不佳的問題,該文在特征融合中引入SPM來捕獲更長距離之間的依賴關(guān)系,以此提升檢測方法的魯棒性。該模塊與RFBIA模塊相互補(bǔ)充,提升了整個(gè)網(wǎng)絡(luò)的性能。

SPM是一個(gè)新的池化策略,該策略采用了一個(gè)長而窄的核即1×N或N×1,以此來捕獲場景像素級(jí)預(yù)測任務(wù)的遠(yuǎn)程上下文信息,輸入的特征圖大小為C×H×W,圖4所示為一個(gè)通道的處理過程。

圖4 條形池化網(wǎng)絡(luò)

1.4 分割候選模塊

分割候選模塊采用了U-net結(jié)構(gòu),該結(jié)構(gòu)沿用了全卷積網(wǎng)絡(luò)(FCN)進(jìn)行圖像語義分割的思想,包括收縮路徑和擴(kuò)張路徑,其中收縮路徑用于捕獲上下文,擴(kuò)張路徑用于精確定位。相較于FCN而言,U-net在擴(kuò)張路徑上采樣的過程中擁有更多的通道數(shù),這使得U-net網(wǎng)絡(luò)能進(jìn)行多尺度的圖像特征識(shí)別,將上下文的信息向更高層分辨率傳播。同時(shí),U-net結(jié)構(gòu)在上采樣融合特征提取部分的輸出時(shí)采用了拼接的特征融合方式,將特征在通道維度拼接在一起形成更厚的特征,這也提高了其對于尺度的魯棒性。

與基于特征金字塔結(jié)構(gòu)的區(qū)域候選網(wǎng)絡(luò)在多個(gè)尺度的特征圖上產(chǎn)生候選框不同,分割候選網(wǎng)絡(luò)從分割圖中生成候選區(qū)域,其中分割圖由上文中融合后的特征圖映射預(yù)測得到。融合后的特征圖連接了不同感受野的特征映射,其大小為H/4×W/4,其中H和W分別是輸入圖像的高度和寬度。預(yù)測的文本分割圖的大小為1×H×W,其值在[0,1]的范圍內(nèi)。

1.4.1 分割標(biāo)簽生成

圖5 分割標(biāo)簽生成

左圖中外多邊形和內(nèi)多邊形分別是原始注釋和收縮區(qū)域,右圖為分段標(biāo)簽,黑色和白色分別代表0和1的值。

1.4.2 候選區(qū)域生成

給定一個(gè)值在[0,1]范圍內(nèi)的文本分割圖S,將S二值化為二值圖B。如上文所述,文本分割標(biāo)簽被收縮,然后分割候選網(wǎng)絡(luò)在二值圖中搜索出連通的區(qū)域,這些連通區(qū)域可以被視為收縮的文本區(qū)域,之后再通過Vatti clipping算法取消裁剪d像素,以此膨脹回文字區(qū)域。如上所述,分割候選網(wǎng)絡(luò)能夠精確地產(chǎn)生多邊形候選區(qū)域。因此,它能夠?yàn)闃O端長寬比的文字行和密集多方向、不規(guī)則形狀的文字生成合適的候選區(qū)域,同時(shí)也為后續(xù)模塊提供了精確的多邊形位置信息。

1.4.3 損失函數(shù)

文中將分割圖設(shè)為S,目標(biāo)圖設(shè)為G。損失函數(shù)表示為:

其中,I和U分別表示分割圖與目標(biāo)圖的交集和并集,*則代表逐元素相乘。

2 實(shí)驗(yàn)與分析

該文評估了所提出的改進(jìn)的文本檢測方法,并在不同標(biāo)準(zhǔn)場景文本基準(zhǔn)上測試了對旋轉(zhuǎn)、縱橫比、小尺度文字的魯棒性,并對提出的方法進(jìn)行了消融實(shí)驗(yàn)。

2.1 數(shù)據(jù)集

SynthText是一個(gè)包含800k文本圖像的合成數(shù)據(jù)集,它為單詞/字符邊界框和文本序列提供了注釋。

Rotated ICDAR 2013 dataset (RoIC13)是由ICDAR2013數(shù)據(jù)集生成的,該數(shù)據(jù)集的圖像集中在文本內(nèi)容周圍,文本實(shí)例在水平方向上并且由軸對齊的矩形框標(biāo)記,且該數(shù)據(jù)集提供了字符級(jí)的分割注釋。該數(shù)據(jù)集包含229張訓(xùn)練圖片和233張測試圖片,為了測試旋轉(zhuǎn)的魯棒性,該文還創(chuàng)建了旋轉(zhuǎn)的ICDAR2013數(shù)據(jù)集,方法是將ICDAR測試集中的圖像和注釋旋轉(zhuǎn)到一些特定的角度。

S-CUT是一個(gè)具有挑戰(zhàn)性的曲線文本數(shù)據(jù)集,由1 000張訓(xùn)練圖像和500張測試圖像組成。不同于傳統(tǒng)的文本數(shù)據(jù)集,SCUT中的文本實(shí)例由14個(gè)點(diǎn)的多邊形標(biāo)記,因此它可以描述一個(gè)任意曲線文本的形狀。

Total-Text數(shù)據(jù)集包含1 255張訓(xùn)練圖片和300張測試圖片。它提供各種形狀的文本實(shí)例,包括水平的、定向的和彎曲的形狀。盡管Total-Text數(shù)據(jù)集提供了字符級(jí)的注釋,但該文并未使用。

ICADR2015數(shù)據(jù)集包含1 000張訓(xùn)練圖像和500張測試圖像,這些圖像都用矩形邊界框標(biāo)注。該數(shù)據(jù)集中的大多數(shù)圖像的分辨率較低,并且包含小文本實(shí)例。

2.2 實(shí)驗(yàn)細(xì)節(jié)

該文使用SGD來優(yōu)化模型,權(quán)重衰減為0.001,動(dòng)量為0.9。在消融實(shí)驗(yàn)和對比實(shí)驗(yàn)中使用SynthText預(yù)訓(xùn)練的ResNet 50模型作為主干網(wǎng)絡(luò),然后使用SynthText、ICDAR2013數(shù)據(jù)集、ICDAR2015數(shù)據(jù)集、S-CUT數(shù)據(jù)集和Total-Text數(shù)據(jù)集進(jìn)行300 000次迭代的混合微調(diào),這些數(shù)據(jù)集之間的采樣率設(shè)置為2∶2∶2∶1∶1。

在微調(diào)期間,初始學(xué)習(xí)率為0.01,然后分別在100 000次迭代和200 000次迭代時(shí)降低10倍。在推理期間,輸入圖像的短邊在RoIC13數(shù)據(jù)集上調(diào)整為1 000,在ICDAR2015數(shù)據(jù)集上調(diào)整為1 440,以保持縱橫比。

2.3 實(shí)驗(yàn)環(huán)境

實(shí)驗(yàn)使用python3.7作為編程語言,pytorch版本為1.4.0。所有的實(shí)驗(yàn)都是在Linux18.04操作系統(tǒng)進(jìn)行,顯卡配置為兩張NVIDIA RTX2080TI。

2.4 評價(jià)指標(biāo)

2.5 消融實(shí)驗(yàn)

為了驗(yàn)證RFBIA和SPM的有效性,在ICDAR2015和RoIC13數(shù)據(jù)集上分別進(jìn)行了消融實(shí)驗(yàn)。

如表1所示,在添加提出的RFBIA后,原始網(wǎng)絡(luò)的準(zhǔn)確率下降了0.7百分點(diǎn),檢測速率下降了0.3 fps,而召回率、F1值均有所提升。在添加SPM后,原始網(wǎng)絡(luò)的準(zhǔn)確率、召回率、F1值均有提升,其中召回率提升了4百分點(diǎn),但檢測速率下降了0.1 fps。而在RFBIA和SPM的聯(lián)合使用下,原始網(wǎng)絡(luò)的準(zhǔn)確率上升了1.7百分點(diǎn),召回率上升了4.2百分點(diǎn),F1指標(biāo)上升了3.3百分點(diǎn),與此同時(shí),檢測速率也下降了0.4 fps。

表1 ICDAR2015消融實(shí)驗(yàn)

如表2所示,在添加提出的RFBIA后,在旋轉(zhuǎn)45°、60°時(shí),原始網(wǎng)絡(luò)的準(zhǔn)確率、召回率、F1指標(biāo)、檢測速率均有上升,其中在旋轉(zhuǎn)60°時(shí),各項(xiàng)指標(biāo)提升較多。在添加SPM后,在旋轉(zhuǎn)45°時(shí),原始網(wǎng)絡(luò)各項(xiàng)指標(biāo)均有所下降,僅檢測速率上升了0.6 fps;而在旋轉(zhuǎn)60°時(shí),原始網(wǎng)絡(luò)的各項(xiàng)指標(biāo)均有提升。在RFBIA+SPM聯(lián)合使用下,在旋轉(zhuǎn)45°時(shí),原始網(wǎng)絡(luò)的召回率、F1指標(biāo)、檢測速率有所提升,但準(zhǔn)確率降低了1.6百分點(diǎn);而在旋轉(zhuǎn)60°時(shí),原始網(wǎng)絡(luò)的準(zhǔn)確率、F1指標(biāo)、召回率提升較大,其中召回率上升了5.8百分點(diǎn),檢測速率無變化。

表2 RoIC13消融實(shí)驗(yàn)

提出的算法在ICDAR2015數(shù)據(jù)集和RoIC13數(shù)據(jù)集上消融實(shí)驗(yàn)的可視化測試結(jié)果如圖6所示,其中按列從左到右分別為測試圖、原始網(wǎng)絡(luò)檢測結(jié)果圖和文中算法檢測結(jié)果圖。

圖6 對比結(jié)果展示

將以上結(jié)果進(jìn)行分析可得,在原始算法框架中添加了RFBIA模塊后,由于RFBIA彌補(bǔ)了FPN提取特征時(shí)感受野較小的缺點(diǎn),增強(qiáng)了模型檢測大尺度彎曲文本的能力,模型的檢測準(zhǔn)確率在各數(shù)據(jù)集上均有提升,但該模塊對于小尺度密集文本較多的ICDAR2015數(shù)據(jù)集的檢測效果并不明顯。在原始網(wǎng)絡(luò)中添加SPM模塊后,模型的各項(xiàng)檢測指標(biāo)在ICDAR2015數(shù)據(jù)集上有明顯提升,但在其他數(shù)據(jù)集上則表現(xiàn)效果一般,這是因?yàn)镾PM模塊能有效捕獲長距離的依賴關(guān)系,其條紋池化操作也可以認(rèn)為是一種注意力機(jī)制,能有效地挖掘小尺度信息,對特征進(jìn)行提取。而RFBIA和SPM的聯(lián)合使用不僅增強(qiáng)了模型檢測大尺度文本的能力,降低了特征圖分辨率的損失,而且對有效文本特征信息的提取也有所增強(qiáng)。同時(shí),該算法在RoIC13數(shù)據(jù)集旋轉(zhuǎn)60°實(shí)驗(yàn)中的表現(xiàn)也證明了所提出的算法對于旋轉(zhuǎn)的魯棒性。

2.6 對比實(shí)驗(yàn)

該方法與其他方法在Total-Text數(shù)據(jù)集上對綜合評價(jià)指標(biāo)F值的對比結(jié)果如表3所示,表3展示了文中方法在檢測(Detection)和端到端(End-to-End)識(shí)別的情況下與其他模型的對比分析,為了使對比分析更加直觀、公平,端到端識(shí)別的情況又分為無詞匯表識(shí)別(None)和有詞匯表識(shí)別(Full)兩種情況。提出的方法在檢測效果方面相比于針對處理多方向和曲線文本的CharNet[13]高了0.1百分點(diǎn),相較于MaskTextSpotter高出了0.5百分點(diǎn),這是因?yàn)镃harNet和MaskTextSpotter采用的傳統(tǒng)的區(qū)域建議網(wǎng)絡(luò)對極端縱橫比的文本識(shí)別效果不佳。而在進(jìn)行端到端的文本定位時(shí),文中方法在沒有詞匯表的情況下相較于PAN++高出了2.9百分點(diǎn),這是由于PAN++采用的輕量級(jí)網(wǎng)絡(luò)的表征能力較弱,雖然其推理速度較高,但識(shí)別精度還有待提高;相較于MaskTextSpotter V3高出了0.3百分點(diǎn),體現(xiàn)了文中方法在無監(jiān)督的情況下對文本識(shí)別效果的提升。而在有詞匯表的情況下相較于ABCNet[14]高出了1.2百分點(diǎn),持平于PAN++;相較于MaskTextSpotter V3則高出了0.2百分點(diǎn)。MaskTextSpotter V3在提取特征時(shí)感受野較小,而在特征融合階段則將不同尺度的特征直接相加,容易造成漏檢、誤檢,從而導(dǎo)致學(xué)習(xí)到的特征較為分散,這也體現(xiàn)了文中方法在彎曲文本上的有效性及對多方向文本檢測有較強(qiáng)的魯棒性。在提升整體網(wǎng)絡(luò)對文本識(shí)別性能的同時(shí),所提出的算法由于后處理過程較為復(fù)雜,在識(shí)別效率方面僅比CharNet高出1.9,相較于其他網(wǎng)絡(luò)模型還有待提升。

表3 Total-Text 數(shù)據(jù)集上模型性能對比

3 結(jié)束語

文中的研究具有一定的應(yīng)用前景,例如檢測路牌文字、輔助自動(dòng)駕駛的導(dǎo)航、機(jī)器人送貨上門等。但是,目前街景的文本檢測中仍然存在一些問題,因此,提出了一個(gè)融合多尺度模塊的文本檢測方法(IMSM)。其中RFBIA和SPM能將有效特征精準(zhǔn)地覆蓋到目標(biāo)文本區(qū)域,在突出特征的同時(shí)能有效抑制噪聲影響。實(shí)驗(yàn)結(jié)果表明,文中算法在彎曲文本、旋轉(zhuǎn)文本、密集小尺度文本的檢測上有著優(yōu)異的表現(xiàn)。后續(xù)工作將對提升文本對極端縱橫比的魯棒性、提高模型檢測效率以及模型的輕量化展開深入研究,進(jìn)一步提高檢測效果。

猜你喜歡
尺度卷積特征
基于3D-Winograd的快速卷積算法設(shè)計(jì)及FPGA實(shí)現(xiàn)
財(cái)產(chǎn)的五大尺度和五重應(yīng)對
如何表達(dá)“特征”
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
不忠誠的四個(gè)特征
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
抓住特征巧觀察
宇宙的尺度
太空探索(2016年5期)2016-07-12 15:17:55
9
一種基于卷積神經(jīng)網(wǎng)絡(luò)的性別識(shí)別方法
乌拉特后旗| 江阴市| 唐山市| 海门市| 图木舒克市| 达尔| 南华县| 同江市| 霍城县| 北安市| 四会市| 曲松县| 万荣县| 辉县市| 达日县| 霍州市| 高青县| 边坝县| 容城县| 浮山县| 大城县| 清苑县| 台中市| 青川县| 揭东县| 绥宁县| 鄂托克旗| 萨嘎县| 西华县| 广灵县| 云南省| 河南省| 同仁县| 蛟河市| 璧山县| 奈曼旗| 清流县| 武隆县| 防城港市| 大荔县| 工布江达县|