陳澤瀛
摘要:場(chǎng)景文本檢測(cè)是場(chǎng)景文本識(shí)別系統(tǒng)的重要步驟,也是一個(gè)具有挑戰(zhàn)性的問題。與一般對(duì)象檢測(cè)不同,場(chǎng)景文本檢測(cè)的主要挑戰(zhàn)在于自然圖像中文本的任意方向,較小的尺寸以及顯著不同的寬高比。本文提出了一種名為SANTD( Self-adaptive NMS Text Detection)可端到端訓(xùn)練的文本檢測(cè)模型,該檢測(cè)模型可以在單個(gè)網(wǎng)絡(luò)中精確、高效地檢測(cè)任意方向的場(chǎng)景文本。同時(shí),本文還對(duì)非極大值抑制做了修改,使其可自適應(yīng)地檢測(cè)文本框附近的密度值。在評(píng)估實(shí)驗(yàn)中,SANTD在準(zhǔn)確率和召回率上都表現(xiàn)出了一定的優(yōu)勢(shì)。在數(shù)據(jù)集ICDAR 2015上,SANTD以11.6fps得到84.3%的值。
關(guān)鍵詞:文本檢測(cè);自適應(yīng);非極大值抑制;卷積神經(jīng)網(wǎng)絡(luò)
中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2020)03-0117-04
0 引言
場(chǎng)景文本是自然場(chǎng)景中最常見的視覺對(duì)象之一,經(jīng)常出現(xiàn)在道路標(biāo)志、車牌、廣告牌、產(chǎn)品包裝上。盡管自然場(chǎng)景下的文本檢測(cè)與傳統(tǒng)的OCR相似,但由于文本的多樣性、背景的復(fù)雜性以及無法控制的光照條件等因素,使得場(chǎng)景文本閱讀更具挑戰(zhàn)性,如文獻(xiàn)[1]所述。近年來,場(chǎng)景文本檢測(cè)已經(jīng)得到了廣泛的研究[1-3],并且隨著目標(biāo)檢測(cè)、語(yǔ)義分割的迅速發(fā)展,近來取得了明顯的進(jìn)步。這些場(chǎng)景文本檢測(cè)器主要可以分為兩類。一類是基于目標(biāo)檢測(cè)(如SSD[4]、YOLO[5]、DenseBox[6])直接預(yù)測(cè)候選邊界框的文本檢測(cè)算法如TextBoxes[7],F(xiàn)CRN[8]和EAST[9]。第二類是基于語(yǔ)義分割,例如文獻(xiàn)[10]和文獻(xiàn)[11],它們生成分割圖并通過后期處理生成最終的文本邊界框。
本文基于目標(biāo)檢測(cè)算法SSD通過端到端可訓(xùn)練的單個(gè)神經(jīng)網(wǎng)絡(luò)直接預(yù)測(cè)具有四邊形的單詞邊界框來檢測(cè)文本,并在網(wǎng)絡(luò)中構(gòu)建自適應(yīng)非極大值抑制算法,稱之為SANTD。
本文用四邊形代替?zhèn)鹘y(tǒng)目標(biāo)檢測(cè)中的矩形框來表示文本區(qū)域,同時(shí)為了識(shí)別較長(zhǎng)的文本區(qū)域,加入“長(zhǎng)條形”卷積核來預(yù)測(cè)文本區(qū)域邊界框。SANTD通過聯(lián)合預(yù)測(cè)文本是否存在和錨點(diǎn)框坐標(biāo)偏移,直接在多層輸出文本邊界框,然后輸出所有錨點(diǎn)框經(jīng)過可學(xué)習(xí)非極大值抑制后的錨點(diǎn)框。在網(wǎng)絡(luò)中,單個(gè)前向網(wǎng)絡(luò)可以檢測(cè)圖像上的多尺度文本框。該檢測(cè)器在速度上具有很大優(yōu)勢(shì)。
1 相關(guān)工作
1.1 文本檢測(cè)
場(chǎng)景文本閱讀系統(tǒng)通常由文本檢測(cè)和文本識(shí)別兩部分組成。前一個(gè)組件主要以單詞邊框的形式在圖像中定位文本。后者將文字圖像裁剪成機(jī)器可解釋的字符序列。在本文中,我們涵蓋了這兩個(gè)方面,但更多的是關(guān)注檢測(cè)。一般來說,大多數(shù)文本檢測(cè)器可以根據(jù)原始檢測(cè)目標(biāo)和目標(biāo)包圍盒的形狀,按照兩種分類策略大致分為幾類。
1.1.1 基于回歸的文本檢測(cè)
在過去兩年中,基于回歸的文本檢測(cè)已成為場(chǎng)景文本檢測(cè)的主流?;谄胀繕?biāo)檢測(cè)器,提出了幾種文本檢測(cè)方法,并取得了實(shí)質(zhì)性進(jìn)展。源自SSD[4]的TextBoxes[7]使用“長(zhǎng)”默認(rèn)框和“長(zhǎng)”卷積核來應(yīng)對(duì)極端的寬高比。同樣,在文獻(xiàn)[12]中,Ma等人利用Faster-RCNN[13]的體系結(jié)構(gòu),并在RPN中添加旋轉(zhuǎn)錨點(diǎn)以檢測(cè)面向任意方向的場(chǎng)景文本。SegLink[14]基于SSD網(wǎng)絡(luò)預(yù)測(cè)文本分割區(qū)域和區(qū)域間鏈接,并將這些分割區(qū)域鏈接到文本框,以便在自然場(chǎng)景中處理長(zhǎng)方向的文本。基于DenseBox[6],EAST[9]直接使文本框回歸。
本文基于目標(biāo)檢測(cè)算法DSSD[15],與上述直接回歸文本框或直接分割的方法不同,我們定位文本框角點(diǎn)的位置,然后通過對(duì)檢測(cè)到的角進(jìn)行采樣、分組和引入可學(xué)習(xí)非極大值抑制來生成文本框。
1.1.2 基于分割的文本檢測(cè)
基于分割的文本檢測(cè)是文本檢測(cè)的另一個(gè)方向。受FCN[16]的啟發(fā),提出了一些使用分割圖來檢測(cè)場(chǎng)景文本的方法。在文獻(xiàn)[10]中,Zhang等人第一次嘗試由FCN從分割圖提取文本塊。然后,他們使用MSER[17]檢測(cè)這些文本塊中的字符,并通過一些先驗(yàn)規(guī)則將字符分組為單詞或文本行。在文獻(xiàn)[11]中,Yao等人使用FCN來預(yù)測(cè)輸入圖像的三種類型的地圖(文本區(qū)域,字符和鏈接方向)。然后進(jìn)行一些后處理以獲得帶有分割圖的文本邊界框。
1.1.3 基于角點(diǎn)的目標(biāo)檢測(cè)
基于角點(diǎn)的目標(biāo)檢測(cè)是目標(biāo)檢測(cè)算法的一種新方式。在DeNet[18]中,Tychsen-Smith等人在Faster-RCNN風(fēng)格的兩階段模型中,提出了一個(gè)角檢測(cè)層和一個(gè)稀疏樣本層來代替RPN。在文獻(xiàn)[19]中,Wang等提出PLN(點(diǎn)連接網(wǎng)絡(luò)),它使用完全卷積網(wǎng)絡(luò)對(duì)邊界框的角點(diǎn)、中心點(diǎn)及其連接線進(jìn)行回歸,然后使用角點(diǎn)、中心點(diǎn)及其連接線形成對(duì)象的邊界框。
1.1.4 端到端文本檢測(cè)器
端到端方法同時(shí)訓(xùn)練檢測(cè)和識(shí)別模塊,以便通過利用識(shí)別結(jié)果來提高檢測(cè)精度。 FOTS[20]和EAA[21]將流行的檢測(cè)和識(shí)別方法進(jìn)行疊加,并以端到端的方式對(duì)其進(jìn)行訓(xùn)練。Mask TextSpotter[22]利用他們的統(tǒng)一模型將識(shí)別任務(wù)視為語(yǔ)義分割問題。顯然,使用識(shí)別模塊進(jìn)行訓(xùn)練可以幫助文本檢測(cè)器對(duì)類似文本的背景識(shí)別更加魯棒。
1.2 非極大值抑制
非極大值抑制(NMS,Non-Maximum Suppression)是計(jì)算機(jī)視覺中廣泛使用的后處理算法。它是許多檢測(cè)方法的重要組成部分,例如邊緣檢測(cè)[23],特征點(diǎn)檢測(cè)和目標(biāo)檢測(cè)[13,24,25]。NMS廣泛應(yīng)用于目標(biāo)檢測(cè)算法中,對(duì)于重疊度較高的一部分同類候選框來說,去掉那些置信度較低的框,只保留置信度最大的那一個(gè)進(jìn)行后面的流程,其中重疊度通過NMS閾值衡量。
Soft-NMS[26]和Learning-NMS[27]被提出用來改善NMS的結(jié)果。Soft-NMS不會(huì)丟棄得分低于閾值的所有周圍提議,而是通過增加鄰居與得分較高的邊界框的重疊程度來降低鄰居的檢測(cè)得分。文獻(xiàn)[27]試圖學(xué)習(xí)僅使用盒子及其分?jǐn)?shù)作為輸入的深層神經(jīng)網(wǎng)絡(luò)來執(zhí)行NMS功能,但是該網(wǎng)絡(luò)經(jīng)過專門設(shè)計(jì)并且非常復(fù)雜。文獻(xiàn)[28]提出了一個(gè)對(duì)象關(guān)系模塊來學(xué)習(xí)NMS作為端到端通用對(duì)象檢測(cè)器的功能。文獻(xiàn)[29]用學(xué)習(xí)到的本地化置信度代替了在NMS過程中使用的提議分類分?jǐn)?shù),以指導(dǎo)NMS保存更準(zhǔn)確的本地化邊界框。與它們不同的是,本文建議將每個(gè)真實(shí)目標(biāo)周圍的密度作為自己的抑制閾值來學(xué)習(xí),這與文字計(jì)數(shù)任務(wù)中的文字密度估計(jì)有一些相似之處。
2 SANTD
2.1 網(wǎng)絡(luò)結(jié)構(gòu)
本文使用基于VGG16的全卷積網(wǎng)絡(luò)結(jié)構(gòu)作為主干網(wǎng)絡(luò),使用類似于U-Net的構(gòu)建方式聚合低卷積層特征,網(wǎng)絡(luò)結(jié)構(gòu)如圖1所示。
SANTD繼承了當(dāng)前較為流行的VGG-16網(wǎng)絡(luò)結(jié)構(gòu)[30],保留了從Conv1_1到Conv5_3的卷積層,并將VGG-16的最后兩個(gè)全連接層轉(zhuǎn)換為兩個(gè)卷積層(C6和C7)進(jìn)行下采樣[4]。在C7之后通過最大池化分成不同分辨率的另外四個(gè)卷積層,分為四個(gè)階段(C8至C11)。然后,在C11之后加入多個(gè)上采樣卷積層用來聚合不同感受野下的檢測(cè)結(jié)果。最后,通過自適應(yīng)非極大值抑制提取出文本框。綜上所述,SANTD是完全卷積的結(jié)構(gòu),僅由卷積和池化層組成,所以SANTD可以在訓(xùn)練和測(cè)試階段適應(yīng)任意大小的圖像。
2.2 自適應(yīng)非極大值抑制
Greedy-NMS和Soft-NMS的設(shè)計(jì)都遵循著一個(gè)假設(shè):當(dāng)一個(gè)檢測(cè)框與當(dāng)前最大得分檢測(cè)框重疊程度較高時(shí),這個(gè)檢測(cè)框是假陽(yáng)性的可能性更大。這個(gè)假設(shè)用于目標(biāo)識(shí)別時(shí)沒有問題,因?yàn)樵谡G闆r下目標(biāo)很少會(huì)發(fā)生遮擋。但是,這種假設(shè)在擁擠的場(chǎng)景中則會(huì)有一定的偏差;在密集文字場(chǎng)景中,人類實(shí)例彼此高度重疊的檢測(cè)框。為了適應(yīng)密集文字場(chǎng)景檢測(cè),NMS應(yīng)考慮:(1)遠(yuǎn)離的檢測(cè)框,其誤報(bào)的可能性較小,因此應(yīng)予以保留;(2)對(duì)于高度重疊的相鄰檢測(cè)框,抑制策略不僅取決于與的重疊,而且還要判定此時(shí)是否位于擁擠區(qū)域。如果位于擁擠的區(qū)域,則其高度重疊的相鄰檢測(cè)框很可能是真實(shí)的,因此應(yīng)給予較輕的懲罰或予以保留。但是對(duì)于稀疏區(qū)域的實(shí)例,懲罰應(yīng)更高些。
本文將檢測(cè)框的擁擠度定義為其他檢測(cè)框與檢測(cè)框重疊部分的最大值,如公式所示:
(1)
另外,本文將非極大值抑制的閾值進(jìn)行調(diào)整,用與的較大值作為當(dāng)前循環(huán)下的閾值如公式所示:
(2)
(3)
其中,表示檢測(cè)框的自適應(yīng)非極大值抑制閾值,表示檢測(cè)框的擁擠度,表示檢測(cè)框得分或經(jīng)過前序非極大值抑制后的當(dāng)前得分。當(dāng)鄰近檢測(cè)框與檢測(cè)框重疊區(qū)域小于時(shí),閾值與傳統(tǒng)NMS一致為超參數(shù);當(dāng)大于等于時(shí),自適應(yīng)NMS閾值將轉(zhuǎn)變成,即當(dāng)前。
自適應(yīng)非極大值抑制算法如圖2所示,從算法復(fù)雜度而言幾乎與greedy NMS和soft NMS保持一致。自適應(yīng)非極大值抑制的唯一額外消耗是一個(gè)包含個(gè)元素的列表,其中存儲(chǔ)了每個(gè)檢測(cè)框的擁擠度,對(duì)于今天的硬件配置而言,可以忽略不計(jì)。因此,自適應(yīng)非極大值抑制算法對(duì)檢測(cè)器的運(yùn)行效率影響不大。
3 評(píng)估實(shí)驗(yàn)
為了驗(yàn)證該方法的有效性,我們?cè)贗CDAR2013和ICDAR2015公共數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),并與其他方法進(jìn)行了比較。
3.1 實(shí)驗(yàn)細(xì)節(jié)
SANTD在SynthText[8]上進(jìn)行了預(yù)訓(xùn)練,然后在其他數(shù)據(jù)集(COCO-Text除外)上進(jìn)行了微調(diào)。我們使用Adam優(yōu)化模型,將學(xué)習(xí)率固定為。在訓(xùn)練前階段,我們?cè)赟ynthText上訓(xùn)練模型一個(gè)時(shí)間。在微調(diào)階段,迭代次數(shù)由數(shù)據(jù)集的大小決定。
數(shù)據(jù)擴(kuò)充我們使用與SSD相同的數(shù)據(jù)擴(kuò)充方式。我們以SSD方式從輸入圖像中隨機(jī)采樣補(bǔ)丁,然后將采樣補(bǔ)丁的大小調(diào)整為512×512。
我們的方法在PyTorch[31]中實(shí)現(xiàn)。所有實(shí)驗(yàn)都是在常規(guī)工作站上進(jìn)行的(CPU:IntelXeonCPU E5-2650 v3 @ 2.30GHz; GPU:NVIDIA Tesla V100; RAM:64GB)。我們?cè)?個(gè)GPU上并行訓(xùn)練具有32個(gè)批處理大小的模型,并在1個(gè)批處理大小的GPU上評(píng)估模型。
3.2 評(píng)估協(xié)議
用于文本檢測(cè)和文本識(shí)別的經(jīng)典評(píng)估協(xié)議都依賴于三個(gè)參數(shù),它們分別是準(zhǔn)確率(),召回率()和值()。
(4)
其中,和分別是命中框,錯(cuò)誤框和錯(cuò)過的框的數(shù)量。對(duì)于文字檢測(cè)時(shí),如果預(yù)測(cè)框與真實(shí)框之間的大于給定閾值(通常設(shè)置為0.5),則將檢測(cè)到的框視為命中框。文本端到端識(shí)別中的命中框不僅需要相同的限制,還需要正確的識(shí)別結(jié)果。由于需要在精度和召回率之間進(jìn)行權(quán)衡,因此是性能評(píng)估中最常用評(píng)估值。
3.3 實(shí)驗(yàn)結(jié)果
3.3.1 檢測(cè)水平方向文字
我們?cè)u(píng)估了模型在ICDAR2013數(shù)據(jù)集上水平文本的檢測(cè)能力。在測(cè)試中,輸入圖像的大小調(diào)整為512×512。我們還使用多尺度輸入來評(píng)估模型,表1中帶*的部分是在多尺度下的評(píng)估結(jié)果,多尺度包括(512×512;768×768;768×1280;1280×1280)。
結(jié)果如表1所示,與大多數(shù)評(píng)估方式保持一致,使用“Deteval”方式進(jìn)行評(píng)估。本文提出的算法在評(píng)估中取得了不錯(cuò)的結(jié)果。單次測(cè)試時(shí),我們的方法達(dá)到了86.3%的值,略低于最高結(jié)果。在多尺度評(píng)估中,我們的方法達(dá)到了88%的值,與其他方法相比具備一定的競(jìng)爭(zhēng)力。
3.3.2 檢測(cè)任意方向文字
我們?cè)贗CDAR2015數(shù)據(jù)集上評(píng)估我們的模型,以測(cè)試其在任意方向文本檢測(cè)方面的能力。我們?cè)贗CDAR2015和ICDAR2013的數(shù)據(jù)集上再微調(diào)。為了更好地檢測(cè)垂直文本,在最近的15個(gè)epoch中,以0.2的概率將圖像隨機(jī)正向或逆向旋轉(zhuǎn)90度。
本文將SANTD與其他方法進(jìn)行了比較,并在表2中列出了評(píng)估實(shí)驗(yàn)結(jié)果。從表2中可以看出SANTD優(yōu)于其他方法。在單次測(cè)試中,SANTD達(dá)到了80.2%的值,超過了所有其他文獻(xiàn)[9-11,14,21]中的算法。
3.3.3 與其他NMS對(duì)比
為了驗(yàn)證自適應(yīng)非極大值抑制的有效性,本文使用同樣的網(wǎng)絡(luò)結(jié)果,只在最后一步非極大值抑制做相應(yīng)變化,分別在ICDAR2013和ICDAR2015兩個(gè)數(shù)據(jù)集上進(jìn)行評(píng)估實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表3所示。
由表3可見,自適應(yīng)非極大值抑制不管是在數(shù)據(jù)集ICDAR 2013上還是ICDAR2015都表現(xiàn)出了不錯(cuò)的成績(jī),同時(shí)在FPS上也并沒有太多差別。
4 結(jié)語(yǔ)
本文提出一種自適應(yīng)非極大值抑制的,并且可以檢測(cè)任意方向文本的檢測(cè)算法SANTD。該算法快速、高效且可端到端訓(xùn)練。在未來的工作中,我們希望以端到端的方式加入文字識(shí)別模型,同時(shí)訓(xùn)練文本檢測(cè)和文本識(shí)別模型,由此或許可以讓檢測(cè)和識(shí)別都能表現(xiàn)得更加準(zhǔn)確、高魯棒性和更強(qiáng)的可推廣性,使其轉(zhuǎn)化為一個(gè)更好的場(chǎng)景文本發(fā)現(xiàn)系統(tǒng),從而可以更廣泛地應(yīng)用到生產(chǎn)生活中去。
參考文獻(xiàn)
[1] Bissacco A,Cummins M,Netzer Y,et al.PhotoOCR:Reading Text in Uncontrolled Conditions[C]//2013 IEEE International Conference on Computer Vision(ICCV).IEEE,2013:785-792.
[2] Epshtein B,Ofek E,Wexler Y.Detecting Text in Natural Scenes with Stroke Width Transform[C]//Computer Vision and Pattern Recognition (CVPR),2010 IEEE Conference on.IEEE,2010:2963-2970.
[3] Yao C,Bai X,Liu W,et al.Detecting Texts of Arbitrary Orientations in Natural Images[C]//IEEE Conference on Computer Vision & Pattern Recognition.IEEE,2012:1083-1090.
[4] Liu W,Anguelov D,Erhan D,et al.SSD:Single Shot MultiBox Detector[C]//European Conference on Computer Vision.Springer International Publishing,2016:21-37.
[5] Redmon J,Divvala S,Girshick R,et al.You Only Look Once:Unified,Real-Time Object Detection[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).IEEE,2016.
[6] Huang L,Yang Y,Deng Y,et al.DenseBox:Unifying Landmark Localization with End to End Object Detection[J].Computer Science,2015,37(9):682-689.
[7] Liao M,Shi B,Bai X,et al.TextBoxes:A Fast Text Detector with a Single Deep Neural Network[J].AAAI,2017:4161-4167.
[8] Gupta A,Vedaldi A,Zisserman A.Synthetic Data for Text Localisation in Natural Images[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).IEEE,2016:2315-2324.
[9] Zhou X,Yao C,Wen H,et al.EAST:An Efficient and Accurate Scene Text Detector[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).IEEE,2017:2642-2651.
[10] Zhang Z,Zhang C,Shen W,et al.Multi-Oriented Text Detection with Fully Convolutional Networks[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).IEEE,2016:4159-4167.
[11] Yao C,Bai X,Nong S.Scene Text Detection via Holistic,Multi-Channel Prediction[J].arXiv e-prints,2016:1606.09002.
[12] Ma J,Shao W,Ye H,et al.Arbitrary-Oriented Scene Text Detection via Rotation Proposals[J].ieee transactions on multimedia,2017(99):1.
[13] Ren S,He K,Girshick R,et al.Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2017,39(6):1137-1149.
[14] Shi B,Bai X,Belongie S.Detecting Oriented Text in Natural Images by Linking Segments[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).IEEE,2017:3482-3490.
[15] Fu C Y,Liu W,Ranga A,et al.DSSD:Deconvolutional Single Shot Detector[J].arXiv e-prints,2017:1701.06659.
[16] Long J,Shelhamer E,Darrell T.Fully Convolutional Networks for Semantic Segmentation[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2014,39(4):640-651.
[17] Neumann L,Matas J.A Method for Text Localization and Recognition in Real-World Images[C]//Computer Vision-accv -asian Conference on Computer Vision.DBLP,2010:770-783.
[18] Tychsen-Smith L,Petersson L.DeNet:Scalable Real-time Object Detection with Directed Sparse Sampling[J].ICCV,2017:428-436.
[19] Wang X,Chen K,Huang Z,et al.Point Linking Network for Object Detection[J].arXiv e-prints,2017:1706.03646.
[20] Liu X,Liang D,Yan S,et al.FOTS:Fast Oriented Text Spotting with a Unified Network[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.IEEE/CVF,2018:5676-5685.
[21] Epshtein B,Ofek E,Wexler Y.Detecting Text in Natural Scenes with Stroke Width Transform[C]//Computer Vision and Pattern Recognition (CVPR),2010 IEEE Conference on.IEEE,2010:2963-2970.
[22] Lyu P,Liao M,Yao C,et al.Mask TextSpotter:An End-to-End Trainable Neural Network for Spotting Text with Arbitrary Shapes[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2018(10):1.
[23] Rosenfeld A,Thurston M.Edge and Curve Detection for Visual Scene Analysis[J].IEEE Transactions on Computers,1971,C-20(5):562-569.
[24] Lin T Y,Goyal P,Girshick R,et al.Focal Loss for Dense Object Detection[J].IEEE Transactions on Pattern Analysis & Machine Intelligence,2017,42(2):318-327.
[25] Lin T Y,Dollár,Piotr,Girshick R,et al.Feature Pyramid Networks for Object Detection[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR).IEEE,2016:936-944.
[26] Bodla N,Singh B,Chellappa R,et al.Soft-NMS--Improving Object Detection With One Line of Code[C]//2017 IEEE International Conference on Computer Vision (ICCV).2017:5562-5570.
[27] Hosang J,Benenson R,Schiele B.A Convnet for Non-maximum Suppression[C]//German Conference on Pattern Recognition. Springer International Publishing,2016:192-204.
[28] Hu H,Gu J,Zhang Z,et al.Relation Networks for Object Detection[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.IEEE/CVF,2018:3588-3597.
[29] Jiang B,Luo R,Mao J,et al.Acquisition of Localization Confidence for Accurate Object Detection[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition.IEEE/CVF, 2018:3588-3597.
[30] Simonyan K,Zisserman A.Very Deep Convolutional Networks for Large-Scale Image Recognition[J].Computer Science,2014:730-734.
[31] Pytorch[K].http://pytorch.org/.
Abstract:Scene text detection is an important step in a scene text recognition system, and it is also a challenging problem. Unlike general object detection, the main challenge of scene text detection is the arbitrary orientation of text in natural images, smaller sizes, and significantly different aspect ratios. In this paper, we propose an end-to-end training text detection model called SANTD (Self-adaptive NMS Text Detection), which can accurately and efficiently detect scene text in any direction in a single network. At the same time, this paper also modified the non-maximum suppression so that it can adaptively detect the density value near the box. In the evaluation experiment, SANTD showed certain advantages in both precision and recall. On the dataset ICDAR 2015, SANTD gets a value of 84.3% f-measure at 11.6fps.
Key words:text detection; self-adaptive; NMS; Convolutional Neural Network