摘" " 要: 針對(duì)商品包裝文本檢測(cè)任務(wù)中彎曲密集型文本導(dǎo)致的錯(cuò)檢、漏檢問(wèn)題,提出了一種由2個(gè)子網(wǎng)絡(luò)組成的基于鏈接關(guān)系預(yù)測(cè)的文本檢測(cè)框架(text detection network based on relational prediction, RPTNet)。在文本組件檢測(cè)網(wǎng)絡(luò)中,下采樣采用卷積神經(jīng)網(wǎng)絡(luò)和自注意力并行的雙分支結(jié)構(gòu)提取局部和全局特征,并加入空洞特征增強(qiáng)模塊(DFM)減少深層特征圖在降維過(guò)程中信息的丟失;上采樣采用特征金字塔與多級(jí)注意力融合模塊(MAFM)相結(jié)合的方式進(jìn)行多級(jí)特征融合以增強(qiáng)文本特征間的潛在聯(lián)系,通過(guò)文本檢測(cè)器從上采樣輸出的特征圖中檢測(cè)文本組件;在鏈接關(guān)系預(yù)測(cè)網(wǎng)絡(luò)中,采用基于圖卷積網(wǎng)絡(luò)的關(guān)系推理框架預(yù)測(cè)文本組件間的深層相似度,采用雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)將文本組件聚合為文本實(shí)例。為驗(yàn)證RRNet的檢測(cè)性能,構(gòu)建了一個(gè)由商品包裝圖片組成的文本檢測(cè)數(shù)據(jù)集(text detection dataset composed of commodity packaging, CPTD1500)。實(shí)驗(yàn)結(jié)果表明:RPTNet不僅在公開(kāi)文本數(shù)據(jù)集CTW-1500和Total-Text上取得了優(yōu)異的性能,而且在CPTD1500數(shù)據(jù)集上的召回率和F值分別達(dá)到了85.4%和87.5%,均優(yōu)于當(dāng)前主流算法。
關(guān)鍵詞: 文本檢測(cè);卷積神經(jīng)網(wǎng)絡(luò);自注意力;特征融合;圖卷積網(wǎng)絡(luò);雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)
中圖分類(lèi)號(hào): TP183" " " " " " 文獻(xiàn)標(biāo)志碼: A" " " " " " " " 文章編號(hào):" 1671-024X(2024)04-0050-11
Text detection of curved and dense products based on link relationship prediction
GENG Lei1,2," LI Jiachen 2,3," LIU Yanbei1,2, LI Yuelong4," LI Xiaojie1
(1. School of Life Sciences, Tiangong University, Tianjin 300387, China; 2. Tianjin Key Laboratory of Optoelectronic De-tection Technology, Tiangong University, Tianjin 300387, China; 3. School of Electronics and Information Engineering,Tiangong University, Tianjin 300387, China; 4. School of Computer Science and Technology, Tiangong University, Tianjin 300387, China)
Abstract: A detection framework consisting of two sub-networks, text detection network based on relational prediction(RPTNet) is proposed to solve the problem of error detection caused by curved and dense texts in the text detection task of commodity packaging images. In the text component detection network, local and global features are extracted using a parallel downsampling structure of convolutional neural network and self-attention. A dilated feature enhancement module (DFM) is added to the downsampling structure to reduce the information loss of the deep feature maps. The feature pyramid network is combined with the multi-level attention fusion module (MAFM) in upsampling structure to enhance the connections between different features and the text detector detects the text components from the upsampled feature maps. In the link relational prediction network, a relational reasoning framework based on graph convolutional network is used to predict the deep similarity between the text component and its neighbors, and a bi-directional long" short-term memory network is used to aggregate the text components into text instances. In order to verify" the detection performance of RPTNet, a text detection dataset CPTD1500 composed of commodity packaging images is constructed. The test results show that the effectiveness of the proposed RPTNet is verified by two publicly available text datasets, CTW-1500 and Total-Text. And the recall and F value of RPTNet on CPTD1500 are 85.4% and 87.5%, respectively, which are superior to current mainstream algorithms.
Key words: text detection; convolutional neural network; self-attention; feature fusion; graph convolutional network; bi-directional long short-term memory network
由于場(chǎng)景文本檢測(cè)具有較高的應(yīng)用價(jià)值和廣闊的研究前景,近年來(lái)人們對(duì)其關(guān)注度越來(lái)越高。隨著深度學(xué)習(xí)的快速發(fā)展,人們對(duì)于具有線性、低密度的文本實(shí)例檢測(cè)已經(jīng)實(shí)現(xiàn)了優(yōu)異的檢測(cè)效果[1-4]。但自然場(chǎng)景下的文本存在尺寸、形狀、密度、字體、透視等方面的多樣性,這導(dǎo)致在處理不規(guī)則文本實(shí)例時(shí),傳統(tǒng)的檢測(cè)算法很難對(duì)其幾何屬性做出精確的判斷,無(wú)法達(dá)到預(yù)期的檢測(cè)效果。近年來(lái),嘗試解決這類(lèi)問(wèn)題的方法大致可以分為基于回歸的方法和基于分割的方法。
基于回歸的文本檢測(cè)方法通常依賴于一般的物體檢測(cè)框架,如Faster R-CNN[5]和SSD[6]等。根據(jù)不同文字區(qū)域各自的特點(diǎn),研究者在普通物體檢測(cè)方法的基礎(chǔ)上做了相應(yīng)的修改,以此解決文本檢測(cè)中出現(xiàn)的問(wèn)題。TextBoxes++[7]通過(guò)對(duì)TextBoxes[1]做出改進(jìn),即通過(guò)回歸四邊形而不是水平邊界框來(lái)實(shí)現(xiàn)多方向文本的檢測(cè)。Raisi等[8]用旋轉(zhuǎn)文本表征的方法優(yōu)化了DETR[9]的架構(gòu),可以更好的表示多方向文本區(qū)域??傮w而言,上述方法對(duì)于傾斜角度較小的多方向文本檢測(cè)效果優(yōu)異,但由于矩形或四邊形邊界框不能足夠緊密的包圍彎曲文本,故這些方法不能很好地檢測(cè)彎曲文本。為了更好地適應(yīng)任意形狀文本的檢測(cè)任務(wù),LOMO[10]利用Mask-RCNN作為其基礎(chǔ)框架,并引入迭代細(xì)化和形狀表達(dá)模塊來(lái)細(xì)化不規(guī)則文本區(qū)域的邊界框,從而發(fā)揮了基于分割和回歸的架構(gòu)優(yōu)勢(shì)。MOST[11]用文本特征對(duì)齊模塊(TFAM)完善了LOMO的架構(gòu),通過(guò)可變形卷積算子進(jìn)行定位細(xì)化,實(shí)現(xiàn)了更高的精確率。FCENet[12]首先預(yù)測(cè)文本實(shí)例的緊湊傅里葉特征,然后采用反傅里葉變換(IFT)和非最大抑制(NMS)來(lái)重建任意形狀文本實(shí)例輪廓。
基于分割的文本檢測(cè)方法通常首先檢測(cè)文本組件,然后再將這些文本組件組合成文本實(shí)例。近些年來(lái),基于分割的方法在處理任意文本檢測(cè)問(wèn)題中被越來(lái)越多的研究者采用,根據(jù)單元表征的不同,此類(lèi)方法可分為像素級(jí)方法和片段級(jí)方法。其中像素級(jí)方法通常將文本檢測(cè)問(wèn)題作為語(yǔ)義分割或?qū)嵗指顔?wèn)題,以全卷積神經(jīng)網(wǎng)絡(luò)(FCN)[13]作為框架來(lái)預(yù)測(cè)圖片的像素級(jí)別的分類(lèi)圖,然后用不同的方法將這些像素組合成文本區(qū)域。Zhang等[14]采用FCN預(yù)測(cè)文本塊,然后通過(guò)MSER提取候選字符,最后使用分組策略來(lái)達(dá)到多方向文本檢測(cè)的目的。TextField[15]可以學(xué)習(xí)到一個(gè)深度方向場(chǎng),此方向場(chǎng)與相鄰像素相連接,生成候選文本部分,學(xué)習(xí)到的方向信息將文本部分分組為文本實(shí)例。片段級(jí)方法首先檢測(cè)包含一部分單詞或者字符的文本片段,然后將同屬于一個(gè)文本區(qū)域的文本片段組合在一起。PSENet[16]用核去檢測(cè)每個(gè)文本實(shí)例,并通過(guò)漸進(jìn)尺度擴(kuò)展算法去逐漸擴(kuò)展預(yù)定義的核,從而獲得最終的檢測(cè)結(jié)果。在CRAFT[17]中,用親和力判斷相鄰的字符之間是否屬于同一個(gè)文本實(shí)例,通過(guò)估計(jì)字符和字符間的親和力來(lái)檢測(cè)任意形狀文本。Seglink++[18]可以學(xué)習(xí)文本組件之間的吸引力和排斥力聯(lián)系,對(duì)最小生成樹(shù)算法改進(jìn)后,通過(guò)實(shí)例感知組件,分組檢測(cè)任意形狀文本。DB[19]在分割網(wǎng)絡(luò)中進(jìn)行了自適應(yīng)二值化處理,簡(jiǎn)化了后處理并提高了檢測(cè)性能。然而,上述方法往往無(wú)法精確分離圖像中密集相鄰的文本實(shí)例,而且檢測(cè)到的文本輪廓通常包含缺陷和噪聲。這是因?yàn)楝F(xiàn)有的基于分割方法的性能在很大程度上依賴于輪廓檢測(cè)框架的準(zhǔn)確性,而忽略了輪廓的自適應(yīng)調(diào)整。
針對(duì)上述問(wèn)題,本文提出了基于鏈接關(guān)系預(yù)測(cè)的文本檢測(cè)框架RPTNet。首先通過(guò)文本特征并行采樣與多尺度特征融合相結(jié)合的方式,解決密集型文本實(shí)例間因特征信息提取不充分導(dǎo)致的粘連問(wèn)題,同時(shí)受到Wang等[20]在人臉圖像聚類(lèi)工作的啟發(fā),通過(guò)圖來(lái)表示非歐幾里得數(shù)據(jù),使用圖卷積網(wǎng)絡(luò)(Graph Convolutional Network, GCN)推理文本組件間的深度鏈接關(guān)系。通過(guò)雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Bi-directional Long Short-Term Memory Network, BiLSTM)[21],根據(jù)推理結(jié)果將文本組件自適應(yīng)聚合為文本實(shí)例,從而實(shí)現(xiàn)了商品包裝圖像中彎曲密集型文本的精準(zhǔn)檢測(cè)。為了證明RPTNet在檢測(cè)彎曲密集型商品外包裝文本實(shí)例的有效性,建立了一個(gè)由商品包裝圖片組成的包含大量彎曲密集型文本的文本檢測(cè)數(shù)據(jù)集CPTD1500。實(shí)驗(yàn)證明,RPTNet在CPTD1500數(shù)據(jù)集和公開(kāi)的曲面文本檢測(cè)數(shù)據(jù)集CTW-1500[22]及Total-Text[23]上取得了優(yōu)異的檢測(cè)效果。
1 研究方法
1.1 整體網(wǎng)絡(luò)架構(gòu)
RPTNet的整體結(jié)構(gòu)如圖1所示。
文本組件檢測(cè)網(wǎng)絡(luò)可以細(xì)分為特征提取和文本組件檢測(cè)兩部分。鏈接關(guān)系預(yù)測(cè)網(wǎng)絡(luò)可以細(xì)分為基于GCN的鏈接關(guān)系推理和基于BiLSTM的文本組件聚合兩部分。此外,本文還構(gòu)建了文本組件圖來(lái)連接文本組件檢測(cè)網(wǎng)絡(luò)和鏈接關(guān)系預(yù)測(cè)網(wǎng)絡(luò),實(shí)現(xiàn)RPTNet的端到端訓(xùn)練。
1.2 特征提取
CNN擅長(zhǎng)捕捉卷積感受野范圍內(nèi)的局部特征,但對(duì)文本實(shí)例進(jìn)行建模時(shí),想要通過(guò)CNN捕捉全局依賴關(guān)系必須增加卷積層深度。理論上,ResNet[24]通過(guò)堆疊residual block可以實(shí)現(xiàn)感受野對(duì)文本實(shí)例的覆蓋,但目前的研究表明其感受野遠(yuǎn)小于理論值,這對(duì)捕捉文本實(shí)例中的全局信息造成阻礙。同時(shí),堆疊過(guò)深的卷積層也會(huì)增加模型參數(shù)量,進(jìn)而引發(fā)模型過(guò)擬合問(wèn)題。與CNN不同,自注意力擅長(zhǎng)提取序列中長(zhǎng)距離的全局信息,而Liu等提出的Swin Transformer[25]不僅具備關(guān)注全局信息建模的能力,而且可以通過(guò)滑動(dòng)窗口做到跨窗口連接,使特征進(jìn)行跨窗口交互,解決了卷積結(jié)構(gòu)在捕捉文本實(shí)例特征時(shí)感受野不足的問(wèn)題。但是自注意力結(jié)構(gòu)缺少對(duì)于局部信息的關(guān)注,不能精確地提取文本實(shí)例中密集的細(xì)節(jié)特征。
對(duì)于彎曲密集型文本,對(duì)其進(jìn)行特征提取時(shí)要求網(wǎng)絡(luò)同時(shí)具備2種能力:首先需要能捕捉到文本實(shí)例的輪廓特征,這也就要求網(wǎng)絡(luò)必須具有足夠大的感受野;其次還需要關(guān)注到彎曲密集型文本的細(xì)節(jié)信息,這要求網(wǎng)絡(luò)同時(shí)具備對(duì)于序列中局部特征的提取能力。通過(guò)上述分析,本文構(gòu)建了一種將CNN與自注意力并聯(lián)的特征提取網(wǎng)絡(luò),以學(xué)習(xí)到文本實(shí)例中的多尺度信息,結(jié)構(gòu)設(shè)計(jì)如圖2所示。
在下采樣過(guò)程中,輸入圖像通過(guò)并行的ResNet-50和Swin Transformer來(lái)提取文本的局部和全局特征,ResNet-50和Swin Transformer的Block如圖3所示。同時(shí),在ResNet-50的Res-Stage3、Res-Stage4之間及Res-Stage4、Res-Stage5之間加入空洞特征增強(qiáng)模塊(DFM),起到增大特征圖感受野、增強(qiáng)文本區(qū)域之間關(guān)聯(lián)性的作用。
在上采樣過(guò)程中,將ResNet-50的2-5層結(jié)構(gòu)(Res-Stage2至Res-Stage5層)與Swin Transformer的1-4層結(jié)構(gòu)(Swin-Stage1至Swin-Stage4層)進(jìn)行多級(jí)特征融合,如圖2所示。具體來(lái)講,Res-Stage與Swin-Stage相同層之間的特征圖維度統(tǒng)一后,經(jīng)過(guò)特征融合模塊,輸出結(jié)果依次為G4層、G3層、G2層和G1層,輸出維度大小依次為16×16×2 048、32×32×1 024、和128×128×256。
1.2.1 空洞特征增強(qiáng)模塊
對(duì)于ResNet-50網(wǎng)絡(luò)的Res-Stage1至Res-Stage5層:淺層特征圖尺度大,包含的空間信息較多,但包含的語(yǔ)義信息較少;深層的特征圖尺度小,包含的語(yǔ)義信息豐富,但包含的空間信息較少。為了增大特征圖的感受野,增加文本區(qū)域之間的關(guān)聯(lián)度,本文將空洞特征增強(qiáng)模塊(DFM)引入ResNet-50中。空洞特征增強(qiáng)模塊整體結(jié)構(gòu)借鑒了Inception[26]的思想。DFM在Inception多分支卷積層結(jié)構(gòu)的基礎(chǔ)上,引入了3個(gè)空洞卷積,從左至右空洞率分別為1、3、5,從而有效的增加了感受野,如圖4所示。
1.2.2 基于全局坐標(biāo)注意力機(jī)制的多級(jí)特征融合模塊
為了最大限度保留文本實(shí)例中的全局特征和局部特征,本文提出了一種基于全局坐標(biāo)注意力機(jī)制的多級(jí)特征融合模塊(MAFM),如圖5所示,在訓(xùn)練過(guò)程中自動(dòng)融合多級(jí)信息以增強(qiáng)網(wǎng)絡(luò)的表征學(xué)習(xí)。
通道注意力機(jī)制例如SE、SK等,雖然能夠充分考慮到通道間的聯(lián)系,實(shí)現(xiàn)特征圖不同通道間的權(quán)重分配,但是沒(méi)有反映位置間的相關(guān)性?;谕ǖ雷⒁饬C(jī)制的以上不足所提出的坐標(biāo)注意力機(jī)制CA(coordi-nate attention)通過(guò)引入水平和垂直2個(gè)方向的注意力,將位置信息嵌入到通道注意力中,以捕捉特征位置間的相關(guān)性。但研究發(fā)現(xiàn),坐標(biāo)注意力機(jī)制僅僅考慮到了各個(gè)通道特征圖中不同位置之間的聯(lián)系,沒(méi)有考慮全局信息對(duì)于輸出特征圖的影響。以此為出發(fā)點(diǎn),對(duì)坐標(biāo)注意力機(jī)制做出進(jìn)一步優(yōu)化,提出了全局坐標(biāo)注意力機(jī)制,其在關(guān)注不同位置間依賴關(guān)系的同時(shí),還能捕捉到全局信息對(duì)于輸出特征圖的影響?;谌肿鴺?biāo)注意力機(jī)制的多級(jí)特征融合模塊由2部分組成:
(1) 第1部分和坐標(biāo)注意力機(jī)制相同,在水平與垂直2個(gè)方向集成特征,生成方向相關(guān)特征圖。具體來(lái)講,輸入特征維度為H×W×C,首先在空間維度上分解成2個(gè)張量f h∈RR/r×H和f w∈RC/r×W,通過(guò)2個(gè)1×1卷積操作F h和F w,讓f h和f w 2個(gè)張量的通道數(shù)變?yōu)橐恢拢缡剑?)和式(2)所示:
式中:?滓表示Sigmoid激活函數(shù)。在上述工作的基礎(chǔ)上,將g h和g w分別作為注意力權(quán)重進(jìn)行分配,得到坐標(biāo)注意力機(jī)制的輸出zc,如式(3)所示:
式中:xc(i,j)表示第c個(gè)通道的高度坐標(biāo)i與寬度坐標(biāo)j位置特征圖的數(shù)值。
第二部分考慮了特征圖自身對(duì)于輸出的影響。將輸入特征圖送入到共享1×1卷積,之后進(jìn)行標(biāo)準(zhǔn)化操作,最后采用額外的1×1卷積和Sigmoid激活,輸出與輸入相同維度的張量zn,如式(4)所示:
最終輸出得到的張量與輸入維度相同,如式(5)所示:
Z = zc + zn(5)
通過(guò)上述方法,該模塊不僅可以關(guān)注到位置信息間的相關(guān)性,還加權(quán)了輸入本身對(duì)于輸出的影響,在提高特征提取效率的同時(shí),也加強(qiáng)了不同特征間的融合。
1.3 文本組件的檢測(cè)
由于DenseBox[27]在檢測(cè)小尺寸、遮擋嚴(yán)重、不規(guī)則的物體上具有突出的優(yōu)勢(shì),因此本文通過(guò)借鑒Dense-Box的思想,從上采樣輸出的特征圖中檢測(cè)文本組件,如圖6所示。
首先用一個(gè)Ground-truth多邊形來(lái)表示任意形狀文本實(shí)例的邊界,在它的上和下2個(gè)長(zhǎng)邊上有組上下對(duì)稱的錨點(diǎn)對(duì)(圖6(a));然后用條線來(lái)連接組上下對(duì)稱的錨點(diǎn)對(duì)(圖6(b)),求出這條線長(zhǎng)度的平均值,作為此文本實(shí)例的尺度。
在訓(xùn)練過(guò)程中,多邊形被分配到上采樣輸出的特征圖中。然后,使用特定比例的檢測(cè)模塊從特征圖中檢測(cè)文本實(shí)例所包含的文本組件。對(duì)原始文本圖像中的每一個(gè)Ground-truth多邊形,將其尺度按0.5的比例縮小,得到圖6(c)中的藍(lán)色區(qū)域,即文本中心區(qū)域;同時(shí)將Ground-truth多邊形的尺度按1.2的比例擴(kuò)大,將大于0.5且小于1.2縮放比例的區(qū)域定義為文本邊界區(qū)域,如圖6(c)中的綠色區(qū)域;最后將縮放比例大于1.2的區(qū)域定義為背景區(qū)域。
在本文中,特征圖中的每一個(gè)像素都與原始文本圖像中的一個(gè)滑動(dòng)點(diǎn)相映射。對(duì)于任何一個(gè)像素來(lái)講,如果與其相映射的那個(gè)滑動(dòng)點(diǎn)位于Ground-truth多邊形的文本中心區(qū)域或邊界區(qū)域或背景區(qū)域,則該像素被貼上“文本”或“邊界”或“背景”的標(biāo)簽。對(duì)于每一個(gè)被貼上“文本”標(biāo)簽的像素,本文使用圖6(d)的方法來(lái)生成與其相對(duì)應(yīng)的文本組件Ground-truth邊界框。具體來(lái)講,用p表示1個(gè)滑動(dòng)點(diǎn),l表示垂直于文本中心線且通過(guò)點(diǎn)p的線。與Ground-truth多邊形的2個(gè)長(zhǎng)邊分別相交于p1和p2點(diǎn)。然后,本文將p1和p2分別沿著2個(gè)長(zhǎng)邊向前和向后移動(dòng)d個(gè)像素,最終得到文本組件中的4個(gè)頂點(diǎn),由4個(gè)頂點(diǎn)所圍成的區(qū)域就是文本組件Ground-truth邊界框內(nèi)的區(qū)域。在訓(xùn)練過(guò)程中,取d = 2。檢測(cè)模塊用1個(gè)3×3卷積和2個(gè)1×1卷積來(lái)表示,分別用于文本/邊界/非文本分類(lèi)和Ground-truth邊界框的回歸。同時(shí),為了減少計(jì)算量和減小誤差,只保留得分高于預(yù)定閾值的標(biāo)簽為“文本”的像素,本文將閾值設(shè)定為0.85。最后,在特征圖中使用標(biāo)準(zhǔn)的NMS算法,以0.6的交并比(IoU)閾值來(lái)刪除多余的文本組件。
1.3.1 損失函數(shù)
文本組件檢測(cè)損失由2部分組成,分別是文本/邊界/非文本的分類(lèi)損失和Ground-truth邊界框的回歸損失。其中文本/邊界/非文本損失使用二元交叉熵計(jì)算取值像素的預(yù)測(cè)和Ground-truth標(biāo)簽的損失并取其平均值,Ground-truth邊界框的回歸損失使用 計(jì)算取樣像素中正像素的預(yù)測(cè)值和Ground-truth值8-d歸一化坐標(biāo)偏移的損失并取其平均值,方法如式(6)所示:
式中:N為取樣像素的數(shù)量;ck和c*k分別為第k個(gè)取樣像素的預(yù)測(cè)和Ground-truth標(biāo)簽;Lcls(ck,c*k)為二元交叉熵的分類(lèi)損失;Nps為取樣像素中正像素的數(shù)量,其中,Nps∈N,tl和t*l分別為第l個(gè)正取樣像素的預(yù)測(cè)值和Ground-truth值8-d歸一化坐標(biāo)偏移;Lreg(tl,t*l)為Smooth-L1的回歸損失。
1.4 文本組件圖的構(gòu)建
為了通過(guò)圖卷積網(wǎng)絡(luò)預(yù)測(cè)文本組件的深度相似性,將每一個(gè)文本組件用1個(gè)節(jié)點(diǎn)來(lái)表示。將所有的節(jié)點(diǎn)和節(jié)點(diǎn)間的連接線用1個(gè)集合來(lái)表示,記為A = {V,L}。其中,V = {V1,V1,…,Vi,…,VM}為所有節(jié)點(diǎn)(文本組件)的集合,Vi為第i個(gè)節(jié)點(diǎn)。L = {li→j = (Vi,Vj)|Vi,Vj∈V}為連接線的集合,li→j表示從節(jié)點(diǎn)Vi指向節(jié)點(diǎn)Vj的連接線。但是,如果本文考慮所有節(jié)點(diǎn)之間的連接線,那么計(jì)算量會(huì)十分巨大。受Wang等[11]工作的啟發(fā),只需要建立與每一個(gè)節(jié)點(diǎn)最相鄰近的k個(gè)節(jié)點(diǎn)的連接關(guān)系即可。在訓(xùn)練過(guò)程中,設(shè)置k = 8。本文將2個(gè)節(jié)點(diǎn)之間的歐氏距離作為測(cè)量距離,以此來(lái)衡量2個(gè)節(jié)點(diǎn)間的鄰近關(guān)系。給定2個(gè)節(jié)點(diǎn)Vi、Vj,本文通過(guò)式(7)來(lái)判斷Vi是否有一條指向Vj的連接線。
式中:KNN(Vj)表示與Vj最相鄰的k個(gè)節(jié)點(diǎn)。如果Vi屬于與Vj最相鄰的k個(gè)節(jié)點(diǎn),則li→j = 1,會(huì)有連接線從Vi指向Vj;如果Vi不屬于與Vj最相鄰的k個(gè)節(jié)點(diǎn),則li→j = 0,不會(huì)有連接線從Vi指向Vj。
通過(guò)上述方法,將1個(gè)文本實(shí)例劃分為多個(gè)文本組件圖。每一個(gè)文本組件圖都由1個(gè)樞軸節(jié)點(diǎn)和k個(gè)鄰居節(jié)點(diǎn)組成。首先,本文將V中的每一個(gè)節(jié)點(diǎn)都作為樞軸節(jié)點(diǎn)構(gòu)建文本組件圖,這樣本文共構(gòu)建了M個(gè)文本組件圖。但是,為了避免在訓(xùn)練過(guò)程中因出現(xiàn)很多相似文本組件圖而造成的梯度累積現(xiàn)象,本文以?孜為交并比(IoU)閾值來(lái)刪除多余的文本組件圖,如式(8)所示:
式中:Gm和Gn為2個(gè)文本組件圖,同屬于1個(gè)文本實(shí)例;Gm∩Gn為Gm和Gm各自k個(gè)鄰居節(jié)點(diǎn)的交集;Gm∪Gn為Gm和Gn各自k個(gè)鄰居節(jié)點(diǎn)的并集。在本文實(shí)驗(yàn)中,?孜設(shè)置為0.8。通過(guò)這種方法,本文減少了相似文本組件圖的數(shù)量,達(dá)到了樣本平衡的目的。
1.5 基于GCN的鏈接關(guān)系預(yù)測(cè)
為了預(yù)測(cè)節(jié)點(diǎn)間鏈接的更多可能性,基于圖卷積網(wǎng)絡(luò),在文本組件圖的基礎(chǔ)上進(jìn)一步推理節(jié)點(diǎn)間的鏈接關(guān)系。圖通常表示為g(X,A),圖卷積網(wǎng)絡(luò)的輸入包括2部分,即特征矩陣X和鄰接矩陣A。
為了獲得節(jié)點(diǎn)特征,本文使用RoI-Align提取文本組件的特征。首先,將文本組件圖與上采樣后輸出的特征圖一起送入RoI-Align層,RoI-Align層的輸出Fr被作為節(jié)點(diǎn)特征;然后,對(duì)節(jié)點(diǎn)特征進(jìn)行歸一化的操作。對(duì)于任意一個(gè)文本組件圖Gp,Vp為Gp中的樞軸節(jié)點(diǎn),xp為樞軸節(jié)點(diǎn)Vp的特征;對(duì)文本組件圖Gp中的每一個(gè)節(jié)點(diǎn)的節(jié)點(diǎn)特征執(zhí)行減去xp的操作,目的是將中樞節(jié)點(diǎn)的特征編碼到文本組件圖中,可以使鏈接關(guān)系預(yù)測(cè)網(wǎng)絡(luò)更加充分地了解到樞軸節(jié)點(diǎn)與鄰居節(jié)點(diǎn)間的連接關(guān)系。通過(guò)式(9)計(jì)算得到Fp,令X = Fp,從而完成對(duì)文本組件圖中節(jié)點(diǎn)特征的歸一化。
式中:xq為文本組件圖Gp中節(jié)點(diǎn)Vq的節(jié)點(diǎn)特征。
使用鄰接矩陣Ap∈RN×N表示文本組件圖的拓?fù)浣Y(jié)構(gòu),N為節(jié)點(diǎn)個(gè)數(shù)。在獲得特征矩陣X和鄰接矩陣A后,本文使用圖卷積網(wǎng)絡(luò)來(lái)推理節(jié)點(diǎn)之間的鏈接關(guān)系。圖卷積層可以表示為:
1.6 文本組件聚合
所有節(jié)點(diǎn)經(jīng)過(guò)4個(gè)圖卷積層的推理預(yù)測(cè)后,通過(guò)雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(BiLSTM)動(dòng)態(tài)地對(duì)各節(jié)點(diǎn)的特征信息進(jìn)行聚合。圖卷積層的輸出表示為H = [h1,h2,…,hi,…,hn],其中hi表示第i個(gè)節(jié)點(diǎn)經(jīng)過(guò)圖卷積層后輸出的隱藏向量。在本文中,BiLSTM中細(xì)胞單元的輸入為節(jié)點(diǎn)的隱藏向量,第j個(gè)細(xì)胞單元的運(yùn)算過(guò)程如下:
2 實(shí)驗(yàn)結(jié)果與分析
本文在Ubuntu 16.04操作系統(tǒng)下,通過(guò)PyTorch 1.2.0框架實(shí)現(xiàn)了RPTNet,并在2塊NVIDIA GeForce GTX 1080Ti的GPU上進(jìn)行了實(shí)驗(yàn)。
2.1 實(shí)驗(yàn)數(shù)據(jù)
為了評(píng)估本文提出的RPTNet的性能,本文建立了一個(gè)由商品外包裝圖像組成的文本檢測(cè)數(shù)據(jù)集CPTD1500。其中,CPTD1500數(shù)據(jù)集的標(biāo)注方式與基準(zhǔn)數(shù)據(jù)集CTW-1500[22]相似。與CTW-1500數(shù)據(jù)集不同的是,CPTD1500數(shù)據(jù)集采用彎曲或密集型的商品包裝上的文本實(shí)例作為訓(xùn)練集與測(cè)試集。本文建立此數(shù)據(jù)集的目的在于評(píng)估RPTNet在檢測(cè)彎曲、密集型的商品外包裝文本實(shí)例時(shí)的性能。為了更好地評(píng)估RPTNet的性能,本文分別在CPTD1500數(shù)據(jù)集和2個(gè)場(chǎng)景文本檢測(cè)基準(zhǔn)數(shù)據(jù)集CTW-1500和Total-Text[23]上進(jìn)行消融實(shí)驗(yàn)和對(duì)比實(shí)驗(yàn)。
CPTD1500數(shù)據(jù)集由1 000張訓(xùn)練圖像和500張測(cè)試圖像組成,均為商品外包裝文本圖像。圖像中的文本實(shí)例以中文和英文為主。同時(shí)還包含少量日文和韓文,以驗(yàn)證網(wǎng)絡(luò)檢測(cè)不同語(yǔ)言的泛化能力。在數(shù)據(jù)集統(tǒng)計(jì)過(guò)程中,將實(shí)物中文本實(shí)例彎曲弧度大于5度的歸類(lèi)為彎曲文本,否則歸類(lèi)為四邊形文本;將實(shí)物中文本實(shí)例間的間隙大于1 mm的2個(gè)文本實(shí)例歸類(lèi)為密集文本,否則歸類(lèi)為稀疏文本。對(duì)CPTD1500數(shù)據(jù)集中的文本實(shí)例類(lèi)型進(jìn)行統(tǒng)計(jì),統(tǒng)計(jì)結(jié)果如表1所示。每個(gè)文本實(shí)例均通過(guò)14點(diǎn)多邊形進(jìn)行標(biāo)注。標(biāo)注示例如圖7所示。數(shù)據(jù)集采用基于PASCAL VOC文本評(píng)測(cè)準(zhǔn)則。
CTW-1500數(shù)據(jù)集由1 000張訓(xùn)練圖像和500張測(cè)試圖像組成。每張圖像至少有一個(gè)彎曲的文本實(shí)例。該數(shù)據(jù)集存在很多的藝術(shù)體、模糊小文本和類(lèi)似文本等干擾因素。圖像中的文本實(shí)例以英文為主,包含少數(shù)中文。每個(gè)文本實(shí)例均采用14點(diǎn)多邊形進(jìn)行標(biāo)注。
Total-Text數(shù)據(jù)集由1 255張訓(xùn)練圖像和300張測(cè)試圖像組成。該數(shù)據(jù)集包含許多曲線和多方向文本實(shí)例。每一個(gè)文本實(shí)例用多邊形標(biāo)注框標(biāo)注在字符級(jí)別上。
在對(duì)比實(shí)驗(yàn)中,模型在SynthText數(shù)據(jù)集上預(yù)訓(xùn)練2個(gè)epoch,消融實(shí)驗(yàn)部分沒(méi)有設(shè)置預(yù)訓(xùn)練步驟。
在消融實(shí)驗(yàn)和對(duì)比實(shí)驗(yàn)中,分別在本文構(gòu)建的數(shù)據(jù)集和基準(zhǔn)數(shù)據(jù)集上做700個(gè)epoch的微調(diào)訓(xùn)練,批次設(shè)置為4。同時(shí),使用帶動(dòng)量的SGD優(yōu)化器來(lái)訓(xùn)練模型,動(dòng)量設(shè)置為0.9,權(quán)重衰減設(shè)置為0.000 5,初始學(xué)習(xí)率設(shè)置為0.01,學(xué)習(xí)率衰減使用Poly策略。
為了提高訓(xùn)練后模型的泛化能力,本文也采用隨機(jī)旋轉(zhuǎn)[-10°~10°]、隨機(jī)裁剪、隨機(jī)翻轉(zhuǎn)來(lái)對(duì)訓(xùn)練圖像做數(shù)據(jù)擴(kuò)充,最后將圖像調(diào)整成1 024 pixel×1 024 pixel大小送入網(wǎng)絡(luò)訓(xùn)練。
2.2 評(píng)價(jià)指標(biāo)
本文算法的性能由精確率P、召回率R、F值和檢測(cè)速率v共4個(gè)指標(biāo)來(lái)衡量。其中精確率P、召回率R和F值的計(jì)算過(guò)程分別如式(19)—式(21)所示:
式中:TP、FP和FN分別為真陽(yáng)性、假陽(yáng)性和假陰性文本實(shí)例的數(shù)量;精確率P和召回率R分別反映了模型識(shí)別負(fù)樣本和正樣本的能力;F值為由精確率和召回率的平均值計(jì)算出的總體評(píng)價(jià)分?jǐn)?shù)。
2.3 消融實(shí)驗(yàn)
為了驗(yàn)證文本組件檢測(cè)網(wǎng)絡(luò)和鏈接關(guān)系預(yù)測(cè)網(wǎng)絡(luò)的有效性,在CPTD1500數(shù)據(jù)集和Total-Text數(shù)據(jù)集上分別進(jìn)行了消融實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表2所示。
由表2可以看出,在同樣加入DFM模塊、MAFM模塊、GCN鏈接關(guān)系預(yù)測(cè)網(wǎng)絡(luò)和BiLSTM聚合模塊的前提下,選取ResNet-50和Swin Transformer的多級(jí)特征融合網(wǎng)絡(luò)作為骨干網(wǎng)絡(luò)比單獨(dú)選取ResNet-50網(wǎng)絡(luò)作為骨干網(wǎng)絡(luò)時(shí)擁有更高的精確率、召回率和F值,三者在CPTD1500數(shù)據(jù)集上分別有1.89%、0.49%、1.15%的提升,在Total-Text數(shù)據(jù)集上分別有1.20%、1.26%、1.23%的提升。然后,在選取ResNet-50和Swin Transformer的多級(jí)特征融合網(wǎng)絡(luò)作為骨干網(wǎng)絡(luò)的前提下,分別加入DFM和MAFM模塊后,精確率和F值較之前分別有不同程度的提升。最后,在骨干網(wǎng)絡(luò)和各個(gè)模塊不變的前提下,添加GCN關(guān)系預(yù)測(cè)網(wǎng)絡(luò)和BiLSTM聚合模塊后,相較于添加前,在精確率、召回率和F值上均有較大幅度的提升。由此說(shuō)明,在CPTD1500數(shù)據(jù)集和Total-Text數(shù)據(jù)集上的測(cè)試結(jié)果證實(shí)了上述各模塊的重要性。CPTD1500數(shù)據(jù)集下不同模型的損失曲線如圖8所示。
由圖8可知,在CPTD1500數(shù)據(jù)集中,3個(gè)模型在經(jīng)過(guò)150 000次迭代之后,損失值逐漸變得平穩(wěn)。通過(guò)比較3個(gè)模型的損失曲線,在分別加入DFM模塊和MAFM模塊后,模型具有更快的收斂速度,同時(shí)在收斂之后損失值更加穩(wěn)定,曲線更加平滑。由此可以得出,DFM模塊和MAFM模塊的加入對(duì)于RPTNet具有重要作用。
2.4 對(duì)比實(shí)驗(yàn)
CTW-1500和Total-Text是2個(gè)典型的彎曲和多方向的文本數(shù)據(jù)集,分別基于行級(jí)和字符級(jí)進(jìn)行了注釋。在測(cè)試過(guò)程中,由于圖像的長(zhǎng)寬比變化較大,首先把圖像的短邊統(tǒng)一為512,然后根據(jù)短邊的變化比例,對(duì)長(zhǎng)邊做出相同比例的調(diào)整,以保證圖像的長(zhǎng)寬比不變。RPTNet在CTW-1500數(shù)據(jù)集和CPTD1500數(shù)據(jù)集上的可視化檢測(cè)結(jié)果如圖9和圖10所示。
由圖9可以看出,RPTNet在檢測(cè)彎曲度很大的文本時(shí)具有較好的魯棒性,即使圖中有個(gè)別的文本實(shí)例存在多個(gè)彎曲方向,本文所提出的模型也能夠?qū)ζ渫瓿删珳?zhǔn)的檢測(cè);CTW-1500數(shù)據(jù)集中包含大量的復(fù)雜場(chǎng)景圖像,RPTNet能夠準(zhǔn)確區(qū)分出圖像中的背景和文本,取得了較好的檢測(cè)效果。
由圖10可以看出,RPTNet可以有效的處理任意形狀的密集型文本,雖然在商品說(shuō)明區(qū)域中的文本實(shí)例存在彎曲、密集、字體小等檢測(cè)難點(diǎn),但通過(guò)二值化分類(lèi)圖可以看出,本文所提出的模型可以準(zhǔn)確區(qū)分出相鄰文本實(shí)例,并未出現(xiàn)文本粘連的問(wèn)題,由此可以說(shuō)明,RPTNet在彎曲密集型小文本實(shí)例的檢測(cè)中有較好的魯棒性;CPTD1500數(shù)據(jù)集中包括多種語(yǔ)言、符號(hào)及數(shù)字表示,RPTNet均能夠正確的提取出相應(yīng)的文本,有著較好的泛化性。
不同數(shù)據(jù)集上的對(duì)比實(shí)驗(yàn)結(jié)果如表3所示。由表3可知,對(duì)于CTW-1500數(shù)據(jù)集而言,RPTNet的精確率、召回率、F值和檢測(cè)速率分別達(dá)到87.9%、84.1%、86.0%和12.7 fps,均優(yōu)于最新的方法。在Total-Text數(shù)據(jù)集中,RPTNet的召回率和F值分別達(dá)到86.1%和88.1%,取得了最優(yōu)的結(jié)果,同時(shí)RPTNet在精確率比ABPNet低0.6%的前提下,召回率和F值分別高出ABPNet 0.9%和0.2%,有著比ABPNet更均衡的綜合性能指標(biāo)。在CTW-1500數(shù)據(jù)集和Total-Text數(shù)據(jù)集上的檢測(cè)結(jié)果驗(yàn)證了RPTNet在處理行級(jí)和字符級(jí)彎曲文本時(shí)的優(yōu)勢(shì)。
在CPTD1500數(shù)據(jù)集上的測(cè)試結(jié)果驗(yàn)證了RPTNet在檢測(cè)彎曲密集型商品外包裝文本的有效性。該方法在召回率、F值和檢測(cè)速率上均取得了最優(yōu)的結(jié)果。其中F值高達(dá)87.5%,相比于針對(duì)曲面密集型文本檢測(cè)任務(wù)的SegLink++提高了4.1%,相比于精確率最高的FCE提高了0.5%,從而驗(yàn)證了本文所提出的RPTNet相較于其他最新方法,在彎曲密集型商品外包裝文本檢測(cè)任務(wù)中有著較大的競(jìng)爭(zhēng)優(yōu)勢(shì)。
3 結(jié) 論
本文提出一種片段級(jí)文本檢測(cè)方法(RPTNet)來(lái)檢測(cè)彎曲密集型商品包裝文本。通過(guò)MAFM模塊和DFM的結(jié)合進(jìn)行局部特征和全局特征的融合,以更好地檢測(cè)文本組件?;贕CN和BiLSTM的鏈接關(guān)系預(yù)測(cè)網(wǎng)絡(luò)可以有效推理文本組件間鏈接的更多可能性。在2個(gè)公開(kāi)數(shù)據(jù)集和本文構(gòu)建的CPTD1500數(shù)據(jù)集上的測(cè)試結(jié)果表明,RPTNet召回率為85.4%和 F值為87.5%,與最新的方法相比都有一定的提升。未來(lái)的研究中,將進(jìn)一步優(yōu)化文本檢測(cè)算法,對(duì)模型的輕量化展開(kāi)深入研究。同時(shí),希望將RPTNet與文本識(shí)別算法相結(jié)合,設(shè)計(jì)一種端到端的針對(duì)任意形狀文本的文本識(shí)別網(wǎng)絡(luò)。
參考文獻(xiàn):
[1]" " LIAO M H, SHI B G, BAI X, et al. TextBoxes: A fast text detector with a single deep neural network[C]//Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence. San Francisco, USA:ACM, 2017: 4161-4167.
[2]" " ZHOU X Y, YAO C, WEN H, et al. EAST: An efficient and accurate scene text detector[C]//2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Honolulu, USA:IEEE, 2017: 2642-2651.
[3]" " MA J Q, SHAO W Y, YE H, et al. Arbitrary-oriented scene text detection via rotation proposals[J]. IEEE Transactions on Multimedia, 2018, 20(11): 3111-3122.
[4]" " HE W H, ZHANG X Y, YIN F, et al. Deep direct regression for multi-oriented scene text detection[C]//2017 IEEE International Conference on Computer Vision(ICCV). Venice, Italy:IEEE, 2017: 745-753.
[5]" " REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: Towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.
[6]" " LIU W, ANGUELOV D, ERHAN D, et al. SSD: Single shot MultiBox detector[C]//European Conference on Computer Vision. Cham: Springer, 2016: 21-37.
[7]" " LIAO M H, SHI B G, BAI X. TextBoxes++: A single-shot oriented scene text detector[J]. IEEE Transactions on Image Processing: A Publication of the IEEE Signal Processing Society, 2018, 27(8): 3676-3690.
[8]" " RAISI Z, NAIEL M A, YOUNES G, et al. Transformer-based text detection in the wild[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW). Nashville, USA:IEEE, 2021: 3156-3165.
[9]" " CARION N, MASSA F, SYNNAEVE G, et al. End-to-end object detection with transformers[C]//Computer Vision - ECCV 2020: 16th European Conference. Glasgow, UK:ACM, 2020: 213-229.
[10]" ZHANG C Q, LIANG B R, HUANG Z M, et al. Look more than once: An accurate detector for text of arbitrary shapes[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, USA:IEEE, 2019: 10544-10553.
[11]" HE M H, LIAO M H, YANG Z B, et al. MOST: A multi-oriented scene text detector with localization refinement[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Nashville, USA:IEEE, 2021: 8809-8818.
[12]" ZHU Y Q, CHEN J Y, LIANG L Y, et al. Fourier contour embedding for arbitrary-shaped text detection[C]//2021 IEEE/ CVF Conference on Computer Vision and Pattern Recognition (CVPR). Nashville, USA:IEEE, 2021: 3122-3130.
[13]" SHELHAMER E, LONG J, DARRELL T. Fully convolutional networks for semantic segmentation[C]//IEEE Transactions on Pattern Analysis and Machine Intelligence. [s.n.]:IEEE, 2017: 640-651.
[14]" ZHANG Z, ZHANG C Q, SHEN W, et al. Multi-oriented text detection with fully convolutional networks[C]//2016 IEEE Conference on Computer Vision and Pattern Recogni-tion (CVPR). Las Vegas, USA:IEEE, 2016: 4159-4167.
[15]" XU Y C, WANG Y K, ZHOU W, et al. TextField: Learning a deep direction field for irregular scene text detection[J]. IEEE Transactions on Image Processing: A Publication of the IEEE Signal Processing Society, 2019, 28(11): 5566-5579.
[16]" WANG W H, XIE E Z, LI X, et al. Shape robust text detec-tion with progressive scale expansion network[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, CA, USA. IEEE, 2019: 9328-9337.
[17]" BAEK Y, LEE B, HAN D, et al. Character region awareness for text detection[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Long Beach, USA:IEEE, 2019: 9357-9366.
[18]" TANG J, YANG Z B, WANG Y P, et al. Seglink++: Detecting dense and arbitrary-shaped scene text by instance-aware component grouping[J]. Pattern Recognition, 2019, 96: 106954.
[19]" LIAO M H, WAN Z Y, YAO C, et al. Real-time scene text detection with differentiable binarization[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34(7): 11474-11481.
[20]" WANG Z D, ZHENG L, LI Y L, et al. Linkage based face clustering via graph convolution network[C]//2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CV-PR). Long Beach, USA:IEEE, 2019: 1117-1125.
[21]" KIPERWASSER E, GOLDBERG Y. Simple and accurate dependency parsing using bidirectional LSTM feature representations[J]. Transactions of the Association for Computational Linguistics, 2016, 4: 313-327.
[22] LIU Y L, JIN L W, ZHANG S T, et al. Curved scene text detection via transverse and longitudinal sequence connec-tion[J]. Pattern Recognition, 2019, 90(C): 337-345.
[23]" CH′N(xiāo)G C K, CHAN C S. Total-text: A comprehensive da-taset for scene text detection and recognition[C]//2017 14th IAPR International Conference on Document Analysis and Recognition (ICDAR). Kyoto, Japan:IEEE, 2017: 935-942.
[24]" HE K M, ZHANG X Y, REN S Q, et al. Deep residual learning for image recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition(CVPR). Las Vegas, USA:IEEE, 2016: 770-778.
[25]" LIU Z, LIN Y T, CAO Y, et al. Swin Transformer: Hierarchical vision transformer using shifted windows[C]//2021 IEEE/CVF International Conference on Computer Vision (ICCV). Montreal, Canada:IEEE, 2021: 9992-10002.
[26]" SZEGEDY C, LIU W, JIA Y Q, et al. Going deeper with convolutions[C]//2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Boston, USA:IEEE, 2015: 1-9.
[27]" HUANG L C, YANG Y, DENG Y F, et al. DenseBox: Unifying landmark localization with end to end object detection[EB/OL]. [2015-09-15]. http://arxiv.org/abs/1509. 04874
[28]" XUE C H, LU S J, ZHANG W. MSR: Multi-scale shape regression for scene text detection[EB/OL]. [2019-01-19]. http://arxiv.org/abs/1901.02596
[29]" ZHANG S X, ZHU X B, YANG C, et al. Adaptive bounda-ry proposal network for arbitrary shape text detection[C]//2021 IEEE/CVF International Conference on Com-puter Vision (ICCV). Montreal, Canada:IEEE, 2021: 1285-1294.
[30]" LIU Y L, SHEN C H, JIN L W, et al. ABCNet v2: Adaptive bezier-curve network for real-time end-to-end text spot-ting[EB/OL]. [2021-05-21]. http://arxiv.org/abs/2105.03620
[31]" DAI P W, ZHANG S Y, ZHANG H, et al. Progressive con-tour regression for arbitrary-shape scene text detection[C]//2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). Nashville, USA:IEEE, 2021: 7389-7398.
本文引文格式:
耿磊,李嘉琛,劉彥北,等. 基于鏈接關(guān)系預(yù)測(cè)的彎曲密集型商品文本檢測(cè)[J]. 天津工業(yè)大學(xué)學(xué)報(bào),2024, 43(4): 50-59,74.
GENG L," LI J H," LIU Y B, et al. Text detection of curved and dense products based on link relationship prediction[J]. Journal of Tiangong University, 2024, 43(4): 50-60(in Chinese).
收稿日期: 2022-12-01
基金項(xiàng)目: 國(guó)家自然科學(xué)基金資助項(xiàng)目(61771340);天津市科技計(jì)劃資助項(xiàng)目(20YDTPJC00110)
第一作者: 耿" " 磊(1982—),男,博士,教授,主要研究方向?yàn)橛?jì)算機(jī)視覺(jué)、機(jī)器學(xué)習(xí)等。E-mail:genglei@tiangong.edu.cn
通信作者: 劉彥北(1986—),男,博士,副教授,主要研究方向?yàn)闄C(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等。E-mail:liuyanbei@tiangong.edu.cn