殷昌山,楊林楠,胡海洋
(1. 云南農(nóng)業(yè)大學(xué)大數(shù)據(jù)學(xué)院,昆明市,650201; 2. 云南省農(nóng)業(yè)大數(shù)據(jù)工程技術(shù)研究中心,昆明市,650201;3. 綠色農(nóng)產(chǎn)品大數(shù)據(jù)智能信息處理工程研究中心,昆明市,650201)
農(nóng)資標(biāo)簽是印刷于農(nóng)資包裝上的文字,主要包括有效成分含量、產(chǎn)品名稱、登記證號(hào)、生產(chǎn)許可證號(hào)、產(chǎn)品標(biāo)準(zhǔn)號(hào)等用于描述該產(chǎn)品相關(guān)信息的內(nèi)容。農(nóng)民根據(jù)該信息查詢并判斷該產(chǎn)品是否符合自身需求,農(nóng)資監(jiān)督機(jī)構(gòu)根據(jù)該信息進(jìn)行農(nóng)資安全相關(guān)的檢測(cè)和分析,國(guó)外購(gòu)買者依據(jù)該信息對(duì)出口農(nóng)資進(jìn)行識(shí)別。作為農(nóng)資標(biāo)簽識(shí)別的必要步驟,農(nóng)資標(biāo)簽的文本檢測(cè)對(duì)于農(nóng)資安全監(jiān)督和識(shí)別出口農(nóng)資非常重要。
目前,基于深度學(xué)習(xí)的文本檢測(cè)方法主要分為基于區(qū)域建議和基于分割這兩類?;趨^(qū)域建議的算法根據(jù)文本獨(dú)有的特點(diǎn),在目標(biāo)檢測(cè)通用算法模型的框架下對(duì)其進(jìn)行改進(jìn)。Tian等[1]借助了Faster RCNN中anchor回歸機(jī)制,提出了CTPN網(wǎng)絡(luò)框架來(lái)獲得圖像中的文本行,對(duì)水平方向文本檢測(cè)效果良好。Shi等[2]借助一階段檢測(cè)框架SSD,提出了Seglink算法,該算法讓模型學(xué)習(xí)文本框的旋轉(zhuǎn)角度,對(duì)水平方向和多方向的文本檢測(cè)有較好的魯棒性,但對(duì)任意形狀的文本不能準(zhǔn)確定位。而基于分割的方法則是受到經(jīng)典語(yǔ)義分割算法的啟發(fā),在像素級(jí)上對(duì)每個(gè)點(diǎn)進(jìn)行分類,經(jīng)后處理輸出文本區(qū)域。Li等[3]提出了PSENet,該網(wǎng)絡(luò)使用漸進(jìn)式擴(kuò)張算法,有助于緊密文本區(qū)域的分離,能夠精確地定位任意形狀的文本實(shí)例。Liao等[4]提出的DB算法用近似可微分的二值化替代固定閾值,使后處理過(guò)程變得簡(jiǎn)單且泛化能力更強(qiáng)。該類方法可以適應(yīng)任意形狀的文本目標(biāo)。
不同的農(nóng)資包裝包含不同尺寸、顏色、形狀、對(duì)比度的標(biāo)簽文本,并且農(nóng)資標(biāo)簽的背景更加復(fù)雜,其文本分布大多數(shù)是比較密集的,文本形狀以水平形狀規(guī)則文本居多,但也有任意形狀文本存在。基于以上難題,提出了一個(gè)基于注意力機(jī)制的農(nóng)資標(biāo)簽文本檢測(cè)模型,并在自建的農(nóng)資包裝圖片數(shù)據(jù)集上進(jìn)行試驗(yàn),能夠較為精確地檢測(cè)出農(nóng)資圖像中的文本。
本文提出的模型架構(gòu)如圖1所示,具體來(lái)說(shuō)首先采用Swin-Transformer[5]作為主干網(wǎng)絡(luò),用于多層次特征圖的特征提取。通過(guò)4個(gè)Stage構(gòu)建不同大小的特征圖C1、C2、C3、C4,除了Stage1中先通過(guò)一個(gè)Linear Embeding層外,剩下3個(gè)stage都是先通過(guò)一個(gè)Patch Merging層進(jìn)行下采樣。然后,按照FPN中的特征金字塔設(shè)計(jì),選擇C1、C2、C3、C4進(jìn)行上采樣和特征聚合。在特征聚合階段,使用TFFM模塊來(lái)整合局部和全局上下文的特征表示,并通過(guò)通道聚合將增強(qiáng)的C1、C2、C3、C4特征映射融合起來(lái),進(jìn)一步將語(yǔ)義特征從低層次升到高層次,并在檢測(cè)頭也使用TFFM模塊,用來(lái)增強(qiáng)特征的信息表征能力。最后,將縮放式擴(kuò)展算法生成的分割結(jié)果聚合到輸入圖像的原始規(guī)模,以預(yù)測(cè)文本區(qū)域并重建文本實(shí)例。
圖1 模型基本架構(gòu)
目前基于分割的文本檢測(cè)方法在像素級(jí)上對(duì)圖像區(qū)域進(jìn)行劃分,只提取感興趣區(qū)域的文本,忽略了全局特征的存在,對(duì)文本檢測(cè)結(jié)果的準(zhǔn)確性有很大影響,所以本文的動(dòng)機(jī)就在于建立融合局部和全局特征的關(guān)系模型,首先想到的是全局自注意力機(jī)制,此方法能夠很好地捕捉到全局信息,但也會(huì)帶來(lái)過(guò)多的額外計(jì)算負(fù)擔(dān)。受到DANet[6]的啟發(fā),設(shè)計(jì)了雙特征融合模塊TFFM,該模塊利用注意力機(jī)制,將全局特征中更強(qiáng)的語(yǔ)義信息與局部特征中更好的細(xì)節(jié)感知能力融合起來(lái),以此來(lái)得到更豐富的特征表示,增強(qiáng)模型對(duì)文本的檢測(cè)能力。模塊具體結(jié)構(gòu)如圖2所示,其中r為系數(shù)。
圖2 雙特征融合模塊結(jié)構(gòu)
對(duì)于通道數(shù)為C、高度為H、寬度為W的輸入特征圖Fi(i=1,2,3,4),首先各自應(yīng)用一個(gè)1×1×C的卷積層,改變通道數(shù),然后由通道注意力模塊(Channel Attention Module,CAM)和外部注意力模塊(External Attention Module,EAM)這兩個(gè)注意力模塊分別對(duì)卷積后的特征進(jìn)行優(yōu)化,最后將兩個(gè)注意力模塊提取的特征相加以此來(lái)得到輸出特征outi如式(1)所示。
outi=CA(Conv1(Fi))+EA(Conv1(Fi))
?i={1,2,3,4}
(1)
式中:CA(·)——CAM運(yùn)算;
EA(·)——EAM運(yùn)算;
+——對(duì)應(yīng)元素相加。
其中CAM先做全局的平均池化,將輸入特征F綜合為通道為C的一維特征向量,然后通過(guò)全連接神經(jīng)網(wǎng)絡(luò)MLP來(lái)比較全面地得到通道級(jí)別的依賴,獲得各個(gè)通道的權(quán)重,其中MLP是由兩個(gè)全連接層和ReLu激活函數(shù)組成,最后將權(quán)重與原始特征融合起來(lái),運(yùn)算細(xì)節(jié)如式(2)所示。
CA(F)=σ(MLP(AvgPool(F)))
(2)
EAM是對(duì)線性自注意力機(jī)制的應(yīng)用,其計(jì)算復(fù)雜度是線性的,減小了網(wǎng)絡(luò)的計(jì)算開銷。先將維度擴(kuò)充到四倍,然后采用線性層Mk通過(guò)式(3)得到注意力圖A,并對(duì)A在第一維用了Softmax操作,在第二維用了L1-norm來(lái)歸一化,最后采用線性層Mv通過(guò)式(4)獲得輸出EA。
A=Mk(Reshape(F))
(3)
EA=Linear(Reshape(Mv(A)))
(4)
式中:σ(·)——激活函數(shù)Sigmoid;
Linear(·)——全連接層,把特征圖恢復(fù)成原來(lái)的維度。
經(jīng)典的目標(biāo)檢測(cè)模型采用NMS算法來(lái)篩選候選框并標(biāo)出物體類別。然而,文本本身有其獨(dú)有的特點(diǎn),文本大多以長(zhǎng)矩形形式存在,即長(zhǎng)寬比一般較大或較小,候選區(qū)域經(jīng)IOU篩選后,預(yù)測(cè)的結(jié)果仍會(huì)出現(xiàn)邊界框重疊現(xiàn)象,影響檢測(cè)效果,受到PSENet中漸進(jìn)尺度擴(kuò)展算法的啟發(fā),采用了縮放式擴(kuò)展算法。
漸進(jìn)尺度擴(kuò)展算法產(chǎn)生n個(gè)分割結(jié)果,然后根據(jù)尺度擴(kuò)展將文本實(shí)例從最小一步步擴(kuò)充到最大,這樣可以很好地解決緊靠的文本實(shí)例,從而保證文本實(shí)例的準(zhǔn)確位置,但是農(nóng)資文本在印刷過(guò)程中,為了更好地展現(xiàn)產(chǎn)品,相鄰的文本實(shí)例并不太密集。考慮到農(nóng)資文本的特殊性,使用三個(gè)收縮率系數(shù)來(lái)實(shí)現(xiàn)擴(kuò)展算法,分別為0.5、0.8和1.0,具體算法如圖3所示,先通過(guò)最小內(nèi)核的文本實(shí)例的分割結(jié)果S1生成連通域,并用數(shù)字標(biāo)記出來(lái),然后通過(guò)尺度擴(kuò)展展開內(nèi)核輪廓,以便將前景像素分配到文本實(shí)例,擴(kuò)展到最大的內(nèi)核S3,對(duì)于每一個(gè)文本實(shí)例,將點(diǎn)坐標(biāo)序列表示的文字遮罩轉(zhuǎn)換為文字邊界點(diǎn)坐標(biāo),最后得到實(shí)例邊界及其實(shí)例置信度,即文本實(shí)例的最終檢測(cè)結(jié)果。
使用Vatti算法[7]來(lái)縮小原始多邊形文本框,以此來(lái)得到對(duì)應(yīng)的不同內(nèi)核的分割結(jié)果,在圖4(a)左邊邊框是基于最大內(nèi)核的文本實(shí)例,也就是原始標(biāo)注的多邊形邊框,而圖4(b)左邊邊框是基于最小內(nèi)核的文本實(shí)例,圖4(a)和圖4(b)的右邊是對(duì)應(yīng)的分割標(biāo)簽掩碼,可以看到文本邊框明顯縮小了,相比于左邊原始的文本區(qū)域的邊框p與縮小后的文本區(qū)域的邊框pi之間的偏移di如式(5)所示。
(5)
式中:Ai——第i個(gè)多邊形的面積;
Li——第i個(gè)多邊形的周長(zhǎng);
smooth——平滑系數(shù);
ri——內(nèi)核的收縮率;
Shrinkmax——最大收縮距離。
圖3 生成文本框的流程
(a) 最大內(nèi)核
(b) 最小內(nèi)核
本文使用的損失函數(shù)L由文本實(shí)例損失函數(shù)Lt和內(nèi)核實(shí)例損失函數(shù)Lk兩部分組成,如式(6)所示。
L=αLt+(1-α)Lk
(6)
式中:α——平衡系數(shù)。
為了避免網(wǎng)絡(luò)只預(yù)測(cè)圖像中的很小部分范圍的問(wèn)題,使用Dice系數(shù)s來(lái)注重對(duì)前景區(qū)域的檢測(cè),使網(wǎng)絡(luò)更傾向于文本區(qū)域。Dice系數(shù)s用來(lái)計(jì)算Ground Truth分割圖像和Pred分割圖像之間的相似度,取值范圍為[0,1],如式(7)所示,內(nèi)核實(shí)例損失函數(shù)Lk如式(8)所示。此外,為了處理檢測(cè)網(wǎng)絡(luò)中容易出現(xiàn)的正負(fù)樣本不均衡的問(wèn)題,在文本實(shí)例損失函數(shù)中加入了難樣本挖掘(Online Hard Example Mining,OHEM)[8]策略,正負(fù)樣本比例設(shè)定為1∶3,將通過(guò)難樣本挖掘算法的掩膜記為M,則Lt計(jì)算公式如式(9)所示。
(7)
(8)
Lt=1-s(X·M,Y·M)
(9)
式中: |X|——Ground Truth元素個(gè)數(shù);
|Y|——Pred元素個(gè)數(shù);
|X∩Y|——X和Y之間的交集,可近似為Ground Truth和Pred之間的點(diǎn)乘,并將點(diǎn)乘元素的結(jié)果相加。
目前公開數(shù)據(jù)集大多是關(guān)注自然場(chǎng)景圖像,沒有對(duì)農(nóng)資方向做研究,因此通過(guò)自建數(shù)據(jù)集形式進(jìn)行模型訓(xùn)練和試驗(yàn)研究。數(shù)據(jù)集大多來(lái)源于網(wǎng)絡(luò)圖片,這些圖像涵蓋了農(nóng)藥、化肥、農(nóng)機(jī)銘牌等主要農(nóng)資組成部分,有不同顏色以及透明的袋、瓶和罐狀包裝,得到農(nóng)資包裝圖像共計(jì)708幅。圖像中含有不同形狀的農(nóng)資標(biāo)簽文本,文本框總共11 322個(gè),其中矩形文本框10 136 個(gè),多邊形文本框1 186個(gè)。在標(biāo)注過(guò)程中利用labelme圖像標(biāo)注軟件對(duì)數(shù)據(jù)集進(jìn)行人工標(biāo)注,再轉(zhuǎn)換成CTW1500格式,文本區(qū)域由若干個(gè)坐標(biāo)點(diǎn)順時(shí)針連接構(gòu)成的多邊形表示,可以滿足任意形狀的文本檢測(cè)。原始圖像和人工標(biāo)注如圖5所示。
圖5 原始圖像和標(biāo)注圖像示例
由于數(shù)據(jù)集數(shù)量較少,故采用自助采樣法對(duì)數(shù)據(jù)集進(jìn)行劃分,如表1所示,其中訓(xùn)練集圖像為448幅且包含7 171個(gè)文本框,測(cè)試集圖像為260幅且包含4 151 個(gè)文本框。
表1 數(shù)據(jù)集信息Tab. 1 Datasets information
實(shí)驗(yàn)室服務(wù)器的主要配置為2塊NVIDIA 3090顯卡,cpu型號(hào)為Intel(R) Xeon(R) Silver 4210R CPU @ 2.40 GHz,操作系統(tǒng)為Ubuntu20.04,在此基礎(chǔ)上,搭建Pytorch框架對(duì)模型進(jìn)行訓(xùn)練和測(cè)試。
使用Swin-Transformer模型作為骨干網(wǎng)絡(luò),首先在IC17-MLT訓(xùn)練集上預(yù)訓(xùn)練600個(gè)epoch,然后在試驗(yàn)中,模型又在自建數(shù)據(jù)集上做600個(gè)epoch的微調(diào)訓(xùn)練,采用自適應(yīng)梯度優(yōu)化器,初始學(xué)習(xí)率為0.000 1,在第200次、第400次迭代進(jìn)行學(xué)習(xí)率衰減。
為了提高模型的泛化能力,增強(qiáng)模型的魯棒性,對(duì)訓(xùn)練圖像按50%的概率進(jìn)行水平翻轉(zhuǎn)、隨機(jī)縮放、色彩抖動(dòng)來(lái)做在線數(shù)據(jù)增強(qiáng),最后將圖像尺寸隨機(jī)裁剪成640×640。
現(xiàn)有評(píng)價(jià)指標(biāo)一般用準(zhǔn)確率(Precision)、召回率(Recall)和F值(F-score)這三個(gè)參數(shù)進(jìn)行比較。一般來(lái)說(shuō)三個(gè)指標(biāo)的值越高,檢測(cè)算法的性能越好。其具體計(jì)算公式如式(10)~式(12)所示。此外,采用基于IoU的評(píng)估協(xié)議。IoU是一種基于閾值的評(píng)估協(xié)議,默認(rèn)閾值為0.5。
(10)
(11)
(12)
式中:TP——真陽(yáng)性;
FP——假陽(yáng)性;
FN——假陰性。
本文對(duì)比了ResNet-50、ResNet-50-Dcnv2和Swin-Transformer骨干網(wǎng)絡(luò)對(duì)試驗(yàn)結(jié)果的影響,首先將三個(gè)骨干網(wǎng)絡(luò)各自在IC17-MLT訓(xùn)練集預(yù)先訓(xùn)練,之后進(jìn)行試驗(yàn),具體結(jié)果如表2所示。
表2 骨干網(wǎng)絡(luò)對(duì)模型的影響Tab. 2 Influence of different backbone network on our model
從表2可以看出,使用Swin-Transformer骨干網(wǎng)絡(luò),模型在三項(xiàng)指標(biāo)上分別提升了1.3%、3.3%和2.4%,在召回率上上升尤為明顯,這體現(xiàn)了該方法的有效性。由于骨干網(wǎng)絡(luò)提取特征能力的不同,使用Swin-Transformer模型能獲得更豐富的特征,從而提高檢測(cè)方法的能力。
為了驗(yàn)證雙特征融合模塊對(duì)模型的影響,通過(guò)試驗(yàn)對(duì)比改進(jìn)前后的模型檢測(cè)性能。使用IC17-MLT訓(xùn)練集預(yù)先訓(xùn)練過(guò)的ResNet-50作為主干,并構(gòu)建了圖1中的模型,在C1、C2、C3、C4進(jìn)行上采樣和特征聚合, 并在檢測(cè)頭也使用了TFFM。在這部分試驗(yàn)中,通過(guò)與是否加入TFFM進(jìn)行比較,研究并驗(yàn)證了雙特征融合模塊的有效性。在表3中,可以看到,加入TFFM后,在與改進(jìn)前的模型相比,各項(xiàng)指標(biāo)都有顯著的增長(zhǎng),在精確率、召回率、F分?jǐn)?shù)分別達(dá)到了89.2%,85.9%和87.5%,各項(xiàng)評(píng)測(cè)指標(biāo)的提升率為1.6%、2.6%和2.1%。相較于改進(jìn)前單純使用特征金字塔的方式,通過(guò)增加雙特征融合模塊使得全局信息和局部信息在特征融合中進(jìn)行了加強(qiáng),減少了在相鄰尺度特征融合過(guò)程中造成的信息缺失,即在自頂向下的特征融合過(guò)程中會(huì)改變通道數(shù),使得全局特征中相當(dāng)多的語(yǔ)義信息丟失了,而雙特征融合模塊利用通道注意力機(jī)制和線性自注意力機(jī)制來(lái)學(xué)習(xí)高層的語(yǔ)義信息和低層的定位細(xì)節(jié),在一定程度上減少了語(yǔ)義信息的丟失,增強(qiáng)了多尺度特征的表達(dá)能力。
表3 雙特征融合模塊對(duì)模型的影響Tab. 3 Influence of TFFM on our model
對(duì)提出的縮放式擴(kuò)展算法對(duì)模型的效果進(jìn)行了試驗(yàn),試驗(yàn)結(jié)果如表4所示。使用該方法的準(zhǔn)確率、召回率和F分?jǐn)?shù)都有了提升,在召回率和F分?jǐn)?shù)上分別提升了3.2%和1.8%,由于農(nóng)資圖像中文本自身的特點(diǎn),縮放式擴(kuò)展算法在一定程度上簡(jiǎn)化了文本實(shí)例擴(kuò)展的復(fù)雜度,并增加了文本框的匹配正確個(gè)數(shù),這使得召回率和F分?jǐn)?shù)提升效果更明顯,也證明了縮放式擴(kuò)展算法能提高檢測(cè)效果。
表4 縮放式擴(kuò)展算法對(duì)模型的影響Tab. 4 Influence of scaling expansion algorithm on our model
在自建數(shù)據(jù)集上進(jìn)行了消融試驗(yàn),以此來(lái)展示本文提出的骨干網(wǎng)絡(luò)、雙特征融合模塊以及縮放式擴(kuò)展算法的有效性,試驗(yàn)結(jié)果如表5所示,Baseline是PSENet模型,ResNet-50是Baseline使用的骨干網(wǎng)絡(luò),從表中可以看出,使用Swin-Transformer骨干網(wǎng)絡(luò)對(duì)模型改進(jìn)效果很大,而在使用Swin-Transformer骨干網(wǎng)絡(luò)的基礎(chǔ)上分別使用雙特征融合模塊和縮放式擴(kuò)展算法,在三項(xiàng)指標(biāo)上均有較高的提升。同時(shí)使用改進(jìn)方法,本文提出的模型在準(zhǔn)確率、召回率和F分?jǐn)?shù)達(dá)到了91.4%、87.3%和89.3%,在三個(gè)指標(biāo)上達(dá)到了較好效果,相比之前未修改的模型,在各個(gè)指標(biāo)上都有大幅提升,充分證明了文本方法對(duì)農(nóng)資標(biāo)簽文本檢測(cè)有很好的效果。
表5 不同設(shè)置對(duì)模型的影響Tab. 5 Influence of different settings on our model
為了驗(yàn)證本模型的可靠性,將本文提出的模型與近年來(lái)優(yōu)秀的文本檢測(cè)算法在自建數(shù)據(jù)集上進(jìn)行了對(duì)比[9-20],結(jié)果如表6所示,試驗(yàn)結(jié)果證明了所提出方法對(duì)農(nóng)資標(biāo)簽文本檢測(cè)有很好的效果。
對(duì)農(nóng)資標(biāo)簽文本檢測(cè)效果不優(yōu)秀的問(wèn)題主要在于標(biāo)簽文本丟失或者檢測(cè)不準(zhǔn)確,PSENet模型在檢測(cè)較小文本時(shí)存在丟失問(wèn)題,該方法核心是對(duì)不同分割結(jié)果進(jìn)行漸進(jìn)尺度擴(kuò)展算法,但是如果文本區(qū)域較小時(shí),算法分割的內(nèi)核就不明顯,導(dǎo)致檢測(cè)文本區(qū)域的丟失。FCENet[9]模型雖然能檢測(cè)到較小文本,但它的強(qiáng)項(xiàng)在于通過(guò)傅里葉變換來(lái)擬合任意形狀文本,對(duì)規(guī)則文本擬合的效果不好,存在偏差,但整體效果比PSENet效果要好,準(zhǔn)確率、召回率和F分?jǐn)?shù)上分別達(dá)到了89.5%、85.9%和87.7%。在自建數(shù)據(jù)集上,本文算法與基于區(qū)域建議算法的FCENet相比,在三項(xiàng)指標(biāo)上分別提升1.9%、1.4%和1.6%,與基于分割算法的PSENet相比,在三項(xiàng)指標(biāo)上分別提升3.8%、4%和3.9%,所以綜合來(lái)看本文算法優(yōu)于其他模型,可以充分提取圖像中文本區(qū)域特征,能有效地對(duì)其進(jìn)行檢測(cè),在很大程度上提升了農(nóng)資標(biāo)簽文本的檢測(cè)效果。
表6 不同算法模型對(duì)自建數(shù)據(jù)集的比較Tab. 6 Comparison of different algorithm models on our datasets
1) 提出了一種基于注意力機(jī)制的農(nóng)資標(biāo)簽文本檢測(cè)模型,在自建的農(nóng)資包裝圖像數(shù)據(jù)集上,對(duì)模型骨干網(wǎng)絡(luò)結(jié)構(gòu)、雙特征融合模塊和縮放式擴(kuò)展算法的改進(jìn)使得文本檢測(cè)的效果有了大幅的提升,本文提出的模型在準(zhǔn)確率、召回率和F值上分別達(dá)到91.4%、87.3%和89.3%,優(yōu)于目前主流的自然場(chǎng)景文本檢測(cè)模型。
2) 采用Swin-Transformer骨干網(wǎng)絡(luò)來(lái)提取更豐富的特征,相比于原來(lái)模型的ResNet-50骨干網(wǎng)絡(luò),在三項(xiàng)指標(biāo)上均有提升,分別提升了1.3%、3.3%和2.4%。針對(duì)基于分割的文本檢測(cè)方法中忽略全局特征的問(wèn)題,本文采用了雙特征融合模塊,將全局特征中的語(yǔ)義信息與局部特征中的定位細(xì)節(jié)融合起來(lái),增強(qiáng)了模型對(duì)文本的檢測(cè)能力,與未使用雙特征融合模塊作對(duì)比,各項(xiàng)評(píng)測(cè)指標(biāo)提升了1.6%、2.6%和2.1%。
3) 針對(duì)農(nóng)資包裝圖像中相鄰的文本實(shí)例不太密集的特點(diǎn),本文采用了縮放式擴(kuò)展算法,該算法在一定程度上簡(jiǎn)化了文本實(shí)例擴(kuò)展的復(fù)雜度,提高了文本檢測(cè)效果,相對(duì)于原有算法,在召回率和F分?jǐn)?shù)上分別提升了3.2%和1.8%。