摘 要:未隸定銘文的識(shí)別主要依靠傳統(tǒng)卷積網(wǎng)絡(luò)提供單一的全局特征,卻忽略了部位識(shí)別和特征學(xué)習(xí)的關(guān)系,導(dǎo)致模型難以充分表達(dá)復(fù)雜形態(tài)的文字構(gòu)造,進(jìn)而產(chǎn)生識(shí)別誤差。針對(duì)上述問題,提出了一種姿態(tài)對(duì)齊的多部位特征細(xì)粒度識(shí)別模型(MP-CNN)。在第一個(gè)階段,構(gòu)建空間轉(zhuǎn)換器引導(dǎo)銘文統(tǒng)一字形姿態(tài),輔助模型準(zhǔn)確定位文字的鑒別性部位;在第二個(gè)階段,構(gòu)建級(jí)聯(lián)的ECA(efficient channel attention)注意力機(jī)制引導(dǎo)特征通道組合,定位多個(gè)獨(dú)立的鑒別性部位,并通過相互增強(qiáng)的方式細(xì)?;靥崛°懳牡男螒B(tài)特征,解決復(fù)雜形態(tài)的文字識(shí)別問題;在第三個(gè)階段,構(gòu)建特征融合層獲取識(shí)別結(jié)果。實(shí)驗(yàn)表明,該算法在銘文標(biāo)準(zhǔn)數(shù)據(jù)集和多類別形態(tài)數(shù)據(jù)集上的識(shí)別準(zhǔn)確率分別為97.25%和97.18%,相比于傳統(tǒng)卷積網(wǎng)絡(luò)ResNet34分別提升4.63%和8.89%。結(jié)果顯示,該算法能夠有效針對(duì)銘文實(shí)際形態(tài)的獨(dú)特性,實(shí)現(xiàn)未隸定銘文的細(xì)粒度識(shí)別。
關(guān)鍵詞:未隸定青銅器銘文; 細(xì)粒度識(shí)別; 姿態(tài)對(duì)齊; ECA注意力機(jī)制; 特征融合
中圖分類號(hào):TP391.1 文獻(xiàn)標(biāo)志碼:A
文章編號(hào):1001-3695(2024)10-045-3194-07
doi:10.19734/j.issn.1001-3695.2023.11.0594
Fine-grained recognition of untranscribed bronze inscriptions based on multi-category morphology
Liu Kexin1, Wang Huiqin1, Wang Ke1, Wang Zhan2, Wang Hong2
(1.School of Information & Control Engineering, Xi’an Univversity of Architecture & Technology, Xi’an 710055, China; 2.Shaanxi Provincial Institute of Cultural Relics Protection, Xi’an 710075, China)
Abstract:Fine-grained recognition of untranscribed bronze inscriptions relies on traditional convolutional neural networks. However, this method used overlooks the relationship between localization and feature learning, leading to difficulties in accurately representing the complex structures of the text and resulting in recognition errors. This paper proposed a model, named MP-CNN, addressed this issues through a pose-aligned multi-part fine-grained recognition approach. In the first stage,it employed a spatial transformer to guide inscriptions to adopt a consistent glyph posture, aiding the model in accurately locating key text regions. The second stage incorporated constructing a cascaded efficient channel attention(ECA) mechanism to guide the combination of feature channels, locating multiple independent discriminative regions and refining the extraction of morphological features for complex text structures. Finally, in the third stage, it built a feature fusion layer to obtain the recognition results. Experimental results demonstrate that the algorithm achieves recognition accuracies of 97.25% and 97.18% on stan-dard and multi-category morphology datasets, respectively. Compared to the traditional convolutional network ResNet34, the method exhibits improvements of 4.63% and 8.89% on these datasets. The results indicate that the algorithm effectively adapts to the actual morphological variations in inscriptions, achieving fine-grained recognition of untranscribed bronze inscriptions.
Key words:untranscribed bronze inscriptions; fine-grained recognition; pose alignment; ECA attention mechanism; feature fusion
0 引言
中華青銅文明源遠(yuǎn)流長(zhǎng),青銅器銘文歷經(jīng)商周秦漢各個(gè)時(shí)期,記錄了不同朝代的盛衰興廢,具有寶貴的研究?jī)r(jià)值[1]。目前,待識(shí)別的青銅器銘文數(shù)量龐大,人工釋讀面臨著兩個(gè)主要難題:首先,不同類別的銘文字體存在較多相似之處,部分文字僅在偏旁部首和筆畫轉(zhuǎn)折處呈現(xiàn)細(xì)微差異,且同類別銘文存在多種變體形式,特征信息差異性大,缺乏內(nèi)在一致性;其次,青銅器年代久遠(yuǎn),致使其表面遭受嚴(yán)重銹蝕,產(chǎn)生大量銹斑遮蓋原有字體的偏旁部首,造成文字構(gòu)件殘缺。以上兩點(diǎn)導(dǎo)致銘文難以獲取與類別相匹配的特征,需要經(jīng)驗(yàn)豐富的專家花費(fèi)大量時(shí)間拆解文字的局部結(jié)構(gòu),再逐一比對(duì)細(xì)節(jié)特征,識(shí)別效率不高。
銘文的多類別形態(tài)指的是文字呈現(xiàn)出多種復(fù)雜形式,包括形近銘文、變體銘文和構(gòu)件缺損銘文等不同表現(xiàn)形式。銘文識(shí)別多依賴于文字輪廓的全局特征[2]。羅彤瑤等人[3]提出融合形態(tài)特征的銘文分類方法,通過結(jié)合AlexNet網(wǎng)絡(luò)[4]和SURF(speeded-up robust features)算子[5],旨在全面提取銘文的整體輪廓特征。然而對(duì)于同類別中存在顯著差異的變體銘文和構(gòu)件缺損銘文,僅通過整體輪廓的比對(duì)缺乏可信度。
細(xì)粒度特征學(xué)習(xí)為銘文識(shí)別提供了新的研究方向[6] 。受該思想啟發(fā),本文提出一種適用于多類別形態(tài)銘文的識(shí)別方法(MP-CNN),通過關(guān)注銘文圖像多個(gè)獨(dú)立的鑒別部位,解決文字高類內(nèi)方差、低類間差異以及特征殘缺的問題。在模型識(shí)別中,銘文圖像的某一特征構(gòu)件能夠輕易區(qū)分其與不同類別時(shí),卷積網(wǎng)絡(luò)將會(huì)過分地依賴這一種學(xué)習(xí)到的特征,進(jìn)而忽略其他部位產(chǎn)生的貢獻(xiàn)。本文提出的部位識(shí)別方法,旨在通過單獨(dú)的部位對(duì)銘文圖像進(jìn)行識(shí)別,學(xué)習(xí)文字具有鑒別力的細(xì)節(jié)特征,并通過相互增強(qiáng)的方式促進(jìn)各獨(dú)立部位學(xué)習(xí)更多的細(xì)粒度特征。在模型識(shí)別銘文時(shí),若主要鑒別部位存在殘缺,模型將定位和表示次要部位的特征,以彌補(bǔ)特征信息丟失導(dǎo)致的識(shí)別損失;對(duì)于形近銘文的識(shí)別,模型通過定位多個(gè)部位,獲取不同特征部位的建議,以得到類別之間更具鑒別力的細(xì)微差異;而在變體銘文的識(shí)別中,模型采用獨(dú)立的部位識(shí)別,消除對(duì)其他區(qū)域的依賴,優(yōu)化與同類別相關(guān)的一組鑒別部位,總結(jié)文字結(jié)構(gòu)的內(nèi)部共通性[7]。本文期望通過以上方式,將模型應(yīng)用于實(shí)際未隸定銘文的識(shí)別任務(wù)。
本文的主要貢獻(xiàn)如下:基于多類別形態(tài)的未隸定銘文,設(shè)計(jì)了一種細(xì)粒度識(shí)別模型(MP-CNN)。首先是構(gòu)建空間轉(zhuǎn)換器[8],引導(dǎo)銘文對(duì)齊字形姿態(tài),以減少多樣化姿態(tài)對(duì)類內(nèi)空間分布的影響,輔助模型在后續(xù)任務(wù)中準(zhǔn)確定位鑒別性部位,其次是構(gòu)建級(jí)聯(lián)的ECA注意力[9]模塊,以引導(dǎo)特征通道組合,選擇性地定位多個(gè)具有獨(dú)立鑒別能力的部位,并通過相互增強(qiáng)的方式細(xì)?;靥崛°懳牡男螒B(tài)特征;最后是構(gòu)建特征融合層,進(jìn)一步利用部位集成的能力,獲取綜合識(shí)別結(jié)果,為釋讀工作提供更準(zhǔn)確的參考意見。
1 相關(guān)工作
1.1 圖像姿態(tài)對(duì)齊
青銅器銘文類別繁多,不同書寫者鏨刻的變體形式風(fēng)格迥異[10],例如字體的大小、位置和形態(tài)章法均各有千秋。傳統(tǒng)卷積網(wǎng)絡(luò)已被證實(shí)缺乏平移不變性[11],當(dāng)銘文字體的結(jié)構(gòu)位置發(fā)生偏移時(shí),將會(huì)對(duì)識(shí)別結(jié)果產(chǎn)生影響。Wang等人[12]借助關(guān)鍵點(diǎn)估計(jì)算法學(xué)習(xí)圖像的特征節(jié)點(diǎn),并通過圖卷積層匹配節(jié)點(diǎn)之間的關(guān)系信息,從而實(shí)現(xiàn)特征對(duì)齊。然而,銘文字體結(jié)構(gòu)多變,缺乏明確的特征節(jié)點(diǎn)。Zhang等人[13]借助圖像的局部特征信息,動(dòng)態(tài)計(jì)算相似部位間的特征距離,以實(shí)現(xiàn)部位的姿態(tài)對(duì)齊。Liu等人[14]采用網(wǎng)絡(luò)分層對(duì)齊的策略,以逐步校準(zhǔn)圖像的局部特征,解決姿態(tài)之間的空間錯(cuò)位問題。然而,由于銘文結(jié)構(gòu)的特殊性,僅改變文字的局部形態(tài)易引起類別變化,所以期望模型能夠基于字體的整體結(jié)構(gòu),對(duì)文字特征進(jìn)行粗略對(duì)齊。其次,本文旨在卷積網(wǎng)絡(luò)的層結(jié)構(gòu)中使用姿態(tài)對(duì)齊模塊,從而與網(wǎng)絡(luò)形成端到端的學(xué)習(xí),以協(xié)助特征提取模塊從字體多樣的姿態(tài)中推斷出期望的形態(tài)輪廓,動(dòng)態(tài)地矯正特征部位,達(dá)到縮小類內(nèi)差異的目的。圖1為“元”字的部分變體形式,圖(a)中可以看出同類別銘文具有多樣化的書寫風(fēng)格,文字的結(jié)構(gòu)位置和形態(tài)大小均有差別。圖(b)中通過空間轉(zhuǎn)換器將銘文的空間位置、大小和姿態(tài)進(jìn)行統(tǒng)一對(duì)齊。
1.2 細(xì)粒度圖像識(shí)別
細(xì)粒度圖像識(shí)別將目標(biāo)對(duì)象劃分為多個(gè)部分,主要方法分為強(qiáng)監(jiān)督和弱監(jiān)督模式下的特征學(xué)習(xí)兩類。強(qiáng)監(jiān)督方法除了使用類別級(jí)標(biāo)簽外,還利用邊界框等額外注釋定位圖像的關(guān)鍵區(qū)域。 Zhang等人[15]提出基于目標(biāo)層面的R-CNN方法,利用標(biāo)注框輔助模型檢測(cè)物體的關(guān)鍵部位。Huang等人[16]提出借助標(biāo)注部位的堆疊策略,通過雙分支結(jié)構(gòu)定位目標(biāo)對(duì)象的局部區(qū)域。Diao等人[17]基于多元異構(gòu)數(shù)據(jù)提出一種聯(lián)合學(xué)習(xí)的方法,通過融合視覺和元信息為模型提供充足的識(shí)別特征。然而,這些方法依賴于注釋等額外信息,難以適用于大規(guī)模的銘文數(shù)據(jù)集。弱監(jiān)督方法僅利用類別級(jí)標(biāo)簽,通過類激活映射等端到端的訓(xùn)練方式來(lái)定位鑒別區(qū)域。Hu等人[18]提出一種雙線性注意力機(jī)制,用于定位圖像的鑒別部位,并將定位區(qū)域進(jìn)行裁剪和放大操作,從而捕獲圖像深層的細(xì)節(jié)特征。Wang等人[19]應(yīng)用強(qiáng)大域適應(yīng)性的ResNet50 IBN作為主干網(wǎng)絡(luò),增強(qiáng)模型特征提取的穩(wěn)健性,并通過HDBSCAN算法聚類相鄰特征,以引導(dǎo)模型學(xué)習(xí)類別間的鑒別信息。Chou等人[20]提出一種高溫細(xì)化模塊,通過逐層學(xué)習(xí)圖像的全局和局部特征,以兼顧上下文結(jié)構(gòu)的同時(shí)捕捉更為精細(xì)的鑒別特征。此外,該模型還結(jié)合了背景抑制模塊用于去除圖像噪聲,以增強(qiáng)鑒別信息,實(shí)現(xiàn)相似圖像的區(qū)分。然而,這些方法忽略了部位識(shí)別和特征學(xué)習(xí)的關(guān)系。獨(dú)立的部位識(shí)別可以消除部位之間的依賴關(guān)系,進(jìn)而優(yōu)化相關(guān)部位的特征學(xué)習(xí),提取更為準(zhǔn)確的歧視性特征。同時(shí),次要的鑒別部位也應(yīng)在圖像識(shí)別中受到關(guān)注,當(dāng)主要特征不滿足于鑒別相似的目標(biāo)對(duì)象時(shí),次要特征則起到關(guān)鍵的補(bǔ)充作用,這一點(diǎn)在識(shí)別形近銘文和構(gòu)件缺損時(shí)尤為重要。
圖2展示了三組不同類別的形近銘文,可以看出每組銘文具有相似的形態(tài)結(jié)構(gòu),其理想的鑒別部位僅在局部節(jié)點(diǎn)、筆畫轉(zhuǎn)折和偏旁構(gòu)件等位置存在細(xì)微差異。
圖3展示了多種形態(tài)的銘文圖像。正常形態(tài)的銘文圖像具有清晰的字體輪廓和完整的形態(tài)結(jié)構(gòu),構(gòu)件缺損的銘文圖像存在構(gòu)件缺失。在第二行的銘文圖像中,分別存在筆畫缺失和部首缺失;在第三行的銘文圖像中,分別存在噪斑和斷痕。這些因素破壞了原始銘文字體的整體結(jié)構(gòu)特征。
2 多注意力引導(dǎo)的卷積神經(jīng)網(wǎng)絡(luò)
青銅器銘文數(shù)據(jù)集涵蓋了形近銘文、變體銘文以及構(gòu)件缺損銘文等多種類別形式,具有高類內(nèi)方差和低類間差異的特點(diǎn)。本文提出了一種細(xì)粒度識(shí)別的方法,即MP-CNN模型,旨在通過部位識(shí)別學(xué)習(xí)銘文鑒別性的特征,以解決實(shí)際場(chǎng)景中未隸定銘文的識(shí)別問題。模型結(jié)構(gòu)通過姿態(tài)對(duì)齊、部位定位和特征融合三部分子網(wǎng)絡(luò)構(gòu)成,如圖4所示。在MP-CNN模型中,采用ResNet34網(wǎng)絡(luò)作為特征提取器,以提供基礎(chǔ)特征。由于銘文涵蓋眾多類別,且每個(gè)類別的樣本數(shù)量存在嚴(yán)重失衡,所以需要卷積網(wǎng)絡(luò)具備一定的深度,同時(shí)保持良好的收斂效果,以提供充足的特征通道圖,用于定位多個(gè)有效的鑒別部位。ResNet34網(wǎng)絡(luò)引入了殘差塊,即恒等映射層,通過跳躍連接的方式,有效解決了不均衡數(shù)據(jù)在超深結(jié)構(gòu)中容易過擬合的問題,從而不斷挖掘銘文圖像中各種鑒別性特征。
2.1 姿態(tài)對(duì)齊模塊
姿態(tài)對(duì)齊模塊旨在降低銘文的類內(nèi)空間分布,輔助模型在后續(xù)任務(wù)中準(zhǔn)確定位鑒別性部位。主要起到兩個(gè)作用:首先,通過空間變換器降低銘文姿態(tài)對(duì)識(shí)別的干擾,使卷積網(wǎng)絡(luò)在一定程度上保持字體形態(tài)的空間一致性,將銘文多樣的姿態(tài)統(tǒng)一對(duì)齊為規(guī)范的、期待的樣式,有助于模型準(zhǔn)確定位鑒別性部位。其次,在銘文圖像背景中存在噪斑,通過空間變換器剪裁圖像邊緣位置的噪斑,以抑制背景噪聲。
空間變換器由定位網(wǎng)絡(luò)、采樣網(wǎng)格和圖像采樣三部分構(gòu)成。作為可微分模塊并聯(lián)接入ResNet34網(wǎng)絡(luò)第一個(gè)卷積結(jié)構(gòu)前,對(duì)每張輸入的銘文圖片,產(chǎn)生適當(dāng)?shù)目臻g位置變換。如圖5所示,第一部分用于計(jì)算定位網(wǎng)絡(luò)的輸出參數(shù)θ,作為銘文圖像空間變換的依據(jù);第二部分利用預(yù)測(cè)的空間變換系數(shù)創(chuàng)建采樣網(wǎng)格,并定義采樣點(diǎn)處的像素;第三部分將輸入圖片與采樣網(wǎng)格結(jié)合,生成姿態(tài)矯正后的銘文圖片,提供給ResNet34網(wǎng)絡(luò)進(jìn)行特征提取。本文模型針對(duì)銘文類別中數(shù)量的不均衡性問題,通過優(yōu)化空間變換器的網(wǎng)絡(luò)層數(shù)以及卷積核數(shù),減少對(duì)特定特征的依賴,這有效地避免了模型過度擬合每一種形態(tài)g1GjksnVqOOtUt5w/3SGrg==的銘文結(jié)構(gòu),提高網(wǎng)絡(luò)的泛化能力。
定位網(wǎng)絡(luò)接受輸入的銘文圖像X∈Euclid ExtraaBpH×W×C,其中H、W 和C分別為輸入圖片的高度、寬度和通道數(shù)。定位網(wǎng)絡(luò)結(jié)構(gòu)采用優(yōu)化的AlexNet提取目標(biāo)特征,在其基礎(chǔ)架構(gòu)上將5層卷積減少至4層。同時(shí),限制每一層卷積核數(shù)最多為128,以降低模型的復(fù)雜度。隨后,通過全連接層輸出預(yù)測(cè)的空間變換參數(shù)θ=floc(X),即為應(yīng)用于銘文圖片二維仿射變換的系數(shù)Aθ。
Aθ=floc(X)=θ11θ12θ13θ21θ22θ23(1)
其中:二維仿射系數(shù)Aθ用于網(wǎng)絡(luò)對(duì)輸入的銘文圖片進(jìn)行裁剪、旋轉(zhuǎn)和縮放的操作,同時(shí)通過裁剪可以去除邊緣噪斑,從而增強(qiáng)圖像中的目標(biāo)對(duì)象。
采樣網(wǎng)格用于執(zhí)行輸入銘文圖像對(duì)應(yīng)的輸出映射變換。輸出的映射圖像Y∈Euclid ExtraaBpH1×W1×C1由位于規(guī)則采樣網(wǎng)格上的像素Gi=(uti,vti)形成,其中H1、W1 和C1分別為變換后的高度、寬度和通道數(shù)。將其與二維仿射變換矩陣相結(jié)合,得到輸出銘文圖像特征映射Y在每個(gè)輸入銘文圖像特征映射X中對(duì)應(yīng)的坐標(biāo)位置,即為生成的采樣網(wǎng)格Tθ(Gi)。
usivsi=Tθ(Gi)=Aθutivti1=θ11θ12θ13θ21θ22θ23utivti1(2)
其中:輸入銘文圖像的采樣點(diǎn)由源坐標(biāo)(usi,vsi)構(gòu)成,輸出特征圖在規(guī)則網(wǎng)格上的目標(biāo)坐標(biāo)由(uti,vti)構(gòu)成。在生成轉(zhuǎn)換期間,通過定位網(wǎng)絡(luò)查找并框選出銘文圖像中的目標(biāo)文字,從而生成相應(yīng)的網(wǎng)格Gi。
通過采樣網(wǎng)格,在輸入銘文特征圖X中尋找相應(yīng)空間位置坐標(biāo)(usi,vsi)處的像素值。使用雙線性插值算法作為采樣核,以同等方式計(jì)算不同通道下輸出銘文圖像的目標(biāo)像素值,將其在經(jīng)過空間轉(zhuǎn)換后映射到給定輸出坐標(biāo)處的像素值Yci。
Yci=∑Hh∑WwXchwmax(0,1-usi-w)max(0,1-vsi-h)(3)
其中:Xchw代表輸入銘文圖像中第c維通道特征圖對(duì)應(yīng)空間坐標(biāo)(h,w)處的像素值。通過像素間的局部相似性原理,取最鄰近的像素點(diǎn)生成均值,填補(bǔ)銘文目標(biāo)映射對(duì)應(yīng)特征通道圖中缺失的像素值Yci。同時(shí),雙線性采樣具有可微分性質(zhì),允許使用反向傳播,將梯度損失傳遞至定位網(wǎng)絡(luò)的各層,從而不斷更新輸出參數(shù),形成完整的端到端學(xué)習(xí)。
2.2 部位定位模塊
部位定位模塊旨在對(duì)銘文圖像實(shí)現(xiàn)細(xì)粒度識(shí)別,解決形近銘文、變體銘文以及構(gòu)件缺損銘文的識(shí)別任務(wù)。主要起到兩個(gè)作用:首先,利用通道特征圖多樣化的峰值響應(yīng),聚類一組最高峰值響應(yīng)位置相鄰的通道特征圖,用于生成部位注意力圖,以定位一個(gè)獨(dú)立的鑒別區(qū)域。其次,通過各個(gè)獨(dú)立的部位對(duì)銘文圖像進(jìn)行識(shí)別,交替學(xué)習(xí)對(duì)應(yīng)部位的識(shí)別損失,并將學(xué)習(xí)結(jié)果回流至特征提取網(wǎng)絡(luò),使得部位識(shí)別和特征學(xué)習(xí)相互增強(qiáng),促進(jìn)模型提取更有鑒別性的特征,從而解決文字高類內(nèi)方差、低類間差異以及特征殘缺的問題。
如圖6所示,部位定位模塊通過級(jí)聯(lián)ECA注意力機(jī)制,對(duì)輸入的特征圖進(jìn)行聚類和部位定位。將姿態(tài)對(duì)齊的銘文圖片X′ 輸入ResNet34網(wǎng)絡(luò),卷積層中不同通道對(duì)銘文形態(tài)的關(guān)鍵信息有不同的感知能力,因此,將特征通道圖展開,得到各通道對(duì)應(yīng)的激活區(qū)域。其中,將每個(gè)特征通道表示為位置向量,最高響應(yīng)值的坐標(biāo)作為此通道的代表特征。
[l1x,l1y,l2x,l2y,…,lmx,lmy,…,lΩx,lΩy](4)
其中:lmx、lmy代表訓(xùn)練集中第m張銘文圖片最高響應(yīng)值的坐標(biāo);Ω為訓(xùn)練集的總數(shù)量。通過聚類不同通道相鄰最高響應(yīng)位置作為一簇,代表銘文圖像的一組鑒別性部位,并對(duì)每一簇進(jìn)行編碼。
[1{1},1{2},…,1{C}](5)
其中:C代表第m張銘文圖像經(jīng)過ResNet34網(wǎng)絡(luò)后的輸出特征通道數(shù)目;1{·}代表當(dāng)前通道是否屬于對(duì)應(yīng)簇,若屬于則設(shè)置為1,若不屬于則設(shè)置為0。由此聚類n個(gè)鑒別性部位。然而,特征通道硬性編碼的分組方式不能確保網(wǎng)絡(luò)進(jìn)行反向傳播。因此,采用每個(gè)ECA注意力機(jī)制對(duì)應(yīng)一簇,代表一個(gè)部位注意力圖。同時(shí),通過一維卷積學(xué)習(xí)跨通道的交互關(guān)系,以近似編碼產(chǎn)生各特征通道圖的權(quán)重,并希望通過訓(xùn)練,使得分組卷積層的權(quán)重向量盡可能地趨近硬性編碼。假設(shè)ResNet34提取得到銘文特征圖為X″∈Euclid ExtraaBpW×H×C,每個(gè)ECA注意力層接受各通道的輸入,產(chǎn)生一簇權(quán)重。首先,利用全局平均池化層d收縮銘文特征圖的空間維度,將其空間信息聚合為d∈Euclid ExtraaBpc,有助于通道維度間的交互。
d(X″)=1W×H ∑W,Hi=1,j=1X″ij(6)
其次,采用卷積操作捕獲局部通道間的依賴關(guān)系。銘文圖片中第c維特征通道圖dc,僅通過k=4個(gè)相鄰特征通道之間的相互作用生成權(quán)重qn,文獻(xiàn)[9]中表明當(dāng)k=4時(shí), ECA注意力機(jī)制具有最好的魯棒性。
qnc(d)=∑kj=1wjcdjc(7)
其中:qn=[qn1,qn2,…,qnC]代表第n簇部位特征通道分組對(duì)應(yīng)的權(quán)重;djc是第j張通道圖的c×c維參數(shù)矩陣。通過訓(xùn)練使得權(quán)重qnc(d)≈[1{1},1{2},…,1{C}],并采用sigmoid函數(shù)歸一化特征通道,依次得到對(duì)應(yīng)的部位注意力特征圖Mn。
Mn(X″)=sigmoid(∑Cc=1qncX″c)(8)
最后,對(duì)得到的部位注意力特征圖進(jìn)一步歸一化。
Pn(X″)=∑Cc=1(MnX″c)(9)
部位定位網(wǎng)絡(luò)通過級(jí)聯(lián)ECA注意力機(jī)制,引導(dǎo)通道特征圖進(jìn)行分組,強(qiáng)調(diào)攜帶關(guān)鍵信息的特征通道,定位多個(gè)鑒別性部位。
2.3 特征融合模塊
特征融合模塊旨在利用部位集成獲取全面的識(shí)別結(jié)果,主要作用為:充分考慮不同部位攜帶特征的能力存在顯著差異。因此,為了避免使用均等權(quán)重以削弱最優(yōu)辨別部位在識(shí)別中的貢獻(xiàn),從而采用了自適應(yīng)加權(quán)融合特征的策略,以更精準(zhǔn)地衡量各個(gè)部位的重要程度。
將n個(gè)部位以及基礎(chǔ)特征進(jìn)行加性融合,得到對(duì)應(yīng)權(quán)重α′f,從而增強(qiáng)模型對(duì)最優(yōu)辨別部位的關(guān)注度。
α′f=eωf∑n+1r=1eωr f=1,2,…,n+1(10)
其中:ωf為初始化指數(shù)權(quán)重;ωr為各特征權(quán)重。采用加性融合疊加各特征Pf,得出未隸定銘文的綜合識(shí)別得分Ftotal。
Ftotal=∑nf=1α′fPf(11)
3 實(shí)驗(yàn)結(jié)果及分析
本文實(shí)驗(yàn)基于Windows 10操作系統(tǒng),采用PyTorch 1.7.0深度學(xué)習(xí)框架搭建模型的基本環(huán)境,實(shí)驗(yàn)設(shè)備為AMD Ryzen 9 5900X 12-Core Processor 3.70 GHz處理器和NVIDIA GeForce 下RTX 3090 GPU。
3.1 實(shí)驗(yàn)數(shù)據(jù)集
實(shí)驗(yàn)數(shù)據(jù)來(lái)源于《新金文編》全三冊(cè),該著作中銘文圖像一律采用計(jì)算機(jī)剪貼原始拓片的方式,以最大化保留出土銘文的形態(tài)構(gòu)造。為了進(jìn)一步驗(yàn)證提出算法在未隸定銘文識(shí)別實(shí)際應(yīng)用過程中的有效性,將其分為兩類數(shù)據(jù)集進(jìn)行對(duì)照,分別為標(biāo)準(zhǔn)數(shù)據(jù)集和多類別形態(tài)的銘文數(shù)據(jù)集。
a)標(biāo)準(zhǔn)數(shù)據(jù)集中僅包含形態(tài)結(jié)構(gòu)完整且類別間差異較大的銘文圖像,共整理出2 647個(gè)類別,每個(gè)類別包含3~80張銘文圖像。
b)多類別形態(tài)的銘文數(shù)據(jù)集中包含了形近銘文、變體銘文和構(gòu)件缺損銘文等多種類別形態(tài)的銘文圖像,以模擬實(shí)際應(yīng)用中末隸定銘文形態(tài)特征的不穩(wěn)定性。該數(shù)據(jù)集共整理出2 647個(gè)類別,每個(gè)類別包含3~80張銘文圖像。如圖7所示為兩類數(shù)據(jù)展示。
經(jīng)過數(shù)據(jù)預(yù)處理后,將銘文圖像的像素大小統(tǒng)一為224×224,按照6∶2∶2的分配比例隨機(jī)為兩種數(shù)據(jù)集劃分出訓(xùn)練集、驗(yàn)證集和測(cè)試集,實(shí)驗(yàn)數(shù)據(jù)分布如表1所示。
3.2 實(shí)驗(yàn)參數(shù)設(shè)置
實(shí)驗(yàn)采用圖4所示的MP-CNN模型結(jié)構(gòu),通過分階段訓(xùn)練的方式使用梯度下降法完成模型權(quán)重參數(shù)的學(xué)習(xí)。batch size設(shè)置為128,第一步使用Adam優(yōu)化器訓(xùn)練ResNet34_ST網(wǎng)絡(luò),epochs設(shè)置為50,learning_rate設(shè)置為0.000 1,以實(shí)現(xiàn)銘文圖像的特征提取和姿態(tài)對(duì)齊。第二步固定ResNet34_ST學(xué)到的權(quán)重,使用Adam優(yōu)化器訓(xùn)練ECA注意力機(jī)制,epochs設(shè)置為5,learning_rate設(shè)置為0.001,以引導(dǎo)模型準(zhǔn)確定位各鑒別性部位。第三步使用SGD優(yōu)化器訓(xùn)練整個(gè)模型,epochs設(shè)置為30,以全局優(yōu)化調(diào)整各部位的特征權(quán)重。
3.3 消融實(shí)驗(yàn)
為驗(yàn)證改進(jìn)的空間轉(zhuǎn)換器的有效性,本文在標(biāo)準(zhǔn)和多類別形態(tài)的銘文數(shù)據(jù)集上,以ResNet34網(wǎng)絡(luò)作為識(shí)別框架,對(duì)比了空間變換器中不同配置的定位網(wǎng)絡(luò),包括傳統(tǒng)的AlexNet、精簡(jiǎn)層數(shù)的AlexNet、精簡(jiǎn)卷積核數(shù)的AlexNet以及本文提出的AlexNet。實(shí)驗(yàn)結(jié)果如表2所示,本文模型在兩種數(shù)據(jù)集中表現(xiàn)出優(yōu)于其他對(duì)比網(wǎng)絡(luò)的性能。盡管不同銘文呈現(xiàn)多樣性的姿態(tài),但每個(gè)類別的圖像數(shù)目仍然存在不均衡性,對(duì)網(wǎng)絡(luò)的抗擬合能力提出了較高的要求。本文模型在更少參數(shù)量和計(jì)算復(fù)雜度的情況下,展現(xiàn)出更高的準(zhǔn)確性。圖8展示了姿態(tài)矯正后的效果圖,其中,圖(a)為原始的銘文圖像;圖(b)為對(duì)原始銘文圖像進(jìn)行了縮小處理;而圖(c)在縮小后的銘文圖像上再次施加了旋轉(zhuǎn)操作。通過使用空間轉(zhuǎn)換器實(shí)現(xiàn)文字姿態(tài)的對(duì)齊,使得不同尺度大小和結(jié)構(gòu)位置的銘文圖像能夠在統(tǒng)一尺度下對(duì)齊至圖像中心。
為了評(píng)估各模塊對(duì)未隸定銘文識(shí)別的有效性,本文在兩種銘文數(shù)據(jù)集上驗(yàn)證了不同模塊的識(shí)別準(zhǔn)確率,包括Resnet34網(wǎng)絡(luò)、加入空間轉(zhuǎn)換器的ResNet34_ST網(wǎng)絡(luò)、兩部位定位的ResNet34_ST+ECA_2 part網(wǎng)絡(luò)、三部位定位的ResNet34_ST+ECA_3 part網(wǎng)絡(luò)和四部位定位的ResNet34_ST+ECA_4 part網(wǎng)絡(luò),實(shí)驗(yàn)結(jié)果如表3所示。
在兩種數(shù)據(jù)集上,傳統(tǒng)ResNet34模型的識(shí)別準(zhǔn)確率分別為92.62%和88.29%。通過加入空間轉(zhuǎn)換器對(duì)齊銘文姿態(tài),有效地減小了類內(nèi)空間分布的差異,使得定位區(qū)域更加精準(zhǔn),識(shí)別準(zhǔn)確率提高至93.45%和91.38% 。進(jìn)一步加入兩個(gè)ECA注意力機(jī)制,用于定位兩個(gè)獨(dú)立的鑒別部位,以應(yīng)對(duì)單一焦點(diǎn)區(qū)域存在噪斑和特征缺失,模型的識(shí)別準(zhǔn)確率提升了3.36百分點(diǎn)和5.18百分點(diǎn)。當(dāng)加入三個(gè)ECA注意力機(jī)制時(shí),模型的識(shí)別準(zhǔn)確率再次提高了0.42百分點(diǎn)和0.54百分點(diǎn),表明兩個(gè)獨(dú)立的鑒別部位仍然不足以充分表達(dá)銘文多樣化的形態(tài)特征。模型加至四個(gè)ECA注意力機(jī)制后,部分焦點(diǎn)區(qū)域重疊,特征信息開始產(chǎn)生冗余,識(shí)別準(zhǔn)確率分別下降了0.29百分點(diǎn)和0.38百分點(diǎn),表現(xiàn)出過擬合狀態(tài)。圖9展示在三種姿態(tài)下,五個(gè)模塊區(qū)域定位的效果圖。在圖(b)中,受到銘文字體大小和角度的影響,定位區(qū)域產(chǎn)生偏移;在圖(c)中,經(jīng)過空間變換器對(duì)齊文字姿態(tài),模型能夠更加精準(zhǔn)地定位鑒別區(qū)域;在圖(d)中,模型定位了兩個(gè)有效的鑒別部位;在圖(e)中,模型定位了三個(gè)有效的鑒別部位,其中僅存在輕微的區(qū)域重疊;在圖(f)中,重疊區(qū)域增加,藍(lán)色方框區(qū)域即為冗余定位區(qū)域。
為了進(jìn)一步分析各模塊的有效性,圖10展示了各部分消融模塊的識(shí)別準(zhǔn)確率條形圖(參見電子版)。在標(biāo)準(zhǔn)數(shù)據(jù)集中,不同模塊的識(shí)別準(zhǔn)確率均高于復(fù)雜形態(tài)下的銘文數(shù)據(jù)集,而準(zhǔn)確率差值主要源于形近銘文、變體銘文和構(gòu)件缺損銘文等識(shí)別誤差的影響。隨著空間變換器、ECA注意力機(jī)制和加權(quán)機(jī)制的逐步引入,識(shí)別準(zhǔn)確率差值由4.43百分點(diǎn)不斷縮小至0.07百分點(diǎn)。這一趨勢(shì)表明,通過逐步引入消融模塊,MP-CNN模型在實(shí)際應(yīng)用中的泛化能力得到了顯著提升。
3.4 對(duì)比實(shí)驗(yàn)
為驗(yàn)證所提出模型的有效性,本文在兩種銘文數(shù)據(jù)集上采用同等的參數(shù)配置,并以精確率(accuracy)作為評(píng)價(jià)指標(biāo),綜合評(píng)估了本文MP-CNN模型與傳統(tǒng)模型、相關(guān)銘文識(shí)別模型以及細(xì)粒度識(shí)別模型的性能表現(xiàn)。
青銅器銘文的識(shí)別因其具有獨(dú)特的形態(tài)結(jié)構(gòu)而具有挑戰(zhàn)性,其中部分文字結(jié)構(gòu)受到嚴(yán)重的風(fēng)化腐蝕,導(dǎo)致大量團(tuán)狀噪斑和構(gòu)件缺損。為驗(yàn)證MP-CNN模型相較于傳統(tǒng)卷積網(wǎng)絡(luò),本文在表4中將MP-CNN模型與傳統(tǒng)網(wǎng)絡(luò)對(duì)復(fù)雜形態(tài)銘文的特征提取能力進(jìn)行了對(duì)比??v向觀察,MP-CNN模型的識(shí)別準(zhǔn)確率均優(yōu)于傳統(tǒng)網(wǎng)絡(luò),這表明傳統(tǒng)網(wǎng)絡(luò)粗粒度的特征提取方式直接應(yīng)用于銘文識(shí)別,難以充分捕捉文字的形態(tài)特征。橫向觀察,在兩種數(shù)據(jù)集下,AlexNet相差5.32百分點(diǎn),VGG16網(wǎng)絡(luò)相差1.22百分點(diǎn),ResNet34網(wǎng)絡(luò)相差4.33百分點(diǎn),而MP-CNN模型相差0.07百分點(diǎn),這表明傳統(tǒng)網(wǎng)絡(luò)在應(yīng)對(duì)形近銘文、變體銘文以及構(gòu)件缺損的銘文時(shí),難以精準(zhǔn)地定位至有效的鑒別部位。
表5展示了兩種數(shù)據(jù)集下,MP-CNN模型和相關(guān)銘文識(shí)別模型的對(duì)比。文獻(xiàn)[3,7]中,分別采用兩階段映射和融合算法,旨在關(guān)注文字更多的細(xì)微特征,以區(qū)分形近字體。SENet[23]和CBAM[24]利用注意力機(jī)制引導(dǎo)模型關(guān)注文字更具鑒別性的位置,但受限于模型提取鑒別性特征的能力。相較之下,MP-CNN模型通過定位多個(gè)獨(dú)立的辨別部位,獲取更多精準(zhǔn)的鑒別特征,解決銘文圖像中高類內(nèi)方差、低類間差異的問題,并取得了最佳的性能結(jié)果。
表6展示了兩種數(shù)據(jù)集下,本文MP-CNN模型和細(xì)粒度識(shí)別模型的對(duì)比。UFCL算法[19]通過聚類相鄰特征引導(dǎo)模型學(xué)習(xí)類別間的鑒別信息;MS-ResNet算法[25]通過融合多尺度特征獲取充分的細(xì)節(jié)信息。這兩種算法旨在獲取圖像中的歧視性特征,以區(qū)分相似圖像,在銘文標(biāo)準(zhǔn)數(shù)據(jù)集中準(zhǔn)確率分別為94.34%和91.06%。然而,在多類別形態(tài)的銘文數(shù)據(jù)集中,識(shí)別準(zhǔn)確率分別下降了3.28百分點(diǎn)和3.43百分點(diǎn)。模型主要關(guān)注于歧視性區(qū)域,從而忽略次要部位對(duì)于識(shí)別的貢獻(xiàn)。變體銘文多存在局部結(jié)構(gòu)的變化,且部分銘文背景存在噪斑,模型容易錯(cuò)誤地將其識(shí)別為有價(jià)值的鑒別信息。HERBS算法[14]通過高溫細(xì)化模塊逐層學(xué)習(xí)圖像特征,并結(jié)合背景抑制模塊增強(qiáng)目標(biāo)對(duì)象;SM-ViT算法[26]通過生成目標(biāo)對(duì)象的掩碼引導(dǎo)模型提取鑒別性的局部特征;TransFG算法[27]通過部位選擇模塊引導(dǎo)模型準(zhǔn)確定位鑒別特征。這三種算法雖然增強(qiáng)了目標(biāo)對(duì)象,但是依賴于特征間的關(guān)系,忽略了獨(dú)立部位對(duì)識(shí)別的作用,難以用于識(shí)別構(gòu)件存在缺損的銘文。在多類別形態(tài)的銘文數(shù)據(jù)集中,識(shí)別準(zhǔn)確率分別下降2.59百分點(diǎn)、2.19百分點(diǎn)和2.28百分點(diǎn)。WS-DAN算法[18]和MAMC算法[28]通過類激活映射定位圖像多個(gè)具有鑒別性的局部區(qū)域,引導(dǎo)模型提取局部細(xì)節(jié)特征。這兩種算法充分利用了主要和次要鑒別部位,但是忽略了部位識(shí)別和特征學(xué)習(xí)的關(guān)系,在多類別形態(tài)的銘文數(shù)據(jù)集中,識(shí)別準(zhǔn)確率分別下降1.69百分點(diǎn)和1.88百分點(diǎn)。MP-CNN算法通過姿態(tài)對(duì)齊模塊增強(qiáng)目標(biāo)對(duì)象,降低圖像的類內(nèi)差異,其次利用部位識(shí)別消除特征間的依賴關(guān)系,學(xué)習(xí)文字具有鑒別力的特征。相較于前述算法,提出模型在標(biāo)準(zhǔn)數(shù)據(jù)集上識(shí)別準(zhǔn)確率為97.25%,在多類別形態(tài)的銘文數(shù)據(jù)集上,識(shí)別準(zhǔn)確率為97.18%,略微下降0.07百分點(diǎn)。
圖11展示了不同算法對(duì)于標(biāo)準(zhǔn)形態(tài)的銘文(A-1)、構(gòu)件缺損的銘文(A-2)和噪斑干擾的銘文(A-3)的可視化結(jié)果,其中,區(qū)域亮度表示注意力權(quán)重的分布。文獻(xiàn)[8]和UFCL算法關(guān)注于大面積的焦點(diǎn)區(qū)域;其余算法關(guān)注于局部的多個(gè)鑒別部位。在識(shí)別存在缺損和噪斑的銘文圖像時(shí),由于缺損位置和噪斑區(qū)域存在特征丟失,模型的關(guān)注焦點(diǎn)產(chǎn)生偏移。MP-CNN模型采用三個(gè)ECA注意力機(jī)制,將整片連續(xù)的焦點(diǎn)區(qū)域替換為獨(dú)立的部位,以捕捉主要和次要鑒別特征。即使主要特征存在偏差,該模型仍能利用剩余部位完成銘文識(shí)別。
圖12展示了同一類別中變體銘文的可視化結(jié)果。識(shí)別此類文字的關(guān)鍵在于模型能夠準(zhǔn)確地總結(jié)字體結(jié)構(gòu)的內(nèi)在一致性。文獻(xiàn)[8]、UFCL算法和TransFG算法分別定位于兩個(gè)變體文字的不同結(jié)構(gòu)區(qū)域,未能準(zhǔn)確地總結(jié)出文字真正的歧視性特征;WS-DAN算法基本能夠定位于字體的相同結(jié)構(gòu)部位,較為準(zhǔn)確地總結(jié)出文字的鑒別特征;HERBS算法在定位鑒別區(qū)域時(shí)存在部分偏差。MP-CNN模型則通過消除區(qū)域依賴,分別定位于文字的三個(gè)獨(dú)立部位,其中兩個(gè)部位的定位區(qū)域基本一致,能夠較為準(zhǔn)確地總結(jié)出文字的鑒別特征,應(yīng)用于部位識(shí)別。
圖13展示了不同類別中形近銘文的可視化結(jié)果。文獻(xiàn)[8]聚焦于文字的整片焦點(diǎn)區(qū)域,其他細(xì)粒度算法能夠更加準(zhǔn)確地定位到鑒別區(qū)域,提取文字歧視性特征。MP-CNN模型通過部位識(shí)別和特征學(xué)習(xí)相互增強(qiáng),以精確獲取類別之間的細(xì)微差異。
4 結(jié)束語(yǔ)
本文提出一種細(xì)粒度識(shí)別的方法,即MP-CNN模型,該方法在多類別形態(tài)的未隸定銘文識(shí)別任務(wù)中展現(xiàn)出卓越性能。本文方法借助空間轉(zhuǎn)換器引導(dǎo)銘文對(duì)齊字形姿態(tài),從而減少多樣化姿態(tài)對(duì)類內(nèi)空間分布的影響。其次,借助獨(dú)立的鑒別部位實(shí)現(xiàn)銘文的部位識(shí)別,并通過部位識(shí)別和特征學(xué)習(xí)相互增強(qiáng)的方式,學(xué)習(xí)文字更具有鑒別力的細(xì)節(jié)特征,解決銘文圖像中高類內(nèi)方差、低類間差異以及部位殘缺的問題。實(shí)驗(yàn)結(jié)果表明,MP-CNN模型在標(biāo)準(zhǔn)數(shù)據(jù)集和多類別形態(tài)的銘文數(shù)據(jù)集上的識(shí)別準(zhǔn)確率分別為97.25%和97.18%,均優(yōu)于對(duì)比模型,該方法在解決實(shí)際場(chǎng)景中未隸定銘文的識(shí)別問題上取得了顯著成效,為相關(guān)釋讀工作提供了更為準(zhǔn)確的參考意見。
參考文獻(xiàn):
[1]王固生. 青銅時(shí)代——中國(guó)青銅器基本知識(shí)與辯偽[J]. 收藏界, 2018(5): 86-89. (Wang Gusheng. The bronze age—basic know-ledge of Chinese bronze wares and counterfeiting[J]. Collectors, 2018(5): 86-89.)
[2]李零. 青銅器銘文考釋 (三則)[J]. 中國(guó)國(guó)家博物館館刊, 2022(4): 30-37. (Li Ling. Interpretation of three pieces bronze inscriptions[J]. Journal of the National Museum of ChLC46gJzafN2vi/pyBP7I6w==ina, 2022(4): 30-37.)
[3]羅彤瑤, 王慧琴, 王可, 等. 融合形態(tài)特征的小樣本青銅器銘文分類算法[J]. 激光與光電子學(xué)進(jìn)展, 2023, 60(4): 175-184. (Luo Tongyao, Wang Huiqin, Wang Ke, et al. Small-sample bronze inscription classification algorithm based on morphological features[J]. Advances in Laser and Optoelectronics, 2023, 60(4): 175-184.)
[4]Krizhevsky A, Sutskever I, Hinton G E. ImageNet classification with deep convolutional neural networks[J]. Communications of the ACM, 2017, 60(6): 84-90.
[5]Bay H, Ess A, Tuytelaars T, et al. Speeded-up robust features(SURF)[J]. Computer Vision and Image Understanding, 2008, 110(3): 346-359.
[6]趙婷婷, 高歡, 常玉廣, 等. 基于知識(shí)蒸餾與目標(biāo)區(qū)域選取的細(xì)粒度圖像分類方法[J]. 計(jì)算機(jī)應(yīng)用研究, 2023, 40(9): 2863-2868. (Zhao Tingting, Gao Huan, Chang Yuguang, et al. Fine-grained visual classification method based on knowledge distillation and target regions selection[J]. Application Research of Compu-ters, 2023, 40(9): 2863-2868.)
[7]李文英, 曹斌, 曹春水, 等. 一種基于深度學(xué)習(xí)的青銅器銘文識(shí)別方法[J]. 自動(dòng)化學(xué)報(bào), 2018, 44(11): 2023-2030. (Li Wen-ying, Cao Bin, Cao Chunshui, et al. A deep learning based method for bronze inscription recognition[J]. Acta Automatica Sinica, 2018, 44(11): 2023-2030.)
[8]Jaderberg M, Simonyan K, Zisserman A. Spatial transformer networks[J]. Advances in Neural Information Processing Systems, 2015, 28.
[9]Wang Qilong, Wu Banggu, Zhu Pengfei, et al. ECA-Net: efficient channel attention for deep convolutional neural networks[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2020: 11534-11542.
[10]馬承源. 中國(guó)古代青銅器[M]. 2版. 上海: 上海人民出版社, 2016: 9-41. (Ma Chengyuan. Ancient Chinese bronze wares[M]. 2nd ed. Shanghai: Shanghai People’s Publishing House, 2016: 9-41.)
[11]Lenc K, Vedaldi A. Understanding image representations by measu-ring their equivariance and equivalence[C]//Proc of IEEE Confe-rence on Computer Vision and Pattern Recognition. Piscataway,NJ:IEEE Press, 2015: 991-999.
[12]Wang Guan’an, Yang Shuo, Liu Huanyu, et al. High-order information matters: learning relation and topology for occluded person re-identification[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2020: 6449-6458.
[13]Zhang Xuan, Luo Hao, Fan Xing, et al. Alignedreid: surpassing human-level performance in person re-identification[EB/OL]. (2017). https://arxiv.org/abs/1711.08184.
[14]Liugwqiw7QEJkGIgo/Q1bo6EA== Zhenguang, Feng Runyang, Chen Haoming, et al. Temporal feature alignment and mutual information maximization for video-based human pose estimation[C]//Proc of IEEE/CVF Conference on Computer Vision and Pattern Recognition. Piscataway, NJ: IEEE Press, 2022: 11006-11016.
[15]Zhang Ning, Donahue J, Girshick R, et al. Part-based R-CNNs for fine-grained category detection[C]//Proc of the 13th European Conference on Computer Vision. Cham:Springer International Publishing, 2014: 834-849.
[16]Huang Shaoli, Xu Zhe, Tao Dacheng, et al. Part-stacked CNN for fine-grained visual categorization[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press, 2016: 1173-1182.
[17]Diao Qishuai, Jiang Yi, Wen Bin, et al. MetaFormer: a unified meta framework for fine-grained recognition[EB/OL]. (2022). https://arxiv.org/abs/2203.02751.
[18]Hu Tao, Qi Honggang, Huang Qingming, et al. See better before looking closer: weakly supervised data augmentation network for fine-grained visual classification[EB/OL].(2019).https://arxiv.org/abs/1901.09891.
[19]Wang Jiabao, Li Yang, Wei Xiushen, et al. Bridge the gap between supervised and unsupervised learning for fine-grained classification[J]. Information Sciences, 2023, 649: 119653.
[20]Chou Poyung, Kao Yuyung, Lin Chenghung. Fine-grained visual classification with high-temperature refinement and background sup-pression[EB/OL]. (2023).https://arxiv.org/abs/2303. 06442.[21]Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[EB/OL]. (2014). https://arxiv.org/abs/1409.1556.
[22]Wang Fei, Jiang Mengqing, Qian Chen, et al. Residual attention network for image classification[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press, 2017: 3156-3164.
[23]Hu Jie, Shen Li, Sun Gang. Squeeze-and-excitation networks[C]//Proc of IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE Press, 2018: 7132-7141.
[24]Woo S, Park J, Lee J Y, et al. CBAM: convolutional block attention module[C]//Proc of European Conference on Computer Vision. Cham: Springer, 2018: 3-19.
[25]Du Mengxiu, Wang Huiqin, Liu Rui, et al. Research on bone stick text recognition method with multi-scale feature fusion[J]. Applied Sciences, 2022, 12(24): 12507.
[26]Demidov D, Sharif M H, Abdurahimov A, et al. Salient mask-guided vision transformer for fine-Grained classification[EB/OL]. (2023).https://arxiv.org/abs/2305.07102.
[27]He Ju, Chen Jieneng, Liu Shuai,et al. TransFG: a transformer architecture for fine-grained recognition[C]//Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2022: 852-860.
[28]Sun Ming, Yuan Yuchen, Zhou Feng, et al. Multi-attention multi-class constraint for fine-grained image recognition[C]//Proc of European Conference on Computer Vision. Cham: Springer, 2018: 805-821.