摘" " 要: 針對礦物類別眾多、存在環(huán)境雜質(zhì)等干擾信息以及部分拉曼光譜存在相似性等問題,結(jié)合拉曼光譜時域和頻域上多尺度特征信息,提出一種基于卷積結(jié)構(gòu)和自注意力結(jié)構(gòu)的雙分支分類網(wǎng)絡(luò)RT-Net(Residual-Transformer Net)。該網(wǎng)絡(luò)利用卷積塊搭建局部特征提取模塊,引入通道注意力增強局部特征提取能力;利用自注意力結(jié)構(gòu)學(xué)習(xí)拉曼光譜頻域中的雙向依賴關(guān)系來提取全局特征信息,由注意力融合模塊進行多尺度特征融合用以分類。實驗結(jié)果表明:RT-Net實現(xiàn)了對于1 321類礦物拉曼光譜快速準(zhǔn)確的分類,分類準(zhǔn)確率達到90.31%;此外,在精準(zhǔn)率、召回率和F1得分3個評估指標(biāo)上分別達到了0.878 1、0.906 6和0.897 2,進一步驗證了RT-Net的有效性。
關(guān)鍵詞: 礦物分類;拉曼光譜;頻域;注意力機制;多尺度融合
中圖分類號: TP391.4" " " " " " 文獻標(biāo)志碼: A" " " " " " " " 文章編號:" 1671-024X(2025)01-0053-09
Classification method of Raman spectra of mineral based on
convolution and Transformer
GENG Lei1,2, QIU Huaizhi2,3, XIAO Zhitao1,2, ZHANG Fang1,2, WU Jun2,3
(1. School of Life Sciences, Tiangong University, Tianjin 300387, China; 2. Tianjin Key Laboratory of Optoelectronic Detection Technology and Systems, Tiangong University, Tianjin 300387, China; 3. School of Electronics and Information Engineering, Tiangong University, Tianjin 300387, China)
Abstract: To address the problems of many mineral categories, the existence of environmental impurities and other interference information, and the similarity of some Raman spectra, a two-branch classification network RT-Net (Residual-Transformer Net) based on convolutional structure and self-attentive structure is proposed by combining the multi-scale feature information in the time and frequency domains of Raman spectra. The network uses convolutional blocks to build a local feature extraction module and introduces channel attention to enhance the local feature extraction ability; the self-attentive structure is used to learn the bidirectional dependencies in the frequency domain of Raman spectra to extract global feature information, and the attentional fusion module is used for multi-scale feature fusion for classification. The experimental results show that RT-Net achieves fast and accurate classification of 1 321 types of mineral Raman spectra with an accuracy of 90.31%. In addition, the three evaluation indexes of precision, recall and F1 score reached 0.878 1, 0.906 6 and 0.897 2, respectively, further validating the effectiveness of RT-Net.
Key words: mineral classification; Raman specta; frequency domain; attentional mechanisms; multi-scale integration
礦物識別在地質(zhì)分析、資源勘探以及許多工程應(yīng)用中都是極為關(guān)鍵的一環(huán)。拉曼光譜能夠提供豐富的物質(zhì)分子信息,具有反映物質(zhì)分子“指紋”特征的特性,能夠獲取被測物質(zhì)的分子振動、轉(zhuǎn)動能級信息并進行分析,已被廣泛應(yīng)用于各場景下的礦物質(zhì)分析和識別任務(wù)中[1]。然而,自然界中礦物的種類繁多,其拉曼光譜具有一定的相似性,且因其成長環(huán)境不同,成分結(jié)構(gòu)復(fù)雜不統(tǒng)一,同類礦物的拉曼光譜也存在一定差異性。這些問題都對礦物的分類造成許多困難,因此建立一個快速準(zhǔn)確的礦物拉曼光譜分類模型有著重要的價值。
近年來,深度學(xué)習(xí)技術(shù)不斷發(fā)展, 被廣泛應(yīng)用于圖像分類[2]、 語音識別[3]、 醫(yī)學(xué)信號處理[4]等領(lǐng)域。深度神經(jīng)網(wǎng)絡(luò)能夠?qū)⒃紨?shù)據(jù)的特征從低維空間映射到高維空間,具有優(yōu)異的特征學(xué)習(xí)能力。對于多分類任務(wù),深度神經(jīng)網(wǎng)絡(luò)能夠很好地學(xué)習(xí)到樣本間差異區(qū)分度較小的特征。已有學(xué)者將該技術(shù)應(yīng)用于礦物拉曼光譜的識別任務(wù)上,并取得了一定效果。Liu等[5]采用包括特征提取的金字塔形卷積層和用于分類的2個全連接層的LetNet變體的深度卷積神經(jīng)網(wǎng)絡(luò)對拉曼光譜數(shù)據(jù)分類的方法,在RRUFF(礦物拉曼光譜數(shù)據(jù)庫)上取得很好的分類效果。郭志琦[6]針對192類的礦物拉曼光譜多分類問題,提出了一種輕量級神經(jīng)網(wǎng)絡(luò)模型FMCNN(factorization machine combined neural network),達到了98.8%的分類精度。Sang等[7]基于VGG19的網(wǎng)絡(luò)結(jié)構(gòu)構(gòu)建了深層卷積神經(jīng)網(wǎng)絡(luò)(CNN)模型1DCNN,在RRUFF數(shù)據(jù)庫上構(gòu)建的類別數(shù)為192和1 332的2個數(shù)據(jù)集上,準(zhǔn)確率分別達到了97.72%和87.91%。由于CNN架構(gòu)的步長特征限制了感受野的范圍,難以覆蓋全部拉曼光譜,導(dǎo)致部分特征信息丟失。
礦物拉曼光譜的光譜信息在波段之間是高度相關(guān)的,關(guān)注大范圍的波段關(guān)系有助于拉曼光譜特征的提取。Transformer架構(gòu)利用多頭注意力機制提取到時序向量間的隱含關(guān)系,很好地解決了長距離依賴關(guān)系問題。Behinaein等[8]通過級聯(lián)卷積結(jié)構(gòu)與自注意力結(jié)構(gòu)的方式對心電信號進行分類,其特點是通過卷積操作提取心電信號中的特征信息,從而提供給自注意力結(jié)構(gòu)進行后續(xù)分類。孫嘉瑤[9]提出一種雙分支網(wǎng)絡(luò)結(jié)構(gòu),各分支結(jié)構(gòu)都使用卷積與自注意力層級聯(lián)的方式,分別從時間維度和通道維度挖掘信號中的特征。除了級聯(lián)卷積與自注意力的方式,葛君偉等[10]提出將卷積結(jié)構(gòu)和自注意力結(jié)構(gòu)進行并行連接,從2種不同的角度捕獲特征信息。
針對礦物拉曼光譜存在的類間相似性和存在干擾性信息等問題,本文提出了一種同時提取時頻域特征的多尺度信息融合雙分支網(wǎng)絡(luò)RT-Net。主要研究內(nèi)容有以下幾個方面:
(1) 為提取礦物拉曼光譜中強度較小的次特征峰,解決雜質(zhì)、環(huán)境等干擾性信息問題,設(shè)計了一種利用擴張卷積塊搭建的局部特征提取模塊,對小特征峰進行特征提取,同時通過將通道注意力模塊嵌入卷積網(wǎng)絡(luò)的不同階段,抑制低級語義特征。
(2) 針對部分礦物的拉曼光譜較為相似的問題,結(jié)合時頻域特征信息,設(shè)計了一種由卷積和Trans-former并行連接的雙分支網(wǎng)絡(luò),學(xué)習(xí)光譜多尺度的特征信息。利用卷積網(wǎng)絡(luò)提取光譜時域上的局部特征信息,捕獲益于分類的拉曼特征峰信息;通過Transfor-mer學(xué)習(xí)光譜頻域上的全局依賴關(guān)系,融合局部特征信息用以分類。
(3) 利用注意力融合模塊,將提取的局部特征信息和全局信息在保留各自最大信息完整性的同時進行充分融合。
(4) 通過實驗驗證了本文方法的有效性,并與傳統(tǒng)光譜分類算法進行比較。
1 基于RT-Net網(wǎng)絡(luò)的礦物拉曼光譜分類法
本文提出的RT-Net網(wǎng)絡(luò)整體結(jié)構(gòu)如圖1所示。
RT-Net是由SRNet分支和TrNet分支并行的雙分支網(wǎng)絡(luò),能夠精確分類具有1 321類的礦物拉曼圖譜。礦物的拉曼光譜有許多波峰和波谷,包含許多特征信息,因此在SRNet分支,利用其善于捕捉卷積感受野范圍內(nèi)的特征的優(yōu)勢,提取拉曼光譜的局部特征信息用以分類。由于某些礦物的拉曼光譜有相似的特征峰,依靠局部特征難以區(qū)分,因此TrNet分支借由Transformer的自注意力機制對全局依賴關(guān)系的學(xué)習(xí)能力,學(xué)習(xí)拉曼光譜的全局特征信息。網(wǎng)絡(luò)從局部和全局對礦物的拉曼光譜進行特征提取,通過注意力融合模塊(AFM),將各分支的特征信息進行融合分類。下面將對各分支網(wǎng)絡(luò)和注意力融合模塊進行更為詳盡的敘述。
1.1 SRNet分支網(wǎng)絡(luò)
SRNet分支是由1個1 × 7的一維卷積層和1個1 × 3的最大池化層,對拉曼光譜時域數(shù)據(jù)進行下采樣,降低維數(shù)并保證數(shù)據(jù)基本特征的完整性。共8個特征提取模塊分為4個階段對拉曼數(shù)據(jù)進行時域特征的細(xì)分,結(jié)構(gòu)如圖2所示。
每個特征塊有2個相同輸出通道數(shù)的3×3卷積層,每個卷積層后接1個批量規(guī)范化層和ReLU激活函數(shù)。然后通過跳過2個卷積層,將輸入直接加在ReLU激活函數(shù)前。假設(shè)輸入為x,通過2個卷積層后的輸出為f(x),convolutional_block模塊由于第1個卷積層步長為2,跳躍連接的輸入x需要經(jīng)過1個卷積層調(diào)整通道維度與f(x)相匹配,輸出Hc(x)的的計算公式為:
Hc(x) = f(x) + Wx(1)
式中:W為卷積矩陣。identity_block模塊是2個步長為1的卷積層,因此跳躍連接的輸入x通道維度與f(x)相一致,輸出Hi(x)的計算公式為:
Hi(x) = f(x) + x(2)
每個特征提取模塊中都加入了Squeeze-and-Excitation (SE)模塊[11],通過提取特征圖通道之間的相關(guān)性信息,自適應(yīng)的動態(tài)學(xué)習(xí)并加以調(diào)整,對每個通道施加不同的權(quán)重,選擇性的突出利于識別的特征并抑制無用特征。
1.2 TrNet分支網(wǎng)絡(luò)
Transformer網(wǎng)絡(luò)主要應(yīng)用于自然語言處理領(lǐng)域,由于礦物拉曼光譜數(shù)據(jù)符合時間序列數(shù)據(jù)特點,故使用Transformer模塊作為礦物拉曼光譜全局特征的主要特征提取器,通過自注意力機制學(xué)習(xí)其長距離雙向依賴關(guān)系。同時,Transformer網(wǎng)絡(luò)含有Encoder編碼器和Decoder解碼器2部分,分別負(fù)責(zé)對輸入模型信號進行編碼和解碼,而礦物拉曼光譜分類任務(wù)并不涉及Decoder解碼操作,故將Transformer中的Encoder結(jié)構(gòu)作為分支網(wǎng)絡(luò)TrNet的基礎(chǔ),用于提取礦物拉曼光譜全局特征。由于自注意力模型在對當(dāng)前位置的數(shù)據(jù)信息進行編碼時,易過度的集中注意力在自身的位置而忽視了其他的位置,因此在Transformer中引入了多頭注意力機制(Multi-Head Attention)來解決該問題,其完整計算過程如公式(3)所示:
MultiHead(Q,K,V) = Concat(head1,…,headk)WO
where headi = Attention(CWiQ,CWiK,CWiV)(3)
由于礦物種類數(shù)量較多,部分礦物類別的拉曼光譜存在相似性,特征峰在時域上面難以區(qū)分,頻域則可以更好地從全局上表征礦石的特征。因此,通過將輸入進行快速傅里葉變換(FFT)轉(zhuǎn)換到頻域,進而利用Transformer來學(xué)習(xí)全局依賴關(guān)系,其結(jié)構(gòu)如圖3所示。
首先對TrNet的輸入進行時頻域轉(zhuǎn)換,通過1個卷積核大小為1 × 1且通道數(shù)為128的一維卷積層,改變輸入的維度大小以及提供礦物拉曼光譜的空間信息。然后將編碼后的礦物拉曼光譜數(shù)據(jù)送入Transformer的Encoder結(jié)構(gòu)中,在多頭注意力層后接入1個前饋神經(jīng)網(wǎng)絡(luò)為模型增加非線性表達的能力,其計算公式如公式(4)所示:
FFN(x) = ReLU(0,xW1 + b1)W2 + b2(4)
式中:x表示經(jīng)過多頭注意力層后的輸出特征。
同時,在多頭注意力層和前饋網(wǎng)絡(luò)層周圍都使用了殘差連接(Residual Connection)的方式并進行層歸一化(Layer Normalization,LN)操作。殘差連接能夠幫助網(wǎng)絡(luò)底層特征信息有效的傳遞到網(wǎng)絡(luò)的高層,增加了信息的傳遞效率并且增強網(wǎng)絡(luò)的表達能力。層歸一化操作是為了在激活函數(shù)之前,將輸入轉(zhuǎn)換為均值為0且方差為1的數(shù)據(jù),避免出現(xiàn)梯度消失或者梯度爆炸。
1.3 注意力融合模塊
為了將SRNet和TrNet在拉曼光譜數(shù)據(jù)中提取的局部特征與全局特征在保持各自信息完整度最大化的同時能夠充分融合,利用多頭注意力機制搭建了1個注意力融合模塊(AFM),其結(jié)構(gòu)如圖4所示。
由于2個分支輸出特征的維度不一致,因此在特征融合前要先進行維度統(tǒng)一。SRNet分支網(wǎng)絡(luò)輸出的特征尺寸為Tc × C,其中Tc表示礦物拉曼光譜通過SRNet的卷積操作之后的輸出長度,C表示最后1個特征提取模塊中卷積操作的通道數(shù)。TrNet分支網(wǎng)絡(luò)輸出的特征尺寸為T × C,其中T表示原始輸入序列的長度,N代表輸入的礦物拉曼光譜的空間維度。超參數(shù)C和N的值統(tǒng)一設(shè)置為128,保證了2個分支網(wǎng)絡(luò)輸出的特征通道維度相同,然后分別通過2個卷積核大小為1 × 1的卷積層,將SRNet分支卷積操作后的輸出長度Tc與TrNet分支原始輸入序列的長度T進行統(tǒng)一。
將SRNet與TrNet輸出的特征分別對應(yīng)矩陣Q和矩陣K來計算注意力得分,計算得到的注意力得分包含了局部特征與全局特征融合后的對應(yīng)關(guān)系,注意力得分越高表明該位置的特征與總體特征的匹配程度越高,使用融合了全局特征與局部特征的對應(yīng)關(guān)系的注意力得分標(biāo)定SRNet的局部特征,計算過程如公式(5)所示:
式中:XTrans和XCNN分別代表SRNet的輸出和TrNet的輸出。
2 實驗結(jié)果分析
2.1 實驗數(shù)據(jù)
本次實驗使用的數(shù)據(jù)集是RRUFF數(shù)據(jù)庫中的礦物拉曼光譜數(shù)據(jù)集,該數(shù)據(jù)集包含5 267組光譜數(shù)據(jù)和1 687種礦石物質(zhì)。由于訓(xùn)練模型時至少要劃分1個樣本用作測試集,因此篩除掉只有1個樣本的礦石類別后剩余1 321類。
2.1.1 樣條插值
RRUFF數(shù)據(jù)庫中收集的光譜數(shù)據(jù)因采集條件不同,導(dǎo)致拉曼位移及頻率不同,光譜數(shù)據(jù)點的數(shù)量各不相同。因此,需要對光譜數(shù)據(jù)進行插值處理。
采用一階樣條插值法對各個光譜數(shù)據(jù)進行處理。通過估算插值點相鄰的2個數(shù)據(jù)點,僅對1個小區(qū)間進行插值,插值結(jié)果如圖5所示。經(jīng)過插值處理后的光譜數(shù)據(jù),可以得到均勻分布在0~1 700 cm-1拉曼位移上的1 024個數(shù)據(jù)點及對應(yīng)強度,對某些類礦石拉曼位移未覆蓋的區(qū)間用0進行填充。
2.1.2 數(shù)據(jù)增強
大部分礦石類別在選用的RRUFF數(shù)據(jù)集中樣本數(shù)量比較少,而數(shù)據(jù)量過少對模型的訓(xùn)練會帶來過擬合等一系列不利影響,因此采用數(shù)據(jù)增強的方式減輕對模型訓(xùn)練的不利影響。
在每一類礦石數(shù)據(jù)中隨機抽選1個拉曼光譜樣本放入測試集,剩余數(shù)據(jù)按照3 ∶ 1的比例劃分訓(xùn)練集和驗證集。劃分后訓(xùn)練集所含數(shù)據(jù)量為3 580,測試集所含數(shù)據(jù)量為1 321。然后對訓(xùn)練集中的數(shù)據(jù)采用以下操作進行數(shù)據(jù)增強:
(1) 平移操作:固定拉曼強度序列不變,將拉曼位移在0~0.4 cm-1之間左右平移,對每一類礦石進行不同次數(shù)的操作,使每類礦石數(shù)據(jù)量在10個樣本左右。
(2) 曲線加噪聲:對平移后的拉曼光譜曲線在位移和強度序列中加入高斯噪聲。每一條拉曼曲線中的每一個點都在X和Y軸方向上加入1個隨機噪聲,該噪聲符合均值為0、標(biāo)準(zhǔn)差為0.5的正態(tài)分布,處理后每類礦石的數(shù)據(jù)量在20個樣本左右。
2.1.3 歸一化
同一礦物在不同激發(fā)光功率下會有不同的峰強,為了避免在模型訓(xùn)練時強度大小對拉曼曲線的影響,使模型只關(guān)注光譜圖上特征峰之間的相對強度,對所有樣本數(shù)據(jù)的強度序列分別進行了Min-Max歸一化處理,計算方式如公式(6)所示:
式中:x表示輸入的強度值。
2.2 評價指標(biāo)
本次實驗使用4種評價指標(biāo)判斷RT-Net網(wǎng)絡(luò)模型能否對礦物拉曼光譜進行1 321類的精確分類。準(zhǔn)確率是對模型效果最直觀的評價指標(biāo),即測試集中正確樣本占總樣本的比例。此外,對于礦物拉曼數(shù)據(jù)的多分類問題,增加精確率、召回率和F1分?jǐn)?shù),從而盡可能的客觀和全面的評估模型的性能。本文使用P和N表示正樣本和負(fù)樣本,用T和F表示正確預(yù)測和錯誤預(yù)測,4項評價指標(biāo)的公式如下所示:
式中:TP、FP、TN和FN分別表示真正、假正、真負(fù)和假負(fù)。
2.3 實驗環(huán)境及超參數(shù)設(shè)置
硬件配置為:GPU,2個NVIDIA 2080Ti顯卡。深度學(xué)習(xí)框架為:TensorFlow 2.0+python3.7。網(wǎng)絡(luò)在訓(xùn)練時采用Adam優(yōu)化器訓(xùn)練模型,權(quán)重衰減系數(shù)為1e-4,初始學(xué)習(xí)率為0.000 1,batch size為64。由于模型訓(xùn)練時其收斂速度會隨著迭代輪次的增加而減緩,出現(xiàn)學(xué)習(xí)停滯的現(xiàn)象,通過降低學(xué)習(xí)率能有效改善此現(xiàn)象,因此設(shè)置訓(xùn)練的迭代輪次為200,當(dāng)模型訓(xùn)練時的迭代輪次達到20且驗證集準(zhǔn)確率并未提升時,學(xué)習(xí)率將被調(diào)整為上輪迭代學(xué)習(xí)率的1/2。
2.4 實驗結(jié)果與分析
2.4.1 各分支網(wǎng)絡(luò)有效性驗證
為了分析網(wǎng)絡(luò)模型對礦物拉曼光譜的學(xué)習(xí)能力,通過將網(wǎng)絡(luò)深層的特征集合與池化層獲得的權(quán)重系數(shù)矩陣相乘,最終映射得到一個能夠表征特征關(guān)注度的熱力圖。
SRNet在殘差結(jié)構(gòu)中通過堆疊擴張卷積塊,能夠有效的對礦物拉曼光譜中拉曼峰的特征信息進行提取并用以分類。本文隨機選取了3類礦物的拉曼光譜曲線,通過SRNet對其特征提取并進行了特征熱力圖可視化,結(jié)果如圖6所示。
由圖6可以看到,SRNet能夠?qū)γ款惖V物拉曼光譜中特征峰的特征信息進行提取,并且對最明顯的主拉曼峰關(guān)注程度最高,對次拉曼峰的關(guān)注程度相對較低。由此可以證明,SRNet能夠很好捕獲到每一類礦物的局部特征信息,從而有效地對其進行分類。
TrNet沿用Transformer-Encoder結(jié)構(gòu)通過多頭注意力結(jié)構(gòu)和前饋神經(jīng)網(wǎng)絡(luò)級聯(lián)的方式,利用自注意力機制對輸入進行全局特征信息的特征提取。由于頻域的變換結(jié)果是通過FFT得到的,其頻域信息是時域波形對應(yīng)頻率下的幅度特征,通過對全局特征信息進行學(xué)習(xí),并映射回原始拉曼光譜用于分類。選取了3類礦物進行了特征可視化分析,結(jié)果如圖7所示。
由圖7可看出,TrNet通過提取全局特征信息能夠關(guān)注到拉曼頻移在500 ~1 200 cm-1之間的較小的拉曼峰,在主次特征峰拉曼頻移和形狀極為相似的情況下,可以憑借其余較小的特征峰進行正確區(qū)分。然而某些礦物拉曼光譜在時域上較為相似,在頻域則是具有差異性信息,考慮到時序數(shù)據(jù)可以從時域轉(zhuǎn)換到頻域獲取頻域信息,網(wǎng)絡(luò)能夠通過學(xué)習(xí)光譜頻域上的特征信息映射回原始拉曼光譜,在提取主特征峰的前提下學(xué)習(xí)多尺度的特征信息用于分類。
為驗證頻域特征信息對于網(wǎng)絡(luò)模型的性能影響,設(shè)置了消融實驗來進行分析驗證,實驗結(jié)果如表1和表2所示。由表1可以看出,在時域上,SRNet對礦物拉曼光譜上的局部特征提取能力較強從而有較高分類精度,而在頻域上,TrNet通過學(xué)習(xí)拉曼光譜全局特征信息進行分類效果較好。再與表2對比可知,RT-Net的2個分支選擇為SRNet提取時域特征信息和TrNet提取頻域特征信息時,礦物拉曼光譜分類任務(wù)模型性能最優(yōu)。
2.4.2 SRNet中通道注意力機制有效性驗證
為了驗證通道注意力模塊對殘差網(wǎng)絡(luò)的性能影響,通過消融實驗和特征可視化進行分析。消融實驗依照控制變量法的原則分別對未引入通道注意力模塊和引入通道注意力后的殘差網(wǎng)絡(luò)進行訓(xùn)練和測試,實驗結(jié)果如表3所示。由表3可見,引入通道注意力模塊對于殘差網(wǎng)絡(luò)模型的整體性能有提升,并且4個評估指標(biāo)都優(yōu)于未引入通道注意力模塊得網(wǎng)絡(luò)模型。
除了從評價指標(biāo)能夠直觀的表現(xiàn)通道注意力模塊對網(wǎng)絡(luò)性能的提升,還可以通過引入通道注意力模塊前后的特征圖進行可視化,從而具體地分析通道注意力模塊對殘差網(wǎng)絡(luò)帶來的性能提升。將上述2種情況的SRNet網(wǎng)絡(luò)中最后1個卷積層的特征進行可視化,將其輸入展開為一維向量,該向量是網(wǎng)絡(luò)模型從礦物拉曼光譜中提取的一組抽象特征,其可視化如圖8所示。
圖8(a)將未引入通道注意力模塊的SRNet的各通道輸出特征進行可視化,其中各個通道的特征強度關(guān)系都相對獨立。圖8(b)將通過引入通道注意力模塊來增強SRNet的通道輸出特征進行可視化,各通道的特征強度變化是因為通道注意力結(jié)構(gòu)通過學(xué)習(xí)通道間的依賴關(guān)系來判斷通道的重要程度,根據(jù)特征重要程度使網(wǎng)絡(luò)模型更關(guān)注利于分類的有效特征。該實驗驗證了引入通道注意力模塊能夠很好的幫助SRNet對礦物拉曼光譜進行精準(zhǔn)分類。
2.4.3 RT-Net整體網(wǎng)絡(luò)學(xué)習(xí)能力可視化分析
為了驗證RT-Net對礦物拉曼光譜的特征學(xué)習(xí)能力,通過將深層神經(jīng)網(wǎng)絡(luò)的特征集合與全局平均池化層求得的權(quán)重系數(shù)矩陣做乘法運算,在映射到拉曼光譜上得到1張能夠表征特征關(guān)注度的熱力圖,模擬網(wǎng)絡(luò)模型在分類過程中對特征信息的關(guān)注度,此方法能夠直觀的將網(wǎng)絡(luò)模型的特征學(xué)習(xí)能力進行可視化。
選取任意4類礦物中各一條拉曼光譜曲線,將RT-Net模型的特征學(xué)習(xí)能力進行了可視化分析。特征熱力圖是按照拉曼光譜曲線趨勢的散點構(gòu)成,其中的散點的顏色反應(yīng)了模型對該位置關(guān)注度的高低。對于網(wǎng)絡(luò)模型判定類別的作用越大的取樣點,其對應(yīng)的顏色越紅,從而反應(yīng)RT-Net對礦物拉曼光譜分類時依靠的那些特征區(qū)域。而隨著對應(yīng)顏色由深紅色逐漸到淺白色最后到深藍(lán)色,則表明模型認(rèn)為該特征對于類別判斷的作用是逐漸減小的甚至是無用的。RT-Net對拉曼光譜特征學(xué)習(xí)能力可視化結(jié)果如圖9所示。
圖9中:第1列分別是4種礦物Ankinovichite、Copiapite、Juangodoyite以及PyrosmaliteMn 的拉曼光譜曲線;第2列是SRNet在礦物拉曼光譜時域上對特征信息關(guān)注程度的可視化結(jié)果,觀察發(fā)現(xiàn),SRNet通過擴張卷積能夠?qū)W習(xí)到拉曼光譜中的局部特征峰;第3列是TrNet在拉曼光譜頻域上學(xué)習(xí)到的特征信息映射到原始圖譜上的可視化結(jié)果圖,觀察發(fā)現(xiàn),TrNet利用自注意力結(jié)構(gòu)有效地學(xué)習(xí)到礦物拉曼光譜的全局信息;第4列是RT-Net對輸入拉曼光譜的特征關(guān)注程度的可視化結(jié)果圖,相比較于支路模型,RT-Net通過注意力模塊將雙分支提取到的局部特征信息和全局信息有效融合后,能夠更加全面的關(guān)注最有利于類別判斷的特征信息。該實驗也驗證了設(shè)計RT-Net的初衷,通過卷積網(wǎng)絡(luò)和自注意力機制并行的雙分支網(wǎng)絡(luò)結(jié)構(gòu)對1 321類礦物拉曼光譜實現(xiàn)精準(zhǔn)分類。
2.4.4 RT-Net與其他分類算法性能對比
為驗證RT-Net對礦物拉曼光譜分類的可行性,選用幾類經(jīng)典的機器學(xué)習(xí)算法進行對比試驗分析。利用PCA算法將礦物拉曼光譜數(shù)據(jù)進行降維處理,將其高維空間特征映射到低維特征空間,然后將樣本數(shù)據(jù)的主要特征分量進行提取,輸入到分類器中用以分類。最終在各模型在測試集上的性能比較如表4所示。
由表4可知,RT-Net準(zhǔn)確率遠(yuǎn)高于其他經(jīng)典機器學(xué)習(xí)分類方法。分類算法按照其各自的分類準(zhǔn)對礦物拉曼光譜進行類別劃分,但由于本文數(shù)據(jù)集中礦物拉曼光譜類別數(shù)量較多,且其特征信息極為相似,導(dǎo)致拉曼光譜數(shù)據(jù)在特征空間分布較為密集,傳統(tǒng)的機器學(xué)習(xí)分類算法難以找到準(zhǔn)確的決策面,因而難以精準(zhǔn)分類。
本文將RT-Net與其他深度學(xué)習(xí)算法以及同類任務(wù)的分類網(wǎng)絡(luò)進行了對比試驗,在同一數(shù)據(jù)集上的實驗結(jié)果如表5所示。
從表5中可以看出,LSTM和GRU兩類算法的性能在數(shù)據(jù)集上表現(xiàn)并不理想,是因為對礦物拉曼光譜而言,局部特征峰是進行類別判斷的首要特征信息,而RNN結(jié)構(gòu)的深度學(xué)習(xí)算法善于學(xué)習(xí)中長距離序列的依賴關(guān)系,導(dǎo)致沒能有效學(xué)習(xí)到有價值的特征信息。相較于單一的RNN結(jié)構(gòu),TCN算法加入了卷積結(jié)構(gòu)對礦物拉曼光譜的局部特征進行學(xué)習(xí),能夠?qū)τ欣陬悇e判斷的特征信息進行提取,實驗也表明其性能要優(yōu)于RNN。原始的Transformer-Encoder結(jié)構(gòu)在數(shù)據(jù)集上進行了訓(xùn)練測試,能夠?qū)W習(xí)礦物拉曼光譜的全局特征信息用以分類,表現(xiàn)出較好的性能。對于礦物拉曼光譜分類這一特定任務(wù)領(lǐng)域的算法CNN、1DCNN和FMCNN,在該數(shù)據(jù)集上表現(xiàn)的效果并不理想。由于上述3種算法都是基于CNN結(jié)構(gòu)提取礦物拉曼光譜的局部特征信息進行分類的,而礦物拉曼光譜數(shù)據(jù)集中樣本類別為1 321類,類別數(shù)量更多且存在許多同譜異物的樣本數(shù)據(jù),僅憑借CNN結(jié)構(gòu)提取樣本中的局部特征信息難以判別這些“困難”樣本數(shù)據(jù)。但是RT-Net具備局部特征提取和全局特征提取的能力,并且引入了頻域特征信息,在數(shù)據(jù)集上展現(xiàn)出強大的分類能力,各項評價指標(biāo)均為最高。
3 結(jié)束語
本文提出了一種基于卷積和Transformer的雙分支網(wǎng)絡(luò)RT-Net拉曼光譜分類模型,實現(xiàn)了1 321類礦物拉曼光譜的精確分類。通過卷積網(wǎng)絡(luò)分支在局部特征提取模塊引入通道注意力機制來抑制低層語義信息,聚焦深層語義信息;利用Transformer使光譜特征建立全局依賴關(guān)系,增強全局前后文建模能力。與傳統(tǒng)分類算法和深層卷積網(wǎng)絡(luò)模型相比,RT-Net能夠全面地提取多尺度特征信息,利用注意力融合模塊將時域特征和頻域特征進行多尺度融合從而實現(xiàn)精準(zhǔn)分類。實驗結(jié)果表明,RT-Net是一種性能優(yōu)異的礦物拉曼光譜分類模型,相比于傳統(tǒng)光譜分類算法無需進行預(yù)處理和特征提取等步驟,具有簡單快速、分類精度高的優(yōu)點,為更多類別的礦物拉曼光譜分類任務(wù)提供了新思路。
參考文獻:
[1]" " VENERANDA M, MANRIQUE J A, LOPEZ-REYES G, et al. Spectroscopic study of olivine-bearing rocks and its relevance to the ExoMars rover mission[J]. Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy, 2019, 223:117360.
[2]" " 余東行, 張保明, 趙傳, 等. 聯(lián)合卷積神經(jīng)網(wǎng)絡(luò)與集成學(xué)習(xí)的遙感影像場景分類[J]. 遙感學(xué)報, 2020, 24(6):717-727.
YU D X, ZHANG B M, ZHAO C, et al. Remote sensing image scene classification based on combined convolution neural network and ensemble learning[J]. Journal of Remote Sensing, 2020, 24(6):717-727(in Chinese).
[3]" " JIA G M, CHENG F Y, YANG J F, et al. Intelligent checking model of Chinese radiotelephony read-backs in civil aviation air traffic control[J]. Chinese Journal of Aeronautics, 2018, 31(12):2280-2289.
[4]" " YU M X, SUN Y C, ZHU B F, et al. Diverse frequency band-based convolutional neural networks for tonic cold pain assessment using EEG[J]. Neurocomputing, 2020, 378:270-282.
[5]" " LIU J C, OSADCHY M, ASHTON L, et al. Deep convolutional neural networks for Raman spectrum recognition:A unified solution[J]. Analyst, 2017, 142(21):4067-4074.
[6]" " 郭志琦. 基于深度學(xué)習(xí)的拉曼光譜分析與應(yīng)用研究[D]. 烏魯木齊:新疆大學(xué), 2021.
GUO Z Q. Analysis and application of Raman spectroscopy based on deep learning[D]. Urumqi:Xinjiang University, 2021 (in Chinese).
[7]" " SANG X C, ZHOU R G, LI Y C, et al. One-dimensional deep convolutional neural network for mineral classification from Raman spectroscopy[J]. Neural Processing Letters, 2022, 54(1):677-690.
[8]" " BEHINAEIN B, BHATTI A, RODENBURG D, et al. A transformer architecture for stress detection from ECG[C]//2021 International Symposium on Wearable Computers. Virtual, USA: ACM, 2021:132-134.
[9]" " 孫嘉瑤. 深度學(xué)習(xí)注意力機制在腦電信號分類中的應(yīng)用[D]. 深圳:中國科學(xué)院大學(xué)(中國科學(xué)院深圳先進技術(shù)研究院), 2021.
SUN J Y. Application of deep learning attention mechanism in EEG signal classification[D]. Shenzhen:University of Chinese Academy of Sciences (Chinese Academy of Sciences Shenzhen Advanced Technology Research Institute), 2021(in Chinese).
[10]" 葛君偉, 涂兆昊, 方義秋. 基于融合CNN和Transformer的分離結(jié)構(gòu)機器翻譯模型[J]. 計算機應(yīng)用研究, 2022, 39(2):432-435.
GE J W, TU Z H, FANG Y Q. A machine translation model with separate structure based on fusion CNN and Transformer[J]. Application Research of Computers, 2022, 39(2):432-435(in Chinese).
[11]" HU J, SHEN L, SUN G. Squeeze-and-excitation networks[C]//2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT, USA: IEEE, 2018:7132-7141.
[12]" YAN X, GE H, YAN Q. SVM with RBF kernel and its application research[J]. Computer Engineering and Design, 2006, 27(11): 1996-1997.
[13]" KRAMER O. K-Nearest Neighbors[C]//Dimensionality Reduction with Unsupervised Nearest Neighbors. Berlin, Heidelberg:Springer, 2013:13-23.
[14]" MYLES A J, FEUDALE R N, LIU Y, et al. An introduction to decision tree modeling[J]. Journal of Chemometrics: A Journal of the Chemometrics Society, 2004, 18(6): 275-285.
[15]" RISH I. An empirical study of the naive Bayes classifier[C]//IJCAI 2001 Workshop on Empirical Methods in Artificial Intelligence. Seattle, WA, USA: IJCAI, 2001: 41-46.
[16]" THARWAT A. Linear vs. quadratic discriminant analysis classifier: A tutorial[J]. International Journal of Applied Pattern Recognition, 2016, 3(2): 145-180.
[17]" GUO G D, WANG H, BELL D, et al. KNN Model-based approach in classification[C]//MEERSMAN R, TARI Z, SCHM-IDT D C. Lecture Notes in Computer Science.Berlin. Heidelberg:Springer Berlin Heidelberg, 2003:986-996.
[18]" HOCHREITER S, SCHMIDHUBER J. Long short-term memory[J]. Neural Computation, 1997, 9(8): 1735-1780.
[19]" CHO K, VAN MERRIENBOER B, GULCEHRE C, et al. Learning phrase representations using RNN encoder-decoder for statistical machine translation[J]. ArXiv e-Prints, 2014:arXiv:1406.1078.
[20]" ZHAO B D, LU H Z, CHEN S F, et al. Convolutional neural networks for time series classification[J]. Journal of Systems Engineering and Electronics, 2017, 28(1):162-169.
[21]" ZHA B, VANNI A, HASSAN Y, et al. Deep transformer networks for time series classification: The NPP safety case[J]. ArXiv preprint arXiv: 2021. 2104. 05448.
本文引文格式:
耿磊, 仇懷志, 肖志濤, 等. 基于卷積和Transformer的礦物拉曼光譜分類方法[J]. 天津工業(yè)大學(xué)學(xué)報, 2024, 44(1): 53-61.
GENG L, QIU H Z, XIAO Z T, et al. Classification method of Raman spectra of mineral based on convolution and Transformer[J]. Journal of Tiangong University, 2024, 44(1): 53-61(in Chinese).
收稿日期: 2023-03-01
基金項目: 天津市科技計劃項目(20YDTPJC00110)
通信作者: 耿" " 磊(1982—),男,博士,教授,主要研究方向為機器視覺、深度學(xué)習(xí)等。E-mail:genglei@tiangong.edu.cn