王吉源
(江西理工大學(xué)信息工程學(xué)院,江西 贛州 341000)
隨著社會的發(fā)展,我國對礦產(chǎn)資源的需求日益增加[1-2],如何更加高效地利用礦石,減少加工過程中產(chǎn)生的廢料,是當(dāng)前迫切需要解決的問題。 解決這個問題的關(guān)鍵之一是精準(zhǔn)地識別礦物[3],為不同種類、不同大小的礦物選取合適的冶煉方法。
傳統(tǒng)礦物識別方法[4-5]大多依靠專家經(jīng)驗遴選,也就是具有一定知識經(jīng)驗的人通過目測礦石顏色、光澤、紋路等進行經(jīng)驗判斷,這種方法在現(xiàn)代規(guī)?;a(chǎn)背景下效率相對低下,且過度依賴專家的檢查能力,易受主觀因素影響。 隨著可見光—近紅外光譜技術(shù)的發(fā)展和傳感器精度的提高,一些研究者提出使用高光譜[6-11]來進行礦物識別[2,5-6]。 車永飛等提出一種基于主次光譜吸收組合特征的高光譜遙感礦物識別方法,該方法對多個特征賦予了不同權(quán)重,但如何為特征選擇合適的權(quán)重仍有待進一步探討[11];賀金鑫等提出一種基于樸素貝葉斯分類器的高光譜遙感礦物識別方法,該方法利用多種礦物光譜識別屬性進行識別, 聯(lián)合特征的識別表現(xiàn)比單一特征好,但是識別代價更高[10]。 以上方法大多依靠手動提取光譜特征, 然后進行匹配識別等大量計算,傳統(tǒng)方法存在著不可忽視的缺陷,手動提取的特征通常不能精確表達礦物特征,且成本高,考慮到效率和成本因素, 需專家學(xué)者進一步研究探索。
隨著人工智能技術(shù)發(fā)展, 研究者考慮將智能算法[8-10]引入礦物識別的研究[6,12-15]。甘甫平提出將巖礦的完全波形光譜輸入神經(jīng)網(wǎng)絡(luò)中進行巖礦識別,但該方法僅能實現(xiàn)二分類,無法完成多類識別任務(wù)[15]; MOUNTRAKIS 等提出使用支持向量機對高光譜遙感數(shù)據(jù)進行分析,該方法能應(yīng)對訓(xùn)練樣本數(shù)量受限的分類任務(wù),但學(xué)習(xí)過程中的參數(shù)分配問題對識別表現(xiàn)影響很大,如何選擇合適的參數(shù)使得識別表現(xiàn)最優(yōu),需要再進行研究[16];張兵等提出利用蟻群算法對礦物進行識別,其后又針對蟻群算法提出了改進[17-18],在原來的基礎(chǔ)上添加了啟發(fā)信息,雖然性能較之前有了提升,但與目前廣泛應(yīng)用深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)存在一定差距。 當(dāng)前開發(fā)出來的深度網(wǎng)絡(luò)模型在多個領(lǐng)域取得較好表現(xiàn), 但其在礦物加工領(lǐng)域的應(yīng)用尚未得到充分探索。 本文提出了一種利用高光譜數(shù)據(jù)識別礦物種類的深度學(xué)習(xí)算法, 比較分析了礦物RGB 數(shù)據(jù)和高光譜數(shù)據(jù)對于礦物特征的表達能力,并應(yīng)用于礦物種類和礦物大小的分類。
通常情況下,人類可以識別出與紅色、藍色和綠色相關(guān)的3 個波長區(qū)域,而高光譜相機則可以收集整個跨電磁波譜的信息。 不同的礦物具有的光譜信息不同,因此可以利用高光譜信息進行礦物的識別。隨著成像光譜儀的光譜分辨率和空間分辨率的不斷提高,高光譜圖像被廣泛地應(yīng)用于礦物識別、植被研究[19-21]、海洋遙感[22-24]等領(lǐng)域,并發(fā)揮著越來越重要的作用。
礦石光譜通常包含一系列特征吸收譜帶,在不同的礦物中所提取的特征譜帶信息不同。礦物的診斷性吸收特征可以用光譜吸收特征參數(shù)表征,如吸收波段波長位置、深度、寬度、對稱度、面積等,從這些參數(shù)中可以提取各種礦物的定性和定量信息。一些研究者對這些特征進行手動提取、后續(xù)分析,從而實現(xiàn)礦物種類識別。但手動提取特征的識別表現(xiàn)受限于所提取特征的表達能力,且成本高昂。 考慮到高光譜圖像包含大量高分辨率的光譜波段,數(shù)據(jù)量大,可以考慮將其輸入適合大數(shù)據(jù)的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)中訓(xùn)練學(xué)習(xí),自動提取礦物表示特征。
近年來,隨著計算機技術(shù)的發(fā)展,越來越多的計算機視覺識別方法和深度學(xué)習(xí)在各個領(lǐng)域中得到應(yīng)用。 為了提升網(wǎng)絡(luò)的學(xué)習(xí)表示能力,越來越多的深度網(wǎng)絡(luò)模型被開發(fā)出來。 主流的深度網(wǎng)絡(luò)模型有BP、CNN 和GAN。
BP[25-26]的全稱是Back Propagation,是一種按誤差逆?zhèn)鞑ニ惴ㄓ?xùn)練的多層前饋網(wǎng)絡(luò)。 該神經(jīng)網(wǎng)絡(luò)的核心在于反饋,即模型對學(xué)習(xí)成果進行評判,評判后的結(jié)果重新反饋給模型, 從而使模型獲得更好的學(xué)習(xí)成果。
CNN 的全稱是Convolutional Neural Networks,即卷積神經(jīng)網(wǎng)絡(luò)[27]。 該網(wǎng)絡(luò)包含3 層結(jié)構(gòu),分別是卷積層、池化層和全連接層。 卷積神經(jīng)網(wǎng)絡(luò)中每層卷積層由若干個卷積單元組成,每個卷積單元的參數(shù)都是通過反向傳播算法優(yōu)化得到。卷積運算的目的是提取輸入的不同特征。池化層是對卷積后的特征進行池化操作,使其數(shù)據(jù)維度更小,表示能力更強。全連接層將所有局部特征連結(jié)起來形成全局特征,得到物質(zhì)的全局表示信息。
GAN 的全稱是Generative Adversarial Network,即對抗生成網(wǎng)絡(luò)[28]。 該網(wǎng)絡(luò)包含兩個子網(wǎng)絡(luò):生成網(wǎng)絡(luò)和判別網(wǎng)絡(luò)。 其中,生成網(wǎng)絡(luò)是利用一些生成技術(shù)去生成和學(xué)習(xí)數(shù)據(jù)相似的數(shù)據(jù), 目標(biāo)是盡量生成真實的數(shù)據(jù)去欺騙判別網(wǎng)絡(luò); 判別網(wǎng)絡(luò)則要判斷輸入的數(shù)據(jù)是原始數(shù)據(jù), 還是生成網(wǎng)絡(luò)生成的數(shù)據(jù)。 兩個子網(wǎng)絡(luò)相互博弈,通過博弈的過程提升整體的表現(xiàn)能力。
考慮到CNN 的廣泛適用性以及在其他領(lǐng)域的杰出識別表現(xiàn),本文選擇CNN 中的經(jīng)典Resnet 框架對礦物的RGB 數(shù)據(jù)和高光譜數(shù)據(jù)進行學(xué)習(xí)訓(xùn)練, 比較兩者的表示能力。 所提方法應(yīng)用場景如圖1 所示,對開采出來的礦石進行初步分選之后,考慮到高光譜在礦物識別中的重要作用,利用高光譜相機對礦石進行拍照獲取高光譜圖像,然后將高光譜數(shù)據(jù)輸入神經(jīng)網(wǎng)絡(luò)進行學(xué)習(xí)訓(xùn)練, 實現(xiàn)礦物種類以及大小的分類,有助于后續(xù)冶煉方法的選擇。
圖1 利用高光譜圖像和深度學(xué)習(xí)分類的礦物識別示意Fig. 1 Schematic representation of mineral identification using hyperspectral images and deep learning classification
選用了在圖像分類領(lǐng)域取得杰出表現(xiàn)的R esNet 框架構(gòu)建礦物識別的深度模型。 圖2 所示為ResNet 模型的結(jié)構(gòu), 其輸入為礦物圖像, 經(jīng)過5 層設(shè)計好的卷積層后,再經(jīng)過一個全連接層得到分類概率。
圖2 礦物識別模型Fig. 2 The module of mineral recognition
礦物識別模型中的殘差模塊能夠有效地消除由于模型層數(shù)增加而導(dǎo)致的梯度彌散或梯度爆炸問題。 殘差模塊如圖3 所示,由2 個3×3 的卷積層組成。
圖3 礦物識別殘差模塊Fig. 3 The module of Residual
同一層的殘差模塊的輸入和輸出維度相同,采用恒等映射:y=F(x)+x;圖2 中的降采樣殘差模塊表示當(dāng)輸入和輸出維度不同時, 采用線性投影匹配維度:y=F(x)+Wxx。 其中,y表示殘差塊的輸出,x表示殘差塊的輸入,F(xiàn)(x)表示x經(jīng)過卷積后的輸出,Wx表示投影系數(shù)。
為了增加模型的內(nèi)聚性,用中心損失替換原模型中的softmax 損失。 令xi∈Rd(i=1,2,···,t)表示模型最后輸出的特征向量,yi表示輸出類別礦物種類,d表示特征向量的維度。t表示每一個pouch 訓(xùn)練圖像的數(shù)量。Wi∈Rd(i=1,2,···,n)是最后一個全連接層權(quán)重W∈Rd×n的第i列,n表示類別總數(shù),b表示偏置項參數(shù)。
原始的softmax 損失構(gòu)造如下:
式(1)中:ai表示softmax 的第i個輸出值。Yi表示真實的分類結(jié)果。
中心損失在其基礎(chǔ)上增加了一個限制模型參數(shù)擴張的變量, 使最終的模型能夠在內(nèi)聚性上表現(xiàn)更好。 中心損失函數(shù)構(gòu)造如下:
式(2)中:cyi∈Rd表示第yi類的中心。 全局損失函數(shù)構(gòu)造如下:
中心點在每個批次訓(xùn)練后更新,其更新公式為:
當(dāng)x為真時,δ(x)的值等于1,否則等于0。
為了驗證本文所提的深度方法能否有效識別礦物種類,選用了黃銅礦、方鉛礦和3 種不同粒徑的赤鐵礦作為實驗樣本拍攝圖像制作實驗數(shù)據(jù)集,選擇以上5 種礦物基于以下兩方面的考慮:首先,黃銅礦和方鉛礦是硫化物礦物, 赤鐵礦是一種氧化物礦物,可以分析該方法是否能對硫化物和氧化物礦物進行分類。 其次,選擇3 種不同粒徑的赤鐵礦是為了考察該方法是否能對不同尺寸的礦物進行區(qū)分,從而提高選礦加工效率。 由于實際取得的礦物圖像數(shù)據(jù)較小,深度網(wǎng)絡(luò)難以充分訓(xùn)練獲得較為魯棒的表示,本文對獲取的礦物圖片使用了水平翻轉(zhuǎn)、平移、旋轉(zhuǎn)、高斯模糊等多種增廣方式,經(jīng)過增廣后的實驗所用礦物數(shù)據(jù)集大小設(shè)置如表1 所列。
表1 礦物數(shù)據(jù)集大小設(shè)置Table 1 Mineral dataset settings
3.2.1 基于礦物RGB 圖像的識別效果分析
為了加快數(shù)據(jù)的處理速度,選用預(yù)訓(xùn)練好的網(wǎng)絡(luò)模型進行訓(xùn)練,節(jié)省了從頭開始訓(xùn)練的時間。 實驗結(jié)果表明, 利用RGB 圖像進行識別時,5 種礦物的分類準(zhǔn)確率為39.52%。 這可能是因為礦物的RGB 圖像中包含的信息不足以判斷礦物的種類。例如專家在判定礦物種類時會綜合考慮礦物的顏色、光澤、條紋、重量等多個因素,而RGB 圖像中所含信種類較單一。 礦物識別的準(zhǔn)確度和損失函數(shù)的值如圖4所示。
圖4 利用RGB 圖像的識別表現(xiàn)Fig. 4 Recognition performance using RGB images
3.2.2 基于礦物高光譜圖像的識別效果分析
首先對黃銅礦、 方鉛礦的高光譜圖像進行訓(xùn)練分類,驗證該網(wǎng)絡(luò)是否能正確識別不同的礦物種類,表2 展示了兩種礦物在數(shù)據(jù)集上測試的混淆矩陣。
表2 兩種礦物的實驗結(jié)果Table 2 Result of the two minerals in the test set
實驗測試集包含19 400 張高光譜圖像,其中,方鉛礦9 700 張,黃銅礦9 700 張。9 387 張方鉛礦圖像被正確識別,占測試集比例為48.39%;313 張方鉛礦圖像被識別為黃銅礦,占測試集比例為1.61%。 9 511張黃銅礦圖像被正確識別,占測試集比例為49.03%;189 張黃銅礦圖像被識別為方鉛礦,占測試集比例為0.97%。 識別正確的圖像共計18 898 張,識別正確率為97.41%。 實驗結(jié)果表明本文所提出的深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)在利用高光譜數(shù)據(jù)學(xué)習(xí)時,能有效區(qū)分礦物的種類。
對不同粒徑大小的赤鐵礦訓(xùn)練,驗證該網(wǎng)絡(luò)是否具有區(qū)分不同尺寸礦石的能力,3 種不同尺寸的赤鐵礦在測試集上的混淆矩陣如表3 所列。
表3 3 種不同尺寸礦物的實驗結(jié)果Table 3 Experimental results of three minerals of different sizes
實驗測試集合共包含29 900 張不同粒徑的赤鐵礦高光譜圖像,其中,大粒徑赤鐵礦圖像9 600 張,中粒徑赤鐵礦圖像10 100 張, 小粒徑赤鐵礦圖像10 200 張。 9 079 張大粒徑赤鐵礦圖像被正確識別,占測試集比例為30.36%;378 張大粒徑赤鐵礦圖像被識別為中粒徑赤鐵礦,143 張被識別為小粒徑赤鐵礦。 9 387 張中粒徑赤鐵礦圖像被正確識別,站測試集比例為31.39%;252 張中粒徑赤鐵礦圖像被識別為大粒徑赤鐵礦,461 張中粒徑赤鐵礦圖像被識別為小粒徑赤鐵礦。 9 860 張小粒徑赤鐵礦圖像被正確識別, 占測試集比例為32.98%;168 張小粒徑赤鐵礦圖像被識別為大粒徑赤鐵礦,172 張小粒徑赤鐵礦圖像被識別為中粒徑赤鐵礦。 識別正確的圖像共計28326張,識別正確率為94.73%。 結(jié)果表明,本文所提的利用高光譜數(shù)據(jù)的卷積神經(jīng)網(wǎng)絡(luò)能滿足礦物加工時的分類需求。
針對目前礦石種類復(fù)雜、大小不一、加工方法難以選擇的情況, 提出利用卷積神經(jīng)網(wǎng)絡(luò)對礦石自動分類分級,為后續(xù)生產(chǎn)過程中,對不同礦物選擇不同礦物加工方法,提升精選效率,并減少廢渣提供有效的保障。
為了篩選出礦物表達能力強的數(shù)據(jù),本文比較了礦物的RGB 圖像和高光譜圖像經(jīng)深度網(wǎng)絡(luò)學(xué)習(xí)后的識別結(jié)果,發(fā)現(xiàn)前者的識別結(jié)果僅為39.52%,而基于高光譜圖像的識別結(jié)果達到了94.7%以上(黃銅礦和方鉛礦的分類準(zhǔn)確率為97.41%,3 種粒徑大小的赤鐵礦分類正確率為94.73%)。 因此,本文采用的卷積神經(jīng)網(wǎng)絡(luò)能有效學(xué)習(xí)到輸入數(shù)據(jù)的隱藏特征,達到礦物種類分類分級的要求,解決了礦物加工方法選擇過程中顧此失彼的問題。 礦物RGB 的識別表現(xiàn)低下的原因可能是因為RGB 圖像所攜信息較為單一, 不足以判斷礦物種類,后續(xù)關(guān)于選礦方法的研究所采用的特征可重點考慮高光譜信息。 另外,由于以上實驗數(shù)據(jù)是針對實驗環(huán)境,有限礦物種類下,脫機訓(xùn)練完成的。 未考慮實際生產(chǎn)中礦物種類多、分類時間要求短的情況,因此,后續(xù)研究將著重于解決復(fù)雜條件下的多種礦物快速分類問題。