駱立,徐兆軍,王曉羽,周康,那斌
(南京林業(yè)大學(xué)材料科學(xué)與工程學(xué)院,南京 210037)
木材種類繁多,而木材加工與貿(mào)易的前提是需要對木材樹種進行精準識別。隨著木材消費的增長和木材進出口企業(yè)競爭的日益激烈,高效精準的木材樹種識別及質(zhì)量評估系統(tǒng)具有良好的應(yīng)用前景。我國約有2 500多種喬木,而目前已完成樹種識別的木材仍不足千種。傳統(tǒng)的木材樹種識別主要依據(jù)木材組織結(jié)構(gòu)特征,但這種方式工作效率低、存在人為誤識,且不能實現(xiàn)無損檢測,難以適應(yīng)現(xiàn)代林業(yè)的高速發(fā)展,阻礙了林業(yè)信息化由數(shù)字林業(yè)邁向智慧林業(yè)的進程。近年來,隨著計算機輔助識別技術(shù)的發(fā)展,木材樹種及性能的無損檢測技術(shù)逐漸受到關(guān)注,如超聲波、核磁共振、應(yīng)力波和近紅外光譜等。其中,近紅外光譜技術(shù)因操作便捷、模型泛化能力強等優(yōu)點已廣泛應(yīng)用于農(nóng)業(yè)、石油化工、生命科學(xué)等領(lǐng)域,然而其在林業(yè)科學(xué)中的應(yīng)用仍處于探索階段。作為一種快速、綠色的新興無損檢測技術(shù),近紅外光譜能反映出不同樹種對于不同波長入射光反射率的差異,可對木材樹種進行精準分類。有研究證實了利用近紅外光譜技術(shù)識別木材樹種的可行性,但存在波段重疊嚴重、吸收強度低、易受外界環(huán)境影響等問題[1]。
近紅外光是介于可見光與中紅外光之間的電磁波,波長780~2 500 nm,近紅外光譜主要包含了主要化學(xué)鍵(C—H,O—H,N—H)吸收信息和由微觀結(jié)構(gòu)不均勻引起的散射信息。與傳統(tǒng)木材識別技術(shù)相比,近紅外光譜技術(shù)具有高效、快速、無損和實時等優(yōu)勢,但是必須依賴于校準方法和模型開發(fā)[2]。在之前的研究中多用經(jīng)典的線性模型,如偏最小二乘判別分析(partial least squares discriminant analysis,PLS-DA)[3-5]、主成分分析(principal component analysis,PCA)[6]和線性判別分析(linear discriminant analysis,LDA)[7]。盡管傳統(tǒng)線性建模方法得到了較為理想的預(yù)測結(jié)果,但鑒于木材材性的復(fù)雜度以及工廠實際環(huán)境的局限性,亟須尋找更為高效、適用度更廣的近紅外光譜建模方法,以提高木材樹種的識別精度和速度。近幾年來,有學(xué)者提出將近紅外光譜技術(shù)與機器學(xué)習(xí)方法相結(jié)合進行木材樹種識別的手段,這將為木材樹種快速無損識別技術(shù)的發(fā)展提供廣闊的前景。支持向量機(support vector machine,SVM)是一種優(yōu)異的機器學(xué)習(xí)方法,能夠?qū)崿F(xiàn)全局最優(yōu)的魯棒分類,其將待解決的問題轉(zhuǎn)化成一個二次規(guī)劃的凸優(yōu)化問題,在解決小樣本和高維向量分類問題上表現(xiàn)出很多優(yōu)勢[8]。Li等[9]利用近紅外光譜技術(shù)識別木材樹種并預(yù)測密度,利用小波變換進行光譜預(yù)處理,建立SVM模型,采用粒子群算法(particle swarm optimization,PSO)優(yōu)化參數(shù),在測試集上準確率為100%。Zhou等[10]開發(fā)了一種基于近紅外光譜快速鑒別西部鐵杉和冷杉的方法,對光譜進行平滑處理和一階求導(dǎo)處理,建立基于最小二乘支持向量機(least squares-support vector machine,LS-SVM)的回歸模型與分類模型,模型最佳效果的準確率達到99.8%。作為模型的輸入,數(shù)據(jù)的處理與模型的建立同樣重要,而之前的研究忽略了數(shù)據(jù)處理方法對模型運行速率的影響。SVM模型實現(xiàn)的關(guān)鍵是核函數(shù)的選取,不同核函數(shù)的選取具有不同的分類效果,核函數(shù)的參數(shù)選擇也會影響到分類器的準確率,但目前的研究缺乏核函數(shù)以及核函數(shù)參數(shù)對木材樹種識別影響的相關(guān)探討。
為了建立高效精準的木材樹種識別及質(zhì)量評估系統(tǒng),筆者開發(fā)了一種線性降維技術(shù)結(jié)合非線性分類算法的木材樹種識別模型,即先采用線性算法PCA和LDA對木材的光譜數(shù)據(jù)進行降維處理以濾除噪聲和提高模型運行速度,再分別結(jié)合非線性的SVM建立PCA-SVM、LDA-SVM模型。此外,還對比了無監(jiān)督學(xué)習(xí)的PCA和有監(jiān)督學(xué)習(xí)的LDA降維去噪效果,探討了不同核函數(shù)以及核函數(shù)參數(shù)對于模型分類效果的影響,以期為木材樹種快速鑒別提供理論依據(jù)與技術(shù)支撐,規(guī)范木材交易市場。
供試木材樣品均由圣象公司提供,分別為非洲紫檀、變色紫檀、橡膠木、白櫟和水曲柳5個樹種,規(guī)格均為20 cm×10 cm×2 cm(長×寬×高),每個樹種均備有200個木塊,共計1 000個試驗樣本。樣本產(chǎn)地如表1所示。為避免鋸痕對試驗結(jié)果的影響,采用100目(粒徑150 μm)砂紙對木塊進行打磨,并存放在溫度為(25±2)℃、相對濕度為(50±2)%的受控環(huán)境中。采用光譜儀(臺灣五鈴光學(xué)公司,型號:NIRez)進行光譜采集,光譜波長范圍900~1 650 nm,光譜分辨率10 nm,每條光譜包含112個數(shù)據(jù)點。
表1 樣本樹種及來源Table 1 The tree species and sources of samples
近紅外光譜的采集系統(tǒng)主要由光譜儀、計算機、光源盒、光纖、暗箱等構(gòu)建而成。為避免室溫、光線等環(huán)境變化對實驗造成影響,在暗箱內(nèi)進行采集作業(yè),環(huán)境溫度控制在20 ℃,平均相對濕度在50%。采集前,使用標準聚四氟乙烯白板進行光譜白板校正,從而對環(huán)境噪聲波段進行濾波處理。將待測樣本放置在支架平臺上,光纖探頭距待測樣本表面約5 mm。利用配套軟件SpectraSmart(臺灣五鈴光學(xué)公司,版本號:2018)采集數(shù)據(jù),采樣的參數(shù)設(shè)置為:光譜范圍900~1 650 nm,積分時間1 ms,掃描平均次數(shù)900次,平滑度為5,同時啟用電子暗噪聲校正和雜散光校正。
由于直接采集的光譜數(shù)據(jù)包含大量冗余信息、特征峰高度混疊、信噪比較低,在解決木材樹種識別的多分類問題時,需要對光譜數(shù)據(jù)進行特征提取,本研究采用PCA與LDA兩種降維方法對光譜數(shù)據(jù)進行處理。PCA是一種統(tǒng)計分析方法,將原始數(shù)據(jù)相關(guān)的多數(shù)指標通過正交變換為少數(shù)不相關(guān)指標,這些指標稱為主成分。PCA的主成分各自獨立且不相關(guān),能夠降低維數(shù)和去除光譜中的重疊信號,是一種目前最常用的光譜特征信息提取方法。利用PCA對5種木材光譜數(shù)據(jù)進行降維,提取出特征數(shù)據(jù),從而提高數(shù)據(jù)的聚類效果。而LDA通過找到一個投影面,使得類間距離最大化、類內(nèi)距離最小化,從而達到最好的分類效果,實現(xiàn)特征壓縮和分類信息抽取的作用[11]。與PCA相比,LDA屬于監(jiān)督學(xué)習(xí)的降維方法。在訓(xùn)練過程中,LDA會學(xué)習(xí)各類之間最有判斷力的軸,并使用這些軸來定義要在其上投影的超平面,是在建立SVM分類器前常用的一種降維技術(shù),優(yōu)勢是能使各類之間保持盡可能遠的距離,局限性是最多只能降到類別數(shù)減1的維度。
選取SVM分類器作為樹種分類的模型,分別結(jié)合PCA和LDA建立PCA-SVM模型與LDA-SVM模型,模型的輸入為經(jīng)過降維處理的光譜數(shù)據(jù),輸出為木材的樹種標簽。木材的近紅外光譜數(shù)據(jù)屬于非線性數(shù)據(jù),對于非線性的情況,SVM利用非線性映射把輸入樣本由低維空間映射到高維特征空間,使得在低維空間中線性不可分的問題轉(zhuǎn)化為在高維空間中線性可分。SVM常用的核函數(shù)有線性內(nèi)核(linear)、多項式內(nèi)核(polynomial)、雙曲正切內(nèi)核(sigmoid)和高斯徑向內(nèi)核(radial basis function,RBF)4種。SVM是建立在核函數(shù)的基礎(chǔ)之上的,核函數(shù)及其參數(shù)的選擇會影響到SVM的準確率和穩(wěn)定性。目前常用的參數(shù)尋優(yōu)算法有粒子群優(yōu)化算法、遺傳算法和網(wǎng)格搜索算法等。本研究采取了網(wǎng)格搜索法結(jié)合5折交叉驗證的方法。此外,SVM屬于嚴格的二元分類器,當利用SVM進行多元分類時,可以通過一對多(one-versus-all,OvR)和一對一(one-versus-one,OvO)兩種策略實現(xiàn)多類分類的目的。多類分類問題可描述為:給定訓(xùn)練集樣本集T={(x1,y1),(x2,y2),…,(xl,yl)}∈(X×Y)l,其中xi∈X=Rn,yi∈Y={1,2,…,K},i=1,2,…,l,要在上述訓(xùn)練樣本尋求一個決策函數(shù)f(x):X=Rn→Y,使對未知樣本x進行分類時的錯誤率盡可能小。
選用準確率、混淆矩陣和ROC曲線(受試者工作特征曲線)來評價模型的分類能力[12]。準確率是所有正確識別樣本數(shù)與總樣本數(shù)的百分比,準確率越接近1,表明正確識別的樣本越多。但當進行多元分類時,通常不能把準確率作為評估分類器的首要性能指標,評估分類器性能更好的方法是混淆矩陣,其總體思路是統(tǒng)計A類別實例被識別成B類別的次數(shù)。混淆矩陣的每一列代表預(yù)測類別,每一行代表的是真實類別,可以明確地了解到每類樹種被誤識的類別與次數(shù)。ROC曲線繪制的是真正類率和假正類率的關(guān)系,將AUC面積(ROC曲線下面積)作為評價模型表現(xiàn)的度量標準[13]。一般而言,曲線越朝左上角凸出,模型的表現(xiàn)越好,簡單直觀。每個樹種能繪制出一條ROC曲線,畫出5條曲線后取其平均值得到最終的ROC曲線,其中求平均值又分為宏平均和微平均。
由于原始光譜訊號存在著一些噪訊,因此采用SpectraSmart提供的平滑處理功能來消除噪訊,讓光譜曲線更加平滑,開啟DWT 降噪濾波器、 Savitzky-Golay濾波器[14],并且設(shè)定11點平滑度及參考與量測曲線平滑模式。同一樹種的木材光譜曲線應(yīng)該具有相同的趨勢與走向,采用PCA將原始數(shù)據(jù)降到3維,目的是可視化數(shù)據(jù),觀察數(shù)據(jù)的分布情況,如圖1a。觀察圖1a可知,異常值的存在不利于木材樹種的分類,通過計算樣本間的歐氏距離對異常值進行檢測,共檢測出52個樣本點。由于異常值小于樣本總數(shù)的10%,直接對異常值進行剔除,剩余948個實驗樣本,剔除后的前3個主成分散點圖如圖1b所示。由圖1b可見,5種木材在主成分的3維空間里呈現(xiàn)出較高的聚合度,橡膠木、蒙古櫟、水曲柳的邊界線較為明顯,而非洲紫檀和變色紫檀的邊界線模糊。
圖1 5種木材的前3個主成分散點圖Fig. 1 Scatter plot of first three principal components for samples of five wood species
SVM只能處理數(shù)值型數(shù)據(jù),因此在數(shù)據(jù)預(yù)處理時需要將文字型數(shù)據(jù)轉(zhuǎn)換為數(shù)值型,即對木材的樹種標簽進行編碼,將分類轉(zhuǎn)換為分類數(shù)值,非洲紫檀、變色紫檀、橡膠木、蒙古櫟、水曲柳分別編碼為類別0、類別1、類別2、類別3、類別4。
Kennard-Stone(K/S)算法通過計算樣本間的歐氏距離來劃分樣本,將光譜差距大的樣本選入訓(xùn)練集,其余的樣本歸入測試集。采用K/S算法將樣本集劃分為訓(xùn)練集和測試集,從每類樹種樣本中抽取70%作為訓(xùn)練集,30%作為測試集,則訓(xùn)練集中共有663個樣本,測試集共有285個樣本。為驗證抽取出來的測試集是否具有代表性,采用PCA分別對訓(xùn)練集和測試集進行降維處理。測試集與訓(xùn)練集的第一主成分和第二主成分分布圖見圖2。由圖2可見,測試集樣本均勻分布在訓(xùn)練集的分布空間上,說明此測試集具有代表性。
圖2 樣本的第一主成分和第二主成分分布圖Fig. 2 Distribution of the first and the second principal component of the samples
PCA降維模型中最重要的參數(shù)是n_components,即降維后保留的特征維度。訓(xùn)練集和測試集的主成分累計貢獻率見表2。由表2可見,訓(xùn)練集及測試集的前3個主成分累計貢獻率已達到了99.94%,保留了原始數(shù)據(jù)足夠的信息量。通過學(xué)習(xí)曲線易于找到最佳的n_components,當n_components為12時,PCA-SVM模型的分類性能最好,因此采用前12個主成分替代原始光譜數(shù)據(jù)作為模型的輸入。
表2 訓(xùn)練集和測試集的主成分累計貢獻率Table 2 Cumulative contribution rate of principal components of training set and test set
為選取最佳的核函數(shù),在識別難度較大的非洲紫檀與變色紫檀訓(xùn)練集上探究4種核函數(shù)的識別效果,基于不同核函數(shù)建立SVM模型,各項參數(shù)均設(shè)定為默認值,識別結(jié)果如圖3所示。由圖3可知,在同一樣本集下基于不同的核函數(shù)建立的識別模型對木材的識別效果不盡相同,基于高斯徑向內(nèi)核函數(shù)的模型準確率可達到83%,而基于多項式內(nèi)核函數(shù)的模型準確率卻只有67%;因此,根據(jù)核函數(shù)在此訓(xùn)練集上的表現(xiàn),選取高斯徑向內(nèi)核作為SVM模型的核函數(shù)。
圖3 4種核函數(shù)的識別效果Fig. 3 Identification performance of four kernel functions
基于RBF的SVM模型存在兩個需要自定義的超參數(shù),即懲罰因子C和RBF核函數(shù)寬度gamma[15]。為提高SVM的泛化性能和識別效果,采用網(wǎng)格搜索法結(jié)合5折交叉驗證來優(yōu)化參數(shù),得到C與gamma的最佳組合。由于本研究的訓(xùn)練集屬于較小的數(shù)據(jù)集,且OvO策略每次訓(xùn)練只使用兩類樣本,訓(xùn)練速度較快,多類分類方法采用OvO策略。
兩種模型樹種的混淆矩陣見圖4。當C為32.66、gamma為0.026時,采用OvO策略,PCA-SVM模型的分類性能最佳,準確率達到96.14%,有9個樣本識別錯誤,模型速率達7.92 s。分析PCA-SVM模型的混淆矩陣(圖4a所示),僅有非洲紫檀的準確率達到了100%,而蒙古櫟的準確率只有92%,被錯誤識別為非洲紫檀和橡膠木。蒙古櫟的AUC面積為0.99,其余樹種均為1,可見PCA-SVM分類器對蒙古櫟的識別能力最差。
圖4 兩種模型樹種的混淆矩陣Fig. 4 The wood species prediction results of the two models
兩種降維方法的處理結(jié)果見圖5。為對比分析PCA和LDA降維的處理效果,在訓(xùn)練集上分別采用PCA和LDA進行降維,得到二維投影圖。由圖5可見,LDA降維后的聚類效果優(yōu)于PCA,各類別樹種分界線清晰。這是因為近紅外光譜信息與木材樹種標簽相關(guān)聯(lián),LDA是屬于監(jiān)督學(xué)習(xí)的降維技術(shù),在向低維度投影時使不同類別數(shù)據(jù)的類別中心間距盡可能遠,而PCA是不考慮樣本類別輸出的無監(jiān)督降維技術(shù)[16]。
圖5 不同降維方法的處理結(jié)果Fig. 5 Processing results of different dimensionality reduction methods
由于LDA最多只能降到4維度,取n_components=4,SVM模型同樣選取RBF核函數(shù),采用OvO策略,經(jīng)網(wǎng)格搜索法,結(jié)合5折交叉驗證優(yōu)化參數(shù),得到C=10.21,gamma=0.278,準確率高達97.54%;有7個樣本未被正確識別,模型運行速率達6.53 s。LDA-SVM模型的混淆矩陣(圖4b所示)直觀地反映了各類樹種的識別準確率,其中非洲紫檀、橡膠木、水曲柳3個樹種的所有樣本均能正確識別,變色紫檀和蒙古櫟的準確率分別為95%和92%。
5個樹種的AUC面積均為1,表明LDA-SVM模型對各類樹種的識別能力較強。兩個模型的區(qū)別在AUC面積中體現(xiàn)得不明顯,總體而言LDA-SVM模型略優(yōu)于PCA-SVM模型。
1)將機器學(xué)習(xí)與林業(yè)信息處理緊密結(jié)合,開發(fā)一種基于支持向量機的木材樹種識別模型,結(jié)果表明PCA-SVM和LDA-SVM兩種模型均可實現(xiàn)對木材樹種的識別。其中,LDA-SVM模型的準確性優(yōu)于PCA-SVM模型,總體準確率97.54%,模型運行速率6.53 s。
2)采用PCA和LDA兩種線性算法對原始光譜數(shù)據(jù)進行降維去噪處理,對比了其對木材近紅外光譜的去噪效果和模型運行速度的影響,結(jié)果表明,基于LDA的模型優(yōu)于基于PCA的模型,模型識別準確率提高了1.4%,運行速率提升了17.6%。
3)探討了SVM的核函數(shù)對木材樹種識別的影響,結(jié)果發(fā)現(xiàn)基于高斯徑向內(nèi)核函數(shù)的模型識別效果最佳,線性內(nèi)核函數(shù)次之。