葉磊,韋克蘇,李德侖,張富貴,吳雪梅
(1.貴州大學(xué)機(jī)械工程學(xué)院,貴陽市,550025;2.貴州省煙草科學(xué)研究院,貴陽市,550025)
烤煙是貴州省農(nóng)村地區(qū)一項重要的經(jīng)濟(jì)作物,煙葉的等級評定是煙草行業(yè)的一項基礎(chǔ)性生產(chǎn)環(huán)節(jié)。我國烤煙的分級標(biāo)準(zhǔn)主要是依據(jù)煙葉的顏色特征、形狀特征、油分特征和成熟度特征等四大特征來判別一張煙葉等級歸屬。目前,國內(nèi)外已有研究將高廣譜技術(shù)應(yīng)用于煙葉葉片化學(xué)成分快速分析,煙葉生長狀態(tài)檢測,煙葉成熟度檢測、以及煙葉分級等領(lǐng)域,如楊艷東[1]、劉良云[2]、Sun[3]、Jia[4]、鄒勇[5]、李夢竹[6]、黎瑞君[7]等采用高光譜圖像技術(shù)建立了烤煙葉片化學(xué)成分快速預(yù)測模型,取得了較好的預(yù)測效果;殷全玉等[8]在研究中發(fā)現(xiàn)不同品種,不同部位的煙葉葉面對光譜反射率之間的存在差異;劉印峰[9]通過對烤煙植被的波普特性分析,發(fā)現(xiàn)利用紅波普吸收峰的面積可以較好的區(qū)分煙葉與其他植被;鄭小雨[10]、余志虹[11]、韓龍洋[12]等通過對不同波段下鮮煙葉光譜反射率的差異建立煙葉成熟度監(jiān)測模型,對上部煙、中部煙的成熟度具有較好的預(yù)測效果;劉藝琳等[13]基于光譜數(shù)據(jù)建立烤煙部位判別模型,識別率較高;于春霞等[14]對不同部位煙葉的近紅外光譜進(jìn)行了相似性分析,建立了基于SIMCA算法的相似性分析數(shù)學(xué)模型,結(jié)果表明,基于近紅外光譜的煙葉部位相似性分析結(jié)果與實際煙葉部位之間的相似程度是相符的。周漢平等[15]以NIR的不同波長范圍內(nèi)采用偏最小二乘法建立了煙葉的NIR預(yù)測模型,并指出油分預(yù)測模型在16階時,預(yù)測模型的準(zhǔn)確率最高。
隨著對高光譜技術(shù)在煙草領(lǐng)域研究的不斷深入,利用高光譜技術(shù)創(chuàng)建煙葉分級系統(tǒng)的研究成果豐富,其原理是在高光譜圖像的基礎(chǔ)上通過提取能夠表征煙葉屬性的特征,利用大量的樣本特征結(jié)合多種分類器進(jìn)行學(xué)習(xí)訓(xùn)練,建立基于高光譜信息的預(yù)測模型,對煙葉等級進(jìn)行評判,以獲得較好的預(yù)測效果。那么對于煙葉高光譜特征的選擇將直接影響預(yù)測模型的性能,大量冗余的特征不但會增加分類模型的復(fù)雜度,還會降低分級準(zhǔn)確率。因此如何選擇有效特征,對于預(yù)測模型的好壞具有重要意義。
目前對于特征篩選的方法主要分為Filter方法與Wrapper方法[16],其中Filter方法包括卡方檢驗法[17]、信息增益法[18]、相關(guān)系數(shù)法[19]等,其原理是賦予每一維特征權(quán)重,依據(jù)權(quán)重大小對特征進(jìn)行排序,最后選取權(quán)重占比較大的特征去訓(xùn)練分類器,而舍棄權(quán)重占比小的特征,這種脫離了分類器的學(xué)習(xí)算法往往會忽略掉一些有用的信息;Wrapper方法包括一些啟發(fā)式優(yōu)化算法比如遺傳算法[20]、模擬退火算法[21]、蟻群算法[22]以及人工神經(jīng)網(wǎng)絡(luò)等,其本質(zhì)是將特征篩選看作一個尋優(yōu)問題,直接將分類器的分類效果作為特征篩選評價函數(shù),得到最適合該分類器的最優(yōu)特征子集。本文針對烤煙油分特征預(yù)測模型的特征優(yōu)選問題,利用烤煙高光譜圖像ROI內(nèi)所有像素點光譜反射率的平均值作為烤煙表征烤煙油分的高光譜特征,提出了一種改進(jìn)RF(隨機(jī)森林)算法特征選擇策略,對高光譜特征進(jìn)行篩選,并輸入SVM分類器建立高光譜烤煙油分預(yù)測模型,旨在保證預(yù)測模型性能達(dá)到最優(yōu)的前提下,對特征子集降維,得到最優(yōu)特征子集。
本文利用貴州省煙草科學(xué)研究院提供的4個不同油分等級的煙葉共160張,樣本均由貴州省貴陽市煙草科學(xué)研究院專家定級。高光譜圖像采集系統(tǒng)由GaiaSky-mini2機(jī)載高光譜成像儀(四川雙利合譜)、4個40 W白熾燈穩(wěn)定光源、暗箱、液晶顯示器搭建的室內(nèi)高光譜圖像信息采集系統(tǒng)。其中,GaiaSky-mini2機(jī)載高光譜成像儀內(nèi)裝置有成像光譜儀、面陣探測器、驅(qū)動電源和運動控制模塊等;高光譜成像儀規(guī)格參數(shù):光譜分辨率3.5 nm±0.5 nm,全幅像素1 392×1 040,像素間距6.45 μm。
在高光譜圖像采集過程中由于光源的不均勻性以及拍攝鏡頭的暗電流聲產(chǎn)生的噪聲會對高光譜圖像造成影響,因此需要對高光譜圖像進(jìn)行黑白校正,其中Rc為校正后圖像;Rw是標(biāo)準(zhǔn)白板(反射率接近100%)得到圖像;Rd為掃描蓋住鏡頭(反射率接近0%)后得到的標(biāo)定圖像;Rr是原始的高光譜圖像。校正前后對比如圖1所示。
(1)
(a)校正前的烤煙高光譜圖像
為了提取烤煙高光譜圖像的光譜數(shù)據(jù),應(yīng)用ENVI5.3軟件對烤煙高光譜圖像進(jìn)行感興趣區(qū)域選擇,選擇方式為避開主莖,選擇葉面部分作為烤煙樣本的感興趣區(qū)域(Region of Interesting,ROI),提取每個樣本ROI內(nèi)所有像素點光譜反射率的平均值作為該樣本的高光譜特征。所拍攝的烤煙高光譜圖像ROI數(shù)據(jù)波長范圍為371.08~1 037.89 nm,包含176個波段點。
支持向量機(jī)算法對于處理高維非線性模式識別問題時,具有一定優(yōu)勢,算法的核心是利用核函數(shù)映射的方法將線性不可分樣本數(shù)據(jù)轉(zhuǎn)化到高維空間,并在高維空間建立分類器[23]。定義訓(xùn)練樣本集D=(x1,y1),(x2,y2),…,(xm,ym),yi∈{-1,1}。在數(shù)學(xué)模型上SVM映射后的特征向量,在特征空間中劃分超平面的模型
f(x)=ωTx+b
(2)
若f(x)=0,則x是位于超平面f(x)上的數(shù)據(jù)點,f(x)<0時,數(shù)據(jù)點類別為-1,f(x)>0時,數(shù)據(jù)點類別為1。在分隔超平面的兩邊有兩個相互平行的超平面,使兩個平行超平面之間的距離最大的為最優(yōu)超平面。
根據(jù)點到平面的距離公式可求的分類間隔
(3)
為了使得距離最優(yōu)超平面的分類間隔最大,則目標(biāo)函數(shù)
(4)
(5)
其中:i=1,2,…,m,ξi≥0。
為了便于計算,引入拉格朗日乘數(shù)將目標(biāo)函數(shù)對偶化,得到最終超平面函數(shù)
(6)
式中:κ(xi,xj)——xi、xj在高維空間中的內(nèi)積,即核函數(shù),αi≥0為拉格朗日乘數(shù)。
SVM常用的核函數(shù)有線性核函數(shù)、Sigmoid核函數(shù)、多項式核函數(shù)與RBF核函數(shù),因為RBF核函數(shù)應(yīng)用較為廣泛,效果好,本文選用RBF核函數(shù)。將上述160個樣本中100個樣本作為訓(xùn)練集,60個樣本作為測試集,輸入到支持向量機(jī)分類器,得到分類正確率為91.67%。
RF(隨機(jī)森林)算法是一種以決策樹為弱學(xué)習(xí)器的基礎(chǔ)上,進(jìn)一步在決策樹的訓(xùn)練中引入隨機(jī)屬性的集成學(xué)習(xí)算法,在特征工程中,隨機(jī)森林能從大量的樣本特征中識別出重要的特征,其原理是在原有的特征集中進(jìn)行隨機(jī)有放回的取去M個樣本,共進(jìn)行N次采樣后,生成N個訓(xùn)練集,對這N個訓(xùn)練集分別訓(xùn)練N個決策數(shù)模型,得到隨機(jī)森林模型,最后根據(jù)每個特征在隨機(jī)森林中對每個決策樹貢獻(xiàn)度的大小進(jìn)行特征重要程度劃分,通常用基尼指數(shù)作為評價指標(biāo)來衡量[24],記為RF-Score。本文利用RF算法將提取的烤煙高光譜特征按基尼系數(shù)降序排列如圖2所示。
圖2 每個特征的RF-Score值降序排列Fig.2 RF-Score values of each feature are arranged in descending order
將上述按RF-Score值排序的特征結(jié)合SVM分類器進(jìn)行訓(xùn)練,利用分類器的分類準(zhǔn)確率來對特征子集的分類性能進(jìn)行評價。SVM分類準(zhǔn)確率變化如圖3所示。
由圖3可以看出大量的特征并沒有提高模型的分類性能,甚至?xí)?dǎo)致分類器性能下降。當(dāng)子集數(shù)量小于64時,隨著特征數(shù)量的增加,模型的分類性能整體趨勢向上,當(dāng)子集數(shù)量等于64時,達(dá)到最高分類準(zhǔn)確率93.33%,當(dāng)子集數(shù)量大于64時,隨著特征數(shù)量的增加,模型的分類準(zhǔn)確率保持在93.33%,在特征子集數(shù)量達(dá)到120~141,172~176時,分類性能降低為91.67%。因此可以認(rèn)為經(jīng)RF特征選擇算法篩選后,176個高光譜特征中有64個波段的高光譜特征為有效特征。
圖3 基于RF特征選擇SVM分類準(zhǔn)確率Fig.3 SVM classification accuracy was selected based on RF features
改進(jìn)RF特征選擇流程如圖4所示。
圖4 改進(jìn)RF特征選擇流程圖Fig.4 Flow chart of improved RF feature selection
由上述分析可知,按RF-Score分值大小將特征依次輸入分類器時,也可能引入對分類器無用的特征。因此,本文基于RF算法提出了一種改進(jìn)特征選擇策略,首先將特征數(shù)據(jù)集中RF-Score值最大的特征加入特征子集中,此時特征子集中只包含一個特征,然后對余下的特征數(shù)據(jù)集經(jīng)行篩選,選擇余下特征數(shù)據(jù)集中RF-Score值最大的特征加入到特征子集中,并利用當(dāng)前的特征子集輸入到SVM分類器,若分類器的分類性能提高則保留該特征,若分類器的分類性能沒有提高或分類性能降低則舍棄該特征,然后繼續(xù)對特征數(shù)據(jù)集中余下的特征進(jìn)行篩選,直到將特征數(shù)據(jù)集中所有特征篩選完畢,最后使得分類器分類性能最好的特征子集即為最優(yōu)特征子集。
采用改進(jìn)RF特征選擇策略時,輸入到SVM分類器中得到的分類準(zhǔn)確率如表1所示。
表1 基于改進(jìn)RF特征選擇策略的SVM分類準(zhǔn)確率Tab.1 SVM classification accuracy based on the improved RF feature selection strategy
由表1可知,加入特征序號為1的特征時,SVM分類器的分類準(zhǔn)確率為45%;然后加入特征序號為2的特征,此時特征子集中的特征為(1,2),SVM分類器分類準(zhǔn)確率為45%,故該特征對分類器性能并無提高作用,因此應(yīng)當(dāng)舍去該特征;加入特征序號為3的特征時,此時特征子集中的特征為(1,3),SVM分類器分類準(zhǔn)確率為86.67%,故該特征對分類器性能有提高作用,應(yīng)當(dāng)保留該特征。以此類推,當(dāng)特征1、3、5、66、68、70加入到特征子集中時,支持向量機(jī)的分類性能最高,其他特征加入特征子集時,對于分類器的性能并無提高甚至?xí)档头诸愋阅?,因此通過改進(jìn)RF算法特征選擇策略選擇(1,3,5,66,68,70)為最優(yōu)特征子集,準(zhǔn)確率為95%。其中特征1、3、5、66、68、70所代表的高光譜波段為371.08 nm、716.71 nm、378.31 nm、487.77 nm、484.09 nm、535.85 nm。
將本文改進(jìn)的特征選擇策略與全光譜輸入、RF算法選擇特征的預(yù)測結(jié)果進(jìn)行對比,以驗證本文改進(jìn)的特征選擇算法有效性,具體分析見表2。
表2 高光譜特征選擇前后分類準(zhǔn)確率對比Tab.2 Comparison of classification accuracy before and after the selection of hyperspectral features
從表2可以看出,全高光譜波段作為烤煙油分預(yù)測模型的輸入時,特征數(shù)量為176個,分類準(zhǔn)確率為91.67%;經(jīng)RF算法特征選擇策略選擇后的高光譜特征作為烤煙油分預(yù)測模型的輸入時,特征數(shù)量為64個,分類準(zhǔn)確率為93.33%;經(jīng)改進(jìn)RF特征選擇算法選擇后的高光譜特征作為烤煙油分預(yù)測模型的輸入時,特征數(shù)量為6個,分類準(zhǔn)確率為95%。本文提出的特征選擇算法與全高光譜波段相比,特征數(shù)量減少170個,分類準(zhǔn)確率提高了3.33%;與RF特征選擇算法相比,特征數(shù)量減少了58個,分類準(zhǔn)確率提高了1.67%。
為了對烤煙油分特征等級進(jìn)行預(yù)測,本文利用高光譜相機(jī)采集不同油分等級的烤煙高光譜圖像,提取烤煙葉面感興趣區(qū)域光譜反射率的平均值作為表征烤煙油分等級的高光譜特征,并引入改進(jìn)RF特征選擇策略對176個高光譜波段特征進(jìn)行篩選,輸入到支持向量機(jī)分類器中,對烤煙油分等級進(jìn)行預(yù)測。主要結(jié)論如下。
1)利用RF特征選擇算法對烤煙高光譜特征進(jìn)行篩選,將176個高光譜特征中按基尼系數(shù)降序排列依次輸入SVM分類器中,前64個高光譜波段特征即可使支持向量機(jī)分類器性能最佳,特征子集維度為64,其分類準(zhǔn)確率為93.33%。
2)利用改進(jìn)RF算法特征選擇策略對176個烤煙高光譜波段特征進(jìn)行篩選,輸入371.08 nm、716.71 nm、378.31 nm、487.77 nm、484.09 nm、535.85 nm六個波段的高光譜特征即可使支持向量機(jī)分類器性能最佳,其分類準(zhǔn)確率為95%,特征子集維度為6,說明改進(jìn)的RF特征選擇策略在保證分類器性能的前提下能較好地進(jìn)行數(shù)據(jù)降維,減小特征子集的冗余。
3)改進(jìn)后的RF算法特征選擇策略與全高光譜波段相比,特征數(shù)量減少170個,分類準(zhǔn)確率提高了3.33%;與RF特征選擇算法相比,特征數(shù)量減少了58個,分類準(zhǔn)確率提高了1.67%。