趙 劉, 齊海軍, 金 秀, 溫淑嫻, 李紹穩(wěn)
(安徽農(nóng)業(yè)大學(xué)信息與計算機(jī)學(xué)院,安徽合肥 230036
大米是我國主要糧食之一,含有許多營養(yǎng)物質(zhì),如蛋白質(zhì)、直鏈淀粉等,具有健脾養(yǎng)胃、益精強(qiáng)體的功能。針對大米進(jìn)行質(zhì)量檢測和品種識別已成為研究的熱點。國內(nèi)外學(xué)者已經(jīng)對大米的品質(zhì)、屬性包括外觀(大小、形狀、色彩、白堊和無缺陷和衰變)和內(nèi)部質(zhì)量方面(水分、糖、蛋白質(zhì)[1-3]、直鏈淀粉含量[4-7]內(nèi)容)等均做過有價值的研究,有關(guān)大米品種分類方面的研究則較少。雖然大米可以根據(jù)其顏色、生產(chǎn)地和硬度等檢查分類,但是這種視覺檢查方法有不少不足。如一些大米看起來相似,它們的質(zhì)量屬性會有很大的波動,這將影響到最終產(chǎn)品的質(zhì)量。通過化學(xué)計量分析分辨大米品種,盡管能較精確地檢測出大米內(nèi)部成分的差異從而有效區(qū)分出不同的大米,可是使用這些方法時會浪費很多時間、消耗大量人力物力,不便于應(yīng)用[8]。
高光譜成像技術(shù)是一種圖譜合一的新技術(shù),能同時檢測到物質(zhì)的內(nèi)部信息和外部信息。光譜信息的提取分析方式有2種:一是對采集到的所有波段進(jìn)行分析;二是通過分析樣本和光譜信息的關(guān)系,提取與其相關(guān)的波長,這種方法稱為提取特征波長,是指從原有的光譜數(shù)據(jù)中提取與樣品化學(xué)物質(zhì)相關(guān)的波長與波段[9-11]?;谌ǘ喂庾V通??梢缘玫綐悠吩跍y量波段范圍內(nèi)的每一個波長的光譜信息,會產(chǎn)生大量數(shù)據(jù)以供分析。這些光譜數(shù)據(jù)中存在數(shù)據(jù)共線問題和大量的冗余無效的信息,使模型復(fù)雜化,建模工作量也增大,而且會導(dǎo)致建模效果差。如果可以選擇全波段中與待預(yù)測的物質(zhì)屬性有關(guān)的有效波段,不但會減少信息的共線性和數(shù)據(jù)冗余,減少輸入數(shù)據(jù)變量個數(shù),再建立有效模型可以提高模型的準(zhǔn)確度,而且也減少了數(shù)據(jù)的運算的時間和模型的復(fù)雜度,減少模型計算量,簡化模型[12]。特征波長的提取有許多算法,使用這些算法可以提取有用的波段,但每一種算法所提取的波段是不同的[13]。為了建立較準(zhǔn)確的模型,筆者采用自適應(yīng)競爭性重加權(quán)法(competitive adaptive reweighted sampling,CARS)[14]、連續(xù)投影法(successive projection algorithm,SPA)[15]、無變量信息消除法(uninformative variable elimination,UVE)[16]、隨機(jī)蛙跳(shufffed frog leaping algorithm,SFLA)[17]等多種特征波長提取算法提取大米的光譜數(shù)據(jù)。
試驗采用肥西大米、泰國香米、五常大米、圓糯米、雜交米、長糯米共6種類型大米,購自當(dāng)?shù)亓闶凵蹋糠N大米選取27粒,總共162個樣本。
高光譜圖像采集系統(tǒng)見圖1,由2個50 W鹵素?zé)簟⒏吖庾V相機(jī)、精密云臺和計算機(jī)等部件組成。其中高光譜相機(jī)為推掃式高光譜(HyperScan VNIR Micro),測量光譜范圍是 400~1 000 nm,光譜分辨率為1.8 nm。高光譜數(shù)據(jù)分析軟件采用ENVI(ITT,USA)和Matlab(The Math Works,Natick,USA)。
根據(jù)系統(tǒng)本身所能采集圖像的大小,以及方便在圖像中提取大米的信息,最終確定每種大米采集3張圖像,每張圖像采集9個樣本,6種大米共采集了18張圖像。采集圖像時將大米以九宮格布局?jǐn)[放,其距離為1 cm,掃描角度為-10°~10°,掃描速度為1.844°/s,鏡頭焦距為60 nm,相機(jī)暴光時間為10 ms。為減少試驗過程中外界自然光及采集系統(tǒng)本身對圖像的影響,用黑白板校正原始高光譜圖像。掃描標(biāo)準(zhǔn)白板所得到的圖像,然后關(guān)閉光源和鏡頭蓋,采集到的圖像作為全黑圖像,利用白板圖像和全黑圖像對原圖像進(jìn)行校正,校正公式為
(1)
式中:R為校正后的圖像;I為原始圖像;W為白板圖像;B為全黑圖像[18]。
競爭性自適應(yīng)重加權(quán)算法(CARS)是一種較新的變量選擇理論,該方法在對無信息變量進(jìn)行有效去除的同時,還可以盡可能減少共線性變量對模型的影響[19]。本研究將該方法應(yīng)用于大米高光譜數(shù)據(jù)的變量選擇中,通過變量選擇建立針對大米種類鑒別預(yù)測模型。CARS算法流程見圖2。
連續(xù)投影算法(SPA)可以從大量的光譜信息中充分剔除帶有冗余信息的變量組,將剩余的光譜信息代替原始的光譜數(shù)據(jù),從而降低數(shù)據(jù)的維度,同時減少了數(shù)據(jù)變量的個數(shù),因此可以建立快速高效的模型,已被廣泛應(yīng)用于光譜分析領(lǐng)域[20-22]。SPA的流程見圖3。
無變量信息消除法(UVE)是建立在對PLS回歸系數(shù)分析上的算法,用來消除無用的變量?;舅枷胧巧梢粋€與自變量矩陣相同大小的隨機(jī)矩陣,并和自變量矩陣合并,利用交叉驗證法建立偏最小二乘法模型[23]。獲得回歸系數(shù)b,求回歸系數(shù)b的平均值和標(biāo)準(zhǔn)差,得到二者的商C,C的絕對值大小決定所選取的特征波長個數(shù)。公式如下:
(2)
隨機(jī)蛙跳(SFLA)是近幾年來新興的一種特征波長選取算法。用少量的信息變量代替眾多的變量建立回歸或分類模型,是一種有效降低數(shù)據(jù)維度的方法。SFLA計算出每個變量被選擇的概率,從而進(jìn)行變量的選擇。
支持向量機(jī)(support vector machine,SVM)是一種建立在統(tǒng)計學(xué)習(xí)理論基礎(chǔ)上的新型學(xué)習(xí)機(jī)器,預(yù)測的可靠性高且泛化能力強(qiáng)。用SVM擬合函數(shù)的主要思路是把訓(xùn)練集數(shù)據(jù)從輸入空間非線性地映射到一個多維度的特征空間,然后在多維度的特征空間中通過最小化某種損失函數(shù)可獲得一個線性的擬合函數(shù)[24-27]。
在18張樣本的高光譜圖像上選取每1粒大米作為1個ROI(感興趣區(qū)域),統(tǒng)計每個ROI得到162條光譜曲線(圖4)。通過ENVI軟件導(dǎo)出光譜數(shù)據(jù)至Matlab,對獲得的400~1 000 nm波長范圍內(nèi)的162×339個光譜數(shù)據(jù)進(jìn)行后續(xù)分析。
從圖4可以看出,在400~500、950~1 000 nm波長范圍內(nèi)的光譜有外界干擾噪聲,因此切去這些有明顯噪聲的波長部分,采用剩下330個波段的光譜進(jìn)行分析[28]。按照支持向量機(jī)算法(SVM)將樣本分成約3 ∶1的訓(xùn)練集和預(yù)測集,其中訓(xùn)練集126個樣本,預(yù)測集36個樣本。用1、2、3、4、5、6分別代表肥西大米、泰國香米、五常大米、圓糯米、雜交米、長糯米6種大米的標(biāo)簽,不同類型的大米建模集和預(yù)測集樣本數(shù)分別為21、6。
CARS是利用蒙特卡洛采樣過程采樣的,具有隨機(jī)性。經(jīng)過100次運行得到其中最優(yōu)的試驗結(jié)果,當(dāng)采樣次數(shù)為57次時,RMSECV值最小為1.27,此時選中的特征波長個數(shù)為16個。采用SPA用于特征波長的提取,最小波長點個數(shù)設(shè)置為15,并以最小RMSECV值下的波長個數(shù)為特征波長數(shù),獲得13個特征波長。經(jīng)過UVE算法分析,最終選擇15個特征波長。根據(jù)SFLA算法選擇不同的變量時具有不同的選擇可能性,對大米全波段分析,本研究設(shè)定選擇概率的閾值為0.8,共選擇20個特征波長(表1)。
從表1可以看出,在不同選擇算法下得到了不同的特征波長,可以清楚地看到不僅特征波長個數(shù)不同,而且選擇的特征波長的差距也比較大。選擇特征波長使原有的300個波段變量減少到十幾個,大大減少了建模的速度,同時模型的預(yù)測能力也得到了增強(qiáng)。選擇的特征波長不同與選擇方法不同是息息相關(guān)的[29]。
表1 不同算法選擇的特征波長
將CARS、SPA、UVE、SFLA分析所得到的波段作為輸入變量分別建立SVM模型。在本次試驗中,用徑向基(radial basis function,RBF)核函數(shù)作為SVM的核函數(shù),模型中的懲罰參數(shù)C和RBF核函數(shù)中的參數(shù)G通過利用留一交叉驗證(CV)法來最終確定。
從表2可以看出,通過CARS算法所選取的特征波長建立SVM模型,預(yù)測集有36個樣本,其中正確分出30個樣本,有6個樣本分類錯誤。CARS算法對大米種類分類正確率達(dá)83.33%,當(dāng)懲罰參數(shù)C和核函數(shù)參數(shù)G分別為16和0.062 5時,大米分類準(zhǔn)確率能夠達(dá)到最高。通過SPA算法所選取的特征波長建立SVM模型,預(yù)測集有36個樣本,其中正確分出27個樣本,有9個樣本分類錯誤。SPA算法對大米種類分類正確率達(dá)75.00%,當(dāng)懲罰參數(shù)C和核函數(shù)參數(shù)G分別為16和0.062 5時,大米分類準(zhǔn)確率能夠達(dá)到最高。通過UVE算法所選取的特征波長建立SVM模型,預(yù)測集有36個樣本,其中正確分出28個樣本,有8個樣本分類錯誤。UVE算法對大米種類分類正確率達(dá)77.78%,當(dāng)懲罰參數(shù)C和核函數(shù)參數(shù)G分別為16和0.062 5時,大米分類準(zhǔn)確率能夠達(dá)到最高。通過SFLA算法所選取的特征波長建立SVM模型,預(yù)測集有36個樣本,其中正確分出19個樣本,有17個樣本分類錯誤。SFLA算法對大米種類分類正確率達(dá)52.78%,當(dāng)懲罰參數(shù)C和核函數(shù)參數(shù)G分別為16和0.062 5時,大米分類準(zhǔn)確率能夠達(dá)到最高。結(jié)果表明,通過CARS算法選取特征波長所建立的大米品種鑒別模型是可行的。
表2 基于特征波長的SVM模型的預(yù)測結(jié)果
將獲得的原始高光譜數(shù)據(jù)采用SVM算法建立大米分類模型。采用交叉驗證法優(yōu)化SVM建模的RBF核函數(shù)的2個重要參數(shù),最終SVM模型的分類結(jié)果見圖5。從圖5可以看出,預(yù)測集有36個樣本,其中正確分出28個樣本,有8個樣本分類錯誤。通過基于全波段的SVM算法對大米種類分類正確率達(dá)到77.78%,當(dāng)懲罰參數(shù)C和核函數(shù)參數(shù)G分別為16和0.0625時,大米分類準(zhǔn)確率能夠達(dá)到最高。結(jié)果表明,基于全波段的SVM分類算法可以把不同品種的大米有效區(qū)分開來。
筆者利用高光譜技術(shù)對大米品種識別進(jìn)行了方法研究,分析得到高光譜數(shù)據(jù)并建立SVM模型,分別采用CARS、SPA、UVE、SLFA提取特征波長,基于全波段光譜、特征波長建立PLS模型。在全波段下SVM的識別率達(dá)到77.78%;基于CARS特征波長下的SVM模型的識別率為83.33%;基于SPA特征波長下的SVM模型的識別率為75.00%;基于UVE特征波長下的SVM模型的識別率為77.78%;在SLFA選取的特征波長下所建立的SVM模型的識別率為52.78%。研究結(jié)果表明,基于高光譜技術(shù)在CARS下建立SVM模型對大米品種分類是有效可行的,利用CARS選取特征波長可以有效替代全波段信息進(jìn)行大米品種分類。