姜明偉,王彩紅,張慶輝
河南工業(yè)大學(xué) 信息科學(xué)與工程學(xué)院,河南 鄭州 450001
小麥硬度的常用測(cè)定方法有顆粒度指數(shù)法(PSI)、單籽粒谷物特性測(cè)定儀法(SKCS)、近紅外光譜法(NIR)等。田素梅[1]對(duì)利用小麥硬度測(cè)定儀和NIR法測(cè)定小麥硬度的兩種方法進(jìn)行比較,發(fā)現(xiàn)兩者具有極顯著的正相關(guān)。陳鋒等[2]利用NIR法對(duì)583種小麥樣品進(jìn)行硬度測(cè)定,利用一階導(dǎo)數(shù)處理的光譜建立的最小二乘法模型效果最好,模型對(duì)硬、軟、混合麥的分級(jí)準(zhǔn)確率分別為90%、83%、63%?;瘜W(xué)測(cè)定方法和近紅外光譜法都有較好的相關(guān)性,但建模的預(yù)測(cè)集標(biāo)準(zhǔn)誤差較大,不適用于直接檢測(cè)。袁翠平等[3]采用SKCS法和NIR法對(duì)54個(gè)小麥品種的籽粒硬度進(jìn)行測(cè)定,兩種方法相關(guān)系數(shù)R為0.87?;輳V艷等[4]基于可見(jiàn)近紅外光譜的SPA-RBF神經(jīng)網(wǎng)絡(luò)模型能夠準(zhǔn)確地預(yù)測(cè)小麥的硬度,具有快速、方便、無(wú)損等優(yōu)點(diǎn)。
利用偏最小二乘法查找自變量小麥硬度光譜矩陣X和因變量小麥實(shí)際硬度矩陣Y的線性關(guān)系。作者采用小麥指數(shù)硬度儀測(cè)定小麥硬度實(shí)際值,利用近紅外分析儀對(duì)小麥硬度光譜數(shù)據(jù)進(jìn)行采集,再用一階導(dǎo)數(shù)進(jìn)行預(yù)處理,在不降低預(yù)測(cè)性的基礎(chǔ)上提取有效光譜數(shù)據(jù),建立小麥樣品硬度的PLS預(yù)測(cè)模型,旨在為快速檢測(cè)小麥硬度提供理論方法。
65種豫麥:河南鄭州中原國(guó)家糧食儲(chǔ)備庫(kù)。
JYDB 100×40型小麥指數(shù)硬度儀:鄭州中谷機(jī)械設(shè)備有限公司;DA 7250近紅外分析儀:瑞典波通公司。
將65種豫麥置于水分含量為12%的干燥環(huán)境中,以供光譜數(shù)據(jù)的采集[5-7]。采用近紅外分析儀采集小麥光譜數(shù)據(jù),分析儀采用銦鎵砷光電二極管陣列技術(shù),固定全息光柵分光,進(jìn)行連續(xù)光柵光譜檢測(cè),光源為鹵鎢燈,光譜波段為950~1 650 nm,采用固定式杯裝小麥樣本進(jìn)行光譜測(cè)量。使用的光譜采集軟件為Results Plus,光譜分辨率為0.5 nm。儀器開機(jī)預(yù)熱0.5 h,穩(wěn)定紅外光源,以保證小麥光譜數(shù)據(jù)更準(zhǔn)確。光譜數(shù)據(jù)處理軟件為Matlab R2016a、The Unscrambler X10.4。小麥硬度光譜數(shù)據(jù)采集結(jié)果如圖1所示。
注:R為反射率。圖1 小麥硬度光譜數(shù)據(jù)采集結(jié)果Fig.1 Spectral data acquisition
為建立小麥近紅外光譜數(shù)據(jù)和小麥實(shí)際硬度值之間的預(yù)測(cè)分析模型,對(duì)小麥實(shí)際硬度值進(jìn)行測(cè)定。小麥實(shí)際硬度值按照GB/T 21304方法,利用小麥硬度指數(shù)儀測(cè)量。最終測(cè)得65種豫麥硬度指數(shù)(HI)結(jié)果如表1所示。
測(cè)定小麥實(shí)際硬度會(huì)產(chǎn)生誤差,采用蒙特卡洛交叉驗(yàn)證法[8]對(duì)誤差硬度值進(jìn)行剔除。為保證預(yù)測(cè)模型具有代表性和外推能力,采用光譜理化值共生距離(set partitioning based on joint X-Y distances,SPXY)[9]做進(jìn)一步優(yōu)選,劃分模型的校正集和預(yù)測(cè)集,最大限度的降低樣本的共線性。為削弱各種目標(biāo)因素對(duì)目標(biāo)光譜的影響,保留有效信息,提高光譜分辨率和模型的穩(wěn)健性,降低模型的復(fù)雜度,對(duì)校正集樣本進(jìn)行一階導(dǎo)數(shù)預(yù)處理[10-11],在此基礎(chǔ)上建立偏最小二乘法的小麥硬度預(yù)測(cè)模型(CARS-PLS模型)。
小麥硬度值在化學(xué)測(cè)定時(shí)會(huì)不可避免地產(chǎn)生誤差,所得的硬度值會(huì)影響模型的預(yù)測(cè)精度,導(dǎo)致模型誤差大,因此采用蒙特卡洛交叉驗(yàn)證法剔除異常的硬度值。蒙特卡洛交叉驗(yàn)證法共建立1 000個(gè)PLS模型,每個(gè)模型隨機(jī)選取52種小麥作為校正集樣本,建立校正集小麥光譜數(shù)據(jù)和實(shí)際硬度值的偏最小二乘法模型[12-13],對(duì)剩下的13種預(yù)測(cè)集小麥樣本進(jìn)行硬度值預(yù)測(cè),得到小麥硬度的預(yù)測(cè)殘差標(biāo)準(zhǔn)差(STD)與均值(MEAN),結(jié)果如圖 2所示。
表1 65種豫麥樣本實(shí)際硬度值Table 1 Actual hardness values of wheat samples
圖2 蒙特卡洛交叉驗(yàn)證法剔除結(jié)果Fig.2 Elimination results of Monte Carlo cross-validation method
最終剔除STD>0.4,MEAN>1的異常數(shù)據(jù),由圖2可知,小麥編號(hào)13、22、47、49、55、56、58共7個(gè)為異常值,對(duì)剩下的58個(gè)小麥樣本進(jìn)行建模分析。
建模需要將樣本劃分為校正集和預(yù)測(cè)集,校正集用來(lái)建立模型,預(yù)測(cè)集用來(lái)檢驗(yàn)建立的模型。常見(jiàn)的樣本集合劃分方法有隨機(jī)抽樣法、常規(guī)選擇法、Kennard-Stone(K-S)法等,為保證預(yù)測(cè)模型的代表性和外推能力,采用光譜理化值共生距離(SPXY)劃分模型的校正集和預(yù)測(cè)集,最大限度的降低樣本的共線性。
式中:p和q表示任意兩個(gè)樣品的編號(hào);N是總的樣品數(shù);j為光譜波點(diǎn);dx(p,q)表示兩條光譜數(shù)據(jù)的空間距離;dy(p,q)表示對(duì)應(yīng)小麥樣品p,q實(shí)際硬度之間的距離。
SPXY法選擇樣本時(shí),確保了x空間和y空間的樣本分布,計(jì)算兩種樣本的聯(lián)合空間距離dxy。
采用SPXY法將剔除異常小麥硬度值后的58個(gè)樣本分為校正集和預(yù)測(cè)集,其中校正集46個(gè),預(yù)測(cè)集12個(gè)。樣本統(tǒng)計(jì)結(jié)果如表2所示。從表2可看出,校正集樣本的硬度最大值為68.5%,最小值與整體樣本相同,為57.2%,平均值(65.2%)小于整體樣本,標(biāo)準(zhǔn)差(2.07)大于整體樣本,說(shuō)明校正集分布均勻,具有足夠的代表性。校正集樣本硬度值范圍在57.2%~68.5%之間,涵蓋了預(yù)測(cè)集樣本最大值和最小值,符合建模標(biāo)準(zhǔn)。
表2 小麥SPXY集合劃分結(jié)果Table 2 Wheat SPXY set division results
CARS算法[14-15]是以達(dá)爾文進(jìn)化論的“適者生存”為指導(dǎo)理論的變量方法。通過(guò)蒙特卡洛采樣法篩選PLS模型中回歸系數(shù)絕對(duì)值大的變量,應(yīng)用衰減指數(shù)法剔除回歸系數(shù)絕對(duì)值小的波長(zhǎng),基于自適應(yīng)加權(quán)算法 (adaptive reweighted sampling, ARS)選取交叉驗(yàn)證的均方根誤差 (root mean square error of cross validation, RMSECV) 最小的模型所對(duì)應(yīng)的波長(zhǎng)變量子集。本研究中蒙特卡洛采樣次數(shù)設(shè)置為50次。
建立近紅外光譜模型后對(duì)預(yù)測(cè)集樣本進(jìn)行預(yù)測(cè),最終通過(guò)得到的參數(shù)來(lái)評(píng)價(jià)模型。本研究選取3個(gè)模型評(píng)價(jià)參數(shù):預(yù)測(cè)相關(guān)系數(shù)(R)、交叉驗(yàn)證均方根誤差(RMSECV)、預(yù)測(cè)均方根誤差(RMSEP)。R反映模型實(shí)際值與預(yù)測(cè)值之間的擬合程度,R越接近1,表明預(yù)測(cè)值和實(shí)際值的擬合度正相關(guān),模型的準(zhǔn)確度越高。RMSECV用來(lái)驗(yàn)證模型的可行性,計(jì)算預(yù)測(cè)模型的誤差,RMSECV越小,表明所建模型的預(yù)測(cè)能力越強(qiáng)。RMSEP表示預(yù)測(cè)集樣本經(jīng)模型預(yù)測(cè)所得的預(yù)測(cè)值與實(shí)際值之間的誤差,RMSEP越小,表明模型預(yù)測(cè)效果越佳。
采用CARS方法對(duì)校正集全光譜進(jìn)行變量篩選,最終篩選出110個(gè)特征波點(diǎn),占原波點(diǎn)數(shù)(1 401)的7.85%,隨著采樣次數(shù)增加,變量數(shù)、RMSECV和每個(gè)變量回歸系數(shù)路徑如圖3所示。
注:*表示RMSECV最小時(shí)的采樣次數(shù)。圖3 CARS變量選擇Fig.3 CARS variable selection
由圖3a可知,隨著采樣次數(shù)的增加,采樣次數(shù)小于20時(shí),采樣變量數(shù)快速遞減,采樣次數(shù)大于20時(shí),采樣變量數(shù)慢速遞減,說(shuō)明算法在篩選變量有精選和粗選過(guò)程。
圖 3b是十折交叉驗(yàn)證RMSECV變化趨勢(shì),隨著采樣次數(shù)的增加,PLS交叉驗(yàn)證RMSECV值先遞減又遞增的變化,其中采樣次數(shù)在20時(shí)達(dá)到最小值,為0.158 5。表明在1~19次,近紅外光譜中與小麥硬度值大量的無(wú)關(guān)信息被剔除,31次后,RMSECV明顯遞增,表明剔除了光譜中有效數(shù)據(jù)導(dǎo)致模型性能變差。
圖 3c表示1 401個(gè)變量隨著采樣次數(shù)的增加回歸系數(shù)的路徑變化,采樣次數(shù)為20所得的變量子集定為與小麥硬度相關(guān)的關(guān)鍵變量子集,包含110個(gè)變量。
利用CARS方法篩選出的特征變量作為PLS模型的輸入變量,采用留一交叉法確定最優(yōu)因子數(shù),采用最優(yōu)因子數(shù)建立CARS-PLS預(yù)測(cè)模型,并對(duì)預(yù)測(cè)集進(jìn)行性能比較。由表2可知, CARS-PLS模型中預(yù)測(cè)集R和RMSEP分別為0.884 3、0.543 6,F(xiàn)ull-PLS全變量模型預(yù)測(cè)集R和RMSEP分別為0.863 1、0.574 9,兩個(gè)模型都可以較好地對(duì)小麥硬度進(jìn)行預(yù)測(cè),前者模型對(duì)小麥硬度的預(yù)測(cè)能力略低于后者,但是CARS-PLS模型僅僅使用了全變量的7.85%的變量,這有助于建模的簡(jiǎn)單、穩(wěn)定,在不降低預(yù)測(cè)性的基礎(chǔ)上很大幅度降低了計(jì)算量。綜上,CARS-PLS能夠有效測(cè)定小麥硬度,CARS對(duì)波長(zhǎng)選擇能力很強(qiáng),能夠有效剔除無(wú)關(guān)變量。
表3 偏最小二乘法回歸模型性能Table 3 Performance of partial least squares regression model
小麥硬度近紅外光譜經(jīng)過(guò)CARS進(jìn)行特征變量選擇,最終在1 401個(gè)特征變量中選取了110個(gè)進(jìn)行分析比較。結(jié)果表明,通過(guò)CARS進(jìn)行變量選擇建立的PLS模型性能略低于全光譜建立的PLS模型性能,但是CARS-PLS模型僅僅使用了全變量的7.85%的變量,這有助于建模的簡(jiǎn)單、穩(wěn)定,在不降低預(yù)測(cè)性的基礎(chǔ)上很大幅度降低了計(jì)算量。CARS-PLS模型的校正集R和RMSEP分別為0.931 7和0.570 8,預(yù)測(cè)集R和RMSEP分別為0.884 3和0.543 6,該模型對(duì)快速無(wú)損檢測(cè)小麥硬度具有使用推廣價(jià)值。