趙環(huán)+宦克為 石曉光+鄭峰+劉麗瑩+劉微+趙春英
摘要變量選擇技術(shù)是光譜建模的重要環(huán)節(jié)。本研究提出了一種新的變量選擇方法——自加權(quán)變量組合集群分析法(AWVCPA),首先通過二進(jìn)制矩陣采樣法(BMS)對變量空間進(jìn)行采樣;其次通過對變量出現(xiàn)頻率(Fre)和偏最小二乘回歸系數(shù)(Reg)兩種信息向量(IVs)做加權(quán)處理, 得到了每個光譜變量的貢獻(xiàn)值,進(jìn)而考慮到了Fre和Reg兩類IVs對于光譜建模的影響;最后通過指數(shù)衰減函數(shù)(EDF)刪除貢獻(xiàn)小的波長點(diǎn),進(jìn)而實(shí)現(xiàn)特征變量選取。以啤酒和玉米兩組近紅外光譜數(shù)據(jù)為例,基于偏最小二乘法(PLS)建立啤酒中酵母濃度預(yù)測模型和玉米中油濃度預(yù)測模型,對比其它變量選擇方法。研究表明,在相同條件下,基于AWVCPA變量選擇方法建立的預(yù)測模型都取得了最優(yōu)的預(yù)測精度,對啤酒中酵母濃度的預(yù)測,相比全光譜PLS模型,RMSEP由05348下降到01457,預(yù)測精度提高了727%;對玉米含油量的預(yù)測,相比全光譜PLS模型,預(yù)測均方根誤差(RMSEP)由00702下降到了00248,預(yù)測精度提高了647%。
關(guān)鍵詞近紅外光譜; 化學(xué)計(jì)量學(xué); 變量選擇; 自加權(quán)變量組合集群分析法; 信息向量
1引 言
隨著近紅外光譜技術(shù)和化學(xué)計(jì)量學(xué)的發(fā)展,變量選擇技術(shù)已成為近紅外光譜分析高維度數(shù)據(jù)領(lǐng)域的關(guān)鍵環(huán)節(jié),對光譜變量進(jìn)行變量選擇可以提高預(yù)測模型的預(yù)測能力、降低光譜數(shù)據(jù)維度和增強(qiáng)預(yù)測模型的可解釋性。同時,變量選擇也是一個非確定多項(xiàng)式(Nondeterministic polynomial time, NP)問題,隨著變量空間的增大,找到一組最佳的變量組合是一個非常具有挑戰(zhàn)性的問題[1~4]。常見的變量選擇方法有無信息向量刪除法(UVE)[3]、相關(guān)系數(shù)法(CCM)、蒙特卡洛無信息變量刪除法(MCUVE)[5]、遺傳學(xué)算法(GA)[6~9]等。隨著模型集群分析(MPA)思想的發(fā)展,一些新變量選擇方法,如隨機(jī)蛙跳法(RF)[10]、競爭自適應(yīng)重采樣法(CARS)[11,12]、 迭代保留有信息變量法(IRIV)[13]和變量組合集群分析法(VCPA)[14]等被提出。然而,對于變量重要性目前常采用信息向量(IVs)[15]判定,常見的信息向量有偏最小二乘回歸系數(shù)(Reg)、相關(guān)系數(shù)向量(Cor)、殘差向量(Res)、投影變量重要性向量(VIP)、凈信號向量(NAS)、信噪比向量(StN)、協(xié)方差向量(Cov)、選擇比向量(SR)、預(yù)測殘差向量(Ssr)、變量出現(xiàn)頻率(Fre)和協(xié)方差選擇向量(Covsel)等[16~21]。雖已有大量變量選擇方法和信息向量,但每種變量選擇方法都只采用了這些信息向量中的一種作為變量重要性判斷依據(jù),進(jìn)而忽略了其它信息向量對預(yù)測模型的影響,因此易產(chǎn)生預(yù)測模型的過擬合現(xiàn)象。
為了解決此問題,本研究提出了自加權(quán)變量組合集群分析法(AWVCPA),將MPA思想與多IVS加權(quán)思想結(jié)合,采用交互檢驗(yàn)均方根誤差(RMSECV)最小原則,對Fre和Reg兩種信息向量的結(jié)果進(jìn)行歸一化加權(quán)處理,計(jì)算出每個變量在這兩種信息向量結(jié)果中的最終貢獻(xiàn)值,進(jìn)而考察了這兩種信息向量對每個光譜變量的影響,提高了預(yù)測模型的穩(wěn)定性。利用此方法分別對啤酒中酵母濃度和玉米中油的濃度進(jìn)行預(yù)測,并對比相同條件下GA、MCUVE、VCPA的建模結(jié)果。結(jié)果表明,AWVCPA可以取得更高的建模精度和預(yù)測精度。
2實(shí)驗(yàn)部分
21數(shù)據(jù)來源
211啤酒數(shù)據(jù)本研究應(yīng)用的啤酒樣本近紅外光譜數(shù)據(jù)來源于文獻(xiàn)[22], 數(shù)據(jù)包含60個樣本,每個樣本的近紅外光譜波長分布在1100~2250 nm,光譜間隔為2 nm,運(yùn)用KennardStone(KS)分類法選取其中的40個樣本的近紅外光譜數(shù)據(jù)和化學(xué)值數(shù)據(jù)作為校正集建立啤酒中酵母濃度的預(yù)測模型,剩余的20個樣本的近紅外光譜數(shù)據(jù)和化學(xué)值數(shù)據(jù)作為預(yù)測集檢驗(yàn)?zāi)P偷目尚行?,啤酒的近紅外光譜圖如圖1所示。
212玉米數(shù)據(jù)玉米樣本數(shù)據(jù)來源:http://wwweigenvectorcom/data/Corn/indexhtml。玉米近紅外光譜數(shù)據(jù)由3種不同的近紅外光譜儀(M5、MP5、MP6)測量得到,由于每種光譜儀的工作原理不同,
所以通過不同光譜儀所得到的近紅外光譜數(shù)據(jù)也不同,本研究應(yīng)用的數(shù)據(jù)是通過M5近紅外光譜儀測量得到的80個玉米近紅外光譜數(shù)據(jù)。每個玉米樣本的近紅外光譜波長分布在1100~2498 nm,運(yùn)用近紅外光譜儀測試每個玉米樣本的近紅外光譜,并用化學(xué)方法測試每個樣本中油濃度的化學(xué)值。運(yùn)用KS方法選取其中60個樣本光譜數(shù)據(jù)和化學(xué)值數(shù)據(jù)作為校正集建立預(yù)測模型,將剩余的20個樣本的光譜數(shù)據(jù)和化學(xué)值數(shù)據(jù)作為預(yù)測集檢驗(yàn)?zāi)P偷目尚行?,玉米近紅外光譜圖如圖2所示。
22模型評價及光譜預(yù)處理
221模型評價參數(shù)模型評價參數(shù)的作用是評價通過校正集樣本建立的預(yù)測模型可靠性。在近紅外光譜多元校正建模過程中,經(jīng)常采用的模型評價參數(shù)為預(yù)測殘差平方和、交互驗(yàn)證均方根誤差、預(yù)測均方根誤差、預(yù)測值與實(shí)際值之間的相關(guān)系數(shù)等,本研究采用的模型評價參數(shù)分別是建模均方根誤差(RMSEC)和預(yù)測均方根誤差(RMSEP)。
222光譜預(yù)處理對于待測組分的近紅外光譜的吸收差異不大的情況,很難直接確定特征波長。采集光譜數(shù)據(jù)時,會伴有基線漂移、樣品背景干擾、雜散光等噪聲信息,影響近紅外光譜與實(shí)際化學(xué)值之間的相關(guān)性,進(jìn)而影響預(yù)測模型的可靠性,所以在光譜建模之前需對原始光譜進(jìn)行預(yù)處理,常見的光譜預(yù)處理方法有均值中心化、平滑去噪法、多元散射校正和小波變換等,由于AWVCPA是在VCPA的基礎(chǔ)上對VCPA的優(yōu)化,所以為了在相同的條件下(光譜數(shù)據(jù)、光譜預(yù)處理方法和光譜建模方法全部一致)證明AWVCPA相對VCPA的優(yōu)越性,本研究應(yīng)用的預(yù)處理方法與VCPA運(yùn)用的預(yù)處理方法[14]相同,均采用均值中心化預(yù)處理方法。均值中心化算法經(jīng)常被用于增加樣品光譜之間的差異,進(jìn)而提高預(yù)測模型的穩(wěn)健性和預(yù)測能力。這種光譜預(yù)處理方法是將原始光譜減去校正集的平均光譜。endprint
首先計(jì)算校正集樣本的平均光譜:
P=ni=1Xi,pn(1)
式中, n為校正樣品數(shù), p=1,2,3,……m為波長點(diǎn)。對未知的樣品光譜X(1×m)通過公式(2)求得均值中心化處理后的Xcentered:
Xcentered=X-(2)
3AWVCPA的原理
AWVCPA算法是一種基于MPA思想的變量選擇方法。AWVCPA和VCPA的建模思路相似,均基于MPA思想的建模思路:樣品或變量采樣、變量重要性評價和無信息變量、干擾變量刪除,AWVCPA和VCPA在變量采樣環(huán)節(jié)都應(yīng)用二進(jìn)制矩陣采樣(BMS)采樣策略,在無信息變量和干擾變量刪除環(huán)節(jié)均應(yīng)用指數(shù)衰減函數(shù)(EDF)刪除方法,但是在評價變量重要性環(huán)節(jié),VCPA只采用了優(yōu)秀子集中變量出現(xiàn)頻率這種信息向量作為變量重要性的評價標(biāo)準(zhǔn),而AWVCPA采用了優(yōu)秀子集中變量出現(xiàn)頻率和變量偏最小二乘回歸系數(shù)兩種信息向量加權(quán)的方式判斷變量重要性,所以相比VCPA,AWVCPA多考慮了優(yōu)秀子集中偏最小二乘回歸系數(shù)對變量重要性判斷的影響(AWVCPA在VCPA的原理上多了下述步驟④、⑤和⑥),因此理論上AWVCPA有更高的穩(wěn)定性,其步驟如下: ① BMS從變量空間中采樣N次,得到N個變量子集,每個變量子集都含有一組隨機(jī)變量; ②運(yùn)用偏最小二乘法(PLS)計(jì)算每個子集的RMSECV,并選取RMSECV最小的前σ×N個變量子集作為優(yōu)秀子集; ③統(tǒng)計(jì)優(yōu)秀子集中每個變量出現(xiàn)次數(shù),并進(jìn)行歸一化處理,變量出現(xiàn)頻率的大小與變量重要性成正比,進(jìn)而得到變量重要性判據(jù),稱為第一類信息向量; ④計(jì)算優(yōu)秀子集中每個變量在每組變量組合中的偏最小二乘回歸系數(shù)的絕對值,并進(jìn)行歸一化處理,最后對優(yōu)秀子集中每個變量在不同組變量組合中的歸一化回歸系數(shù)絕對值求和,變量歸一化回歸系數(shù)絕對值之和與變量的重要性成正比,進(jìn)而得到又一個變量重要性的判據(jù),稱為第二類信息向量。 ⑤根據(jù)每種信息向量的RMSECV設(shè)置第一類信息向量和第二類信息向量的權(quán)重,權(quán)重的計(jì)算公式如下:
w1=1[](RMSECV1)2×11(RMSECV1)2+1(RMSECV2)2(3)
w2=1[](RMSECV2)2×11(RMSECV1)2+1(RMSECV2)2(4)
其中, w1為第一類信息向量的權(quán)重; w2為第二類信息向量的權(quán)重; RMSECV1為第一類信息向量的交互檢驗(yàn)均方根誤差; RMSECV2為第二類信息向量的交互檢驗(yàn)均方根誤差;⑥根據(jù)第一類信息向量和第二類信息向量的權(quán)重,計(jì)算出優(yōu)秀子集中每個變量的貢獻(xiàn)值,計(jì)算公式如下:
Yi=y1i×w1+y2i×w2(5)
其中, Yi為第i個變量貢獻(xiàn)值,其值越大則該變量越重要; y1i為第i個變量在以第一類信息向量為判定標(biāo)準(zhǔn)下的變量貢獻(xiàn)值; y2i為第i個變量在以第二類信息向量為判定標(biāo)準(zhǔn)下的變量貢獻(xiàn)值; ⑦運(yùn)用EDF刪除那些貢獻(xiàn)值較小的變量,保留其貢獻(xiàn)值較大的變量,得到一個新的變量空間R。⑧變量空間R中的變量繼續(xù)通過①~⑦進(jìn)行變量篩選,此過程迭代K次,最終剩下L個變量,并計(jì)算出這L個變量之間所有變量組合的RMSECV,其值最小的變量組合為最終波長篩選結(jié)果。光譜變量保留率的計(jì)算公式如下:
rk=e
Symbolm@@ θ×k(6)
其中, rk為EDF運(yùn)行k次時變量保留率,例如,當(dāng)k=0時,全光譜的P個變量均被用于建模,所以變量的保留率r0=1。當(dāng)EDF運(yùn)行k次后,剩余Pk個變量那么變量的保留率rk=Pk/P。θ為曲線控制參數(shù),它與EDF的執(zhí)行次數(shù)有關(guān),EDF執(zhí)行的次數(shù)越多, θ值越小。曲線控制參數(shù)的計(jì)算公式為:
θ=ln(P/L)K(7)
其中,K為EDF運(yùn)行次數(shù),參數(shù)設(shè)置范圍50~200; P為全光譜變量數(shù); L為EDF運(yùn)行結(jié)束之后剩余變量數(shù),參數(shù)設(shè)置范圍13、14、15。
4結(jié)果與討論
41控制參數(shù)設(shè)置
由于AWVCPA是通過MPA結(jié)合兩種IVs加權(quán)的思想對VCPA進(jìn)行的優(yōu)化,為了更好地體現(xiàn)AWVCPA相比VCPA的優(yōu)越性,控制參數(shù)設(shè)置應(yīng)與VCPA一致,GA、MCUVE、VCPA的控制參數(shù)設(shè)置見參考文獻(xiàn)[12],如表1、表2和表3所示。
42基于AWVCPA的特征變量提取
以啤酒數(shù)據(jù)為例:運(yùn)用BMS采樣策略從啤酒近紅外光譜變量空間中采樣1000次,得到1000組不同的變量組合,運(yùn)用PLS分別對這1000組變量組合進(jìn)行光譜建模,計(jì)算每組變量組合的RMSECV,保留RMSECV最小的前10%組的變量組合,進(jìn)而得到了100個優(yōu)秀子集。記錄這100個優(yōu)秀子集中每個光譜變量出現(xiàn)的次數(shù)并進(jìn)行歸一化處理得到每個光譜變量的Fre。記錄每個光譜變量在不同組變量組合中的偏最小二乘回歸系數(shù)并進(jìn)行歸一化處理,最后對優(yōu)秀子集中相同變量的歸一化偏最小二乘回歸系數(shù)的絕對值進(jìn)行求和得到每個光譜變量的Reg。通過公式(3)和(4)分別設(shè)置這兩類信息向量的權(quán)重,并根據(jù)公式(5)計(jì)算出優(yōu)秀子集中每個光譜變量的貢獻(xiàn)值。運(yùn)用EDF方法刪除那些貢獻(xiàn)值較小的光譜變量,并對所保留的變量繼續(xù)做BMS采樣、信息向量加權(quán)和EDF刪除。此過程重復(fù)50次,最終只剩下14個光譜變量,運(yùn)用PLS計(jì)算這14個光譜變量之間所有變量組合的RMSECV,其值最小的變量組合為通過AWVCPA方法選取的特征變量。為了避免算法運(yùn)行中算法隨機(jī)性對變量選擇結(jié)果的影響,將AWVCPA運(yùn)行50次,啤酒數(shù)據(jù)中每個變量被選取的頻率如圖3A所示,玉米數(shù)據(jù)中每個變量被選取的頻率如圖3B所示。
圖3AWVCPA運(yùn)行50次后,每個啤酒光譜變量被選取的頻率(A)和每個玉米光譜變量被選取的頻率(B)
Fig3Frequency of beer of selected variables (A) and frequency of corn (B) of selected variables within 50 times by automatic weighting variable combination population analysis(AWVCPA)endprint
從圖3A可見,啤酒近紅外光譜中選取的特征變量主要分布在1150~1350 nm之間,這個區(qū)域與OH鍵伸縮振動第一倍頻區(qū)相一致。這正與本研究感興趣的化學(xué)性質(zhì)相一致,這也說明了AWVCPA較好的選擇特性。
從圖3B中可見,玉米近紅外光譜中選取的特征變量主要分布在1700~1750 nm、2250~2350 nm之間,這個區(qū)域與CH伸縮的第二倍頻區(qū)域和CH振動的第一倍頻區(qū)域相一致,這進(jìn)一步表明了AWVCPA的選擇特性。
43不同建模方法結(jié)果對比
將均值中心化降噪后的啤酒、玉米近紅外光譜數(shù)據(jù)在相同條件下分別采用4變量選擇方法(GA、MCUVE、VCPA、AWVCPA)進(jìn)行特征波長選取,利用PLS建立預(yù)測模型由于每種變量選擇方法在運(yùn)行過程中都帶有一定隨機(jī)性,進(jìn)而影響預(yù)測模型的可靠性,所以將以上每種建模方法運(yùn)行50次,最后對每次運(yùn)行的建模結(jié)果進(jìn)行統(tǒng)計(jì),不同建模方法對啤酒中酵母濃度的預(yù)測結(jié)果如表4所示(除AWVCPAPLS的計(jì)算結(jié)果外,其它結(jié)果和主成分參數(shù)設(shè)定都來源于文獻(xiàn)[14]),不同建模方法對玉米中油濃度的預(yù)測結(jié)果如表5所示。對啤酒中酵母濃度的預(yù)測,相比全光譜PLS模型,AWVCPAPLS模型的RMSEP均值由05348下降到01457,預(yù)測精度提高了727%;對玉米含油量的預(yù)測,相比全光譜PLS模型,AWVCPAPLS模型的RMSEP均值由0 0702下降到了0 0248,預(yù)測精度提高了647%。
注:RMSEC和RMSEC分別是建模均方根誤差及其平均值;RMSEP和RMSEP分別是預(yù)測均方根誤差及其平均值。
Note: RMSEC and RMSEC are: Root mean square error of calibration and the average of RMSEC; RMSEP and RMSEP are Root mean square error of prediction and the average of RMSEP [BG)W][HT5][HJ]
從表4可見,所有基于變量選擇的建模結(jié)果都優(yōu)于全光譜建模,其原因是任何為建模所收集的樣本數(shù)總不足以表達(dá)總體信息,因此,基于全光譜的PLS建模很容易導(dǎo)致建模的過擬合或不準(zhǔn)確。對比AWVCPAPLS與GAPLS、MCUVEPLS可知,RMSEC分別由00844、01049下降到了00655, RMSEP分別由01765、02140下降到了01457,預(yù)測精度分別提升了175%、32%,這是因?yàn)锳WVCPA運(yùn)用的BMS變量采樣策略考慮到了變量組合效應(yīng),并且能保證每個變量具有相同的被采樣概率,該策略彌補(bǔ)了蒙特長洛采樣方法(MCS)的不足,實(shí)現(xiàn)了對更多的不同變量組合的篩選。對比VCPAPLS和AWVCPAPLS可知,RMSEC雖然由00626提升到了00655,但是RMSEP由01546下降到了01457,預(yù)測精度提升了57%,這表明了AWVCPA采用的兩種IVs加權(quán)的方式判斷變量的重要性,考慮了兩種IVs對預(yù)測模型的影響,彌補(bǔ)了VCPA只采用一種IVs作為變量重要性判斷依據(jù)的缺陷,避免了模型過擬合,提升了預(yù)測模型的穩(wěn)定性和可靠性。
從表5可見,基于所有變量選擇方法建立預(yù)測模型的預(yù)測精度都要強(qiáng)于全光譜建模,進(jìn)一步表明了在建立預(yù)測模型之前,對光譜變量進(jìn)行變量選擇具有重要的意義,相比所用的4種變量選擇方法的統(tǒng)計(jì)結(jié)果可知,AWVCPAPLS建模精度和預(yù)測精度都是最高的,表明AWVCPA采用的兩種IVs加權(quán)的方式判斷變量的重要性,能夠彌補(bǔ)VCPA等變量選擇方法只采用一種IVs作為變量重要性判斷依據(jù)的缺陷。
5結(jié) 論
本研究將Fre和Reg兩種IVs加權(quán)思想與MPA思想相結(jié)合提出了AWVCPA算法,以啤酒數(shù)據(jù)和玉米數(shù)據(jù)為例,在相同條件下對比基于GA、MCUVE和VCPA的變量選擇方法建模結(jié)果,結(jié)果表明,無論是對啤酒中酵母濃度的預(yù)測還是對玉米中油濃度的預(yù)測,AWVCPA都取得了較高的預(yù)測精度,研究表明,AWVCPA采用的兩種IVs加權(quán)判斷變量重要性的策略彌補(bǔ)了VCPA等變量選擇方法只采用一種IVs判斷變量重要性的缺陷。
References
1YUN YongHuan, DENG BaiChuan, LIANG YiZheng Chinese J Anal Chem, 2015, 43(11): 1638-1647
云永歡, 鄧百川, 梁逸曾 分析化學(xué), 2015, 43(11): 1638-1647
2JIN ZhaoXi, ZHANG XiuJuan, LUO FuYi, AN Dong, ZHAO ShengYi, RAN Hang, YAN YanLu Spectroscopy and Spectral Analysis, 2016, 36(12): 3920-3925
靳召晰, 張秀娟, 羅付義, 安 冬, 趙盛毅, 冉 航, 嚴(yán)衍祿 光譜學(xué)與光譜分析, 2016, 36(12): 3920-3925
3LIANG YiZeng, XU QingSong Instrumental Analysis of Complex Systems——White, Gray and Black Analytical Systems and Their Multivariate Methods Beijing: Chemical Industry Press, 2012: 494-502
梁逸曾, 徐青松 復(fù)雜體系儀器分析——白、灰、黑分析體系及其多變量解析方法 北京:化學(xué)工業(yè)出版社, 2012: 494-502
4LI ZhengFeng, XU GuangJin, WANG JiaJun, DU GuoRong, CAI WenSheng, SHAO XueGuang Chinese J Anal Chem, 2016, 44(2): 305-309endprint
李正風(fēng), 徐廣晉, 王家俊, 杜國榮, 蔡文生, 邵學(xué)廣 分析化學(xué), 2016, 44(2): 305-309
5Cai W S, Li Y K, Shao X GChemometr Intell Lab Syst, 2008, 90(2): 188-194
6Yang J, Honavar V Springer, US, 1998, 111(1): 117-122
7Leardi R J Chemometri, 2000, 14: 643-655
8Leardi R J Chemometr, 2001, 15(7) : 559-569
9Yun Y H, Cao D S, Tan L M, Yan J, Ren D B, Xu Q S, Yu L, Liang Y ZChemometr Intell Lab Syst, 2014, 130: 76-83
10ZHU FengLe, HE Yong, SHAO YongNi Spectroscopy and Spectral Analysis, 2015, 35(1): 113-117
朱逢樂, 何 勇, 邵詠妮 光譜學(xué)與光譜分析, 2015, 35(1): 113-117
11Li H D, Li Y Z, Xu Q S, Cao D S Anal Chim Acta, 2009, 648(1): 77-84
12Zheng K Y, Li Q Q, Wang J J, Geng J P, Cao P, Sui T, Wang X, Du Y PChemometr Intell Lab Syst, 2012, 112: 48-54
13Yun Y H, Wang W T, Tan L M, Liang Y Z, Li H D, Cao D S, Lu H M, Xu Q S Anal Chim Acta, 2014, 807: 36-45
14Yun Y H, Wang W T, Deng B C, Lai G B, Liu X B, Ren D B, Liang Y Z, Fan W, Xu Q SAnal Chim Acta, 2015, 862: 14-23
15Deng B C, Yun Y H, Liang Y Z, Yi L ZAnalyst, 2014, 139 (19): 4836-4845
16Teofilo R F, Martins J P A, Ferreira M M C J Chemometr, 2009, 23(12): 32-48
17Gosselin R, Rodrigue D, Duchesne C Chemometr Intell Lab Syst, 2010, 100(1): 12-21
18Ferre J, Faber N M Chemometr Intell Lab Syst, 2003, 69(1): 123-136
19Brown P J J Chemometr, 1992, 6(3): 151-161
20Shao X G, Bian X H, Liu J J, Zhang M, Cai W SAnal Methods, 2010, 2(11): 1662-1666
21Li H D, Liang Y Z, Xu Q S, Cao D SJ Chemometr, 2010, 24(78): 418-423
22Norgaard L, Saudland A, Wagner J, Nielsen J P, Munck L, Engelsen S B Appl Spectrosc, 2000, 54(3): 413-419
AbstractNearinfrared spectroscopy (NIR) is widely used in the area of food quantitative and qualitative analysis Variable selection technique is a critical step of the spectrum modeling with the development of chemometrics In this study, a novel variable selection strategy, automatic weighting variable combination population analysis (AWVCPA), was proposed Firstly, binary matrix sampling (BMS) strategy that gives each variable the same chance to be selected and generates different variable combinations, was used to produce a population of subsets to construct a population of submodels Then, the variable frequency (Fre) and partial least squares regression (Reg), which were two kinds of information vector (IVs) were weighted to obtain the value of the contribution of each spectral variables, the influence of two IVs of Rre and Reg was considered to each spectral variable Finally, it used the exponentially decreasing function (EDF) to remove the low contribution wavelengths so as to select the characteristic variable In the case of near infrared spectrum of beer and corn, the prediction model based on partial least squares (PLS) was established Compared with other variable selection methods, the research showed that AWVCPA was the best variable selection strategy in the same situation It had 727% improvement compared AWVCPAPLS with PLS and the predicted root mean square error (RMSEP) decreased from 05348 to 01457 on beer dataset It had 647% improvement compared AWVCPAPLS with PLS and the RMSEP decreased from 00702 to 00248 on corn dataset
KeywordsNear infrared spectroscopy; Chemometrics; Variable selection; Automatic weighting variable combination population analysis; Information vectorendprint