羅逸平,肖翠娥,傅建輝
高維最小二乘投影算法在NIR中的應(yīng)用*
羅逸平,肖翠娥,傅建輝
(湖南城市學(xué)院 理學(xué)院,湖南 益陽(yáng) 413000)
針對(duì)高維復(fù)雜的近紅外光譜(NIR)數(shù)據(jù),提出了一種新的基于高維最小二乘投影的變量篩選方法(HOLPPLS)。首先計(jì)算高維最小二乘投影系數(shù)并對(duì)系數(shù)的絕對(duì)值進(jìn)行排序,系數(shù)的絕對(duì)值越大,對(duì)應(yīng)的變量就越重要;然后結(jié)合PLS進(jìn)行變量篩選。HOLPPLS是結(jié)合了高維最小二乘投影和PLS的向前變量選擇算法。實(shí)際數(shù)據(jù)集的實(shí)驗(yàn)分析表明,HOLPPLS能有效提高模型的預(yù)測(cè)性能。
高維最小二乘投影;偏最小二乘;NIR;變量選擇
針對(duì)復(fù)雜的近紅外光譜數(shù)據(jù)含有大量的冗余信息,同時(shí)具有很高的共線性[1],提出了一種新的基于高維最小二乘投影的偏最小二乘算法(HOLPPLS)。
高維最小二乘投影理論由WANG等2016年提出,他們指出在沒有強(qiáng)相關(guān)假設(shè)的條件下能夠給出可靠的變量選擇,計(jì)算復(fù)雜度較低[2]。
偏最小二乘(Partial Least Squares,PLS)算法由WOLD提出[3],已經(jīng)成為近紅外光譜數(shù)據(jù)分析的最流行的方法之一。HOLPPLS算法結(jié)合了距離相關(guān)和PLS各自的優(yōu)勢(shì),實(shí)際的光譜數(shù)據(jù)集的實(shí)驗(yàn)和分析表明,與常用的SRPLS算法比較,HOLPPLS方法的預(yù)測(cè)性能有明顯改進(jìn)。
PLSR是一種新型的多元統(tǒng)計(jì)數(shù)據(jù)分析方法,能夠有效地解決多維共線性問題,它已廣泛地應(yīng)用在近紅外光譜(NIR)分析中。
設(shè)為和的線性組合,表示得分矩陣;為組合系數(shù)向量;為對(duì)最小二乘回歸系數(shù)向量。于是有下列公式:
=
=+=+=+(1)
式(1)中:為隨機(jī)誤差向量;==[1,2,…,p]t為維的系數(shù)向量。
設(shè)光譜數(shù)據(jù)包個(gè)樣本,個(gè)變量,令={1,2,…,p},j=(1j,2j,…,nj)T(=1,2,…,)。是包含感興趣的屬性的維列向量。表示向量或矩陣的轉(zhuǎn)置。
在多元回歸分析中,經(jīng)??紤]線性模型=+,=(1,2,…,p)T是回歸系數(shù)向量。高維最小二乘投影方法由XIANG等2016年提出,能夠有效地克服利用相關(guān)性大小來選擇變量的一些不足。高維最小二乘投影方法關(guān)系數(shù)計(jì)算公式為=T(T)-1。有關(guān)高維最小二乘投影方法的理論請(qǐng)參閱文獻(xiàn)[2]。值得注意的是,高維最小二乘投影篩選變量利用了中分量的大小排序,這一思想與使用同因變量的相關(guān)性大小來選擇變量是一致的。
光譜數(shù)據(jù)往往包含噪聲、背景等無用信息。通常使用的PLS方法在建模時(shí)包含了所有的變量,這些可能會(huì)降低模型的預(yù)測(cè)精度。結(jié)合高維最小二乘投影和PLS的優(yōu)點(diǎn),提出了一種新變量選擇方法HOLPPLS。
HOLPPLS算法總結(jié)如下:①光譜數(shù)據(jù)矩陣和被標(biāo)準(zhǔn)化。令={1,2,…,p}表示整個(gè)的變量集。②計(jì)算高維最小二乘投影系數(shù),依次挑選系數(shù)絕對(duì)值最大對(duì)應(yīng)的一個(gè)變量,建立PLSR模型,然后記錄RMSE。這樣得到個(gè)PLSR模型和個(gè)RMSE。③選擇個(gè)RMSE值中最小的那個(gè)對(duì)應(yīng)的變量集,然后在這個(gè)變量集上建立最后的PLS回歸模型。
選擇一個(gè)實(shí)際的近紅外光Gasoline數(shù)據(jù)集[4]來評(píng)估HOLPPLS算法的性能。作為參考標(biāo)準(zhǔn),SRPLS(selectivity ratio pls)被用來作比較。
Gasoline數(shù)據(jù)是另一個(gè)近紅外光譜數(shù)據(jù)集,它包含60個(gè)樣本,近紅外譜根據(jù)漫反射度的函數(shù)log(1/R)從900 nm 到1 700 nm 中并以in 2 nm 為間隔測(cè)量出來的,于是一共有401個(gè)變量或波長(zhǎng)(wavelengths)。60個(gè)樣本被隨機(jī)地分成訓(xùn)練集(train set,35)、優(yōu)化集(optimization set,15)和測(cè)試集(test set,15)。
數(shù)據(jù)集Gasoline的預(yù)測(cè)結(jié)果如表1所示。表1描述了Gasoline預(yù)測(cè)的結(jié)果。HOLPPLS方法比SRPLS獲得了更好的預(yù)測(cè)精度,選擇的變量數(shù)也更少。
表1 數(shù)據(jù)集Gasoline的預(yù)測(cè)結(jié)果
MethodsnLVnVarRMSE_OPTRMSEP_TESTThreshold SRPLS102610.1010.3430.012 HOLPPLS81080.0940.3190.036
HOLPPLS和SRPLS選擇的變量與波長(zhǎng)區(qū)間如圖1所示。這些結(jié)果說明采用高維最小二乘投影系數(shù)篩選變量能夠改進(jìn)PLS模型的預(yù)測(cè)性能。HOLPPLS算法是基于R語(yǔ)言(版本3.5.3)編寫的。
利用近來提出的高維最小二乘投影方法,結(jié)合PLS的優(yōu)點(diǎn),提出了一種新的變量篩選方法HOLPPLS算法。
數(shù)據(jù)實(shí)驗(yàn)表明HOLPPLS算法可以提高變量選擇和模型的預(yù)測(cè)性能。
圖1 SRPLS和HOLPPLS選擇的波長(zhǎng)變量
[1]LIANG Y Z,WU H L,YU R Q.Handbook of analytical chemistry 10 chemmometrics[M].3rd ed.Beijing:Chemical Industry Press,2016.
[2]XIANG Y W,CHEN L L.High-dimensional ordinary least-squares projection for screening variables[J].Journal of the Royal Statistical Society B,2016(78):589-611.
[3]WOLD S,ERIKSSON L.PLS-regression:a basic tool of chemometrics[J].Chemometrics and Intelligent Laboratory Systems,2001(58):109-130.
[4]ANDERSEN C M.Variable selection in regression-a tutorial[J].J Chemometr,2011(24):728-737.
O657.33
A
10.15913/j.cnki.kjycx.2019.18.037
2095-6835(2019)18-0092-02
湖南省教育廳項(xiàng)目“基于流形學(xué)習(xí)的統(tǒng)計(jì)建模方法在高維譜數(shù)據(jù)中的應(yīng)用研究”(編號(hào):16C0295)
羅逸平,男,湖南益陽(yáng)人,碩士,講師,主要從事統(tǒng)計(jì)理論、數(shù)據(jù)分析等方面的工作。
〔編輯:嚴(yán)麗琴〕