王玉喜,賈振紅*,楊 杰,Nikola K Kasabov
1. 新疆大學信息科學與工程學院, 新疆 烏魯木齊 830046 2. 上海交通大學圖像處理與模式識別研究所,上海 200240 3. Knowledge Engineering and Discovery Research Institute, Auckland University of Technology, Auckland 1020, New Zealand
近幾年來,近紅外光譜(NIR)分析在石化、制藥、環(huán)境、臨床、農(nóng)業(yè)、食品和生物醫(yī)學等領域得到了廣泛的應用; 有時,不同樣品的光譜包含的信息非常相近,變量提取困難。 靈敏、快速和準確的提取相關變量來預測樣品的化學成分是化學計量學的重要內(nèi)容。 一般來說,近紅外光譜技術與多變量技術結合用于對相關物質(zhì)的定性或定量分析。 在光譜化學計量學中通常遇到的是具有大量波長變量和相對較少樣本的光譜數(shù)據(jù)情況,在這種情況下建模具有過度擬合的高風險,并導致多變量校準模型不良或低效的預測結果。 多變量分析中的變量選擇是一個非常重要的步驟,因為消除無關或無信息變量和降低數(shù)據(jù)維度不僅可以簡化校準建模,并在準確性和魯棒性方面也能改進預測結果。
鑒于變量選擇帶來的益處,基于不同策略的變量選擇方法已被大量提出。 這不僅包括傳統(tǒng)經(jīng)典的方法,如前向選擇和后向消除[1]; 懲罰性方法,如最小絕對收縮和選擇算子(LASSO)[2],彈性網(wǎng)和最小角度回歸(LARS)[3-4]; 智能學習算法,如遺傳算法(GA)[5],蟻群優(yōu)化(ACO)[6]和粒子群優(yōu)化(PSO)[7]。 還有一些基于不同的變量排列標準的方法,如回歸系數(shù)[8],投影中的變量重要性(VIP)和選擇性比率(SR)[9],蒙特卡羅無信息消除(MC-UVE)[10]和子窗口置換分析(SPA)[11]。 隨著模型群體分析(MPA)思想的發(fā)展,在此基礎上提出了一些新的算法如競爭自適應重加權采樣(CARS)[12],變量迭代空間收縮法(VISSA)[13],搜索空間的交替通縮和膨脹法(ADISS)[14],自加權變量組合集群分析法( AWVCPA)[15], 變量組合群體分析(VCPA)[16],自舉軟收縮法(BOSS)[17]等。
本算法繼續(xù)了MPA(模型集群分析)策略算法的優(yōu)點,首先從大量的子模型中提取有用信息,避免單個模型的結果或參數(shù)不可靠性。 其次保留變量間的協(xié)同與組合效應,在隨機采樣優(yōu)化中產(chǎn)生隨機變量的組合。 并通過收縮策略逐步消除無關變量,保留信息變量。 同時還規(guī)避掉了此策略算法需要大量的迭代和循環(huán)、算法效率低、收斂速度慢的缺點。 本算法將時間效率和變量選擇效果考慮在內(nèi),即降低時間成本,同時能夠保證選擇出近紅外光譜中的信息變量,消除數(shù)據(jù)集變量中的無信息和干擾變量,增加光譜模型的可靠性與穩(wěn)定性。 還考慮了關鍵變量以回歸系數(shù)絕對值定義的問題,MPA策略下的算法大部分以回歸系數(shù)絕對值作為變量重要性的依據(jù),以采樣技術(如二進制重采樣)通過收縮策略逐步消除無關變量,由于回歸系數(shù)的絕對值并不總是反映變量重要性的真實信息,會受到噪聲等諸多因素的影響[18],從而會對變量選擇算法造成不良影響,而以SR(選擇比率)得分值定義的重要變量會更有優(yōu)勢,可以消除噪聲諸多因素對光譜數(shù)據(jù)的影響。 啤酒酵母底物數(shù)據(jù)集在采集光譜時在1 100~2 500 nm處存在噪聲,本算法可以消除噪聲的影響,即采用選擇比率可以定位到信息變量區(qū)域,減弱噪聲因素和無關變量對變量選擇算法的影響,減少噪聲和無關變量被選入關鍵變量的可能。
1.1.1 啤酒數(shù)據(jù)集
啤酒近紅外光譜數(shù)據(jù)集[19]是使用NIR Systems Inc.收集25 ℃下的分散近紅外數(shù)據(jù)(包括視覺區(qū)域)。 并以2 nm的間隔在400~2 250 nm范圍內(nèi)收集。 對于該研究,選擇了NIR區(qū)域1 100~2 250 nm(576個數(shù)據(jù)點)。 原始提取物濃度表明酵母發(fā)酵成酒精的底物被認為是研究感興趣的化學性質(zhì),并用化學方法測量其濃度。 通過對提取值進行分類,運用Kennard-Stone分類法選取其中的40個樣本的近紅外光譜數(shù)據(jù)和化學值數(shù)據(jù)作為校正預測模型集,剩余的20個樣本的近紅外光譜數(shù)據(jù)和化學值數(shù)據(jù)作為預測集檢驗模型。
1.1.2 小麥蛋白數(shù)據(jù)集
圖1 (a)啤酒光譜; (b)小麥蛋白光譜
假設大小為n×p的數(shù)據(jù)矩陣X包含行中n樣本和列中的p變量,并且大小為n×1的向量y表示所測量的感興趣屬性。 在建立PLS模型時,X和y都以均值中心化處理。
模型評價參數(shù)的作用是評價通過校正集樣本建立的預測模型可靠性。 在近紅外光譜多元校正建模過程中,由相關系數(shù)Q2、預測均方根誤差(RMSEP)和交叉驗證均方根誤差(RMSECV)對模型評價。 模型相關系數(shù)Q2越高,即越接近1越好。 RMSECV和RMSEP越小,即越接近0模型預測能力越強。
使用的是一臺通用聯(lián)想計算機,內(nèi)核為i5 3.2 GHz CPU,內(nèi)存為4g,操作系統(tǒng)為Microsoft Windows 7。 所有計算均在MATLAB 2016a中進行。 數(shù)據(jù)可視化處理用Origin2016。
將功能指數(shù)遞減函數(shù)(EDF)的迭代次數(shù)和蒙特卡羅采樣(MCS)次數(shù)設置為N。 每次隨機MCS采樣的采樣比率為R。 使用上述設置,SRCMPA可以在每次迭代中分為四個步驟: (1)變量的子集使用固定選擇比率的蒙特卡羅抽樣隨機建立。 (2)計算每個變量的SR得分值,為一個p維的得分值向量,并對其值排序,然后使用EDF強制消除排列靠后面的非信息或冗余變量,以變量保留比例ri=ae-ki, 即以EDF消除ri×p數(shù)量以外的靠后變量。 (3)標準化的SR分數(shù)作為每個波長和自適應加權抽樣方法進一步消除變量的權重。 有較大權重的變量被保留的概率更大,而權重弱的變量競爭力較弱,并且在變量的群體內(nèi)逐漸被消除。 (4)N次迭代后會獲得N變量子集,并應用交叉驗證以評估每個子集。 其中交叉驗證的最小均方根誤差的子集被選為最佳子集。
蒙特卡羅抽樣是一個用于分析復雜(多元變量)問題十分有效且應用廣泛的重要統(tǒng)計工具,在每次采樣運行中,樣本和變量都分別隨固定數(shù)量隨機選擇。 MCS在樣本空間和校準集的可變空間中實現(xiàn),以此獲得若干個子數(shù)據(jù)集,并利用PLS等一些回歸方法在每個子數(shù)據(jù)集建立子模型,進而形成模型空間。 利用統(tǒng)計分析方法可對每個子模型輸出參數(shù)分析,來評價每個子數(shù)據(jù)集感興趣的未知參數(shù)。
模型解釋是偏最小二乘法(PLS)的大多數(shù)應用中的重要任務。 從作為潛在回歸方法的性質(zhì)看,偏最小二乘回歸提供了一種多對多線性回歸建模的方法,能夠處理具有嚴重多重相關性高維度數(shù)據(jù)。 然而,使用潛在變量也會給模型解釋帶來困難。 這種困難是由于PLS構造的潛在變量不僅是為了最大化數(shù)據(jù)矩陣X和響應y的相關性,而且還同時嘗試X解釋方差的最大化。 因此我們無法使用諸如權重和負荷之類的模型參數(shù)來直接解釋模型。 尤其是在受多種變異來源影響的分析數(shù)據(jù)中,當主要變異源與Y無關時,所解釋的X方差的最大化可能會將無關信息帶入PLS模型。 因此基于這些參數(shù)對PLS模型和變量重要性解釋并不容易。
2.2.1 回歸系數(shù)
對于回歸系數(shù)(Beta)重要變量的選擇,直接的策略是量化回歸系數(shù)周圍的置信區(qū)間,但在PLS線性模型下,響應向量y依賴其正交投影到由X的列向量所生成的子空間上的投影矩陣,即帽子矩陣。 PLS回歸系數(shù)也沒有用于不確定性的封閉分析形式。 因此,重采樣技術通常用于確定置信區(qū)間。 各種重采樣技術可用于PLS回歸系數(shù),但并沒有一種方法可以在模型中提供變量重要性的直接排序。 通常以回歸系數(shù)的絕對值作為指導,但回歸系數(shù)的絕對值并不總是反映變量重要性的真實信息,還會受到噪聲等諸多因素的影響。
另外,如果選擇跟團游,超過70歲以上老人,一般要求有可照顧老人家屬陪同,對于具體參團目的地暫時沒有限制,但建議游客選擇行程輕松、舒適,不過于勞累或疲憊的線路,此外不建議參加有較大安全風險的產(chǎn)品,例如水上項目、高風險運動類的產(chǎn)品。
2.2.2 選擇比率
關于選擇比(SR)[21],在給定PLS的回歸系數(shù)向量bpls條件下,TP分數(shù)是通過以X的行在歸一化回歸系數(shù)向量上的投影來實現(xiàn)的,tTP是與預測值成比例的。 對于載荷PTP是通過投影X的列到分數(shù)向量得到的
tTP=Xbpls/‖bpls‖
(1)
(2)
解釋和殘差方差可以通過變量矩陣X和投影(TP)分數(shù)和載荷來計算
(3)
(4)
Si, res=‖eTPi‖2,i=1, 2, …,p
(5)
由式(4)和式(5)確定選擇比被定義為對于第i個變量的解釋的方差Si, exp與每個變量的殘差方差Si, res之比
SRi=Si,exp/Si, res,i=1, 2, …,p
(6)
F檢驗定義為高辨別能力的可變區(qū)域間的邊界和非興趣區(qū)域。 為了確定哪一個變量具有高辨別能力和拒絕零假設(解釋和剩余方差是相同),其值必須超過F分布的臨界值Fcrit
SRi>Fcrit=F(α,N-2,N-3)
(7)
應用SR來重新量化X方差,以通過目標旋轉或正交濾波策略改進對變量重要性的解釋。 目的是分配與X和y之間的協(xié)方差成比例的信息,同時隔離正交無關變化。 參考文獻中提出了確定變量重要性的臨界閾值。 在SRi中評估F分布的N-2和N-3自由度。 這項工作中,選擇了F檢驗(95%)標準選擇候選目標。
圖2 啤酒光譜數(shù)據(jù)集以選擇比率和回歸系數(shù)絕對值的變量重要性圖示
Fig.2Thevariableimportanceofthebeerspectraldatasetwiththeselectionratioandtheabsolutevalueoftheregressioncoefficient
The red line represents the threshold of important variable
(a): Selectivity ratio scores;(b): Absolute value of regression coefficient
圖2中SR定義的重要變量的曲線比較平滑,干擾較少。 而回歸系數(shù)的絕對值定義的重要變量還包括了大量無關變量的存在,曲線出現(xiàn)大量的干擾變量,這會對以此為變量重要性的變量選擇算法會造成非常大影響,會大大增加無關和干擾變量被選入關鍵變量的可能性。 并且SR定義的重要變量區(qū)域與啤酒數(shù)據(jù)集酵母底物化學性質(zhì)的重要變量吻合,在啤酒光譜數(shù)據(jù)集中1 100~1 350 nm區(qū)域對應O—H拉伸鍵振動的第一倍頻和C—H拉伸鍵的第二倍頻。 它符合啤酒光譜集所要研究的感興趣的酵母底物的化學性質(zhì)。 所以SR作為變量選擇方法的重要變量定義更具有優(yōu)勢,它可以將噪聲影響剔除掉。
SR=[sr1,sr2, …,srp]T是p維SR分數(shù)向量, 其中SR向量里的值都大于臨界閾值,SR分數(shù)中第i個元素sri反映第i個波長對于y貢獻。 我們評估每個波長的重要性,將SR進行排序,排名越靠前的變量越重要。 我們在這里對于評估每個變量,還要定義歸一化的權重用于自適應抽樣來競爭選擇重要變量
(8)
另外注意的是被消除的波長的權重被強制變?yōu)榱?,并使得權重向量總是p維的。
EDF被用來模仿“物競天擇”原則。 EDF的選擇可分為兩個階段[12],第一階段被名為“快速篩選”,有很多不重要的變量會被迅速消除,對于指數(shù)遞減函數(shù)在開始階段對應的消除比率比較大,消除無信息力度比較大。 第二階段被名為“精細篩選”,隨著無信息和不重要的變量的減少,指數(shù)遞減函數(shù)對應的消除比率越來越小,且接近于0,是為了避免錯誤的消除關鍵變量。
在基于EDF的強制波長減少之后,SRCMPA中采用自適應重加權采樣(ARS)以競爭方式進一步消除波長。 采用自適應采樣進一步消除較弱權重的變量,這類似于進化論中的“適者生存”。 權重越大的變量具有較大的概率被保留,而其較弱權重的變量競爭性比較差,在變量種群會被逐漸淘汰。
基于Kennard-Stone(KS)方法將所有數(shù)據(jù)集分成校準集和獨立測試集。 KS方法旨在通過最大化每對所選樣本之間的歐幾里德距離來覆蓋多維空間。 校準集用于變量選擇和擬合優(yōu)度,獨立測試集用于驗證校準模型以進行預測。 校準集進行變量選擇時,用交叉驗證。 此外,為了評估SRCMPA的性能,我們將與優(yōu)秀方法CARS,BOSS,VISSA進行比較。 通過交叉驗證與蒙特卡羅采樣次數(shù)之間的參數(shù)優(yōu)化選擇,對于CARS和SRCMPA的蒙特卡羅采樣運行的次數(shù)都選擇為300,并且蒙特卡羅采樣比率都為0.9。 BOSS算法的二進制采樣次數(shù)為1000,優(yōu)秀子集占優(yōu)比率為0.1。 VISSA算法二進制采樣次數(shù)為5000,子集選擇比率為0.05。 對于所有方法,最大潛在變量限制為10,潛在變量的數(shù)量由10倍交叉驗證確定。 在建模之前,每個數(shù)據(jù)集將被均值中心化。 所有方法進行50次運行以獲得統(tǒng)計結果并公平地比較這些方法。
在圖3(a)中,啤酒近紅外光譜所選中的信息變量區(qū)域主要分布在1 100~1 350 nm之間,這個區(qū)域與O—H鍵伸縮振動第一倍頻區(qū)一致。 這與本研究感興趣的酵母底物的化學性質(zhì)相一致,說明本方法SRCMPA能夠很好地消除無信息或干擾變量,達到較好的選擇信息變量的目的。
在圖3(b)中小麥蛋白數(shù)據(jù)集中所選的波長變量集中在1 100~1 400 nm的區(qū)域,這部分區(qū)域屬于C—H拉伸模式的第二倍頻和O—H的拉伸模式的第一倍頻。 光譜特征和官能團的振動模式有關。 樣品中存在的有機物在NIR區(qū)域具有明顯的光譜特征,對應于幾個官能團相對強烈的組合模式的吸收強度。 本算法選擇了相關的信息區(qū)域變量,達到消除無關或無信息變量的目的,這也與我們選擇研究的小麥蛋白化學有機物的性質(zhì)相一致,說明本算法SRCMPA有很好的選擇特性。
圖3 SRCMPA運行50次后(a)啤酒光譜變量被選取的頻率和(b)小麥光譜變量被選取的頻率
Fig.3(a)Frequencyofbeerspectralvariablesselectedand(b)frequencyofwheatspectralvariablesselectedafterrunningSRCMPAfor50times
將均值中心化的啤酒和小麥近紅外光譜數(shù)據(jù)在相同條件下分別采用4變量選擇方法(CARS,VISSA,BOSS,SRCMPA)進行50次變量選擇選取特征波長,然后利用PLS建立預測模型。 對模型輸出結果平均值和標準差來說明。 表1和表2分別是啤酒中酵母濃度和小麥蛋白以不同方法建模后的結果。 本算法在啤酒數(shù)據(jù)集的運行結果,相較于全光譜PLS模型,變量個數(shù)已由567個減少到42個左右。 并且模型的RMSECV由0.622下降到0.115,RMSEP由0.823減少到了0.263左右,預測精度分別提高了81.5%和68.0%。 Q2_CV和Q2_test也分別由0.940, 0.852提高到了0.994和0.995,啤酒酵母底物數(shù)據(jù)集在1 100~2 500 nm內(nèi)采集時存在噪聲,本算法消除了噪聲的影響,使得建模效果要比其他的算法更有優(yōu)勢。 本算法在小麥蛋白數(shù)據(jù)集的運行結果,相較于全光譜PLS模型,變量個數(shù)已由175個減少到18個左右。 并且模型的RMSECV由0.607下降到0.292,RMSEP由0.519減少到了0.234左右,預測精度分別提高了51.9%和54.9%。 Q2_CV和Q2_test也分別由0.748, 0.774提高到了0.931和0.839。
表1 不同建模方法對啤酒中酵母濃度的預測結果
注: nVAR: 選擇變量數(shù); nLVS: 潛在變量數(shù); RMSECV: 交叉驗證均方根誤差; RMSEP: 預測均方根誤差; Q2_CV: 交叉驗證相關系數(shù); Q2_test: 測試集的相關系數(shù);T/s: 運行50次的平均時間; 所有的統(tǒng)計結果均為50次運行的平均值±標準差,下同
Note: nVAR: Number of variables; nLVs: Number of latent variables; RMSECV: Root-mean-square error of cross-validation; RMSEP: Root-mean-square error of prediction; Q2_CV: Coefficient of determination of cross-validation; Q2_test: Coefficient of determination of test set;T/s: Average time for 50 runs; All statistical results are the mean values±standard deviations over 50 runs, the same below
表1和表2說明所有變量選擇方法的建模結果都優(yōu)于全光譜建模,變量選擇是十分必要的,可以剔除無信息或干擾變量,消除全光譜建模時的過擬合或不可靠的問題。 對比本算法SRCMPA與CARS-PLS,VISSA-PLS,BOSS-PLS可知,本算法在建模的預測與交叉驗證的統(tǒng)計結果上,總體都有最佳的結果,并且在算法運行時間效率上也是最佳的。 可以通過節(jié)省大量的時間成本,來達到快速建模的目的,預測結果也同時得到保障。 SRCMPA-PLS在啤酒數(shù)據(jù)集的預測均方根誤差(RMSEP)0.263,比CARS-PLS,VISSA-PLS, BOSS-PLS的RMSEP都要低,預測的相關確定系數(shù)(Q2_test)0.995, 比CARS-PLS,VISSA-PLS, BOSS-PLS的都要高,凸顯了本算法的優(yōu)勢。 同樣在小麥蛋白數(shù)據(jù)集上模型預測也都有良好的結果。 VISSA-PLS和BOSS-PLS雖然可以達到選擇信息變量建模提高效果的目的,但效率低,需要非常多的時間消耗在選擇變量步驟上面。 近紅外光譜分析也要考慮到時間成本問題,快速有效的分析模型對現(xiàn)實應用十分重要。
表2 不同方法小麥蛋白的預測結果
提出了一種新的變量選擇方法SRCMPA,該算法結合了選擇比率,自適應加權采樣和模型群體分析(MPA),變量排列和指數(shù)遞減函數(shù)(EDF)競爭的方法。 CARS,VISSA和BOSS都以PLS的回歸系數(shù)作為重要信息變量思路,在啤酒和小麥蛋白兩種真實光譜的建模情況下,總體效果都不具備SRCMPA算法的優(yōu)勢。 本算法規(guī)避掉了從PLS模型以回歸系數(shù)作為提取重要信息思路的弊端,而采用新的重要變量表示方法選擇比率。 并且VISSA和BOSS算法都會在變量選擇時花費較多時間,效率比較低,而本算法同樣解決了時間效率上的問題。 證明了SRCMPA能夠消除無信息變量和進行波長選擇以構建高性能校準模型。