吳繼忠,時(shí)藝丹,黃 慧,厲小潤
(1.浙江中煙工業(yè)有限責(zé)任公司技術(shù)中心,浙江 杭州 310008;2.浙江大學(xué) 海洋學(xué)院,浙江 舟山 316000;3.浙江大學(xué) 電氣工程學(xué)院,浙江 杭州 310027)
近紅外光譜分析技術(shù)具有綠色、無損、快速等優(yōu)點(diǎn),已廣泛應(yīng)用于煙草、食品、石油化工等領(lǐng)域[1]?;诮t外光譜的回歸分析常用方法多為線性回歸算法,如多元線性回歸[2]、偏最小二乘回歸(PLSR)[3]、Lasso 回歸[4]和嶺回歸[5]等。線性回歸算法具有結(jié)構(gòu)簡單、速度快、可解釋性強(qiáng)等優(yōu)點(diǎn),但對(duì)于現(xiàn)實(shí)情景中真實(shí)關(guān)系的表達(dá)能力有限。近年來,一系列表達(dá)能力更強(qiáng)的非線性回歸算法被應(yīng)用于近紅外光譜分析。例如,王立琦等[6]通過分析豆粕組分含量與近紅外光譜的相關(guān)關(guān)系,建立了豆粕水分、蛋白質(zhì)和脂肪的廣義回歸神經(jīng)網(wǎng)絡(luò)預(yù)測模型。Zhu等[7]提出了一種基于殘差網(wǎng)絡(luò)和長短期記憶神經(jīng)網(wǎng)絡(luò)的煙草化學(xué)成分分析方法,可同時(shí)準(zhǔn)確定量分析煙葉的多種化學(xué)成分。羅智勇等[8]提出了一種基于改進(jìn)卷積自編碼網(wǎng)絡(luò)特征提取的煙葉煙堿與總糖定量分析方法?,F(xiàn)有非線性回歸算法可能存在結(jié)構(gòu)復(fù)雜、超參數(shù)敏感、過擬合等問題,因此,探索更強(qiáng)預(yù)測能力與魯棒性的近紅外光譜回歸算法仍具有重要意義。
LightGBM 是一種基于序列化的集成學(xué)習(xí)算法,具有強(qiáng)回歸預(yù)測能力,適用于挖掘復(fù)雜的非線性關(guān)系[9]。但LightGBM 需要設(shè)置合適的超參數(shù),例如葉子節(jié)點(diǎn)數(shù)量和樹的深度。常規(guī)的調(diào)參方法包括網(wǎng)格搜索、隨機(jī)搜索等,但通常運(yùn)算時(shí)間長。相比傳統(tǒng)方法,利用Optuna[10]框架可以實(shí)現(xiàn)LightGBM 超參數(shù)的快速自動(dòng)優(yōu)化。同時(shí)LightGBM 的訓(xùn)練過程易受噪聲等干擾信息的影響,生長出過深的決策樹,產(chǎn)生過擬合。堆疊自編碼器(SAE)是一個(gè)由多層稀疏約束的自編碼器組成的深度學(xué)習(xí)算法[11-12],具有簡單、高效、對(duì)前處理不敏感等優(yōu)點(diǎn),可以學(xué)習(xí)到相對(duì)于線性特征更深層抽象的非線性特征,同時(shí)抑制噪聲等干擾因素的負(fù)面影響。利用SAE 挖掘的深層特征可以降低LightGBM 過擬合的風(fēng)險(xiǎn),但SAE的網(wǎng)絡(luò)層數(shù)和各層神經(jīng)元數(shù)量會(huì)顯著影響SAE 的重構(gòu)能力。確定網(wǎng)絡(luò)層數(shù)和各層神經(jīng)元數(shù)量的常用方法包括經(jīng)驗(yàn)法則、交叉驗(yàn)證和正則化技術(shù)等,然而這些方法通常存在計(jì)算量大、效率低下、針對(duì)性弱等問題。
為解決上述方法的不足,本文提出了一種改進(jìn)的SAE結(jié)合LightGBM(iSAE-LGBM)的近紅外光譜回歸算法,通過設(shè)計(jì)遞歸式策略自適應(yīng)確定SAE 網(wǎng)絡(luò)結(jié)構(gòu),利用SAE 特征表達(dá)與消除干擾的能力,降低LightGBM 過擬合的風(fēng)險(xiǎn),并采用Optuna 框架實(shí)現(xiàn)了LightGBM 的超參數(shù)自動(dòng)優(yōu)化。該算法以包含1 911個(gè)煙草樣本4 項(xiàng)化學(xué)指標(biāo)的數(shù)據(jù)集為研究對(duì)象,并與4 種常用的近紅外光譜回歸分析算法進(jìn)行對(duì)比分析,進(jìn)行了有效性驗(yàn)證。
Futura 型8 通道連續(xù)流動(dòng)化學(xué)分析儀(法國Alliance 公司);Antaris Ⅱ近紅外光譜儀,配有TQ Analyst 軟件(美國Thermo 公司),工作參數(shù)為:光譜采集范圍12 000~4 000 cm-1,光譜分辨率8 cm-1,掃描次數(shù)64次;FED-240型干燥箱(德國Binder公司);YC-400B-03型煙草粉碎機(jī)(成都英特瑞公司)。
所用煙草樣品為2014~2019 年從中國14 個(gè)省市收集的典型復(fù)烤片煙樣品,共1 911 個(gè),每個(gè)樣品的信息包括近紅外光譜吸光度數(shù)據(jù)、產(chǎn)地以及還原糖、氯、鉀、總氮4種化學(xué)成分的含量。
將干燥后的煙葉樣品處理為煙葉粉末,置于近紅外光譜儀上進(jìn)行吸收光譜信息采集。樣品采集時(shí)入射光斑偏心,采集光譜范圍12 000~4 000 cm-1的煙葉粉末樣品近紅外光譜吸光度數(shù)據(jù)。每個(gè)煙草樣本還原糖、氯、鉀與總氮的含量(質(zhì)量分?jǐn)?shù))按照煙草行業(yè)標(biāo)準(zhǔn)測定。對(duì)于得到的煙草樣本,計(jì)算每個(gè)指標(biāo)的均值和標(biāo)準(zhǔn)差,將每個(gè)指標(biāo)距離平均值3 個(gè)標(biāo)準(zhǔn)差以外的數(shù)據(jù)作為異常值進(jìn)行剔除,處理后共得到1 911 條數(shù)據(jù)。采取多元散射校正法(MSC)對(duì)近紅外光譜數(shù)據(jù)進(jìn)行散射校正,用Savitzky-Golay(SG)平滑濾波法進(jìn)行平滑處理[13],再將處理后的數(shù)據(jù)均值中心化、標(biāo)準(zhǔn)化,以便后續(xù)分析。
光譜波段選擇的目的是從原始光譜中選擇出最具代表性的波段,以提高模型的預(yù)測性能和穩(wěn)定性,本文選擇基于梯度提升樹的變量重要性評(píng)估法[14]對(duì)原始光譜進(jìn)行波段選擇。作為一種基于機(jī)器學(xué)習(xí)的特征選擇方法,該法的主要思想是通過訓(xùn)練梯度提升樹模型,計(jì)算每個(gè)波段在模型中的重要性,并選擇重要性較高的波段。以下是基于梯度提升樹的變量重要性評(píng)估法進(jìn)行波段選擇的具體步驟:
(1)模型訓(xùn)練:將近紅外光譜數(shù)據(jù)集分為訓(xùn)練集和測試集,使用梯度提升樹模型對(duì)訓(xùn)練集進(jìn)行訓(xùn)練,并對(duì)測試集進(jìn)行預(yù)測。
(2)變量重要性評(píng)估:計(jì)算每個(gè)波段在模型中的重要性。在梯度提升樹模型中,每個(gè)決策樹都是基于某個(gè)波段進(jìn)行分裂的,因此可以通過計(jì)算每個(gè)波段在所有決策樹中被使用的次數(shù),來評(píng)估該波段的重要性。
(3)波段選擇:選擇重要性較高的波段。根據(jù)變量重要性評(píng)估的結(jié)果,選擇前N個(gè)波段作為特征集合。
iSAE-LGBM 的算法原理如圖1所示,主要包含兩個(gè)模塊,分別是結(jié)構(gòu)自適應(yīng)優(yōu)化的SAE 模塊和基于Optuna超參數(shù)自動(dòng)優(yōu)化的LightGBM 模塊。SAE模塊可以實(shí)現(xiàn)光譜矩陣強(qiáng)表征性特征的提取與噪聲等干擾因素的抑制;LightGBM 模塊可以實(shí)現(xiàn)復(fù)雜非線性關(guān)系的分析,LightGBM 的輸入為經(jīng)過SAE訓(xùn)練得到的隱藏層特征,抑制了部分無關(guān)的噪聲和干擾,降低了LightGBM 過擬合的風(fēng)險(xiǎn),使回歸的結(jié)果和化學(xué)成分指向的特征相關(guān)性更強(qiáng)。模型的性能由測試集樣本進(jìn)行驗(yàn)證。
圖1 基于iSAE-LightGBM 的自適應(yīng)光譜回歸算法Fig.1 Adaptive spectral regression algorithm based on iSAE-LightGBM
1.4.1 結(jié)構(gòu)自適應(yīng)優(yōu)化的SAESAE 由多個(gè)加入稀疏約束的編碼器與解碼器組成,上一個(gè)編碼器的輸出被送入下一個(gè)編碼器的輸入,再通過解碼器得到最終的重構(gòu)數(shù)據(jù)。因?yàn)榫哂懈嗟碾[藏層和非線性變換,相對(duì)于自編碼器(AE),SAE可以學(xué)習(xí)到更復(fù)雜的特征表示,更符合現(xiàn)實(shí)復(fù)雜情景的模擬。SAE的結(jié)構(gòu)示意圖如圖2所示。
圖2 SAE結(jié)構(gòu)示意圖Fig.2 SAE structure schematic
圖2 中,n表示編碼器和解碼器的個(gè)數(shù),決定了SAE 網(wǎng)絡(luò)的層數(shù),Ni(i= 1,2,...,n)表示第i層神經(jīng)元的個(gè)數(shù)。n和Ni會(huì)顯著影響SAE的重構(gòu)能力。本文受到二叉搜索樹算法的啟發(fā)[15],基于遞歸的思想,提出了一種適用于近紅外光譜回歸分析的SAE 結(jié)構(gòu)參數(shù)自適應(yīng)確定策略,公式如下:
式中,round(·,a)表示取整函數(shù),a表示保留的有效數(shù)字位數(shù),bandsize(·)表示近紅外光譜數(shù)據(jù)的光譜維數(shù),Xori表示原始近紅外光譜數(shù)據(jù),sgn(·)為符號(hào)函數(shù),表達(dá)式為:
該策略下,下層編/解碼器的神經(jīng)元個(gè)數(shù)由上一層決定,層數(shù)與各層神經(jīng)元個(gè)數(shù)由遞歸運(yùn)算得到。在3層前,每層的神經(jīng)元數(shù)量為上一層的一半,在遞進(jìn)式的壓縮中,數(shù)據(jù)中的隱層特征可被充分表達(dá)。然而,為了控制網(wǎng)絡(luò)的復(fù)雜程度,避免訓(xùn)練時(shí)間過長造成計(jì)算資源的浪費(fèi),3 層及以后的收斂速度提高4 倍,遞歸停止的條件為Ni<10 且Ni-1≥10,這樣中間層維度被控制在10 × 8 = 80 以內(nèi),可以實(shí)現(xiàn)合理的降維。
考慮到提取更深、更隱層特征的需求,對(duì)原始SAE 的損失函數(shù)進(jìn)行修改,去除稀疏約束的部分,只考慮原始數(shù)據(jù)與重構(gòu)數(shù)據(jù)的相似度,使提取到的隱層特征能更完整表達(dá)原始的近紅外光譜數(shù)據(jù),改進(jìn)后的損失函數(shù)為:
式中:X為預(yù)處理后的光譜數(shù)據(jù),z(·)為解碼器的映射函數(shù),MSE 表示均方誤差,X^ 為重構(gòu)得到的光譜數(shù)據(jù),訓(xùn)練在損失函數(shù)小于10-6時(shí)停止。重構(gòu)的目的是使原始數(shù)據(jù)與重構(gòu)數(shù)據(jù)盡可能相似,另外,考慮到同一品類樣本近紅外光譜相似度高、形狀類似的特點(diǎn),選擇ReLU 為激活函數(shù),避免梯度消失、模型放棄學(xué)習(xí)特征而選擇重構(gòu)出一條平均光譜。
1.4.2 Optuna 優(yōu)化自適應(yīng)確定LightGBM 超參數(shù)LightGBM 算法重要的超參數(shù)包括葉子節(jié)點(diǎn)數(shù)量和樹的深度,在Optuna框架下設(shè)置合理的超參數(shù)尋優(yōu)范圍,在一定次數(shù)的迭代下得到最優(yōu)參數(shù)組合,并基于該組合進(jìn)行LightGBM回歸模型的構(gòu)建。具體步驟如下:
(1)定義待優(yōu)化函數(shù)Objective Function,并指定參數(shù)/超參數(shù)的合理范圍;
(2)創(chuàng)建一個(gè)Study對(duì)象,負(fù)責(zé)管理優(yōu)化,決定優(yōu)化的方式、總實(shí)驗(yàn)的次數(shù)、實(shí)驗(yàn)結(jié)果的記錄等;
(3)指定循環(huán)次數(shù),在一定的搜索空間中利用嘗試的歷史組合確定接下來要嘗試的參數(shù)組合,根據(jù)“Tree-structured Parzen Estimator”貝葉斯優(yōu)化算法進(jìn)行指定次數(shù)的迭代與Objective Function的優(yōu)化;
(4)達(dá)到設(shè)定的優(yōu)化目標(biāo)后,獲得最優(yōu)的超參數(shù)組合。
1.4.3 對(duì)比算法與模型評(píng)價(jià)指標(biāo)選取經(jīng)典的偏最小二乘(PLSR)線性算法[16]和帶二次項(xiàng)的回歸分析(D2reg)[17]、隨機(jī)森林(RF)[18]和XGBoost[19]3個(gè)非線性算法,與本文提出的方法進(jìn)行比較。模型的準(zhǔn)確性、魯棒性由6 個(gè)參數(shù)評(píng)價(jià):訓(xùn)練集/測試集相關(guān)系數(shù)(RC/RP);訓(xùn)練集/測試集均方根誤差(RMSEC/RMSEP);訓(xùn)練集/測試集決定系數(shù)(RC2/RP2)。較好的模型評(píng)判標(biāo)準(zhǔn)是:較小的RMSE 與接近1的R、R2值,表明其預(yù)測能力強(qiáng);RMSEC 和RMSEP,RC和RP,RC2和RP2之間的差值越小,表明其泛化能力越強(qiáng),模型魯棒性強(qiáng),過擬合程度低。其計(jì)算公式為:
其中X和Y表示輸入光譜矩陣與化學(xué)成分含量矩陣,yi表示第i個(gè)樣品的某化學(xué)成分含量真實(shí)值,y'i表示第i個(gè)樣品的某化學(xué)成分含量預(yù)測值,
在對(duì)光譜和化學(xué)成分指標(biāo)進(jìn)行標(biāo)準(zhǔn)化操作后,對(duì)標(biāo)準(zhǔn)化后的光譜進(jìn)行SG平滑+MSC+中心化的預(yù)處理操作。預(yù)處理前后的煙草樣本集近紅外光譜對(duì)比如圖3 所示,其中右上角的子圖表示框選區(qū)域的細(xì)節(jié)放大??梢姡?jīng)MSC 配合SG 平滑法和中心化的預(yù)處理后光譜更加平滑,有效校正了光譜的散射效應(yīng),提高了光譜的準(zhǔn)確性和可靠性。
對(duì)預(yù)處理前后的光譜數(shù)據(jù)進(jìn)行PLSR建模,測試預(yù)處理的有效性,用4種成分平均的測試集均方根誤差與決定系數(shù)對(duì)其進(jìn)行測試,結(jié)果如表1所示??梢姡A(yù)處理后的數(shù)據(jù)建模效果更佳,進(jìn)一步證明了預(yù)處理對(duì)建立化學(xué)成分回歸模型的正面效果。
表1 預(yù)處理前后的建模結(jié)果對(duì)比Table 1 Comparison of modeling results before and after preprocessing
對(duì)預(yù)處理后的數(shù)據(jù)進(jìn)行基于梯度提升樹的變量重要性評(píng)估的波段選擇,設(shè)定優(yōu)選的波段數(shù)為50,得到降維后的光譜數(shù)據(jù)X。
模型的參數(shù)優(yōu)化包括改進(jìn)的SAE 模塊和LightGBM模塊的參數(shù)優(yōu)化。改進(jìn)的SAE模塊參數(shù)自適應(yīng)確定結(jié)果如表2 所示,其中輸入光譜的原始波段數(shù)bandsize(Xori)= 1 609。
表2 SAE模塊參數(shù)自適應(yīng)確定Table 2 Adaptive determination of SAE module parameters
D2reg 方法中主成分?jǐn)?shù)的確定:利用主成分分析法(PCA)對(duì)原始光譜數(shù)據(jù)進(jìn)行處理,選取包含99.99%的解釋方差總和比率對(duì)應(yīng)的主成分?jǐn)?shù),得到最佳主成分?jǐn)?shù)為13,如圖4所示。
圖4 解釋方差率總和隨主成分的變化曲線Fig.4 Variation curve of sum of explained variance ratio with principal component
在自動(dòng)優(yōu)化框架下,iSAE-LightGBM 與其他4種方法的最優(yōu)參數(shù)組合如表3所示。
表3 最優(yōu)參數(shù)組合Table 3 Optimal combination of parameters
基于“2.2”得到的各算法最優(yōu)參數(shù)組合,進(jìn)行回歸模型構(gòu)建,并利用測試集樣本對(duì)各模型性能進(jìn)行評(píng)價(jià),得到的模型評(píng)價(jià)參數(shù)對(duì)比如表4所示,其中加粗字體為最優(yōu)項(xiàng),次優(yōu)項(xiàng)添加下劃線。
表4 模型評(píng)價(jià)參數(shù)對(duì)比Table 4 Comparison of model evaluation parameters
2.3.1 從訓(xùn)練集角度分析5 種算法中iSAELGBM 算法的綜合表現(xiàn)最佳,XGBoost 次之。iSAE-LGBM 算法下4 種化學(xué)成分的RC和RC2均可達(dá)到0.99以上,平均RC為0.999 2,平均RMSEC 為0.005 3,平均為0.998 3,均優(yōu)于其他方法??梢奿SAE-LGBM 對(duì)于煙草4 種化學(xué)成分的特征表達(dá)和回歸分析能力最強(qiáng)。XGBoost 作為一種梯度提升樹模型,與LGBM 原理相似,也能較準(zhǔn)確地?cái)M合訓(xùn)練數(shù)據(jù)。而RF算法和D2reg算法表現(xiàn)略差,PLSR算法的提升空間相對(duì)最大。
2.3.2 從預(yù)測集角度分析iSAE-LGBM 算法對(duì)4種成分各項(xiàng)指標(biāo)的最優(yōu)或次優(yōu)項(xiàng)多于其他4種對(duì)比方法,4 種成分的RP分別為0.947 5、0.879 0、0.952 6、0.864 8,平均值為0.911 0,RMSEP 分別為0.072 5、0.039 9、0.055 2、0.059 6,平均值為0.056 8,RP2分別為0.867 6、0.898 6、0.904 4、0.660 5,平均值為0.832 8。而在訓(xùn)練集上表現(xiàn)同樣出色的XGBoost算法在預(yù)測集上的表現(xiàn)則出現(xiàn)明顯下降,平均RP比iSAE-LGBM 低約1%,而平均RP2甚至低約40%,可見XGBoost 算法出現(xiàn)了較明顯的過擬合問題,證明iSAE-LGBM 算法的SAE 模塊有效降低了過擬合的風(fēng)險(xiǎn),提高了魯棒性。PLSR 算法和D2reg 算法雖在預(yù)測集上的表現(xiàn)與訓(xùn)練集較為相近,過擬合問題不顯著,但得到的模型預(yù)測能力有限。上述結(jié)果進(jìn)一步驗(yàn)證了iSAE-LGBM 算法在預(yù)測能力、降低過擬合風(fēng)險(xiǎn)方面的優(yōu)勢。
2.3.3 從化學(xué)成分種類角度分析iSAE-LGBM算法建立的氯、鉀、總氮模型相對(duì)于還原糖模型更優(yōu),還原糖模型中的PLSR算法也有不錯(cuò)的表現(xiàn),可見氯、鉀、總氮3種化學(xué)成分與近紅外光譜間的相關(guān)性更傾向于非線性相關(guān),而還原糖模型的線性相關(guān)性相對(duì)更加突出,故傳統(tǒng)線性回歸算法也能得到相對(duì)較好的結(jié)果。相比于其他4種算法,iSAE-LGBM算法在處理偏向線性或非線性的關(guān)系上均有優(yōu)秀的表現(xiàn)。
通過上述分析可知,與4個(gè)經(jīng)典算法相比,iSAE-LGBM算法無論在訓(xùn)練集或預(yù)測集上的表現(xiàn)均最優(yōu),對(duì)煙草還原糖、氯、鉀、總氮4種化學(xué)成分的綜合預(yù)測能力最佳,在模型預(yù)測能力、魯棒性、通用性上更優(yōu)。
為了進(jìn)一步驗(yàn)證iSAE-LGBM 算法的有效性,圖5 給出了4 種化學(xué)成分預(yù)測值與真實(shí)值的散點(diǎn)圖,并擬合出相應(yīng)的一次函數(shù),將其與最優(yōu)擬合函數(shù)y=x進(jìn)行對(duì)比,點(diǎn)越接近y=x直線代表預(yù)測偏差越小。由圖5可知,絕大部分點(diǎn)均勻分布在擬合直線的兩側(cè),擬合曲線均與y=x接近,說明iSAE-LGBM算法構(gòu)建的煙草4種化學(xué)成分的預(yù)測模型具有較高的預(yù)測準(zhǔn)確率。
圖5 預(yù)測值-真實(shí)值曲線Fig.5 Predicted value- measured value curves A. reducing sugar;B. chlorine;C. potassium;D. total nitrogen
本文將改進(jìn)堆疊自編碼器與LightGBM 結(jié)合應(yīng)用于近紅外光譜回歸分析。算法由兩個(gè)模塊組成,其中改進(jìn)的結(jié)構(gòu)自適應(yīng)優(yōu)化的堆疊自編碼器模塊有效減少了噪聲和干擾對(duì)模型的負(fù)面影響,可充分挖掘近紅外光譜數(shù)據(jù)的非線性深層特征,同時(shí)有效降低了后續(xù)LightGBM 模塊的過擬合風(fēng)險(xiǎn);LightGBM 模塊充分表達(dá)了近紅外光譜數(shù)據(jù)中的深層非線性特征,超參數(shù)在Optuna框架下實(shí)現(xiàn)了快速自動(dòng)優(yōu)化。將該算法與其他4 種算法進(jìn)行對(duì)比,結(jié)果顯示該算法下構(gòu)建的煙草化學(xué)成分回歸模型在預(yù)測能力、魯棒性和通用性方面得到有效提高。本文將堆疊自編碼器與LightGBM 應(yīng)用于近紅外光譜的非線性回歸分析,為近紅外光譜數(shù)據(jù)中隱層關(guān)系的挖掘與表達(dá)提供了參考,通過煙草樣本進(jìn)行驗(yàn)證,為深度學(xué)習(xí)在化學(xué)成分檢測與質(zhì)量監(jiān)控領(lǐng)域的應(yīng)用提供了新的思路和依據(jù)。