吳 珽, 梁 龍, 朱北平, 鄧擁軍, 房桂干*
(1.中國林業(yè)科學研究院 林產(chǎn)化學工業(yè)研究所;生物質(zhì)化學利用國家工程實驗室;國家林業(yè)和草原局林產(chǎn)化學工程重點實驗室;江蘇省生物質(zhì)能源與材料重點實驗室;江蘇省林業(yè)資源高效加工利用協(xié)同創(chuàng)新中心,江蘇 南京 210042; 2.金東紙業(yè)(江蘇)股份有限公司,江蘇 鎮(zhèn)江 212132)
2019年全年,我國制漿造紙行業(yè)紙漿消耗總量為9 609萬噸,較上年增長2.36%。木漿共消耗3 581 萬噸,占紙漿消耗總量的37%,同比增長8.42%;其中進口木漿占24%,同比增長6.97%;國產(chǎn)木漿占13%,同比增長11.17%[1]。當前制漿造紙行業(yè)存在紙與紙板低檔產(chǎn)品過剩,中高檔產(chǎn)品供應(yīng)不足引發(fā)的產(chǎn)品附加值低,行業(yè)利潤率低等實際問題,因此用于制取高檔紙產(chǎn)品的木漿需求將進一步增加[2]。受疫情與貿(mào)易戰(zhàn)影響,美洲、東南亞等地無法保證長期穩(wěn)定的木漿供應(yīng),提高國內(nèi)木漿產(chǎn)量和利用率是滿足當前行業(yè)木漿需求的可行方法。我國云南、廣西、廣東、貴州、海南等省份近年廣泛種植速生桉木,同時混交速生相思以維持土壤肥力,防止水土流失[3]。速生材經(jīng)采伐并在林場配套木片加工廠處理后,為求產(chǎn)量最大化,來到生產(chǎn)線上的制漿原料往往是桉木片、相思木片及枝杈材、小徑材等加工剩余物的混合。在實際生產(chǎn)中,大批量原料無法保證混合均勻,因此各批次原料組分不一,按原定制漿工藝參數(shù)生產(chǎn),則難以保證紙漿性能合格;提高磨漿能耗輸入,加大化學品用量,固然能滿足紙漿性能要求,但又引發(fā)成本高、污染重等問題[4]。針對我國南方特定的制漿原料模式——桉木-相思混合原料進行快速分析研究,以期根據(jù)生產(chǎn)線原料的實時材性數(shù)據(jù)調(diào)整制漿工藝參數(shù),在保證紙漿性能同時,做到用藥、電耗、成本最小化,有其實際意義[5]。近紅外光譜(NIR)屬于分子光譜,當分子受到780~2 526 nm的電磁波輻射后,吸收特定頻率的近紅外光,原子的振動、轉(zhuǎn)動能級發(fā)生躍遷,從而形成吸收光譜。NIR結(jié)合化學計量學方法作為一種快速分析手段,通過已知樣品信息的光譜數(shù)據(jù)構(gòu)建模型,利用模型對待測樣品進行分析,可以提高常規(guī)定性定量分析的效率[6],近年已廣泛應(yīng)用于農(nóng)業(yè)[7]、林業(yè)[8-9]、石油化工[10]等領(lǐng)域;并在常見單一制漿原料的識別[11]、物理性質(zhì)研究[12-13]及化學成分含量的測定[14-15]等方面發(fā)揮著較大作用。本研究將多種中國南方常見的桉木與相思人為混合,采集近紅外光譜,結(jié)合樣本外預測能力強且多用于經(jīng)濟學[16]、統(tǒng)計學[17]的最小絕對收縮和選擇(LASSO)算法建立校正模型,通過對桉木含量(混合程度)的預測確定原料的混合情況,并實現(xiàn)了桉木-相思混合原料綜纖維素、Klason木質(zhì)素、聚戊糖、苯醇抽出物和1%NaOH抽出物含量的分析預測。
1.1 原料
實驗原料為制漿用混合桉木片和混合相思木片,桉木片由樹齡5~6年的尾巨桉、尾葉桉U6、尾葉桉L11和藍桉木片混合而成;相思木片由樹齡6年的馬占相思、厚莢相思、紋莢相思、大葉相思和雜交相思木片混合而成,原料具體情況如表1。將混合桉木片、混合相思木片磨粉后分別過篩,截取粒徑0.25~0.42 mm的木粉。待木粉含水量穩(wěn)定在12%左右,且相隔24 h差值不超過0.1%時,認為原料已經(jīng)水分平衡。將桉木粉、相思木粉按人為設(shè)置的不同質(zhì)量比均勻混合成135個樣品,記為S1,其混合情況以樣品中桉木的質(zhì)量分數(shù)表示,設(shè)定數(shù)據(jù)均勻分布在0%到100%之間。另選取單一樹種的桉木樣本各5個制作木粉樣品,記桉木質(zhì)量分數(shù)為100%;選取單一樹種的相思樣本各5個制作木粉樣品,記桉木質(zhì)量分數(shù)為0%。以上45個單一樹種樣品記為S2,S1、S2共180個樣本作為訓練集,其作用在于各種混合比例情況及特殊情況(某次原料全部為桉木或相思)的模擬。據(jù)此訓練集建立混合程度(桉木含量)、化學成分校正模型。此外,按質(zhì)量分數(shù)梯度設(shè)定比例將桉木粉和相思木粉混合成40個樣品,記下其中桉木的質(zhì)量分數(shù),記為S3。S3作為驗證集,考察模型對于桉木-相思混合原料的分析能力。
表1 原料來源Table 1 Source of wood chips
1.2 數(shù)據(jù)采集
1.2.1NIR光譜數(shù)據(jù)采集 利用全息光柵分光(陣列檢測器)近紅外光譜儀,采集訓練集和驗證集共220個樣品的近紅外光譜數(shù)據(jù)。近紅外光譜儀參數(shù)如下:光譜波長范圍900~2 500 nm;波長點數(shù)為256個;光譜儀掃描速度為360(°)/min;采集次數(shù)為20次/圈;每個樣品裝樣3次取平均光譜;采樣時砝碼對木粉壓強為1.41 kPa;采樣溫度為20 ℃,相對濕度為50%[18]。
1.2.2原料特征數(shù)據(jù)采集 樣品混合程度以其中桉木質(zhì)量分數(shù)表示,混合時人為控制在0%~100%之間均勻分布。所有樣品采集完近紅外光譜后,測定其主要化學成分含量。綜纖維素含量的測定按GB/T 2677.10—1995進行;Klason木質(zhì)素含量的測定按GB/T 2677.8—1994進行;聚戊糖含量按GB/T 2677.9—1994測定;苯醇抽出物的測定方法參照國標GB/T 2677.6—1994進行;1% NaOH抽出物含量按國標GB/T 2677.5—1993測定。
1.3 基于LASSO算法分析模型的建立
1.3.1NIR數(shù)據(jù)預處理 為降低無關(guān)信息的影響,通常對近紅外光譜數(shù)據(jù)進行預處理。常用預處理方法如信號平滑可用于降低噪聲干擾,一階導數(shù)(1st Der)、二階導數(shù)(2nd Der)預處理用以消除基線和背景干擾,矢量歸一化(V-Norm)用于消除光程變化對光譜產(chǎn)生的影響,多元散射校正(MSC)用以消除木粉顆粒大小不均勻?qū)е碌姆翘禺愋陨⑸涞挠绊?。為求最大程度地降低無關(guān)信息影響,在Matlab 8.0中分別使用S-G 13點3倍平滑、V-Norm、1st Der;S-G 13點3倍平滑、V-Norm、 2nd Der;S-G 13點3倍平滑、MSC、1st Der;S-G 13點3倍平滑、 MSC、 2nd Der的組合預處理方法預處理900~2 500 nm間的全波段近紅外光譜。
1.3.2LASSO算法原理 LASSO算法本質(zhì)上是一種處理具有復共線性數(shù)據(jù)的有偏估計。設(shè)有p個自變量x1,x2,…,xp和因變量y,它們之間可建立如式(1)的線性回歸模型,其中α為常數(shù)項,β1,β2,…,βp為回歸系數(shù),為隨機擾動項。
y=α+β1x1+β2x2+…+βpxp+
(1)
設(shè)(xi1,xi2,…,xip;yi),i=1,2,…,n是變量的n組觀測值,假定數(shù)據(jù)已經(jīng)過中心標準化,即:
LASSO算法通過添加令回歸系數(shù)的絕對值之和小于等于常數(shù)λ的約束條件,使殘差平方和最小化以產(chǎn)生嚴格等于0的回歸系數(shù),從而得到參數(shù)估計值。對系數(shù)絕對值進行懲罰,用殘差平方和的最小值加上對回歸系數(shù)進行的懲罰函數(shù)表示,即:
(2)
(3)
1.3.3模型的建立 在Matlab 8.0中加載經(jīng)不同組合方法預處理后的近紅外光譜數(shù)據(jù),以及樣本混合程度、化學成分含量的訓練集數(shù)據(jù),運行LASSO算法,運用留一法進行交互驗證建立校正模型,即針對不同的調(diào)整參數(shù)μ,每次從訓練集S1、S2共180個樣品中留1個樣品作為預測對象,其他樣品用于建模并預測該樣品,不斷重復上述流程,完結(jié)時訓練集的每個樣品均被預測1次且用于建模179次。當交互驗證均方根誤差(RMSECV)最小時對應(yīng)的μ為最優(yōu)調(diào)整參數(shù),此時模型性能最優(yōu)。
2.1 測定數(shù)據(jù)的分布
樣品混合程度情況如表2所示,桉木-相思混合原料訓練集中S1部分和驗證集S3中樣品混合的程度在0%~100%區(qū)間上均勻分布,訓練集中S2部分混合程度為0%或100%。
表2 樣品混合程度分布Table 2 Mixing degree distribution of mixed samples
測定S1、S2、S3共220個樣品的化學成分含量,S1、S3共175個混合樣品的化學成分含量如表3所示。
表3 混合樣品化學成分質(zhì)量分數(shù)的分布Table 3 Distribution of chemical composition mass fraction of the mixed samples
圖1 樣品的近紅外原始光譜Fig.1 The original near infrared spectra of samples
S1、S3的綜纖維素質(zhì)量分數(shù)包含在S2的分布區(qū)間73.30%~81.31%內(nèi);S1、S3的Klason木質(zhì)素質(zhì)量分數(shù)包含在S2的分布區(qū)間21.39%~27.61%內(nèi);S1、S3的聚戊糖質(zhì)量分數(shù)包含在S2的分布區(qū)間17.52%~30.31%內(nèi);S1、S3的苯醇抽出物質(zhì)量分數(shù)包含在S2的分布區(qū)間0.69%~5.13%內(nèi);S1、S3的1%NaOH抽出物質(zhì)量分數(shù)與S2的分布區(qū)間11.41%~16.30%基本重合,其原因是桉木和相思的1% NaOH抽出物含量無顯著差異,因此經(jīng)過混合后可能出現(xiàn)含量范圍略大于單一樹種含量范圍的情況。總體上175個混合樣品的化學成分含量包含在單一樣品化學成分含量分布區(qū)間以內(nèi),數(shù)據(jù)較為穩(wěn)定。由S1混合樣品和S2單一樣品構(gòu)成的訓練集可以涵蓋各種桉木-相思實際混合情況,由此可以建立適應(yīng)性較強的桉木-相思混合原料化學成分含量分析模型。
2.2 樣品的近紅外光譜
采集S1、S2和S3共220個樣品的近紅外光譜,如圖1所示?;旌蠘悠泛蛦我徊姆N樣品的近紅外光譜沒有明顯差別,1 400~1 500 nm和1 900~2 000 nm 間的水分子特征峰沒有顯著位移,樣品間的差異僅集中在漫反射吸光度上。
2.3 建模方法的確定
對近紅外光譜數(shù)據(jù)采用組合方法進行預處理后建模,4種不同預處理方法結(jié)合LASSO算法所得混合程度校正模型性能如表4所示。
表4 LASSO算法結(jié)合不同預處理方法建立模型情況Table 4 Models established by LASSO algorithm combined with different pretreatment methods
由表4可見,采用平滑、V-Norm、1st Der組合預處理原始光譜建立的混合程度校正模型RMSECV值最小,為1.63%,對應(yīng)的μ值為13.62,此時確定的混合程度校正模型性能最優(yōu)。同樣,使用上述4種組合預處理方法結(jié)合LASSO算法,與訓練集樣本化學成分(綜纖維素、Klason木質(zhì)素、聚戊糖、苯醇抽出物、1%NaOH抽出物)含量分別建立分析模型,所得模型情況亦如表4所示??梢娽槍C纖維素建模應(yīng)選擇平滑、V-Norm、1st Der的預處理方法,最優(yōu)調(diào)整參數(shù)μ為18.30;針對Klason木質(zhì)素建模應(yīng)選擇平滑、MSC、2nd Der的預處理方法,最優(yōu)調(diào)整參數(shù)μ為6.39;針對聚戊糖含量建模應(yīng)選擇平滑、V-Norm、2nd Der 的預處理方法,最優(yōu)調(diào)整參數(shù)μ為9.64;針對苯醇抽出物含量建模應(yīng)選擇平滑、MSC、1st Der的預處理方法,最優(yōu)調(diào)整參數(shù)μ為7.49;針對1%NaOH含量建模應(yīng)選擇平滑、V-Norm、1st Der,最優(yōu)調(diào)整參數(shù)μ為12.07。
2.4 模型評價
對表4中經(jīng)特定預處理方法、LASSO算法、特定最優(yōu)調(diào)整參數(shù)建立的分析校正模型進行獨立驗證。在Matlab 8.0中加載驗證集S3經(jīng)預處理后的光譜數(shù)據(jù)和模型文件,經(jīng)過計算分析得到預測值,并將預測值與測定值進行統(tǒng)計比較,6種模型的性能如表5所示,散點圖見圖2。
表5 模型的獨立驗證Table 5 The independent verification of the calibration models
a.混合程度mixing degree; b.綜纖維素holocellulose; c.Klason木質(zhì)素Klason lignin; d.聚戊糖pentosan;
分別以實測值為橫坐標,預測值為縱坐標作散點圖(圖2),可看出6個分析模型對相應(yīng)性質(zhì)的詳細預測情況。混合程度模型Bias值為0.217 3%,模型存在一定系統(tǒng)誤差,使得預測結(jié)果略高于傳統(tǒng)分析結(jié)果;雙尾T檢驗P值為0.478 4(>0.05),預測值和測定值無顯著性差異。綜纖維素模型Bias值為0.011 3%,同樣存在系統(tǒng)誤差使得預測結(jié)果偏高;雙尾T檢驗P值為0.907 7(>0.05),預測值和測定值無顯著性差異。Klason木質(zhì)素模型偏差值為- 0.019 0%,模型系統(tǒng)誤差將使得預測結(jié)果偏??;雙尾T檢驗P值為0.814 2(>0.05),預測值和測定值無顯著性差異。聚戊糖模型所得點在y=x直線兩側(cè)分布均勻,模型不存在明顯的系統(tǒng)性誤差;雙尾T檢驗P值為0.990 6(>0.05),預測值和測定值無顯著性差異。苯醇抽出物模型偏差值為-0.011 0%,系統(tǒng)誤差將使得預測結(jié)果偏小;雙尾T檢驗P值為0.808 0(>0.05),預測值和測定值無顯著性差異。1% NaOH抽出物模型所得點在y=x直線兩側(cè)分布均勻,模型不存在明顯的系統(tǒng)性誤差;雙尾T檢驗P值為0.896 4(>0.05),預測值和測定值無顯著性差異。
3.1通過多種方法預處理桉木-相思混合原料近紅外光譜,結(jié)合LASSO算法,建立了桉木-相思混合原料混合程度(以桉木質(zhì)量分數(shù)表示)、綜纖維素、Klason木質(zhì)素、聚戊糖、苯醇抽出物和1%NaOH含量分析模型。建模過程中的最優(yōu)調(diào)整參數(shù)μ值分別為13.62、 18.30、 6.39、 9.64、 7.49、 12.07;6種模型的RMSEP值分別為1.93%、 0.61%、 0.51%、 0.80%、 0.28%、 0.41%;絕對偏差范圍分別為-3.19%~3.24%、-0.96%~1.01%、 -0.89%~0.84%、 -1.37%~1.46%、 -0.43%~0.39%、 -0.58%~0.60%。其中混合程度、綜纖維素、苯醇抽出物、1%NaOH抽出物含量分析模型符合行業(yè)快速分析要求,能用于較精確的分析;Klason木質(zhì)素和聚戊糖含量分析模型適用于非精確性測定。混合程度(桉木質(zhì)量分數(shù))和化學成分含量分布基本覆蓋了可能的取值范圍,模型適應(yīng)性好。
3.2本研究證實了LASSO算法用于混合制漿原料分析的可行性,這為算法擇優(yōu)以建立更精確的校正模型提供了更多的可能。