基于LASSO法的桉木-相思混合制漿原料近紅外分析模型的建立

2020-11-06 08:02:52朱北平鄧擁軍房桂干

林產(chǎn)化學與工業(yè) 2020年5期

吳珽，梁龍，朱北平，鄧擁軍，房桂干*

(1.中國林業(yè)科學研究院林產(chǎn)化學工業(yè)研究所；生物質(zhì)化學利用國家工程實驗室；國家林業(yè)和草原局林產(chǎn)化學工程重點實驗室；江蘇省生物質(zhì)能源與材料重點實驗室；江蘇省林業(yè)資源高效加工利用協(xié)同創(chuàng)新中心，江蘇南京 210042； 2.金東紙業(yè)(江蘇)股份有限公司，江蘇鎮(zhèn)江 212132)

2019年全年，我國制漿造紙行業(yè)紙漿消耗總量為9 609萬噸，較上年增長2.36%。木漿共消耗3 581 萬噸，占紙漿消耗總量的37%，同比增長8.42%；其中進口木漿占24%，同比增長6.97%；國產(chǎn)木漿占13%，同比增長11.17%[1]。當前制漿造紙行業(yè)存在紙與紙板低檔產(chǎn)品過剩，中高檔產(chǎn)品供應(yīng)不足引發(fā)的產(chǎn)品附加值低，行業(yè)利潤率低等實際問題，因此用于制取高檔紙產(chǎn)品的木漿需求將進一步增加[2]。受疫情與貿(mào)易戰(zhàn)影響，美洲、東南亞等地無法保證長期穩(wěn)定的木漿供應(yīng)，提高國內(nèi)木漿產(chǎn)量和利用率是滿足當前行業(yè)木漿需求的可行方法。我國云南、廣西、廣東、貴州、海南等省份近年廣泛種植速生桉木，同時混交速生相思以維持土壤肥力，防止水土流失[3]。速生材經(jīng)采伐并在林場配套木片加工廠處理后，為求產(chǎn)量最大化，來到生產(chǎn)線上的制漿原料往往是桉木片、相思木片及枝杈材、小徑材等加工剩余物的混合。在實際生產(chǎn)中，大批量原料無法保證混合均勻，因此各批次原料組分不一，按原定制漿工藝參數(shù)生產(chǎn)，則難以保證紙漿性能合格；提高磨漿能耗輸入，加大化學品用量，固然能滿足紙漿性能要求，但又引發(fā)成本高、污染重等問題[4]。針對我國南方特定的制漿原料模式——桉木-相思混合原料進行快速分析研究，以期根據(jù)生產(chǎn)線原料的實時材性數(shù)據(jù)調(diào)整制漿工藝參數(shù)，在保證紙漿性能同時，做到用藥、電耗、成本最小化，有其實際意義[5]。近紅外光譜(NIR)屬于分子光譜，當分子受到780～2 526 nm的電磁波輻射后，吸收特定頻率的近紅外光，原子的振動、轉(zhuǎn)動能級發(fā)生躍遷，從而形成吸收光譜。NIR結(jié)合化學計量學方法作為一種快速分析手段，通過已知樣品信息的光譜數(shù)據(jù)構(gòu)建模型，利用模型對待測樣品進行分析，可以提高常規(guī)定性定量分析的效率[6]，近年已廣泛應(yīng)用于農(nóng)業(yè)[7]、林業(yè)[8-9]、石油化工[10]等領(lǐng)域；并在常見單一制漿原料的識別[11]、物理性質(zhì)研究[12-13]及化學成分含量的測定[14-15]等方面發(fā)揮著較大作用。本研究將多種中國南方常見的桉木與相思人為混合，采集近紅外光譜，結(jié)合樣本外預測能力強且多用于經(jīng)濟學[16]、統(tǒng)計學[17]的最小絕對收縮和選擇(LASSO)算法建立校正模型，通過對桉木含量(混合程度)的預測確定原料的混合情況，并實現(xiàn)了桉木-相思混合原料綜纖維素、Klason木質(zhì)素、聚戊糖、苯醇抽出物和1%NaOH抽出物含量的分析預測。

1 材料與方法

1.1 原料

實驗原料為制漿用混合桉木片和混合相思木片，桉木片由樹齡5～6年的尾巨桉、尾葉桉U6、尾葉桉L11和藍桉木片混合而成；相思木片由樹齡6年的馬占相思、厚莢相思、紋莢相思、大葉相思和雜交相思木片混合而成，原料具體情況如表1。將混合桉木片、混合相思木片磨粉后分別過篩，截取粒徑0.25～0.42 mm的木粉。待木粉含水量穩(wěn)定在12%左右，且相隔24 h差值不超過0.1%時，認為原料已經(jīng)水分平衡。將桉木粉、相思木粉按人為設(shè)置的不同質(zhì)量比均勻混合成135個樣品，記為S1，其混合情況以樣品中桉木的質(zhì)量分數(shù)表示，設(shè)定數(shù)據(jù)均勻分布在0%到100%之間。另選取單一樹種的桉木樣本各5個制作木粉樣品，記桉木質(zhì)量分數(shù)為100%；選取單一樹種的相思樣本各5個制作木粉樣品，記桉木質(zhì)量分數(shù)為0%。以上45個單一樹種樣品記為S2，S1、S2共180個樣本作為訓練集，其作用在于各種混合比例情況及特殊情況(某次原料全部為桉木或相思)的模擬。據(jù)此訓練集建立混合程度(桉木含量)、化學成分校正模型。此外，按質(zhì)量分數(shù)梯度設(shè)定比例將桉木粉和相思木粉混合成40個樣品，記下其中桉木的質(zhì)量分數(shù)，記為S3。S3作為驗證集，考察模型對于桉木-相思混合原料的分析能力。

表1 原料來源Table 1 Source of wood chips

1.2 數(shù)據(jù)采集

1.2.1NIR光譜數(shù)據(jù)采集利用全息光柵分光(陣列檢測器)近紅外光譜儀，采集訓練集和驗證集共220個樣品的近紅外光譜數(shù)據(jù)。近紅外光譜儀參數(shù)如下：光譜波長范圍900～2 500 nm；波長點數(shù)為256個；光譜儀掃描速度為360(°)/min；采集次數(shù)為20次/圈；每個樣品裝樣3次取平均光譜；采樣時砝碼對木粉壓強為1.41 kPa；采樣溫度為20 ℃，相對濕度為50%[18]。

1.2.2原料特征數(shù)據(jù)采集樣品混合程度以其中桉木質(zhì)量分數(shù)表示，混合時人為控制在0%～100%之間均勻分布。所有樣品采集完近紅外光譜后，測定其主要化學成分含量。綜纖維素含量的測定按GB/T 2677.10—1995進行；Klason木質(zhì)素含量的測定按GB/T 2677.8—1994進行；聚戊糖含量按GB/T 2677.9—1994測定；苯醇抽出物的測定方法參照國標GB/T 2677.6—1994進行；1% NaOH抽出物含量按國標GB/T 2677.5—1993測定。

1.3 基于LASSO算法分析模型的建立

1.3.1NIR數(shù)據(jù)預處理為降低無關(guān)信息的影響，通常對近紅外光譜數(shù)據(jù)進行預處理。常用預處理方法如信號平滑可用于降低噪聲干擾，一階導數(shù)(1st Der)、二階導數(shù)(2nd Der)預處理用以消除基線和背景干擾，矢量歸一化(V-Norm)用于消除光程變化對光譜產(chǎn)生的影響，多元散射校正(MSC)用以消除木粉顆粒大小不均勻?qū)е碌姆翘禺愋陨⑸涞挠绊?。為求最大程度地降低無關(guān)信息影響，在Matlab 8.0中分別使用S-G 13點3倍平滑、V-Norm、1st Der；S-G 13點3倍平滑、V-Norm、 2nd Der；S-G 13點3倍平滑、MSC、1st Der；S-G 13點3倍平滑、 MSC、 2nd Der的組合預處理方法預處理900～2 500 nm間的全波段近紅外光譜。

1.3.2LASSO算法原理 LASSO算法本質(zhì)上是一種處理具有復共線性數(shù)據(jù)的有偏估計。設(shè)有p個自變量x1，x2，…，xp和因變量y，它們之間可建立如式(1)的線性回歸模型，其中α為常數(shù)項，β1，β2，…，βp為回歸系數(shù)，為隨機擾動項。

y=α+β1x1+β2x2+…+βpxp+

(1)

設(shè)(xi1，xi2，…，xip；yi)，i=1，2，…，n是變量的n組觀測值，假定數(shù)據(jù)已經(jīng)過中心標準化，即：

LASSO算法通過添加令回歸系數(shù)的絕對值之和小于等于常數(shù)λ的約束條件，使殘差平方和最小化以產(chǎn)生嚴格等于0的回歸系數(shù)，從而得到參數(shù)估計值。對系數(shù)絕對值進行懲罰，用殘差平方和的最小值加上對回歸系數(shù)進行的懲罰函數(shù)表示，即：

(2)

(3)

1.3.3模型的建立在Matlab 8.0中加載經(jīng)不同組合方法預處理后的近紅外光譜數(shù)據(jù),以及樣本混合程度、化學成分含量的訓練集數(shù)據(jù)，運行LASSO算法，運用留一法進行交互驗證建立校正模型，即針對不同的調(diào)整參數(shù)μ，每次從訓練集S1、S2共180個樣品中留1個樣品作為預測對象，其他樣品用于建模并預測該樣品，不斷重復上述流程，完結(jié)時訓練集的每個樣品均被預測1次且用于建模179次。當交互驗證均方根誤差(RMSECV)最小時對應(yīng)的μ為最優(yōu)調(diào)整參數(shù)，此時模型性能最優(yōu)。

2 結(jié)果與討論

2.1 測定數(shù)據(jù)的分布

樣品混合程度情況如表2所示，桉木-相思混合原料訓練集中S1部分和驗證集S3中樣品混合的程度在0%～100%區(qū)間上均勻分布，訓練集中S2部分混合程度為0%或100%。

表2 樣品混合程度分布Table 2 Mixing degree distribution of mixed samples

測定S1、S2、S3共220個樣品的化學成分含量，S1、S3共175個混合樣品的化學成分含量如表3所示。

表3 混合樣品化學成分質(zhì)量分數(shù)的分布Table 3 Distribution of chemical composition mass fraction of the mixed samples

圖1 樣品的近紅外原始光譜Fig.1 The original near infrared spectra of samples

S1、S3的綜纖維素質(zhì)量分數(shù)包含在S2的分布區(qū)間73.30%～81.31%內(nèi)；S1、S3的Klason木質(zhì)素質(zhì)量分數(shù)包含在S2的分布區(qū)間21.39%～27.61%內(nèi)；S1、S3的聚戊糖質(zhì)量分數(shù)包含在S2的分布區(qū)間17.52%～30.31%內(nèi)；S1、S3的苯醇抽出物質(zhì)量分數(shù)包含在S2的分布區(qū)間0.69%～5.13%內(nèi)；S1、S3的1%NaOH抽出物質(zhì)量分數(shù)與S2的分布區(qū)間11.41%～16.30%基本重合，其原因是桉木和相思的1% NaOH抽出物含量無顯著差異，因此經(jīng)過混合后可能出現(xiàn)含量范圍略大于單一樹種含量范圍的情況。總體上175個混合樣品的化學成分含量包含在單一樣品化學成分含量分布區(qū)間以內(nèi)，數(shù)據(jù)較為穩(wěn)定。由S1混合樣品和S2單一樣品構(gòu)成的訓練集可以涵蓋各種桉木-相思實際混合情況，由此可以建立適應(yīng)性較強的桉木-相思混合原料化學成分含量分析模型。

2.2 樣品的近紅外光譜

采集S1、S2和S3共220個樣品的近紅外光譜，如圖1所示?；旌蠘悠泛蛦我徊姆N樣品的近紅外光譜沒有明顯差別，1 400～1 500 nm和1 900～2 000 nm 間的水分子特征峰沒有顯著位移，樣品間的差異僅集中在漫反射吸光度上。

2.3 建模方法的確定

對近紅外光譜數(shù)據(jù)采用組合方法進行預處理后建模，4種不同預處理方法結(jié)合LASSO算法所得混合程度校正模型性能如表4所示。

表4 LASSO算法結(jié)合不同預處理方法建立模型情況Table 4 Models established by LASSO algorithm combined with different pretreatment methods

由表4可見，采用平滑、V-Norm、1st Der組合預處理原始光譜建立的混合程度校正模型RMSECV值最小，為1.63%，對應(yīng)的μ值為13.62，此時確定的混合程度校正模型性能最優(yōu)。同樣，使用上述4種組合預處理方法結(jié)合LASSO算法，與訓練集樣本化學成分(綜纖維素、Klason木質(zhì)素、聚戊糖、苯醇抽出物、1%NaOH抽出物)含量分別建立分析模型，所得模型情況亦如表4所示?？梢娽槍C纖維素建模應(yīng)選擇平滑、V-Norm、1st Der的預處理方法，最優(yōu)調(diào)整參數(shù)μ為18.30；針對Klason木質(zhì)素建模應(yīng)選擇平滑、MSC、2nd Der的預處理方法，最優(yōu)調(diào)整參數(shù)μ為6.39；針對聚戊糖含量建模應(yīng)選擇平滑、V-Norm、2nd Der 的預處理方法，最優(yōu)調(diào)整參數(shù)μ為9.64；針對苯醇抽出物含量建模應(yīng)選擇平滑、MSC、1st Der的預處理方法，最優(yōu)調(diào)整參數(shù)μ為7.49；針對1%NaOH含量建模應(yīng)選擇平滑、V-Norm、1st Der，最優(yōu)調(diào)整參數(shù)μ為12.07。

2.4 模型評價

對表4中經(jīng)特定預處理方法、LASSO算法、特定最優(yōu)調(diào)整參數(shù)建立的分析校正模型進行獨立驗證。在Matlab 8.0中加載驗證集S3經(jīng)預處理后的光譜數(shù)據(jù)和模型文件，經(jīng)過計算分析得到預測值，并將預測值與測定值進行統(tǒng)計比較，6種模型的性能如表5所示，散點圖見圖2。

表5 模型的獨立驗證Table 5 The independent verification of the calibration models

a.混合程度mixing degree； b.綜纖維素holocellulose； c.Klason木質(zhì)素Klason lignin； d.聚戊糖pentosan；

分別以實測值為橫坐標，預測值為縱坐標作散點圖(圖2)，可看出6個分析模型對相應(yīng)性質(zhì)的詳細預測情況。混合程度模型Bias值為0.217 3%，模型存在一定系統(tǒng)誤差，使得預測結(jié)果略高于傳統(tǒng)分析結(jié)果；雙尾T檢驗P值為0.478 4(>0.05)，預測值和測定值無顯著性差異。綜纖維素模型Bias值為0.011 3%，同樣存在系統(tǒng)誤差使得預測結(jié)果偏高；雙尾T檢驗P值為0.907 7(>0.05)，預測值和測定值無顯著性差異。Klason木質(zhì)素模型偏差值為- 0.019 0%，模型系統(tǒng)誤差將使得預測結(jié)果偏??；雙尾T檢驗P值為0.814 2(>0.05)，預測值和測定值無顯著性差異。聚戊糖模型所得點在y=x直線兩側(cè)分布均勻，模型不存在明顯的系統(tǒng)性誤差；雙尾T檢驗P值為0.990 6(>0.05)，預測值和測定值無顯著性差異。苯醇抽出物模型偏差值為-0.011 0%，系統(tǒng)誤差將使得預測結(jié)果偏小；雙尾T檢驗P值為0.808 0(>0.05)，預測值和測定值無顯著性差異。1% NaOH抽出物模型所得點在y=x直線兩側(cè)分布均勻，模型不存在明顯的系統(tǒng)性誤差；雙尾T檢驗P值為0.896 4(>0.05)，預測值和測定值無顯著性差異。

3 結(jié) 論

3.1通過多種方法預處理桉木-相思混合原料近紅外光譜，結(jié)合LASSO算法，建立了桉木-相思混合原料混合程度(以桉木質(zhì)量分數(shù)表示)、綜纖維素、Klason木質(zhì)素、聚戊糖、苯醇抽出物和1%NaOH含量分析模型。建模過程中的最優(yōu)調(diào)整參數(shù)μ值分別為13.62、 18.30、 6.39、 9.64、 7.49、 12.07；6種模型的RMSEP值分別為1.93%、 0.61%、 0.51%、 0.80%、 0.28%、 0.41%；絕對偏差范圍分別為-3.19%～3.24%、-0.96%～1.01%、 -0.89%～0.84%、 -1.37%～1.46%、 -0.43%～0.39%、 -0.58%～0.60%。其中混合程度、綜纖維素、苯醇抽出物、1%NaOH抽出物含量分析模型符合行業(yè)快速分析要求，能用于較精確的分析；Klason木質(zhì)素和聚戊糖含量分析模型適用于非精確性測定。混合程度(桉木質(zhì)量分數(shù))和化學成分含量分布基本覆蓋了可能的取值范圍，模型適應(yīng)性好。

3.2本研究證實了LASSO算法用于混合制漿原料分析的可行性，這為算法擇優(yōu)以建立更精確的校正模型提供了更多的可能。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于LASSO法的桉木-相思混合制漿原料近紅外分析模型的建立

1 材料與方法

2 結(jié)果與討論

3 結(jié) 論