趙靜遠(yuǎn) 熊智新,* 梁 龍 房桂干
(1.南京林業(yè)大學(xué)江蘇省制漿造紙科學(xué)與技術(shù)重點(diǎn)實(shí)驗(yàn)室,江蘇南京,210037;2.中國林業(yè)科學(xué)研究院林產(chǎn)化學(xué)工業(yè)研究所,江蘇南京,210042)
對于不同種類的造紙纖維原料,采用的制漿造紙工藝以及生產(chǎn)的紙漿性能也不同,主要原因是造紙纖維原料中的纖維素、半纖維素、木質(zhì)素、抽提物和灰分等組分的含量差異。造紙纖維原料的分類不僅包括植物分類學(xué),還應(yīng)該與其獨(dú)有的纖維特性及其制漿工藝聯(lián)系起來[1],合理地對造紙纖維原料進(jìn)行分類,有利于正確評價它們的制漿性能并制定相應(yīng)的制漿工藝條件。
在制漿生產(chǎn)和科研實(shí)踐中,已經(jīng)積累了大量有關(guān)造紙纖維原料的材性資料。同時,通過以近紅外光譜(Near Infrared Spectroscopy,NIRS)為代表的過程分析技術(shù)(Process Analytical Technology,PAT)也可以快速獲取大量的造紙纖維原料化學(xué)組分[2-4]的數(shù)據(jù)。因此,有必要以這些數(shù)據(jù)為基礎(chǔ),研究如何采用現(xiàn)代數(shù)據(jù)分析手段對造紙纖維原料進(jìn)行及時、客觀、合理的評價,進(jìn)而指導(dǎo)生產(chǎn)和管理,這將有利于進(jìn)一步提高制漿造紙工業(yè)的自動化和智能化水平。在造紙纖維原料綜合評價方面,吳新生等[1]運(yùn)用主成分分析法對造紙纖維原料進(jìn)行了有效分類;任建中等[5]利用主成分分析法,對楊樹無性系進(jìn)行優(yōu)良無性系多性狀選擇,并作為無性系選擇的參考。但主成分分析法存在一定的缺陷[6],雖然該方法對大量的高維數(shù)據(jù)指標(biāo)進(jìn)行了有效降維處理,也克服了評價指標(biāo)之間存在的相關(guān)性問題,但若評價指標(biāo)體系中存在一部分變量高度相關(guān),而其他變量低度相關(guān)時,則可能會導(dǎo)致不重要指標(biāo)間的信息重疊強(qiáng)化,使得評價結(jié)果無法真實(shí)地反映實(shí)際情況,并且運(yùn)用主成分分析法得到對應(yīng)的主成分含義不明確[7]。
針對主成分分析法在綜合評價中的不足之處,本研究采用基于實(shí)數(shù)編碼的加速遺傳算法(Real-coded Accelerating Genetic Algorithm,RAGA)與投影尋蹤分類(Projection Pursuit Classification,PPC)模型相結(jié)合的方法,構(gòu)建了RAGA-PPC模型,并對我國常用造紙纖維原料進(jìn)行有效的分類和綜合評價。PPC模型能有效排除與數(shù)據(jù)結(jié)構(gòu)特征及特征關(guān)系很小的變量間的干擾,找到樣本數(shù)據(jù)間的內(nèi)在聯(lián)系,可以滿足高維非正態(tài)數(shù)據(jù)分析的需要,現(xiàn)已被廣泛應(yīng)用于水利[8-11]、農(nóng)業(yè)[12-13]、土木工程[14]、林業(yè)[15]、輕工業(yè)[16]等行業(yè)。利用RAGA-PPC模型不僅可以有效計算出投影值的大小并對造紙纖維原料進(jìn)行分類,還可以通過最佳投影方向找出對造紙纖維原料分類影響最大的因素。
PPC模型的基本思想[17]是將多組高維數(shù)據(jù)通過降維的方法,投影到低維的子空間上,找出能反映高維數(shù)據(jù)結(jié)構(gòu)或特征的投影值,然后通過投影值的大小及投影方向來分析高維數(shù)據(jù)的具體結(jié)構(gòu)特征。PPC模型的建模過程包括以下3個步驟。
(1)樣本評價指標(biāo)的歸一化處理。設(shè)每個指標(biāo)值的樣本集為{x*(i,j)|i=1,2,…,n;j=1,2,…,p},其中x*(i,j)表示第i個樣本中的第j個評價指標(biāo),n和p分別表示樣本的個數(shù)和評價指標(biāo)的個數(shù)。為了消除各樣本指標(biāo)值的量綱差異和統(tǒng)一各樣本評價指標(biāo)值的變化范圍,采用下式進(jìn)行極值的歸一化處理:
其中,xmax(j)和xmin(j)分別為第j個指標(biāo)值的最大值和最小值,x(i,j)為指標(biāo)特征值的歸一化序列。本文研究僅分類而不進(jìn)行優(yōu)選排序,為簡化計算以提高方法的通用性,指標(biāo)都按式(1)進(jìn)行歸一化處理。
(2)構(gòu)造投影指標(biāo)函數(shù)Q(a)。將p維數(shù)據(jù){x(i,j)|j=1,2,…,p}綜合成以a={a(1),a(2),a(3),…,a(p)}為投影方向的一維投影值z(i):
然后再根據(jù){z(i)|i=1,2,…,n}的一維散布圖進(jìn)行分類。在綜合投影指標(biāo)值時,要求投影值的散布特征應(yīng)為:局部的投影點(diǎn)應(yīng)盡可能密集,最好凝聚成若干個點(diǎn)團(tuán),而在整體的投影上要求投影點(diǎn)團(tuán)之間盡可能散開。投影指標(biāo)的函數(shù)可以表示為:
其中,Sz為投影值的標(biāo)準(zhǔn)差,Dz為投影值的局部密度,即:
其中,E(z)為序列{z(i)|i=1,2,…,n}的評價值;R為局部密度的窗口半徑,其選取既要使包含在窗口內(nèi)部的投影點(diǎn)的平均個數(shù)不太少,避免滑動平均偏差太大,又不能使其隨著n的增大而增大太多,可根據(jù)實(shí)驗(yàn)來確定;r(i,j)表示樣本之間的距離,r(i,j)=|z(i)-z(j)|;u(t)為一單位階躍函數(shù),當(dāng)t≥0時,其函數(shù)值為1,當(dāng)t<0時,其函數(shù)值為0。
(3)優(yōu)化投影指標(biāo)函數(shù)。當(dāng)各指標(biāo)值的樣本集給定時,投影指標(biāo)函數(shù)Q(a)只是隨著投影方向a的變化而變化。不同的投影方向反映不同的數(shù)據(jù)結(jié)構(gòu)特征,最佳投影方向就是最大可能暴露高維數(shù)據(jù)某類特征結(jié)構(gòu)的投影方向,因此可以通過求解投影指標(biāo)函數(shù)最大化問題來估計最佳的投影方向,即:
這是一個以{a(j)|j=1,2,…,p}為優(yōu)化變量的復(fù)雜非線性優(yōu)化問題,采用傳統(tǒng)的優(yōu)化方法較難處理。因此,本研究采用模擬生物優(yōu)勝劣汰與群體內(nèi)部染色體信息交換機(jī)制的基于實(shí)數(shù)編碼的RAGA來解決高維全局尋優(yōu)問題。
RAGA[14]是一種改進(jìn)的基于實(shí)數(shù)編碼的加速遺傳算法,克服了二進(jìn)制編碼的缺點(diǎn),使得個體的編碼長度等于其決策變量數(shù),由此也使得算法的尋優(yōu)能力大幅增強(qiáng)。
RAGA模型的建模過程包括以下8個步驟。設(shè)求解最優(yōu)化問題:
(1)優(yōu)化變量的實(shí)數(shù)編碼,在所有優(yōu)化變量的取值區(qū)間內(nèi)產(chǎn)生均勻分布的隨機(jī)變量。
(2)將父代種群初始化,即將產(chǎn)生的均勻隨機(jī)數(shù)優(yōu)化后,計算得到目標(biāo)函數(shù)值,并進(jìn)行從大到小的排序。
(3)計算父代種群的適應(yīng)度評價,即計算基于序的評價函數(shù)(用eval(v)表示)。
(4)進(jìn)行選擇操作,產(chǎn)生新的種群。
(5)對步驟(4)中產(chǎn)生的新種群進(jìn)行交叉操作。
(6)對步驟(5)中產(chǎn)生的新種群進(jìn)行變異操作。
(7)計算經(jīng)遺傳進(jìn)化得到新個體的適應(yīng)度函數(shù)并排序,確定優(yōu)秀個體。
(8)遺傳算法加速。
上述前7個步驟構(gòu)成標(biāo)準(zhǔn)遺傳算法(Standard Genetic Algorithm,SGA)。由于SGA尋優(yōu)效率的有效性較差,不能保證全局的收斂性。因此,將SGA進(jìn)化所產(chǎn)生的優(yōu)秀個體變化區(qū)間作為下次迭代時優(yōu)化變量的新變化空間后,算法轉(zhuǎn)入步驟(1),開始下一代的SGA進(jìn)化迭代計算。
在步驟(8)中,優(yōu)秀個體的變化區(qū)間逐漸縮小,與最優(yōu)點(diǎn)的距離將越來越近,算法因此加速運(yùn)行,直到最優(yōu)個體的目標(biāo)函數(shù)值小于某一設(shè)定值或算法運(yùn)行達(dá)到預(yù)定的加速次數(shù)時,算法結(jié)束。以上8個步驟構(gòu)成了基于實(shí)數(shù)編碼的RAGA。
建立PPC模型時,將最大化的投影指標(biāo)函數(shù)Q(a)作為目標(biāo)函數(shù),并將各個指標(biāo)的投影方向a(j)作為優(yōu)化變量,運(yùn)用RAGA算法求出最佳投影方向a',再用a'計算各樣本的投影值z(i)。然后根據(jù)各樣本的投影值對其進(jìn)行分類,同時通過最佳投影方向的值來對分類結(jié)果的合理性進(jìn)行綜合分析。
我國造紙工業(yè)所用植物纖維原料種類繁多,大致可分為木材纖維原料、非木材纖維原料和半木材纖維原料三大類。水分、灰分、1%NaOH抽出物、聚戊糖、木質(zhì)素和纖維素作為植物纖維原料中不可或缺的物質(zhì),對植物的生長發(fā)育起著重要的作用,同時對造紙工藝過程的制定和工藝參數(shù)的調(diào)整有直接影響[18-19]。本研究選用文獻(xiàn)[18]中木材纖維原料(包括針葉木纖維原料和闊葉木纖維原料)和非木材纖維原料(禾本科纖維原料)的數(shù)據(jù),建立用于常見造紙纖維原料分類的RAGA-PPC模型并進(jìn)行綜合評價,選定水分C1、灰分C2、1%NaOH抽出物C3、聚戊糖C4、木質(zhì)素C5、纖維素C6 6個主要指標(biāo)作為評價因素,具體數(shù)據(jù)如表1所示。
對表1中的15種造紙纖維原料通過投影尋蹤算法建立綜合分類評價的PPC模型。在實(shí)施RAGA的過程中,選取父代的種群規(guī)模為n=380,交叉概率pc=0.80,變異概率pm=0.80,選取了20個優(yōu)秀的個體,加速次數(shù)為6次,加速循環(huán)280次。經(jīng)計算得到最大的目標(biāo)函數(shù)值為0.4461,最佳投影方向?yàn)閍'=(0.0390,0.2500,0.5137,0.8203,0,0.0198),將a'和表1中各樣本指標(biāo)值代入式(3)后可得到15種造紙纖維原料的綜合評價投影值z(i)=(0.2103,0.1531,0.2104 ,0.2558,0.2103,0.2103,0.2104,1.0308,0.7646,1.1396,0.9796,0.9280,1.2770,1.3854,1.3825)。
表1 我國造紙纖維原料及其主要化學(xué)成分 %
為了對15種造紙纖維原料進(jìn)行正確的分類,將投影值z(i)從大到小進(jìn)行排序,并結(jié)合樣本序號作散點(diǎn)圖(如圖1所示),利用這組散點(diǎn)數(shù)據(jù)則可建立相應(yīng)的PPC評價模型。
利用RAGA-PPC模型,得到各種造紙纖維原料的投影值,將投影值和樣本序號建立關(guān)系,得到如下模型y*(i):
該模型擬合曲線(見圖1)的復(fù)相關(guān)系數(shù)達(dá)0.9243。利用模型y*(i)計算15個造紙纖維原料序號對應(yīng)的值,預(yù)測結(jié)果列于表2的第3列,實(shí)際序號與計算值的平均絕對誤差為0.9808,平均相對誤差為14.40%,說明在遺傳算法下建立的RAGA-PPC模型擬合精度較高。對照表1和圖1也可以看出,同一類別造紙纖維原料的投影值相差小,且散點(diǎn)分布位置相距較近而呈聚集狀態(tài)。其中,1#云杉、2#魚鱗松、3#毛紫冷杉、4#真杉、5#馬尾松、6#落葉松和7#紅松的投影值比較相近,散點(diǎn)分布在圖1的左上方,它們同屬于針葉材。草類則位于右下方。10#慈竹、11#白夾竹和12#毛竹的投影值很接近,同屬于竹類,并與8#樺木和9#楊木的投影值也很接近,散點(diǎn)聚集于圖1中間,但兩者與針葉材和草類區(qū)分明顯。
圖1 15種造紙纖維原料投影值與樣本序號散點(diǎn)圖
表2 我國造紙原材料劃分RAGA-PPC模型計算結(jié)果
因此,利用RAGA-PPC模型可較好地表達(dá)針葉材、闊葉材、竹類和草類這4類造紙纖維原料的主要類別特性,預(yù)測結(jié)果具有較好的精度和可解釋性。為驗(yàn)證模型的有效性,選取文獻(xiàn)[18]中的另4組數(shù)據(jù)并代入RAGA-PPC模型預(yù)測類別,結(jié)果如表3所示。步驟如下:先利用前面通過優(yōu)化計算得到的最佳投影方向a'=(0.0390,0.2500,0.5137,0.8203,0,0.0198)計算4組樣本數(shù)據(jù)的投影值,再將投影值代入模型y*(i)(見式(10))中,根據(jù)計算值在圖1中所處的編號區(qū)間確定4組樣本的類別歸屬,結(jié)果如表4所示。從表4可以看出,RAGA-PPC模型能夠有效地區(qū)分各類不同的造紙纖維原料。盡管蔗渣在生物學(xué)上屬于草類,但由于其灰分比草類低(通常為稻草的1/5,麥草的1/3~1/2),驗(yàn)算結(jié)果表明其化學(xué)組成分類特性更接近于竹類。
利用RAGA-PPC模型不僅能很好地對各類造紙纖維原料進(jìn)行分類識別,而且還能根據(jù)最佳投影方向的大小,分析出各評價指標(biāo)對造紙原材料分類評價的影響大小,并解釋其中存在的差異性。圖2為各評價指標(biāo)及其最佳投影方向a'直方圖。由圖2可以看出,戊聚糖、灰分和1%NaOH抽出物是影響造紙纖維原料分類的重要因素。戊聚糖含量可近似地反映原料中半纖維素的含量。在各種造紙纖維原料中,針葉材的戊聚糖含量最少,而闊葉材中的戊聚糖含量與竹類、草類的戊聚糖含量相近。從圖1可以明顯看出,由于戊聚糖含量的差異,針葉材分布的位置與闊葉材相距較遠(yuǎn),闊葉材分布的位置與竹類、草類相距較近。對于針葉材和闊葉材來說,燃燒后產(chǎn)生的灰分較少,較難蒸煮,而草類產(chǎn)生的灰分較多,較易蒸煮;而竹類的灰分介于草類和木材類之間,蒸煮難度也介于兩者之間。由圖1可以看出,竹類的散點(diǎn)分布位置介于草類和闊葉材之間,與實(shí)際情況相符。木材中的1%NaOH抽出物主要分為萜類化合物、脂肪族化合物和芳香族化合物。萜類化合物主要存在于針葉材的抽提物中,脂肪族化合物多存在于竹類和草類的抽提物中,針葉材和闊葉材中都含有芳香族化合物。因此,造紙纖維原料抽出物中的化學(xué)成分差異性也是導(dǎo)致分類結(jié)果不同的重要因素。
表3 選取進(jìn)行模型驗(yàn)證的我國造紙纖維原料及其主要化學(xué)成分 %
表4 模型驗(yàn)證計算結(jié)果及分類結(jié)果
圖2 造紙纖維原料評價指標(biāo)與最佳投影方向直方圖
采用基于實(shí)數(shù)編碼的加速遺傳算法投影尋蹤(RAGA-PPC)模型,將各種造紙纖維原料的多維評價指標(biāo)綜合成一維投影指標(biāo),建立了造紙纖維原料的評價模型,并進(jìn)行了有效分類和綜合評價。實(shí)例研究結(jié)果表明,RAGA-PPC模型能找到各造紙纖維原料評價指標(biāo)的最佳投影方向,且該方向可較好地反映造紙纖維原料的主要分類特性。RAGA-PPC模型預(yù)測計算簡單,分類正確,可解釋性強(qiáng),并能直觀地看出投影分類后造紙纖維原料的分布情況,為涉及造紙纖維原料多因素、多樣本的分類和綜合評價提供了新途徑。