(浙江工業(yè)大學(xué) 信息工程學(xué)院,杭州 310013)
近年來(lái),在現(xiàn)代生產(chǎn)過(guò)程中,對(duì)產(chǎn)品質(zhì)量的要求越來(lái)越高,必須對(duì)與產(chǎn)品質(zhì)量密切相關(guān)的關(guān)鍵變量進(jìn)行實(shí)時(shí)檢測(cè)。但是,在線分析儀表價(jià)格昂貴、維護(hù)保養(yǎng)復(fù)雜;而通過(guò)離線實(shí)驗(yàn)室分析結(jié)果存在滯后大等原因,將導(dǎo)致控制質(zhì)量的性能下降,難以滿足生產(chǎn)要求。為了解決這個(gè)問(wèn)題,以推斷控制為基礎(chǔ)的軟測(cè)量建模方法及其應(yīng)用技術(shù)取得了廣泛的關(guān)注[1-3]。
軟測(cè)量建模的基本思想就是選擇一組與主導(dǎo)變量相關(guān)的且易測(cè)量的輔助變量,并構(gòu)造關(guān)于輔助變量和主導(dǎo)變量的數(shù)學(xué)模型,實(shí)現(xiàn)對(duì)主導(dǎo)變量的在線估計(jì)[4-5],其中最為關(guān)鍵的問(wèn)題之一就是如何選取合適的輔助變量。目前,國(guó)內(nèi)外對(duì)輔助變量選擇進(jìn)行了大量的研究。其中,基于統(tǒng)計(jì)技術(shù)的變量選擇方法被較多的采用。2006年,Emet等人[6]提出了一種直接優(yōu)化 AIC準(zhǔn)則,將變量選擇描述成一個(gè)混合整數(shù)非線性(MINLP, Mixed Integer Nonlinear Programming)優(yōu)化問(wèn)題,該方法可以找到具有較優(yōu)建模效果的輔助變量子集,但是由于目標(biāo)函數(shù)為非線性且非凸,當(dāng)候選輔助變量過(guò)多時(shí),會(huì)導(dǎo)致求解時(shí)間過(guò)長(zhǎng),甚至難以找到最優(yōu)解;2017年,Jian等人[7]在MINLP優(yōu)化問(wèn)題的基礎(chǔ)上,提出了一種基于BIC準(zhǔn)則的嵌套式MIQP的變量選擇方法,該方法大大縮短了求解時(shí)間,但是該方法的求解結(jié)果容易陷入局部最優(yōu)。
除此之外,建立具有出眾預(yù)測(cè)性能的軟測(cè)量模型仍然是一件困難的工作。一方面,現(xiàn)代工業(yè)通常存在很強(qiáng)的非線性,導(dǎo)致主成分回歸[8-9],偏最小二乘[10-11]等線性軟測(cè)量模型的預(yù)測(cè)精度下降[12];另一方面,現(xiàn)代生產(chǎn)過(guò)程中,通常存在多個(gè)重要且難以測(cè)得的主導(dǎo)變量。因此建立有非線性解釋能力的多輸出軟測(cè)量模型極為重要,而神經(jīng)網(wǎng)絡(luò)憑借網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)和非線性計(jì)算能力,廣泛應(yīng)用于軟測(cè)量建模、模式識(shí)別、預(yù)測(cè)等領(lǐng)域[13-14],2018年,Qiu等人[15]提出了一種基于深層神經(jīng)網(wǎng)絡(luò)的多輸出軟測(cè)量建模方法,其核心在于通過(guò)VIP方法進(jìn)行輔助變量選擇,然后將所獲得輔助變量子集代入深度神經(jīng)網(wǎng)絡(luò)進(jìn)行多輸出軟測(cè)量模型建立,該方法所建立污水處理模型具有較優(yōu)的預(yù)測(cè)性能,但是通過(guò)VIP方法選擇輔助變量需要選取一個(gè)合適的VIP閾值,閾值過(guò)小,使得選取輔助變量過(guò)多,會(huì)導(dǎo)致模型過(guò)擬合;而閾值過(guò)大,使得選取輔助變量太少,從而導(dǎo)致模型欠擬合。
本文在嵌套式MIQP的基礎(chǔ)上進(jìn)一步簡(jiǎn)化,將MINLP問(wèn)題分成內(nèi)外兩層結(jié)構(gòu),外層采用啟發(fā)式算法(本文采用遺傳算法(GA, Genetic Algorithm)對(duì)二元整數(shù)變量進(jìn)行尋優(yōu),內(nèi)層在整數(shù)變量固定之后退化成了最小二乘求解(LS, Least Square),進(jìn)一步分析提出了基于GA和LS的變量選擇方法(GA-LS),實(shí)驗(yàn)結(jié)果表明,該方法能夠較好地避免局部最優(yōu)的情況方法,而且當(dāng)候選輔助變量過(guò)多時(shí),該方法能夠以更快的速度獲得更優(yōu)的輔助變量子集。但是,實(shí)驗(yàn)結(jié)果表明該方法存在精度不夠的問(wèn)題,即使用BIC準(zhǔn)則雖然能夠較好的估計(jì)預(yù)測(cè)誤差,但是在某些數(shù)據(jù)集中與真實(shí)預(yù)測(cè)誤差仍存在較大差距。在后續(xù)研究中,為了更好的估計(jì)預(yù)測(cè)誤差,本文通過(guò)耦合訓(xùn)練集的BIC準(zhǔn)則以及驗(yàn)證集的MSE準(zhǔn)則用于更精確的估計(jì)預(yù)測(cè)誤差,并且仍將其描述為MINLP優(yōu)化問(wèn)題,并進(jìn)一步分析提出了基于混合準(zhǔn)則的變量選擇方法(GA-NLP),該方法能夠獲得更優(yōu)的輔助變量子集。從而建立預(yù)測(cè)性能更好的模型。
綜上所述,本文在基于BIC準(zhǔn)則的MINLP優(yōu)化問(wèn)題的基礎(chǔ)上,提出了GA-LS和GA-NLP兩種輔助變量選擇方法。并且將所得到的輔助變量子集通過(guò)BP神經(jīng)網(wǎng)絡(luò)建立軟測(cè)量模型,實(shí)驗(yàn)結(jié)果表明:通過(guò)GA-LS方法能夠以較快的速度獲得能夠具有較優(yōu)預(yù)測(cè)性能模型的輔助變量子集;而通過(guò)GA-NLP雖然求解時(shí)間較長(zhǎng),但是所獲得的輔助變量子集能夠建立預(yù)測(cè)性能更優(yōu)的模型。
多變量統(tǒng)計(jì)分析方法,如主成分回歸[12-13],多元線性回歸,偏最小二乘[14-15]等,是最常用的軟測(cè)量模型。其中,MLR模型基于其簡(jiǎn)便的分析表達(dá)式的特點(diǎn)[14],被廣泛用于輔助變量選擇。MLR模型表示如下:
Y=Xβ+ε
E(ε)=0
Cov(ε)=σ2I
(1)
其中:
對(duì)于軟測(cè)量模型,其主要任務(wù)是預(yù)測(cè)未知數(shù)據(jù)。建立模型的質(zhì)量應(yīng)根據(jù)其泛化性能進(jìn)行評(píng)估。因此,在評(píng)估預(yù)測(cè)模型時(shí),需要關(guān)注的應(yīng)該是測(cè)試數(shù)據(jù)的預(yù)測(cè)誤差,而不是訓(xùn)練數(shù)據(jù)的誤差[7]。但是精確地測(cè)量測(cè)試數(shù)據(jù)的預(yù)測(cè)誤差是不可能的,只能通過(guò)其它方法對(duì)測(cè)試數(shù)據(jù)的預(yù)測(cè)誤差進(jìn)行估計(jì)。其中一種方法就是計(jì)算模型的復(fù)雜性,然后將其添加到模型訓(xùn)練誤差中。而對(duì)于線性模型,模型中變量的數(shù)量可以表征模型的復(fù)雜性。因此,本文選取上述BIC準(zhǔn)則作為軟測(cè)量評(píng)價(jià)準(zhǔn)則,其定義如下:
BIC=-2lnL+plnn
(2)
其中:L為似然函數(shù),由于本文使用MLR模型用于變量選擇,似然函數(shù)L定義如下[7]:
(3)
輔助變量選擇旨在選擇出主導(dǎo)變量密切相關(guān)的輔助變量子集。Emet等人[6]為了實(shí)現(xiàn)這個(gè)目的,引入一組0-1決策變量zj,j=1,2,…,m用于選擇輔助變量,若第j個(gè)變量被選中,則zj=1,否則zj=0。然后,通過(guò)引入大M約束可以實(shí)現(xiàn)變量選擇的目的:
-Mzj≤bj≤Mzj(j=1,2,…,m)
(4)
其中:M為一個(gè)足夠大的正數(shù),-M和M分別為回歸系數(shù)向量bj的上下界。
由于BIC是一個(gè)估計(jì)真實(shí)預(yù)測(cè)誤差的有效指標(biāo),故將BIC準(zhǔn)則作為模型的目標(biāo)函數(shù),最小化BIC/AIC準(zhǔn)則,可以將變量選擇問(wèn)題表示為如下MINLP問(wèn)題:
(5)
值得注意的是,由于MINLP優(yōu)化問(wèn)題中的目標(biāo)函數(shù)是一個(gè)非線性且非凸的函數(shù),當(dāng)候選變量數(shù)量過(guò)大時(shí)(m>40),將難以找到最優(yōu)解。2009年,Hastie等人的研究[1]表明隨著模型復(fù)雜度的增加,測(cè)試誤差會(huì)先降低;但當(dāng)復(fù)雜度高于某一臨界值時(shí),測(cè)試數(shù)據(jù)的預(yù)測(cè)效果卻越來(lái)越差。Jian等人基于這個(gè)原理在MINLP優(yōu)化問(wèn)題基礎(chǔ)上,進(jìn)一步簡(jiǎn)化,提出了一種嵌套式MIQP的變量選擇方法,表示如下:
minJ=GIC
-Mzj≤bj≤Mzj(j=1,2,…,m)
(6)
該優(yōu)化問(wèn)題通過(guò)外層目標(biāo)函數(shù),參數(shù)化所選變量個(gè)數(shù)k,并在內(nèi)層中,持續(xù)求解一個(gè)MIQP 問(wèn)題,直至外層目標(biāo)函數(shù)結(jié)果變差為止。
本文將MINLP問(wèn)題分成內(nèi)外兩層結(jié)構(gòu),外層采用啟發(fā)式算法(本文采用遺傳算法(Genetic Algorithm, GA))對(duì)二元整數(shù)變量進(jìn)行尋優(yōu),內(nèi)層在整數(shù)變量固定之后退化成了較易于求解的非線性規(guī)劃問(wèn)題(Nonlinear Programming, NLP)。在此基礎(chǔ)上經(jīng)過(guò)進(jìn)一步分析提出了基于GA和最小二乘(Least Squares, LS)的變量選擇方法(GA-LS)。
首先,通過(guò)固定每一次進(jìn)行建模的輔助變量子集時(shí),原MINLP優(yōu)化問(wèn)題進(jìn)一步簡(jiǎn)化為NLP問(wèn)題,而該NLP問(wèn)題的本質(zhì)就是最小二乘求解;然后,通過(guò)搜索算法找到具有最優(yōu)預(yù)測(cè)性能(GIC)的輔助變量子集,而GA[17]具有直接對(duì)結(jié)構(gòu)對(duì)象進(jìn)行操作的特點(diǎn),正適合用來(lái)搜索最優(yōu)輔助變量子集。GA-LS的計(jì)算步驟總結(jié)如下:
1)數(shù)據(jù)預(yù)處理,對(duì)數(shù)據(jù)集進(jìn)行歸一化處理,并將數(shù)據(jù)集按照7:3的比例分為訓(xùn)練集和測(cè)試集,訓(xùn)練集用于輔助變量選擇,測(cè)試集用于驗(yàn)證所選子集效果;
2)隨機(jī)生成種群,即等概率0、1編碼的標(biāo)準(zhǔn)化矩陣,矩陣中行向量代表候選變量個(gè)數(shù)m,列向量代表遺傳算法種群大小N。并指定遺傳算法最大迭代次數(shù)500。
3)對(duì)于一組給定的有m個(gè)候選輔助變量的數(shù)據(jù)集,通過(guò)遺傳算法種群個(gè)體固定了一個(gè)有p個(gè)輔助變量的子集時(shí),原MINLP優(yōu)化問(wèn)題進(jìn)一步簡(jiǎn)化為一個(gè)NLP問(wèn)題:
(7)
4)其中p已知,故式(7)中的p*lnn是一個(gè)常數(shù)。故該NLP問(wèn)題實(shí)質(zhì)為均方誤差最小化問(wèn)題:
(8)
即簡(jiǎn)化為最小二乘法求解,其求解結(jié)果如下:
β=(XTX)-1XTY
(9)
當(dāng)目標(biāo)數(shù)據(jù)集為多輸出數(shù)據(jù)集時(shí),即主導(dǎo)變量為H=(Y1,Y2,…,Yh),則此時(shí)的求解結(jié)果為:
β=(XTX)-1XTY
(10)
5)建立子集模型后,通過(guò)式(4)計(jì)算個(gè)體的適應(yīng)度值,表達(dá)如下:
(11)
用于評(píng)價(jià)該子集模型的預(yù)測(cè)性能。
6)計(jì)算出種群中各個(gè)個(gè)體的適應(yīng)度后,保留適應(yīng)度最優(yōu)個(gè)體,共R個(gè)。
7)對(duì)其余個(gè)體進(jìn)行交叉和變異操作,其中選交叉算子為0.85,變異算子為0.02。
8)一輪遺傳迭代結(jié)束后,求出最佳個(gè)體,并與上一輪求得的最佳個(gè)體比較,較優(yōu)個(gè)體留下。轉(zhuǎn)到第1)步,開(kāi)始新一輪的迭代。
9)達(dá)到GA設(shè)定迭代次數(shù),則迭代結(jié)束。
上述GA-LS方法中的廣義信息標(biāo)準(zhǔn)(GIC)雖然能夠較好的估計(jì)預(yù)測(cè)誤差,但是不夠精確。于是本文通過(guò)耦合訓(xùn)練集的BIC準(zhǔn)則和驗(yàn)證集的MSE準(zhǔn)則用于更精確的估計(jì)預(yù)測(cè)誤差。進(jìn)一步提出了GA-NLP方法,該方法在GA-LS方法基礎(chǔ)上對(duì)步驟1、2、4、5進(jìn)行改進(jìn),改進(jìn)如下:
1)數(shù)據(jù)預(yù)處理,對(duì)數(shù)據(jù)集進(jìn)行歸一化處理,并將數(shù)據(jù)集按照5:2:3的比例分為訓(xùn)練集、驗(yàn)證集和測(cè)試集,訓(xùn)練集、驗(yàn)證集用于輔助變量選擇,測(cè)試集用于驗(yàn)證所選子集效果;
2)通過(guò)耦合訓(xùn)練集的BIC準(zhǔn)則和驗(yàn)證集的MSE準(zhǔn)則用于更精確的估計(jì)預(yù)測(cè)誤差,仍表達(dá)為MINLP優(yōu)化問(wèn)題,其表達(dá)如下:
-Mzj≤bj≤Mzj(j=1,2,…,m)
zj∈{0,1} (j=1,2,…,m)
(12)
式中,n1,n2分別為訓(xùn)練集和驗(yàn)證集的過(guò)程數(shù)據(jù)長(zhǎng)度,ε1,ε2分別為訓(xùn)練集和驗(yàn)證集的模型預(yù)測(cè)誤差。
4)對(duì)于一組給定的有m個(gè)候選輔助變量的數(shù)據(jù)集,通過(guò)遺傳算法種群個(gè)體固定了一個(gè)有p個(gè)輔助變量的子集時(shí),原MINLP優(yōu)化問(wèn)題進(jìn)一步簡(jiǎn)化為一個(gè)NLP問(wèn)題:
(13)
當(dāng)目標(biāo)數(shù)據(jù)集為多輸出數(shù)據(jù)集時(shí),即主導(dǎo)變量為H=(Y1,Y2,…,Yh),則需要多次求解NLP問(wèn)題。
5)通過(guò)求解NLP問(wèn)題建立子集模型,通過(guò)式(14)計(jì)算個(gè)體適應(yīng)度值;
(14)
式中,J(i),i=1,…,h是H中每個(gè)主導(dǎo)變量Y,i=1,…,h對(duì)應(yīng)的NLP求解結(jié)果。
本文從UCI數(shù)據(jù)庫(kù)中選取了3組數(shù)據(jù)集以及1組廢水處理數(shù)據(jù)集[18](WWTP)進(jìn)行了仿真實(shí)驗(yàn)。其中,數(shù)據(jù)集WWTP有四個(gè)輸出變量可以被預(yù)測(cè)(生物需氧量、化學(xué)需氧量、懸浮固體和沉積物)。
對(duì)于CCPP[19]數(shù)據(jù)集,本文在原始數(shù)據(jù)集的基礎(chǔ)上生成了二階多項(xiàng)式特征,對(duì)于數(shù)據(jù)集Crime[20]和WWTP數(shù)據(jù)集,原始數(shù)據(jù)集中包含缺失值的變量被剔除。在輔助變量選擇前,對(duì)所有實(shí)驗(yàn)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,即它們的列均值(每一個(gè)過(guò)程變量的均值)都為0,方差都為1。
本文使用CCPP及Crime兩個(gè)數(shù)據(jù)集作為單輸出測(cè)試用例。為了評(píng)估GA-LS和GA-NLP的性能,本文對(duì)該算法進(jìn)行了實(shí)驗(yàn)仿真及分析,并與MINLP-MLR、MIQP-MLR兩種方法進(jìn)行比較,其中MINLP-MLR使用BARON求解器進(jìn)行求解;MIQP-MLR使用CPLEX求解器進(jìn)行求解。求解的結(jié)果通過(guò)BP模型進(jìn)行建模,并且采用測(cè)試集的均方根誤差RMSEP和測(cè)試集的模型決定系數(shù)R2P兩個(gè)指標(biāo)對(duì)模型的性能進(jìn)行評(píng)價(jià)。兩個(gè)指標(biāo)定義如下:
(15)
(16)
在表2中,顯示了4種方法的預(yù)測(cè)效果。其中,p表示最終輔助變量子集的變量個(gè)數(shù);RMSEP和R2P為預(yù)測(cè)模型評(píng)價(jià)指標(biāo),其中,RMSEP的值越小越好,R2P的值越接近1越好。CPU(s)代表該方法進(jìn)行變量選擇所使用的時(shí)間。所有比較方法的最佳fval/R2P/RMSEP值和最小時(shí)間成本用粗體字表示。
由表2可得,本文所提出兩種方法所得預(yù)測(cè)精度優(yōu)于MINLP以及MIQP兩種方法。其中又以GA-NLP方法所得預(yù)測(cè)精度最高。
綜上所述,通過(guò)GA-LS方法能夠以較快的速度獲得能夠具有較優(yōu)預(yù)測(cè)性能模型的輔助變量子集;而通過(guò)GA-NLP雖然求解時(shí)間較長(zhǎng),但是所獲得的輔助變量子集能夠建立預(yù)測(cè)性能更優(yōu)的模型。
本文使用WWTP數(shù)據(jù)集作為多輸出測(cè)試用例。為了評(píng)估GA-LS以及GA-NLP方法的性能,本文對(duì)該算法進(jìn)行了實(shí)驗(yàn)仿真及分析,并與VIP方法進(jìn)行比較。三種方法比較結(jié)果如表3所示。
在表3中,顯示了3種方法的預(yù)測(cè)效果。其中,p表示最終輔助變量子集的變量個(gè)數(shù);RMSEP和R2P為預(yù)測(cè)模型評(píng)價(jià)指標(biāo),其中,RMSEP的值越小越好,R2P的值越接近1越好。所有比較方法的最佳R2P/RMSEP值用粗體字表示。
由表3可得,本文所提出兩種方法所得預(yù)測(cè)精度優(yōu)于VIP方法。其中又以GA-NLP方法所得預(yù)測(cè)精度最高。
預(yù)測(cè)輸出曲線如圖1~4所示。
表1 UCI 數(shù)據(jù)集
表2 單輸出數(shù)據(jù)集預(yù)測(cè)結(jié)果
表3 多輸出數(shù)據(jù)集預(yù)測(cè)結(jié)果
圖1 RD-DBO-G的預(yù)測(cè)輸出與實(shí)際輸出
圖2 RD-DQO-G的預(yù)測(cè)輸出與實(shí)際輸出
圖3 RD-SS-G的預(yù)測(cè)輸出與實(shí)際輸出
圖4 RD-SS-G的預(yù)測(cè)輸出與實(shí)際輸出
用過(guò)上面4幅預(yù)測(cè)輸出與實(shí)際輸出對(duì)比圖可以發(fā)現(xiàn),本文提出的兩種方法所得預(yù)測(cè)輸出明顯優(yōu)于VIP方法所得預(yù)測(cè)輸出;而所提出的耦合準(zhǔn)則(BIC+MSE)方法所得結(jié)果也優(yōu)于單一準(zhǔn)則(BIC)方法所得結(jié)果。
輔助變量選擇對(duì)于構(gòu)建軟傳感器非常重要。為了選擇最佳的輔助變量子集,提出了一種遺傳算法結(jié)合MINLP問(wèn)題的輔助變量選擇方法(GA-LS),并在GA-LS的基礎(chǔ)上,通過(guò)耦合訓(xùn)練集的BIC準(zhǔn)則以及驗(yàn)證集的MSE準(zhǔn)則提出了一種更精確的輔助變量選擇方法(GA-NLP),并將所得輔助變量子集通過(guò)BP神將網(wǎng)絡(luò)建立軟測(cè)量模型。與其他方法相比,本文所提出的方法能夠很好保證所選變量的質(zhì)量。通過(guò)4組數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,該方法可以得到具有良好泛化能力的模型。本文還介紹了該方法在污水處理廠案例上的應(yīng)用,結(jié)果表明,所提出的變量選擇方法能夠好的與關(guān)鍵變量相關(guān)性高且變量數(shù)盡可能少地輔助變量子集,從而建立預(yù)測(cè)性能良好的模型。