任 超,葉澤甫,程 蘭,喬鐵柱,閻高偉
(1.太原理工大學(xué) 電氣與動力工程學(xué)院,山西 太原 030024;2.山西格盟中美清潔能源研發(fā)中心有限公司,山西 太原 030000)
由于工業(yè)現(xiàn)場高溫高壓、強酸強堿、強干擾等惡劣環(huán)境,很難直接采用硬件傳感器監(jiān)測關(guān)鍵質(zhì)量變量?;跀?shù)據(jù)驅(qū)動的軟測量被研究應(yīng)用于工業(yè)過程中難測參數(shù)的在線測量[1~3]。目前,應(yīng)用領(lǐng)域較為廣泛的數(shù)據(jù)驅(qū)動建模方法有以偏最小二乘(partial least square,PLS)回歸為代表的回歸分析 方 法[4];高 斯 過 程 回 歸[5,6]、支 持 向 量 機(support vector machine,SVM)[7,8]等基于統(tǒng)計學(xué)習(xí)發(fā)展起來的機器學(xué)習(xí)方法;以神經(jīng)網(wǎng)絡(luò)為代表的機器學(xué)習(xí)方法[9,10]等。但是,實際工業(yè)生產(chǎn)過程為了滿足產(chǎn)品多樣化的需求,具有多個穩(wěn)定工況;同時原料和生產(chǎn)環(huán)境的改變也會導(dǎo)致工況發(fā)生漂移,產(chǎn)生新的運行工況。在新工況缺乏標(biāo)記樣本時,由于新工況過程數(shù)據(jù)和歷史工況數(shù)據(jù)不再服從同樣的概率分布,工況變化造成原有模型失配,對軟測量帶來不利影響。
遷移學(xué)習(xí)是指從數(shù)據(jù)標(biāo)記量充足的源域中學(xué)習(xí)知識,將其遷移至數(shù)據(jù)標(biāo)記量較少甚至沒有標(biāo)簽的目標(biāo)域,使得在目標(biāo)域上取得良好的學(xué)習(xí)效果。文獻[11]利用源域和目標(biāo)域數(shù)據(jù)的全局協(xié)方差結(jié)構(gòu),將2 個域的數(shù)據(jù)分別投影到對應(yīng)子空間,學(xué)習(xí)一種子空間對齊(subspace alignment,SA)的映射函數(shù)實現(xiàn)域適應(yīng)。文獻[12]提出一種聯(lián)合分布適配(joint distribution adaptation,JDA)方法,將源域和目標(biāo)域的邊緣分布和條件分布進行適配,在源域有少量樣本的情況下進行迭代,提高了分類器精度。文獻[13]將測地線流式核引入過程監(jiān)控,利用主成分分析(principal component analysis,PCA)獲取2 個域各自的差異信息后,在流形空間下進行遷移學(xué)習(xí),有效提高了故障診斷的準(zhǔn)確率。
由于遷移學(xué)習(xí)放寬了數(shù)據(jù)同分布假設(shè),當(dāng)新工況缺乏標(biāo)記樣本無法建模時,利用無監(jiān)督遷移學(xué)習(xí),將歷史工況數(shù)據(jù)與未標(biāo)記的新工況數(shù)據(jù)映射到同一空間,使用映射后的歷史工況數(shù)據(jù)建立模型,不需要從頭開始訓(xùn)練模型,節(jié)約了時間成本。但利用測地線流式核(geodesic flow kernel,GFK)進行域適應(yīng)時只關(guān)注了歷史工況和新工況的過程數(shù)據(jù)信息,在過程數(shù)據(jù)分布差異較大但標(biāo)簽數(shù)據(jù)分布差異較小的多工況下建模表現(xiàn)良好,卻忽略了歷史工況的標(biāo)簽信息,導(dǎo)致在標(biāo)簽變量分布差異較大的多工況下模型會失準(zhǔn)。
為提高模型在多工況過程下的適應(yīng)性,本文首先通過GFK對新工況樣本和已標(biāo)記的歷史工況樣本的過程變量進行域適應(yīng),減小工況過程變量數(shù)據(jù)分布差異,利用歷史工況的標(biāo)簽變量和域適應(yīng)后的數(shù)據(jù)獲取隱空間投影矩陣,對2個工況間遷移特征進行重構(gòu),最后利用支持向量回歸(support vector regression,SVR)模型實現(xiàn)多工況參數(shù)軟測量。
GFK[14]方法是指將2個域的子空間分別視為高維格拉斯曼流形空間上的兩點,選擇合適的子空間維度后,構(gòu)建兩點間測地線,并計算GFK,實現(xiàn)由源域投影變換至目標(biāo)域的過程。
在多工況運行過程中,假設(shè)采集到的歷史工況數(shù)據(jù)為XS,用二維矩陣形式表示為XS∈Rm×p,采集待測工況數(shù)據(jù)為XT,用二維矩陣表示為XT∈Rn×p,m 和n 分別為采集樣本數(shù),p為樣本具有的相同特征數(shù)。工況遷移過程如下:
1)構(gòu)建測地線
將歷史工況樣本XS當(dāng)作源域,待測工況樣本XT當(dāng)作目標(biāo)域,利用PCA獲取兩個域的子空間XS,XT。根據(jù)兩點間的最短距離定義測地線函數(shù)?(t),令?(0)=PS,?(1)=PT。兩點間最短距離函數(shù)定義為
2)計算GFK
將歷史工況樣本遷移至待測工況,針對兩工況下的樣本點xi和xj,xi,xj∈R1×p,即表示測地線函數(shù)從?(0)遷移至?(1),GFK由兩樣本點在測地線函數(shù)上的無窮維投影的內(nèi)積定義[14]
G作為半正定矩陣表述如下
式中 Λ為對角矩陣,Λ1i,Λ2i,Λ3i為對角元素,θi為PS和PT的主角。
假設(shè)某一工況數(shù)據(jù)ZS有m個樣本,建模變量有p個輔助過程變量{z1,z2,…,zp}和q個主導(dǎo)過程變量{y1,y2,…,yq},z,y∈Rm×1,其中,輔助變量矩陣Z =[z1,z2,…,zp],主導(dǎo)變量矩陣Y =[y1,y2,…,yq]。利用PLS思想可以提取出既能有效反映工況輔助過程變量信息又能很好地解釋工況主導(dǎo)變量變化規(guī)律的潛在特征。根據(jù)PLS 原理最終獲取p×r維投影矩陣W =[w1,w2,…,wr],r 為隱變量個數(shù),wr為矩陣EFr-1FEr-1特征值對應(yīng)的特征向量。E 和F分別為提取主成分過程中對Z和Y的殘差信息進行標(biāo)準(zhǔn)化處理的結(jié)果。
SVM是由Vapnik 等人提出的一種可用于回歸預(yù)測以及解決各種分類問題的機器學(xué)習(xí)方法,數(shù)學(xué)原理和公式推導(dǎo)詳見文獻[15]。SVR算法具備優(yōu)異的全局優(yōu)化性能,在維數(shù)較高且具備復(fù)雜非線性特點的數(shù)據(jù)回歸預(yù)測應(yīng)用中展現(xiàn)出了較好的泛化能力[16]。
對于多工況軟測量建模,運用GFK遷移域時將歷史工況作為源域,待測工況作為目標(biāo)域。將遷移后的歷史工況數(shù)據(jù)利用PLS獲取投影矩陣W,利用W將域適應(yīng)后的歷史工況和待測工況數(shù)據(jù)同時投影至PLS 隱空間,最后利用SVR對PLS隱空間下的重構(gòu)數(shù)據(jù)進行建模。本文提出GFK遷移隱空間投影(GFK latent space projection SVR,GFK-LSPSVR)建模方法,圖1為所提建模方法示意。利用SVR建模流程具體如下:
圖1 GFK遷移隱空間投影算法示意
算法1GFK遷移隱空間投影建模流程
輸入:歷史工況a 建模樣本Xa,歷史工況a 數(shù)據(jù)標(biāo)簽Ya,待測工況b建模樣本Xb。
輸出:待測工況b數(shù)據(jù)標(biāo)簽Yb。
1)利用PCA將Xa、Xb投影到流形空間得Pa、Pb,根據(jù)式(1)構(gòu)建測地線,并根據(jù)式(3)求得投影核G,進一步代入式(4)得到域適應(yīng)后的數(shù)據(jù)Za、Zb;
2)利用PLS對域適應(yīng)變換后的Za、Ya計算投影矩陣W;
3)根據(jù)W將Za映射到低維隱空間Ta=ZaW,將Zb映射到同一低維隱空間Tb=ZbW;
4)基于Ta,Ya建立SVR 預(yù)測模型,將Tb代入SVR 模型得到Y(jié)b。
本文采用TE 仿真實驗平臺進行多工況軟測量實驗。通過改變反應(yīng)器壓力和液位來模擬3 種不同工況條件,具體參數(shù)設(shè)置如表1 所示。選擇15 個過程變量作為被監(jiān)控變量[17]。對于每一種工況,分別采集1 000個樣本。
表1 TE3 種工況參數(shù)設(shè)置
將3種工況中的其中一種工況作為歷史數(shù)據(jù)集,預(yù)測另外2種工況下的反應(yīng)物A,C濃度值。為說明本文GFKLSP-SVR方法的有效性,將其預(yù)測結(jié)果與SVR,GFK(GFKSVR)遷移回歸以及常用于跨工況遷移軟測量建模的聯(lián)合分布適配(joint distribution adaptation SVR,JDA-SVR)遷移回歸,子空間對齊(subspace alignment SVR,SA-SVR)遷移回歸結(jié)果進行對比。本文實驗采用均方根誤差(root mean square error,RMSE)指標(biāo)定量分析不同建模方法下的反應(yīng)物濃度預(yù)測結(jié)果,如表2所示。
表2 各建模方法軟測量均方根誤差對比結(jié)果
圖2分別給出了上述5種建模方法對不同工況下反應(yīng)物A濃度的預(yù)測值,其中橫軸n表示樣本數(shù)。
圖2 工況二作為歷史工況對工況一成分A濃度預(yù)測
結(jié)合表2和圖2可知,針對非線性工況過程,基于SVR的軟測量模型可以較好地預(yù)測穩(wěn)定趨勢下的工況標(biāo)簽。但當(dāng)工況發(fā)生改變,尤其工況初期對預(yù)測工況前400 個樣本進行標(biāo)簽估計時,過程變量的均值和方差隨時間變化,其概率分布變化較為明顯,SVR軟測量模型失準(zhǔn);引入遷移學(xué)習(xí)策略后,JDA-SVR、SA-SVR 方法提取各工況間的方差信息進行域適應(yīng),通過適配或?qū)R工況分布差異信息來提取可遷移特征進行建模。GFK-SVR方法在流形空間下解決域遷移的問題,有效減小了工況過程變量數(shù)據(jù)分布差異,3 種方法都在一定程度上提高了軟測量精度。本文所提GFKLSP-SVR方法在流形空間域適應(yīng)基礎(chǔ)上進一步利用工況標(biāo)簽分布信息重構(gòu)隱空間特征,提高了建模特征對預(yù)測標(biāo)簽分布信息的表述能力,有效提升了軟測量模型預(yù)測精度。主成分分析提取工況一和工況二樣本的主成分,圖3(a)~(c)分別表示兩工況原始樣本、遷移樣本、隱空間遷移樣本的前三維空間表述。由圖中信息可知,兩工況原始數(shù)據(jù)的空間分布差異較為明顯;引入GFK 框架,在流形空間上充分考慮了工況樣本高維非線性數(shù)據(jù)的結(jié)構(gòu)特點進行域適應(yīng),減小了過程變量分布差異;隱空間投影進一步結(jié)合工況數(shù)據(jù)的差異信息和標(biāo)簽分布信息重構(gòu)特征,數(shù)據(jù)分布更加趨于一致。
圖3 數(shù)據(jù)經(jīng)過域適應(yīng)以及潛在空間投影的分布示意
針對由于工況數(shù)據(jù)分布差異而無法有效提升新工況下軟測量模型精度問題,本文在引入GFK減小工況過程變量分布差異的基礎(chǔ)上,利用已有工況的標(biāo)簽變量信息將域適應(yīng)特征投影至隱空間后建模。TE 仿真軟測量實驗結(jié)果表明,隱空間下的重構(gòu)特征更加充分利用了多工況數(shù)據(jù)分布信息,提高了建模精度。