李欣銅,陳志冰,魏志強,李蘇桐,陳旭,宋凱
(1 天津大學(xué)化工學(xué)院,天津 300350;2 航天長征化學(xué)工程股份有限公司,北京 100176;3 巨化清安檢測科技有限公司,浙江 衢州 324004;4 巨化股份有限公司,浙江 衢州 324004)
在現(xiàn)代化工行業(yè)中,尤其是對于產(chǎn)品廣泛應(yīng)用于工業(yè)、日常生活、醫(yī)學(xué)和核工業(yè)等各個領(lǐng)域的氟化工而言,產(chǎn)品質(zhì)量控制格外重要。工業(yè)生產(chǎn)上的質(zhì)量測量往往需要通過昂貴的儀器、實驗室分析和其他額外工作來實現(xiàn)。盡管在線成分分析儀的應(yīng)用日益廣泛,但受限于成本,工業(yè)實踐中通常是多套設(shè)備輪流共享一個在線成分分析儀。因此,重要成分質(zhì)量測量過程中高成本、低效率和滯后性大的缺點,仍然嚴重阻礙了質(zhì)量控制水平的進一步提高。另一方面,隨著大數(shù)據(jù)技術(shù)的飛速發(fā)展,集散控制系統(tǒng)(distributed control system,DCS)在線收集過程數(shù)據(jù)的能力越來越強。目前,開發(fā)質(zhì)量預(yù)測模型來提取變量中蘊含的大量特征信息,實現(xiàn)對產(chǎn)品質(zhì)量的精準預(yù)測,或者說實現(xiàn)質(zhì)量變量的軟測量,又一次成為了研究熱點。現(xiàn)階段常用的質(zhì)量預(yù)測方法主要包括:多元線性回歸(MLR)、主成分回歸(PCR)、偏 最 小 二 乘 法 (PLS)、 Fisher 判 別 分 析(FDA)、獨立成分回歸(ICR)等線性回歸方法。這些方法通常將原始測量數(shù)據(jù)投影到低維線性子空間上提取可變特征,然后在低維子空間內(nèi)構(gòu)建預(yù)測模型,從而有效處理具有多重共線性的高維數(shù)據(jù)。此外,還包括適用于非線性問題的神經(jīng)網(wǎng)絡(luò)PLS、徑向基函數(shù)PLS、核函數(shù)PLS、核函數(shù)PCR、核函數(shù)ICR 等非線性回歸方法。雖然這些研究已為實現(xiàn)在線產(chǎn)品質(zhì)量預(yù)測做出了開創(chuàng)性工作,但由于氟化工多種變量之間復(fù)雜的非線性關(guān)系,工業(yè)應(yīng)用仍然困難重重。更重要的是,氟化工過程中重要零件或設(shè)備的腐蝕、老化、結(jié)垢等變化具有不同的時間尺度特性。多種時間尺度特性的共存,使其成為一個時變特性非常復(fù)雜的過程。這種非線性與強時變特性復(fù)雜的耦合使得非線性方法甚至是常規(guī)的機器學(xué)習(xí)方法難以完成質(zhì)量預(yù)測任務(wù)。
隨著計算機技術(shù)(即計算速度、存儲容量)的快速發(fā)展,深度學(xué)習(xí)方法在質(zhì)量預(yù)測實踐中的應(yīng)用越來越普遍。在過去的幾年中,相比其他數(shù)據(jù)驅(qū)動方法,深度學(xué)習(xí)方法在許多領(lǐng)域吸引了更多的研究關(guān)注并展示出更佳的性能。Hinton 等證明了具有多個隱藏層的人工神經(jīng)網(wǎng)絡(luò)(ANN)所學(xué)習(xí)的特征對數(shù)據(jù)表征更為本質(zhì),這有助于提高分類性能。同時,“分層預(yù)訓(xùn)練”策略有效克服了訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)的困難。這些提議激發(fā)了學(xué)術(shù)界和工業(yè)界關(guān)于深度學(xué)習(xí)研究應(yīng)用的新熱潮,并逐步發(fā)展出深度人工 神 經(jīng) 網(wǎng) 絡(luò) (DANN)、 深 度 置 信 網(wǎng) 絡(luò)(DBN)、深度卷積神經(jīng)網(wǎng)絡(luò)(CNN)等。
CNN 能夠根據(jù)不同時間軸上輸入數(shù)據(jù)的特性進行參數(shù)的自適應(yīng)調(diào)整,以實現(xiàn)模型訓(xùn)練動態(tài)迭代。換句話說,CNN 是一種在數(shù)據(jù)處理過程中實現(xiàn)動態(tài)建模的方法。因此,CNN 非常適用于時間序列預(yù)測任務(wù),如工業(yè)過程的質(zhì)量預(yù)測任務(wù)。然而,由于氟化工過程的上述特征,常規(guī)CNN 的性能仍然不足以實現(xiàn)精準的質(zhì)量預(yù)測。
立足于上述氟化工過程所面臨的實際困難,本文提出了具有輸入數(shù)據(jù)注意力機制的卷積神經(jīng)網(wǎng)絡(luò)算法(ACNN),針對性地解決了氟化工數(shù)據(jù)帶有復(fù)雜而強烈時變特性的質(zhì)量預(yù)測難點問題,以滿足工業(yè)過程高水平質(zhì)量控制的需要。一方面,該算法作為基礎(chǔ)框架,可推廣到各類具有強時變特性過程的質(zhì)量預(yù)測任務(wù)當(dāng)中;另一方面,訓(xùn)練過程無需任何時變特性的先驗知識,最大限度地簡化了實際工業(yè)生產(chǎn)過程中訓(xùn)練、部署模型的步驟。雖然該方法作為深度學(xué)習(xí)算法在實踐中應(yīng)用尚存在一定挑戰(zhàn),例如,對計算機硬件水平的高要求、模型泛化性和訓(xùn)練時間等,但是其能夠充分利用氟化工生產(chǎn)過程中的海量數(shù)據(jù),具有大幅提高工業(yè)控制水平的潛力。將該方法應(yīng)用于氟化工生產(chǎn)數(shù)據(jù)和Tennessee Eastman(TE)模擬數(shù)據(jù),證實了算法的有效性,揭示了良好的工業(yè)應(yīng)用前景。
卷積神經(jīng)網(wǎng)絡(luò)(CNN)是一種典型的深度學(xué)習(xí)算法,受到生物過程的啟發(fā),其神經(jīng)元之間的連通性模式類似于動物視皮層的組織。越來越多的應(yīng)用有力地證明了CNN 在非線性監(jiān)督學(xué)習(xí)應(yīng)用中的優(yōu)越性。
常規(guī)的CNN 結(jié)構(gòu)包括一個輸入層、一個輸出層以及多個隱藏層。這些隱藏層通常由一系列卷積層、池化層、全連接層和歸一化層組成。卷積層的基本功能是特征提取,這是CNN 最重要的功能。常見的卷積核為正方形(即3×3、5×5等),以便從行和列中均勻提取變量特征。連續(xù)幾個卷積層之后添加一個池化層,以壓縮數(shù)據(jù)和減少參數(shù)數(shù)量,進而提高網(wǎng)絡(luò)學(xué)習(xí)的速度并避免過度擬合。通過多重卷積和池化提取到的特征圖被輸入全連接層,歸一為預(yù)測值,從而實現(xiàn)從輸入到最終輸出的特征提取及預(yù)測任務(wù)。常用的訓(xùn)練方法有Adam 算法、高級隨機梯度下降(SGD)算法和其他梯度下降方法等。另外,為了防止過度擬合,CNN 訓(xùn)練過程中還使用dropout算法。
相對于其他簡單的化工過程,氟化工過程的數(shù)據(jù)具有更復(fù)雜的時變特性。而這類時變特性往往體現(xiàn)在不同長度的時間跨度之中,無法被某一個時間序列所表征。受限于輸入數(shù)據(jù)矩陣X的固定,常規(guī)CNN 僅能提取有限時段的單一時變特性,因此不利于把握整體時變特性,無法準確預(yù)測氟化工過程的產(chǎn)品質(zhì)量?;诖耍疚奶岢鼍哂休斎霐?shù)據(jù)注意力機制的CNN算法。利用輸入數(shù)據(jù)注意力機制,自適應(yīng)地提取不同跨度的時變特性,從而對輸入數(shù)據(jù)加權(quán)優(yōu)化后,再進行特征提取完成質(zhì)量預(yù)測,以提高其預(yù)測精度。
本文提出的ACNN算法中,CNN的輸入數(shù)據(jù)不再是單個的矩陣,而是多個不同時間跨度的矩陣。如圖1(a)所示,這些矩陣被儲存在個不同的通道之中,作為CNN 的一次輸入。借鑒SE-NET設(shè)計了輸入數(shù)據(jù)的注意力層,如圖1(b)所示。首先進行擠壓(squeeze)操作,即利用全局池化(global pooling)逐通道壓縮特征,以表征特征通道上的全局分布,由式(1)求得。
圖1 輸入數(shù)據(jù)注意力機制
再通過激勵(excitation)操作為每個特征通道生成優(yōu)化權(quán)重。為了降低模型復(fù)雜度并提升泛化能力,設(shè)計了兩個全連接層,從而保證重要尺度的特征不會因其他尺度特征的加入而被削弱。整個過程如式(2)所示。
最后,將sigmoid激活后的權(quán)重作為每個特征通道的重要性,經(jīng)乘法逐通道加權(quán)到先前的特征上,完成對原始特征在通道維度上的加權(quán)標定,如式(3)所示。
在具有輸入數(shù)據(jù)注意力機制卷積神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練時,不同通道的權(quán)重會根據(jù)最終的預(yù)測值在反向傳播中自適應(yīng)地調(diào)整。因此,模型能夠通過不斷調(diào)整各個通道的權(quán)重來充分利用各個跨度時間序列內(nèi)的特征信息。
不同通道內(nèi)數(shù)據(jù)長度的不一致,影響了下一步卷積的進行。本文采用多通道異步長的卷積方式,通過對較長數(shù)據(jù)序列等距采樣,克服不同通道內(nèi)輸入數(shù)據(jù)尺寸不一致問題,方法如圖2(a)所示。對于常規(guī)圖像處理任務(wù)而言,正方形卷積核通常非常有效。但是,在本文的研究中,輸入工業(yè)數(shù)據(jù)矩陣X=[(),(),…,x()]由在個采樣時間點的個過程變量組成。顯然,X的行和列包含完全不同的信息:每行包含同一時間采樣的不同變量的值,而每列包含不同時間采樣的同一變量的值。相應(yīng)地,行(變量)之間和列(變量的時間序列)之間的相關(guān)性完全不同。由于正方形卷積核容易混淆變量和時間的特征關(guān)系,采用了沿變量方向的長方形卷積核(如1×3、1×5 等),如圖2(b)所示。其運算如式(4)所示。
式中,是沿可變方向構(gòu)造的長方形卷積核;和分別是輸入和輸出矩陣;是的列數(shù)。為了盡可能全面地提取高維特征,ACNN在一個卷積層中使用了多個卷積核。相應(yīng)地,卷積層的輸出可以由式(5)計算。
式中,表示激活函數(shù);是第個卷積層的卷積核數(shù);x
是第層的第個輸出特征圖;xl是第-1層的第個輸入特征圖;是卷積核;bl是第個卷積核的偏置。
類似地,為了盡可能多地保留變量在時間序列中所包含的時變信息,以獲得更好的在線質(zhì)量預(yù)測性能,ACNN使用了沿時間方向(列)的長方形池化層,如圖2(c)所示。
圖2 ACNN卷積操作
損失函數(shù)是卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練過程中的關(guān)鍵因素之一,因此需要針對不同的問題選擇不同的損失函數(shù)。損失函數(shù)是模型對數(shù)據(jù)擬合程度的體現(xiàn),擬合程度越好,損失函數(shù)的值也越小。同時,損失函數(shù)的值越大,其對應(yīng)的梯度也越大,變量更新的速度就越快,根據(jù)梯度下降進行的訓(xùn)練越迅速。因而ACNN 中使用了擬合效果良好的均方誤差(MSE),如式(6)所示。
TE 模型是化工生產(chǎn)過程的模擬程序,其可以為高級過程控制研究提供大量的模擬工業(yè)數(shù)據(jù)而無需任何損耗。另外,現(xiàn)階段應(yīng)用于TE 模型的算法很多,便于對算法效果進行橫向比較。因此先在TE 模型上對上述方法的有效性進行了驗證。圖3為TE 模型的示意圖,它包含5 個主要單元:反應(yīng)器、汽提塔、冷凝器、循環(huán)壓縮機和分離器。
圖3 TE模型流程
本研究中使用模式3 中反應(yīng)動力學(xué)漂移故障(故障13)來模擬具有緩慢時變的波動特性。由于模式3中的兩個過程操作變量是常量,因此僅使用剩余46 個連續(xù)變量來預(yù)測最終產(chǎn)物的成分分析數(shù)據(jù)。連續(xù)變量采樣間隔為200 個樣本/h,成分分析數(shù)據(jù)采樣間隔為4 個樣本/h。所有數(shù)據(jù)連續(xù)收集500h,并用前400h 作4E3A 訓(xùn)練集,后100h 作為測試集。
ACNN 結(jié)構(gòu)優(yōu)化為Conv(32)-Conv(64)-Pool-Conv(128)-Conv(128)-Pool-FC(1024)-FC(1),同時將前兩個卷積層的“Padding”參數(shù)設(shè)置為“VALID”。為了驗證該方法的性能,將預(yù)測結(jié)果與其他方法(如KPLS、O-ICA-KPLS、常規(guī)的CNN、SE-NET)應(yīng)用于TE模型的最佳結(jié)果進行了比較。3種深度學(xué)習(xí)方法均采用相同模型結(jié)構(gòu)和參數(shù),以證實輸入數(shù)據(jù)注意力機制的有效性。表1總結(jié)了不同方法對組分D的預(yù)測結(jié)果,其評價指標為MSE。
表1 不同方法TE模型質(zhì)量預(yù)測結(jié)果比較
總的來說,ACNN在訓(xùn)練集和測試集上都表現(xiàn)出最低的MSE 值,分別為0.0094 和0.013。普通非線性方法與深度學(xué)習(xí)方法的差距明顯,KPLS 方法和O-ICA-KPLS方法在測試集上結(jié)果僅為0.5260和0.2285,基本難以準確預(yù)測,而各類深度學(xué)習(xí)方法均獲得較低MSE。盡管3種深度學(xué)習(xí)方法選用的模型結(jié)構(gòu)和參數(shù)完全一致,但是由于SE-NET 和ACNN方法分別引入不同的注意力機制,因而精度上呈現(xiàn)較大差異。常規(guī)CNN 方法在訓(xùn)練時表現(xiàn)良好,但其在測試集上的性能不佳,僅為0.028。SE-NET與常規(guī)CNN方法類似,受到訓(xùn)練集為包含的特征干擾時無法有效把握整體的波動特性,測試集上結(jié)果為0.026。ACNN 取得最佳結(jié)果,證實了ACNN獨特的輸入數(shù)據(jù)注意力機制使其能夠更準確地提取不同時間尺度上的故障波動特征,并做出更精確的數(shù)據(jù)預(yù)測趨勢。
3.2.1 R-22生產(chǎn)流程簡介
R-22 也稱為HCFC-22,是主要的氟化物之一。盡管R-22 作為制冷劑或推進劑的應(yīng)用一直存在爭議,但由于其是四氟乙烯(TFE,主要用于聚四氟乙烯樹脂、共聚物和食品氣霧劑)以及其他含氟聚合物產(chǎn)品的主要原材料,全世界對R-22 的需求量一直穩(wěn)定增長。
AHF(無水氫氟酸)和氯仿反應(yīng)生成R-22 粗產(chǎn)物,再通過水和堿純化除去殘留的HCl 和HF 獲得精細產(chǎn)品。R-22 生產(chǎn)過程的主要操作單元包括進料、反應(yīng)器、兩個精餾塔,水洗塔和分離器,如圖4所示。
圖4 R-22生產(chǎn)流程
主要產(chǎn)品R-22 的質(zhì)量分數(shù)是衡量產(chǎn)品質(zhì)量高低的主要指標,影響后續(xù)一系列氟化物的生產(chǎn),因而,精確的R-22 產(chǎn)品質(zhì)量預(yù)測手段對工業(yè)流程的整體效益至關(guān)重要。另外,過程變量中存在的強烈時變特征以及變量之間復(fù)雜的非線性耦合關(guān)系使得常規(guī)質(zhì)量預(yù)測方法的性能遠遠不能令人滿意。因此,選用R-22 生產(chǎn)過程來驗證上述具有輸入數(shù)據(jù)注意力機制的CNN模型的有效性。
3.2.2 氟化工過程數(shù)據(jù)集構(gòu)建
使用R-22 生產(chǎn)過程的真實數(shù)據(jù)來驗證該方法的有效性,所有數(shù)據(jù)均來自位于中國衢州的氟化工廠。根據(jù)保密協(xié)議,僅使用了對整個生產(chǎn)過程影響最大的R-301反應(yīng)器相關(guān)過程變量,見表2。所有DCS 數(shù)據(jù)均以1min 的采樣間隔進行采樣,從2020年1月到9月,共274天。成分分析數(shù)據(jù)為R-22產(chǎn)物質(zhì)量分數(shù),通過人工測量每8h一次。使用前8個月的數(shù)據(jù)構(gòu)建訓(xùn)練集訓(xùn)練模型,并用第9個月數(shù)據(jù)構(gòu)建測試集進行驗證。
表2 R-22生產(chǎn)過程中R-301反應(yīng)器的相關(guān)變量
3.2.3 氟化工過程模型結(jié)構(gòu)參數(shù)調(diào)整
與其他深度學(xué)習(xí)算法一樣,設(shè)計ACNN的難點在于沒有統(tǒng)一的指導(dǎo)原則。因而由淺及深設(shè)計并驗證了6種不同的網(wǎng)絡(luò)結(jié)構(gòu),不同結(jié)構(gòu)下的最優(yōu)解見表3。模型性能的優(yōu)劣由損失函數(shù)MSE確定。
適當(dāng)?shù)卦黾泳矸e神經(jīng)網(wǎng)絡(luò)的深度可以提高預(yù)測精度,增強模型學(xué)習(xí)能力,在測試集上獲得較好的結(jié)果。但是,過度復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)反而導(dǎo)致過擬合現(xiàn)象,降低模型性能。如表3所示,模型4具有適當(dāng)?shù)木W(wǎng)絡(luò)深度,在測試集上MSE 值最小,具有良好的擬合能力。下文內(nèi)容中將使用模型4進一步分析討論。
表3 不同卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)下的預(yù)測結(jié)果
在模型4 中,輸入數(shù)據(jù)尺寸為(480, 240,120)×10,其中“(480,240,120)”分別代表對應(yīng)通道中矩陣的時間序列長度,“10”代表變量的數(shù)量。卷積核和池化層尺寸分別優(yōu)化為1×2和2×1。這種設(shè)計可以突出不同變量之間的相關(guān)性,并在考慮計算負擔(dān)的情況下最大程度地提取不同時間序列中包含的特征信息。將卷積層的“Padding”參數(shù)設(shè)置為“SAME”,以解決對輸入數(shù)據(jù)邊緣信息提取不足的問題。另外,為避免過度擬合,“dropout”設(shè)置為0.5。
3.2.4 氟化工過程質(zhì)量預(yù)測結(jié)果
為了驗證本文方法在質(zhì)量預(yù)測任務(wù)中的準確性,表4 中列出了最佳性能下的KPLS、O-ICAKPLS,常規(guī)的CNN、SE-NET 以及ACNN 方法的預(yù)測結(jié)果MSE,3種深度學(xué)習(xí)模型采用完全相同的模型結(jié)構(gòu)和參數(shù)。一般任務(wù)中常用的非線性方法KPLS 和O-ICA-KPLS 無法適應(yīng)氟化工過程復(fù)雜的非線性特征,對R-22 過程質(zhì)量預(yù)測不準確。常規(guī)CNN與SE-NET作為深度學(xué)習(xí)方法已經(jīng)遠遠強于之前的非線性回歸方法,但是仍有部分氟化工時變特征信息無法被其合理應(yīng)用。ACNN由于引入獨特的輸入數(shù)據(jù)注意力機制,在測試集表現(xiàn)上遠優(yōu)于常規(guī)CNN,MSE值低55%。
表4 不同方法R-22過程質(zhì)量預(yù)測結(jié)果比較
為了更為直觀地展示性能的提升,R-22 真實值、ACNN 預(yù)測值和常規(guī)CNN 預(yù)測值如圖5 所示??梢园l(fā)現(xiàn),ACNN和常規(guī)CNN均能夠在一定程度上跟蹤質(zhì)量變化。其中,ACNN擬合更為精確,尤其對第23、52、89 個點上的強烈跳變也做出了準確的預(yù)測。相比之下,常規(guī)CNN 在整體擬合趨勢上出現(xiàn)偏差,且在部分點響應(yīng)遲鈍??傮w而言,ACNN質(zhì)量預(yù)測結(jié)果具有更高的準確性,能夠更加準確地反映時變特性對產(chǎn)品質(zhì)量的影響。
圖5 R-22真實值、ACNN預(yù)測值和常規(guī)CNN預(yù)測值的、比較(根據(jù)保密協(xié)議,不顯示縱坐標具體取值)
為了提高復(fù)雜非線性與強時變特性耦合的氟化工過程的質(zhì)量預(yù)測性能,克服質(zhì)量變量測量滯后的局限性,本文提出了一種具有輸入數(shù)據(jù)注意力機制的卷積神經(jīng)網(wǎng)絡(luò)(ACNN)的質(zhì)量預(yù)測方法。通過引入輸入數(shù)據(jù)注意力機制,達到無需先驗知識即可針對性地提取原始數(shù)據(jù)中復(fù)雜時變特性的目的,克服了卷積神經(jīng)網(wǎng)絡(luò)輸入矩陣尺寸單一而無法準確跟蹤復(fù)雜時變特性的缺點。同時,針對工業(yè)數(shù)據(jù)特點,構(gòu)造的長方形卷積核和池化層進一步提高了ACNN 的特征提取能力。該方法在TE 模型中進行了初步的驗證,在異常波動狀態(tài)下的MSE 為0.013,遠優(yōu)于常規(guī)CNN 和SE-NET。在氟化工R-22 過程的應(yīng)用結(jié)果表明,在無任何先驗知識的情況下,ACNN的特征提取能力明顯優(yōu)于常規(guī)CNN和SE-NET,取得更佳的質(zhì)量預(yù)測結(jié)果,在總體預(yù)測和其中強烈跳變點的結(jié)果上更為可靠。以上結(jié)果證明,該方法的泛化性良好,可推廣到具有強時變特性或波動特征的實際工業(yè)過程,具有良好的工業(yè)應(yīng)用前景。雖然深度學(xué)習(xí)模型的訓(xùn)練過程中參數(shù)量過大,對計算機硬件的要求較高,是制約其工業(yè)應(yīng)用的最主要原因。但是,隨著產(chǎn)業(yè)轉(zhuǎn)型升級,控制系統(tǒng)的更新?lián)Q代,深度學(xué)習(xí)先進控制方法必定在工業(yè)控制領(lǐng)域大放異彩。