鄭堅(jiān)欽 ,杜漸,梁永圖*,趙偉,王昌,丁鵬,吳全
1 中國石油規(guī)劃總院,北京 100083
2 中國石油大學(xué)(北京)機(jī)械與儲(chǔ)運(yùn)工程學(xué)院,北京 102249
3 浙江大學(xué)浙江省飲用水安全與輸配技術(shù)重點(diǎn)實(shí)驗(yàn)室,杭州 310058
成品油管道運(yùn)行時(shí),由于各個(gè)站場(chǎng)泵、閥門等設(shè)備運(yùn)行狀態(tài)的改變,管道運(yùn)行工況會(huì)隨之發(fā)生變化[1]。站場(chǎng)調(diào)度員根據(jù)壓力、流量等運(yùn)行參數(shù)的變化趨勢(shì)來判斷工況的切換。由于長輸管道呈網(wǎng)絡(luò)化、智能化發(fā)展,且運(yùn)行工況數(shù)據(jù)具備多維度、連續(xù)時(shí)間的特點(diǎn),其變化情況較為復(fù)雜,工況切換較為頻繁,因此對(duì)管道進(jìn)行人為監(jiān)測(cè)分析變得越來越困難。另外,人為識(shí)別監(jiān)控效率較低、耗時(shí)耗力,且容易對(duì)運(yùn)行工況產(chǎn)生誤判。若能基于現(xiàn)場(chǎng)實(shí)時(shí)運(yùn)行數(shù)據(jù)建立工況識(shí)別模型,當(dāng)數(shù)據(jù)模型的識(shí)別工況與現(xiàn)場(chǎng)制定工況不同時(shí),即數(shù)據(jù)模型識(shí)別不準(zhǔn)確或現(xiàn)場(chǎng)出現(xiàn)意外工況。因此,對(duì)管道運(yùn)行工況的準(zhǔn)確識(shí)別開展研究是十分有必要的[2],識(shí)別模型可驗(yàn)證管道運(yùn)行工況是否符合制定工況類型,可預(yù)防管道運(yùn)行中出現(xiàn)異常工況變化,如泄漏、甩泵等,從而保障成品油管道的高效、安全管理。研究難點(diǎn)可總結(jié)如下:
(1)由于人為操作以及泵、閥門等設(shè)備的不平穩(wěn)運(yùn)行導(dǎo)致的噪聲信號(hào)會(huì)影響管道運(yùn)行工況的識(shí)別分析[3-4];
(2)管道運(yùn)行工況數(shù)據(jù)包含各個(gè)站場(chǎng)的進(jìn)出站壓力、流量等數(shù)據(jù),數(shù)據(jù)維度大,分析較為困難。
目前,部分學(xué)者對(duì)管道運(yùn)行工況識(shí)別進(jìn)行了研究,如李傳憲等[1]利用環(huán)道裝置模擬出的5 種管道運(yùn)行工況,基于核的主成分分析法對(duì)時(shí)頻域特征進(jìn)行降維,基于遺傳算法和粒子群算法優(yōu)化的神經(jīng)網(wǎng)絡(luò)對(duì)管道運(yùn)行工況進(jìn)行識(shí)別。余東亮等[5]選用局部投影降噪法并結(jié)合小波包分析技術(shù)對(duì)管道負(fù)壓波信號(hào)進(jìn)行降噪處理并提取特征值,再對(duì)工況進(jìn)行分析識(shí)別。龔駿等[6]通過計(jì)算包括泄漏在內(nèi)的四種工況下壓力波的時(shí)域特征,降維后基于RBF神經(jīng)網(wǎng)絡(luò)對(duì)管道泄漏工況進(jìn)行識(shí)別。張宇等[7]提出了基于混沌理論中的關(guān)聯(lián)維數(shù)對(duì)管道泄漏進(jìn)行識(shí)別的方法。陳志剛等[8]提出了基于多元支持向量機(jī)的管道泄漏工況檢測(cè)方法。Ye等[9]利用管道壓力數(shù)據(jù),通過小波變換去除噪聲,提取時(shí)域特征,然后基于模糊c均值算法對(duì)管道運(yùn)行工況進(jìn)行識(shí)別。Zhang等[10]采用動(dòng)量項(xiàng)梯度下降算法和自適應(yīng)學(xué)習(xí)率優(yōu)化后的BP算法對(duì)管道運(yùn)行狀態(tài)進(jìn)行識(shí)別。Rai等[11]提出了一種基于多尺度分析、Kolmogorov-Smirnov(KS)檢驗(yàn)和高斯混合模型(GMM)的基于健康指數(shù)的方法來確定管道泄漏和正常情況。Zhang等[12]基于混沌特性,利用動(dòng)態(tài)壓力變送器的管道信號(hào),提出了一種識(shí)別管道正常狀態(tài)和泄漏狀態(tài)的方法。
雖然目前的識(shí)別方法對(duì)小批量的工況能夠達(dá)到較高的精度,但還存在以下幾點(diǎn)不足:
(1)管道運(yùn)行工況的識(shí)別主要是針對(duì)泄漏工況開展研究[13-16],建立管道運(yùn)行工況識(shí)別模型的研究較少;
(2)分析識(shí)別的工況種類較少,如輸量變化、啟泵、泄漏等,無法滿足現(xiàn)場(chǎng)多工況運(yùn)行的實(shí)際工程需求,如油品切換;
(3)主成分分析(PCA)等線性降維方法對(duì)于非線性的管道運(yùn)行數(shù)據(jù)適用性較差。
隨著人工智能算法和數(shù)據(jù)挖掘技術(shù)的迅速發(fā)展,基于現(xiàn)場(chǎng)實(shí)際工業(yè)過程數(shù)據(jù)的數(shù)據(jù)分析方法逐漸成為狀態(tài)檢測(cè)技術(shù)的研究熱點(diǎn)之一。管道的頻繁操作會(huì)使管內(nèi)產(chǎn)生瞬變流場(chǎng)[17],引起單一時(shí)刻的運(yùn)行數(shù)據(jù)波動(dòng)。由于管道運(yùn)行具有連續(xù)性的特點(diǎn),為克服瞬變擾動(dòng)對(duì)于運(yùn)行工況分析的影響,考慮管道運(yùn)行數(shù)據(jù)的時(shí)間序列和物理空間特性,本研究綜合分析各站進(jìn)出站流量、壓力等參數(shù),選取小段時(shí)間的運(yùn)行數(shù)據(jù)構(gòu)造成樣本矩陣。
主流的小波去噪方法對(duì)于閾值的依賴程度較高,需要多次試驗(yàn)以得到合適的閾值[18-21]。卷積自編碼器(CAE)作為一種無監(jiān)督算法能準(zhǔn)確提取數(shù)據(jù)潛在特征[22],其通過引入數(shù)據(jù)特征的稀疏表達(dá),將冗余的信息壓縮并表達(dá)為稀疏的僅保留有效信息的運(yùn)行數(shù)據(jù),過濾掉其中的噪聲成分[23]。CAE作為一種深度學(xué)習(xí)算法,目前在語音識(shí)別、計(jì)算機(jī)視覺,自然語言處理等許多工程領(lǐng)域都得到了廣泛的應(yīng)用[24]。傳統(tǒng)線性降維方法如PCA對(duì)非線性的管道運(yùn)行數(shù)據(jù)矩陣處理效果欠佳。而基于T分布的隨機(jī)鄰域嵌入(T-SNE)是一種非線性降維可視化方法,對(duì)于復(fù)雜的高維數(shù)據(jù)擁有良好的降維聚類效果[25-27]。
針對(duì)目前研究的不足,本文基于SCADA數(shù)據(jù),構(gòu)建運(yùn)行數(shù)據(jù)矩陣,利用CAE對(duì)矩陣數(shù)據(jù)降噪處理,構(gòu)建基于T-SNE的管道運(yùn)行工況識(shí)別模型。研究思路如圖1 所示:
圖1 研究流程圖Fig. 1 The flow chart of research
(1)基于SCADA系統(tǒng),對(duì)管道運(yùn)行數(shù)據(jù)進(jìn)行收集與預(yù)處理,考慮時(shí)間序列與物理空間特性,將各站運(yùn)行參數(shù)(壓力、流量、密度)構(gòu)造為二維矩陣;
(2)管道的頻繁操作會(huì)使管內(nèi)產(chǎn)生瞬變擾動(dòng),利用CAE對(duì)矩陣數(shù)據(jù)進(jìn)行降噪處理;
(3)利用T-SNE算法對(duì)降噪后的矩陣數(shù)據(jù)進(jìn)行降維聚類,實(shí)現(xiàn)運(yùn)行工況的準(zhǔn)確識(shí)別;
(4)對(duì)比目前常用的分類算法(ANN、DT、RF),進(jìn)一步驗(yàn)證本文的工況識(shí)別模型的準(zhǔn)確性和有效性。
考慮管道的物理空間特性,將管道劃分為多個(gè)子單元(包含首站、1 個(gè)中間站、末站),整理運(yùn)行參數(shù)(流量、壓力、密度),包括首站的出站流量、壓力,中間站的進(jìn)出站流量、壓力,末站的進(jìn)站流量、壓力,以及各站的密度,共11 個(gè)運(yùn)行參數(shù)。SCADA系統(tǒng)間隔5 s提取一次數(shù)據(jù),考慮管道運(yùn)行的時(shí)間序列特性,將一段時(shí)間(1 min)的運(yùn)行數(shù)據(jù)構(gòu)建為矩陣形式,可得到12×11 的管道運(yùn)行數(shù)據(jù)矩陣,如式(1)所示。其中Q為流量,P為壓力,ρ為油品密度,上標(biāo)數(shù)字代表不同的站場(chǎng)(A為首站、B為中間站、C為末站),下標(biāo)t代表不同時(shí)刻。
由于管路和泵的振動(dòng)、管內(nèi)閥門或者彎管引起管內(nèi)流體狀態(tài)改變以及閥門的突然開閉引起管內(nèi)壓力突變,管道內(nèi)會(huì)出現(xiàn)不同程度的噪聲[28]。為了降低噪聲對(duì)工況識(shí)別的影響,本文針對(duì)管道運(yùn)行數(shù)據(jù)矩陣,將構(gòu)建基于CAE的矩陣降噪模型。CAE基于自編碼網(wǎng)絡(luò)引入卷積操作,通過學(xué)習(xí)數(shù)據(jù)的卷積與反卷積映射關(guān)系,從含噪聲的管道運(yùn)行數(shù)據(jù)中提取有效的數(shù)據(jù)信息。
如圖2 所示,基于CAE的降噪過程如下:首先通過編碼層1,進(jìn)行卷積核尺寸為3×3、卷積個(gè)數(shù)為32的卷積操作,進(jìn)行步長為2 的池化操作;同理,根據(jù)之后各層卷積核尺寸大小、卷積個(gè)數(shù)以及池化步長進(jìn)行相對(duì)應(yīng)的先卷積后池化操作,即可完成編碼,此時(shí)網(wǎng)絡(luò)得到了輸入矩陣的潛在特征,尺寸為1×1×8。隨后通過解碼層1,進(jìn)行卷積核尺寸為3×3、卷積個(gè)數(shù)為8 的反卷積操作,并經(jīng)過步長為2 的上采樣層;同樣地,根據(jù)后續(xù)各層卷積核尺寸、反卷積個(gè)數(shù)以及上采樣步長進(jìn)行相應(yīng)的反卷積和上采樣操作,網(wǎng)絡(luò)可將矩陣特征尺寸還原為12×11×32。最終通過輸出層將卷積核個(gè)數(shù)映射為1,得到尺寸為12×11×1 的降噪數(shù)據(jù)??紤]Adam優(yōu)化算法基于隨機(jī)梯度下降法,且對(duì)每個(gè)不同的參數(shù)設(shè)定獨(dú)立的自適應(yīng)學(xué)習(xí)率,對(duì)于大批量數(shù)據(jù)的深度學(xué)習(xí)算法具有良好的優(yōu)化能力[23],因此選用Adam優(yōu)化算法進(jìn)行迭代訓(xùn)練。
圖2 卷積自編碼器網(wǎng)絡(luò)結(jié)構(gòu)Fig. 2 Structure of convolutional encoder network
優(yōu)良的數(shù)據(jù)降維方法是準(zhǔn)確提取管道運(yùn)行矩陣數(shù)據(jù)潛在特征的關(guān)鍵。相較于目前主流的PCA、Kpca以及SNE降維聚類算法,T-SNE對(duì)于非線性的管道高維數(shù)據(jù)矩陣表現(xiàn)出更為優(yōu)良的聚類效果[27]。目前T-SNE算法還未在管道運(yùn)行工況識(shí)別領(lǐng)域運(yùn)用,基于T-SNE的管道矩陣數(shù)據(jù)聚類的具體步驟如圖3 所示。算法流程如下:
圖3 基于T-SNE的管道數(shù)據(jù)聚類流程Fig. 3 The process of pipeline data clustering based on T-SNE
(1)設(shè)管道運(yùn)行數(shù)據(jù)矩陣為X=(x1,x2,...,xn),所需得到的運(yùn)行數(shù)據(jù)二維空間分布為Y=(y1,y2,...,yn);
(2)基于管道矩陣數(shù)據(jù)的條件概率分布計(jì)算矩陣數(shù)據(jù)之間的聯(lián)合概率分布;
(3)可得矩陣數(shù)據(jù)的低維空間初始解Y(1);
(4)計(jì)算低維空間管道運(yùn)行數(shù)據(jù)間的相似度;
(5)優(yōu)化數(shù)據(jù)矩陣對(duì)應(yīng)概率分布與低維空間數(shù)據(jù)對(duì)應(yīng)概率分布間的距離;
(6)基于迭代得到梯度下降值,求得低維空間下管道運(yùn)行數(shù)據(jù)解Y(t);
(7)當(dāng)?shù)螖?shù)達(dá)到設(shè)定次數(shù)后,輸出管道運(yùn)行數(shù)據(jù)的二維空間表達(dá)Y。
本文選取最大—最小化(max-min)方法對(duì)管道運(yùn)行數(shù)據(jù)進(jìn)行歸一化處理。假設(shè)管道運(yùn)行數(shù)據(jù)序列為X={x1,x2,...,xn},對(duì)每一個(gè)x做如下的處理:
其中,xmin是原管道運(yùn)行數(shù)據(jù)序列中x的最小值,xmax為數(shù)據(jù)序列中x的最大值。
本文通過準(zhǔn)確率(Accuracy,ACC)表示識(shí)別模型的準(zhǔn)確度,即分類正確的樣本個(gè)數(shù)占總樣本數(shù)的比例。實(shí)驗(yàn)中各類工況的樣本個(gè)數(shù)較為均衡,使用準(zhǔn)確率能夠直觀的反映模型的分類效果,如式(3)所示。
式中,nc為識(shí)別正確的樣本個(gè)數(shù),nl為用于識(shí)別的總的樣本個(gè)數(shù)[29]。
本文基于某兩條成品油管道的SCADA系統(tǒng)數(shù)據(jù),整理各站的運(yùn)行參數(shù)?;?.1 構(gòu)造運(yùn)行數(shù)據(jù)的二維矩陣,引入CAE做降噪處理。矩陣降噪后的部分參數(shù)效果對(duì)比如圖4 所示??梢钥闯鯟AE可克服異常擾動(dòng)點(diǎn)對(duì)網(wǎng)絡(luò)學(xué)習(xí)的影響,在改善數(shù)據(jù)平穩(wěn)性的同時(shí),消除原始數(shù)據(jù)中的異常點(diǎn)。
圖4 卷積自編碼器降噪結(jié)果對(duì)比Fig. 4 Comparison of noise reduction results of convolutional autoencoder
兩條管道的基本運(yùn)行工況包括:停輸、啟輸、停泵、啟泵、切泵、分輸以及油品切換,結(jié)合管道調(diào)度中心操作日?qǐng)?bào),可提取各工況對(duì)應(yīng)的管道運(yùn)行數(shù)據(jù),并對(duì)每種工況進(jìn)行編號(hào),工況種類如表1 所示。
表1 工況種類對(duì)照表Table 1 Comparison table of working conditions
以表1 各個(gè)工況的運(yùn)行數(shù)據(jù)為例,基于CAE降噪處理后,通過T-SNE降維聚類,并對(duì)比PCA的聚類效果。從圖5 的聚類結(jié)果可以看出,T-SNE的聚類結(jié)果比PCA更為顯著,同一工況的數(shù)據(jù)點(diǎn)集中在一起,而在PCA中,不同工況的數(shù)據(jù)點(diǎn)會(huì)相互重疊,聚類效果不佳。在圖5 中,橫縱坐標(biāo)軸分別代表一個(gè)主成分。T-SNE對(duì)管道運(yùn)行工況的識(shí)別準(zhǔn)確率如表2 所示,可以看出對(duì)于降噪前的工況數(shù)據(jù),中間站啟泵以及分輸?shù)淖R(shí)別準(zhǔn)確率較低。而利用CAE進(jìn)行數(shù)據(jù)降噪后,T-SNE的整體聚類識(shí)別效果顯著提升,工況的平均識(shí)別準(zhǔn)確率都能達(dá)到99%以上。
表2 基于T-SNE的各工況識(shí)別準(zhǔn)確率Table 2 Identification accuracy of each condition based on T-SNE
圖5 T-SNE與PCA降維聚類結(jié)果對(duì)比Fig. 5 Clustering result comparison of T-SNE and PCA dimension-reducing
為對(duì)比說明T-SNE聚類識(shí)別的優(yōu)越性,選用傳統(tǒng)機(jī)器學(xué)習(xí)非線性分類算法如人工神經(jīng)網(wǎng)絡(luò)(ANN)、決策樹(DT)以及隨機(jī)森林(RF)進(jìn)行分類比較。依據(jù)機(jī)器學(xué)習(xí)算法中數(shù)據(jù)集劃分的經(jīng)驗(yàn)總結(jié)(訓(xùn)練集占80%,測(cè)試集占20%)[30],對(duì)管道數(shù)據(jù)集進(jìn)行劃分,以識(shí)別準(zhǔn)確率作為模型評(píng)價(jià)指標(biāo)。為避免傳統(tǒng)機(jī)器學(xué)習(xí)模型的波動(dòng)性對(duì)實(shí)驗(yàn)結(jié)果造成影響,對(duì)每個(gè)模型進(jìn)行10 次實(shí)驗(yàn),得出各模型的平均準(zhǔn)確率。通過多次測(cè)試確定各個(gè)模型的參數(shù),表3、4 和5 是各對(duì)比模型的參數(shù)設(shè)置情況,表6 是每個(gè)模型運(yùn)行所需時(shí)間。
表3 ANN模型參數(shù)設(shè)置結(jié)果Table 3 The parameter setting results of ANN model
表4 RF模型參數(shù)設(shè)置結(jié)果Table 4 The parameter setting results of RF model
表5 TSNE模型參數(shù)設(shè)置結(jié)果Table 5 The parameter setting results of TSNE model
表6 識(shí)別模型運(yùn)行時(shí)間Table 6 Running time of identification model
圖6 和圖7 分別為不同識(shí)別模型在訓(xùn)練集和測(cè)試集的識(shí)別準(zhǔn)確率,可看出對(duì)于管道1,降噪前DT的識(shí)別準(zhǔn)確率最高,達(dá)到96.91%,T-SNE的識(shí)別準(zhǔn)確率為96.58%,但對(duì)于降噪后的數(shù)據(jù),T-SNE的識(shí)別準(zhǔn)確率達(dá)到99.17%。而對(duì)于管道2,降噪前RF的識(shí)別準(zhǔn)確率最高,達(dá)到96.19%,T-SNE的識(shí)別準(zhǔn)確率為96.17%,但降噪后,T-SNE的識(shí)別準(zhǔn)確率可達(dá)到99.08%。基于模型結(jié)果,可說明CAE-TSNE對(duì)管道多種運(yùn)行工況的識(shí)別準(zhǔn)確度最高,表現(xiàn)最好。
圖6 不同分類模型在訓(xùn)練集上的準(zhǔn)確率對(duì)比Fig. 6 Comparison of the accuracy of different classification models on training sets
圖7 不同分類模型在測(cè)試集上的準(zhǔn)確率對(duì)比Fig. 7 Comparison of the accuracy of different classification models on testing sets
本文針對(duì)成品油管道運(yùn)行工況識(shí)別開展研究,旨在幫助現(xiàn)場(chǎng)更好地監(jiān)控管道運(yùn)行狀態(tài)。首先根據(jù)管道SCADA系統(tǒng)獲取運(yùn)行數(shù)據(jù),考慮到管道運(yùn)行數(shù)據(jù)具有時(shí)間序列以及物理空間特性,將一段時(shí)間的運(yùn)行數(shù)據(jù)構(gòu)造為二維矩陣?;贑AE算法對(duì)矩陣數(shù)據(jù)進(jìn)行降噪,得到濾除噪聲后的運(yùn)行數(shù)據(jù);基于T-SNE聚類算法對(duì)降噪后的運(yùn)行數(shù)據(jù)進(jìn)行工況的聚類識(shí)別,建立管道運(yùn)行工況識(shí)別模型。為驗(yàn)證模型的準(zhǔn)確性和通用性,選取兩條管道的12 種運(yùn)行工況數(shù)據(jù),并對(duì)比ANN、DT以及RF的識(shí)別效果。結(jié)果表明,基于CAE-TSNE的工況識(shí)別模型對(duì)降噪后的運(yùn)行數(shù)據(jù)識(shí)別準(zhǔn)確率可達(dá)到99%以上,表現(xiàn)效果最好,可用于指導(dǎo)成品油管道運(yùn)行狀態(tài)的識(shí)別和監(jiān)測(cè)。