相似歷史數(shù)據(jù)段高效查找方法研究*

2022-04-07 03:43龐向坤張緒輝

計(jì)算機(jī)與數(shù)字工程 2022年3期

龐向坤高嵩張緒輝顏慶

（國(guó)網(wǎng)山東省電力公司電力科學(xué)研究院濟(jì)南 250002）

1 引言

隨著新能源發(fā)電規(guī)模不斷擴(kuò)大，其間歇性、波動(dòng)性等為電網(wǎng)穩(wěn)定運(yùn)行帶來(lái)了日益嚴(yán)峻的挑戰(zhàn)。由于火電機(jī)組實(shí)發(fā)功率具有高度的可調(diào)節(jié)性，其對(duì)電網(wǎng)多類型機(jī)組協(xié)調(diào)及穩(wěn)定運(yùn)行發(fā)揮日益突出的支撐作用。因此，提高火電機(jī)組的平穩(wěn)運(yùn)行水平，在一定意義上說(shuō)就是保障新能源消納，促進(jìn)了電網(wǎng)多類型機(jī)組協(xié)調(diào)和穩(wěn)定運(yùn)行。

火電機(jī)組運(yùn)行過(guò)程中，經(jīng)常出現(xiàn)運(yùn)行異常導(dǎo)致機(jī)組降負(fù)荷情況發(fā)生，降低了火電機(jī)組負(fù)荷調(diào)節(jié)能力。關(guān)于火電機(jī)組運(yùn)行異常監(jiān)控已經(jīng)有眾多的研究結(jié)果［1~5］，但在發(fā)現(xiàn)生產(chǎn)異常后，及時(shí)找出發(fā)現(xiàn)異常根源，提高異常處理效率，則是保障機(jī)組恢復(fù)生產(chǎn)能力的重要環(huán)節(jié)，目前相關(guān)研究結(jié)果較少。

當(dāng)前，火力發(fā)電生產(chǎn)過(guò)程的信息化和智能化建設(shè)不斷深入，海量生產(chǎn)過(guò)程數(shù)據(jù)被采集并存儲(chǔ)。鑒于歷史數(shù)據(jù)中包含有豐富的可用信息，因此，歷史數(shù)據(jù)挖掘得到的信息，既可以用于火力發(fā)電過(guò)程管理與優(yōu)化，也可以應(yīng)用于火力發(fā)電過(guò)程監(jiān)控等，對(duì)于提高火力發(fā)電生產(chǎn)效益和安全性等具有重要的意義，如文獻(xiàn)［6~9］均從數(shù)據(jù)挖掘方法出發(fā)，來(lái)分析生產(chǎn)過(guò)程異常或故障原因。但是由于歷史數(shù)據(jù)的維度急劇升高且受噪聲影響，查找歷史數(shù)據(jù)相似數(shù)據(jù)段主要面臨查詢效率不高和準(zhǔn)確性較低的問(wèn)題。

為了提高歷史數(shù)據(jù)查詢效率和準(zhǔn)確性，近年來(lái)研發(fā)的技術(shù)方法主要是通過(guò)簡(jiǎn)化數(shù)據(jù)結(jié)構(gòu)保留主要特征，實(shí)現(xiàn)降低原始數(shù)據(jù)維度的目的。文獻(xiàn)［10］提出一種基于分段聚合近似（PAA）的時(shí)間序列早期分類方法，運(yùn)用PAA 對(duì)時(shí)間序列樣本進(jìn)行維數(shù)約簡(jiǎn)。文獻(xiàn)［11］提出了符號(hào)聚合近似轉(zhuǎn)換（SAX）技術(shù)，主要是基于分段聚合近似（PAA）技術(shù)進(jìn)行數(shù)據(jù)化簡(jiǎn)并離散化，將各個(gè)數(shù)據(jù)段用其均值表示，然后采用預(yù)設(shè)斷點(diǎn)將PAA 系數(shù)轉(zhuǎn)換為SAX 符號(hào)。文獻(xiàn)［12］定義了極值噪聲和轉(zhuǎn)折點(diǎn)，在此基礎(chǔ)上提出了基于轉(zhuǎn)折點(diǎn)的分段線性表示方法。文獻(xiàn)［13］提出了剪輯技術(shù)或定極限技術(shù)，實(shí)現(xiàn)對(duì)數(shù)據(jù)的壓縮。文獻(xiàn)［14］提出基于形態(tài)特征的時(shí)間序列符號(hào)聚合近似方法，綜合考慮分段序列的均值和數(shù)據(jù)分布的形態(tài)特征，并且通過(guò)論域轉(zhuǎn)化對(duì)它們實(shí)現(xiàn)符號(hào)轉(zhuǎn)化。文獻(xiàn)［15］針對(duì)PAA 算法對(duì)每一區(qū)間都平均對(duì)待所存在的不足，提出一種基于小波熵的時(shí)間序列分段聚合近似表示（PAA_WE）方法。

雖然上述方法均存在其應(yīng)用場(chǎng)景，但是也存在一定的不足。例如，PAA技術(shù)雖然可以降低數(shù)據(jù)維度，但沒(méi)有考慮數(shù)據(jù)段的趨勢(shì)信息。在充分借鑒國(guó)內(nèi)外現(xiàn)有相似數(shù)據(jù)段查找方法的基礎(chǔ)上，本文采用了一種新型的數(shù)據(jù)表示方法，該方法將原歷史數(shù)據(jù)轉(zhuǎn)換為二進(jìn)制表示形式，采用分段聚合近似（PAA）方法和擴(kuò)展的剪輯技術(shù)合并了原歷史數(shù)據(jù)的趨勢(shì)和數(shù)值信息，實(shí)現(xiàn)了數(shù)據(jù)降維，提高了相似特征數(shù)據(jù)段查找效率和精度。

2 所提方法

本文以實(shí)現(xiàn)異常根源診斷為目的，充分利用所選取的目標(biāo)數(shù)據(jù)集中各段數(shù)據(jù)的異常根源信息，當(dāng)生產(chǎn)運(yùn)行過(guò)程中異常狀況出現(xiàn)時(shí)，通過(guò)查找當(dāng)前異常數(shù)據(jù)段在目標(biāo)數(shù)據(jù)集中的相似數(shù)據(jù)段，以其中的異常數(shù)據(jù)段為參考，確定當(dāng)前運(yùn)行異常的出現(xiàn)的根源。

2.1 時(shí)間序列的符號(hào)表示

本文采用了一種數(shù)據(jù)的二進(jìn)制表示方法［16］，該方法是將給定的數(shù)據(jù)序列數(shù)據(jù)轉(zhuǎn)換成長(zhǎng)度為2ω的布爾符號(hào)表示序列，此處ω表示數(shù)據(jù)序列PAA的分段數(shù)。在布爾符號(hào)表示過(guò)程中，每一個(gè)PAA子段采用兩位布爾數(shù)表示，其第一位布爾數(shù)值表示數(shù)據(jù)幅值信息，通過(guò)比較數(shù)據(jù)段前幅值與其均值得到；第二位布爾數(shù)值表示趨勢(shì)信息，通過(guò)比較數(shù)據(jù)段前數(shù)值與最近點(diǎn)的位置得到。對(duì)歷史運(yùn)行數(shù)據(jù)X，以單步滑動(dòng)窗口法得到X的子序列X[i]，然后采用PAA 方法對(duì)X[i]進(jìn)行分段，對(duì)每個(gè)子數(shù)據(jù)段按如下方式進(jìn)行其趨勢(shì)和數(shù)值信息的符號(hào)轉(zhuǎn)換［16］：

式（1）、（2）中，xˉk為時(shí)間序列X分段后第k子數(shù)據(jù)段的樣本均值，Xˉi為X[i]的均值；式（3）中，xˉk+1為時(shí)間序列X分段后第k+1 個(gè)子數(shù)據(jù)段的樣本均值，即xˉk+1=(xk+1+xk+2)/2。

數(shù)據(jù)二進(jìn)制符號(hào)表示后，對(duì)以相應(yīng)結(jié)果進(jìn)行融合，數(shù)據(jù)幅值信息均以二進(jìn)制序列奇數(shù)位表示，趨勢(shì)信息均以二進(jìn)制序列偶數(shù)位表示，X[i]對(duì)應(yīng)的二進(jìn)制序列以B[i]表示，B[i]={b(i·ω+1)，b(i·ω+2)，…，b(i·ω+ω)}，具體轉(zhuǎn)換過(guò)程如圖1示例。

圖1 數(shù)據(jù)序列轉(zhuǎn)換為二進(jìn)制序列過(guò)程示意圖

2.2 形成目標(biāo)數(shù)據(jù)集

完成二進(jìn)制數(shù)據(jù)轉(zhuǎn)換后，得到BC和B[i] ，i∈[1，N-1]，為了篩選出相關(guān)性較高的子數(shù)據(jù)段，可以指定相似性閾值ε，將BC和B[i]相似性大于閾值ε的子序列對(duì)應(yīng)的X[i]提取出來(lái)，形成目標(biāo)數(shù)據(jù)集。

二進(jìn)制數(shù)據(jù)序列BC和B[i]的相似性采用符號(hào)相似系數(shù)度量，在此，BC={bc(1)，bc(2)，…，bc(ω)}，B[i]={b(i·ω+1)，b(i·ω+2)，…，b(i·ω+ω)}，其符號(hào)相關(guān)系數(shù)計(jì)算公式如下：

式（3）中，α和β分別是對(duì)數(shù)值信息和趨勢(shì)信息所加的權(quán)重，滿足0 ＜α，β＜1。α和β的取值可根據(jù)需要查找的異常數(shù)據(jù)段的特征進(jìn)行選擇。式（3）中，分子分別為二進(jìn)制序列的奇數(shù)位和偶數(shù)位的漢明距離［17］。式（3）中，符號(hào)⊕表示布爾異或運(yùn)算，且ρb的取值范圍為[0，1]。

最后，將ρb(i)大于閾值ε的X[i]提取出來(lái)，設(shè)共有L組滿足條件，則組成的時(shí)間序列候選集，候選集Cs中的數(shù)據(jù)維數(shù)將遠(yuǎn)小于，因此將大幅度縮小相似數(shù)據(jù)段查找范圍，使得查找速度大幅提高。為了避免單步滑窗提取X[i]所帶來(lái)的ρb(i)在X局部取過(guò)多較大值，造成候選數(shù)據(jù)集維數(shù)過(guò)高的問(wèn)題，選取ρb(i)大于閾值ε時(shí)，應(yīng)滿足任意兩個(gè)選定的相關(guān)系數(shù)ρb(i)和ρb(j)之間滿足 ||i-j＞ω2。

2.3 確定相似異常數(shù)據(jù)段

采用二進(jìn)制序列表示原數(shù)據(jù)，必然造成式（3）中的相似性計(jì)算結(jié)果較為寬泛，因此需要對(duì)候選集中數(shù)據(jù)進(jìn)一步與當(dāng)前異常數(shù)據(jù)進(jìn)行相似性分析。

對(duì)Xl[i]={x(i·ω+1)，x(i·ω+2)，…，x(i·ω+ω)}，其與的皮爾遜相關(guān)系數(shù)計(jì)算公式如下：

對(duì)于式（6）中得到的計(jì)算結(jié)果，按從大到小的順序進(jìn)行排序，相關(guān)系數(shù)越大則時(shí)間序列的相似程度越高，實(shí)現(xiàn)查找相似時(shí)間序列的目標(biāo)。

3 仿真案例

為了驗(yàn)證所述方法的準(zhǔn)確性和高效性，分別構(gòu)造仿真案例予以說(shuō)明。仿真過(guò)程中，采用MATLAB M語(yǔ)言實(shí)現(xiàn)該算法，使用的計(jì)算機(jī)中央處理器（CPU）為Intel 酷睿I5-4200M，主頻2.5GHz（最大睿頻3.1GHz），運(yùn)行內(nèi)存為4GB，操作系統(tǒng)為Windows 7 64位旗艦版。

3.1 準(zhǔn)確性驗(yàn)證仿真

首先，構(gòu)造子數(shù)據(jù)段長(zhǎng)度和幅值隨機(jī)的仿真數(shù)據(jù)，所構(gòu)造數(shù)據(jù)的總長(zhǎng)度為N=18000，數(shù)據(jù)趨勢(shì)如圖2 所示。將所構(gòu)造的仿真數(shù)據(jù)看作是歷史數(shù)據(jù)X，為了驗(yàn)證算法的有效性，以圖2 中是紅色數(shù)據(jù)段作為當(dāng)前異常數(shù)據(jù)段XC，具體如圖3所示，將兩段綠色數(shù)據(jù)段設(shè)定為與紅色數(shù)據(jù)段高度相似的數(shù)據(jù)段。

圖2 所構(gòu)造的仿真數(shù)據(jù)趨勢(shì)曲線

圖3 當(dāng)前仿真數(shù)據(jù)圖

將仿真數(shù)據(jù)X與當(dāng)前異常數(shù)據(jù)段XC二進(jìn)制符號(hào)轉(zhuǎn)換，根據(jù)式（2）和式（3）對(duì)每個(gè)子序列X[i]的數(shù)值信息和趨勢(shì)信息分別進(jìn)行符號(hào)轉(zhuǎn)換后進(jìn)行合并，得到BC和B[i]。根據(jù)式（3）計(jì)算每個(gè)序列對(duì)(BC，B[i])之間的相關(guān)系數(shù)ρb(i)，設(shè)ε=0.7，按照該閾值篩選二進(jìn)制子序列。依據(jù)所選的二進(jìn)制子序列，提取仿真數(shù)據(jù)X對(duì)應(yīng)的數(shù)據(jù)段形成候選集Cs。

依據(jù)式（6）計(jì)算候選集Cs中每個(gè)子數(shù)據(jù)段與XC的皮爾遜相關(guān)系數(shù)，且設(shè)定皮爾遜相關(guān)系數(shù)的閾值為0.99，選出最終相似的時(shí)間序列對(duì)，并按相似性數(shù)值進(jìn)行降序排列。在此，選擇相似性最高的前三組作為最終選擇的數(shù)據(jù)段，結(jié)果如圖4 所示，其中圖4（a）為當(dāng)前異常數(shù)據(jù)段XC本身，即圖2 中的紅色數(shù)據(jù)段，圖4（b）為圖4中的第二個(gè)綠色數(shù)據(jù)段，圖4（c）為圖4中的第一個(gè)綠色數(shù)據(jù)段。

圖4 結(jié)果集中的時(shí)間序列對(duì)

由本仿真案例所查找到的相似數(shù)據(jù)段和仿真數(shù)據(jù)段的設(shè)計(jì)結(jié)構(gòu)可知，本文所述的方法能夠準(zhǔn)確查找出相似數(shù)據(jù)段。

3.2 高效性仿真驗(yàn)證

為了驗(yàn)證所述方法的高效性，在此通過(guò)構(gòu)造不同長(zhǎng)度的仿真數(shù)據(jù)，分別以本文所述方法和皮爾遜相關(guān)系數(shù)直接查找相似數(shù)據(jù)段方法做耗時(shí)對(duì)比驗(yàn)證，結(jié)果如表1所示。

表1 所提方法與皮爾森相關(guān)系數(shù)的效率比較

通過(guò)對(duì)比仿真結(jié)果可知，在相同標(biāo)準(zhǔn)下，本文所述的方法在查詢速度上有大幅度提高。

4 結(jié)語(yǔ)

當(dāng)前新能源大規(guī)模并網(wǎng)條件下，電網(wǎng)需要在多類型機(jī)組協(xié)調(diào)下運(yùn)行，火電機(jī)組對(duì)電網(wǎng)多類型機(jī)組協(xié)調(diào)發(fā)揮至關(guān)重要的作用。在該背景下，本文研究了用以機(jī)組運(yùn)行異常根源診斷的歷史數(shù)據(jù)相似數(shù)據(jù)段查找技術(shù)。通過(guò)計(jì)算當(dāng)前異常數(shù)據(jù)段與原過(guò)程數(shù)據(jù)的二進(jìn)制相似系數(shù)，形成目標(biāo)數(shù)據(jù)集，進(jìn)而通過(guò)皮爾遜相關(guān)系數(shù)查找目標(biāo)數(shù)據(jù)集中與當(dāng)前異常數(shù)據(jù)段高度相似的異常數(shù)據(jù)段，實(shí)現(xiàn)相似數(shù)據(jù)段查找的目的。通過(guò)仿真表明，該方法具有良好的準(zhǔn)確性和高效性，對(duì)提火電機(jī)組運(yùn)行水平以支撐電網(wǎng)多類型機(jī)組協(xié)調(diào)運(yùn)行具有一定的意義。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡