国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

相似歷史數(shù)據(jù)段高效查找方法研究*

2022-04-07 03:43龐向坤張緒輝
關(guān)鍵詞:歷史數(shù)據(jù)二進(jìn)制相似性

龐向坤 高 嵩 張緒輝 顏 慶

(國(guó)網(wǎng)山東省電力公司電力科學(xué)研究院 濟(jì)南 250002)

1 引言

隨著新能源發(fā)電規(guī)模不斷擴(kuò)大,其間歇性、波動(dòng)性等為電網(wǎng)穩(wěn)定運(yùn)行帶來(lái)了日益嚴(yán)峻的挑戰(zhàn)。由于火電機(jī)組實(shí)發(fā)功率具有高度的可調(diào)節(jié)性,其對(duì)電網(wǎng)多類型機(jī)組協(xié)調(diào)及穩(wěn)定運(yùn)行發(fā)揮日益突出的支撐作用。因此,提高火電機(jī)組的平穩(wěn)運(yùn)行水平,在一定意義上說(shuō)就是保障新能源消納,促進(jìn)了電網(wǎng)多類型機(jī)組協(xié)調(diào)和穩(wěn)定運(yùn)行。

火電機(jī)組運(yùn)行過(guò)程中,經(jīng)常出現(xiàn)運(yùn)行異常導(dǎo)致機(jī)組降負(fù)荷情況發(fā)生,降低了火電機(jī)組負(fù)荷調(diào)節(jié)能力。關(guān)于火電機(jī)組運(yùn)行異常監(jiān)控已經(jīng)有眾多的研究結(jié)果[1~5],但在發(fā)現(xiàn)生產(chǎn)異常后,及時(shí)找出發(fā)現(xiàn)異常根源,提高異常處理效率,則是保障機(jī)組恢復(fù)生產(chǎn)能力的重要環(huán)節(jié),目前相關(guān)研究結(jié)果較少。

當(dāng)前,火力發(fā)電生產(chǎn)過(guò)程的信息化和智能化建設(shè)不斷深入,海量生產(chǎn)過(guò)程數(shù)據(jù)被采集并存儲(chǔ)。鑒于歷史數(shù)據(jù)中包含有豐富的可用信息,因此,歷史數(shù)據(jù)挖掘得到的信息,既可以用于火力發(fā)電過(guò)程管理與優(yōu)化,也可以應(yīng)用于火力發(fā)電過(guò)程監(jiān)控等,對(duì)于提高火力發(fā)電生產(chǎn)效益和安全性等具有重要的意義,如文獻(xiàn)[6~9]均從數(shù)據(jù)挖掘方法出發(fā),來(lái)分析生產(chǎn)過(guò)程異常或故障原因。但是由于歷史數(shù)據(jù)的維度急劇升高且受噪聲影響,查找歷史數(shù)據(jù)相似數(shù)據(jù)段主要面臨查詢效率不高和準(zhǔn)確性較低的問(wèn)題。

為了提高歷史數(shù)據(jù)查詢效率和準(zhǔn)確性,近年來(lái)研發(fā)的技術(shù)方法主要是通過(guò)簡(jiǎn)化數(shù)據(jù)結(jié)構(gòu)保留主要特征,實(shí)現(xiàn)降低原始數(shù)據(jù)維度的目的。文獻(xiàn)[10]提出一種基于分段聚合近似(PAA)的時(shí)間序列早期分類方法,運(yùn)用PAA 對(duì)時(shí)間序列樣本進(jìn)行維數(shù)約簡(jiǎn)。文獻(xiàn)[11]提出了符號(hào)聚合近似轉(zhuǎn)換(SAX)技術(shù),主要是基于分段聚合近似(PAA)技術(shù)進(jìn)行數(shù)據(jù)化簡(jiǎn)并離散化,將各個(gè)數(shù)據(jù)段用其均值表示,然后采用預(yù)設(shè)斷點(diǎn)將PAA 系數(shù)轉(zhuǎn)換為SAX 符號(hào)。文獻(xiàn)[12]定義了極值噪聲和轉(zhuǎn)折點(diǎn),在此基礎(chǔ)上提出了基于轉(zhuǎn)折點(diǎn)的分段線性表示方法。文獻(xiàn)[13]提出了剪輯技術(shù)或定極限技術(shù),實(shí)現(xiàn)對(duì)數(shù)據(jù)的壓縮。文獻(xiàn)[14]提出基于形態(tài)特征的時(shí)間序列符號(hào)聚合近似方法,綜合考慮分段序列的均值和數(shù)據(jù)分布的形態(tài)特征,并且通過(guò)論域轉(zhuǎn)化對(duì)它們實(shí)現(xiàn)符號(hào)轉(zhuǎn)化。文獻(xiàn)[15]針對(duì)PAA 算法對(duì)每一區(qū)間都平均對(duì)待所存在的不足,提出一種基于小波熵的時(shí)間序列分段聚合近似表示(PAA_WE)方法。

雖然上述方法均存在其應(yīng)用場(chǎng)景,但是也存在一定的不足。例如,PAA技術(shù)雖然可以降低數(shù)據(jù)維度,但沒(méi)有考慮數(shù)據(jù)段的趨勢(shì)信息。在充分借鑒國(guó)內(nèi)外現(xiàn)有相似數(shù)據(jù)段查找方法的基礎(chǔ)上,本文采用了一種新型的數(shù)據(jù)表示方法,該方法將原歷史數(shù)據(jù)轉(zhuǎn)換為二進(jìn)制表示形式,采用分段聚合近似(PAA)方法和擴(kuò)展的剪輯技術(shù)合并了原歷史數(shù)據(jù)的趨勢(shì)和數(shù)值信息,實(shí)現(xiàn)了數(shù)據(jù)降維,提高了相似特征數(shù)據(jù)段查找效率和精度。

2 所提方法

本文以實(shí)現(xiàn)異常根源診斷為目的,充分利用所選取的目標(biāo)數(shù)據(jù)集中各段數(shù)據(jù)的異常根源信息,當(dāng)生產(chǎn)運(yùn)行過(guò)程中異常狀況出現(xiàn)時(shí),通過(guò)查找當(dāng)前異常數(shù)據(jù)段在目標(biāo)數(shù)據(jù)集中的相似數(shù)據(jù)段,以其中的異常數(shù)據(jù)段為參考,確定當(dāng)前運(yùn)行異常的出現(xiàn)的根源。

2.1 時(shí)間序列的符號(hào)表示

本文采用了一種數(shù)據(jù)的二進(jìn)制表示方法[16],該方法是將給定的數(shù)據(jù)序列數(shù)據(jù)轉(zhuǎn)換成長(zhǎng)度為2ω的布爾符號(hào)表示序列,此處ω表示數(shù)據(jù)序列PAA的分段數(shù)。在布爾符號(hào)表示過(guò)程中,每一個(gè)PAA子段采用兩位布爾數(shù)表示,其第一位布爾數(shù)值表示數(shù)據(jù)幅值信息,通過(guò)比較數(shù)據(jù)段前幅值與其均值得到;第二位布爾數(shù)值表示趨勢(shì)信息,通過(guò)比較數(shù)據(jù)段前數(shù)值與最近點(diǎn)的位置得到。對(duì)歷史運(yùn)行數(shù)據(jù)X,以單步滑動(dòng)窗口法得到X的子序列X[i],然后采用PAA 方法對(duì)X[i]進(jìn)行分段,對(duì)每個(gè)子數(shù)據(jù)段按如下方式進(jìn)行其趨勢(shì)和數(shù)值信息的符號(hào)轉(zhuǎn)換[16]:

式(1)、(2)中,xˉk為時(shí)間序列X分段后第k子數(shù)據(jù)段的樣本均值,Xˉi為X[i]的均值;式(3)中,xˉk+1為時(shí)間序列X分段后第k+1 個(gè)子數(shù)據(jù)段的樣本均值,即xˉk+1=(xk+1+xk+2)/2。

數(shù)據(jù)二進(jìn)制符號(hào)表示后,對(duì)以相應(yīng)結(jié)果進(jìn)行融合,數(shù)據(jù)幅值信息均以二進(jìn)制序列奇數(shù)位表示,趨勢(shì)信息均以二進(jìn)制序列偶數(shù)位表示,X[i]對(duì)應(yīng)的二進(jìn)制序列以B[i]表示,B[i]={b(i·ω+1),b(i·ω+2),…,b(i·ω+ω)},具體轉(zhuǎn)換過(guò)程如圖1示例。

圖1 數(shù)據(jù)序列轉(zhuǎn)換為二進(jìn)制序列過(guò)程示意圖

2.2 形成目標(biāo)數(shù)據(jù)集

完成二進(jìn)制數(shù)據(jù)轉(zhuǎn)換后,得到BC和B[i] ,i∈[1,N-1],為了篩選出相關(guān)性較高的子數(shù)據(jù)段,可以指定相似性閾值ε,將BC和B[i]相似性大于閾值ε的子序列對(duì)應(yīng)的X[i]提取出來(lái),形成目標(biāo)數(shù)據(jù)集。

二進(jìn)制數(shù)據(jù)序列BC和B[i]的相似性采用符號(hào)相似系數(shù)度量,在此,BC={bc(1),bc(2),…,bc(ω)},B[i]={b(i·ω+1),b(i·ω+2),…,b(i·ω+ω)},其符號(hào)相關(guān)系數(shù)計(jì)算公式如下:

式(3)中,α和β分別是對(duì)數(shù)值信息和趨勢(shì)信息所加的權(quán)重,滿足0 <α,β<1。α和β的取值可根據(jù)需要查找的異常數(shù)據(jù)段的特征進(jìn)行選擇。式(3)中,分子分別為二進(jìn)制序列的奇數(shù)位和偶數(shù)位的漢明距離[17]。式(3)中,符號(hào)⊕表示布爾異或運(yùn)算,且ρb的取值范圍為[0,1]。

最后,將ρb(i)大于閾值ε的X[i]提取出來(lái),設(shè)共有L組滿足條件,則組成的時(shí)間序列候選集,候選集Cs中的數(shù)據(jù)維數(shù)將遠(yuǎn)小于,因此將大幅度縮小相似數(shù)據(jù)段查找范圍,使得查找速度大幅提高。為了避免單步滑窗提取X[i]所帶來(lái)的ρb(i)在X局部取過(guò)多較大值,造成候選數(shù)據(jù)集維數(shù)過(guò)高的問(wèn)題,選取ρb(i)大于閾值ε時(shí),應(yīng)滿足任意兩個(gè)選定的相關(guān)系數(shù)ρb(i)和ρb(j)之間滿足 ||i-j>ω2。

2.3 確定相似異常數(shù)據(jù)段

采用二進(jìn)制序列表示原數(shù)據(jù),必然造成式(3)中的相似性計(jì)算結(jié)果較為寬泛,因此需要對(duì)候選集中數(shù)據(jù)進(jìn)一步與當(dāng)前異常數(shù)據(jù)進(jìn)行相似性分析。

對(duì)Xl[i]={x(i·ω+1),x(i·ω+2),…,x(i·ω+ω)},其與的皮爾遜相關(guān)系數(shù)計(jì)算公式如下:

對(duì)于式(6)中得到的計(jì)算結(jié)果,按從大到小的順序進(jìn)行排序,相關(guān)系數(shù)越大則時(shí)間序列的相似程度越高,實(shí)現(xiàn)查找相似時(shí)間序列的目標(biāo)。

3 仿真案例

為了驗(yàn)證所述方法的準(zhǔn)確性和高效性,分別構(gòu)造仿真案例予以說(shuō)明。仿真過(guò)程中,采用MATLAB M語(yǔ)言實(shí)現(xiàn)該算法,使用的計(jì)算機(jī)中央處理器(CPU)為Intel 酷睿I5-4200M,主頻2.5GHz(最大睿頻3.1GHz),運(yùn)行內(nèi)存為4GB,操作系統(tǒng)為Windows 7 64位旗艦版。

3.1 準(zhǔn)確性驗(yàn)證仿真

首先,構(gòu)造子數(shù)據(jù)段長(zhǎng)度和幅值隨機(jī)的仿真數(shù)據(jù),所構(gòu)造數(shù)據(jù)的總長(zhǎng)度為N=18000,數(shù)據(jù)趨勢(shì)如圖2 所示。將所構(gòu)造的仿真數(shù)據(jù)看作是歷史數(shù)據(jù)X,為了驗(yàn)證算法的有效性,以圖2 中是紅色數(shù)據(jù)段作為當(dāng)前異常數(shù)據(jù)段XC,具體如圖3所示,將兩段綠色數(shù)據(jù)段設(shè)定為與紅色數(shù)據(jù)段高度相似的數(shù)據(jù)段。

圖2 所構(gòu)造的仿真數(shù)據(jù)趨勢(shì)曲線

圖3 當(dāng)前仿真數(shù)據(jù)圖

將仿真數(shù)據(jù)X與當(dāng)前異常數(shù)據(jù)段XC二進(jìn)制符號(hào)轉(zhuǎn)換,根據(jù)式(2)和式(3)對(duì)每個(gè)子序列X[i]的數(shù)值信息和趨勢(shì)信息分別進(jìn)行符號(hào)轉(zhuǎn)換后進(jìn)行合并,得到BC和B[i]。根據(jù)式(3)計(jì)算每個(gè)序列對(duì)(BC,B[i])之間的相關(guān)系數(shù)ρb(i),設(shè)ε=0.7,按照該閾值篩選二進(jìn)制子序列。依據(jù)所選的二進(jìn)制子序列,提取仿真數(shù)據(jù)X對(duì)應(yīng)的數(shù)據(jù)段形成候選集Cs。

依據(jù)式(6)計(jì)算候選集Cs中每個(gè)子數(shù)據(jù)段與XC的皮爾遜相關(guān)系數(shù),且設(shè)定皮爾遜相關(guān)系數(shù)的閾值為0.99,選出最終相似的時(shí)間序列對(duì),并按相似性數(shù)值進(jìn)行降序排列。在此,選擇相似性最高的前三組作為最終選擇的數(shù)據(jù)段,結(jié)果如圖4 所示,其中圖4(a)為當(dāng)前異常數(shù)據(jù)段XC本身,即圖2 中的紅色數(shù)據(jù)段,圖4(b)為圖4中的第二個(gè)綠色數(shù)據(jù)段,圖4(c)為圖4中的第一個(gè)綠色數(shù)據(jù)段。

圖4 結(jié)果集中的時(shí)間序列對(duì)

由本仿真案例所查找到的相似數(shù)據(jù)段和仿真數(shù)據(jù)段的設(shè)計(jì)結(jié)構(gòu)可知,本文所述的方法能夠準(zhǔn)確查找出相似數(shù)據(jù)段。

3.2 高效性仿真驗(yàn)證

為了驗(yàn)證所述方法的高效性,在此通過(guò)構(gòu)造不同長(zhǎng)度的仿真數(shù)據(jù),分別以本文所述方法和皮爾遜相關(guān)系數(shù)直接查找相似數(shù)據(jù)段方法做耗時(shí)對(duì)比驗(yàn)證,結(jié)果如表1所示。

表1 所提方法與皮爾森相關(guān)系數(shù)的效率比較

通過(guò)對(duì)比仿真結(jié)果可知,在相同標(biāo)準(zhǔn)下,本文所述的方法在查詢速度上有大幅度提高。

4 結(jié)語(yǔ)

當(dāng)前新能源大規(guī)模并網(wǎng)條件下,電網(wǎng)需要在多類型機(jī)組協(xié)調(diào)下運(yùn)行,火電機(jī)組對(duì)電網(wǎng)多類型機(jī)組協(xié)調(diào)發(fā)揮至關(guān)重要的作用。在該背景下,本文研究了用以機(jī)組運(yùn)行異常根源診斷的歷史數(shù)據(jù)相似數(shù)據(jù)段查找技術(shù)。通過(guò)計(jì)算當(dāng)前異常數(shù)據(jù)段與原過(guò)程數(shù)據(jù)的二進(jìn)制相似系數(shù),形成目標(biāo)數(shù)據(jù)集,進(jìn)而通過(guò)皮爾遜相關(guān)系數(shù)查找目標(biāo)數(shù)據(jù)集中與當(dāng)前異常數(shù)據(jù)段高度相似的異常數(shù)據(jù)段,實(shí)現(xiàn)相似數(shù)據(jù)段查找的目的。通過(guò)仿真表明,該方法具有良好的準(zhǔn)確性和高效性,對(duì)提火電機(jī)組運(yùn)行水平以支撐電網(wǎng)多類型機(jī)組協(xié)調(diào)運(yùn)行具有一定的意義。

猜你喜歡
歷史數(shù)據(jù)二進(jìn)制相似性
基于設(shè)備PF性能曲線和設(shè)備歷史數(shù)據(jù)實(shí)現(xiàn)CBM的一個(gè)應(yīng)用模型探討
有用的二進(jìn)制
用Scratch把十進(jìn)制轉(zhuǎn)為二進(jìn)制
有趣的進(jìn)度
從數(shù)據(jù)分析的角度淺談供水企業(yè)漏損診斷
基于Hadoop技術(shù)實(shí)現(xiàn)銀行歷史數(shù)據(jù)線上化研究
用好細(xì)節(jié)材料 提高課堂實(shí)效
12個(gè)毫無(wú)違和感的奇妙動(dòng)物組合
基于隱喻相似性研究[血]的慣用句
潛析結(jié)構(gòu) 把握性質(zhì)