吳麗賢, 林鈺杰, 陳灝生, 張遠(yuǎn)雄, 陳磊
(1.廣東電網(wǎng)有限責(zé)任公司 佛山供電局, 廣東 佛山 528000; 2.廣東卓維網(wǎng)絡(luò)有限公司, 廣東 佛山 528000)
隨著我國(guó)電網(wǎng)智能化的升級(jí)和改造,電網(wǎng)的規(guī)模在不斷的擴(kuò)大,輸變電網(wǎng)絡(luò)產(chǎn)生的數(shù)據(jù)也不斷的增多[1]。因此,對(duì)數(shù)據(jù)的處理技術(shù)要求也越來(lái)越高,如何高效地解決電力設(shè)備和機(jī)器運(yùn)行過(guò)程中出現(xiàn)的問(wèn)題,提高設(shè)備的使用效率和降低電力機(jī)器設(shè)備的運(yùn)維成本,這些問(wèn)題是電力企業(yè)智能化升級(jí)改造的重點(diǎn)內(nèi)容[2]。傳統(tǒng)的數(shù)據(jù)存儲(chǔ)模式是靜止的、定量的,適用于數(shù)據(jù)體量比較小的實(shí)時(shí)存儲(chǔ)和處理。傳統(tǒng)的數(shù)據(jù)實(shí)時(shí)流處理技術(shù)是將數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫(kù)中,需要對(duì)設(shè)備的運(yùn)行狀況進(jìn)行判斷時(shí),從數(shù)據(jù)庫(kù)中提取相應(yīng)的數(shù)據(jù)進(jìn)行處理[3];這種數(shù)據(jù)處理模式可以較好地反應(yīng)出電力設(shè)備運(yùn)行的狀況,但是不能夠?qū)崟r(shí)地對(duì)電力設(shè)備的狀況進(jìn)行了解。
為了更好地解決大數(shù)據(jù)和智能電網(wǎng)環(huán)境下,電網(wǎng)設(shè)備的實(shí)時(shí)運(yùn)行狀況,研發(fā)出了基于大量機(jī)器和大數(shù)據(jù)的數(shù)據(jù)實(shí)時(shí)流處理技術(shù)[4]。該技術(shù)可以對(duì)電力設(shè)備上傳的監(jiān)測(cè)數(shù)據(jù)進(jìn)行實(shí)時(shí)的處理、分析,并對(duì)電力設(shè)備的運(yùn)行狀況進(jìn)行預(yù)判。在數(shù)據(jù)分析的基礎(chǔ)上,可以實(shí)時(shí)監(jiān)測(cè)電力設(shè)備和機(jī)器的狀況,提高運(yùn)維人員的工作效率和電力設(shè)備的使用效率,實(shí)現(xiàn)智能電網(wǎng)環(huán)境下電力設(shè)備的精細(xì)化管理[5]。
本文在電網(wǎng)海量機(jī)器數(shù)據(jù)處理技術(shù)的基礎(chǔ)上,進(jìn)一步研究電網(wǎng)設(shè)備監(jiān)測(cè)數(shù)據(jù)的流處理技術(shù),提升數(shù)據(jù)處理性能,提高電網(wǎng)的運(yùn)維效率,保障電網(wǎng)的安全運(yùn)行。本文研究的海量機(jī)器數(shù)據(jù)實(shí)時(shí)流處理技術(shù)對(duì)提高電網(wǎng)設(shè)備的檢修水平和智能化程度有著重要的意義,為保障智能電網(wǎng)的安全運(yùn)行提供了技術(shù)基礎(chǔ)。
數(shù)據(jù)流處理技術(shù)的對(duì)象是智能電網(wǎng)中設(shè)備的運(yùn)行監(jiān)測(cè)數(shù)據(jù),數(shù)據(jù)流是將時(shí)間參數(shù)融入進(jìn)數(shù)據(jù)的一種描述方法,數(shù)據(jù)流有更強(qiáng)的時(shí)間特性。數(shù)據(jù)流可以在一定的時(shí)間段內(nèi),傳輸大量的信息[5]。本文總結(jié)了數(shù)據(jù)流的主要特點(diǎn)如下所述。
(1)海量性。數(shù)據(jù)流是隨時(shí)間參數(shù)變化的因變量,其包含數(shù)據(jù)的量隨著時(shí)間增長(zhǎng)而不斷增長(zhǎng)。
(2)高速性。由于數(shù)據(jù)是隨時(shí)間不斷累積的,電力設(shè)備的監(jiān)測(cè)數(shù)據(jù)可以精確到秒乃至更高,因此數(shù)據(jù)的傳輸速度也非常高。
(3)實(shí)時(shí)性。可以把數(shù)據(jù)流看作是關(guān)于時(shí)間的函數(shù),因此每一個(gè)時(shí)刻對(duì)應(yīng)一個(gè)或多個(gè)數(shù)據(jù),這些數(shù)據(jù)隨著時(shí)間的變化不斷更新,具有實(shí)時(shí)的特性。
(4)多維性。由于電網(wǎng)設(shè)備和機(jī)器的監(jiān)測(cè)內(nèi)容不止一項(xiàng),因此在某一時(shí)刻可以產(chǎn)生多個(gè)數(shù)據(jù),這些數(shù)據(jù)分別從不同的角度對(duì)該機(jī)器進(jìn)行描述。所以,電網(wǎng)設(shè)備和機(jī)器產(chǎn)生的數(shù)據(jù)流具有多維的特點(diǎn)[6]。
數(shù)據(jù)流與傳統(tǒng)的數(shù)據(jù)有很大的差異,主要體現(xiàn)如下。
(1)數(shù)據(jù)流的數(shù)據(jù)體量比較大。傳統(tǒng)的數(shù)據(jù)量通常是有限的,變化量比較少,數(shù)據(jù)流中的數(shù)據(jù)是隨著時(shí)間不斷的累積的,所以數(shù)據(jù)流的體量比較大。
(2)數(shù)據(jù)讀取方式不同。由于傳統(tǒng)的機(jī)器監(jiān)測(cè)數(shù)據(jù)是先儲(chǔ)存在存儲(chǔ)介質(zhì)中的,所以傳統(tǒng)的數(shù)據(jù)在進(jìn)行計(jì)算等操作時(shí)需要多次讀取才可以[7]。
(3)處理結(jié)果不同。傳統(tǒng)的數(shù)據(jù)比較固定、變化量比較少,因此傳統(tǒng)的數(shù)據(jù)處理結(jié)果比較固定,數(shù)據(jù)流變化比較大,因此其處理結(jié)果不唯一。
(4)數(shù)據(jù)更新速度不同。傳統(tǒng)的數(shù)據(jù)比較固定,更新速度比較慢,數(shù)據(jù)流中的數(shù)據(jù)隨著時(shí)間不斷的發(fā)生著變化,不斷的進(jìn)行更新。
目前,已經(jīng)研發(fā)出一些數(shù)據(jù)流處理相關(guān)的技術(shù),本文根據(jù)數(shù)據(jù)流處理技術(shù)的相應(yīng)范圍,將數(shù)據(jù)流處理技術(shù)劃分為以下幾種[8]。
(1)數(shù)據(jù)流模型處理技術(shù)。該數(shù)據(jù)處理模型可以處理某一段時(shí)間內(nèi)相應(yīng)的數(shù)據(jù),但是隨著時(shí)間長(zhǎng)度的增加,數(shù)據(jù)處理的數(shù)量也增加。本技術(shù)適用于算法占用空間比較小的數(shù)據(jù)處理,因此大規(guī)模數(shù)據(jù)環(huán)境下不適用。
(2)滑動(dòng)窗口模型處理技術(shù)。該處理技術(shù)在處理數(shù)據(jù)時(shí)沒(méi)有明顯的界定范圍,該技術(shù)可以通過(guò)滑動(dòng)窗口更新數(shù)據(jù)。因此,該技術(shù)可以實(shí)時(shí)地對(duì)變化的數(shù)據(jù)進(jìn)行相應(yīng)的處理。
(3)數(shù)據(jù)流概要處理技術(shù)。本文在研究現(xiàn)有的數(shù)據(jù)流處理技術(shù)的基礎(chǔ)上,提出了選用數(shù)據(jù)流概要生成算法的處理技術(shù)。目前,數(shù)據(jù)流概要生成算法已經(jīng)有一些處理技術(shù),該技術(shù)主要針對(duì)數(shù)據(jù)流的某些特征進(jìn)行處理[9]。常用的數(shù)據(jù)流概要生成算法主要有哈希算法、直方圖算法、抽樣算法等。
目前,數(shù)據(jù)流概要生成常用的方法主要有抽樣方法、直圖方法、哈希方法和小波方法[10]。其關(guān)系結(jié)構(gòu)如圖1所示。
圖1 模型概要處理技術(shù)模型方法及關(guān)系示意圖
模型概要處理技術(shù)是基于抽樣算法技術(shù)發(fā)展起來(lái)的,該模型的關(guān)鍵是樣本抽樣過(guò)程中每個(gè)樣本被抽中的概率是相同的。直方圖方法是將數(shù)據(jù)流分化成不同的類(lèi)別,該方法的特點(diǎn)是比較直觀(guān)地對(duì)數(shù)據(jù)進(jìn)行劃分[11]。小波方法利用數(shù)字信號(hào)處理數(shù)據(jù)流的技術(shù),處理過(guò)程中將數(shù)據(jù)流轉(zhuǎn)換成小波系數(shù)進(jìn)行處理,該技術(shù)可以對(duì)多維數(shù)據(jù)進(jìn)行降維處理,因此較快速地處理多維數(shù)據(jù)。
(1)算法設(shè)計(jì)的基本原則
本文首先對(duì)電網(wǎng)設(shè)備監(jiān)測(cè)數(shù)據(jù)進(jìn)行了分析,并總結(jié)了電網(wǎng)設(shè)備數(shù)據(jù)流概要模型處理算法的基本要求:數(shù)據(jù)抽樣時(shí)應(yīng)該能夠滿(mǎn)足抽樣的公平性;算法應(yīng)該具有一定的穩(wěn)定性;抽樣的時(shí)空分布應(yīng)該分布均勻[12]。
(2)算法基本框架設(shè)計(jì)
本文在流數(shù)據(jù)概要處理的一般技術(shù)和算法設(shè)計(jì)基本原則的基礎(chǔ)上,根據(jù)電網(wǎng)設(shè)備運(yùn)行監(jiān)測(cè)數(shù)據(jù)和特性進(jìn)行抽樣提取,將關(guān)鍵數(shù)據(jù)應(yīng)用于后續(xù)的分析和預(yù)測(cè)[13]。本文初步設(shè)計(jì)的算法運(yùn)行流程如圖2所示。
圖2 算法運(yùn)行流程示意圖
本文提出數(shù)據(jù)流概要處理模型算法結(jié)合了UBCS滑動(dòng)窗口數(shù)據(jù)流模型的相關(guān)技術(shù),可以通過(guò)截取時(shí)間段的數(shù)據(jù)流進(jìn)行處理,在電網(wǎng)設(shè)備檢測(cè)數(shù)據(jù)處理應(yīng)用中有更高的價(jià)值[14]。本文設(shè)計(jì)的算法的具體執(zhí)行過(guò)程如下。
(1) 選定數(shù)據(jù)流單元的索引,并以其對(duì)應(yīng)的實(shí)際元素進(jìn)行存儲(chǔ)并檢測(cè)異常數(shù)值。
(2) 若窗口內(nèi)的數(shù)據(jù)量超過(guò)窗口大小時(shí),刷新數(shù)據(jù)、釋放相應(yīng)的內(nèi)存。
(3) 若存在多余的窗口時(shí),則隨機(jī)釋放一個(gè)窗口。
(4) 重復(fù)上述步驟,選出數(shù)據(jù)流概要處理模型。
本文設(shè)計(jì)的數(shù)據(jù)流處理計(jì)算模型,在流數(shù)據(jù)概要處理技術(shù)的基礎(chǔ)上,提出了將智能挖掘技術(shù)應(yīng)用到電網(wǎng)數(shù)據(jù)流處理中的概念[15]。數(shù)據(jù)挖掘技術(shù)可以快速地從海量數(shù)據(jù)中尋找到需要的數(shù)據(jù)進(jìn)行分析,有助于數(shù)據(jù)流實(shí)時(shí)處理技術(shù)的實(shí)現(xiàn)。
本文針對(duì)數(shù)據(jù)流與傳統(tǒng)數(shù)據(jù)差異的基礎(chǔ)上,對(duì)數(shù)據(jù)流的操作過(guò)程中重點(diǎn)考慮了以下幾點(diǎn)[16]。
(1) 時(shí)效性
數(shù)據(jù)流是隨時(shí)間不斷變化的,在數(shù)據(jù)流處理時(shí)也應(yīng)考慮該特性,即數(shù)據(jù)處理的時(shí)效性。
(2) 穩(wěn)定性
與傳統(tǒng)的數(shù)據(jù)不同,流數(shù)據(jù)是處于實(shí)時(shí)變化過(guò)程中的,因此數(shù)據(jù)的處理也會(huì)實(shí)時(shí)的發(fā)生變化。穩(wěn)定性是流數(shù)據(jù)處理模型應(yīng)該重點(diǎn)考慮的內(nèi)容,本文設(shè)計(jì)的模型采取了相應(yīng)的措施保證數(shù)據(jù)處理的穩(wěn)定性,其流數(shù)據(jù)的處理邏輯如圖3所示。
圖3 流數(shù)據(jù)處理邏輯關(guān)系示意圖
該流數(shù)據(jù)處理邏輯可以針對(duì)隨著時(shí)間不斷變化的數(shù)據(jù)進(jìn)行更新,并且不斷更新數(shù)據(jù)概要模型。被更新的數(shù)據(jù)則會(huì)進(jìn)行緩存并進(jìn)行高級(jí)処理(數(shù)據(jù)的分類(lèi)、聚類(lèi)及結(jié)果的預(yù)測(cè)等操作)。
在大數(shù)據(jù)處理的需求不斷提高的今天,數(shù)據(jù)挖掘技術(shù)已經(jīng)得到了突飛猛進(jìn)的發(fā)展。數(shù)據(jù)流的聚類(lèi)算法是在傳統(tǒng)的聚類(lèi)算法基礎(chǔ)上發(fā)展而來(lái)的,主要對(duì)數(shù)據(jù)流中的數(shù)據(jù)進(jìn)行聚類(lèi)分析。常用的數(shù)據(jù)流聚類(lèi)處理算法主要包括lslream算法、Cluream算法及高維數(shù)據(jù)流聚類(lèi)算法等。
本文設(shè)計(jì)的數(shù)據(jù)流挖掘算法的框架及步驟如下所示。
(1) 選取合適大小的滑動(dòng)窗口及概要數(shù)據(jù)提取頻率。通過(guò)設(shè)置合理的滑動(dòng)窗口與概要模型提取頻率,選取合理的處理算法。
(2) 對(duì)滑動(dòng)窗口內(nèi)的數(shù)據(jù)進(jìn)行概要構(gòu)建,同時(shí)概要模型要能夠?qū)崟r(shí)増量更新。
(3) 選揮合理的聚類(lèi)與分類(lèi)算法,對(duì)概要模型進(jìn)行處理。
本文設(shè)計(jì)的數(shù)據(jù)流挖掘處理流程如圖4所示。
圖4 數(shù)據(jù)流挖掘處理框架設(shè)計(jì)
本文在收集的100組變壓器運(yùn)行監(jiān)測(cè)數(shù)據(jù)的基礎(chǔ)上,對(duì)流數(shù)據(jù)處理模型進(jìn)行了測(cè)試。本次測(cè)試的數(shù)據(jù)包含了變壓器常見(jiàn)的故障:電力設(shè)備低能放電、低中溫?zé)峁收?、高能放電、高溫故障及正常等幾種情況。
模型通過(guò)CLUSTER對(duì)數(shù)據(jù)集進(jìn)行驗(yàn)證對(duì)比,并分析此兩類(lèi)方法對(duì)數(shù)據(jù)分類(lèi)的時(shí)間效率、分類(lèi)準(zhǔn)確率、有效數(shù)據(jù)刪除比率等方面進(jìn)行比較。先后通過(guò)設(shè)定滑動(dòng)窗口尺寸(30),將數(shù)據(jù)流分類(lèi)設(shè)定為3類(lèi),誤差參數(shù)為0.3,在線(xiàn)聚類(lèi)層設(shè)定聚類(lèi)值為14。通過(guò)一系列運(yùn)算,得出了模型的運(yùn)算結(jié)果。
結(jié)果顯示,本文設(shè)計(jì)的數(shù)據(jù)流處理模型準(zhǔn)確率比傳統(tǒng)算法提高10%,實(shí)時(shí)處理能力比傳統(tǒng)算法的運(yùn)行能力提高43%。
隨著電網(wǎng)的智能化升級(jí)改造,電力系統(tǒng)產(chǎn)生大量的設(shè)備監(jiān)測(cè)數(shù)據(jù),傳統(tǒng)的電力設(shè)備數(shù)據(jù)處理技術(shù)已經(jīng)不能滿(mǎn)足現(xiàn)階段的需要。能夠?qū)崟r(shí)計(jì)算、處理海量數(shù)據(jù)的技術(shù)亟需研發(fā)和升級(jí),通過(guò)本文關(guān)于流數(shù)據(jù)的研究,可以得出以下結(jié)論。
(1)本文對(duì)智能電網(wǎng)設(shè)備產(chǎn)生的流數(shù)據(jù)的一般特點(diǎn)進(jìn)行了深入的分析,例如海量性、實(shí)時(shí)性等特點(diǎn);流數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)不同,其數(shù)據(jù)流的數(shù)據(jù)體量比較大、數(shù)據(jù)讀取方式不同、處理結(jié)果不同、數(shù)據(jù)更新速度不同。
(2)本文在數(shù)據(jù)流概要處理模型算法的基礎(chǔ)上,結(jié)合數(shù)據(jù)挖掘技術(shù),提出了數(shù)據(jù)流處理模型。該模型可以更加快速的、實(shí)時(shí)地對(duì)數(shù)據(jù)進(jìn)行處理,對(duì)電網(wǎng)智能化升級(jí)改造和精細(xì)化管理有十分重要的意義。