王奕萱,李翼銘,徐二強,李會君,李明亮
(1.國網(wǎng)河南省電力公司營銷服務(wù)中心(計量中心),河南鄭州 450052;2.國網(wǎng)河南省電力公司,河南鄭州 450052;3.河南九域騰龍信息工程有限公司,河南鄭州 450052)
電力系統(tǒng)所存儲的數(shù)據(jù)量巨大,而對于大量數(shù)據(jù)分析處理的常用方式便是數(shù)據(jù)挖掘,其應(yīng)用領(lǐng)域非常廣泛,如火電廠優(yōu)化、配電網(wǎng)故障識別、水電廠運轉(zhuǎn)等,因此數(shù)據(jù)挖掘在電力計量領(lǐng)域的應(yīng)用頻率逐漸提升。尤其隨著電力公司存儲數(shù)據(jù)量的不斷增加,對于數(shù)據(jù)挖掘的要求也越來越高,因此對于電力計量數(shù)據(jù)挖掘的研究受到相關(guān)領(lǐng)域研究人員的廣泛關(guān)注。
文獻(xiàn)[1]提出了基于蟻群算法的非結(jié)構(gòu)化大數(shù)據(jù)深度挖掘方法,利用蟻群參數(shù)實現(xiàn)信息挖掘,但此方式運用到電力計量中適用性差。文獻(xiàn)[2]提出了基于EPR 的智慧電廠大數(shù)據(jù)深度挖掘方法,通過機(jī)理算法和EPR,結(jié)合專家數(shù)據(jù)庫以及可視化等手段對燃煤火電廠的大數(shù)據(jù)進(jìn)行深度挖掘,但此方式只在燃煤火電廠中適用,應(yīng)用范圍受限。
結(jié)合上述分析,該文提出了基于特征標(biāo)簽的電力計量大數(shù)據(jù)深度挖掘方法。
為了實現(xiàn)電力計量大數(shù)據(jù)深度挖掘,該文對電力計量大數(shù)據(jù)進(jìn)行處理,生成特征標(biāo)簽,特征標(biāo)簽的生成位置處于大數(shù)據(jù)平臺和上層業(yè)務(wù)應(yīng)用之間,作為中間層的關(guān)鍵組件[3-4]。
利用模糊C-均值聚類算法生成特征標(biāo)簽,假設(shè)設(shè)定聚類個數(shù)為K,隸屬度因子為m,隨機(jī)初始化矩陣為U,代入通過模糊C-均值聚類算法,則存在:
其中,通過計算模糊C 均值求得C的迭代函數(shù):
求得迭代函數(shù)后,根據(jù)迭代函數(shù)獲取特征標(biāo)簽的聚類中心以及隸屬度因子,并進(jìn)行收斂度判斷,若目標(biāo)函數(shù)的變化值小于預(yù)設(shè)閾值,則輸出聚類結(jié)果,并根據(jù)聚類結(jié)果求出聚類迭代值,計算公式如下:
隨后,利用電力計量數(shù)據(jù)的數(shù)據(jù)源計算平臺生成特征標(biāo)簽,該計算平臺支持對大量數(shù)據(jù)進(jìn)行分布式計算,并提供數(shù)據(jù)庫查詢的功能[5-6]。隨后建立大數(shù)據(jù)治理組件,該組件含有三層結(jié)構(gòu),分別為數(shù)據(jù)層、分析層、標(biāo)簽層。通過大數(shù)據(jù)治理組件完成對特征標(biāo)簽的初步生成。電力計量大數(shù)據(jù)特征標(biāo)簽生成過程如圖1 所示。
近些年,反貪調(diào)查和公安、國安機(jī)關(guān)的偵查工作相比,在技術(shù)層面的差距非常之大,制約了反貪工作的效率和權(quán)威。由此,強化調(diào)查領(lǐng)域的技術(shù)支持成為重點工作??梢灶A(yù)見的是,在不久的將來,職務(wù)犯罪調(diào)查將會圍繞高新技術(shù)進(jìn)行調(diào)查模式的重構(gòu)。在這個意義上,技術(shù)發(fā)展的必然性與社會發(fā)展的必然性出現(xiàn)了重合,逐步形成了技術(shù)的社會化機(jī)制。作為調(diào)查主體的調(diào)查人員卻未能與科學(xué)技術(shù)一樣被列為重點建設(shè)的目標(biāo),也就意味著人文技術(shù)調(diào)查地位的衰弱。實際上,暗藏在調(diào)查中的技術(shù)路徑選擇之爭已經(jīng)初露端倪,并已存在于感官的社會構(gòu)建之中。但這樣的路徑之爭并非現(xiàn)實的社會構(gòu)建,作為兩種重心不同的調(diào)查技術(shù)路徑選擇,至少在理論上值得分析。
圖1 電力計量大數(shù)據(jù)特征標(biāo)簽生成過程
觀察圖1 可知,對于電力計算的大數(shù)據(jù)深度挖掘過程中,需要建立多個特征標(biāo)簽,因此將規(guī)則引擎作為特征標(biāo)簽的生產(chǎn)機(jī)器,從而產(chǎn)生大量特征標(biāo)簽,并通過標(biāo)簽識別中心完成對特征標(biāo)簽的管理與規(guī)劃[7-8]。其具體過程如下:
特征標(biāo)簽業(yè)務(wù)化,主要是通過用戶來設(shè)置特征標(biāo)簽的生成條件,并賦予修改、檢閱特征標(biāo)簽的功能。同時進(jìn)行特征標(biāo)簽的邏輯檢查,其生成條件主要根據(jù)電力計量大數(shù)據(jù)中所需要挖掘的數(shù)據(jù)制定,工作人員只需管理特征標(biāo)簽的生成以及大數(shù)據(jù)的維護(hù)。
規(guī)則引擎作為特征標(biāo)簽的生產(chǎn)機(jī)器,是由特征標(biāo)簽業(yè)務(wù)化后產(chǎn)生的數(shù)據(jù)實體生成的,在特征標(biāo)簽的開發(fā)中進(jìn)行規(guī)則的制定、圖形化控制等,規(guī)則引擎作為生產(chǎn)特征標(biāo)簽的裝置,可對特征標(biāo)簽的生成規(guī)則進(jìn)行設(shè)定,針對于不同用途的特征標(biāo)簽,其生成規(guī)則也不同,根據(jù)生成規(guī)則觸發(fā)生成條件,完成對多種特征標(biāo)簽的制作[9-10]。
標(biāo)簽識別中心可進(jìn)行特征標(biāo)簽衍生組合的邏輯運算,在工作人員進(jìn)行設(shè)定操作后,將已有的簡單特征標(biāo)簽升級成更高級、復(fù)雜、有價值的特征標(biāo)簽[11-12]。利用智能化計算進(jìn)行自動分析對電力計量大數(shù)據(jù)特征標(biāo)簽進(jìn)行需求排序。以數(shù)值形式表示特征標(biāo)簽的屬性。在特征標(biāo)簽制作完成后,需要對其進(jìn)行價值判斷,價值較低的特征標(biāo)簽不能用于對電力計量大數(shù)據(jù)的挖掘,因此需要建立價值函數(shù)來判斷特征標(biāo)簽的價值[13-14]。由以下公式計算:
其中,Zi表示第i個標(biāo)簽的價值,當(dāng)J值大于1時,則認(rèn)為該特征標(biāo)簽價值較高,可利用其對電力計量大數(shù)據(jù)進(jìn)行深度挖掘。生成的特征標(biāo)簽主要有以下幾方面作用:
數(shù)據(jù)抽取,對電力計量中的大數(shù)據(jù)進(jìn)行抽取,并根據(jù)特征標(biāo)簽進(jìn)行分類,通過判斷工作人員設(shè)定的挖掘需求來抽取不同的大數(shù)據(jù)[15]。
數(shù)據(jù)轉(zhuǎn)換,用于對電力計量系統(tǒng)中的所有數(shù)據(jù)進(jìn)行轉(zhuǎn)換操作,以此及時發(fā)現(xiàn)數(shù)據(jù)源存在的問題,過濾無效信息,利用錯誤信息建立錯誤標(biāo)簽。
數(shù)據(jù)辨識,利用智能化計算對數(shù)據(jù)進(jìn)行自動分析,辨識特征標(biāo)簽。
圖2 數(shù)據(jù)挖掘架構(gòu)
根據(jù)圖2 可知,USB 異步收發(fā)傳輸器和電平轉(zhuǎn)換實現(xiàn)數(shù)據(jù)預(yù)處理,利用微控制單元實現(xiàn)數(shù)據(jù)分類,內(nèi)部配置可編程只讀存儲器,更好地存儲數(shù)據(jù)。
數(shù)據(jù)預(yù)處理主要是通過特征標(biāo)簽的數(shù)據(jù)轉(zhuǎn)換功能對電力計量大數(shù)據(jù)進(jìn)行預(yù)處理操作。在預(yù)處理中,利用CK 算法對無效、錯誤數(shù)據(jù)進(jìn)行篩查,根據(jù)CK 算法的最小原則對電力計量大數(shù)據(jù)進(jìn)行歸類處理,確定中心點,在中心點以下排列的數(shù)據(jù)變?yōu)闊o效數(shù)據(jù),無效數(shù)據(jù)篩選閾值如下:
其中,m為中心點數(shù)值;u為判斷目標(biāo)數(shù)據(jù)[16]。
云聚類編輯主要是指將預(yù)處理后的數(shù)據(jù)進(jìn)行聚類編輯,根據(jù)數(shù)據(jù)價值從高到低排列數(shù)據(jù),結(jié)合電力計量大數(shù)據(jù)深度挖掘的要求進(jìn)行聚類數(shù)據(jù)分類,并將分類后的數(shù)據(jù)傳輸至數(shù)據(jù)挖掘架構(gòu)。
云分類建模結(jié)合預(yù)處理后的數(shù)據(jù),將分類結(jié)果傳輸至數(shù)據(jù)挖掘架構(gòu),數(shù)據(jù)挖掘架構(gòu)通過數(shù)據(jù)融合將分類模塊與聚類數(shù)據(jù)結(jié)合,生成挖掘模塊,將所生成的挖掘模塊傳輸至挖掘點,進(jìn)行深度挖掘。
數(shù)據(jù)挖掘架構(gòu)結(jié)合了云儲存性能以及云數(shù)據(jù)挖掘作業(yè)流引擎,對云數(shù)據(jù)挖掘流程的全部操作應(yīng)用至數(shù)據(jù)挖掘架構(gòu)過程,達(dá)到對電力計量大數(shù)據(jù)的深度挖掘標(biāo)準(zhǔn),并在挖掘模塊中運用圖表形式進(jìn)行可視化表述。
利用特征標(biāo)簽完成對電力計量大數(shù)據(jù)的深度挖掘,具體過程如下:
首先確定挖掘?qū)ο?,通過數(shù)據(jù)抽取得到需要深度挖掘的大數(shù)據(jù),明確挖掘后數(shù)據(jù)的用途。進(jìn)而進(jìn)行數(shù)據(jù)準(zhǔn)備,對從電力計量底層中提取到的數(shù)據(jù)進(jìn)行預(yù)處理,通過CK 算法對無效數(shù)據(jù)、錯誤數(shù)據(jù)進(jìn)行篩查,并選擇特征標(biāo)簽的數(shù)據(jù)轉(zhuǎn)換功能對錯誤數(shù)據(jù)建立錯誤標(biāo)簽,防止挖掘錯誤,確保數(shù)據(jù)的準(zhǔn)確性。隨后進(jìn)行云分類建模,選擇合適的建模方式對大數(shù)據(jù)模型進(jìn)行調(diào)整改善,以此提升挖掘精確度與效率。最后將挖掘結(jié)果制作成圖表呈現(xiàn)給工作人員。
為了驗證該文提出的基于特征標(biāo)簽的電力計量大數(shù)據(jù)深度挖掘方法的實際應(yīng)用效果,將其與傳統(tǒng)的基于蟻群算法的非結(jié)構(gòu)化大數(shù)據(jù)深度挖掘方法和基于ERP 的智慧電廠大數(shù)據(jù)深度挖掘方法進(jìn)行實驗對比。
選用的主機(jī)操作系統(tǒng)為Linux 系統(tǒng),對信息進(jìn)行配置,系統(tǒng)內(nèi)存為16 GB,硬盤為2 TB,采用的編程語言為C++語言,開發(fā)環(huán)境為Hadoop 環(huán)境。實驗環(huán)境如圖3 所示。
圖3 實驗環(huán)境
三種方法挖掘的數(shù)據(jù)量實驗結(jié)果如表1 所示。
表1 挖掘數(shù)據(jù)量實驗結(jié)果
根據(jù)表1 可知,隨著挖掘時間的增加,三種挖掘方法的挖掘量在不斷增加,該文提出的挖掘方法的挖掘數(shù)據(jù)量要遠(yuǎn)遠(yuǎn)高于傳統(tǒng)方法。原因是利用該文通過特征標(biāo)簽對數(shù)據(jù)進(jìn)行挖掘,在挖掘過程中能夠很好地對信息進(jìn)行分類,通過信息編輯完成數(shù)據(jù)處理,從而實現(xiàn)低成本、高信息吞吐的挖掘目的。傳統(tǒng)的挖掘方法在挖掘過程中難以考慮電力程序邏輯關(guān)系,受到輸送方式限制,無法挖掘大量數(shù)據(jù)。
電力計量大數(shù)據(jù)在挖掘過程中容易受到外界干擾,導(dǎo)致挖掘信息不穩(wěn)定,降低魯棒性,為進(jìn)一步探究挖掘方法的可行性,針對挖掘過程的穩(wěn)定性進(jìn)行實驗對比,實驗結(jié)果如圖4 所示。
圖4 挖掘穩(wěn)定性實驗結(jié)果
根據(jù)圖4 可知,該文提出的挖掘方法在挖掘過程中具有很好的穩(wěn)定性,信息處理結(jié)果更加準(zhǔn)確。原因在于該文提出的挖掘方法通過數(shù)據(jù)分析消除數(shù)據(jù),解決信息孤島問題,通過對設(shè)備和電網(wǎng)運行的狀態(tài)分析,感知信息的運行動態(tài),從而確保挖掘穩(wěn)定性。挖掘準(zhǔn)確率實驗結(jié)果如表2 所示。
表2 挖掘準(zhǔn)確率實驗結(jié)果
根據(jù)表2 可知,該文提出的挖掘方法挖掘準(zhǔn)確率更高,挖掘能力更強。
電力系統(tǒng)的高速發(fā)展使得電力計量數(shù)據(jù)增多,對電力計量大數(shù)據(jù)的深度挖掘成為了電力領(lǐng)域的研究方向之一,傳統(tǒng)方式對于電力計量大數(shù)據(jù)的挖掘仍有缺陷,為了有效解決該問題,該文提出了基于特征標(biāo)簽的電力計量大數(shù)據(jù)深度挖掘方法,通過引入特征標(biāo)簽更好地實現(xiàn)信息分類,以此實現(xiàn)電力計量大數(shù)據(jù)的深度挖掘,此方法有效彌補了傳統(tǒng)方式的不足,并可為此方面的研究提供參考。