電網(wǎng)歷史數(shù)據(jù)缺失及補(bǔ)錄研究

2017-04-27 01:47:57謝翹楚姚毅

四川輕化工大學(xué)學(xué)報(bào)(自然科學(xué)版) 2017年2期

關(guān)鍵詞：數(shù)據(jù)類型決策樹規(guī)律

謝翹楚, 姚毅

(1.四川理工學(xué)院自動(dòng)化與信息工程學(xué)院, 四川自貢643000;2.人工智能四川省重點(diǎn)實(shí)驗(yàn)室, 四川自貢643000)

電網(wǎng)歷史數(shù)據(jù)缺失及補(bǔ)錄研究

謝翹楚1,2, 姚毅1,2

(1.四川理工學(xué)院自動(dòng)化與信息工程學(xué)院, 四川自貢643000;2.人工智能四川省重點(diǎn)實(shí)驗(yàn)室, 四川自貢643000)

電網(wǎng)歷史數(shù)據(jù)是智能電網(wǎng)信息化發(fā)展的基礎(chǔ)，確保歷史數(shù)據(jù)的完整非常必要。在分析電網(wǎng)數(shù)據(jù)采集與傳輸過程中產(chǎn)生數(shù)據(jù)缺失原因的基礎(chǔ)上，對(duì)缺失數(shù)據(jù)進(jìn)行了類型劃分，并給出了發(fā)現(xiàn)和判定數(shù)據(jù)缺失的方法。根據(jù)數(shù)據(jù)缺失類型，采用缺失數(shù)據(jù)清潔法和缺失數(shù)據(jù)補(bǔ)錄法處理規(guī)律缺失數(shù)據(jù)和不規(guī)律缺失數(shù)據(jù)，使用SPSS驗(yàn)證上述方法，結(jié)果表明補(bǔ)錄準(zhǔn)確度高達(dá)90%；運(yùn)用隨機(jī)森林算法處理不完全規(guī)律缺失數(shù)據(jù)，以均方根誤差和填補(bǔ)準(zhǔn)確度為評(píng)判指標(biāo)，實(shí)驗(yàn)結(jié)果證明了該方法的準(zhǔn)確性和有效性。用這些方法處理電網(wǎng)的數(shù)據(jù)缺失問題，能有效地提高電網(wǎng)歷史數(shù)據(jù)的質(zhì)量，使現(xiàn)有的數(shù)據(jù)得到最大程度的利用。

電網(wǎng)歷史數(shù)據(jù)；數(shù)據(jù)缺失；數(shù)據(jù)補(bǔ)錄；隨機(jī)森林

引言

近年來，隨著全球智能電網(wǎng)的飛速發(fā)展，國家電網(wǎng)公司為我國的智能電網(wǎng)建設(shè)提出了新的要求，發(fā)展高速、高效的智能電網(wǎng)系統(tǒng)變得勢在必行[1]。

智能電網(wǎng)技術(shù)就是實(shí)現(xiàn)信息化、自動(dòng)化、互動(dòng)化，構(gòu)建以特高壓為骨干網(wǎng)架、各級(jí)電網(wǎng)協(xié)調(diào)發(fā)展的統(tǒng)一。電網(wǎng)的歷史數(shù)據(jù)就是智能電網(wǎng)信息化建設(shè)的數(shù)據(jù)基礎(chǔ)。然而在實(shí)際中，各個(gè)變電站的數(shù)據(jù)在提取和傳輸時(shí)，會(huì)產(chǎn)生海量的雜亂無章的數(shù)據(jù)，其數(shù)量級(jí)別是呈指數(shù)級(jí)增長的，這些數(shù)據(jù)在傳輸和使用的過程中，有相當(dāng)一部分?jǐn)?shù)據(jù)因?yàn)槿藶橐蛩鼗蚩陀^因素發(fā)生了缺失的現(xiàn)象，對(duì)智能電網(wǎng)的信息化建設(shè)帶來了很大的不便。為了提高電網(wǎng)數(shù)據(jù)的質(zhì)量，保障數(shù)據(jù)的完整性，為智能電網(wǎng)的發(fā)展掃清障礙，解決電網(wǎng)數(shù)據(jù)缺失是很有必要的。

本文闡述了智能電網(wǎng)變電站監(jiān)控系統(tǒng)所產(chǎn)生的數(shù)據(jù)傳輸過程，并針對(duì)在傳輸過程中所產(chǎn)生的數(shù)據(jù)缺失問題，提出了處理數(shù)據(jù)缺失的方法。

1數(shù)據(jù)缺失的產(chǎn)生原因及類型

電網(wǎng)的監(jiān)控平臺(tái)可以管理一部分區(qū)域內(nèi)的所有變電站，并將其產(chǎn)生的海量數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘分析，獲取其中有用的數(shù)據(jù)，尋找到一定的規(guī)律，對(duì)智能電網(wǎng)建設(shè)起到積極作用[2]。

整個(gè)電網(wǎng)系統(tǒng)中，數(shù)據(jù)的傳輸大致可分為單向流傳輸與雙向傳輸，本文主要研究單向流傳輸?shù)臄?shù)據(jù)缺失。傳輸過程為：個(gè)體變電站→數(shù)據(jù)集控站→縣級(jí)調(diào)度→市級(jí)調(diào)度→省級(jí)調(diào)度。

數(shù)據(jù)在傳輸過程中，會(huì)產(chǎn)生很多的缺失，產(chǎn)生缺失的原因大致可分為兩類，主觀原因和客觀原因。人為因素所導(dǎo)致的數(shù)據(jù)采集或傳輸造成的數(shù)據(jù)缺失可稱為主觀原因，如錄入數(shù)據(jù)失誤、工作失職或有意偽造數(shù)據(jù)所造成的數(shù)據(jù)缺失。設(shè)備故障、路線中斷等客觀原因所造成的數(shù)據(jù)缺失可稱為客觀原因，如數(shù)據(jù)存儲(chǔ)失敗、變電站機(jī)械故障、數(shù)據(jù)傳輸路線截?cái)嗟取?/p>

盡管變電站的歷史數(shù)據(jù)屬性眾多且繁雜，但是根據(jù)數(shù)據(jù)產(chǎn)生缺失的原因，大致可以把數(shù)據(jù)缺失情況歸為三類：無規(guī)律缺失、規(guī)律缺失、不完全規(guī)律缺失[3]。

無規(guī)律缺失是指該數(shù)據(jù)是完全隨機(jī)的，其數(shù)據(jù)類型不能由已知的數(shù)據(jù)類型來判斷。規(guī)律缺失是指該數(shù)據(jù)是有規(guī)律可循的，其數(shù)據(jù)類型可以由已知的數(shù)據(jù)來補(bǔ)充或推斷。不完全規(guī)律缺失是指該數(shù)據(jù)中既有無規(guī)律缺失數(shù)據(jù)，也有規(guī)律缺失數(shù)據(jù)。

2數(shù)據(jù)缺失的發(fā)現(xiàn)

數(shù)據(jù)缺失問題在基于傳感器采集數(shù)據(jù)的發(fā)電廠普遍存在，嚴(yán)重阻礙了電力科學(xué)與工程數(shù)據(jù)分析及挖掘在變電站優(yōu)化領(lǐng)域的發(fā)展。

變電站數(shù)據(jù)采集、存儲(chǔ)系統(tǒng)組成復(fù)雜，測點(diǎn)工作環(huán)境惡劣等多方原因能夠造成數(shù)據(jù)的缺失，主要分為: 傳感器故障、數(shù)據(jù)傳輸故障、數(shù)據(jù)存儲(chǔ)故障、人的主觀因素等。數(shù)據(jù)的不完整性給數(shù)據(jù)挖掘過程、數(shù)據(jù)分析和研究帶來了重重困難，這些不完整的數(shù)據(jù)會(huì)導(dǎo)致分析結(jié)果發(fā)生偏置，建立錯(cuò)誤的數(shù)據(jù)挖掘模型，導(dǎo)致不準(zhǔn)確的挖掘結(jié)果，甚至?xí)`導(dǎo)用戶的決策，導(dǎo)致經(jīng)濟(jì)損失[4-7]。

依據(jù)數(shù)據(jù)類型的重要程度來劃分?jǐn)?shù)據(jù)的級(jí)別，例如首先將變壓器(油中溶解氣體、局部放電等)，高壓斷路器(氣體成分)，高壓母線(溫度)設(shè)定為優(yōu)先級(jí)較高的數(shù)據(jù)，其次對(duì)各級(jí)別的數(shù)據(jù)依照以往的正常數(shù)據(jù)量設(shè)定相應(yīng)的閾值，如果數(shù)據(jù)量低于閾值，即可判斷數(shù)據(jù)發(fā)生了缺失，再次根據(jù)即時(shí)數(shù)值與閾值的差距，對(duì)數(shù)據(jù)的缺失情況進(jìn)行評(píng)級(jí)[8]。在對(duì)數(shù)據(jù)進(jìn)行檢測時(shí)，若發(fā)生數(shù)據(jù)缺失，系統(tǒng)會(huì)根據(jù)數(shù)據(jù)的優(yōu)先級(jí)別和閾值來一一判斷數(shù)據(jù)在哪個(gè)部位發(fā)生了缺失。

不同類型的數(shù)據(jù)缺失情況，應(yīng)該有相應(yīng)的缺失發(fā)現(xiàn)機(jī)制。

(1)規(guī)律缺失數(shù)據(jù)的發(fā)現(xiàn)

若數(shù)據(jù)缺失是呈規(guī)律性或遵循函數(shù)而發(fā)生的，系統(tǒng)會(huì)將其判定為規(guī)律缺失數(shù)據(jù)。

(2)不規(guī)律缺失數(shù)據(jù)的發(fā)現(xiàn)

若數(shù)據(jù)缺失是呈無規(guī)律性或隨機(jī)發(fā)生的，系統(tǒng)會(huì)將其判定為不規(guī)律缺失數(shù)據(jù)。

(3)不完全規(guī)律缺失數(shù)據(jù)的發(fā)現(xiàn)

若數(shù)據(jù)缺失即存在規(guī)律數(shù)據(jù)缺失又存在不規(guī)律數(shù)據(jù)缺失，系統(tǒng)會(huì)將其判定為不完全規(guī)律缺失數(shù)據(jù)。

3數(shù)據(jù)缺失的處理

傳輸中產(chǎn)生數(shù)據(jù)缺失會(huì)對(duì)整個(gè)電網(wǎng)監(jiān)控平臺(tái)的實(shí)際效果產(chǎn)生巨大的負(fù)面影響，因此，對(duì)這些缺失的數(shù)據(jù)進(jìn)行處理變得勢在必行。根據(jù)現(xiàn)在大數(shù)據(jù)處理技術(shù)對(duì)于數(shù)據(jù)缺失的處理辦法，可以對(duì)電網(wǎng)產(chǎn)生的數(shù)據(jù)缺失使用缺失數(shù)據(jù)清理法和缺失數(shù)據(jù)補(bǔ)錄法。在數(shù)據(jù)量較大時(shí)，普通的人工補(bǔ)錄效率會(huì)十分低下，而一般的基于統(tǒng)計(jì)學(xué)原理的補(bǔ)錄方法(如采樣法、回歸預(yù)測法、EM算法等)會(huì)出現(xiàn)較大的偏差，這就需要設(shè)計(jì)更加適合的補(bǔ)錄決策。

3.1缺失數(shù)據(jù)清潔法

缺失數(shù)據(jù)清潔法主要分為刪除法和權(quán)重法。

刪除法是處理缺失數(shù)據(jù)最簡單的方法，就是將缺失的個(gè)體直接刪除。如果直接刪除掉一部分個(gè)體數(shù)據(jù)就可以達(dá)到預(yù)期數(shù)據(jù)的目標(biāo)，這個(gè)方法是最有效的。

權(quán)重法即當(dāng)缺失值的類型為規(guī)律缺失時(shí)，通過對(duì)整體的數(shù)據(jù)加權(quán)來降低整體數(shù)據(jù)的偏差。把數(shù)據(jù)缺損的個(gè)體分別記錄后，用線性回歸法求得缺損數(shù)據(jù)各個(gè)部分的權(quán)重，然后將整體的數(shù)據(jù)個(gè)體給予有差異的權(quán)重。假如個(gè)體數(shù)據(jù)類型中存在對(duì)權(quán)重估計(jì)起決定性因素的變量，那該方法可以降低數(shù)據(jù)的缺損程度。假如個(gè)體數(shù)據(jù)類型中的變量和權(quán)重并不相關(guān)，那它并不能降低數(shù)據(jù)缺損程度。所以針對(duì)多個(gè)數(shù)據(jù)類型缺失的情況，就需要對(duì)不同類型的缺失組合給予有差異的權(quán)重，這將會(huì)加大數(shù)據(jù)處理的工作量，使預(yù)期結(jié)果發(fā)生偏移[9]。

缺失數(shù)據(jù)清潔法可運(yùn)用于電網(wǎng)監(jiān)控系統(tǒng)中表現(xiàn)較為良好的設(shè)備所產(chǎn)生的數(shù)據(jù)，但當(dāng)數(shù)據(jù)類型比較復(fù)雜或設(shè)備產(chǎn)生的問題較多時(shí)，此類方法將會(huì)加大決策人員工作量，導(dǎo)致不能精確分析問題產(chǎn)生的原因，降低電網(wǎng)數(shù)據(jù)分析效率等。

3.2缺失數(shù)據(jù)補(bǔ)錄法

大數(shù)據(jù)處理技術(shù)的背景下，當(dāng)海量數(shù)據(jù)出現(xiàn)一定的缺失情況時(shí)，如果單純地使用數(shù)據(jù)清潔法，會(huì)造成許多有用數(shù)據(jù)的遺失，這會(huì)對(duì)之后的數(shù)據(jù)挖掘和分析產(chǎn)生巨大的負(fù)面影響。因此，對(duì)缺失數(shù)據(jù)進(jìn)行預(yù)估和補(bǔ)錄的對(duì)策(數(shù)據(jù)補(bǔ)錄法)應(yīng)運(yùn)而生。

根據(jù)規(guī)律缺失數(shù)據(jù)和無規(guī)律缺失數(shù)據(jù)和不完全規(guī)律缺失數(shù)據(jù)，采用相應(yīng)的方法解決。

3.2.1規(guī)律缺失數(shù)據(jù)補(bǔ)錄

針對(duì)規(guī)律缺失數(shù)據(jù)，運(yùn)用系統(tǒng)已形成的規(guī)律數(shù)據(jù)，建立相應(yīng)的線性回歸方程式和決策樹，對(duì)缺失的數(shù)據(jù)進(jìn)行預(yù)估，形成相應(yīng)的預(yù)測數(shù)據(jù)，使用相應(yīng)的預(yù)測數(shù)據(jù)對(duì)缺失的數(shù)據(jù)進(jìn)行替換，此方法的準(zhǔn)確程度將會(huì)隨著數(shù)據(jù)庫中線性回歸方程式和決策樹的準(zhǔn)確度的提升而提升[10]。

采用最小二乘法計(jì)算線性回歸方程：

(1)

(2)

(3)

當(dāng)式(1)中a、b取得最小值時(shí)，則稱式(1)為該數(shù)據(jù)的線性回歸方程，式(2)與式(3)為求解線性回歸方程的方式。

這里采用SPSS的數(shù)據(jù)缺失處理進(jìn)行規(guī)律缺失數(shù)據(jù)的實(shí)證。數(shù)據(jù)庫為1978-2005年的電量使用率。首先使用SPSS的數(shù)據(jù)缺失值替換功能(圖1與圖2)；然后發(fā)現(xiàn)缺失值(圖3)；再對(duì)缺失值進(jìn)行補(bǔ)錄(圖4)。

圖1SPSS選擇替換缺失值

圖2智能選擇替換方法

圖3發(fā)現(xiàn)缺失值

圖4對(duì)缺失值進(jìn)行補(bǔ)錄

如圖4所示，根據(jù)以上的原理，系統(tǒng)對(duì)缺失的數(shù)據(jù)生成了一個(gè)新的補(bǔ)錄值5048，而1995年該變電站的實(shí)際電量使用量為5429，準(zhǔn)確度超過90%，證明此方法在實(shí)際工作中有效，能有效提升電網(wǎng)歷史數(shù)據(jù)質(zhì)量。

另外還可以采用就近補(bǔ)齊法和多重補(bǔ)錄法應(yīng)對(duì)不同程度數(shù)據(jù)缺失情況的補(bǔ)錄。其中，就近補(bǔ)齊法是在之前未發(fā)生缺失的相近數(shù)據(jù)中找到與缺失值最為相似的一個(gè)值來補(bǔ)錄，但相對(duì)需要的人工時(shí)間較多，適用于對(duì)于相對(duì)重要的數(shù)據(jù)缺失的補(bǔ)錄；多重補(bǔ)錄法是通過記錄之前所有缺失的數(shù)據(jù)所形成的一個(gè)數(shù)據(jù)庫來匹配相應(yīng)的缺失數(shù)據(jù)，根據(jù)缺失值的規(guī)律特征從數(shù)據(jù)庫里調(diào)出匹配度最高的數(shù)據(jù)來進(jìn)行補(bǔ)錄。

3.2.2無規(guī)律缺失數(shù)據(jù)補(bǔ)錄

針對(duì)無規(guī)律缺失數(shù)據(jù)，目前采用平均值補(bǔ)錄最為有效，即將這些無規(guī)律的數(shù)據(jù)類型進(jìn)行分類，取與該缺失數(shù)據(jù)屬性相近的數(shù)據(jù)平均值與該類數(shù)據(jù)進(jìn)行替換[11]。

3.2.3不完全規(guī)律缺失數(shù)據(jù)補(bǔ)錄

在數(shù)據(jù)量特別大且數(shù)據(jù)類型多為不完全規(guī)律缺失數(shù)據(jù)時(shí)，如何對(duì)數(shù)據(jù)缺失的類型進(jìn)行分類和處理，就要運(yùn)用到大數(shù)據(jù)處理中的隨機(jī)森林原理。

如文獻(xiàn)[12]所述，隨機(jī)森林顧名思義，是用隨機(jī)的方式建立一個(gè)森林，森林里面由很多的決策樹組成，決策樹相互之間是沒有關(guān)聯(lián)的。在得到森林之后，當(dāng)有一個(gè)新的輸入樣本進(jìn)入的時(shí)候，就讓森林中的每一棵決策樹分別進(jìn)行判斷，判斷這個(gè)樣本應(yīng)該屬于哪一類，然后判斷哪一類被選擇最多，就預(yù)測這個(gè)樣本為哪一類。

通過總結(jié)之前發(fā)生數(shù)據(jù)缺失的數(shù)據(jù)特征，形成相應(yīng)的決策樹，通過這些決策樹群對(duì)新的數(shù)據(jù)缺失樣本進(jìn)行分類。

按這種算法得到的隨機(jī)森林中的每一棵都是很弱的，但是決策樹的數(shù)量多了就會(huì)對(duì)決策結(jié)果準(zhǔn)確率產(chǎn)生較強(qiáng)的正面影響?？傊?，在隨機(jī)森林算法中，每一棵決策樹就是一個(gè)精通于某一個(gè)窄領(lǐng)域的“專家”，這樣在隨機(jī)森林中就有了很多個(gè)精通不同領(lǐng)域的“專家”，對(duì)一個(gè)新的問題(新的輸入數(shù)據(jù))，可以用不同的角度去看待它，最終由各個(gè)“專家”，投票得到結(jié)果。這樣可以較為準(zhǔn)確的對(duì)已知數(shù)據(jù)樣本的類型進(jìn)行智能的分類[13]。

隨機(jī)森林中的每一棵分類樹為二叉樹，其生成遵循自頂向下的遞歸分裂原則，即從根節(jié)點(diǎn)開始依次對(duì)訓(xùn)練集進(jìn)行劃分；在二叉樹中，根節(jié)點(diǎn)包含全部訓(xùn)練數(shù)據(jù)，按照節(jié)點(diǎn)純度最小原則，分裂為左節(jié)點(diǎn)和右節(jié)點(diǎn)，它們分別包含訓(xùn)練數(shù)據(jù)的一個(gè)子集，按照同樣的規(guī)則節(jié)點(diǎn)繼續(xù)分裂，直到滿足分支停止規(guī)則而停止生長。若節(jié)點(diǎn)n上的分類數(shù)據(jù)全部來自于同一類別，則此節(jié)點(diǎn)的純度I(n)=0，純度度量方法是Gini準(zhǔn)則，即假設(shè)P(Xj)是節(jié)點(diǎn)n上屬于Xj類樣本個(gè)數(shù)占訓(xùn)練。

具體實(shí)現(xiàn)過程如下：

(1) 原始訓(xùn)練集為N，應(yīng)用bootstrap法有放回地隨機(jī)抽取k個(gè)新的自助樣本集，并由此構(gòu)建k棵分類樹，每次未被抽到的樣本組成了k個(gè)袋外數(shù)據(jù)。

(2) 設(shè)有n個(gè)變量，則在每一棵樹的每個(gè)節(jié)點(diǎn)處隨機(jī)抽取m個(gè)變量，然后在m中選擇一個(gè)最具有分類能力的變量，變量分類的閾值由通過檢查每一個(gè)分類點(diǎn)確定。

(3) 每棵樹最大限度地生長,不做任何修剪。

(4) 將生成的多棵分類樹組成隨機(jī)森林，用隨機(jī)森林分類器對(duì)新的數(shù)據(jù)進(jìn)行判別與分類，分類結(jié)果按樹分類器的投票多少而定[13]。

這里采取均方根誤差(RootMeanSquareError，RMSE)和填補(bǔ)準(zhǔn)確度(Accuracy)評(píng)價(jià)算法的優(yōu)越性。均方根誤差ERMSE是缺失值填補(bǔ)研究中應(yīng)用最廣泛的評(píng)價(jià)標(biāo)準(zhǔn):

(4)

式中：xr為真實(shí)值；xi為算法的填補(bǔ)值；n為缺失值的數(shù)目；ERMSE值越小說明算法填補(bǔ)質(zhì)量越高[14]。

填補(bǔ)準(zhǔn)確度A評(píng)價(jià)函數(shù)能夠計(jì)算出填補(bǔ)值中符合容忍度要求的值所占的比例：

(5)

式中：n為缺失值數(shù)量；nT為正確估計(jì)值數(shù)量。填補(bǔ)值在真實(shí)值的±10%以內(nèi)都可被視為在容忍度范圍之內(nèi)，即為正確估計(jì)值[15]。

將隨機(jī)森林算法與當(dāng)前填補(bǔ)效果較好的SVR-OCSFCM算法[16](即支持向量回歸與遺傳算法優(yōu)化的模糊聚類填補(bǔ)算法)進(jìn)行比較，取某變電站的油紙絕緣中局部放電量、油中火花放電量及油中電弧為數(shù)據(jù)集，以油中電弧為填補(bǔ)量，對(duì)這兩種算法得到的均分根方差和填補(bǔ)準(zhǔn)確度進(jìn)行分析比較。根據(jù)分析得的結(jié)果如圖5與圖6所示。

圖5填補(bǔ)結(jié)果的均方根誤差

圖6填補(bǔ)結(jié)果的準(zhǔn)確率

由圖5與圖6對(duì)均方根誤差與填補(bǔ)準(zhǔn)確率分析可知，隨著缺失率的提升，隨機(jī)森林算法在均方根誤差和填補(bǔ)結(jié)果準(zhǔn)確率上都要優(yōu)于SVR-OCSFCM算法。

4結(jié)束語

將這些數(shù)據(jù)缺失處理方法應(yīng)用于電網(wǎng)數(shù)據(jù)處理中，大大提升了數(shù)據(jù)的可用性，提高了電網(wǎng)各類數(shù)據(jù)的挖掘分析效率，將有效推動(dòng)我國智能電網(wǎng)的建設(shè)與發(fā)展。

[1] 李佳瑋,郝悍勇,李寧輝.電網(wǎng)企業(yè)大數(shù)據(jù)技術(shù)應(yīng)用研究[J].電力信息與通信技術(shù),2014,12(12):20-25.

[2] 于存水.基于智能電網(wǎng)調(diào)度系統(tǒng)的調(diào)度監(jiān)控平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[D].長春:吉林大學(xué),2013.

[3] 李麗.數(shù)據(jù)缺失及處理方法探析[J].湖南城市學(xué)院學(xué)報(bào):自然科學(xué)版,2016,25(1):118-119.

[4] DRISCOLL M.Duke Energy's data modeling & analytics initiative[R].2014.

[5] 武森,馮小東,單志廣.基于不完備數(shù)據(jù)聚類的缺失數(shù)據(jù)填補(bǔ)方法[J].計(jì)算機(jī)學(xué)報(bào),2012,35(8):1726-1738.

[6] 韋鋼,王飛,張永健,等.負(fù)荷預(yù)測中歷史數(shù)據(jù)缺損處理[J].電力科學(xué)與工程,2004,20(1):16-19.

[7] DONG L J,LIU X,ZHANG Q,et al.Design and implementation of metering abnormal and online diagnosis system of new generation intelligent substation[J].Applied Mechanics & Materials,2014,678:343-351.

[8] 侯廣松.變電站故障數(shù)據(jù)處理與分析系統(tǒng)研究與開發(fā)[D].濟(jì)南:山東大學(xué),2014.

[9] 葉素靜,唐文清,張敏強(qiáng),等.追蹤研究中缺失數(shù)據(jù)處理方法及應(yīng)用現(xiàn)狀分析[J].心理科學(xué)進(jìn)展,2014,22(12):1985-1994.

[10] 吳劉倉,張家茂,邱貽濤.缺失偏態(tài)數(shù)據(jù)下線性回歸模型的統(tǒng)計(jì)推斷[J].統(tǒng)計(jì)與信息論壇,2013,28(9):22-26.

[11] 趙志文,何靜花,楊慧超.Rayleigh分布總體參數(shù)的均值填補(bǔ)估計(jì)和檢驗(yàn)[J].佳木斯大學(xué)學(xué)報(bào):自然科學(xué)版,2016,34(2):285-288.

[12] AURET L,ALDRICH C.Change point detection in time series data with random forests[J].Control Engineering Practice,2010,18(8):990-1002.

[13] 曹正鳳.隨機(jī)森林算法優(yōu)化研究[D].北京:首都經(jīng)濟(jì)貿(mào)易大學(xué),2014.

[14] 卜范玉,陳志奎,張清辰.基于聚類和自動(dòng)編碼機(jī)的缺失數(shù)據(jù)填充算法[J].計(jì)算機(jī)工程與應(yīng)用,2015,51(18):13-17.

[15] 李建強(qiáng),趙凱,潘文凱,等.電站歷史數(shù)據(jù)缺失值填補(bǔ)策略研究[J].電力科學(xué)與工程,2017,33(1):43-48.

[16] 唐闊,胡國圣,車喜龍,等.基于遺傳算法優(yōu)化支持向量回歸機(jī)的網(wǎng)格負(fù)載預(yù)測模型[J].吉林大學(xué)學(xué)報(bào):理學(xué)版,2010,48(2):251-255.

Research on the Data Missing and Data Completion of Power Grid

XIEQiaochu1, 2,YAOYi1, 2

(1.School of Automation & Information Engineering, Sichuan University of Science & Engineering, Zigong 643000, China; 2.Artificial Intelligence Key Laboratory of Sichuan Province, Zigong 643000, China)

The completion of data is needed in the development of smart grid, so it is necessary to improve the data quality of smart grid. The transmitting procedure of the smart grid’s big data is introduced and the reasons of the data missing and the type of missing data in the process of data transmission are analyzed. According to the analysis of the missing data cleaning and the missing data collection, the problems of irregular missing data and missing data patterns are solved. Then SPSS is used to validate the methods. The results show that the accuracy rate is as high as 90%. The random forest algorithm is introduced to deal with the incomplete data. And the accuracy and effectiveness of the above methods are proved by the experiments. The methods to the data missing problems of smart grid above will effectively improve the quality of the smart grid data and get the most use of existing data.

smart grid; data missing; data completion; random forest

2016-12-12

四川理工學(xué)院研究生創(chuàng)新基金項(xiàng)目(20141210)

謝翹楚(1991-),男,四川自貢人,碩士生,主要從事大數(shù)據(jù)處理方面的研究,(E-mail)luckyxc1991@163.com

1673-1549(2017)02-0021-05

10.11863/j.suse.2017.02.05

TP274

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

電網(wǎng)歷史數(shù)據(jù)缺失及補(bǔ)錄研究

引言

1數(shù)據(jù)缺失的產(chǎn)生原因及類型

2數(shù)據(jù)缺失的發(fā)現(xiàn)

3數(shù)據(jù)缺失的處理

4結(jié)束語