魏嘉瑋
摘要:電網(wǎng)設(shè)備臺帳數(shù)據(jù)是電網(wǎng)生產(chǎn)運營分析必不可少的一部分,而且數(shù)據(jù)質(zhì)量水平直接影響了數(shù)據(jù)分析結(jié)果的準確度和對策的合理性。現(xiàn)以廣東電網(wǎng)有限責任公司中山供電局的設(shè)備臺賬數(shù)據(jù)質(zhì)量為例來研究,通過總結(jié)分析設(shè)備臺帳數(shù)據(jù)的質(zhì)量現(xiàn)狀,探究影響數(shù)據(jù)質(zhì)量準確性的技術(shù)、管理等原因,比較不同的檢查方法并重點分析基于數(shù)據(jù)分析的檢查方法,利用數(shù)據(jù)挖掘技術(shù)對文本信息進行文本矯正。并提出能針對具體的數(shù)據(jù)質(zhì)量來改善管理措施和技術(shù)措施,為提升信息系統(tǒng)數(shù)據(jù)質(zhì)量提供了支撐。
關(guān)鍵詞:數(shù)據(jù)質(zhì)量現(xiàn)狀;準確性;檢查方法;文本矯正
中圖分類號:TP311.13文獻標識碼:A 文章編號:1674-098X(2017)12(a)-0000-00
雖然每年網(wǎng)、省公司都會投資大量的資金人力來提升數(shù)據(jù)質(zhì)量,但是目前的數(shù)據(jù)準確性依舊不夠。因為目前數(shù)據(jù)質(zhì)量提升的手段相對比較單一,并且都是通過已經(jīng)制定好的檢查系統(tǒng)的規(guī)則或者算法來進行檢查,而這種制定好的規(guī)則更多是針對填寫的規(guī)范性或者結(jié)構(gòu)性問題來篩選,比如判斷必填項是否填寫、參數(shù)范圍是否在枚舉范圍內(nèi)等,這種檢查規(guī)則并不能檢查出數(shù)據(jù)準確性問題,另外檢查規(guī)則的涉及范圍十分有限,所以數(shù)據(jù)質(zhì)量的提升達不到理想效果。
一、設(shè)備臺帳數(shù)據(jù)質(zhì)量現(xiàn)狀
近幾年來,信息系統(tǒng)不斷完善提高,但還是存在數(shù)據(jù)缺失,數(shù)據(jù)質(zhì)量準確性低下等問題。目前廣東電網(wǎng)有限責任公司中山供電局設(shè)備臺賬數(shù)據(jù)質(zhì)量的主要問題是數(shù)據(jù)準確性差,數(shù)據(jù)不完整,包括部分設(shè)備臺賬缺少數(shù)據(jù),設(shè)備參數(shù)不準確及設(shè)備類別不準確等問題。設(shè)備參數(shù)不準確包括饋線長度不合理、生產(chǎn)廠家不合理,設(shè)備型號不準確,變壓器額定電流不準確等;設(shè)備類別不準確具體包括開關(guān)類型不準確,配變類別不準確等問題。這些問題會影響賬、卡、物的一致,比如不能有效支持業(yè)務(wù)應(yīng)用,不能滿足數(shù)據(jù)分析應(yīng)用要求,同時不能有效支持基于臺賬數(shù)據(jù)質(zhì)量的分析應(yīng)用,不能很好地發(fā)揮數(shù)據(jù)價值。
二、設(shè)備臺帳數(shù)據(jù)質(zhì)量的檢查方法
2.1傳統(tǒng)檢查方法
傳統(tǒng)的檢查方法就是基于已設(shè)定的規(guī)則檢查,由業(yè)務(wù)專家梳理規(guī)則,系統(tǒng)固化規(guī)則,主要是檢查必填項的填寫和枚舉值的參數(shù)范圍。
傳統(tǒng)檢查方法很難檢查出數(shù)據(jù)準確性問題,比如某些字段的篩選要求不夠嚴謹,規(guī)則檢測的數(shù)據(jù)基本全部通過,但實際有效的數(shù)據(jù)仍存在數(shù)據(jù)精準度不高等問題。如主變?nèi)萘浚凑找?guī)則只要填下下面任何一個都算正確,但實際上,不同電壓等級變壓器取值會有區(qū)別,如500kV變壓器容量不可能只有800kV,110kV變壓器容量也不會是1000000kV。另外桿塔檔距要求是大于0的數(shù)字就行,但實際上還是有一個合理范圍,與桿塔高度等都有關(guān)系。
2.2.基于數(shù)據(jù)分析的檢查方法
這一種檢查方法是采用數(shù)據(jù)挖掘技術(shù),根據(jù)數(shù)據(jù)的分布特點,建立數(shù)據(jù)分析模型,進行數(shù)據(jù)質(zhì)量的自識別,重點發(fā)現(xiàn)數(shù)據(jù)的準確性問題。由于主配網(wǎng)設(shè)備臺賬涉及三千多個設(shè)備類別,共計五千多個技術(shù)參數(shù),無法對每一個參數(shù)單獨建立分析模型。本方案總體思路是開發(fā)一套數(shù)據(jù)質(zhì)量治理組建,針對數(shù)值型參數(shù)采用離群點檢測組件,對于文本型參數(shù)采用文本矯正組件。
2.2.1桿塔呼稱高、全高分析
2.2.1.1截尾方法
從上圖可以明顯看出,圖中存在幾個異常點,這些點與多數(shù)值比較極大,采用截尾方法處理,按照從小到大排序,截取99%以內(nèi)的數(shù)據(jù),剩下1%的數(shù)據(jù)為疑似可能值,將數(shù)據(jù)標記。
2.2.1.2基于密度的聚類
根據(jù)業(yè)務(wù)知識可知呼稱高和全高存在一定的相關(guān)性,可能存在呼稱高和全高在一定均在正常范圍內(nèi),而呼稱高和全高差距較大。利用基于密度的聚類實現(xiàn)異常點的檢測。
3.文本矯正的樣例分析
文本矯正主要是利用數(shù)據(jù)挖掘技術(shù),建立標準庫,通過文本挖掘計算矯正文本和標準庫中的文本信息的相似度,進一步矯正文本信息,規(guī)范文本信息的填寫。如設(shè)備生產(chǎn)廠家、型號等字段可采用此種方法進行檢測,具體見樣例分析中的文本矯正。
3.1 設(shè)備廠家文本矯正整體思路
① 首先建立標準廠家?guī)?,標準廠家?guī)熘饕獜臄?shù)據(jù)庫中提取和業(yè)務(wù)人員整理。
② 對歷史廠家字段(或新輸入廠家字段),利用文本挖掘手段在標準廠家?guī)熘衅ヅ渌阉鳌?/p>
③ 將標準中廠家名稱推薦給用戶。
3.2樣例說明
四、提高設(shè)備臺賬數(shù)據(jù)質(zhì)量的建議和措施
由分析現(xiàn)有的數(shù)據(jù)質(zhì)量現(xiàn)狀得出,提出以同時加強管理和技術(shù)手段的方式來保證數(shù)據(jù)的準確性。具體措施如下:
4.1建立設(shè)備臺賬管理制度
按月設(shè)定業(yè)務(wù)管理部門的數(shù)據(jù)考核標準,完善登記使用系統(tǒng),提高使用者的責任心,確保每個部門都能執(zhí)行設(shè)備臺賬管理制度。建立數(shù)據(jù)審核管理制度,記錄每一個有問題的數(shù)據(jù),具體到時間、人員、缺陷問題描述等。定期檢查數(shù)據(jù)的消缺率和及時率,做到時刻監(jiān)督。并且要對已經(jīng)發(fā)現(xiàn)和處理的數(shù)據(jù)質(zhì)量問題進行總結(jié)歸類,比如數(shù)據(jù)質(zhì)量的監(jiān)控點設(shè)置、參考解決方案、實際解決方案、解決結(jié)果反饋等。并且為了跟進信息的發(fā)展和提高業(yè)務(wù)人員的水平,完善信息系統(tǒng)的功能結(jié)構(gòu),有必要對相關(guān)業(yè)務(wù)人員展開系統(tǒng)的培訓(xùn)。
4.2規(guī)范系統(tǒng)使用過程
有關(guān)部分要切合實際,制定可行的信息系統(tǒng)使用規(guī)范,在信息系統(tǒng)中實現(xiàn)數(shù)據(jù)的錄入、分析、整理和匯總,真正提高數(shù)據(jù)的準確性。充分利用現(xiàn)有的信息資源,組建專門的培訓(xùn)隊伍,培訓(xùn)系統(tǒng)的操作方法以及注意事項。比如組建以信息技術(shù)為主導(dǎo)的審查人員,形成一套數(shù)據(jù)審查規(guī)范,確保審查人員經(jīng)過專門的培訓(xùn)并合理分配到每個業(yè)務(wù)部門,加強業(yè)務(wù)部門的操作規(guī)范。
4.3完善業(yè)務(wù)模型,優(yōu)化系統(tǒng)設(shè)計
為了及時更新完善業(yè)務(wù)模型,需要對系統(tǒng)的設(shè)計進行優(yōu)化。比如在業(yè)務(wù)部門設(shè)立專門的電話聯(lián)絡(luò)人員,及時更新用戶和信息系統(tǒng)程序員之間的聯(lián)系,電話聯(lián)絡(luò)人員可以對業(yè)務(wù)模型和數(shù)據(jù)范圍進行監(jiān)督,必要時候可以提供技術(shù)上的幫助。
4.4完善數(shù)據(jù)質(zhì)量檢測規(guī)則
為了有效應(yīng)對不同類型數(shù)據(jù),要提取相關(guān)的有效數(shù)據(jù)并結(jié)合數(shù)據(jù)挖掘技術(shù)來對不同的數(shù)據(jù)驚醒分析匯總,并且建立系統(tǒng)的檢測方法和制定完善的檢測規(guī)則。
4.5對歷史問題進行數(shù)據(jù)清理
為了對歷史數(shù)據(jù)進行有效的清理,應(yīng)建立專門的清理組織,制定系統(tǒng)的工作方案,有序地進行歷史數(shù)據(jù)的清理。由上級管理部門組織,各個業(yè)務(wù)部門共同參與配合,對資產(chǎn)設(shè)備進行統(tǒng)一的盤點并和數(shù)據(jù)目錄進行核對。核對結(jié)束之后檢查整理并及時更新設(shè)備臺賬,保證數(shù)據(jù)的準確性和完整度。
五、總結(jié):
通過以上分析得出,提高設(shè)備臺賬數(shù)據(jù)質(zhì)量準確性的具體措施。不僅對整個電網(wǎng)行業(yè)如何進行數(shù)據(jù)質(zhì)量的提高和信息系統(tǒng)的完善有了較強的意識,同時也對企業(yè)合理利用數(shù)據(jù)系統(tǒng)開展業(yè)務(wù)分析,對企業(yè)決策起到參考作用。
參考文獻:
[1]楊浩,徐暉,蕭展輝等。廣東電網(wǎng)公司生產(chǎn)信息系統(tǒng)使用化評價研究[J]。廣東電力,2010,23(4):29-34
[2]陳孟婕。數(shù)據(jù)質(zhì)量管理與數(shù)據(jù)清洗技術(shù)的研究與應(yīng)用[D].北京:北京郵電大學(xué),2013
[3]黨芳芳。電網(wǎng)企業(yè)業(yè)務(wù)數(shù)據(jù)質(zhì)量管控技術(shù)的研究[D].北京:華北電力大學(xué),2014