劉夫新+李毅松+崔夢梟+楊棟樞
摘要:隨著智能電網(wǎng)建設飛快發(fā)展,造成電力數(shù)據(jù)種類復雜多樣化和數(shù)據(jù)質(zhì)量參差不齊的現(xiàn)狀。以傳統(tǒng)的數(shù)據(jù)質(zhì)量模型和數(shù)據(jù)質(zhì)量管理等理論為基礎,介紹了傳統(tǒng)數(shù)據(jù)質(zhì)量系統(tǒng)的優(yōu)缺點。在其基礎上提出基于自學體系的數(shù)據(jù)質(zhì)量監(jiān)測模型,并依據(jù)模型構建監(jiān)測系統(tǒng)。分層面詳細介紹數(shù)據(jù)質(zhì)量監(jiān)測系統(tǒng),分析了有關構建策略,詳細介紹了自學體系中構建的規(guī)則。為數(shù)據(jù)質(zhì)量監(jiān)測模型提供了理論支撐,健全了數(shù)據(jù)質(zhì)量監(jiān)測體系,完善數(shù)據(jù)質(zhì)量監(jiān)測系統(tǒng),支持企業(yè)科學決策,推進信息化支撐企業(yè)管理水平的全面提升。
關鍵詞:智能電網(wǎng);電力數(shù)據(jù);質(zhì)量模型;數(shù)據(jù)質(zhì)量;自學體系; 監(jiān)測體系
中圖分類號:TP181 文獻標識碼:A 文章編號:1009-3044(2016)31-0003-03
Abstract:With the rapid development of smart grid construction, resulting in a variety of complex and diverse data types and data quality of the status quo. Based on the traditional data quality model and data quality management theory, this paper introduces the advantages and disadvantages of the traditional data quality system. Based on the model, the data quality monitoring model based on self - learning system is put forward, and the monitoring system is built according to the model. The data quality monitoring system is introduced in detail, and the construction strategy is analyzed, and the rules of the construction of the system are introduced in detail. To provide theoretical support for data quality monitoring model, and improve the data quality monitoring system, improve data quality monitoring system, support the enterprise scientific decision-making, enhance the management level of enterprise informatization support.
Key words: Smart Grid; Electric Power Data; Quality model; Data quality; Self Learning System; Monitoring system
隨著高新技術產(chǎn)業(yè)的不斷更迭,國內(nèi)各個行業(yè)都建立了信息采集系統(tǒng),搜集海量數(shù)據(jù)。國網(wǎng)通過實施“SG186”、“SG-ERP”工程,已經(jīng)初步建成并投入運行了國內(nèi)領先、國際一流的信息化平臺和覆蓋主要生產(chǎn)、經(jīng)營、管理業(yè)務領域的信息化應用,電網(wǎng)業(yè)務數(shù)據(jù)從總量和種類上都已初具規(guī)模[1]。隨著智能電網(wǎng)建設加快推進,電網(wǎng)業(yè)務數(shù)據(jù)將從時效性層面進一步豐富和拓展,這對企業(yè)信息化建設提出了新的挑戰(zhàn)。同時,“三集五大”構建了縱向貫通、橫向集成的一體化平臺,產(chǎn)生了大量多樣化的數(shù)據(jù),企業(yè)開始逐漸進入數(shù)據(jù)驅(qū)動業(yè)務的時代。
推進信息化支撐企業(yè)管理水平的全面提升。在公司一體化信息平臺及業(yè)務數(shù)據(jù)的基礎上,分析、監(jiān)測各項核心業(yè)務的整體運營狀況,及時發(fā)現(xiàn)并預警各類異動,支撐企業(yè)科學決策。數(shù)據(jù)共享和業(yè)務融合、各業(yè)務的深化、精益化管理應用、企業(yè)運營監(jiān)測均離不開高質(zhì)量的數(shù)據(jù),更好地提升數(shù)據(jù)質(zhì)量,發(fā)揮和利用好數(shù)據(jù)的價值,迫切需要提高數(shù)據(jù)質(zhì)量模型的合理性和科學性,提高建立數(shù)據(jù)質(zhì)量模型工作的效率,促進數(shù)據(jù)治理、建立健全技術支撐體系和管理支撐體系工作,輔助企業(yè)掌握生產(chǎn)經(jīng)營全局,進行科學決策,更深入、具體地完成企業(yè)部署的各項管理要求。
建立數(shù)據(jù)質(zhì)量模型是為了對數(shù)據(jù)質(zhì)量進行量化評價并以支撐數(shù)據(jù)質(zhì)量提升工作,評價一般指用戶數(shù)據(jù)客觀傾向較強的指標。例如,通過規(guī)范質(zhì)量的分別規(guī)則來查找和評價質(zhì)量,通過統(tǒng)計分析、模式分析和匹配分析等方法來測度和監(jiān)測數(shù)據(jù)質(zhì)量,通過數(shù)據(jù)分析來發(fā)現(xiàn)質(zhì)量[2]。
1 數(shù)據(jù)及數(shù)據(jù)質(zhì)量現(xiàn)狀
電力業(yè)務管理頻度低,業(yè)務管理數(shù)據(jù)多以報表式月度數(shù)據(jù)為主,沒有實現(xiàn)按天(或更高頻度)對業(yè)務進展和狀態(tài)的管理。其次,業(yè)務過程數(shù)據(jù)錄入維護不及時,數(shù)據(jù)生成時間滯后于業(yè)務過程。如人員進入退出信息不及時,業(yè)務拓展流程存在部分工程在整體完工后,才統(tǒng)一輸入各環(huán)節(jié)業(yè)務信息,無法真實反應業(yè)務擴展流程實際執(zhí)行過程;一是部分數(shù)據(jù)在多個系統(tǒng)重復維護,導致數(shù)據(jù)多源。加上業(yè)務管理重疊造成數(shù)據(jù)在不同業(yè)務系統(tǒng)中重復。二是由于數(shù)據(jù)多源及管理要求不同,導致同一指標數(shù)據(jù)口徑不一致。
數(shù)據(jù)質(zhì)量管理是數(shù)據(jù)管理的重中之重,是發(fā)揮數(shù)據(jù)價值[4],發(fā)展高階應用的基礎。數(shù)據(jù)質(zhì)量模型的建立、數(shù)據(jù)質(zhì)量規(guī)則的識別是數(shù)據(jù)質(zhì)量模型管理的核心支撐[3]。
2 自學體系和傳統(tǒng)數(shù)據(jù)質(zhì)量監(jiān)測系統(tǒng)間聯(lián)系
基于自學體系的數(shù)據(jù)質(zhì)量評價系統(tǒng)需基于海量歷史數(shù)據(jù),自動分析挖掘數(shù)據(jù)質(zhì)量因素,為用戶推薦相應質(zhì)量評價模型,而基于海量歷史數(shù)據(jù)的分析,單靠線下人工是很難完成的,而質(zhì)量模型建立后,依托此模型構建的監(jiān)測系統(tǒng),需對數(shù)據(jù)進行分門別類,應用質(zhì)量評價模型,實現(xiàn)數(shù)據(jù)質(zhì)量實時評價,通過預警、核查、整改等一系列手段完成數(shù)據(jù)修正,提升數(shù)據(jù)質(zhì)量。
2.1 傳統(tǒng)數(shù)據(jù)質(zhì)量監(jiān)測系統(tǒng)存在問題
傳統(tǒng)數(shù)據(jù)質(zhì)量監(jiān)測系統(tǒng)對數(shù)據(jù)質(zhì)量的評價采用的是全局采集方式,即針對全集數(shù)據(jù)(如所有設備的基本型數(shù)據(jù)),選擇傳統(tǒng)評價方法得到評價結論[2]。雖然傳統(tǒng)方式易于理解、方法種類多樣,也相對較成熟,但是,傳統(tǒng)評價理論存在很大局限性,具體存在兩方面問題:
1) 對數(shù)據(jù)全集的直觀評價結果是不可能表述客戶的要求。事實上,客戶得到的數(shù)據(jù)是通過信息采集系統(tǒng)加工處理之后的有關全集數(shù)據(jù)的一幅或多幅視圖,經(jīng)過僅僅是所有數(shù)據(jù)中的一個組成部分??蛻魧τ跀?shù)據(jù)的質(zhì)量、需求和評價必然由這些數(shù)據(jù)來反映,而不是整體數(shù)據(jù)。經(jīng)過分析過濾后,數(shù)據(jù)的質(zhì)量與原始數(shù)據(jù)的質(zhì)量相比可能不會呈線性關系,它忽略了數(shù)據(jù)分析過濾過程中帶來的影響。事實上,部分查詢結果集的數(shù)據(jù)質(zhì)量與原數(shù)據(jù)集質(zhì)量二者間有較大的差異。
2) 面對當前國網(wǎng)數(shù)據(jù)量不斷快速增長,企業(yè)對各項業(yè)務融合、深化應用、運營監(jiān)測及分析預警和決策支撐應用要求不斷提高,而數(shù)據(jù)整體質(zhì)量有待進一步加強,數(shù)據(jù)質(zhì)量相關的業(yè)務規(guī)則常態(tài)化變動的形勢,提升數(shù)據(jù)質(zhì)量,加強管控必須依托信息化手段,通過建立模型、配置管理業(yè)務規(guī)則,分析模型和規(guī)則運行效果數(shù)據(jù),進而不斷優(yōu)化模型和規(guī)則,形成適用的模型和規(guī)則庫,盡可能減少人工重復勞動和干預,分析影響數(shù)據(jù)質(zhì)量的關鍵因素,真正有效促進數(shù)據(jù)質(zhì)量提升。
2.2 自學體系的數(shù)據(jù)質(zhì)量監(jiān)測系統(tǒng)構建策略
基于數(shù)據(jù)中心和運監(jiān)中心的海量歷史數(shù)據(jù),分析挖掘數(shù)據(jù)[5]質(zhì)量評價關鍵點,使用自我演進、自我完善的思想,識別各數(shù)據(jù)對象初始化質(zhì)量規(guī)則,并依據(jù)不斷增長的新數(shù)據(jù)情況,及時動態(tài)調(diào)整質(zhì)量規(guī)則,形成基于自學體系的數(shù)據(jù)質(zhì)量模型,形成可量化的數(shù)據(jù)質(zhì)量評價方法,支撐數(shù)據(jù)質(zhì)量評價工作。
使用自學體系的數(shù)據(jù)質(zhì)量模型為基礎設計監(jiān)測系統(tǒng),動態(tài)監(jiān)測業(yè)務數(shù)據(jù)質(zhì)量,對不符合數(shù)據(jù)質(zhì)量規(guī)則的數(shù)據(jù)進行告警,并支撐數(shù)據(jù)問題處理流程跟蹤[6]。
2.3 自學體系中建立的規(guī)則
基于自學體系的數(shù)據(jù)質(zhì)量監(jiān)測模型建立系統(tǒng)包括以下自學規(guī)則:
1) 基于數(shù)據(jù)關聯(lián)度的自學規(guī)則,通過數(shù)據(jù)關聯(lián)關系規(guī)則、數(shù)據(jù)關聯(lián)符合度等彼此間關聯(lián)關系進行學習。
2) 基于歷史數(shù)據(jù)的自學規(guī)則,根據(jù)歷史數(shù)據(jù)分析結果,歷史數(shù)據(jù)選取規(guī)則以及歷史數(shù)據(jù)維護規(guī)則等進行學習,建立數(shù)據(jù)質(zhì)量(評價)模型,包含了歷史數(shù)據(jù)分析設置、歷史數(shù)據(jù)選取、歷史數(shù)據(jù)類型的分析設置等功能。
3) 基于數(shù)據(jù)校檢規(guī)則的自學規(guī)則,依據(jù)模型中指標標準、計算方法、冗余性校檢規(guī)則和偏差分析規(guī)則維護等數(shù)據(jù)校檢規(guī)則進行學習,建立數(shù)據(jù)模型,包含了數(shù)據(jù)集整體的完整性校驗規(guī)則維護、冗余校檢規(guī)則維護、一致性校驗維護、取值標準分析規(guī)則維護和偏差分析規(guī)則維護等。
4) 數(shù)據(jù)異動監(jiān)測與預警,基于數(shù)據(jù)質(zhì)量監(jiān)測系統(tǒng)設計,實時監(jiān)測數(shù)據(jù),當數(shù)據(jù)出現(xiàn)異動情況時,能夠預警告警,并給出相應的處理建議,存儲到不同地方。構建模型包含了實時監(jiān)測數(shù)據(jù)設置、數(shù)據(jù)異動處理建議設置和異動處理建議內(nèi)容查詢等。
3 自學體系的數(shù)據(jù)質(zhì)量監(jiān)測模型總體設計
建立數(shù)據(jù)質(zhì)量模型是為了對數(shù)據(jù)質(zhì)量進行量化評價并以支撐數(shù)據(jù)質(zhì)量提升工作,通過定義質(zhì)量判別規(guī)則來發(fā)現(xiàn)和評價質(zhì)量,通過統(tǒng)計分析、模式分析和匹配分析等方法來測度和評價數(shù)據(jù)質(zhì)量。模型主要是應用架構層、技術架構層和安全架構層三個層面構成。
總體架構設計如下圖:
3.1 應用架構層
模型中應用架構方面設計主要考慮到用戶體驗層、展示層、應用層、服務層、數(shù)據(jù)層以及外部系統(tǒng)。其中應用層是基于自學體系建立的規(guī)則,包含數(shù)據(jù)異動監(jiān)測預警、數(shù)據(jù)關聯(lián)度的自學規(guī)則、和數(shù)據(jù)質(zhì)量模型自學規(guī)則等。服務層和數(shù)據(jù)層包含了數(shù)據(jù)報表分析設計、歷史數(shù)據(jù)學習數(shù)據(jù)和數(shù)據(jù)質(zhì)量自動建立數(shù)據(jù)等如圖2應用架構設計。
3.2 技術架構層
模型中技術架構層面設計包含了數(shù)據(jù)源層、服務層、接口層和應用層面。一方面提供模型的實現(xiàn)界面并提供接口和組件,從歷史數(shù)據(jù)學習中進行模型管理。另一方面處理并展現(xiàn)數(shù)據(jù)集如圖3技術架構設計。
1) 應用層
應用層,即界面控制層,一方面是向最終用戶提供使用界面,負責數(shù)據(jù)的展現(xiàn),同時接受用戶輸入數(shù)據(jù),并對輸入的數(shù)據(jù)進行校驗,另一方面負責封裝界面層輸入的數(shù)據(jù),頁面跳轉控制,對異常進行處理。
2) 接口層
接口層提供業(yè)務邏輯的 Java 編程接口、R 語言編程或 PLSQLJDBC/ODBC 驅(qū)動接口,實現(xiàn)業(yè)務邏輯,對事務進行控制,對外提供Web 服務或調(diào)用外部系統(tǒng)提供的 Web 服務等。
3) 服務層
服務層,即應用支撐層,由自定義開發(fā)的基礎服務組件,或開發(fā)平臺和第三方產(chǎn)品提供的各類基礎組件組成。
4) 數(shù)據(jù)源層
數(shù)據(jù)源層,主要包括接口信息和運行數(shù)據(jù)、系統(tǒng)接入數(shù)據(jù)、監(jiān)控和消息數(shù)據(jù)、數(shù)據(jù)中心和日志數(shù)據(jù)等。實現(xiàn)數(shù)據(jù)的抽取、存儲,計算,分析模型建立,數(shù)據(jù)質(zhì)量的檢查,數(shù)據(jù)價值評估、查詢及分析統(tǒng)計,可視化展示信息的存儲等功能。
3.3 安全架構層
模型的構建中完善了信息安全防御體系和信息安全治理體系。信息安全是保證基于自學體系的數(shù)據(jù)質(zhì)量監(jiān)測系統(tǒng)安全穩(wěn)定運行的關鍵,總體安全防護方案包括數(shù)據(jù)安全、網(wǎng)絡安全、物理安全和安全管理等。
4 研究成果
根據(jù)自學體系中建立的規(guī)則,通過數(shù)據(jù)質(zhì)量分析和數(shù)據(jù)質(zhì)量評估,對選取的數(shù)據(jù)建立基于自學體系的數(shù)據(jù)質(zhì)量監(jiān)測模型的監(jiān)測系統(tǒng),解決了數(shù)據(jù)多義性和冗余性等有關問題,研究電力數(shù)據(jù)質(zhì)量監(jiān)測管理,進而提高了電力數(shù)據(jù)的數(shù)據(jù)質(zhì)量水平[7][8],形成以下研究成果:
1) 建立數(shù)據(jù)關聯(lián)度的自學規(guī)則、歷史數(shù)據(jù)的自學規(guī)則和數(shù)據(jù)校檢規(guī)則等,為構建模型提供了理論和思想基礎。
2) 通過應用架構層、技術架構層和安全架構層三個層面,分層面進行自學體系的數(shù)據(jù)質(zhì)量監(jiān)測系統(tǒng)設計提供理論基礎。
3) 分析了自學體系的數(shù)據(jù)質(zhì)量監(jiān)測模型,設計的數(shù)據(jù)質(zhì)量監(jiān)測系統(tǒng)是參照傳統(tǒng)數(shù)據(jù)質(zhì)量模型設計的,它具備數(shù)據(jù)質(zhì)量模型優(yōu)點,同樣也解決其部分不足,為數(shù)據(jù)質(zhì)量監(jiān)測和合理利用提供支撐。
5 結語
基于自學體系的數(shù)據(jù)質(zhì)量監(jiān)測模型采取對用戶獲得的數(shù)據(jù)視圖逐一(或部分)進行監(jiān)測,從而得到監(jiān)測結果。通過自學體系的數(shù)據(jù)質(zhì)量監(jiān)測模型建立系統(tǒng)[9],不僅可以使工作量將大大減少,支撐數(shù)據(jù)質(zhì)量評價模型建立和數(shù)據(jù)質(zhì)量實時監(jiān)測,通過預警、核查、整改等一系列手段完成數(shù)據(jù)修正,提升數(shù)據(jù)質(zhì)量。同時也能提高數(shù)據(jù)質(zhì)量模型的合理性和科學性。
參考文獻:
[1] 劉周斌,譚瀟.大數(shù)據(jù)應用創(chuàng)新團隊建設的研究與實踐[J].管理觀察,2015(1):163-165.
[2] 陳衛(wèi)東.數(shù)據(jù)質(zhì)量模型及關系代數(shù)運算下質(zhì)量傳遞理論與方法研究[D].長沙:國防科技大學,2007.
[3] Madnick S E,Wang R W,Lee Y W,et al. Overview and Framework for Data and Information Quality Research[J].ACM Journal of Data and Information Quality,2009,1(1):1-22.
[4] 袁滿,張雪.一種基于規(guī)則的數(shù)據(jù)質(zhì)量評價模型[J].計算機技術與發(fā)展,2013,23(3):81-89.
[5] 劉軍,呂俊峰.大數(shù)據(jù)時代及數(shù)據(jù)挖掘的應用[N].國家電網(wǎng)報,2012-05-15(10).
[6] Todoran I,Lecornu L,Khenchaf A,etal.A Methodology to Evaluate Important Dimensions of Information Quality in Systems[J].ACM Journal of Data and Information Quality,2015,6(2-3):1-22.
[7] 陳建長.電力企業(yè)統(tǒng)計內(nèi)容、范圍應拓展[J].中國統(tǒng)計,2007(05).
[8] 馬永蘭.電力企業(yè)綜合統(tǒng)計分析系統(tǒng)使用方法及常見問題探討[J].科技信息,2011(33).
[9] Pipino L,Lee Y,Wang R.Data quality assessment[J].Communications of the ACM,2002,45(4):211-2182.