陳超
摘 要: 針對電力數(shù)據(jù)數(shù)量多、種類龐雜、橫跨專業(yè)多等特點而引起的數(shù)據(jù)質(zhì)量不高的現(xiàn)狀,該項目以數(shù)據(jù)中心數(shù)據(jù)為研究對象,通過分析產(chǎn)生數(shù)據(jù)質(zhì)量問題的原因,以元數(shù)據(jù)、數(shù)據(jù)質(zhì)量、數(shù)據(jù)建模等理論為基礎(chǔ),對數(shù)據(jù)流動過程中的質(zhì)量檢查、質(zhì)量控制和質(zhì)量評估等進行深入的研究。構(gòu)建電力大數(shù)據(jù)質(zhì)量評價指標(biāo)體系,研究電力大數(shù)據(jù)質(zhì)量實時監(jiān)控、快速動態(tài)檢測方法與關(guān)鍵技術(shù),提出了適合于電力大數(shù)據(jù)數(shù)據(jù)質(zhì)量控制與評估體系模型,實現(xiàn)數(shù)據(jù)質(zhì)量管控平臺開發(fā),確保企業(yè)數(shù)據(jù)質(zhì)量,提升數(shù)據(jù)應(yīng)用價值。
關(guān)鍵詞: 電力大數(shù)據(jù); 元數(shù)據(jù); 數(shù)據(jù)質(zhì)量; 實時監(jiān)控
中圖分類號: TN964?34 文獻標(biāo)識碼: A 文章編號: 1004?373X(2014)04?0153?03
Research for electric power big data quality evaluation model and dynamic
exploration technology
CHEN Chao
(Anhui Nari Software Co., Ltd., Hefei 230088, China)
Abstract: For the status quo of bad electric power data quality caused by mass data, complex species, multi?profession involvement and so on, quality inspection, quality control and quality assessment in the flow process of the data from the data center are studied based on metadata, data quality and data modeling theories, and cause analysis of poor data quality. The electric power big data quality evaluation index system was built. The real?time monitoring, rapid motion detection methods and key technologies of the electric power big data quality were researched. The data quality control and assessment system model suitable for the power big data are proposed in thispaper. The development of a data quality control platform was achieved. It ensured the data quality of the enterprise and raised the value of data applications.
Keywords: electric power big data; metadata; data quality; real?time monitoring
0 引 言
近幾年,電力行業(yè)信息化也得到了長足的發(fā)展,我國電力企業(yè)信息化起源于20世紀60年代,從初始電力生產(chǎn)自動化到80年代以財務(wù)電算化為代表的管理信息化建設(shè),再到近年大規(guī)模的企業(yè)信息化建設(shè),特別伴隨著下一代智能化電網(wǎng)的全面建設(shè),以物聯(lián)網(wǎng)和云計算為代表的新一代IT技術(shù)在電力行業(yè)中的廣泛應(yīng)用,電力數(shù)據(jù)資源開始急劇增長并形成了一定的規(guī)模。從長遠來看,作為中國經(jīng)濟社會發(fā)展的“晴雨表”,電力數(shù)據(jù)以其與經(jīng)濟發(fā)展緊密而廣泛的聯(lián)系,將會呈現(xiàn)出無以倫比的正外部性,對我國經(jīng)濟社會發(fā)展以至人類社會進步也將形成更為強大的推動力[1?2]。
隨著供電企業(yè)信息化持續(xù)建設(shè)與深化應(yīng)用,供電企業(yè)各項業(yè)務(wù)已與信息化初步融合,信息系統(tǒng)內(nèi)業(yè)務(wù)數(shù)據(jù)的數(shù)量和種類的逐步增多,數(shù)據(jù)共享需求迫切。而數(shù)據(jù)質(zhì)量和數(shù)據(jù)共享利用水平不高,一是數(shù)據(jù)對分析決策支持度低,同一數(shù)據(jù)存在多個數(shù)多源、統(tǒng)計口徑不一致; 二是數(shù)據(jù)對運營管理的支持度有待提高,數(shù)據(jù)質(zhì)量參差不齊,部分數(shù)據(jù)無業(yè)務(wù)系統(tǒng)支持,缺乏統(tǒng)一的規(guī)范、標(biāo)準和明確的數(shù)據(jù)問責(zé); 三是一線人員數(shù)據(jù)錄入工作量巨大,數(shù)據(jù)重復(fù)錄入,業(yè)務(wù)功能重復(fù); 四是數(shù)據(jù)質(zhì)量管控滯后,管控工作片面化,沒有形成一個完整性的數(shù)據(jù)質(zhì)量管控體系和全面有效的數(shù)據(jù)質(zhì)量保障機制,制約數(shù)據(jù)價值的深度挖掘。因此,有必要圍繞企業(yè)數(shù)據(jù)生命周期,緊密結(jié)合公司推進管理體制和工作機制創(chuàng)新的要求,基于運營監(jiān)測(控)中心信息支撐系統(tǒng)建設(shè)與應(yīng)用現(xiàn)狀,借鑒公司數(shù)據(jù)治理管理經(jīng)驗,實現(xiàn)對供電企業(yè)數(shù)據(jù)的全過程質(zhì)量管理,夯實數(shù)據(jù)基礎(chǔ),提升數(shù)據(jù)質(zhì)量,保障數(shù)據(jù)的準確、及時、有效和可信,為數(shù)據(jù)的集成和挖掘應(yīng)用提供有力保障。
本文根據(jù)文獻研究成果,圍繞運營監(jiān)測(控)中心數(shù)據(jù)質(zhì)量管理所面臨的問題與挑戰(zhàn),研究電力大數(shù)據(jù)數(shù)據(jù)質(zhì)量管理規(guī)范,構(gòu)建以業(yè)務(wù)系統(tǒng)為依托的數(shù)據(jù)監(jiān)控體系、質(zhì)量評價體系[3],設(shè)計面向電力大數(shù)據(jù)的元數(shù)據(jù)模型[4]、數(shù)據(jù)質(zhì)量監(jiān)控規(guī)則、數(shù)據(jù)質(zhì)量評價指標(biāo),通過運用標(biāo)準化的數(shù)據(jù)質(zhì)量規(guī)范,實時監(jiān)控,在線考評,強化數(shù)據(jù)質(zhì)量事中控制,事后評價,問題整改,提升決策分析依據(jù)的準確性和實用性。
1 電力大數(shù)據(jù)質(zhì)量評價模型及動態(tài)探查監(jiān)控技
術(shù)研究與應(yīng)用
1.1 電力大數(shù)據(jù)的數(shù)據(jù)質(zhì)量評價指標(biāo)、大數(shù)據(jù)質(zhì)量評價模型研究
圍繞電力大數(shù)據(jù)環(huán)境下開展數(shù)據(jù)質(zhì)量評價所面臨的問題與挑戰(zhàn),研究設(shè)計面向電力大數(shù)據(jù)的數(shù)據(jù)質(zhì)量評價指標(biāo)體系,包括質(zhì)量評價指標(biāo)、質(zhì)量評價模型[5?6]及評價方法。具體包括:
(1) 開展大數(shù)據(jù)下的數(shù)據(jù)質(zhì)量評價指標(biāo)設(shè)計研究,分析大數(shù)據(jù)環(huán)境下數(shù)據(jù)質(zhì)量的主要影響因素,按數(shù)據(jù)質(zhì)量的數(shù)據(jù)的一致性、數(shù)據(jù)的準確性、數(shù)據(jù)的完整性、數(shù)據(jù)的及時性4個關(guān)鍵特性建立數(shù)據(jù)質(zhì)量評價指標(biāo),以指導(dǎo)并考核大數(shù)據(jù)下系統(tǒng)數(shù)據(jù)質(zhì)量水平。
(2) 研究建立大數(shù)據(jù)下的數(shù)據(jù)質(zhì)量評價模型,實現(xiàn)質(zhì)量指標(biāo)計算、統(tǒng)計分析和綜合評價的實時、自動處理,滿足系統(tǒng)動態(tài)、實時進行數(shù)據(jù)質(zhì)量好壞量化診斷和評價的要求,主要包括數(shù)據(jù)質(zhì)量指標(biāo)定義模型、數(shù)據(jù)質(zhì)量評估算法或規(guī)則及數(shù)據(jù)質(zhì)量診斷與評價結(jié)果,其中,數(shù)據(jù)質(zhì)量指標(biāo)定義模型,主要研究數(shù)據(jù)質(zhì)量層級評價指標(biāo)樹設(shè)計、指標(biāo)權(quán)重設(shè)計及指標(biāo)分值計算等;數(shù)據(jù)質(zhì)量評估算法或規(guī)則研究,主要研究通過一定的數(shù)據(jù)算法與計算規(guī)則建立評估模型,實現(xiàn)對指標(biāo)權(quán)重、指標(biāo)分數(shù)自動計算與分析,并生成診斷與評估結(jié)果。
1.2 電力大數(shù)據(jù)質(zhì)量快速動態(tài)探查檢測方法與關(guān)鍵技術(shù)研究
在大數(shù)據(jù)質(zhì)量評價指標(biāo)、大數(shù)據(jù)質(zhì)量評價模型的基礎(chǔ)上,研究大數(shù)據(jù)質(zhì)量探查檢測[7?8]的關(guān)鍵技術(shù)。
(1) 針對大數(shù)據(jù)質(zhì)量探查檢測數(shù)據(jù)訪問量大和大數(shù)據(jù)本身的“海量化”特性,研究滿足質(zhì)量探查檢測需要的大數(shù)據(jù)訪問、采集技術(shù)。包括分布式存儲訪問優(yōu)化算法研究;動態(tài)智能緩存技術(shù)研究。
(2) 針對大數(shù)據(jù)“快速化”的特性,研究大數(shù)據(jù)質(zhì)量分析與處理技術(shù)。包括適用于大數(shù)據(jù)質(zhì)量探查檢測的流計算、基于內(nèi)存計算的高性能分析、實時數(shù)據(jù)質(zhì)量分析的研究。
(3) 針對大數(shù)據(jù)“多樣化”的特性,研究大數(shù)據(jù)質(zhì)量探查檢測中大數(shù)據(jù)的自動識別技術(shù):研究基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)識別技術(shù)及血緣分析技術(shù)。研究基于網(wǎng)格的數(shù)據(jù)關(guān)聯(lián)性評估技術(shù),實現(xiàn)數(shù)據(jù)的卡片化、地圖化展現(xiàn)與管理。
(4) 針對大數(shù)據(jù)來源眾多,形式多樣,研究實時數(shù)據(jù)調(diào)度技術(shù),主要研究基于事件流的復(fù)雜事件處理(CEP)技術(shù)、并行算法、工作流技術(shù)為主的數(shù)據(jù)調(diào)度技術(shù),滿足大數(shù)據(jù)質(zhì)量快速動態(tài)探查檢測的要求。
1.3 電力大數(shù)據(jù)質(zhì)量快速動態(tài)探查檢測方法與關(guān)鍵技術(shù)研究
在電力大數(shù)據(jù)相關(guān)技術(shù)研究基礎(chǔ)上,結(jié)合電力大數(shù)據(jù)質(zhì)量實時監(jiān)控需求與面臨的挑戰(zhàn),研究大數(shù)據(jù)質(zhì)量實時監(jiān)控相關(guān)技術(shù)。
(1) 研究基于Storm的流式數(shù)據(jù)質(zhì)量技術(shù)實現(xiàn)數(shù)據(jù)傳輸過程不落地進行實時數(shù)據(jù)質(zhì)量監(jiān)控的方法及應(yīng)用策略,在數(shù)據(jù)傳輸過程中,結(jié)合Key?Value內(nèi)存數(shù)據(jù)庫,通過規(guī)則庫在Storm不同節(jié)點的使用分析,達到實時監(jiān)控的功能。
(2) 研究實時大數(shù)據(jù)捕獲及同步技術(shù),在同步主通道開發(fā)旁路數(shù)據(jù)通道,以支持數(shù)據(jù)質(zhì)量實時監(jiān)控的需求。
(3) 研究接口信息實時采集技術(shù),研究通過API代理調(diào)用、日志分析、數(shù)據(jù)庫表記錄分析、旁路監(jiān)聽等手段采集基礎(chǔ)信息,實現(xiàn)實時數(shù)據(jù)接口監(jiān)控;進而實現(xiàn)數(shù)據(jù)的關(guān)聯(lián)鏈接和數(shù)據(jù)血統(tǒng)分析及影響分析。
(4) 研究數(shù)據(jù)質(zhì)量監(jiān)控結(jié)果閉環(huán)自我提升技術(shù)。在數(shù)據(jù)質(zhì)量實時監(jiān)控及接口信息實時監(jiān)控的基礎(chǔ)上,研究基于實時事件觸發(fā)的數(shù)據(jù)質(zhì)量異動處理流程及接口異動處理流程技術(shù)。
1.4 電力大數(shù)據(jù)環(huán)境下的外部數(shù)據(jù)準入機制及關(guān)鍵技術(shù)研究
結(jié)合電力大數(shù)據(jù)環(huán)境下的外部數(shù)據(jù)應(yīng)用需求,研究制定公司大數(shù)據(jù)背景下外部數(shù)據(jù)管理目標(biāo),建立外部數(shù)據(jù)準入機制,對外部數(shù)據(jù)進行分類、分級,并根據(jù)外部數(shù)據(jù)的來源與類型選擇不同的管理策略和控制策略。研究完備的外部數(shù)據(jù)準入機制及關(guān)鍵技術(shù),主要研究外部數(shù)據(jù)接入檢測機制和外部數(shù)據(jù)接入機制。
(1) 研究外部數(shù)據(jù)接入檢測機制,主要包括數(shù)據(jù)安全性檢測、數(shù)據(jù)規(guī)范性檢測、數(shù)據(jù)身份認證等。數(shù)據(jù)安全性檢測主要檢測數(shù)據(jù)來源,數(shù)據(jù)規(guī)范性檢測主要檢測數(shù)據(jù)類型、數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)規(guī)模等方面。
(2) 研究外部數(shù)據(jù)接入機制,主要包括安全管理機制、數(shù)據(jù)等級評定、數(shù)據(jù)接入應(yīng)急機制、數(shù)據(jù)回退機制、數(shù)據(jù)測試管理機制。
(3) 研究外部數(shù)據(jù)接入關(guān)鍵技術(shù),主要包括數(shù)據(jù)接入異常檢測技術(shù)、數(shù)據(jù)流量控制技術(shù)、數(shù)據(jù)等級保護技術(shù)、數(shù)據(jù)庫網(wǎng)關(guān)技術(shù)、數(shù)據(jù)復(fù)制技術(shù)研究等。研究電力大數(shù)據(jù)環(huán)境下外部數(shù)據(jù)接入的數(shù)據(jù)清洗轉(zhuǎn)換、數(shù)據(jù)加載、數(shù)據(jù)接入服務(wù)等關(guān)鍵技術(shù)。
1.5 實現(xiàn)電力大數(shù)據(jù)質(zhì)量檢測與監(jiān)控系統(tǒng)開發(fā)及示范應(yīng)用
該系統(tǒng)原型分為5個層次:數(shù)據(jù)資源臺賬管理、數(shù)據(jù)傳輸及調(diào)度、接口監(jiān)控、數(shù)據(jù)質(zhì)量監(jiān)測、展現(xiàn)及應(yīng)用,如圖1所示。
圖1 電力大數(shù)據(jù)質(zhì)量檢測與監(jiān)控系統(tǒng)原型
數(shù)據(jù)資源臺賬管理:模型信息、臺賬、系統(tǒng)信息等基礎(chǔ)信息管理。
數(shù)據(jù)傳輸及調(diào)度:完成實時、非實時通用數(shù)據(jù)傳輸功能;各系統(tǒng)間數(shù)據(jù)調(diào)度功能。
接口監(jiān)控:進行接口監(jiān)控:ETL監(jiān)控、OGG監(jiān)控、模型監(jiān)控、WebService監(jiān)控等。
數(shù)據(jù)質(zhì)量監(jiān)測:核心數(shù)據(jù)質(zhì)量監(jiān)測功能,包括規(guī)則管理,質(zhì)量監(jiān)測功能及評價通報體系。
展現(xiàn)及應(yīng)用:在質(zhì)量監(jiān)測的結(jié)果上,形成各種報表,實現(xiàn)異動數(shù)據(jù)動態(tài)反饋功能。
依據(jù)原型系統(tǒng),結(jié)合省電力有限公司數(shù)據(jù)質(zhì)量專項治理應(yīng)用需求,完成示范應(yīng)用。
2 結(jié) 語
本課題重點研究電力大數(shù)據(jù)的數(shù)據(jù)質(zhì)量評價指標(biāo),研究電力大數(shù)據(jù)質(zhì)量評價模型;研究電力大數(shù)據(jù)質(zhì)量快速動態(tài)探查檢測方法與關(guān)鍵技術(shù);研究電力大數(shù)據(jù)質(zhì)量實時監(jiān)控方法與關(guān)鍵技術(shù);研究電力大數(shù)據(jù)環(huán)境下的外部數(shù)據(jù)準入機制及關(guān)鍵技術(shù)。完成對符合電力大數(shù)據(jù)特征的公司典型系統(tǒng)數(shù)據(jù)質(zhì)量情況的研究與分析,設(shè)計電力大數(shù)據(jù)質(zhì)量評價指標(biāo)與模型,形成對電力大數(shù)據(jù)質(zhì)量檢測、監(jiān)控、外部數(shù)據(jù)準入的相關(guān)方法與要求,完成相關(guān)關(guān)鍵技術(shù)研究與有效性驗證,為系統(tǒng)提升大數(shù)據(jù)質(zhì)量提供統(tǒng)一技術(shù)支撐。
參考文獻
[1] 李皎.大數(shù)據(jù)時代到來對電力行業(yè)發(fā)展提出新要求[J].華北電業(yè),2012(4):82?83.
[2] 孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計算機研究與發(fā)展,2013,50(1):146?149.
[3] 匡紅剛,王濤,唐融,等.數(shù)據(jù)質(zhì)量閉環(huán)管控框架數(shù)據(jù)估值的應(yīng)用研究大數(shù)據(jù)時代[J].華東電力,2013,41(3):547?549.
[4] 郭莉.共享數(shù)據(jù)工程體系結(jié)構(gòu)及元數(shù)據(jù)服務(wù)研究[D].鄭州:中國人民解放軍信息工程大學(xué),2007.
[5] 黃心宇.數(shù)據(jù)質(zhì)量評價模型的建立和實現(xiàn)[J].商場現(xiàn)代化,2008(8):396?397.
[6] 張磊.油田數(shù)據(jù)質(zhì)量監(jiān)督與控制模型研究[D].大慶:東北石油大學(xué),2010.
[7] 魯均云,李星毅.基于內(nèi)碼序值聚類的相似重復(fù)記錄檢測方法[J].計算機應(yīng)用研究,2010,27(3):874?878.
[8] 龐雄文,姚占林,李擁軍.大數(shù)據(jù)量的高效重復(fù)記錄檢測方法[J].華中科技大學(xué)學(xué)報:自然科學(xué)版,2010(2):9?11.
(1) 開展大數(shù)據(jù)下的數(shù)據(jù)質(zhì)量評價指標(biāo)設(shè)計研究,分析大數(shù)據(jù)環(huán)境下數(shù)據(jù)質(zhì)量的主要影響因素,按數(shù)據(jù)質(zhì)量的數(shù)據(jù)的一致性、數(shù)據(jù)的準確性、數(shù)據(jù)的完整性、數(shù)據(jù)的及時性4個關(guān)鍵特性建立數(shù)據(jù)質(zhì)量評價指標(biāo),以指導(dǎo)并考核大數(shù)據(jù)下系統(tǒng)數(shù)據(jù)質(zhì)量水平。
(2) 研究建立大數(shù)據(jù)下的數(shù)據(jù)質(zhì)量評價模型,實現(xiàn)質(zhì)量指標(biāo)計算、統(tǒng)計分析和綜合評價的實時、自動處理,滿足系統(tǒng)動態(tài)、實時進行數(shù)據(jù)質(zhì)量好壞量化診斷和評價的要求,主要包括數(shù)據(jù)質(zhì)量指標(biāo)定義模型、數(shù)據(jù)質(zhì)量評估算法或規(guī)則及數(shù)據(jù)質(zhì)量診斷與評價結(jié)果,其中,數(shù)據(jù)質(zhì)量指標(biāo)定義模型,主要研究數(shù)據(jù)質(zhì)量層級評價指標(biāo)樹設(shè)計、指標(biāo)權(quán)重設(shè)計及指標(biāo)分值計算等;數(shù)據(jù)質(zhì)量評估算法或規(guī)則研究,主要研究通過一定的數(shù)據(jù)算法與計算規(guī)則建立評估模型,實現(xiàn)對指標(biāo)權(quán)重、指標(biāo)分數(shù)自動計算與分析,并生成診斷與評估結(jié)果。
1.2 電力大數(shù)據(jù)質(zhì)量快速動態(tài)探查檢測方法與關(guān)鍵技術(shù)研究
在大數(shù)據(jù)質(zhì)量評價指標(biāo)、大數(shù)據(jù)質(zhì)量評價模型的基礎(chǔ)上,研究大數(shù)據(jù)質(zhì)量探查檢測[7?8]的關(guān)鍵技術(shù)。
(1) 針對大數(shù)據(jù)質(zhì)量探查檢測數(shù)據(jù)訪問量大和大數(shù)據(jù)本身的“海量化”特性,研究滿足質(zhì)量探查檢測需要的大數(shù)據(jù)訪問、采集技術(shù)。包括分布式存儲訪問優(yōu)化算法研究;動態(tài)智能緩存技術(shù)研究。
(2) 針對大數(shù)據(jù)“快速化”的特性,研究大數(shù)據(jù)質(zhì)量分析與處理技術(shù)。包括適用于大數(shù)據(jù)質(zhì)量探查檢測的流計算、基于內(nèi)存計算的高性能分析、實時數(shù)據(jù)質(zhì)量分析的研究。
(3) 針對大數(shù)據(jù)“多樣化”的特性,研究大數(shù)據(jù)質(zhì)量探查檢測中大數(shù)據(jù)的自動識別技術(shù):研究基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)識別技術(shù)及血緣分析技術(shù)。研究基于網(wǎng)格的數(shù)據(jù)關(guān)聯(lián)性評估技術(shù),實現(xiàn)數(shù)據(jù)的卡片化、地圖化展現(xiàn)與管理。
(4) 針對大數(shù)據(jù)來源眾多,形式多樣,研究實時數(shù)據(jù)調(diào)度技術(shù),主要研究基于事件流的復(fù)雜事件處理(CEP)技術(shù)、并行算法、工作流技術(shù)為主的數(shù)據(jù)調(diào)度技術(shù),滿足大數(shù)據(jù)質(zhì)量快速動態(tài)探查檢測的要求。
1.3 電力大數(shù)據(jù)質(zhì)量快速動態(tài)探查檢測方法與關(guān)鍵技術(shù)研究
在電力大數(shù)據(jù)相關(guān)技術(shù)研究基礎(chǔ)上,結(jié)合電力大數(shù)據(jù)質(zhì)量實時監(jiān)控需求與面臨的挑戰(zhàn),研究大數(shù)據(jù)質(zhì)量實時監(jiān)控相關(guān)技術(shù)。
(1) 研究基于Storm的流式數(shù)據(jù)質(zhì)量技術(shù)實現(xiàn)數(shù)據(jù)傳輸過程不落地進行實時數(shù)據(jù)質(zhì)量監(jiān)控的方法及應(yīng)用策略,在數(shù)據(jù)傳輸過程中,結(jié)合Key?Value內(nèi)存數(shù)據(jù)庫,通過規(guī)則庫在Storm不同節(jié)點的使用分析,達到實時監(jiān)控的功能。
(2) 研究實時大數(shù)據(jù)捕獲及同步技術(shù),在同步主通道開發(fā)旁路數(shù)據(jù)通道,以支持數(shù)據(jù)質(zhì)量實時監(jiān)控的需求。
(3) 研究接口信息實時采集技術(shù),研究通過API代理調(diào)用、日志分析、數(shù)據(jù)庫表記錄分析、旁路監(jiān)聽等手段采集基礎(chǔ)信息,實現(xiàn)實時數(shù)據(jù)接口監(jiān)控;進而實現(xiàn)數(shù)據(jù)的關(guān)聯(lián)鏈接和數(shù)據(jù)血統(tǒng)分析及影響分析。
(4) 研究數(shù)據(jù)質(zhì)量監(jiān)控結(jié)果閉環(huán)自我提升技術(shù)。在數(shù)據(jù)質(zhì)量實時監(jiān)控及接口信息實時監(jiān)控的基礎(chǔ)上,研究基于實時事件觸發(fā)的數(shù)據(jù)質(zhì)量異動處理流程及接口異動處理流程技術(shù)。
1.4 電力大數(shù)據(jù)環(huán)境下的外部數(shù)據(jù)準入機制及關(guān)鍵技術(shù)研究
結(jié)合電力大數(shù)據(jù)環(huán)境下的外部數(shù)據(jù)應(yīng)用需求,研究制定公司大數(shù)據(jù)背景下外部數(shù)據(jù)管理目標(biāo),建立外部數(shù)據(jù)準入機制,對外部數(shù)據(jù)進行分類、分級,并根據(jù)外部數(shù)據(jù)的來源與類型選擇不同的管理策略和控制策略。研究完備的外部數(shù)據(jù)準入機制及關(guān)鍵技術(shù),主要研究外部數(shù)據(jù)接入檢測機制和外部數(shù)據(jù)接入機制。
(1) 研究外部數(shù)據(jù)接入檢測機制,主要包括數(shù)據(jù)安全性檢測、數(shù)據(jù)規(guī)范性檢測、數(shù)據(jù)身份認證等。數(shù)據(jù)安全性檢測主要檢測數(shù)據(jù)來源,數(shù)據(jù)規(guī)范性檢測主要檢測數(shù)據(jù)類型、數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)規(guī)模等方面。
(2) 研究外部數(shù)據(jù)接入機制,主要包括安全管理機制、數(shù)據(jù)等級評定、數(shù)據(jù)接入應(yīng)急機制、數(shù)據(jù)回退機制、數(shù)據(jù)測試管理機制。
(3) 研究外部數(shù)據(jù)接入關(guān)鍵技術(shù),主要包括數(shù)據(jù)接入異常檢測技術(shù)、數(shù)據(jù)流量控制技術(shù)、數(shù)據(jù)等級保護技術(shù)、數(shù)據(jù)庫網(wǎng)關(guān)技術(shù)、數(shù)據(jù)復(fù)制技術(shù)研究等。研究電力大數(shù)據(jù)環(huán)境下外部數(shù)據(jù)接入的數(shù)據(jù)清洗轉(zhuǎn)換、數(shù)據(jù)加載、數(shù)據(jù)接入服務(wù)等關(guān)鍵技術(shù)。
1.5 實現(xiàn)電力大數(shù)據(jù)質(zhì)量檢測與監(jiān)控系統(tǒng)開發(fā)及示范應(yīng)用
該系統(tǒng)原型分為5個層次:數(shù)據(jù)資源臺賬管理、數(shù)據(jù)傳輸及調(diào)度、接口監(jiān)控、數(shù)據(jù)質(zhì)量監(jiān)測、展現(xiàn)及應(yīng)用,如圖1所示。
圖1 電力大數(shù)據(jù)質(zhì)量檢測與監(jiān)控系統(tǒng)原型
數(shù)據(jù)資源臺賬管理:模型信息、臺賬、系統(tǒng)信息等基礎(chǔ)信息管理。
數(shù)據(jù)傳輸及調(diào)度:完成實時、非實時通用數(shù)據(jù)傳輸功能;各系統(tǒng)間數(shù)據(jù)調(diào)度功能。
接口監(jiān)控:進行接口監(jiān)控:ETL監(jiān)控、OGG監(jiān)控、模型監(jiān)控、WebService監(jiān)控等。
數(shù)據(jù)質(zhì)量監(jiān)測:核心數(shù)據(jù)質(zhì)量監(jiān)測功能,包括規(guī)則管理,質(zhì)量監(jiān)測功能及評價通報體系。
展現(xiàn)及應(yīng)用:在質(zhì)量監(jiān)測的結(jié)果上,形成各種報表,實現(xiàn)異動數(shù)據(jù)動態(tài)反饋功能。
依據(jù)原型系統(tǒng),結(jié)合省電力有限公司數(shù)據(jù)質(zhì)量專項治理應(yīng)用需求,完成示范應(yīng)用。
2 結(jié) 語
本課題重點研究電力大數(shù)據(jù)的數(shù)據(jù)質(zhì)量評價指標(biāo),研究電力大數(shù)據(jù)質(zhì)量評價模型;研究電力大數(shù)據(jù)質(zhì)量快速動態(tài)探查檢測方法與關(guān)鍵技術(shù);研究電力大數(shù)據(jù)質(zhì)量實時監(jiān)控方法與關(guān)鍵技術(shù);研究電力大數(shù)據(jù)環(huán)境下的外部數(shù)據(jù)準入機制及關(guān)鍵技術(shù)。完成對符合電力大數(shù)據(jù)特征的公司典型系統(tǒng)數(shù)據(jù)質(zhì)量情況的研究與分析,設(shè)計電力大數(shù)據(jù)質(zhì)量評價指標(biāo)與模型,形成對電力大數(shù)據(jù)質(zhì)量檢測、監(jiān)控、外部數(shù)據(jù)準入的相關(guān)方法與要求,完成相關(guān)關(guān)鍵技術(shù)研究與有效性驗證,為系統(tǒng)提升大數(shù)據(jù)質(zhì)量提供統(tǒng)一技術(shù)支撐。
參考文獻
[1] 李皎.大數(shù)據(jù)時代到來對電力行業(yè)發(fā)展提出新要求[J].華北電業(yè),2012(4):82?83.
[2] 孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計算機研究與發(fā)展,2013,50(1):146?149.
[3] 匡紅剛,王濤,唐融,等.數(shù)據(jù)質(zhì)量閉環(huán)管控框架數(shù)據(jù)估值的應(yīng)用研究大數(shù)據(jù)時代[J].華東電力,2013,41(3):547?549.
[4] 郭莉.共享數(shù)據(jù)工程體系結(jié)構(gòu)及元數(shù)據(jù)服務(wù)研究[D].鄭州:中國人民解放軍信息工程大學(xué),2007.
[5] 黃心宇.數(shù)據(jù)質(zhì)量評價模型的建立和實現(xiàn)[J].商場現(xiàn)代化,2008(8):396?397.
[6] 張磊.油田數(shù)據(jù)質(zhì)量監(jiān)督與控制模型研究[D].大慶:東北石油大學(xué),2010.
[7] 魯均云,李星毅.基于內(nèi)碼序值聚類的相似重復(fù)記錄檢測方法[J].計算機應(yīng)用研究,2010,27(3):874?878.
[8] 龐雄文,姚占林,李擁軍.大數(shù)據(jù)量的高效重復(fù)記錄檢測方法[J].華中科技大學(xué)學(xué)報:自然科學(xué)版,2010(2):9?11.
(1) 開展大數(shù)據(jù)下的數(shù)據(jù)質(zhì)量評價指標(biāo)設(shè)計研究,分析大數(shù)據(jù)環(huán)境下數(shù)據(jù)質(zhì)量的主要影響因素,按數(shù)據(jù)質(zhì)量的數(shù)據(jù)的一致性、數(shù)據(jù)的準確性、數(shù)據(jù)的完整性、數(shù)據(jù)的及時性4個關(guān)鍵特性建立數(shù)據(jù)質(zhì)量評價指標(biāo),以指導(dǎo)并考核大數(shù)據(jù)下系統(tǒng)數(shù)據(jù)質(zhì)量水平。
(2) 研究建立大數(shù)據(jù)下的數(shù)據(jù)質(zhì)量評價模型,實現(xiàn)質(zhì)量指標(biāo)計算、統(tǒng)計分析和綜合評價的實時、自動處理,滿足系統(tǒng)動態(tài)、實時進行數(shù)據(jù)質(zhì)量好壞量化診斷和評價的要求,主要包括數(shù)據(jù)質(zhì)量指標(biāo)定義模型、數(shù)據(jù)質(zhì)量評估算法或規(guī)則及數(shù)據(jù)質(zhì)量診斷與評價結(jié)果,其中,數(shù)據(jù)質(zhì)量指標(biāo)定義模型,主要研究數(shù)據(jù)質(zhì)量層級評價指標(biāo)樹設(shè)計、指標(biāo)權(quán)重設(shè)計及指標(biāo)分值計算等;數(shù)據(jù)質(zhì)量評估算法或規(guī)則研究,主要研究通過一定的數(shù)據(jù)算法與計算規(guī)則建立評估模型,實現(xiàn)對指標(biāo)權(quán)重、指標(biāo)分數(shù)自動計算與分析,并生成診斷與評估結(jié)果。
1.2 電力大數(shù)據(jù)質(zhì)量快速動態(tài)探查檢測方法與關(guān)鍵技術(shù)研究
在大數(shù)據(jù)質(zhì)量評價指標(biāo)、大數(shù)據(jù)質(zhì)量評價模型的基礎(chǔ)上,研究大數(shù)據(jù)質(zhì)量探查檢測[7?8]的關(guān)鍵技術(shù)。
(1) 針對大數(shù)據(jù)質(zhì)量探查檢測數(shù)據(jù)訪問量大和大數(shù)據(jù)本身的“海量化”特性,研究滿足質(zhì)量探查檢測需要的大數(shù)據(jù)訪問、采集技術(shù)。包括分布式存儲訪問優(yōu)化算法研究;動態(tài)智能緩存技術(shù)研究。
(2) 針對大數(shù)據(jù)“快速化”的特性,研究大數(shù)據(jù)質(zhì)量分析與處理技術(shù)。包括適用于大數(shù)據(jù)質(zhì)量探查檢測的流計算、基于內(nèi)存計算的高性能分析、實時數(shù)據(jù)質(zhì)量分析的研究。
(3) 針對大數(shù)據(jù)“多樣化”的特性,研究大數(shù)據(jù)質(zhì)量探查檢測中大數(shù)據(jù)的自動識別技術(shù):研究基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)識別技術(shù)及血緣分析技術(shù)。研究基于網(wǎng)格的數(shù)據(jù)關(guān)聯(lián)性評估技術(shù),實現(xiàn)數(shù)據(jù)的卡片化、地圖化展現(xiàn)與管理。
(4) 針對大數(shù)據(jù)來源眾多,形式多樣,研究實時數(shù)據(jù)調(diào)度技術(shù),主要研究基于事件流的復(fù)雜事件處理(CEP)技術(shù)、并行算法、工作流技術(shù)為主的數(shù)據(jù)調(diào)度技術(shù),滿足大數(shù)據(jù)質(zhì)量快速動態(tài)探查檢測的要求。
1.3 電力大數(shù)據(jù)質(zhì)量快速動態(tài)探查檢測方法與關(guān)鍵技術(shù)研究
在電力大數(shù)據(jù)相關(guān)技術(shù)研究基礎(chǔ)上,結(jié)合電力大數(shù)據(jù)質(zhì)量實時監(jiān)控需求與面臨的挑戰(zhàn),研究大數(shù)據(jù)質(zhì)量實時監(jiān)控相關(guān)技術(shù)。
(1) 研究基于Storm的流式數(shù)據(jù)質(zhì)量技術(shù)實現(xiàn)數(shù)據(jù)傳輸過程不落地進行實時數(shù)據(jù)質(zhì)量監(jiān)控的方法及應(yīng)用策略,在數(shù)據(jù)傳輸過程中,結(jié)合Key?Value內(nèi)存數(shù)據(jù)庫,通過規(guī)則庫在Storm不同節(jié)點的使用分析,達到實時監(jiān)控的功能。
(2) 研究實時大數(shù)據(jù)捕獲及同步技術(shù),在同步主通道開發(fā)旁路數(shù)據(jù)通道,以支持數(shù)據(jù)質(zhì)量實時監(jiān)控的需求。
(3) 研究接口信息實時采集技術(shù),研究通過API代理調(diào)用、日志分析、數(shù)據(jù)庫表記錄分析、旁路監(jiān)聽等手段采集基礎(chǔ)信息,實現(xiàn)實時數(shù)據(jù)接口監(jiān)控;進而實現(xiàn)數(shù)據(jù)的關(guān)聯(lián)鏈接和數(shù)據(jù)血統(tǒng)分析及影響分析。
(4) 研究數(shù)據(jù)質(zhì)量監(jiān)控結(jié)果閉環(huán)自我提升技術(shù)。在數(shù)據(jù)質(zhì)量實時監(jiān)控及接口信息實時監(jiān)控的基礎(chǔ)上,研究基于實時事件觸發(fā)的數(shù)據(jù)質(zhì)量異動處理流程及接口異動處理流程技術(shù)。
1.4 電力大數(shù)據(jù)環(huán)境下的外部數(shù)據(jù)準入機制及關(guān)鍵技術(shù)研究
結(jié)合電力大數(shù)據(jù)環(huán)境下的外部數(shù)據(jù)應(yīng)用需求,研究制定公司大數(shù)據(jù)背景下外部數(shù)據(jù)管理目標(biāo),建立外部數(shù)據(jù)準入機制,對外部數(shù)據(jù)進行分類、分級,并根據(jù)外部數(shù)據(jù)的來源與類型選擇不同的管理策略和控制策略。研究完備的外部數(shù)據(jù)準入機制及關(guān)鍵技術(shù),主要研究外部數(shù)據(jù)接入檢測機制和外部數(shù)據(jù)接入機制。
(1) 研究外部數(shù)據(jù)接入檢測機制,主要包括數(shù)據(jù)安全性檢測、數(shù)據(jù)規(guī)范性檢測、數(shù)據(jù)身份認證等。數(shù)據(jù)安全性檢測主要檢測數(shù)據(jù)來源,數(shù)據(jù)規(guī)范性檢測主要檢測數(shù)據(jù)類型、數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)規(guī)模等方面。
(2) 研究外部數(shù)據(jù)接入機制,主要包括安全管理機制、數(shù)據(jù)等級評定、數(shù)據(jù)接入應(yīng)急機制、數(shù)據(jù)回退機制、數(shù)據(jù)測試管理機制。
(3) 研究外部數(shù)據(jù)接入關(guān)鍵技術(shù),主要包括數(shù)據(jù)接入異常檢測技術(shù)、數(shù)據(jù)流量控制技術(shù)、數(shù)據(jù)等級保護技術(shù)、數(shù)據(jù)庫網(wǎng)關(guān)技術(shù)、數(shù)據(jù)復(fù)制技術(shù)研究等。研究電力大數(shù)據(jù)環(huán)境下外部數(shù)據(jù)接入的數(shù)據(jù)清洗轉(zhuǎn)換、數(shù)據(jù)加載、數(shù)據(jù)接入服務(wù)等關(guān)鍵技術(shù)。
1.5 實現(xiàn)電力大數(shù)據(jù)質(zhì)量檢測與監(jiān)控系統(tǒng)開發(fā)及示范應(yīng)用
該系統(tǒng)原型分為5個層次:數(shù)據(jù)資源臺賬管理、數(shù)據(jù)傳輸及調(diào)度、接口監(jiān)控、數(shù)據(jù)質(zhì)量監(jiān)測、展現(xiàn)及應(yīng)用,如圖1所示。
圖1 電力大數(shù)據(jù)質(zhì)量檢測與監(jiān)控系統(tǒng)原型
數(shù)據(jù)資源臺賬管理:模型信息、臺賬、系統(tǒng)信息等基礎(chǔ)信息管理。
數(shù)據(jù)傳輸及調(diào)度:完成實時、非實時通用數(shù)據(jù)傳輸功能;各系統(tǒng)間數(shù)據(jù)調(diào)度功能。
接口監(jiān)控:進行接口監(jiān)控:ETL監(jiān)控、OGG監(jiān)控、模型監(jiān)控、WebService監(jiān)控等。
數(shù)據(jù)質(zhì)量監(jiān)測:核心數(shù)據(jù)質(zhì)量監(jiān)測功能,包括規(guī)則管理,質(zhì)量監(jiān)測功能及評價通報體系。
展現(xiàn)及應(yīng)用:在質(zhì)量監(jiān)測的結(jié)果上,形成各種報表,實現(xiàn)異動數(shù)據(jù)動態(tài)反饋功能。
依據(jù)原型系統(tǒng),結(jié)合省電力有限公司數(shù)據(jù)質(zhì)量專項治理應(yīng)用需求,完成示范應(yīng)用。
2 結(jié) 語
本課題重點研究電力大數(shù)據(jù)的數(shù)據(jù)質(zhì)量評價指標(biāo),研究電力大數(shù)據(jù)質(zhì)量評價模型;研究電力大數(shù)據(jù)質(zhì)量快速動態(tài)探查檢測方法與關(guān)鍵技術(shù);研究電力大數(shù)據(jù)質(zhì)量實時監(jiān)控方法與關(guān)鍵技術(shù);研究電力大數(shù)據(jù)環(huán)境下的外部數(shù)據(jù)準入機制及關(guān)鍵技術(shù)。完成對符合電力大數(shù)據(jù)特征的公司典型系統(tǒng)數(shù)據(jù)質(zhì)量情況的研究與分析,設(shè)計電力大數(shù)據(jù)質(zhì)量評價指標(biāo)與模型,形成對電力大數(shù)據(jù)質(zhì)量檢測、監(jiān)控、外部數(shù)據(jù)準入的相關(guān)方法與要求,完成相關(guān)關(guān)鍵技術(shù)研究與有效性驗證,為系統(tǒng)提升大數(shù)據(jù)質(zhì)量提供統(tǒng)一技術(shù)支撐。
參考文獻
[1] 李皎.大數(shù)據(jù)時代到來對電力行業(yè)發(fā)展提出新要求[J].華北電業(yè),2012(4):82?83.
[2] 孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計算機研究與發(fā)展,2013,50(1):146?149.
[3] 匡紅剛,王濤,唐融,等.數(shù)據(jù)質(zhì)量閉環(huán)管控框架數(shù)據(jù)估值的應(yīng)用研究大數(shù)據(jù)時代[J].華東電力,2013,41(3):547?549.
[4] 郭莉.共享數(shù)據(jù)工程體系結(jié)構(gòu)及元數(shù)據(jù)服務(wù)研究[D].鄭州:中國人民解放軍信息工程大學(xué),2007.
[5] 黃心宇.數(shù)據(jù)質(zhì)量評價模型的建立和實現(xiàn)[J].商場現(xiàn)代化,2008(8):396?397.
[6] 張磊.油田數(shù)據(jù)質(zhì)量監(jiān)督與控制模型研究[D].大慶:東北石油大學(xué),2010.
[7] 魯均云,李星毅.基于內(nèi)碼序值聚類的相似重復(fù)記錄檢測方法[J].計算機應(yīng)用研究,2010,27(3):874?878.
[8] 龐雄文,姚占林,李擁軍.大數(shù)據(jù)量的高效重復(fù)記錄檢測方法[J].華中科技大學(xué)學(xué)報:自然科學(xué)版,2010(2):9?11.