付盼++劉曉龍
[摘 ?要]近年來,經(jīng)過SG186工程、SG-ERP建設(shè),國家電網(wǎng)公司積累了豐富的數(shù)據(jù)資源,但隨著公司業(yè)務(wù)系統(tǒng)數(shù)據(jù)量的不斷增大,數(shù)據(jù)價值挖掘需求的增長,電力大數(shù)據(jù)平臺需要橫向擴張,進一步整合優(yōu)化數(shù)據(jù)資源。本文研究探討了電力大數(shù)據(jù)平臺關(guān)鍵技術(shù)研究與應(yīng)用,充分分析現(xiàn)有數(shù)據(jù)中心平臺組件待優(yōu)化點基礎(chǔ)上,開展公司大數(shù)據(jù)平臺基礎(chǔ)組件的研究,以實現(xiàn)統(tǒng)一為公司各類應(yīng)用建設(shè)提供海量數(shù)據(jù)采集處理、存儲處理、計算處理、分析挖掘等基礎(chǔ)性支撐功能。
[關(guān)鍵詞]大數(shù)據(jù)平臺;關(guān)鍵技術(shù);數(shù)據(jù)整合;數(shù)據(jù)存儲
中圖分類號:F426.61 文獻標(biāo)識碼:A 文章編號:1009-914X(2016)24-0194-01
1 引言
隨著國網(wǎng)公司“三集五大”管理體系和調(diào)控、運監(jiān)、客服三中心的全面建設(shè),信息系統(tǒng)已全面融入公司生產(chǎn)經(jīng)營管理業(yè)務(wù)的各個方面,積累了大量的結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、海量歷史準(zhǔn)實時數(shù)據(jù)和地理信息數(shù)據(jù)。按照“統(tǒng)籌規(guī)劃、協(xié)同推進、統(tǒng)一平臺、規(guī)范建設(shè)”的總體策略,在充分繼承現(xiàn)有信息化建設(shè)成果和一期大數(shù)據(jù)平臺試點建設(shè)經(jīng)驗的基礎(chǔ)上,2016年公司將全面推廣大數(shù)據(jù)平臺建設(shè)工作,以提升公司內(nèi)外部數(shù)據(jù)資源整合處理和價值挖掘水平,促進管理提升和業(yè)務(wù)創(chuàng)新。
2 關(guān)鍵技術(shù)研究
1)關(guān)系數(shù)據(jù)與分布式存儲同步技術(shù)
關(guān)系數(shù)據(jù)庫與分布式存儲同步技術(shù)是指可以將關(guān)系數(shù)據(jù)庫的數(shù)據(jù)抽取到分布式存儲中,又可以將分布式存儲中的數(shù)據(jù)回寫到關(guān)系數(shù)據(jù)庫中。
大數(shù)據(jù)平臺中的數(shù)據(jù)通常采取分布式存儲技術(shù)進行海量數(shù)據(jù)存儲,數(shù)據(jù)主要來源于公司現(xiàn)有的關(guān)系數(shù)據(jù)庫、數(shù)據(jù)倉庫。在數(shù)據(jù)進行傳輸?shù)倪^程當(dāng)中,既需要保障數(shù)據(jù)能在關(guān)系型數(shù)據(jù)庫和分布式存儲之間無縫傳輸,又需要保障大規(guī)模數(shù)據(jù)的傳輸與流轉(zhuǎn)效率,不能影響業(yè)務(wù)系統(tǒng)正常運行。而傳統(tǒng)的ETL抽取工具一般只具有關(guān)系數(shù)據(jù)庫、文件、服務(wù)等數(shù)據(jù)源之間同步功能,缺少關(guān)系數(shù)據(jù)庫與分布式存儲之間數(shù)據(jù)同步能力。因此需要利用關(guān)系數(shù)據(jù)庫與分布式存儲同步技術(shù)實現(xiàn)不同存儲機制下的數(shù)據(jù)雙向同步。
2)文件采集與處理技術(shù)
數(shù)據(jù)平臺的數(shù)據(jù)來源除了傳統(tǒng)的數(shù)據(jù)中心、數(shù)據(jù)倉庫之外,更多的數(shù)據(jù)是來自之前無法有效處理的各類文件,如系統(tǒng)日志、數(shù)據(jù)交換文件、現(xiàn)場檢修照片、遠程監(jiān)視的視頻等。這些文件數(shù)據(jù)結(jié)構(gòu)不明確、清晰,變化頻繁,數(shù)量巨大。通過大數(shù)據(jù)平臺的分布式存儲可以低成本存儲文件,也可以將其中的數(shù)據(jù)解析成結(jié)構(gòu)化或半結(jié)構(gòu)化的數(shù)據(jù)存儲在大數(shù)據(jù)平臺中。
3)分布式文件系統(tǒng)
分布式文件系統(tǒng)是指基于客戶機/服務(wù)器模式,文件系統(tǒng)管理的物理資源不一定直接連接在本地節(jié)點上,而是通過計算機網(wǎng)絡(luò)與節(jié)點相連。分布式文件系統(tǒng)表現(xiàn)為文件數(shù)據(jù)存儲在分散的低成本存儲介質(zhì)上,對外提供一致的文件訪問接口,具有良好的容錯性。分布式文件系統(tǒng)的引入,解決了海量數(shù)據(jù)存儲的難題,其所具備的全分布式架構(gòu)、數(shù)據(jù)塊粒度切分、在線擴容減容、復(fù)制備份及普通PC硬件適用性等關(guān)鍵技術(shù),支撐了安全的PB級以上規(guī)模數(shù)據(jù)在線存儲,使安全、低成本、可任意擴容的大數(shù)據(jù)存儲成為可能。
3 平臺架構(gòu)內(nèi)容
大數(shù)據(jù)平臺為業(yè)務(wù)系統(tǒng)大數(shù)據(jù)應(yīng)用開發(fā)、運行提供統(tǒng)一的平臺支撐。其架構(gòu)內(nèi)容主要包括數(shù)據(jù)整合、數(shù)據(jù)存儲、數(shù)據(jù)計算、數(shù)據(jù)分析、平臺服務(wù)、安全管理、配置管理等模塊,并提供各種形式的服務(wù)對業(yè)務(wù)應(yīng)用提供支撐。架構(gòu)圖如下圖1所示。
數(shù)據(jù)整合:通過數(shù)據(jù)抽取、實時數(shù)據(jù)采集、文件數(shù)據(jù)采集、數(shù)據(jù)庫實時復(fù)制等多種技術(shù)從外部數(shù)據(jù)源抽取和采集結(jié)構(gòu)化數(shù)據(jù)(關(guān)系數(shù)據(jù)庫記錄)、半結(jié)構(gòu)化數(shù)據(jù)(日志、郵件等)、非結(jié)構(gòu)化數(shù)據(jù)(文件、視頻、音頻、網(wǎng)絡(luò)數(shù)據(jù)流等),同時,實現(xiàn)數(shù)據(jù)的實時、非實時采集。
數(shù)據(jù)存儲:負(fù)責(zé)進行大數(shù)據(jù)的存儲,針對全數(shù)據(jù)類型和多樣計算需求,以海量規(guī)模存儲、快速查詢讀取為特征,存儲來自外部數(shù)據(jù)源的各類數(shù)據(jù),支撐數(shù)據(jù)處理層的高級應(yīng)用。
數(shù)據(jù)計算:對多樣化的大數(shù)據(jù)提供流計算、批量計算、內(nèi)存計算、查詢計算等計算功能,允許對分布式存儲的數(shù)據(jù)文件或內(nèi)存數(shù)據(jù)進行查詢和計算。通過流計算技術(shù)提供實時分析處理的計算能力,實現(xiàn)實時決策、預(yù)警等。通過離線計算提供落地數(shù)據(jù)的計算能力,實現(xiàn)數(shù)據(jù)的批量處理。
數(shù)據(jù)分析:對多樣化的大數(shù)據(jù)進行加工、處理、分析、挖掘,產(chǎn)生新的業(yè)務(wù)價值,發(fā)現(xiàn)業(yè)務(wù)發(fā)展方向,提供業(yè)務(wù)決策依據(jù)。
平臺服務(wù):將底層數(shù)據(jù)分析工具、組件等能力封裝后為業(yè)務(wù)系統(tǒng)的大數(shù)據(jù)應(yīng)用提供平臺服務(wù)支撐,包含存儲服務(wù)、計算服務(wù)、分析服務(wù)、展現(xiàn)服務(wù)等。
安全:解決從大數(shù)據(jù)環(huán)境下的數(shù)據(jù)采集、存儲、分析、應(yīng)用等過程中產(chǎn)生的諸如身份驗證、授權(quán)過程和輸入驗證等大量安全問題。由于在數(shù)據(jù)分析、挖掘過程中涉及企業(yè)各業(yè)務(wù)的核心數(shù)據(jù),防止數(shù)據(jù)泄露,控制訪問權(quán)限等安全措施在大數(shù)據(jù)應(yīng)用中尤為關(guān)鍵。
管理配置:實時監(jiān)測大數(shù)據(jù)處理全過程中的整體運行狀態(tài)、資源使用情況和接口調(diào)用情況等性能指標(biāo)并對關(guān)鍵系統(tǒng)險情進行告警,支持大數(shù)據(jù)組件安裝、配置和狀態(tài)管理,可快速擴展應(yīng)用功能和能力,可實時性監(jiān)控和調(diào)度任務(wù)計劃,可對大數(shù)據(jù)集群的計算資源和存儲資源進行配置和管理。
4 總結(jié)
對電力大數(shù)據(jù)平臺關(guān)鍵技術(shù)的研究與應(yīng)用的成功實施,為公司各類應(yīng)用建設(shè)提供海量數(shù)據(jù)采集處理、存儲處理、計算處理、分析挖掘等基礎(chǔ)性支撐功能,提升公司內(nèi)外部數(shù)據(jù)資源整合處理和價值挖掘水平,促進管理提升和業(yè)務(wù)創(chuàng)新。