陳行濱 王周 鄭飄飄 林德威 劉青
摘要:基于Hadoop存儲架構(gòu)設(shè)計了電網(wǎng)非結(jié)構(gòu)化數(shù)據(jù)管理平臺,主要包括存儲分析與搜索讀取2大模塊,整合HDFS、Hbase等存儲設(shè)備,利用HDFS實現(xiàn)海量數(shù)據(jù)的快速讀寫,采用基于ZooKeeper及Solr搭建的開源分布式搜索引擎SolrCloud實現(xiàn)數(shù)據(jù)檢索,提供了高效便捷的智能化管理手段。
關(guān)鍵詞:電網(wǎng)管理;Hadoop存儲;分布式;數(shù)據(jù)檢索
中圖分類號:TP311.13
文獻(xiàn)標(biāo)識碼:B文章編號:1001-5922(2022)06-0172-04
Realization of power big data storage based on distributed file system
CHEN Xingbin WANG Zhou ZHENG Piaopiao LIN Dewei LIU Qing
(1. State Grid Fujian Electric Power Co., Ltd., Fuzhou 350000, China; 2. Information and Telecommunication Branch, State Grid Fujian Electric Power Co., Ltd., Fuzhou 350000, China; 3. State grid Xintong Yili Technology Co., Ltd., Fuzhou 350000, China
)
Abstract:This paper designs an unstructured data management platform for power grids based on the Hadoop storage architecture. It mainly includes two modules: storage analysis and search and reading. It integrates storage devices such as HDFS and Hbase. It uses HDFS to achieve rapid reading and writing of massive data and adopts an open-source distributed search engine SolrCloud built by ZooKeeper and Solr to implement data retrieval, providing an effective and convenient method for smart management.
Key words:power grid management; Hadoop storage; distributed; data retrieval
電力行業(yè)的非結(jié)構(gòu)化數(shù)據(jù)存儲的內(nèi)容包括圖像、視頻、報表、網(wǎng)頁等不同格式,其中70%以上源自人與人之間的協(xié)作,可以說是以人為中心產(chǎn)生的數(shù)據(jù)。其中蘊含著各類經(jīng)驗與操作方法,是很珍貴的數(shù)據(jù)資產(chǎn),如何將所有的非結(jié)構(gòu)化信息加以管理是衡量企業(yè)信息化水平以及數(shù)據(jù)充分利用率的關(guān)鍵指標(biāo)。
1電網(wǎng)非結(jié)構(gòu)化數(shù)據(jù)管理
1.1電網(wǎng)非結(jié)構(gòu)化數(shù)據(jù)管理現(xiàn)狀
電網(wǎng)非結(jié)構(gòu)化數(shù)據(jù)的管理包括存儲、管理以及檢索。由于電力行業(yè)數(shù)據(jù)增長非??欤蟛糠制髽I(yè)是采用BLOB字段進(jìn)行存儲,這種方式訪問速度快、維護(hù)也比較簡單;但是隨著海量數(shù)據(jù)的增長,系統(tǒng)性能跟不上,數(shù)據(jù)共享也存在問題。因此,要實現(xiàn)電網(wǎng)非結(jié)構(gòu)化數(shù)據(jù)的管理,必須考慮海量數(shù)據(jù)的存儲方式、安全措施、備份辦法以及檢索機制。
1.2電網(wǎng)非結(jié)構(gòu)化數(shù)據(jù)管理
(1)提升業(yè)務(wù)運行效率,實現(xiàn)數(shù)字資產(chǎn)管理:將非結(jié)構(gòu)化數(shù)據(jù)文檔的標(biāo)準(zhǔn)化、規(guī)范化統(tǒng)一管理;
(2)降低開發(fā)成本,發(fā)揮整合效應(yīng):在物理存儲層面通過統(tǒng)一存儲使各業(yè)務(wù)系統(tǒng)不用單獨購買存儲設(shè)備,降低實施成本;
(3)體現(xiàn)深度價值,助力智能決策:不僅實現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)的管理,還可以實現(xiàn)對數(shù)據(jù)深度挖掘與分析;而統(tǒng)一存儲、統(tǒng)一管理是實現(xiàn)深度利用的前提[1-2]。
2管理需求分析
2.1業(yè)務(wù)需求概述
電網(wǎng)非結(jié)構(gòu)化數(shù)據(jù)管理平臺需要負(fù)責(zé)數(shù)據(jù)采集、存儲、綜合管理、發(fā)布、查閱等功能,具體描述如下:
(1)存儲統(tǒng)一需求:電力企業(yè)各部門擁有多個業(yè)務(wù)應(yīng)用系統(tǒng),不同的數(shù)據(jù)庫、不同的服務(wù)器,為提高利用率需要進(jìn)行統(tǒng)籌管理,整合存儲資源,優(yōu)化系統(tǒng)配置;
(2)集中管理需求:遵循全局訪問標(biāo)準(zhǔn),以統(tǒng)一的方式標(biāo)準(zhǔn)實現(xiàn)訪問與交互,提高集約化水平;
(3)數(shù)據(jù)分析需求:對基礎(chǔ)數(shù)據(jù)進(jìn)行再加工,分析數(shù)據(jù)之間的關(guān)聯(lián)性,提供檢索以及決策支持。
2.2關(guān)鍵業(yè)務(wù)流程
2.2.1存儲流程
用戶需要進(jìn)行非結(jié)構(gòu)化數(shù)據(jù)存儲時,首先要通過客戶端選擇需要處理的文件,封裝為“上傳請求”發(fā)送至數(shù)據(jù)服務(wù)層,接收到請求后根據(jù)服務(wù)器狀態(tài)判斷是否將參數(shù)信息轉(zhuǎn)發(fā)服務(wù)器代理;在負(fù)載均衡的基礎(chǔ)上,對文件進(jìn)行分片及分布處理之后形成決策結(jié)果發(fā)送至數(shù)據(jù)訪問層。數(shù)據(jù)訪問層結(jié)合自身需上傳文件與決策信息對文件進(jìn)行再次處理形成文件片;封裝后傳輸至數(shù)據(jù)存儲層,返回結(jié)果信息,完成存儲流程。
2.2.2[STBZ]讀取流程
主服務(wù)器根據(jù)數(shù)據(jù)訪問層下載的命令分析請求消息后,將各項參數(shù)傳遞給服務(wù)器代理,代理會通過分析元數(shù)據(jù)來對文件位置進(jìn)行定位;數(shù)據(jù)訪問層將其發(fā)給數(shù)據(jù)服務(wù)層,最終合并還原為完整的文件,完成讀取流程[3-4]。
2.3安全要求
(1)數(shù)據(jù)庫安全:采用目前通用的大型關(guān)系型數(shù)據(jù)庫,雙擊備份,出現(xiàn)異??勺詣忧袚Q;采用先進(jìn)的軟硬件技術(shù)、模塊化的程序結(jié)構(gòu),制定備份與恢復(fù)機制,提升容災(zāi)性;038469DC-DEA8-4810-A22F-9D82C38F3B98
(2)網(wǎng)絡(luò)安全:支持多種網(wǎng)絡(luò)協(xié)議、維持原有網(wǎng)絡(luò)架構(gòu)、基于網(wǎng)絡(luò)拓?fù)溥M(jìn)行系統(tǒng)功能模塊開發(fā),提高網(wǎng)絡(luò)安全防護(hù),采用權(quán)威認(rèn)證的安全產(chǎn)品;
(3)應(yīng)用安全:系統(tǒng)需具備高安全性,利用現(xiàn)有數(shù)據(jù)及組件支持多用戶訪問,具有異常事故處理能力,確保系統(tǒng)穩(wěn)定運行。
2.4[STBZ]性能要求
系統(tǒng)在使用性能方面,需要至少滿足300用戶并發(fā)訪問、確保存儲數(shù)據(jù)量每年120 TB、頁面響應(yīng)速度小于2 s、確保可7×24 h連續(xù)工作,出現(xiàn)故障恢復(fù)時間不超出1 h。
2.5設(shè)計原則
(1)實用性:架構(gòu)設(shè)計需充分考慮實用性,方便管理與掌握;
(2)標(biāo)準(zhǔn)化:提升系統(tǒng)擴展性,也為數(shù)據(jù)共享提供便利;
(3)可靠性:通過用戶認(rèn)證、權(quán)限管控、數(shù)據(jù)加密等多種方式確保系統(tǒng)安全、數(shù)據(jù)安全;
(4)可擴展:避免重復(fù)開發(fā),確保各個功能模塊的延展性,適應(yīng)發(fā)展規(guī)劃[5]。
3涉及的主要技術(shù)
3.1Hadoop存儲
本文設(shè)計的管理平臺利用Hadoop實現(xiàn)數(shù)據(jù)存儲,基于HDFS進(jìn)行搭建。Hadoop平臺有很多分布式的數(shù)據(jù)庫服務(wù)器采用集群方式進(jìn)行部署,Hadoop由HDFS、MapReduce、Hbase、Hive以及ZooKeeper構(gòu)成。
(1)HDFS:分布式文件存儲系統(tǒng),將文件隨機存儲在不同空間,可以大幅提高存儲空間的利用率,適合用于數(shù)據(jù)備份;
(2)MapReduce:分布式處理模型,可以建立快速檢索索引,解決并發(fā)計算問題;
(3)Hbase:基于HDFS開發(fā)的面向列的分布式數(shù)據(jù)庫,將水平表劃分為多個區(qū)域,用歸屬表、起始行以及結(jié)尾行進(jìn)行標(biāo)識;每個分區(qū)都是最小的數(shù)據(jù)存儲單元。
3.2Lucene檢索
Lucene是一項開源檢索技術(shù),通過嵌入系統(tǒng)中進(jìn)行全文檢索,支持通用的API擴展接口,小批量緩沖式讀取結(jié)果集,支持高負(fù)載模糊查詢;對加快搜索效率有極大幫助[6]。
3.3SolrCloud分布式搜索
SolrCloud是基于ZooKeeper和Solr的分布式搜索方案,也可以說是Solr基于ZooKeeper的部署方式,具有集中配置、自動容錯、近實時搜索、自動負(fù)載均衡、自動分發(fā)索引及索引分片的優(yōu)點;對電網(wǎng)系統(tǒng)主要大規(guī)模,需要容錯的分布式索引來說再合適不過。
4總體設(shè)計
4.1總體架構(gòu)
為適應(yīng)電網(wǎng)非結(jié)構(gòu)化數(shù)據(jù)日益增長的趨勢,并滿足兩級部署多級應(yīng)用,本文設(shè)計平臺總體結(jié)構(gòu)如圖1所示。
由圖1可以看出,系統(tǒng)總體架構(gòu)包括:分布式計算、智能分析引擎、應(yīng)用平臺3部分內(nèi)容。分布式計算主要包括CIFS、NFS、SCP等通用協(xié)議、數(shù)據(jù)適配及存儲監(jiān)控管理以及數(shù)據(jù)復(fù)制、數(shù)據(jù)備份等系統(tǒng)可用性部分;智能分析引擎主要包括實體提取、自動采集、分類、智能分析等;應(yīng)用平臺主要包括云存儲、云分析以及平臺運營管理。
4.2技術(shù)架構(gòu)
本平臺的技術(shù)結(jié)構(gòu)主要采用全虛擬文件服務(wù)器、支持各類標(biāo)準(zhǔn)協(xié)議、支持存儲控制、增長預(yù)測等功能,支持?jǐn)?shù)據(jù)分層存儲、自動去重以及數(shù)據(jù)備份。
(1)分布式計算:將繁雜、計算量大的問題細(xì)分,分散進(jìn)行運算,提高并行計算能力及速率,最終再進(jìn)行整合;
(2)分布式存儲:分布式存儲可以將分散存儲空間進(jìn)行整合,完成存儲服務(wù)。
4.3系統(tǒng)模塊
將電網(wǎng)非結(jié)構(gòu)化數(shù)據(jù)管理平臺劃分為存儲和檢索2個子模塊,存儲模塊實現(xiàn)數(shù)據(jù)采集、存儲、分析與備份。檢索模塊支持索引構(gòu)建、智能識別、數(shù)據(jù)搜索[7]。系統(tǒng)功能模塊組成,具體如圖2所示。
5系統(tǒng)詳細(xì)設(shè)計
5.1存儲分析模塊
5.1.1[STBZ]存儲對象
電網(wǎng)企業(yè)的非結(jié)構(gòu)化數(shù)據(jù)主要包括:網(wǎng)頁、圖片、視頻、文檔等,這些均可以作為元數(shù)據(jù)采用feature+xmlBlob模式存儲,將常用特征存儲在feature中,語義信息存儲在xmlBlob中。
(1)網(wǎng)頁:包括類別、內(nèi)容、標(biāo)題、關(guān)鍵詞等屬性;
(2)視頻:包括字母、所在網(wǎng)址、節(jié)目名稱、標(biāo)題、關(guān)鍵詞、上傳者、鏡頭信息等屬性;
(3)圖片:包括圖片的標(biāo)題、來源、相關(guān)描述等屬性。
5.1.2模塊功能
本文選用Hadoop作為數(shù)據(jù)存儲,建立數(shù)據(jù)節(jié)點,降低成本,并給數(shù)字資源提供通用接口,整合HDFS、Hbase、XmlDB等存儲設(shè)施。其中HDFS作為分布式計算的核心可以支持海量數(shù)據(jù)的快速讀寫。系統(tǒng)功能如圖3所示。
5.1.3[STBZ]功能結(jié)構(gòu)
(1)數(shù)據(jù)采集:采用開放上傳接口方式被動采集數(shù)據(jù),采用二進(jìn)制流進(jìn)行傳輸,支持壓縮打包、支持分類解碼存儲;
(2)數(shù)據(jù)存儲:文件備注上傳業(yè)務(wù)平臺標(biāo)識,生產(chǎn)文件信息數(shù)據(jù)存儲到Hbase中;
(3)數(shù)據(jù)分析:分析數(shù)據(jù)量、數(shù)據(jù)高峰周期,進(jìn)而適當(dāng)調(diào)整存儲策略。
5.2搜索讀取模塊
5.2.1技術(shù)方案
非結(jié)構(gòu)化數(shù)據(jù)的搜索與傳統(tǒng)搜索有很大區(qū)別,一般是對標(biāo)題、具體內(nèi)容或文字描述進(jìn)行檢索。SolrCloud是基于ZooKeeper及Solr搭建的開源分布式搜索引擎,具有很好的擴展性,通過配置就可以完成環(huán)境部署,是非結(jié)構(gòu)化數(shù)據(jù)檢索的最優(yōu)選擇。
5.2.1架構(gòu)設(shè)計
本文設(shè)計的搜索模塊通過統(tǒng)一接口進(jìn)行文件上傳,形成索引;借助SolrCloud引擎實現(xiàn)搜索功能,應(yīng)用架構(gòu)如圖4所示。
5.2.3功能結(jié)構(gòu)
(1)索引搭建:利用Solr索引機制,提供標(biāo)準(zhǔn)HTTP接口,使每天數(shù)據(jù)在管理平臺中生產(chǎn)目錄項,提高搜索效率;
(2)智能識別:利用Lucene、ICR等技術(shù)識別隱藏信息;
(3)數(shù)據(jù)搜索:提供對外接口,支持輸入關(guān)鍵字搜索。
6結(jié)語
本文采用Hadoop框架的分布式文件系統(tǒng)HDFS及Hbase實現(xiàn)數(shù)據(jù)存儲,SolrCloud實現(xiàn)數(shù)據(jù)搜索,實現(xiàn)了電網(wǎng)非結(jié)構(gòu)化數(shù)據(jù)的集中存儲與實時管理,為相關(guān)人員提供了高效便捷的智能化管理手段。但在檢索算法、安全產(chǎn)品選型、業(yè)務(wù)流程優(yōu)化等方面還需進(jìn)一步提高與改進(jìn),在結(jié)合日常運營情況提供智能分析解決方案方面還需進(jìn)一步探索研究。
【參考文獻(xiàn)】
[1]付婷,蔡宇翔,李宏發(fā),等.智能電網(wǎng)中非結(jié)構(gòu)化數(shù)據(jù)可視化技術(shù)研究[J].電網(wǎng)與清潔能源,2019(1):44-48.
[2]馮國平,古明生,吉小恒.電網(wǎng)非結(jié)構(gòu)化數(shù)據(jù)管理平臺研究與實現(xiàn)[J].南方能源建設(shè),2015(S1):222-225.
[3]張福錚,黃文琦,趙繼光,等.基于Hadoop的電網(wǎng)非結(jié)構(gòu)化數(shù)據(jù)智能分析云平臺[J].信息技術(shù)與信息化,2020(5):222-225.
[4]馮宇.非結(jié)構(gòu)化數(shù)據(jù)管理平臺研究與建設(shè)[J].電力信息化,2012(2):69-72.
[5]高明,陸宏治,梁雪青.電力系統(tǒng)非結(jié)構(gòu)化數(shù)據(jù)處理方法研究[J].現(xiàn)代信息科技,2019(17):9-11.
[6]崔立真,史玉良,劉磊,等.面向智能電網(wǎng)的電力大數(shù)據(jù)存儲與分析應(yīng)用[J].大數(shù)據(jù),2017(6):42-54.
[7]謝光.數(shù)據(jù)庫大數(shù)據(jù)量存儲結(jié)構(gòu)的探索[J].通訊世界,2017(11):29-30.038469DC-DEA8-4810-A22F-9D82C38F3B98