国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

電網(wǎng)行業(yè)元數(shù)據(jù)集成數(shù)據(jù)存儲策略研究

2021-01-28 03:35萬嬋魏理豪楊秋勇楊朝誼蘇華權(quán)
微型電腦應用 2021年1期
關鍵詞:中間件哈希數(shù)據(jù)管理

萬嬋, 魏理豪, 楊秋勇, 楊朝誼, 蘇華權(quán)

(廣東電網(wǎng)有限責任公司 信息中心, 廣東 廣州 510000)

0 引言

隨著電力行業(yè)以及智能電網(wǎng)技術(shù)的持續(xù)發(fā)展,電網(wǎng)行業(yè)中形成了大量的智能配用電數(shù)據(jù),此類數(shù)據(jù)包括不同的類型,并且涉及到了不同的用電主體,例如有企業(yè)、政府等,而各個主體的業(yè)務以及工作重心存在明顯的差異性,使得智能配用電數(shù)據(jù)表現(xiàn)出不同的特征。一是具有較高的數(shù)據(jù)維度,首先是電力企業(yè)的業(yè)務類型不一,并且眾多的業(yè)務之間具有較高的獨立性,但是無法保證各個系統(tǒng)數(shù)據(jù)采集時間的一致性,這是增大數(shù)據(jù)維度的重要因素;其次是不同主體在智能配用電數(shù)據(jù)的存儲與管理方面難以保持一致,顯著提高了數(shù)據(jù)維度[1-3];二是不同形式的智能配用電數(shù)據(jù)并存,從數(shù)據(jù)類型的角度來看,一般可以將智能配用電數(shù)據(jù)劃分為結(jié)構(gòu)化、非結(jié)構(gòu)化以及半結(jié)構(gòu)化類型,通常三者是共存的。其中結(jié)構(gòu)化數(shù)據(jù)主要指的是定義比較明確的數(shù)據(jù)類型,包括常見的數(shù)據(jù)庫表中的結(jié)構(gòu)化數(shù)據(jù)等,而這正是傳統(tǒng)的智能配電網(wǎng)業(yè)務相關的數(shù)據(jù)類型。在智能電網(wǎng)等新技術(shù)發(fā)展的過程中,智能配用電的基礎分析數(shù)據(jù)變得更加豐富,不再只是傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),而是集成了音頻、圖片以及視頻等類型的非結(jié)構(gòu)化數(shù)據(jù),在這種情況下逐步形成了三種數(shù)據(jù)類型共存的局面[4-9]。由此看出,智能配用電數(shù)據(jù)總體體現(xiàn)出數(shù)據(jù)規(guī)模大、更新頻率高等特點。如采用傳統(tǒng)的數(shù)據(jù)管理方式,已經(jīng)無法滿足智能配用電數(shù)據(jù)的管理要求。與此同時,存儲設備、處理器等硬件也處于高速發(fā)展的狀態(tài),此類技術(shù)的發(fā)展都為智能配用電數(shù)據(jù)的管理提供了支持。因此,應結(jié)合大數(shù)據(jù)處理技術(shù)等新技術(shù)來實現(xiàn)對智能配用電數(shù)據(jù)的妥善管理,從而為用戶提供更高質(zhì)量的數(shù)據(jù)服務。

1 配用電大數(shù)據(jù)多源集成

隨著數(shù)據(jù)處理技術(shù)的不斷發(fā)展,逐步出現(xiàn)了更先進的數(shù)據(jù)集成技術(shù),能夠?qū)Ω鞣N異構(gòu)數(shù)據(jù)源內(nèi)的數(shù)據(jù)進行統(tǒng)一管理,降低由于數(shù)據(jù)格式不同而產(chǎn)生的影響,從而提升數(shù)據(jù)的使用效率。由于配用電數(shù)據(jù)的類型較多,在這個過程中不可避免的存在異構(gòu)化問題,目前主要利用數(shù)據(jù)規(guī)范化以及生成標準化元數(shù)據(jù)的方式進行處理,其中前者主要是根據(jù)構(gòu)建的數(shù)據(jù)字典來規(guī)范數(shù)據(jù)的存儲格式;后者則是將各種類型的數(shù)據(jù)轉(zhuǎn)化為規(guī)范化的XML格式數(shù)據(jù)[10-11],在這個過程中首先要通過預處理技術(shù)解析非結(jié)構(gòu)化、半結(jié)構(gòu)化以及結(jié)構(gòu)化數(shù)據(jù)的內(nèi)容,由此形成標準的XML格式數(shù)據(jù),然后利用中間件技術(shù)來實現(xiàn)對標準格式數(shù)據(jù)的管理。

1.1 數(shù)據(jù)預處理

對于智能配用電數(shù)據(jù)的處理過程來說,首先應該進行預處理的過程,具體包括數(shù)據(jù)的篩選、歸一化等過程,由此可以將各種類型的元數(shù)據(jù)存儲為統(tǒng)一的XML 格式,并保存在集群節(jié)點中,從而為數(shù)據(jù)的查詢與應用奠定良好的基礎。其中數(shù)據(jù)的預處理過程,如圖1所示。

(1) 數(shù)據(jù)篩選

首先是進行數(shù)據(jù)篩選的過程,其實就是先采用一定的方式對現(xiàn)有的數(shù)據(jù)進行過濾,將無用或者干擾數(shù)據(jù)剔除,一般包括數(shù)據(jù)分類、屬性識別等過程。

(2) 數(shù)據(jù)變換

在數(shù)據(jù)篩選完成后,即需要進行數(shù)據(jù)變換的過程,數(shù)據(jù)變換有不同的方法,例如有平滑聚集、簡單函數(shù)變換等,在實際應用中應該根據(jù)具體要求選擇合適的方法,通過數(shù)據(jù)變換即可得到 XML 格式的元數(shù)據(jù)。

(3) 數(shù)據(jù)歸一化

在數(shù)據(jù)變換之后需要進行歸一化的過程,即采用規(guī)范化的XML格式表示數(shù)據(jù),目前數(shù)據(jù)歸一化的方法較多,常用的有離散化方法、維度歸一化方法等。對于本文研究的智能配用電數(shù)據(jù)來說,首先將原始數(shù)據(jù)轉(zhuǎn)化為標準的XML 格式數(shù)據(jù),然后按照合理的方式對電網(wǎng)數(shù)據(jù)進行命名,如果元數(shù)據(jù)屬于電網(wǎng)外部,則主要劃分為電力用戶、第三方機構(gòu)以及政府元數(shù)據(jù);而電網(wǎng)內(nèi)部的元數(shù)據(jù)主要是根據(jù)電壓等級進行劃分,具體包括0.4 kV、10 kV、35 kV、110 kV電壓等級元數(shù)據(jù)。在完成數(shù)據(jù)的預處理工作后會得到較為規(guī)范的XML 元數(shù)據(jù)集,便于對數(shù)據(jù)進行后續(xù)的處理。

1.2 中間件技術(shù)

中間件技術(shù)已經(jīng)廣泛應用于不同類型的系統(tǒng)設計中,能夠?qū)Σ煌募夹g(shù)提供統(tǒng)一的數(shù)據(jù)訪問接口,從而實現(xiàn)數(shù)據(jù)的共享與交換。隨著對中間件技術(shù)研究的增多,逐步出現(xiàn)了多種類型的中間件技術(shù),并獲得了較多的應用。在本次研究中主要使用了數(shù)據(jù)訪問中間件技術(shù),通過這種方式能夠有效地管理XML 元數(shù)據(jù)倉庫。其具體的流程,如圖2所示。

圖2 基于中間件的元數(shù)據(jù)管理

2 基于Hadoop的多源配用電大數(shù)據(jù)存儲優(yōu)化

2.1 數(shù)據(jù)分布問題

當前在電力數(shù)據(jù)管理方面大多采用了關系型數(shù)據(jù)庫實現(xiàn)數(shù)據(jù)的管理與存儲,這種方式能夠滿足大多數(shù)情況下的數(shù)據(jù)管理需求。但是隨著電力行業(yè)的持續(xù)發(fā)展,特別是智能電網(wǎng)以及微電網(wǎng)技術(shù)的出現(xiàn),電力數(shù)據(jù)呈現(xiàn)出更大規(guī)模、更高量級的特征,只是采用傳統(tǒng)的集中式關系型數(shù)據(jù)庫已經(jīng)無法滿足數(shù)據(jù)管理需求,并且還存在查詢速率慢、安全性低等問題。為了有效地解決這些不足問題,很多學者進行了研究,逐步形成了更先進的數(shù)據(jù)管理技術(shù)。其中基于Hadoop的分布式文件系統(tǒng)HDFS即為一種有效的解決方案,已經(jīng)廣泛應用到了海量數(shù)據(jù)的存儲中,在實際案例中的應用效果證明了其在大規(guī)模數(shù)據(jù)存儲與管理中的優(yōu)勢,未來具有廣闊的應用前景。

2.2 基于哈希分桶算法的數(shù)據(jù)存儲優(yōu)化方法

很多學者在分布式數(shù)據(jù)儲存領域進行了研究,并提出了不同的數(shù)據(jù)優(yōu)化算法,其中哈希存儲算法在數(shù)據(jù)存儲優(yōu)化方面得到了較多的應用。部分學者提出多副本一致,哈希算法在分布式數(shù)據(jù)存儲方面能夠達到一定的優(yōu)化效果,但是這種方式存在一定的不足,即忽略了數(shù)據(jù)自身的關系,無法直接應用到本文研究的配用電數(shù)據(jù)中。實際中的配用電數(shù)據(jù)具有較多的類型[12-15],例如有用電負荷數(shù)據(jù)、氣象數(shù)據(jù)以及地理數(shù)據(jù)等,此類數(shù)據(jù)一般不是獨立的,而是彼此關聯(lián)、互相影響。因此在數(shù)據(jù)存儲優(yōu)化中應該考慮到這種關聯(lián)性,即設計一種基于數(shù)據(jù)關聯(lián)性的哈希分桶存儲算法,如圖3所示。

圖3 基于哈希分桶算法的數(shù)據(jù)存儲

由圖3可知,在該存儲優(yōu)化方式中,體現(xiàn)出如下四個特點。

首先,采用分離存儲的方式對實際數(shù)據(jù)與元數(shù)據(jù)進行管理,其中實際的數(shù)據(jù)都統(tǒng)一存儲在Slave節(jié)點中,而元數(shù)據(jù)的管理則是利用Master節(jié)點實現(xiàn)的。分離存儲的方式能夠提升數(shù)據(jù)管理的邏輯性和規(guī)范性。同時對全部數(shù)據(jù)配置了三個副本,以保證數(shù)據(jù)管理的安全性與可靠性。在本次設計中考慮到不同類型業(yè)務的數(shù)據(jù)管理需求,分別采用了地理屬性、設備ID當作電網(wǎng)外部、內(nèi)部數(shù)據(jù)的關聯(lián)字段,保證了數(shù)據(jù)查詢的規(guī)范性。

其次是關聯(lián)數(shù)據(jù)的集中存儲過程,需要先將各個數(shù)據(jù)主副本統(tǒng)一存儲在不同的桶內(nèi),然后在同一個節(jié)點中存儲相同的數(shù)據(jù),最后建立與HDFS系統(tǒng)的映射,由此實現(xiàn)了數(shù)據(jù)的集中存儲。

第三,第2、3副本具有一定的特殊性,需要根據(jù)數(shù)據(jù)的傳輸效率等信息將其與對應的節(jié)點進行匹配。通常情況下,主副本與第3副本可以存在于相同的機架中,而第2副本存儲的機架需要區(qū)別于主副本。

第四,對于各個數(shù)據(jù)節(jié)點來說,則需要采用合理的方式進行劃分,例如劃分數(shù)據(jù)塊大小為256MB、64MB等,在這個過程中應該考慮到負載均衡以及存儲的有序性,從而保證數(shù)據(jù)存儲的規(guī)范性。

3 多源數(shù)據(jù)并行關聯(lián)查詢方法

當前在計算機計算領域中越來越多的使用了并行計算方法,其主要是把復雜的執(zhí)行任務劃分為多個不同的子任務,并將各個子任務分配到獨立的處理器中,使得整個計算過程可以同時執(zhí)行,采用這種方式能夠提高系統(tǒng)的處理性能,并滿足不斷增長的計算需求。在本文中基于之前提出的哈希分桶存儲優(yōu)化算法已經(jīng)實現(xiàn)了對多源配用電數(shù)據(jù)的存儲,然后需要采用一定的方法解決多源數(shù)據(jù)的查詢問題[16]。在本次研究中基于并行思想設計了一種基于MapReduce的查詢方法,這種方法將主要的查詢過程集中在Map(映射)階段實現(xiàn),避免在Reduce(約減)階段產(chǎn)生過多的操作;同時在本地節(jié)點根據(jù)之前定義的關聯(lián)字段完成查詢過程,能夠有效地提升查詢效率,減少對資源的占用。詳細的查詢流程如下。

(1) 首先對查詢的條件以及關聯(lián)字段(地理標識或者是設備ID)進行確定,在此基礎上可以得到MapReduce任務。

(2) 其次是形成節(jié)點中的數(shù)據(jù)文件,并通過預處理等過程得到符合標準的數(shù)據(jù),整個過程需要考慮到集群中數(shù)據(jù)的存儲特征。

(3) 然后獲取Map任務中符合查詢條件以及關聯(lián)字段的數(shù)據(jù),并將其劃分到相同的組中,按照相同的方式可以得到各個Map任務的結(jié)果,最后匯總所有Map任務的處理結(jié)果,并得到統(tǒng)一的關聯(lián)查詢結(jié)果。

4 實驗驗證

針對上述提出的方案,采用試驗的方式進行驗證,以驗證算法是否能夠達到預期的性能。首先需要確定查詢的條件以及關聯(lián)字段,這里二者分別是時間與區(qū)域編號,將用電負荷、設備ID 建立關聯(lián)后,根據(jù)確定的查詢條件和關聯(lián)字段對各個數(shù)據(jù)文件進行處理,由此可以得到含有氣象、用電負荷等信息的數(shù)據(jù)集。在實驗過程中設置不同大小的數(shù)據(jù)子集來測試對應的查詢時間,如表1所示。

表1 數(shù)據(jù)基本情況

為了驗證本算法的應用效果,在實驗中采用了其他的方法進行對比,如圖4所示。

圖4 不同存儲方式的查詢時間對比

由圖4可知,相對于傳統(tǒng)的Hadoop查詢方法以及集中式關系型數(shù)據(jù)庫查詢方法,本文提出的基于哈希分桶存儲分布優(yōu)化的多源數(shù)據(jù)關聯(lián)查詢方法具有一定的優(yōu)勢,具體表現(xiàn)在較高的查詢效率方面,能夠顯著降低查詢過程花費的時間,在實驗中根據(jù)測定的查詢時間發(fā)現(xiàn)其分別占據(jù)其他兩種方法查詢時間的39.6%、16.4%。經(jīng)過分析發(fā)現(xiàn),本算法主要采用了集中存儲關聯(lián)數(shù)據(jù)的方式,無需過多的在節(jié)點之間傳輸數(shù)據(jù),在本地節(jié)點即能夠完成大多數(shù)的處理過程,由此不僅提升了處理效率,同時降低了對資源的占用。另外在數(shù)據(jù)集規(guī)模持續(xù)增大的過程中,本文提出算法的查詢時間沒有出現(xiàn)較大的增長,始終保持較為穩(wěn)定的查詢效果,因此可以將其有效地應用到多源配用電數(shù)據(jù)的關聯(lián)查詢中。

5 總結(jié)

通過上述的研究看出,本文針對電力行業(yè)元數(shù)據(jù)的存儲問題,主要做了以下幾方面的工作:一是將數(shù)據(jù)全部轉(zhuǎn)換為XML格式數(shù)據(jù),以方便進行管理;其次引入希哈分桶算法對數(shù)據(jù)進行存儲,大大提高了存儲效率;三是引入MapReduce的查詢方案,提高了查詢效率。結(jié)果表明,本文構(gòu)建的方法可行,具有一定的借鑒。

猜你喜歡
中間件哈希數(shù)據(jù)管理
企業(yè)級BOM數(shù)據(jù)管理概要
定制化汽車制造的數(shù)據(jù)管理分析
基于特征選擇的局部敏感哈希位選擇算法
海洋環(huán)境數(shù)據(jù)管理優(yōu)化與實踐
哈希值處理 功能全面更易用
文件哈希值處理一條龍
CTCS-2級報文數(shù)據(jù)管理需求分析和實現(xiàn)
RFID中間件技術(shù)及其應用研究
基于Android 平臺的OSGi 架構(gòu)中間件的研究與應用
巧用哈希數(shù)值傳遞文件
凯里市| 交城县| 平原县| 陆川县| 峡江县| 五寨县| 松潘县| 伊春市| 府谷县| 北票市| 田林县| 顺平县| 凭祥市| 保定市| 株洲市| 盐亭县| 文化| 尚义县| 江山市| 梨树县| 邢台县| 司法| 九龙城区| 正蓝旗| 基隆市| 惠水县| 宝丰县| 寿阳县| 纳雍县| 济源市| 武川县| 罗甸县| 徐州市| 都匀市| 凌源市| 永仁县| 锡林浩特市| 舟曲县| 台东市| 佛教| 哈巴河县|