朱永利 李 莉 宋亞奇 王劉旺
(華北電力大學(xué)控制與計(jì)算機(jī)工程學(xué)院 保定 071003)
?
ODPS平臺下的電力設(shè)備監(jiān)測大數(shù)據(jù)存儲與并行處理方法
朱永利 李 莉 宋亞奇 王劉旺
(華北電力大學(xué)控制與計(jì)算機(jī)工程學(xué)院 保定 071003)
計(jì)算性能是制約電力大數(shù)據(jù)應(yīng)用(基于大數(shù)據(jù)的故障診斷、預(yù)測等)的關(guān)鍵問題。利用分布式存儲、并行計(jì)算加速此類數(shù)據(jù)密集型應(yīng)用是目前較有效的手段。嘗試?yán)冒⒗镌崎_放數(shù)據(jù)處理服務(wù)(ODPS)存儲并加速電力設(shè)備監(jiān)測大數(shù)據(jù)分析過程。以變壓器局部放電(PD)數(shù)據(jù)相位圖譜分析(PRPD)為例,提出了適合高采樣率、時(shí)序性強(qiáng)的局部放電信號數(shù)據(jù)存儲方法。采用ODPS擴(kuò)展MapReduce模型(MR2)設(shè)計(jì)了“Map-Reduce-Reduce”方式的PD信號宏觀特征提取方法,提出了并行化PRPD分析算法(ODPS-PRPD),實(shí)現(xiàn)了大量PD信號的并行基本參數(shù)提取、統(tǒng)計(jì)特征計(jì)算與放電類型識別。在實(shí)驗(yàn)室中構(gòu)造了4種放電模型并采集了大量PD信號,分別在ODPS平臺上和實(shí)驗(yàn)室自建的Hadoop平臺上進(jìn)行了性能評估和成本分析。實(shí)驗(yàn)分析和結(jié)果表明,ODPS-PRPD將大量的中間過程數(shù)據(jù)(PD譜圖數(shù)據(jù)等)一直保存在內(nèi)存中,相比自建Hadoop MapReduce平臺性能明顯提升,并在數(shù)據(jù)可靠性、服務(wù)可用性以及成本方面具有明顯優(yōu)勢。
電力大數(shù)據(jù) 公有云 開放數(shù)據(jù)處理服務(wù) 擴(kuò)展MapReduce模型 局部放電 局部放電相位圖譜分析
近年來,隨著信息化與電力系統(tǒng)深度融合以及物聯(lián)網(wǎng)技術(shù)的快速發(fā)展,智能化電力一次設(shè)備和常規(guī)電力設(shè)備的在線監(jiān)測都得到了較大發(fā)展并成為趨勢,監(jiān)測的廣度和深度在不斷加強(qiáng),監(jiān)測數(shù)據(jù)的體量日益龐大[1]。傳統(tǒng)監(jiān)測裝置和監(jiān)測系統(tǒng)大多對采集數(shù)據(jù)就地處理再將“熟數(shù)據(jù)”上傳到監(jiān)測中心。但從國際監(jiān)測領(lǐng)域的發(fā)展趨勢而言,采集數(shù)據(jù)的處理已開始從就地監(jiān)測裝置向遠(yuǎn)方監(jiān)控系統(tǒng)上移,如GE公司對于眾多汽輪發(fā)電機(jī)組的監(jiān)測,近期采用了監(jiān)測裝置的存儲與處理能力弱化、監(jiān)測中心的存儲與處理能力提升的方式,有利于上層應(yīng)用軟件的及時(shí)更新[2]。鑒于高速光纖數(shù)據(jù)網(wǎng)和無線傳輸已在電力行業(yè)廣泛普及,下一代電力設(shè)備遠(yuǎn)程監(jiān)測系統(tǒng)需要獲取和傳輸?shù)臄?shù)據(jù)主流應(yīng)當(dāng)是原始監(jiān)測數(shù)據(jù)。
大數(shù)據(jù)蘊(yùn)含大價(jià)值。大數(shù)據(jù)的存在引導(dǎo)人們研究“數(shù)據(jù)密集型”的應(yīng)用系統(tǒng)[3],與大數(shù)據(jù)交互,識別新模式,發(fā)現(xiàn)新規(guī)律?!皵?shù)據(jù)密集型”計(jì)算的性能直接與數(shù)據(jù)規(guī)模相關(guān),大數(shù)據(jù)計(jì)算面臨著前所未有的技術(shù)挑戰(zhàn)[4]。近年來,并行與分布式計(jì)算系統(tǒng)(多核計(jì)算、網(wǎng)格計(jì)算、云計(jì)算等)以及并行編程模型(MapReduce、MPI等)在加速數(shù)據(jù)密集型計(jì)算中扮演著重要角色,典型的技術(shù)包括Google MapReduce[5]、Hadoop[6]、Swift[7]、DataCutter[8]、DryadLINQ/Dryad[9,10]、并行數(shù)據(jù)庫(如Vertica、Teradata等)[11,12]、AWS Cloud[13]、阿里云開放數(shù)據(jù)處理服務(wù)(Open Data Processing Service,ODPS)[14]等,它們已經(jīng)在商業(yè)、金融、互聯(lián)網(wǎng)以及生物計(jì)算、工業(yè)監(jiān)測等許多領(lǐng)域承擔(dān)著數(shù)據(jù)密集型應(yīng)用的計(jì)算任務(wù)。
在電力行業(yè),Hadoop大數(shù)據(jù)處理技術(shù)憑借其高可靠性和優(yōu)越的并行數(shù)據(jù)處理能力越來越受到學(xué)術(shù)界和企業(yè)界的重視?;贖adoop的應(yīng)用研究廣泛而深入,包括狀態(tài)監(jiān)測大數(shù)據(jù)存儲[15-17]、電力用戶消費(fèi)數(shù)據(jù)分析[18]、信號去噪[19]、數(shù)據(jù)壓縮[20]、電能質(zhì)量數(shù)據(jù)快速分析[21]、狀態(tài)監(jiān)測數(shù)據(jù)聚類分析[22,23]、配電網(wǎng)數(shù)據(jù)分析[24]、基于云平臺的并行電磁計(jì)算[25]等。本文在前期的研究中,在實(shí)驗(yàn)室自建了Hadoop平臺,開展了輸變電設(shè)備狀態(tài)監(jiān)測數(shù)據(jù)存儲優(yōu)化、數(shù)據(jù)并行分析等方面的研究,遇到的主要問題和面臨的技術(shù)挑戰(zhàn)主要包括:
1)硬件限制:大多數(shù)學(xué)者的前期研究中,均采用了自建的Hadoop平臺,存儲和計(jì)算資源有限。
2)并行程序框架限制:Hadoop的MapReduce在每一輪操作之后,數(shù)據(jù)必須存儲到分布式文件系統(tǒng)上或者HBase,接下去的Map任務(wù)執(zhí)行了冗余的IO操作,導(dǎo)致性能下降。
3)受規(guī)模、維護(hù)方面的影響,數(shù)據(jù)可靠性、服務(wù)可用性降低。
4)前期需要購買大量硬件,成本較高。
總而言之,構(gòu)建“數(shù)據(jù)密集型”的電力大數(shù)據(jù)應(yīng)用系統(tǒng),需要協(xié)調(diào)很多計(jì)算和存儲資源,高效地接入和保存大范圍、多尺度的監(jiān)測數(shù)據(jù),并使系統(tǒng)長時(shí)間保持安全可靠的運(yùn)行狀態(tài),這對數(shù)據(jù)存儲與分析平臺提出了較高的性能要求,而自建Hadoop平臺不易滿足。
公有云計(jì)算平臺以按需租用的方式,將用戶從硬件采購、組網(wǎng)、平臺搭建、系統(tǒng)軟硬件維護(hù)中解脫出來,將存儲資源、計(jì)算資源以Web Service的方式封裝,并對外售賣,使用戶可以專心于構(gòu)建系統(tǒng)的業(yè)務(wù)邏輯。由于有龐大的研發(fā)和維護(hù)團(tuán)隊(duì),目前商業(yè)阿里云平臺在存儲容量、計(jì)算性能、可靠性、擴(kuò)展性、可維護(hù)性等諸多方面已遠(yuǎn)遠(yuǎn)超出許多學(xué)者或團(tuán)隊(duì)自建的云平臺。
本文嘗試?yán)冒⒗镌芆DPS存儲并加速電力大數(shù)據(jù)分析過程。利用ODPS的擴(kuò)展MapReduce模型(MR2)設(shè)計(jì)了“Map-Reduce-Reduce”模式的局部放電(Partial Discharge,PD)信號宏觀特征提取方法,實(shí)現(xiàn)了海量PD信號的并行統(tǒng)計(jì)特征計(jì)算與放電類型識別。實(shí)驗(yàn)結(jié)果表明,本文方法相比于Hadoop MapReduce在計(jì)算效率上明顯提升,并在數(shù)據(jù)可靠性、服務(wù)可用性以及成本方面具有明顯優(yōu)勢。
開放數(shù)據(jù)處理服務(wù)ODPS是阿里云提供的海量數(shù)據(jù)處理平臺。主要服務(wù)于批量結(jié)構(gòu)化數(shù)據(jù)的存儲和計(jì)算,數(shù)據(jù)規(guī)模達(dá)PB級別。ODPS目前已在大型互聯(lián)網(wǎng)企業(yè)的數(shù)據(jù)倉庫和BI(Business Intelligence)分析、網(wǎng)站的日志分析、電子商務(wù)網(wǎng)站的交易分析、用戶特征和興趣挖掘等領(lǐng)域得到大規(guī)模應(yīng)用。
ODPS相對于自建Hadoop平臺,優(yōu)勢主要體現(xiàn)在兩方面。首先,ODPS具有彈性伸縮的特性。每次計(jì)算任務(wù)使用的硬件資源隨處理的數(shù)據(jù)量不同自動伸縮,這使得并行任務(wù)的執(zhí)行性能非常平穩(wěn);其次,ODPS提供了擴(kuò)展MapReduce模型MR2,可以在Reduce后面直接執(zhí)行下一次的Reduce操作,而不需要中間插入一個(gè)Map操作??梢灾С諱ap后連接任意多個(gè)Reduce操作,比如Map-Reduce1-Reduce2-…Reducen,每一次Reduce的輸出,作為下一次Reduce的輸入,中間結(jié)果始終保持在內(nèi)存中,形成高效的處理鏈路。另外,ODPS還具備易擴(kuò)展、免維護(hù)、低成本等諸多優(yōu)勢,適合用于電力設(shè)備監(jiān)測大數(shù)據(jù)的存儲和處理。
ODPS的生態(tài)圈完整,包含數(shù)據(jù)上傳下載通道、SQL及MapReduce等多種計(jì)算分析服務(wù)接口,其功能組件如圖1所示。
圖1 ODPS框架和功能組件Fig.1 Framework and functional components of ODPS
2.1 PRPD分析及改進(jìn)
局部放電相位圖譜分析(Phase Resolved Partial Discharge,PRPD)將多個(gè)工頻周期內(nèi)監(jiān)測所得的局部放電參數(shù)(放電次數(shù)n、視在放電量q或放電幅值及放電所在相位φ)折算到一個(gè)工頻周期內(nèi),計(jì)算其統(tǒng)計(jì)規(guī)律性,獲取放電譜圖,統(tǒng)計(jì)放電特征,用于模式識別。
針對局部放電波形相位信息n-q-φ參數(shù)的提取,傳統(tǒng)方法多采用固定閾值(縱閾值)對信號幅值進(jìn)行判斷來確定是否存在放電,即鑒幅法。鑒幅法雖然簡單,但結(jié)果也很粗糙,易對振蕩的放電脈沖重復(fù)計(jì)數(shù),因此,本文對此提出一種改進(jìn)方法,在信號時(shí)間軸上增加另一種閾值(橫閾值)來度量放電間隔,避免重復(fù)計(jì)數(shù),另外,對上述兩種閾值提出采用最大類間方差[26]根據(jù)波形特征進(jìn)行自適應(yīng)計(jì)算,算法過程描述見表1。
表1 基于改進(jìn)鑒幅法的n-q-φ參數(shù)提取
局放監(jiān)測采樣速率高,數(shù)據(jù)量大,提取n-q-φ參數(shù)過程、計(jì)算譜圖過程以及模式識別過程計(jì)算復(fù)雜度高。傳統(tǒng)PRPD分析在單機(jī)環(huán)境下執(zhí)行,受存儲容量和處理能力限制,只能在采集到若干越限的放電信號數(shù)據(jù)后進(jìn)行就地分析,把分析結(jié)果再上傳監(jiān)測中心,監(jiān)測中心就無法收集并保存局部放電監(jiān)測原始數(shù)據(jù)。因此,本文試圖基于ODPS平臺建立電力設(shè)備監(jiān)測中心的數(shù)據(jù)存儲和分析平臺,解決局放監(jiān)測大數(shù)據(jù)存儲的問題。然而,監(jiān)測中心需要收集眾多的電力設(shè)備的監(jiān)測數(shù)據(jù)(包括放電信號),為此必須找出快速的數(shù)據(jù)并行分析方法。
2.2 基于ODPS的并行PRPD分析整體流程
為了應(yīng)對多監(jiān)測源和大數(shù)據(jù)量的挑戰(zhàn),本文設(shè)計(jì)實(shí)現(xiàn)了在ODPS平臺并行化的PRPD分析,其整體流程如圖2所示。
圖2 并行PRPD分析整體流程Fig.2 Process of parallel PRPD analysis
分析流程主要包括3個(gè)過程:①基本參數(shù)n-q-φ的提??;②譜圖構(gòu)造和統(tǒng)計(jì)特征計(jì)算[27];③放電類型識別。本文選擇K近鄰(K-Nearest Neighbor,KNN)方法[28]進(jìn)行放電類型識別。KNN算法的基本思想是:如果一個(gè)樣本在特征空間中的K個(gè)最相似的樣本中的大多數(shù)屬于某一個(gè)類別,則該樣本也屬于這個(gè)類別,算法原理如圖3所示。
圖3 KNN原理示意圖Fig.3 KNN algorithm for classifying objects
KNN方法主要依賴周圍特征相似的有限樣本,不需要事先學(xué)習(xí)建立模型,在新樣本增加時(shí)不需要對舊模型進(jìn)行新一輪的更新學(xué)習(xí),可有效避免模型再學(xué)習(xí)帶來的停機(jī)成本。KNN在實(shí)現(xiàn)上易于實(shí)現(xiàn)數(shù)據(jù)拆分和數(shù)據(jù)并行,非常適合采用MR2模型在ODPS上實(shí)現(xiàn)。分析過程的輸入來自O(shè)DPS表和資源,輸出結(jié)果存儲于ODPS表。
ODPS使用表存儲數(shù)據(jù)。PD信號采樣數(shù)據(jù)(二進(jìn)制dat文件)在上傳至ODPS前,需要轉(zhuǎn)換成文本文件格式(csv文件)。如果數(shù)據(jù)規(guī)模較大,可采用Hadoop MapReduce批量轉(zhuǎn)換,以提高轉(zhuǎn)換性能。
ODPS數(shù)據(jù)接入層對用戶云賬號進(jìn)行身份驗(yàn)證,請求處理器(Worker)將并行PRPD實(shí)例(Instance)提交給調(diào)度器(Scheduler),調(diào)度器把Instance分解成多個(gè)計(jì)算任務(wù)(Task),并生成Task工作流——DAG圖(Directed Acyclic Graph)。作業(yè)執(zhí)行管理器(Executor)獲取Task,生成分布式作業(yè)描述文件,并提交計(jì)算層完成計(jì)算任務(wù)。
2.3 存儲模式設(shè)計(jì)
ODPS以表(Table)為基本單元存儲數(shù)據(jù),這與Hadoop的文件系統(tǒng)(HDFS)以文件為單位存儲數(shù)據(jù)有較大的差別,表的模式不能直接套用HDFS文件的格式,需要重新設(shè)計(jì)存儲模式。
在Hadoop下以HDFS文件存儲PD數(shù)據(jù)時(shí),數(shù)據(jù)的格式不受限制,格式的解析也是自定義實(shí)現(xiàn),非常靈活。比如,在圖4a中,PD數(shù)據(jù)文件按行存儲采樣數(shù)據(jù),每行以設(shè)備的ID和采集時(shí)間作為主鍵,后面是一個(gè)工頻周期的采樣數(shù)據(jù)(本文中含80萬個(gè)采樣點(diǎn))。在使用MapReduce執(zhí)行分析任務(wù)時(shí),可以將一行數(shù)據(jù)作為Map函數(shù)的輸入,在Map內(nèi)完成統(tǒng)計(jì)分析。
圖4 數(shù)據(jù)存儲模式設(shè)計(jì)Fig.4 Design of storage scheme
然而,ODPS表的列數(shù)和表格單元的數(shù)據(jù)類型存在限制,列的數(shù)量不能超過1 024列,表格單元的數(shù)據(jù)類型目前僅支持5種數(shù)據(jù)類型(Bigint,Double,String,Boolean,Datetime)[14],因此無法在一行內(nèi)存儲80萬個(gè)采樣值。本文設(shè)計(jì)采用多行的方式存儲采樣數(shù)據(jù),并根據(jù)設(shè)備ID和采集日期設(shè)置分區(qū)列實(shí)現(xiàn)PD數(shù)據(jù)的存儲,如圖4b所示。分區(qū)列的作用是實(shí)現(xiàn)按列快速訪問,根據(jù)設(shè)備ID和采樣日期設(shè)計(jì)了2層分區(qū)。ODPS支持根據(jù)分區(qū)列,快速定位到該分區(qū)的數(shù)據(jù),因而可以有效提升訪問性能。
圖4b、圖4d、圖4f分別表示PD信號采樣數(shù)據(jù)、基本參數(shù)n-q-φ和放電譜圖的ODPS表模式。其中,基本參數(shù)n-q-φ的存儲以一個(gè)工頻周期為單位,存儲放電幅值和放電相位。不同工頻周期內(nèi),放電次數(shù)不同,因此需要將放電幅值和相位分多行存儲。放電譜圖數(shù)據(jù)在Hadoop MapReduce實(shí)現(xiàn)中,需要存儲到磁盤存儲,而ODPS-PRPD由于支持多個(gè)Reduce的串聯(lián),所以譜圖數(shù)據(jù)是在內(nèi)存中緩存的,提升了整體的執(zhí)行性能。在圖4f中,設(shè)計(jì)了5列的表記錄放電譜圖。SampleID表示用于完成一次特征計(jì)算的譜圖數(shù)據(jù)的編號(本文實(shí)驗(yàn)中,選用50條譜圖數(shù)據(jù)進(jìn)行一次宏觀特征統(tǒng)計(jì),被選中的譜圖數(shù)據(jù)將具有相同的SampleID),在計(jì)算特征的Map任務(wù)中,作為輸出時(shí)的key。
圖4g表示統(tǒng)計(jì)特征的存儲模式,包含正負(fù)半周期譜圖偏斜度Sk、陡峭度Ku、局部峰點(diǎn)數(shù)Pe、互相關(guān)系數(shù)Cc等。
2.4 ODPS-PRPD算法實(shí)現(xiàn)
2.4.1 MapReduce 任務(wù)鏈
基于ODPS擴(kuò)展MapReduce模型MR2,設(shè)計(jì)了并行PRPD分析算法ODPS-PRPD,實(shí)現(xiàn)了海量PD信號的并行基本參數(shù)提取、統(tǒng)計(jì)特征計(jì)算與放電類型識別。ODPS-PRPD各個(gè)子過程通過不同形式的MapReduce任務(wù)完成并串聯(lián),構(gòu)成分析任務(wù)整體,其MapReduce任務(wù)鏈如圖5所示。
圖5 ODPS-PRPD MapReduce任務(wù)鏈Fig.5 ODPS-PRPD MapReduce job chain in detail
2.4.2 格式轉(zhuǎn)換
格式轉(zhuǎn)換是為了將采樣數(shù)據(jù)上傳至ODPS表而做的數(shù)據(jù)預(yù)處理。格式轉(zhuǎn)換的任務(wù)是將二進(jìn)制的特定格式的采樣數(shù)據(jù)(dat文件)轉(zhuǎn)換成ODPS CLI tunnel能夠識別的文本格式。
2.4.3 統(tǒng)計(jì)參數(shù)n-q-φ提取
提取基本統(tǒng)計(jì)參數(shù)n-q-φ,需要對采樣數(shù)據(jù)全表進(jìn)行掃描,找到放電過程,并記錄放電相位和幅值??梢圆⑿袑Σ煌臄?shù)據(jù)分塊進(jìn)行掃描,各個(gè)掃描任務(wù)之間不需要交互,適合用MapReduce實(shí)現(xiàn)。
Mapper函數(shù)對逐條輸入的采樣數(shù)據(jù),根據(jù)預(yù)先設(shè)定的縱向閾值進(jìn)行數(shù)據(jù)篩選,并將大于閾值的采樣點(diǎn)輸出至Combiner。Combiner是本地(與Mapper在相同的節(jié)點(diǎn))執(zhí)行的匯總,對Mapper的輸出結(jié)果集合,尋找極值點(diǎn),并輸出至Reducer進(jìn)行匯總。Combiner有效地分擔(dān)了Reducer的數(shù)據(jù)匯總工作,并且減少了Reducer所在節(jié)點(diǎn)傳輸?shù)臄?shù)據(jù)量,可以有效提升并行計(jì)算過程的速度。
Reducer函數(shù)負(fù)責(zé)匯總由Combiner輸出的極值點(diǎn),并使用預(yù)先設(shè)定的橫向閾值進(jìn)行極值點(diǎn)的篩選。如果兩個(gè)極值點(diǎn)距離“很近”(相位差小于橫向閾值),則認(rèn)為是同一次放電。輸出的結(jié)果存儲于ODPS表。統(tǒng)計(jì)參數(shù)n-q-φ并行計(jì)算的過程如圖6所示。
圖6 統(tǒng)計(jì)參數(shù)n-q-φ并行提取Fig.6 Parallel extraction of statistical parameters n-q-φ
2.4.4 譜圖構(gòu)造和統(tǒng)計(jì)特征計(jì)算
該過程接收n-q-φ表的數(shù)據(jù)作為輸入,計(jì)算放電譜圖和統(tǒng)計(jì)特征。為了加快計(jì)算速度,設(shè)計(jì)了Map-Reduce1-Reduce2模式的計(jì)算過程,使譜圖數(shù)據(jù)作為中間結(jié)果緩存在ODPS分布式內(nèi)存中,而并非保存至ODPS表中,節(jié)約了磁盤讀取的開銷。Reduce1和Reduce2的連接使用了ODPS提供的Pipeline完成。
1)Mapper函數(shù)。
將360°的工頻周期均勻劃分相窗,對M個(gè)工頻周期的PD信號疊加,按正負(fù)半周期,分窗進(jìn)行統(tǒng)計(jì)分析,輸入輸出接口見表2。本文實(shí)驗(yàn)中,1個(gè)工頻周期含80萬個(gè)點(diǎn)(360°),相窗的數(shù)量取200,則每個(gè)窗的寬度為4 000個(gè)點(diǎn)(800 000/200=4 000);M取50,意味著統(tǒng)計(jì)1 s(5020 ms=1 s)的放電情況。M值越大,周期越長,統(tǒng)計(jì)意義就越明顯。
表2 譜圖計(jì)算的Mapper函數(shù)
Mapper輸出記錄的key采用了SampleID+WinID的組合方式,這使得用于同一次統(tǒng)計(jì)分析(相同SampleID)且相窗編號相同的記錄被發(fā)送至同一個(gè)Reducer1,避免了在Reducer1中區(qū)分不同的相窗,加快了Reducer1計(jì)算速度,并降低數(shù)據(jù)傾斜的概率(MapReduce job鏈中某一環(huán)節(jié)承擔(dān)了較重的計(jì)算任務(wù),成為性能瓶頸)。
2)Reducer1函數(shù)。
分正負(fù)半周期計(jì)算放電量相位分布譜圖qave-φ和放電次數(shù)相位分布譜圖n-φ,輸入輸出接口見表3。
表3 譜圖計(jì)算的Reducer1函數(shù)
如果取200個(gè)窗,M取50,則qave-φ是200列的表,每列代表1個(gè)窗,窗的編號可以取1,2,3,…,200。每列的值就是該窗內(nèi)的放電量。50條n-q-φ數(shù)據(jù),統(tǒng)計(jì)得到1條qave-φ數(shù)據(jù)。由于需要分別統(tǒng)計(jì)放電量峰值、放電總量和平均放電量,按照上述存儲結(jié)構(gòu),就需要多張表;而且列數(shù)太多(達(dá)到200列,則1行記錄較長),不利于數(shù)據(jù)并行,因此采用了圖4f的存儲方式,有利于數(shù)據(jù)處理的靈活性和并行性。n-φ的計(jì)算過程僅需將放電幅值改為放電次數(shù)即可。
3)Reducer2函數(shù)。
按照正負(fù)半周期,分別統(tǒng)計(jì)譜圖的偏斜度Sk、陡峭度Ku、局部峰點(diǎn)數(shù)Pe、互相關(guān)系數(shù)Cc等統(tǒng)計(jì)特征,輸出15維的放電特征向量,輸入輸出接口見表4。偏斜度反映了譜圖形狀相對于正態(tài)分布形狀的偏斜程度,定義為
(1)
式中,φi為相窗i的相位;μ為均值;σ為標(biāo)準(zhǔn)差。
表4 統(tǒng)計(jì)計(jì)算的Reducer2函數(shù)
陡峭度反映了譜圖形狀相對于正態(tài)分布形狀的突起程度,定義為
(2)
其他特征量的定義公式見文獻(xiàn)[27]。如果嚴(yán)格按照特征量的計(jì)算公式,則需要對譜圖數(shù)據(jù)進(jìn)行兩遍掃描。第1遍掃描,統(tǒng)計(jì)計(jì)算出放電量以及放電次數(shù)的均值、方差;第2遍掃描,計(jì)算Sk等統(tǒng)計(jì)特征。在程序?qū)崿F(xiàn)上,可以對計(jì)算過程進(jìn)行優(yōu)化,將統(tǒng)計(jì)特征的計(jì)算公式進(jìn)行展開化簡,使公式中的均值、方差展開為∑的形式,則可以通過一次掃描實(shí)現(xiàn)特征的計(jì)算。
2.4.5 放電類型識別
本文采用KNN算法進(jìn)行放電類型的識別。樣本用15維統(tǒng)計(jì)特征表示,樣本距離的度量采用歐氏距離。KNN算法需要計(jì)算未知樣本和訓(xùn)練集中已知類別樣本的距離。待識別數(shù)據(jù)集以O(shè)DPS表的形式分布式存儲于多個(gè)節(jié)點(diǎn),訓(xùn)練集以O(shè)DPSResource的形式常駐內(nèi)存。目前,ODPSResource的上限是512MB,如果訓(xùn)練集超出此范圍,可以采用“分而治之”的思想,把訓(xùn)練集垂直切分成多分臨時(shí)表,把切分后的每份數(shù)據(jù)作為Resource加載到內(nèi)存中,使用MapJoin的方式和測試集進(jìn)行連接計(jì)算,選出最鄰近的N個(gè)樣本,判別放電類型。
在實(shí)現(xiàn)上,需要分為2個(gè)MapReduce完成(兩個(gè)MapOnly作業(yè),均不需要Reduce過程),KNN并行化過程如圖7所示。
圖7 并行化KNN算法Fig.7 A parallel form of KNN
Mapper(KNN)函數(shù)首先循環(huán)加載訓(xùn)練集資源,計(jì)算測試樣本與訓(xùn)練樣本的距離,選出最近的N個(gè),輸出類別,輸入輸出接口見表5。
表5 KNN識別的Mapper函數(shù)
3.1 放電實(shí)驗(yàn)數(shù)據(jù)獲取和數(shù)據(jù)預(yù)處理
在實(shí)驗(yàn)室完成了電暈放電、懸浮放電、氣泡放電和油中放電實(shí)驗(yàn)。局部放電信號采集儀器采用TWPD-2F局部放電綜合分析儀,其最大采樣頻率為40 MHz,而信號采集傳感器的有效頻帶為40~300 kHz。
為驗(yàn)證ODPS-PRPD算法性能和算法執(zhí)行性能的穩(wěn)定性,選取了不同大小的數(shù)據(jù)集,見表6。其中,數(shù)據(jù)集1x表示1倍數(shù)據(jù),包含50個(gè)文件(50條局部放電數(shù)據(jù)),本文選用50條局部放電數(shù)據(jù)進(jìn)行一次統(tǒng)計(jì)特征的提取。
數(shù)據(jù)預(yù)處理包括本地存儲、格式轉(zhuǎn)換、清洗和數(shù)據(jù)上傳。采集的局部放電數(shù)據(jù)以二進(jìn)制文件(dat)存儲,每個(gè)文件含1個(gè)工頻周期(20 ms)的采樣數(shù)據(jù),大小為6251 kb,含4通道,每通道80萬個(gè)采樣值。上傳至ODPS之前,需要將二進(jìn)制文件轉(zhuǎn)換成文本格式(csv)文件。使用CLI Tunnel工具進(jìn)行數(shù)據(jù)上傳至ODPS表。使用自建Hadoop平臺完成格式轉(zhuǎn)換,性能如圖8所示。
表6 數(shù)據(jù)集
圖8 格式轉(zhuǎn)換性能Fig.8 Performance of format conversion
使用CLI Tunnel工具將csv格式數(shù)據(jù)上傳,上傳的性能與客戶端主機(jī)的網(wǎng)絡(luò)狀況直接相關(guān)。筆者使用教育科研網(wǎng),在學(xué)校實(shí)驗(yàn)室上傳數(shù)據(jù)至ODPS平臺,上傳速度如圖9所示。
CLI Tunnel默認(rèn)執(zhí)行壓縮上傳,不同數(shù)據(jù)規(guī)模的壓縮比如圖10所示。目前,ODPS使用的壓縮算法壓縮比根據(jù)數(shù)據(jù)類型的不同可達(dá)到2~5倍。本文中實(shí)驗(yàn)數(shù)據(jù),當(dāng)規(guī)模達(dá)到224 GB(csv文檔)時(shí)壓縮比為4.427。
圖9 數(shù)據(jù)上傳性能Fig.9 Performance of data upload
圖10 數(shù)據(jù)壓縮比Fig.10 Data compression ratio
3.2 實(shí)驗(yàn)平臺硬件、軟件配置
分別在單機(jī)環(huán)境下、實(shí)驗(yàn)室自建的Hadoop平臺下和ODPS平臺下完成PRPD分析,平臺軟硬件配置參數(shù)見表7。
ODPS數(shù)據(jù)處理能力隨著數(shù)據(jù)量變化彈性伸縮。用戶不能在執(zhí)行計(jì)算任務(wù)之前看到平臺硬件配置的詳單(多少個(gè)計(jì)算節(jié)點(diǎn)、多少個(gè)CPU參與、使用的內(nèi)存容量等)。但是在每次計(jì)算任務(wù)結(jié)束之后,通過監(jiān)控界面可以看到為本次計(jì)算任務(wù)分配的硬件資源列表詳單,見表8。用戶需要按照使用的存儲容量和計(jì)算量支付費(fèi)用。
3.3 計(jì)算性能對比分析
分別在單機(jī)環(huán)境下、實(shí)驗(yàn)室自建的Hadoop平臺下和ODPS平臺下完成PRPD分析(分別命名為S-PRPD、Hadoop-PRPD、ODPS-PRPD),測量算法執(zhí)行的時(shí)間、使用的硬件資源(CPU、內(nèi)存)、并行的粒度(map、reduce任務(wù)數(shù)),并進(jìn)行性能對比,結(jié)果見表9。運(yùn)行時(shí)間對比如圖11所示。本文的單機(jī)環(huán)境是指一個(gè)Data node,配置見表7。
表7 云平臺配置參數(shù)
表8 ODPS計(jì)算任務(wù)詳單示例
表9 運(yùn)行時(shí)間、硬件參數(shù)、并行粒度對比
圖11 PRPD運(yùn)行時(shí)間Fig.11 PRPD time cost
在圖11中,S-PRPD算法在單機(jī)環(huán)境下運(yùn)行,執(zhí)行時(shí)間隨數(shù)據(jù)量增加急劇增長。只完成了4x數(shù)據(jù)集的分析任務(wù)(更大數(shù)據(jù)量耗時(shí)太長)。
Hadoop-PRPD算法在自建Hadoop平臺下執(zhí)行。受存儲容量和計(jì)算性能影響,實(shí)驗(yàn)只完成了16x數(shù)據(jù)集的分析任務(wù),算法執(zhí)行時(shí)間緩慢增長。圖12為PRPD硬件資源消耗,圖13為PRPD并行粒度,圖12和圖13 的縱坐標(biāo)均采用以10為底的對數(shù)坐標(biāo)軸。由圖12和圖13可以看出,算法在處理4x數(shù)據(jù)集時(shí)CPU核心數(shù)(14)與map任務(wù)(19)(體現(xiàn)并行粒度)數(shù)接近,達(dá)到較好的匹配,系統(tǒng)硬件資源已經(jīng)全部使用;在執(zhí)行16x數(shù)據(jù)集分析時(shí),map任務(wù)數(shù)已達(dá)到79,已遠(yuǎn)遠(yuǎn)大于CPU核心數(shù)(14),大量的map任務(wù)是串行的,已經(jīng)超出了平臺的計(jì)算能力,無法勝任更大規(guī)模的計(jì)算任務(wù)。
圖12 PRPD硬件資源消耗Fig.12 Hardware resources consumption of PRPD
圖13 PRPD并行粒度Fig.13 Parallel granularity of PRPD
ODPS-PRPD算法運(yùn)行在ODPS平臺下,完成了256x數(shù)據(jù)集的分析(還可以更大,可支持PB級數(shù)據(jù)),運(yùn)行時(shí)間平穩(wěn),在數(shù)據(jù)規(guī)模成倍增長情況下,整體運(yùn)行時(shí)間增長很少或不增長,甚至,在分析8x數(shù)據(jù)集時(shí)出現(xiàn)負(fù)增長。主要?dú)w因于ODPS硬件的彈性伸縮,如圖11所示。
從圖12可以看出,隨著數(shù)據(jù)規(guī)模的增長,ODPS-PRPD使用的硬件資源總體呈現(xiàn)線性增長的趨勢。數(shù)據(jù)規(guī)模越大,為其分配的硬件資源越多,但也不是嚴(yán)格的線性關(guān)系。ODPS為并行任務(wù)分配的硬件資源有一個(gè)復(fù)雜的算法實(shí)現(xiàn),目前阿里云尚未公開,使用者暫不能控制資源的分配。雖然底層細(xì)節(jié)對用戶透明,但是這種彈性伸縮的性質(zhì)還是能夠強(qiáng)有力的為大數(shù)據(jù)分析助力。在表9中,當(dāng)數(shù)據(jù)規(guī)模達(dá)到51 GB(256x)時(shí),使用的CPU核心數(shù)達(dá)到了1 093,內(nèi)存達(dá)到了1 639 GB,才能保證任務(wù)在185 s內(nèi)完成,這種硬件條件是目前大多數(shù)自建數(shù)據(jù)處理平臺難以達(dá)到的。
對表9的1x和2x數(shù)據(jù)集的PRPD進(jìn)行分析可知,ODPS-PRPD算法消耗的硬件資源少于自建Hadoop平臺,但仍獲得了更優(yōu)的性能,主要原因之一是ODPS-PRPD在統(tǒng)計(jì)特征提取子過程中使用了改進(jìn)的MR2模型,在計(jì)算譜圖和統(tǒng)計(jì)特征中,大量的中間數(shù)據(jù)一直保留在內(nèi)存中,省去了讀寫磁盤的時(shí)間開銷,統(tǒng)計(jì)特征子過程的運(yùn)行時(shí)間對比如圖14所示。
圖14 統(tǒng)計(jì)特征提取子過程運(yùn)行時(shí)間Fig.14 Run time of statistical feature extraction sub-process
另外,ODPS也對MapReduce任務(wù)進(jìn)行了系統(tǒng)級的優(yōu)化,使ODPS-PRPD性能優(yōu)于Hadoop-PRPD。當(dāng)數(shù)據(jù)規(guī)模大于2x數(shù)據(jù)集時(shí),ODPS-PRPD運(yùn)行時(shí)間遠(yuǎn)低于Hadoop-PRPD,主要原因是使用硬件資源的增長。
圖15對比了ODPS-PRPD各分析階段的運(yùn)行時(shí)間??梢钥闯?,在整個(gè)分析過程中,第1個(gè)階段統(tǒng)計(jì)參數(shù)n-q-φ提取過程占用的時(shí)間比例最高,平均占比達(dá)到70%。主要原因是第一階段處理的數(shù)據(jù)最多,之后計(jì)算出的統(tǒng)計(jì)數(shù)據(jù)規(guī)模較小,所以后續(xù)的分析過程執(zhí)行時(shí)間較短。
圖15 ODPS-PRPD子過程運(yùn)行時(shí)間Fig.15 Run time of ODPS-PRPD sub-process
綜上,相對于大多自建Hadoop集群,ODPS的高性能主要?dú)w因于以下3個(gè)方面:①硬件資源。在執(zhí)行任務(wù)時(shí),ODPS可以根據(jù)待處理的數(shù)據(jù)規(guī)模彈性調(diào)整硬件資源分配。②并行度。由于硬件資源(CPU、內(nèi)存)的彈性擴(kuò)展,使得在處理大數(shù)據(jù)集時(shí),并行任務(wù)數(shù)(Map數(shù))也可以有效增長。③并行編程模型。優(yōu)化的MR2模型使得Reduce的中間結(jié)果始終保持在內(nèi)存,節(jié)約了大量的通信和磁盤I/O開銷。
3.4 成本分析
ODPS采用租用的方式,無需自行購買硬件設(shè)備和軟件,相對自建Hadoop或者其他大數(shù)據(jù)分析平臺,前期投入成本極低。
ODPS以項(xiàng)目(Project)為單位,對存儲、計(jì)算和數(shù)據(jù)下載三個(gè)方面分別計(jì)費(fèi)。數(shù)據(jù)上傳目前暫不收取費(fèi)用。存儲價(jià)格目前是0.0008元/GB/h,計(jì)算費(fèi)用是0.3元/GB。計(jì)算費(fèi)用中,目前僅開放了SQL的計(jì)費(fèi),執(zhí)行MapReduce暫時(shí)是免費(fèi)。因此,本文實(shí)驗(yàn)實(shí)際產(chǎn)生的費(fèi)用只有存儲費(fèi)用,合計(jì)6.96元(48 h)。
考慮到未來即將開通MapReduce收費(fèi),本文按照SQL的標(biāo)注計(jì)算費(fèi)用。實(shí)驗(yàn)周期按2天(48 h)計(jì)算,執(zhí)行1次ODPS-PRPD產(chǎn)生的費(fèi)用如圖16所示。
圖16 ODPS-PRPD費(fèi)用分析Fig.16 Costs of ODPS-PRPD
從圖16可以看出,存儲費(fèi)用隨時(shí)間呈線性增長。計(jì)算費(fèi)用增長速度高于線性增長。
利用現(xiàn)有大數(shù)據(jù)存儲和并行處理技術(shù),加速數(shù)據(jù)密集型應(yīng)用計(jì)算速度,助力電力大數(shù)據(jù)價(jià)值釋放,是電力大數(shù)據(jù)應(yīng)用研究的主要目標(biāo)之一。
本文基于阿里云大數(shù)據(jù)計(jì)算服務(wù)ODPS設(shè)計(jì)實(shí)現(xiàn)了海量變壓器局部放電數(shù)據(jù)的存儲方法,提出了基于ODPS擴(kuò)展MapReduce模型MR2的并行化PRPD分析方法ODPS-PRPD,實(shí)現(xiàn)了海量 PD 信號的并行基本參數(shù)提取、統(tǒng)計(jì)特征計(jì)算與放電類型識別。
ODPS-PRPD利用pipeline將Map和多個(gè)Reduce過程連接起來,使大量的中間過程數(shù)據(jù)保持在內(nèi)存中,相比Hadoop-PRPD節(jié)省了大量的磁盤訪問開銷,性能明顯提升。
與自建Hadoop平臺相比,ODPS的優(yōu)勢主要體現(xiàn)在:①彈性伸縮。參與計(jì)算任務(wù)的硬件資源隨數(shù)據(jù)規(guī)模的增長自動增長,使計(jì)算任務(wù)的執(zhí)行時(shí)間保持非常平穩(wěn)的趨勢。②存儲容量可達(dá)PB級,計(jì)算能力彈性伸縮,在對51 GB的PD數(shù)據(jù)執(zhí)行PRPD分析時(shí),參與的CPU核心多達(dá)1 093個(gè),內(nèi)存多達(dá)1 639 GB,這是自建平臺很難企及的。③成本優(yōu)勢。完成本文實(shí)驗(yàn)使用了上千顆CPU核心和上千GB的內(nèi)存以及大量的磁盤存儲,租金僅6.96元,即使考慮暫時(shí)未開通的MapReduce計(jì)算費(fèi)用,價(jià)格也非常低廉。
考慮到數(shù)據(jù)的安全性,可以將ODPS系統(tǒng)部署在電力專有云平臺上,以保證數(shù)據(jù)的隔離。
[1] 宋亞奇,周國亮,朱永利.智能電網(wǎng)大數(shù)據(jù)處理技術(shù)現(xiàn)狀與挑戰(zhàn)[J].電網(wǎng)技術(shù),2013,37(4):927-935. Song Yaqi,Zhou Guoliang,Zhu Yongli.Present status and challenges of big data processing in smart grid[J].Power System Technology,2013,37(4):927-935.
[2] Williams J W,Aggour K S,Interrante J,et al.Bridging high velocity and high volume industrial big data through distributed in-memory storage & analytics[C]//IEEE International Conference on Big Data(Big Data),Washington,DC,USA,2014:932-41.
[3] Han Liangxiu,Ong H Y.Parallel data intensive applications using MapReduce:a data mining case study in biomedical sciences[J].Cluster Comput,2015,18(1):403-418.
[4] Agrawal D,Bernstein P,Bertino E,et al.Challenges and opportunities with big data[J].Proceedings of the VLDB Endowment,2012,5(12):2032-2033.
[5] Rob P,Sean D,Robert G,et al.Interpreting the data:parallel analysis with Sawzal[J].Scientific Programming,2005,13(4):277-298.
[6] Tom White.Hadoop權(quán)威指南[M].2版.曾大聃,周傲英,譯.北京:清華大學(xué)出版社,2011:260-262.
[7] Zhao Yong,Hategan M,Clifford B,et al.Swift:fast,reliable,loosely coupled parallel computation[C]//2007 IEEE Congress on Services,Salt Lake City,UT,USA,2007:199-206.
[8] Beynon M D,Kurc T,Catalyurek U,et al.Distributed processing of very large datasets with DataCutter[J].Parallel Computing,2001,27(11):1457-1478.
[9] LINQ:The LINQ project[EB/OL].2014-04-19.http://msdn.microsoft.com/netframework/future/linq/.
[10]Microsoft Research.Dryad[EB/OL].2013-12-23.http://research.microsoft.com/en-us/projects/Dryad/.
[11]Teradata.Teradata homepage[EB/OL].2013-12-23.http: //www.teradata.com/.
[12]Vertica.Vertica homepage[EB/OL].2013-12-23.http: //www.vertica.com/.
[13]Amazon.Amazon homepage[EB/OL].http://aws.amazon.com/cn/.
[14]Aliyun.大數(shù)據(jù)計(jì)算服務(wù)ODPS[EB/OL].http://www.aliyun.com/.
[15]宋亞奇,周國亮,朱永利,等.云平臺下輸變電設(shè)備狀態(tài)監(jiān)測大數(shù)據(jù)存儲優(yōu)化與并行處理[J].中國電機(jī)工程學(xué)報(bào),2015,35(2):255-267. Song Yaqi,Zhou Guoliang,Zhu Yongli,et al.Storage optimization and parallel processing of condition monitoring big data of transmission and transforming equipment based on cloud platform[J].Proceedings of the CSEE,2015,35(2):255-267.
[16]Ma Yan,Guo Zhihong,Chen Yufeng,et al.Multi-sourced data storage and index construction for equipment condition assessment[C]//The 6th International Conference on Computational Intelligence and Communi-cation Networks,2014:681-685.
[17]葛磊蛟,王守相,王堯,等.多源異構(gòu)的智能配用電數(shù)據(jù)存儲處理技術(shù)[J].電工技術(shù)學(xué)報(bào),2015,30(增刊2):159-168. Ge Leijiao,Wang Shouxiang,Wang Yao,et al.Storage and processing technology of the multi-source isomerized data for smart power distribution and utilization[J].Transactions of China Electrotechnical Society,2015,30(S2):159-168.
[18]Kawasoe S,Igarashi Y,Shibayama K,et al.Examples of distributed information platforms constructed by power utilities in Japan[C]//44th International Conference on Large High Voltage Electric Systems,Paris,F(xiàn)rance,2012:108-113.
[19]宋亞奇,周國亮,朱永利,等.云平臺下并行總體經(jīng)驗(yàn)?zāi)B(tài)分解局部放電信號去噪方法研究[J].電工技術(shù)學(xué)報(bào),2015,30(18):213-222. Song Yaqi,Zhou Guoliang,Zhu Yongli,et al.Research on parallel ensemble empirical mode decomposition denoising method for partial discharge signals[J].Transactions of China Electrotechnical Society,2015,30(18):213-222.
[20]屈志堅(jiān),郭亮,劉明光,等.智能配電網(wǎng)量測信息變斷面柔性壓縮新算法[J].中國電機(jī)工程學(xué)報(bào),2013,33(19):191-199. Qu Zhijian,Guo Liang,Liu Mingguang,et al.New variable section flexible compression algorithm for measurement information in intelligent distribution network[J].Proceedings of the CSEE,2013,33(19):191-199.
[21]曲廣龍,楊洪耕,張逸.采用Map-Reduce模型的海量電能質(zhì)量數(shù)據(jù)交換格式文件快速解析方案[J].電網(wǎng)技術(shù),2014,38(6):1705-1711. Qu Guanglong,Yang Honggeng,Zhang Yi.A fast parallel parsing scheme for massive PQDIF files with map-reduce model[J].Power System Technology,2014,38(6):1705-1711.
[22]周國亮,朱永利,王桂蘭,等.實(shí)時(shí)大數(shù)據(jù)處理技術(shù)在狀態(tài)監(jiān)測領(lǐng)域中的應(yīng)用[J].電工技術(shù)學(xué)報(bào),2014,29(增刊1):432-437. Zhou Guoliang,Zhu Yongli,Wang Guilan,et al.Real-time big data processing technology application in the field of state monitoring[J].Transactions of China Electrotechnical Society,2014,29(S1):432-437.
[23]張少敏,趙碩,王保義.基于云計(jì)算和量子粒子群算法的電力負(fù)荷曲線聚類算法研究[J].電力系統(tǒng)保護(hù)與控制,2014,42(21):93-98. Zhang Shaomin,Zhao Shuo,Wang Baoyi.Research of power load curve clustering algorithm based on cloud computing and quantum particle swarm optimization[J].Power System Protection & Control,2014,42(21):93-98.
[24]劉巍,黃曌,李鵬,等.面向智能配電網(wǎng)的大數(shù)據(jù)統(tǒng)一支撐平臺體系與構(gòu)架[J].電工技術(shù)學(xué)報(bào),2014,29(增刊1):486-491. Liu Wei,Huang Zhao,Li Peng,et al.Summary about system and framework of unified supporting platform of big data for smart distribution grid[J].Transactions of China Electro technical Society,2014,29(S1):486-491.
[25]金亮,邱運(yùn)濤,楊慶新,等.基于云計(jì)算的電磁問題并行計(jì)算方法[J].電工技術(shù)學(xué)報(bào),2016,31(22):5-11. Jin Liang,Qiu Yuntao,Yang Qingxin.A parallel computing method to electromagnetic problems based on cloud computing[J].Transactions of China Electro-technical Society,2016,31(22):5-11.
[26]Nobuyuki O.A threshold selection method from gray-level histograms[J].IEEE Transactions on Systems,Man and Cybernetics,1979,9(1):62-66.
[27]Chang Wen-Yeau.Partial discharge pattern recognition of cast resin current transformers using radial basis function neural network[J].Journal of Electrical Engineering & Technology,2014,9(1):293-300.
[28]Cover T,Hart P.Nearest neighbor pattern classification[J].IEEE Transcations on Information Theory,1967,30(1):21-27.
(編輯 張玉榮)
Storage and Parallel Processing of Big Data of Power Equipment Condition Monitoring on ODPS Platform
ZhuYongliLiLiSongYaqiWangLiuwang
(School of Control and Computer Engineering North China Electric Power University Baoding 071003 China)
Computing performance is one of the key issues existing in the applications of big power data,such as fault diagnosis and prediction.Distributed storage and parallel computing are currently as the effective measures to accelerate the data-intensive applications.This paper describes an open distributed processing service(ODPS)from Ali Cloud,is used to store and accelerate the analytic process of monitoring big data about electrical equipment.Taking the phase resolved partial discharge(PRPD)processing of a partial discharge(PD)signal as example,a method for storing the signal with high sampling rate and time series data,and extracting the feature of the signal through the extended MapReduce model(MR2)of ODPS is proposed in this paper.The paralleled PRPD procedure(ODPS-PRPD)implements amounts of PD signals parallel basic parameters calculation and discharge type recognition,statistics features.To verify the effectiveness of the proposed method,a large number of partial discharge signals of four types from laboratory tests are respectively analyzed on ODPS and Hadoop.Because ODPS-PRPD stores the large amounts of middle data in the primary memory,its computing procedure is much faster.The results show that ODPS-PRPD has obviously better performance in data reliabltity,service anailabilty and cost than that of Hadoop.
Big power data,public cloud,open distributed processing service(ODPS),extended MapReduce model(MR2),partial discharge,phase resolved partial discharge
國家自然科學(xué)基金項(xiàng)目(51677072)、河北省自然科學(xué)基金項(xiàng)目(F2014502069)和中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金(2016MS116,2016MS117)資助。
2016-04-18 改稿日期2016-08-02
TM764
朱永利 男,1963年生,教授,博士生導(dǎo)師,研究方向?yàn)榫W(wǎng)絡(luò)化監(jiān)控與智能信息處理。
E-mail:yonglipw@163.com(通信作者)
李 莉 女,1980年生,博士研究生,研究方向?yàn)楝F(xiàn)代信號處理方法在電力系統(tǒng)故障診斷等方面的應(yīng)用。
E-mail:haolily12@163.com