摘 要:城市照明監(jiān)控歷史運行數(shù)據(jù)往往蘊含著大量的潛在信息和知識,人們迫切需要對有價值的數(shù)據(jù)進行深度挖掘,并將獲得的成果應(yīng)用于運行狀況評估、異常預(yù)警和運營參數(shù)調(diào)優(yōu)中。基于城市照明監(jiān)控歷史運行數(shù)據(jù),提出了一種基于大數(shù)據(jù)分析技術(shù)的應(yīng)用方法,對海量運行數(shù)據(jù)進行聚類分析,以及對場景模式進行劃分得到判別決策樹,并對實時監(jiān)測過程中的動態(tài)數(shù)據(jù)進行離群點分析,從而判別當(dāng)前設(shè)備運行狀況。結(jié)合應(yīng)用實例對模型進行合理性驗證,證明了該方法的可行性。
關(guān)鍵詞:大數(shù)據(jù)分析;聚類分析;判別決策樹;離群點分析
中圖分類號:TP301
文獻標(biāo)識碼:A 文章編號文章編號:1672-7800(2015)005-0001-04
作者簡介:李今(1982-),男,上海人,碩士,上海五零盛同信息科技有限公司軟件部工程師,研究方向為軟件項目管理、軟件系統(tǒng)設(shè)計與開發(fā)。
0 引言
隨著社會的不斷進步和計算機技術(shù)的快速發(fā)展,信息系統(tǒng)在各領(lǐng)域快速拓展,系統(tǒng)采集、累積和處理的數(shù)據(jù)越來越多,信息增速也不斷加快,這也預(yù)示著大數(shù)據(jù)時代已經(jīng)到來。麥肯錫認(rèn)為,“大數(shù)據(jù)”指所涉及的數(shù)據(jù)集規(guī)模超過了傳統(tǒng)數(shù)據(jù)庫軟件獲取、存儲、管理和分析的能力[1]。
雖然現(xiàn)實世界產(chǎn)生的數(shù)據(jù)量不斷增長,但其中可理解的比例卻不斷下降,人們迫切需要對大數(shù)據(jù)進行分析,以了解海量數(shù)據(jù)背后的重要信息和知識,大數(shù)據(jù)分析技術(shù)應(yīng)運而生。大數(shù)據(jù)分析是基于IT技術(shù)、數(shù)據(jù)挖掘、統(tǒng)計分析等多門學(xué)科的成果應(yīng)用,通過從海量數(shù)據(jù)中分析出有效模式,獲取存在的關(guān)系和規(guī)則并對發(fā)展趨勢作出預(yù)測,這也是大數(shù)據(jù)生態(tài)環(huán)境中的最重要一環(huán)——使數(shù)據(jù)產(chǎn)生價值。
經(jīng)過城市照明管理行業(yè)20多年的快速發(fā)展,路燈遠(yuǎn)程自動化監(jiān)控技術(shù)有了很大提高。監(jiān)控系統(tǒng)每分鐘都會產(chǎn)生實時監(jiān)控數(shù)據(jù),運行至今的系統(tǒng)大都已經(jīng)存儲了龐大數(shù)據(jù),它們記錄了照明監(jiān)控設(shè)備的運行狀況。但是人們更關(guān)心它們背后隱含著的知識和信息,這些“數(shù)據(jù)”中的“數(shù)據(jù)”可用于運行狀況評估、異常預(yù)警和后續(xù)運營參數(shù)調(diào)優(yōu),對照明管理部門降本增效、不斷改善服務(wù)質(zhì)量具有積極指導(dǎo)意義。由此可見,大數(shù)據(jù)分析技術(shù)應(yīng)用于城市照明管理行業(yè)尤為迫切和必要。
1 大數(shù)據(jù)分析理論
大數(shù)據(jù)分析理論指從海量數(shù)據(jù)中分析和挖掘出知識的方法,本文主要采用聚類、分類等方法。
1.1 數(shù)據(jù)倉庫建立
進行大數(shù)據(jù)分析前必須收集待分析的數(shù)據(jù)資源,雖然數(shù)據(jù)挖掘可直接從操作數(shù)據(jù)源中挖掘信息,但建議從專用性和可靠性角度考慮,不采用原有的數(shù)據(jù)庫或數(shù)據(jù)結(jié)構(gòu),而是將待分析數(shù)據(jù)存入數(shù)據(jù)倉庫中。
數(shù)據(jù)倉庫是一個集成、相對靜態(tài)、面向主題的數(shù)據(jù)集合,通過建立數(shù)據(jù)倉庫,可將異種數(shù)據(jù)源中的數(shù)據(jù)通過集成,從而構(gòu)成語義上一致的數(shù)據(jù)存儲體系結(jié)構(gòu),它可按不同的主題劃分管理決策所需信息,為查詢、分析和決策打下基礎(chǔ)[2]。
1.2 特征提取
數(shù)據(jù)倉庫中的集合包含了大量特征,為了通過聚類分析發(fā)現(xiàn)潛在的運行模式,需要從序列數(shù)據(jù)中提取反映運行情況的重要特征向量。
這主要有兩方面的工作:一方面為了讓模型更容易理解,需要降低數(shù)據(jù)集的維度,刪除不相關(guān)的特征并降低噪聲,使大數(shù)據(jù)分析算法效果更好;另一方面通過創(chuàng)建新屬性,將一些舊屬性合并或創(chuàng)建新的屬性,這樣可更有效地捕獲數(shù)據(jù)集中的重要信息。
最常使用的特征集提取技術(shù)都是高度針對某一具體領(lǐng)域,一旦大數(shù)據(jù)分析用于其它領(lǐng)域,首要任務(wù)就是找到新的特征并進行特征提取。
1.3 數(shù)據(jù)預(yù)處理
由于待分析數(shù)據(jù)可能存在數(shù)值區(qū)間范圍較大、且不同時間段內(nèi)變化快的問題,因此在大數(shù)據(jù)分析之前必須使用轉(zhuǎn)換方法進行標(biāo)準(zhǔn)化處理。
數(shù)據(jù)標(biāo)準(zhǔn)化轉(zhuǎn)換也是大數(shù)據(jù)分析中常見的轉(zhuǎn)換措施之一,它通過將數(shù)據(jù)按照比例進行縮小,使之歸入一個較小區(qū)間范圍內(nèi),為數(shù)據(jù)分析建立相對平等的基礎(chǔ)。標(biāo)準(zhǔn)分?jǐn)?shù)(Z-score)是一種數(shù)據(jù)標(biāo)準(zhǔn)化的重要方法,能夠真實地反應(yīng)一個分?jǐn)?shù)距離平均數(shù)的相對標(biāo)準(zhǔn)距離,標(biāo)準(zhǔn)分?jǐn)?shù)可由式(1)求出:
Z=X-μσ(1)
其中,X為被標(biāo)準(zhǔn)化的數(shù)據(jù),μ為數(shù)據(jù)集的平均值,σ為數(shù)據(jù)集的標(biāo)準(zhǔn)差。Z值代表著原始數(shù)據(jù)和數(shù)據(jù)集平均值之間的距離,它能表明原始數(shù)據(jù)在數(shù)據(jù)類集中的位置,方便在不同分布的數(shù)據(jù)之間進行比較[3]。
1.4 聚類算法
聚類就是將數(shù)據(jù)對象分為多個類,類內(nèi)數(shù)據(jù)點具有較高的相似度而距離近,類間數(shù)據(jù)對象差別大而距離點遠(yuǎn)[4]。聚類技術(shù)可以將數(shù)據(jù)集劃分成不同的子集集合,它們在空間上都是一個稠密的區(qū)域,能方便實現(xiàn)對數(shù)據(jù)的分析。
K-Means是最為經(jīng)典的一種基于劃分的聚類算法,它采用數(shù)據(jù)點之間的距離作為評價度量指標(biāo),也即將距離比較相近的對象組成類,以得到緊湊而獨立的類作為最終目標(biāo)[5]。
K-Means算法的基本工作過程:首先隨機選擇k個數(shù)據(jù)作為初始質(zhì)心,將數(shù)據(jù)對象根據(jù)其與各個類的質(zhì)心距離進行劃分,之后重新計算各個類的質(zhì)心,循環(huán)執(zhí)行直到目標(biāo)函數(shù)最小為止[6]。
類的質(zhì)心為類內(nèi)所有點的算術(shù)平均值,對象到質(zhì)心的距離一般采用歐幾里得距離,可由式(2)求出:
1.5 分類算法
數(shù)據(jù)分類目的是通過構(gòu)建一個分類模型,將數(shù)據(jù)集中的所有項映射到給定類別中的某一項,用于歸納和描述重要數(shù)據(jù)的分類情況。判別決策樹是用于數(shù)據(jù)分類和預(yù)測未來的主要技術(shù),它基于從一類無規(guī)則的數(shù)據(jù)中推理出規(guī)律性模型的分類規(guī)則[8]。它采用自頂向下方法,在樹的節(jié)點進行屬性值的比較,并根據(jù)不同值判斷向下分支,最后在樹末端的葉節(jié)點得到結(jié)論。該算法主要基于信息論中的熵理論,把信息增益率作為節(jié)點分支屬性選擇的度量標(biāo)準(zhǔn),獲得最終的決策規(guī)則。
各屬性的信息增益率可由式(4)求出:
1.6 離群點檢測
離群點是數(shù)據(jù)集中與正常點有較大差異的那一類數(shù)據(jù)點,在數(shù)據(jù)點中找出異常點是離群點檢測的主要任務(wù)。離群點檢測在大數(shù)據(jù)分析中有重要應(yīng)用,它采用基于距離的異常點檢測算法,以歐式距離為衡量標(biāo)準(zhǔn),找到脫離給定數(shù)據(jù)集的異常數(shù)據(jù)。
離群點檢測算法:根據(jù)分類結(jié)果選擇該數(shù)據(jù)對象的質(zhì)心,計算該數(shù)據(jù)對象到質(zhì)心的歐氏距離,根據(jù)區(qū)間范圍判斷是否為離散點[7]。
2 大數(shù)據(jù)分析方法
2.1 城市照明管理相關(guān)數(shù)據(jù)
城市照明運行管理數(shù)據(jù)具有非常重要的參考價值,可通過對這些數(shù)據(jù)進行分析,挖掘其中有價值的信息,從而為故障報警、狀況預(yù)測和決策支持奠定基礎(chǔ)。
城市照明運行管理數(shù)據(jù)按邏輯分類,有動態(tài)監(jiān)控數(shù)據(jù)和靜態(tài)業(yè)務(wù)數(shù)據(jù),監(jiān)控數(shù)據(jù)分為照明實時數(shù)據(jù)和故障數(shù)據(jù),業(yè)務(wù)數(shù)據(jù)分為資產(chǎn)數(shù)據(jù)和管理數(shù)據(jù)。系統(tǒng)每隔20min遠(yuǎn)程采樣照明實時數(shù)據(jù)一次,故障數(shù)據(jù)由遠(yuǎn)程監(jiān)控終端主報。城市照明管理中產(chǎn)生的運行數(shù)據(jù)如表1所示。
2.2 運行狀況評估
本文對照明監(jiān)控設(shè)備運行狀況評估數(shù)據(jù)源是基于路燈監(jiān)控終端產(chǎn)生的照明實時數(shù)據(jù),并且以輸出有功功率作為主要研究對象,對有功功率負(fù)荷變化情況進行分析。
有功功率指一個周期內(nèi)發(fā)出或負(fù)載消耗的瞬時功率的積分的平均值,傳統(tǒng)判斷有功功率是否出現(xiàn)異常的監(jiān)測方法是在系統(tǒng)中設(shè)定一個閾值,根據(jù)超出上下限報警,這完全沒有考慮時間和環(huán)境特征等因素,導(dǎo)致閾值難以確定,也不能動態(tài)適應(yīng)變化。
本文采用大數(shù)據(jù)分析方法,通過識別存在的有功功率運行模式,建立模式判定樹,然后對實時采樣的數(shù)據(jù)進行比較,判斷是否存在異常情況。
2.2.1 數(shù)據(jù)特征提取及標(biāo)準(zhǔn)化
試驗數(shù)據(jù)采用某地010#城市照明監(jiān)控終端,該監(jiān)控終端裝于迎賓大道路燈控制柜中,主臺系統(tǒng)每隔20分鐘對該終端運行數(shù)據(jù)采樣一次,將90天產(chǎn)生的1 080條亮燈有效數(shù)據(jù)寫入數(shù)據(jù)倉庫。010#終端部分輸出有功功率數(shù)據(jù)如圖1所示。
為了通過聚類分析發(fā)現(xiàn)潛在的運行狀況判斷模式,從有功功率序列數(shù)據(jù)中提取出反映運行情況的特征向量:
由于有功功率數(shù)據(jù)值較大且不同時間段變化快,因而對于特征向量使用Z-score規(guī)范化處理,實現(xiàn)數(shù)據(jù)分布于一定區(qū)間范圍內(nèi),標(biāo)準(zhǔn)化結(jié)果如圖2所示。
2.2.2 K-means自然劃分K-means算法中必須選擇合適的K值,采用多次迭代的方式以同簇距離總長度來判斷K值的合理性。圖3是在不同K值下的類指標(biāo)圖,從圖中可以明顯看到,當(dāng)簇數(shù)目為3時,類指標(biāo)急劇下降,所以確定這次采用的K-means聚類算法的K值為3。
采用K值為3的K-means算法對該數(shù)據(jù)集進行聚類,完成如圖4所示的自然劃分結(jié)果。
完成聚類分析后,為方便分析有功功率運行模式判別條件,需要構(gòu)造4個新的屬性:質(zhì)心點X、質(zhì)心點Y、類簇標(biāo)識和前后半夜標(biāo)識。構(gòu)造新屬性之后的部分?jǐn)?shù)據(jù)如表2所示。
在共1 080組數(shù)據(jù)中,使用810組數(shù)據(jù)構(gòu)成訓(xùn)練集,對構(gòu)造了新屬性的數(shù)據(jù)集進行分類,得到判定決策樹如圖5所示。使用270組數(shù)據(jù)作為檢驗集,分類誤差小于2%,完全可以采納。
2.2.3 運行狀況評估應(yīng)用
為論證該方法的實際監(jiān)測和評估效果,選取010#終端2014年8月25日23點數(shù)據(jù)進行檢驗。該采樣數(shù)值為Apmean=33.18KW,Apmax=33.25KW,根據(jù)模式判別決策樹判斷該點的模式為Cluster2。
特征向量P(33.18,3.25)與Cluster2模式的歷史數(shù)據(jù)一起使用歐氏距離算法進行離群點分析,離群點結(jié)果分析結(jié)果如圖6所示。其中原數(shù)據(jù)簇中歐氏距離極大值為0.5191,而該數(shù)據(jù)點歐氏值為0.746 2,因此判定為離群點。城市照明監(jiān)控系統(tǒng)根據(jù)判斷結(jié)果立即報警,推測現(xiàn)場發(fā)生異常滅燈情況,值班人員安排維修人員至現(xiàn)場進行查驗和檢修。
3 結(jié)語
通過對城市照明監(jiān)控信息進行大數(shù)據(jù)分析表明,新方法能夠?qū)γ總€采樣點的有功功率數(shù)據(jù)進行分析,并能及時發(fā)現(xiàn)和報告異常狀況。在實際運用中,由于采用的大數(shù)據(jù)算法具有良好抗噪聲干擾能力,可以幫助管理人員及時有效了解系統(tǒng)運行情況,為采取有效的管理措施提供決策支持。該方法還具有通用性,能夠廣泛應(yīng)用于城市市政設(shè)施行業(yè)監(jiān)控系統(tǒng)的數(shù)據(jù)分析中。將研究成果用于高壓鈉燈運行壽命、光源全壽命成本、光亮成本費用和照明管理維護費用預(yù)測中,則有待進一步研究。
參考文獻參考文獻:
[1] 陳蕓蕓.大數(shù)據(jù):改變游戲規(guī)則的技術(shù)[J].物聯(lián)網(wǎng)技術(shù),2013(5):3-4.
[2] 于虹博,趙佳華,周洪玉.異構(gòu)數(shù)據(jù)庫集成技術(shù)應(yīng)用分析[J].科技研究,2014(2):143-143.
[3] 百度百科.標(biāo)準(zhǔn)分?jǐn)?shù)[EB/OL].http://baike.baidu.com/link?url =2DmnwhyCufUIjViMP3o4wsvDaV2o0En8Mpe1PCtOGjAx8t8-es d8yTPRBcgf9zbohDLNjgRhahzL_WVkS9o8Xa.
[4] 鄭丹,王潛平.K-means初始聚類中心的選擇算法[J].計算機應(yīng)用,2012(8):2186-2188.
[5] 崔丹丹.K-Means聚類算法的研究與改進[D].合肥:安徽大學(xué),2012.
[6] 楊柳 張俊芝.聚類算法分析及其性能比較[J].中國新技術(shù)新產(chǎn)品,2012(7):246-246.
[7] PANG-NING TAN,MICHAEL STEINBACH,VIPIN KUMAR.數(shù)據(jù)挖掘?qū)д揫M].范明,范宏建,譯.北京:人民郵電出版社,1101.
[8] 陳沛玲.決策樹分類算法優(yōu)化研究[D].長沙:中南大學(xué),2007.
責(zé)任編輯(責(zé)任編輯:孫 娟)
軟件導(dǎo)刊2015年5期