戴寧芳 譚洪衛(wèi),3
1 同濟大學綠色建筑及新能源研究中心
2 同濟大學機械與能源工程學院
3 聯(lián)合國環(huán)境規(guī)劃署-同濟大學環(huán)境與可持續(xù)發(fā)展學院
中國是世界第一大能源消費國[1],建筑能耗占社會總能耗的比重超過了20%[2-3],其中,公共建筑以不到居住建筑50%的面積占了建筑總能耗的38%[4]。因此,公共建筑節(jié)能潛力巨大。自2007 年來,中國政府制定和頒布了一系列政策法規(guī)和相應技術導則,開展國家機關辦公建筑和大型公共建筑能耗監(jiān)測平臺,至今積累了許多分項,分類乃至設備層級的能耗數(shù)據(jù)。
雖然投入了大量人力和財力,但由于數(shù)據(jù)在傳輸環(huán)節(jié)容易受到設備失效、通信中斷等因素的影響,再加上用能規(guī)律也可能發(fā)生異常狀況,導致目前平臺積累的數(shù)據(jù)質量普遍不高。為了獲取高質量的數(shù)據(jù),通常需要對能耗數(shù)據(jù)進行異常識別。現(xiàn)有的異常數(shù)據(jù)檢測方法主要分為三種:基于統(tǒng)計的方法、基于距離的方法、基于密度的方法。
1)基于統(tǒng)計
如果目標數(shù)據(jù)集服從一定的分布(例如Gaussian分布),利用目標數(shù)據(jù)集可以估計出分布模型的參數(shù),通過確定可信區(qū)間就實現(xiàn)了異常數(shù)據(jù)檢測。Chen and Wu[5]利用GMM(Gaussian Mixture Model)分離出地球化學元素調查數(shù)據(jù)中的異常值。Brown 等[6]定義異?;顒訛橄M量偏差絕對值大于3 倍標準差(3σ 法則)。
箱線圖法是另一種基于統(tǒng)計的方法,它不要求數(shù)據(jù)集服從特定分布,根據(jù)目標的上下四分位值就可以確定閾值。Liu 等[7]利用四分位間距來去除變制冷劑流量系統(tǒng)中產生的異常數(shù)據(jù)。
2)基于距離
基于距離的異常檢測是一種較為常見的方法,如果目標數(shù)據(jù)點與其他數(shù)據(jù)點的距離過大,則被判定為異常點,這種方法由Knorr[8]率先提出。Li 和Li[9]使用K-means 聚類識別了風電系統(tǒng)中的異常數(shù)據(jù)。Fouzi Harrou[10]將交通擁堵殘差數(shù)據(jù)定義為異常數(shù)據(jù),利用kNN 方法對殘差數(shù)據(jù)的異常值進行檢測。
3)基于密度
基于密度的方法是從基于距離的方法發(fā)展而來的。DBSCAN 是一種典型的基于密度的聚類算法。Czerniawski 等[11]將其用于建筑點云的劃分。Yuanqiao Wen 等[12]通過DBSCAN 對船舶AIS 軌跡數(shù)據(jù)中的轉折點進行聚類,用以獲得轉折面積。
另一種典型的基于密度的方法是Breunig 等[13]提出的基于局部離群因子的異常檢測算法LOF(Local Outlier Factor)。相比起基于全局搜索的DBSCAN,LOF 方法還能適用于存在不同密度的數(shù)據(jù)集群。Dinga 等[14]將LOF 算法用于光伏系統(tǒng)中電流數(shù)據(jù)的異常檢測,并通過擴展數(shù)據(jù)集解決了LOF 算法不適應小數(shù)據(jù)集的問題。
綜上所述,各種異常識別方法在許多領域有了成功的應用,但在公共建筑能耗領域依舊存在算法的適用性和實用性問題。因此,本文提出了一種公共建筑能耗異常識別框架。
異常能耗可以被分為傳輸異常和運行異常。本文異常檢測框架見圖1。
圖1 異常能耗識別框架
2.1.1 值缺失
缺失值通常發(fā)生在數(shù)據(jù)傳輸部署完畢之前,由于系統(tǒng)未配置完全導致的個別電表缺少某段時間的數(shù)據(jù),在數(shù)據(jù)傳輸部署完畢之后也存在少量缺失的情況。缺失值的識別只需將數(shù)據(jù)按照時間戳匹配,識別流程見圖2。
圖2 值缺失識別流程
2.1.2 電表小數(shù)點跳動
對于個別電表,用電量數(shù)據(jù)可能存在小數(shù)點位移的現(xiàn)象。在圖3 中,17:00 時發(fā)生電表小數(shù)點左移,導致積累用電量減小,該小時用電量為負值,在22:00 時積累用電量恢復正常,該小時用電量為偏大值,兩個異常值為同一數(shù)量級,期間的能耗值為正常值。
圖3 小數(shù)點位移異常能耗
提出識別此類異常流程(圖4)。先以負值確定是否發(fā)生此類異常,再通過搜索鄰近值內同一數(shù)量級的對象來獲取另外一個異常點。
圖4 電表小數(shù)點位移識別流程
2.1.3 能耗積累
由于通信等原因導致電表累積用電量數(shù)據(jù)傳輸中斷,數(shù)據(jù)采集系統(tǒng)通常會利用前一時刻的數(shù)據(jù)進行填補,在這種情況下計算出的能耗數(shù)據(jù)具備特有規(guī)律,本文稱之為能耗積累。根據(jù)數(shù)據(jù)傳輸中斷時間不同,分為長期能耗積累和短期能耗積累。長期能耗積累是指能耗積累時間跨度超過2 h 的情況。在圖5(a)中,13:00 時-16:00 時發(fā)生了長期能耗積累,其異常時間跨度為4 h。13:00 時為積累頭部,能耗值會低于正常值;14:00 時-15:00 時為積累中部,能耗值為0;16:00時為積累尾部,能耗值會大于正常值。短期能耗積累是指積累時間跨度為2 h 的情況。在圖5(b)中,16:00時-17:00 時發(fā)生了短期能耗積累。16:00 時為積累頭部,能耗低于正常值。17:00 時為積累尾部,能耗值大于正常值。
圖5 能耗積累
1)長期積累異常
對于長期積累異常,首先根據(jù)其積累中部為零的特點定位可疑數(shù)據(jù)段,再利用K-means 聚類算法判斷積累尾部是否為異常值,最后根據(jù)其是否在網關層體現(xiàn)出連帶效應來判斷結果是否可信(圖6)。
圖6 長期積累異常識別流程
2)短期積累異常
對于短期積累異常,首先利用K-means 聚類判斷目標數(shù)據(jù)是否具備積累尾部特性,再使用相同方法判斷其前1 h 的數(shù)據(jù)是否具備積累頭部特性,最后根據(jù)其是否在網關層體現(xiàn)出連帶效應來判斷結果是否可信(圖7)。
圖7 短期積累異常識別流程
除了數(shù)據(jù)傳輸異常,能耗異常里的其他部分都可歸因于建筑運行規(guī)律的異常。本節(jié)初步確定了運行異常識別流程。
2.2.1 長期零值異常
造成長期零值異常的原因包括設備的斷電維修、切換備用等。對于一個數(shù)值大于零的能耗數(shù)據(jù),如果連續(xù)超過一周能耗為零,該段能耗將被標記為可疑能耗,相關人員應去現(xiàn)場尋找原因(圖8)。
圖8 長期零值異常識別流程
2.2.2 其他運行異常
由于異常發(fā)生時,能耗的變化規(guī)律會與往常不符,根據(jù)這個特點可以判斷能耗數(shù)據(jù)是否異常,本文提出了一種基于運行規(guī)律變化特點的異常識別方法。
通過min_max 歸一化消除數(shù)值上的差異并采用箱線圖做異常檢測(圖9)。對于工作日,歸一化后的上下限較為緊密,對異常值的敏感性好;對于休息日,歸一化后的上下限較大,對異常值不敏感。
圖9 日能耗運行規(guī)律(歸一化后)
圖10 為運行異常識別流程,數(shù)據(jù)集將根據(jù)小時和日類型劃分為24*2 種,其算法核心目前為min_max箱線圖。
圖10 其他運行異常識別流程
本節(jié)將對比不同方法,對運行異常識別部分的算法核心進行拓展。同時,針對不同類型的能耗數(shù)據(jù),給出了推薦算法。
本文選擇了單獨的3σ,LOF 以及普通箱線圖方法與本文提出的異常識別框架在不同情景下進行異常識別效果對比。
3.1.1 數(shù)據(jù)類型一
該類數(shù)據(jù)為全年波動較大的能耗,代表辦公建筑的空調能耗、特殊的照明插座能耗(混入某些與室外氣象相關的能耗,例如電風扇、加熱器)。案例數(shù)據(jù)中最大月與最小月能耗差別34%,存在日類型、小時差異(圖11)。
圖11 建筑能耗畫像
圖12 為幾種方法的識別結果。對于工作日能耗,基于本框架的異常識別方法具備明顯優(yōu)勢,在異常率為低于5%時,識別的正確率可以保持在90%以上,錯誤率為2%~3%,對于10%以上異常情況正確率大幅下降。3σ 效果最差,這說明建筑能耗分布不服從高斯分布。對于休息日能耗,由于其規(guī)律穩(wěn)定性差,在1%異常率的情況下,本方法的識別率僅為60%。LOF 算法現(xiàn)出了優(yōu)勢的一面,單獨的算法在1%異常率的情況下正確率為80%,錯誤率小于1%。原因是由于不穩(wěn)定工作日能耗數(shù)據(jù)集存在多個數(shù)據(jù)聚集中心,其他方法都是全局搜索型算法,對多聚集中心數(shù)據(jù)集里的異常值不敏感。而LOF 算法利用局部離群因子,將判斷異常的范圍限定在目標值附近,識別效果會顯著加強。
圖12 識別結果
綜上,對于該類型數(shù)據(jù),異常識別框架內的算法核心在工作日時選擇min_max 箱線圖,在休息日時選擇LOF 算法,可得到最好的效果。
3.1.2 數(shù)據(jù)類型二
該類數(shù)據(jù)為全年波動較小的能耗,代表辦公建筑種的照明插座能耗,全年逐月平均工作日能耗逐漸上升說明其用電設備逐漸增多,具備動態(tài)增長特點。案例數(shù)據(jù)中最大月與最小月能耗差別17%,存在日類型、小時差異(圖13)。
圖14 為幾種方法的識別結果。在工作日,普通箱線圖的效果最好,即便異常率達到了20%,其正確率依舊在90%,同時只有少量的識別錯誤數(shù)量。在休息日,普通箱線圖和LOF 方法均有較好的效果,在異常比例小于5%時,正確率都達到了80%以上。
圖13 建筑能耗畫像
圖14 識別結果
綜上,對于該類型數(shù)據(jù),異常識別框架內的算法核心在工作日時選擇普通箱線圖,在休息日時選擇LOF 算法,可得到最好的效果。
根據(jù)上面的結果,考慮不同的能耗特點,總共存在四種選擇方案,匯總如下(圖15)。
圖15 核心算法選擇邏輯
結合以上的算法選擇邏輯和建筑能耗特點,給出不同類型建筑的異常檢測算法推薦,見表1。
表1 公共建筑異常識別核心算法推薦
本文提出了一套公共建筑能耗異常檢測框架。該方法有兩個主要貢獻:一個是將異常能耗分為數(shù)據(jù)傳輸異常和運行異常,根據(jù)數(shù)據(jù)傳輸異常的獨有特點可以實現(xiàn)高識別率和低錯誤率,這為運行異常識別提供良好的數(shù)據(jù)環(huán)境。另一個是采用多種算法的組合,對不同公共建筑能耗的運行異常檢測提供了不同的算法組合。結果表明,在異常占比達到5%時,異常檢測結果的正確率在85%以上,錯誤率在4%以下。
本文的研究結果可以很容易地部署在目前的能耗監(jiān)管平臺上,無需其他額外數(shù)據(jù)的介入。對于運行異常識別所提供的算法目前只針對空調能耗和照明插座能耗的層面,缺少對于其子分項的適應性研究。未來的研究工作將把目標放在這些能耗上,實現(xiàn)更加靈活的異常檢測算法。