国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)據(jù)分布特性對(duì)空調(diào)系統(tǒng)能耗預(yù)測(cè)的影響

2020-06-23 10:26王麗娜崔治國(guó)唐艷南
科學(xué)技術(shù)與工程 2020年14期
關(guān)鍵詞:峰度正態(tài)分布能耗

于 丹, 王麗娜, 曹 勇, 崔治國(guó), 王 晨, 唐艷南

(1.北京建筑大學(xué)環(huán)境與能源工程學(xué)院,北京 100044;2.中國(guó)建筑科學(xué)研究院有限公司,北京 100013)

建筑及其相關(guān)行業(yè)的發(fā)展嚴(yán)重影響全球的經(jīng)濟(jì)、能源、民生與環(huán)境等各個(gè)方面。根據(jù)國(guó)際能源署的統(tǒng)計(jì),建筑業(yè)約消耗了全球能源的32%[1]。根據(jù)最新的統(tǒng)計(jì),中國(guó)建筑能源消費(fèi)總量為8.57億t標(biāo)準(zhǔn)煤,約占全國(guó)能源消費(fèi)總量的20%,其中公共建筑能耗2.92億t標(biāo)準(zhǔn)煤,占建筑能耗總量的34%[2]。從建筑的全生命周期角度進(jìn)行能耗分析,發(fā)現(xiàn)運(yùn)行與維護(hù)階段的能耗可以占到建筑總生命周期能源消耗的80%~90%[1]。目前中國(guó)公共建筑中,暖通空調(diào)系統(tǒng)是最主要的耗能設(shè)備,其運(yùn)行能耗可以占到建筑能耗的50%~60%[3]。因此,建筑行業(yè)以及空調(diào)系統(tǒng)的節(jié)能具有十分重要的意義。

建筑能耗分析是建筑能源需求側(cè)管理的重要實(shí)現(xiàn)步驟之一。準(zhǔn)確的建筑能耗預(yù)測(cè)為建筑能源供應(yīng)與調(diào)度、多能源耦合供能系統(tǒng)提供了依據(jù);精確的能耗預(yù)測(cè)是空調(diào)系統(tǒng)節(jié)能控制的關(guān)鍵步驟之一,是實(shí)現(xiàn)預(yù)測(cè)控制、優(yōu)化控制的基礎(chǔ)[4-5]。

當(dāng)前的研究中,對(duì)空調(diào)系統(tǒng)的能耗預(yù)測(cè)主要是在實(shí)際運(yùn)行數(shù)據(jù)的基礎(chǔ)上,采用機(jī)器學(xué)習(xí)算法的方法。目前中外關(guān)于建筑能耗預(yù)測(cè)的算法種類繁多,其中比較典型的有廣義線性回歸分析算法、神經(jīng)網(wǎng)絡(luò)算法、支持向量機(jī)算法等。如文獻(xiàn)[6-7]通過分析建筑能耗的主要影響因素、不同因子的敏感性,利用多元線性回歸方法分別建立了辦公建筑、商場(chǎng)建筑的空調(diào)能耗預(yù)測(cè)模型。研究結(jié)果表明,多元線性回歸模型具有良好的數(shù)據(jù)擬合能力。該類方法在進(jìn)行負(fù)荷預(yù)測(cè)時(shí),需要進(jìn)行影響性分析或敏感性分析,以找出對(duì)模型影響較大的因素。文獻(xiàn)[8-10]利用人工神經(jīng)網(wǎng)絡(luò)對(duì)非線性問題具有良好逼近能力的特性,建立了建筑能耗的人工神經(jīng)網(wǎng)絡(luò)模型。人工神經(jīng)網(wǎng)絡(luò)模型具有預(yù)測(cè)精度高、模型訓(xùn)練時(shí)間長(zhǎng)的特點(diǎn)。文獻(xiàn)[11-13]利用支持向量類算法進(jìn)行建筑能耗的預(yù)測(cè)建模,相對(duì)于人工神經(jīng)網(wǎng)絡(luò)算法,支持向量類算法具有訓(xùn)練時(shí)間短的優(yōu)點(diǎn),由于其對(duì)缺失數(shù)據(jù)敏感,在工程應(yīng)用方面有其不足。

然而,眾多的機(jī)器學(xué)習(xí)算法大多都假設(shè)數(shù)據(jù)之間相互獨(dú)立,即數(shù)據(jù)分布服從正態(tài)分布[14]。事實(shí)上,由于數(shù)據(jù)之間本身具有相關(guān)性,數(shù)據(jù)的分布往往并不服從正態(tài)分布,如果未對(duì)數(shù)據(jù)進(jìn)行任何處理,直接作為能耗預(yù)測(cè)的輸入條件,則能耗預(yù)測(cè)的結(jié)果會(huì)存在一定的誤差。相關(guān)方面在當(dāng)前的研究中鮮有提及。

從數(shù)據(jù)的分布特性出發(fā),對(duì)不服從正態(tài)分布特性的原始數(shù)據(jù)進(jìn)行適當(dāng)?shù)臄?shù)據(jù)變換處理,作為提升能耗預(yù)測(cè)效果的重要技術(shù)手段。對(duì)實(shí)際的空調(diào)系統(tǒng)能耗進(jìn)行預(yù)測(cè),發(fā)現(xiàn)數(shù)據(jù)的分布特性對(duì)能耗預(yù)測(cè)影響巨大,合適的數(shù)據(jù)變換能大幅提升機(jī)器學(xué)習(xí)算法能耗預(yù)測(cè)的效果(準(zhǔn)確度)。

1 數(shù)據(jù)的分布特性及其描述

在數(shù)學(xué)理論中,常常傾向于將某一可能發(fā)生的事件稱為隨機(jī)事件,將事件可能出現(xiàn)的各種情況量值化,稱之為該事件對(duì)應(yīng)的隨機(jī)變量,同時(shí)以數(shù)據(jù)分布的概率密度圖直觀表達(dá)數(shù)據(jù)的分布特性[15]。

正態(tài)分布是一種重要的數(shù)據(jù)分布,對(duì)于隨機(jī)變量x,若其數(shù)據(jù)分布為正態(tài)分布(稱x服從參數(shù)為(μ,σ)的正態(tài)分布),則其概率密度如式(1)所示,概率密度圖如圖1所示,從圖形上看,其圍繞x=μ成中心對(duì)稱[15]。

(1)

式(1)中:f(x)為概率密度;μ為正態(tài)分布的均值;σ為正態(tài)分布的標(biāo)準(zhǔn)差。

圖1 正態(tài)分布概率密度圖Fig.1 Probability density diagram of normal distribution

在自然界中,若某一隨機(jī)變量為獨(dú)立隨機(jī)變量(即受外界其他因素影響較小),則其數(shù)據(jù)分布近似于正態(tài)分布。

然而,由于自然界各種因素之間相互影響,因而在實(shí)際中,某一單一隨機(jī)變量的取值往往會(huì)偏離正態(tài)分布。

在數(shù)學(xué)上,常常用兩個(gè)數(shù)學(xué)統(tǒng)計(jì)量來衡量數(shù)據(jù)分布偏離正態(tài)分布的程度。

1.1 偏度(skewness)

定義隨機(jī)變量數(shù)據(jù)分布的標(biāo)準(zhǔn)三階中心矩為偏度,即

(2)

式(2)中:skew(x)為偏度;μ為數(shù)據(jù)分布的均值;σ為數(shù)據(jù)分布的標(biāo)準(zhǔn)差。

偏度是描述數(shù)據(jù)分布偏斜方向和程度的統(tǒng)計(jì)量,是統(tǒng)計(jì)數(shù)據(jù)分布非對(duì)稱程度的數(shù)字特征。對(duì)于正態(tài)分布而言,偏度為0。若偏度為小于0,則數(shù)據(jù)均值左側(cè)的離散度比右側(cè)強(qiáng),其概率密度圖如圖2(a)所示;若偏度大于0,則數(shù)據(jù)均值左側(cè)的離散度比右側(cè)弱,其概率密度圖如圖2(b)所示。

圖2 偏度分布概率密度圖Fig.2 Probability density diagram of skewness distribution

1.2 峰度(kurtosis)

定義隨機(jī)變量數(shù)據(jù)分布的標(biāo)準(zhǔn)四階中心矩為峰度,即

(3)

式(3)中:kurt(x)為峰度;μ為數(shù)據(jù)分布的均值;σ為數(shù)據(jù)分布的標(biāo)準(zhǔn)差。

峰度是描述數(shù)據(jù)樣本分布形態(tài)陡緩程度的統(tǒng)計(jì)量。該統(tǒng)計(jì)量與正態(tài)分布相比較,峰度為0表示該總體數(shù)據(jù)分布與正態(tài)分布的陡緩程度相同;峰度大于0表示該總體數(shù)據(jù)分布與正態(tài)分布相比較為陡峭;峰度小于0表示該總體數(shù)據(jù)分布與正態(tài)分布相比較為平坦。峰度的絕對(duì)值數(shù)值越大表示其分布形態(tài)的陡緩程度與正態(tài)分布的差異程度越大。不同峰度的數(shù)據(jù)分布概率密度圖如圖3所示。

圖3 不同峰度分布概率密度圖Fig.3 Probability density diagram of different kurtosis distribution

數(shù)據(jù)分布的偏度和峰度衡量了數(shù)據(jù)分布與正態(tài)分布的差異性,可以為為充分描述實(shí)際數(shù)據(jù)的分布特性規(guī)律提供量化的指標(biāo)。

2 實(shí)際空調(diào)系統(tǒng)能耗數(shù)據(jù)特性與數(shù)據(jù)變換

為了衡量數(shù)據(jù)的分布特性對(duì)空調(diào)系統(tǒng)能耗預(yù)測(cè)的影響特性,選取了實(shí)際項(xiàng)目的運(yùn)行數(shù)據(jù),進(jìn)行空調(diào)系統(tǒng)能耗預(yù)測(cè)。

2.1 數(shù)據(jù)來源與概況

項(xiàng)目位于吉林省長(zhǎng)春市,建筑類型為超低能耗辦公建筑。建筑面積約5 000 m2,其中絕大部分區(qū)域作為展廳用途,辦公區(qū)域面積約950 m2。辦公區(qū)域空調(diào)冷源采用變頻多聯(lián)式空調(diào)機(jī)組,設(shè)計(jì)冷負(fù)荷指標(biāo)為25 W/m2。

該項(xiàng)目建立了完善的建筑能耗分項(xiàng)計(jì)量系統(tǒng),實(shí)現(xiàn)了空調(diào)、照明、動(dòng)力等各類用電的監(jiān)測(cè)與計(jì)量。數(shù)據(jù)采集與傳輸頻率為15 min一次。同時(shí),建筑能耗分項(xiàng)計(jì)量系統(tǒng)監(jiān)測(cè)了室外環(huán)境參數(shù),主要有室外溫度、室外相對(duì)濕度、太陽(yáng)輻射度等。

選取空調(diào)系統(tǒng)連續(xù)的約4 000行數(shù)據(jù),如表1所示。

表1 某實(shí)際項(xiàng)目的空調(diào)系統(tǒng)運(yùn)行數(shù)據(jù)

實(shí)際的空調(diào)系統(tǒng)運(yùn)行中由于各種原因,如停電、通信故障、傳感器故障等原因,存在著數(shù)據(jù)缺失、數(shù)據(jù)異常等問題,在進(jìn)行能耗預(yù)測(cè)工作之前,先進(jìn)行數(shù)據(jù)預(yù)處理。本文的數(shù)據(jù)預(yù)處理采用課題組在數(shù)據(jù)預(yù)處理方面的既有工作成果和相關(guān)方法[16]。

2.2 原始數(shù)據(jù)分布特性

通過數(shù)據(jù)預(yù)處理得到相對(duì)干凈的數(shù)據(jù)集合。對(duì)空調(diào)系統(tǒng)運(yùn)行能耗數(shù)據(jù)作出概率密度分布圖,如圖4所示。

圖4 空調(diào)系統(tǒng)能耗數(shù)據(jù)分布圖Fig.4 Distribution chart of energy consumption data of air conditioning system

計(jì)算原始空調(diào)系統(tǒng)能耗數(shù)據(jù)的偏度和峰度,結(jié)果如表2所示。

表2 原始空調(diào)系統(tǒng)能耗數(shù)據(jù)的分布

從圖4的分布圖和表2的結(jié)果可以看出,原始數(shù)據(jù)的偏度和峰度都遠(yuǎn)遠(yuǎn)大于零,即數(shù)據(jù)遠(yuǎn)遠(yuǎn)偏離正態(tài)分布。

2.3 數(shù)據(jù)分布變換

原始數(shù)據(jù)遠(yuǎn)遠(yuǎn)偏離正態(tài)分布,為了能使得數(shù)據(jù)應(yīng)用于機(jī)器學(xué)習(xí)算法能耗預(yù)測(cè)算法,需要對(duì)原始數(shù)據(jù)進(jìn)行合適的數(shù)據(jù)變換。

根據(jù)數(shù)學(xué)理論和經(jīng)驗(yàn),選擇對(duì)數(shù)變換,對(duì)原始數(shù)據(jù)進(jìn)行數(shù)據(jù)變換。數(shù)據(jù)變換式為

datanew=log(dataraw+1)

(4)

式(4)中:dataraw為原始數(shù)據(jù);datanew為對(duì)數(shù)變換后的數(shù)據(jù)。

用對(duì)數(shù)變換對(duì)空調(diào)系統(tǒng)能耗數(shù)據(jù)進(jìn)行變換,變換后的數(shù)據(jù)分布如圖5所示,計(jì)算數(shù)據(jù)的偏度和峰度如表3所示。

從圖5的分布圖和表 3 的結(jié)果可以看出,原始數(shù)據(jù)的偏度和峰度都大大降低,相對(duì)于原始數(shù)據(jù),對(duì)數(shù)變換后的空調(diào)系統(tǒng)能耗數(shù)據(jù)分布更接近于正態(tài)分布。

圖5 空調(diào)系統(tǒng)能耗數(shù)據(jù)分布圖Fig.5 Distribution chart of energy consumption data of air conditioning system

統(tǒng)計(jì)量偏度峰度數(shù)值0.440.29

3 基于機(jī)器學(xué)習(xí)算法的空調(diào)系統(tǒng)能耗預(yù)測(cè)

3.1 能耗預(yù)測(cè)機(jī)器學(xué)習(xí)算法建模

3.1.1 原理

在機(jī)器學(xué)習(xí)中,常常把模型和數(shù)據(jù)表示為以下一組未知對(duì)應(yīng)關(guān)系:

Model:features→labels

(5)

式(5)中:Model為機(jī)器學(xué)習(xí)算法;features和labels組成了一一對(duì)應(yīng)的數(shù)據(jù)集合;features稱為特征,即輸入變量,labels稱為標(biāo)簽,即輸出變量。

在本文的空調(diào)系統(tǒng)能耗預(yù)測(cè)中,特征即為室外溫度、室外相對(duì)濕度、太陽(yáng)輻射度,標(biāo)簽為空調(diào)系統(tǒng)能耗。

在實(shí)際的機(jī)器學(xué)習(xí)過程中,通常將數(shù)據(jù)集隨機(jī)分為2個(gè)部分,即訓(xùn)練集和驗(yàn)證集。通過在數(shù)據(jù)集上訓(xùn)練出能耗預(yù)測(cè)模型,然后將訓(xùn)練后的模型用于驗(yàn)證集,根據(jù)模型在驗(yàn)證集上的效果判別模型的優(yōu)劣。在實(shí)際的能耗預(yù)測(cè)中,將數(shù)據(jù)隨機(jī)分為2部分,訓(xùn)練集和驗(yàn)證集的比例約為4∶1。

3.1.2 預(yù)測(cè)模型

目前關(guān)于建筑能耗預(yù)測(cè)的典型算法有廣義線性回歸分析算法、神經(jīng)網(wǎng)絡(luò)算法、支持向量機(jī)算法等。

為了驗(yàn)證數(shù)據(jù)變換對(duì)能耗預(yù)測(cè)的影響程度,選擇4種典型算法進(jìn)行能耗預(yù)測(cè)工作。4種典型算法分別為廣義線性回歸算法中的嶺回歸(ridge regression)算法、支持向量回歸(support vector regression, SVR)算法、人工神經(jīng)網(wǎng)絡(luò)(artificial neural network,ANN)算法、隨機(jī)森林(random forest)算法[11]。相關(guān)算法的關(guān)鍵參數(shù)如表4所示(多次模型訓(xùn)練尋優(yōu)的結(jié)果)。

表4 能耗預(yù)測(cè)算法核心參數(shù)配置

3.1.3 誤差分析

為了衡量機(jī)器學(xué)習(xí)算法能耗預(yù)測(cè)模型的效果,引入常見的2個(gè)模型評(píng)價(jià)指標(biāo)作為判別模型優(yōu)劣的依據(jù),分別為均方根誤差(root mean square error, RMSE)和R2統(tǒng)計(jì)量,分別如式(6)和式(7)所示。均方根誤差RMSE越小,R2統(tǒng)計(jì)量越接近于1,說明模型預(yù)測(cè)效果越好。

(6)

式(6)中:m為數(shù)據(jù)樣本的數(shù)量;ypred為算法預(yù)測(cè)值;ytrue為真實(shí)值。

(7)

式(7)中:SSres為模型預(yù)測(cè)值與真實(shí)值的殘差平方和;SStot為模型預(yù)測(cè)值與真實(shí)值的離差平方和。

3.2 能耗預(yù)測(cè)結(jié)果與分析

根據(jù)以上的模型和誤差分析,進(jìn)行了以下兩方面的能耗預(yù)測(cè)工作。

(1)對(duì)原始數(shù)據(jù)直接應(yīng)用機(jī)器學(xué)習(xí)算法進(jìn)行能耗預(yù)測(cè)。

(2)對(duì)經(jīng)過數(shù)據(jù)變換后的空調(diào)系統(tǒng)數(shù)據(jù)應(yīng)用機(jī)器學(xué)習(xí)算法進(jìn)行能耗預(yù)測(cè)。

兩次的能耗預(yù)測(cè)結(jié)果的均方根誤差和R2統(tǒng)計(jì)量如表5和表6所示。

表5 機(jī)器學(xué)習(xí)算法能耗預(yù)測(cè)模型均方根誤差結(jié)果

表6 機(jī)器學(xué)習(xí)算法能耗預(yù)測(cè)模型R2統(tǒng)計(jì)量結(jié)果

繪制出兩次能耗預(yù)測(cè)的均方根誤差和R2統(tǒng)計(jì)量變化圖,如圖6和圖7所示。

圖6 兩次能耗預(yù)測(cè)模型的均方根誤差Fig.6 RMSE of the twice energy consumption prediction model

圖7 兩次能耗預(yù)測(cè)模型的R2統(tǒng)計(jì)量Fig.7 R2 of the twice energy consumption prediction model

分析表5和表6、圖6和圖7,可以看出,經(jīng)過數(shù)據(jù)變換后,4種常見的機(jī)器學(xué)習(xí)算法在進(jìn)行空調(diào)系統(tǒng)能耗預(yù)測(cè)時(shí),均方根誤差都得到了不同程度的降低,R2統(tǒng)計(jì)量都得到不同程度的提高。

通過多次的數(shù)據(jù)訓(xùn)練與能耗預(yù)測(cè),得到相同的結(jié)論。因此,對(duì)原始的非正態(tài)分布數(shù)據(jù)進(jìn)行合適的數(shù)據(jù)變換可以有效提高空調(diào)系統(tǒng)能耗預(yù)測(cè)模型的效果。

4 結(jié)論

現(xiàn)實(shí)生活中的數(shù)據(jù)分布并不呈現(xiàn)正態(tài)分布的特性,但是數(shù)據(jù)的正態(tài)分布特性(或接近于正態(tài)分布特性)是眾多機(jī)器學(xué)習(xí)算法的重要前提假設(shè)之一。

基于空調(diào)系統(tǒng)的實(shí)際運(yùn)行數(shù)據(jù),分析了其運(yùn)行能耗數(shù)據(jù)分布的非正態(tài)性,并給出了相應(yīng)的數(shù)據(jù)變換,變換后的數(shù)據(jù)相對(duì)于原始數(shù)據(jù)更接近于正態(tài)分布。

采用常見的4種能耗預(yù)測(cè)機(jī)器學(xué)習(xí)算法,即廣義線性回歸算法、支持向量回歸算法、人工神經(jīng)網(wǎng)絡(luò)算法、隨機(jī)森林算法,分別基于原始運(yùn)行數(shù)據(jù)和經(jīng)過數(shù)據(jù)變換后的空調(diào)系統(tǒng)數(shù)據(jù)進(jìn)行空調(diào)系統(tǒng)能耗預(yù)測(cè)。預(yù)測(cè)結(jié)果對(duì)比發(fā)現(xiàn),經(jīng)過數(shù)據(jù)變換,4種機(jī)器學(xué)習(xí)算法的預(yù)測(cè)效果都得到了不同程度的提高。即數(shù)據(jù)的分布特性對(duì)空調(diào)系統(tǒng)的能耗預(yù)測(cè)有著重要的影響,在進(jìn)行能耗預(yù)測(cè)之前進(jìn)行合適的數(shù)據(jù)變換可以有效提高能耗預(yù)測(cè)的效果。

另一方面,采用的都是常見的能耗預(yù)測(cè)算法,最好的隨機(jī)森林算法預(yù)測(cè)模型的均方根誤差和R2統(tǒng)計(jì)量分別為0.15和0.78,模型的預(yù)測(cè)效果有待于進(jìn)一步提高。同時(shí),空調(diào)系統(tǒng)能耗預(yù)測(cè)除了與本文中提到的室外溫度、室外相對(duì)濕度、太陽(yáng)輻射度相關(guān),還與一些其他因素緊密相連,如室內(nèi)溫度、人員用能習(xí)慣等。如何優(yōu)化模型、如何選擇合適的建模參數(shù),進(jìn)一步提高能耗預(yù)測(cè)效果是本課題組的另一項(xiàng)重要工作。

猜你喜歡
峰度正態(tài)分布能耗
酰胺質(zhì)子轉(zhuǎn)移成像和擴(kuò)散峰度成像評(píng)估子宮內(nèi)膜癌微衛(wèi)星不穩(wěn)定狀態(tài)
120t轉(zhuǎn)爐降低工序能耗生產(chǎn)實(shí)踐
能耗雙控下,漲價(jià)潮再度來襲!
關(guān)于n維正態(tài)分布線性函數(shù)服從正態(tài)分布的證明*
擴(kuò)散峰度成像技術(shù)檢測(cè)急性期癲癇大鼠模型的成像改變
探討如何設(shè)計(jì)零能耗住宅
生活常態(tài)模式
隨吟
日本先進(jìn)的“零能耗住宅”
基于自動(dòng)反相校正和峰度值比較的探地雷達(dá)回波信號(hào)去噪方法