(1-華中科技大學(xué)中歐清潔與可再生能源學(xué)院,湖北武漢 430074;2-華中科技大學(xué)能源與動(dòng)力工程學(xué)院,湖北武漢 430074)
隨著我國(guó)城鎮(zhèn)化水平持續(xù)提高,公共建筑能耗總量呈不斷上升趨勢(shì),并且在能源消耗總量中所占比例越來(lái)越高。據(jù)統(tǒng)計(jì),公共建筑能耗已經(jīng)達(dá)到總能耗 1/3以上[1],其中中央空調(diào)能耗約占建筑能耗的50%[2-3],中央空調(diào)系統(tǒng)節(jié)能優(yōu)化對(duì)建筑整體節(jié)能影響重大[4-6]。冷水機(jī)組作為空調(diào)系統(tǒng)最主要的能耗設(shè)備,如何建立準(zhǔn)確可靠的冷水機(jī)組能耗模型對(duì)冷水機(jī)組進(jìn)行節(jié)能運(yùn)行優(yōu)化,成為該領(lǐng)域的研究熱點(diǎn)之一[7-10]。冷水機(jī)組能耗預(yù)測(cè)模型主要包括機(jī)理模型和黑箱模型[9]。機(jī)理模型從冷水機(jī)組運(yùn)行機(jī)理出發(fā),通過(guò)辨識(shí)選取能耗模型參數(shù),對(duì)機(jī)組性能進(jìn)行研究,但由于冷水機(jī)組系統(tǒng)復(fù)雜,運(yùn)行參數(shù)種類多且難以確定,難以運(yùn)用到工程實(shí)踐。針對(duì)冷水機(jī)組運(yùn)行參數(shù)繁多這一特點(diǎn),黑箱模型即基于數(shù)據(jù)挖掘的能耗預(yù)測(cè)模型,常采用特征降維算法來(lái)減少無(wú)關(guān)特征和互相關(guān)性較高的冗余特征,研究表明,基于特征降維算法的能耗預(yù)測(cè)模型能夠有效地提高預(yù)測(cè)精度[11]。
目前,在冷水機(jī)組能耗預(yù)測(cè)模型的特征降維中,應(yīng)用最為廣泛和成熟的是主成分分析(Principal Component Analysis,PCA)方法[12-13]。PCA是一種基于特征變換的特征提取方法,原理是尋找使得樣本散度最大的方向矢量,但由于PCA不考慮樣本類別,提取出的低維特征空間難以解釋,且對(duì)于回歸預(yù)測(cè)而言不是最優(yōu)的。ReliefF和最大相關(guān)最小冗余(minimal-Redundancy-Maximal-Relevance,mRMR)算法是兩種特征選擇降維算法。ReliefF算法通過(guò)計(jì)算各特征的權(quán)重,考慮特征與預(yù)測(cè)目標(biāo)的相關(guān)性,能選出與目標(biāo)相關(guān)性最高的最優(yōu)特征,但由于其沒(méi)有考慮到特征之間的相關(guān)性,特征間存在冗余,得到的特征子集也不是最優(yōu)。mRMR算法考慮了特征間的相關(guān)性,但其選擇的每維特征對(duì)預(yù)測(cè)的貢獻(xiàn)均勻,體現(xiàn)不出對(duì)預(yù)測(cè)作用的差異[14]。
本文提出一種結(jié)合ReliefF和mRMR特征選擇算法的冷水機(jī)組能耗預(yù)測(cè)模型。首先,利用ReliefF算法計(jì)算冷水機(jī)組各運(yùn)行參數(shù)的特征權(quán)重,權(quán)重大小指示了其對(duì)預(yù)測(cè)結(jié)果的影響大小,選擇權(quán)重大的特征作為候選特征子集。然后,利用 mRMR算法選擇出與預(yù)測(cè)目標(biāo)有最大相關(guān)性且特征間具有最小冗余性的特征子集,彌補(bǔ) ReliefF算法不能去除特征間冗余的缺點(diǎn)[15]。
特征選擇是一種將原始特征集從高維降到低維的特征縮減方法,降維標(biāo)準(zhǔn)通??梢蕴岣呋虮3志龋蛘吣軌蚝?jiǎn)化模型復(fù)雜性。當(dāng)有d個(gè)特征時(shí),可能的子集數(shù)有2d個(gè),當(dāng)特征維數(shù)很大時(shí),不可能通過(guò)枚舉的方式來(lái)獲取到最優(yōu)特征子集,因此,需要找到在合理時(shí)間內(nèi)有效的方法。特征選擇基于某種評(píng)估標(biāo)準(zhǔn)從原始特征集中選擇最優(yōu)特征子集,這些標(biāo)準(zhǔn)可分為過(guò)濾式方法和包裝式方法[11]。
過(guò)濾式特征選擇算法是利用評(píng)價(jià)函數(shù)計(jì)算特征變量對(duì)于預(yù)測(cè)目標(biāo)的重要程度,然后通過(guò)設(shè)置閾值來(lái)移除對(duì)預(yù)測(cè)結(jié)果影響較小的特征,最終選擇重要程度高的特征構(gòu)成特征子集。過(guò)濾方法要將選擇的最優(yōu)特征傳遞給學(xué)習(xí)模型,如分類器、回歸模型等。另一方面,包裝方法需要將模型集成到特征子集搜索中,通過(guò)模型發(fā)現(xiàn)或生成并評(píng)估不同的特征子集,通過(guò)在模型上訓(xùn)練和測(cè)試特征子集來(lái)評(píng)估特征子集的適合度。因此,用于搜索特征集的最佳次優(yōu)子集的算法實(shí)質(zhì)上是“包裹”在模型周圍。本文使用的兩種特征選擇算法中,ReliefF屬于過(guò)濾式特征選擇算法,而mRMR屬于包裹式特征選擇算法。
Relief算法最早由RENDELL[16]提出,最初僅局限于二分類問(wèn)題的特征選擇。Relief算法基于各個(gè)特征和類別的相關(guān)性為特征分配不同的權(quán)重,并將權(quán)重小于某個(gè)閾值的特征移除。由于Relief算法相對(duì)簡(jiǎn)單,運(yùn)算效率高,結(jié)果令人滿意,因此被廣泛使用,但其局限性在于它只能處理兩種類型的數(shù)據(jù)。因此,在1994年,KONONEILL[17]擴(kuò)展了它并得到ReliefF算法,該算法可用于處理目標(biāo)屬性為連續(xù)值的回歸問(wèn)題。當(dāng)處理多類型的問(wèn)題時(shí),ReliefF算法從訓(xùn)練樣本集中隨機(jī)抽取一個(gè)樣本R,然后從R的同類樣本集中找到R的k個(gè)近鄰樣本,從R的不同類樣本集中找出k個(gè)近鄰樣本,最后更新每個(gè)特征的權(quán)重。
式中,diff(A,R1,R2)為樣本R1和R2在特征A上的差;Hj表示同類k最近鄰;Mj(C)為目標(biāo)類別C(class(R))中第j個(gè)最近鄰樣本;m為迭代次數(shù);p(C)為第C類目標(biāo)的概率。
mRMR特征選擇算法是一種基于互信息理論的典型特征降維算法[18]。其主要思想是以互信息量為衡量標(biāo)準(zhǔn),計(jì)算特征與特征、特征與目標(biāo)的相關(guān)性,得到與目標(biāo)具有最大相關(guān)性,且相互之間具有最小冗余性的特征子集。
給定兩個(gè)隨機(jī)變量x和y,它們之間的互信息定義[19]為式(2):
式中,p(x)、p(y)和p(x,y)分別為概率密度函數(shù)。特征與特征、特征與目標(biāo)的互信息的計(jì)算定義如式(3)和式(4)所示:
式中,S為特征集合;c為目標(biāo)類;I(xi,xj)為特征i與特征j之間的互信息;I(xi;c)為特征i和目標(biāo)類別c之間的互信息。最小化特征子集S中特征的互相關(guān)度就是要最小化式(3),最大化特征子集S中特征與目標(biāo)的相關(guān)度就是要最大化式(4)。將式(3)和式(4)根據(jù)差準(zhǔn)則進(jìn)行組合,得到 mRMR的特征選擇評(píng)估標(biāo)準(zhǔn)為max(D-R)。
依據(jù)此評(píng)估標(biāo)準(zhǔn),采用序貫向前查找法依次選擇最優(yōu)特征。首先根據(jù)式(4)得到第一個(gè)與目標(biāo)最相關(guān)的特征加入到特征空子集Sm中,當(dāng)有m個(gè)特征被加入到Sm中后,根據(jù)式(5)在剩余特征集(S-Sm)中選擇下一個(gè)特征加入到特征子集Sm中。重復(fù)以上步驟,直至得到期望數(shù)目的特征子集。
我們?cè)谇宄康诌_(dá)TIT創(chuàng)意園。這里原來(lái)是誕生于1956年的廣州紡織機(jī)械廠,如今遍布著酒店、咖啡館、設(shè)計(jì)師工作室和生活方式集成店。按下啟動(dòng)按鈕,捷豹經(jīng)典的電子旋轉(zhuǎn)換檔控制系統(tǒng)從中控臺(tái)緩緩升起,低沉雄厚的排氣聲浪在尚未蘇醒的TIT響起。
ReliefF算法屬于一種特征權(quán)重算法,省去了對(duì)特征子集的訓(xùn)練步驟,算法簡(jiǎn)單且運(yùn)行效率高,但其不能去除冗余特征,預(yù)測(cè)準(zhǔn)確度相對(duì)較低。mRMR算法利用學(xué)習(xí)模型對(duì)特征子集進(jìn)行評(píng)價(jià),基于互信息的評(píng)價(jià)標(biāo)準(zhǔn)能夠去除冗余,預(yù)測(cè)準(zhǔn)確率相對(duì)較高,但無(wú)法得到各特征的權(quán)重系數(shù),體現(xiàn)不出不同特征對(duì)目標(biāo)預(yù)測(cè)的差異性,并且 mRMR算法相對(duì)復(fù)雜,因此導(dǎo)致計(jì)算代價(jià)大,算法執(zhí)行時(shí)間長(zhǎng)。結(jié)合ReliefF和mRMR算法進(jìn)行特征降維,可以得到對(duì)預(yù)測(cè)結(jié)果影響權(quán)重較大的特征子集,并利用mRMR算法對(duì)該特征子集去除冗余,既彌補(bǔ)了前者不能去冗余的缺點(diǎn),也降低了后者的計(jì)算開(kāi)銷。
結(jié)合ReliefF和mRMR算法進(jìn)行特征降維,可分為輸入和輸出兩個(gè)步驟。
輸入:原始數(shù)據(jù)集S、迭代次數(shù)m、最近鄰樣本數(shù)k和目標(biāo)維數(shù)d。1)對(duì)樣本S,用ReliefF算法計(jì)算出各特征與目標(biāo)的特征權(quán)重,剔除權(quán)重較小的特征,得到一個(gè)候選特征子集S’;2)根據(jù)式(4)計(jì)算該子集S’中特征與目標(biāo)的相關(guān)性度量;3)根據(jù)式(3)計(jì)算該子集中特征與特征之間的相關(guān)性度量;4)通過(guò)步驟 2的計(jì)算結(jié)果選擇候選子集中與目標(biāo)最相關(guān)的一個(gè)特征加入到最終的特征子集Sm中;5)依據(jù) max(D-R)計(jì)算選擇下一個(gè)特征加入到Sm中,直到選出d個(gè)特征為止。
輸出:由d個(gè)特征組成的最優(yōu)特征子集。
本文以某磁懸浮機(jī)組作為實(shí)驗(yàn)對(duì)象,冷水機(jī)組結(jié)構(gòu)原理如圖1所示。在壓縮機(jī)、蒸發(fā)器、冷凝器等部位,設(shè)置傳感器每0.5 min采集一次冷水機(jī)組運(yùn)行數(shù)據(jù)參數(shù),運(yùn)行12 d共計(jì)34,491個(gè)數(shù)據(jù),每個(gè)數(shù)據(jù)包含39個(gè)特征,部分運(yùn)行數(shù)據(jù)特征如表1所示。
圖1 冷水機(jī)組結(jié)構(gòu)原理
表1 運(yùn)行參數(shù)
本文以ReliefF-mRMR特征選擇算法為基礎(chǔ),采用支持向量回歸模型進(jìn)行建模驗(yàn)證。具體建模過(guò)程包括數(shù)據(jù)預(yù)處理、ReliefF-mRMR特征選擇、建立SVR模型和結(jié)果分析對(duì)比。
缺失值和異常值在數(shù)據(jù)收集過(guò)程中難以避免,如果直接將它們輸入模型而不進(jìn)行處理,分析結(jié)果的準(zhǔn)確性將受到嚴(yán)重影響。因此,應(yīng)首先分析數(shù)據(jù),在初步數(shù)據(jù)探索之后,保證原始數(shù)據(jù)中沒(méi)有異常值,才可以執(zhí)行下一步的歸一化過(guò)程。
由于輸入數(shù)據(jù)中的不同特征具有不同的量綱和量綱單位,因此數(shù)量級(jí)差異通常很大,影響建模效果。歸一化是一種簡(jiǎn)化計(jì)算的方法,它將有量綱的變量數(shù)據(jù)映射到[0,1]或[-1,1]區(qū)間,并轉(zhuǎn)換為無(wú)量綱變量,便于不同單位或量級(jí)的變量進(jìn)行比較和加權(quán)[20]。本文采用最小最大標(biāo)準(zhǔn)化方法對(duì)原始數(shù)據(jù)進(jìn)行歸一化,最小最大標(biāo)準(zhǔn)化方法公式如式(6):
式中,maxF和minF分別為特征F的最大值和最小值;x為F的每一個(gè)原始值,x經(jīng)過(guò)線性變換,被映射到值始終在[0,1]區(qū)間內(nèi)的xnorm。
利用 ReliefF算法處理最小最大標(biāo)準(zhǔn)化后的數(shù)據(jù),得到各個(gè)特征與能耗數(shù)據(jù)的相關(guān)性權(quán)重排序,提取出權(quán)重系數(shù)較低的特征,得到特征維數(shù)為2d的候選特征子集作為mRMR算法的輸入。利用mRMR算法去除候選特征子集的冗余,得到特征維數(shù)為d的最優(yōu)特征子集。為了顯示出ReliefF-mRMR特征選擇算法的優(yōu)越性和有效性,分別單獨(dú)使用ReliefF算法和mRMR算法處理得到d維的特征子集,比較3種算法在不同特征維數(shù)d下的準(zhǔn)確率來(lái)反映各算法的性能。將3種方法得到的特征子集劃分成70%訓(xùn)練集和30%測(cè)試集作為SVR模型的輸入,SVR模型參數(shù)均設(shè)置為默認(rèn)值。
本文選取R2(R-squared)作為模型評(píng)價(jià)指標(biāo):
圖2所示為3種特征選擇算法在不同特征維數(shù)d下預(yù)測(cè)精度的對(duì)比,表2所示為不同算法在預(yù)測(cè)精度最高時(shí)的特征維數(shù)和預(yù)測(cè)時(shí)間。由圖2可知,ReliefF-mRMR特征選擇算法在特征維數(shù)為8時(shí)達(dá)到最高的預(yù)測(cè)精度 0.956,而實(shí)驗(yàn)測(cè)得不使用特征降維算法的全特征預(yù)測(cè)模型的精度僅為0.867,ReliefF和mRMR單一預(yù)測(cè)最佳預(yù)測(cè)精度分別為0.935和0.948,預(yù)測(cè)精度得到一定的提高。并且對(duì)比使用單一特征選擇算法,ReliefF-mRMR結(jié)合的特征選擇算法在特征維數(shù)較低時(shí)的預(yù)測(cè)精度明顯高于單一特征選擇算法,而在維數(shù)較高時(shí),3種算法的預(yù)測(cè)精度逐漸趨于一致。ReliefF-mRMR、ReiliefF和mRMR這3種算法1~18維特征平均預(yù)測(cè)精度分別為0.816、0.786和0.755,對(duì)比其他兩種算法,ReliefF-mRMR算法的預(yù)測(cè)精度分別提高了3.92%和8.11%,均有一定程度的提高。
圖2 預(yù)測(cè)精度與特征維數(shù)關(guān)系
表2 最優(yōu)精度下的特征維度和時(shí)間
從特征選擇算法的效率而言,ReliefF-mRMR特征降維算法結(jié)合了ReliefF和mRMR兩種算法的優(yōu)勢(shì),在達(dá)到最優(yōu)精度0.956下的特征維數(shù)僅為8,預(yù)測(cè)時(shí)間為37.24 s。與ReliefF算法相比,其預(yù)測(cè)時(shí)間基本相當(dāng),僅降低了0.87%,但維數(shù)和精度都得到了優(yōu)化;與mRMR算法相比,其預(yù)測(cè)精度較為接近,但特征維數(shù)和預(yù)測(cè)時(shí)間大幅度降低。為了更好地顯示ReliefF-mRMR算法預(yù)測(cè)效果,在測(cè)試集中隨機(jī)選取了50個(gè)數(shù)據(jù)繪制了預(yù)測(cè)結(jié)果圖,如圖3所示。
由圖3可知,預(yù)測(cè)值與真實(shí)值的絕對(duì)平均誤差為81.42 kW,僅為選取數(shù)據(jù)平均值的2.40%,表明模型可以準(zhǔn)確地預(yù)測(cè)冷水機(jī)組的能耗,可滿足實(shí)際應(yīng)用的需求。綜上所述,RelifF-mRMR特征選擇算法能夠在較低的特征維數(shù)下達(dá)到較高的預(yù)測(cè)精度,并提高預(yù)測(cè)效率。
圖3 ReliefF-mRMR算法模型預(yù)測(cè)效果
本文將 ReliefF算法和最大相關(guān)最小冗余(mRMR)算法相結(jié)合,并應(yīng)用于冷水機(jī)組能耗預(yù)測(cè),介紹了算法原理以及建模過(guò)程,根據(jù)實(shí)驗(yàn)數(shù)據(jù)對(duì)算法進(jìn)行了驗(yàn)證和對(duì)比,得出如下結(jié)論:
1)使用ReliefF-mRMR特征選擇算法,建立的預(yù)測(cè)模型預(yù)測(cè)精度高達(dá)0.956,比單獨(dú)使用ReliefF和mRMR算法的預(yù)測(cè)模型的最高精度分別提高了2.22%和0.83%;平均預(yù)測(cè)精度為0.816,比單獨(dú)使用ReliefF算法和mRMR算法的預(yù)測(cè)模型的平均預(yù)測(cè)精度分別提高了3.92%和8.11%;
2)ReliefF-mRMR特征選擇算法在保證精度的同時(shí),能夠提升預(yù)測(cè)效率。在最優(yōu)精度的情況下,其預(yù)測(cè)效率與運(yùn)行效率高的 ReliefF算法相比僅降低了0.87%,對(duì)比mRMR算法提高了53.60%;
3)Relief-mRMR算法能在較低的特征維數(shù)下保證預(yù)測(cè)精度和預(yù)測(cè)效率,能夠減少冷水機(jī)組中傳感器的數(shù)量,降低數(shù)據(jù)采集的成本。