劉倩,李正飛,陳煥新,王譽舟,徐暢
(華中科技大學(xué)能源與動力工程學(xué)院,湖北武漢 430074)
據(jù)統(tǒng)計,建筑是全球能源消耗的主要產(chǎn)業(yè)[1]。在我國,建筑能耗約占全社會終端的21%[2-3],其中空調(diào)系統(tǒng)能耗約占建筑總能耗的40%~60%[4]。暖通空調(diào)系統(tǒng)設(shè)備復(fù)雜,在運行過程中會發(fā)生多種故障問題,造成大量能耗損失[5-6]。如果能在建筑中安裝暖通空調(diào)故障診斷設(shè)備,確保設(shè)備運行正常,一個30年壽命的建筑至少可以減少30%的能源消耗[7]。多聯(lián)機系統(tǒng)是暖通空調(diào)系統(tǒng)中的重要一部分,現(xiàn)廣泛應(yīng)用于中、小型商業(yè)、辦公建筑以及大面積的住宅建筑等。制冷劑充注量若與系統(tǒng)不匹配將極大降低系統(tǒng)能效,增加系統(tǒng)的能耗。為了保證系統(tǒng)的穩(wěn)定運行和正常使用,有必要針對多聯(lián)機系統(tǒng)制冷劑充注量故障策略進行研究。
數(shù)據(jù)爆炸時代下,利用數(shù)據(jù)挖掘技術(shù)建立暖通空調(diào)系統(tǒng)故障檢測與診斷模型[8-10],并進一步實現(xiàn)系統(tǒng)在線故障預(yù)測,是目前該領(lǐng)域研究的熱點問題之一。王江宇等[11]提出一種基于分類回歸樹(Classification and Regression Tree,CART)算法的多聯(lián)機壓縮機回液故障檢測,證明了決策樹模型可以有效診斷回液故障。禹法文等[12]提出一種基于主元分析法的多聯(lián)機壓縮機排氣溫度傳感器故障診斷方法。采用正常數(shù)據(jù)對主成分分析(Principal Components Analysis,PCA)進行建模,用故障運行數(shù)據(jù)進行驗證診斷。結(jié)果表明該方法診斷效果良好。DU等[13]提出了小波分析與神經(jīng)網(wǎng)絡(luò)相結(jié)合的小波神經(jīng)網(wǎng)絡(luò),用于診斷變風(fēng)量系統(tǒng)中傳感器的故障。丁新磊等[14]針對目前基于數(shù)據(jù)驅(qū)動的制冷系統(tǒng)故障診斷模型,只能對參與建模訓(xùn)練的已知類型故障進行診斷,提出一種優(yōu)化神經(jīng)網(wǎng)絡(luò)的故障診斷策略,得到該模型對未知類型故障的診斷效果良好。XU等[15]利用小波分析方法和PCA方法,為離心式冷水機組開發(fā)了增強型傳感器故障檢測策略。結(jié)果表明,與傳統(tǒng)的基于 PCA的傳感器故障診斷策略相比,該策略使系統(tǒng)的性能更好。
目前國內(nèi)外應(yīng)用數(shù)據(jù)挖掘技術(shù)在暖通空調(diào)領(lǐng)域應(yīng)用研究較少,而其應(yīng)用在在線系統(tǒng)的故障檢測與診斷策略的研究更少[16-17]。本文提出了一種基于最大相關(guān)最小冗余(minimal-Redundancy-Maximal-Relevance,mRMR)-隨機森林(Random Forest,RF)算法的多聯(lián)機制冷劑充注量故障診斷策略。該策略通過采用 mRMR算法進行特征選擇,然后結(jié)合隨機森林、支持向量機和決策樹算法建立故障診斷模型,并采用網(wǎng)格搜索和十折交叉驗證進行參數(shù)尋優(yōu),進一步提高診斷模型的泛化能力,改善模型過擬合問題,在3種模型中選擇泛化能力更好的模型作為最終的診斷模型,最后在在線未知實例上驗證該模型的診斷性能。
最大相關(guān)最小冗余(minimal - Redundancy -Maximal-Relevance,mRMR)算法是一種最大化特征變量與目標之間相關(guān)性、而最小化特征之間相關(guān)性的特征選擇方法[18],以互信息量的大小作為衡量特征與特征、特征與類別變量間相關(guān)性的標準。
式中,x和y為給定的兩個隨機變量;p(x, y)為x和y的聯(lián)合概率分布函數(shù);p(x)和p(y)分別為x和y的概率分布函數(shù)。
為找出含有m個特征的特征子集S,最大相關(guān)性以I(xi, c)的適當(dāng)順序搜索與目標分類c相關(guān)的最佳m個特征xi,可用以下公式計算其相關(guān)性大?。?/p>
含有 m個特征的子集可能并不是最好的特征子集,當(dāng)兩個特征高度相互依賴時,其中一個被刪除,各自的階級判別力就不會有太大變化。因此,引入最小冗余標準來消除特征之間的冗余并選擇互斥特征(式(3));然后采用加法整和最大相關(guān)系數(shù)和最小冗余度(式(4))。
決策樹(Decision Tree,DT)算法是基于訓(xùn)練數(shù)據(jù)集進行訓(xùn)練學(xué)習(xí),可以得到一個具有一定泛化能力的分類模型。決策樹基于樹結(jié)構(gòu)進行分類診斷,進行每一步分類決策的過程如同樹不斷分支的過程,從根節(jié)點開始分支,經(jīng)過若干的內(nèi)部分支結(jié)點將數(shù)據(jù)集不斷進行分類,最終得到對應(yīng)不同決策結(jié)果的葉結(jié)點完成分類過程。
隨機森林(Random Forest,RF)算法從 Bagging并行式集成算法中演變而來。若給定數(shù)據(jù)集中含有a個樣本,從該數(shù)據(jù)集中抽取某一樣本放入一采樣集中,再將該樣本放回原數(shù)據(jù)集中,進行a次隨機抽樣,得到含有a個樣本的采樣集。進行多次此操作,可以得到N個含有a個樣本的采樣集,每個采樣集都可以訓(xùn)練出基學(xué)習(xí)器,每個基學(xué)習(xí)器都可以對樣本進行分類預(yù)測,可得到 N個結(jié)果,此時Bagging會對分類結(jié)果進行簡單投票法,即該模型將預(yù)測結(jié)果出現(xiàn)次數(shù)最多的作為最終分類結(jié)果。
支持向量機(Support Vector Machine,SVM)方法[19]基于樣本進行計算:
在樣本空間中找到一個劃分超平面,利用超平面將不同類型的樣本分開,但是存在多個這樣的劃分超平面可以實現(xiàn)樣本分離,由于訓(xùn)練集的局限性或噪聲,需要選擇最具魯棒性的劃分超平面。
劃分超平面可以用式(6)來描述:
其中,w=(w1, w2, … , wd)為法向量,決定了超平面的方向;b決定了超平面與原點之間距離。
樣本空間中的任意點x到超平面(w,b)的距離可表示為:
實驗采用國家標準檢測多聯(lián)機(Variable Refrigerant Flow,VRF)系統(tǒng)在制熱和制冷兩種運行工況下不同制冷劑充注量的工作性能。圖 1所示為實驗多聯(lián)機系統(tǒng)原理。該系統(tǒng)由蒸發(fā)器、冷凝器和壓縮機等設(shè)備組成,配備有5個室內(nèi)單元和1個室外單元,實驗多聯(lián)機系統(tǒng)中壓縮機為密封渦卷式,制冷劑為 R410A,標準充注量為 9.9 kg,室外單元額定功率為28 kW,室內(nèi)單元額定功率為29.7 kW。操作數(shù)據(jù)均由原始制造商組裝的傳感器收集,通過內(nèi)置控制器傳送到計算機終端。
圖1 實驗多聯(lián)機系統(tǒng)原理
多聯(lián)機系統(tǒng)分別在制熱和制冷工況下運行,其中5個室內(nèi)單元全部運行,溫度設(shè)置如表1所示。實驗制熱和制冷工況下制冷劑充注量水平從 63.64%至130.0%共 9個級別,按照充注量水平分為 L1(63.64%)、L2(75.45%, 80%)、L3(84.84%)、L4(95.75%, 103.74%)、L5(111.72%)和L6(120%,130%)6類。對于每一種實驗工況,風(fēng)機轉(zhuǎn)速認為保持不變,實驗通過調(diào)節(jié)壓縮機轉(zhuǎn)速和膨脹閥開度使制冷劑流量匹配冷凝負荷。當(dāng)制冷劑充注不足或充注過量時,多聯(lián)機系統(tǒng)依舊可以穩(wěn)定運行。
在此實驗基礎(chǔ)上制熱與制冷工況下共獲得156,251組數(shù)據(jù),其中制冷工況下有66,887組,制熱工況下有89,364組,在不同制冷劑充注量水平下數(shù)據(jù)分布如圖2所示。
實驗獲取的不同制冷劑充注量工況下系統(tǒng)運行數(shù)據(jù)中,根據(jù)其他學(xué)者前期所做的研究工作,實驗選取了原始數(shù)據(jù)集中的 18個特征變量,選取的特征變量如表2所示。
表1 系統(tǒng)運行工況表
圖2 不同充注量水平在兩種工況上的分布
圖3所示制冷劑充注故障診斷策略流程。由于實驗中獲得的數(shù)據(jù)往往存在缺失值和重復(fù)值,因此需要對數(shù)據(jù)進行預(yù)處理[20]。
在某些比較評價的指標處理中一般需要用到數(shù)據(jù)的標準化,一般是將數(shù)據(jù)按一定比例進行縮放,可以去除數(shù)據(jù)的單位限制,將其轉(zhuǎn)化為無量綱的純數(shù)值。實驗中采用了R語言中的Scale函數(shù)進行數(shù)據(jù)標準化處理。
表2 特征變量
圖3 制冷劑充注故障診斷策略流程
利用分層抽樣將數(shù)據(jù)集隨機分為 70%的訓(xùn)練集和 30%的測試集,將訓(xùn)練集輸入到集成 mRMR算法中,對特征變量集按照重要性進行重新排序,根據(jù)經(jīng)驗方法,在隨機森林故障診斷模型中保持默認參數(shù)值,用訓(xùn)練集對隨機森林故障診斷模型進行訓(xùn)練并檢驗,結(jié)果如圖4所示。綜合考慮模型的分類準確率和程序運行時間,取前6個特征變量時雙工況下整體分類準確率已經(jīng)達到98.63%,在相對更短的時間達到了理想診斷效果。兩種工況下選取的6個特征變量依次為氣分出管溫度、電子膨脹閥開度、化霜溫度、壓縮機排氣溫度、本機當(dāng)前運行能力和過冷器出液溫度。
圖4 雙工況下分類準確率隨特征變量個數(shù)的變化
表3所示為經(jīng)過篩選后的特征變量之間相關(guān)性系數(shù)矩陣。原 18個特征變量中有些特征變量間相關(guān)性很大,如本機目標運行能力和本機分配能力間的相關(guān)性高達 1,對于相關(guān)性很高的兩個變量,可以剔除其中一個,這樣并不會對模型的泛化能力造成很大的影響。篩選后的6個變量間的相關(guān)性較小,進一步證明了特征選擇后所剩余的6個特征變量的合理性。
網(wǎng)格搜索采用簡單遍歷給定參數(shù)組合進行參數(shù)尋優(yōu)來優(yōu)化模型。將模型可能的參數(shù)取值進行排列組合,所有可能存在的參數(shù)組合構(gòu)成“網(wǎng)格”,網(wǎng)格搜索估計函數(shù)的參數(shù)再通過交叉驗證的方式進行優(yōu)化來得到最優(yōu)學(xué)習(xí)算法。交叉驗證可以評估統(tǒng)計分析、機器學(xué)習(xí)算法對獨立于訓(xùn)練數(shù)據(jù)的數(shù)據(jù)集的泛化能力,能夠避免過擬合問題。數(shù)據(jù)預(yù)處理的過程中,將數(shù)據(jù)集按照一定的比例劃分成訓(xùn)練集和測試集。本實驗中將全部數(shù)據(jù)按照 7∶3的比例劃分為訓(xùn)練集和測試集。K折交叉驗證是將訓(xùn)練集中的所有數(shù)據(jù)平均劃分為K份,取第K份作為驗證集,剩余的K-1份作為交叉驗證的訓(xùn)練集。共得到K個評價分數(shù),相當(dāng)于訓(xùn)練了K次,驗證了K次,然后對這K個評價分數(shù)求平均,作為最終的驗證分數(shù)。
表3 篩選后的特征變量之間相關(guān)性系數(shù)矩陣
已選定6個特征變量,利用網(wǎng)格搜索和十折交叉驗證優(yōu)化3個常用的故障檢測和診斷模型,分別為隨機森林、決策樹和支持向量機。隨機森林模型優(yōu)化一般選擇對mtry和ntree參數(shù)進行優(yōu)化,其中mtry用來確定結(jié)點中用于二叉樹的變量個數(shù);ntree可以確定隨機森林中樹的數(shù)目。通過網(wǎng)格搜索和十折交叉驗證最終從mtry=c(2, 3, 4, 5, 6),ntree=c(50, 100, 150, 200,250, 300, 350, 400, 500, 750, 1,000)中確定最佳參數(shù)組合為mtry=5,ntree=300。在決策樹模型中對cp參數(shù)進行優(yōu)化,cp是指每一步拆分后,模型的擬合優(yōu)度所必須提高的程度。對cp參數(shù)在10-8、10-7、10-6、10-5和10-4間尋優(yōu),當(dāng)cp=10-5時,決策樹故障診斷模型的錯誤率最低。支持向量機模型針對cost和gamma參數(shù)進行優(yōu)化,在R語言的e1071包中,cost為懲罰因子,表示對支持向量機在優(yōu)化模型時對導(dǎo)致模型預(yù)測效果變差的因素的懲罰力度,默認值為1。gamma是選擇徑向基核函數(shù)作為kernel后,該函數(shù)自帶的一個參數(shù)。它隱含地決定了數(shù)據(jù)映射到特征空間后的分布,gamma值越小,支持向量越多。經(jīng)過一定試算后,確定懲罰因子 cost和核參數(shù) gamma的范圍分別為cost=c(4, 5),gamma=c(4, 5, 6),最后確定 cost=5,gamma=6時模型最優(yōu)。
本文將采用均方誤差(Mean Square Error,MSE)、整體檢測率和單類檢測率這3種標準比較3種模型的優(yōu)劣,其中:
在前期的工作下,經(jīng)過網(wǎng)格搜索和十折交叉驗證對隨機森林、決策樹和支持向量機進行參數(shù)尋優(yōu),在最優(yōu)參數(shù)的設(shè)置下,將測試集輸入到3種故障檢測和診斷模型中,檢驗3種模型對未知數(shù)據(jù)集的故障診斷效果,結(jié)果如圖5所示。
由圖5可知,決策樹、隨機森林和支持向量機這3種故障檢測診斷模型對測試集的整體分類準確率分別為 92.6%、97.06%和 95.1%,3種故障診斷模型的均方誤差分別為0.364、0.169和0.229。從3種模型的整體分類準確率和均方誤差都說明隨機森林泛化能力最好,決策樹的診斷效果最差。
圖5 對測試集的整體分類準確率和MSE比較
圖6所示為決策樹、隨機森林和支持向量機對6種充注量水平的單類分類準確率比較。由圖6可知,在6個充注量水平中,隨機森林均顯示出最好的分類效果,而決策樹的仍然最差。圖7所示為3個模型對測試集在6個制冷劑充注量水平上的均方誤差。由圖7可知,在6個充注量水平上,隨機森林模型的均方誤差均最小,決策樹幾乎在6個水平上都表現(xiàn)為均方誤差最大,說明隨機森林故障診斷模型的整體準確率上泛化能力和各單類制冷劑充注量水平上分類準確率均最好。隨機森林模型對測試集的分類混淆矩陣如表4所示。
圖6 對測試集的單類分類準確率比較
圖7 RF、DT和SVM模型對測試集的MSE比較
表4 隨機森林對測試集故障診斷的混淆矩陣
通過對以上3種模型對比發(fā)現(xiàn),隨機森林故障檢測和診斷模型比其他兩種模型泛化能力更強,同時以上模型是將制熱和制冷雙工況下的數(shù)據(jù)來訓(xùn)練充注量故障檢查和診斷模型,檢測雙工況下對未知數(shù)據(jù)集的故障檢測和診斷效果。
圖8所示為在制熱工況、制冷工況和雙工況下的已知數(shù)據(jù)集對診斷模型進行訓(xùn)練,然后分別在 3種情況下的未知數(shù)據(jù)集上進行測試。由圖8可知,當(dāng)訓(xùn)練集和測試集是同一種工況時,準確率較好,均在96%以上,用制熱工況下的訓(xùn)練集訓(xùn)練出的故障診斷模型對制冷工況下故障診斷準確率為20.49%,制冷工況下的訓(xùn)練集訓(xùn)練出的診斷模型對制熱工況下故障診斷準確率為28.13%;單工況下訓(xùn)練出的診斷模型對雙工況制冷劑充注量水平診斷效果較差,但是雙工況下的訓(xùn)練集訓(xùn)練出的故障診斷模型對單/雙工況下的未知測試集均有較好的故障診斷效果。
圖8 不同工況訓(xùn)練RF模型對不同工況測試集故障診斷準確率
通過歷史數(shù)據(jù)對該模型的檢驗,一定程度上證明了該策略具有實際應(yīng)用意義??梢允褂孟鄳?yīng)的具有代表性正常操作和特定系統(tǒng)的故障數(shù)據(jù)來訓(xùn)練所提出的模型,并將該故障診斷模型納入到 VRF系統(tǒng)微機控制中,可以實現(xiàn)實時監(jiān)測、控制制冷劑充注量水平。
經(jīng)過前期的工作,最終確定了原數(shù)據(jù)集中的 6個特征變量作為模型訓(xùn)練集的特征變量和未知實例中所需變量。對比發(fā)現(xiàn)隨機森林故障檢測和診斷模型可以獲得對多聯(lián)機系統(tǒng)制冷劑充注量水平更好的分類效果。將前面建立的隨機森林故障診斷模型分別用于室內(nèi)分別有5個、8個、11個和12個單元的多聯(lián)機系統(tǒng),進一步驗證該故障檢測診斷模型是否對在線數(shù)據(jù)仍然具有良好的診斷效果,如表5所示。
由表5可知,將此模型用于在線動態(tài)數(shù)據(jù)中時,對 5個室內(nèi)機的多聯(lián)機系統(tǒng)分類準確率達到95.82%,說明前文提出的隨機森林故障檢測與診斷策略在類似的 VRF系統(tǒng)上具有理想的分類性能。對于有8個和11個室內(nèi)機的多聯(lián)機系統(tǒng),此模型的分類效果較差,分別為85.74%和88.24%,此模型對不同的多聯(lián)機系統(tǒng)診斷準確率均在85%以上,說明該診斷策略具有強大的泛化能力和魯棒性。
表5 對不同多聯(lián)機系統(tǒng)制冷劑充注量的檢測與診斷性能
本文研究了多聯(lián)機系統(tǒng)制冷劑充注量故障檢測與診斷策略,構(gòu)建了基于mRMR-RF的故障檢測和診斷模型,進行特征選擇?;谶x擇后的特征子集,進行參數(shù)優(yōu)化,在測試集上進行驗證,對3種診斷模型比較和評價,得到如下結(jié)論:
1) 采用mRMR算法進行特征選擇,輸入前6個特征變量時對已知數(shù)據(jù)的分類準確率達到98.63%,且運行時間適中;
2) 在經(jīng)過特征選擇后的訓(xùn)練集的基礎(chǔ)上,隨機森林、決策樹和支持向量機的整體分類準確率分別為97.06%、92.6%和95.1%,且在各單類制冷劑充注量水平以及均方誤差上,隨機森林模型的表現(xiàn)最好;
3) 訓(xùn)練集的選擇對故障檢測與診斷模型的影響很大,單工況下訓(xùn)練的模型只能對相同單工況下的未知測試集有較好的泛化性能,而雙工況下訓(xùn)練的模型對3類情況的未知數(shù)據(jù)均表現(xiàn)出較好的魯棒性;
4) 該診斷策略對多聯(lián)機系統(tǒng)在線故障檢測和診斷具有較好的泛化性能及良好的魯棒性。將該模型分別用于5個、8個、11個和12個室內(nèi)單元的多聯(lián)機系統(tǒng),其分類準確率分別為95.82%、85.74%、88.24%和93.96%。