(1 華中科技大學(xué)能源與動(dòng)力工程學(xué)院 武漢 430074; 2 珠海格力電器股份有限公司 珠海 5179070)
據(jù)有關(guān)部門(mén)統(tǒng)計(jì),我國(guó)建筑能耗約占社會(huì)總能耗33%[1],在發(fā)達(dá)國(guó)家如美國(guó)其建筑能耗約占社會(huì)總能耗的41%[2]。在建筑能耗中,空調(diào)能耗約占50%~60%[3],而其中壓縮機(jī)又是制冷空調(diào)的耗能大件之一。此外,J. E. Braun等[4]研究表明,壓縮機(jī)失效約占空調(diào)系統(tǒng)維修費(fèi)用的24%。因此壓縮機(jī)故障不僅會(huì)對(duì)空調(diào)系統(tǒng)產(chǎn)生不良影響,造成能耗損失,還會(huì)產(chǎn)生高昂的維修費(fèi)用。因此研究壓縮機(jī)回液的故障診斷,具有經(jīng)濟(jì)意義與研究?jī)r(jià)值。目前對(duì)于制冷空調(diào)故障檢測(cè)與診斷的研究對(duì)象多為冷水機(jī)組[5-6],故障種類多為制冷劑充注量[7-9]、傳感器故障[ 10-12 ]等,而對(duì)于多聯(lián)機(jī)壓縮機(jī)的研究略有不足。L. R. Silva等[13-14]對(duì)制冷系統(tǒng)的壓縮機(jī)故障檢測(cè)進(jìn)行了研究,主要針對(duì)壓縮機(jī)閥片泄漏問(wèn)題。周瑋[15]針對(duì)船用氟利昂制冷系統(tǒng),總結(jié)了壓縮機(jī)回液產(chǎn)生的原因及控制回液的幾種方法,但其適用范圍局限于船用氟利昂空調(diào)系統(tǒng),沒(méi)有給出壓縮機(jī)回液故障檢測(cè)與診斷的具體方法。王江宇等[16-17]首次提出采用決策樹(shù)算法對(duì)多聯(lián)機(jī)壓縮機(jī)回液故障進(jìn)行檢測(cè)與診斷,但是出于魯棒性的考慮以及工程應(yīng)用的需要,其決策樹(shù)樹(shù)深為兩層,只能利用有限的數(shù)據(jù)信息。
大數(shù)據(jù)在空調(diào)系統(tǒng)優(yōu)化、新產(chǎn)品研發(fā)、故障診斷、能耗與維護(hù)預(yù)測(cè)等方面提供了新的思路[18],而故障檢測(cè)與診斷的傳統(tǒng)建模方法不及時(shí)、復(fù)雜、準(zhǔn)確率低,難以滿足要求,因此利用數(shù)據(jù)挖掘技術(shù)與傳統(tǒng)故障排查相結(jié)合是未來(lái)的主流方向之一。但目前運(yùn)用在制冷空調(diào)行業(yè)的故障檢測(cè)與診斷的算法如決策樹(shù)、PCA-DT、BT神經(jīng)網(wǎng)路、SVDD等都是有監(jiān)督的學(xué)習(xí)方法,這需要前期進(jìn)行大量實(shí)驗(yàn)獲得有真實(shí)標(biāo)簽的先驗(yàn)數(shù)據(jù)來(lái)進(jìn)行訓(xùn)練,但有時(shí)在實(shí)際工程過(guò)程中難以滿足條件。無(wú)監(jiān)督的學(xué)習(xí)方法具有天然的優(yōu)勢(shì),無(wú)需事先獲得數(shù)據(jù)標(biāo)簽,可以通過(guò)自身算法將數(shù)據(jù)進(jìn)行分類從而進(jìn)行故障檢測(cè)與診斷。并且無(wú)監(jiān)督的學(xué)習(xí)方法已在其他行業(yè)驗(yàn)證了可行性,H. Fernando等[19]采用無(wú)監(jiān)督的人工神經(jīng)網(wǎng)絡(luò)進(jìn)行自動(dòng)組裝機(jī)器中的故障檢測(cè)和識(shí)別,孫才新等[20]通過(guò)多層次聚類進(jìn)行了變壓器油中溶解氣體分析故障診斷,陳鐵華等[21]通過(guò)模糊聚類進(jìn)行了水電機(jī)組振動(dòng)故障診斷。本文采用無(wú)監(jiān)督的聚類算法來(lái)進(jìn)行壓縮機(jī)回液故障診斷。聚類分析(Clustering analysis)是一種原理簡(jiǎn)單、應(yīng)用廣泛的數(shù)據(jù)挖掘技術(shù)[22]。它通過(guò)某種相似性或差異性指標(biāo)定量確定樣本之間的親疏關(guān)系,盡可能的將相似的數(shù)據(jù)歸為一類,將不相近的數(shù)據(jù)歸為其他類別,從而到達(dá)分類或模式識(shí)別等目的。聚類算法能夠有效利用全部的數(shù)據(jù)信息,不會(huì)因?yàn)闃?shù)深而影響診斷結(jié)果的準(zhǔn)確率。系譜聚類層次可以任意控制,能夠有效處理不規(guī)則的類圓形數(shù)據(jù)。
本文針對(duì)壓縮機(jī)回液故障問(wèn)題,提出了一種基于PCA-Clustering的壓縮機(jī)回液故障檢測(cè)與診斷的方法,來(lái)彌補(bǔ)目前缺乏先驗(yàn)數(shù)據(jù)標(biāo)簽條件下,無(wú)法有效的進(jìn)行壓縮機(jī)回液故障檢測(cè)與診斷的不足。
PCA-Clustering方法原理為:將前期整理與篩選后的不含真實(shí)標(biāo)簽的數(shù)據(jù),通過(guò)主成分分析(principle component analysis,PCA)進(jìn)行數(shù)據(jù)處理,提取得到新的主元變量解決變量信息冗余問(wèn)題,依據(jù)主元累計(jì)方差貢獻(xiàn)率對(duì)主元進(jìn)行篩選,以簡(jiǎn)化變量維度。再利用篩選后的主元變量進(jìn)行聚類建模,得出壓縮機(jī)回液故障診斷模型。
假設(shè)有n維樣本集Q=(x(1),x(2),…,x(m)),首先按照式(1)對(duì)所有樣本進(jìn)行中心化,得到中心化樣本集Q1。
依據(jù)式(2)求出數(shù)據(jù)集的協(xié)方差矩陣,按照式(3)對(duì)矩陣XXT進(jìn)行特征值分解。式(3)中W為XXT的n′個(gè)特征向量組成的矩陣,λ為XXT的特征值。
XXTW=λW
(3)
取出最大的n′個(gè)特征值對(duì)應(yīng)的特征向量(w1,w2,…,wn′),將所有特征向量標(biāo)準(zhǔn)化后,組成特征向量矩陣W。并按照式(4)對(duì)每一個(gè)數(shù)據(jù)集中每一個(gè)樣本x(i),都轉(zhuǎn)化為新的樣本z(I)。
z(i)=WTx(i)
(4)
最后得到輸出的新的數(shù)據(jù)集Q′=(z(1),z( 2 ),…,z(m))。需要說(shuō)明的是,新的得到的主元變量z都是原始變量x的線性組合,且各主元變量之間互不相關(guān)。
系譜聚類算法是聚類分析中常用算法之一,先計(jì)算通過(guò)PCA后獲取的新的主元變量數(shù)據(jù)之間的距離,每次將距離最近的點(diǎn)合并到同一類,再計(jì)算類與類之間的距離,將距離最近的類合并為一個(gè)大類。不停的合并,直到合成一個(gè)類。具體原理步驟如下:
1) 建立數(shù)據(jù)樣本兩兩之間的距離相似性矩陣F∈Rn×n,矩陣元素:
2) 采用式(6)計(jì)算規(guī)范化拉普拉斯矩陣,其中對(duì)角度矩陣D滿足式(7):
LN=D-1/2WD-1/2
(6)
3) 確定劃分分子集數(shù)目k,建立矩陣V=[v1,v2,…,vk]∈Rn×k,v1,v2,…,vk為拉普拉斯矩陣LN的前k個(gè)最大特征值對(duì)應(yīng)的特征向量。
4) 對(duì)V的行向量規(guī)范化處理,得到單位長(zhǎng)度向量矩陣Y∈Rn×k,其中Yij滿足式(8):
5) 將Y的每一行數(shù)據(jù)當(dāng)做Rk空間中的一個(gè)數(shù)據(jù)點(diǎn),運(yùn)用Kmeans聚類算法將Y中各點(diǎn)劃分為3類。
6) 當(dāng)且僅當(dāng)矩陣Y的第i行歸入第j(j∈[1,K])類時(shí),劃分原數(shù)據(jù)點(diǎn)si至第j類。
對(duì)于多數(shù)空氣調(diào)節(jié)系統(tǒng)而言,冬季工況與夏季工況相比蒸發(fā)溫度低,制冷劑蒸發(fā)速率小。因此在制冷劑充注量相同的情況下,壓縮機(jī)回液故障更傾向于發(fā)生在制熱工況下。所以本文進(jìn)行的實(shí)驗(yàn)操作均是在制熱工況下完成的。
圖1所示為多聯(lián)機(jī)系統(tǒng)結(jié)構(gòu)。該多聯(lián)機(jī)(VRF)系統(tǒng)由右邊5臺(tái)室內(nèi)機(jī),左邊1臺(tái)室外機(jī)組成。VRF系統(tǒng)采用R410A制冷劑,標(biāo)準(zhǔn)充注量為9.9 kg。在制熱工況下圖中過(guò)冷器不工作。虛線表示高壓管路,實(shí)線表示低壓管路,帶箭頭的虛線表示故障1(Method#1)引入方式,即在氣液分離器前引入高壓制冷劑;帶箭頭的粗實(shí)線表示故障2(Method#2)引入方式,即充注140%的過(guò)量制冷劑。圖1中表示出了部分傳感器,數(shù)據(jù)采集軟件將系統(tǒng)傳感器采集到的數(shù)據(jù)每3 s記錄一次,并保存到電腦客戶端。正常(normal)、故障1(fault#1)和故障2(fault#2)工況的實(shí)驗(yàn)參數(shù):室內(nèi)環(huán)境溫度設(shè)定為22 ℃,室外環(huán)境溫度為7 ℃,室內(nèi)機(jī)開(kāi)機(jī)3臺(tái),實(shí)驗(yàn)共獲得數(shù)據(jù)21 522條,各工況數(shù)據(jù)量如表1所示。
圖1 多聯(lián)機(jī)系統(tǒng)結(jié)構(gòu)Fig.1 VRF structure
工況數(shù)據(jù)量/條正常9 348故障16 336故障25 838
圖2所示為基于PCA-Clustering的壓縮機(jī)回液故障檢測(cè)與診斷的流程,由數(shù)據(jù)獲取、數(shù)據(jù)處理、數(shù)據(jù)建模和故障診斷4個(gè)步驟組成。
圖2 回液故障診斷流程圖Fig.2 Liquid floodback diagnosis flow chart
1)數(shù)據(jù)獲取
如圖2所示,首先通過(guò)多聯(lián)機(jī)實(shí)驗(yàn)平臺(tái)中的各類傳感器,實(shí)時(shí)采集實(shí)驗(yàn)的各類變量的參數(shù),同時(shí)數(shù)據(jù)實(shí)時(shí)傳輸?shù)絇C端,然后數(shù)據(jù)采集軟件對(duì)獲得的數(shù)據(jù)進(jìn)行集成操作。
2)數(shù)據(jù)處理
直接獲取的數(shù)據(jù),數(shù)據(jù)質(zhì)量較差,需要進(jìn)行處理以免影響診斷結(jié)果的準(zhǔn)確性。首先由于傳感器故障或其他原因會(huì)存在數(shù)據(jù)缺失,需要對(duì)數(shù)據(jù)進(jìn)行整理。此外初步采集的數(shù)據(jù)直接用來(lái)建模會(huì)降低模型精度,所以在建模之前需要篩選數(shù)據(jù)變量。最后為解決數(shù)據(jù)變量信息冗余和減少變量維度,采用主元分析法(PCA)進(jìn)行數(shù)據(jù)降維,得到新的主元變量。
3)數(shù)據(jù)建模
獲取新的主元變量的累計(jì)方差貢獻(xiàn)率,選取前面累計(jì)方差貢獻(xiàn)率大于95%的主元變量,采用系譜聚類算法,建立聚類診斷模型。
4)故障診斷
將不含數(shù)據(jù)標(biāo)簽的數(shù)據(jù),在聚類模型中通過(guò)聚類分析,進(jìn)行故障判定,得出分類結(jié)果。然后將其分類標(biāo)簽和實(shí)際標(biāo)簽進(jìn)行對(duì)比,采用可視化圖表進(jìn)行結(jié)果可視化。
通過(guò)傳感器測(cè)得的原始數(shù)據(jù)通常是不完整(某些數(shù)據(jù)由于傳感器故障而缺失,或缺少屬性值)、含噪聲(包含錯(cuò)誤或存在離群值)且不一致的(如變量的命名標(biāo)簽),這樣的數(shù)據(jù)必須經(jīng)過(guò)預(yù)處理,恢復(fù)數(shù)據(jù)完整性和一致性后才能使用數(shù)據(jù)挖掘技術(shù)進(jìn)行分析。傳感器測(cè)得變量多達(dá)數(shù)百個(gè),首先通過(guò)缺失值處理和數(shù)據(jù)集成將數(shù)據(jù)進(jìn)行前期處理。運(yùn)用已有的專家知識(shí)對(duì)剩余變量進(jìn)行篩選。具體操作如下:
1)對(duì)于邏輯變量,如熱力膨脹閥控制模塊,其本身就是一個(gè)控制參數(shù),它會(huì)根據(jù)系統(tǒng)的變化而實(shí)施自我調(diào)控。故這一類變量予以剔除。
2)考慮到回液是一種室外機(jī)故障,因此相較于室內(nèi)機(jī)數(shù)據(jù),室外機(jī)運(yùn)行數(shù)據(jù)更能表征回液故障,故將與室內(nèi)相關(guān)參數(shù)予以剔除。
3)為了使得數(shù)據(jù)測(cè)量簡(jiǎn)便,在數(shù)據(jù)篩選時(shí)偏向選取單一相關(guān)變量參數(shù)作為回液故障診斷的變量。
4)基于已有的專家知識(shí),初步對(duì)變量進(jìn)行判斷是否對(duì)故障有影響。
綜合考慮以上4條篩選原則,將邏輯變量和室外參數(shù)予以剔除,通過(guò)已有的專家知識(shí),認(rèn)為壓縮機(jī)回液與溫度的相關(guān)性較大,考慮到數(shù)據(jù)測(cè)量簡(jiǎn)便,盡可能選擇單一變量作為輸入?yún)?shù),預(yù)處理篩選得到6個(gè)溫度變量。分別為冷凝飽和溫度(Tcond)、壓縮機(jī)排氣溫度(Tcom,dis)、氣液分離器進(jìn)管溫度(Taccu,in)、氣液分離器出管溫度(Taccu,out)、蒸發(fā)飽和溫度(Tevap)、壓縮機(jī)殼頂溫度(Tcond,shell)。
為使數(shù)據(jù)更直觀、可視化,并展示變量在不同工況下的差異性和總體情況,本文采用數(shù)據(jù)變量箱體圖來(lái)進(jìn)行數(shù)據(jù)概覽,如圖3所示。為了便于對(duì)比和可視化,將數(shù)據(jù)先進(jìn)行標(biāo)準(zhǔn)化,再用boxplot函數(shù)繪制出箱體圖。圖3中中間粗實(shí)線表示數(shù)據(jù)中位數(shù),上下細(xì)實(shí)線表示上四分位數(shù)和下四分位數(shù)。由圖3可知,無(wú)論在何種工況下均存在一定數(shù)量的異常值,即數(shù)值偏離在主箱體圖之外的數(shù)據(jù)。每一類變量的不同工況之間的差異性并不大,因此采用PCA獲取原始變量的綜合變量,可能會(huì)提高診斷結(jié)果的準(zhǔn)確率。
圖3 數(shù)據(jù)變量概覽箱體圖Fig.3 Data variables overview box diagram
由1.1節(jié)可知,主成分分析法能夠在保證原始變量主要信息的前提下,通過(guò)原來(lái)變量的少數(shù)幾個(gè)線性組合來(lái)解釋隨機(jī)向量的方差-協(xié)方差結(jié)構(gòu),以此來(lái)降低變量的維度,使得問(wèn)題簡(jiǎn)化。故將變量篩選處理后的數(shù)據(jù)進(jìn)行主成分分析,得到新的主元變量。原始變量與新主元變量的關(guān)系如表2所示。表中數(shù)據(jù)表示構(gòu)成新主元變量中原始變量的線性系數(shù)。
為了可視化新主元變量數(shù)據(jù)在不同工況下的情況,采用箱體圖獲得的新主元變量概況如圖4所示。由圖4可知,前面主元1與主元2,在不同工況下差異性較大,區(qū)分較為明顯,且所包含的異常值也較少。
表2 主元變量與原始變量線性關(guān)系表Tab.2 The linear relationship between the principal variable and the original variable
圖4 主元變量箱體圖Fig.4 The principal variable box figure
圖5所示為主元分析后主成分方差貢獻(xiàn)率和累計(jì)方差貢獻(xiàn)率。由圖5可知,前兩個(gè)主成分的累計(jì)貢獻(xiàn)率為96.0%,與圖4分析結(jié)果一致,因此可以認(rèn)為主元1和主元2包含了數(shù)據(jù)的絕大多數(shù)信息,故可以舍去剩余的主成分,僅保留主元1和主元2進(jìn)行聚類,可以達(dá)到降維,簡(jiǎn)化計(jì)算的效果。
圖5 主成分方差貢獻(xiàn)率Fig.5 Principal Component variance contribution rate
選取主元1和主元2兩個(gè)主成分進(jìn)行聚類分析。事先無(wú)需知曉數(shù)據(jù)類別標(biāo)簽,聚類算法自動(dòng)按照選定的分類數(shù)目(正常、故障1和故障2)進(jìn)行分類。為了使聚類結(jié)果可視化,繪制了聚類散點(diǎn)圖,得到聚類結(jié)果圖,如圖6所示。為便于分析對(duì)比故障診斷聚類結(jié)果,采用真實(shí)數(shù)據(jù)標(biāo)簽繪制數(shù)據(jù)散點(diǎn)圖,如圖7所示。
圖6 故障診斷聚類結(jié)果圖Fig.6 Fault diagnosis clustering result graph
圖7 數(shù)據(jù)真實(shí)標(biāo)簽散點(diǎn)圖Fig.7 Data true tag scatter plot
由圖6可知,整個(gè)聚類結(jié)果較為理想,同類工況數(shù)據(jù)聚合緊密,異類工況相互交雜的部位較少,各類別工況大體區(qū)分明顯。對(duì)比圖6與圖7可得,主要診斷異常區(qū)域在于,圖6虛線框所標(biāo)記的不同工況交合處。一方面可能是數(shù)據(jù)本身存在異常值,即數(shù)據(jù)標(biāo)簽
有誤;另一方面因?yàn)橐罁?jù)距離作為標(biāo)準(zhǔn)的聚類算法對(duì)距離相近的異類工況判斷存在缺陷。但圖6中該區(qū)域數(shù)據(jù)點(diǎn)較為疏散,證明數(shù)據(jù)量較少,整體診斷結(jié)果仍較為良好。
采用混淆矩陣展示故障診斷具體分類情況?;赑CA-Clustering模型診斷結(jié)果的混淆矩陣如表3所示。由表3可得總數(shù)據(jù)結(jié)果準(zhǔn)確率為94.29%,其中故障1工況的檢測(cè)結(jié)果準(zhǔn)確率較其它兩類工況低,結(jié)合圖7分析可知故障1工況數(shù)據(jù)標(biāo)簽散點(diǎn)圖分布散亂,有較多的數(shù)據(jù)與正常工況和故障2工況交合,說(shuō)明該數(shù)據(jù)原本標(biāo)簽具有較多異常值。此外對(duì)于正常工況和故障2工況的診斷準(zhǔn)確率分別為97.39%、95.69%,診斷結(jié)果均較為理想。
表3 模型診斷結(jié)果混淆矩陣Tab.3 Model diagnostic results confusion matrix
為進(jìn)一步佐證采用無(wú)監(jiān)督的回液故障診斷結(jié)果準(zhǔn)確率的可信度,本文將診斷結(jié)果與采用有監(jiān)督的決策樹(shù)算法[17]進(jìn)行的壓縮機(jī)回液故障診斷進(jìn)行了對(duì)比。圖8所示為兩種模型診斷結(jié)果對(duì)比。從圖8可以看出,無(wú)監(jiān)督基于PCA-Clustering的總數(shù)據(jù)故障診斷結(jié)果與Wang Jiangyu等[17]提出的有監(jiān)督?jīng)Q策樹(shù)模型相差2.21%,并且在正常工況和故障2工況下的診斷效果還有所提升。因此無(wú)監(jiān)督的基于PCA-Clustering的壓縮機(jī)回液故障診斷模型能夠在無(wú)有效的訓(xùn)練數(shù)據(jù)的情況下,較好地診斷壓縮機(jī)回液故障。
圖8 聚類模型與決策樹(shù)模型診斷結(jié)果對(duì)比Fig.8 Comparison of clustering model and decision tree model
本文利用制冷劑為R410A,標(biāo)準(zhǔn)充注量為9.9 kg的多聯(lián)機(jī)系統(tǒng),在室內(nèi)環(huán)境溫度設(shè)定為22 ℃,室外環(huán)境溫度為7 ℃,室內(nèi)機(jī)開(kāi)機(jī)3臺(tái)的實(shí)驗(yàn)參數(shù)條件下運(yùn)行,獲取了21 522條運(yùn)行數(shù)據(jù),提出了一種基于PCA-Clustering的壓縮機(jī)回液故障診斷的方法,首先運(yùn)用主成分分析法對(duì)變量數(shù)據(jù)進(jìn)行前期處理,提取出主元變量,然后采用聚類分析對(duì)無(wú)類別標(biāo)簽的數(shù)據(jù)劃分。該方法采用無(wú)監(jiān)督的學(xué)習(xí)方法,事先無(wú)需獲取有真實(shí)標(biāo)簽的先驗(yàn)數(shù)據(jù),在一定程度上滿足了工程實(shí)際的應(yīng)用。此外,通過(guò)結(jié)果分析和對(duì)比,認(rèn)為該方法能夠較好的在無(wú)法獲得數(shù)據(jù)標(biāo)簽的前提下,也能像有監(jiān)督的決策樹(shù)模型一樣,達(dá)到較高的故障診斷準(zhǔn)確率,有效的進(jìn)行壓縮機(jī)回液故障診斷。相關(guān)結(jié)論如下:
1)利用主成分分析法來(lái)形成新的主元變量,有效解決了變量信息冗余問(wèn)題和簡(jiǎn)化了變量維度。
2)無(wú)監(jiān)督的基于PCA-Clustering模型的診斷準(zhǔn)確率為94.29%,有監(jiān)督的決策樹(shù)模型準(zhǔn)確率為96.50%,這表明無(wú)監(jiān)督的基于PCA-Clustering的壓縮機(jī)回液故障診斷的方法,在無(wú)法獲得數(shù)據(jù)標(biāo)簽的前提下,也能像有監(jiān)督的決策樹(shù)模型一樣,達(dá)到較高的故障診斷準(zhǔn)確率,有效的進(jìn)行壓縮機(jī)回液故障診斷。
本文受空調(diào)設(shè)備及系統(tǒng)運(yùn)行節(jié)能國(guó)家重點(diǎn)實(shí)驗(yàn)室開(kāi)放基金項(xiàng)目(SKLACKF201606)資助。 (The project was supported by the State Key Laboratory of Air-conditioning Equipment and System Operation (No. SKLACKF201606).)