張杜瑋 王偉 劉光俊
(中車青島四方機車車輛股份有限公司 山東省青島市 266111)
由于列車高速運行,為保證安全性及經濟型車內封閉性較好,但空氣流通卻是一個大問題。因此,空調系統(tǒng)則承擔這一重要任務,它既能保證車內盡快的空氣流通,又可以乘客保證乘客乘車的舒適性。隨著出行人員對乘車體驗越來越重視,保證空調系統(tǒng)的正常運轉為乘客提供一個舒適的乘車體驗至關重要。
通過對空調相關數據進行綜合分析,分析空調運轉與哪些參數密切相關,找到空調故障時變化最明顯的參數,根據參數變化建立空調故障預判模型,進行空調故障預判。在工業(yè)上,有許多學者將聚類算法用于離群點檢測[1],以發(fā)現工業(yè)控制系統(tǒng)中的異常數據,極大地提高工業(yè)控制系統(tǒng)的安全防護能力。
可以通過聚類發(fā)現空調數據內在的模式或者空調故障類的特點,首先對空調數據進行聚類,分析各類的聚類中心找出異常類別,與業(yè)務部門確認該類是否是真正異常。如果該類確實異常,則將故障類進行標記,然后用分類算法進行分類,建立空調故障的模型??照{故障模型建立的流程圖如圖1所示。
3.1.1 訓練數據與測試數據選取
訓練數據:2017-10-01 到2017-10-07 空調全量數據,共20 列車608355 條記錄。
測試數據:2017-10-08 到2017-10-13 空調全量數據,共748058 條記錄。
3.2.1 聚類分析
通過肘部法則可以確定聚類的最佳個數[2]。空調數據對應的聚類模型平均畸變程度隨聚類個數 的變化趨勢圖如圖2所示。
從圖中可以看出k 值從5 到6 時,平均畸變程度變化最大。超過6 以后,平均畸變程度變化顯著降低,因此肘部就是k=6。因此最終選擇的模型為k=6 對應的聚類模型。
K=6 時聚類中心點如表1所示。
其中,類別5,制冷系統(tǒng)2 低壓壓力中心點為15.18,相比其他類別聚類中心點在[-1,1]之間明顯存在異常,這說明類別5 里面可能存在異常數據。因此,為進一步確認,查詢原始數據如表2所示。
從表2中開始看出,該類數據都為CR400AF2004 列車04 車廂的數據,空調控制方式都為集控,制冷系統(tǒng)1 低壓壓力都為4080,溫度檢測值與目標溫度值的差值范圍為-6℃~2℃,與業(yè)務專家確認制冷系統(tǒng)1 低壓壓力數據確實存在異常,實際為壓力傳感器發(fā)生故障。
圖1:空調故障模型建立的流程圖
圖2:肘部法確定最佳K 值
3.2.2 基于異常數據標簽化的決策樹模型構建
通過對空調特征數據的分析,進一步進行聚類分析,找出異常數據,并將聚類后得到的異常數據標記為1,其余類別的數據標記為0,使用標記后的2017-10-01 到2017-10-07 的空調數據,利用CART 決策樹算法[3]進行模型訓練,得到決策樹模型如圖3。
通過決策樹模型可以看出,只要變量X[6]<=2720,就把空調歸為正常數據,X[6]代表變量“制冷系統(tǒng)2 低壓壓力”,由此抽象出空調異常檢測的規(guī)則:制冷系統(tǒng)2低壓壓力 > 2720Kpa,則報出“空調壓力異?!薄?/p>
表1:各類別聚類中心展示表
表2:部分原始數據表
表3:部分空調故障預警報表
圖3:空調故障預警決策樹模型
首先利用測試集驗證模型效果,最終從748058 條數據中檢測出3459 條異常數據,部分數據展示如表所示3。
與業(yè)務部門確認該數據確實為異常數據,為壓力傳感器故障,目前已經更換壓力傳感器,2017-10-22~2017-11-13 CR400AF2004列車04 車廂已經不再出現該現象。由此說明模型確實能檢測出異常(壓力傳感器異常),且效果良好。
通過對空調數據挖掘分析,通過聚類算法分離出來異常數據,并進行打標簽,用于帶標簽的數據進行決策樹分析,最終得到故障預警規(guī)則,并實現對于空調故障的預警,是一種可以推廣的空調故診斷新方法。