董寅超,趙林海
(北京交通大學(xué) 電子信息工程學(xué)院,北京 100044)
ZPW-2000系列無絕緣軌道電路(jointless track circuit,JTC)作為信號(hào)系統(tǒng)的重要組成部分,其故障會(huì)直接影響列車占用檢查和向列車傳遞相關(guān)信息[1]。目前,國內(nèi)外主要利用檢測車對(duì)JTC的健康狀態(tài)進(jìn)行檢測[2]。因此,基于檢測車數(shù)據(jù)研究JTC健康狀態(tài)綜合評(píng)價(jià)方法,提升JTC動(dòng)態(tài)性能評(píng)估的準(zhǔn)確性,全面掌握其健康狀態(tài)發(fā)展趨勢,對(duì)于實(shí)現(xiàn)我國鐵路“狀態(tài)修”[3]的發(fā)展目標(biāo),具有非常重要的研究意義。
在目前相關(guān)研究中,文獻(xiàn)[4]提出基于數(shù)據(jù)融合的JTC健康狀態(tài)綜合分析系統(tǒng);文獻(xiàn)[5]提出基于層次分析法和模糊綜合評(píng)價(jià)的JTC健康狀態(tài)綜合評(píng)價(jià)方法;文獻(xiàn)[6]基于模糊綜合評(píng)價(jià)法對(duì)JTC的健康狀態(tài)進(jìn)行綜合評(píng)價(jià);文獻(xiàn)[7]提出基于熵權(quán)法和支持向量數(shù)據(jù)描述的健康狀態(tài)評(píng)價(jià)模型;文獻(xiàn)[8]基于層次分析法構(gòu)建JTC運(yùn)行質(zhì)量指數(shù)TEI,實(shí)現(xiàn)了JTC健康狀態(tài)的綜合評(píng)價(jià);文獻(xiàn)[9]基于混合整數(shù)線性規(guī)劃對(duì)文獻(xiàn)[8]中TEI的權(quán)重進(jìn)行了優(yōu)化。
然而,上述研究仍存在一些不足。文獻(xiàn)[4,7]對(duì)JTC健康狀態(tài)的評(píng)價(jià)結(jié)果僅為“健康”和“故障”兩個(gè)等級(jí),不能區(qū)分出JTC性能已下降但還未故障的狀態(tài)。文獻(xiàn)[4,6-9]忽視了JTC軌面不同位置補(bǔ)償電容故障的差異性;文獻(xiàn)[5]考慮了這一差異性,但其所設(shè)計(jì)的各補(bǔ)償電容權(quán)重系數(shù)缺乏理論依據(jù)。文獻(xiàn)[4-6]和[8]僅使用專家打分法確定指標(biāo)權(quán)重,使評(píng)價(jià)結(jié)果易受專家主觀經(jīng)驗(yàn)的影響。
針對(duì)上述研究不足,本文首先基于JTC和檢測車的工作原理,確定JTC健康狀態(tài)評(píng)價(jià)指標(biāo)及評(píng)價(jià)函數(shù)。然后,基于JTC仿真模型[10],采用故障注入[11]技術(shù),對(duì)JTC常見故障進(jìn)行仿真,構(gòu)建JTC各狀態(tài)下的檢測車檢測數(shù)據(jù)集。接下來,使用半監(jiān)督聚類算法,融合傳統(tǒng)層次分析法的專家經(jīng)驗(yàn)和數(shù)據(jù)中蘊(yùn)含的信息,對(duì)數(shù)據(jù)集進(jìn)行標(biāo)注。最后,基于XGBoost模型和SHAP計(jì)算各評(píng)價(jià)指標(biāo)的權(quán)重,構(gòu)造JTC健康分?jǐn)?shù)(Health Index,HI),實(shí)現(xiàn)對(duì)JTC健康狀態(tài)的評(píng)價(jià)。實(shí)驗(yàn)表明,本文方法具有準(zhǔn)確、合理和泛化性強(qiáng)等優(yōu)點(diǎn),克服了現(xiàn)有方法的不足,提高了檢測車對(duì)JTC的健康評(píng)價(jià)能力,為實(shí)現(xiàn)JTC的“狀態(tài)修”提供了依據(jù)。
檢測車的系統(tǒng)組成與工作原理見圖1。
圖1 檢測車的系統(tǒng)組成與工作原理
JTC信號(hào)Ufs(t)由發(fā)送器產(chǎn)生,經(jīng)過發(fā)送電纜、發(fā)送端匹配變壓器和發(fā)送端調(diào)諧區(qū)傳送到由鋼軌、道床、補(bǔ)償電容等組成的鋼軌傳輸線路。
Ufs(t)為相位連續(xù)的頻移鍵控信號(hào),其時(shí)域表達(dá)式為[12]
(1)
式中:Afs、fc、Δfp和φ0分別為Ufs(t)的振幅、載頻頻率、頻偏和初始相位;sm(t)為頻率為fd、占空比為50%的方波調(diào)制信號(hào),通常稱fd為低頻信息,其取不同值代表對(duì)列車不同的控制信息。
在ZPW-2000A型無絕緣軌道電路中,信號(hào)特征參數(shù)Afs、fc、Δfp和fd具有不同的取值。根據(jù)振幅大小不同,Afs可分為1級(jí)電平到5級(jí)電平,其范圍依次為161~170、146~154、128~135、104.5~110.5、75.0~79.5 V;載頻頻率fc有1 700、2 000、2 300、2 600 Hz共4種基準(zhǔn)載頻,且在實(shí)際應(yīng)用中又派生出“-1型載頻”和“-2型載頻”,分別在基準(zhǔn)載頻的基礎(chǔ)上加1.4 Hz和減1.3 Hz;頻偏Δfp為11 Hz;低頻fd有18個(gè)取值,為10.3+1.1×n,n=0,1,2,…,17。
當(dāng)檢測車進(jìn)入JTC區(qū)段時(shí),其第一輪對(duì)將JTC信號(hào)分路,形成短路電流,同時(shí)在TCR天線中形成感應(yīng)電壓信號(hào),再通過TCR主機(jī)解出該信號(hào)中的低頻信息,實(shí)現(xiàn)地-車間信息傳輸。
檢測車搭載有信號(hào)動(dòng)態(tài)檢測系統(tǒng),能夠在列車運(yùn)行中對(duì)JTC的狀態(tài)進(jìn)行檢測[13]。其中,信號(hào)動(dòng)態(tài)檢測系統(tǒng)從軌道電路信息接收單元(track circuit reader, TCR)主機(jī)中獲取數(shù)據(jù),實(shí)現(xiàn)對(duì)JTC信號(hào)傳輸特性、頻譜特性和干擾信號(hào)的檢測;牽引回流檢測天線(ASTM)接收兩條鋼軌上的牽引回流;補(bǔ)償電容檢測發(fā)送天線(CTM-S)持續(xù)向軌面發(fā)射特定頻率的檢測信號(hào),使得鋼軌-輪對(duì)組成的回路內(nèi)產(chǎn)生感應(yīng)電流,并在補(bǔ)償電容檢測接收天線(CTM-R)中生成相應(yīng)的感應(yīng)電壓信號(hào),通過該信號(hào)的幅值包絡(luò)實(shí)現(xiàn)對(duì)補(bǔ)償電容的檢測。
檢測車與JTC有關(guān)的檢測信息主要包括檢測車所處的公里標(biāo)以及各公里標(biāo)處的檢測車速度、JTC信號(hào)載頻和低頻、50 Hz不平衡牽引回流干擾幅值、4種載頻對(duì)應(yīng)的感應(yīng)電壓幅值和補(bǔ)償電容反饋信號(hào)幅值等。
由檢測車的工作原理可知,檢測車數(shù)據(jù)能夠反映JTC的健康狀態(tài),具體表現(xiàn)在以下三個(gè)方面:
1)信號(hào)頻率
JTC信號(hào)載頻和低頻發(fā)生偏移,會(huì)導(dǎo)致TCR設(shè)備不能正常解碼。載頻和低頻的偏移量可以從檢測車數(shù)據(jù)中直接提取。
2)干擾信號(hào)
JTC信號(hào)傳輸過程中,會(huì)出現(xiàn)頻率為50 Hz的不平衡牽引回流干擾、相鄰區(qū)段的鄰區(qū)段干擾和相鄰線路的鄰線干擾[9],會(huì)影響TCR設(shè)備的正常工作。干擾信號(hào)的強(qiáng)度可以通過檢測車數(shù)據(jù)中不同載頻的感應(yīng)電壓幅值反映。
3)組件參數(shù)
相關(guān)研究[10,14]表明,補(bǔ)償電容值、調(diào)諧單元故障情況、鋼軌間的道砟電阻等組件參數(shù)的變化,會(huì)影響JTC信號(hào)的傳輸。這些參數(shù)可基于檢測車的感應(yīng)電壓幅值數(shù)據(jù),通過相關(guān)算法[15-17]進(jìn)行提取。由調(diào)諧單元的原理[12]可知,鄰區(qū)段干擾與調(diào)諧單元故障直接相關(guān),因此,調(diào)諧單元故障情況也可通過鄰區(qū)段干擾表征。
2.1.1 信號(hào)頻率評(píng)價(jià)指標(biāo)及閾值選取
對(duì)于JTC信號(hào)載頻和低頻,定義載頻偏移度Ofc和低頻偏移度Ofd評(píng)價(jià)指標(biāo)的計(jì)算式為
(2)
ZPW-2000A型JTC信號(hào)載頻偏移和調(diào)制低頻偏移的允許范圍分別是±0.15、±0.03 Hz[12],以此為標(biāo)準(zhǔn)分別設(shè)置指標(biāo)Ofc和Ofd的評(píng)價(jià)閾值分別為
(3)
2.1.2 干擾信號(hào)評(píng)價(jià)指標(biāo)及閾值選取
(4)
(5)
對(duì)于鄰區(qū)段干擾和鄰線干擾,可通過干擾信號(hào)的幅值和持續(xù)的長度描述。分別選取JTC區(qū)段內(nèi)各公里標(biāo)處的鄰區(qū)段干擾信號(hào)和鄰線干擾信號(hào)與本區(qū)段信號(hào)的幅值平方和之比作為評(píng)價(jià)指標(biāo)Rlq和Rlx,即有
(6)
通過對(duì)待評(píng)價(jià)數(shù)據(jù)所在線路的檢測車數(shù)據(jù)中無故障JTC的Rlq和Rlx取值進(jìn)行統(tǒng)計(jì)分析,即可確定相應(yīng)閾值。
2.1.3 組件參數(shù)評(píng)價(jià)指標(biāo)及閾值選取
道砟電阻rd使得感應(yīng)電壓幅值由發(fā)送端到接收端呈現(xiàn)出遞減趨勢,且遞減程度會(huì)隨著rd的增大而降低[10],見圖2,圖中,xC1、xC2、…分別代表補(bǔ)償電容C1、C2、…處公里標(biāo)。
圖2 道砟電阻對(duì)感應(yīng)電壓的影響
(7)
不同位置處的補(bǔ)償電容發(fā)生斷線故障對(duì)最小短路電流幅值的影響程度不同[19],見圖3。
圖3 補(bǔ)償電容斷線位置對(duì)短路電流的影響
為了設(shè)計(jì)基于位置的補(bǔ)償電容評(píng)價(jià)指標(biāo),本文首先定義補(bǔ)償電容狀態(tài)向量C
C=[c1…ci…cNC]T
(8)
式中:NC為JTC區(qū)段內(nèi)的補(bǔ)償電容個(gè)數(shù)。
(9)
式中:Ith為鋼軌最小短路電流值[18]。
本文所提指標(biāo)都是定量指標(biāo),參考現(xiàn)有研究[4-9],將JTC健康狀態(tài)定量評(píng)估類別劃分為5個(gè),各類別與分?jǐn)?shù)的對(duì)應(yīng)關(guān)系如表1所示。
表1 JTC健康狀態(tài)類別與分?jǐn)?shù)對(duì)應(yīng)表
對(duì)于成本型指標(biāo),指標(biāo)取值越小得分越高。定義Z型評(píng)價(jià)函數(shù)FZ(u,aZ,bZ)為
FZ(u,aZ,bZ)=
(10)
Z型評(píng)價(jià)函數(shù)曲線見圖4。
圖4 Z型評(píng)價(jià)函數(shù)曲線
對(duì)于效益型指標(biāo),指標(biāo)取值越大得分越高。定義S型評(píng)價(jià)函數(shù)FS(u,aS,bS)為
FS(u,aS,bS)=
(11)
S型評(píng)價(jià)函數(shù)曲線見圖5。
圖5 S型評(píng)價(jià)函數(shù)曲線
通過各指標(biāo)的最大閾值和最小閾值可以計(jì)算式(10)、式(11)中的參數(shù),進(jìn)而得到各指標(biāo)的評(píng)價(jià)函數(shù)。
根據(jù)現(xiàn)場調(diào)研與文獻(xiàn)研究[21-22],本文對(duì)頻率偏移、道砟電阻偏小和補(bǔ)償電容斷線等JTC典型故障及其故障組合情況下的數(shù)據(jù)進(jìn)行仿真,并根據(jù)第2節(jié)中確定的評(píng)價(jià)指標(biāo)和評(píng)價(jià)函數(shù),進(jìn)行指標(biāo)提取和評(píng)分,構(gòu)成JTC狀態(tài)數(shù)據(jù)集D0,即對(duì)D0中的樣本si,有
si=[sfc,isfd,is50,islq,islx,isk,iscap,i]T
(12)
基于以上所選的評(píng)價(jià)指標(biāo),設(shè)計(jì)一種基于機(jī)器學(xué)習(xí)的JTC健康狀態(tài)綜合評(píng)價(jià)方法,見圖6。
圖6 JTC健康狀態(tài)綜合評(píng)價(jià)方法
首先,本文基于半監(jiān)督聚類算法進(jìn)行數(shù)據(jù)標(biāo)注,生成帶健康狀態(tài)標(biāo)簽的JTC狀態(tài)數(shù)據(jù)集;然后,訓(xùn)練XGBoost模型并基于SHAP計(jì)算各評(píng)價(jià)指標(biāo)的權(quán)重,對(duì)于待評(píng)價(jià)的檢測數(shù)據(jù),進(jìn)行指標(biāo)提取和評(píng)分后,使用直接加權(quán)平均的方法構(gòu)建HI,并基于表1中健康狀態(tài)類別,實(shí)現(xiàn)綜合評(píng)價(jià)??紤]鐵路現(xiàn)場環(huán)境的復(fù)雜性,若評(píng)價(jià)結(jié)果出現(xiàn)偏差,則通過鐵路現(xiàn)場實(shí)測結(jié)果對(duì)訓(xùn)練集進(jìn)行補(bǔ)充,對(duì)XGBoost模型進(jìn)行增量訓(xùn)練,以實(shí)現(xiàn)對(duì)指標(biāo)權(quán)重的更新。
基于半監(jiān)督聚類的數(shù)據(jù)標(biāo)注算法流程見圖7,其主要包括基于AHP的約束信息構(gòu)建、基于局部密度的聚類中心初始化和通過成對(duì)約束集指導(dǎo)聚類三個(gè)步驟。
圖7 基于半監(jiān)督聚類的數(shù)據(jù)標(biāo)注算法流程
Step1基于AHP的約束信息構(gòu)建
層次分析法[23](analytic hierarchy process, AHP)作為一種常用的評(píng)價(jià)方法已經(jīng)被用于JTC的健康狀態(tài)評(píng)價(jià)[5,8],本文基于AHP構(gòu)建算法所需的約束信息。
利用AHP計(jì)算指標(biāo)權(quán)重向量wahp,進(jìn)而對(duì)D0進(jìn)行評(píng)價(jià),并根據(jù)表1進(jìn)行健康狀態(tài)類別的劃分。對(duì)D0中不同類別的樣本,各隨機(jī)抽取2 000個(gè),組成數(shù)據(jù)集D,用于后續(xù)的數(shù)據(jù)標(biāo)注以及指標(biāo)權(quán)重確定。
采用分層抽樣法[24]按照各類別樣本的比例從D中抽取nS的樣本構(gòu)建Seed集,記為DS,即
DS={(si,e(si)]|i=1,…,|DS|c}
(13)
式中:e(si)為si基于AHP得到的健康狀態(tài)類別,運(yùn)算符|·|c用于計(jì)算集合DS的元素個(gè)數(shù)。
隨后,根據(jù)DS構(gòu)造must-link約束集Dml和cannot-link約束集Dcl。從DS中任選兩個(gè)樣本(si,e(si))和(sj,e(sj)),按照式(14)構(gòu)造約束對(duì),直到|Dcl|c和|Dml|c達(dá)到預(yù)設(shè)值Npw。
(14)
Step2基于局部密度的聚類中心初始化
考慮原始K-means算法的初始聚類中心是隨機(jī)選取的,會(huì)影響聚類效果[25]。因此,本文結(jié)合局部密度[26]進(jìn)行聚類中心的初始化,并在此基礎(chǔ)上進(jìn)行約束半監(jiān)督聚類。
對(duì)于Seed集DS中的樣本點(diǎn)(si,e(si)),通過高斯核函數(shù)定義其局部密度ρi為
(15)
式中:dc為截?cái)嗑嚯x[26];dwe(si,sj)為si和sj之間的加權(quán)歐氏距離,針對(duì)本文的健康評(píng)價(jià)問題,選擇基于AHP獲得的指標(biāo)權(quán)重向量wahp作為距離計(jì)算權(quán)重,則基于局部密度的聚類中心初始化算法可用如下偽代碼表示:
基于局部密度的聚類中心初始化算法
輸入:Seed集DS,截?cái)嗑嚯xdc,指標(biāo)權(quán)重wahp
輸出:初始聚類中心集合DZ
1. 利用式(15)計(jì)算DS中各樣本的局部密度;
2. 按照局部密度從大到小對(duì)樣本進(jìn)行排序;
3. 將局部密度最大的樣本s1加入集合DZ;
4. while 樣本si的局部密度大于等于平均局部密度
5. ifdwe(si,sj)≥2dc,sj∈DZ
6. 將樣本si加入DZ;
7.i=i+1;
8. return 聚類中心集合DZ
Step3通過成對(duì)約束集指導(dǎo)聚類
對(duì)于D中每個(gè)樣本(si,e(si)),在不違反成對(duì)約束的條件下進(jìn)行劃分,則有
(16)
式中:?為距離(si,e(si))最近的聚類中心的類別。
Step4更新聚類中心
對(duì)zj∈DZ,重新計(jì)算聚類中心zj
(17)
式中:Dj為數(shù)據(jù)集D中以zj為中心的簇。通過交替更新樣本類別和聚類中心,直到DZ中聚類中心的變化量小于給定閾值或迭代次數(shù)達(dá)到最大值。
Step5合并聚類
按照簇的類別進(jìn)行合并,將si的類別記為yi,即可得到帶健康狀態(tài)標(biāo)簽的JTC狀態(tài)數(shù)據(jù)集DL
DL={(si,yi)|si∈D}
(18)
采用分層抽樣法[24]從DL中隨機(jī)抽取80%的數(shù)據(jù)作為訓(xùn)練集DLT,采用交叉驗(yàn)證[25]的方式進(jìn)行模型的訓(xùn)練和超參數(shù)優(yōu)化;20%的數(shù)據(jù)作為測試集DLE用于模型性能評(píng)估。
3.3.1 基于XGBoost和SHAP的指標(biāo)權(quán)重確定
XGBoost(eXtreme gradient boosting)[27]是一種基于樹的梯度提升集成學(xué)習(xí)算法。該算法在梯度提升決策樹(gradient boosting decision tree,GBDT)[28]的基礎(chǔ)上進(jìn)行了多項(xiàng)優(yōu)化,具有訓(xùn)練速度快、精度高、易于調(diào)參和泛化性能好等優(yōu)點(diǎn)[29]。SHAP(SHapley additive exPlanations)[30]是一種利用博弈論中的Shapley值[31]的與模型無關(guān)的可解釋性方法,可以實(shí)現(xiàn)對(duì)模型特征重要度和特征依賴等的解釋?;赬GBoost和SHAP的指標(biāo)權(quán)重計(jì)算過程示意見圖8。
圖8 基于XGBoost和SHAP的指標(biāo)權(quán)重計(jì)算過程示意
模型的生成主要包括模型初始化、構(gòu)造最優(yōu)決策樹和模型更新3個(gè)部分。模型訓(xùn)練完成后,基于訓(xùn)練集計(jì)算各指標(biāo)的Shapley值,進(jìn)行相應(yīng)的處理即可得到各指標(biāo)的權(quán)重。具體流程如下:
1)模型初始化
對(duì)于訓(xùn)練集
DLT={(si,yi)|i=1,2,…,|DLT|c}
(19)
對(duì)yi進(jìn)行one-hot編碼有
(20)
對(duì)各類別模型的初值進(jìn)行初始化有
(21)
2)構(gòu)造最優(yōu)決策樹
(22)
式中:sample(DLT,nx,nf)表示從訓(xùn)練集DLT中有放回地隨機(jī)抽取比例為nx的數(shù)據(jù)樣本,并無放回地隨機(jī)選取這些樣本比例為nf的部分指標(biāo),生成新的數(shù)據(jù)集。
Step2選擇最優(yōu)切分指標(biāo)s*和最優(yōu)切分點(diǎn)t*。
對(duì)于本文的多分類問題,損失函數(shù)為
(23)
(24)
(25)
(26)
(27)
Step3生成子節(jié)點(diǎn)。
對(duì)所有未遍歷過的節(jié)點(diǎn)進(jìn)行分裂,直到?jīng)Q策樹深度達(dá)到預(yù)設(shè)的最大深度d,停止迭代,并令未分裂的節(jié)點(diǎn)成為葉節(jié)點(diǎn),計(jì)算所有Na個(gè)葉節(jié)點(diǎn)的權(quán)重wa,i為
(28)
3)模型更新
(29)
當(dāng)模型迭代次數(shù)達(dá)到設(shè)置的最大迭代輪數(shù)M時(shí),則生成了圖8中的XGBoost模型。
4)指標(biāo)權(quán)重計(jì)算
(30)
(31)
(32)
(33)
3.3.2 加權(quán)平均構(gòu)建健康分?jǐn)?shù)
首先,基于XGBoost模型,按照式(30)~式(33)計(jì)算指標(biāo)權(quán)重向量wxgb;然后,采用直接加權(quán)的方法,對(duì)于給定的JTC區(qū)段,獲得各指標(biāo)的分?jǐn)?shù)向量s,最后根據(jù)式(34)計(jì)算健康分?jǐn)?shù)HI
HI=sTwxgb
(34)
選取檢測車在某線路上檢測到的典型JTC區(qū)段為實(shí)驗(yàn)對(duì)象,驗(yàn)證本文所提JTC健康狀態(tài)綜合評(píng)價(jià)方法各步驟的功能。該JTC在補(bǔ)償電容、牽引回流干擾和低頻頻率方面存在一些問題,但現(xiàn)場反映仍能夠正常工作,其檢測數(shù)據(jù)見圖9。
圖9 典型JTC區(qū)段實(shí)際檢測數(shù)據(jù)
由圖9可知,在信號(hào)頻率方面,該區(qū)段JTC信號(hào)的低頻發(fā)生偏移,載頻正常;在干擾信號(hào)方面,區(qū)段內(nèi)補(bǔ)償電容C7和C8之間存在較大的牽引回流干擾,鄰線干擾和鄰區(qū)段干擾較低;在組件參數(shù)方面,該區(qū)段內(nèi)補(bǔ)償電容C3和C17發(fā)生斷線故障,道砟電阻正常。
4.1.1 干擾信號(hào)指標(biāo)閾值確定
對(duì)277組該線路上無故障JTC的指標(biāo)Rlq和Rlx數(shù)據(jù)進(jìn)行統(tǒng)計(jì),結(jié)果見圖10。由圖10可見,98.2%的JTC的Rlq小于0.46%,98.2%的JTC的Rlx小于0.73%,以此為標(biāo)準(zhǔn)分別設(shè)置指標(biāo)Rlq和Rlx的評(píng)價(jià)閾值為
圖10 鄰區(qū)段干擾和鄰線干擾指標(biāo)頻率分布
(35)
4.1.2 基于半監(jiān)督聚類的數(shù)據(jù)標(biāo)注
首先,采用AHP計(jì)算評(píng)價(jià)指標(biāo)的權(quán)重向量wahp
wahp=[0.07 0.27 0.03 0.15 0.15 0.08 0.25]T
(36)
用于約束信息DS、Dml和Dcl的構(gòu)建。
然后,根據(jù)3.2節(jié)中的步驟,采用基于半監(jiān)督聚類的數(shù)據(jù)標(biāo)注算法,對(duì)D進(jìn)行標(biāo)注與劃分,得到帶健康狀態(tài)標(biāo)簽的訓(xùn)練集DLT和測試集DLE。其中,半監(jiān)督聚類算法的初始參數(shù)由基于簇內(nèi)凝聚度[25]的貝葉斯超參數(shù)搜索算法[32]確定。最終選定,DS的比例nS為8.54%,Npw為2 600。
4.1.3 健康分?jǐn)?shù)的構(gòu)建與評(píng)價(jià)
根據(jù)3.3.1節(jié)中的步驟訓(xùn)練XGBoost模型,用于指標(biāo)權(quán)重的確定。其中,XGBoost模型的參數(shù)由基于10折交叉驗(yàn)證[25]的貝葉斯超參數(shù)搜索算法[32]確定。最終選定,學(xué)習(xí)率η為0.49,決策樹最大深度d為13,節(jié)點(diǎn)分裂所需的最小增益值σ為8,子節(jié)點(diǎn)最小樣本權(quán)重和c為0.60,行采樣比例nx為89.8%,列采樣比例nf為79.1%,正則化系數(shù)λ為0.59,正則化系數(shù)γ為0.07,模型迭代次數(shù)M為171。
基于訓(xùn)練完成的XGBoost模型,按照式(30)~式(33)計(jì)算指標(biāo)權(quán)重向量wxgb
wxgb=[0.04 0.34 0.02 0.16 0.16 0.05 0.22]T
(37)
基于各指標(biāo)的評(píng)價(jià)函數(shù),得到各指標(biāo)的得分sfc、sfd、s50、slq、slx、sk和scap分別為97.09,60.00,85.88,99.55,99.99,100.00,63.31。其中,區(qū)段內(nèi)存在牽引回流干擾,得分s50為85.88分;補(bǔ)償電容C3和C17發(fā)生斷線故障,且低頻偏移較大,二者得分scap和sfd分別為63.31分和60分。
對(duì)s=[sfcsfds50slqslxskscap]T,基于式(34)和式(37)計(jì)算得到健康分?jǐn)?shù)HI=77.62,基于表1得到健康狀態(tài)類別為“中”??紤]圖9中的JTC接收端電壓高于相應(yīng)閾值,且TCR設(shè)備能夠正常解碼,列車仍能夠正常運(yùn)行,故本評(píng)價(jià)結(jié)果為“中”是合理的。
4.2.1 性能驗(yàn)證
由于鐵路現(xiàn)場JTC發(fā)生嚴(yán)重故障導(dǎo)致無法正常運(yùn)行的情況較少,為了保證性能驗(yàn)證數(shù)據(jù)集的完備性,本文基于通過仿真與標(biāo)注得到的測試集DLE驗(yàn)證方法的性能。測試集DLE由2 000個(gè)樣本組成,其中,不同健康狀態(tài)的樣本個(gè)數(shù)如表2所示。
表2 測試集中各健康狀態(tài)的樣本個(gè)數(shù)
利用測試集DLE對(duì)模型進(jìn)行測試,獲取分類結(jié)果的混淆矩陣[25]Q={Qij}(1≤i,j≤NL),其中的元素Qij為實(shí)際類別為i且被預(yù)測為類別j的樣本個(gè)數(shù)?;诨煜仃嘠,可以定義Kappa系數(shù)[33]KP為
(38)
模型在測試集DLE的Kappa系數(shù)KP為0.919,根據(jù)相關(guān)研究[33],KP在[0.810,1.000]范圍內(nèi),模型的性能較好,且模型的OA較高,為93.6%,說明模型具有良好的泛化性能。
隨后,將“不合格”類別算作故障,將其他4種類別算作正常,將多分類問題轉(zhuǎn)化為二分類問題,設(shè):
NNF表示實(shí)際為正常而預(yù)測為故障的樣本個(gè)數(shù);NNN表示實(shí)際為正常而預(yù)測為正常的樣本個(gè)數(shù);NFN表示實(shí)際為故障而預(yù)測為正常的樣本個(gè)數(shù);NFF表示實(shí)際為故障而預(yù)測為故障的樣本個(gè)數(shù)。
則模型的虛警率[25]FP、漏警率[25]FN和準(zhǔn)確率[25]AC可以定義為
(39)
測試集DLE上的FP、FN和AC分別為3.5%、0.77%和98.55%。模型的FP和FN較低,且AC較高,說明模型具有較高的準(zhǔn)確性。
4.2.2 指標(biāo)權(quán)重合理性驗(yàn)證
對(duì)于測試集DLE,分別根據(jù)本文所提方法、AHP[23]、熵權(quán)法[34]和組合賦權(quán)法[35]得到的權(quán)重計(jì)算健康分?jǐn)?shù)HI,并按照HI從高到低進(jìn)行排序,則第i種方法的兼容度[36]Ri定義為
(40)
第i種方法的差異度[36]δi為
(41)
分別計(jì)算4種方法的兼容度和差異度,如表3所示。
表3 不同指標(biāo)權(quán)重確定方法對(duì)比
根據(jù)“兼容度最大,差異度最小”原則[36],本文所提的指標(biāo)權(quán)重確定方法是最合理的。
4.2.3 算法在補(bǔ)償電容不同位置故障情況下的結(jié)果分析
以圖3所示的補(bǔ)償電容C2和C6分別斷線的情況為例進(jìn)行分析,將本文所提方法與文獻(xiàn)[5]和文獻(xiàn)[9]所提方法進(jìn)行對(duì)比,補(bǔ)償電容得分情況如表4所示,評(píng)價(jià)結(jié)果情況如表5所示。
表4 補(bǔ)償電容得分情況對(duì)比
表5 評(píng)價(jià)結(jié)果情況對(duì)比
ZPW-2000系列JTC是我國鐵路信號(hào)設(shè)備的重要基礎(chǔ)設(shè)備,其安全可靠的運(yùn)行對(duì)保障行車安全、提高行車效率至關(guān)重要。因此,為了克服現(xiàn)有JTC健康狀態(tài)綜合評(píng)價(jià)方法的不足,本文提出基于機(jī)器學(xué)習(xí)的JTC健康狀態(tài)綜合評(píng)價(jià)方法。首先,基于JTC的工作原理和檢測車的數(shù)據(jù)分析,構(gòu)建能夠反映JTC健康狀態(tài)的評(píng)價(jià)指標(biāo)和評(píng)價(jià)函數(shù);然后,基于JTC仿真模型,使用故障注入技術(shù)對(duì)JTC常見故障模式下的數(shù)據(jù)進(jìn)行仿真,構(gòu)成JTC狀態(tài)數(shù)據(jù)集,并基于半監(jiān)督聚類算法進(jìn)行數(shù)據(jù)標(biāo)注;最后,基于XGBoost模型和SHAP計(jì)算各評(píng)價(jià)指標(biāo)的權(quán)重,構(gòu)造JTC健康分?jǐn)?shù)HI,實(shí)現(xiàn)JTC健康狀態(tài)的綜合評(píng)價(jià)。
實(shí)驗(yàn)表明,本文方法能夠細(xì)化評(píng)價(jià)等級(jí)、考慮故障補(bǔ)償電容位置的影響、降低傳統(tǒng)評(píng)價(jià)過程中的主觀性,可有效提高檢測車對(duì)JTC的健康評(píng)價(jià)能力,為實(shí)現(xiàn)“狀態(tài)修”提供依據(jù)。