秦哲 杜馨瑜 李穎 王昊
1.中國(guó)鐵道科學(xué)研究院研究生部,北京 100081;2.中國(guó)鐵道科學(xué)研究院集團(tuán)有限公司基礎(chǔ)設(shè)施檢測(cè)研究所,北京 100081
鐵路軌道的平面線形一般分為直線、緩和曲線、圓曲線三種。在列車(chē)動(dòng)力作用下,曲線軌道的變形不斷累積,容易出現(xiàn)方向錯(cuò)亂。為確保行車(chē)安全平穩(wěn),須定期檢查曲線方向,必要時(shí)進(jìn)行曲線整正,使其恢復(fù)到原設(shè)計(jì)位置。軌道平面曲線的穩(wěn)定性、平順度和正確的幾何形位直接影響到列車(chē)的運(yùn)行速度和運(yùn)行安全[1-2]。
現(xiàn)有軌道平面線形判別參數(shù)可以識(shí)別出半徑在150~8 000 m的曲線,但對(duì)于半徑8 000 m以上的曲線須要更換軌道平面線形判別參數(shù)[3]。余寧等[4]提出的基于卷積神經(jīng)網(wǎng)絡(luò)的鐵路曲線特征點(diǎn)檢測(cè)算法可以進(jìn)行離線軌道平面線形判別,但無(wú)法嵌入到目前實(shí)際使用的實(shí)時(shí)軌道幾何參數(shù)檢測(cè)系統(tǒng)GJ?6中,不具備現(xiàn)場(chǎng)檢測(cè)實(shí)用性。
本文利用軌道平面線形判別參數(shù)與曲線半徑之間的關(guān)系,針對(duì)性地設(shè)計(jì)多維特征,并設(shè)計(jì)在線隨機(jī)森林分類(lèi)算法嵌入到軌道幾何參數(shù)實(shí)時(shí)檢測(cè)系統(tǒng)GJ?6 中,以實(shí)現(xiàn)自動(dòng)切換軌道平面線形判別參數(shù),提高軌道平面線形判別的準(zhǔn)確率。
最新研制的數(shù)字式軌道檢測(cè)系統(tǒng)將多個(gè)分立式的慣性傳感器集成為整體組件,安裝于檢測(cè)梁上,如圖1 所示。該系統(tǒng)結(jié)構(gòu)簡(jiǎn)單,全部采用數(shù)字信號(hào)進(jìn)行傳輸,有效避免了模擬信號(hào)在較長(zhǎng)傳輸路徑上的電磁干擾,且信號(hào)的分辨率顯著提高,同時(shí)檢測(cè)精度有所提升[5-6]。
圖1 數(shù)字式軌道檢測(cè)系統(tǒng)檢測(cè)梁及懸掛裝置
用于軌道平面線形判別的輸入?yún)?shù)為曲率和曲率變化率。數(shù)字式軌道檢測(cè)系統(tǒng)搖頭陀螺位于檢測(cè)梁中心,其輸出信號(hào)經(jīng)過(guò)抗混疊濾波器后進(jìn)行0.25 m間隔的空間采樣,再經(jīng)過(guò)數(shù)字補(bǔ)償濾波器消除速度對(duì)信號(hào)的影響,最后計(jì)算得到曲率和曲率變化率,計(jì)算公式為
式中:ρ為曲率;dρ為曲率變化率;ω為搖頭角速率;T為采樣時(shí)間間隔;Δx為采樣空間間隔。
數(shù)字式軌道檢測(cè)系統(tǒng)的軌道平面線形判別方法和關(guān)鍵參數(shù)與文獻(xiàn)[3]基本一致,其中關(guān)鍵參數(shù)為曲率變化跟蹤量調(diào)整值、曲率變化跟蹤量閾值、范圍外曲率變化率閾值、范圍內(nèi)曲率變化率閾值。為判別半徑R>8 000 m 的軌道平面曲線,須手動(dòng)切換上述關(guān)鍵參數(shù)。為了提高軌道平面曲線判別的準(zhǔn)確性與簡(jiǎn)易性,本文提出使用隨機(jī)森林算法根據(jù)平面曲線半徑分類(lèi)結(jié)果對(duì)關(guān)鍵參數(shù)進(jìn)行實(shí)時(shí)切換的方法。
隨機(jī)森林算法是以決策樹(shù)為基學(xué)習(xí)器的集成監(jiān)督學(xué)習(xí)算法,其具有一定的抗噪聲能力,可以處理非線性數(shù)據(jù)和高維數(shù)據(jù),對(duì)數(shù)據(jù)集的適應(yīng)能力強(qiáng),訓(xùn)練速度快,實(shí)現(xiàn)簡(jiǎn)單,精度高[7-8]?;谠撍惴ǖ那€半徑判別主要包含三個(gè)步驟:數(shù)據(jù)預(yù)處理、特征提取、模型訓(xùn)練和測(cè)試。
根據(jù)設(shè)備臺(tái)賬和軌道幾何檢測(cè)數(shù)據(jù)匹配曲線的起點(diǎn)和終點(diǎn)里程,生成曲線半徑識(shí)別標(biāo)準(zhǔn)數(shù)據(jù)庫(kù),流程如圖2所示。
圖2 生成曲線半徑識(shí)別標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)流程
按150個(gè)采樣點(diǎn)的長(zhǎng)度對(duì)每條曲線的檢測(cè)數(shù)據(jù)進(jìn)行分段,對(duì)分段后的數(shù)據(jù)進(jìn)行特征提取。在不同的曲線半徑下,現(xiàn)有平面曲線分段數(shù)據(jù)(曲率A1和曲率變化率A2)的特征包括:①典型連續(xù)數(shù)據(jù)特征Ac——均值、方差;②典型離散數(shù)據(jù)特征Ad——上四分位數(shù)、下四分位數(shù)、中位數(shù)、眾數(shù)、最大值、最小值;③其他特征Ao——熵、偏度系數(shù)、峰度系數(shù)、線性回歸系數(shù)。由于這些特征都有顯著的差別,故一列特征有12 個(gè)特征值,可表示為Ai=[AcAdAo]T。根據(jù)經(jīng)驗(yàn),設(shè)計(jì)并引入曲率一階差分A3、曲率變化率一階差分A4、曲率+曲率變化率A5三列特征,共計(jì)五列特征60 個(gè)特征值,可表示為A=[A1A2A3A4A5]。
按分段數(shù)據(jù)所屬半徑類(lèi)別對(duì)其進(jìn)行標(biāo)注,從0 開(kāi)始,依次遞增。三類(lèi)平面曲線(R≤3 000、3 000 <R≤8 000、R>8 000)的類(lèi)別標(biāo)簽分別是0、1、2;六類(lèi)平面曲線(R≤1 000、1 000 <R≤3 000、3 000 <R≤5 000、5 000 <R≤8 000、8 000 <R≤15 000、R>15 000)的標(biāo)簽分別是0、1、2、3、4、5。
對(duì)數(shù)據(jù)特征進(jìn)行隨機(jī)劃分,70%做模型訓(xùn)練,剩余30%做測(cè)試。模型訓(xùn)練和參數(shù)尋優(yōu)實(shí)現(xiàn)過(guò)程如下。
1)從原始訓(xùn)練集中使用自助法(Bootstrapping)有放回地隨機(jī)取出m個(gè)樣本[9],共進(jìn)行Ntree次采樣,生成Ntree個(gè)訓(xùn)練集,對(duì)應(yīng)隨機(jī)森林中Ntree顆決策樹(shù);
2)對(duì)Ntree個(gè)訓(xùn)練集分別訓(xùn)練決策樹(shù)模型;
3)對(duì)于單顆決策樹(shù),假設(shè)訓(xùn)練樣本特征的個(gè)數(shù)為n,那么每次分裂時(shí)根據(jù)信息增益、信息增益比或Gini指數(shù)[10]選擇最好的特征進(jìn)行分裂;
4)對(duì)于每棵樹(shù)都要依次分裂下去,直到該節(jié)點(diǎn)的所有訓(xùn)練樣本都屬于某一類(lèi);
5)將生成的多顆決策樹(shù)組成隨機(jī)森林。
最終隨機(jī)森林的分類(lèi)實(shí)際上是多棵樹(shù)分類(lèi)器投票決定的分類(lèi)結(jié)果。隨機(jī)森林構(gòu)建過(guò)程中須設(shè)置幾個(gè)關(guān)鍵參數(shù),主要包括決策樹(shù)個(gè)數(shù)、最大樹(shù)深度、葉節(jié)點(diǎn)最少樣本數(shù)、分裂時(shí)最大特征數(shù)等。這些參數(shù)的選取對(duì)進(jìn)一步提升分類(lèi)性能具有重要作用,選取順序如下。
1)調(diào)整既不會(huì)增加模型復(fù)雜度又對(duì)模型影響最大的參數(shù)Ntree,通過(guò)學(xué)習(xí)曲線尋找最佳參數(shù);
2)調(diào)整最大樹(shù)深度,通過(guò)網(wǎng)格搜索或?qū)W習(xí)曲線判斷;
3)依次對(duì)其他參數(shù)進(jìn)行尋優(yōu)。
為增加模型的魯棒性(robustness),設(shè)計(jì)并實(shí)現(xiàn)了增量訓(xùn)練[11]?;谀硞€(gè)訓(xùn)練好的模型,讓模型在原有結(jié)構(gòu)不變的基礎(chǔ)上新增對(duì)新軌道數(shù)據(jù)的特征表達(dá)。增量訓(xùn)練過(guò)程的實(shí)施步驟如下。
1)選擇一個(gè)基于不同軌道數(shù)據(jù)訓(xùn)練好的模型;
2)對(duì)新增軌道數(shù)據(jù)進(jìn)行分段和特征提??;
3)把新增軌道的特征作為訓(xùn)練集,在已有模型的結(jié)構(gòu)上進(jìn)行再訓(xùn)練,讓模型添加對(duì)新增數(shù)據(jù)的表達(dá);
4)保存增量訓(xùn)練后的模型。
用離線測(cè)試來(lái)驗(yàn)證模型分類(lèi)的準(zhǔn)確率?;谕痪€路數(shù)據(jù)的內(nèi)部測(cè)試結(jié)果見(jiàn)表1。其中,Z160、K120、G250、K160、G200 分別代表所選取的160 km∕h鐵路干線、120 km∕h 鐵路線路、250 km∕h 客運(yùn)專線、160 km∕h 客運(yùn)專線、某200 km∕h 客運(yùn)專線;準(zhǔn)確率是200 次隨機(jī)測(cè)試的平均值。由于K120 在三分類(lèi)中都屬于第一類(lèi),故不做三分類(lèi)測(cè)試。
表1 同一線路數(shù)據(jù)內(nèi)部測(cè)試結(jié)果
融合不同線路進(jìn)行增量訓(xùn)練測(cè)試,內(nèi)部測(cè)試結(jié)果見(jiàn)表2。其中準(zhǔn)確率是200 次隨機(jī)測(cè)試的平均值??梢钥闯觯诸?lèi)的準(zhǔn)確率較高,均大于90%。
表2 多線路數(shù)據(jù)融合內(nèi)部測(cè)試結(jié)果
由于離線測(cè)試結(jié)果顯示三分類(lèi)的準(zhǔn)確率較高,將訓(xùn)練好的三分類(lèi)模型嵌入到軌道檢測(cè)系統(tǒng)軌道幾何參數(shù)實(shí)時(shí)處理軟件中,使系統(tǒng)在運(yùn)行過(guò)程中每150 個(gè)采樣點(diǎn)輸出一次曲線半徑分類(lèi)結(jié)果,并根據(jù)分類(lèi)結(jié)果自動(dòng)改變軌道平面線形判別關(guān)鍵參數(shù)。每個(gè)分類(lèi)結(jié)果對(duì)應(yīng)的關(guān)鍵參數(shù)見(jiàn)表3。
表3 分類(lèi)結(jié)果對(duì)應(yīng)的關(guān)鍵參數(shù)
選取某200 km∕h 客運(yùn)專線K8—K80 區(qū)段的檢測(cè)數(shù)據(jù),利用基于隨機(jī)森林算法的軌道平面線形判別方法在GJ?6 型軌道幾何參數(shù)實(shí)時(shí)檢測(cè)處理軟件中進(jìn)行測(cè)試,并與按照現(xiàn)有軌道平面線形判別方法得出的檢測(cè)結(jié)果進(jìn)行對(duì)比,結(jié)果見(jiàn)圖3??梢钥闯觯焊鶕?jù)設(shè)備臺(tái)賬數(shù)據(jù),該區(qū)段線路中軌道平面曲線半徑在1 200 ~12 000 m,共12 條;現(xiàn)有軌道平面線形判別方法僅能識(shí)別5條曲線,難以判別出R>6 000 m的曲線;基于隨機(jī)森林算法的軌道平面線形判別方法能夠判別出全部12條曲線。
圖3 基于隨機(jī)森林算法的在線軌道平面曲線判別結(jié)果
本文提出了基于隨機(jī)森林算法的在線軌道平面線形判別方法,其在方法上的創(chuàng)新主要體現(xiàn)在設(shè)計(jì)并提取針對(duì)性的特征,離線識(shí)別準(zhǔn)確率提升至90%以上;在應(yīng)用上的創(chuàng)新主要體現(xiàn)在該算法可以嵌入目前的實(shí)時(shí)軌檢系統(tǒng)GJ?6中,實(shí)現(xiàn)了軌道平面線形判別關(guān)鍵參數(shù)的自動(dòng)切換,能夠判別出所有曲線。在測(cè)試過(guò)程中發(fā)現(xiàn)原算法與新算法都存在軌道平面曲線半徑大小計(jì)算不準(zhǔn)確的問(wèn)題,下一步應(yīng)結(jié)合軌道檢測(cè)系統(tǒng)超限判斷算法進(jìn)行深入研究。