徐 蔚,彭樂樂,鐘倩文,鄭樹彬
(上海工程技術(shù)大學(xué)城市軌道交通學(xué)院, 上海 201620)
車體振動是反映高鐵行車安全與乘坐舒適性的關(guān)鍵指標(biāo)。車體在運(yùn)行過程中會受輪軌作用力、車輛自身部件的振動、車速等多因素且不同程度的影響[1]。如何獲取車體水平、垂直以及側(cè)向振動耦合參數(shù)及構(gòu)建數(shù)學(xué)模型,排除非相關(guān)數(shù)據(jù),實(shí)現(xiàn)小樣本數(shù)據(jù)的車體三自由度振動監(jiān)測及分析是目前需要解決的一個難題。
近年來,許多學(xué)者針對影響列車車體振動的參數(shù)做了相關(guān)研究。劉揚(yáng)[2]利用傅立葉變換,從時頻域角度對輪載、軌道不平順與車體振動加速度三者之間的相關(guān)性進(jìn)行分析;李廣軍等[3]通過小波變換驗(yàn)證了軌道不平順是引起列車橫向振動的重要因素;李再幃等[4]利用希爾伯特黃變換發(fā)現(xiàn)了軌道高低不平順與列車垂向振動加速度的本征函數(shù)存在對應(yīng)關(guān)系。以上研究方法主要是從時、頻域波形圖定性地分析了軌道參數(shù)與列車振動之間的關(guān)系,而并未對軌道參數(shù)和車體振動的影響程度展開研究。
目前實(shí)現(xiàn)車體振動監(jiān)測的方法主要通過構(gòu)建動力學(xué)模型來獲取車體振動加速度。國內(nèi)外學(xué)者們在車輛動力學(xué)模型基礎(chǔ)上考慮更多的因素,常見的有軌道-車輛耦合模型[5-8],有考慮更多非線性因素的非線性車軌耦合模型[9]以及風(fēng)-車-橋系統(tǒng)耦合振動模型[10-11]。但是在影響因素繁多的情況下,車輛動力學(xué)模型若考慮的耦合結(jié)構(gòu)越多,會導(dǎo)致建立精確的動力學(xué)模型越困難。
同時部分學(xué)者展開了利用實(shí)測數(shù)據(jù)以及機(jī)器學(xué)習(xí)的方法實(shí)現(xiàn)車體振動監(jiān)測的研究。耿松[12]利用神經(jīng)網(wǎng)絡(luò)建立了軌道不平順激勵下的車輛振動加速度預(yù)測模型。但是該方法只考慮了軌道不平順參數(shù),未考慮車載動力學(xué)檢測項(xiàng)目[13]對車體振動的影響,導(dǎo)致模型精度較低。徐磊[14]將軌道不平順時頻域統(tǒng)計(jì)參數(shù)作為輸入?yún)?shù),利用支持向量機(jī)分類器實(shí)現(xiàn)對車體振動狀態(tài)的預(yù)判。但是該方法未考慮更多的耦合因素,而且僅對車體振動狀態(tài)進(jìn)行等級歸類,沒有定量地實(shí)現(xiàn)對列車車體振動加速度的監(jiān)測。
針對以上研究對耦合因素分析存在定性片面的分析以及車體振動監(jiān)測模型精度低的問題,提出一種基于袋裝回歸樹的高鐵車體振動耦合因素分析及建模方法研究。首先根據(jù)GJ-5軌檢車給出的檢測參數(shù),結(jié)合Pearson和Spearman兩種相關(guān)性算法,定量地分析車體振動耦合因素,排除非相關(guān)參數(shù),減少模型樣本量。其次,利用得到小樣本訓(xùn)練利用袋裝集成算法和回歸樹算法構(gòu)建的耦合關(guān)系模型。最后為驗(yàn)證通過耦合因素分析全面定量地篩選數(shù)據(jù)并建模的有效性,將模型的輸出結(jié)果與所有檢測參數(shù)作為樣本集下的模型輸出結(jié)果以及振動加速度實(shí)測值進(jìn)行對比。
圖1為系統(tǒng)整體框架,首先結(jié)合兩種相關(guān)性算法定量地提取影響車體振動的耦合因素,并將水平、垂直及側(cè)向車體振動加速度與耦合因素組成3組模型樣本集。利用袋裝算法對訓(xùn)練樣本進(jìn)行隨機(jī)抽樣,抽取多組子樣本來訓(xùn)練相同數(shù)量的回歸樹,將所有回歸樹模型輸出值的平均值作為終值。其次,將擬合度(R-squared)、平均絕對誤差(MAE)、均方誤差(MSE)、均方根誤差(RMSE)作為評價模型性能的指標(biāo),同時作為模型耦合參數(shù)調(diào)整的依據(jù)。最后,將得到的3個方向的耦合關(guān)系模型性能與所有檢測參數(shù)訓(xùn)練下的3個耦合關(guān)系模型性能進(jìn)行對比,驗(yàn)證了模型的有效性。
圖1 方法流程
獲取車體振動耦合參數(shù)是解決小樣本數(shù)據(jù)分析的前提。針對參數(shù)與車體振動加速度間關(guān)聯(lián)形式的不確定性,結(jié)合線性相關(guān)算法和非線性相關(guān)算法計(jì)算相關(guān)系數(shù),提取相關(guān)性強(qiáng)的耦合參數(shù),得到訓(xùn)練模型的樣本集。Pearson線性相關(guān)算法[15]公式如下
(1)
Spearman算法[16]作為一種非線性相關(guān)系數(shù)計(jì)算方法,計(jì)算公式如下
(2)
根據(jù)式(1)、式(2)計(jì)算出的rP和rS,分別賦予相應(yīng)的權(quán)重p和q,計(jì)算出總關(guān)聯(lián)系數(shù)。公式如下
rAB=p|rS|+q|rP|
(3)
模型耦合參數(shù)的篩選是通過給定總相關(guān)系數(shù)的閾值ξ實(shí)現(xiàn)的。
通過相關(guān)性分析剔除了部分非相關(guān)參數(shù),將耦合因素與車體振動加速度作為模型訓(xùn)練樣本,利用袋裝算法將樣本集劃分成多組子樣本集來訓(xùn)練回歸樹,得到與子樣本數(shù)量相同的回歸樹模型,將所有回歸樹模型進(jìn)行集成得到袋裝回歸樹耦合關(guān)系模型。圖2為袋裝回歸樹模型的搭建過程。
圖2 袋裝回歸樹模型結(jié)構(gòu)搭建
袋裝算法作為一種集成算法主要用于隨機(jī)抽取相互獨(dú)立的訓(xùn)練集,每輪訓(xùn)練并行提高了訓(xùn)練速度[17]。袋裝算法的關(guān)鍵問題是訓(xùn)練了多少棵回歸樹使模型的性能最優(yōu),若數(shù)量過少則模型的性能就會降低,若過多則會導(dǎo)致計(jì)算量過大。因此,可以根據(jù)平均絕對誤差(MAE)來選擇回歸樹的數(shù)量。具體實(shí)現(xiàn)方式如圖3所示。
圖3 回歸樹數(shù)量確定
設(shè)模型樣本集為T=(xi,yi),xi表示耦合因素構(gòu)成的多維輸入量。
(1)先定義回歸樹模型數(shù)量初值為N=N0。
(2)利用自助采樣對原始樣本進(jìn)行N0輪抽取得到N0個子樣本集,且每個子樣本集包含63.2%左右的原始樣本。
(3)將得到的子樣本集分別訓(xùn)練回歸樹,重復(fù)N0次,得到一系列輸出值h1,h2,…,hN。
(4)計(jì)算N0棵回歸樹的輸出值均值和平均絕對誤差(MAE)。
(5)若MAE>0.05,則N重新取值并按步驟(1)~步驟(4)重新計(jì)算結(jié)果。直到MAE<0.05時,輸出回歸樹數(shù)量N和模型的最終結(jié)果。
回歸樹算法具有對于數(shù)據(jù)類型差別較大的數(shù)據(jù)能夠準(zhǔn)確進(jìn)行特征選擇的優(yōu)點(diǎn)?;貧w樹的構(gòu)建主要分為兩部分:樹的生長和樹的剪枝[18]。
假設(shè)將車體振動加速度與耦合因素組成的樣本集T=(xi,yi)劃分成L個單元,即α1,α2,…,αL。每個單元均有一個振動加速度輸出值Cl,回歸樹模型表示為
(4)
式中,I為指示函數(shù),當(dāng)x∈αi時I=1,否則為0。
若輸入空間已被劃分,訓(xùn)練樣本數(shù)據(jù)的預(yù)測誤差表示為
(5)
當(dāng)Cl為所有實(shí)際車體振動加速度yi的平均值時,平方誤差最小。當(dāng)平方誤差最小化時,則可求解每一個單元上的最佳輸出值。
回歸樹通過尋找最優(yōu)切分變量j和最優(yōu)切分點(diǎn)s實(shí)現(xiàn)輸入空間的劃分,即求解
(6)
利用選定的最小值對(j,s)劃分出的區(qū)域和輸出值表示為
α1(j,s)={x|x(j)≤s},α2(j,s)={x|x(j)>s}
(7)
(8)
根據(jù)以上步驟可以對區(qū)域進(jìn)行劃分,直到節(jié)點(diǎn)達(dá)到純度時停止。
原始回歸樹容易出現(xiàn)“過擬合”現(xiàn)象。為避免這種現(xiàn)象,需要對樹進(jìn)行剪枝。利用K折交叉驗(yàn)證法將子樣本集劃分為K組,其中K-1作為訓(xùn)練集。先通過訓(xùn)練集使回歸樹“充分生長”,剩下的一組作為驗(yàn)證集測試回歸樹的分支規(guī)則是否再現(xiàn)。若沒有,則認(rèn)為是過擬合而將該分支修剪。重復(fù)上述過程K,使得驗(yàn)證集遍歷所有的訓(xùn)練集,平均K次的結(jié)果就可以得到單一估值[19]。
為衡量模型性能,采用R-Squared、MSE、RMSE以及MAE[20-21]四個指標(biāo)作為評價標(biāo)準(zhǔn)。公式如下
(9)
(10)
(11)
(12)
其中,fi為模型輸出的振動加速度值。當(dāng)R-squared越接近1,擬合程度就越高。當(dāng)MAE、MSE和RMSE越小時,模型性能越優(yōu)。
以GJ-5軌檢車于2018年8月13日在廣深Ⅱ線廣州工務(wù)段采集的參數(shù)作為分析的數(shù)據(jù)來源。主要選擇涉及軌道幾何檢測項(xiàng)目、車載動力學(xué)檢測項(xiàng)目41個檢測參數(shù)用于相關(guān)性分析,具體參數(shù)內(nèi)容如表1所示。
表1 用于相關(guān)性分析的檢測參數(shù)
根據(jù)給出的各項(xiàng)參數(shù),利用Pearson和Spearman算法分別計(jì)算3個方向的車體振動加速度與41個檢測參數(shù)的線性相關(guān)系數(shù)和非線性相關(guān)系數(shù)。根據(jù)式(3)取權(quán)重p為0.5,q為0.5計(jì)算總相關(guān)系數(shù)。由于列車在運(yùn)行過程中較平穩(wěn),取閾值ξ為0.06,篩選出用于訓(xùn)練模型的耦合因素,結(jié)果如表2~表4所示。
表2 篩選出的水平振動耦合因素
表3 篩選出的垂直振動耦合因素
表4 篩選出的側(cè)向振動耦合因素
從表2~表4可以看出,影響車體水平和側(cè)向振動的耦合因素分別涉及12個參數(shù),影響車體垂直振動的因素有8個。軌道幾何檢測項(xiàng)目對車體振動的影響較大,軌道高低不平順是引起車體垂直振動的主要原因。超高、曲率、車速、左右高低以及左右鋼軌位移量同時對兩種及以上的車體振動狀態(tài)有影響。
通過相關(guān)性分析得到模型樣本集后,利用袋裝集成算法給定回歸樹學(xué)習(xí)器數(shù)量的初始值N0=40。其次,采用10折交叉驗(yàn)證[22-23]進(jìn)行樹剪枝,以防止過擬合。當(dāng)MAE<0.05時,水平、垂直以及側(cè)向耦合關(guān)系模型中的回歸樹數(shù)量分別是50、60和55。圖4~圖6給出了車體振動加速度實(shí)際值與兩種訓(xùn)練樣本集下的袋裝回歸樹模型振動加速度輸出值的對比曲線。
圖4 車體水平振動加速度對比曲線
圖5 車體垂直振動加速度對比曲線
圖6 車體側(cè)向振動加速度對比曲線
從圖4~圖6可以看出兩種樣本集下建立的袋裝回歸樹模型,其水平、垂直以及側(cè)向振動加速度曲線變化趨勢基本吻合,說明了利用相關(guān)性算法分析與篩選相關(guān)性強(qiáng)的耦合因素的手段是有效的。同時將實(shí)際振動加速度曲線與耦合因素分析下建立的袋裝回歸樹模型輸出曲線進(jìn)行比較,可以看出3個方向的模型加速度曲線與實(shí)際加速度曲線的變化具有一致性,驗(yàn)證了利用袋裝算法和回歸樹算法建立的耦合關(guān)系模型性能較優(yōu)。
從表5可以看出,水平以及側(cè)向耦合關(guān)系模型的R-squared分別是0.88和0.82,該值越接近于1,說明模型的性能越好。垂直方向的耦合關(guān)系模型擬合度為0.74,低于水平及側(cè)向的擬合度值,分析原因在于回歸樹在分裂過程中對差異較大的數(shù)據(jù)類型能夠準(zhǔn)確地進(jìn)行特征提取,而高鐵車體垂直振動的耦合因素均是不同波長的超高,參數(shù)之間的特征較為相似,影響了回歸樹的分裂。從誤差角度分析,垂直方向的MAE、MSE和RMSE的值均小于0.01,說明該模型能夠準(zhǔn)確獲取車體的振動狀態(tài)。
表5 耦合因素下的模型性能指標(biāo)
對比表5和表6可以看出,在兩種樣本集下的水平、垂向及側(cè)向耦合關(guān)系模型的R-squared、MAE、MSE和RMSE四項(xiàng)指標(biāo)的最大差值為0.06。從誤差角度分析,兩個垂直方向耦合關(guān)系模型的MAE、MSE以及RMSE的最大差值為0.001。在模型精度相當(dāng)?shù)那闆r下,樣本數(shù)據(jù)從原先的2460萬減小為640萬,實(shí)現(xiàn)了小樣本數(shù)據(jù)的車體振動測量及分析。
針對利用小樣本數(shù)據(jù)準(zhǔn)確獲取車體振動參數(shù),通過兩種相關(guān)性算法計(jì)算的總相關(guān)系數(shù)有效地排除了車體振動非相關(guān)參數(shù),并且利用袋裝回歸樹算法建立了以車體振動加速度為輸出的耦合關(guān)系模型。實(shí)驗(yàn)表明:在樣本量減少74%的情況下模型的精度相當(dāng),說明了耦合關(guān)系模型可以作為列車車體振動加速度測量模型,用于在小樣本下準(zhǔn)確地獲取車體的三自由度振動加速度,同時減少樣本量,提高了模型的訓(xùn)練速度。