国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種基于GBRT算法的CA砂漿脫空檢測(cè)方法

2018-03-07 01:48李自法謝維波劉濤
關(guān)鍵詞:砂漿準(zhǔn)確率軌道

李自法,謝維波,劉濤

(華僑大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,福建 廈門 361021)

高速鐵路是我國(guó)現(xiàn)階段的重點(diǎn)建設(shè)項(xiàng)目,發(fā)展高速鐵路是帶動(dòng)國(guó)家經(jīng)濟(jì)發(fā)展,滿足人民出行便捷、高質(zhì)量的必然選擇[1]。我國(guó)的高速鐵路建設(shè)在技術(shù)上已經(jīng)處于世界領(lǐng)先[2],但是由于起步晚,配套的檢修技術(shù)還沒(méi)有跟上。軌道維護(hù)是鐵路建設(shè)的重要一環(huán),它關(guān)系到列車能否平穩(wěn)運(yùn)行,甚至關(guān)系到列車行進(jìn)的安全。對(duì)無(wú)砟軌道而言,CA砂漿脫空檢測(cè)是其中的主要問(wèn)題之一。對(duì)于CA砂漿脫空檢測(cè)問(wèn)題,已經(jīng)有不少研究者分別提出了不同的檢測(cè)方法。張春毅等[3]提出利用瞬態(tài)機(jī)械阻抗的方法,利用石家莊鐵道大學(xué)內(nèi)的全尺寸模型 CRTSⅡ型無(wú)砟軌道板,通過(guò)沖擊錘敲擊和沖擊瞬態(tài)脈沖反應(yīng)測(cè)試儀來(lái)采集實(shí)驗(yàn)數(shù)據(jù),然后根據(jù)得到的平均導(dǎo)納值和導(dǎo)納頻譜曲線判斷是否脫空。胡志鵬等[4]利用模態(tài)分析理論中的曲率模態(tài)對(duì)傷損敏感的特性,提出一種基于高斯曲率的識(shí)別方法來(lái)檢測(cè) CA砂漿脫空。該方法利用有限元軟件構(gòu)建軌道板CA砂漿模型并采集實(shí)驗(yàn)數(shù)據(jù),然后通過(guò)觀察高斯曲率圖來(lái)區(qū)分 CA砂漿是否脫空。陳夢(mèng)[5]根據(jù)彈性波在層狀介質(zhì)中的傳播理論,捕捉彈性場(chǎng)的振幅、頻率以及時(shí)頻特征,分別比較脫空和非脫空情況下的區(qū)別進(jìn)而做出判斷。該方法的論證是根據(jù)高速鐵路線下結(jié)構(gòu)施工工藝,通過(guò)現(xiàn)場(chǎng)施工,最大限度的構(gòu)建仿真實(shí)驗(yàn)?zāi)P?,然后借助地震儀等數(shù)據(jù)采集設(shè)備通過(guò)小鐵錘敲擊來(lái)采集數(shù)據(jù),最后通過(guò)分析實(shí)驗(yàn)數(shù)據(jù)的波形圖、頻譜圖或時(shí)頻圖來(lái)區(qū)分?jǐn)?shù)據(jù)采集區(qū)域是否有缺陷。這些方法的論證都是建立在仿真模型的基礎(chǔ)之上,采集到的數(shù)據(jù)也多是模擬數(shù)據(jù),沒(méi)有足夠的說(shuō)服力;而且,這些方法都是通過(guò)觀察、分析對(duì)應(yīng)的結(jié)果圖來(lái)判斷數(shù)據(jù)采集位置是否脫空,檢測(cè)效率較低。不同于已有方法,本文提出把機(jī)器學(xué)習(xí)領(lǐng)域的GBRT算法應(yīng)用到CA砂漿脫空檢測(cè)領(lǐng)域。利用該方法檢測(cè)CA砂漿是否脫空時(shí),只需要拾音器和筆記本電腦兩種設(shè)備便可完成真實(shí)數(shù)據(jù)的采集,得到的數(shù)據(jù)真實(shí)可靠;然后使用計(jì)算機(jī),利用采集到的真實(shí)數(shù)據(jù)和GBRT算法構(gòu)建二分類模型,進(jìn)而對(duì)采集到的數(shù)據(jù)進(jìn)行分類決策。構(gòu)建好的GBRT二分類模型不僅有較高的識(shí)別率,還可以在短時(shí)間內(nèi)處理大量的數(shù)據(jù)樣本,大大提高了檢測(cè)效率。因此,GBRT算法在CA砂漿脫空檢測(cè)領(lǐng)域具有非常廣闊的應(yīng)用前景。

1 CA砂漿脫空問(wèn)題

我國(guó)的高速鐵路軌道結(jié)構(gòu)有有砟軌道和無(wú)砟軌道2種類型,其中大多數(shù)是無(wú)砟軌道。無(wú)砟軌道包括雙塊和板式無(wú)砟軌道2種,其中板式無(wú)砟軌道分為CRTSⅠ型,CRTSⅡ型和CRTS Ⅲ型。本文的研究對(duì)象是單元板式無(wú)砟軌道[6],其結(jié)構(gòu)簡(jiǎn)圖如圖1所示。CA砂漿層在整個(gè)軌道結(jié)構(gòu)中起到支承、緩沖、減震作用,CA砂漿層是否完好無(wú)損、與上下結(jié)構(gòu)黏結(jié)緊密將會(huì)影響到列車的平穩(wěn)、安全運(yùn)行。CA砂漿脫空,即指砂漿層出現(xiàn)損傷,或者與上下結(jié)構(gòu)脫離現(xiàn)象。

圖1 單元板式無(wú)砟軌道垂直結(jié)構(gòu)簡(jiǎn)圖Fig. 1 Vertical structure of slab ballastless track

引起CA砂漿脫空的原因有:砂漿層的材料、配比等制作工藝欠缺造成砂漿層出現(xiàn)破損[7];軌道板出現(xiàn)裂縫引起雨水浸入砂漿層,進(jìn)而引起砂漿層粉蝕[8];軌道所在地基沉降引起砂漿層與底座脫離[9]等。

CA砂漿脫空對(duì)高速列車軌道危害很大,具體表現(xiàn)為:由于部分砂漿所起到的支撐作用的缺失,導(dǎo)致其他部分砂漿承受動(dòng)壓應(yīng)力急劇增大,會(huì)進(jìn)一步使更多的砂漿受損;扣件所受到的來(lái)自軌道板的拉力增大,容易引起扣件損傷;鋼軌受力失衡,可能引起鋼軌幾何形變;軌道板受力不均,可能引起軌道板板角豎向翹曲位移,軌道板產(chǎn)生裂縫,甚至斷裂等[10-11]。CA砂漿脫空檢測(cè)是預(yù)防災(zāi)害發(fā)生的關(guān)鍵,因此對(duì)于保證列車平穩(wěn)運(yùn)行具有重要意義。

利用GBRT算法檢測(cè)CA砂漿脫空的依據(jù)是:無(wú)砟軌道板在脫空和非脫空2種情況下,列車經(jīng)過(guò)時(shí)產(chǎn)生的聲音信號(hào)不同,對(duì)無(wú)砟軌道板進(jìn)行脫空檢測(cè)本質(zhì)上是一個(gè)聲音信號(hào)的二分類問(wèn)題。圖2是從數(shù)據(jù)集中隨機(jī)抽取的 20個(gè)聲音數(shù)據(jù)樣本,顯示的是每個(gè)數(shù)據(jù)樣本的前100個(gè)數(shù)據(jù)點(diǎn)及其對(duì)應(yīng)的歸一化之后的值。其中,有斷點(diǎn)的曲線表示非脫空樣本數(shù)據(jù),沒(méi)有斷點(diǎn)的曲線表示脫空樣本數(shù)據(jù)(分別包含10個(gè)數(shù)據(jù)樣本)。

圖2 脫空和非脫空樣本數(shù)據(jù)Fig. 2 Void and non-void data

從圖中可以看出,2類樣本數(shù)據(jù)分別分布在上界和下界。由于數(shù)據(jù)是列車正常運(yùn)行現(xiàn)場(chǎng)采集的,因此有部分噪聲數(shù)據(jù)造成了干擾。總體上來(lái)看,2類數(shù)據(jù)是可分的,GBRT算法作為優(yōu)秀的機(jī)器學(xué)習(xí)分類算法可以用來(lái)嘗試解決 CA砂漿脫空檢測(cè)問(wèn)題。

2 GBRT算法原理

GBRT(Gradient Boosted Regression Trees)算法[12-13],即梯度提升回歸樹(shù),是機(jī)器學(xué)習(xí)領(lǐng)域集成學(xué)習(xí)方法[14]的一種,又叫 GBDT (Gradient Boosting Decision Tree)和 MART (Multiple Additive Regression Tree)。近年來(lái),由于其在著名的數(shù)據(jù)競(jìng)賽(如 Kaggle、天池等)中表現(xiàn)突出,因此獲得了很多關(guān)注。GBRT算法基于 boosting[15]算法框架,其基本思想是基于多個(gè)回歸樹(shù)子模型構(gòu)建一個(gè)GBRT二分類模型,利用回歸樹(shù)不斷學(xué)習(xí)殘差,減少整體分類模型的偏差。下面在介紹回歸樹(shù)的基礎(chǔ)上,介紹GBRT算法原理。

2.1 回歸樹(shù)

回歸樹(shù)(Regression Tree)算法源于 CART(Classification And Regression Tree)[16]算法,是決策樹(shù)算法的一種,是一種用于做回歸預(yù)測(cè)的二叉樹(shù)。構(gòu)建回歸樹(shù)的過(guò)程,其實(shí)是對(duì)輸入空間的一種劃分。假定有數(shù)據(jù)集 S ={(xi, yi)}1N,xi和 yi分別表示第i個(gè)樣本和對(duì)應(yīng)的類別標(biāo)簽,N表示該數(shù)據(jù)集中樣本的個(gè)數(shù), xi∈χ∈Rn,χ表示輸入空間,yi∈γ∈R,γ表示輸出空間。

現(xiàn)在用數(shù)據(jù)集S來(lái)生成一棵回歸樹(shù)。每次對(duì)某個(gè)數(shù)據(jù)集的劃分,都是將對(duì)應(yīng)的輸入空間一分為二,生成回歸樹(shù)時(shí),總共將輸入空間劃分為J個(gè)單元。第j個(gè)單元用Rj表示,cj表示每個(gè)單元都有對(duì)應(yīng)的返回值。于是,回歸樹(shù)模型可以表示為:

其中: I(x ∈Rj)為指示函數(shù),當(dāng)參數(shù)條件為真時(shí)返回1,否則返回0。用m表示落在單元Rj里的樣本個(gè)數(shù),則cj是單元Rj里的樣本標(biāo)簽的均值,即

這是因?yàn)椋貧w樹(shù)用平方誤差作為訓(xùn)練誤差 e的評(píng)價(jià)函數(shù),即

構(gòu)建回歸樹(shù)的關(guān)鍵,是如何劃分輸入空間。這里采用啟發(fā)式的辦法,選擇第v個(gè)特征xv和它的特征值s作為劃分位置,用(v,s)表示。根據(jù)xv的其他特征值與s的比較結(jié)果,將輸入空間進(jìn)行劃分,形成2個(gè)子區(qū)域,分別定義為:

遍歷所有可能的劃分位置,找到最佳的劃分位置(v, s),滿足

構(gòu)建回歸樹(shù)的完整算法如下。

輸入:數(shù)據(jù)集S

輸出:回歸樹(shù)f (x)

2) 用式(1)得到的最佳劃分位置(v,s)對(duì)數(shù)據(jù)集S進(jìn)行劃分,得到2個(gè)子區(qū)域 R (v,s)={x|xv≥s}和R(v,s)={x|xv<s}以及對(duì)應(yīng)的返回值

其中:m和n分別表示落在2個(gè)區(qū)域里的樣本數(shù)量。

3) 遞歸調(diào)用式(1)~(2),對(duì)生成的2個(gè)子區(qū)域繼續(xù)進(jìn)行劃分,直到滿足停止條件。這里的停止條件包括待劃分樣本最小數(shù)量,落在子區(qū)域里的最小樣本數(shù)量等。

4) 將輸入空間劃分成 J個(gè)單元區(qū)域及對(duì)應(yīng)的返回值,即回歸樹(shù)模型

作為GBRT分類模型子模型的回歸樹(shù),其葉子節(jié)點(diǎn)的返回值并不是由式(2)得到的,這里提到的區(qū)域返回值僅僅用于輔助介紹回歸樹(shù)模型。

2.2 GBRT算法

GBRT算法構(gòu)建二分類模型的過(guò)程是,計(jì)算現(xiàn)有模型的預(yù)測(cè)值與真實(shí)值之間的殘差,然后把該值作為新的回歸樹(shù)要擬合的目標(biāo);不斷重復(fù)這個(gè)過(guò)程,整體模型的預(yù)測(cè)值與真實(shí)值不斷逼近,整體模型的偏差便不斷縮小。下面結(jié)合數(shù)據(jù)集S和回歸樹(shù),詳細(xì)介紹GBRT算法原理。

GBRT算法實(shí)際上是一個(gè)加法模型,可以表示為

其中: T (x;Θm)表示第m棵回歸樹(shù)模型;Θm是該回歸樹(shù)模型的參數(shù);M表示回歸樹(shù)模型的個(gè)數(shù)。若給定損失函數(shù)L(y, fm(x)),則學(xué)習(xí)加法模型fm(x)成為損失函數(shù)極小化問(wèn)題:

同時(shí)對(duì)所有回歸樹(shù)的參數(shù)進(jìn)行優(yōu)化很難,因此,GBRT算法采用前向分步策略,對(duì)回歸樹(shù)進(jìn)行逐個(gè)優(yōu)化。于是,式(6)和(7)可以分別表示為:

當(dāng)采用特殊損失函數(shù)時(shí),對(duì)回歸樹(shù)進(jìn)行逐個(gè)優(yōu)化是很簡(jiǎn)單的,比如平方誤差函數(shù)和指數(shù)損失函數(shù)。但是,對(duì)于一般的函數(shù)而言,這種優(yōu)化是很困難的。Friedman針對(duì)這一問(wèn)題提出了梯度提升(gradient boosting)的方法,其原理是用損失函數(shù)的負(fù)梯度在當(dāng)前模型的值,作為當(dāng)前新構(gòu)建的回歸樹(shù)要擬合的殘差的近似值,用數(shù)學(xué)公式表示為:

本文使用負(fù)二項(xiàng)對(duì)數(shù)似然函數(shù)(negative binomial log-likelihood)作為損失函數(shù):

其中

這里的

把式(11)代入式(10),得到當(dāng)前回歸樹(shù)要擬合的近似殘差:

建立回歸樹(shù)的過(guò)程中,GBRT算法采用在每個(gè)單元區(qū)域使用線性搜索的方法,保證損失函數(shù)在每個(gè)單元區(qū)域獲得最小值,進(jìn)而使總的損失函數(shù)最小化。通過(guò)最優(yōu)化損失函數(shù)尋找對(duì)于的返回值。由式(1)得知,回歸樹(shù)模型可以表示為:

這里,令

其中,Θ={(R1,c1),(R2,c2),… ,( RJ,cJ)}表示各個(gè)單元區(qū)域以及對(duì)應(yīng)的返回值。此時(shí)的 cj不是由式(2)得到,而是通過(guò)求解下面的式子得到

cmj表示第m棵回歸樹(shù)的第j個(gè)單元區(qū)域的返回值。但此處并沒(méi)有固定的方法策略,本文使用單個(gè)Newton-Raphson步伐逼近c(diǎn)mj,此時(shí)

因此,GBRT算法的完整過(guò)程可以描述為:

輸出:回歸樹(shù)f?(x)

2) 對(duì) m=1, 2, …, M

2(a)對(duì)i=1, 2, …, N,計(jì)算:

2(b)以rmi為目標(biāo)變量,擬合一棵回歸樹(shù),得到該回歸樹(shù)的各個(gè)葉子節(jié)點(diǎn)Rmj,j=1, 2, …, J

2(c)對(duì) j=1, 2, …, J, 計(jì)算:

2(d)更新:

3) 返回梯度提升回歸樹(shù)模型:

步驟1對(duì)回歸樹(shù)模型進(jìn)行初始化,由式(12)=0求解得到,y表示數(shù)據(jù)集S中所有類別標(biāo)簽的平均值。f0(x)實(shí)際上是一棵只有根節(jié)點(diǎn)的回歸樹(shù)。

3 實(shí)驗(yàn)分析

3.1 數(shù)據(jù)獲取

數(shù)據(jù)集來(lái)自現(xiàn)場(chǎng)采集的真實(shí)數(shù)據(jù)。將1號(hào)和2號(hào)拾音器安裝在軌道旁邊的護(hù)墻內(nèi)側(cè),分別對(duì)應(yīng)無(wú)脫空和脫空位點(diǎn),拾音器通過(guò) USB線連接筆記本電腦。當(dāng)列車經(jīng)過(guò)時(shí),通過(guò)筆記本電腦控制聲音數(shù)據(jù)的采集。數(shù)據(jù)采集方案如圖3所示。數(shù)據(jù)采集時(shí),涉及到拾音器的具體安裝位置以及其參數(shù)設(shè)置、列車速度、行車方向等變化因素,在保證信號(hào)質(zhì)量的前提下,只要2個(gè)采集位點(diǎn)保持一致,這些都不會(huì)對(duì)檢測(cè)結(jié)果造成實(shí)質(zhì)影響。

圖3 數(shù)據(jù)采集方案Fig. 3 Data collection scheme

共采集到 20個(gè)聲音數(shù)據(jù)文件,脫空和非脫空條件下各 10個(gè),這些數(shù)據(jù)文件的時(shí)長(zhǎng)不等,其他參數(shù)一致。每一個(gè)聲音數(shù)據(jù)文件都完整的記錄了一列火車進(jìn)過(guò)拾音器的全過(guò)程,時(shí)長(zhǎng)10 s左右,雙聲道(2個(gè)聲道記錄的數(shù)據(jù)相同),采樣率為48 k/s。在采集數(shù)據(jù)的過(guò)程中,列車車輪依次經(jīng)過(guò)拾音器的放置位置并且產(chǎn)生聲音信號(hào)。在忽略不同車輪之間微小差別和周圍噪聲的前提下,這些采集到的聲音數(shù)據(jù)顯然是周期性的。

理想的單個(gè)數(shù)據(jù)樣本,恰好記錄了一個(gè)周期的聲音信號(hào)段。因此,需要對(duì)原始數(shù)據(jù)做包括數(shù)據(jù)切分在內(nèi)的一系列數(shù)據(jù)預(yù)處理。主要包括以下幾個(gè)步驟:

1) 格式轉(zhuǎn)換,把原始數(shù)據(jù)格式wma轉(zhuǎn)化為wav格式;

2) 取單個(gè)聲道的數(shù)據(jù),并對(duì)其掐頭去尾,保留中間的有價(jià)值數(shù)據(jù)(列車經(jīng)過(guò)時(shí),拾音器提前開(kāi)啟并且延遲關(guān)閉);

3) 數(shù)據(jù)歸一化,把所有數(shù)據(jù)歸一化到 0和 1之間;

4) 對(duì)單個(gè)數(shù)據(jù)文件進(jìn)行切分;

5) 對(duì)切分好的實(shí)驗(yàn)數(shù)據(jù)加標(biāo)簽,用0和1分別代表沒(méi)有脫空和脫空2類數(shù)據(jù);

6) 打亂數(shù)據(jù)次序,使得2樣本數(shù)據(jù)均勻分布。

對(duì)于步驟 4,找到理想的切分結(jié)果是很難的??尚械那蟹址桨甘?,用切分好的數(shù)據(jù)訓(xùn)練分類器并進(jìn)行分類測(cè)試,以分類準(zhǔn)確率為評(píng)價(jià)指標(biāo),不斷改變切分長(zhǎng)度和交叉分割長(zhǎng)度,選擇分類效果最好的數(shù)據(jù)集作為最終切分結(jié)果?!扒蟹珠L(zhǎng)度”指單個(gè)數(shù)據(jù)樣本的時(shí)間長(zhǎng)度。切分是有重疊的交叉切分,每隔一段時(shí)間對(duì)音頻文件切分一次,“交叉切分長(zhǎng)度”即表示2次切分的時(shí)間間隔。

具體切分方案為,首先把交叉切分長(zhǎng)度設(shè)置為切分長(zhǎng)度的 1/2,根據(jù)經(jīng)驗(yàn)同時(shí)改變交叉切分長(zhǎng)度和切分長(zhǎng)度;然后保持切分長(zhǎng)度不變,改變交叉切分長(zhǎng)度,得到不同的數(shù)據(jù)集以及對(duì)應(yīng)的測(cè)試結(jié)果如圖4所示。

圖4 數(shù)據(jù)切分Fig. 4 Data split

從圖4可以出,把切分長(zhǎng)度設(shè)置為66 ms,交叉切分長(zhǎng)度設(shè)置為26 ms時(shí),獲得的數(shù)據(jù)用來(lái)構(gòu)造GBRT分類模型效果最好。因此,最終采用26~66 ms這種數(shù)據(jù)切分方式來(lái)獲取數(shù)據(jù)。這樣,最終得到共3 834個(gè)數(shù)據(jù)樣本,每個(gè)樣本有3 169個(gè)點(diǎn)(最后一個(gè)點(diǎn)表示類別標(biāo)簽,值為0或者1),構(gòu)成一個(gè)3 834×3 169的矩陣,數(shù)據(jù)預(yù)處理完成。

3.2 調(diào)節(jié)模型參數(shù)

調(diào)節(jié)模型參數(shù),即通過(guò)調(diào)整模型參數(shù)的設(shè)置方式,使模型的偏差和方差相互協(xié)調(diào),在提高模型準(zhǔn)確率的同時(shí),保證模型有較強(qiáng)的泛化能力[17-18]。GBRT是以回歸樹(shù)為子模型的集成分類模型,有眾多的參數(shù)需要調(diào)整,包括與回歸樹(shù)有關(guān)的子模型類參數(shù)和直接關(guān)系到整體模型性能的過(guò)程類參數(shù)。下面利用前面采集到的數(shù)據(jù),結(jié)合文獻(xiàn)[19],利用交叉驗(yàn)證(5-fold)[20]實(shí)驗(yàn)策略,通過(guò)實(shí)驗(yàn)分析各個(gè)參數(shù)對(duì)模型性能的影響,從而發(fā)現(xiàn)合適的參數(shù)值設(shè)置方式。

過(guò)程類參數(shù)主要有2個(gè):迭代次數(shù)(即回歸樹(shù)的個(gè)數(shù))和學(xué)習(xí)率。GBRT算法希望通過(guò)增加回歸樹(shù)的個(gè)數(shù)來(lái)降低整體模型的偏差,因此,迭代次數(shù)的增加有利于降低整體模型的偏差,提高模型準(zhǔn)確率。學(xué)習(xí)率,又叫縮減率,是對(duì)模型進(jìn)行正則化的系數(shù),用于減少模型過(guò)擬合。子模型類參數(shù)主要有:回歸樹(shù)的最大深度,劃分節(jié)點(diǎn)時(shí)候考慮的最小樣本數(shù)量以及落在葉子節(jié)點(diǎn)的最小樣本數(shù)量?;貧w樹(shù)的最大深度決定了子模型的基本結(jié)構(gòu),該值設(shè)置的越大,子模型越復(fù)雜,有利于降低模型偏差,但是會(huì)導(dǎo)致模型方差升高。后2個(gè)子模型類參數(shù)主要用于減少子模型復(fù)雜度,從而減少整體模型方差。

由于回歸樹(shù)的最大深度對(duì)整體模型的復(fù)雜度有根本性的影響,因此,本文對(duì)模型參數(shù)的調(diào)整從對(duì)該參數(shù)的設(shè)置開(kāi)始。調(diào)參之前,有必要對(duì)過(guò)程類參數(shù)進(jìn)行粗略設(shè)置,在此基礎(chǔ)之上,以回歸樹(shù)的最大深度值的設(shè)置為起點(diǎn),分別對(duì)子模型類參數(shù)進(jìn)行精細(xì)調(diào)整。當(dāng)對(duì)某個(gè)參數(shù)進(jìn)行調(diào)整時(shí),其他參數(shù)保持程序允許的最小值,或者設(shè)置為已經(jīng)調(diào)整的值。當(dāng)所有的參數(shù)都調(diào)整完畢之后,再重新對(duì)2個(gè)過(guò)程類參數(shù)進(jìn)行精細(xì)調(diào)整。

圖5顯示,隨著迭代次數(shù)的增加,模型的訓(xùn)練得分和測(cè)試得分都趨于增長(zhǎng)趨勢(shì),當(dāng)?shù)螖?shù)超過(guò)400后,訓(xùn)練得分已經(jīng)達(dá)到1.0,測(cè)試得分也不再繼續(xù)增加。圖6顯示了學(xué)習(xí)率對(duì)模型性能的影響,曲線趨勢(shì)與圖5類似,但是變化幅度更大??紤]到粗調(diào),因此,2個(gè)參數(shù)分別取值為600和0.03。接下來(lái)調(diào)整回歸樹(shù)的最大深度,如圖7所示。

圖5 粗略調(diào)整回歸樹(shù)的個(gè)數(shù)Fig. 5 Roughly adjust the number of regression tree

圖6 粗略調(diào)整學(xué)習(xí)率的大小Fig. 6 Roughly adjust the size of the learning rate

從圖7可以看出,當(dāng)深度值小于3時(shí)模型偏差太大,分類準(zhǔn)確率較低;當(dāng)深度值大于3時(shí),訓(xùn)練得分等于1.0,模型方差太大,容易過(guò)擬合。因此,本文把最大深度值設(shè)置為 3。接下來(lái),通過(guò)仔細(xì)調(diào)整剩余子模型類參數(shù),降低模型復(fù)雜度,減小模型方差,這個(gè)過(guò)程會(huì)一定程度上提高偏差。

圖7 調(diào)整回歸樹(shù)的最大深度Fig. 7 Adjust the maximum depth of regression trees

圖8 調(diào)整落在葉子節(jié)點(diǎn)的最少樣本個(gè)數(shù)Fig. 8 Adjust the minimal number of samples

圖8 顯示,落在葉子節(jié)點(diǎn)的最小樣本數(shù)量對(duì)模型性能的影響,圖9顯示,切分?jǐn)?shù)據(jù)集時(shí),數(shù)據(jù)集的最小樣本數(shù)量對(duì)模型性能的影響。2個(gè)參數(shù)值設(shè)置得較大時(shí),有利于降低模型的方差。結(jié)合圖8和圖9,把落在葉子節(jié)點(diǎn)的最小樣本個(gè)數(shù)設(shè)置為80,把待切分?jǐn)?shù)據(jù)集的最小樣本個(gè)數(shù)設(shè)置為410。

圖9 調(diào)整待切分?jǐn)?shù)據(jù)集的最小樣本個(gè)數(shù)Fig. 9 Adjust the minimal number of samples of the dataset under divided in the leaf node

圖10 調(diào)整數(shù)據(jù)集采樣率Fig. 10 Adjust the subsample of dataset

還有2個(gè)關(guān)于回歸樹(shù)的子模型類參數(shù),分別是訓(xùn)練數(shù)據(jù)采樣率和特征采樣率。在每次訓(xùn)練子模型時(shí),前者通過(guò)對(duì)數(shù)據(jù)集進(jìn)行隨機(jī)采樣,擾亂數(shù)據(jù),增大模型之間的差異性;后者通過(guò)對(duì)每個(gè)樣本數(shù)據(jù)的特征進(jìn)行隨機(jī)采樣,簡(jiǎn)化建模過(guò)程,增大模型之間的差異性。它們對(duì)模型性能的影響如圖 10和圖11所示。

從圖10和圖11看到,模型的方差并沒(méi)有降低,這與數(shù)據(jù)集以及數(shù)據(jù)集的各個(gè)特征之間區(qū)分度都太小有關(guān)??紤]到模型的準(zhǔn)確率和復(fù)雜度,這里分別把訓(xùn)練數(shù)據(jù)采樣率和特征采樣率設(shè)置為 0.9和0.05。最后,在獲得以上所有調(diào)整結(jié)果的基礎(chǔ)上,重新對(duì)2個(gè)過(guò)程類參數(shù)進(jìn)行仔細(xì)調(diào)整,得到實(shí)驗(yàn)結(jié)果如圖12和圖13所示。

圖11 調(diào)整特征采樣率Fig. 11 Adjust the subsample of features

圖12 重新調(diào)整學(xué)習(xí)率的大小Fig. 12 Readjust the size of learning rate

根據(jù)圖12,把學(xué)習(xí)率的值設(shè)置為0.02,該值越小,越有利于減小模型方差。在此基礎(chǔ)上得到圖13,從中可以看出,把迭代次數(shù)設(shè)置為3 400比較合適。在模型沒(méi)有過(guò)擬合的前提下,最終獲得的分類準(zhǔn)確率約為90.62%。

圖13 重新調(diào)整回歸樹(shù)的個(gè)數(shù)Fig. 13 Readjust the number of regression trees

3.3 與其他機(jī)器學(xué)習(xí)分類算法的比較與分析

除了GBRT算法之外,機(jī)器學(xué)習(xí)領(lǐng)域還有很多分類算法也可以用來(lái)解決聲音信號(hào)的分類問(wèn)題。經(jīng)典的機(jī)器學(xué)習(xí)分類算法還有樸素貝葉斯(Na?ve Bayes,NB)、K 近鄰(K-Neighbors,KN)、線性判別分析(Linear Discriminant Analysis,LDA)、決策樹(shù)(Decision Tree,DT)、支持向量機(jī)(Support Vector Machine,SVM)以及集成學(xué)習(xí)方法的自適應(yīng)提升(Adaboost,AB)和隨機(jī)森林(Random Forest,RF)。把這些算法也引入到解決 CA砂漿脫空檢測(cè)問(wèn)題上,獲得的準(zhǔn)確率如圖14所示,各自的ROC曲線如圖15所示。

圖14 不同分類模型的準(zhǔn)確率對(duì)比Fig. 14 Accuracy of different classification models

圖 14中的小短線表示各個(gè)算法分類準(zhǔn)確率的波動(dòng)區(qū)間。從圖14中可以看到, GBRT算法構(gòu)造的分類模型的平均準(zhǔn)確率最高。而且,使用GBRT算法訓(xùn)練分類模型時(shí)所用的數(shù)據(jù)都是完整數(shù)據(jù),其他準(zhǔn)確率相對(duì)較高一點(diǎn)的方法如支持向量機(jī)在訓(xùn)練模型之前,需要使用諸如 PCA(Principe Component Analysis)等降維方法對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行重要特征提取,增加了模型訓(xùn)練的復(fù)雜度,也破壞了數(shù)據(jù)的完整性。進(jìn)一步觀察圖14發(fā)現(xiàn),GBRT算法不僅準(zhǔn)確率高,而且準(zhǔn)確率的波動(dòng)區(qū)間較小,說(shuō)明該算法比其他算法更加穩(wěn)定可靠,泛化能力更強(qiáng)。圖15的ROC曲線進(jìn)一步顯示,GBRT算法的ROC曲線最接近左上角,AUC值達(dá)到了0.96,充分表現(xiàn)了GBRT模型的性能優(yōu)越性。

圖15 不同分類模型的ROC曲線圖Fig. 15 ROC of different classification models

GBRT算法的缺點(diǎn)是時(shí)間消耗較大。GBRT算法所屬的boosting算法框架決定了其子模型之間較強(qiáng)的關(guān)聯(lián)度,因此很難進(jìn)行并行處理,模型的訓(xùn)練速度相對(duì)較慢。但是,用訓(xùn)練好的模型進(jìn)行樣本點(diǎn)檢測(cè)時(shí),速度非???,而每次進(jìn)行脫空檢測(cè)時(shí)并不需要重新訓(xùn)練模型。

3.4 模型驗(yàn)證

GBRT分類模型根據(jù)分類結(jié)果確定脫空與否并定位脫空位置,模型分類準(zhǔn)確率反映了模型對(duì) CA砂漿脫空的檢測(cè)能力。利用5-fold交叉驗(yàn)證算法和已經(jīng)打亂的數(shù)據(jù)集,獲取5個(gè)不同的驗(yàn)證數(shù)據(jù)集(每個(gè)樣本來(lái)自位點(diǎn)1或者位點(diǎn)2)。利用該驗(yàn)證數(shù)據(jù)集,GBRT分類模型獲得的檢測(cè)結(jié)果如表1所示。

表1 模型驗(yàn)證結(jié)果Table 1 Results of model validation

另外,本方法的本質(zhì)是利用脫空和非脫空情況下列車經(jīng)過(guò)軌道板時(shí)產(chǎn)生聲音信號(hào)的差異,對(duì)特定位點(diǎn)進(jìn)行脫空檢測(cè)。因此,本方法基本不受具體的脫空類型限制(只要差異足夠明顯),比如是否貫穿、脫空形狀等,可以實(shí)現(xiàn)多種脫空類型檢測(cè)。

4 結(jié)論

1) 利用采集自位點(diǎn)1和位點(diǎn)2的767個(gè)數(shù)據(jù)樣本對(duì)提出的GBRT檢測(cè)模型進(jìn)行驗(yàn)證,該檢測(cè)模型獲得了超過(guò)90%的檢測(cè)率,證明了GBRT算法用于解決CA砂漿脫空檢測(cè)問(wèn)題的可行性。

2) 本方法基于脫空聲音信號(hào)和和非脫空聲音信號(hào)的差異對(duì)CA砂漿脫空進(jìn)行檢測(cè),不受脫空類型的限制,有能力檢測(cè)各種脫空類型;而且,本方法基于分類模型的分類決策進(jìn)行脫空檢測(cè),可以同時(shí)對(duì)多個(gè)位點(diǎn)進(jìn)行檢測(cè),檢測(cè)效率較高。

3) GBRT分類模型有眾多參數(shù)需要調(diào)節(jié),目前沒(méi)有標(biāo)準(zhǔn)的調(diào)參方法,現(xiàn)有方法大多根據(jù)實(shí)際情況和實(shí)驗(yàn)效果進(jìn)行調(diào)節(jié)。也可以借助于參數(shù)搜索算法,但是時(shí)間消耗巨大。

4) 常見(jiàn)的經(jīng)典機(jī)器學(xué)習(xí)分類算法同樣適用于CA砂漿脫空檢測(cè),但檢測(cè)效果沒(méi)有GBRT算法好。如果實(shí)驗(yàn)數(shù)據(jù)集足夠大,采集方法更合理,GBRT算法可以獲得更好的檢測(cè)效果。

[1] 王亦軍. 中國(guó)高速鐵路建設(shè)回顧與發(fā)展思考[J]. 鐵道經(jīng)濟(jì)研究, 2016(1): 6-11.WANG Yijun. Review and prospection of China’s high-speed railway[J]. Railway Economics Research,2016(1): 6-11.

[2] 卿三惠, 李雪梅, 卿光輝. 中國(guó)高速鐵路的發(fā)展與技術(shù)創(chuàng)新[J]. 高速鐵路技術(shù), 2014, 5(1): 1-7.QING Sanhui, LI Xuemei, QING Guanghui.Development and technical innovation of china's high-speed railway[J]. High Speed Railway Technology,2014, 5(1): 1-7.

[3] 張春毅, 田秀淑, 張旭, 等. CRTSⅡ 型無(wú)砟軌道 CA砂漿層脫空的瞬態(tài)機(jī)械阻抗法檢測(cè)試驗(yàn)研究[J]. 國(guó)防交通工程與技術(shù), 2015(6): 26-29, 40.ZHANG Chunyi, TIAN Xiushu, ZHANG Xu, et al. An experimental study of the transient mechanical impedance method for detection the disengaging in the CA mortar layer of type-CRTSⅡ non-ballasted tracks[J].Traffic Engineering and Technology for National Defence,2015(6): 26-29, 40.

[4] 胡志鵬, 王平, 熊震威, 等. 基于高斯曲率識(shí)別板式無(wú)砟軌道中CA 砂漿脫空傷損[J]. 鐵道科學(xué)與工程學(xué)報(bào),2014, 11(3): 54-59.HU Zhipeng, WANG ping, XIONG Zhenwei, et al. The void damage identification of CA mortar in slab track based on the Gaussian curvature[J]. Journal of Railway Science and Engineering, 2014, 11(3): 54-59.

[5] 陳夢(mèng). 高速鐵路多層線下結(jié)構(gòu)病害彈性波場(chǎng)無(wú)損檢測(cè)方法研究[D]. 上海: 上海交通大學(xué), 2014.CHEN Meng. Study on elastic wave field detection method used in under line layered structure of high-speed railway[D]. Shanghai: Shanghai Jiaotong University,2014.

[6] Esveld C. Recent developments in slab track[J]. European Railway Review, 2003, 9(2): 81-85.

[7] 徐健, 陳志華, 王凱, 等. 板式無(wú)碴軌道墊層 CA 砂漿研究與進(jìn)展[J]. 華東交通大學(xué)學(xué)報(bào), 2009, 26(4):58-62.XU Jian, CHEN Zhihua, WANG Kai, et al. Research and progress on CA mortar of ballastless slab track cushion[J].Journal of East China Jiaotong University, 2009, 26(4):58-62.

[8] X Yongjiang, L Huajian, F Zhongwei, et al. Concrete crack of ballastless track structure and its repair[J]. IJR International Journal of Railway, 2009, 2(1): 30-36.

[9] 肖威, 郭宇, 高建敏, 等. 高速鐵路路基不均勻沉降對(duì)CRTS III板式軌道受力變形的影響[J]. 鐵道科學(xué)與工程學(xué)報(bào), 2015, 12(4): 724-730.XIAO Wei, GUO Yu, GAO Jianmin, et al. Effect of uneven subgrade settlement on the CRTS Ⅲ slab track stress and deformation of high-speed railway[J]. Journal of Railway Science and Engineering, 2015, 12(4): 724-730.

[10] 蔡世昱, 闕顯廷, 楊榮山. CA 砂漿脫空對(duì)框架型軌道板翹曲的影響分析[J]. 鐵道標(biāo)準(zhǔn)設(shè)計(jì), 2013 (1): 21-24.CAI Shiyu, QUE Xianting, YANG Rongshan. Effect analysis of CA Mortar disengaging on frame-type track slab’s warping[J]. Railway Standard Design, 2013(1):21-24.

[11] 楊榮山, 劉克飛, 任娟娟, 等. 砂漿傷損對(duì)輪軌系統(tǒng)動(dòng)力特性的影響研究[J]. 鐵道學(xué)報(bào), 2014, 36(7): 79-84.YANG Rongshan, LIU Kefei, REN Juanjuan, et al.Research on effect of cement asphalt mortar damages on dynamic characteristics of wheel-rail system[J]. Journal of the China Railway Society, 2014, 36(7): 79-84.

[12] Friedman J H. Greedy function approximation: a gradient boosting machine[J]. Annals of Statistics, 2001, 29(5):1189-1232.

[13] 李航. 統(tǒng)計(jì)學(xué)習(xí)方法[M]. 北京: 清華大學(xué)出版社,2012.LI Hang. Statistical learning method[M]. Beijing:Tsinghua University Press, 2012.

[14] Opitz D, Maclin R. Popular ensemble methods: An empirical study[J]. Journal of Artificial Intelligence Research, 2011(11): 169-198.

[15] Freund Y, Schapire R, Abe N. A short introduction to boosting[J]. Journal-Japanese Society for Artificial Intelligence, 1999, 14(5): 771-780.

[16] Breiman L, Friedman J H, Olshen R, et al. Classification and regression trees[J]. Wadsworth International Group,1984, 40(3): 17-23.

[17] Hawkins D. The problem of overfitting[J]. Journal of Chemical Information and Computer Sciences, 2004,44(1): 1-12.

[18] Bramer M. Using T-pruning to reduce overfitting in classification tress[J]. Knowledge-Based Systems, 2002,15(5-6): 301-308.

[19] Schonlau M. Boosted regression (boosting): An introductory tutorial and a stata plugin[J]. Stata Journal,2005, 5(3): 330.

[20] Kohavi R. A study of cross-validation and bootstrap for accuracy estimation and model selection[C]// Proc of the 14th Int Joint Conf on A I, Montréal, 1995: 1137-1143.

猜你喜歡
砂漿準(zhǔn)確率軌道
大連市材料價(jià)格補(bǔ)充信息
大連市材料價(jià)格補(bǔ)充信息
不同組份地質(zhì)聚合物砂漿的強(qiáng)度研究
磷石膏砂漿在內(nèi)墻抹灰施工中的應(yīng)用
乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
基于單純形法的TLE軌道確定
CryoSat提升軌道高度與ICESat-2同步運(yùn)行
朝美重回“相互羞辱軌道”?
武义县| 甘德县| 门头沟区| 德惠市| 漾濞| 辉县市| 海安县| 隆子县| 睢宁县| 鹤庆县| 西乌珠穆沁旗| 衡水市| 南陵县| 东源县| 特克斯县| 崇文区| 盘山县| 邮箱| 莎车县| 丹巴县| 仁寿县| 孟津县| 太湖县| 满洲里市| 闽清县| 中西区| 桂平市| 绍兴县| 西城区| 怀远县| 宁陵县| 邯郸市| 金华市| 德格县| 交城县| 德安县| 防城港市| 尼木县| 中江县| 扬州市| 巴楚县|