易 佳,陸正剛
(同濟大學鐵道與城市軌道交通研究院,上海 200092)
輪對踏面廓形會隨著列車運行里程的增加而不斷磨損,當這些磨損超過一定標準限值時,就必須進行鏇修,使其恢復到標準外形,從而保證列車的運行安全性。目前主要的鏇修方式為等級鏇修,由于車輪踏面和輪緣的特殊外形,每恢復1 mm的輪緣厚度,在車輪踏面直徑方向上就需要切削掉5 mm 左右[1],車輪踏面直徑方向的鏇修量仍然較大。目前,經(jīng)濟鏇修方案中主要從兩方面進行研究,一個是從經(jīng)濟鏇修外形的設計上,另一個是制定合理的經(jīng)濟鏇修周期。
在經(jīng)濟鏇修外形的設計上,我國眾多學者也開展了一定的研究。文獻[2-3]提出一種多學科設計優(yōu)化方法,并驗證了該優(yōu)化廓形能顯著減少車輪鏇修量。目前對車輪踏面的優(yōu)化設計大多為單輪對優(yōu)化設計,優(yōu)化對象單一,因而所獲得的優(yōu)化鏇修外形不具有一定的普適性,在工程實施上還具有一定難度。
面對大量車輪磨耗數(shù)據(jù),聚類分析這種對原始數(shù)據(jù)進行劃分的方法成為研究熱點。聚類分析即用數(shù)學方法研究和處理給定對象分類,是分析學的一種基本方法[4]。聚類分析過程中通常要解決兩個問題,即如何劃分一個給定的數(shù)據(jù)集并使得劃分結果最優(yōu)以及確定數(shù)據(jù)集的最佳聚類數(shù)。其中,第一個問題通常由聚類算法來解決,而第二個問題則由聚類有效性指標來評價[5]。k-means 聚類算法作為最典型,也是最常見的一種聚類算法,具有高效、準確的聚類效果,針對車輪踏面外形這類數(shù)據(jù)的處理具有較好的普適性。聚類有效性指標一般用于判斷目標數(shù)據(jù)集的最佳聚類簇數(shù)。目前,已有一些經(jīng)典的指標,如CH 指 標[6]、COP 指 標[7]、DB 指 標[8]、Dunn 指 標[9]以及I指標[10]等得到廣泛應用。
本文基于現(xiàn)有的車輪磨耗數(shù)據(jù),從指標間的差異程度出發(fā),分析聚類特征數(shù)據(jù)對聚類數(shù)的影響;基于kmeans 算法,提出融合評價指標確定聚類數(shù)及評價聚類效果;選擇聚類效果最好的方案對所有待鏇修的磨耗踏面開展聚類分析,并對聚類方法進行適應性分析,驗證方案的有效性,為車輪經(jīng)濟優(yōu)化鏇修提供參考。
以某條線路的地鐵為例,列車為6 節(jié)編組,共28 列車。本文以該線路地鐵2022 年9 月底所有車輪為研究對象,并對車輪踏面外形進行了數(shù)據(jù)預處理,最終得到1 344個車輪外形數(shù)據(jù),按照車輪幾何參數(shù)的統(tǒng)計數(shù)據(jù)如圖1~3所示。
圖1 車輪的輪緣厚度分布情況
圖1 所示為所有車輪的輪緣厚度分布情況。由圖可知,輪緣厚度大概在3 個范圍分布較為集中,分別為7.5、29、31 mm 左右。圖2所示為輪緣高度分布情況。圖3 所示為qR 值分布情況。由圖可知,qR值的變化范圍相對集中,輪緣高度大概在3個范圍分布較為集中,分別為27.8、28.5、30 mm左右。
圖2 車輪的輪緣高度分布情況
圖3 車輪的qR值分布情況
目前針對薄輪緣踏面的優(yōu)化設計研究,基本上是針對列車中某一個車輪踏面進行優(yōu)化設計。但在實際列車運營中,由于不同車輪會產(chǎn)生多種不同的磨耗踏面,若要同時對每個磨耗踏面進行優(yōu)化鏇修是不切實際的,在工程上沒有可操作性。
因此,針對每一列車里不同輪對的踏面磨耗情況及相近特征,采用聚類分析方法,將相似度高的磨耗踏面歸為同一類,進行統(tǒng)一的鏇修優(yōu)化分析是比較好的解決方案。
對于聚類指標的選取,可在進行聚類分析之前運用相關性分析,方差計算,結合專業(yè)知識對指標進行篩選,盡量采用那些在不同類別之間存在明顯差異的指標,剔除那些類間差異不明顯的指標;亦可在聚類分析后,利用類間方差分析結果進行指標篩選,剔除不具有顯著性差異的指標,使分類結果客觀真實[11]。本文綜合考慮輪對參數(shù)相關性和方差分析選擇聚類指標。
對各個輪對參數(shù)進行相關性分析,以各輪對參數(shù)的方差作為評價數(shù)據(jù)集的離散程度指標,方差越大,代表該維度的數(shù)據(jù)區(qū)分度越大,定義如式(1)所示。
式中:XiN為各類踏面數(shù)據(jù)中的N個數(shù)據(jù)樣本;μi為各類踏面數(shù)據(jù)的均值。
在進行聚類分析時,由于聚類指標的量綱差異,可能會掩蓋其他變差效度指標作用,因為數(shù)量級單位大的指標往往其變化差異也大,相對權重將會增大。因此,未標準化的數(shù)據(jù)相當于具有不同的權重,可能會對數(shù)據(jù)的真實結構產(chǎn)生很大影響[13-14],但出于某種需要,為強調(diào)某指標的意義時,也可通過計算加權距離的方法實現(xiàn)[12]。本文選用4種不同的聚類參數(shù)處理方法進行研究分析。
(1)Z-Score 標準化。X用X?=轉(zhuǎn)換,其中μ和σ為原始數(shù)據(jù)集X的均值和標準差,X?為經(jīng)過變換后的數(shù)據(jù)集。
(2)最值轉(zhuǎn)換法。X用X?=轉(zhuǎn)換,其中Xmax和Xmin分別表示X指標的最大值和最小值,X?為經(jīng)過變換后的數(shù)據(jù)集。
(3)相對平均值轉(zhuǎn)換法。X用X?=轉(zhuǎn)換,其中表示X指標的平均值,X?為經(jīng)過變換后的數(shù)據(jù)集。
(4)權重比定義聚類參數(shù)
通過一定的權重比,綜合考慮輪緣高度h輪緣、dqR值和輪緣厚度d輪緣這3 個輪對參數(shù)。首先,采用權重為1∶1∶1的方式,定義聚類參數(shù)如式(2)所示。
其次,采用式(3)定義聚類參數(shù)。
式中:η1、η2、η3為相應輪對參數(shù)的方差值。
方差作為評價數(shù)據(jù)集的離散程度指標,可代表數(shù)據(jù)的區(qū)分度,采用方差作為權重系數(shù),利于區(qū)分不同磨耗情況的輪對踏面。
k-means 算法[15],即k均值算法,其根據(jù)數(shù)據(jù)對象的一定特征參數(shù),將相似度大的對象聚成同一類,使不同類別間的相似度盡可能小,是一種無監(jiān)督式學習算法[16]。k-means 算法基本原理[17]:針對一個確定的數(shù)據(jù)集,可先隨機選擇k個數(shù)據(jù)點作為聚類中心,然后計算每個數(shù)據(jù)樣本到各聚類中心的距離,并歸類到距離最近的一個聚類中心,成為一類;接著計算各類數(shù)據(jù)樣本的新的聚類中心,當目標函數(shù)的變化小于一定限度時,表示聚類中心收斂,否則返回重新調(diào)整各類數(shù)據(jù)樣本。k-means算法具體流程如圖4所示。
圖4 K-means聚類算法流程
k-means 算法需要提前確定好初始聚類數(shù)目k及k個初始聚類中心,因此最關鍵的部分是確定聚類簇數(shù)。本文結合“平均輪廓系數(shù)”和“密度指標”,提出融合評價指標確定k值,在聚類算法某一數(shù)據(jù)集聚類劃分結束后,亦可通過聚類有效性指標函數(shù)計算出的數(shù)值來評價聚類劃分的好壞[18]。
(1)密度指標
聚類有效性指數(shù)SDbw基于的標準(即緊湊性和分離)是聚類的基本標準。它通過對比“類內(nèi)的緊密性”和“類間的密度”來評估聚類的有效性。計算式如式(4)~(6)所示。
式中:Scat(c)為c個聚類內(nèi)的平均散布情況,該值越小,說明聚類越緊湊;Dbw(c)為c個聚類之間的平均點數(shù),即聚類間密度,與聚類內(nèi)的密度有關,該值越小,說明類間分離的越好;d(vi)為第i類的聚類中心vi的密度;d(vj)為第j類的聚類中心vi的密度;d(uij)為第i類和第j類之間的聚類中心uij的密度;‖σ(Ci) ‖為向量σ(Ci)的L2 范數(shù),即與原點的歐氏距離[19];σ(D)為數(shù)據(jù)集D,即所有樣本的方差向量;‖σ(D) ‖為向量σ(D)的L2 范數(shù)。聚類有效性指數(shù)SDbw達到最小時的聚類數(shù)目k被認為是數(shù)據(jù)集中存在的聚類數(shù)目的最佳值。
(2)平均輪廓系數(shù)SC
當密度指標判斷效果不顯著時,引入另一聚類有效性指標SC,如式(7)所示。
式中:a(i)為某個樣本與其所在簇內(nèi)其他樣本的平均距離;b(i)為某個樣本與其他簇樣本的平均距離;N為樣本數(shù)量。其中,SC取值范圍為[-1,1],其值越接近1 代表這一類里的數(shù)據(jù)與其他類的數(shù)據(jù)差別越大,同一類里的數(shù)據(jù)相似性越高。
(3)融合評價指標S
該指標能將密度指標與SC相結合,當其中一方變化不明顯時,能更清晰、快速地對k值做出準確判斷。
由于密度指標取值范圍不確定,且其值越小越好,要對其進行轉(zhuǎn)換,具體計算如式(8)所示。
式中:SD為轉(zhuǎn)換后的密度指標值。
結合密度指標和SC值,通過熵權法計算權重得到融合評價指標,具體如式(9)~(10)所示。
式中:S為融合評價指標值;wi為各項指標權重;m為指標個數(shù),這里m=2;dj為計算信息熵冗余度;j為指標個數(shù),取j=2。最后S取值范圍為[0,1],其值越接近1表示聚類效果越好。
表1所示為輪對參數(shù)(1 344個數(shù)據(jù)組)的方差計算結果。圖5所示為輪對參數(shù)的相關性情況。由圖可知,輪緣厚度、等效錐度和qR值三者之間相關性較強,踏面徑向磨耗量和輪緣高度之間相關性較強,為降低數(shù)據(jù)維度,可減少相關性較強的輪對參數(shù)。根據(jù)表1可知,輪緣高度、輪緣厚度、qR值的方差較大。因而綜合相關性和方差分析,最終選取輪緣厚度、輪緣高度以及qR值作為聚類特征參數(shù)。
表1 輪對參數(shù)方差
圖5 輪對參數(shù)相關性
3.2.1 聚類特征變換方法對聚類參數(shù)的影響
將選取的輪緣厚度、輪緣高度以及qR值作為聚類特征參數(shù),并將其經(jīng)過4 種聚類參數(shù)轉(zhuǎn)換方法處理后,計算總平均值、最大(Xmax)最小(Xmin)值及標準差(Sˉ)列于表2。結果表明,有些聚類參數(shù)轉(zhuǎn)換方法對上述特征值有極大的壓縮作用,可大大減小聚類參數(shù)間的離散程度;有些聚類參數(shù)轉(zhuǎn)換方法能保留特征值的差異性,可使聚類效果更接近原始數(shù)據(jù)分類。對于最值轉(zhuǎn)換方法,無論原始數(shù)據(jù)的聚類參數(shù)極差和離散程度多大,該方法均能有效地將最大值和最小值壓縮到1和0,從而能大大減小聚類參數(shù)的離散程度;對于方差權重轉(zhuǎn)換法通過方差加權區(qū)分特征參數(shù)在聚類過程中的影響,加強重要特征參數(shù)的影響,對簇的形成起積極作用。
表2 聚類特征變換方法處理后的特征參數(shù)統(tǒng)計值
3.2.2 聚類特征變換方法對聚類數(shù)的影響
針對不同聚類特征變換方法計算聚類數(shù)(k值),比較其差異性。
(1)Z-Score標準化
根據(jù)標準化后定義聚類參數(shù)Z1,根據(jù)聚類參數(shù)Z1進行聚類分析,得到如圖6 所示的聚類有效性指數(shù)(SDbw)和平均輪廓系數(shù)(SC)隨聚類數(shù)(k)的變化曲線。由圖可知,當k<4 時,SDbw下降明顯,在k=4 和k=7 時,SC出現(xiàn)峰值,隨著SDbw的變小,聚類效果變好。綜上,k=7。
圖6 標準化后不同類別對應的SDbw指標
(2)最值轉(zhuǎn)換
根據(jù)最值轉(zhuǎn)換后定義聚類參數(shù)Z1,根據(jù)聚類參數(shù)Z1進行聚類分析,得到如圖7所示的SDbw和SC隨k的變化曲線。由圖可知,當k>3 時,SDbw下降明顯,在k=4 時SC出現(xiàn)最大值,隨著SDbw的變小,聚類效果變好。綜上,k=7。
圖7 最值轉(zhuǎn)換后不同類別對應的SDbw指標
(3)相對平均值轉(zhuǎn)換
根據(jù)相對平均值轉(zhuǎn)換后定義聚類參數(shù)Z1,根據(jù)聚類參數(shù)Z1進行聚類分析,得到如圖8所示的SDbw和SC隨k的變化曲線。由圖可知,當k<6時,SDbw下降趨勢明顯,當k=2 時,SC出現(xiàn)最大值,但聚成兩類無法很好地展示出車輪的磨耗特征,隨著SDbw的變大,聚類效果變差。綜上,k=4。
圖8 相對平均值轉(zhuǎn)換后不同類別對應的SDbw指標
(4)1∶1∶1權重轉(zhuǎn)換
根據(jù)式(2)1∶1∶1 加權后定義聚類參數(shù)Z1,根據(jù)聚類參數(shù)Z1進行聚類分析,得到如圖9 所示的SDbw和SC隨k的變化曲線。由圖可知,當k<6 時,SDbw下降趨勢明顯,當k=7 時,SC出現(xiàn)最大值,隨著SC的變小,聚類效果變差。綜上,k=7。
圖9 不同類別對應的SDbw指標
(5)方差權重轉(zhuǎn)換
根據(jù)式(3)方差加權后定義聚類參數(shù)Z1,根據(jù)聚類參數(shù)Z1進行聚類分析,得到如圖10所示的不同類別數(shù)計算的SDbw和SC指標。由圖可知,當k為5 和6 時,SC值最大,聚類數(shù)為5與聚類數(shù)為6的SDbw指標相當,聚類數(shù)大于6 時,SC下降明顯,隨著SC的變小,聚類效果變差。綜上,k=5。
圖10 不同類別對應的SDbw指標
采用融合評價指標對不同聚類參數(shù)轉(zhuǎn)換方法的k值進行選擇,選取其值最大時對應的k作為最佳聚類數(shù),并根據(jù)指標大小對比聚類效果。如圖11 所示,其k值計算結果與圖6~10 結果一致,方差權重和1∶1∶1 權重的聚類特征轉(zhuǎn)換方法的綜合指標值較高,其中方差權重轉(zhuǎn)換能在原始數(shù)據(jù)上放大各指標差異性,方差權重最終k=5,1∶1∶1 權重最終k=7,可知有效區(qū)分各指標的重要性,在原始聚類參數(shù)上進行方差加權能提高聚類效果,保證信息的完整性。
圖11 不同聚類參數(shù)轉(zhuǎn)換方法的綜合指標值隨k變化
因此,最后采用融合評價指標確定k值,采用方差權重轉(zhuǎn)換法對聚類特征參數(shù)(h輪緣,d輪緣,qR 值)進行處理后,基于k-means算法進行聚類分析。
針對該線路地鐵2022年9月底的1 344個車輪外形數(shù)據(jù),選用方差權重轉(zhuǎn)換后的輪緣厚度、輪緣高度、qR 值進行聚類分析,進一步得到車輪踏面的5 種典型磨耗廓形。圖12 所示為所有1 344 個車輪聚類分析后按類描述的踏面外形疊加圖,對應分成5 類,劃分在同一類的踏面外形相似度較高,整體外形較接近。同時,基于聚類結果,針對每一類磨耗踏面,采用均值法獲得該類踏面的典型磨耗踏面外形,具體車輪外形如圖12所示。由圖可知,5 類典型磨耗踏面的區(qū)別主要在輪緣和踏面磨耗處。圖13 所示為典型磨耗踏面的磨耗量情況,其中第2類和第3類磨耗量較少。圖14所示為聚類中心分布情況。由圖可知,5 個聚類中心有明顯區(qū)別,距離相隔較遠,典型廓形具體的輪對參數(shù)如表3所示。
表3 五類典型磨耗踏面的輪對參數(shù)
圖12 車輪踏面聚類效果
圖13 5個典型磨耗踏面外形
圖14 典型磨耗踏面外形磨耗量
圖15 聚類中心分布
為驗證該聚類方法的適應性,應選擇與原始數(shù)據(jù)日期較為接近的另外兩組數(shù)據(jù)進一步分析。這里選取該線路2022 年9 月初及2022 年7 月初的兩組車輪廓形數(shù)據(jù),基于融合評價指標的k-means聚類算法進行k值分析。如圖16~17 所示,方差權重和1∶1∶1 權重的聚類特征轉(zhuǎn)換方法的綜合指標值較高,針對9 月初數(shù)據(jù),方差權重最終k=5,1∶1∶1 權重最終k=5,針對7 月初數(shù)據(jù),方差權重最終k=5,1∶1∶1 權重最終k=6。對比9 月底的聚類數(shù)k變化,最終選用方差權重方法得到的綜合指標值最高,k值均為5,由此驗證了方差加權法對聚類參數(shù)進行處理的有效性。
圖16 不同聚類參數(shù)轉(zhuǎn)換方法的綜合指標值隨k變化(9月初)
圖17 不同聚類參數(shù)轉(zhuǎn)換方法的綜合指標值隨k變化(7月初)
本文對某地鐵公司同一線路的1 344個輪對的車輪踏面磨耗情況進行分析,基于聚類分析方法研究分析聚類效果的影響因素,并對地鐵車輪踏面進行聚類分析研究,主要結論如下:
(1)影響聚類分析方法應用效果的因素主要包括聚類指標因素、數(shù)據(jù)處理。在進行聚類分析之前,必須充分做好前期工作,盡量考慮變量之間的相關性,盡量減少不良影響的作用。
(2)提出一種基于融合評價指標的k-means 聚類算法,以帶權重的輪緣高度h輪緣、輪緣綜合值qR和輪緣厚度d輪緣作為描述踏面特征的聚類參數(shù),將密度指標與平均輪廓系數(shù)SC結合得到融合評價指標S確定聚類數(shù)K值,同時使用各個輪對參數(shù)(h輪緣、qR、d輪緣)的方差作為權重,每一類車輪磨耗踏面外形的聚類結果具有較高的準確性。
(3)基于聚類結果,針對每一類磨耗踏面,采用均值法獲得該類踏面的典型磨外形,并對聚類方案的適應性進一步分析,驗證了方案的普適性。
進一步地,將針對每一類典型磨耗廓形進行鏇修模板優(yōu)化,制定合理的經(jīng)濟優(yōu)化鏇修策略,為實現(xiàn)地鐵車輪踏面優(yōu)化經(jīng)濟鏇修的工程應用奠定基礎。