王俊宇, 邢國棟, 李海濤, 付革民*
(1.國能包神鐵路集團有限責任公司機務(wù)分公司, 內(nèi)蒙古, 鄂爾多斯 017000;2.安徽安為科技有限公司, 安徽, 合肥 230000)
機務(wù)大數(shù)據(jù)閉環(huán)整合算法集合了互聯(lián)網(wǎng)和大數(shù)據(jù)技術(shù),對鐵路運行的全部過程實行數(shù)據(jù)管理,挖掘與機務(wù)管理相關(guān)的數(shù)據(jù)信息,形成閉合的數(shù)據(jù)鏈。在此基礎(chǔ)上,實現(xiàn)數(shù)據(jù)的快速分析、整理、編輯等,獲取數(shù)據(jù)中有價值的數(shù)據(jù),提升機務(wù)大數(shù)據(jù)的利用率。離線計算和遷移學習則分別屬于大數(shù)據(jù)技術(shù)和互聯(lián)網(wǎng)技術(shù):前者屬于大數(shù)據(jù)技術(shù)中的大數(shù)據(jù)計算,其指的是在計算開始前[1-4],所有輸入數(shù)據(jù)為已知的計算,并能夠立刻得出計算結(jié)果;后者則是在網(wǎng)絡(luò)應(yīng)用不斷發(fā)展下,將已有領(lǐng)域中的數(shù)據(jù)遷移至新的領(lǐng)域,提升數(shù)據(jù)的應(yīng)用性。
為實現(xiàn)大數(shù)據(jù)的整合,邱保志等[5]和張巧靈[6]分別研究基于殘差分析的混合屬性數(shù)據(jù)聚類算法和基于時間序列的數(shù)據(jù)融合算法,但是僅能夠完成同領(lǐng)域內(nèi)的數(shù)據(jù)融合,對于跨領(lǐng)域數(shù)據(jù)的融合仍需進一步驗證。
因此,本文針對機務(wù)大數(shù)據(jù)的應(yīng)用需求和現(xiàn)狀,在分析離線計算和遷移學習的優(yōu)勢后,將兩者結(jié)合用于機務(wù)大數(shù)據(jù)閉環(huán)整合中,提出結(jié)合離線計算與遷移學習的機務(wù)大數(shù)據(jù)閉環(huán)整合算法,解決機務(wù)大數(shù)據(jù)信息孤島、利用率較低以及數(shù)據(jù)查找耗時等問題,為機務(wù)管理提供有效、可靠的數(shù)據(jù)管理。
本文提出的結(jié)合離線計算和遷移學習的機務(wù)大數(shù)據(jù)閉環(huán)整合算法,主要以機務(wù)大數(shù)據(jù)的高效實時采集以及各類數(shù)據(jù)的整合、統(tǒng)一化為主要目標,實現(xiàn)機務(wù)管理過程中各項機務(wù)業(yè)務(wù)之間的協(xié)調(diào)性[7]、部門和區(qū)域之間的數(shù)據(jù)共享性、數(shù)據(jù)格式的統(tǒng)一性;并且整合后的數(shù)據(jù)可通過Web技術(shù)實現(xiàn)數(shù)據(jù)可視化。該方法整體劃分為3個部分:一是機務(wù)大數(shù)據(jù)采集;二是機務(wù)大數(shù)據(jù)管理;三是決策支持,如圖1所示。
圖1 機務(wù)大數(shù)據(jù)閉環(huán)整合算法框架
該算法能夠與機務(wù)段數(shù)個應(yīng)用系統(tǒng)之間集成,可實現(xiàn)用戶的統(tǒng)一管理、認證以及權(quán)限管理,通過數(shù)據(jù)的可視化完成機務(wù)宣傳三維動畫的展示,提升機務(wù)管理的相關(guān)工作效率,為管理決策、機務(wù)安全運輸生產(chǎn)等提供綜合的數(shù)據(jù)支持。
機務(wù)大數(shù)據(jù)包含的數(shù)據(jù)類別較多,其整體可劃分成3類:人員大數(shù)據(jù)、設(shè)備大數(shù)據(jù)、輔助大數(shù)據(jù)。本文算法通過閉環(huán)數(shù)據(jù)鏈的形成,實現(xiàn)機務(wù)數(shù)據(jù)的信息化,3類大數(shù)據(jù)可用于機車安全分析、機車檢修、人員安全分析、司乘管理、輔助決策等應(yīng)用場景。各個應(yīng)用場景之間的關(guān)聯(lián)關(guān)系如圖2所示。
圖2 機務(wù)大數(shù)據(jù)的應(yīng)用場景
機務(wù)大數(shù)據(jù)聚類是實現(xiàn)機務(wù)大數(shù)據(jù)在閉環(huán)整合的基礎(chǔ),機務(wù)大數(shù)據(jù)采集部分采用離線計算的基于人工蜂群(ABC)算法的并行劃分聚類算法,完成機務(wù)大數(shù)據(jù)的聚類。該算法結(jié)合ABC和相對熵策略(RES)、數(shù)據(jù)均衡策略以及MapReduce計算模型形成。三者分別實現(xiàn)機務(wù)數(shù)據(jù)預(yù)處理、數(shù)據(jù)均衡以及并行劃分聚類。其中,ABC算法用于完成機務(wù)大數(shù)據(jù)的預(yù)處理,RES則實現(xiàn)機務(wù)大數(shù)據(jù)的均衡處理,MapReduce計算模型實現(xiàn)最終機務(wù)大數(shù)據(jù)的并行化分聚類。
(1) 機務(wù)大數(shù)據(jù)預(yù)處理
依據(jù)數(shù)據(jù)聚類特性,引入聚類準則函數(shù)CCF,保證獲取的最優(yōu)解滿足聚類特性,聚類準則函數(shù)CCF的公式為
(1)
式中,P(Xi,Oj)和P(Xi,Xj)分別表示簇內(nèi)和簇間相似度,前者的值越大表示聚類效果越佳,后者的值越小表示聚類效果越佳。
(2)
(2) 大數(shù)據(jù)的均衡處理
在上一步驟中,獲取初始簇中心后,為了防止各個節(jié)點中機務(wù)數(shù)據(jù)發(fā)生傾斜現(xiàn)象,引入數(shù)據(jù)均衡策略。該策略能夠依據(jù)動態(tài)方式完成節(jié)點的負載收集,同時完成節(jié)點之間的負載分配,有效抑制數(shù)據(jù)傾斜現(xiàn)象,即使發(fā)生機務(wù)數(shù)據(jù)大量調(diào)動時,依據(jù)能夠較好地保證大數(shù)據(jù)的穩(wěn)定。
i表示節(jié)點,當其發(fā)生過載沒有及時處理時的機務(wù)數(shù)量用L(i)m表示,則在Reduce階段中,懸掛和恢復(fù)所需的和時間分別用Ts和Tr表示;在執(zhí)行機務(wù)數(shù)據(jù)時的通信開銷用Tc表示,則機務(wù)數(shù)據(jù)的均衡策略公式為
(3)
T(i)m>2Ci
(4)
Ci=Ts+Tc+Tr
(5)
式(3)~式(5)中,i節(jié)點發(fā)生過載時,其時間開銷用T(i)m表示,在該過載下,執(zhí)行機務(wù)大數(shù)據(jù)調(diào)度時所需的總時間開銷用Ci表示。式(4)表示機務(wù)數(shù)據(jù)調(diào)度過程中所需的時間開銷小于過載節(jié)點的時間開銷,滿足機務(wù)數(shù)據(jù)調(diào)度標準,避免數(shù)據(jù)傾斜,實現(xiàn)數(shù)據(jù)均衡。
(3) 機務(wù)大數(shù)據(jù)的并行劃分聚類
完成機務(wù)大數(shù)據(jù)均衡處理后,采用MapReduce計算模型獲取簇中心,實現(xiàn)機務(wù)大數(shù)據(jù)的聚類。MapReduce計算模型是一種分布式編程模型以及任務(wù)調(diào)度模型,可完成大規(guī)模數(shù)據(jù)集的并行運算,其核心包含2個階段,分別為Map(映射)和Reduce(化簡),前者能夠完成輸入數(shù)據(jù)塊的轉(zhuǎn)化,后者則是完成整合以及輸出。MapReduce計算模型結(jié)構(gòu)如圖3所示。
圖3 MapReduce計算模型結(jié)構(gòu)
在機務(wù)大數(shù)據(jù)的并行劃分聚類過程中,主要利用Map和Reduce對數(shù)據(jù)實行相關(guān)處理,Map實現(xiàn)步驟(1)和步驟(2)的結(jié)果讀取后,采用歐氏距離計算公式確定初始簇中心距離和數(shù)據(jù)之間的距離,并向各個簇中分配對應(yīng)的機務(wù)數(shù)據(jù),獲取并存儲局部機務(wù)數(shù)據(jù)的聚類結(jié)果;Reduce依據(jù)Map的局部聚類結(jié)果完成局部簇的合并;以代價函數(shù)為E判斷依據(jù),衡量合并結(jié)果是否為最優(yōu)解。代價函數(shù)結(jié)果為Emin時,表示為最優(yōu)解,即獲取機務(wù)大數(shù)據(jù)的聚類結(jié)果;反之則重新采用MapReduce計算模型進行迭代計算,達到Emin時停止,輸出機務(wù)數(shù)據(jù)的并行劃分聚類結(jié)果,形成機務(wù)大數(shù)據(jù)的閉環(huán)數(shù)據(jù)鏈。
設(shè)聚類形成機務(wù)大數(shù)據(jù)的閉環(huán)數(shù)據(jù)鏈中,機務(wù)管理所需的機務(wù)數(shù)據(jù)符號集合用V={V1,…,VM}表示,該符號的序列則用Vt表示,其中t表示變量,屬于一個代表序列長度;Vt的某個依賴子集用O表示,其觀察值序列用O=o1,oi,…,ot表示。機務(wù)數(shù)據(jù)的隱含狀態(tài)集合用S={S1,…,SN}表示,其狀態(tài)序列集合用St表示;其子集用Q表示,其狀態(tài)序列為Q=q1,qi,…,qt,且qi和oi相對應(yīng)。
如果抽取的機務(wù)大數(shù)據(jù)的序列域用D表示,其中包含2種機務(wù)數(shù)據(jù)域,分別為已標注和未標注,用Dt和Du表示,前者由O和其邊界概率P(O)組成,后者由Q和其邊界概率P(Q)組成。
D的識別任務(wù)用G表示,該識別的主要目的是為O∈ξ找到Q∈ζ,以此保證數(shù)據(jù)最大化利用指標的實現(xiàn);O和Q之間的序列關(guān)聯(lián)參數(shù)用λ={A,B,π},其中A表示機務(wù)數(shù)據(jù)狀態(tài)遷移矩陣,B表示機務(wù)數(shù)據(jù)符號發(fā)射矩陣,π表示機務(wù)數(shù)據(jù)的初始狀態(tài)分布。
矩陣A={aij},其中aij=(qt+1=Sj|qt=Si),A表示機務(wù)數(shù)據(jù)抽取過程中不同屬性之間的相互轉(zhuǎn)換概率。
矩陣B={bj(k)},其中bj(k)=P(ot=Vk|qt=Sj),B表示機務(wù)數(shù)據(jù)中檢索獲取的數(shù)據(jù)生成概率。
由于機務(wù)數(shù)據(jù)符號和數(shù)據(jù)狀態(tài)之間的分布不滿足獨立同等標準,因此,采用式(6)的最佳路徑指標保證機務(wù)數(shù)據(jù)抽取以及檢索的完成概率最大化,其公式為
(6)
依據(jù)粒度馬爾科夫模型完成不同機務(wù)數(shù)據(jù)域中抽取和檢索數(shù)據(jù)的識別,將識別后的數(shù)據(jù)用于機務(wù)管理中。
為測試本文算法對于機務(wù)大數(shù)據(jù)閉環(huán)整合的效果,抽取某鐵路局運行管理中心連續(xù)6個月的數(shù)據(jù)作為實驗對象,采用本文方法對其實行閉環(huán)整合測試,獲取測試結(jié)果。
由于機務(wù)數(shù)據(jù)在實際應(yīng)用過程中,具有逐漸增加的特點,因此,本文算法在對其實行整合過程中需保證算法在數(shù)據(jù)不斷增加情況下的擴展性,測試在機務(wù)數(shù)據(jù)量逐漸增加的情況下以加速度(用于衡量數(shù)據(jù)的處理效率,期望標準達到0.9)作為衡量標準,獲取本文算法在不同節(jié)點數(shù)量下隨著數(shù)據(jù)量的不斷增加,加速度的結(jié)果,如圖4所示。
圖4 擴展性能測試結(jié)果
對圖4的結(jié)果進行分析后得出:在不同的數(shù)據(jù)節(jié)點下,隨著數(shù)據(jù)量的逐漸增加,加速度的結(jié)果均在0.9以上,表示本文算法的擴展性較好,能夠滿足機務(wù)數(shù)據(jù)在不斷增加的情況下,完成數(shù)據(jù)的整合。
為測試本文算法在進行機務(wù)數(shù)據(jù)查詢時的查詢性能,獲取本文方法在源域中未標注數(shù)據(jù)比例逐漸增加的情況下,隨著查詢數(shù)據(jù)量的逐漸增加,對源域數(shù)據(jù)實行查詢時的空間復(fù)雜度結(jié)果(期望結(jié)果低于0.35),如圖5所示。
圖5 機務(wù)數(shù)據(jù)查詢空間復(fù)雜度測試結(jié)果
對圖5的結(jié)果實行分析后得出:在不同的未標注數(shù)據(jù)比例下,隨著查詢數(shù)據(jù)量的逐漸增加,本文方法機務(wù)數(shù)據(jù)檢索過程中的空間復(fù)雜度均低于期望結(jié)果,復(fù)雜度結(jié)果均在0.3以下,因此,即使數(shù)據(jù)量在5 TB時,空間復(fù)雜度結(jié)果約在0.32左右,因此,本文方法具備良好的數(shù)據(jù)應(yīng)用性能,能夠為機務(wù)管理快速提供所需的相關(guān)機務(wù)數(shù)據(jù)。
為測試本文算法的應(yīng)用性能,采用智能系數(shù)(有效范圍值大于120,值越大表示算法的聚類性能越佳)和數(shù)據(jù)訪問載荷(有效范圍值大于20,值越大表示算法在數(shù)據(jù)整合過程中的協(xié)同處理性能越佳)作為評價指標,測試本文方法的應(yīng)用性能,結(jié)果如表1所示。
表1 數(shù)據(jù)整合性能
對表1的結(jié)果進行分析后得出:在不用的節(jié)點數(shù)量下,本文方法的智能系數(shù)和數(shù)據(jù)訪問載荷兩種指標的結(jié)果均明顯高于標準的結(jié)果,最高結(jié)果分別達到155.7和74.6,因此,本文方法具備良好的數(shù)據(jù)整合性能,并且對數(shù)據(jù)實行協(xié)同處理能力較好。
鐵路信息化管理議程成為當下鐵路機務(wù)管控中心的重要內(nèi)容,信息化的管理能夠?qū)崿F(xiàn)機務(wù)管理全面、可靠掌握鐵路安全運行狀況,實現(xiàn)鐵路管理過程中各個路段管理處之間的數(shù)據(jù)共享,實現(xiàn)統(tǒng)一化管理、調(diào)控?;诖?結(jié)合離線計算和遷移學習,提出機務(wù)大數(shù)據(jù)閉環(huán)整合算法,保證算法擴展性較好,可滿足增長式機務(wù)數(shù)據(jù)的應(yīng)用,可靠完成機務(wù)大數(shù)據(jù)聚類,并且數(shù)據(jù)在應(yīng)用過程中的空間復(fù)雜度較低,整合效果理想,能夠為鐵路機務(wù)管控中心提供全面、可靠的數(shù)據(jù)依據(jù),進而保證鐵路安全運行的全面管控。