劉其韜
(中國鐵路哈爾濱局集團有限公司 數(shù)據(jù)分析中心,哈爾濱150001)
數(shù)據(jù)分析是企業(yè)生產(chǎn)經(jīng)營活動的重要環(huán)節(jié),隨著大數(shù)據(jù)技術(shù)不斷發(fā)展和普及,數(shù)據(jù)分析被賦予了更深刻的內(nèi)涵和更寬廣的外延。在現(xiàn)代企業(yè)中,數(shù)據(jù)挖掘正在推動著企業(yè)資源的深度開發(fā),使其價值更充分地得以發(fā)掘。近年來,國電、中移動、京東等大型國企和物流電商先后組建了數(shù)據(jù)分析專業(yè)機構(gòu),大數(shù)據(jù)分析技術(shù)在精準營銷定位[1]、設(shè)備運維監(jiān)測[2]、運輸路徑優(yōu)化[3]等方面的應用取得明顯效益。
目前,鐵路大數(shù)據(jù)應用已經(jīng)起步,但由于鐵路系統(tǒng)作業(yè)規(guī)律復雜,設(shè)備技術(shù)密集多樣,建立數(shù)據(jù)分析體系的難度較大。在當前條件下,如何建立具有鐵路企業(yè)特點的數(shù)據(jù)分析能力體系,是現(xiàn)階段的一個重要課題。
大數(shù)據(jù)技術(shù)發(fā)展至今,無論是理論模型還是實際解決方案,基本上形成了一種數(shù)據(jù)分析體系的典型模式[4],如圖1所示。
1.2.1 數(shù)據(jù)處理能力
包括數(shù)據(jù)存儲、計算、傳輸所必需的硬件軟件資源,例如存儲設(shè)備、計算設(shè)備、網(wǎng)絡(luò)設(shè)備,以及支持大數(shù)據(jù)應用所必需的虛擬化、云計算等相關(guān)技術(shù)。
圖1 數(shù)據(jù)分析體系典型模式
1.2.2 分析工具能力
包含兩方面內(nèi)容:(1)工具本身,如基本統(tǒng)計工具、數(shù)據(jù)處理組件、建模評估及可視化工具,應有可靠性能和完善功能,并形成組合;(2)應用工具的能力,主體是人,能夠根據(jù)數(shù)據(jù)或業(yè)務(wù)需要,敏銳、靈活地選擇適用的工具和方案,避免在工具選擇上走彎路。
1.2.3 業(yè)務(wù)融合能力
(1)專業(yè)與信息技術(shù)的融合:在數(shù)據(jù)分析領(lǐng)域,業(yè)務(wù)的驅(qū)動和主導格外重要,數(shù)據(jù)分析的結(jié)果也一定要作用到業(yè)務(wù)事件上才有意義和價值。分析人員不僅要具備豐富的專業(yè)知識和經(jīng)驗,而且還要長于數(shù)據(jù)觀察,具備運用數(shù)據(jù)發(fā)現(xiàn)問題、解決問題的能力;(2)專業(yè)與專業(yè)之間的關(guān)聯(lián):在鐵路局集團公司層面,高度垂直分工的管理機制造成專業(yè)分工過細,客觀上造成專業(yè)之間數(shù)據(jù)交流融合不足,在融合不同專業(yè)數(shù)據(jù)的基礎(chǔ)上做好數(shù)據(jù)挖掘,可為鐵路生產(chǎn)經(jīng)營管理發(fā)掘出更多價值的信息資源;(3)不同專業(yè)的目標趨同:實現(xiàn)局部與整體的協(xié)調(diào),如何把專業(yè)間博弈轉(zhuǎn)化為合作來破除壁壘是實現(xiàn)跨專業(yè)數(shù)據(jù)分析的前提,涉及深層次問題,也觸及環(huán)境文化氛圍[5]。
1.2.4 數(shù)據(jù)治理能力
數(shù)據(jù)治理包含數(shù)據(jù)管理運用相關(guān)的制度、標準、管理、監(jiān)控等內(nèi)容,以及支持數(shù)據(jù)共享的相關(guān)標準和提供共享渠道的數(shù)據(jù)服務(wù)平臺,可提供完善的數(shù)據(jù)安全、隱私保護體系的數(shù)據(jù)安全保障能力,具備數(shù)據(jù)管理機制的執(zhí)行落實能力。
1.2.5 數(shù)據(jù)思維能力
數(shù)據(jù)思維的概念比較寬泛,對企業(yè)而言包括如下主要內(nèi)容:(1)對數(shù)據(jù)具敏銳的洞察能力,善于從數(shù)據(jù)變化中總結(jié)發(fā)現(xiàn)規(guī)律[6];(2)能運用數(shù)據(jù)和邏輯來描述現(xiàn)象;(3)善于建立數(shù)據(jù)關(guān)聯(lián);(4)善于從業(yè)務(wù)需求出發(fā)來收集和使用數(shù)據(jù),或依據(jù)業(yè)務(wù)判斷進行數(shù)據(jù)運用。
數(shù)據(jù)思維能力是對人的素質(zhì)要求,是對從事相關(guān)工作的人員的業(yè)務(wù)素質(zhì)與數(shù)據(jù)素養(yǎng)的綜合考量。
作為人的要素,應該把主體擴至團隊,數(shù)據(jù)分析大多都是合作活動,團隊素質(zhì)包括業(yè)務(wù)素質(zhì)、技術(shù)能力、創(chuàng)新能力、數(shù)據(jù)思維意識及團隊合作能力。
(1)標準體系,作為數(shù)據(jù)分析的基礎(chǔ),決定著未來數(shù)據(jù)共享難易程度,各專業(yè)不僅要建立自身的標準體系,還要服從于企業(yè)整體的標準體系;(2)數(shù)據(jù)管理制度體系,逐步建立并不斷完善覆蓋數(shù)據(jù)生命周期的相關(guān)法規(guī)和流程;(3)數(shù)據(jù)安全保障,包括保障機制和管理及技術(shù)手段,以及網(wǎng)絡(luò)安全防控體系、應急處理機制等;(4)數(shù)據(jù)共享機制,包括相關(guān)的規(guī)定與規(guī)范、共享渠道和特定規(guī)則,如數(shù)據(jù)共享方式和標準。
(1)業(yè)務(wù)知識及經(jīng)驗,作為數(shù)據(jù)挖掘的驅(qū)動力,業(yè)務(wù)知識儲備和實踐經(jīng)驗是尋找發(fā)現(xiàn)規(guī)律的前提條件,讓團隊不斷地掌握運輸現(xiàn)場實際情況,保持知識結(jié)構(gòu)的先進性,以適應鐵路生產(chǎn)需要;(2)技術(shù)工具運用能力,靈活而有效地運用各種工具進行數(shù)據(jù)處理和分析,達到理想的應用效果;(3)業(yè)務(wù)與技術(shù)的有效結(jié)合,本文中兩個分析案例將體現(xiàn)這種結(jié)合;根據(jù)選定的業(yè)務(wù)課題,選擇恰當?shù)墓ぞ哌M行研究,開展初步規(guī)律探究之后,通過進一步學習和修正,形成完整的技術(shù)路徑;(4)設(shè)備保障,除了基礎(chǔ)存儲、計算資源之外,應形成企業(yè)級設(shè)備平臺保障體系,數(shù)據(jù)分析平臺只是其基礎(chǔ)與核心,隨著業(yè)務(wù)拓展,與ERP、物聯(lián)網(wǎng)、地理信息平臺、各類業(yè)務(wù)應用系統(tǒng)的銜接都是必然選擇;此外,還必須具備保證數(shù)據(jù)安全的技術(shù)手段。
在開展一些跨領(lǐng)域、跨專業(yè)、跨部門的數(shù)據(jù)分析時,最好由一個機構(gòu)負責組織,以統(tǒng)籌數(shù)據(jù)、算力、人力等資源,有利于消除本位因素,保證客觀公正和目標集中。此外,根據(jù)業(yè)務(wù)需要和企業(yè)管理現(xiàn)實,也可對該機構(gòu)賦予數(shù)據(jù)管理職能,將其作為信息化專業(yè)管理的有機組成部分。
環(huán)境文化是軟實力的一個重要內(nèi)容,針對鐵路局數(shù)據(jù)分析體系的建設(shè),這種文化主要有3個要點:(1)尊重規(guī)律,避免先入為主形成結(jié)論,應以數(shù)據(jù)分析結(jié)果為導向;(2)要有大局觀,企業(yè)內(nèi)部組織能夠圍繞整體目標去組織資源、采取行動,而不是僅圍繞小團體和局部領(lǐng)域的目標開展行動;(3)崇尚創(chuàng)新,在開展數(shù)據(jù)挖掘、探索規(guī)律的初期,往往沒有既定目標,結(jié)論也多是未知的,數(shù)據(jù)挖掘活動離不開手段方法的創(chuàng)新,形成鼓勵創(chuàng)新、容忍失敗的氛圍十分必要。
(1)確立并遵循自下而上的基本建設(shè)路徑,做好頂層設(shè)計;(2)根據(jù)現(xiàn)實需要,開展具體項目進行檢驗和示范應用;(3)采取遞進方式投入配套基礎(chǔ)設(shè)施,并根據(jù)需要適度進行超前建設(shè);(4)統(tǒng)籌推進,把各種能力和要素按各自的規(guī)律做好建設(shè)和培育,以期在特定的階段發(fā)揮作用,促進良性發(fā)展。
中國鐵路哈爾濱局集團有限公司(簡稱:哈局)于2018年部署了鐵路數(shù)據(jù)服務(wù)平臺(RDSP),利用既有的虛擬化資源作為基礎(chǔ)軟件平臺,包括應用門戶管理、數(shù)據(jù)采集、數(shù)據(jù)資產(chǎn)、數(shù)據(jù)安全、數(shù)據(jù)治理、腳本開發(fā)、數(shù)據(jù)分析套件、數(shù)據(jù)倉庫、可視化套件等,具備批處理、內(nèi)存計算、流計算等多種計算引擎,提供內(nèi)置的數(shù)據(jù)挖掘組件及可視化報表,供用戶開展自助數(shù)據(jù)分析[7]。
經(jīng)過近半年的籌備,哈局數(shù)據(jù)分析中心于2019年4 月成立,以檢測監(jiān)測數(shù)據(jù)為切入點,機構(gòu)組建整合了軌道、信號、接觸網(wǎng)動態(tài)檢測業(yè)務(wù),并對機務(wù)、車輛、工務(wù)、電務(wù)、供電行車設(shè)備的數(shù)據(jù)開展分析調(diào)研,服務(wù)安全生產(chǎn)的同時,打造數(shù)據(jù)分析能力,致力于發(fā)現(xiàn)各領(lǐng)域數(shù)據(jù)的內(nèi)在規(guī)律。在開展既有動態(tài)檢測工作的同時,在數(shù)據(jù)分析利用方面進行了探索。目前已編制檢測月報輔助工具,開展了一些數(shù)據(jù)分析實驗。
以下兩個實踐案例,分別在鐵路運輸生產(chǎn)的不同領(lǐng)域采用不同的思路和方法,其分析過程和結(jié)果體現(xiàn)鐵路系統(tǒng)的生產(chǎn)特點,具有一定代表性。
3.3.1 鐵路固定設(shè)備動態(tài)檢測數(shù)據(jù)的常規(guī)分析
常規(guī)分析要滿足不同視角對既有數(shù)據(jù)的觀察。鑒于鐵路系統(tǒng)業(yè)務(wù)分析需求的復雜性,二維視角無法滿足多方面需要,因此結(jié)合基本的數(shù)據(jù)分析業(yè)務(wù),運用數(shù)據(jù)立方體來處理數(shù)據(jù),不僅適用于當前的動態(tài)檢測,也可以在各業(yè)務(wù)領(lǐng)域應用。簡而言之,就是在數(shù)據(jù)庫上建立數(shù)據(jù)立方體的邏輯結(jié)構(gòu),用以加工和存儲數(shù)據(jù),不同的切片形成報表;在此基礎(chǔ)上,實現(xiàn)基本的查詢與處理平臺,支持上卷和下卷,提供交互式查詢和自助報表,結(jié)合合理的安全策略設(shè)置,還可以將其推送至移動終端。
鐵路固定設(shè)備的動態(tài)檢測數(shù)據(jù)一般包括優(yōu)良率、缺陷數(shù)量、扣分情況、綜合評價指標等,這些數(shù)據(jù)具有時間和空間屬性,可構(gòu)成包含時間度量、空間度量、內(nèi)容度量的三維數(shù)據(jù)立方體。在把握維度需求的基礎(chǔ)上,編寫程序?qū)霗z測數(shù)據(jù)切片,提供圖形化分析結(jié)果。
以鐵路工務(wù)系統(tǒng)軌道檢測數(shù)據(jù)為例:(1)按照內(nèi)容度量(優(yōu)良率、缺陷數(shù)量、平均公里超限、平均扣分、TQI等),運用工具進行切分;(2)在每個維度下,再按空間度量(段別、線別、車間別)進行鉆取和卷??;(3)按檢測時間排列,進行趨勢分析和規(guī)律分析。展示界面見圖2及圖3,細節(jié)缺陷數(shù)據(jù)的多維度切片分析見圖4。
分析工具投入使用后,一次性導入數(shù)據(jù),在不同維度上對數(shù)據(jù)進行切片,便于專業(yè)部門從不同維度上進行數(shù)據(jù)分析,發(fā)現(xiàn)問題。同時,報告生成時間由過去近半個月縮短到2~3個工作日,效率和時效性明顯改善。隨著體系建設(shè)的不斷深入,此類報表最終將演化為互動式的數(shù)據(jù)交換平臺。
圖2 工務(wù)軌道質(zhì)量檢測數(shù)據(jù)按空間及管理維度的分析切片
圖3 工務(wù)軌道質(zhì)量檢測數(shù)據(jù)按時間、空間及管理維度的分析切片
圖4 工務(wù)軌道質(zhì)量檢測細節(jié)缺陷數(shù)據(jù)多維度綜合分析
3.3.2 機車輪緣磨耗的數(shù)據(jù)挖掘探索
數(shù)據(jù)、業(yè)務(wù)需要、平臺是數(shù)據(jù)挖掘不可缺少的三個要素。模型訓練、關(guān)聯(lián)能力是數(shù)據(jù)分析的核心能力和競爭力,也最有挑戰(zhàn)性和探索性[8]。依托既有的數(shù)據(jù)資源,從業(yè)務(wù)需求入手,形成假設(shè),利用平臺計算資源,開展建模、訓練、糾正和驗證,從而找出內(nèi)在規(guī)律,這也可視為一種簡單的模型訓練或者機器學習,對專業(yè)化分工的企業(yè)而言,是一種很好的訓練方式,能夠形成具有普遍適用性的工具和方法[9]。
在鐵路機務(wù)專業(yè)開展了基于機車輪緣磨耗情況的數(shù)據(jù)挖掘?qū)嶒?。以輪對自動檢測棚記錄的輪緣磨耗數(shù)據(jù)為對象,對輪緣磨耗的影響因素進行分析,以期找出潛在規(guī)律,輔助機務(wù)段優(yōu)化車輪鏇修時機,在確保安全的前提下,為節(jié)約成本提供依據(jù)。
從機務(wù)專業(yè)角度判斷,輪緣磨耗主要在機車通過曲線運行時發(fā)生,一般認為與曲線的長度和半徑均有關(guān)系,但其中的內(nèi)在規(guī)律一直未能量化。為此,提取三棵樹機務(wù)段管內(nèi)哈爾濱地區(qū)機車輪對檢測棚在2019年4月10日—7月10日期間的輪緣數(shù)據(jù)作為分析對象。(1)依據(jù)輪緣力公式和LKJ 數(shù)據(jù),編寫曲線當量計算器,對各機車牽引區(qū)段的曲線進行當量化處理;(2)將各區(qū)段曲線當量與在此期間各機車擔當車次的走行路徑相結(jié)合,形成各車次曲線當量;(3)將各車次曲線當量加權(quán)平均,對統(tǒng)計期間各機車每兩次入庫之間的輪緣磨耗量進行切分,得到各車次輪緣磨耗數(shù)據(jù)9792條,作為訓練數(shù)據(jù);(4)運用多元線性回歸方法,建立客運內(nèi)燃機車輪緣水平磨耗的數(shù)學模型如下:
式中:Wf為輪緣水平磨耗量(mm),R為線路曲線半徑(m),L為曲線長度(m)。
經(jīng)數(shù)學方法檢驗,檢驗結(jié)果見圖5,該模型擬合優(yōu)度為0.89,具有較高的可信度。
圖5 輪緣水平磨耗預測模型擬合度檢驗結(jié)果
為進一步驗證模型有效性,提取哈爾濱地區(qū)在7月11—31日期間的入庫機車輪緣數(shù)據(jù)進行驗證。由于統(tǒng)計時間段較短、數(shù)據(jù)量少,對檢測設(shè)備誤差影響較大。為此,選取其中5臺擔當本務(wù)且記錄在10條以上的機車,對各機車在統(tǒng)計期間所擔當各車次的途徑曲線進行當量化處理,而后代入模型,再將所得數(shù)據(jù)與實際磨耗量做對比,得到結(jié)果見表1。
從分析結(jié)果看,五臺機車累計磨耗值與模型預測值的差異分布在-0.07mm 至0.05mm 之間,在輪緣檢測精度按0.1mm 掌握的情況下,模型基本可滿足使用要求。以上分析雖與精準分析尚有差距,并且由于數(shù)據(jù)量不足,沒有進行模型的繼續(xù)優(yōu)化,但從實驗角度,完成了一個典型的數(shù)據(jù)挖掘研究過程。
表1 機車實際磨耗與模型預測值的差異對比
在鐵路局集團公司當前條件下,對數(shù)據(jù)分析的理論和方法進行初步探討。數(shù)據(jù)分析方法的應用能夠為鐵路企業(yè)帶來切實的安全收益和經(jīng)濟效益;同時,數(shù)據(jù)分析體系在建設(shè)過程中也面臨著一些無法回避的難題,諸如數(shù)據(jù)來源困難、數(shù)據(jù)質(zhì)量不理想、政策支持不足、跨專業(yè)融合困難、專業(yè)人員缺乏等。這些問題的根源可能觸及鐵路企業(yè)的組織、管理、文化等深層次內(nèi)容。在大數(shù)據(jù)應用推廣的道路上,這些問題是必須面對的矛盾,將隨著發(fā)展的深入得到解決,解決這些問題的理想途徑是,在推進能力體系建設(shè)的過程中同步做好統(tǒng)籌規(guī)劃。
隨著信息技術(shù)的不斷發(fā)展,以及管理方式的不斷改進,數(shù)據(jù)分析的前景將日益廣闊,必將在科學管理與決策支持上釋放出巨大威力。