馬麗梅,史 丹,高志遠(yuǎn),李華杰
(1.深圳大學(xué) 中國經(jīng)濟特區(qū)研究中心,廣東 深圳 518060;2.中國社會科學(xué)院 工業(yè)經(jīng)濟研究所,北京 100836;3.中國鐵道科學(xué)研究院 運輸及經(jīng)濟研究所,北京 100081)
近年來,隨著經(jīng)濟社會的發(fā)展和信息技術(shù)的進(jìn)步,大數(shù)據(jù)作為一門新的行業(yè),其熱度不斷提高,從2011年開始進(jìn)入人們的視野,之后飛速發(fā)展。我國政府高度重視大數(shù)據(jù)行業(yè)的發(fā)展,國務(wù)院等部門先后印發(fā)《促進(jìn)大數(shù)據(jù)發(fā)展行動綱要》《大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃(2016—2020年)》等指導(dǎo)性文件,20多個省份出臺了本地區(qū)大數(shù)據(jù)產(chǎn)業(yè)發(fā)展規(guī)劃,我國大數(shù)據(jù)產(chǎn)業(yè)已進(jìn)入快速發(fā)展的軌道。國務(wù)院在《促進(jìn)大數(shù)據(jù)發(fā)展行動綱要》中提出了大數(shù)據(jù)的概念,其特征包括類型多、容量大、存取速度快、應(yīng)用價值高等,這樣一系列的集合即為大數(shù)據(jù),大數(shù)據(jù)產(chǎn)業(yè)是指對大數(shù)據(jù)開展采集、存儲數(shù)據(jù)的分析并且創(chuàng)造價值和提升能力的產(chǎn)業(yè)。在維克托和庫克耶編寫的《大數(shù)據(jù)時代》中指出,大數(shù)據(jù)是不采用抽樣調(diào)查等傳統(tǒng)分析法進(jìn)行處理,而采用計算機信息技術(shù)進(jìn)行分析處理的數(shù)據(jù)。麥肯錫[1](2016)指出,大數(shù)據(jù)是一種數(shù)據(jù)集合,即在數(shù)據(jù)采集、存儲和分析方面大大超過傳統(tǒng)數(shù)據(jù)工具處理的能力,具有海量數(shù)據(jù)規(guī)模、多種數(shù)據(jù)類型、數(shù)據(jù)快速流轉(zhuǎn)和價值密度低等特征。從一般意義上講,普遍認(rèn)為大數(shù)據(jù)具有4V特征,即體量大(Volume)、種類多(Variety)、速度快(Velocity)和真實性(Veracity)。
當(dāng)前,大數(shù)據(jù)在經(jīng)濟領(lǐng)域的應(yīng)用研究可大致將其歸納為兩類:一是對宏觀經(jīng)濟的預(yù)測,優(yōu)化傳統(tǒng)指標(biāo)或構(gòu)建新的預(yù)測指標(biāo);二是建立經(jīng)濟變量的聯(lián)系以期進(jìn)行關(guān)聯(lián),挖掘用戶特征,達(dá)到優(yōu)化改善企業(yè)經(jīng)營及銷售的目的,這里主要涉及大數(shù)據(jù)在不同行業(yè)的應(yīng)用。在第一類預(yù)測問題研究上,主要是通過搜索引擎(如Google Trends、百度指數(shù)等)和數(shù)據(jù)抓取(也稱為網(wǎng)絡(luò)爬蟲)來獲取數(shù)據(jù)進(jìn)行預(yù)測分析,這些預(yù)測指標(biāo)主要包括GDP、失業(yè)率、房地產(chǎn)、通貨膨脹,等等。Askitas和Zimmermann[2](2009)、McLaren和Shanbhogue[3](2011)、Vicente等[4](2015)分別運用搜索引擎得到的數(shù)據(jù)對德國、英國、西班牙的失業(yè)率進(jìn)行預(yù)測,預(yù)測結(jié)果與真實值較為接近、效果良好。Cavallo和Rigobon[5](2016)主要闡述了麻省理工學(xué)院2008年啟動的“十億價格計劃”,通過抓取網(wǎng)絡(luò)上公布的多種商品價格數(shù)據(jù)構(gòu)建指數(shù)來研究美國、阿根廷等20多個國家的通貨膨脹指數(shù),對比研究結(jié)果發(fā)現(xiàn),這種大數(shù)據(jù)研究方法更為接近真實水平。國內(nèi)學(xué)者的研究起步較晚,姜文杰等[6](2016)運用百度指數(shù),通過構(gòu)建系列模型預(yù)測了上海的房價走勢;李鳳岐等[7](2017)通過百度搜索查詢指數(shù)對中國的宏觀經(jīng)濟指標(biāo)進(jìn)行了預(yù)測,研究結(jié)果雖然存在偏差,但仍與真實值接近。
在第二類關(guān)聯(lián)問題及涉及行業(yè)的研究上,這類問題研究的數(shù)據(jù)獲取不僅僅局限于網(wǎng)絡(luò),還包括來自于行業(yè)及企業(yè)積累的大容量數(shù)據(jù)。Antweiler和Frank[8](2004)、Gilbert和Karahalios[9](2010)、Moat 等[10](2014)通過Twitter、Google、Wikipedia以及財經(jīng)網(wǎng)站收集的數(shù)據(jù)研究投資者情緒、搜索頻次對股市的影響。Li等[11](2015)從TripAdvisor.com的上萬條評論中總結(jié)用戶的潛在旅游偏好,進(jìn)而進(jìn)一步優(yōu)化酒店服務(wù)。在行業(yè)研究上,電力、互聯(lián)網(wǎng)、零售、電信等行業(yè)積累了大量的消費者及自身運行的數(shù)據(jù)信息,通過這些數(shù)據(jù)在內(nèi)部可以實現(xiàn)優(yōu)化自身管理模式的需要,從外部應(yīng)用上可以豐富自身的增值服務(wù)。Chittaranjan 等[12](2013)運用智能手機數(shù)據(jù)來研究五大人格維度的關(guān)系,進(jìn)而探尋用戶個性,改善企業(yè)經(jīng)營銷售業(yè)績。李杰[13](2016)從工業(yè)4.0視角進(jìn)一步解讀了工業(yè)大數(shù)據(jù),對大數(shù)據(jù)的行業(yè)應(yīng)用從價值理念到實踐案例進(jìn)行了系統(tǒng)闡述,他提出大數(shù)據(jù)的行業(yè)應(yīng)用不僅僅是用于企業(yè)系統(tǒng)維護(hù)和自身功能提升的信息服務(wù),而是以自身核心功能為基礎(chǔ),利用大數(shù)據(jù)挖掘新知識并創(chuàng)造競爭力與社會價值。吳力波等[14](2016)、郭雷風(fēng)[15](2016)、田歆等[16](2017)、周輝宇[17](2017)、謝康等[18](2018)分別對大數(shù)據(jù)技術(shù)在電力、農(nóng)業(yè)、零售業(yè)、交通部門以及產(chǎn)品研發(fā)領(lǐng)域的應(yīng)用,特別是在中國的應(yīng)用進(jìn)行了詳細(xì)的探討。
在國內(nèi)大數(shù)據(jù)行業(yè)研究領(lǐng)域,現(xiàn)有研究主要集中于現(xiàn)代服務(wù)業(yè)以及互聯(lián)網(wǎng)相關(guān)行業(yè),大數(shù)據(jù)在傳統(tǒng)行業(yè)的應(yīng)用并未得到足夠的重視和充分探討,本文在對大數(shù)據(jù)的技術(shù)架構(gòu)進(jìn)行整體描述的基礎(chǔ)上,根據(jù)我國鐵路大數(shù)據(jù)的發(fā)展現(xiàn)狀,嘗試探索鐵路大數(shù)據(jù)技術(shù)框架的構(gòu)建,這將進(jìn)一步促進(jìn)大數(shù)據(jù)技術(shù)在我國鐵路行業(yè)的落地生效,為鐵路提高運輸安全水平、實現(xiàn)客貨運精準(zhǔn)營銷、提高運輸效率提供參考。主要創(chuàng)新點在于:在解析“大數(shù)據(jù)+鐵路”的基礎(chǔ)上,闡述大數(shù)據(jù)之于傳統(tǒng)行業(yè)升級的重要意義,基于產(chǎn)業(yè)鏈構(gòu)建鐵路大數(shù)據(jù)系統(tǒng)架構(gòu),嘗試對鐵路大數(shù)據(jù)的規(guī)劃設(shè)計、落地實施和其他行業(yè)大數(shù)據(jù)產(chǎn)業(yè)示范等提供一定的借鑒意義。
如果將大數(shù)據(jù)處理按處理時間的跨度要求,從長到短可分為三類:一是流處理,即基于實時數(shù)據(jù)流的數(shù)據(jù)處理(Streaming Data Processing),通常的時間跨度在數(shù)百毫秒到數(shù)秒之間;二是交互式分析,即基于歷史數(shù)據(jù)的交互式查詢(Interactive Query),通常的時間跨度在數(shù)十秒到數(shù)分鐘之間;三是批處理,即復(fù)雜的批量數(shù)據(jù)處理(Batch Data Processing),通常的時間跨度在幾分鐘到數(shù)小時之間[19]。當(dāng)然,這三類數(shù)據(jù)處理流程并不一定能完全分開,它們的處理一般情況下要涉及兩類組件:Hadoop和Spark,這兩個組件也是大數(shù)據(jù)技術(shù)兩個重要的核心部分。 圖1展示了大數(shù)據(jù)的核心架構(gòu),主要包括4個層級,即數(shù)據(jù)獲取層、數(shù)據(jù)處理層、模型層和應(yīng)用層。
1.數(shù)據(jù)獲取
常見的數(shù)據(jù)獲取方法主要包括兩類:①系統(tǒng)日志采集方法。許多互聯(lián)網(wǎng)企業(yè)形成了自身的數(shù)據(jù)采集方法,可以用在系統(tǒng)日志的采集過程中,如Hadoop的Chukwa、Cloudera的Flume、Facebook的Scribe等,這些工具都是使用的分布式結(jié)構(gòu),可以滿足每秒數(shù)百MB的采集及傳輸需要。②網(wǎng)絡(luò)數(shù)據(jù)采集方法。網(wǎng)絡(luò)數(shù)據(jù)采集就是通過網(wǎng)絡(luò)爬蟲以及網(wǎng)絡(luò)公開API的方法在網(wǎng)上獲得數(shù)據(jù),這種方法將非結(jié)構(gòu)的數(shù)據(jù)在網(wǎng)頁中提取,然后存儲在本地的數(shù)據(jù)文件中,并且通過結(jié)構(gòu)化的存儲模式存儲起來,可以進(jìn)行圖片、音視頻等文件的采集操作,附件可以和正文進(jìn)行關(guān)聯(lián),不僅包括網(wǎng)絡(luò)的相關(guān)內(nèi)容,還包括網(wǎng)絡(luò)流量的采集,可以使用DPI或者是DFI等管理技術(shù)進(jìn)行處理[20]。
2.數(shù)據(jù)處理
數(shù)據(jù)處理層包括兩個重要架構(gòu),Hadoop架構(gòu)和Spark架構(gòu)。Hadoop為開源軟件框架,對數(shù)據(jù)采取分布式處理方式,其主要特征體現(xiàn)為高可靠性、高擴展性、高容錯性、低成本及高效性。Hadoop能夠?qū)崿F(xiàn)一個名為MapReduce的簡單編程模型[21]。Map Reduce 是由 Google 提出來的一種新的數(shù)據(jù)處理編程模型,可以處理TB級以及TB級以上的數(shù)據(jù)工作。Map Reduce主要的優(yōu)勢就是隱藏了編程系統(tǒng)的細(xì)節(jié),開發(fā)者能夠集中全力地解決核心問題,并不是關(guān)注計算機執(zhí)行的細(xì)節(jié)。它繼承了函數(shù)式以及矢量語言的優(yōu)點,該編程語言不僅可以用在非結(jié)構(gòu)化中,而且能夠用在結(jié)構(gòu)化的數(shù)據(jù)上,實現(xiàn)查找、知識挖掘、機器語言智能學(xué)習(xí)等功能。Spark 是現(xiàn)在大數(shù)據(jù)領(lǐng)域最熱門、高效的數(shù)據(jù)快速分析解決框架。它立足于內(nèi)存計算,從多迭代批量處理出發(fā),將流計算(Streaming) 、圖計算(Graph Processing)等不同的模型能夠在一個平臺中統(tǒng)一起來,通過一致的接口,促進(jìn)各個框架在內(nèi)存中進(jìn)行集成,有利于系統(tǒng)任務(wù)得到更好的實現(xiàn)[19,21]。
圖1 大數(shù)據(jù)技術(shù)架構(gòu)
3.數(shù)據(jù)模型
數(shù)據(jù)挖掘與機器學(xué)習(xí)。數(shù)據(jù)挖掘和機器學(xué)習(xí)是大數(shù)據(jù)技術(shù)架構(gòu)中模型層的重要組成部分。數(shù)據(jù)挖掘是通過算法搜索來獲取大量數(shù)據(jù)中潛在有用的、有效的、最終可理解的信息的過程。機器學(xué)習(xí)是數(shù)據(jù)挖掘中的一種重要工具,目前已經(jīng)成為計算機數(shù)據(jù)分析技術(shù)的創(chuàng)新源頭之一。數(shù)據(jù)模型常用的大數(shù)據(jù)分析軟件包括統(tǒng)計分析軟件(如R軟件、SAS軟件、SPSS軟件等)、數(shù)據(jù)庫軟件(如Oracle軟件、SQL Server軟件等)以及計算機編程軟件(如Java軟件、C語言等軟件)。大數(shù)據(jù)的分析方法包括統(tǒng)計分析(如聚類、關(guān)聯(lián)規(guī)則等)、在線分析處理、情報檢索、機器學(xué)習(xí),等等。
4.數(shù)據(jù)應(yīng)用
大數(shù)據(jù)技術(shù)怎樣服務(wù)化是一個值得研究的領(lǐng)域。云計算是大數(shù)據(jù)應(yīng)用中不可避免的問題。目前,大數(shù)據(jù)云服務(wù)有兩種經(jīng)典模式:一是托管模式,這種模式的核心是通過云的能力簡化了集群的創(chuàng)建、運維等;二是服務(wù)化模式,用戶不用關(guān)心集群、資源等問題,只需將大數(shù)據(jù)任務(wù)交給大數(shù)據(jù)云即可享受相應(yīng)服務(wù)。大數(shù)據(jù)應(yīng)用主要在智慧城市、城市交通、醫(yī)療、金融、城市規(guī)劃等各領(lǐng)域中,應(yīng)用媒介主要是門戶網(wǎng)站、個人事務(wù)、郵件系統(tǒng)等。
我國鐵路部門非常重視數(shù)據(jù)的積累工作,當(dāng)前的鐵路數(shù)據(jù)已經(jīng)達(dá)到了一定的規(guī)模,數(shù)據(jù)的存儲格式以結(jié)構(gòu)化的數(shù)據(jù)為主,視頻以及圖片等非結(jié)構(gòu)化數(shù)據(jù)量也在不斷增加。我國鐵路實行模塊化管理,主要包括機務(wù)、車務(wù)、工務(wù)、電務(wù)和車輛等模塊,具有跨區(qū)域網(wǎng)絡(luò)、技術(shù)構(gòu)成復(fù)雜、部門繁多、業(yè)務(wù)應(yīng)用廣泛等特點,因此,鐵路是一項全流程、全業(yè)務(wù)、全數(shù)據(jù)的復(fù)雜系統(tǒng)工程,構(gòu)建鐵路大數(shù)據(jù),必須考慮鐵路自身專業(yè)的特點,加強頂層設(shè)計、跨部門協(xié)作、跨業(yè)務(wù)管理和跨技術(shù)耦合。
1.鐵路大數(shù)據(jù)內(nèi)涵
鐵路大數(shù)據(jù)是指大數(shù)據(jù)技術(shù)在鐵路行業(yè)中的應(yīng)用,不僅包括大數(shù)據(jù)的數(shù)據(jù)采集技術(shù)、分析技術(shù)和統(tǒng)計預(yù)測技術(shù)[22],還包括大數(shù)據(jù)的思維和理念在鐵路行業(yè)中的應(yīng)用。從更深層次考慮,將鐵路數(shù)據(jù)從傳統(tǒng)的報表分析、數(shù)據(jù)統(tǒng)計向智能化、精準(zhǔn)化、網(wǎng)絡(luò)化、協(xié)作化方向轉(zhuǎn)變,從結(jié)構(gòu)化數(shù)據(jù)的傳統(tǒng)方法分析向非結(jié)構(gòu)化數(shù)據(jù)的智能方法轉(zhuǎn)變,從有限數(shù)據(jù)向多維度、多粒度、多模型、多形態(tài)的海量鐵路數(shù)據(jù)轉(zhuǎn)變,鐵路大數(shù)據(jù)是鐵路技術(shù)、鐵路科研、生產(chǎn)管理等全產(chǎn)業(yè)鏈的跨業(yè)務(wù)、跨部門、跨區(qū)域、跨專業(yè)的有效工具,是汲取鐵路數(shù)據(jù)價值、促進(jìn)鐵路發(fā)展、加快鐵路企業(yè)轉(zhuǎn)型升級的重要手段,是加快鐵路現(xiàn)代化、實現(xiàn)鐵路走向更高級階段的一個必經(jīng)過程。
鐵路大數(shù)據(jù)包含了以下層面的含義:一是我國鐵路信息化經(jīng)過近40年建設(shè),在12.4萬公里鐵路軌道、6 000多個車站、近4萬多臺機車和動車組上安裝大量感知器,在鐵路工程建設(shè)、聯(lián)調(diào)聯(lián)試、客貨運輸?shù)阮I(lǐng)域通過軟硬件接入、數(shù)據(jù)共享等方式產(chǎn)生了海量的結(jié)構(gòu)、半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)。二是鐵路數(shù)據(jù)的獲取方式、獲取范圍和獲取時間產(chǎn)生了很大變化,隨著各類信息系統(tǒng)建設(shè),包括鐵路建設(shè)BIM平臺、12 306客運服務(wù)系統(tǒng)、95 306鐵路物資采購與招商平臺、機車遠(yuǎn)程診斷和監(jiān)測CMD系統(tǒng)、機車車載安全防護(hù)6A系統(tǒng)等,可以實現(xiàn)對數(shù)據(jù)的實時采集、全面分析和動態(tài)管理,數(shù)據(jù)集成平臺在鐵路領(lǐng)域獲得了更大范圍的利用。三是鐵路大數(shù)據(jù)理念被廣泛接受,海量鐵路數(shù)據(jù)提供的有價值決策被用于進(jìn)行設(shè)備狀態(tài)管理、客貨流量預(yù)測、故障預(yù)測和健康管理、工程建設(shè)、安全保障,等等。四是增值服務(wù)。這是鐵路行業(yè)轉(zhuǎn)型升級的關(guān)鍵要素,利用鐵路數(shù)據(jù)可以給用戶提供更加豐富的增值服務(wù)內(nèi)容,同時,也可作為城市發(fā)展以及投資決策的重要參考。通過完善“出行地圖”,能夠更精準(zhǔn)地反映地區(qū)經(jīng)濟狀況及各群體的出行習(xí)慣,可以為城市和基礎(chǔ)設(shè)施建設(shè)規(guī)劃提供基礎(chǔ)依據(jù)。
2.鐵路大數(shù)據(jù)特征
鐵路大數(shù)據(jù)是由結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化的數(shù)據(jù)組成的。隨著各種智能設(shè)備在鐵路中不斷的推廣應(yīng)用,非結(jié)構(gòu)化數(shù)據(jù)也在快速發(fā)展,其數(shù)量將大大超過結(jié)構(gòu)化的數(shù)據(jù),鐵路大數(shù)據(jù)不僅能夠滿足4V特點,它還包括以下三個明顯的特征:①泛在性。鐵路大數(shù)據(jù)覆蓋了鐵路運輸生產(chǎn)各個環(huán)節(jié),包括機、車、工、電、輛,實現(xiàn)了業(yè)務(wù)鏈條全覆蓋。②地域性。由于我國鐵路分布較廣,全路18個路局集團(tuán)公司所管轄的機車、動車組、車輛、軌道、信號等都會產(chǎn)生各類數(shù)據(jù),具有較強的時空特征。 ③交叉性。鐵路大數(shù)據(jù)不僅僅涉及鐵路企業(yè)自身管理,而且還涉及軍事輸送、資源調(diào)配、社會安全、公共管理等多個方面。交通出行將成為未來國家經(jīng)濟發(fā)展的重要組成部分,鐵路大數(shù)據(jù)的應(yīng)用前景會隨著與不同行業(yè)的交叉關(guān)聯(lián),變得更為廣闊。
1.鐵路大數(shù)據(jù)產(chǎn)業(yè)鏈分析
鐵路運輸行業(yè)的應(yīng)用系統(tǒng)包括鐵路組織結(jié)構(gòu)(總公司、路局、站段等)中涉及到的業(yè)務(wù)系統(tǒng),根據(jù)“鐵路信息化總體規(guī)劃”,鐵路信息系統(tǒng)涵蓋鐵路業(yè)務(wù)層面的多個系統(tǒng),包括運輸生產(chǎn)組織、運輸調(diào)度指揮、運輸安全管理、客運營銷、貨運營銷、人力資源管理、黨建管理等,表1展示了部分鐵路相關(guān)業(yè)務(wù)系統(tǒng)。
2.鐵路大數(shù)據(jù)系統(tǒng)架構(gòu)
根據(jù)圖1的大數(shù)據(jù)技術(shù)架構(gòu),以及鐵路大數(shù)據(jù)產(chǎn)業(yè)鏈及其本身的特性,本文構(gòu)建了鐵路大數(shù)據(jù)的系統(tǒng)架構(gòu),并將其分為五個層級來滿足大數(shù)據(jù)技術(shù)從數(shù)據(jù)采集到最后應(yīng)用端的全部過程,見圖2。
(1)數(shù)據(jù)獲取層。主要包括數(shù)據(jù)的采集及初步分析,涉及圖2的第一、二、三層。各類感知設(shè)備、信息系統(tǒng)等是數(shù)據(jù)采集的來源,主要是安裝在機車和動車組上的各類元件、工務(wù)上的軌道檢測設(shè)備、車輛上的測量儀器等,信息系統(tǒng)主要包括鐵路運輸生產(chǎn)的客貨運系統(tǒng)、安全管理系統(tǒng)等。除此之外,還包括服務(wù)器設(shè)備、網(wǎng)絡(luò)設(shè)備,服務(wù)器設(shè)備主要滿足大數(shù)據(jù)的云環(huán)境,網(wǎng)絡(luò)設(shè)備主要是指數(shù)據(jù)的傳輸設(shè)備。數(shù)據(jù)的獲取可以通過互聯(lián)網(wǎng)技術(shù),應(yīng)用智能設(shè)備,對數(shù)據(jù)進(jìn)行集中和統(tǒng)一操作,并且形成數(shù)據(jù)中心,促進(jìn)了數(shù)據(jù)的鏈接以及共享和使用,這一應(yīng)用主要集中于圖2的第三層。通過無線網(wǎng)絡(luò)獲取地面綜合應(yīng)用子系統(tǒng)的遠(yuǎn)程數(shù)據(jù),實現(xiàn)全路客運、貨運、工務(wù)、供電、電務(wù)、安全管理、人才培養(yǎng)、協(xié)同辦公等業(yè)務(wù)數(shù)據(jù)采集,構(gòu)建清晰、完整、高質(zhì)量、高可靠的數(shù)據(jù)資產(chǎn)體系。以6A系統(tǒng)、CMD系統(tǒng)為例。
表1 部分鐵路相關(guān)業(yè)務(wù)系統(tǒng)
資料來源:鐵路總公司《鐵路信息化總體規(guī)劃》。
①安全管理系統(tǒng)(6A)
圖3為機車上的6A系統(tǒng),即機車車載安全防護(hù)系統(tǒng)[23],主要通過機車上的各類傳感器實時采集制動監(jiān)測、防火監(jiān)控、高壓絕緣檢測、列車供電監(jiān)測、走行部監(jiān)測和視頻監(jiān)控六項數(shù)據(jù),視頻監(jiān)控為視頻數(shù)據(jù),其他為文本和圖像數(shù)據(jù),并利用三次樣條插值法對時間不同步的數(shù)據(jù)進(jìn)行處理,最后通過交換單元傳輸?shù)酵獠拷涌凇?/p>
②機車信息化系統(tǒng)(CMD)
CMD系統(tǒng),即機車遠(yuǎn)程監(jiān)測與診斷系統(tǒng)主要集成了智能設(shè)備、大數(shù)據(jù)和互聯(lián)網(wǎng)的理念,通過車載LDP設(shè)備實時采集機車的各類信息,包括機車安全信息、機車狀態(tài)信息和機車監(jiān)測信息,數(shù)據(jù)包括了文本數(shù)據(jù)、圖像數(shù)據(jù)和視頻數(shù)據(jù),通過我國自主的北斗衛(wèi)星導(dǎo)航系統(tǒng)進(jìn)行數(shù)據(jù)傳輸,最后通過鐵路內(nèi)網(wǎng)實現(xiàn)機務(wù)段、路局機關(guān)和總公司三層信息共享。
圖2 鐵路大數(shù)據(jù)系統(tǒng)架構(gòu)
(2)平臺層。主要包括鐵路大數(shù)據(jù)的處理及初步應(yīng)用,涉及圖2的第四層。平臺層通過批量計算、內(nèi)存計算等多種計算方式,滿足鐵路不同業(yè)務(wù)類型數(shù)據(jù)的計算需求[24]。鐵路安全監(jiān)控系統(tǒng)包括大量非結(jié)構(gòu)化的數(shù)據(jù),并且進(jìn)行在線實時處理,實現(xiàn)在線的人機交互和在線分析。鐵路客運大數(shù)據(jù)分析提供批量查詢技術(shù),實現(xiàn)海量客運數(shù)據(jù)特征分析。此外,還有大批量的離線數(shù)據(jù),可以利用批量化的處理技術(shù)進(jìn)行離線處理,包括各類報表、歷史記錄等,在以上數(shù)據(jù)計算的基礎(chǔ)上,開展更高層次的數(shù)據(jù)分析,進(jìn)行數(shù)據(jù)建模、數(shù)據(jù)預(yù)測、數(shù)據(jù)分類和聚類等,支持在線算法處理應(yīng)用,為鐵路分析決策提供平臺支撐。以客運數(shù)據(jù)、基礎(chǔ)設(shè)施數(shù)據(jù)為例。
①客運大數(shù)據(jù)
客運大數(shù)據(jù)處理主要包括對數(shù)據(jù)的清洗、聚類、預(yù)測等,客運大數(shù)據(jù)屬性達(dá)60多個,包括列車車次、乘車日期、乘車時間、列車類型、速度等級等,因此,針對特定數(shù)據(jù)需求需進(jìn)行數(shù)據(jù)清洗,進(jìn)行維度歸約處理,進(jìn)行特定屬性的選擇。然后對特定屬性的數(shù)據(jù)進(jìn)行聚類,如把旅客出行距離進(jìn)行聚類,可以劃分為短途、中途和長途旅行。在此基礎(chǔ)上,根據(jù)聚類數(shù)據(jù),對不同旅行距離的客流量進(jìn)行預(yù)測。
②基礎(chǔ)設(shè)施大數(shù)據(jù)
鐵路基礎(chǔ)設(shè)施主要包括軌道、接觸網(wǎng)、信號機、橋梁、隧道等,通過大數(shù)據(jù)中的數(shù)據(jù)挖掘、預(yù)測分析等對工務(wù)進(jìn)行故障發(fā)現(xiàn)、故障預(yù)測,通過大數(shù)據(jù)中的關(guān)聯(lián)分析、數(shù)據(jù)挖掘等對接觸網(wǎng)運行質(zhì)量進(jìn)行評價,通過大數(shù)據(jù)中的聚類分析、判別分析等對通信設(shè)施故障進(jìn)行歸類,對不同路局的通信故障進(jìn)行判別分析。
(3)應(yīng)用層。主要包括鐵路大數(shù)據(jù)的深度應(yīng)用,涉及圖2的第五層,針對各個業(yè)務(wù)領(lǐng)域的數(shù)據(jù)分析和決策支持的需求,能夠?qū)崿F(xiàn)多業(yè)務(wù)的數(shù)據(jù)系統(tǒng),支撐面向多層次多用戶的分析應(yīng)用,包括戰(zhàn)略決策、經(jīng)營管理、現(xiàn)場管理等。在經(jīng)營效益層面,重點對客貨運開展?fàn)I銷分析、行業(yè)競爭分析、價格管理、成本分析等;在運輸安全方面,進(jìn)行運營安全隱患預(yù)測、行車安全分析、事故調(diào)查等;在運輸效率方面,進(jìn)行物資供應(yīng)分析、運力的調(diào)配和優(yōu)化、運輸組織優(yōu)化等;在客戶服務(wù)方面,進(jìn)行客貨運客戶精準(zhǔn)營銷、擴展服務(wù)和產(chǎn)品質(zhì)量提升等。
圖3 機車車載安全防護(hù)系統(tǒng)
鐵路是一個龐大的體系,針對各個領(lǐng)域的數(shù)據(jù)采集、處理、分析等都有相應(yīng)研究,如:通過CMD系統(tǒng)對機車數(shù)據(jù)的采集與處理,通過6A系統(tǒng)對機車安全數(shù)據(jù)的采集與處理,通過TMIS系統(tǒng)對鐵路運輸管理數(shù)據(jù)的采集與處理,通過12306系統(tǒng)針對客運數(shù)據(jù)的采集與處理,通過95306平臺針對貨運數(shù)據(jù)的采集與處理等。隨著信息技術(shù)的發(fā)展,鐵路數(shù)據(jù)采集的頻率、精度不斷提高,基于各種數(shù)據(jù)融合的數(shù)據(jù)分析方法越來越多。然而,如果從大數(shù)據(jù)流程的角度來考慮,大部分研究僅僅側(cè)重于數(shù)據(jù)流程的幾個環(huán)節(jié),還很難有能夠全部覆蓋整個鏈條的應(yīng)用。通過對比其他領(lǐng)域的相關(guān)研究,鐵路大數(shù)據(jù)流程應(yīng)該包括鐵路數(shù)據(jù)的采集、預(yù)處理、管理、處理、分析等,不同階段的支撐有所不同。在數(shù)據(jù)采集階段,主要是各種硬件設(shè)備(傳感器、應(yīng)答器、攝像儀等)對數(shù)據(jù)的采集和信息系統(tǒng)的數(shù)據(jù)交換;在數(shù)據(jù)預(yù)處理階段,主要是數(shù)據(jù)篩選、數(shù)據(jù)清洗、數(shù)據(jù)整理、數(shù)據(jù)標(biāo)準(zhǔn)化等工作,通過制定標(biāo)準(zhǔn)或設(shè)計算法能解決大部分的問題;在數(shù)據(jù)管理階段,更多的是依托于現(xiàn)有的一些大數(shù)據(jù)軟件、系統(tǒng)等;在數(shù)據(jù)處理階段,針對具體的應(yīng)用場景需要不同的處理平臺或技術(shù)支撐,比如分布式處理等;數(shù)據(jù)分析階段是與應(yīng)用或需求息息相關(guān)的,通過設(shè)計不同的模型可以獲得不同的分析結(jié)果。
1.鐵路大數(shù)據(jù)獲取
嚴(yán)格意義上講,數(shù)據(jù)采集包括“采”和“集”兩個內(nèi)容,“采”是指對物體的數(shù)字化表達(dá)、形成數(shù)據(jù)的過程,主要是各類硬件設(shè)備、信息系統(tǒng),“集”是指將數(shù)據(jù)匯聚的過程,主要是傳輸網(wǎng)絡(luò),包括鐵路內(nèi)網(wǎng)、北斗導(dǎo)航、GPRS、WLAN等技術(shù)。當(dāng)前,電子技術(shù)、信息技術(shù)快速發(fā)展,面向鐵路領(lǐng)域的數(shù)據(jù)感知設(shè)備越來越多,傳感器、移動終端等快速推廣和應(yīng)用,結(jié)構(gòu)化、弱結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化的鐵路數(shù)據(jù)源源不斷地產(chǎn)生?,F(xiàn)有研究展示了數(shù)據(jù)的多種方式,包括基于硬件設(shè)備的機車、車輛、線路等數(shù)據(jù)采集、基于信息系統(tǒng)的運輸生產(chǎn)數(shù)據(jù)采集,數(shù)據(jù)采集的頻率越來越高、精度越來越高、質(zhì)量越來越高,圖片、視頻、音頻等非格式化的數(shù)據(jù)也越來越多。例如,機車CMD系統(tǒng)不僅要通過傳感器、攝像儀等采集機車運行數(shù)據(jù),還要通過數(shù)據(jù)交換的方式采集6A系統(tǒng)中的機車安全數(shù)據(jù),集成了所有機車數(shù)據(jù)。
2.鐵路大數(shù)據(jù)預(yù)處理
鐵路很多數(shù)據(jù)是實時采集,硬件設(shè)備的損壞、人工處理的紕漏、傳感器等時間不一致等都會使采集的數(shù)據(jù)中存在大量雜亂、重復(fù)、不完整的數(shù)據(jù),嚴(yán)重影響后期的數(shù)據(jù)處理分析,進(jìn)而導(dǎo)致決策偏差、失誤等。數(shù)據(jù)預(yù)處理非常重要,比如在一個完整的數(shù)據(jù)挖掘過程中,數(shù)據(jù)預(yù)處理所花費時間比例能約達(dá)60%。數(shù)據(jù)預(yù)處理主要包括對已采集數(shù)據(jù)的清理、抽取、集成、變換、數(shù)據(jù)質(zhì)量評估等,鐵路數(shù)據(jù)預(yù)處理過程需要注意以下問題:①數(shù)據(jù)清理重點針對數(shù)據(jù)源中的噪聲數(shù)據(jù)、無關(guān)數(shù)據(jù)等;②通過數(shù)據(jù)抽取技術(shù)進(jìn)行數(shù)據(jù)的歸一化表達(dá)和一致性處理;③通過集成實現(xiàn)模式層的數(shù)據(jù)一致;④數(shù)據(jù)變換主要是通過規(guī)格化、旋轉(zhuǎn)、投影等操作對數(shù)據(jù)進(jìn)行簡化,找到數(shù)據(jù)特征表示;⑤對數(shù)據(jù)質(zhì)量進(jìn)行有效評估,一致性、正確性、完整性和最小性是數(shù)據(jù)質(zhì)量評價的基本指標(biāo)。例如,對機車能耗數(shù)據(jù)的處理,首先要對重復(fù)、無效的數(shù)據(jù)進(jìn)行篩選、清洗,對來源于不同數(shù)據(jù)庫的信息進(jìn)行集成,以時間為標(biāo)準(zhǔn)進(jìn)行統(tǒng)一,對不同區(qū)段的能耗數(shù)據(jù)按照公里標(biāo)進(jìn)行判別、提取,最后得到完整的機車能耗數(shù)據(jù)庫。
3.鐵路大數(shù)據(jù)管理
大數(shù)據(jù)管理是指利用數(shù)據(jù)庫技術(shù)、分布式文件系統(tǒng)技術(shù)等實現(xiàn)對各種數(shù)據(jù)的有效組織,達(dá)到快速索引、高效查詢等目的。傳統(tǒng)的數(shù)據(jù)庫技術(shù)以關(guān)系型數(shù)據(jù)管理為主,數(shù)據(jù)量級相對小,在面對半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)洪流時,其擴展性存在障礙,難以滿足需要。面對類型多樣、形態(tài)各異、數(shù)量龐大的鐵路大數(shù)據(jù),需要根據(jù)具體需求選擇合適的數(shù)據(jù)庫。圖存數(shù)據(jù)庫以及文檔數(shù)據(jù)庫等非關(guān)系型數(shù)據(jù)庫、傳統(tǒng)關(guān)系數(shù)據(jù)庫系統(tǒng)以及 New SQL 數(shù)據(jù)庫等都將在鐵路大數(shù)據(jù)的管理中起到重要作用。例如,對客運大數(shù)據(jù)進(jìn)行管理,全路每天上千輛列車運行產(chǎn)生海量數(shù)據(jù),在進(jìn)行數(shù)據(jù)預(yù)處理后按照特定需求對數(shù)據(jù)進(jìn)行判別,建立數(shù)據(jù)倉庫,進(jìn)而形成不同類別的數(shù)據(jù)庫。
4.鐵路大數(shù)據(jù)建模
大數(shù)據(jù)的研究最主要的功能在于利用數(shù)據(jù)分析技術(shù)獲取未知潛在關(guān)聯(lián)、隱藏范式、市場及社會規(guī)律和附加價值等。傳統(tǒng)的數(shù)據(jù)分析技術(shù),如數(shù)據(jù)挖掘中的關(guān)聯(lián)、聚類、分類、預(yù)測、時序模式、偏差分析等技術(shù)將仍然可用。一些新興的數(shù)據(jù)分析技術(shù),也將不斷涌現(xiàn),并將在鐵路大數(shù)據(jù)領(lǐng)域占據(jù)重要位置。例如,通過先進(jìn)的人臉識別技術(shù),將旅客頭像與海量的治安大數(shù)據(jù)進(jìn)行匹配,實現(xiàn)刷臉進(jìn)站,簡化了安檢流程,也在一定程度上打擊在逃人員。
5.鐵路大數(shù)據(jù)應(yīng)用
現(xiàn)有的鐵路數(shù)據(jù)的應(yīng)用大多還集中于行業(yè)內(nèi)部,用于安全運營以及相應(yīng)的服務(wù)功能。實際上,鐵路行業(yè)的泛在特性決定了鐵路行業(yè)的多維應(yīng)用,基于數(shù)據(jù)挖掘得到的附加價值使鐵路行業(yè)的大數(shù)據(jù)應(yīng)用外延可以拓展更廣。在旅游行業(yè),高鐵作為交通出行的重要選擇可以為旅游行業(yè)提供旅客流動數(shù)據(jù)及其呈現(xiàn)的特征,便于行業(yè)利潤的提升。在國家層面,基于鐵路大數(shù)據(jù)的地域性特征根據(jù)旅客出行的目的及地區(qū)旅客流動量,可以作為地區(qū)經(jīng)濟發(fā)展的重要評估指標(biāo)。交通出行將成為未來國家經(jīng)濟發(fā)展的重要組成部分,鐵路大數(shù)據(jù)的應(yīng)用前景會隨著與不同行業(yè)的交叉關(guān)聯(lián),變得更為廣闊。
在大數(shù)據(jù)時代,數(shù)據(jù)成為基礎(chǔ)戰(zhàn)略性資源,本文對大數(shù)據(jù)關(guān)鍵技術(shù)架構(gòu)進(jìn)行總結(jié),并以鐵路行業(yè)為例,構(gòu)建了大數(shù)據(jù)技術(shù)在鐵路行業(yè)的應(yīng)用概念框架,主要總結(jié)如下:
1.從數(shù)據(jù)來源、數(shù)據(jù)獲取和數(shù)據(jù)服務(wù)等方面對鐵路大數(shù)據(jù)的內(nèi)涵和特征進(jìn)行了闡述。鐵路大數(shù)據(jù)是指大數(shù)據(jù)技術(shù)在鐵路行業(yè)中的應(yīng)用,不僅包括大數(shù)據(jù)的數(shù)據(jù)采集技術(shù)、分析技術(shù)和統(tǒng)計預(yù)測技術(shù),還包括大數(shù)據(jù)的思維和理念在鐵路行業(yè)中的應(yīng)用。鐵路大數(shù)據(jù)不僅具有大數(shù)據(jù)的一般特性,還具有自身行業(yè)的獨特特點:泛在性、地域性和交叉性。這為更清晰的認(rèn)識鐵路大數(shù)據(jù)和應(yīng)用鐵路大數(shù)據(jù)奠定了基礎(chǔ)。
2.從鐵路數(shù)據(jù)獲取層、平臺層和應(yīng)用層提出了鐵路大數(shù)據(jù)的平臺架構(gòu)。首先,鐵路大數(shù)據(jù)的獲取層主要包括數(shù)據(jù)的采集及初步分析,通過采集各類鐵路信息系統(tǒng)、傳感器、生產(chǎn)報表等類型的數(shù)據(jù),實現(xiàn)鐵路海量數(shù)據(jù)的集成。其次,平臺層主要包括鐵路大數(shù)據(jù)的處理及初步應(yīng)用,通過批量計算、內(nèi)存計算等多種計算方式,滿足鐵路不同業(yè)務(wù)類型數(shù)據(jù)的計算需求。最后,應(yīng)用層主要包括鐵路大數(shù)據(jù)的深度應(yīng)用,針對各個業(yè)務(wù)領(lǐng)域的數(shù)據(jù)分析和決策支持的需求,能夠?qū)崿F(xiàn)多業(yè)務(wù)的數(shù)據(jù)系統(tǒng),支撐面向多層次多用戶的分析應(yīng)用,包括戰(zhàn)略決策、經(jīng)營管理、現(xiàn)場管理等。鐵路大數(shù)據(jù)的三層平臺架構(gòu)為建設(shè)鐵路數(shù)據(jù)服務(wù)平臺奠定了基礎(chǔ),涵蓋了鐵路基礎(chǔ)數(shù)據(jù)管理、數(shù)據(jù)集成、數(shù)據(jù)共享、大數(shù)據(jù)存儲與分析等功能,保障了鐵路數(shù)據(jù)的準(zhǔn)確性及共享性,可有效提升大數(shù)據(jù)分析的數(shù)據(jù)質(zhì)量,便于建立對不同業(yè)務(wù)實體的數(shù)據(jù)關(guān)聯(lián),以實現(xiàn)多實體關(guān)聯(lián)分析。
3.從鐵路數(shù)據(jù)獲取、處理、管理、建模和應(yīng)用等方面提出了鐵路大數(shù)據(jù)處理的流程。在數(shù)據(jù)獲取階段,主要是各種硬件設(shè)備(傳感器、應(yīng)答器、攝像儀等)對數(shù)據(jù)的采集和信息系統(tǒng)的數(shù)據(jù)交換;在數(shù)據(jù)處理階段,針對具體的應(yīng)用場景需要不同的處理平臺或技術(shù)支撐,比如分布式處理等,在此階段,針對數(shù)據(jù)自身特點,需要提前進(jìn)行預(yù)處理分析,主要包括數(shù)據(jù)篩選、數(shù)據(jù)清洗、數(shù)據(jù)標(biāo)準(zhǔn)化等工作;數(shù)據(jù)分析階段(包括管理、建模和應(yīng)用等)是與應(yīng)用或需求息息相關(guān)的,通過設(shè)計不同的模型可以獲得不同的分析結(jié)果。鐵路大數(shù)據(jù)處理流程的確立可利用當(dāng)前較為成熟的大數(shù)據(jù)采集、分析、應(yīng)用等相關(guān)技術(shù),解決當(dāng)前鐵路面臨的數(shù)據(jù)共享、數(shù)據(jù)治理、數(shù)據(jù)分析等方面的挑戰(zhàn),使大數(shù)據(jù)技術(shù)在鐵路領(lǐng)域的廣泛應(yīng)用成為可能。
針對鐵路大數(shù)據(jù)基礎(chǔ)框架的研究,對于鐵路提高運輸安全水平、實現(xiàn)客貨運精準(zhǔn)營銷、提高運輸效率均具有一定的借鑒意義。通過以上三個方面的總結(jié),為更好地實現(xiàn)大數(shù)據(jù)技術(shù)在我國鐵路行業(yè)的應(yīng)用,本文提出以下政策建議:
1.強化頂層設(shè)計。鐵路大數(shù)據(jù)的內(nèi)涵及特征表明,鐵路大數(shù)據(jù)是鐵路技術(shù)、鐵路科研、生產(chǎn)管理等全產(chǎn)業(yè)鏈的跨業(yè)務(wù)、跨部門、跨區(qū)域、跨專業(yè)的有效工具。大數(shù)據(jù)在鐵路行業(yè)的開展需要多個部門相互配合和協(xié)調(diào),加強頂層設(shè)計至關(guān)重要。這需要從總公司層面進(jìn)行鐵路大數(shù)據(jù)的相關(guān)組織工作,包括制定鐵路大數(shù)據(jù)的目標(biāo)和計劃、重點任務(wù)(包括鐵路大數(shù)據(jù)基礎(chǔ)設(shè)施的實施、大數(shù)據(jù)應(yīng)用技術(shù)的選擇和大數(shù)據(jù)平臺的建設(shè))的分解和落實、實施鐵路大數(shù)據(jù)的保障措施(包括組織保障、資金保障、制度保障等)。
2.充分借鑒其他行業(yè)的大數(shù)據(jù)應(yīng)用經(jīng)驗。鐵路大數(shù)據(jù)的平臺架構(gòu)與其他行業(yè)的平臺架構(gòu)存在一定的相似之處,均是以大數(shù)據(jù)的關(guān)鍵技術(shù)架構(gòu)為基礎(chǔ)結(jié)合自身行業(yè)的特征而建立的。電信行業(yè)和電力行業(yè)在我國開展大數(shù)據(jù)技術(shù)應(yīng)用起步較早,在某些領(lǐng)域已經(jīng)應(yīng)用的比較成熟,并且這兩個行業(yè)與鐵路行業(yè)相同,都具有天然壟斷性特征,在大數(shù)據(jù)技術(shù)應(yīng)用方面可以進(jìn)行借鑒。例如,借鑒電信行業(yè)在數(shù)據(jù)采集和分析方面應(yīng)用的經(jīng)驗,借鑒電力行業(yè)利用大數(shù)據(jù)進(jìn)行智能化建設(shè),可為鐵路利用大數(shù)據(jù)技術(shù)建設(shè)智能高鐵提供思路。
3.分階段開展大數(shù)據(jù)應(yīng)用。鐵路是一個龐大的體系,針對鐵路各個領(lǐng)域的數(shù)據(jù)處理流程都需要與該領(lǐng)域相對應(yīng)的研究。鐵路開展大數(shù)據(jù)應(yīng)用需要大量基礎(chǔ)設(shè)施投入,并且還存在需求和應(yīng)用的銜接等問題,因此,可以采取分階段分步驟、先典型后示范的措施。在初期,可以利用既有的基礎(chǔ)設(shè)施進(jìn)行鐵路數(shù)據(jù)的采集、處理和分析,形成一批大數(shù)據(jù)應(yīng)用典型業(yè)務(wù)試點;在中期,適時建設(shè)一批大數(shù)據(jù)中心,擴大數(shù)據(jù)采集分析的范圍,在某些業(yè)務(wù)形成成熟應(yīng)用;在后期,根據(jù)業(yè)務(wù)需求建設(shè)大數(shù)據(jù)中心基地,對鐵路數(shù)據(jù)采集分析實現(xiàn)業(yè)務(wù)全覆蓋,形成成熟的鐵路大數(shù)據(jù)應(yīng)用。