国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

綜合運(yùn)用大數(shù)據(jù)技術(shù)分析鐵路施工維修作業(yè)初探

2017-11-07 17:11丁志遠(yuǎn)
科技創(chuàng)新與應(yīng)用 2017年30期
關(guān)鍵詞:大數(shù)據(jù)

丁志遠(yuǎn)

摘 要:近年來(lái),國(guó)企不斷加強(qiáng)深化改革,作為交通運(yùn)輸系統(tǒng)的骨干企業(yè),鐵路行業(yè)更是首當(dāng)其沖,為了充分發(fā)掘鐵路信息化發(fā)展過(guò)程中積累的大量數(shù)據(jù),為智能分析、科學(xué)決策提供依據(jù),鐵路企業(yè)對(duì)大數(shù)據(jù)分析的重視提升到了新的高度。鐵路行車設(shè)備施工維修登銷記系統(tǒng)(CMIS)經(jīng)過(guò)長(zhǎng)期的投產(chǎn)使用,積累了大量的施工維修作業(yè)數(shù)據(jù),文章運(yùn)用大數(shù)據(jù)的相關(guān)技術(shù),采用決策樹(shù)方法建立行車設(shè)備施工延時(shí)模型,為施工管理和施工單位實(shí)際作業(yè)提供角色依據(jù)。

關(guān)鍵詞:大數(shù)據(jù);施工維修;鐵路行業(yè)

中圖分類號(hào):U227 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):2095-2945(2017)30-0058-02

1 概述

隨著社會(huì)信息化步伐的加快,越來(lái)越多的數(shù)據(jù)被各行各業(yè)的信息系統(tǒng)不斷的生產(chǎn)出來(lái),相對(duì)于處理具體業(yè)務(wù),“數(shù)據(jù)”本身的價(jià)值得到了更多的關(guān)注。并且,得益于硬件處理能力的提升以及基于分布式計(jì)算的云計(jì)算平臺(tái)技術(shù)的日益成熟, 對(duì)大數(shù)據(jù)進(jìn)行分析也具備了技術(shù)基礎(chǔ),越來(lái)越多行業(yè)的企業(yè)開(kāi)始掘金大數(shù)據(jù)來(lái)發(fā)現(xiàn)自身業(yè)務(wù)的規(guī)律,優(yōu)化自身業(yè)務(wù)。在鐵路信息化發(fā)展過(guò)程中,也累積了大量半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。從大數(shù)據(jù)的數(shù)據(jù)體量巨大和數(shù)據(jù)類型繁多兩個(gè)層面,有力地印證了鐵路統(tǒng)計(jì)信息化已進(jìn)入了大數(shù)據(jù)時(shí)代。[1]

鐵路行車設(shè)備施工維修登銷記系統(tǒng)(CMIS)是對(duì)鐵路沿線施工和維修作業(yè)進(jìn)行信息化管理的系統(tǒng),記錄了施工維修作業(yè)的基本信息和審核過(guò)程。按照鐵路運(yùn)營(yíng)線施工作業(yè)管理辦法,通常先在施工調(diào)度指揮系統(tǒng)中申請(qǐng)施工月度和日計(jì)劃,正式實(shí)施時(shí),使用CMIS系統(tǒng)填寫施工內(nèi)容,依次經(jīng)過(guò)車站值班員審核、調(diào)度臺(tái)審核后開(kāi)始進(jìn)行施工作業(yè),完成施工后進(jìn)行銷記,根據(jù)實(shí)際情況,施工作業(yè)可以延時(shí)。

本文旨在探索大數(shù)據(jù)相關(guān)技術(shù)在鐵路運(yùn)輸生產(chǎn)系統(tǒng)中的實(shí)際應(yīng)用,搭建cloudera群集環(huán)境,利用2012年至2016年呼和浩特鐵路局營(yíng)業(yè)線施工登銷記記錄,采用決策樹(shù)方法建立行車設(shè)備施工延時(shí)預(yù)測(cè)模型,為施工管理和施工單位實(shí)際作業(yè)提供決策依據(jù)。

2 環(huán)境準(zhǔn)備

大數(shù)據(jù)平臺(tái)是將計(jì)算任務(wù)分配到群集中各節(jié)點(diǎn)服務(wù)器分布式并行運(yùn)行的平臺(tái),包含了MapReduce、HDFS、YARN、HIVE、SPARK等一系列的服務(wù)組件來(lái)支撐其運(yùn)行,搭建大數(shù)據(jù)平臺(tái)運(yùn)行環(huán)境通常有兩種方式:原生Hadoop框架和廠商集成產(chǎn)品。搭建基于原生Hadoop生態(tài)系統(tǒng)的大數(shù)據(jù)平臺(tái)需要手工逐個(gè)安裝上述服務(wù)組件,廠商集成產(chǎn)品則將配套組件進(jìn)行了集成,具有安裝配置簡(jiǎn)便、不需要考慮組件兼容性的優(yōu)點(diǎn)。本文采用Cloudera CDH產(chǎn)品搭建大數(shù)據(jù)平臺(tái),部署在六臺(tái)Linux CentOS服務(wù)器組成的群集上,其中一臺(tái)作為主節(jié)點(diǎn)NameNode,其他五臺(tái)作為DataNode,平臺(tái)包含大數(shù)據(jù)分析常用的組件,可以擴(kuò)展組成群集的服務(wù)器數(shù)目,以適應(yīng)未來(lái)的大處理量數(shù)據(jù)分析需求。采用決策樹(shù)模型分析施工延時(shí)情況的應(yīng)用主要使用了以下服務(wù)組件:

(1)MapReduce: 提供并行計(jì)算的編程模型,是Hadoop分布式計(jì)算的基礎(chǔ)。

(2)HDFS:分布式的數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)。

(3)Yarn:管理群集任務(wù)調(diào)度,自動(dòng)將計(jì)算任務(wù)調(diào)度到各數(shù)據(jù)節(jié)點(diǎn)。

(4)Spark:提供編程接口,并且包含機(jī)器學(xué)習(xí)庫(kù)。

3 數(shù)據(jù)準(zhǔn)備

預(yù)測(cè)分析營(yíng)業(yè)線施工作業(yè)是否延時(shí),可以使用大數(shù)據(jù)理論中的機(jī)器學(xué)習(xí)方法。機(jī)器學(xué)習(xí)通過(guò)讓機(jī)器學(xué)習(xí)樣本數(shù)據(jù),幫助機(jī)器建立預(yù)測(cè)分析模型,一般可以分為兩種:“分類學(xué)習(xí)”和“回歸學(xué)習(xí)”,前者的目的是預(yù)測(cè)分析數(shù)據(jù)記錄的具體歸類,包含決策樹(shù)、樸素貝葉斯、K-近鄰等分類算法,后者則是對(duì)數(shù)據(jù)某一具體觀測(cè)值的定量預(yù)測(cè)分析。

決策樹(shù)是一個(gè)類似于樹(shù)結(jié)構(gòu)的分析預(yù)測(cè)模型,根據(jù)樹(shù)的不同層次,可以把樹(shù)結(jié)構(gòu)分為根結(jié)點(diǎn)(也稱父結(jié)點(diǎn))、分支結(jié)點(diǎn)以及葉子結(jié)點(diǎn)。從決策樹(shù)的根結(jié)點(diǎn)到葉子結(jié)點(diǎn)的一條路徑就對(duì)應(yīng)著一條預(yù)測(cè)規(guī)則,完整的一棵樹(shù)就對(duì)應(yīng)著所有預(yù)測(cè)規(guī)則。在每個(gè)結(jié)點(diǎn)選擇分類效果最好的決策屬性對(duì)樣本集進(jìn)行劃分,直至這棵樹(shù)能準(zhǔn)確地將樣本集分類。[2]決策樹(shù)算法應(yīng)用廣泛,不僅支持?jǐn)?shù)值類的屬性變量,而且支持類型類的屬性變量,施工登銷記記錄數(shù)據(jù)包含有類型類的屬性變量(如施工線路包含多條線路名稱、封鎖類型包含慢行、停電等),可以采用決策樹(shù)的方法來(lái)預(yù)測(cè)分析施工作業(yè)是否延時(shí)。

為了獲得質(zhì)量較高的分析結(jié)果,首先需要進(jìn)行數(shù)據(jù)清洗,包括去除一些重復(fù)數(shù)據(jù)、空值、噪聲。施工登銷記中包含一些在系統(tǒng)試運(yùn)行時(shí)測(cè)試用的無(wú)效數(shù)據(jù),這些是可以在最開(kāi)始的數(shù)據(jù)獲取中就可以清理的,XB(行別)、Ctype(施工封鎖類型)等屬性中存在一些無(wú)效值,這些值也需要修正。

其次,選擇用于決策樹(shù)算法的屬性特征,本次分析選擇了可能影響施工延時(shí)預(yù)測(cè)結(jié)果的以下屬性變量:ApplyDate(施工日期)、DescLen(施工內(nèi)容描述的長(zhǎng)度)、XB(行別)、Ctype(施工封鎖類型)、Line(線別)、ConstructTime(施工時(shí)長(zhǎng))、Flag(延時(shí)標(biāo)志)。將施工日期轉(zhuǎn)換星期幾(WeekDay),轉(zhuǎn)換之后,F(xiàn)lag 是預(yù)測(cè)結(jié)果的標(biāo)志,DescLen、ConstructTime是數(shù)值型屬性,其他屬性都是類型類的屬性變量。

經(jīng)過(guò)數(shù)據(jù)清洗后的施工登銷記記錄總計(jì)23684條,按照8:2的比率劃分為培訓(xùn)數(shù)據(jù)和測(cè)試數(shù)據(jù),分別有19010、4674條數(shù)據(jù),前者用于建構(gòu)模型,后者用于測(cè)試模型決策效果。

4 建模及可視化

Spark MLib提供的決策樹(shù)算法模型默認(rèn)參數(shù)是不接受類型類的屬性變量的,為了應(yīng)用此模型,需要對(duì)類型類的屬性變量進(jìn)行轉(zhuǎn)換處理。分為三個(gè)步驟:

首先,用StringIndexer將字符串形式的變量索引化(即用在集合中的序號(hào)表示字符串)。

其次,將所有屬性變量聚合成統(tǒng)一的矢量。

再次,應(yīng)用VectorIndexer,該方法根據(jù)maxCategories的值自動(dòng)識(shí)別上述矢量中的值為數(shù)值類或者類型類,由于所有類型類屬性中,分類最多的Line(線別)最多的分類為46個(gè),此項(xiàng)參數(shù)設(shè)置為48。endprint

labelIndexerXB=StringIndexer(inputCol="XB",outputCol="indexedXB").fit(df)

df=labelIndexerXB.transform(df)

featureColumnsIndexed=['DescLen','indexedXB','indexedCtype','indexedLine', 'ConstructTime','weekday']

assembler=VectorAssembler(inputCols=featureColumnsIndexed,outputCol="features")

assembled=assembler.transform(df)

featureIndex

er=VectorIndexer(inputCol="features",outputCol="indexedFeatures",maxCategories=48).fit(assembled)

完成上述轉(zhuǎn)換處理后,可以用獲得的矢量參數(shù)建立決策樹(shù)模型:

dt=DecisionTreeClassifier(labelCol="indexedFlag",featuresCol="indexedFeatures",maxBins=40,impurity="gini")

按照建立的模型,對(duì)測(cè)試數(shù)據(jù)集的預(yù)測(cè)和實(shí)際結(jié)果比較如圖1,可以看到預(yù)測(cè)的結(jié)果是比較準(zhǔn)確的。

Spark并不提供決策樹(shù)的可視化,但是可以導(dǎo)出決策樹(shù)的調(diào)試信息,再結(jié)合使用D3.js的繪圖功能,完整地展示該決策樹(shù)。

5 預(yù)測(cè)效果評(píng)估

對(duì)預(yù)測(cè)建模的評(píng)估可以參考其預(yù)測(cè)正確率以及混淆矩陣。混淆矩陣包含四個(gè)值,分別對(duì)應(yīng)預(yù)測(cè)結(jié)果和實(shí)際結(jié)果進(jìn)行比較的數(shù)據(jù)分布。左上角的值表示預(yù)測(cè)為False,實(shí)際也為Fasle的情況,左下角表示預(yù)測(cè)為False,實(shí)際為True的情況,右上角表示預(yù)測(cè)為True,實(shí)際為False的情況,右下角表示預(yù)測(cè)為True,實(shí)際也為True的情況。

完成決策樹(shù)建模后,可以應(yīng)用在測(cè)試數(shù)據(jù)上驗(yàn)證決策樹(shù)的預(yù)測(cè)效果,驗(yàn)證結(jié)果顯示,該決策樹(shù)的預(yù)測(cè)正確率為99.6363%,混淆矩陣為:

array([[ 4635., 5.],[ 12., 22.]])

可以看出,預(yù)測(cè)正確率較高,而混淆矩陣的數(shù)值主要集中在左上角,即預(yù)測(cè)為不延時(shí),實(shí)際也不延時(shí)的情形。這主要是因?yàn)闋I(yíng)業(yè)線施工整體來(lái)說(shuō)延時(shí)發(fā)生較少,即使全部判斷為不延時(shí),預(yù)測(cè)正確率也很高,盡管如此,該決策樹(shù)模型還是提供了相對(duì)準(zhǔn)確的預(yù)測(cè)效果。

6 結(jié)束語(yǔ)

進(jìn)入鐵路大數(shù)據(jù)時(shí)代,在充分認(rèn)識(shí)鐵路信息系統(tǒng)數(shù)據(jù)價(jià)值的基礎(chǔ)上,可以進(jìn)行多層次、多角度的數(shù)據(jù)分析。本文搭建大數(shù)據(jù)應(yīng)用基礎(chǔ)群集平臺(tái),提取行車設(shè)備施工維修登銷記記錄數(shù)據(jù),建立決策樹(shù)模型,研究影響施工延時(shí)的決策影響因素。在此基礎(chǔ)上,可以進(jìn)一步地進(jìn)行大數(shù)據(jù)分析,包括對(duì)現(xiàn)車系統(tǒng)、集成平臺(tái)、安全管理信息系統(tǒng)等等的數(shù)據(jù)集成,運(yùn)用聚類分析、回歸分析等更多的分析手段,充分發(fā)現(xiàn)數(shù)據(jù)價(jià)值,促使鐵路信息化逐步邁向智能化。

參考文獻(xiàn):

[1]邵長(zhǎng)虹,莊紅男,賈曉非.大數(shù)據(jù)環(huán)境下的鐵路統(tǒng)計(jì)信息化平臺(tái)研究[J].中國(guó)鐵路,2015.

[2]潘永麗.決策樹(shù)分類算法的改進(jìn)及其應(yīng)用研究[D].云南財(cái)經(jīng)大學(xué),2011.endprint

猜你喜歡
大數(shù)據(jù)
基于在線教育的大數(shù)據(jù)研究
“互聯(lián)網(wǎng)+”農(nóng)產(chǎn)品物流業(yè)的大數(shù)據(jù)策略研究
大數(shù)據(jù)時(shí)代新聞的新變化探究
淺談大數(shù)據(jù)在出版業(yè)的應(yīng)用
“互聯(lián)網(wǎng)+”對(duì)傳統(tǒng)圖書出版的影響和推動(dòng)作用
大數(shù)據(jù)環(huán)境下基于移動(dòng)客戶端的傳統(tǒng)媒體轉(zhuǎn)型思路
基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
數(shù)據(jù)+輿情:南方報(bào)業(yè)創(chuàng)新轉(zhuǎn)型提高服務(wù)能力的探索