劉 敏,馬小寧,戚小玉,劉彥軍,武 威
(中國(guó)鐵道科學(xué)研究院集團(tuán)有限公司 鐵路大數(shù)據(jù)研究與應(yīng)用創(chuàng)新中心,北京 100081)
隨著云計(jì)算、物聯(lián)網(wǎng)技術(shù)的發(fā)展,一個(gè)大規(guī)模生產(chǎn)、分享和利用數(shù)據(jù)的時(shí)代已經(jīng)來(lái)臨,大數(shù)據(jù)廣泛服務(wù)于金融、醫(yī)療、商務(wù)、政務(wù)、電信、零售業(yè)等行業(yè),并發(fā)揮著越來(lái)越重要的作用[1-2]。大數(shù)據(jù)時(shí)代的來(lái)臨為大規(guī)模數(shù)據(jù)的綜合處理帶來(lái)了機(jī)遇和挑戰(zhàn),同時(shí)也為大規(guī)模、高維度、非結(jié)構(gòu)化數(shù)據(jù)的可視化分析技術(shù)帶來(lái)了新的契機(jī)[3-4]。根據(jù)數(shù)據(jù)的時(shí)間信息、空間信息等特性,利用圖表、數(shù)據(jù)流、地圖、網(wǎng)絡(luò)、知識(shí)圖譜、思維導(dǎo)圖等合適的可視化表現(xiàn)形式,加之色彩、角度、位置、長(zhǎng)度、方向、形狀等維度的渲染,將復(fù)雜、晦澀的數(shù)據(jù)直觀地展現(xiàn)出來(lái),以方便用戶高效理解數(shù)據(jù),挖掘數(shù)據(jù)潛在的規(guī)律和價(jià)值。
數(shù)據(jù)可視化技術(shù)廣泛應(yīng)用于醫(yī)療服務(wù)、食品安全、城市交通、氣象預(yù)警、人口普查、股票、金融等各行各業(yè)[5-7]。中國(guó)鐵路經(jīng)過(guò)多年信息化建設(shè),累積了豐富的數(shù)據(jù)資源,數(shù)據(jù)體量大、類型龐雜、變化速度快,海量的結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)給數(shù)據(jù)治理、存儲(chǔ)、分析等帶來(lái)挑戰(zhàn)。通過(guò)鐵路數(shù)據(jù)服務(wù)平臺(tái)建設(shè),構(gòu)建了具有多源異構(gòu)數(shù)據(jù)集成、多類型數(shù)據(jù)存儲(chǔ)、全領(lǐng)域數(shù)據(jù)共享、智能分析及可視化展示功能的一站式平臺(tái)。介于鐵路數(shù)據(jù)大、雜、廣等特點(diǎn)及數(shù)據(jù)邏輯的復(fù)雜程度,單靠傳統(tǒng)的圖表方式進(jìn)行分析展示是遠(yuǎn)遠(yuǎn)不夠的,需要借助數(shù)據(jù)治理技術(shù)和轉(zhuǎn)換、分析、挖掘等一系列復(fù)雜數(shù)據(jù)加工過(guò)程,輔助進(jìn)行直觀有效的可視化展示。因此,對(duì)鐵路數(shù)據(jù)服務(wù)平臺(tái)的數(shù)據(jù)進(jìn)行可視化呈現(xiàn)具有十分重要的意義。
管理駕駛艙用可視化的方式直觀地顯示各項(xiàng)指標(biāo),設(shè)計(jì)下鉆查詢方式,實(shí)現(xiàn)對(duì)各類指標(biāo)的精細(xì)化管理和深層次分析,以形象化、直觀化、具體化的數(shù)據(jù)展現(xiàn)形式反映企業(yè)核心業(yè)務(wù)的運(yùn)行狀態(tài),是一個(gè)為企業(yè)或部門(mén)領(lǐng)導(dǎo)層提供一站式?jīng)Q策支持的系統(tǒng)。本文設(shè)計(jì)實(shí)現(xiàn)的鐵路數(shù)據(jù)服務(wù)平臺(tái)綜合管理駕駛艙是集數(shù)據(jù)服務(wù)平臺(tái)構(gòu)建理念、資產(chǎn)普查、資產(chǎn)概覽、共享服務(wù)、分析應(yīng)用、運(yùn)維管理于一體的可視化全景視圖,為領(lǐng)導(dǎo)決策和定向提升平臺(tái)服務(wù)水平提供依據(jù)。
鐵路數(shù)據(jù)服務(wù)平臺(tái)提供面向全數(shù)據(jù)類型的數(shù)據(jù)接入、存儲(chǔ)及計(jì)算,對(duì)鐵路各業(yè)務(wù)領(lǐng)域數(shù)據(jù)資源進(jìn)行集成整合,改變了各系統(tǒng)間信息孤島的現(xiàn)象,形成數(shù)據(jù)資源的全景視圖,實(shí)現(xiàn)數(shù)據(jù)資源的精細(xì)化管理,提供數(shù)據(jù)綜合分析能力。平臺(tái)支撐鐵路各領(lǐng)域大數(shù)據(jù)分析應(yīng)用的開(kāi)展,盤(pán)活數(shù)據(jù)資產(chǎn),深挖數(shù)據(jù)價(jià)值,為提升鐵路生產(chǎn)經(jīng)營(yíng)能力、客戶服務(wù)能力和開(kāi)放共享能力提供支撐[8]。
鐵路數(shù)據(jù)服務(wù)平臺(tái)匯集鐵路運(yùn)輸生產(chǎn)過(guò)程中的海量數(shù)據(jù),形成數(shù)據(jù)資產(chǎn)目錄,提供統(tǒng)一的數(shù)據(jù)服務(wù),包括基礎(chǔ)數(shù)據(jù)管理、數(shù)據(jù)集成平臺(tái)、數(shù)據(jù)共享平臺(tái)、大數(shù)據(jù)存儲(chǔ)與分析平臺(tái)4個(gè)部分。
數(shù)據(jù)集成、共享、存儲(chǔ)與分析平臺(tái)3者之間為緊耦合關(guān)系。數(shù)據(jù)集成平臺(tái)從既有業(yè)務(wù)系統(tǒng)抽取數(shù)據(jù)后提供給數(shù)據(jù)共享平臺(tái),數(shù)據(jù)共享平臺(tái)將數(shù)據(jù)匯總分類后提供給大數(shù)據(jù)存儲(chǔ)與分析平臺(tái)進(jìn)行挖掘、分析及各類應(yīng)用,最終展現(xiàn)給用戶。數(shù)據(jù)集成、共享、存儲(chǔ)與分析平臺(tái)與基礎(chǔ)數(shù)據(jù)管理之間是松耦合關(guān)系?;A(chǔ)數(shù)據(jù)管理為以上3種服務(wù)提供統(tǒng)一的主數(shù)據(jù)、地理信息及元數(shù)據(jù)服務(wù)。
本文設(shè)計(jì)開(kāi)發(fā)的鐵路數(shù)據(jù)服務(wù)平臺(tái)綜合管理駕駛艙主要實(shí)現(xiàn)上述4個(gè)部分?jǐn)?shù)據(jù)流向的動(dòng)態(tài)監(jiān)控以及平臺(tái)與用戶之間的多流程、多維度的可視化交互。
綜合管理駕駛艙將數(shù)據(jù)固有的高維、復(fù)雜、海量等性質(zhì)通過(guò)交互可視化手段,以高效、易于理解的方式把數(shù)據(jù)的多維屬性全面直觀地展示出來(lái)[9-10],降低了數(shù)據(jù)挖掘、分析、展示的難度,同時(shí)也加深了用戶對(duì)數(shù)據(jù)的理解,可用于指導(dǎo)鐵路數(shù)據(jù)服務(wù)平臺(tái)的實(shí)際工作。綜合管理駕駛艙,采用總—分結(jié)構(gòu),即一個(gè)主視圖和多個(gè)分視圖的可視化形式。
本文基于鐵路數(shù)據(jù)服務(wù)平臺(tái)設(shè)計(jì)綜合管理駕駛艙模型,面向鐵路大數(shù)據(jù)的匯集和存儲(chǔ),整合數(shù)據(jù)治理、共享、挖掘與分析、運(yùn)維等技術(shù),實(shí)現(xiàn)對(duì)鐵路大數(shù)據(jù)的一體化、綜合性的可視化管理。同時(shí),對(duì)基礎(chǔ)設(shè)施環(huán)境安全提供統(tǒng)一管理,加強(qiáng)平臺(tái)數(shù)據(jù)的安全性防護(hù)。綜合運(yùn)用獨(dú)特的布局、色彩、圖表、動(dòng)畫(huà)效果,在真實(shí)還原平臺(tái)構(gòu)建的全流程和功能的前提下,以數(shù)據(jù)流的形式,可視化展示平臺(tái)設(shè)計(jì)理念以及平臺(tái)的典型功能特征。綜合管理駕駛艙由4部分構(gòu)成,總體框架如圖1所示。
圖1 綜合管理駕駛艙總體框架圖
綜合管理駕駛艙的主視圖綜合運(yùn)用可視化技術(shù)展示了平臺(tái)提供服務(wù)的能力,從既有的各業(yè)務(wù)系統(tǒng)采集數(shù)據(jù),為各系統(tǒng)提供數(shù)據(jù)分析、共享服務(wù),同時(shí)又為大數(shù)據(jù)應(yīng)用系統(tǒng)提供支撐,包含資產(chǎn)普查、資產(chǎn)概覽、共享服務(wù)、分析應(yīng)用、運(yùn)維管理等模塊,駕駛艙主視圖如圖2所示。
2.2.1 資產(chǎn)普查
資產(chǎn)普查即對(duì)鐵路各行業(yè)系統(tǒng)進(jìn)行數(shù)據(jù)資產(chǎn)調(diào)研,統(tǒng)計(jì)數(shù)據(jù)的體量和類型,基于數(shù)據(jù)屬性種類多、結(jié)構(gòu)復(fù)雜、數(shù)據(jù)量龐大等特點(diǎn),從微觀和宏觀2個(gè)層面對(duì)數(shù)據(jù)進(jìn)行歸類和量化,從不同維度,不同時(shí)空深入了解數(shù)據(jù)。從數(shù)據(jù)類型來(lái)看,掌握結(jié)構(gòu)化數(shù)據(jù)中表的個(gè)數(shù)、字段數(shù)、數(shù)據(jù)存量以及非結(jié)構(gòu)化數(shù)據(jù)中音視頻、文檔、圖片等數(shù)據(jù)類型個(gè)數(shù)和存量;從數(shù)據(jù)業(yè)務(wù)場(chǎng)景來(lái)看,系統(tǒng)對(duì)業(yè)務(wù)領(lǐng)域、主管部門(mén)、部署層級(jí)、部署網(wǎng)絡(luò)等關(guān)鍵業(yè)務(wù)指標(biāo)進(jìn)行交叉分析;從數(shù)據(jù)體量來(lái)看,系統(tǒng)掌握不同結(jié)構(gòu)類型和業(yè)務(wù)場(chǎng)景的數(shù)據(jù)信息的大小,方便制定數(shù)據(jù)存取方式和傳輸策略?;谏鲜鲂畔?,系統(tǒng)通過(guò)可視化圖表,生動(dòng)形象的反映資產(chǎn)普查情況和各類數(shù)據(jù)之間潛在的關(guān)聯(lián)關(guān)系,有效的梳理鐵路數(shù)據(jù)現(xiàn)狀,實(shí)現(xiàn)鐵路數(shù)據(jù)服務(wù)平臺(tái)數(shù)據(jù)匯集目標(biāo)。資產(chǎn)普查展示頁(yè)面如圖3所示。
圖2 數(shù)據(jù)服務(wù)平臺(tái)綜合管理駕駛艙–主視圖
圖3 數(shù)據(jù)服務(wù)平臺(tái)綜合管理駕駛艙–資產(chǎn)普查
2.2.2 資產(chǎn)概覽
針對(duì)不同數(shù)據(jù)源、不同數(shù)據(jù)類型研發(fā)相應(yīng)的數(shù)據(jù)傳輸通道,對(duì)數(shù)據(jù)進(jìn)行實(shí)時(shí)或離線采集,在采集過(guò)程中進(jìn)行數(shù)據(jù)清洗、過(guò)濾和篩選操作,實(shí)現(xiàn)數(shù)據(jù)接入的可配置、可管理和易操作性,進(jìn)而形成數(shù)據(jù)資產(chǎn),同時(shí)對(duì)資產(chǎn)進(jìn)行分類,形成數(shù)據(jù)資產(chǎn)目錄。系統(tǒng)對(duì)資產(chǎn)分類及主要量化指標(biāo)進(jìn)行可視化展示,直觀呈現(xiàn)各類型數(shù)據(jù)占比和各維度數(shù)據(jù)總量變化趨勢(shì),將靜態(tài)的死數(shù)據(jù)變?yōu)榛钚畔?,用以?gòu)建鐵路企業(yè)級(jí)的數(shù)據(jù)資產(chǎn)體系,使數(shù)據(jù)之間的層次與關(guān)聯(lián)一目了然。資產(chǎn)概覽展示頁(yè)面如圖4所示。
圖4 數(shù)據(jù)服務(wù)平臺(tái)綜合管理駕駛艙–資產(chǎn)概覽
2.2.3 共享服務(wù)
鐵路數(shù)據(jù)服務(wù)平臺(tái)擁有豐富的數(shù)據(jù)資產(chǎn),可針對(duì)不同用戶生成不同的數(shù)據(jù)共享策略,提供不同的接口服務(wù),在保證數(shù)據(jù)安全和隱私的前提下,從數(shù)據(jù)的共享情況、用戶使用情況、接口調(diào)用情況及系統(tǒng)應(yīng)用情況等多維度視角出發(fā),運(yùn)用可視化技術(shù)和手段,展示平臺(tái)數(shù)據(jù)共享情況,直觀的看到共享數(shù)據(jù)的規(guī)律和特征,針對(duì)性提升數(shù)據(jù)共享服務(wù)的速度和效率,提高平臺(tái)的數(shù)據(jù)管理能力和數(shù)據(jù)共享能力。共享服務(wù)展示頁(yè)面如圖5所示。
圖5 數(shù)據(jù)服務(wù)平臺(tái)綜合管理駕駛艙–共享服務(wù)
2.2.4 分析應(yīng)用
鐵路數(shù)據(jù)服務(wù)平臺(tái)作為一站式數(shù)據(jù)服務(wù)平臺(tái),擁有海量的數(shù)據(jù)資源和數(shù)據(jù)服務(wù)能力,需要為不同業(yè)務(wù)領(lǐng)域的不同應(yīng)用場(chǎng)景提供數(shù)據(jù)服務(wù)。駕駛艙集成多領(lǐng)域的多類型場(chǎng)景,構(gòu)建包括統(tǒng)計(jì)分析、多維分析、挖掘算法庫(kù)、數(shù)據(jù)挖掘工具等模塊的數(shù)據(jù)分析模型,對(duì)海量數(shù)據(jù)進(jìn)行分析和預(yù)測(cè),形成有效的數(shù)據(jù)分析案例。
(1)通過(guò)分析貨運(yùn)計(jì)量安全監(jiān)測(cè)系統(tǒng)中的軌道衡相關(guān)數(shù)據(jù),分析其左右偏載、前后偏重與時(shí)間、速度、總重等變量的關(guān)聯(lián)關(guān)系,實(shí)現(xiàn)超偏載情況的預(yù)警和超偏載運(yùn)行規(guī)律的趨勢(shì)預(yù)測(cè);
(2)通過(guò)車(chē)、機(jī)、工、電、輛等各專業(yè)設(shè)備、人員的安全相關(guān)數(shù)據(jù),構(gòu)建鐵路安全大數(shù)據(jù)應(yīng)用,實(shí)現(xiàn)針對(duì)性設(shè)備維護(hù)、超前性設(shè)備預(yù)警和精準(zhǔn)性人員管控;
(3)通過(guò)電務(wù)專業(yè)各類檢測(cè)監(jiān)測(cè)、故障預(yù)警等數(shù)據(jù),實(shí)現(xiàn)設(shè)備綜合監(jiān)測(cè)、全壽命周期管理、故障智能診斷、運(yùn)維綜合分析、電務(wù)作業(yè)卡控、應(yīng)急調(diào)度指揮、設(shè)備故障預(yù)測(cè)與健康管理、車(chē)地閉環(huán)分析等基于數(shù)據(jù)的綜合應(yīng)用功能。
駕駛艙基于海量數(shù)據(jù)服務(wù)于不同業(yè)務(wù)場(chǎng)景,構(gòu)建多元數(shù)據(jù)分析模型,利用可視化綜合大屏的形式展示各案例分析應(yīng)用成果,實(shí)時(shí)追蹤數(shù)據(jù)流向,體現(xiàn)數(shù)據(jù)價(jià)值。分析應(yīng)用展示頁(yè)面如圖6所示。
圖6 數(shù)據(jù)服務(wù)平臺(tái)綜合管理駕駛艙–分析應(yīng)用
2.2.5 運(yùn)維管理
駕駛艙采用三維可視化技術(shù),對(duì)集群的機(jī)架和物理服務(wù)器進(jìn)行位置信息和狀態(tài)信息的全方位空間展示,實(shí)現(xiàn)故障快速定位和診斷,對(duì)集群安全態(tài)勢(shì)進(jìn)行實(shí)時(shí)預(yù)警;研究影響平臺(tái)穩(wěn)定運(yùn)行的各項(xiàng)參數(shù)和配置,對(duì)影響集群運(yùn)行的關(guān)鍵指標(biāo)進(jìn)行實(shí)時(shí)監(jiān)控;關(guān)注平臺(tái)用戶使用情況,實(shí)時(shí)監(jiān)控PV、UV量值變化,對(duì)現(xiàn)有租戶和用戶數(shù)進(jìn)行多維度的統(tǒng)計(jì)分析,保證數(shù)據(jù)的準(zhǔn)確性和時(shí)效性,以便及時(shí)分析客戶流失率和增長(zhǎng)率,增強(qiáng)用戶體驗(yàn)。運(yùn)維管理展示頁(yè)面如圖7所示。
可視化,即用區(qū)別于文字、表格等形式的更直觀、更富沖擊性的方式展示數(shù)據(jù)背后的規(guī)律和價(jià)值[11]。本文在平臺(tái)運(yùn)行環(huán)境下,運(yùn)用Web可視化技術(shù),基于vue.js的前端開(kāi)發(fā)框架、Hadoop和MapReduce的大數(shù)據(jù)處理方法,利用可視化圖形庫(kù),結(jié)合echarts、highcharts、dataV等可視化組件,研發(fā)鐵路大數(shù)據(jù)可視化交互產(chǎn)品。其核心是基于平臺(tái)整體框架和構(gòu)建原則,綜合運(yùn)用大數(shù)據(jù)分析技術(shù)、計(jì)算機(jī)圖形學(xué)、圖像和視頻處理技術(shù)、地理信息、人機(jī)交互技術(shù)等,將數(shù)據(jù)服務(wù)平臺(tái)的整體架構(gòu)及實(shí)施流程和后臺(tái)運(yùn)營(yíng)手段用直觀可識(shí)別的形式展示出來(lái),便于用戶和管理者快速洞悉平臺(tái)海量數(shù)據(jù)和應(yīng)用背后有價(jià)值的信息和知識(shí),從而為平臺(tái)的管理和運(yùn)維等工作提供輔助決策支持。
圖7 數(shù)據(jù)服務(wù)平臺(tái)綜合管理駕駛艙–運(yùn)維管理
平臺(tái)匯集鐵路各專業(yè)、各業(yè)務(wù)部門(mén)的海量數(shù)據(jù),實(shí)現(xiàn)了數(shù)據(jù)融合與信息共享,根據(jù)不同的數(shù)據(jù)類型制定不同的存取策略。平臺(tái)數(shù)據(jù)從數(shù)據(jù)結(jié)構(gòu)而言,可分為結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。
(1)從傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)、ftp文件傳輸、HDFS分布式文件系統(tǒng)、Kafka消息隊(duì)列、ES等多種數(shù)據(jù)源中采集數(shù)據(jù),根據(jù)業(yè)務(wù)需求確定數(shù)據(jù)采集的周期和方式,建立實(shí)時(shí)、離線或定時(shí)數(shù)據(jù)采集任務(wù)。
(2)數(shù)據(jù)采集可使用一個(gè)或多個(gè)目標(biāo)源,選擇HDFS為源數(shù)據(jù)倉(cāng)庫(kù),把數(shù)據(jù)清洗、轉(zhuǎn)換后存儲(chǔ)至Hive、Impala、HBase等數(shù)據(jù)庫(kù)或者ES搜索服務(wù)器中,為方便快速查詢,根據(jù)業(yè)務(wù)需求合理制定Hive表或者Impala表的分區(qū)策略、優(yōu)化HBase的Rowkey設(shè)計(jì),以及ES的分區(qū)和索引設(shè)計(jì)。
(3)在數(shù)據(jù)可視化顯示時(shí),采用Restful風(fēng)格的接口形式,客戶端通過(guò)Ajax異步請(qǐng)求數(shù)據(jù),用雙方約定的方式定位數(shù)據(jù)資源,如采用URL方式,在Http的請(qǐng)求下,語(yǔ)句格式形如GET http://…/rdsp/screen/ajaxRequest/newLeftClassifyPie,獲得前后端約定好的數(shù)據(jù)類型的數(shù)據(jù)。
駕駛艙前后端數(shù)據(jù)的簡(jiǎn)明交互流程如圖8所示。
圖8 駕駛艙數(shù)據(jù)交互示意圖
各類數(shù)據(jù)用約定好的數(shù)據(jù)格式進(jìn)行數(shù)據(jù)交換,以JSON為例,它是一種語(yǔ)法簡(jiǎn)單、輕量級(jí)的數(shù)據(jù)交換格式,有很強(qiáng)的兼容性,支持C、C++、PHP、Python等各種語(yǔ)言,便于服務(wù)端解析。JSON格式如下:
(4)服務(wù)端通過(guò)解析Http請(qǐng)求的內(nèi)容,將獲取到的JSON格式的數(shù)據(jù)在Web動(dòng)態(tài)圖表中進(jìn)行顯示,并同步刷新。實(shí)現(xiàn)在不刷新整個(gè)頁(yè)面的情況下,采用JSON格式的數(shù)據(jù)輸出方式,不斷從服務(wù)器端獲取數(shù)據(jù),同步分模塊更新,提升數(shù)據(jù)傳輸效率,實(shí)現(xiàn)數(shù)據(jù)近似實(shí)時(shí)可視化展現(xiàn)。
可視化技術(shù)是大數(shù)據(jù)分析的重要方法,也是大數(shù)據(jù)時(shí)代能夠高效傳遞信息的媒介。本文設(shè)計(jì)并實(shí)現(xiàn)了鐵路數(shù)據(jù)服務(wù)平臺(tái)的可視化綜合管理駕駛艙,對(duì)鐵路數(shù)據(jù)服務(wù)平臺(tái)從數(shù)據(jù)普查、采集、治理、存儲(chǔ)、共享、分析、應(yīng)用的全流程進(jìn)行了展示。針對(duì)鐵路行業(yè)大數(shù)據(jù),數(shù)據(jù)量大、類型多、維度高、來(lái)源廣、各領(lǐng)域交叉復(fù)雜等特點(diǎn),利用可視化技術(shù)實(shí)現(xiàn)了平臺(tái)多種數(shù)據(jù)處理能力和用戶對(duì)信息感知能力的深度耦合,為及時(shí)掌握平臺(tái)的數(shù)據(jù)資源和運(yùn)維情況提供方便、快捷、高效的一體化工具,實(shí)現(xiàn)鐵路數(shù)據(jù)服務(wù)平臺(tái)多個(gè)應(yīng)用與功能的綜合可視化交互展現(xiàn)。