国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

鐵路數據服務平臺存儲架構設計與應用

2021-06-04 03:31:10王沛然馬小寧
鐵路計算機應用 2021年5期
關鍵詞:無感結構化服務平臺

王沛然,馬小寧,王 喆,鄒 丹,劉 敏

(中國鐵道科學研究院集團有限公司 鐵路大數據研究與應用創(chuàng)新中心,北京 100081)

隨著中國高速鐵路的飛速發(fā)展和鐵路信息化建設逐步完善,中國鐵路積累了大量與鐵路相關的結構化、半結構化、非結構化數據[1]。對這些數據進行全面有效管理和深入分析挖掘,充分發(fā)揮數據的價值,對提高鐵路運輸生產效率、降低運輸成本、提升客貨運產品服務質量、提高運營管理水平等具有重要意義[2]。

鐵路數據服務平臺是大數據應用的基礎和技術支撐,為大數據應用提供數據基礎、存儲、計算和分析等能力。鐵路數據服務平臺提供結構化數據與非結構化數據的接入能力,同時支持PB級離線數據的分析;在實時數據分析端,支持TB級數據的實時分析[3]。

存儲作為大數據平臺的重要組成部分,只有在合理而高效的大數據存儲架構支撐下,才能對鐵路行業(yè)的大數據進行快速存取、檢索并提高整個系統(tǒng)的吞吐量,大數據及數據挖掘應用才可以開拓其核心價值。目前,Hadoop已成為大數據處理的標準,Hadoop處理數據的生態(tài)日漸豐富,它能夠滿足大數據的多種需求[4]。僅運用Hadoop作為數據存儲組件,將海量鐵路數據存入“數據湖”中,無法對這些數據進行管理監(jiān)控,很容易形成“數據沼澤”[5],所以集合多種存儲方式的存儲架構才能適應當前數據存儲的發(fā)展要求。如何將數據安全穩(wěn)定的存儲,如何對數據在存儲過程中進行全鏈路監(jiān)控管理,如何跨存儲組件無感共享,都是數據儲存架構需要考慮的問題。本文將結合鐵路數據服務平臺的實際應用,通過研究各個存儲組件的使用場景及利弊,探索使用何種存儲方式使得各種數據安全穩(wěn)定的存儲,從存儲組件分區(qū)管理,全鏈路存儲組件監(jiān)控模塊,無感存儲組件訪問中間件模塊3個部分對鐵路數據服務平臺存儲架構進行全面闡述。

1 存儲架構整體設計

對海量多源異構數據進行高效處理是大數據平臺核心能力之一[6]。由于計算需求的多樣性,數據特征及計算性能要求差異性較大,鐵路數據服務平臺整合多種存儲計算技術以滿足需要。當前鐵路數據服平臺集成了PostgreSQL、Hive、Hbase、Green plum、Elasticsearch、Redis和Ceph等存儲組件,不同業(yè)務、不同場景的數據采用不同的方式進行計算與存儲。采用多種存儲方式并存的形式,根據數據類型及數據處理的要求選擇不同的數據存儲方式。存儲架構還包括全鏈路存儲監(jiān)控組件對平臺存儲組件進行監(jiān)控,無感存儲組件訪問中間件模塊提供數據訪問服務。

鐵路數據服務平臺的存儲架構,如圖1所示。

圖1 鐵路數據服務平臺存儲架構

2 平臺存儲組件分區(qū)管理

鐵路數據服務平臺要為鐵路各類應用海量數據存儲提供基礎性支撐功能。根據不同業(yè)務不同場景的數據,提供多種數據存儲,支持結構化數據、非結構化數據和半結構化數據等存儲需求[7]。結合數據使用頻度,業(yè)務使用場景,存儲組件優(yōu)缺點等方面,對數據進行分區(qū)存儲。利用大數據的批量計算、內存計算等技術,結合各類業(yè)務邏輯和算法,實現海量數據的離線分析與處理功能[8]。

2.1 結構化數據存儲

結構化數據通常采用傳統(tǒng)數據倉庫中關系型數據庫存儲,從數據處理維度看,對于業(yè)務處理層,鑒于其對事務完整性和高實時性的要求,可采用傳統(tǒng)的高性能關系型數據庫PostgreSQL作為數據服務平臺的貼源層接收結構化數據。通過使用PostgreSQL作為貼源層,使得存儲架構更加穩(wěn)定。

針對不同的業(yè)務場景,數據也可按實際情況直接接入其它存儲組件,鐵路數據服務平臺具備直接接入ES、Redis、Greenplum和Hbase等存儲組件的能力,可結合業(yè)務場景將這些數據及時共享出去。

鐵路數據服務平臺根據數據的訪問頻次將數據分為冷、熱數據存儲區(qū)。熱數據存儲區(qū)主要存放近期使用頻次較高的數據,冷數據存儲區(qū)主要存放訪問頻次較低的歷史數據。平臺既支持數據在各自分區(qū)內根據業(yè)務場景進行數據遷移,也支持數據在冷熱分區(qū)間跨區(qū)遷移查詢。

由于某些業(yè)務場景的需要,平臺同樣適配數據直接接入Hadoop數據倉庫。

2.2 半結構化數據存儲

半結構化數據是結構化數據的一種形式,常見的半結構化數據有XML和JSON[9]。半結構化數據一般是結構化的數據,但它的結構變化較為突出。所以鐵路數據服務平臺通常將半結構化數據直接存儲在Hadoop數據倉庫中,利用Hadoop強大的文件處理能力靈活處理,發(fā)揮半結構化數據的特點,高效地對XML、JSON等日志文件等半結構化數據進行分析計算。

2.3 非結構化數據存儲

非結構化數據是數據結構不規(guī)則或不完整,沒有預定義的數據模型,不方便用數據庫二維邏輯表來表現的數據[10]。鐵路數據服務平臺采用對象存儲Ceph來存儲非結構化數據。對象存儲Ceph克服了讀寫速度慢、存儲空間不足等的劣勢,在海量存儲圖片、音視頻、日志等文件的存儲與內容分發(fā)網絡和云端數據處理等方面展現出優(yōu)勢。數據服務平臺通過使用對象存儲Ceph,使其具有較強的橫向拓展、動態(tài)伸縮、冗余容災、負載平衡的能力,并通過相關技術實現了對接Hadoop生態(tài)搭建的大數據存儲實現數據的無縫流轉,為大數據分析共享提供了良好的數據銜接。用戶可以通過頁面上傳或者接口上傳非結構化數據。

3 全鏈路存儲監(jiān)控

3.1 存儲監(jiān)控原理

在大數據應用場景中,結合業(yè)務場景,運用多種存儲組件的現象已經較為普遍,如果不能梳理清楚存儲組件間數據流轉過程,將會使數據服務平臺數據雜亂無章,因此,建立全鏈路存儲組件監(jiān)控能夠使得這一問題得到解決。

鐵路數據服務平臺全鏈路存儲組件監(jiān)控模塊實現數據在平臺內各存儲組件間數據流轉的監(jiān)控及管理。監(jiān)控模塊可以對各個組件內的元數據自動化采集、探查、幫助繪制數據地圖,標明數據關系,分析各存儲組件內數據關系,管理模型變更。通過元數據管理,方便業(yè)務人員和技術人員快速定位數據來源,滿足內部管理、審計或外部監(jiān)管的需求,追溯業(yè)務指標、報表的數據來源和加工過程。

全鏈路存儲組件監(jiān)控模塊提供跨工具和應用的企業(yè)級元數據統(tǒng)一視圖,給出了盤點數據資源現狀和分析跟蹤數據流轉的實際可行的解決方案。內置多種采集適配器,包括Oracle、Mysql、PostgreSQL、Hive和Hbase等,可快速對接各類元數據,建立統(tǒng)一、集中的元數據資源庫,實現企業(yè)級元數據管理。

3.2 存儲監(jiān)控功能模塊

(1)數據地圖模塊。提供跨工具和應用了解企業(yè)內系統(tǒng)以及系統(tǒng)之間數據流向關系,并支持從系統(tǒng)到數據庫的鉆取及相關表、字段信息的展示。

(2)全鏈分析模塊。提供跨工具了解數據在系統(tǒng)中流動變化的全鏈分析,包括數據的上游鏈路來源情況和該數據影響的下游鏈路關聯情況。

(3)血統(tǒng)分析模塊。提供跨工具了解數據在系統(tǒng)中流動變化的。

(4)影響分析模塊。提供跨工具追蹤企業(yè)范圍的數據變化影響;表關聯程度分析,用于展現表在系統(tǒng)中的系統(tǒng)程度。

4 無感存儲訪問

4.1 無感存儲訪問組件原理

在一些實際業(yè)務場景中,包括存儲結構化數據的PostgreSQL、GP、Hbase等,也包括存儲非結構化數據的對象存儲組件,每個組件對于數據讀取方式不同、存儲和讀取的效率也存在很大差異,導致在進行數據訪問時,不但需要了解數據存在哪個組件中,編寫對應語法的查詢語句,還需要考慮數據查詢的實時性。為解決這一問題,鐵路數據服務平臺存儲架構設計了無感存儲組件訪問中間件。

無感存儲組件訪問中間件,提供跨存儲組件對數據進行查詢并提供查詢結果的能力,上層通過標準SQL進行封裝并建立數據反射將批量處理的數據預先處理后存儲到內存數據庫中進行緩存,實現對大部分存儲組件的調用,1 000萬條數據查詢時間為0.15 s,實現對存儲組件的無感訪問。無感存儲訪問組件原理,如圖2所示。

圖2 無感存儲訪問組件原理

4.2 無感存儲訪問組件特性

(1)跨數據環(huán)境的統(tǒng)一架構,支持多種數據源接入即用。

(2)數據虛擬化,用真實的數據,提供虛擬化視圖。

(3)各類業(yè)務使用最合適的技術在原來的位置上獨立處理數據,無論外部還是內部數據源。

(4)通用的統(tǒng)一訪問接口,全量的數據檢索。

(5)不搬移數據,處理鏈路短,支持實時業(yè)務響應。

鐵路數據服務平臺也支持直接連接存儲組件的查詢接口服務。提供多種方式的數據共享。

5 鐵路數據服務平臺應用實例

5.1 某鐵路局集團公司安全大數據應用場景

某鐵路局集團公司安全大數據基于結構化數據與非結構化數據融合分析場景的實際應用,數據傳輸流程如圖3所示。由于中國國家鐵路集團有限公司(簡稱:國鐵集團)安監(jiān)局和鐵路局集團公司安監(jiān)室每日交班分析會對當日發(fā)生的事故進行匯總,而這些事故當前只有事故概況情況,尚無調查處理信息,從而無法對事故原因進行科學分析。

圖3 結構化數據與非結構化數據融合分析數據傳輸流程

該應用運用大數據分析技術,通過對結構化的事故概況信息數據進行智能匹配,精準挖掘歷史同類事故案例,為事故調查處理提供輔助參考。利用文本分析技術,對非結構化數據歷史事故的調查報告進行格式化處理,對同類事故的原因進行挖掘分析,結合結構化的事故概況信息和非結構化的事故調查報告綜合分析,從而精準地指導事故原因分析。

5.2 某鐵路局集團公司安全大數據應用存儲架構

基于結構化數據與非結構化數據融合分析場景,該場景下的數據鏈路圖,如圖4所示。

(1)該存儲架構將結構化數據通過接口方式抽取到前置機PostgreSQL數據庫中,并在PostgreSQL數據庫中對數據進行清洗加工,將完整可用的數據通過Python腳本抽取到Hive庫中,這樣可以將清洗后的歷史數據全部存入冷數據區(qū)中。

(2)對象存儲Ceph將非結構化數據抽取存儲,AI平臺通過存儲訪問中間件,借助中間件調度工具,根據日期和實際業(yè)務邏輯,實現結構化數據增量訪問,從而保證數據的完整性。

(3)通過存儲訪問中間件從對象存儲Ceph中對非結構化數據進行數據訪問,結合結構化數據挖掘同類事故的原因。

(4)將分析結果數據同步到安全大數據平臺的Oracle數據庫中。

圖4 某鐵路局集團公司結構化數據與非結構化數據融合分析數據鏈路

該場景鐵路數據服務平臺的存儲組件分區(qū)管理,為安全大數據應用提供了多種存儲方式,并將數據安全、可靠存儲在各存儲組件中;存儲組件監(jiān)控模塊,實時監(jiān)控各存儲組件中的數據流轉過程;無感存儲組件訪問中間件,為AI平臺提供了跨結構化和非結構化的數據訪問,從而提升安全大數據平臺的分析能力。

6 結束語

鐵路數據服務平臺存儲架構,通過豐富的存儲組件滿足各種存儲需求,建立數據存儲的冷熱分區(qū),保障數據安全可靠存儲。該存儲架構還設計了全鏈路數據存儲監(jiān)控組件和無感存儲組件訪問中間件,全鏈路數據存儲監(jiān)控組件,實時追蹤數據在各存儲組件間流轉過程,從而達到對存儲組件的監(jiān)控管理;無感存儲組件訪問中間件,解決了不同組件,不同版本數據訪問差異化的問題,為數據訪問提供便捷服務。該存儲架構的優(yōu)勢在某鐵路局集團公司關于結構化與非結構化數據融合的安全大數據應用上得到充分展現。

當前,數據服務平臺存儲架構在數據存儲安全管理方面仍有待改進,隨著個人信息保護面臨新威脅與新風險,在數據存儲安全管理方面,應從存儲架構層面設計相應的模塊,對其進行管控,從而提高鐵路數據服務平臺的存儲安全管理能力。

猜你喜歡
無感結構化服務平臺
密碼服務平臺
打造一體化汽車服務平臺
來翠園體驗無感加油
促進知識結構化的主題式復習初探
論基于云的電子政務服務平臺構建
湖北農機化(2020年4期)2020-07-24 09:07:38
結構化面試方法在研究生復試中的應用
計算機教育(2020年5期)2020-07-24 08:53:00
北京P+R停車場無感支付方案探討
金溢科技加速助推ETC無感加油
四大行紛紛推出無感支付產品
基于云計算的民航公共信息服務平臺
民乐县| 浦城县| 聂荣县| 怀安县| 博乐市| 溧阳市| 香河县| 竹山县| 榆中县| 乌拉特后旗| 三都| 新邵县| 炉霍县| 湘乡市| 浦北县| 德钦县| 类乌齐县| 孙吴县| 平陆县| 贵溪市| 德州市| 建阳市| 隆化县| 镇远县| 南陵县| 漳浦县| 江华| 长宁县| 太仓市| 汶川县| 五原县| 禹州市| 壶关县| 莆田市| 汉川市| 敦煌市| 武城县| 新丰县| 郧西县| 勃利县| 太保市|