国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

民機(jī)運(yùn)行支持?jǐn)?shù)據(jù)湖設(shè)計(jì)與實(shí)現(xiàn)

2021-08-04 08:37:08
關(guān)鍵詞:民機(jī)數(shù)據(jù)服務(wù)原始數(shù)據(jù)

馬 馳

(上海飛機(jī)客戶服務(wù)有限公司,上海 200241)

0 引言

隨著數(shù)字化、大數(shù)據(jù)技術(shù)的發(fā)展,數(shù)據(jù)已成為驅(qū)動(dòng)航空企業(yè)特別是民機(jī)主制造商企業(yè)創(chuàng)新、盈利、增值的關(guān)鍵要素之一。民機(jī)主制造商數(shù)據(jù)量、數(shù)據(jù)來(lái)源和數(shù)據(jù)格式日益增多[1]。企業(yè)需要一個(gè)能夠存儲(chǔ)各類原始數(shù)據(jù)的大型倉(cāng)庫(kù),用于處理各類數(shù)據(jù),以滿足不同業(yè)務(wù)對(duì)數(shù)據(jù)的存儲(chǔ)、處理、分析及傳輸需求,為挖掘數(shù)據(jù)價(jià)值提供高性能的服務(wù)支撐[2]。國(guó)外航空主制造商GE構(gòu)建以Postgre+mongoDB+Redis+Blob(S3)的數(shù)據(jù)湖存儲(chǔ)組合技術(shù)的大規(guī)模存儲(chǔ)技術(shù)的民航數(shù)據(jù)湖生態(tài)系統(tǒng),以滿足不同數(shù)據(jù)集探索發(fā)現(xiàn)、分析、數(shù)據(jù)服務(wù)和報(bào)告及可視化服務(wù)的需求[3]。目前,國(guó)內(nèi)民機(jī)主制造商大多采用傳統(tǒng)數(shù)倉(cāng)模式進(jìn)行數(shù)據(jù)管理,數(shù)據(jù)標(biāo)準(zhǔn)格式差異較大、應(yīng)用端數(shù)據(jù)獲取不規(guī)范,導(dǎo)致數(shù)據(jù)質(zhì)量不足,數(shù)據(jù)分析應(yīng)用困難,造成數(shù)據(jù)孤島和冗余現(xiàn)象[4-5]。

本文提出基于Lambda模型的民機(jī)運(yùn)行數(shù)據(jù)湖系統(tǒng)設(shè)計(jì)方法。數(shù)據(jù)收集、管理、業(yè)務(wù)分析用戶可在系統(tǒng)中完成數(shù)據(jù)獲取、清洗、標(biāo)準(zhǔn)化轉(zhuǎn)換以及定制、自助的數(shù)據(jù)服務(wù)等功能,形成數(shù)據(jù)資產(chǎn)目錄,挖掘數(shù)據(jù)應(yīng)用價(jià)值,助力民機(jī)主制造商企業(yè)和數(shù)據(jù)應(yīng)用決策,實(shí)現(xiàn)以客戶/服務(wù)為中心的數(shù)字化轉(zhuǎn)型。

1 數(shù)據(jù)湖的概念及特點(diǎn)

1.1 數(shù)據(jù)湖概念

數(shù)據(jù)湖是一個(gè)可以存儲(chǔ)任何形式(包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù))、任意規(guī)模的原始數(shù)據(jù)倉(cāng)庫(kù)[6]。結(jié)合用戶使用需求決定對(duì)哪些數(shù)據(jù)湖原始數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理。通過(guò)對(duì)數(shù)據(jù)的查詢、處理、分析消費(fèi),幫助企業(yè)用戶快速挖掘數(shù)據(jù)有用信息。

對(duì)于民機(jī)主制造商而言,數(shù)據(jù)包括生產(chǎn)類數(shù)據(jù)、運(yùn)行類數(shù)據(jù)、經(jīng)營(yíng)類數(shù)據(jù)、管理類數(shù)據(jù)、外部綜合類數(shù)據(jù)五類。

生產(chǎn)類數(shù)據(jù)如PLM數(shù)據(jù)、EBOM/MBOM等,需同飛機(jī)構(gòu)型管理數(shù)據(jù)保持一致,此類數(shù)據(jù)變更頻率不高,屬于相對(duì)靜態(tài)數(shù)據(jù);

運(yùn)行類數(shù)據(jù)主要以時(shí)間線進(jìn)行分類、分層管理,分為飛行類數(shù)據(jù)、維修類數(shù)據(jù)、燃油效率類數(shù)據(jù),如機(jī)上FDR/DAR/QAR數(shù)據(jù)、ACARS、EFB數(shù)據(jù)以及地面例行工卡/非例行工卡等。此類數(shù)據(jù)需要實(shí)時(shí)或近實(shí)時(shí)更新,數(shù)據(jù)變更頻率較高,屬于相對(duì)動(dòng)態(tài)數(shù)據(jù);

經(jīng)營(yíng)類數(shù)據(jù),如ERP數(shù)據(jù)、SCM數(shù)據(jù)、CRM數(shù)據(jù),此類數(shù)據(jù)支撐運(yùn)行經(jīng)濟(jì)性分析和企業(yè)經(jīng)營(yíng),是經(jīng)營(yíng)決策的重要依據(jù);

管理類數(shù)據(jù)包括各類運(yùn)行支持計(jì)劃、進(jìn)度、問(wèn)題改進(jìn)措施、解決方案等轉(zhuǎn)化形成的數(shù)據(jù)以及組織、人員等管理要素?cái)?shù)據(jù);

外部綜合類數(shù)據(jù),如氣象數(shù)據(jù)、地理數(shù)據(jù)、油價(jià)數(shù)據(jù)、空管航線數(shù)據(jù)、航旅流量數(shù)據(jù)等,主要來(lái)源于第三方數(shù)據(jù)源。本文研究?jī)?nèi)容主要針對(duì)民機(jī)主制造商運(yùn)行類數(shù)據(jù)。

民機(jī)運(yùn)行支持?jǐn)?shù)據(jù)湖旨在收集、存儲(chǔ)飛機(jī)自交付、運(yùn)營(yíng)過(guò)程產(chǎn)生的氣象、地理、機(jī)場(chǎng)、航班運(yùn)行、維修等原始數(shù)據(jù)。數(shù)據(jù)形式包括數(shù)據(jù)庫(kù)存儲(chǔ)的結(jié)構(gòu)化數(shù)據(jù)、EXCEL、XML等半結(jié)構(gòu)化數(shù)據(jù)以及PDF、WORD、音視頻等非結(jié)構(gòu)化數(shù)據(jù)。民機(jī)主制造商用戶可對(duì)數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理,便于數(shù)據(jù)分析人員進(jìn)行數(shù)據(jù)分析。同時(shí),為了增強(qiáng)用戶使用分析體驗(yàn),民機(jī)運(yùn)行支持?jǐn)?shù)據(jù)湖還為用戶提供可定制、自助式服務(wù)、數(shù)據(jù)中臺(tái)和標(biāo)準(zhǔn)化、簡(jiǎn)單易用的數(shù)據(jù)服務(wù),使得數(shù)據(jù)分析人員更專注于數(shù)據(jù)、算法和業(yè)務(wù),加快民機(jī)主制造商產(chǎn)品迭代,增強(qiáng)用戶的購(gòu)機(jī)體驗(yàn),形成民機(jī)主制造商數(shù)據(jù)生態(tài)。

1.2 數(shù)據(jù)湖的特點(diǎn)

依據(jù)數(shù)據(jù)湖的普遍定義,數(shù)據(jù)湖具有以下幾個(gè)特點(diǎn):

1)類型多樣。數(shù)據(jù)湖可存放各種類型的數(shù)據(jù),包括結(jié)構(gòu)化數(shù)據(jù)、PDF、WORD等非結(jié)構(gòu)化數(shù)據(jù)、EXCEL、XML等半結(jié)構(gòu)化數(shù)據(jù)。數(shù)據(jù)湖可處理所有類型的數(shù)據(jù)。數(shù)據(jù)類型依賴于數(shù)據(jù)源系統(tǒng)的原始數(shù)格式。對(duì)于民機(jī)運(yùn)行支持?jǐn)?shù)據(jù)湖而言,包括運(yùn)控系統(tǒng)數(shù)據(jù)、維修類工卡數(shù)據(jù)、飛行記錄本、駕駛艙音視頻數(shù)據(jù)等;

2)原始記錄。數(shù)據(jù)湖收集各類原始數(shù)據(jù),并保留數(shù)據(jù)最原始的特征,為數(shù)據(jù)的加工和消費(fèi)提供豐富的可能。對(duì)于民機(jī)運(yùn)行支持?jǐn)?shù)湖而言,是否有數(shù)據(jù)轉(zhuǎn)換、清洗、加工等處理需求,所有數(shù)據(jù)入湖必須存儲(chǔ)原始數(shù)據(jù);

3)海量存儲(chǔ)和計(jì)算能力。數(shù)據(jù)湖擁有強(qiáng)大的計(jì)算能力,用來(lái)處理和分析所有類型的數(shù)據(jù)。用戶也可根據(jù)需求將處理后的數(shù)據(jù)存儲(chǔ)成各種類型數(shù)據(jù)文件格式。所有分析后產(chǎn)生的數(shù)據(jù)均會(huì)被存儲(chǔ)起來(lái)供用戶使用。

除了具備上述特征外,民機(jī)運(yùn)行支持?jǐn)?shù)據(jù)湖還具備可定制、自助式的數(shù)據(jù)服務(wù)、數(shù)據(jù)中臺(tái)服務(wù)的特點(diǎn)。

1)可定制、自助式的數(shù)據(jù)服務(wù)。對(duì)于民機(jī)運(yùn)行支持?jǐn)?shù)據(jù)湖而言,可靠性工程師需要航司日?qǐng)?bào)數(shù)據(jù)、基礎(chǔ)數(shù)據(jù)、發(fā)動(dòng)機(jī)運(yùn)行數(shù)據(jù)等進(jìn)行可靠性分析;維修工程師需要利用QAR數(shù)據(jù)、ACARS數(shù)據(jù)、CMS數(shù)據(jù)、維修工卡、EO、AMM手冊(cè)等進(jìn)行維修狀態(tài)監(jiān)控和維修預(yù)測(cè);飛行運(yùn)行支持工程師則需要QAR數(shù)據(jù)、ACARS數(shù)據(jù)、飛行履歷本、氣象地理數(shù)據(jù)等開(kāi)展飛行品質(zhì)分析服務(wù)。不同類型用戶,數(shù)據(jù)分析需求也不同。因此,數(shù)據(jù)湖需要為用戶提供可定制和自助式等多種服務(wù)模式,增強(qiáng)數(shù)據(jù)服務(wù)的彈性。各類工程師可根據(jù)自身需求,采取數(shù)據(jù)訂閱或自制視圖的方式形成服務(wù)于自己日常工作的數(shù)據(jù)集,進(jìn)而開(kāi)展建模、監(jiān)控、分析工作;

為避免數(shù)據(jù)集的冗余、更高效地實(shí)現(xiàn)數(shù)據(jù)的高效消費(fèi),系統(tǒng)需支持?jǐn)?shù)據(jù)發(fā)布和分享,幫助其他業(yè)務(wù)相關(guān)用戶快速獲取數(shù)據(jù)集。系統(tǒng)也為數(shù)據(jù)工程師提供在后臺(tái)不同數(shù)據(jù)視圖應(yīng)用情況分析功能,幫助用戶發(fā)現(xiàn)更深層次、更多維度的數(shù)據(jù)關(guān)系,組合或構(gòu)建更高效的服務(wù)新視圖,或?qū)?shù)據(jù)湖集成、存儲(chǔ)、消費(fèi)環(huán)節(jié)進(jìn)行優(yōu)化,以提高整體運(yùn)行效率。

2)數(shù)據(jù)中臺(tái)服務(wù)。隨著視圖數(shù)據(jù)的增多,必定會(huì)產(chǎn)生一些重復(fù)度高、使用頻率高的數(shù)據(jù)服務(wù)需求,數(shù)據(jù)工程師可整合相關(guān)需求,開(kāi)發(fā)標(biāo)準(zhǔn)化的數(shù)據(jù)服務(wù)(Data Service),形成輕量級(jí)服務(wù)對(duì)外公開(kāi)數(shù)據(jù),例如QAR譯碼服務(wù)等。由于數(shù)據(jù)湖中大量業(yè)務(wù)數(shù)據(jù)以原始形態(tài)被提供給消費(fèi)者,存在數(shù)據(jù)形態(tài)斑駁,質(zhì)量參差不齊,數(shù)據(jù)延遲等問(wèn)題,導(dǎo)致分析人員需要花費(fèi)大量時(shí)間進(jìn)行數(shù)據(jù)整備工作,數(shù)據(jù)中臺(tái)可將同質(zhì)化服務(wù)需求整合后,提供標(biāo)準(zhǔn)化服務(wù)接口,迅速拉近數(shù)據(jù)與分析業(yè)務(wù)應(yīng)用之間的距離,使數(shù)據(jù)分析人員可以更加專注在分析建模和應(yīng)用開(kāi)發(fā)本身,從而縮短項(xiàng)目周期,加快產(chǎn)品迭代速度。

2 運(yùn)行支持?jǐn)?shù)據(jù)湖設(shè)計(jì)方案

由于航空主制造商有大量的存量系統(tǒng)和不斷新建的新系統(tǒng),因此很難從零開(kāi)始構(gòu)建一個(gè)全新的數(shù)據(jù)湖以承擔(dān)企業(yè)數(shù)據(jù)中心的職責(zé),傳統(tǒng)企業(yè)構(gòu)建數(shù)據(jù)湖首先應(yīng)該對(duì)數(shù)據(jù)及數(shù)據(jù)關(guān)系進(jìn)行分類,定義統(tǒng)一的企業(yè)模型,調(diào)整現(xiàn)有數(shù)據(jù)流程,并以增量的方式逐步構(gòu)建數(shù)據(jù)湖。

數(shù)據(jù)湖的多種數(shù)據(jù)處理方式,大致可以分為批處理和(近)實(shí)時(shí)數(shù)據(jù)處理,這兩種場(chǎng)景在航空企業(yè)普遍存在。為同時(shí)發(fā)揮流處理和批處理的優(yōu)勢(shì),保證大型數(shù)據(jù)集執(zhí)行跨度的可伸縮性、數(shù)據(jù)負(fù)載等,本文提出了基于Lambda 架構(gòu)的主制造商運(yùn)行支持?jǐn)?shù)據(jù)湖的構(gòu)建方法。

民機(jī)運(yùn)行支持?jǐn)?shù)據(jù)湖工作流程如圖1所示。數(shù)據(jù)流入是構(gòu)建數(shù)據(jù)湖的起始。主制造商運(yùn)行支持?jǐn)?shù)據(jù)湖數(shù)據(jù)源包括飛行類數(shù)據(jù)、維修類數(shù)據(jù)、燃油效率類數(shù)據(jù),如機(jī)上FDR/DAR/QAR數(shù)據(jù)、ACARS、EFB數(shù)據(jù)以及地面例行工卡/非例行工卡等。通過(guò)自動(dòng)/半自動(dòng)方式,從數(shù)據(jù)源獲取批量/流式數(shù)據(jù)。由于數(shù)據(jù)來(lái)源不同,在使用數(shù)據(jù)之前,需要對(duì)數(shù)據(jù)進(jìn)行清洗、熔接、縫合,完成數(shù)據(jù)的集成。數(shù)據(jù)清洗是對(duì)重復(fù)數(shù)據(jù)、錯(cuò)誤數(shù)據(jù)和缺失數(shù)據(jù)的剔除和修正過(guò)程,以滿足后續(xù)對(duì)數(shù)據(jù)的操作和數(shù)據(jù)可用性。數(shù)據(jù)的集成過(guò)程需要借助于ETL等工具。集成后的數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化規(guī)范,存儲(chǔ)至數(shù)據(jù)庫(kù)中,形成數(shù)據(jù)資產(chǎn)目錄和數(shù)據(jù)圖譜。用戶可按需直接提供流式數(shù)據(jù)服務(wù)。當(dāng)數(shù)據(jù)更新后,更新數(shù)據(jù)資產(chǎn)目錄和數(shù)據(jù)圖譜。在此基礎(chǔ)上,數(shù)據(jù)工程師和業(yè)務(wù)工程師開(kāi)展數(shù)據(jù)應(yīng)用消費(fèi)包括數(shù)據(jù)分析、大數(shù)據(jù)處理、自助工具與服務(wù)等,便于應(yīng)用端用戶更專注于數(shù)據(jù)應(yīng)用,深入挖掘數(shù)據(jù)價(jià)值。

圖1 主制造商運(yùn)行支持?jǐn)?shù)據(jù)湖工作流程

2.1 基于Lambda模型的民機(jī)運(yùn)行支持?jǐn)?shù)據(jù)湖架構(gòu)設(shè)計(jì)

Lambda架構(gòu)是一種整合離線計(jì)算和實(shí)時(shí)計(jì)算的大數(shù)據(jù)處理框架。通過(guò)批處理和實(shí)時(shí)處理功能來(lái)平衡數(shù)據(jù)延遲,實(shí)現(xiàn)數(shù)據(jù)容錯(cuò),具備高容錯(cuò)、低延時(shí)和擴(kuò)展性好等特點(diǎn)。盡管Lambda架構(gòu)將多種大數(shù)據(jù)組件串聯(lián)在一起實(shí)行一體化管理,但仍會(huì)在后續(xù)數(shù)據(jù)治理和開(kāi)放能力上存在問(wèn)題和痛點(diǎn)。因此,本文在搭建基于Lambda 架構(gòu)的民機(jī)運(yùn)行支持?jǐn)?shù)據(jù)湖架構(gòu)的過(guò)程中,提供了多種平臺(tái)及工具來(lái)助力民機(jī)運(yùn)行支持?jǐn)?shù)據(jù)湖的構(gòu)建。

基于Lambda 架構(gòu)的民機(jī)運(yùn)行支持?jǐn)?shù)據(jù)湖架構(gòu)分為數(shù)據(jù)獲取層、消息層、批處理層、快速處理層、服務(wù)層和數(shù)據(jù)存儲(chǔ)層,如圖2所示。

圖2 基于Lambda 架構(gòu)的民機(jī)運(yùn)行支持?jǐn)?shù)據(jù)架構(gòu)

1)數(shù)據(jù)獲取層:從多個(gè)數(shù)據(jù)源獲取數(shù)據(jù),并轉(zhuǎn)換為消息層可處理的消息或事件,轉(zhuǎn)換的目的是最小化傳輸延遲,且消息層如無(wú)法到達(dá),數(shù)據(jù)獲取層需緩存數(shù)據(jù)以備故障恢復(fù)。

民機(jī)運(yùn)行支持?jǐn)?shù)據(jù)包括外部源系統(tǒng)實(shí)時(shí)數(shù)據(jù)以及人工獲取的大量歷史數(shù)據(jù)。使用SQOOP、Flume工具完成數(shù)據(jù)的收集。使用SQOOP工具可將源系統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)數(shù)據(jù)收集存儲(chǔ)至目標(biāo)位置。使用Flume工具可確保數(shù)據(jù)聚合存儲(chǔ)在目標(biāo)位置。當(dāng)系統(tǒng)組件、硬件發(fā)生故障或網(wǎng)絡(luò)帶寬性能不佳時(shí),F(xiàn)lume仍能保證系統(tǒng)主要功能運(yùn)轉(zhuǎn),而非完全關(guān)閉。為了避免大量數(shù)據(jù)無(wú)組織入湖導(dǎo)致出現(xiàn)“數(shù)據(jù)沼澤”的現(xiàn)象,系統(tǒng)設(shè)置多個(gè)Flume代理,確保數(shù)據(jù)湖中的數(shù)據(jù)可以按照不同的維度組織起來(lái),例如,不同航司獲取的數(shù)據(jù)存儲(chǔ)在各自單獨(dú)的目錄中。

2)消息層:主要為數(shù)據(jù)湖架構(gòu)里的消息中間件,主要作用是讓數(shù)據(jù)湖各層組裝件之間解耦,同時(shí)保證消息傳遞安全性。消息層支持隊(duì)列通信與發(fā)布/訂閱兩種模式,即一對(duì)一和一對(duì)多消息消費(fèi)模式。

民機(jī)運(yùn)行支持?jǐn)?shù)據(jù)湖采用Kafka組件作為中間層實(shí)現(xiàn)數(shù)據(jù)源和數(shù)據(jù)消費(fèi)者的解耦。源數(shù)據(jù)匯聚至Flume,經(jīng)由kafka消息中間層一方面將原始數(shù)據(jù)寫(xiě)入Hadoop文件系統(tǒng)存儲(chǔ)起來(lái),另一方面,基于kafka的發(fā)布、訂閱功能以及高可靠性、低延遲的特性將數(shù)據(jù)流入數(shù)據(jù)攝取層。

3)數(shù)據(jù)攝取層:主要作用是攝取數(shù)據(jù)用于處理和存儲(chǔ),即將數(shù)據(jù)快速傳遞到Lambda架構(gòu)的工作模型中,該層關(guān)鍵功能包括:a)可按需擴(kuò)展的負(fù)載能力;b)容錯(cuò)和故障轉(zhuǎn)移能力;c)多線程多事物并行處理能力;d)快速將所獲取數(shù)據(jù)結(jié)構(gòu)轉(zhuǎn)換為目標(biāo)數(shù)據(jù)格式的能力,包括非結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)結(jié)構(gòu)化數(shù)據(jù)。例如飛行數(shù)據(jù)譯碼、圖像數(shù)據(jù)轉(zhuǎn)換都在這一層完成。

基于民機(jī)運(yùn)行支持?jǐn)?shù)據(jù)的批量性和實(shí)時(shí)性的特點(diǎn),攝取層采取Flink技術(shù),提供數(shù)據(jù)并發(fā)以及并行化計(jì)算的流數(shù)據(jù)處理引擎,保證數(shù)據(jù)在大規(guī)模運(yùn)行過(guò)程中,出現(xiàn)無(wú)序或者延遲加載的情況下可以提供準(zhǔn)確的數(shù)據(jù)處理結(jié)果。

4)批處理層:批量處理已提取數(shù)據(jù),并轉(zhuǎn)換輸出為數(shù)據(jù)模型,為服務(wù)層提供輸入。該層主要任務(wù)包括:在已攝取的原始數(shù)據(jù)基礎(chǔ)上執(zhí)行數(shù)據(jù)清洗、數(shù)據(jù)處理、數(shù)據(jù)建模算法;進(jìn)行機(jī)器學(xué)習(xí)算法或數(shù)據(jù)科學(xué)處理,以產(chǎn)生高質(zhì)量的數(shù)據(jù)模型;通過(guò)查重、檢錯(cuò)等任務(wù)提高模型數(shù)據(jù)質(zhì)量;具備故障恢復(fù)能力。

采用HDFS將不同源系統(tǒng)不同類型的原始數(shù)據(jù)進(jìn)行持久化存儲(chǔ)。采用Pig技術(shù)用于數(shù)據(jù)訪問(wèn)和處理。Pig提供數(shù)據(jù)流功能,可將ETL功能抽象出來(lái),允許用戶查檢索大型數(shù)據(jù)集,并進(jìn)行必要操作。最后根據(jù)需求將計(jì)算結(jié)果存儲(chǔ)起來(lái)。使用Hive技術(shù),基于民機(jī)運(yùn)行過(guò)程將數(shù)據(jù)劃分多個(gè)主題域構(gòu)建民機(jī)運(yùn)行支持?jǐn)?shù)據(jù)倉(cāng)庫(kù),并提供數(shù)據(jù)匯總和即席查詢。

5)快速處理層:將從數(shù)據(jù)攝取層獲取的數(shù)據(jù)進(jìn)行近實(shí)時(shí)處理,以滿足對(duì)數(shù)據(jù)快速、高效、并發(fā)場(chǎng)景的需求,該層需確保數(shù)據(jù)處理、存儲(chǔ)、讀取能力達(dá)到近實(shí)時(shí)的預(yù)期,一般都建立在內(nèi)存消息傳輸功能之上。

采用Flink實(shí)現(xiàn)基于內(nèi)存計(jì)算的近實(shí)時(shí)數(shù)據(jù)處理和開(kāi)箱即用的windowing功能,不僅基于事件時(shí)間,還可基于計(jì)數(shù)和會(huì)話。當(dāng)出現(xiàn)數(shù)據(jù)故障,進(jìn)行數(shù)據(jù)恢復(fù)過(guò)程中,不會(huì)造成數(shù)據(jù)損失。

6)服務(wù)層:服務(wù)層在Lambda架構(gòu)中負(fù)責(zé)數(shù)據(jù)的對(duì)外提供,支持各種數(shù)據(jù)傳輸協(xié)議,是數(shù)據(jù)消費(fèi)的接口層,對(duì)內(nèi)從數(shù)據(jù)存儲(chǔ)層消費(fèi)數(shù)據(jù),對(duì)外向數(shù)據(jù)消費(fèi)者按約定接口提供數(shù)據(jù)傳輸,一般包括數(shù)據(jù)推送(數(shù)據(jù)導(dǎo)出、數(shù)據(jù)發(fā)布)和數(shù)據(jù)拉取(數(shù)據(jù)服務(wù)、數(shù)據(jù)視圖)兩種方式。如向維修工程師推送關(guān)注架機(jī)的最新維修工卡記錄就是典型的數(shù)據(jù)推送,而為某個(gè)飛行品質(zhì)APP以數(shù)據(jù)服務(wù)接口的方式提供數(shù)據(jù)更新則是拉取動(dòng)作。

采用SpringBoot快速搭建服務(wù)層,并與Swagger等服務(wù)定義工具,為構(gòu)建和發(fā)布通用REST服務(wù)。使用Hive技術(shù)實(shí)現(xiàn)數(shù)據(jù)視圖、報(bào)表處理和即席數(shù)據(jù)分析。使用pig或Sqoop技術(shù)組件,通過(guò)預(yù)先設(shè)置的cron任務(wù)將數(shù)據(jù)從數(shù)倉(cāng)中導(dǎo)出。

7)數(shù)據(jù)存儲(chǔ)層:存儲(chǔ)數(shù)據(jù)湖所有數(shù)據(jù),由于攝取數(shù)據(jù)操作包括批處理和近實(shí)時(shí)處理兩種,因此存儲(chǔ)層要至少支持兩種類型的存儲(chǔ)模式,一般用Hadoop處理串行讀寫(xiě)的批量數(shù)據(jù),而用Flume處理需要隨機(jī)訪問(wèn)和快速檢索的流式數(shù)據(jù)。數(shù)據(jù)存儲(chǔ)層應(yīng)同時(shí)支持關(guān)系數(shù)據(jù)存儲(chǔ)和分布式存儲(chǔ),如數(shù)據(jù)分析所需的關(guān)鍵參數(shù),應(yīng)存儲(chǔ)在關(guān)系型數(shù)據(jù)庫(kù)中提高檢索效率,而原始數(shù)據(jù)的存儲(chǔ)可采用Hadoop分布式解決方案。采用HDFS存儲(chǔ)所有不同類型的原始數(shù)據(jù)?;贓lasticsearch建立索引數(shù)據(jù)服務(wù),幫助用戶進(jìn)行快速檢索。

綜上所述,Lambda模型中新增數(shù)據(jù)將同時(shí)分配到批處理層和快速處理層,分別形成批處理視圖和快速處理視圖,查詢命令會(huì)合并兩個(gè)視圖來(lái)生成適當(dāng)?shù)牟樵兘Y(jié)果。

2.2 運(yùn)行支持?jǐn)?shù)據(jù)湖功能

運(yùn)行支持?jǐn)?shù)據(jù)湖包括數(shù)據(jù)收集、數(shù)據(jù)管理、數(shù)據(jù)中臺(tái)、系統(tǒng)監(jiān)控和系統(tǒng)維護(hù)以及個(gè)人中心組成,如圖3所示。

圖3 系統(tǒng)總體功能圖

數(shù)據(jù)收集模塊完成不同類型數(shù)據(jù)的導(dǎo)入,數(shù)據(jù)的流轉(zhuǎn)配置、數(shù)據(jù)清洗、標(biāo)準(zhǔn)化轉(zhuǎn)換以及數(shù)據(jù)模板和數(shù)據(jù)字典的維護(hù)功能。根據(jù)數(shù)據(jù)的類型,系統(tǒng)為用戶提供了作業(yè)管理、半結(jié)構(gòu)化數(shù)據(jù)導(dǎo)入、非結(jié)構(gòu)化數(shù)據(jù)導(dǎo)入功能。作業(yè)管理實(shí)現(xiàn)系統(tǒng)到系統(tǒng)的數(shù)據(jù)抽取功能。此外,作業(yè)管理也提供數(shù)據(jù)轉(zhuǎn)換標(biāo)準(zhǔn)化作業(yè)的新建、監(jiān)控、管理功能。半結(jié)構(gòu)化數(shù)據(jù)導(dǎo)入提供EXCEL等數(shù)據(jù)的導(dǎo)入、解析以及數(shù)據(jù)映射。非結(jié)構(gòu)化數(shù)提供視頻、圖片、文檔等數(shù)據(jù)的導(dǎo)入、數(shù)據(jù)映射和表單錄入功能。數(shù)據(jù)清洗提供清洗規(guī)則庫(kù)的配置維護(hù)功能和重復(fù)數(shù)據(jù)、錯(cuò)誤數(shù)據(jù)和缺失數(shù)據(jù)的修正以及修正數(shù)據(jù)重新映射功能。數(shù)據(jù)轉(zhuǎn)換提供數(shù)據(jù)轉(zhuǎn)換規(guī)則的配置維護(hù)功能和轉(zhuǎn)換問(wèn)題數(shù)據(jù)的修正和修正數(shù)據(jù)的重新入庫(kù)功能。

數(shù)據(jù)管理模塊完成元數(shù)據(jù)的管理功能、主題標(biāo)準(zhǔn)化數(shù)據(jù)管理和原始數(shù)據(jù)管理功能。元數(shù)據(jù)提供系統(tǒng)元數(shù)據(jù)的查看和數(shù)據(jù)依賴關(guān)系的查看功能。主題數(shù)據(jù)管理提供轉(zhuǎn)換作業(yè)標(biāo)準(zhǔn)化后數(shù)據(jù)的管理功能。標(biāo)準(zhǔn)化數(shù)據(jù)按照飛機(jī)運(yùn)行過(guò)程業(yè)務(wù)分為基礎(chǔ)數(shù)據(jù)、試驗(yàn)與驗(yàn)證數(shù)據(jù)、飛行與運(yùn)行數(shù)據(jù)和維修與工程數(shù)據(jù)。原始數(shù)據(jù)提供不同數(shù)據(jù)源接入原始數(shù)據(jù)的管理功能。數(shù)據(jù)管理功能針對(duì)數(shù)據(jù)管理類用戶。

數(shù)據(jù)中臺(tái)模塊提供數(shù)據(jù)資產(chǎn)、統(tǒng)計(jì)分析、數(shù)據(jù)自助服務(wù)、原始文件借閱、數(shù)據(jù)發(fā)放功能,主要面向數(shù)據(jù)分析和業(yè)務(wù)分析人員。用戶在數(shù)據(jù)中臺(tái)可查看形成的數(shù)據(jù)資產(chǎn)目錄信息,支持對(duì)數(shù)據(jù)打標(biāo)簽。對(duì)于沒(méi)有數(shù)據(jù)權(quán)限的用戶,用戶可以申請(qǐng)數(shù)據(jù)發(fā)放權(quán)限。同時(shí),用戶可借閱原始數(shù)據(jù)文件。針對(duì)一些重復(fù)度高、使用頻率高的數(shù)據(jù)應(yīng)用需求,系統(tǒng)提供數(shù)據(jù)應(yīng)用支持和統(tǒng)計(jì)分析功能。由于不同類型用戶的數(shù)據(jù)分析需求也不同,系統(tǒng)還提供了數(shù)據(jù)自助服務(wù)功能,支持?jǐn)?shù)據(jù)分析用戶自定義數(shù)據(jù)報(bào)表、自定義視圖、數(shù)據(jù)訂閱和自定義數(shù)據(jù)API,便于業(yè)務(wù)分析人員快速進(jìn)行數(shù)據(jù)消費(fèi),了解數(shù)據(jù)價(jià)值。

系統(tǒng)資源的使用情況關(guān)乎整個(gè)數(shù)據(jù)湖系統(tǒng)的穩(wěn)定性、可靠性。系統(tǒng)監(jiān)控主要監(jiān)控CPU利用率和I/O內(nèi)存利用率等。當(dāng)數(shù)據(jù)湖中CPU利用率和和I/O內(nèi)存利用率超限時(shí),管理員可第一時(shí)間發(fā)現(xiàn)問(wèn)題進(jìn)行排查,增強(qiáng)系統(tǒng)用戶的使用體驗(yàn)。

系統(tǒng)維護(hù)提供系統(tǒng)用戶信息管理、組織機(jī)構(gòu)信息維護(hù)、系統(tǒng)功能和數(shù)據(jù)權(quán)限管理以及系統(tǒng)使用幫助信息的維護(hù)管理功能。

3 軟件實(shí)現(xiàn)

系統(tǒng)基于Lambda架構(gòu),采用前后端分離和微服務(wù)的原則,采用Angular,Spring Boot、Echars、Redis等設(shè)計(jì)開(kāi)發(fā),數(shù)據(jù)庫(kù)用PostgreSQL和HDFS,借助于kettle開(kāi)源的ETL工具完成系統(tǒng)對(duì)系統(tǒng)結(jié)構(gòu)化數(shù)據(jù)的抽取。

民機(jī)運(yùn)行支持?jǐn)?shù)據(jù)湖實(shí)現(xiàn)流程如圖4所示。用戶需梳理原始數(shù)據(jù),結(jié)合數(shù)據(jù)入湖后的數(shù)據(jù)流向配置數(shù)據(jù)字典、數(shù)據(jù)模板、清洗規(guī)則、映射關(guān)系、轉(zhuǎn)換規(guī)則。結(jié)合源數(shù)據(jù)的獲取方式(包括文件上傳、接口獲取、人工錄入等)以及數(shù)據(jù)格式(包括結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化)從不同的功能入口完成不同類型數(shù)據(jù)的收集、處理,經(jīng)過(guò)數(shù)據(jù)標(biāo)準(zhǔn)化轉(zhuǎn)換作業(yè)形成標(biāo)準(zhǔn)統(tǒng)一的數(shù)據(jù),建立數(shù)據(jù)資產(chǎn)。通過(guò)對(duì)數(shù)據(jù)的聚合、導(dǎo)出、發(fā)布實(shí)現(xiàn)數(shù)據(jù)的統(tǒng)計(jì)分析、自助服務(wù)和數(shù)據(jù)應(yīng)用。

圖4 Lambda架構(gòu)數(shù)據(jù)湖工作機(jī)制

4 數(shù)據(jù)湖應(yīng)用結(jié)果與分析

以某型號(hào)某航數(shù)據(jù)為例,在民機(jī)制造商數(shù)據(jù)收集過(guò)程中,需要收集PDF、EXCEL、WORD的文件類型數(shù)據(jù),將其作為民機(jī)運(yùn)行支持?jǐn)?shù)湖的輸入。通過(guò)對(duì)不同類型數(shù)據(jù)的收集、存儲(chǔ)、處理、標(biāo)準(zhǔn)化、整合,大大提高數(shù)據(jù)管理人員的工作效率。業(yè)務(wù)分析人員通過(guò)對(duì)數(shù)據(jù)中臺(tái)的數(shù)據(jù)應(yīng)用、數(shù)據(jù)自助服務(wù)等功能可快速完成數(shù)據(jù)的聚合、分析,快速響應(yīng)用戶數(shù)據(jù)分析的需求,降低了企業(yè)成本。數(shù)據(jù)管理人員通過(guò)監(jiān)控?cái)?shù)據(jù)的使用情況可快速了解數(shù)據(jù)價(jià)值,清理無(wú)價(jià)值的數(shù)據(jù),避免出現(xiàn)“數(shù)據(jù)沼澤”。

5 結(jié)束語(yǔ)

本文設(shè)計(jì)實(shí)現(xiàn)了一種基于Lambda的運(yùn)行支持?jǐn)?shù)據(jù)湖系統(tǒng),解決了傳統(tǒng)數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)無(wú)法滿足航空數(shù)據(jù)指數(shù)級(jí)增長(zhǎng)、毫秒級(jí)攝取、多維度應(yīng)用的問(wèn)題,為主制造商開(kāi)展集中式數(shù)據(jù)管理,實(shí)現(xiàn)數(shù)字化轉(zhuǎn)型提供支撐。同時(shí),基于Lambda的運(yùn)行支持?jǐn)?shù)據(jù)湖系統(tǒng)有利于形成以單一架機(jī)視圖(SAV,single aircraft view)為核心的數(shù)據(jù)服務(wù),通過(guò)將數(shù)據(jù)科學(xué)和機(jī)器學(xué)習(xí)技術(shù),幫助業(yè)務(wù)部門高效利用數(shù)據(jù),挖掘潛在價(jià)值,幫助主制造商優(yōu)化設(shè)計(jì)制造,制定更靈活、更有針對(duì)性的經(jīng)營(yíng)策略,為航空公司運(yùn)行運(yùn)營(yíng)工作提供支持。然而,存在不同航空公司對(duì)于同一數(shù)據(jù)定義不同以及各航空公司數(shù)據(jù)質(zhì)量參差不齊的情況。隨著接入數(shù)據(jù)來(lái)源種類的增多,如何優(yōu)化運(yùn)行支持?jǐn)?shù)湖系統(tǒng)[7],建立更為完善的數(shù)據(jù)湖安全及將是未來(lái)研究需要重點(diǎn)解決的問(wèn)題。

猜你喜歡
民機(jī)數(shù)據(jù)服務(wù)原始數(shù)據(jù)
地理空間大數(shù)據(jù)服務(wù)自然資源調(diào)查監(jiān)測(cè)的方向分析
GOLDEN OPPORTUNITY FOR CHINA-INDONESIA COOPERATION
受特定變化趨勢(shì)限制的傳感器數(shù)據(jù)處理方法研究
基于Stateflow的民機(jī)液壓控制邏輯仿真與驗(yàn)證
未來(lái)民機(jī)座艙顯示控制系統(tǒng)初探
民機(jī)復(fù)合材料的適航鑒定
全新Mentor DRS360 平臺(tái)借助集中式原始數(shù)據(jù)融合及直接實(shí)時(shí)傳感技術(shù)實(shí)現(xiàn)5 級(jí)自動(dòng)駕駛
汽車零部件(2017年4期)2017-07-12 17:05:53
如何運(yùn)用稅收大數(shù)據(jù)服務(wù)供給側(cè)結(jié)構(gòu)性改革
基于頻繁子圖挖掘的數(shù)據(jù)服務(wù)Mashup推薦
民機(jī)研制風(fēng)險(xiǎn)管理淺析
肃南| 沂水县| 长武县| 元朗区| 大埔区| 隆回县| 沧源| 遂昌县| 仁布县| 吕梁市| 涪陵区| 聂拉木县| 慈溪市| 兴山县| 巴东县| 始兴县| 紫金县| 新田县| 平武县| 南宁市| 新安县| 武冈市| 茶陵县| 江西省| 盘山县| 合山市| 通河县| 祁连县| 光泽县| 图们市| 小金县| 肇州县| 东兰县| 临西县| 清新县| 运城市| 宜城市| 福泉市| 宜宾市| 罗山县| 禹城市|