国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

車聯(lián)網(wǎng)數(shù)據(jù)倉庫技術(shù)研究

2022-05-30 22:53:12朱梅清梁國豪蔣祥斌張亮韋通明
關(guān)鍵詞:車聯(lián)網(wǎng)數(shù)據(jù)倉庫研究

朱梅清 梁國豪 蔣祥斌 張亮 韋通明

摘要:車聯(lián)網(wǎng)數(shù)據(jù)是分析智能網(wǎng)聯(lián)汽車用戶行為的基礎(chǔ),針對現(xiàn)有車聯(lián)網(wǎng)數(shù)據(jù)在海量數(shù)據(jù)存儲(chǔ)查詢慢及分析方面的不足,為提高車聯(lián)網(wǎng)數(shù)據(jù)的可保存性、易用性,文章提出車聯(lián)網(wǎng)數(shù)據(jù)倉庫架構(gòu)體系。通過車聯(lián)網(wǎng)數(shù)據(jù)倉庫,需求部門可以直接獲取大量分析型數(shù)據(jù)標(biāo)簽,為用戶行為分析快速提供數(shù)據(jù)支撐,不斷精準(zhǔn)創(chuàng)新智能化用戶場景。

關(guān)鍵詞:車聯(lián)網(wǎng);數(shù)據(jù)倉庫;研究

中圖法分類號:TP311文獻(xiàn)標(biāo)識(shí)碼:A

Research on Internet of vehicles data warehouse technology

ZHU Meiqing,LIANGGuohao,JIANGXiangbin,ZHANGLiang,WEITongming

(SAIC GM WulingAutomoblieCo.,Ltd.,Guangxi Laboratory of New Energy Automobile,Guangxi Key Laboratory of Automobile Four New Features,Liuzhou,Guangxi 545007,China)

Abstract:Internet of vehicles data is the basis for analyzing the behavior of intelligent Internet connected vehicle users. In view of the shortcomings of existing Internet of vehicles data in massive data storage, query and analysis, in order to improve the preservation and ease of use of Internet of vehicles data, this paper puts forward the architecture system of Internet of vehicles data warehouse. Through the Internet of vehicles data warehouse,the demand department can directly obtain a large number of analytical data labels, quickly provide data support for user behavior analysis,and constantly accurately innovate intelligent user scenarios.

Key words: Internet of vehicles,datawarehouse,research

1研究背景

隨著汽車網(wǎng)聯(lián)化及智能程度的提升,車聯(lián)網(wǎng)技術(shù)提升了車輛的智能駕駛水平,為用戶提供智能、高效、安全的駕駛體驗(yàn)及交通服務(wù),同時(shí)可以提高交通運(yùn)行效率。車聯(lián)網(wǎng)數(shù)據(jù)包含用戶信息、應(yīng)用數(shù)據(jù)、操控?cái)?shù)據(jù)、工況數(shù)據(jù)等,這些數(shù)據(jù)蘊(yùn)含巨大的商業(yè)價(jià)值,是挖掘用戶畫像、智能推薦、智能出行服務(wù)等功能的數(shù)據(jù)基礎(chǔ)。車聯(lián)網(wǎng)數(shù)據(jù)由車機(jī)或 APP 采集上傳,直接存儲(chǔ)在數(shù)據(jù)庫(如 MySQL 和 Oracle 等)中,面對快速增長的數(shù)據(jù),相關(guān)人員在對海量車聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行大量查詢和統(tǒng)計(jì)分析時(shí)顯得力不從心。

數(shù)據(jù)倉庫是一個(gè)面向主題的、集成的、相對穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合,用于支持管理決策[1]。借助數(shù)據(jù)倉庫技術(shù),將不同來源的車聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行抽取、整合、指標(biāo)加工,提供分析型數(shù)據(jù)標(biāo)簽,減少重復(fù)計(jì)算,為用戶行為統(tǒng)計(jì)及車聯(lián)網(wǎng)功能優(yōu)化提供數(shù)據(jù)支撐。

2相關(guān)技術(shù)

2.1 DataX

常用的大數(shù)據(jù)離線同步工具有 Sqoop 和DataX等,由于 Sqoop 將停止更新、維護(hù),車聯(lián)網(wǎng)數(shù)據(jù)倉庫采用阿里開源的離線同步工具DataX作為同步工具。DataX(圖1)是一個(gè)異構(gòu)數(shù)據(jù)源離線同步工具,采用插件式框架設(shè)計(jì),將數(shù)據(jù)源讀取和寫入抽象為 Reader/Writer 插件,其星型數(shù)據(jù)鏈路,使得DataX作為數(shù)據(jù)源之間的中間傳輸載體,當(dāng)需要接入新的數(shù)據(jù)源時(shí),定義好該數(shù)據(jù)源的 Reader/Writer 插件即可做到跟已有的數(shù)據(jù)源進(jìn)行數(shù)據(jù)同步。目前,DataX支持 MySQL,Oracle,Hive,HDFS 等常見數(shù)據(jù)庫之間的數(shù)據(jù)同步,插件體系比較全面,使用廣泛。

2.2 Hive

Hive 是基于 Hadoop 構(gòu)建的數(shù)據(jù)倉庫工具,提供抽取、轉(zhuǎn)換、加載、數(shù)據(jù)集查詢和分析等功能。Hive 可以將存儲(chǔ)在 Hadoop 中的結(jié)構(gòu)化的數(shù)據(jù)文件映射為一張數(shù)據(jù)庫表,并提供類似 SQL 的 HiveQL 語言來實(shí)現(xiàn)查詢功能,其通過 HiveQL 語句實(shí)現(xiàn)快速 MapReduce 統(tǒng)計(jì),而不必開發(fā)專門的 MapReduce 程序,具有靈活性高、低數(shù)據(jù)約束格式、良好的容錯(cuò)性和可拓展性、學(xué)習(xí)成本低等優(yōu)點(diǎn),非常適合對數(shù)據(jù)倉庫進(jìn)行統(tǒng)計(jì)分析[2]。

2.3海豚調(diào)度

海豚調(diào)度是一款分布式易擴(kuò)展的、支持可視化 DAG 界面的新一代工作流任務(wù)調(diào)度系統(tǒng),致力于解決大數(shù)據(jù)任務(wù)之間錯(cuò)綜復(fù)雜的依賴關(guān)系,并監(jiān)控整個(gè)數(shù)據(jù)處理過程,使調(diào)度系統(tǒng)在數(shù)據(jù)處理流程中開箱即用。海豚調(diào)度能夠?qū)崟r(shí)監(jiān)控任務(wù)的運(yùn)行狀態(tài),同時(shí)支持重試、從指定節(jié)點(diǎn)恢復(fù)失敗、暫停及 Kill 任務(wù)等操作。海豚調(diào)度簡單易用,使用場景豐富及高可靠性、高拓展性的特性使其十分流行。

3架構(gòu)體系

車聯(lián)網(wǎng)數(shù)據(jù)倉庫采用維度建模技術(shù),由原始數(shù)據(jù)層、數(shù)據(jù)明細(xì)層、維度層、數(shù)據(jù)匯總層、數(shù)據(jù)應(yīng)用層組成,如圖2所示。

3.1原始數(shù)據(jù)層

原始數(shù)據(jù)層存放原始數(shù)據(jù),是最接近數(shù)據(jù)源的一層,除了將非結(jié)構(gòu)化數(shù)據(jù)解析成結(jié)構(gòu)化數(shù)據(jù),并不對業(yè)務(wù)數(shù)據(jù)進(jìn)行過多的處理,盡可能保持?jǐn)?shù)據(jù)處于原始狀態(tài)。車聯(lián)網(wǎng)數(shù)據(jù)來源于不同的車機(jī)、APP,有結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù),存儲(chǔ)在數(shù)據(jù)庫 MySQL,HDFS等,需要使用同步工具將存儲(chǔ)在不同數(shù)據(jù)庫中的數(shù)據(jù)同步到原始數(shù)據(jù)層。通過DataX將數(shù)據(jù)源中的結(jié)構(gòu)化數(shù)據(jù)同步到原始數(shù)據(jù)層;對于非結(jié)構(gòu)化數(shù)據(jù),通過 HiveQL 語句將json格式的半結(jié)構(gòu)數(shù)據(jù)解析成結(jié)構(gòu)化數(shù)據(jù),并插入到原始數(shù)據(jù)層。

3.2原始明細(xì)層

數(shù)據(jù)明細(xì)層以業(yè)務(wù)過程作為建模驅(qū)動(dòng),構(gòu)建最細(xì)粒度的事實(shí)表,對來自原始數(shù)據(jù)層的所需數(shù)據(jù)進(jìn)行抽取、清洗、轉(zhuǎn)換、整合,并通過 join 方式與維度表關(guān)聯(lián)。不同數(shù)據(jù)源的車聯(lián)網(wǎng)數(shù)據(jù)上傳標(biāo)準(zhǔn)不一致,存在同意不同名的情況,需要保持統(tǒng)一數(shù)據(jù)標(biāo)準(zhǔn),將不同數(shù)據(jù)源的數(shù)據(jù)整合到同一數(shù)據(jù)表中,保持?jǐn)?shù)據(jù)的一致性,即同名同意、同意同名,避免因數(shù)據(jù)口徑不一致造成不同業(yè)務(wù)對數(shù)據(jù)理解不一致的情況。

3.3維度層

維度層保存維度信息,主要針對業(yè)務(wù)事實(shí)的描述信息,維度屬性是查詢的約束條件及報(bào)表標(biāo)簽的基本來源。車聯(lián)網(wǎng)數(shù)據(jù)倉庫中的維度信息包括手機(jī)品牌、地區(qū)、日期、埋點(diǎn)等。

3.4數(shù)據(jù)匯總層

數(shù)據(jù)匯總層以數(shù)據(jù)明細(xì)層為基礎(chǔ),按照各個(gè)業(yè)務(wù)過程進(jìn)行輕度匯總,成為用于分析的服務(wù)數(shù)據(jù),用來進(jìn)行快速、方便地查詢,一般是寬表。車聯(lián)網(wǎng)原始數(shù)據(jù)最細(xì)粒度為一次功能觸發(fā),而業(yè)務(wù)方經(jīng)常使用場景為各車輛每小時(shí)使用車輛網(wǎng)功能次數(shù)、每天使用車輛網(wǎng)次數(shù)等形式的數(shù)據(jù),因此每使用一次,就須計(jì)算一次。為了減少重復(fù)計(jì)算,增加一次計(jì)算結(jié)果的復(fù)用性,根據(jù)常用業(yè)務(wù)場景,將數(shù)據(jù)明細(xì)層的數(shù)據(jù)進(jìn)行匯總,寫入輕度匯總層。

3.5數(shù)據(jù)應(yīng)用層

數(shù)據(jù)應(yīng)用層面向業(yè)務(wù)需求定制開發(fā),為各種統(tǒng)計(jì)報(bào)表提供數(shù)據(jù)。統(tǒng)計(jì)車聯(lián)網(wǎng)功能標(biāo)簽、不同標(biāo)簽的使用次數(shù)、使用車輛數(shù)等常用標(biāo)簽數(shù)據(jù)。

4車聯(lián)網(wǎng)數(shù)據(jù)倉庫 ELT

數(shù)據(jù)抽取、轉(zhuǎn)換、加載是構(gòu)建數(shù)據(jù)倉庫的重要一環(huán),傳統(tǒng)的 ETL 工具是在數(shù)據(jù)抽取和加載過程中進(jìn)行清洗轉(zhuǎn)換,加載到數(shù)倉中的數(shù)據(jù)是清洗轉(zhuǎn)換后的數(shù)據(jù),當(dāng)清洗轉(zhuǎn)換的過程中出現(xiàn)問題時(shí),將難以溯源。隨著 Hadoop 技術(shù)的引入,及存儲(chǔ)成本的降低,ELT 日漸普及,車聯(lián)網(wǎng)數(shù)據(jù)倉庫采用 ELT 方式,將所有原始數(shù)據(jù)都抽取到數(shù)據(jù)倉庫的原始數(shù)據(jù)層,僅做多源數(shù)據(jù)的整合、匯聚,而不做清洗轉(zhuǎn)換,保留原始數(shù)據(jù)。對 ELT 而言,Hive 是一個(gè)功能強(qiáng)大的工具,使用 Hive 作為傳統(tǒng) ELT 工具的替代,充分利用大數(shù)據(jù)的計(jì)算能力,將原始數(shù)據(jù)層的數(shù)據(jù)清洗轉(zhuǎn)換后,加載到數(shù)據(jù)明細(xì)層,ELT 流程如圖3所示。

4.1數(shù)據(jù)抽取

對于結(jié)構(gòu)化數(shù)據(jù),通過離線同步工具DataX將數(shù)據(jù)同步到原始數(shù)據(jù)層;對于存在 HDFS 中的非結(jié)構(gòu)化數(shù)據(jù),通過 HiveQL 語句將json格式的半結(jié)構(gòu)數(shù)據(jù)解析成結(jié)構(gòu)化數(shù)據(jù),并插入到原始數(shù)據(jù)層。數(shù)據(jù)抽取一般有全量抽取和增量抽取兩種方式;對于歷史數(shù)據(jù),使用全量抽取的方式;對于每日新增的數(shù)據(jù),采取每日定時(shí)增量抽取的方式。

4.2數(shù)據(jù)清洗

數(shù)據(jù)清洗主要是對原始數(shù)據(jù)層的數(shù)據(jù)清洗轉(zhuǎn)換,將空值、臟數(shù)據(jù)、超過極限范圍的數(shù)據(jù)進(jìn)行過濾、轉(zhuǎn)換。例如,將字符串類型字段的空值,轉(zhuǎn)換為unknown;超過合理范圍的經(jīng)緯度過濾等。

4.3數(shù)據(jù)加載

數(shù)據(jù)加載是將清洗轉(zhuǎn)換后的數(shù)據(jù)加載到數(shù)據(jù)倉庫的數(shù)據(jù)明細(xì)層。車聯(lián)網(wǎng)數(shù)據(jù)倉庫通過 Insert 的方式,將清洗轉(zhuǎn)換后的數(shù)據(jù)加載到數(shù)據(jù)明細(xì)數(shù)據(jù)層。

5結(jié)論

通過構(gòu)建車聯(lián)網(wǎng)數(shù)據(jù)倉庫,可彌補(bǔ)現(xiàn)有車聯(lián)網(wǎng)數(shù)據(jù)在海量數(shù)據(jù)存儲(chǔ)分散、查詢慢及分析方面的不足,同時(shí)提供分析型數(shù)據(jù)標(biāo)簽,需求部門可直接、快速地獲取數(shù)據(jù),減少重復(fù)計(jì)算,為用戶行為統(tǒng)計(jì)及車聯(lián)網(wǎng)功能優(yōu)化提供數(shù)據(jù)支撐。

參考文獻(xiàn):

[1]彭先清.數(shù)據(jù)倉庫中聯(lián)機(jī)分析系統(tǒng)的研究與實(shí)現(xiàn)[ D].成都:電子科技大學(xué),2019.

[2] Thusoo A,Sarma J S,Jain N,et al.Hive?A petabyte scale data warehouse using Hadoop[ C]∥ IEEE 26th International Conference on Data Engineering,2010:996?1005.

作者簡介:

朱梅清(1996—),本科,助理工程師,研究方向:數(shù)據(jù)開發(fā)。

猜你喜歡
車聯(lián)網(wǎng)數(shù)據(jù)倉庫研究
FMS與YBT相關(guān)性的實(shí)證研究
遼代千人邑研究述論
視錯(cuò)覺在平面設(shè)計(jì)中的應(yīng)用與研究
科技傳播(2019年22期)2020-01-14 03:06:54
EMA伺服控制系統(tǒng)研究
基于數(shù)據(jù)倉庫的住房城鄉(xiāng)建設(shè)信息系統(tǒng)整合研究
分布式存儲(chǔ)系統(tǒng)在液晶面板制造數(shù)據(jù)倉庫中的設(shè)計(jì)
電子制作(2016年15期)2017-01-15 13:39:15
整合廣播資源,凝聚聲音優(yōu)勢
中國廣播(2016年11期)2016-12-26 10:01:28
探析電力系統(tǒng)調(diào)度中數(shù)據(jù)倉庫技術(shù)的應(yīng)用
汽車生產(chǎn)企業(yè)發(fā)展車聯(lián)網(wǎng)的優(yōu)勢與劣勢
淺析車聯(lián)網(wǎng)中的無線通信技術(shù)應(yīng)用
土默特右旗| 恩施市| 博兴县| 宁蒗| 武功县| 平塘县| 吉林市| 呼图壁县| 巴中市| 梅河口市| 武功县| 闻喜县| 云浮市| 彝良县| 东城区| 利津县| 京山县| 武冈市| 湖南省| 聊城市| 杂多县| 麻江县| 沙坪坝区| 遂宁市| 登封市| 庆城县| 美姑县| 富锦市| 甘孜| 达孜县| 临武县| 阿瓦提县| 牟定县| 泰顺县| 宜宾市| 兴安盟| 吉首市| 改则县| 肇庆市| 濮阳市| 大丰市|