大數(shù)據(jù)環(huán)境下多維傳感器數(shù)據(jù)融合算法研究

2021-04-08 01:55杜春暉李亞杰張連連

現(xiàn)代電子技術(shù) 2021年7期

葛宇，杜春暉，李亞杰，張連連

（河北建筑工程學(xué)院電氣工程學(xué)院，河北張家口 075000）

0 引言

隨著各種物聯(lián)網(wǎng)智能設(shè)備、各種傳感器的普及，云計(jì)算硬件性價(jià)比的提升、運(yùn)算與運(yùn)行速度的提升及存儲成本的降低，數(shù)據(jù)存儲、清洗、挖掘及分析等數(shù)據(jù)處理手段的優(yōu)化，特別是分布式系統(tǒng)基礎(chǔ)架構(gòu)Hadoop 的出現(xiàn)，Hadoop分布式文件系統(tǒng)（Hadoop Distributed File System，HDFS）的誕生，MapReduce 的成熟，Spark、Storm、Impala等各種技術(shù)進(jìn)入人們視野，為海量數(shù)據(jù)存儲、海量數(shù)據(jù)并行計(jì)算提供了支撐，新技術(shù)的發(fā)展為大數(shù)據(jù)帶來了曙光[1-4]。

隨著數(shù)據(jù)采集終端設(shè)備各種傳感器的數(shù)量劇增，由多維傳感器產(chǎn)生的數(shù)據(jù)規(guī)模急劇膨脹，包括金融、交通、能源、零售、電信、餐飲等各行業(yè)累積的數(shù)據(jù)量迅速增多，數(shù)據(jù)類型也越來越豐富、復(fù)雜，傳統(tǒng)的數(shù)據(jù)管理系統(tǒng)、數(shù)據(jù)處理模式已無法滿足新業(yè)務(wù)的需求[5-7]。如：來自大量傳感器的多維數(shù)據(jù)；來自智能終端拍照、拍視頻多媒體數(shù)據(jù)；微博、微信數(shù)據(jù)；科學(xué)研究多結(jié)構(gòu)數(shù)據(jù)等，積累了海量數(shù)據(jù)。Twitter 平均每天發(fā)布超過5 000 萬條消息，Google 平均每天需要處理將近30 PB 的數(shù)據(jù)，全球網(wǎng)民一天在Facebook 上總共花費(fèi)234 億分鐘，移動互聯(lián)網(wǎng)要處理的數(shù)據(jù)高達(dá)44 PB，全球每秒平均發(fā)送近300 萬封電子郵件，平均每天上傳3 萬個(gè)小時(shí)的視頻至YouTube，互聯(lián)網(wǎng)每天產(chǎn)生的數(shù)據(jù)總量，足以刻滿6.5 億張DVD[8-9]。

以電子郵件為例，如果一分鐘讀一篇郵件，那么一天產(chǎn)生的郵件足夠一個(gè)人晝夜不停地閱覽6 年，由此可見數(shù)據(jù)量之大，前所未有。這些包羅萬象的、海量的數(shù)據(jù)，不僅僅數(shù)據(jù)量大，而且種類繁多，既包括結(jié)構(gòu)化的數(shù)據(jù)庫系統(tǒng)數(shù)據(jù)，更多的是非結(jié)構(gòu)化的報(bào)表、圖片、視頻、圖像及音頻數(shù)據(jù)，這些海量數(shù)據(jù)可能是多余的數(shù)據(jù)、割裂的數(shù)據(jù)、片面的數(shù)據(jù)，數(shù)據(jù)來源廣、維度多、類型雜。需要進(jìn)行數(shù)據(jù)融合技術(shù)如數(shù)據(jù)的組合、整合及聚合等方法更全面、客觀地反映客觀事物，以輔助人們正確決策[10-14]。

1 數(shù)據(jù)融合原理及基本步驟

將多維傳感器產(chǎn)生的數(shù)據(jù)進(jìn)行數(shù)據(jù)融合，能夠產(chǎn)生比單一信息源更精確、更完全、更可靠的數(shù)據(jù)。數(shù)據(jù)融合分為預(yù)處理和數(shù)據(jù)融合兩步。

1.1 預(yù)處理

1）外部校正，去除外部地形、天氣、氣壓、風(fēng)速等外部噪聲引起的對結(jié)果數(shù)據(jù)的影響，外部校正的目的主要在于去除外部隨機(jī)因素對測量數(shù)據(jù)結(jié)果一致性的影響。

2）內(nèi)部校正，去除由于各個(gè)傳感器靈敏度、分辨率等自身參數(shù)差異引起的對結(jié)果數(shù)據(jù)的影響，內(nèi)部校正的目的主要在于消除由不同傳感器得到的數(shù)據(jù)差異。

1.2 數(shù)據(jù)融合

根據(jù)不同的數(shù)據(jù)融合目的及數(shù)據(jù)融合所處層次，選擇恰當(dāng)?shù)臄?shù)據(jù)融合算法，將提取的特征或多維數(shù)據(jù)進(jìn)行合成，得到比單一傳感器更準(zhǔn)確的表示或估計(jì)。

1.3 數(shù)據(jù)融合的一般步驟

數(shù)據(jù)融合一般包括以下6 個(gè)步驟：連接多源數(shù)據(jù)庫獲取數(shù)據(jù)、對所獲數(shù)據(jù)進(jìn)行研究與理解、對數(shù)據(jù)進(jìn)行清洗和梳理、數(shù)據(jù)轉(zhuǎn)換與建立結(jié)構(gòu)、多維數(shù)據(jù)組合、建立分析數(shù)據(jù)集。數(shù)據(jù)融合的一般步驟如圖1 所示。

2 數(shù)據(jù)融合分類

根據(jù)數(shù)據(jù)融合前后數(shù)據(jù)的信息含量進(jìn)行分類，可將數(shù)據(jù)融合分為有損融合和無損融合。無損融合中去除冗余數(shù)據(jù)，所有數(shù)據(jù)細(xì)節(jié)均被保留。有損融合則通過減少存儲數(shù)據(jù)量、降低數(shù)據(jù)分辨率等方式，壓縮數(shù)據(jù)量減少傳輸量，但前提是融合后的數(shù)據(jù)保留所需的全部信息。

根據(jù)數(shù)據(jù)融合的操作對象級別從高到低分為：決策級融合、特征級融合及數(shù)據(jù)級融合。

圖1 數(shù)據(jù)融合的一般步驟

1）數(shù)據(jù)級融合

操作對象是最前端的數(shù)據(jù)，對傳感器采集到的原始數(shù)據(jù)進(jìn)行處理，是最底層的融合。在圖像目標(biāo)識別時(shí)，該級別的融合是對原始圖像像素進(jìn)行融合。該融合處理的數(shù)據(jù)量特別大，數(shù)據(jù)處理代價(jià)高，處理時(shí)間長，實(shí)時(shí)性及抗干擾性差。由于處理的是傳感器的一手?jǐn)?shù)據(jù)，由于傳感器采集數(shù)據(jù)的不穩(wěn)定性、不確定性，要求該數(shù)據(jù)融合具有一定的糾錯(cuò)能力。

常用的數(shù)據(jù)級數(shù)據(jù)融合方法有：小波變換法、代數(shù)法、坎斯-托馬斯變換（Kauth-Thomas Transformation，K-T）等。

2）特征級的數(shù)據(jù)融合

特征級數(shù)據(jù)融合面向監(jiān)測對象特征的融合，從傳感器采集到的原始數(shù)據(jù)中提取特征信息，用以反映事物的屬性，以便進(jìn)行綜合分析和處理，是數(shù)據(jù)融合的中間環(huán)節(jié)。

特征級數(shù)據(jù)融合一般流程為：首先對數(shù)據(jù)進(jìn)行預(yù)處理，然后對數(shù)據(jù)進(jìn)行特征提取，再對特征提取后的數(shù)據(jù)進(jìn)行特征級融合，最后對融合后的數(shù)據(jù)屬性進(jìn)行說明。特征級數(shù)據(jù)融合的一般流程如圖2 所示。

圖2 特征級數(shù)據(jù)融合的一般步驟

3）決策級數(shù)據(jù)融合

在底層兩級數(shù)據(jù)融合的基礎(chǔ)上，對數(shù)據(jù)進(jìn)行特征提取、數(shù)據(jù)分類及邏輯運(yùn)算，為管理者決策提供輔助。所需的決策是最高級的數(shù)據(jù)融合。該級別數(shù)據(jù)融合的特點(diǎn)是容錯(cuò)性、實(shí)時(shí)性好，當(dāng)一個(gè)或幾個(gè)傳感器失效時(shí)，仍能做出決策。

決策級數(shù)據(jù)融合一般流程為：對數(shù)據(jù)進(jìn)行預(yù)處理，然后對數(shù)據(jù)進(jìn)行特征提取，再對特征進(jìn)行屬性說明，對屬性進(jìn)行融合，最后對融合屬性進(jìn)行說明。決策級數(shù)據(jù)融合的一般流程如圖3 所示。

圖3 決策級數(shù)據(jù)融合的一般步驟

3 基于深度置信網(wǎng)絡(luò)的數(shù)據(jù)融合算法

深度置信網(wǎng)絡(luò)（Deep Belief Network，DBN）與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)類似，是在觀察數(shù)據(jù)和標(biāo)簽之間的聯(lián)合分布基礎(chǔ)之上的概率生成模型。網(wǎng)絡(luò)中存在隱含層，隱含層間的神經(jīng)元采用全連接，隱含層內(nèi)的神經(jīng)元之間沒有形成連接。最上面兩層中包括標(biāo)簽神經(jīng)元，兩層之間為無向連接，稱其為聯(lián)合記憶層。除了聯(lián)合記憶層之外，其余各層為有向連接，自上而下為生成模型，自下而上為判定模型。DBN 是機(jī)器學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)，模型通過訓(xùn)練得到各個(gè)神經(jīng)元之間的權(quán)值，從而讓整個(gè)網(wǎng)絡(luò)得到最大概率的訓(xùn)練數(shù)據(jù)。DBN 的使用范圍廣、網(wǎng)絡(luò)擴(kuò)展性強(qiáng)，是常用的學(xué)習(xí)算法之一，經(jīng)常用于語言識別、圖像識別等領(lǐng)域，可用于監(jiān)督學(xué)習(xí)與非監(jiān)督學(xué)習(xí)。

3.1 DBN 結(jié)構(gòu)

DBN 結(jié)構(gòu)如圖4 所示。DBN 最上層為聯(lián)合記憶層，下面是隱含層，隱含層下是受限玻爾茲曼機(jī)（Restricted Boltzmann Machine，RBM），RBM 是1986 年由斯摩棱斯基發(fā)明的基于數(shù)據(jù)集學(xué)習(xí)概率分布的神經(jīng)網(wǎng)絡(luò)模型。訓(xùn)練DBN 是一層一層進(jìn)行訓(xùn)練的，在每一層中，采用數(shù)據(jù)向量推斷隱含層，然后再把這一隱含層作為下一層的數(shù)據(jù)向量。訓(xùn)練RBM 的過程，實(shí)際上是尋找最佳權(quán)值的過程。

圖4 DBN 結(jié)構(gòu)

3.2 DBN 訓(xùn)練過程

DBN 算法訓(xùn)練過程如下，首先訓(xùn)練第一個(gè)RBM，固定第一個(gè)RBM 的權(quán)重、偏移量，并將其隱形神經(jīng)元的狀態(tài)作為第二個(gè)RBM 的輸入。然后訓(xùn)練第二個(gè)RBM，并將第二個(gè)RBM 與第一個(gè)RBM 堆疊。接下來，對其進(jìn)行多次循環(huán)訓(xùn)練，連同代表標(biāo)簽的神經(jīng)元一起訓(xùn)練，響應(yīng)的神經(jīng)元打開設(shè)置為1，否則設(shè)置為0。DBN 的訓(xùn)練過程如圖5 所示。

圖5 DBN 訓(xùn)練過程

3.3 實(shí)驗(yàn)數(shù)據(jù)

實(shí)驗(yàn)中采用Matlab Deep Learn Toolbox 對收集的隨機(jī)數(shù)據(jù)進(jìn)行數(shù)據(jù)融合，實(shí)驗(yàn)初始化DBN 參數(shù)，并訓(xùn)練DBN 網(wǎng)絡(luò)，實(shí)驗(yàn)的主要參數(shù)如表1 所示。程序運(yùn)行結(jié)果如圖6 所示。

實(shí)驗(yàn)中，隱含層層數(shù)為100 層，節(jié)點(diǎn)數(shù)量為100 個(gè)，權(quán)重矩陣為784×100 的矩陣，學(xué)習(xí)速率為2，動量為0.5，樣本數(shù)為100，迭代1 次。通過Matlab Deep Learn Toolbox 得到平均重建誤差為65.779 8。各個(gè)時(shí)段耗費(fèi)時(shí)間圖如圖7 所示，各個(gè)時(shí)段耗時(shí)參數(shù)表如表2 所示。

表1 實(shí)驗(yàn)主要參數(shù)表

圖6 程序運(yùn)行結(jié)果

圖7 各時(shí)段耗費(fèi)時(shí)間圖

表2 各個(gè)時(shí)段耗時(shí)參數(shù)表

4 結(jié) 語

本文在大數(shù)據(jù)背景下，論述了多維傳感器數(shù)據(jù)融合原理及基本步驟，并分析了數(shù)據(jù)融合的分類及常用數(shù)據(jù)融合方法。隨后重點(diǎn)闡述了DBN 算法的結(jié)構(gòu)及訓(xùn)練過程，并通過DBN 算法對隨機(jī)采集的多維傳感器數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)，通過實(shí)驗(yàn)對算法的有效性進(jìn)行了驗(yàn)證，對算法進(jìn)行了評估。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡