葛 宇,杜春暉,李亞杰,張連連
(河北建筑工程學(xué)院 電氣工程學(xué)院,河北 張家口 075000)
隨著各種物聯(lián)網(wǎng)智能設(shè)備、各種傳感器的普及,云計(jì)算硬件性價(jià)比的提升、運(yùn)算與運(yùn)行速度的提升及存儲成本的降低,數(shù)據(jù)存儲、清洗、挖掘及分析等數(shù)據(jù)處理手段的優(yōu)化,特別是分布式系統(tǒng)基礎(chǔ)架構(gòu)Hadoop 的出現(xiàn),Hadoop分布式文件系統(tǒng)(Hadoop Distributed File System,HDFS)的誕生,MapReduce 的成熟,Spark、Storm、Impala等各種技術(shù)進(jìn)入人們視野,為海量數(shù)據(jù)存儲、海量數(shù)據(jù)并行計(jì)算提供了支撐,新技術(shù)的發(fā)展為大數(shù)據(jù)帶來了曙光[1-4]。
隨著數(shù)據(jù)采集終端設(shè)備各種傳感器的數(shù)量劇增,由多維傳感器產(chǎn)生的數(shù)據(jù)規(guī)模急劇膨脹,包括金融、交通、能源、零售、電信、餐飲等各行業(yè)累積的數(shù)據(jù)量迅速增多,數(shù)據(jù)類型也越來越豐富、復(fù)雜,傳統(tǒng)的數(shù)據(jù)管理系統(tǒng)、數(shù)據(jù)處理模式已無法滿足新業(yè)務(wù)的需求[5-7]。如:來自大量傳感器的多維數(shù)據(jù);來自智能終端拍照、拍視頻多媒體數(shù)據(jù);微博、微信數(shù)據(jù);科學(xué)研究多結(jié)構(gòu)數(shù)據(jù)等,積累了海量數(shù)據(jù)。Twitter 平均每天發(fā)布超過5 000 萬條消息,Google 平均每天需要處理將近30 PB 的數(shù)據(jù),全球網(wǎng)民一天在Facebook 上總共花費(fèi)234 億分鐘,移動互聯(lián)網(wǎng)要處理的數(shù)據(jù)高達(dá)44 PB,全球每秒平均發(fā)送近300 萬封電子郵件,平均每天上傳3 萬個(gè)小時(shí)的視頻至YouTube,互聯(lián)網(wǎng)每天產(chǎn)生的數(shù)據(jù)總量,足以刻滿6.5 億張DVD[8-9]。
以電子郵件為例,如果一分鐘讀一篇郵件,那么一天產(chǎn)生的郵件足夠一個(gè)人晝夜不停地閱覽6 年,由此可見數(shù)據(jù)量之大,前所未有。這些包羅萬象的、海量的數(shù)據(jù),不僅僅數(shù)據(jù)量大,而且種類繁多,既包括結(jié)構(gòu)化的數(shù)據(jù)庫系統(tǒng)數(shù)據(jù),更多的是非結(jié)構(gòu)化的報(bào)表、圖片、視頻、圖像及音頻數(shù)據(jù),這些海量數(shù)據(jù)可能是多余的數(shù)據(jù)、割裂的數(shù)據(jù)、片面的數(shù)據(jù),數(shù)據(jù)來源廣、維度多、類型雜。需要進(jìn)行數(shù)據(jù)融合技術(shù)如數(shù)據(jù)的組合、整合及聚合等方法更全面、客觀地反映客觀事物,以輔助人們正確決策[10-14]。
將多維傳感器產(chǎn)生的數(shù)據(jù)進(jìn)行數(shù)據(jù)融合,能夠產(chǎn)生比單一信息源更精確、更完全、更可靠的數(shù)據(jù)。數(shù)據(jù)融合分為預(yù)處理和數(shù)據(jù)融合兩步。
1)外部校正,去除外部地形、天氣、氣壓、風(fēng)速等外部噪聲引起的對結(jié)果數(shù)據(jù)的影響,外部校正的目的主要在于去除外部隨機(jī)因素對測量數(shù)據(jù)結(jié)果一致性的影響。
2)內(nèi)部校正,去除由于各個(gè)傳感器靈敏度、分辨率等自身參數(shù)差異引起的對結(jié)果數(shù)據(jù)的影響,內(nèi)部校正的目的主要在于消除由不同傳感器得到的數(shù)據(jù)差異。
根據(jù)不同的數(shù)據(jù)融合目的及數(shù)據(jù)融合所處層次,選擇恰當(dāng)?shù)臄?shù)據(jù)融合算法,將提取的特征或多維數(shù)據(jù)進(jìn)行合成,得到比單一傳感器更準(zhǔn)確的表示或估計(jì)。
數(shù)據(jù)融合一般包括以下6 個(gè)步驟:連接多源數(shù)據(jù)庫獲取數(shù)據(jù)、對所獲數(shù)據(jù)進(jìn)行研究與理解、對數(shù)據(jù)進(jìn)行清洗和梳理、數(shù)據(jù)轉(zhuǎn)換與建立結(jié)構(gòu)、多維數(shù)據(jù)組合、建立分析數(shù)據(jù)集。數(shù)據(jù)融合的一般步驟如圖1 所示。
根據(jù)數(shù)據(jù)融合前后數(shù)據(jù)的信息含量進(jìn)行分類,可將數(shù)據(jù)融合分為有損融合和無損融合。無損融合中去除冗余數(shù)據(jù),所有數(shù)據(jù)細(xì)節(jié)均被保留。有損融合則通過減少存儲數(shù)據(jù)量、降低數(shù)據(jù)分辨率等方式,壓縮數(shù)據(jù)量減少傳輸量,但前提是融合后的數(shù)據(jù)保留所需的全部信息。
根據(jù)數(shù)據(jù)融合的操作對象級別從高到低分為:決策級融合、特征級融合及數(shù)據(jù)級融合。
圖1 數(shù)據(jù)融合的一般步驟
1)數(shù)據(jù)級融合
操作對象是最前端的數(shù)據(jù),對傳感器采集到的原始數(shù)據(jù)進(jìn)行處理,是最底層的融合。在圖像目標(biāo)識別時(shí),該級別的融合是對原始圖像像素進(jìn)行融合。該融合處理的數(shù)據(jù)量特別大,數(shù)據(jù)處理代價(jià)高,處理時(shí)間長,實(shí)時(shí)性及抗干擾性差。由于處理的是傳感器的一手?jǐn)?shù)據(jù),由于傳感器采集數(shù)據(jù)的不穩(wěn)定性、不確定性,要求該數(shù)據(jù)融合具有一定的糾錯(cuò)能力。
常用的數(shù)據(jù)級數(shù)據(jù)融合方法有:小波變換法、代數(shù)法、坎斯-托馬斯變換(Kauth-Thomas Transformation,K-T)等。
2)特征級的數(shù)據(jù)融合
特征級數(shù)據(jù)融合面向監(jiān)測對象特征的融合,從傳感器采集到的原始數(shù)據(jù)中提取特征信息,用以反映事物的屬性,以便進(jìn)行綜合分析和處理,是數(shù)據(jù)融合的中間環(huán)節(jié)。
特征級數(shù)據(jù)融合一般流程為:首先對數(shù)據(jù)進(jìn)行預(yù)處理,然后對數(shù)據(jù)進(jìn)行特征提取,再對特征提取后的數(shù)據(jù)進(jìn)行特征級融合,最后對融合后的數(shù)據(jù)屬性進(jìn)行說明。特征級數(shù)據(jù)融合的一般流程如圖2 所示。
圖2 特征級數(shù)據(jù)融合的一般步驟
3)決策級數(shù)據(jù)融合
在底層兩級數(shù)據(jù)融合的基礎(chǔ)上,對數(shù)據(jù)進(jìn)行特征提取、數(shù)據(jù)分類及邏輯運(yùn)算,為管理者決策提供輔助。所需的決策是最高級的數(shù)據(jù)融合。該級別數(shù)據(jù)融合的特點(diǎn)是容錯(cuò)性、實(shí)時(shí)性好,當(dāng)一個(gè)或幾個(gè)傳感器失效時(shí),仍能做出決策。
決策級數(shù)據(jù)融合一般流程為:對數(shù)據(jù)進(jìn)行預(yù)處理,然后對數(shù)據(jù)進(jìn)行特征提取,再對特征進(jìn)行屬性說明,對屬性進(jìn)行融合,最后對融合屬性進(jìn)行說明。決策級數(shù)據(jù)融合的一般流程如圖3 所示。
圖3 決策級數(shù)據(jù)融合的一般步驟
深度置信網(wǎng)絡(luò)(Deep Belief Network,DBN)與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)類似,是在觀察數(shù)據(jù)和標(biāo)簽之間的聯(lián)合分布基礎(chǔ)之上的概率生成模型。網(wǎng)絡(luò)中存在隱含層,隱含層間的神經(jīng)元采用全連接,隱含層內(nèi)的神經(jīng)元之間沒有形成連接。最上面兩層中包括標(biāo)簽神經(jīng)元,兩層之間為無向連接,稱其為聯(lián)合記憶層。除了聯(lián)合記憶層之外,其余各層為有向連接,自上而下為生成模型,自下而上為判定模型。DBN 是機(jī)器學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò),模型通過訓(xùn)練得到各個(gè)神經(jīng)元之間的權(quán)值,從而讓整個(gè)網(wǎng)絡(luò)得到最大概率的訓(xùn)練數(shù)據(jù)。DBN 的使用范圍廣、網(wǎng)絡(luò)擴(kuò)展性強(qiáng),是常用的學(xué)習(xí)算法之一,經(jīng)常用于語言識別、圖像識別等領(lǐng)域,可用于監(jiān)督學(xué)習(xí)與非監(jiān)督學(xué)習(xí)。
DBN 結(jié)構(gòu)如圖4 所示。DBN 最上層為聯(lián)合記憶層,下面是隱含層,隱含層下是受限玻爾茲曼機(jī)(Restricted Boltzmann Machine,RBM),RBM 是1986 年由斯摩棱斯基發(fā)明的基于數(shù)據(jù)集學(xué)習(xí)概率分布的神經(jīng)網(wǎng)絡(luò)模型。訓(xùn)練DBN 是一層一層進(jìn)行訓(xùn)練的,在每一層中,采用數(shù)據(jù)向量推斷隱含層,然后再把這一隱含層作為下一層的數(shù)據(jù)向量。訓(xùn)練RBM 的過程,實(shí)際上是尋找最佳權(quán)值的過程。
圖4 DBN 結(jié)構(gòu)
DBN 算法訓(xùn)練過程如下,首先訓(xùn)練第一個(gè)RBM,固定第一個(gè)RBM 的權(quán)重、偏移量,并將其隱形神經(jīng)元的狀態(tài)作為第二個(gè)RBM 的輸入。然后訓(xùn)練第二個(gè)RBM,并將第二個(gè)RBM 與第一個(gè)RBM 堆疊。接下來,對其進(jìn)行多次循環(huán)訓(xùn)練,連同代表標(biāo)簽的神經(jīng)元一起訓(xùn)練,響應(yīng)的神經(jīng)元打開設(shè)置為1,否則設(shè)置為0。DBN 的訓(xùn)練過程如圖5 所示。
圖5 DBN 訓(xùn)練過程
實(shí)驗(yàn)中采用Matlab Deep Learn Toolbox 對收集的隨機(jī)數(shù)據(jù)進(jìn)行數(shù)據(jù)融合,實(shí)驗(yàn)初始化DBN 參數(shù),并訓(xùn)練DBN 網(wǎng)絡(luò),實(shí)驗(yàn)的主要參數(shù)如表1 所示。程序運(yùn)行結(jié)果如圖6 所示。
實(shí)驗(yàn)中,隱含層層數(shù)為100 層,節(jié)點(diǎn)數(shù)量為100 個(gè),權(quán)重矩陣為784×100 的矩陣,學(xué)習(xí)速率為2,動量為0.5,樣本數(shù)為100,迭代1 次。通過Matlab Deep Learn Toolbox 得到平均重建誤差為65.779 8。各個(gè)時(shí)段耗費(fèi)時(shí)間圖如圖7 所示,各個(gè)時(shí)段耗時(shí)參數(shù)表如表2 所示。
表1 實(shí)驗(yàn)主要參數(shù)表
圖6 程序運(yùn)行結(jié)果
圖7 各時(shí)段耗費(fèi)時(shí)間圖
表2 各個(gè)時(shí)段耗時(shí)參數(shù)表
本文在大數(shù)據(jù)背景下,論述了多維傳感器數(shù)據(jù)融合原理及基本步驟,并分析了數(shù)據(jù)融合的分類及常用數(shù)據(jù)融合方法。隨后重點(diǎn)闡述了DBN 算法的結(jié)構(gòu)及訓(xùn)練過程,并通過DBN 算法對隨機(jī)采集的多維傳感器數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),通過實(shí)驗(yàn)對算法的有效性進(jìn)行了驗(yàn)證,對算法進(jìn)行了評估。