基于優(yōu)化深度置信網(wǎng)絡(luò)的多源異構(gòu)數(shù)據(jù)清洗算法研究

2022-01-18 12:35程大勇

重慶科技學(xué)院學(xué)報（自然科學(xué)版） 2021年6期

程大勇

(安徽工業(yè)職業(yè)技術(shù)學(xué)院，安徽銅陵 244000)

0 前言

隨著工業(yè)產(chǎn)業(yè)信息化的發(fā)展以及工業(yè)4.0時代的到來，面對海量的工業(yè)大數(shù)據(jù)，系統(tǒng)分析技術(shù)的重要性日漸凸顯。工業(yè)設(shè)備的數(shù)量及復(fù)雜程度倍增，使得工業(yè)設(shè)備監(jiān)控大數(shù)據(jù)出現(xiàn)了PB級的增量趨勢[1-2]，數(shù)據(jù)結(jié)構(gòu)也表現(xiàn)出多源異構(gòu)性、冗余性、不完整等復(fù)雜性[3-4]。由于傳感器采集到的工業(yè)機(jī)械設(shè)備大數(shù)據(jù)來源、結(jié)構(gòu)、形式均不同，其中包含大量的高維序列數(shù)據(jù)[5]，而且受到系統(tǒng)噪聲與環(huán)境噪聲的干擾，因此從海量多源異構(gòu)工業(yè)大數(shù)據(jù)中提取到有用信息的難度較大。

為了提高工業(yè)大數(shù)據(jù)的采集質(zhì)量，需要采用數(shù)據(jù)清洗的方法對原始數(shù)據(jù)進(jìn)行預(yù)處理。目前常用的工業(yè)大數(shù)據(jù)清洗方法主要分為數(shù)據(jù)統(tǒng)計清洗和平滑降噪清洗。數(shù)據(jù)統(tǒng)計清洗方法，是指基于數(shù)據(jù)時間序列模型建立自回歸方程，剔除干擾數(shù)據(jù)和錯誤數(shù)據(jù)，從而識別出有價值的故障數(shù)據(jù)[6]。平滑降噪清洗方法，是指通過調(diào)整滑動窗口對原始數(shù)據(jù)的序列值進(jìn)行加權(quán)運算[7]，剔除冗余數(shù)據(jù)和錯誤數(shù)據(jù)以避免干擾，最后保留核心數(shù)據(jù)的原始特征。但面對工業(yè)故障大數(shù)據(jù)集規(guī)模急劇擴(kuò)張、數(shù)據(jù)維度呈線性迅速增長的趨勢[8-9]，這兩類數(shù)據(jù)清洗方法的效率有所下降，需要進(jìn)一步優(yōu)化。

針對海量工業(yè)大數(shù)據(jù)的多源異構(gòu)性特征，在此提出一種基于優(yōu)化深度置信網(wǎng)絡(luò)的大數(shù)據(jù)清洗算法。在Hadoop框架下，基于曼哈頓距離(Manhattan Oistance)法計算多元異構(gòu)數(shù)據(jù)的相似度，同時利用經(jīng)過優(yōu)化的深度信念網(wǎng)絡(luò)模式對數(shù)據(jù)集進(jìn)行約簡，剔除干擾并提取核心數(shù)據(jù)特征，從而實現(xiàn)對海量多源異構(gòu)工業(yè)大數(shù)據(jù)的清洗。

1 Hadoop框架下的數(shù)據(jù)相似度計算

Hadoop是面向海量大數(shù)據(jù)開發(fā)的一種分布式基礎(chǔ)架構(gòu)，更適用于多源異構(gòu)工業(yè)大數(shù)據(jù)的預(yù)處理。Hadoop架構(gòu)的核心是分布式系統(tǒng)(hadoop distributed file system，HDFS)和MapReduce模型，HDFS可滿足海量數(shù)據(jù)的存儲要求，MapReduce可滿足海量大數(shù)據(jù)的并行計算要求。Hadoop框架的文件系統(tǒng)采用仿磁盤設(shè)計，可減少節(jié)點開銷，有助于提升工業(yè)大數(shù)據(jù)的存儲效率。HDFS主要負(fù)責(zé)管理Hadoop框架中各數(shù)據(jù)節(jié)點的存儲和調(diào)用，數(shù)據(jù)庫的存儲方式滿足對大文件存儲的需要，存儲與使用空間也得到了優(yōu)化。作為Hadoop框架中系統(tǒng)文件的管理者，HDFS還負(fù)責(zé)向全部數(shù)據(jù)節(jié)點發(fā)送信息，以保證框架范圍內(nèi)數(shù)據(jù)處理信息的共享。

MapReduce并行計算架構(gòu)的主要組成部分包括負(fù)責(zé)業(yè)務(wù)接收的客戶端、負(fù)責(zé)數(shù)據(jù)匹配的作業(yè)服務(wù)企業(yè)和負(fù)責(zé)分配的任務(wù)服務(wù)器，其具體工作流程如圖1所示。

圖1 MapReduce模塊工作流程

MapReduce模塊采用并行計算的方式，每個節(jié)點都能夠獨立地進(jìn)行數(shù)據(jù)清洗等數(shù)據(jù)預(yù)處理活動，采用多跳通信的方式共享信息，并匯報當(dāng)前節(jié)點的任務(wù)完成情況。面對海量的多源異構(gòu)工業(yè)大數(shù)據(jù)，Hadoop框架中的Sqoop模塊能夠協(xié)助MapReduce模塊實現(xiàn)大數(shù)據(jù)的臨時存儲，避免核心數(shù)據(jù)丟失。

Hadoop框架的分布式結(jié)構(gòu)和并行計算方式，使海量的多源異構(gòu)工業(yè)大數(shù)據(jù)的清洗工作具備了軟硬件基礎(chǔ)。大數(shù)據(jù)清洗的內(nèi)容通常包括數(shù)據(jù)預(yù)處理，距離計算與特征選擇，數(shù)據(jù)清洗與分類，以及清洗結(jié)果檢驗。將傳感器采集到的原始數(shù)據(jù)以數(shù)據(jù)表、圖形、視頻和文字等不同形式存儲于數(shù)據(jù)庫中，進(jìn)一步按照數(shù)據(jù)的基礎(chǔ)格式和特征聚類，并基于曼哈頓距離法判斷原始數(shù)據(jù)與中心點之間的距離。在信號采集和機(jī)械故障數(shù)據(jù)提取的過程中，采用曼哈頓距離來描述高維空間內(nèi)數(shù)據(jù)之間的相似程度。假定工業(yè)大數(shù)據(jù)的空間維度為D，xmk為m條工業(yè)大數(shù)據(jù)樣本中的第k個特征值，xnk為n條工業(yè)大數(shù)據(jù)樣本中的第k個特征值，兩者之間的相似度用曼哈頓距離dxmk，xnk來表示：

(1)

計算原始工業(yè)大數(shù)據(jù)的相似度，有助于識別多源異構(gòu)數(shù)據(jù)之間較為明顯的差異，進(jìn)而準(zhǔn)確地定義數(shù)據(jù)清洗規(guī)則及特征選擇方式。利用Hadoop大數(shù)據(jù)框架和曼哈頓距離計算法，可初步去除原始工業(yè)大數(shù)據(jù)的冗余特征，提升后續(xù)數(shù)據(jù)約簡、清洗的效果。

2 基于機(jī)器學(xué)習(xí)的多源異構(gòu)大數(shù)據(jù)清洗

將機(jī)器學(xué)習(xí)算法引入工業(yè)大數(shù)據(jù)清洗中，利用深度信念網(wǎng)絡(luò)模型剔除冗余干擾數(shù)據(jù)，并提取數(shù)據(jù)的混合特征，提升故障信號識別的準(zhǔn)確率。

2.1 深度信念網(wǎng)絡(luò)模型的構(gòu)建與優(yōu)化

深度學(xué)習(xí)源于人工神經(jīng)網(wǎng)絡(luò)，是機(jī)器學(xué)習(xí)的一種高級形態(tài)。以深度學(xué)習(xí)為基礎(chǔ)而構(gòu)建的深度信念網(wǎng)絡(luò)模型，擺脫了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)模型中間隱含層數(shù)量的限制，可根據(jù)數(shù)據(jù)集的規(guī)模自適應(yīng)性調(diào)整模型的數(shù)據(jù)分類與處理能力。設(shè)深度信念網(wǎng)絡(luò)模型M包含P層節(jié)點(M1，M2，…，MP)，輸入信息I經(jīng)過中間層處理后使輸出值集合O與理論值的偏差最低。深度信念網(wǎng)絡(luò)模型在結(jié)構(gòu)上結(jié)合了無監(jiān)督訓(xùn)練與有監(jiān)督學(xué)習(xí)的雙重優(yōu)點，它由一層具有監(jiān)督功能的反向傳播網(wǎng)絡(luò)及若干層無監(jiān)督的RBM(玻爾茲曼機(jī))構(gòu)成(見圖2)。

圖2 深度信念網(wǎng)絡(luò)模型結(jié)構(gòu)

RBM作為深度置信網(wǎng)絡(luò)中的核心組件，能夠解決多源異構(gòu)工業(yè)大數(shù)據(jù)的冗余數(shù)據(jù)去除和特征提取問題。每一層RBM結(jié)構(gòu)中又包含可視層和隱含層數(shù)據(jù)，其中預(yù)處理大數(shù)據(jù)經(jīng)訓(xùn)練后的輸入取值具有多樣性特征。如果可視層包含了a個節(jié)點數(shù)據(jù)(v1，v2，…，va)，隱含層包含了b個節(jié)點數(shù)據(jù)(h1，h2，…，hb)，則這兩個層級之間的節(jié)點權(quán)重矩陣W表示如下：

(2)

由于訓(xùn)練多源異構(gòu)大數(shù)據(jù)的難度很大，且待處理數(shù)據(jù)的概率分布位置不一致，因此只能通過實際輸出結(jié)果與理論輸出結(jié)果之間的差異來分析輸入數(shù)據(jù)與訓(xùn)練數(shù)據(jù)的變化趨勢。與曼哈頓距離評價相似度的方法相類似，利用RBM的能量函數(shù)能夠進(jìn)一步描述出不同來源、不同結(jié)構(gòu)數(shù)據(jù)之間的差異。對能量函數(shù)E(vi，hj)的描述如下：

(3)

其中，ηi、ζj是分別與節(jié)點數(shù)據(jù)vi、hj對應(yīng)的初始偏置值?；谀芰亢瘮?shù)計算可視層節(jié)點和隱含層節(jié)點的聯(lián)合分布概率P(vi，hj)：

(4)

其中，分母項是能量函數(shù)的歸一化系數(shù)。通過聯(lián)合概率函數(shù)值的分布觀察各節(jié)點變量的當(dāng)前活躍程度，并優(yōu)化深度置信網(wǎng)絡(luò)模式。通常情況下，是將原始的工業(yè)大數(shù)據(jù)樣本輸入RBM層，而中間隱含層各節(jié)點處于相互獨立的狀態(tài)。當(dāng)hj=1時，聯(lián)合概率的分布滿足如下條件：

(5)

式中ξ為二值型Sigmoid函數(shù)，在數(shù)據(jù)訓(xùn)練和輸出時可用于調(diào)整深度置信網(wǎng)絡(luò)的分割值區(qū)間。當(dāng)Sigmoid函數(shù)的自變量取值范圍為(0，1)時，聯(lián)合概率分布函數(shù)會呈現(xiàn)單調(diào)連續(xù)變化的形態(tài)。RBM隱含層的節(jié)點被激活后將hj值反向輸入深度置信網(wǎng)絡(luò)，完成對可視層節(jié)點狀態(tài)的重構(gòu)，以獲取原始數(shù)據(jù)樣本的近似值。數(shù)據(jù)的訓(xùn)練需經(jīng)過多次反復(fù)迭代，使擬合后的實際樣本輸出值與理論值趨近。

2.2 數(shù)據(jù)的約簡與分類清洗

深度置信網(wǎng)絡(luò)模型可以根據(jù)輸入的工業(yè)大數(shù)據(jù)集規(guī)模大小而變化，中間隱含層的復(fù)雜程度也可以調(diào)整；但對于多個不同的任務(wù)數(shù)據(jù)集而言，在多源異構(gòu)環(huán)境下數(shù)據(jù)源中會出現(xiàn)大量冗余或不相關(guān)的數(shù)據(jù)。利用深度置信網(wǎng)絡(luò)模型清洗原始工業(yè)數(shù)據(jù)，除了需濾除系統(tǒng)噪聲和錯誤數(shù)據(jù)的干擾之外，還應(yīng)對數(shù)據(jù)集進(jìn)行屬性約簡處理，以去除過多的冗余干擾數(shù)據(jù)。多源異構(gòu)數(shù)據(jù)的特點是，從多個角度描述設(shè)備的故障狀態(tài)，并提供多個數(shù)據(jù)源。這些數(shù)據(jù)源之間存在不同程度的關(guān)聯(lián)，屬性約簡的作用就是對同源數(shù)據(jù)之間的關(guān)聯(lián)度進(jìn)行判斷。

假定經(jīng)過預(yù)處理的原始工業(yè)數(shù)據(jù)以數(shù)據(jù)表的形式存在，數(shù)據(jù)表t的數(shù)量為q，它們共同構(gòu)成數(shù)據(jù)表集合T={t1，t2，…，tq}，且任意一個獨立的數(shù)據(jù)表ti都包含g個屬性C={c1，c2，…，cg}。計算各數(shù)據(jù)表字符串之間的編輯距離，然后再利用曼哈頓距離法評價和判斷字符串之間的相似度，采用插入、刪除或替換等多種操作方式測試字符串和數(shù)據(jù)表之間的曼哈頓距離。曼哈頓距離越大，則表明數(shù)據(jù)之間的相似度越小。定義字符串si和sj之間的曼哈頓距離為dsi，sj，數(shù)據(jù)表ti和tj之間的相關(guān)系數(shù)為ρti，tj。設(shè)數(shù)據(jù)表之間的經(jīng)驗參數(shù)閾值為φ：當(dāng)ρti，tj>φ時，ti、tj之間不存在數(shù)據(jù)上的關(guān)聯(lián)，而當(dāng)ρti，tj<φ時，ti、tj之間有一定的關(guān)聯(lián)。最后，篩選和確定字符串之間的曼哈頓距離dsi，sj，刪除重復(fù)的字符串和數(shù)據(jù)表，實現(xiàn)數(shù)據(jù)約簡分類。

每一組源數(shù)據(jù)都是由若干個樣本信息組成，如果有兩組源數(shù)據(jù)的全部屬性特征一致，則表明存在數(shù)據(jù)冗余的情況。數(shù)據(jù)屬性的相關(guān)度可作為判斷屬性重要性的依據(jù)，數(shù)據(jù)源組的密度決定數(shù)據(jù)重復(fù)出現(xiàn)的次數(shù)。工業(yè)大數(shù)據(jù)清洗的數(shù)據(jù)源組密度如圖3所示。在數(shù)據(jù)屬性空間內(nèi)，位于低密度空間的對象通常為異常值。參照高密度空間的數(shù)據(jù)分布特征，對低密度區(qū)域空間數(shù)據(jù)進(jìn)行屬性約簡處理，剔除掉多余的重復(fù)記錄。

圖3 工業(yè)大數(shù)據(jù)清洗的數(shù)據(jù)源組密度示意圖

當(dāng)一個數(shù)據(jù)源組出現(xiàn)在密度較低的半徑區(qū)域(如O6半徑區(qū)域)內(nèi)時，若清洗中出現(xiàn)了數(shù)據(jù)特征相同的情況，則此數(shù)據(jù)通常被認(rèn)定為冗余數(shù)據(jù)。以深度置信網(wǎng)絡(luò)模型為基礎(chǔ)，利用數(shù)據(jù)之間的曼哈頓距離和能量函數(shù)值即可有效去除冗余、錯誤或不完整的數(shù)據(jù)。同時，Hadoop大數(shù)據(jù)框架具有強(qiáng)大的并行計算能力，在其基礎(chǔ)上又進(jìn)一步提高了數(shù)據(jù)清洗和分類的效率。

3 算法實驗與結(jié)果分析

3.1 Hadoop集群的搭建與軟硬件環(huán)境設(shè)置

在Linux仿真環(huán)境下搭建Hadoop平臺，并安裝虛擬機(jī)。為了提高大數(shù)據(jù)框架的運算效率，利用HIVE數(shù)據(jù)倉來存儲數(shù)據(jù)，并通過Sqoop實現(xiàn)數(shù)據(jù)加載。Hadoop集群由一個主節(jié)點(ZA1)和3個從節(jié)點(ZS1、ZS2、ZS3)組成。其中，主節(jié)點的CPU選用Intel Corei9 7980XE，主頻達(dá)到3.6 GHz，運行內(nèi)存16 GiB，儲存內(nèi)存2 TiB；各個從節(jié)點的CPU選用Intel Corei7 9700，最高主頻達(dá)到2.93GHz。Hadoop集群的軟件系統(tǒng)設(shè)置如表1所示。

Hadoop集群各節(jié)點的IP地址如下：

主節(jié)點ZA1，IP地址為192.168.2.130；

從節(jié)點：ZS1，IP地址為192.168.2.115;ZS2，IP地址為192.168.2.123;ZS3，IP地址為192.168.2.124。

表1 Hadoop集群的軟件環(huán)境設(shè)置

為保證各個節(jié)點之間的正常通信和任務(wù)分工，需要按照地址順序添加節(jié)點，管理員可通過后臺設(shè)置修改節(jié)點的IP地址和權(quán)限。在Hadoop集群的各節(jié)點計算機(jī)上安裝SSH程序包，并配置主機(jī)的公鑰、私鑰權(quán)限。待系統(tǒng)啟動后，首先格式化硬盤，啟動HDFS、MapReduce以測試系統(tǒng)的功能。然后，將待處理的工業(yè)數(shù)據(jù)源加載到HDFS中，并在Sqoop模塊中設(shè)置對應(yīng)的參數(shù)。

3.2 查準(zhǔn)率與查全率對比

去除冗余數(shù)據(jù)的效果，是衡量大數(shù)據(jù)清洗算法性能的主要標(biāo)準(zhǔn)之一。在此，以查準(zhǔn)率(RP)和查全率(RR)作為主要性能指標(biāo)，驗證本次清洗算法的有效率。查準(zhǔn)率用于衡量數(shù)據(jù)集中準(zhǔn)確識別重復(fù)記錄的比例，查全率衡量用于識別重復(fù)記錄中真實值所占比例。

(6)

(7)

式中：ζ1為準(zhǔn)確識別相似數(shù)據(jù)記錄的數(shù)據(jù)數(shù)量；ζ2為真實條件下不應(yīng)視為重復(fù)記錄卻被認(rèn)定為重復(fù)記錄的數(shù)據(jù)數(shù)量；ζ3為真實條件下屬于冗余重復(fù)記錄卻未被檢測出的數(shù)據(jù)數(shù)量。

從不同工業(yè)大數(shù)據(jù)來源中隨機(jī)采集10 000條不同結(jié)構(gòu)類型的故障數(shù)據(jù)構(gòu)成數(shù)據(jù)集，其中包含564條錯誤數(shù)據(jù)、314條缺失不完整數(shù)據(jù)和788條冗余重復(fù)數(shù)據(jù)。將全部樣本數(shù)據(jù)隨機(jī)分成10組，利用本清洗算法計算各組數(shù)據(jù)的查準(zhǔn)率和查全率，同時引入文獻(xiàn)[6][7]的數(shù)據(jù)清洗算法參與對比，統(tǒng)計結(jié)果見表2、表3。

表2 查準(zhǔn)率結(jié)果對比 %

表3 查全率結(jié)果對比 %

由數(shù)值統(tǒng)計結(jié)果可知，本算法的絕對值和穩(wěn)定性遠(yuǎn)優(yōu)于另外兩種清洗算法，查準(zhǔn)率和查全率均值分別達(dá)到99.47%和99.16%，其VARP值分別達(dá)到0.16%和0.38%。隨機(jī)抽取第5組數(shù)據(jù)作為實驗抽樣調(diào)查樣本，檢測工業(yè)數(shù)據(jù)清洗中字符串的匹配準(zhǔn)確率，其統(tǒng)計結(jié)果如圖4所示。

隨機(jī)抽取的這一組數(shù)據(jù)中，字符串匹配準(zhǔn)確率的變化趨勢均與表2、表3中的一致。由此可見，本算法的字符匹配準(zhǔn)確率相對更高。

3.3 工業(yè)大數(shù)據(jù)的清洗效率對比

以上述實驗中隨機(jī)采集到的10 000條不同結(jié)構(gòu)類型的故障集為實驗對象，并將故障集隨機(jī)分成10組，對比10組工業(yè)大數(shù)據(jù)的清洗效率。對每組數(shù)據(jù)的處理時間進(jìn)行累加，對比總體耗時，統(tǒng)計結(jié)果如圖5所示。

圖4 各算法的字符串匹配準(zhǔn)確率

圖5 數(shù)據(jù)處理的總體耗時對比

在10組數(shù)據(jù)的處理過程中，本算法的耗時更為平穩(wěn)并呈線性變化，完成任務(wù)后的總體耗時更低；而文獻(xiàn)[6][7]算法的結(jié)果有較大差異，也出現(xiàn)了不同程度的波動，在數(shù)據(jù)處理初段和中段效率較低，導(dǎo)致總體耗時高于本算法。

4 結(jié) 語

隨著工業(yè)產(chǎn)業(yè)信息化的發(fā)展，工業(yè)大數(shù)據(jù)總量巨增，其結(jié)構(gòu)也日趨復(fù)雜，這給基于工業(yè)大數(shù)據(jù)的故障檢測和設(shè)備在線監(jiān)控帶來更大挑戰(zhàn)。原始工業(yè)大數(shù)據(jù)中包含大量的冗余、錯誤或不完整數(shù)據(jù)，經(jīng)過清洗可以去除其中絕大部分臟數(shù)據(jù)，對數(shù)據(jù)清洗算法進(jìn)行優(yōu)化有助于提高工業(yè)大數(shù)據(jù)分析和使用效率。本次研究中利用深度學(xué)習(xí)算法中的深度置信網(wǎng)絡(luò)模型，提高了原始數(shù)據(jù)清洗效率，減少了數(shù)據(jù)誤處理現(xiàn)象。實驗結(jié)果表明，本次研究提出的工業(yè)大數(shù)據(jù)清洗算法在清洗效率上具有一定的優(yōu)勢，比傳統(tǒng)清洗算法的查準(zhǔn)、查全效果更佳。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡