摘 要:為了對(duì)非周期性、非高斯性及間歇性的曳引式電梯數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,對(duì)電梯運(yùn)行過程中的異常數(shù)據(jù)進(jìn)行排查,提出一種改進(jìn)后的長(zhǎng)短期記憶網(wǎng)絡(luò)的數(shù)據(jù)清洗模式。在對(duì)基于物聯(lián)網(wǎng)技術(shù)使用數(shù)據(jù)庫(kù)存儲(chǔ)的時(shí)序數(shù)據(jù)進(jìn)行異常數(shù)據(jù)的清洗時(shí),提取不等長(zhǎng)的時(shí)間序列數(shù)據(jù)進(jìn)行劃分與填充,利用長(zhǎng)短時(shí)間神經(jīng)網(wǎng)絡(luò)對(duì)其進(jìn)行建模,進(jìn)行初期的異常數(shù)據(jù)檢測(cè)清洗。在系統(tǒng)中實(shí)現(xiàn)電梯故障系統(tǒng)的故障預(yù)測(cè)、壽命分析、可視化前的數(shù)據(jù)清洗工作,完成數(shù)據(jù)優(yōu)化。
關(guān)鍵詞:物聯(lián)網(wǎng);時(shí)間序列;數(shù)據(jù)管理
中圖分類號(hào):TP183文獻(xiàn)標(biāo)志碼:A文章編號(hào):1671-5276(2024)03-0151-04
Research on Data Cleansing Method of Elevator Based on Time Series Data
Abstract:In order to perform the data cleaning of aperiodic, non-Gaussian and intermittent traction type elevator and troubleshoot the abnormal data in the process of elevator operation, this paper proposes a data cleaning mode of modified long short-term memory network. Based on the IoT technology using a database to store the time-series data of abnormal data cleaning, the time series data of different lengths are extracted for division and filling, the long and short time neural network is used for modeling, and the initial abnormal data detection and cleaning are carried out. Data cleaning and data optimization are completed before the realization of fault prediction, life analysis and visualization of the elevator fault system.
Keywords:IoT; time series data; data management
0 引言
大數(shù)據(jù)已經(jīng)廣泛運(yùn)用于各個(gè)行業(yè),電梯物聯(lián)網(wǎng)正逐步完善。由于所使用的電梯數(shù)量多、類型廣,造成了電梯品類的管理與維保質(zhì)量各不相同,經(jīng)驗(yàn)不同的工作人員對(duì)電梯實(shí)際故障情況的判斷會(huì)出現(xiàn)偏差,影響最終故障的解決。因此,加強(qiáng)對(duì)電梯的信息化管理、提高電梯設(shè)備質(zhì)量、做好售后服務(wù)、保障電梯使用安全是非常重要的。對(duì)電梯數(shù)據(jù)進(jìn)行監(jiān)測(cè)、數(shù)據(jù)管理、預(yù)警,構(gòu)建電梯系統(tǒng)成為了必然趨勢(shì)。
隨著物聯(lián)網(wǎng)的興起,智能設(shè)備和傳感器技術(shù)得到大量應(yīng)用,在數(shù)據(jù)清洗的研究領(lǐng)域,又新增了時(shí)序數(shù)據(jù)的清洗。盧峰等[1]使用云計(jì)算對(duì)電網(wǎng)大數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,該數(shù)據(jù)清洗模型針對(duì)的是企業(yè)內(nèi)部決策者提供的準(zhǔn)確數(shù)據(jù)。謝智穎等[2]針對(duì)公交車規(guī)律使用長(zhǎng)短期記憶(LSTM)神經(jīng)網(wǎng)絡(luò)進(jìn)行了數(shù)據(jù)清洗來解決公交車到站預(yù)測(cè)問題,并對(duì)各類異常數(shù)據(jù)實(shí)現(xiàn)了數(shù)據(jù)清洗。XIE等[3]比較了傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)和長(zhǎng)短期記憶網(wǎng)絡(luò)提取特征,實(shí)現(xiàn)對(duì)汽車品質(zhì)的準(zhǔn)確評(píng)價(jià)。沈沛等[4]提出了一種基于相似重復(fù)數(shù)據(jù)少的DM-SVM數(shù)據(jù)清洗,利用時(shí)序數(shù)據(jù)的時(shí)序唯一性,將SVM算法的窗口改為自動(dòng)縮放型,提高了數(shù)據(jù)清洗的效率。韓紅桂等[5]使用SVM與粒子算法相結(jié)合,對(duì)城市污水處理過程的異常數(shù)據(jù)建立了一種缺失數(shù)據(jù)補(bǔ)償模型,提高了數(shù)據(jù)質(zhì)量。WANG等[6]針對(duì)BIM信息集成技術(shù)產(chǎn)生的海量數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗,利用RNN-LSTM網(wǎng)絡(luò)對(duì)建筑施工項(xiàng)目中質(zhì)量數(shù)據(jù)進(jìn)行預(yù)測(cè),降低施工中的問題率。YANG等[7]基于多傳感器周期性數(shù)據(jù)使用LSTM模型進(jìn)行數(shù)據(jù)異常分類與定位,提出了條件生成對(duì)抗網(wǎng)絡(luò)來進(jìn)行數(shù)據(jù)修復(fù)。
為了解決上述問題,本文提出了一種基于電梯時(shí)序數(shù)據(jù)的LSTM異常數(shù)據(jù)清洗方法。首先,根據(jù)時(shí)間序列進(jìn)行整合重組,剔除停頓的數(shù)據(jù)后,使用長(zhǎng)短期記憶深度學(xué)習(xí)進(jìn)行數(shù)據(jù)清洗,最后得到相對(duì)干凈的電梯數(shù)據(jù)。
1 數(shù)據(jù)采集
1.1 電梯信號(hào)數(shù)據(jù)采集
電梯數(shù)據(jù)采集主要基于運(yùn)行過程的各個(gè)傳感器和電梯監(jiān)控?cái)?shù)據(jù),如溫度傳感器、加速度傳感器等。電梯運(yùn)行信號(hào)采集具有以下特點(diǎn):
1)采樣頻率高;
2)數(shù)據(jù)量大;
3)采集實(shí)時(shí)性較高;
4)電梯機(jī)房比較封閉且有較多影響電磁波傳輸?shù)恼系K物。
如圖1所示,基于物聯(lián)網(wǎng)的電梯數(shù)據(jù)管理系統(tǒng)的數(shù)據(jù)源是由安裝在電梯中各個(gè)設(shè)備組件中的傳感器及其電梯機(jī)房的數(shù)據(jù)構(gòu)成的。多個(gè)電梯工作組上的傳感器構(gòu)成整個(gè)系統(tǒng)的物聯(lián)網(wǎng)感知層,并將采集到的信號(hào)數(shù)據(jù)源源不斷地通過有線以太網(wǎng)組成的物聯(lián)網(wǎng)傳輸層發(fā)送到服務(wù)器集群中。
為了滿足電梯運(yùn)行數(shù)據(jù)采集實(shí)時(shí)性高、數(shù)據(jù)量大等需求,電梯運(yùn)行信號(hào)采集系統(tǒng)采用有線以太網(wǎng)的數(shù)據(jù)傳輸方式。系統(tǒng)主要采集的數(shù)據(jù)是電梯運(yùn)行狀態(tài)信號(hào)以及x、y、z軸3個(gè)方向的振動(dòng)信號(hào)數(shù)據(jù)。系統(tǒng)將采集到的數(shù)據(jù)進(jìn)行換算后存入實(shí)時(shí)數(shù)據(jù)庫(kù)中,并進(jìn)行數(shù)據(jù)清洗,等待分布式處理集群的后續(xù)故障診斷、故障預(yù)警等應(yīng)用實(shí)現(xiàn)。
1.2 電梯數(shù)據(jù)存在的問題
電梯數(shù)據(jù)屬于連續(xù)、離散作業(yè)混雜的數(shù)據(jù)類型。影響電梯運(yùn)行的要素很多,如所在位置、機(jī)房溫度、運(yùn)行加速度的變化等。由于物聯(lián)網(wǎng)技術(shù)的興起,許多電梯已經(jīng)開始步入智能化管控階段,故障檢測(cè)與預(yù)警系統(tǒng)實(shí)際需要的數(shù)據(jù)是經(jīng)過數(shù)據(jù)清理后獲得初值化的多維、大規(guī)模數(shù)據(jù)集,直接使用原始數(shù)據(jù)會(huì)加大計(jì)算復(fù)雜性,難以保證預(yù)測(cè)的準(zhǔn)確性和可靠性。所以,需要對(duì)電梯數(shù)據(jù)進(jìn)行清洗,避免故障預(yù)測(cè)的失真。電梯數(shù)據(jù)質(zhì)量問題主要表現(xiàn)在以下幾個(gè)方面。
1)數(shù)據(jù)失真和失準(zhǔn)。由于電梯所處的環(huán)境及電梯使用年限各不相同、設(shè)備運(yùn)維保養(yǎng)情況各不相同等原因,可能造成各類運(yùn)行數(shù)據(jù)出現(xiàn)數(shù)據(jù)失真和失準(zhǔn)。
2)數(shù)據(jù)冗余。冗余數(shù)據(jù)是指對(duì)電梯數(shù)據(jù)分析預(yù)測(cè)時(shí)沒有價(jià)值的數(shù)據(jù),如:同一個(gè)時(shí)間間隔內(nèi)數(shù)據(jù)重復(fù)上傳的情況。
3)數(shù)據(jù)錯(cuò)列。當(dāng)數(shù)據(jù)采集器出現(xiàn)故障或者控制器發(fā)生收錄錯(cuò)誤時(shí),會(huì)出現(xiàn)部分?jǐn)?shù)據(jù)與其設(shè)置的屬性無法對(duì)應(yīng),從而產(chǎn)生錯(cuò)列問題。
本文針對(duì)電梯時(shí)序數(shù)據(jù)的數(shù)據(jù)失真失準(zhǔn)問題進(jìn)行研究,使用LSTM算法對(duì)數(shù)據(jù)的異常值進(jìn)行探究,對(duì)電梯的異常值數(shù)據(jù)進(jìn)行清洗,優(yōu)化數(shù)據(jù)質(zhì)量。
·信息技術(shù)·
王容·基于時(shí)序數(shù)據(jù)的電梯數(shù)據(jù)清洗方法研究
1.3 數(shù)據(jù)評(píng)估
不同的數(shù)據(jù)質(zhì)量問題具有不同的嚴(yán)重性和故障發(fā)生的可能性,使用風(fēng)險(xiǎn)評(píng)估矩陣來對(duì)各類數(shù)據(jù)的質(zhì)量問題進(jìn)行評(píng)估,如表1所示。
對(duì)于檢測(cè)結(jié)果可以使用如下公式來進(jìn)行計(jì)算:
式中:A為準(zhǔn)確率;R為召回率。
2 電梯時(shí)序大數(shù)據(jù)特征
電梯傳感器在采集數(shù)據(jù)時(shí)會(huì)帶有時(shí)間序列這一時(shí)間要素。電梯的時(shí)序數(shù)據(jù)體現(xiàn)了數(shù)據(jù)的實(shí)時(shí)性和連續(xù)控件位置變化的屬性,反映了其中某部電梯與其所處樓層位置之間的關(guān)系特征。如圖 2所示,圖中的各個(gè)節(jié)點(diǎn)代表電梯控制系統(tǒng)整個(gè)運(yùn)行周期的狀態(tài)情況。
電梯的時(shí)間維度是以某一個(gè)時(shí)刻作為起點(diǎn),在某段時(shí)間內(nèi)不固定地發(fā)生變化,根據(jù)電梯狀態(tài)轉(zhuǎn)移圖可知,電梯數(shù)據(jù)具有一定的規(guī)律性、序列性。
1)序列性
電梯的采樣頻率以一定的時(shí)間間隔進(jìn)行數(shù)據(jù)采集,上、下樓梯時(shí)會(huì)有劇烈的抖動(dòng),影響x、y、z軸上的加速度、按鍵的樓層、到達(dá)的時(shí)間、等待序列等。在這個(gè)序列中數(shù)據(jù)是連續(xù)的,丟失幾個(gè)時(shí)間點(diǎn)的值,會(huì)出現(xiàn)較大的奇異值。
2)規(guī)律性
電梯加速度變化存在一定的隨機(jī)性,但是隨時(shí)間變化有一定規(guī)律性。例如:工作場(chǎng)所內(nèi)的電梯在工作日的工作時(shí)間段日變化規(guī)律相近,工作日與休息日的形狀不同。從日流量變化圖可獲得每天的人流量高峰時(shí)間與高峰小時(shí)流量,這些都具有隨機(jī)性。但是電梯具有狀態(tài)轉(zhuǎn)移規(guī)律,電梯數(shù)據(jù)會(huì)具有規(guī)律性,電梯開門、選擇到達(dá)樓層、關(guān)門、運(yùn)行,循環(huán)往復(fù),一直到最后電梯停止。
3 電梯大數(shù)據(jù)清洗方法
本文基于時(shí)序電梯數(shù)據(jù)的改進(jìn)長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)算法(LSTM)建立數(shù)據(jù)清洗方法。LSTM具有控制遺忘的結(jié)構(gòu)設(shè)計(jì),非常適合處理時(shí)序任務(wù)。相比于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)RNN,LSTM提出了“遺忘門-輸入門-輸出門”,對(duì)前期的數(shù)據(jù)進(jìn)行選擇性地記憶與遺忘,提取時(shí)間特征對(duì)數(shù)據(jù)實(shí)現(xiàn)長(zhǎng)期記憶。利用LSTM方法進(jìn)行異常數(shù)據(jù)清洗并實(shí)現(xiàn)數(shù)據(jù)補(bǔ)償?shù)姆椒ㄈ缦隆?/p>
1)由于電梯數(shù)據(jù)呈現(xiàn)非周期性、間歇性的特點(diǎn),所以需要在進(jìn)行預(yù)測(cè)前將非周期性的時(shí)間序列進(jìn)行轉(zhuǎn)換,轉(zhuǎn)化為不等長(zhǎng)的時(shí)間序列片段,將每次暫停在某一樓層的時(shí)間段剝離后進(jìn)行時(shí)間序列的重組,去除長(zhǎng)時(shí)間停留在某層的時(shí)間間隔,完成電梯數(shù)據(jù)的重組排序,如圖 3所示。
2)對(duì)電梯數(shù)據(jù)在使用LSTM算法進(jìn)行清洗前,需要進(jìn)行歸一化處理,在訓(xùn)練樣本上需要求出每個(gè)維度的均值和方差,在訓(xùn)練樣本上進(jìn)行歸一化處理的公式為:
式中:Y為歸一化后的數(shù)據(jù);x為待處理的數(shù)據(jù)。其中,對(duì)時(shí)間進(jìn)行歸一化處理時(shí),提取日期和時(shí)間后,再對(duì)時(shí)間進(jìn)行轉(zhuǎn)化。
3)確定模型其他參數(shù)。例如:輸出層、節(jié)點(diǎn)數(shù)、優(yōu)化器等,結(jié)合損失函數(shù)和觀測(cè)函數(shù)隨訓(xùn)練輪次的結(jié)果,修改相應(yīng)的參數(shù)信息及選取合適的訓(xùn)練輪次。
4)通過不同的數(shù)據(jù)預(yù)測(cè)模型進(jìn)行預(yù)測(cè)及數(shù)據(jù)分析,異常數(shù)據(jù)具有很強(qiáng)的突變性,數(shù)據(jù)分布的方差也會(huì)發(fā)生很大的變化。因此,將預(yù)測(cè)值與真實(shí)值的誤差值進(jìn)行記錄,在閾值內(nèi)進(jìn)行數(shù)據(jù)的清洗與補(bǔ)償。
4 數(shù)據(jù)清洗結(jié)果驗(yàn)證
4.1 利用時(shí)序重組后的LSTM對(duì)數(shù)據(jù)的預(yù)測(cè)與判斷
本文以某學(xué)校內(nèi)的電梯數(shù)據(jù)集為例進(jìn)行分析。該數(shù)據(jù)集選用電梯加速度數(shù)據(jù)集,使用加速度傳感器記錄x軸、y軸、z軸及絕對(duì)值加速度,隨機(jī)采集上下電梯的一段數(shù)據(jù),共采集85 770組數(shù)據(jù)。選用了x軸加速度、y軸加速度、z軸加速度、絕對(duì)值加速度來作為輸入特征,預(yù)測(cè)絕對(duì)值加速度。以電梯上下運(yùn)行加速度為正常樣本數(shù)據(jù),以成年人在轎廂內(nèi)的中等強(qiáng)度跳動(dòng)模擬異常數(shù)據(jù)。
如圖4所示,得到傳感器數(shù)據(jù),并且標(biāo)記出異常數(shù)據(jù)。直接采用LSTM對(duì)電梯數(shù)據(jù)進(jìn)行異常值清洗會(huì)出現(xiàn)較大誤差,預(yù)測(cè)值與真實(shí)值的誤差閾值較大,異常值數(shù)據(jù)清洗的準(zhǔn)確率較低。將靜止時(shí)的數(shù)據(jù)與運(yùn)行中產(chǎn)生的加速度變化數(shù)據(jù)進(jìn)行剔除,完成剔除后對(duì)電梯運(yùn)行過程中的數(shù)據(jù)進(jìn)行時(shí)間序列的重組,再根據(jù)數(shù)據(jù)的時(shí)間間隔進(jìn)行序列生成,完成后再對(duì)數(shù)據(jù)進(jìn)行LSTM算法的數(shù)據(jù)清洗。結(jié)果如圖 5所示。預(yù)測(cè)的駝峰數(shù)據(jù)變少,數(shù)據(jù)預(yù)測(cè)的誤差值在±0.5之間。
重組前的訓(xùn)練耗時(shí)210s,重組后的算法迭代輪數(shù)不變,訓(xùn)練耗時(shí)約170s,單輪迭代時(shí)間2s。相比于數(shù)據(jù)重組前,改進(jìn)后由于數(shù)據(jù)結(jié)構(gòu)簡(jiǎn)單,靜態(tài)數(shù)據(jù)減少,訓(xùn)練速度提升了19%。
4.2 數(shù)據(jù)清洗實(shí)驗(yàn)結(jié)果
通過比較預(yù)測(cè)值和真實(shí)值,計(jì)算兩者誤差,設(shè)定真實(shí)值與預(yù)測(cè)值的誤差閾值為±0.1,可以成功檢測(cè)出異常數(shù)據(jù)的數(shù)量,然后比較異常數(shù)量并使用評(píng)判結(jié)果進(jìn)行評(píng)價(jià)。數(shù)據(jù)重組前與數(shù)據(jù)重組后的LSTM數(shù)據(jù)清洗方法分別對(duì)電梯加速度數(shù)據(jù)進(jìn)行清洗后的結(jié)果對(duì)比如表2所示。
通過對(duì)比可以發(fā)現(xiàn),電梯數(shù)據(jù)在進(jìn)行重組后再進(jìn)行異常值清洗,提高了數(shù)據(jù)清洗的準(zhǔn)確率和召回率,說明時(shí)間重組后確實(shí)可以有效地提高數(shù)據(jù)的質(zhì)量。
5 結(jié)語
本文結(jié)合物聯(lián)網(wǎng)采集的時(shí)序電梯大數(shù)據(jù)對(duì)非周期性的電梯數(shù)據(jù)進(jìn)行時(shí)序重組后,使用LSTM神經(jīng)網(wǎng)絡(luò)對(duì)電梯異常數(shù)據(jù)進(jìn)行數(shù)據(jù)清洗并補(bǔ)償,并對(duì)采集的實(shí)際數(shù)據(jù)進(jìn)行了驗(yàn)證。電梯數(shù)據(jù)清洗的后期研究需要結(jié)合其他的清洗方式清洗后的數(shù)據(jù)進(jìn)行對(duì)比分析才能真正地應(yīng)用到系統(tǒng)預(yù)測(cè)、可視化界面以及壽命預(yù)測(cè)分析中,使其真正服務(wù)于電梯物聯(lián)網(wǎng)系統(tǒng)。
參考文獻(xiàn):
[1] 盧峰,吳朝文,陳小龍,等. 基于云計(jì)算的電力能源大數(shù)據(jù)清洗模型構(gòu)建[J]. 自動(dòng)化儀表,2022,43(1):72-76.
[2] 謝智穎,何原榮,李清泉. 基于時(shí)空相關(guān)性的公交大數(shù)據(jù)清洗[J]. 計(jì)算機(jī)工程與應(yīng)用,2022,58(1):113-121.
[3] XIE L P, LU C H, LIU Z E, et al. The evaluation of automobile interior acceleration sound fused with physiological signal using a hybrid deep neural network[J]. Mechanical Systems and Signal Processing,2023,184:109675.
[4] 沈沛,毛海濤,胡文林,等. 面向時(shí)序的相似重復(fù)數(shù)據(jù)清洗算法優(yōu)化[J]. 計(jì)算機(jī)時(shí)代,2022(9):68-72,77.
[5] 韓紅桂,魯樹武,伍小龍,等. 基于改進(jìn)型SVM的城市污水處理過程異常數(shù)據(jù)清洗方法[J]. 北京工業(yè)大學(xué)學(xué)報(bào),2021,47(9):1011-1020.
[6] WANG D P,F(xiàn)AN J F,F(xiàn)U H L,et al. Research on optimization of big data construction engineering quality management based on RNN-LSTM[J]. Complexity,2018:1-16.
[7] YANG K,DING Y L,JIANG H C,et al. A two-stage data cleansing method for bridge global positioning system monitoring data based on bi-direction long and short term memory anomaly identification and conditional generative adversarial networks data repair[J]. Structural Control and Health Monitoring,2022,29(9):e2993.1-e2993.19.