曹現(xiàn)剛,張?chǎng)捂拢瑓巧俳?/p>
(西安科技大學(xué) 機(jī)械工程學(xué)院,陜西 西安 710054)
隨著現(xiàn)代工業(yè)與科技的不斷發(fā)展,我國(guó)制造業(yè)規(guī)模和生產(chǎn)能力不斷提升,自動(dòng)化程度不斷提高,設(shè)備的性能和狀態(tài)對(duì)企業(yè)的產(chǎn)量和成本的影響也日益增強(qiáng)[1-3]。另一方面,由于各種先進(jìn)制造技術(shù)、裝備的產(chǎn)生和應(yīng)用,以及電子商務(wù)等商業(yè)模式的快速發(fā)展,制造企業(yè)正面臨著減少消耗資源、提高生產(chǎn)效益等嚴(yán)峻挑戰(zhàn)[4]。
在煤炭行業(yè),煤礦企業(yè)設(shè)備的運(yùn)行已經(jīng)進(jìn)入少人甚至無人的智能化時(shí)代,由人與機(jī)器產(chǎn)生的數(shù)據(jù)也急劇增多。我國(guó)的大中型煤礦企業(yè),由人產(chǎn)生的數(shù)據(jù)規(guī)模一般在TB級(jí)別以下,但形成了高價(jià)值密度的核心業(yè)務(wù)數(shù)據(jù);機(jī)器數(shù)據(jù)規(guī)模已經(jīng)達(dá)到PB級(jí)[5-9],是大量數(shù)據(jù)的主要來源,但數(shù)據(jù)的相對(duì)價(jià)值密度較低,傳統(tǒng)的數(shù)據(jù)管理方式已經(jīng)無法滿足大量數(shù)據(jù)的管理需求。其次,由于數(shù)據(jù)的來源多樣,包含產(chǎn)品全生命周期管理(PLM)及企業(yè)資源計(jì)劃系統(tǒng)(ERP)等系統(tǒng)的關(guān)系型數(shù)據(jù)、傳感器日志數(shù)據(jù)及視頻監(jiān)控?cái)?shù)據(jù)等非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù),涵蓋了所有的時(shí)間和空間上的數(shù)據(jù)關(guān)系,具有不同的格式和標(biāo)準(zhǔn)[10-12]。企業(yè)內(nèi)部機(jī)電設(shè)備管理系統(tǒng)相互獨(dú)立,實(shí)際中經(jīng)常存在孤立的信息島,數(shù)據(jù)無法得到合理、高效的利用,形成了“垃圾進(jìn),垃圾出”的數(shù)據(jù)管理現(xiàn)象[13-15]?;谏鲜霈F(xiàn)狀,提出一種基于Hadoop的煤礦機(jī)電設(shè)備狀態(tài)大數(shù)據(jù)管理分析平臺(tái),本平臺(tái)集數(shù)據(jù)采集、數(shù)據(jù)轉(zhuǎn)換、分布式存儲(chǔ)、大數(shù)據(jù)挖掘、大數(shù)據(jù)分析建模等為一體,對(duì)煤礦機(jī)電設(shè)備運(yùn)行狀態(tài)的大量數(shù)據(jù)進(jìn)行合理存儲(chǔ)、利用,挖掘多源數(shù)據(jù)之間的信息和規(guī)律,推動(dòng)煤礦企業(yè)內(nèi)“信息孤島”聚合為“信息大陸”。
結(jié)合煤礦機(jī)電設(shè)備運(yùn)行狀態(tài)大數(shù)據(jù)復(fù)雜、異構(gòu)等特性以及企業(yè)用戶的實(shí)際需求,本文將煤礦機(jī)電設(shè)備運(yùn)行狀態(tài)大數(shù)據(jù)管理平臺(tái)總體架構(gòu)分為五層:資源層、數(shù)據(jù)存儲(chǔ)層、平臺(tái)層、應(yīng)用層服務(wù)層,平臺(tái)總體架構(gòu)如圖1所示。
圖1 平臺(tái)總體架構(gòu)
資源層為平臺(tái)的數(shù)據(jù)源,由管理系統(tǒng)、硬件設(shè)備及人員構(gòu)成,是整個(gè)平臺(tái)的數(shù)據(jù)基礎(chǔ)。管理系統(tǒng)包括物資管理系統(tǒng)、企業(yè)資源計(jì)劃系統(tǒng)、產(chǎn)品全生命周期管理系統(tǒng)以及財(cái)務(wù)系統(tǒng)等;硬件設(shè)備由采煤機(jī)、礦井主通風(fēng)機(jī)、刮板輸送機(jī)、液壓支架等硬件設(shè)備組成;人員由區(qū)隊(duì)員工、企業(yè)各部門職員及領(lǐng)導(dǎo)組成。
數(shù)據(jù)存儲(chǔ)層由各系統(tǒng)服務(wù)器、分布式服務(wù)器以及云端服務(wù)器組成,形成一個(gè)包含系統(tǒng)、設(shè)備和人員的多源異構(gòu)數(shù)據(jù)資源池。煤礦企業(yè)系統(tǒng)軟件對(duì)應(yīng)各自的數(shù)據(jù)庫服務(wù)器,通過中間服務(wù)器對(duì)數(shù)據(jù)進(jìn)行集成,分布式數(shù)據(jù)庫存儲(chǔ)設(shè)備實(shí)時(shí)非結(jié)構(gòu)化數(shù)據(jù)或半結(jié)構(gòu)化數(shù)據(jù),云端服務(wù)器則對(duì)需要進(jìn)行數(shù)據(jù)挖掘、分析的海量數(shù)據(jù)進(jìn)行同步存儲(chǔ)。
平臺(tái)層整合數(shù)據(jù)采集、處理、分析和顯示為一體,建立“多元異構(gòu)信息互聯(lián)框架”。數(shù)據(jù)采集能夠根據(jù)煤礦設(shè)備的多樣性及大型部件高復(fù)雜性的特點(diǎn),建立數(shù)據(jù)采集與分類規(guī)范;數(shù)據(jù)預(yù)處理針對(duì)物聯(lián)網(wǎng)智慧終端采集來的數(shù)據(jù)進(jìn)行降噪、清洗;數(shù)據(jù)分析在大量的歷史數(shù)據(jù)、設(shè)備運(yùn)行狀態(tài)數(shù)據(jù)中,挖掘出高價(jià)值的內(nèi)容;實(shí)時(shí)顯示是設(shè)備運(yùn)行狀態(tài)的實(shí)時(shí)體現(xiàn),可通過數(shù)據(jù)的統(tǒng)計(jì)分析處理,實(shí)現(xiàn)動(dòng)態(tài)監(jiān)測(cè)。
應(yīng)用層面向企業(yè)業(yè)務(wù)需求,實(shí)現(xiàn)設(shè)備的互聯(lián)、優(yōu)化運(yùn)行以及企業(yè)的高效運(yùn)維。通過設(shè)備在線數(shù)量監(jiān)測(cè)、井下設(shè)備實(shí)時(shí)監(jiān)控等應(yīng)用將零散的設(shè)備組成設(shè)備群,實(shí)現(xiàn)企業(yè)員工管理調(diào)度;設(shè)備故障自診斷、設(shè)備健康指數(shù)預(yù)測(cè)等應(yīng)用能夠降低設(shè)備的故障發(fā)生率,實(shí)現(xiàn)設(shè)備的“零故障”運(yùn)行;設(shè)備維修效率優(yōu)化、全生命周期管理等應(yīng)用能夠提升煤礦企業(yè)的運(yùn)維效率。
服務(wù)層對(duì)各種應(yīng)用進(jìn)行整合,對(duì)平臺(tái)各種功能進(jìn)行服務(wù)化封裝,不同的用戶能夠根據(jù)實(shí)際需求進(jìn)行應(yīng)用的定制,去除不必要的應(yīng)用占用資源,實(shí)現(xiàn)系統(tǒng)服務(wù)的模塊化、透明化、標(biāo)準(zhǔn)化。
根據(jù)煤礦設(shè)備數(shù)據(jù)存儲(chǔ)管理系統(tǒng)的功能目標(biāo),采用結(jié)構(gòu)化設(shè)計(jì)方法對(duì)本系統(tǒng)的功能進(jìn)行設(shè)計(jì),主要分為數(shù)據(jù)采集模塊、數(shù)據(jù)預(yù)處理模塊、分布式存儲(chǔ)模塊、數(shù)據(jù)挖掘模塊以及數(shù)據(jù)可視化模塊,在以上五個(gè)主要功能模塊下又被分為了若干個(gè)子功能模塊,系統(tǒng)總體功能模型如圖2所示。
圖2 系統(tǒng)功能模型
針對(duì)煤礦機(jī)電設(shè)備數(shù)據(jù)量大且關(guān)系復(fù)雜的特點(diǎn),本平臺(tái)提供基于Hadoop的分布式文件系統(tǒng)以及基于霍夫曼(Huffman)算法和LZW(Lenpel-Ziv & Welch)等的高效數(shù)據(jù)編碼壓縮方法對(duì)海量的結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行寫入。同時(shí),為了實(shí)現(xiàn)設(shè)備運(yùn)行狀態(tài)大數(shù)據(jù)的高效共享和利用,在分析現(xiàn)有的各種資源描述技術(shù)的基礎(chǔ)上,本平臺(tái)提出了一種基于HBase分布式數(shù)據(jù)庫的RDF(資源描述框架)數(shù)據(jù)存儲(chǔ)模型。以RDF為基礎(chǔ)的設(shè)備運(yùn)行狀態(tài)數(shù)據(jù)資源描述方法,建立了元數(shù)據(jù)模型,其中設(shè)備運(yùn)行狀態(tài)大數(shù)據(jù)資源本體如圖3所示;設(shè)計(jì)的存儲(chǔ)模型為設(shè)備運(yùn)行狀態(tài)大數(shù)據(jù)本體文件中定義的每個(gè)類創(chuàng)建HT-SPO(主語為行鍵)、HT-POS(謂語為行鍵)以及HT-OSP(賓語為行鍵)表,分別見表1、表2和表3,將RDF數(shù)據(jù)按照類的不同進(jìn)行劃分存儲(chǔ),在降低存儲(chǔ)開銷的同時(shí)提升查詢效率,利用HBase的列存儲(chǔ)、可擴(kuò)展性等特性滿足海量RDF數(shù)據(jù)的存儲(chǔ)需求,滿足RDF數(shù)據(jù)八種基本三元組模式的查詢,為用戶對(duì)海量數(shù)據(jù)的查詢和索引提供服務(wù),能夠通過不同的方式進(jìn)行高效查詢。
圖3 設(shè)備運(yùn)行狀態(tài)大數(shù)據(jù)資源本體(片段)
表1 HT-SPO表
表2 HT-OSP表
表3 HT-POS表
針對(duì)煤礦機(jī)電設(shè)備的多種數(shù)據(jù)源形式,該平臺(tái)提供多源數(shù)據(jù)融合技術(shù)。關(guān)系型數(shù)據(jù)以企業(yè)資源計(jì)劃(ERP)為中心進(jìn)行信息融合,融合過程借用中間數(shù)據(jù)庫的對(duì)應(yīng)接口表,并不直接將數(shù)據(jù)導(dǎo)入ERP系統(tǒng),更是從層次化物料表(BOM)結(jié)構(gòu)、運(yùn)行環(huán)境等對(duì)工業(yè)大數(shù)據(jù)的語義進(jìn)行一體化整合,將非結(jié)構(gòu)化與半結(jié)構(gòu)化的數(shù)據(jù)與BOM定義的企業(yè)核心語義結(jié)構(gòu)的物理對(duì)象(設(shè)備或零部件)節(jié)點(diǎn)相結(jié)合,打破企業(yè)的“信息孤島”。
為了對(duì)資源進(jìn)行更加細(xì)致的描述,在對(duì)煤礦設(shè)備運(yùn)行狀態(tài)大數(shù)據(jù)資源的特性、功能以及類別進(jìn)行詳細(xì)分析的基礎(chǔ)上,定義了一個(gè)具有通用性的設(shè)備運(yùn)行狀態(tài)大數(shù)據(jù)資源基本詞集,核心內(nèi)容包括:資源標(biāo)識(shí)(ID)、資源名稱(Name)、資源所屬設(shè)備(Subordinate Equipment)、資源所屬企業(yè)(Subordinate Enterprise)、資源位置(Position)、資源狀態(tài)(Status)、資源創(chuàng)建時(shí)間(Creation Time)、資源約束信息(Restriction)以及基本描述(Description)等。本平臺(tái)通過元數(shù)據(jù)定義通用對(duì)象實(shí)體的數(shù)據(jù)內(nèi)容,通過數(shù)據(jù)接口標(biāo)準(zhǔn)對(duì)數(shù)據(jù)的交換進(jìn)行規(guī)范,使得數(shù)據(jù)行業(yè)化,形成數(shù)據(jù)的資源池,完成數(shù)據(jù)的標(biāo)準(zhǔn)化體系和專業(yè)性數(shù)據(jù)化模型的建立。
針對(duì)煤礦機(jī)電設(shè)備數(shù)據(jù)質(zhì)量差、可用性低的特點(diǎn),本平臺(tái)利用典型的機(jī)器學(xué)習(xí)算法,建立數(shù)據(jù)清洗和數(shù)據(jù)預(yù)警分析模型。提出了基于時(shí)間序列分析的設(shè)備運(yùn)行狀態(tài)大數(shù)據(jù)清洗模型,將設(shè)備運(yùn)行狀態(tài)大數(shù)據(jù)中存在的異常值進(jìn)行分類,分析不同類型的異常值對(duì)建模的影響,通過迭代檢驗(yàn)的方法將數(shù)據(jù)中的異常值檢測(cè)并修復(fù)。為提高數(shù)據(jù)清洗的效率,將基于時(shí)間序列分析的數(shù)據(jù)清洗模型與MapReduce技術(shù)相結(jié)合,建立了雙MapReduce的設(shè)備運(yùn)行狀態(tài)大數(shù)據(jù)清洗模型;針對(duì)非線性時(shí)間序列特征提取與處理的算法以及復(fù)雜BOM結(jié)構(gòu)離散裝備的分析建模,解析設(shè)備故障模式與特征之間的相互關(guān)系,實(shí)現(xiàn)設(shè)備運(yùn)行狀態(tài)健康監(jiān)測(cè)、劣化趨勢(shì)跟以及故障預(yù)警。除此之外,基于時(shí)間序列、時(shí)空數(shù)據(jù)以及序列模式的深度學(xué)習(xí)算法庫也在逐步完善當(dāng)中。
本平臺(tái)利用數(shù)據(jù)可視化技術(shù)解析設(shè)備和人員信息的表達(dá)模式,研究設(shè)備故障模式與特征之間的相互關(guān)系,向用戶多層次、多角度地展示設(shè)備運(yùn)行狀況,使數(shù)據(jù)更加具備客觀性和說服力,提供的數(shù)據(jù)可視化技術(shù)包括:WEB前端技術(shù)、ECharts可視化技術(shù)工具、Ajax(異步JavaScript和XML)技術(shù)及多維數(shù)據(jù)可視化技術(shù)。本平臺(tái)通過echarts.init方法初始化echarts實(shí)例,調(diào)用ECharts樣本庫文件,通過setOption方法進(jìn)行圖例設(shè)計(jì),并利用Ajax技術(shù)異步發(fā)送JSON的格式數(shù)據(jù)請(qǐng)求,實(shí)現(xiàn)煤礦機(jī)電設(shè)備運(yùn)行狀態(tài)的動(dòng)態(tài)加載。
為驗(yàn)證本文設(shè)計(jì)的煤礦機(jī)電設(shè)備運(yùn)行狀態(tài)大數(shù)據(jù)管理平臺(tái)的數(shù)據(jù)存儲(chǔ)性能、數(shù)據(jù)處理性能,在實(shí)驗(yàn)室搭建Hadoop集群進(jìn)行性能測(cè)試,進(jìn)行RDF數(shù)據(jù)存儲(chǔ)模型實(shí)驗(yàn)以及并行化數(shù)據(jù)處理模型實(shí)驗(yàn)。
本文中Hadoop集群是在IBM-S822LC服務(wù)器上搭建而成,服務(wù)器配置NVIDIA Tesla K80 GPU、256G內(nèi)存、960G固態(tài)硬盤以及10T的磁盤存儲(chǔ)陣列,實(shí)現(xiàn)海量數(shù)據(jù)的高效處理與存儲(chǔ)。通過在服務(wù)器上創(chuàng)建三臺(tái)虛擬機(jī)組成Hadoop集群,其中一臺(tái)虛擬機(jī)作為Hadoop的主節(jié)點(diǎn)即名稱節(jié)點(diǎn)(NameNode),另外兩臺(tái)虛擬機(jī)作為從節(jié)點(diǎn)即數(shù)據(jù)節(jié)點(diǎn)(DataNode)。測(cè)試環(huán)境硬件配置見表4,軟件配置見表5。
表4 Hadoop平臺(tái)集群硬件配置
表5 虛擬機(jī)軟件配置
為驗(yàn)證RDF數(shù)據(jù)存儲(chǔ)模型的可行性,對(duì)海量的RDF數(shù)據(jù)進(jìn)行解析與加載,數(shù)據(jù)來源于設(shè)備運(yùn)行狀態(tài)大數(shù)據(jù)統(tǒng)一描述后生成的RDF的數(shù)據(jù),本次實(shí)驗(yàn)分別對(duì)Oracle和Hadoop集群的數(shù)據(jù)存儲(chǔ)性能進(jìn)行測(cè)試,分別記載單機(jī)和集群對(duì)數(shù)據(jù)進(jìn)行解析和加載的時(shí)間,結(jié)果如圖4所示。
圖4 RDF數(shù)據(jù)解析與加載時(shí)間對(duì)比
由圖4可知,當(dāng)三元組數(shù)目為1.08百萬以下時(shí),Oracle系統(tǒng)的數(shù)據(jù)解析和加載性能優(yōu)于本平臺(tái),當(dāng)三元組數(shù)目超過1.08百萬時(shí),Hadoop集群的優(yōu)勢(shì)越來越明顯。原因如下:
1)集群對(duì)RDF數(shù)據(jù)進(jìn)行加載時(shí)啟動(dòng)多個(gè)MapReduce任務(wù)需要耗費(fèi)部分時(shí)間,因此,當(dāng)數(shù)據(jù)量較小時(shí),Oracle系統(tǒng)性能更優(yōu)。
2)當(dāng)數(shù)據(jù)量大時(shí),Hadoop的優(yōu)勢(shì)體現(xiàn)于底層的HDFS進(jìn)行分布式數(shù)據(jù)管理、 MapReduce進(jìn)行并行數(shù)據(jù)處理,因此,所耗費(fèi)的計(jì)算和網(wǎng)絡(luò)資源更少,提高數(shù)據(jù)加載效率。
本文在Hadoop平臺(tái)上對(duì)設(shè)備運(yùn)行狀態(tài)大數(shù)據(jù)進(jìn)行清洗處理,對(duì)存在的噪聲點(diǎn)和缺失值進(jìn)行修復(fù),分別對(duì)基于時(shí)間序列清洗模型和本文提出的清洗模型進(jìn)行分析,結(jié)果如圖5所示。
圖5 數(shù)據(jù)清洗時(shí)間對(duì)比
從圖5中能夠得出,在數(shù)據(jù)總量較少時(shí),由于系統(tǒng)初始化、中間文件的生成與傳遞耗時(shí)較多,因此,基于時(shí)間序列的數(shù)據(jù)清洗模型效果更優(yōu);隨著數(shù)據(jù)量的不斷增大,系統(tǒng)初始化、中間文件生成與傳遞所花費(fèi)的時(shí)間與數(shù)據(jù)清洗的時(shí)間相比越來越少,本文建立的雙MapReduce的設(shè)備運(yùn)行狀態(tài)大數(shù)據(jù)清洗模型就體現(xiàn)出了明顯的優(yōu)勢(shì)。
本文簡(jiǎn)述了煤礦機(jī)電設(shè)備大數(shù)據(jù)的來源,指出煤礦企業(yè)在數(shù)據(jù)存儲(chǔ)、處理方面所面臨的難題,提出基于Hadoop的煤礦企業(yè)大數(shù)據(jù)管理分析平臺(tái)。該平臺(tái)集數(shù)據(jù)采集、多源數(shù)據(jù)數(shù)據(jù)融合、分布式存儲(chǔ)、大數(shù)據(jù)挖掘分析等為一體,通過高通量數(shù)據(jù)管理技術(shù)和多源數(shù)據(jù)融合技術(shù)對(duì)數(shù)據(jù)進(jìn)行融合轉(zhuǎn)換,通過大數(shù)據(jù)挖掘分析算法對(duì)數(shù)據(jù)進(jìn)行建模分析,進(jìn)一步提升了數(shù)據(jù)管理能力,實(shí)現(xiàn)企業(yè)底層到上層的信息貫通。