劉純
摘要:在總結(jié)煤炭大數(shù)據(jù)大容量、快速性、多樣性、真實性、可見性、價值等特征的基礎上,從煤炭大數(shù)據(jù)理論、煤炭大數(shù)據(jù)與物聯(lián)網(wǎng)和云計算的關系、煤炭大數(shù)據(jù)平臺建設方面介紹了煤炭大數(shù)據(jù)研究現(xiàn)狀;分析了煤炭大數(shù)據(jù)的多層面不均勻采樣性、多時間尺度特性、不真實數(shù)據(jù)混雜性等新特點及其對煤炭大數(shù)據(jù)分析帶來的挑戰(zhàn);從大數(shù)據(jù)采集與管理、大數(shù)據(jù)分析、大數(shù)據(jù)共享方面對建設煤炭大數(shù)據(jù)平臺功能進行了展望,并從應用領域探討了大數(shù)據(jù)技術在煤炭工業(yè)中可能的發(fā)展方向。
關鍵詞:煤炭工業(yè);大數(shù)據(jù);物聯(lián)網(wǎng);云計算;煤炭大數(shù)據(jù)平臺
隨著傳感器、計算機、通信、物聯(lián)網(wǎng)、數(shù)據(jù)存儲等技術的發(fā)展,以及企業(yè)信息管理系統(tǒng)的不斷普及,制造工業(yè)等行業(yè)產(chǎn)生并存儲了大容量數(shù)據(jù),且隨時間呈指數(shù)級增長,工業(yè)界已經(jīng)進入了“大數(shù)據(jù)”時代,煤炭工業(yè)就是其中的一個典型代表。煤炭是中國的主體能源,其產(chǎn)業(yè)的健康發(fā)展對經(jīng)濟社會發(fā)展至關重要,甚至關系著國家能源安全。因此,迫切需要依托物聯(lián)網(wǎng)、云計算和大數(shù)據(jù)技術,采集、存儲和挖掘海量數(shù)據(jù),從數(shù)據(jù)中探索解決煤炭“采掘機運通排”中若干問題,推動煤炭行業(yè)由生產(chǎn)自動化、信息自動化轉(zhuǎn)型升級為知識自動化。
麥肯錫的報告顯示,就大數(shù)據(jù)的數(shù)量而言,諸如煤炭等領域的過程工業(yè),其數(shù)據(jù)產(chǎn)出量及可被接入的設備數(shù)量遠遠超過移動互聯(lián)網(wǎng)等其他行業(yè),而且增速是其他大數(shù)據(jù)領域的2倍。然而,煤炭大數(shù)據(jù)的利用卻遠沒有像當前移動互聯(lián)網(wǎng)領域那樣普遍和深入,其中數(shù)據(jù)的價值還有待挖掘。本文闡述了煤炭大數(shù)據(jù)的特征及研究現(xiàn)狀,并在分析煤炭大數(shù)據(jù)新特點的基礎上,對煤炭大數(shù)據(jù)平臺的發(fā)展與應用進行了探討與展望。
1煤炭大數(shù)據(jù)特征
大數(shù)據(jù)分析手段主要是圍繞大數(shù)據(jù)的“4Vs”
(Volume———大容量,Velocity———快速性,Variety———多樣性,Veracity———真實性)特性去發(fā)展與完善的。除“4Vs”特性外,煤炭大數(shù)據(jù)還應該加上“2Vs”,即Visibility———可見性(通過大數(shù)據(jù)分析使以往隱匿的重要因素和信息可見),Value———價值(通過大數(shù)據(jù)分析得到的信息應該被轉(zhuǎn)換成價值)。這“2Vs”代表了煤炭工業(yè)界對于大數(shù)據(jù)所追求的目的和意義。
(1)大容量(Volume)體現(xiàn)在數(shù)據(jù)采樣頻率高(采樣間隔為毫秒級)與采樣時間段長(24h不間斷運行)所帶來的大容量歷史數(shù)據(jù)。以單臺礦井通風機為例,其數(shù)據(jù)采樣頻率為50Hz,每秒產(chǎn)生225kB數(shù)據(jù),按每年7000h工作時間計算,僅單臺通風機每年生成6TB數(shù)據(jù)。
(2)快速性(Velocity)體現(xiàn)在高頻的數(shù)據(jù)采集。
由于井下作業(yè)環(huán)境惡劣、24h不間斷生產(chǎn),生產(chǎn)環(huán)境安全監(jiān)測監(jiān)控系統(tǒng)、各生產(chǎn)環(huán)節(jié)的自動化系統(tǒng)等的實時數(shù)據(jù)與信息需要安全、準確、實時地傳至數(shù)據(jù)處理中心,所以每秒鐘會記錄幾千兆甚至上萬兆字節(jié)的數(shù)據(jù)。
(3)多樣性(Variety)體現(xiàn)在異構性和不同時間尺度、不均勻采樣。異構性是指煤炭大數(shù)據(jù)除“采掘機運通排”控制系統(tǒng)采集的結(jié)構化生產(chǎn)過程數(shù)據(jù)外,還包括以生產(chǎn)環(huán)境在線監(jiān)測為主的視頻圖像、語音,以及規(guī)章制度、應急案例文本等非結(jié)構化數(shù)據(jù)。此外,煤炭工業(yè)采用分層次運行方式,采集的時間序列數(shù)據(jù)既有高維且快速動態(tài)采樣的壓力、流量等過程數(shù)據(jù),又有低速、不均勻采樣的灰分、硫分等指標數(shù)據(jù)。
(4)真實性(Veracity)體現(xiàn)在真實數(shù)據(jù)與離群點數(shù)據(jù)的混雜。由于煤炭掘進、開采和洗選過程生產(chǎn)環(huán)境惡劣,測量儀表或變送器受干擾嚴重,且故障頻發(fā),使得測量數(shù)據(jù)中混雜不真實數(shù)據(jù),存在離群點、缺失點等異常樣本。如重介質(zhì)選煤過程中,由于在線灰分儀運行不穩(wěn)定,經(jīng)常導致灰分實際測量值出現(xiàn)大偏差,導致歷史數(shù)據(jù)中出現(xiàn)離群點。
(5)可見性(Visibility)體現(xiàn)在對隱匿性問題的建模和預測。設備性能下降、健康衰退、零部件磨損等問題難以通過測量被量化,而大部分可見的問題都是這些不可見因素積累到一定程度所造成的,因此需要通過大數(shù)據(jù)分析使以往隱匿的重要因素和信息可見,從而避免可見問題的發(fā)生。
(6)價值(Value)體現(xiàn)在數(shù)據(jù)密度高、價值小。
煤炭生產(chǎn)中,系統(tǒng)經(jīng)常在某一特定且正常工況下運行,而故障等異常工況只是偶然發(fā)生,因此大量數(shù)據(jù)均是存在冗余的正常運行數(shù)據(jù),而反映異常的數(shù)據(jù)非常少。
2煤炭大數(shù)據(jù)研究現(xiàn)狀
從20世紀90年代至今,煤礦自動化經(jīng)歷了從單機自動化、綜合自動化到煤礦物聯(lián)網(wǎng)的發(fā)展,且隨著煤炭企業(yè)信息化與自動化的不斷提高及兩化融合的快速發(fā)展,安全監(jiān)控、人員定位、可視通信、數(shù)字化礦山、三維建模、企業(yè)資源計劃等系統(tǒng)不斷應用,產(chǎn)生了海量、不同層次、不同類別的數(shù)據(jù)資源,為大數(shù)據(jù)在煤炭工業(yè)中的應用奠定了基礎。
由于缺少針對煤炭大數(shù)據(jù)特征的分析工具及高效的計算平臺來提取隱匿的知識,煤炭大數(shù)據(jù)還未充分利用,目前主要是對數(shù)據(jù)進行采集、壓縮存檔、恢復與預測分析。其中預測分析主要集中在煤炭安全生產(chǎn)領域,但尚處于理論研究和起步階段,沒有成功的模式和案例。
當前,大數(shù)據(jù)已經(jīng)成為國家的戰(zhàn)略資源和推動產(chǎn)業(yè)發(fā)展的重要引擎,煤炭工業(yè)的安全化、綠色化、智能化發(fā)展對煤炭大數(shù)據(jù)平臺的需求迫在眉睫。2016年7月19日,煤炭大數(shù)據(jù)平臺V2.0在“2016夏季全國煤炭交易大會”上正式啟動,該平臺涵蓋煤炭GIS、圖解煤炭、煤炭物流、信用查詢、預測預警、數(shù)據(jù)分析、能源經(jīng)濟七大功能模塊,但仍存在數(shù)據(jù)體系不完善、采集渠道不暢通、數(shù)據(jù)時效性不強等問題。
3煤炭大數(shù)據(jù)新特點及研究挑戰(zhàn)
隨著信息化發(fā)展和可編程邏輯控制器與集散控制系統(tǒng)的廣泛采用,以及安全生產(chǎn)過程管理、設備操作優(yōu)化需求的不斷增加,煤炭生產(chǎn)向大規(guī)模、集成化發(fā)展,多單元、多產(chǎn)品生產(chǎn)、動態(tài)運行。煤炭大數(shù)據(jù)體現(xiàn)出與廣泛過程工業(yè)大數(shù)據(jù)類似的多層面不均勻采樣性、多時間尺度特性、不真實數(shù)據(jù)混雜性的新特點,對已有研究方法帶來挑戰(zhàn)。
(1)多層面不均勻采樣性。煤炭生產(chǎn)過程既有高維動態(tài)的過程數(shù)據(jù),又有不均勻采樣的指標數(shù)據(jù),比如灰分指標往往難以在線測量,通常通過人工化驗獲得,而人工化驗時間在一定范圍內(nèi)具有隨機性,導致數(shù)據(jù)具有大延遲和不均勻采樣的特點。
現(xiàn)有數(shù)據(jù)驅(qū)動方法多集中在對均勻采樣數(shù)據(jù)的分析與處理,無法對不均勻采樣的數(shù)據(jù)進行分析與處理。
(2)多時間尺度特性。多時間尺度體現(xiàn)在不同系統(tǒng)根據(jù)需求進行分層采樣,進而進行優(yōu)化決策與控制。其中,設備層是整個生產(chǎn)系統(tǒng)的最底層,實時監(jiān)測設備運行狀態(tài),其通常以毫秒為單位采集設備數(shù)據(jù)(如重介質(zhì)選煤過程的入料泵變頻電流等);上一層為過程控制層,以秒級采集過程控制數(shù)據(jù)(如重介密度、合介筒液位等),并實施控制,以保證過程的關鍵變量按照給定的設定值變化,并驅(qū)動設備狀態(tài)按指定邏輯順序變化,是穩(wěn)定生產(chǎn)的關鍵;再上一層為運行優(yōu)化層,采集從產(chǎn)品質(zhì)量分析儀或人工化驗或統(tǒng)計得到的多種類且不均勻采樣的產(chǎn)品質(zhì)量、產(chǎn)量、能耗等運行指標數(shù)據(jù)(如灰分、硫分,視頻監(jiān)控帶式輸送機運煤表面圖像數(shù)據(jù)等),由優(yōu)化策略進行分析計算,產(chǎn)生新的過程設定值;最上層為生產(chǎn)經(jīng)營管理層,采集來自市場營銷和售后服務與用戶的反饋數(shù)據(jù)(如市場對煤質(zhì)的定量與定性評價數(shù)據(jù)),進行市場分析,從而指導和協(xié)調(diào)生產(chǎn)。
多時間尺度上的數(shù)據(jù)具有強自相關與互相關關系,以及時間序列相關關系,但不同時間尺度采樣使得所獲取的數(shù)據(jù)具有不均勻稀疏性,對現(xiàn)有數(shù)據(jù)分析方法帶來挑戰(zhàn)。
(3)不真實數(shù)據(jù)混雜性。高維動態(tài)歷史數(shù)據(jù)中夾雜與過程特性無關的干擾數(shù)據(jù),這是因為受惡劣環(huán)境影響,煤炭實際生產(chǎn)過程數(shù)據(jù)易受采集、傳輸、存儲過程中的異常影響,從而混雜離群點甚至缺失點。這在不同時間尺度采樣中均存在,如過程控制層的傳感器設備故障,以及運行優(yōu)化層的化驗與人為讀數(shù)誤差等。
現(xiàn)有數(shù)據(jù)分析方法需要無污染的數(shù)據(jù),但不真實數(shù)據(jù)的存在不可避免。因此,如何從混雜數(shù)據(jù)中提取出反映過程特性本質(zhì)的模型,建立魯棒數(shù)據(jù)分析方法,將是研究的重點和難點。
4煤炭大數(shù)據(jù)展望
4.1煤炭大數(shù)據(jù)平臺展望
近幾年,煤炭大數(shù)據(jù)技術發(fā)展較快,具備了一定基礎,但當前中國煤炭數(shù)據(jù)信息采集渠道仍不暢通,數(shù)據(jù)傳達相對滯后,時效性不強,缺少有效的分析工具及高效的分析方法實現(xiàn)煤炭大數(shù)據(jù)的價值。因此,煤炭大數(shù)據(jù)平臺必須重點實現(xiàn)大數(shù)據(jù)采集與管理、大數(shù)據(jù)分析、大數(shù)據(jù)共享功能。
(1)大數(shù)據(jù)采集與管理。大數(shù)據(jù)的基礎在于數(shù)據(jù),因此需充分利用各類傳感器、無線網(wǎng)絡等加強對生產(chǎn)過程、監(jiān)測監(jiān)控、設備運行、經(jīng)營管理等各類數(shù)據(jù)的采集與管理。此外,標準統(tǒng)一也是大數(shù)據(jù)的基礎。沒有統(tǒng)一的行業(yè)信息標準,就無法整合來自不同領域、企業(yè)、類型的數(shù)據(jù)和信息。按照煤炭大數(shù)據(jù)建設的核心理念,建立全國煤炭數(shù)據(jù)實時在線采集系統(tǒng),對各省市現(xiàn)有煤炭監(jiān)測系統(tǒng)進行整合,形成基礎數(shù)據(jù)庫,并使各系統(tǒng)能夠以統(tǒng)一的接口進行數(shù)據(jù)傳輸,實現(xiàn)基層煤礦數(shù)據(jù)的實時更新。同時,依托物聯(lián)網(wǎng)、大數(shù)據(jù)技術,將煤炭行業(yè)數(shù)據(jù)全部納入采集系統(tǒng),實現(xiàn)各類煤炭數(shù)據(jù)的全國聯(lián)網(wǎng),構建囊括煤炭生產(chǎn)、消費、交易等相關信息的全國煤炭數(shù)據(jù)庫。
(2)大數(shù)據(jù)分析。對大容量數(shù)據(jù)中知識的挖掘是大數(shù)據(jù)技術的關鍵所在,然而,解決問題的知識通常具有隱匿性,其不是直接呈現(xiàn)在數(shù)據(jù)里,而是呈現(xiàn)在用于揭示數(shù)據(jù)的模型中。因此,煤炭大數(shù)據(jù)的核心在于采用降維、分類與聚類、時序數(shù)據(jù)模式挖掘、數(shù)據(jù)源融合處理及關聯(lián)關系分析等數(shù)據(jù)分析方法,快速獲取、分析、處理海量的工業(yè)生產(chǎn)過程監(jiān)控數(shù)據(jù),建立不同層次(過程監(jiān)測、故障診斷、優(yōu)化決策、控制等)的模型,從而推動煤炭安全管理思維變革,增強系統(tǒng)安全觀念,推動安全監(jiān)察監(jiān)管信息的共享,加快打通信息源壁壘,推動數(shù)據(jù)的深度挖掘,為設備運行優(yōu)化提供理論支撐。對于容量呈指數(shù)級增加的大數(shù)據(jù),傳統(tǒng)數(shù)據(jù)分析方法無法處理或處理過慢,因此煤炭大數(shù)據(jù)分析需借鑒已有高速的大數(shù)據(jù)建模與優(yōu)化算法,如面向大數(shù)據(jù)特征的深度學習算法等。
(3)大數(shù)據(jù)共享。依靠某個企業(yè)單一數(shù)據(jù)樣本很難實現(xiàn)大數(shù)據(jù)價值,需建立全國煤炭行業(yè)各類數(shù)據(jù)匯總的總平臺,使本行業(yè)各類信息平臺與電力等其他行業(yè)相關平臺進行數(shù)據(jù)接入與共享,充分發(fā)揮行業(yè)協(xié)會、煤炭企業(yè)、科研院所、信息技術廠商等各方力量。
4.2煤炭大數(shù)據(jù)應用展望
煤炭工業(yè)應根據(jù)自身大數(shù)據(jù)特點,結(jié)合工業(yè)大數(shù)據(jù)在建模、控制與優(yōu)化技術方面研究成果,利用互聯(lián)網(wǎng)產(chǎn)業(yè)已建立的大數(shù)據(jù)管理平臺,推進煤炭行業(yè)各級部門間數(shù)據(jù)的共享,面向煤炭安全生產(chǎn)、過程優(yōu)化與決策、控制、故障診斷進行應用實踐。
(1)基于大數(shù)據(jù)的煤礦智能無人開采。通過積累各類地質(zhì)構造、煤巖煤質(zhì)、大型采掘設備等的大數(shù)據(jù)樣本,構建各類開采條件下的智能開采模型。
(2)基于大數(shù)據(jù)的煤礦災害預警與防治。通過積累煤礦大量監(jiān)測數(shù)據(jù)樣本,可探索基于大數(shù)據(jù)的煤礦事故預警方法,將大數(shù)據(jù)用于煤與瓦斯突出、沖擊地壓、水害、火災等煤礦事故預警。
(3)基于大數(shù)據(jù)的煤礦設備故障診斷。通過監(jiān)測煤礦設備振動、聲音、溫度、功率等設備運行狀態(tài)數(shù)據(jù),研究關鍵設備異常狀態(tài)與設備故障的關系,實現(xiàn)基于大數(shù)據(jù)的煤礦設備故障診斷。
(4)基于大數(shù)據(jù)的行業(yè)運行監(jiān)測與預測。通過積累煤炭市場交易數(shù)據(jù)、供需企業(yè)經(jīng)營數(shù)據(jù)、港口鐵路運輸數(shù)據(jù)、國際大宗商品市場數(shù)據(jù)、宏觀經(jīng)濟及下游行業(yè)運行數(shù)據(jù)等,進行煤炭需求與價格預測。
(5)基于大數(shù)據(jù)的煤礦生產(chǎn)全流程一體化。通過不同時間尺度、不均勻采樣,可充分挖掘設備層、過程控制層、運行優(yōu)化層、生產(chǎn)經(jīng)營管理層不同層級內(nèi)與層級間的隱匿性知識,設計集全流程生產(chǎn)指標、運行指標、過程設定值與控制規(guī)律的優(yōu)化控制方法,實現(xiàn)生產(chǎn)全流程一體化,從而降低煤炭生產(chǎn)的能耗與物耗,提高產(chǎn)品質(zhì)量。
5結(jié)語
煤炭大數(shù)據(jù)還處于理論探索階段,已建立的煤炭大數(shù)據(jù)平臺尚未能挖掘大數(shù)據(jù)隱含的價值。同時,煤炭大數(shù)據(jù)的多層面不均勻采樣性、多時間尺度特性、不真實數(shù)據(jù)混雜性的新特點對大數(shù)據(jù)分析所帶來的挑戰(zhàn)性問題,是煤炭大數(shù)據(jù)技術進一步研究的重點和難點。在煤炭行業(yè)開展大數(shù)據(jù)應用,利用煤炭大數(shù)據(jù)平臺,探尋煤炭產(chǎn)業(yè)發(fā)展規(guī)律,探索煤炭行業(yè)科學管理方法,成為煤炭乃至整個能源行業(yè)發(fā)展的必然要求和必經(jīng)之路。
參考文獻
[1] 李學龍,龔海剛.大數(shù)據(jù)系統(tǒng)綜述[J].中國科學:信息科學,2015,45(1):1-44.
[2] 馬小平,胡延軍,繆燕子.物聯(lián)網(wǎng)、大數(shù)據(jù)及云計算技術在煤礦安全生產(chǎn)中的應用研究[J].工礦自動化,2014,40(4):5-9