李國清 李學(xué)玉 侯 杰 強(qiáng)興邦 王 浩 國禎翔 趙 威
(1.北京科技大學(xué)土木與資源工程學(xué)院,北京 100083;2.山東黃金礦業(yè)(萊州)有限公司三山島金礦,山東 萊州 261442)
礦山作業(yè)條件復(fù)雜、勞動(dòng)環(huán)境惡劣,長久以來被視為高危險(xiǎn)、高消耗的勞動(dòng)密集型行業(yè),安全生產(chǎn)在礦山企業(yè)中備受重視。在礦山生產(chǎn)過程中存在多種安全隱患,及時(shí)發(fā)現(xiàn)和治理這些隱患對于保障安全生產(chǎn)、避免安全事故的發(fā)生具有重要意義,因而安全隱患的精準(zhǔn)辨識(shí)與迅速排查日益受到重視。許多礦山積極完善安全管理制度,建立相應(yīng)的管理信息系統(tǒng)[1-3],以提升現(xiàn)場安全管理水平,治理安全隱患,完成安全檢查的信息化與數(shù)字化,礦山的安全管理逐漸從事后總結(jié)轉(zhuǎn)變?yōu)槭虑邦A(yù)防。
隨著信息系統(tǒng)的長期應(yīng)用,系統(tǒng)中積累了大量礦山監(jiān)測監(jiān)控、日常安全檢查、安全隱患排查與整改、設(shè)備運(yùn)行狀態(tài)、人員安全記錄等信息[4]。這些數(shù)據(jù)都是礦山在解決實(shí)際安全隱患過程中積累下的寶貴財(cái)富,不僅數(shù)量巨大,而且數(shù)據(jù)的類型多樣、數(shù)據(jù)增長幅度逐漸增加,傳統(tǒng)的數(shù)據(jù)分析方法對于這些數(shù)據(jù)的分析效果并不理想[5]。
大數(shù)據(jù)分析技術(shù)的發(fā)展以及數(shù)據(jù)挖掘等算法和工具的日益完善為礦山安全隱患數(shù)據(jù)的深層次利用提供了有效途徑。例如,Lluís Sanmique等[6]利用數(shù)據(jù)挖掘技術(shù)對一個(gè)由西班牙采礦業(yè)2003—2012年中近7萬起職業(yè)事故和死亡報(bào)告組成的數(shù)據(jù)庫進(jìn)行了分析;劉紅賓等[7]構(gòu)建了煤礦安全數(shù)據(jù)挖掘系統(tǒng)原型架構(gòu),確定了礦山安全數(shù)據(jù)的主題域,有效地對煤礦安全生產(chǎn)信息進(jìn)行了管理。但是大數(shù)據(jù)分析技術(shù)學(xué)習(xí)成本高、難度大,需要用到的分析工具配置復(fù)雜,不利于該技術(shù)在礦山企業(yè)的廣泛應(yīng)用。綜上所述,本研究的重點(diǎn)是融合現(xiàn)代安全管理理論、大數(shù)據(jù)分析、數(shù)據(jù)挖掘和系統(tǒng)研發(fā)等多種技術(shù)手段,探索以文本挖掘技術(shù)為主的大數(shù)據(jù)分析方法在礦山安全隱患分析與預(yù)警中的應(yīng)用,從大量安全隱患數(shù)據(jù)中獲取需要的規(guī)律規(guī)則和知識(shí),實(shí)現(xiàn)礦山安全管理數(shù)據(jù)資源的有效利用;通過計(jì)算機(jī)軟件技術(shù)封裝復(fù)雜的數(shù)據(jù)分析算法,形成科學(xué)有效的安全生產(chǎn)大數(shù)據(jù)分析與數(shù)據(jù)可視化展示,提高礦山安全管理水平,最大限度地保障開采過程中人員和設(shè)備等要素的安全。
以國內(nèi)某大型礦山安全生產(chǎn)管理系統(tǒng)中積累的7萬多條安全隱患排查數(shù)據(jù)作為原始數(shù)據(jù)來源,這些安全隱患檢查數(shù)據(jù)中包含了隱患發(fā)生時(shí)間、地點(diǎn)、隱患問題描述等大量有效信息。但是安全檢查數(shù)據(jù)存在記錄隨意、用語不規(guī)范、行業(yè)習(xí)慣用語多、問題描述不清晰等問題,限制了其更深層次的有效利用;同時(shí),礦山安全生產(chǎn)管理的特殊性和復(fù)雜性使得相應(yīng)的采礦安全信息維度眾多、內(nèi)容龐大、層次多極化,因而在傳統(tǒng)模式下,管理人員很難全面、實(shí)時(shí)、直觀地掌控和分析礦山的安全生產(chǎn)狀況。面對這些格式多樣、標(biāo)準(zhǔn)不一、以文本數(shù)據(jù)為主的非結(jié)構(gòu)化數(shù)據(jù),礦山企業(yè)缺乏有效的分析方法,難以從海量的安全數(shù)據(jù)中提取出可指導(dǎo)安全生產(chǎn)的有價(jià)值信息,造成了數(shù)據(jù)資源的堆積與浪費(fèi)。經(jīng)過分析研究,這些安全隱患記錄數(shù)據(jù)呈現(xiàn)出突出的大數(shù)據(jù)4V特征,即數(shù)據(jù)體量(Volume)大、種類(Variety)多樣、數(shù)據(jù)增長速度(Velocity)快、價(jià)值(Value)密度低。受限于傳統(tǒng)數(shù)據(jù)分析的方法與功能,這些安全數(shù)據(jù)只用于完成簡單的安全問題處理、報(bào)表分析和數(shù)據(jù)統(tǒng)計(jì),數(shù)據(jù)的生命周期相當(dāng)短暫,在隱患排查完成后即以分散化、無序化的形式堆積,沉淀成為大量的歷史數(shù)據(jù),對于增加隱患排查的針對性、可視化描述安全隱患的分布規(guī)律和關(guān)聯(lián)關(guān)系等遠(yuǎn)未起到支撐作用。
大數(shù)據(jù)分析技術(shù)是通過分析挖掘算法實(shí)現(xiàn)從海量的、價(jià)值密度較低的數(shù)據(jù)中,提取出其中潛在有用的信息的過程,而且分析的對象可以是任何類型的數(shù)據(jù)。因此本研究引入大數(shù)據(jù)分析中的文本挖掘與可視化方法,對這些礦山安全隱患數(shù)據(jù)進(jìn)行分析,挖掘安全隱患中的隱藏知識(shí),以實(shí)現(xiàn)安全管控從事后分析到事前預(yù)防、從被動(dòng)應(yīng)對到主動(dòng)防控、從單一要素到精細(xì)協(xié)同的安全管理智能化的目標(biāo)。
(1)面向大數(shù)據(jù)分析的危險(xiǎn)源智能辨識(shí)。利用大數(shù)據(jù)分析方法智能辨識(shí)礦山生產(chǎn)過程中的主要危險(xiǎn)源,從人的不安全行為、物的不安全狀態(tài)、環(huán)境影響、管理層面、時(shí)間和空間等維度辨別出影響礦山安全生產(chǎn)的主要危險(xiǎn)源,為礦山找到主要風(fēng)險(xiǎn)點(diǎn)內(nèi)容和區(qū)域提供依據(jù)。
(2)面向大數(shù)據(jù)分析的安全風(fēng)險(xiǎn)主題挖掘。利用大數(shù)據(jù)分析技術(shù)完成主要安全風(fēng)險(xiǎn)問題的歸集,分析出礦山安全風(fēng)險(xiǎn)的核心主題,獲得的礦山安全風(fēng)險(xiǎn)主題對安全風(fēng)險(xiǎn)排查與治理具有重要參考價(jià)值。
(3)面向語義網(wǎng)絡(luò)大數(shù)據(jù)分析的安全風(fēng)險(xiǎn)辨識(shí)?;诖髷?shù)據(jù)分析中的語義網(wǎng)絡(luò)分析模型進(jìn)行安全風(fēng)險(xiǎn)辨識(shí)與分析,找到安全風(fēng)險(xiǎn)間的關(guān)聯(lián)與隱性知識(shí),對于礦山找到安全隱患致因具有重要意義。
(4)面向關(guān)聯(lián)大數(shù)據(jù)分析的安全隱患誘導(dǎo)與演化分析。針對安全風(fēng)險(xiǎn)大數(shù)據(jù)間關(guān)聯(lián)進(jìn)行分析,梳理作業(yè)過程中風(fēng)險(xiǎn)相關(guān)性規(guī)律,直觀地展示出安全風(fēng)險(xiǎn)間的關(guān)聯(lián)關(guān)系,以此指導(dǎo)安全管理者對礦山安全風(fēng)險(xiǎn)形式快速做出分析,以及制定相應(yīng)的隱患治理方案。
礦山安全隱患大數(shù)據(jù)平臺(tái)以云計(jì)算平臺(tái)和大數(shù)據(jù)分析平臺(tái)作為基礎(chǔ)性平臺(tái),云計(jì)算平臺(tái)為安全隱患數(shù)據(jù)的存儲(chǔ)、模型計(jì)算提供支持,大數(shù)據(jù)分析平臺(tái)為安全數(shù)據(jù)抽取、加工、分析和深層次利用提供基礎(chǔ)平臺(tái),系統(tǒng)整體架構(gòu)如圖1所示。從事務(wù)處理和服務(wù)角度,系統(tǒng)可以劃分成數(shù)據(jù)資產(chǎn)管理和平臺(tái)運(yùn)維管理2部分,數(shù)據(jù)資產(chǎn)管理主要包括基礎(chǔ)數(shù)據(jù)采集和數(shù)據(jù)預(yù)處理,平臺(tái)運(yùn)維管理包括知識(shí)庫、算法庫、執(zhí)行分析腳 本和數(shù)據(jù)可視化管理等。
圖1 安全隱患大數(shù)據(jù)分析系統(tǒng)整體框架Fig.1 Framework of big data analysis system for potential safety hazards
安全隱患大數(shù)據(jù)分析系統(tǒng)的整體框架分為大數(shù)據(jù)采集層、大數(shù)據(jù)預(yù)處理層、大數(shù)據(jù)分析層和大數(shù)據(jù)可視化層,其功能和作用如下:
(1)大數(shù)據(jù)采集層。將不同來源、形式的隱患數(shù)據(jù)按照統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)行集中存儲(chǔ)。安全隱患數(shù)據(jù)來源廣泛,采集形式多樣,安全隱患數(shù)據(jù)主要來源于不同周期、不同主題的礦山現(xiàn)場安全檢查工作,數(shù)據(jù)表現(xiàn)為非結(jié)構(gòu)化文本數(shù)據(jù)以及圖像、視頻資料,數(shù)據(jù)采集形式分為電腦端和移動(dòng)端軟件2種。
(2)大數(shù)據(jù)預(yù)處理層。將安全隱患文本數(shù)據(jù)抽取、轉(zhuǎn)換、清洗、標(biāo)準(zhǔn)化處理后歸集為不同主題的數(shù)據(jù)倉庫,生成面向決策分析需求的數(shù)據(jù)立方體。安全隱患數(shù)據(jù)清洗包括缺失數(shù)據(jù)填補(bǔ)、錯(cuò)誤數(shù)據(jù)修正、以及數(shù)據(jù)格式統(tǒng)一等;針對文本數(shù)據(jù)特征,需結(jié)合礦山安全知識(shí)構(gòu)建安全隱患標(biāo)準(zhǔn)化詞庫,運(yùn)用詞庫實(shí)現(xiàn)隱患描述的標(biāo)準(zhǔn)化分詞,并從時(shí)間、空間、致因、類型、責(zé)任主體等維度構(gòu)建安全隱患數(shù)據(jù)立方體。
(3)大數(shù)據(jù)分析層。以礦山安全知識(shí)庫和大數(shù)據(jù)分析算法庫為依托,定期執(zhí)行大數(shù)據(jù)分析腳本,實(shí)現(xiàn)大數(shù)據(jù)分析結(jié)果動(dòng)態(tài)更新。
(4)大數(shù)據(jù)可視化層。針對礦山安全隱患大數(shù)據(jù)分析結(jié)果特征,構(gòu)建危險(xiǎn)源辨識(shí)、危險(xiǎn)源歸類、安全風(fēng)險(xiǎn)主題挖掘、安全隱患知識(shí)圖譜、安全隱患致因分析、安全風(fēng)險(xiǎn)預(yù)警等主題下的數(shù)據(jù)呈現(xiàn)方案。
礦山安全隱患辨識(shí)與預(yù)警系統(tǒng)的功能體系如圖2所示,通過系統(tǒng)的各項(xiàng)子模塊實(shí)現(xiàn)數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)模型化處理和數(shù)據(jù)可視化呈現(xiàn),同時(shí),系統(tǒng)將數(shù)據(jù)接口、知識(shí)庫、模型庫、可視化組件管理模塊化,保障了系統(tǒng)的高拓展性和強(qiáng)兼容性。
圖2 系統(tǒng)功能體系Fig.2 Software function system
系統(tǒng)功能體系如下:
(1)數(shù)據(jù)標(biāo)準(zhǔn)化。該模塊以語料庫、停用詞庫、多維數(shù)據(jù)集管理的形式為系統(tǒng)提供基礎(chǔ)數(shù)據(jù)標(biāo)準(zhǔn)化支持。其中語料庫包括常用語詞庫、礦山安全詞庫和自建詞庫等。停用詞包括邏輯詞、關(guān)聯(lián)詞、副詞、數(shù)詞、代詞等。多維數(shù)據(jù)集的構(gòu)建將安全隱患文本按照維、維的層次、維的度量進(jìn)行標(biāo)準(zhǔn)化存儲(chǔ)。
(2)數(shù)據(jù)挖掘模型庫。該模塊以數(shù)據(jù)挖掘模型為基礎(chǔ),結(jié)合安全隱患數(shù)據(jù)特征,將各個(gè)數(shù)據(jù)挖掘算法實(shí)例化,對加載數(shù)據(jù)按照數(shù)據(jù)挖掘模型邏輯順序進(jìn)行數(shù)據(jù)處理,并對分析結(jié)果進(jìn)行結(jié)構(gòu)化存儲(chǔ),便于數(shù)據(jù)可視化。
(3)數(shù)據(jù)可視化。該模塊用于安全隱患大數(shù)據(jù)分析結(jié)果的呈現(xiàn),服務(wù)于安全管理者進(jìn)行風(fēng)險(xiǎn)預(yù)警與科學(xué)決策。模塊以商務(wù)智能展示工具、圖形庫為基礎(chǔ),根據(jù)可視化工具的數(shù)據(jù)需求,定制個(gè)性化數(shù)據(jù)轉(zhuǎn)化接口,實(shí)現(xiàn)可視化工具的數(shù)據(jù)填充。
(4)系統(tǒng)管理。該模塊用于系統(tǒng)核心功能管理,保證系統(tǒng)能夠在安全隱患數(shù)據(jù)來源增加、數(shù)據(jù)挖掘模型擴(kuò)充以及可視化形式日益豐富的情況下具有良好的升級能力。
安全隱患大數(shù)據(jù)分析邏輯涵蓋“四橫四縱”,如圖3所示。橫向上以具體問題為導(dǎo)向,確定數(shù)據(jù)處理目的和途徑,選擇適合的大數(shù)據(jù)挖掘模型和方法??v向上以數(shù)據(jù)處理邏輯為主線,分為數(shù)據(jù)標(biāo)準(zhǔn)化、隱患辨識(shí)和致因分析以及安全預(yù)警。
圖3 安全隱患大數(shù)據(jù)分析邏輯模型Fig.3 Big data analysis logic model of safety hazards
(1)數(shù)據(jù)標(biāo)準(zhǔn)化。針對安全隱患數(shù)據(jù)的非結(jié)構(gòu)、記錄不規(guī)范問題,從缺失數(shù)據(jù)填補(bǔ)、錯(cuò)誤數(shù)據(jù)修正、數(shù)據(jù)格式校正等角度完成數(shù)據(jù)標(biāo)準(zhǔn)化處理,主要方法包括數(shù)據(jù)清洗、詞條分析和多維數(shù)據(jù)集構(gòu)建。
(2)危險(xiǎn)源和安全風(fēng)險(xiǎn)主題辨識(shí)。為明確礦山安全重點(diǎn)關(guān)注問題,按照隱患時(shí)間、空間、致因維度辨識(shí)重大危險(xiǎn)源,并從“人-機(jī)-環(huán)-管”和隱患主題歸集角度聚焦礦山主要面臨安全風(fēng)險(xiǎn),主要方法包括:詞頻統(tǒng)計(jì)、趨勢分析、聚類分析和主題挖掘。
(3)安全隱患致因規(guī)律挖掘。針對重點(diǎn)關(guān)注隱患,分析其產(chǎn)生、表現(xiàn)、關(guān)聯(lián)問題有助于控制和消除安全風(fēng)險(xiǎn),通過構(gòu)建詞條共現(xiàn)矩陣和關(guān)聯(lián)規(guī)則方式,呈現(xiàn)隱患并發(fā)性和關(guān)聯(lián)性規(guī)律。
(4)安全風(fēng)險(xiǎn)預(yù)警。數(shù)據(jù)分析解決了事后規(guī)律分析問題,而隱患數(shù)據(jù)的深層次利用途徑之一則是安全風(fēng)險(xiǎn)的預(yù)告預(yù)警,運(yùn)用安全風(fēng)險(xiǎn)等級預(yù)測、事故規(guī)律推演等手段實(shí)現(xiàn)安全風(fēng)險(xiǎn)狀態(tài)的監(jiān)控和預(yù)警。
確定數(shù)據(jù)觀察的角度與知識(shí)挖掘路徑,是大數(shù)據(jù)分析的前提和基礎(chǔ),這需要對大量隱患信息進(jìn)行維度化、標(biāo)準(zhǔn)化處理。安全隱患排查記錄數(shù)據(jù)均以非結(jié)構(gòu)或半結(jié)構(gòu)化的文字形式記錄,同時(shí)數(shù)據(jù)的記錄方式受到檢查人員用語習(xí)慣影響存在較大差異,為安全知識(shí)挖掘帶來了難度,為此,探索一種安全數(shù)據(jù)結(jié)構(gòu)化表達(dá)方式十分重要,滿足從多個(gè)維度對安全問題進(jìn)行描述的要求。為確保對安全問題描述維度抽取過程的全面性,本研究以“六何分析方法”為指導(dǎo)[8],它是在美國政治學(xué)家拉斯韋爾提出的“5W分析法”的基礎(chǔ)上經(jīng)不斷總結(jié)完善,逐步形成的一套科學(xué)分析問題的模式。最終提煉出的礦山安全隱患描述模型如圖4所示。
圖4 礦山安全隱患維度劃分Fig.4 Dimension division of mining safety hazards
大數(shù)據(jù)分析模型是安全隱患分析與辨識(shí)的核心部件。通過分析各類數(shù)據(jù)挖掘算法的優(yōu)勢與適用條件,結(jié)合礦山安全隱患數(shù)據(jù)特征,選擇適合處理礦山安全隱患數(shù)據(jù)的模型,在將模型實(shí)例化后嵌入系統(tǒng)模型庫,便于數(shù)據(jù)分析時(shí)的自動(dòng)化、便捷化調(diào)用。
3.2.1 主題挖掘模型
主題挖掘模型可用于揭示礦山頻發(fā)、高危、高風(fēng)險(xiǎn)的安全管理主題,實(shí)現(xiàn)安全管理主題域的挖掘與歸集,以此提高礦山安全管理工作的針對性。主題挖掘模型是一種概率生成模型,常用于挖掘大規(guī)模文檔集的潛在主題。其基本原理是通過詞項(xiàng)在文檔集中的共現(xiàn)信息,利用概率反推文檔的主題結(jié)構(gòu),進(jìn)而得到整個(gè)文檔集的主題分布。
主題挖掘算法包括:HDP、LDA、DTM和 LSA等[9]。其中,LDA模型具有較強(qiáng)的泛化能力,適合處理大量數(shù)據(jù)集,同時(shí)該模型對于描述不規(guī)范、存在大量專業(yè)詞匯的文本數(shù)據(jù)具有較高的準(zhǔn)確度,因此,選用LDA模型進(jìn)行安全隱患數(shù)據(jù)的主題挖掘[10]。
3.2.2 語義網(wǎng)絡(luò)分析模型
隨著礦山安全隱患數(shù)據(jù)容量不斷擴(kuò)大,安全隱患文本表現(xiàn)出海量、無序、離散特征,梳理安全隱患語義脈絡(luò)成為礦山安全管理的難題之一。語義網(wǎng)絡(luò)分析模型是一種以網(wǎng)絡(luò)格式表達(dá)知識(shí)構(gòu)造的模型,將語義網(wǎng)絡(luò)分析模型引入安全隱患數(shù)據(jù)分析,通過計(jì)算語義距離及隱患要素詞性,構(gòu)建安全隱患要素及其共現(xiàn)關(guān)系的集合,深層次地表示隱患結(jié)構(gòu)、層次及隱患間的因果關(guān)系,直接而明確地表達(dá)出安全隱患的語義關(guān)系[11]。語義網(wǎng)絡(luò)構(gòu)建的經(jīng)典算法主要包括術(shù)語頻率反向文檔頻率(TF-IDF),潛在語義分析(LSA)和BM25技術(shù)等[12]。
3.2.3 關(guān)聯(lián)規(guī)則挖掘模型
安全隱患的各類危險(xiǎn)源不是孤立存在的,它們之間存在潛在的、隱含的關(guān)聯(lián),礦山各類危險(xiǎn)源之間隱含關(guān)聯(lián)規(guī)則的揭示對提高危險(xiǎn)源識(shí)別的準(zhǔn)確性和隱患排查效率具有重要作用。Apriori算法是挖掘布爾關(guān)聯(lián)規(guī)則頻繁項(xiàng)目集的經(jīng)典算法,利用Apriori算法,通過設(shè)置適當(dāng)?shù)闹С侄?、置信度和提升度閾值可以挖掘出引發(fā)礦山安全事故的隱患間的內(nèi)部關(guān)聯(lián)規(guī)律[13],以此為基礎(chǔ)構(gòu)建一種關(guān)聯(lián)隱患預(yù)警方法[14],為隱患的預(yù)測性排查和安全事故致因的隱含性要素揭示提供模型支持,有助于礦山企業(yè)實(shí)現(xiàn)本質(zhì)安全。
3.2.4 隱患分類模型
礦山安全隱患數(shù)據(jù)中蘊(yùn)含著大量安全隱患的規(guī)律、規(guī)則和知識(shí),通過隱患的自動(dòng)分類,可以實(shí)現(xiàn)非結(jié)構(gòu)化礦山隱患文本資源的有序整合。常用的文本分類算法包括:支持向量機(jī)、K最近鄰、人工神經(jīng)網(wǎng)絡(luò)和樸素貝葉斯等[15]。支持向量機(jī)方法可以保證解的唯一性和全局最優(yōu)性,解決了神經(jīng)網(wǎng)絡(luò)等方法難以避免的局部極值問題,且算法復(fù)雜度與樣本維度無關(guān)[16],具有穩(wěn)定性、魯棒性、高準(zhǔn)確率等優(yōu)點(diǎn),因此,選用SVM算法進(jìn)行隱患類型的分類。
3.2.5 事故預(yù)測模型
準(zhǔn)確的事故隱患預(yù)測能夠?qū)踩[患消滅在萌芽狀態(tài),使安全生產(chǎn)事故由事后處置轉(zhuǎn)變?yōu)槭虑邦A(yù)防,保證礦山企業(yè)生產(chǎn)安全。常用的事故預(yù)測方法有統(tǒng)計(jì)回歸法、時(shí)間序列法、馬爾科夫鏈法、灰色預(yù)測法、神經(jīng)網(wǎng)絡(luò)法和鏈路預(yù)測等[17]。本研究采用ARIMA模型對由安全隱患積累導(dǎo)致的安全生產(chǎn)事故進(jìn)行預(yù)測,通過揭示安全隱患可能的發(fā)展走向,使管理人員以全新的視角解決安全隱患特征提取及預(yù)測等諸多問題。
礦山安全隱患大數(shù)據(jù)由于其來源復(fù)雜、形式多樣、數(shù)量巨大等特征,其隱含知識(shí)的可視化也面臨著諸如時(shí)間跨度大、數(shù)據(jù)維度多、數(shù)據(jù)關(guān)聯(lián)復(fù)雜等問題。為此,礦山安全隱患大數(shù)據(jù)可視化需要充分結(jié)合分析結(jié)果特征,選擇能夠呈現(xiàn)出數(shù)據(jù)內(nèi)在的模式、關(guān)聯(lián)和結(jié)構(gòu)的可視化圖形,使復(fù)雜的安全隱患信息易于理解與應(yīng)用。
3.3.1 時(shí)序特征可視化
礦山安全隱患的形成、變化與時(shí)間緊密相關(guān),其時(shí)序性表現(xiàn)在數(shù)據(jù)隨時(shí)間呈現(xiàn)出規(guī)律性或者周期性的變化特征,因此,如何將動(dòng)態(tài)變化的隱患文本與時(shí)間相關(guān)的規(guī)律進(jìn)行展示,是隱患信息可視化的一項(xiàng)重要內(nèi)容[18]。
利用時(shí)間線工具在對隱患頻次進(jìn)行統(tǒng)計(jì)并以柱狀圖的形式進(jìn)行可視化的基礎(chǔ)上,對安全隱患在時(shí)間維度呈現(xiàn)出的變化趨勢進(jìn)行擬合和預(yù)測,通過設(shè)置預(yù)警值的方式,可以實(shí)現(xiàn)基于頻次特征的礦山安全隱患預(yù)警。時(shí)序特征可視化結(jié)果如圖5所示。
3.3.2 多維特征可視化
礦山安全檢查從多個(gè)維度上考量隱患發(fā)生的原因及具體情況,包括時(shí)間、地點(diǎn)、隱患問題、責(zé)任人、獎(jiǎng)懲措施、整改辦法等,多維數(shù)據(jù)可視化可以幫助安全管理人員發(fā)現(xiàn)數(shù)據(jù)多個(gè)屬性維度間的關(guān)系,而高維可視化越有效,識(shí)別出潛在的模式、相關(guān)性或離群值的概率越高。
圖5 礦山安全隱患時(shí)序特征可視化Fig.5 Visualization of time series characteristics of mine safety hazards
桑基圖可以突出呈現(xiàn)安全隱患的關(guān)鍵信息流動(dòng),同時(shí)形象地展現(xiàn)隱患特征在不同隱患主體之間的比例關(guān)系,有助于管理人員把握安全隱患細(xì)節(jié)[19]。采用桑基圖對安全隱患在時(shí)間、空間、責(zé)任主體和隱患類型等維度呈現(xiàn)出的多維特征進(jìn)行可視化,結(jié)果如圖6所示。圖中的每個(gè)分支代表1條信息流,分支的寬度和流向分別呈現(xiàn)了不同維度安全隱患的發(fā)生頻率及特點(diǎn)。
圖6 礦山安全隱患多維特征可視化Fig.6 Visualization of multidimensional characteristics of mine safety hazards
3.3.3 層次特征可視化
礦山安全隱患數(shù)據(jù)量龐大且層次結(jié)構(gòu)不清晰,需要借助可視化方法對數(shù)據(jù)的結(jié)構(gòu)和形式進(jìn)行轉(zhuǎn)換,更好地呈現(xiàn)出數(shù)據(jù)間關(guān)聯(lián)、層級與脈絡(luò)。層次邊緣捆綁可以用于表示節(jié)點(diǎn)間的網(wǎng)絡(luò)關(guān)系,適合節(jié)點(diǎn)較多的數(shù)據(jù)關(guān)系可視化[20]。本研究利用層次邊緣捆綁技術(shù)對礦山安全隱患的層次結(jié)構(gòu)特征進(jìn)行可視化,結(jié)果如圖7所示。
圖7 礦山安全隱患層次特征可視化Fig.7 Visualization of hierarchical characteristics of mine safety hazards
(1)數(shù)據(jù)抽取。通過數(shù)據(jù)接口對某大型礦山集成化安全生產(chǎn)管理系統(tǒng)在長期應(yīng)用過程中積累的海量非結(jié)構(gòu)化安全隱患排查數(shù)據(jù)進(jìn)行抽取,作為安全隱患大數(shù)據(jù)分析的原始數(shù)據(jù)來源。
(2)數(shù)據(jù)清洗。為了保證文本挖掘效果,根據(jù)礦山安全隱患數(shù)據(jù)特征,對抽取出的隱患排查數(shù)據(jù)進(jìn)行規(guī)范化處理,剔除對于隱患信息分析挖掘無意義的內(nèi)容,并利用數(shù)據(jù)映射的方式對記錄中不規(guī)范的格式及錯(cuò)別字進(jìn)行糾正。
(3)語義分詞庫構(gòu)建。在整合通用語義庫、礦山生產(chǎn)專業(yè)詞匯、安全管理專用詞庫等行業(yè)語義詞庫的基礎(chǔ)上,分析礦山安全管理中普遍關(guān)注的要素[21],結(jié)合礦山安全管理特點(diǎn)構(gòu)建專門用于礦山安全生產(chǎn)大數(shù)據(jù)分析的語義分詞庫。
(4)隱患多維數(shù)據(jù)集構(gòu)建。采用jieba算法對隱患數(shù)據(jù)進(jìn)行分詞處理,完成安全主題數(shù)據(jù)的單元化、要素化拆分。利用文本聚類方法,將文本特征詞歸集到相應(yīng)的維度,形成安全主題多維數(shù)據(jù)集[22]。通過對安全風(fēng)險(xiǎn)產(chǎn)生的頻次數(shù)據(jù)進(jìn)行加工,實(shí)現(xiàn)大量描述性的安全隱患數(shù)據(jù)的標(biāo)準(zhǔn)化和格式化。
通過模型的自組織與自調(diào)度,實(shí)現(xiàn)不同安全隱患數(shù)據(jù)分析需求的實(shí)時(shí)響應(yīng)。借助商務(wù)智能分析工具完成可視化系統(tǒng)的搭建,將安全大數(shù)據(jù)分析結(jié)果以各種分析圖表和模型的形式進(jìn)行集成化展示。
(1)危險(xiǎn)源智能辨識(shí)模塊。根據(jù)礦山安全隱患的頻率與程度數(shù)據(jù),采用詞云圖、氣泡圖、柱狀圖和環(huán)形圖等從人的不安全行為、物的不安全狀態(tài)、責(zé)任主體、時(shí)間和空間等維度智能辨識(shí)影響礦山安全生產(chǎn)的主要危險(xiǎn)源,為礦山找到主要風(fēng)險(xiǎn)點(diǎn)內(nèi)容和區(qū)域提供依據(jù)。危險(xiǎn)源智能辨識(shí)模塊如圖8所示。
圖8 危險(xiǎn)源智能辨識(shí)模塊Fig.8 Intelligent identification module for potential hazards
(2)安全隱患知識(shí)發(fā)現(xiàn)模塊。采用層次邊緣捆綁、力導(dǎo)向布局、?;鶊D和詞共現(xiàn)散點(diǎn)圖表征礦山主要危險(xiǎn)源之間的相關(guān)性與共伴生規(guī)律,為安全風(fēng)險(xiǎn)的分級管控與防治提供支持。安全隱患知識(shí)發(fā)現(xiàn)模塊如圖9所示。
圖9 安全隱患知識(shí)發(fā)現(xiàn)模塊Fig.9 Know ledge discovery module for hidden safety hazards
(3)礦山安全事故預(yù)警模塊。以時(shí)間維度為依據(jù),采用變化趨勢圖對不同致因的安全隱患的變化趨勢進(jìn)行可視化。結(jié)合知識(shí)發(fā)現(xiàn)模塊挖掘得到安全隱患的誘導(dǎo)與演化規(guī)律和礦山安全生產(chǎn)事故的演化路徑,用以指導(dǎo)礦山有針對性地開展安全管理工作,制定相應(yīng)的隱患治理方案,提高礦山安全檢查工作的效率,并在一定程度上實(shí)現(xiàn)對安全事故的預(yù)警。礦山安全事故預(yù)警模塊如圖10所示。
圖10 礦山安全事故預(yù)警模塊Fig.10 Accident warning module
系統(tǒng)應(yīng)用于國內(nèi)某大型礦山企業(yè),實(shí)現(xiàn)了安全隱患智能識(shí)別、診斷、預(yù)測與預(yù)警,為礦山危險(xiǎn)源分級、安全防控策略制定以及安全應(yīng)急處置提供了決策支持,減少了礦山安全事故的發(fā)生,使傳統(tǒng)的嚴(yán)重依賴直覺判斷和經(jīng)驗(yàn)的安全管理轉(zhuǎn)向基于大數(shù)據(jù)分析的精準(zhǔn)安全管控,大幅提高了安全管理人員對安全隱患認(rèn)識(shí)、管理和決策能力。
針對礦山安全隱患排查數(shù)據(jù)具有數(shù)據(jù)量大、不規(guī)范、非結(jié)構(gòu)化特征,定義大數(shù)據(jù)存儲(chǔ)與分析的數(shù)據(jù)結(jié)構(gòu),部署安全隱患大數(shù)據(jù)的清洗、轉(zhuǎn)換、抽取等數(shù)據(jù)結(jié)構(gòu)化操作。通過開發(fā)安全隱患辨識(shí)與預(yù)警大數(shù)據(jù)分析系統(tǒng),將大數(shù)據(jù)挖掘模型、算法加以封裝,實(shí)現(xiàn)大數(shù)據(jù)分析功能的實(shí)體化與系統(tǒng)化。
(1)大數(shù)據(jù)分析技術(shù)在礦山安全隱患文本知識(shí)挖掘方面具有較好的適用性,可以有效解決礦山安全隱患數(shù)據(jù)規(guī)范化存儲(chǔ)、深層次利用與可視化問題。
(2)根據(jù)礦山安全隱患數(shù)據(jù)分析場景,構(gòu)建了一套體系完整的礦山安全隱患分析與預(yù)警系統(tǒng)解決方案,形成了以大數(shù)據(jù)采集、預(yù)處理、分析與可視化為核心部件的系統(tǒng)架構(gòu),設(shè)計(jì)了以數(shù)據(jù)標(biāo)準(zhǔn)化、數(shù)據(jù)挖掘模型庫、數(shù)據(jù)可視化和系統(tǒng)管理為核心的功能模塊,規(guī)劃了安全隱患大數(shù)據(jù)分析“四橫四縱”邏輯。系統(tǒng)成功應(yīng)用于國內(nèi)某大型礦山,驗(yàn)證了解決方案的可行性與有效性。
(3)聚類分析與主題挖掘模型解決了重大危險(xiǎn)源和安全風(fēng)險(xiǎn)主題辨識(shí)問題,明確了礦山安全重點(diǎn)關(guān)注問題。語義網(wǎng)絡(luò)分析和關(guān)聯(lián)規(guī)則分析模型解決了重點(diǎn)關(guān)注隱患的產(chǎn)生、表現(xiàn)、關(guān)聯(lián)問題,有助于控制和消除安全風(fēng)險(xiǎn)。分類模型與預(yù)測模型將安全管理模式從“事后分析”轉(zhuǎn)變?yōu)椤笆虑邦A(yù)防”,實(shí)現(xiàn)了安全風(fēng)險(xiǎn)狀態(tài)的預(yù)測。