郭對明,李國清?,胡乃聯(lián),侯 杰
1) 北京科技大學(xué)土木與資源工程學(xué)院,北京 100083 2) 金屬礦山高效開采與安全教育部重點實驗室,北京 100083
金屬礦山由于作業(yè)條件復(fù)雜、勞動環(huán)境惡劣,被公認(rèn)為是事故高發(fā)且傷亡率最高的行業(yè)之一[1].因此,安全生產(chǎn)成為礦山企業(yè)永恒的主題,安全隱患管理也受到了國家和企業(yè)的重視[2-3]. 隨著礦山安全管理體系日益完善,針對事故發(fā)生機(jī)理在人類可控范圍內(nèi)對安全隱患進(jìn)行及時的辨識、處理與監(jiān)控是礦山安全生產(chǎn)管理的重要手段. 對不同的隱患數(shù)據(jù)有不同的辨識分析方法,Martin和Morris提出建立被控過程模型,通過數(shù)學(xué)模型將研究對象的可測信息和通過模型表達(dá)的先驗信息進(jìn)行比較,對殘差結(jié)果進(jìn)行分析處理,完成了對安全隱患的確定[4],通過利用故障關(guān)系的先驗?zāi)P徒⒅R模型,利用被監(jiān)控對象的定性描述建立定性模型,從而完成了對安全隱患的定位與識別[5].Dunia等[6]提出在描述對象的精確性及建模的可行性上,介于以上兩種方法之間,通過相關(guān)的頻譜分析、主元分析、小波變換等工具,直接分析可測信號,提取諸如方差、幅值、頻率等特征值,從而檢測安全隱患的存在. 李季等[7]提出了完整、科學(xué)的危險源信息和隱患辨識數(shù)據(jù)庫,然后結(jié)合礦山監(jiān)測系統(tǒng)和人工監(jiān)測提供的實時數(shù)據(jù),完成了安全隱患的捕捉與辨別. 秦文靜[8]通過事故樹原理,建立煤礦井下瓦斯爆炸危險源事故樹,對煤礦瓦斯爆炸危險源進(jìn)行辨識. 張寶隆等[9]提出了基于本體的隱患辨識排查系統(tǒng)構(gòu)建的方法,通過對煤礦隱患知識分析,建立了隱患本體層次結(jié)構(gòu),定義類的對象和屬性,構(gòu)建了煤礦事故隱患辨識排查系統(tǒng)模型,從而解決了煤礦事故排查效率低,排查不到位等問題.
為了有效分析安全隱患信息,有學(xué)者嘗試了將大數(shù)據(jù)分析技術(shù)應(yīng)用到礦山安全管理中. 馬小平和代偉[10]通過總結(jié)大數(shù)據(jù)技術(shù)在煤炭工業(yè)中的應(yīng)用,分析了大數(shù)據(jù)在煤礦設(shè)備故障診斷、災(zāi)害事故預(yù)警與防治等方面的可行性. 孫繼平[11]運(yùn)用大數(shù)據(jù)技術(shù)實現(xiàn)了煤礦事故災(zāi)害的超前預(yù)警. 譚章祿等[12]借助文本分析方法,通過對隱患信息的預(yù)處理,得到隱患事故高頻詞,進(jìn)一步指導(dǎo)隱患治理. 錢宇虹[13]、石記斌和石記紅[14]、雷煜斌等[15]采用數(shù)據(jù)挖掘技術(shù),應(yīng)用Apriori算法和FP-growth算法分析瓦斯與地質(zhì)構(gòu)造、煤結(jié)構(gòu)等因素間的關(guān)聯(lián)關(guān)系.
隨著計算機(jī)的發(fā)展,很多礦山搭建了安全大數(shù)據(jù)平臺或相應(yīng)的管理系統(tǒng)[16-18],并將安全檢查中發(fā)現(xiàn)的隱患信息錄入到大數(shù)據(jù)平臺中. 隨著企業(yè)運(yùn)行,平臺中會積累海量以安全檢查信息為主的非結(jié)構(gòu)化文本數(shù)據(jù),而且數(shù)據(jù)具有內(nèi)容繁雜、規(guī)模大、不規(guī)范等特征. 據(jù)數(shù)據(jù)顯示,礦山一年的數(shù)據(jù)量可達(dá)上百GB[19-20]. 雖然大數(shù)據(jù)平臺為安全隱患數(shù)據(jù)提供了存儲平臺,但是由于缺少安全隱患分析模型,在數(shù)據(jù)的分析利用方面存在短板[21],大量安全數(shù)據(jù)只是用于完成簡單的問題處理、報表分析和數(shù)據(jù)統(tǒng)計,導(dǎo)致這些有價值的信息生命周期很短暫,在完成隱患排查后即以分散化、無序化的形式存儲,成為歷史數(shù)據(jù),未能發(fā)揮這些數(shù)據(jù)對安全生產(chǎn)的指導(dǎo)作用,從而導(dǎo)致上述海量數(shù)據(jù)的浪費(fèi). 另外,礦山安全隱患數(shù)據(jù)的記錄內(nèi)容較短,每條數(shù)據(jù)的有效信息少,具有明顯的短文本特征,所以選擇適用于短文本挖掘的分析方法構(gòu)建數(shù)據(jù)挖掘模型,從多角度探究隱患數(shù)據(jù)的內(nèi)在聯(lián)系,借助可視化手段對挖掘結(jié)果進(jìn)行可視化展示,指導(dǎo)礦山安全隱患排查治理是當(dāng)前礦山企業(yè)隱患治理中亟待解決的問題.
因此,本文在數(shù)據(jù)預(yù)處理的基礎(chǔ)上對隱患信息進(jìn)行多維度辨識,得到隱患在時間和空間兩個維度上的分布規(guī)律;針對礦山隱患信息的短文本特征,采用雙詞主題模型(Biterm topic model, BTM)對安全隱患進(jìn)行主題挖掘,得到了13個隱患主題,有效避免了潛在狄利克雷分配模型(Latent Dirichlet allocation, LDA) 算法不適用于短文本挖掘的不足;最后通過Apriori算法對隱患數(shù)據(jù)進(jìn)行了關(guān)聯(lián)規(guī)則挖掘,得到了多條有效的關(guān)聯(lián)規(guī)則,并對其進(jìn)行了可視化展示.
構(gòu)建安全隱患分析模型,首先對隱患數(shù)據(jù)進(jìn)行預(yù)處理,然后基于大數(shù)據(jù)分析方對隱患信息進(jìn)行多維度分析、主題挖掘、關(guān)聯(lián)規(guī)則挖掘等,具體流程如圖1所示.
圖1 基于大數(shù)據(jù)分析的隱患分析模型流程Fig.1 Hidden danger analysis model process based on big data analysis
由于礦山安全隱患數(shù)據(jù)記錄的內(nèi)容繁雜且在記錄過程中缺乏規(guī)范性,因此為了保證文本挖掘的效果,在進(jìn)行文本挖掘之前需要對數(shù)據(jù)進(jìn)行清洗. 從礦山安全管理系統(tǒng)中導(dǎo)出的數(shù)據(jù)包含很多內(nèi)容,比如責(zé)任人、責(zé)任單位等內(nèi)容對文本挖掘不產(chǎn)生影響,因此將這些信息刪除,僅保留數(shù)據(jù)中時間、地點、隱患問題部分,用以降低文本挖掘維度,提高文本挖掘處理的速度. 同時對記錄中不規(guī)范格式及錯別字進(jìn)行糾正. 數(shù)據(jù)清洗完成后用R語言自帶的jiebaR包對數(shù)據(jù)進(jìn)行分詞,分詞過程可以理解為根據(jù)詞庫將文本分割成零碎的詞匯,而這些詞匯就是數(shù)據(jù)文本的特征項,由礦山安全隱患數(shù)據(jù)包含大量的采礦專業(yè)詞匯,而這些專業(yè)詞匯并不包含在R語言的詞庫中,為了提高數(shù)據(jù)分詞的準(zhǔn)確性,再分詞前添加自定義詞庫,詞庫內(nèi)容來源于采礦工程、礦井通風(fēng)、礦山工程、礦山應(yīng)急救援等專業(yè)詞匯. 分詞結(jié)束后數(shù)據(jù)中依然存在頻率較高但沒有實際意義的詞,即停用詞,因此需要對分詞結(jié)束的數(shù)據(jù)去停用詞,目的是對文本的特征項降維減噪,提高文本挖掘工具的處理速度與處理能力.
地下礦山安全隱患的發(fā)生不是雜亂無序的,隨著企業(yè)對隱患的治理,造成某些安全隱患數(shù)量隨著時間的延長呈現(xiàn)出一定的波動起伏規(guī)律. 為了分析安全隱患的變化,在數(shù)據(jù)預(yù)處理的基礎(chǔ)上,按照年份統(tǒng)計該年內(nèi)出現(xiàn)頻率較高的隱患詞,對高頻詞按時間順序進(jìn)行分析,得到歷年隱患數(shù)量隨時間變化的曲線,從而在時間維度上對隱患的發(fā)展變化進(jìn)行把握. 同樣,隱患并不是在井下任何地點都存在,一些特定的隱患會在某些關(guān)鍵地點出現(xiàn)且出現(xiàn)的次數(shù)較高,為了明確井下隱患發(fā)生的重點區(qū)域,指導(dǎo)企業(yè)對危險區(qū)域的排查,通過統(tǒng)計隱患數(shù)據(jù)中的地點并提取頻繁出現(xiàn)的地點,對高頻地點對應(yīng)的隱患信息進(jìn)行分析,得到該地點可能發(fā)生的相關(guān)隱患.
為了更加直觀的展示安全隱患在時間和空間兩個維度上的分布規(guī)律,利用大數(shù)據(jù)分析方法中的Force Atlas圖形布局算法,對隱患進(jìn)行可視化表示,得到安全隱患時間分布圖和空間分布圖.
礦山安全隱患數(shù)據(jù)的數(shù)量龐大而且所涉及的種類復(fù)雜多樣,在實際管理過程中很難通過人工完成對隱患數(shù)據(jù)按照隱患類別進(jìn)行分類統(tǒng)計,更難以發(fā)現(xiàn)安全隱患問題中隱藏的隱患主題. 因此,通過大數(shù)據(jù)分析中的主題挖掘算法構(gòu)建礦山隱患信息的主題挖掘模型,對井下安全隱患數(shù)據(jù)進(jìn)行深層次分析,通過將眾多的隱患?xì)w類,獲得能夠反映井下生產(chǎn)安全問題的隱患主題,更加有針對性的指導(dǎo)安全管理工作的開展.
文本的主題挖掘是大數(shù)據(jù)分析中重要的組成部分,該方法可以將眾多的數(shù)據(jù)按照一定的規(guī)則進(jìn)行高度概括,按照不同的隱患內(nèi)容劃分為不同的隱患主題. BTM主題挖掘模型[22]與傳統(tǒng)的LDA主題挖掘模型[23]的相似點在于,兩種主題算法的先驗分布均服從狄利克雷分布(Dirichlet distribution, Dir(α)),區(qū)別在于BTM是對詞對進(jìn)行建模而不是單獨(dú)的詞語,然后利用共軛分布對主題模型進(jìn)行推理. 該模型通過對短文本語料進(jìn)行詞對擴(kuò)充,改善了短文本建模的稀疏問題. 該模型的概率模型如圖2所示.
圖2 BTM概率圖模型Fig.2 BTM probability graph model
上圖2中,Z為一個主題,k為維度,θ為短文本集合中k個主題的分布,φk為主題維度k的詞匯分布,NB為文檔數(shù)目,α、β為詞對與主題分布和主題與單詞分布的狄利克雷分布的超參數(shù). 模型的計算過程如下所示:
① 對于每一個主題Z,其主題維度下的詞分布為φ=Dir(β);
② 對于短文本語料集,確定一個全局的主題分布θ=Dir(β);
③ 對于詞對W<wi,wj>W(wǎng)中每一個詞,執(zhí)行:
從全局主題分布θ中,抽取一個主題Z,即Z=Mult(θ);
從被抽取的主題中,抽取兩個詞wi和wj;其中每個詞對都是從一個獨(dú)立主題中產(chǎn)生,即wi,wj=Mult(φ).
BTM模型采用Gibbs抽樣算法進(jìn)行采樣,主題分布的最終化簡如下式所示.
式中:Z-w為除去當(dāng)前詞對的主題分布,Z為主題,nz為分配到主題Z的次數(shù),分別為詞對w、wi、wj分配到主題Z的次數(shù),M為語料集中不同的詞語數(shù).
之后根據(jù)公式(2)和公式(3)對超參數(shù)進(jìn)行估計.
導(dǎo)致礦山安全事故產(chǎn)生的原因往往不止一種,多種安全隱患的出現(xiàn)增加了礦山安全事故發(fā)生的概率,這表明安全隱患并不是孤立存在,他們往往存在著一定的聯(lián)系. 因此分析不同隱患之間的內(nèi)在聯(lián)系,理清隱患之間的因果關(guān)系,對有效治理隱患,預(yù)防隱患產(chǎn)生起到事半功倍的作用.
Apriori算法是挖掘布爾關(guān)聯(lián)規(guī)則頻繁項目集的經(jīng)典算法之一[24-25],該算法通過構(gòu)建候選集和建立規(guī)則挖掘頻繁項集,其核心是基于兩階段頻集思想的遞推算法. Apriori算法對關(guān)聯(lián)規(guī)則的挖掘主要分為兩個步驟,首先要構(gòu)建一組最小支持度的頻繁項,然后根據(jù)所建立的頻繁項集構(gòu)造關(guān)聯(lián)規(guī)則,具體步驟如圖3所示.
圖3 基于Apriori算法礦山安全隱患關(guān)聯(lián)規(guī)則挖掘流程Fig.3 Mining process of association rules for mine safety hazard based on Apriori algorithm
本文以某礦山的GIS安全管理系統(tǒng)中抽取得到安全隱患排查數(shù)據(jù)為研究對象,該數(shù)據(jù)從2013年至2019年,共計34000條,記錄了隱患發(fā)生的時間、位置、隱患單位、具體問題、整改意見等內(nèi)容.
對收集的隱患數(shù)據(jù)進(jìn)行預(yù)處理,經(jīng)過分詞和去停用詞后提取詞頻前200的高頻詞匯作為有效結(jié)果(最小詞頻大于200),部分高頻詞如表1所示.
表1 安全隱患高頻詞(部分)Table 1 High frequency words of hidden danger (part)
通過上表的詞頻統(tǒng)計可以清楚的看出在礦山安全隱患中支護(hù)的相關(guān)問題出現(xiàn)的頻率最高,其次是頂板和浮石問題. 為了更直觀的看出隱患文本的分詞結(jié)果,對表2中的數(shù)據(jù)進(jìn)行可視化展示,通過R語言自帶的詞云展示工具對分詞結(jié)果進(jìn)行詞云展示. 在詞云展示過程中,詞匯的字體越大,代表著該詞在分詞結(jié)果中出現(xiàn)的頻率越高,這樣可以讓讀者對分析結(jié)果有快速、直觀的理解[26]. 如圖4所示,在例如,支護(hù)、頂板、浮石等詞在分詞結(jié)果中出現(xiàn)的頻率較高,因此在圖中的字體大小較大.
表2 不同年份共有隱患詞匯統(tǒng)計表(部分)Table 2 Statistical table of common hidden danger vocabulary (part)
圖4 礦山安全隱患詞云圖Fig.4 Cloud chart of mine safety hidden danger
在數(shù)據(jù)預(yù)處理的基礎(chǔ)上,進(jìn)行隱患信息的多維度辨識,從時間和空間兩個維度上對數(shù)據(jù)進(jìn)行分析,得到隱患在時間和地點上的分布規(guī)律. 具體維度劃分如圖5所示.
圖5 隱患數(shù)據(jù)維度分析圖Fig.5 Dimension analysis chart of hidden danger data
為了推測礦山安全隱患出現(xiàn)的趨勢,分析礦山安全隱患隨時間變化的規(guī)律,將安全隱患數(shù)據(jù)按照時間進(jìn)行分類統(tǒng)計詞頻. 選取各年中相同的隱患詞匯進(jìn)行分析,得到30種以上共有的隱患,如表2所示為部分共有隱患.
為了分析上述共有隱患詞匯隨時間的變化規(guī)律,對上述隱患詞匯繪制隱患發(fā)生頻率隨時間的變換曲線,如圖6所示.
圖6 隱患-時間變化圖Fig.6 Hidden danger-time
由圖6可以看出大部分隱患呈現(xiàn)出從2013年開始先增長,到2018年達(dá)到最大值,之后減少的趨勢. 其中支護(hù)、浮石、頂板、迎頭問題出遠(yuǎn)高于其他隱患,且從2013~2018年有明顯增加,但2018年之后出現(xiàn)下降,表明四種問題得到了一定程度的改善,但整體出現(xiàn)頻率依然很高,表明依然是威脅員工井下生產(chǎn)的主要隱患,需要礦山開采過程中重點關(guān)注. 配電箱、風(fēng)機(jī)、安全背甲、漏電等隱患問題出現(xiàn)的頻率相對較低,且隨著時間變化表現(xiàn)為波動增長,但是增長幅度不明顯,表明雖然在礦山開采過程中對上述三種隱患控制的比較好,但礦山企業(yè)仍需要加強(qiáng)對此類隱患進(jìn)行的管理.其他隱患數(shù)量相對較少,且變化不大,說明這些隱患在礦山生產(chǎn)中普遍存在,但對生產(chǎn)威脅較小.
為了更加直觀顯示隱患在時間維度上的分布,運(yùn)用大數(shù)據(jù)分析方法中的Force Atlas圖形布局算法繪制礦山安全隱患與時間規(guī)律分布圖,如圖7所示.
圖7 礦山安全隱患與時間規(guī)律分布Fig.7 Hidden danger of mine safety and time distribution
由圖7可以清晰的看出隱患隨時間的分布情況,中間部分的隱患詞表示該隱患為2013~2019年間共有的隱患,例如頂板問題、通風(fēng)問題、照明問題等. 年份節(jié)點外部邊緣部分隱患詞表示該年份特有的隱患問題,例如2013年電話損壞、頂板裂縫、排水管問題、卸載站等詞出現(xiàn)頻率較高、說明這些隱患在2013年出現(xiàn)角度且問題突出.
對隱患數(shù)據(jù)按照隱患發(fā)生地點進(jìn)行統(tǒng)計,提取隱患數(shù)量排名前20的隱患地點并分別進(jìn)行分析和詞頻統(tǒng)計,如表3所示,選取各隱患地點排名前100的高頻詞,利用Force Atlas圖形布局算法繪制隱患與空間規(guī)律分布圖,如圖8所示.
表3 高頻隱患地點統(tǒng)計表(前20)Table 3 Statistical table of high frequency hidden danger location (top 20)
圖8 礦山安全隱患與空間規(guī)律分布Fig.8 Hidden danger of mine safety and its spatial distribution
如表中所示,隱患地點編碼守衛(wèi)代表礦區(qū),即X礦區(qū)和S礦區(qū),中間兩位代表中段,后三位代表勘探線,取中間勘探線(三位數(shù)),不足三位前面補(bǔ)0. 由表可以看出高頻隱患地點中有7個屬于S礦區(qū),9個屬于X礦區(qū).
從上圖可以看出,隱患地點構(gòu)成了四個主要的群,其中兩個較為突出的地點群分別有S礦區(qū)的7個采場區(qū)域和X礦區(qū)的9個采場區(qū)域構(gòu)成,另外兩個較小的地點群分別由輔助斜坡道、主斜坡道和西風(fēng)井構(gòu)成. 圖中隱患詞在地點群中交叉的部分為各區(qū)域共有隱患,沒有交叉部分的隱患為各區(qū)域特有的隱患. 地點節(jié)點對應(yīng)的顏色越深代表該地點隱患問題越多. 例如,S13186地點巖爆、圍巖、地壓等隱患詞出現(xiàn)頻繁,說明該地點采場地壓問題嚴(yán)重,因此為保證井下作業(yè)安全,應(yīng)及時對井下進(jìn)行支護(hù).
利用BTM主題挖掘模型對礦山井下安全隱患數(shù)據(jù)進(jìn)行分析,首先利用困惑度對最優(yōu)主題數(shù)目進(jìn)行判斷,困惑度越小,主題挖掘的質(zhì)量越好,相反越差. 將主題范圍設(shè)置為2~100,步長設(shè)置為5,迭代次數(shù)1000次,得到困惑度與主題數(shù)目的關(guān)系圖,如圖9所示.
圖9 困惑度-主題數(shù)目關(guān)系圖Fig.9 Perplexity-topic number graph
由圖9可以觀察到隨著主題數(shù)目的增加,困惑度表現(xiàn)出明顯的波動,在主題數(shù)目為15時困惑度最低,表明此時為最佳主題數(shù)目. 為了保證對隱患主題分類的準(zhǔn)確性和標(biāo)準(zhǔn)性,參考張勇[27]對生產(chǎn)安全事故隱患分類的方法和《安全生產(chǎn)事故隱患排查治理暫行規(guī)定》[28]、《金屬非金屬礦山重大生產(chǎn)安全事故隱患判定標(biāo)準(zhǔn)(試行)》[29],在對各個主題詞歸納統(tǒng)計的基礎(chǔ)上對主題進(jìn)行命名,并將相近的主題合并,最終得到13個隱患主題. 為了對各個隱患主題有直觀的了解,確定主題數(shù)目之后,對隱患文本做進(jìn)一步分析,針對每個隱患主題提取對應(yīng)的特征詞,剔除隱患主題中的噪聲詞后即可得到各個主題對應(yīng)的隱患主題詞,如表4所示.
表4 BTM礦山安全隱患主題與隱患主題詞表Table 4 BTM mine safety hidden danger theme and hidden danger keywords list
通過表4可以清楚地了解到每個隱患主題包含的主要內(nèi)容. 例如,支護(hù)隱患主題中主要包含了支護(hù)、頂幫、兩幫、網(wǎng)度、不到位等隱患主題詞,這些主題詞既描述了支護(hù)隱患容易發(fā)生的地點,同時也描述了該隱患的主要表現(xiàn)形式,能夠為礦山井下安全檢查和隱患排查工作提供必要的指導(dǎo),使現(xiàn)場安全檢查過程中更具精確性和針對性,可以迅速捕捉生產(chǎn)中的隱患,從而提高對安全隱患危險源的排查效率和隱患治理效率.
利用R語言中“arules”工具包對礦山隱患文本進(jìn)行關(guān)聯(lián)規(guī)則挖掘,R語言中默認(rèn)的最小支持度與最小置信度分別為0.1和0.8,該支持度對于本文分析相對過小,導(dǎo)致得到的規(guī)則過于側(cè)重頂板、浮石、支護(hù),因此本文設(shè)置最小支持度和最小置信度分別為0.005和0.5,執(zhí)行算法后得到了296條關(guān)聯(lián)規(guī)則,由于過低的提升度不具備現(xiàn)實意義,因此將關(guān)聯(lián)規(guī)則按照提升度進(jìn)行排序,去除提升度小于3規(guī)則后作為最終的有效規(guī)則,最終得到了超過237條有效關(guān)聯(lián)規(guī)則,表5中列舉了有效關(guān)聯(lián)規(guī)則中典型的10條規(guī)則.
從表5可以看出隱患數(shù)據(jù)之間存在一定的聯(lián)系,通過文本挖掘得到的關(guān)聯(lián)規(guī)則能夠切實提高井下安全隱患檢查工作的效率. 例如:井下從事運(yùn)輸工作的司機(jī)更多的安全隱患是不佩戴或者不正確佩戴安全帽,該類安全隱患占全部隱患數(shù)據(jù)的0.504%,參照該關(guān)聯(lián)規(guī)則在對井下四級進(jìn)行隱患排查過程中與隨機(jī)排查相比效率可以提高50倍以上;礦山生產(chǎn)過程中炸藥的使用具有較大安全隱患,也是企業(yè)重點關(guān)注的對象,通過對隱患數(shù)據(jù)的挖掘得出了在對炸藥的處理過程中經(jīng)常出現(xiàn)不按規(guī)定放置的現(xiàn)象,比如炸藥裸放. 這種隱患占比達(dá)到了隱患總數(shù)的0.9%,根據(jù)該規(guī)則對炸藥隱患進(jìn)行檢查能夠提高隱患排查效率20倍以上.
表5 礦山安全隱患關(guān)聯(lián)規(guī)則挖掘(部分)Table 5 Mining association rules of mine hidden danger (part)
為了更加直觀的分析得到的關(guān)聯(lián)規(guī)則,利用R語言中的arulesViz包對關(guān)聯(lián)規(guī)則進(jìn)行可視化展示,如下圖10~圖11所示.
圖10 礦山井下安全隱患關(guān)聯(lián)規(guī)則散點圖Fig.10 Scatter diagram of association rules for underground safety hazards
圖11 基于圖的礦山安全隱患關(guān)聯(lián)規(guī)則可視化Fig.11 Visualization of mine hidden danger association rules based on graph
從圖10可以看出通過文本挖掘得到的296條關(guān)聯(lián)規(guī)則的支持度主要分布在0~0.02之間,置信度從0.5~1.0呈現(xiàn)均勻分布,圖中每個點的顏色代表了不同的提升度,顏色越深表示提升度越高. 從圖中可以看出大部分散點顏色呈現(xiàn)紅色,表明大部分規(guī)則的提升度較高,通過這些規(guī)則可以提高隱患的排查效果.
圖11中展示了按照支持度排序的前80條關(guān)聯(lián)規(guī)則,圖中圓圈大小代表了置信度,顏色代表提升度,從圖中可以看出上述規(guī)則主要分為了兩個集合,一個主要以頂板、浮石、支護(hù)等隱患為主,另一個以路面相關(guān)隱患為主. 通過上述關(guān)聯(lián)規(guī)則的可視化展示可以使礦山工作人員更加直觀清楚的對礦山安全隱患情況有所了解,為隱患治理提供可視化的決策支持.
本文針對礦山具有短文本特性的安全隱患數(shù)據(jù)開展研究,從不同角度出發(fā)建立分析模型對非結(jié)構(gòu)化的隱患數(shù)據(jù)進(jìn)行挖掘,首先通過構(gòu)建多維度分析模型分析了安全隱患隨時間和空間維度的變化分布規(guī)律. 之后針對短文本特點通過BTM算法構(gòu)建主題挖掘模型,通過分析得到了13個隱患主題,避免了傳統(tǒng)LDA算法不適用于短文本建模的不足. 最后通過Apriori算法建立了關(guān)聯(lián)規(guī)則挖掘模型,對數(shù)據(jù)進(jìn)行分析,得到了隱患之間的內(nèi)在聯(lián)系. 通過研究表明礦山安全隱患數(shù)據(jù)之間存在一定內(nèi)在聯(lián)系,基于文本挖掘的大數(shù)據(jù)分析技術(shù)是解決文本數(shù)據(jù)不易分析的可行途徑,且本文所構(gòu)建的隱患分析模型適用于具有短文本特性的非結(jié)構(gòu)化隱患數(shù)據(jù)的挖掘分析,所得到的結(jié)果可為礦山企業(yè)治理排除井下安全隱患提供指導(dǎo).