陳運(yùn)啟
(中煤科工集團(tuán)重慶研究院有限公司, 重慶 400039)
數(shù)據(jù)挖掘技術(shù)在煤礦隱患管理中的應(yīng)用
陳運(yùn)啟
(中煤科工集團(tuán)重慶研究院有限公司, 重慶400039)
摘要:針對(duì)目前煤礦隱患管理缺乏對(duì)隱患數(shù)據(jù)深入分析的問(wèn)題,介紹了適合隱患關(guān)聯(lián)規(guī)則發(fā)現(xiàn)的數(shù)據(jù)挖掘算法,提出用支持度-置信度-Kulczynski度量模式表達(dá)隱患因素間的關(guān)聯(lián)關(guān)系。對(duì)隱患數(shù)據(jù)預(yù)處理、轉(zhuǎn)換后構(gòu)建隱患數(shù)據(jù)倉(cāng)庫(kù),并在隱患責(zé)任部門(mén)、隱患種類(lèi)、隱患等級(jí)和隱患發(fā)生地點(diǎn)4個(gè)維度上進(jìn)行挖掘分析,發(fā)現(xiàn)多維度間存在的較強(qiáng)關(guān)聯(lián)規(guī)則,給出針對(duì)性的輔助決策?,F(xiàn)場(chǎng)實(shí)際應(yīng)用表明,通過(guò)使用數(shù)據(jù)挖掘算法,減少了隱患的發(fā)生次數(shù),為煤礦隱患治理提供了可靠支持。
關(guān)鍵詞:煤礦隱患; 數(shù)據(jù)挖掘; 支持度; 置信度; Kulczynski度量; 關(guān)聯(lián)規(guī)則
網(wǎng)絡(luò)出版地址:http://www.cnki.net/kcms/detail/32.1627.TP.20160126.1543.007.html
0引言
隱患的排查與整改是煤礦安全生產(chǎn)管理的重要環(huán)節(jié),特別是當(dāng)前安全檢查的力度不斷加大,暴露出來(lái)的各類(lèi)煤礦安全隱患的數(shù)量也越來(lái)越多。據(jù)統(tǒng)計(jì),2013年中國(guó)僅工礦企業(yè)排查出的隱患數(shù)據(jù)就多達(dá)500萬(wàn)[1]。為了應(yīng)對(duì)企業(yè)隱患的信息化管理要求,各種隱患管理系統(tǒng)的研發(fā)與應(yīng)用也在不斷開(kāi)展。但是,當(dāng)前多數(shù)隱患管理系統(tǒng)基本上只提供對(duì)隱患信息的簡(jiǎn)單記錄與查詢(xún)統(tǒng)計(jì),缺乏對(duì)海量隱患數(shù)據(jù)的深入分析。發(fā)現(xiàn)隱患數(shù)據(jù)中各因素間的關(guān)聯(lián)關(guān)系,減少隱患發(fā)生次數(shù),提高生產(chǎn)安全指數(shù),是當(dāng)前煤礦隱患排查治理和信息化發(fā)展過(guò)程中亟需解決的重要課題之一。本文將數(shù)據(jù)挖掘算法應(yīng)用于煤礦隱患管理系統(tǒng),針對(duì)隱患數(shù)據(jù)在多個(gè)維度上展開(kāi)關(guān)聯(lián)分析與挖掘,為后續(xù)隱患管理提供較為準(zhǔn)確、可靠的輔助決策。
1數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘概念出現(xiàn)于20世紀(jì)80年代,是一種多學(xué)科綜合的產(chǎn)物,其充分利用統(tǒng)計(jì)學(xué)、數(shù)據(jù)庫(kù)、人工智能、模式識(shí)別和機(jī)器學(xué)習(xí)等理論與技術(shù),從海量數(shù)據(jù)中進(jìn)行自動(dòng)分析與挖掘,發(fā)現(xiàn)潛在的隱含知識(shí),協(xié)助用戶(hù)做出合理決策與準(zhǔn)確預(yù)測(cè)等[2]。目前,數(shù)據(jù)挖掘相關(guān)技術(shù)與產(chǎn)品已廣泛應(yīng)用于金融分析、醫(yī)療保健、商品銷(xiāo)售、行為預(yù)測(cè)分析等領(lǐng)域。
1.1數(shù)據(jù)挖掘過(guò)程
對(duì)數(shù)據(jù)挖掘過(guò)程的研究有多種,但基本上可歸為數(shù)據(jù)預(yù)處理、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)挖掘和結(jié)果評(píng)估與表達(dá)4個(gè)步驟。
數(shù)據(jù)預(yù)處理是指從數(shù)據(jù)源中選擇要處理的數(shù)據(jù)對(duì)象或數(shù)據(jù)主題,并對(duì)選擇的數(shù)據(jù)進(jìn)行清理,去掉其中的噪聲數(shù)據(jù)、重復(fù)數(shù)據(jù),補(bǔ)充不完整或缺失的數(shù)據(jù)。數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘的重要基礎(chǔ),處理后的數(shù)據(jù)質(zhì)量直接決定了整個(gè)數(shù)據(jù)挖掘結(jié)果的準(zhǔn)確度和可信度。
數(shù)據(jù)轉(zhuǎn)換是將預(yù)處理后的數(shù)據(jù)根據(jù)挖掘需要在數(shù)據(jù)范圍和數(shù)據(jù)維度上做出一定的計(jì)算與選取。往往預(yù)處理后的數(shù)據(jù)在數(shù)量級(jí)和維度上都比較高,在數(shù)據(jù)挖掘執(zhí)行過(guò)程中,可能會(huì)分批選擇不同階段和不同維度上的數(shù)據(jù),并轉(zhuǎn)換為適合數(shù)據(jù)挖掘算法使用的數(shù)據(jù)結(jié)構(gòu)。
數(shù)據(jù)挖掘是在前期處理結(jié)果的基礎(chǔ)上,利用許多不同方法如決策樹(shù)方法、神經(jīng)網(wǎng)絡(luò)方法、貝葉斯方法、關(guān)聯(lián)分析方法、聚類(lèi)分析方法等對(duì)數(shù)據(jù)進(jìn)行挖掘計(jì)算,從而發(fā)現(xiàn)相應(yīng)的關(guān)聯(lián)關(guān)系和知識(shí)模型。
結(jié)果評(píng)估與表達(dá)是數(shù)據(jù)挖掘過(guò)程的最后階段,其利用適當(dāng)?shù)目梢暬夹g(shù)和知識(shí)合理表達(dá)數(shù)據(jù)挖掘的計(jì)算結(jié)果并呈現(xiàn)給用戶(hù),進(jìn)而評(píng)估數(shù)據(jù)挖掘質(zhì)量以及知識(shí)模型的有效性。
1.2關(guān)聯(lián)規(guī)則算法
所謂關(guān)聯(lián),就是反映一個(gè)事物與其他事物之間的依賴(lài)關(guān)系。關(guān)聯(lián)規(guī)則算法是一種在海量數(shù)據(jù)中找出這些依賴(lài)關(guān)系的方法,適用于隱患數(shù)據(jù)中各因素間關(guān)聯(lián)關(guān)系的挖掘與分析。關(guān)聯(lián)規(guī)則中的基本概念有項(xiàng)集(Itemset)、支持度(Support)和置信度(Confidence)[3]。
設(shè)定存在事務(wù)數(shù)據(jù)庫(kù)D={t1,t2,…,tn},其中t1,t2,…,tn表示每一個(gè)事務(wù);所有項(xiàng)目的集合I={i1,i2,…,im},其中i1,i2,…,im表示每一個(gè)項(xiàng)目,每個(gè)事務(wù)包含的項(xiàng)集都是I的子集。關(guān)聯(lián)規(guī)則是支持度和置信度分別滿(mǎn)足給定閾值的規(guī)則,用形如X?Y的蘊(yùn)涵式來(lái)表示(X,Y表示項(xiàng)集),其中支持度表示X?Y蘊(yùn)涵式在事務(wù)數(shù)據(jù)庫(kù)中出現(xiàn)的頻率,即Support(X?Y)=P(XUY),置信度表示Y在包含X的事務(wù)中出現(xiàn)的頻率,即Confidence(X?Y)=Support(X?Y)/Support(X)=P(Y|X)。
Apriori算法是關(guān)聯(lián)規(guī)則挖掘領(lǐng)域中的經(jīng)典算法,應(yīng)用非常廣泛。Apriori算法的核心是挖掘頻繁項(xiàng)集的遞推算法,其基本思想是用迭代的方法找出所有的候選集,將這些候選集的支持度與最小支持度比較,如果不小于最小支持度,即為頻繁項(xiàng)集。找到頻繁項(xiàng)集后,計(jì)算規(guī)則的置信度,如果所得置信度大于最小置信度,則產(chǎn)生強(qiáng)關(guān)聯(lián)規(guī)則[4]。
Apriori算法在搜索頻繁項(xiàng)集和挖掘強(qiáng)關(guān)聯(lián)規(guī)則時(shí),需要多次掃描事務(wù)數(shù)據(jù)庫(kù),同時(shí)會(huì)產(chǎn)生大量的候選集,算法執(zhí)行所花費(fèi)的時(shí)間和空間代價(jià)都比較大,在挖掘長(zhǎng)頻繁模式時(shí)算法性能較為低下,挖掘的強(qiáng)關(guān)聯(lián)規(guī)則也容易產(chǎn)生誤導(dǎo)信息。
1.3支持度-置信度-Kulczynski度量模式
針對(duì)Apriori算法存在的缺點(diǎn),韓家煒提出了FP-Growth(Frequent Pattern Growth,頻繁模式增長(zhǎng))算法。FP-Growth算法首先對(duì)事務(wù)數(shù)據(jù)庫(kù)進(jìn)行分析和處理,生成1-頻繁項(xiàng)集,并根據(jù)支持度由大到小排序,形成頻繁項(xiàng)索引表。然后構(gòu)建根節(jié)點(diǎn)為“null”的FP-Tree(Frequent Pattern Tree,頻繁模式樹(shù)),并對(duì)事務(wù)數(shù)據(jù)庫(kù)中的每個(gè)事務(wù)進(jìn)行處理,不斷構(gòu)建FP-Tree分支節(jié)點(diǎn)。最后進(jìn)行FP-Tree挖掘,可采用自底向上的迭代方式,以葉子節(jié)點(diǎn)為后綴的項(xiàng)與一起出現(xiàn)的前綴路徑組成一個(gè)條件模式基[5]。
在生成1-頻繁項(xiàng)集時(shí),可以根據(jù)支持度大小,限制生成的1-頻繁項(xiàng)集的大小,以減少迭代次數(shù),提高挖掘效率。由于FP-Growth算法對(duì)事務(wù)數(shù)據(jù)庫(kù)有效壓縮,相比Apriori算法避免了重復(fù)掃描事務(wù)數(shù)據(jù)庫(kù)帶來(lái)的額外開(kāi)銷(xiāo);此外,F(xiàn)P-Growth算法還將發(fā)現(xiàn)長(zhǎng)頻繁模式的問(wèn)題轉(zhuǎn)化為遞歸模式增長(zhǎng)的策略,避免產(chǎn)生大量候選集,大大降低了算法的時(shí)間復(fù)雜度。
FP-Growth算法采用支持度和置信度表示發(fā)現(xiàn)的規(guī)則之間的關(guān)聯(lián)性,容易產(chǎn)生誤導(dǎo)的關(guān)聯(lián)規(guī)則結(jié)果,特別是P(X|Y)與P(Y|X)相差較大時(shí),X與Y之間可能具有正相關(guān)與負(fù)相關(guān)2種對(duì)立關(guān)系。因此增加更有效的Kulczynski度量[6],它僅受條件概率影響,而與事務(wù)總數(shù)無(wú)關(guān),具有零不變性。Kulczynski度量是與X,Y相關(guān)的2個(gè)關(guān)聯(lián)規(guī)則X?Y,Y?X的置信度的平均值,即Kulczynski(X,Y)=(P(X|Y)+P(Y|X))/2,利用它來(lái)擴(kuò)展支持度-置信度模式,生成支持度-置信度-Kulczynski度量模式,有助于挖掘煤礦隱患多個(gè)維度之間更有效的關(guān)聯(lián)規(guī)則。
2隱患數(shù)據(jù)挖掘與應(yīng)用
針對(duì)隱患數(shù)據(jù)展開(kāi)的挖掘分析是在煤礦隱患閉環(huán)管理系統(tǒng)基礎(chǔ)上展開(kāi)的。系統(tǒng)基于.NET Framework技術(shù)平臺(tái)實(shí)現(xiàn)[7],使用Microsoft SQL Server 2008作為持久層數(shù)據(jù)庫(kù)服務(wù)器,利用ASP.NET MVC框架[8]并結(jié)合Html,CSS,JavaScript,jQuery等前端編程技術(shù)與插件實(shí)現(xiàn)Web終端報(bào)表查詢(xún)、圖表統(tǒng)計(jì)、挖掘結(jié)果呈現(xiàn)等功能,提供了友好的用戶(hù)體驗(yàn)。隱患處理流程包含隱患排查、整改、申訴、驗(yàn)收和存檔等,系統(tǒng)對(duì)存檔的數(shù)據(jù)進(jìn)行預(yù)處理后展開(kāi)數(shù)據(jù)挖掘,給出合理的決策建議,如圖1所示。
圖1 隱患處理流程
2.1隱患數(shù)據(jù)預(yù)處理與數(shù)據(jù)轉(zhuǎn)換
為了提高數(shù)據(jù)挖掘的準(zhǔn)確性和速度,在展開(kāi)挖掘之前對(duì)隱患數(shù)據(jù)進(jìn)行相應(yīng)的處理。在綜合考慮數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)更新速度和數(shù)據(jù)完整性的情況下,設(shè)定隱患數(shù)據(jù)從源數(shù)據(jù)庫(kù)中抽取的周期為7 d,抽取過(guò)程中去除申訴成功并取消的隱患數(shù)據(jù)。同時(shí),從隱患自身特點(diǎn)和實(shí)際需要出發(fā),決定在隱患責(zé)任部門(mén)(Department)、隱患種類(lèi)(Category)、隱患等級(jí)(Level)、隱患發(fā)生地點(diǎn)(Address)4個(gè)維度上進(jìn)行挖掘分析。隱患種類(lèi)包括調(diào)度類(lèi)、通風(fēng)類(lèi)、采掘類(lèi)、機(jī)運(yùn)類(lèi)、地測(cè)防治水類(lèi)、爆炸品與放炮類(lèi)和共性類(lèi);隱患等級(jí)依據(jù)嚴(yán)重程度由高到低分為A級(jí)、B級(jí)、C級(jí)和D級(jí)。在隱患數(shù)據(jù)載入數(shù)據(jù)倉(cāng)庫(kù)之前,對(duì)數(shù)據(jù)進(jìn)行精簡(jiǎn),只保留隱患的基本信息和以上幾個(gè)維度信息,可減少冗余數(shù)據(jù),提高挖掘效率。
2.2挖掘分析過(guò)程及結(jié)果
本文以某煤礦現(xiàn)場(chǎng)的實(shí)際隱患數(shù)據(jù)展開(kāi)數(shù)據(jù)挖掘過(guò)程并分析隱患各維度間的關(guān)聯(lián)關(guān)系,發(fā)現(xiàn)較強(qiáng)的關(guān)聯(lián)規(guī)則指導(dǎo)現(xiàn)場(chǎng)生產(chǎn)。以該煤礦1個(gè)月284條隱患數(shù)據(jù)為例,經(jīng)計(jì)算后其頻繁項(xiàng)索引表前10項(xiàng)見(jiàn)表1。
表1 隱患數(shù)據(jù)頻繁項(xiàng)索引表前10項(xiàng)
從表1可看出,C級(jí)、采掘類(lèi)和B級(jí)隱患排名靠前,且掘進(jìn)二隊(duì)的隱患數(shù)量位居各部門(mén)首位,因此以掘進(jìn)二隊(duì)為基礎(chǔ),從隱患責(zé)任部門(mén)、隱患等級(jí)和隱患種類(lèi)3個(gè)維度上進(jìn)行分析,生成相應(yīng)的FP-Tree如圖2所示。
圖2 隱患責(zé)任部門(mén)-隱患等級(jí)-隱患種類(lèi)FP-Tree
從圖2可看出,掘進(jìn)二隊(duì)負(fù)責(zé)整改的相關(guān)隱患中,采掘類(lèi)和C級(jí)隱患占了非常高的比例,通過(guò)計(jì)算可得
Department(掘進(jìn)二隊(duì))?Category(采掘類(lèi))[Support=15.49%,Confidence=81.48%,Kulczynski=52.02%];
Department(掘進(jìn)二隊(duì))Category(采掘類(lèi))?Level(C級(jí))[Support=13.03%,Confidence=84.09%,Kulczynski=51.40%]。
此外,針對(duì)掘進(jìn)二隊(duì)的隱患增加隱患發(fā)生地點(diǎn)維度的挖掘與分析,其FP-Tree如圖3所示,其中4321-38運(yùn)輸巷隱患總數(shù)為29條,+1 600 m進(jìn)風(fēng)斜井隱患總數(shù)為18條。通過(guò)計(jì)算可得
Department(掘進(jìn)二隊(duì))?Address(4321-38運(yùn)輸巷)[Support=10.21%,Confidence=53.70%,Kulczynski=75.18%];
Department(掘進(jìn)二隊(duì))?Address(+1 600 m進(jìn)風(fēng)斜井)[Support=6.69%,Confidence=33.33%,Kulczynski=64.03%]。
圖3 隱患責(zé)任部門(mén)-隱患發(fā)生地點(diǎn)FP-Tree
2.3輔助決策
從掘進(jìn)二隊(duì)在陷患種類(lèi)和隱患等級(jí)維度上的挖掘結(jié)果可看出,掘進(jìn)二隊(duì)與采掘類(lèi)和C級(jí)隱患的關(guān)聯(lián)關(guān)系更強(qiáng)。因此,建議掘進(jìn)二隊(duì)在處理隱患時(shí),將重點(diǎn)放在采掘類(lèi)和C級(jí)隱患上。
對(duì)掘進(jìn)二隊(duì)隱患發(fā)生地點(diǎn)維度上的數(shù)據(jù)進(jìn)行挖掘分析后可看出,掘進(jìn)二隊(duì)的主要隱患發(fā)生地點(diǎn)集中在4321-38運(yùn)輸巷和+1 600 m進(jìn)風(fēng)斜井處,且相比置信度而言,Kulczynski度量值更高,表明該2個(gè)地點(diǎn)發(fā)生的隱患與掘進(jìn)二隊(duì)的關(guān)聯(lián)性更強(qiáng)。因此建議掘進(jìn)二隊(duì)著重處理該2個(gè)地點(diǎn)的隱患。
通過(guò)以上計(jì)算和分析,就掘進(jìn)二隊(duì)而言,在隱患發(fā)生地點(diǎn)、隱患種類(lèi)和隱患等級(jí)上,均給出了有數(shù)據(jù)支持的輔助決策。在隨后1個(gè)月的隱患治理整改中,掘進(jìn)二隊(duì)負(fù)責(zé)整改的隱患占全礦隱患的比例由19.01%下降至13.50%,效果非常明顯。
3結(jié)語(yǔ)
數(shù)據(jù)挖掘技術(shù)在煤礦隱患管理中的應(yīng)用,給隱患治理提供了切實(shí)可用的決策建議,使隱患得到了針對(duì)性整治,隱患發(fā)生率有較大幅度降低,生產(chǎn)安全狀況得到明顯改善。產(chǎn)生煤礦安全隱患的關(guān)聯(lián)因素較多,其中煤礦人員的專(zhuān)業(yè)素質(zhì)、培訓(xùn)考試信息、年齡結(jié)構(gòu)層次等數(shù)據(jù)也是潛在的重要關(guān)聯(lián)點(diǎn),所以在下一步的研究中,計(jì)劃將以上數(shù)據(jù)抽取、轉(zhuǎn)換后裝載到數(shù)據(jù)倉(cāng)庫(kù)中,建立包含“人”的因素在內(nèi)的挖掘分析模型,進(jìn)行更深層次、更廣維度的關(guān)聯(lián)分析挖掘,發(fā)現(xiàn)“人”的因素對(duì)煤礦隱患產(chǎn)生的影響情況,提供更為全面的輔助決策。
參考文獻(xiàn):
[1]張大偉.基于OLAM的煤礦企業(yè)安全隱患趨勢(shì)分析[J].煤炭工程,2015,47(5):139-142.
[2]王夢(mèng)雪.數(shù)據(jù)挖掘綜述[J].軟件導(dǎo)刊,2013,12(10):135-137.
[3]蘆海燕.數(shù)據(jù)挖掘中關(guān)聯(lián)規(guī)則算法的研究[J].電腦知識(shí)與技術(shù),2011,7(26):6324-6325.
[4]黃偉力,李亮.基于Apriori的煤礦安全預(yù)警系統(tǒng)設(shè)計(jì)[J].計(jì)算機(jī)測(cè)量與控制,2013,21(10):2786-2788.
[5]章志剛,吉根林.一種基于FP-Growth的頻繁項(xiàng)目集并行挖掘算法[J].計(jì)算機(jī)工程與應(yīng)用,2014,50(2):103-106.
[6]曲廣龍,楊洪耕.基于梯形云模型的電能質(zhì)量數(shù)據(jù)關(guān)聯(lián)性挖掘方法[J].電力系統(tǒng)自動(dòng)化,2015,39(7):145-150.
[7]李璟.基于.NET的分層架構(gòu)及抽象工廠模式在Web開(kāi)發(fā)中的應(yīng)用[J].軟件導(dǎo)刊,2015,14(4):105-108.
[8]秦冠男.基于ASP.NET MVC框架的IT管理系統(tǒng)的設(shè)計(jì)[D].上海:上海交通大學(xué),2013.
Application of data mining technology in coal mine hidden hazard management
CHEN Yunqi
(CCTEG Chongqing Research Institute, Chongqing 400039, China)
Abstract:For lack of deep analysis of hidden hazard data in current coal mine hidden hazard management, data mining algorithms which were suitable for discovering association rule of hidden hazard were introduced, and support-confidence-Kulczynski model was proposed to indicate association relationship among hidden hazard factors. Data warehouse is built after preprocessing and conversion of hidden hazard data, and mining analysis is conducted on four dimensions such as department, category, level and address of hidden hazard, so as to provide corresponding assistant decision-making according to strong association rule founded among dimensions. The actual application results show that occurrence of hidden hazard is reduced and reliable support is provided for coal mine hidden hazard management by use of the data mining algorithm.
Key words:coal mine hidden hazard; data mining; support; confidence; Kulczynski measurement; association rule
作者簡(jiǎn)介:陳運(yùn)啟(1984-),男,安徽蕭縣人,助理研究員,碩士,主要從事煤礦綜合自動(dòng)化與信息化等方面的研究工作,E-mail:chen.yun.qi@qq.com。
基金項(xiàng)目:工信部2014年物聯(lián)網(wǎng)發(fā)展專(zhuān)項(xiàng)資金項(xiàng)目(2014083105)。
收稿日期:2015-11-13;修回日期:2016-01-10;責(zé)任編輯:盛男。
中圖分類(lèi)號(hào):TD67
文獻(xiàn)標(biāo)志碼:A網(wǎng)絡(luò)出版時(shí)間:2016-01-26 15:43
文章編號(hào):1671-251X(2016)02-0027-04
DOI:10.13272/j.issn.1671-251x.2016.02.007
陳運(yùn)啟.數(shù)據(jù)挖掘技術(shù)在煤礦隱患管理中的應(yīng)用[J].工礦自動(dòng)化,2016,42(2):27-30.