林川 武樂飛 戴家佳
摘 要:大數(shù)據(jù)時代,各行各業(yè)均產(chǎn)生海量信息,面臨大量的信息,如何準確而高效地獲取數(shù)據(jù)中的潛在規(guī)律和蘊含價值成為企業(yè)信息化的重點。為提升煤礦企業(yè)對安全監(jiān)測數(shù)據(jù)的理解和監(jiān)控能力,改善隱患排查治理工作水平,本文提出基于類別關(guān)鍵詞權(quán)重的短文本分類模型,有效緩解了文本分類中特征稀疏的問題。該方法首先基于樸素貝葉斯算法,對不符合規(guī)范的非法數(shù)據(jù)進行篩選,然后構(gòu)建基于關(guān)鍵詞權(quán)重的短文本分類模型,利用中文分詞技術(shù)、卡方檢驗方法構(gòu)建關(guān)鍵詞庫,最后建立得分模型實現(xiàn)對隱患數(shù)據(jù)的分類。結(jié)果表明,該模型能較為準確地對礦業(yè)安全隱患數(shù)據(jù)進行有效的評級分類,進一步地改善隱患排查和治理的針對性和有效性。
關(guān)鍵詞:關(guān)鍵詞權(quán)重;短文本分類;煤礦安全隱患;樸素貝葉斯
中圖分類號:TP181;TD76
文獻標識碼: A
生產(chǎn)安全永遠是一個企業(yè)生產(chǎn)環(huán)節(jié)的重中之重,對于煤礦生產(chǎn)企業(yè)尤其如此。中國是傳統(tǒng)煤炭大國,煤炭產(chǎn)業(yè)是工業(yè)生產(chǎn)的龍頭,從政府到企業(yè),對煤炭生產(chǎn)安全問題都非常重視。煤礦安全事故的引發(fā)多由于不規(guī)范生產(chǎn)導(dǎo)致的安全隱患,隱患管理工作已成為了煤礦企業(yè)安全監(jiān)管的核心部分。隨著安全管理工作的不斷發(fā)展以及信息化技術(shù)的普及,據(jù)統(tǒng)計,僅2013年中國煤礦企業(yè)產(chǎn)生安全隱患523.1萬項,數(shù)據(jù)量127.3 G[1]。如何從海量的安全隱患數(shù)據(jù)中挖掘有益信息,捕獲重要安全隱患的特點及類型,最終形成可供輔助決策的可用知識集,成為了煤礦企業(yè)安全隱患管理的工作重點。
隨著數(shù)字化礦山的不斷發(fā)展與數(shù)據(jù)挖掘技術(shù)的普遍應(yīng)用,煤礦安全隱患信息的分類與評級受到學(xué)術(shù)界的普遍關(guān)注和研究。KIM等[2]將樸素貝葉斯算法應(yīng)用于文本分類領(lǐng)域,取得了很好效果,但受限于詞袋模型的缺點,特征稀疏且維度高,導(dǎo)致計算較復(fù)雜;黃章樹等[3]運用詞頻和卡方統(tǒng)計方法捕獲短文本特征,但由于短文本長度限制,導(dǎo)致性能不高。譚章祿等[4-5]利用詞云等數(shù)據(jù)可視化技術(shù),從總體安全隱患概況入手,基于社會網(wǎng)絡(luò)分析等數(shù)據(jù)挖掘技術(shù)分析了煤礦安全隱患之間潛在的關(guān)聯(lián)信息,并基于潛在狄利克雷主題模型挖掘煤礦安全隱患主題,并利用?;鶊D展示了安全隱患與隱患致因及責(zé)任人之間的潛在聯(lián)系;陳運啟[6]、張大偉[1]、劉雙躍等[7]挖掘并分析了維間關(guān)聯(lián)規(guī)則。XU等[8]基于防護層模型討論了事故隱患的定義、分類、分級、指標及評估等問題,建立了事故隱患分類分級框架。趙東風(fēng)等[9]提出了基于事故發(fā)展與控制的隱患分級方法,引入隱患暴露頻率、隱患糾正系數(shù)、事故后果初始分值等評價指標,利用隱患致因事故風(fēng)險計算解決了具體隱患的風(fēng)險分級與評估問題。
文本分類作為一種典型無監(jiān)督的方法,可以實現(xiàn)文本的有效管理、信息的充分聚合以及潛在規(guī)律的捕獲。煤礦安全隱患信息分類本質(zhì)上屬于短文本分類[10]。本文提出了一種基于類別關(guān)鍵詞權(quán)重的短文本分類方法,可以表征更多的語義信息,可有效實現(xiàn)煤礦安全隱患的分類和評級。
1?數(shù)據(jù)來源及特征
選取來自煤礦企業(yè)專項檢查、日常檢查、安全大檢查的37 584條安全隱患內(nèi)容的檢查記錄。安全隱患內(nèi)容是以自然語言描述的包括所在公司、檢查形式、檢查時間、隱患記錄等文本內(nèi)容,包含隱患狀態(tài)、特點或致因。樣例如表1所示。
按照《國家煤礦安全隱患等級評定標準》,各級煤炭行業(yè)管理部門、煤礦安全監(jiān)察機構(gòu)和煤礦企業(yè)(含新建煤礦)在自查、執(zhí)法檢查、舉報等過程中發(fā)現(xiàn)的各類安全隱患,根據(jù)安全隱患唯一性、通用性、穩(wěn)定性和可擴展性原則,煤礦安全隱患分4大類,45小類。樣例如表2所示。
2?基于樸素貝葉斯的數(shù)據(jù)規(guī)范方法
安全隱患的檢查形式和內(nèi)容均由專職人員負責(zé),由于記錄方式和態(tài)度的差異,導(dǎo)致安全隱患記錄中存在不規(guī)范數(shù)據(jù)。如“部分通信線路故障”,“adsfg”,“30031”等,即包含表意不明詞語(如“部分”)、主體詞(煤礦專業(yè)術(shù)語)、完全由數(shù)字或字母組成,含有此類詞語的隱患記錄數(shù)據(jù)很大概率屬于不規(guī)范記錄。不規(guī)范記錄的存在將對安全隱患記錄的分級性能帶來不良影響。
分析規(guī)范數(shù)據(jù)的特點可知,對于陌生數(shù)據(jù),無法通過正則表達式等傳統(tǒng)數(shù)據(jù)清洗手段進行數(shù)據(jù)預(yù)處理,據(jù)此,本文運用統(tǒng)計機器學(xué)習(xí)的方法進行隱患數(shù)據(jù)的分類,已達到自動清洗非法記錄的目的。
樸素貝葉斯算法是經(jīng)典統(tǒng)計機器學(xué)習(xí)算法,由貝葉斯算法推廣而來。樸素貝葉斯算法以屬性的類條件獨立性假設(shè)為前提,具有算法邏輯簡單,主體結(jié)構(gòu)清晰,訓(xùn)練時間短,運算速度快的優(yōu)點,并且在大多數(shù)應(yīng)用場景下表現(xiàn)良好。本文采用樸素貝葉斯對煤礦安全隱患數(shù)據(jù)進行自動化篩選,過濾非法數(shù)據(jù),以增強安全隱患分類效果。
3?基于類別關(guān)鍵詞權(quán)重的短文本分類模型
一直以來,文本分類都作為信息檢索的核心研究技術(shù),在數(shù)據(jù)挖掘和自然語言處理等領(lǐng)域有著廣泛的應(yīng)用。文本分類主要包括文本預(yù)處理、文本表示、文本特征選擇和分類算法四個部分 ,文本特征選擇主要有卡方檢驗方法、信息增益方法、互信息等算法;文本分類算法主要有決策樹、貝葉斯、神經(jīng)網(wǎng)絡(luò)、支持向量機、KNN 等算法。
本文根據(jù)煤礦安全隱患數(shù)據(jù)的形式與特點,并基于短文本分類的思想建立了基于類別關(guān)鍵詞權(quán)重的短文本分類模型,對工礦企業(yè)記錄的安全隱患數(shù)據(jù)進行分類,捕獲每一個類別隱患的狀態(tài)和潛在規(guī)律,為煤礦安全隱患管控和安全事故的預(yù)防提供預(yù)防性支撐。所建分類模型針對的短文本形式如表 3所示。
基于短文本分類的思想,實現(xiàn)煤礦安全隱患的自動分類,即將煤礦生產(chǎn)中實際產(chǎn)生的安全隱患記錄進行標準隱患內(nèi)容、隱患小類和隱患大類的分類。以安全隱患樣本為頂點,以其與標準隱患內(nèi)容之間的相似性關(guān)系為邊,通過構(gòu)建基于類別關(guān)鍵詞權(quán)重的關(guān)鍵詞庫,利用樣本隱患記錄和標準隱患內(nèi)容之間的相似度進行構(gòu)建短文本分類模型,模型結(jié)構(gòu)如圖1所示。
3.1?關(guān)鍵詞庫構(gòu)建
首先,針對表3中隱患大類、隱患小類、標準隱患內(nèi)容,利用中文分詞技術(shù)獲取初始關(guān)鍵詞庫;然后,進行初始關(guān)鍵詞庫去燥,清除無關(guān)關(guān)鍵詞、表意不明詞等去燥操作;最后,利用卡方檢驗方法對關(guān)鍵詞庫進行降維,流程見圖 2。
符號說明如表4所示。
分類文本的特征提取算法對模型最終效果有著巨大影響,本文采取卡方檢驗方法進行關(guān)鍵詞特征選取??ǚ綑z驗最基本的思想就是通過觀察實際值與理論值的偏差來確定理論的正確與否,即建立假設(shè)檢驗問題,卡方檢驗列聯(lián)表見表5。
E11=A11+A12P0,
(3)
E12,E21,E22同理可求。
綜上:
χ2(Key1,T)=∑i,jEi,j,
(4)
得到的卡方值越大,則拒絕原假設(shè)的把握性也就越大,得到的卡方值作為關(guān)鍵詞Key1在類別T下的得分point1。
對于關(guān)鍵詞Key1,Key2,…,Keyn,重復(fù)上述步驟可得到N個得分值:Point1,Point 2…Pointn,對這N個值按照從小到大的排序即可得到以上N個關(guān)鍵詞重要性排序的結(jié)果。按照N個關(guān)鍵詞的得分情況選擇關(guān)鍵詞個數(shù)。
3.2?類別關(guān)鍵詞權(quán)重
短文本分類問題,常常具有如下特征,每個關(guān)鍵詞重要性常與其頻率大小呈現(xiàn)出相反特征,本文由以下三個權(quán)重入手,建立得分模型。
1.整體權(quán)重
整體權(quán)重可看作是每個關(guān)鍵詞對標準隱患內(nèi)容的重要性程度,定義:
wi′=1ni∑N0j=1
Nnj。
(5)
其中,N為標準隱患內(nèi)容中關(guān)鍵詞出現(xiàn)的次數(shù),nj為第j個關(guān)鍵詞頻率。
2.隱患小類權(quán)重
定義:
wi″=wi′Ni,kni。
(6)
該權(quán)重可看作是隱患小類對每個關(guān)鍵詞的影響程度,其中,Ni,k為第i個關(guān)鍵詞在第k個隱患大類的數(shù)目,i=1,2,…,N0。
3.標準隱患內(nèi)容權(quán)重
定義:
wi=NNj′∑N1k=1NNk′。
(7)
即標準隱患內(nèi)容對每個關(guān)鍵詞的影響程度,其中:N1為標準隱患內(nèi)容數(shù)目,Nj′、Nk′分別為標準隱患內(nèi)容中第j、k個對象所包含關(guān)鍵詞數(shù)目。
3.3?得分模型
據(jù)上述所得權(quán)重,由式(5)、(6)和(7)得到得分模型:
key_pointj=∑N0i=1frei(wij′+wij″+wij)。(8)
其中:key_pointj為給定樣本所在標準隱患內(nèi)容中的第j個對象的得分;frei 為第i個關(guān)鍵詞在給定樣本中出現(xiàn)次數(shù);對于wi′,固定i可得wij′,wij″和wij同理可得。
本文采用誤判率作為最終分類的評價標準,定義誤判率:
ER=n0′N1。
(9)
其中,n0′為誤判數(shù)。
4?實驗
4.1?數(shù)據(jù)
本模型實例數(shù)據(jù)包含國標數(shù)據(jù)和煤礦企業(yè)實際隱患樣本數(shù)據(jù)兩部分。其中國標數(shù)據(jù)包含隱患大類、隱患小類、標準隱患內(nèi)容、隱患等級等 4 項指標,共4大類,45小類,共 487 條數(shù)據(jù);隱患樣本數(shù)據(jù)包含企業(yè)編號、檢查形式、檢查時間和隱患內(nèi)容等 4 項指標,共37 584條數(shù)據(jù)。
4.2?非法數(shù)據(jù)過濾
選取數(shù)據(jù)集中的5 387條數(shù)據(jù)作為測試集,其余作為訓(xùn)練集。在測試集中共有合法數(shù)據(jù)4 763條,非法數(shù)據(jù)624條,訓(xùn)練樸素貝葉斯分類器識別非法數(shù)據(jù)。
根據(jù)表6,在4 763條合法數(shù)據(jù)中,共有7 條數(shù)據(jù)沒有被正確分類,準確率99.8%。在624條非法數(shù)據(jù)中,僅有4條被錯誤識別,準確率99.3%。實驗結(jié)果證明,基于樸素貝葉斯的分類器可以有效地篩選非法數(shù)據(jù)。
4.3?關(guān)鍵詞提取及其特征選擇
首先,使用python ̄jieba中文分詞工具,將國標數(shù)據(jù)中隱患大類、隱患小類和標準隱患內(nèi)容進行分詞,經(jīng)過降噪處理,得到初始關(guān)鍵詞庫,示例見表7。
為了獲取國標隱患小類之間的差異性,通過卡方檢驗方法對初始化關(guān)鍵詞庫降維。關(guān)鍵詞的選擇遵循如下規(guī)則:當標準隱患內(nèi)容的關(guān)鍵詞數(shù)目小于等于6時,選取所有關(guān)鍵詞加入關(guān)鍵詞庫;當標準隱患內(nèi)容的關(guān)鍵詞數(shù)目大于6時,據(jù)卡方得分從大到小的排序結(jié)果,取總體關(guān)鍵詞數(shù)目的前 75%加入關(guān)鍵詞庫。
4.4?計算得分權(quán)重
通過對關(guān)鍵詞庫降維計算,可知國標隱患小類之間的差異性體現(xiàn)在兩個方面:首先,就重要性而言,頻率較低的關(guān)鍵詞大于高頻率關(guān)鍵詞;其次,就國標隱患大類而言,每個關(guān)鍵詞的權(quán)重是不同的;再次,國標隱患小類包含的關(guān)鍵詞數(shù)目對最終分類結(jié)果有著一定影響。
為了描述上述差別,需要進行得分權(quán)重的計算。為了得到安全隱患樣本與國標隱患小類的相似得分,分別計算整體權(quán)重w′、國標隱患小類權(quán)重w″與標準隱患內(nèi)容權(quán)重w得分權(quán)重,計算示例見表8。
4.5?安全隱患分類
通過上述關(guān)鍵詞庫構(gòu)建、特征選取與類別權(quán)重得分計算,根據(jù)得分權(quán)重公式計算分數(shù)。分類結(jié)果示例見表9。其中,“Rank”列表示漸次得分個數(shù),從高到低選取;標準隱患內(nèi)容正確率表示分類正確的數(shù)目占總樣本的比例;如當Rank=2時,表明選擇得分前二個結(jié)果中必定存在一個判別結(jié)果為真實類別的概率為1;隱患小類誤判率表示標準隱患內(nèi)容判別結(jié)果誤判率,如當隱患小類誤判率=0時,表示如果選擇得分最高的結(jié)果作為決策依據(jù),那么國標隱患小類判別結(jié)果的準確率是100%。
5?結(jié)語
本文根據(jù)煤礦安全隱患數(shù)據(jù)的形式和特點,以短文本分類為基礎(chǔ),提出了一種基于關(guān)鍵詞權(quán)重的煤礦安全隱患分類方法。該方法將中文分詞、權(quán)重確定、卡方檢驗等技術(shù)方法應(yīng)用于短文本分類,具有算法邏輯簡單、體系結(jié)構(gòu)清晰、易于實現(xiàn)等特點,且具有較高的準確度。但由于未考慮隱患數(shù)據(jù)的上下文信息,本方法在健壯性和泛化性方面有待改進,這將成為我們下一步工作的重點。
參考文獻:
[1]張大偉.基于OLAM的煤礦企業(yè)安全隱患趨勢分析[J].煤炭工程,2015,47(5):139-142.
[2]KIM S B,HAN K S,RIM H C ,et al. Some effective techniques for naive bayes text classification[J]. IEEE transactions on knowledge and data engineering,2006,18(11): 1457-1466.
[3]黃章樹,葉志龍.基于改進的CHI統(tǒng)計方法在文本分類中的應(yīng)用[J].計算機系統(tǒng)應(yīng)用,2016,25(11):136-140.
[4]譚章祿,王澤,陳曉,等.基于LDA的煤礦安全隱患主題發(fā)現(xiàn)研究[J].中國安全科學(xué)學(xué)報,2016,26(6):123-128.
[5]譚章祿,陳曉,宋慶正,等.基于文本挖掘的煤礦安全隱患分析[J].安全與環(huán)境學(xué)報,2017,17(4): 1262-1266.
[6]陳運啟.數(shù)據(jù)挖掘技術(shù)在煤礦隱患管理中的應(yīng)用[J].工礦自動化,2016,42(2):27-30.
[7]劉雙躍,楊蕾,彭麗.基于改進Apriori算法的煤礦物態(tài)隱患系統(tǒng)設(shè)計與應(yīng)用[J].煤炭技術(shù),2015,34(4): 318-320.
[8]XU M,WU Z Z,LUO Y,et al. Study on classification and ranking of APs based on LOP model[J]. China Safety Science Journal,2014,24(7):15-20.
[9]趙東風(fēng),申玉琪,趙志強,等.基于事故發(fā)展與控制的隱患分級方法[J].中國安全科學(xué)學(xué)報,2012,22(4):71-76.
[10]謝斌紅,馬非,潘理虎,等.煤礦安全隱患信息自動分類方法[J].工礦自動化,2018,44(10):10-14.
Classification Method of Hidden Danger in Coal Mine
Safety Based on Weight of Category Keyword
LIN Chuan1,WU Yuefei1,DAI Jiajia2*
(1.College of Computer Science and Technology,Guizhou University,Guiyang 550025, China;
2.College of Mathematics and Statistics,Guizhou University,Guiyang 550025, China)
Abstract:
In the era of big data, all walks of life generate a large amount of information and produce a large amount of information, and how to accurately and efficiently obtain the potential rules and hidden values in data has become the focus of enterprise informatization. In order to improve the understanding and monitoring ability of coal mine enterprises on safety monitoring data and improve the level of hidden dangers investigation and control, this paper presents a short text classification model based on category keyword weights, which effectively alleviates the problem of sparse features in text classification. Firstly, based on Naive Bayesian algorithm, this method screens the illegal data that does not conform to the norm, and then constructs a short text classification model based on keyword weights. And then the Chinese word segmentation technique and the chi ̄square test method are used to construct the keyword database. Finally the scoring model is established and the classification of hidden danger data is conducted. The results indicate that the model can accurately classify mining safety hazard data and further improve the pertinence and effectiveness of hazard investigation and management.
Key words:
keyword weight; short text classification; hidden dangers of coal mine safety; Naive Bayes