国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

水利工程安全隱患文本挖掘與智能管理技術研究

2024-01-10 06:56:08楊濤趙嵩
企業(yè)科技與發(fā)展 2023年12期
關鍵詞:決策樹排查隱患

楊濤,趙嵩

(1.深圳市科榮軟件股份有限公司,廣東深圳 518001;2.云南大學信息學院,云南昆明 650504)

0 引言

隨著安全信息化工作的推進,水利工程建設積累了大量繁雜、多源異構的隱患文本數(shù)據(jù),但是現(xiàn)階段的水利工程施工安全隱患分析主要依靠安全管理人員的個人經(jīng)驗,效率較低且難以發(fā)現(xiàn)隱患數(shù)據(jù)的內部聯(lián)系。自然語言處理技術的發(fā)展,實現(xiàn)水利工程施工安全隱患文本的智能分類與管理成為可能。

建筑業(yè)施工的安全隱患分類尚處于起步階段,目前業(yè)界對安全隱患的分類方式主要有兩種:一是基于人為預設框架的隱患分類,如HALLOWELL等[1]整合已有出版物對安全隱患的分類,總結得到接觸有害物質、過度疲勞、重復運動等10 類安全隱患;二是基于數(shù)據(jù)聚類分析的隱患分類,如ZHAO 等[2]對地鐵隧道建設工程的243個安全事件進行結構分析,并采用聚類分析方法從事件組中挖掘并確定對事故發(fā)生影響最大的因素。雖然文本分類模型可以實現(xiàn)隱患文本的高效、精確分類,但是無法從文本中獲取更詳細的隱患信息[3]。針對分類后的安全隱患文本,詞云圖與共現(xiàn)網(wǎng)絡分析是文本挖掘中的常用方法,能夠發(fā)現(xiàn)文本的內部特征及外部特征,具有較高的實用性與可靠性。潘杏等[4]利用詞云圖從時間維度對地鐵施工的安全隱患進行可視化分析,挖掘地鐵安全隱患,排查要點;薛楠楠等[5]利用共現(xiàn)網(wǎng)絡,識別建筑工人不安全行為及其影響因素之間的關系。

本文利用隨機森林模型進行隱患文本的智能分類,并結合TF-IDF 算法獲得更深層次的語義信息,提升文本分類的精確度。本文所提方法可以為水利工程施工安全隱患問題的文本智能分類及隱患排查線索的挖掘提供參考。

1 研究內容與方法

1.1 研究內容

安全模塊對智慧監(jiān)管平臺每個標段下的安全隱患描述進行深入分析。首先,對安全隱患問題描述文本數(shù)據(jù)進行預處理。其次,采用TF-IDF 特征提取方法將隱患文本描述轉換為特征向量,采用隨機森林(Random Forest,RF)模型將安全隱患預測為10 個類別,分別是高處墜落、機械傷害、物體打擊、觸電、火災爆炸、起重傷害、文明施工、機電信息、安保設施、建筑物破損。再次,依據(jù)分類后的結果,利用詞云和詞頻統(tǒng)計方法展現(xiàn)安全隱患概況,挖掘隱患核心詞;采用序列相似度匹配算法(Sequence Matcher,SM)從原始安全隱患數(shù)據(jù)里面匹配出包含核心詞的隱患數(shù)據(jù)集,采用隱含狄利克雷分布(Latent Dirichlet Allocation,LDA)模型從數(shù)據(jù)集中聚類分析出每個核心詞的代表性數(shù)據(jù),作為每個類別下的隱患排查線索。最后,通過詞云圖可視化隱患的安全管理要點及隱患數(shù)據(jù)的內部聯(lián)系,挖掘安全隱患文本中隱含的重要信息和內在規(guī)律,用于輔助水利工程安全管理實踐。本研究為隱患文本智能知識挖掘提供新的思路,也為水利工程施工安全隱患排查及預防提供新的指導手段。

1.2 研究方法

1.2.1 文本預處理

為獲得有效、可用的施工安全隱患數(shù)據(jù),本文結合工程施工安全隱患判定標準《工程管理人員“三管三必須”檢查手冊》等相關規(guī)范及實際工程施工經(jīng)驗,對施工安全隱患數(shù)據(jù)進行處理。首先,由于數(shù)據(jù)來源于人工記錄,所以對工程數(shù)據(jù)中含有主觀推斷的信息、缺失值、異常值等數(shù)據(jù)均采用手動方式進行剔除,以獲得有效、可用的安全隱患數(shù)據(jù)。其次,針對水利工程施工安全領域的特點,制作該領域的安全隱患字典輔助分詞,包括手動添加專有名詞到自定義詞典中,例如“高處墜落”“電氣安全”“腳手架”等,以豐富和完善分詞效果,有效避免術語被錯誤地分開或合并,提高數(shù)據(jù)處理和分析的精確度。再次,停用詞表采用哈爾濱工業(yè)大學停用詞表,在此基礎上將不規(guī)范的關鍵詞、無意義的詞添加到停用詞表中,用于去除隱患問題描述文本中的停用詞(例如空格、標點符號)等影響文本處理與分析的無效信息。最后,采用jieba 分詞技術對隱患問題描述文本進行分詞操作,操作主要包含如下4個步驟:字典匹配、詞性標注、建立有向無環(huán)圖和最短路徑分詞。

1.2.2 基于隨機森林模型的安全隱患文本分類

1.2.2.1 TF-IDF文本向量化

為將安全隱患文本數(shù)據(jù)轉換為機器學習模型所能處理的數(shù)值型數(shù)據(jù),采用TF-IDF 實現(xiàn)文本數(shù)據(jù)的特征提取和向量化。TF-IDF 是一種常用的文本特征提取方法[6],用于評估一個詞對一個文檔集合的重要程度。TF-IDF 在對文本進行特征提取的過程中,首先,將文本數(shù)據(jù)進行分詞處理,將文本分割為單個的詞語或單詞序列。其次,TF-IDF 會構建一個詞匯表,其中包含所有在文本數(shù)據(jù)中出現(xiàn)的不重復的詞語,每個詞語將被賦予一個唯一的索引。再次,計算TF值,TF 表示安全隱患詞語在安全隱患文檔中出現(xiàn)的頻率。最后,將每個文檔中每個詞語的TF-IDF 值按照其索引位置組成一個向量,將文本數(shù)據(jù)轉換為向量表示,向量的維度等于詞匯表的大小。

1.2.2.2 隨機森林分類模型

為實現(xiàn)安全隱患文本的自動預測分類,采用隨機森林分類模型對安全隱患數(shù)據(jù)進行分類。隨機森林是一種基于決策樹模型[7],通過袋裝采樣技術(Bagging)在模型訓練過程中引入隨機選擇屬性的算法,具備理論深度較低、計算量輕便等特點。

(1)決策樹。決策樹作為基本的樹模型已被機器學習領域諸多模型使用,它的工作原理是從根節(jié)點出發(fā)后,在每一個分支節(jié)點找到最佳的分裂屬性后進行分裂。隨著分裂節(jié)點的不斷增多,分裂節(jié)點不斷逼近停止條件,直到滿足停止條件時,分裂節(jié)點停止分裂,構成決策樹。決策樹的優(yōu)點在于其具備良好的可解釋性,決策樹中的每一個根節(jié)點都代表對一項特征的測試,從根節(jié)點延伸出去的每一條路徑都代表一條規(guī)則,路徑最終到達的葉節(jié)點則代表一個測試結果。也正因如此,決策樹良好的可解釋性體現(xiàn)在使用者可以通過逆向追溯每一條根節(jié)點和葉節(jié)點之間的路徑得到樣本的預測過程。決策樹的缺點在于作為單個的預測模型,其泛化性較差,對數(shù)據(jù)的質量要求極高,如果數(shù)據(jù)存在少量噪聲就會嚴重影響決策樹的預測結果。因此,為彌補上述缺陷,需要將多個決策樹模型進行集成,形成集成學習算法。

(2)裝袋采樣。裝袋采樣技術的訓練過程可總結為從容量為S的訓練集樣本中采用有放回的方式隨機拿出N個樣本,這N個樣本便組成新的訓練集樣本。上述采樣方式重復M次,組成M個獨立且具有相同權重的袋裝采樣樣本集合。隨機森林算法的集成模型的思想源于裝袋采樣技術選取的多個訓練集,其中每一個由袋裝采樣算法生成的樣本集合之間已經(jīng)通過重采樣進行樣本重構,而非簡單的復制粘貼。正因如此,樣本集合之間的差異是源于隨機森林算法內的諸多決策樹模型彼此之間存在隨機性。因此,袋裝采樣技術可以通過保證集成模型中每個子模型的預測精度且維持子模型之間的低相關性,以提高隨機森林算法的準確率。

(3)隨機森林。隨機森林作為一種集成模型,是由諸多決策樹模型組合而成,其算法流程如圖1所示。

圖1 隨機森林算法流程

1.2.2.3 文本分類模型評估指標

為評估隨機森林模型文本分類的有效性,采用精確率(P)、召回率(R)、F1 值評估模型的性能,各評價指標的計算方法如下:

其中:精確率P表示模型預測為正例的樣本中預測結果是正確的比例;召回率R表示被預測正確的正例樣本與總正例樣本的比率;F1值是精確率與召回率的調和平均指標,可精確反映出模型多方面的效果。

1.2.3 基于LDA的安全隱患排查線索

1.2.3.1 隱患詞云分析

詞云圖是一種將詞語按照出現(xiàn)的頻率進行排列的可視化方法,可以直觀地展示高頻關鍵詞的分布情況。在安全管理的過程中,為更清晰、全面地了解每個安全隱患類型下的具體隱患內容,可以對每個安全隱患類型下的隱患數(shù)據(jù)進行詞頻統(tǒng)計,并繪制詞云圖,從而更好地反映隱患的總體特征。

1.2.3.2 序列相似度匹配算法

為根據(jù)隱患核心詞得到更加清晰的安全隱患致因,采用SM 算法[8]將上述利用詞頻統(tǒng)計方法挖掘出的隱患核心詞去原始隱患描述中匹配出眾多的包含該核心詞的隱患原始描述數(shù)據(jù)。SM 算法通過計算兩個序列之間的最長公共子序列(Longest Common Subsequence,LCS)的長度,計算兩個序列的相似度。LCS是指兩個序列中最長的一個相同的子序列,它的長度可以表示兩個序列的相似度。假設兩個序列分別為X和Y,LCS(X,Y)的長度為len(LCS(X,Y)),那么它們的相似度計算如下:

1.2.3.3 隱含狄利克雷分布

采用SM 算法從原始安全隱患描述數(shù)據(jù)中匹配出包含安全隱患核心詞的原始隱患描述數(shù)據(jù)較多,為從眾多數(shù)據(jù)中選擇出一條具有代表性的安全隱患原始描述數(shù)據(jù)作為該核心詞的隱患排查線索,首先,對于每個包含核心詞的數(shù)據(jù)集,使用LDA 主題模型進行聚類分析,將其聚成一個類別。其次,在每個數(shù)據(jù)集中計算主題關鍵詞的出現(xiàn)次數(shù),并選擇出現(xiàn)次數(shù)最多的前5 個主題關鍵詞作為該數(shù)據(jù)集的代表性關鍵詞。再次,計算每個數(shù)據(jù)集中核心詞和代表性關鍵詞的出現(xiàn)次數(shù)。最后,從每個數(shù)據(jù)集中選擇出現(xiàn)核心詞和代表性關鍵詞最多的一條數(shù)據(jù)作為代表性數(shù)據(jù)。通過這一流程,選擇出一條最具有代表性的安全隱患原始描述數(shù)據(jù),為核心詞提供有價值的隱患排查線索。

LDA 主題模型結構如圖2所示。從圖2 中可以看到,以白色圈表示隱藏變量,以灰色圈表示觀測變量,以及代表變量重復性質的矩形形狀,這一結構呈現(xiàn)了模型內在的復雜關聯(lián),通過隱藏變量和觀測變量之間的交互,揭示潛在的主題結構。這種設計提供對文本或其他數(shù)據(jù)集的更深層次理解,并為進一步分析和建模提供了基礎。

圖2 LDA主題模型結構

2 關鍵技術問題和技術路線

2.1 技術問題

(1)水利工程建設過程中積累的安全隱患文本數(shù)據(jù)來源于現(xiàn)場人工安全檢查記錄,存在語言含糊、描述不規(guī)范等問題,因此如何將這些繁雜、多源異構的隱患文本數(shù)據(jù)去除非中文字符、進行分詞和去除停用詞,是確保后續(xù)特征提取和模型訓練準確性和可靠性的技術難點。

(2)安全隱患文本數(shù)據(jù)存在規(guī)模大、數(shù)據(jù)稀疏的問題,如何將安全隱患描述文本數(shù)據(jù)轉換為機器學習模型能處理的數(shù)值型數(shù)據(jù),而且數(shù)據(jù)轉換在捕捉安全隱患關鍵詞的同時,保留隱患描述的信息豐富性,確保最后機器學習模型的預測準確率也是技術難點。

(3)雖然機器學習模型可以實現(xiàn)隱患文本的高效、精確分類,但是無法從文本中獲取更詳細的隱患知識。因此,針對分類后的安全隱患文本,需要進一步分析各類安全隱患文本的管理要點及隱患數(shù)據(jù)的內部聯(lián)系。

(4)安全隱患核心詞可以反映各類安全隱患問題的管理要點,針對施工規(guī)模較大且安全隱患高發(fā)的標段,僅根據(jù)安全隱患核心詞排查安全隱患問題,由于包含該核心詞的問題數(shù)量較多,涉及的施工場地較廣,要排查的范圍較大,因此如何根據(jù)安全隱患核心詞,從原始的隱患描述數(shù)據(jù)中找出一條具有代表性的安全隱患問題作為隱患排查線索,明確隱患的致因,進一步縮小隱患排查的范圍成為技術難點。

2.2 技術路線

(1)數(shù)據(jù)預處理:首先,使用正則表達式去除非中文字符,保留安全隱患描述中的中文文本。其次,制作針對水利工程施工安全隱患的詞典。最后,利用jieba 分詞庫對安全隱患文本進行分詞,并根據(jù)預定義的停用詞表去除無意義的常用詞匯。

(2)文本特征提取及向量化:采用TfidfVectorizer(文本特征提?。︻A處理后的隱患文本描述進行特征提取,選取適當?shù)奶卣鲾?shù)量轉換為機器學習模型可識別的特征向量。

(3)文本分類模型訓練:采用機器學習模型里的隨機森林分類器對特征向量進行訓練,并實現(xiàn)安全隱患自動預測分類,分為10個類別。

(4)隱患數(shù)據(jù)挖掘:利用詞云和詞頻統(tǒng)計方法展現(xiàn)安全隱患概況,挖掘隱患核心詞。通過可視化隱患的安全管理要點及隱患數(shù)據(jù)的內部聯(lián)系,進而挖掘安全隱患文本中隱含的重要信息和內在規(guī)律,用于輔助水利工程安全管理實踐。

(5)隱患排查線索挖掘:首先,根據(jù)每一個核心詞,依次利用SM 算法從原始隱患數(shù)據(jù)中匹配出包含核心詞的隱患數(shù)據(jù)集。其次,采用隱含狄利克雷分布(LDA)模型依次對包含核心詞的數(shù)據(jù)集進行聚類分析,主題類別設置為1。最后,結合隱患核心詞和該數(shù)據(jù)集的主題關鍵詞從數(shù)據(jù)集中匹配出每個隱患核心詞的隱患排查線索。

3 結果與分析

3.1 基于RF的文本分類模型效果

以珠江三角洲水資源配置工程信息化平臺智慧監(jiān)管模塊下的安全隱患臺賬信息做為數(shù)據(jù)源。本文從安全管理系統(tǒng)中獲取到2019—2023年施工期間的80 953 條安全隱患原始數(shù)據(jù)作為數(shù)據(jù)源。每條安全隱患數(shù)據(jù)主要包含標段、隱患描述、隱患類型、整改措施和檢查日期等字段,其中標段、隱患描述、隱患類型和整改措施均為非結構化的文本數(shù)據(jù)。本文主要借助隱患描述信息進行安全隱患分類及隱患信息挖掘,每條隱患記錄均有手動標記的隱患種類標簽。

本文將數(shù)據(jù)集按照7∶3的比例劃分為訓練集、測試集。對所有數(shù)據(jù)進行打亂處理。表1 為隱患數(shù)據(jù)集中的樣本實例,以消防安全、用電作業(yè)、文明施工3個類別描述樣本為例。

表1 隱患分類數(shù)據(jù)集示例

本文所用的隨機森林分類模型使用的編程語言為Python3.7,利用Pytorch 學習框架下的sklearn 庫。模型超參數(shù)選擇的結果為n_estimators=12,max_depth=4,criterion="gini"。模型各項指標見表2。

表2 模型指標

3.2 隱患詞云圖分析

為幫助安全管理人員快速捕捉不同種類施工隱患的關鍵信息,借助詞云圖更加直觀地為安全管理人員展示不同隱患種類及其主要隱患表征。在隱患描述內容中加入隱患部位信息,并將隱患部位、常見隱患詞匯等構建用戶詞典加入分詞器中,利用Word Cloud 工具包為不同隱患類別選擇關鍵短語,繪制隱患特征詞云圖。本文在每次繪制隱患詞云圖時,選取前20個關鍵短語剔除對隱患知識挖掘無顯著影響的無意義詞語,在此基礎上繪制隱患詞云圖。圖3 中的詞語字體越大,代表該詞語出現(xiàn)的頻率越高,與其相關的隱患越容易發(fā)生。例如,“安全帽”“乙炔”“電纜”等字體較大,則需對相關的安全隱患進行重點關注。

圖3 詞云圖

3.3 基于SM-LDA模型的安全隱患排查線索分析

根據(jù)上述詞云圖統(tǒng)計分析出的高頻隱患核心詞有氧氣瓶、安全帽、乙炔、護欄、材料、電纜、龍門吊、盾構、積水、標識牌。

以高頻詞“安全帽”為例,首先利用SM 算法從原始隱患數(shù)據(jù)中匹配出包含核心詞的隱患數(shù)據(jù)集(見表3)。其次,利用LDA 主題模型對表3 中包含核心詞“安全帽”的數(shù)據(jù)進行聚類分析,將類別設定為1,在該數(shù)據(jù)集中計算主題關鍵詞出現(xiàn)的次數(shù),得到該數(shù)據(jù)集的主題關鍵詞列表;從主題關鍵詞列表中選擇出現(xiàn)次數(shù)最多的前5 個主題關鍵詞作為該數(shù)據(jù)集的代表性關鍵詞,即“安全帽”“佩戴”“人員”“現(xiàn)場”“作業(yè)”。最后,從表3的數(shù)據(jù)集中選擇出一條出現(xiàn)代表性關鍵詞最多的安全隱患描述作為“安全帽”這個詞的具體隱患排查線索,即“現(xiàn)場作業(yè)人員未正確佩戴安全帽”,該描述包含代表性關鍵詞最多。同理,根據(jù)高頻隱患核心詞挖掘分析得到更具針對性的隱患排查線索(見表4)。

表3 包含“安全帽”的隱患描述

表4 安全隱患排查線索表

4 結語

本文基于RF 模型對珠江三角洲水資源配置工程信息化平臺的安全隱患臺賬數(shù)據(jù)進行文本分類和信息挖掘。通過隱患描述信息,模型展現(xiàn)了良好的分類效果。隨后,通過詞云圖,直觀地展示不同隱患種類的關鍵信息。同時,基于SM 算法和LDA 模型的排查線索分析為安全管理人員提供針對性的隱患排查指引。綜合而言,本文的研究結果可為水利工程施工安全管理人員提供參考和指導,能為提升水利工程施工現(xiàn)場的安全性和效率提供幫助。本文側重于對安全隱患數(shù)據(jù)的分析,缺少對安全隱患在時間序列方面的研究,后續(xù)將進一步結合安全隱患發(fā)生的時間因素進行回歸分析。

猜你喜歡
決策樹排查隱患
隱患隨手拍
隱患隨手拍
互聯(lián)網(wǎng)安全隱患知多少?
大眾科學(2022年8期)2022-08-26 08:58:38
隱患隨手拍
高層建筑消防安全排查情況及處理對策
配網(wǎng)二次回路故障的排查分析
電子制作(2019年20期)2019-12-04 03:52:04
給家中來個危險排查吧
媽媽寶寶(2019年10期)2019-10-26 02:45:42
一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
決策樹和隨機森林方法在管理決策中的應用
電子制作(2018年16期)2018-09-26 03:27:06
如何排查并改錯
鄱阳县| 台江县| 林甸县| 临泉县| 通化市| 亚东县| 乳山市| 太谷县| 峨边| 济阳县| 章丘市| 惠来县| 翼城县| 余姚市| 佛山市| 新源县| 汉沽区| 阿拉善左旗| 南投市| 平顺县| 长兴县| 西丰县| 永新县| 南乐县| 南丰县| 梅河口市| 云和县| 西青区| 屏边| 信阳市| 上栗县| 临泽县| 宁陵县| 夏河县| 永安市| 大姚县| 昆山市| 罗源县| 蚌埠市| 张掖市| 安康市|