國(guó)網(wǎng)浙江省電力有限公司嘉興供電公司 肖 波 徐 明 紀(jì)宏德
安全生產(chǎn)是企業(yè)正常運(yùn)轉(zhuǎn)的基礎(chǔ)和保障,尤其是電力企業(yè)。通過構(gòu)建安全知識(shí)圖譜,可以利用可視化的圖譜形象地展示電力生企業(yè)在作業(yè)風(fēng)險(xiǎn)、隱患等各方面存在的影響安全生產(chǎn)的要因以及彼此之間的相互聯(lián)系,以支持作業(yè)單位及人員對(duì)作業(yè)薄弱環(huán)節(jié)的分析。在本文的研究中,分別從風(fēng)險(xiǎn)類別、潛在風(fēng)險(xiǎn)、因素類別、因素辨析等角度出發(fā),從典型作業(yè)中提取的具體信息構(gòu)建實(shí)體和實(shí)體關(guān)系,開展了電力安全知識(shí)圖譜的搭建,查找影響安全的要因及其之間的關(guān)聯(lián),定性分析作業(yè)單位與人員的安全薄弱環(huán)節(jié)[1]。
結(jié)合專業(yè)技術(shù)從業(yè)人員意見,按照自頂向下的構(gòu)建方法,根據(jù)作業(yè)名、潛在風(fēng)險(xiǎn)、風(fēng)險(xiǎn)類別、因素辨析、因素類別收集數(shù)據(jù),構(gòu)建知識(shí)圖譜。知識(shí)圖譜的構(gòu)建主要分為三個(gè)部分:數(shù)據(jù)的獲取、信息抽取、數(shù)據(jù)塑形和數(shù)據(jù)的交互可視化。
整理歷年的文件、表單并結(jié)合專業(yè)技術(shù)從業(yè)人員的參考意見,整理出典型作業(yè)的列表。針對(duì)各項(xiàng)典型作業(yè),從人員、環(huán)境、工器具、作業(yè)方法、設(shè)備五個(gè)維度,收集整理得到作業(yè)具體影響風(fēng)險(xiǎn)的各類因素及其影響結(jié)果。
考慮到項(xiàng)目的工期及具體要求,本項(xiàng)目選擇了以下電力系統(tǒng)的六大典型作業(yè)開展研究。通過對(duì)各類作業(yè)風(fēng)險(xiǎn)因素的梳理和分析,找到作業(yè)類型和風(fēng)險(xiǎn)因素的直接和間接聯(lián)系,為后續(xù)安全知識(shí)圖譜的建立創(chuàng)造了條件。
本項(xiàng)目將實(shí)體的屬性視作實(shí)體與屬性值之間的一種名詞性關(guān)系,因此在這里屬性抽取任務(wù)被轉(zhuǎn)化為關(guān)系抽取任務(wù)。在數(shù)據(jù)獲取階段,我們得到的數(shù)據(jù)集以Excel的形式展現(xiàn),雖然能夠表現(xiàn)因素、風(fēng)險(xiǎn)和作業(yè)之間的層次關(guān)系,但需要進(jìn)一步提取整理的數(shù)據(jù),得到知識(shí)圖譜需要的實(shí)體關(guān)系以及實(shí)體屬性等結(jié)構(gòu)化的信息[2]。
表1 某電力工程高墜風(fēng)險(xiǎn)因素分析表
在本項(xiàng)目中,實(shí)體抽取主要針對(duì)的是Excel數(shù)據(jù)集中的“因素辨析”列(其它列已經(jīng)是規(guī)范的命名實(shí)體)。目的是從“因素辨析”列的文本數(shù)據(jù)集中提取出真正影響作業(yè)風(fēng)險(xiǎn)關(guān)鍵的因素,并以命名實(shí)體表現(xiàn)。該部分的工作主要可以分為三部分:分詞及詞性標(biāo)注、專名識(shí)別、關(guān)鍵詞提取。
分詞與詞性標(biāo)注。是自然語言處理的基礎(chǔ)工作之一,是大多數(shù)后續(xù)工作的前提。中文分詞指將一個(gè)漢字序列切分成一個(gè)個(gè)單獨(dú)的詞。詞性標(biāo)注也被稱為語法標(biāo)注,是語料庫語言學(xué)中將語料庫內(nèi)單詞的詞性按其含義和上下文內(nèi)容進(jìn)行標(biāo)記的文本數(shù)據(jù)處理技術(shù)。
專名識(shí)別。考慮到結(jié)巴分詞的詞典限制,專名識(shí)別是對(duì)結(jié)巴分詞的一個(gè)補(bǔ)充,為了能夠保證計(jì)算機(jī)能夠準(zhǔn)確的提取到文本中的全部名詞、并一定程度上消除歧義,一方面電力系統(tǒng)安全作業(yè)存在部分專有名詞,如“帶電間隔”;另一方面,根據(jù)知識(shí)圖譜存在消歧的要求,如:安全帶和安全帶固定點(diǎn)在實(shí)際作業(yè)中涉及到的人員和風(fēng)險(xiǎn)并不完全相同,因此“安全帶”和“固定點(diǎn)”需要合并為“安全帶固定點(diǎn)”作為一個(gè)專有名詞,單列為一項(xiàng)影響作業(yè)的風(fēng)險(xiǎn)因素[3]。針對(duì)這兩類名詞,使用自定義詞典靜態(tài)導(dǎo)入對(duì)結(jié)巴分詞器做補(bǔ)充。由于本項(xiàng)目中選取的作業(yè)均為典型作業(yè),因此該定義詞典也具有典型性,可在后期的項(xiàng)目延伸與拓展中繼續(xù)使用。
關(guān)鍵詞提取。主要任務(wù)是從海量的文本文檔中提取少量表征其內(nèi)容的關(guān)鍵詞,在本項(xiàng)目中,使用關(guān)鍵詞提取技術(shù)是為了從文本數(shù)據(jù)集(“因素辨析”列中的每一行)中提取出關(guān)鍵因素。
本項(xiàng)目中關(guān)系的抽取主要參考數(shù)據(jù)獲取部分得到的Excel數(shù)據(jù)集,該數(shù)據(jù)集中的列標(biāo)簽之間的關(guān)系能夠直接表現(xiàn)不同數(shù)據(jù)之間的層次關(guān)系。經(jīng)實(shí)體抽取后,表格中的文本數(shù)據(jù)內(nèi)容已轉(zhuǎn)化為關(guān)鍵實(shí)體名詞,因此列標(biāo)簽之間的關(guān)系能夠代表實(shí)體與實(shí)體之間的關(guān)系。因此在這一環(huán)節(jié),使用pandas對(duì)Excel數(shù)據(jù)集處理,根據(jù)列和列的關(guān)系,得到了實(shí)體之間的關(guān)系。
使用python對(duì)數(shù)據(jù)塑形,得到數(shù)據(jù)對(duì)象數(shù)組。將命名實(shí)體放入nodes數(shù)組中用于生成拓?fù)潢P(guān)系中的點(diǎn),將關(guān)系放入edges數(shù)組中用于生成拓?fù)潢P(guān)系中的邊,將數(shù)據(jù)結(jié)果生成json文件作為數(shù)據(jù)庫,方便管理和可視化。D3js函數(shù)庫生成力導(dǎo)向模型,展示知識(shí)圖譜,并為知識(shí)圖譜添加事件事件響應(yīng)和節(jié)點(diǎn)搜索功能。部分可視化界面如圖1。
圖1 部分實(shí)體關(guān)系可視化
力導(dǎo)向圖把整張知識(shí)圖譜模擬成一個(gè)物理仿真系統(tǒng)(Simulation)。通過觀察力導(dǎo)向圖,可以直觀的根據(jù)作業(yè)和作業(yè)間的相對(duì)位置分析作業(yè)間的聯(lián)系緊密程度。鼠標(biāo)點(diǎn)擊節(jié)點(diǎn),只展示和節(jié)點(diǎn)有直接聯(lián)系的節(jié)點(diǎn)。這一功能幫助使用者可以通過幾次點(diǎn)擊快速地分析作業(yè)中的任一環(huán)節(jié)與其它作業(yè)間的聯(lián)系[4]。搜索作業(yè)中包含的因素或風(fēng)險(xiǎn),能夠展示該搜索詞的知識(shí)圖譜。這一功能幫助使用者能夠快速的查找特定的知識(shí)圖譜,方便閱讀數(shù)據(jù)庫內(nèi)容。
通過構(gòu)建安全知識(shí)圖譜,可以通過可視化的方式形象地展示生產(chǎn)經(jīng)營(yíng)單位在作業(yè)風(fēng)險(xiǎn)、隱患等各方面存在的影響安全生產(chǎn)的要因以及彼此之間的相互聯(lián)系,以支持作業(yè)單位及人員對(duì)作業(yè)薄弱環(huán)節(jié)的分析。本文從風(fēng)險(xiǎn)類別、潛在風(fēng)險(xiǎn)、因素類別、因素辨析等角度出發(fā),從典型作業(yè)中提取的具體信息構(gòu)建實(shí)體和實(shí)體關(guān)系,開展了電力安全知識(shí)圖譜的搭建,查找影響安全的要因及其之間的關(guān)聯(lián),定性分析作業(yè)單位與人員的安全薄弱環(huán)節(jié)。為后續(xù)作業(yè)安全風(fēng)險(xiǎn)的評(píng)估提供了技術(shù)支撐。