国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于深度學(xué)習(xí)的煤礦領(lǐng)域?qū)嶓w關(guān)系抽取研究

2019-01-11 06:00:10劉思含李文浩徐嘯迪劉旭紅
關(guān)鍵詞:實(shí)體向量文本

杜 嘉, 劉思含, 李文浩, 徐嘯迪, 劉旭紅

(北京信息科技大學(xué) 計(jì)算機(jī)學(xué)院, 北京 100101)

0 引 言

煤炭是中國(guó)的重要基礎(chǔ)能源,在使用的能源中占有極大比例。近年來(lái),煤礦領(lǐng)域的信息量與日俱增,關(guān)于煤礦事故的信息也逐漸積累。在大量的煤礦事故中,含有煤礦事故發(fā)生的原因、解決的方案、責(zé)任的落實(shí)等重要信息,這類(lèi)信息可為預(yù)防煤礦事故再次發(fā)生提供參數(shù)、分析、教訓(xùn)的有效信息。但是由于煤礦領(lǐng)域信息多為無(wú)結(jié)構(gòu)文本,難以直接進(jìn)行有效利用,因此需要以一種更加有效的方式對(duì)煤礦領(lǐng)域,煤礦事故的信息進(jìn)行描述,并進(jìn)一步分析。

知識(shí)圖譜采用可視化技術(shù)來(lái)展示信息的發(fā)展、結(jié)構(gòu)關(guān)系,同時(shí)對(duì)信息之間聯(lián)系進(jìn)行描繪,極大方便了對(duì)信息的分析、利用。

信息抽取是構(gòu)建知識(shí)圖譜的重要步驟。目前信息抽取是自然語(yǔ)言處理領(lǐng)域的一個(gè)重要分支,其任務(wù)是從自然文本中抽取出結(jié)構(gòu)化的信息。關(guān)系抽取是信息抽取研究中的重要內(nèi)容,是構(gòu)建知識(shí)圖譜的重要步驟,實(shí)體關(guān)系抽取的準(zhǔn)確率將極大影響所構(gòu)建的知識(shí)圖譜的質(zhì)量。因此,研究關(guān)系抽取問(wèn)題對(duì)構(gòu)建知識(shí)圖譜有著積極意義。

1 關(guān)系抽取研究現(xiàn)狀

關(guān)系抽取作為信息抽取的重要節(jié)點(diǎn),一直都是國(guó)內(nèi)外研究的一個(gè)重要方向。在關(guān)系抽取領(lǐng)域,方法繁多。早期關(guān)系抽取僅從模式匹配、詞典等方向去分析。之后不斷發(fā)展,引入了機(jī)器學(xué)習(xí)方法、深度學(xué)習(xí)方法,是目前研究的重點(diǎn)。文獻(xiàn)[1]提出標(biāo)注傳播算法,對(duì)關(guān)系進(jìn)行聚類(lèi)抽取,但噪聲對(duì)最終的準(zhǔn)確率有所影響。2013年,邵堃等[7]采用模式匹配的方法抽取結(jié)構(gòu)化信息,采用動(dòng)態(tài)模式庫(kù)以提高抽取的準(zhǔn)確率,但分詞的結(jié)構(gòu),專(zhuān)業(yè)詞匯的存在都會(huì)影響到識(shí)別的效果。

機(jī)器學(xué)習(xí)方法分為有監(jiān)督方法、半監(jiān)督方法、無(wú)監(jiān)督方法等。有監(jiān)督的機(jī)器學(xué)習(xí)方法一般將關(guān)系抽取看為一個(gè)分類(lèi)問(wèn)題。也就是對(duì)不同的實(shí)體對(duì),在不同語(yǔ)句中的關(guān)系分類(lèi)。一般需要提前定義關(guān)系的類(lèi)別。例如條件隨機(jī)場(chǎng)算法[3](Conditional random Field,CRF)、支持向量機(jī)方法[4](Support Vector Machine, SVM)、kNN算法[5]等都是有監(jiān)督的方法,目前被廣泛應(yīng)用于關(guān)系抽取領(lǐng)域,并且取得了出眾的效果。Kambhatla提出最大熵模型[6](Maximum Entropy Model, MEM),結(jié)合語(yǔ)義特征,句法分析抽取關(guān)系。陳宇利用DBN[7](Deepth Belief Network)證明在中文關(guān)系抽取領(lǐng)域,使用字特征進(jìn)行關(guān)系抽取比使用詞特征進(jìn)行關(guān)系抽取效率更高?;谔卣飨蛄康姆椒▌t將文本信息轉(zhuǎn)化為數(shù)字信息,用啟發(fā)式方法選取特征,準(zhǔn)確率較高。但新的特征越來(lái)越難以尋找,之后的算法效率的提高將更加困難。為了克服基于特征向量方法的缺陷,核函數(shù)概念被引入到機(jī)器學(xué)習(xí)中[8-9]。核函數(shù)方法采用字符串或者句法分析樹(shù)作為算法的輸入信息,通過(guò)計(jì)算輸入信息之間的相似度實(shí)現(xiàn)分類(lèi)效果。核函數(shù)方法解決了部分基于特征向量的方法所遇到的問(wèn)題,提高了關(guān)系抽取的準(zhǔn)確率。但基于核函數(shù)的方法計(jì)算復(fù)雜度較高,并且容易引入噪聲,不適合從大規(guī)模的語(yǔ)料中抽取關(guān)系。半監(jiān)督方法如自舉方法減少了訓(xùn)練過(guò)程中對(duì)標(biāo)注語(yǔ)料的依賴(lài),降低了人工標(biāo)注的成本,但存在語(yǔ)義漂移問(wèn)題。無(wú)監(jiān)督方法則主要使用聚類(lèi)算法,能夠應(yīng)用于大規(guī)模開(kāi)放性信息領(lǐng)域中,但是難以對(duì)關(guān)系名稱(chēng)進(jìn)行準(zhǔn)確描述。

為了提高關(guān)系抽取的質(zhì)量、效率,本文采用字向量的方式表示文本數(shù)據(jù),結(jié)合深度學(xué)習(xí)方法,用分類(lèi)的方式抽取實(shí)體關(guān)系。字向量可以更好地表現(xiàn)出文本數(shù)據(jù)中字與字之間的內(nèi)在聯(lián)系,使用深度學(xué)習(xí)的方法,通過(guò)訓(xùn)練過(guò)程學(xué)習(xí)文本數(shù)據(jù)間的聯(lián)系,完成分類(lèi)任務(wù)。

2 煤礦領(lǐng)域?qū)嶓w關(guān)系抽取方法

2.1 實(shí)體關(guān)系抽取框架

實(shí)體關(guān)系抽取建立在實(shí)體抽取的基礎(chǔ)上。煤礦領(lǐng)域?qū)嶓w關(guān)系的抽取問(wèn)題最終轉(zhuǎn)化為對(duì)已知文本中的實(shí)體對(duì)的情況下,根據(jù)文本內(nèi)容對(duì)文本中的實(shí)體對(duì)進(jìn)行分類(lèi)的問(wèn)題。本文采用字向量方法對(duì)文本以及文本中的實(shí)體對(duì)進(jìn)行描述,采用雙向循環(huán)神經(jīng)網(wǎng)絡(luò)加注意力機(jī)制[10]對(duì)實(shí)體對(duì)進(jìn)行分類(lèi),實(shí)現(xiàn)煤礦領(lǐng)域關(guān)系抽取的方法。方法框架如圖1所示。

具體步驟如下:

從煤礦安全網(wǎng)、煤礦事故網(wǎng)、安全管理網(wǎng)上爬去煤礦事故案例報(bào)道和分析報(bào)告,通過(guò)實(shí)體抽取算法抽取出句子中實(shí)體。

生成(實(shí)體對(duì),文本)數(shù)據(jù):根據(jù)抽取出的實(shí)體,結(jié)合該實(shí)體所屬的文本,選擇兩個(gè)實(shí)體E1, E2, 對(duì)應(yīng)的文本S, 從文本中生成(, S)結(jié)構(gòu)的數(shù)據(jù)。

(1)定義實(shí)體對(duì)關(guān)系。將實(shí)體對(duì)的關(guān)系定義為6個(gè)類(lèi)別(見(jiàn)表1),按照1到6進(jìn)行編號(hào)。

圖1 實(shí)體關(guān)系抽取框架

序號(hào)對(duì)應(yīng)關(guān)系名稱(chēng)具體定義1位置概念實(shí)體之間有如位于/發(fā)生在等關(guān)鍵詞,表明實(shí)體間的位置關(guān)系2責(zé)任一實(shí)體對(duì)另外一個(gè)實(shí)體負(fù)責(zé),或者為領(lǐng)導(dǎo)關(guān)系3分類(lèi)一個(gè)實(shí)體為另一個(gè)實(shí)體的細(xì)分分類(lèi)4發(fā)生實(shí)體之間動(dòng)詞一般為發(fā)生5占有一個(gè)實(shí)體對(duì)另一實(shí)體具有使用、安裝等關(guān)系6其它其它不再上述關(guān)系中的關(guān)系

(2)標(biāo)注數(shù)據(jù)。根據(jù)煤礦領(lǐng)域訓(xùn)練集之間的基本關(guān)系,對(duì)要抽取的關(guān)系進(jìn)行描述,對(duì)實(shí)體對(duì)-文本結(jié)構(gòu)的數(shù)據(jù)進(jìn)行標(biāo)注,并且去除無(wú)意義的數(shù)據(jù)條目,優(yōu)化訓(xùn)練數(shù)據(jù)。標(biāo)注集格式為{,R,S},表示實(shí)體對(duì),R為標(biāo)注的關(guān)系,S為包含實(shí)體對(duì)的文本,一般為一個(gè)句子的長(zhǎng)度。

(3)訓(xùn)練網(wǎng)絡(luò)模型。

用字向量表示文本數(shù)據(jù):

一個(gè)由T個(gè)字組成的句子S=(x1,x2,...,xT),句子中的字xi(1≤i≤T)可以用一個(gè)向量ei表示。Embedding矩陣W(W∈Rd×|V|),詞匯表V大小|V|和矩陣W的維度相同,句子中的每一個(gè)字xi可以用對(duì)應(yīng)的向量v(大小為|V|)來(lái)表示,向量v是一個(gè)one-hot向量,只有在位置i處的值為1,其余位置的值為0。故向量ei可以通過(guò)如下公式得到:

ei=Wvi(1≤i≤T)

句子S=(x1,x2,...,xT)則可以表示為{e1,e2,...,eT}。

例如:句子S為“救援工人表示,由于井下的水量大,這2臺(tái)排水泵并不能滿(mǎn)足要求,所以正在鋪設(shè)其它水泵、水管”,將每個(gè)字表示為xi,句子S可以表示為S=(x1,x2,...,xT),與Embedding矩陣相乘后句子S可以表示為S={e1,e2,...,eT}。

最后在神經(jīng)網(wǎng)絡(luò)層之后加入字級(jí)別的Attention機(jī)制,最終得到分類(lèi)結(jié)果。

2.2 字向量+BMGU-Att模型結(jié)構(gòu)

字向量+BMGU-Att模型由輸入層、編碼層、注意力層、輸出層組成。注意力層由編碼層得到的數(shù)據(jù),根據(jù)對(duì)不同位置的權(quán)重計(jì)算得到輸出,輸出層的分類(lèi)器得到最終的輸出。模型結(jié)構(gòu)如圖2所示。

圖2 字向量+BMGU-Att模型的結(jié)構(gòu)示意圖

2.2.1 輸入層

輸入層采用詞嵌入機(jī)制對(duì)輸入的文本數(shù)據(jù)進(jìn)行降維處理,用字嵌入矩陣和對(duì)應(yīng)位置的字向量相乘得到該字的字向量,最終將經(jīng)過(guò)標(biāo)注的長(zhǎng)度為T(mén),格式為(實(shí)體對(duì), 包含該實(shí)體對(duì)的文本)數(shù)據(jù)轉(zhuǎn)化為一個(gè)由T個(gè)字向量描述的數(shù)據(jù),傳入編碼層。

數(shù)據(jù)由實(shí)體對(duì): 和長(zhǎng)度為T(mén)的文本S,以及實(shí)體對(duì)在文本中的關(guān)系R組成,結(jié)構(gòu)為:, R, S。數(shù)據(jù)為中文文本數(shù)據(jù),輸入層將每一個(gè)中文字符轉(zhuǎn)化為字向量輸入訓(xùn)練網(wǎng)絡(luò)。

2.2.2 編碼層

編碼層使用BMGU網(wǎng)絡(luò)作為訓(xùn)練網(wǎng)絡(luò),學(xué)習(xí)輸入數(shù)據(jù),對(duì)數(shù)據(jù)降維編碼。BMGU網(wǎng)絡(luò)是一個(gè)雙向循環(huán)神經(jīng)網(wǎng)絡(luò),其中的網(wǎng)絡(luò)單元由MGU單元構(gòu)成。

BMGU模型是基于BRNN(雙向循環(huán)神經(jīng)網(wǎng)絡(luò), Bidirectional RNN,如圖4)算法的改進(jìn)算法,使用MGU單元替換了傳統(tǒng)單元。BRNN是基于RNN(循環(huán)神經(jīng)網(wǎng)絡(luò)如圖3)的改進(jìn)算法,普通的RNN結(jié)構(gòu)中,隱藏單元中的信息傳遞只能從“前”傳到“后”,位于后面時(shí)間步(位置)的單元可以學(xué)習(xí)到前面單元的狀態(tài)信息,但是前面的單元不能學(xué)習(xí)到后面單元的狀態(tài)信息。改進(jìn)后的BRNN模型,在隱藏單元中增加了從后向前傳遞信息的單元,同一個(gè)輸入不僅輸入到正向的RNN單元中,同時(shí)也輸入到反向的RNN單元中,因此BRNN模型中,一個(gè)時(shí)間步(位置)的單元同時(shí)接收到來(lái)自前后單元的狀態(tài)信息。實(shí)際應(yīng)用中,對(duì)文本信息進(jìn)行處理是常常需要考慮到上下文對(duì)當(dāng)前位置的詞或字的影響,因此,采用雙向循環(huán)神經(jīng)網(wǎng)絡(luò)更符合實(shí)際任務(wù)的需求。

圖3 RNN模型結(jié)構(gòu)

圖4 BRNN模型結(jié)構(gòu)

MGU算法由周志華等[11]人于2016年提出。MGU算法是在LSTM(Long-Short Time Memory)算法和GRU(Gate Related Unit)算法的基礎(chǔ)上得出。LSTM算法中具有forgate gate(遺忘門(mén))、input gate(輸入門(mén))、output gate(輸出門(mén))三個(gè)門(mén),是為了解決RNN算法在訓(xùn)練過(guò)程中發(fā)生梯度下降的問(wèn)題而提出的。GRU結(jié)構(gòu)則是在LSTM的基礎(chǔ)上進(jìn)行簡(jiǎn)化,在解決梯度下降問(wèn)題的同時(shí)也減少了隱藏單元中門(mén)的數(shù)量。GRU中只有2個(gè)門(mén): update gate(更新門(mén))和 reset gate(重置門(mén))。MGU算法則在此基礎(chǔ)上對(duì)門(mén)的結(jié)構(gòu)進(jìn)行再簡(jiǎn)化,只有一個(gè)門(mén):forget gate(遺忘門(mén)),其單元結(jié)構(gòu)如圖5所示。

ft=σ(Wf[ht-1,xt]+bf)

(1)

(2)

(3)

圖5 MGU結(jié)構(gòu)

2.2.3 注意力層

注意力機(jī)制近來(lái)被廣泛應(yīng)用在問(wèn)答系統(tǒng)、機(jī)器翻譯、自然語(yǔ)言處理等領(lǐng)域中。本實(shí)驗(yàn)中,在雙向MGU模型的輸出后面使用注意力機(jī)制對(duì)編碼結(jié)果進(jìn)行優(yōu)化。

雙向MGU模型的輸出結(jié)果為一個(gè)矩陣,設(shè)有矩陣w為對(duì)應(yīng)權(quán)重矩陣,α向量為各個(gè)字所應(yīng)該具有的關(guān)注度,r在對(duì)應(yīng)的α下句子的表示,h表示隱藏層的狀態(tài)。具體計(jì)算公式如下:

M=tanh(S)

(4)

α=softmax(wTM)

(5)

r=SαT

(6)

h'=tanh(r)

(7)

最終將h'作為輸出層的輸入。

2.2.4 輸出層

(8)

3 實(shí)驗(yàn)結(jié)果分析

3.1 實(shí)驗(yàn)描述

本文使用的語(yǔ)料為煤礦安全網(wǎng)、煤礦事故網(wǎng)、安全管理網(wǎng)中有關(guān)煤礦管理和煤礦事故分析報(bào)告。經(jīng)過(guò)預(yù)處理之后的實(shí)體對(duì)-文本數(shù)據(jù)共2 M(總計(jì)約20 000條數(shù)據(jù))。其中1.2 M作為訓(xùn)練語(yǔ)料,0.8 M作為測(cè)試語(yǔ)料。實(shí)驗(yàn)中定義了6類(lèi)關(guān)系,6類(lèi)關(guān)系描述見(jiàn)表2、表3。通過(guò)Adam方法控制學(xué)習(xí)率變化,最小學(xué)習(xí)率設(shè)定為0.000 5。

3.2 實(shí)驗(yàn)分析

訓(xùn)練過(guò)程中,使用相同的數(shù)據(jù),設(shè)置相同的批次大小, 相同的迭代次數(shù),分別對(duì)以LSTM、MGU、GRU三種RNN單元為核心的模型進(jìn)行訓(xùn)練,記錄訓(xùn)練過(guò)程中的最高準(zhǔn)確率和對(duì)應(yīng)的loss值,具體信息見(jiàn)表2。本文采用的方法和基于LSTM、GRU的方法相比,準(zhǔn)確率基本一致,訓(xùn)練過(guò)程中的準(zhǔn)確率相對(duì)接近,但在訓(xùn)練相同數(shù)量的數(shù)據(jù)時(shí),使用MGU單元的訓(xùn)練時(shí)間更少,相比使用LSTM單元和GRU單元,本文采用的方法效率較高。

表2 不同模型的訓(xùn)練過(guò)程中的最優(yōu)結(jié)果

表3不同模型在相同數(shù)據(jù)量下訓(xùn)練消耗的時(shí)間對(duì)比

Tab.3Timecomparisonoftrainingconsumptionofdifferentmodelsunderthesameamountofdata

模型名稱(chēng)消耗時(shí)間/minBMGU-Att 13.2BGRU-Att20.15BLSTM-Att18.98

訓(xùn)練過(guò)程中不同模型的accuracy和loss值分別如圖6、圖7所示。

圖6 訓(xùn)練過(guò)程中Accuracy值變化曲線

圖7 訓(xùn)練過(guò)程中Loss值變化曲線

根據(jù)上述圖表中的數(shù)據(jù),BMGU-Att、 BLSTM-Att、 BGRU-Att三種模型的準(zhǔn)確率相差不大,但BMGU模型的Loss值相對(duì)更小,對(duì)數(shù)據(jù)集擬合度更好。從不同模型占用資源的角度來(lái)看,可以明顯地看到使用MGU作為RNN單元的BMGU-Att模型在訓(xùn)練過(guò)程中所消耗的時(shí)間顯著低于另外2個(gè)模型的訓(xùn)練時(shí)間。因此,在相同情況下,BMGU-Att模型的訓(xùn)練效率更高。使用驗(yàn)證集對(duì)已經(jīng)訓(xùn)練好的BMGU模型進(jìn)行驗(yàn)證,結(jié)果見(jiàn)表4。

表4 BMGU-Att模型的驗(yàn)證結(jié)果

由此可以看出,采用BMGU模型加注意力機(jī)制來(lái)進(jìn)行分類(lèi),在總分類(lèi)中能夠達(dá)到較好的效果。在各類(lèi)別的分類(lèi)中,識(shí)別率會(huì)有所降低。不同類(lèi)別的Precision、Recall、F1值差別較大,有可能是在訓(xùn)練數(shù)據(jù)中不同類(lèi)別的訓(xùn)練數(shù)據(jù)所占比例不同所導(dǎo)致的。

4 結(jié)束語(yǔ)

本文采用BMGU+Attention模型,以字向量方法對(duì)文本輸入進(jìn)行處理,最終能夠有效對(duì)實(shí)體對(duì)之間的關(guān)系進(jìn)行抽取。通過(guò)實(shí)驗(yàn),證明了該方法在煤礦領(lǐng)域中進(jìn)行實(shí)體關(guān)系抽取是基本可行的。本文采用人工標(biāo)注的實(shí)體對(duì)-文本數(shù)據(jù)訓(xùn)練模型,在文本數(shù)據(jù)中各個(gè)關(guān)系的數(shù)據(jù)比例不一,最終各個(gè)關(guān)系的分類(lèi)準(zhǔn)確率有一定差距,如何解決這兩個(gè)問(wèn)題是下一步研究的重點(diǎn)。

猜你喜歡
實(shí)體向量文本
向量的分解
聚焦“向量與三角”創(chuàng)新題
前海自貿(mào)區(qū):金融服務(wù)實(shí)體
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識(shí)別
電子制作(2018年18期)2018-11-14 01:48:06
實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
兩會(huì)進(jìn)行時(shí):緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
向量垂直在解析幾何中的應(yīng)用
文本之中·文本之外·文本之上——童話(huà)故事《坐井觀天》的教學(xué)隱喻
班玛县| 漠河县| 客服| 西畴县| 于都县| 涪陵区| 微山县| 扎赉特旗| 黎川县| 博野县| 建水县| 阿拉善左旗| 深州市| 垫江县| 东阳市| 从化市| 甘泉县| 翁牛特旗| 凤庆县| 永年县| 溧阳市| 宿迁市| 福安市| 唐海县| 榆树市| SHOW| 邛崃市| 新丰县| 石台县| 囊谦县| 恩平市| 北京市| 来宾市| 武强县| 郧西县| 澎湖县| 牟定县| 渝北区| 镇赉县| 光山县| 封开县|