国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合詞性和注意力機(jī)制的輿情本體非分類關(guān)系抽取研究

2021-03-27 01:18劉勝全魏浩皓
關(guān)鍵詞:輿情注意力語義

張 敏,劉勝全,劉 艷,魏浩皓

(1.新疆大學(xué)信息科學(xué)與工程學(xué)院,新疆 烏魯木齊 830046;2.新疆大學(xué)軟件學(xué)院,新疆 烏魯木齊 830091)

0 引言

大數(shù)據(jù)時代的來臨,社會輿情信息也凸顯出海量、瞬刻、全息、價值低密、虛實莫辨的大數(shù)據(jù)特征,當(dāng)前數(shù)據(jù)來源越來越復(fù)雜,同時不同的數(shù)據(jù)處理和存儲方式使得這些海量信息在不同層次上產(chǎn)生了異構(gòu).對于一些社會熱點事件,往往會激發(fā)網(wǎng)民的集體參與感,并通過新聞、微博、微信、論壇等不同類型的網(wǎng)絡(luò)平臺來表達(dá)對相關(guān)社會事件的群體性情緒、意愿、態(tài)度和意見.因此,這些多源異構(gòu)表達(dá)自由的輿情信息在網(wǎng)民間快速地相互傳播和影響,這促使政府對輿情的監(jiān)控以及引導(dǎo)變得極其重要,同時也促進(jìn)了輿情本體構(gòu)建相關(guān)技術(shù)的發(fā)展.

關(guān)系抽取作為信息提取和自然語言處理的核心任務(wù),其目標(biāo)是預(yù)測句子中概念間的關(guān)系.非分類關(guān)系又稱為非層級關(guān)系,反映了概念間的某些語義關(guān)系,其類型多種多樣,同時也是自然語言處理領(lǐng)域一項重要的語義處理任務(wù).概念間非分類關(guān)系的抽取對本體的構(gòu)建和語義的理解起著重要作用,概念間非分類關(guān)系的準(zhǔn)確抽取有助于本體的構(gòu)建,同時推動知識圖譜的發(fā)展.

目前的信息抽取主要集中在概念抽取、關(guān)系抽取、事件抽取等任務(wù)上,非分類關(guān)系抽取研究主要是解決文本中概念間關(guān)系的非分類問題,雖然非分類關(guān)系作為分類關(guān)系的補(bǔ)充,但因其種類繁多,狀態(tài)空間巨大,因此這也為非分類關(guān)系抽取任務(wù)帶來了一定的難度.盡管已經(jīng)有相關(guān)研究工作來提取非分類關(guān)系,這些方法忽略了句法和語義信息,使得提取的非分類關(guān)系準(zhǔn)確率不高.

輿情本體中非分類關(guān)系的獲取一直是本體構(gòu)建的難點,在一個句子中,包含的相關(guān)動詞是最能表達(dá)句子狀態(tài)的詞匯,適當(dāng)?shù)膭釉~可以很好地表示概念對之間的非分類關(guān)系.對于非分類關(guān)系,本文主要關(guān)注基于動詞的非分類關(guān)系,因此提出結(jié)合詞性信息和注意力機(jī)制的雙向長短時記憶網(wǎng)絡(luò),來解決輿情本體概念間非分類關(guān)系抽取問題,將富含上下文語義信息的詞向量作為神經(jīng)網(wǎng)絡(luò)的輸入,對句子進(jìn)行編碼,為了消除噪音數(shù)據(jù)帶來的影響,在特征向量上構(gòu)建基于詞級別和基于句子級別的注意力機(jī)制,對重要特征賦予較高權(quán)重[1],通過詞匯和句子信息相結(jié)合以標(biāo)記非分類關(guān)系,最終完成輿情本體概念間的非分類關(guān)系抽取.

關(guān)系抽取作為自然語言處理重要的子任務(wù)而受到廣泛關(guān)注.何宇等[2]引入句法分析模型獲取句法特征,使用支持向量機(jī)(SVM)在某專利公司的中文新能源汽車領(lǐng)域語料上抽取關(guān)系實例;董麗麗等[3]使用改進(jìn)的候選關(guān)系標(biāo)簽標(biāo)志方法VF*ICF選擇具有領(lǐng)域的相關(guān)動詞,最后使用對數(shù)似然比評估抽取的非分類關(guān)系.傳統(tǒng)方法手工依賴性較高,導(dǎo)致額外的傳播錯誤且增加計算成本.而隨著深度學(xué)習(xí)[4]的提出,關(guān)系抽取的研究有了進(jìn)一步的進(jìn)展.

近年來,深度學(xué)習(xí)發(fā)展迅猛,在國內(nèi)外都引起了廣泛的關(guān)注.因此,眾多學(xué)者嘗試將深度學(xué)習(xí)應(yīng)用于自然語言處理任務(wù)中.如:循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)、基于圖神經(jīng)網(wǎng)絡(luò)等[5-7];引入注意力機(jī)制和基于張量的遞歸神經(jīng)網(wǎng)絡(luò)模型[8]、對抗訓(xùn)練的正則化方法[9]、卷積GRU模型[10];基于單詞注意和以實體為中心的遠(yuǎn)程監(jiān)督模型等[11-12].基于深度學(xué)習(xí)的方法在自然語言處理任務(wù)中都取得了比以往研究更好的實驗效果,這些可自動的學(xué)習(xí)簡單的特征,能夠發(fā)現(xiàn)更多隱含的信息,但仍存在不足.

目前的研究是在結(jié)構(gòu)簡單的英文文本上進(jìn)行關(guān)系抽取,對于輿情文本的關(guān)系抽取針對性不強(qiáng).張曉斌等[13]提出基于CNN和雙向LSTM融合的實體關(guān)系抽取方法,充分考慮長距離詞之間的依賴性,保留了詞序等特征;蘇錦鈿等[14]將詞性和自注意力機(jī)制相結(jié)合,提出面向句子情感分類方法;高成亮等[15]使用結(jié)合詞性信息的基于注意力機(jī)制的雙向LSTM模型解決文本分類任務(wù).CNN考慮了連續(xù)詞之間的相關(guān)性而忽略了非連續(xù)詞之間的相關(guān)性,LSTM雖然考慮了長距離詞的相關(guān)性,但提取特征不夠充分,同時核心詞表現(xiàn)弱,對于輿情信息而言,語料中包含大量語義信息,不同詞語對于整個句子的語義信息影響大小不同,對所有詞一視同仁,影響關(guān)系預(yù)測的結(jié)果.

現(xiàn)階段對輿情信息關(guān)系抽取的研究不夠深入,尤其是對非分類關(guān)系的研究更是不足.詞性通常作為一種輔助特征,用于特征選擇,而在以往的關(guān)系方法中,忽略了詞性之間的依賴關(guān)系.因此,針對目前大多數(shù)非分類關(guān)系抽取方法忽略詞性和部分局部特征的問題,本文提出結(jié)合詞性信息和注意力機(jī)制的BiLSTM模型(簡稱本文模型).通過結(jié)合詞性信息和詞注意力機(jī)制關(guān)注句子中相關(guān)動詞的語義特征,能夠從語法的角度進(jìn)一步豐富句子中詞的信息,同時引入句子層注意力機(jī)制,計算包含相同概念的句子和預(yù)測關(guān)系的相關(guān)性,結(jié)合BiLSTM模型充分利用整個句子的序列信息,提取句子中2個概念之間的動詞作為非分類關(guān)系標(biāo)簽,完成輿情本體概念間非分類關(guān)系的抽取.

1 非分類關(guān)系抽取問題描述

本文研究概念對抽取合適的動詞表示非分類關(guān)系,非分類關(guān)系的抽取分為2個步驟,即非分類關(guān)系的識別和非分類關(guān)系的抽取.非分類關(guān)系的識別是指識別出有關(guān)系的概念對;非分類關(guān)系的標(biāo)注是指為識別出的有關(guān)系概念對抽取合適的動詞,其中動詞作為非分類關(guān)系類型名稱,對于輿情信息進(jìn)行非分類關(guān)系的識別和非分類關(guān)系的標(biāo)注,在一定程度上忽視了句法信息和語義信息,導(dǎo)致在非分類關(guān)系的識別階段容易抽取出沒有關(guān)系的概念對,在非分類關(guān)系的標(biāo)注階段,容易造成概念對標(biāo)注的動詞不合理.

問題的輸入是網(wǎng)絡(luò)輿情文本信息,已經(jīng)過預(yù)處理得到了包含概念及非分類關(guān)系標(biāo)簽的句子,輸出是非分類關(guān)系的語義表示.

定義語義關(guān)系,語義關(guān)系可以用一個三元組(ei,rij,ej)來描述,其中ei,ej表示句子中包含的概念對,rij∈y表示關(guān)系的語義標(biāo)簽,y是所有標(biāo)簽的集合.

輿情信息中包含的非分類關(guān)系可能是無向的,例如從文本信息中發(fā)現(xiàn)A和B的朋友關(guān)系,在另一些文本中概念對之間的關(guān)系是有向的,例如,2018年8月1號,長征四號乙運載火箭在太原發(fā)射中心發(fā)射成功,其中,太原發(fā)射中心與運載火箭是“施力者-受力者”關(guān)系.因此,隨著網(wǎng)絡(luò)信息的發(fā)展,非分類關(guān)系可能是主動的(如訪問關(guān)系)或是被動的(被訪問關(guān)系).這里主要考慮主動的非分類關(guān)系.

例如非分類關(guān)系類型預(yù)測的例子.1879年愛迪生在實驗室創(chuàng)造了第一批白熾燈.

主動的關(guān)系表示:(愛迪生,創(chuàng)造,白熾燈).

被動的關(guān)系表示:(白熾燈,被創(chuàng)造,愛迪生).

針對問題輸入的文本信息,目標(biāo)是預(yù)測出這個句子包含的非分類關(guān)系類型,最終通過最大概率分類器預(yù)測最大非分類關(guān)系類型的置信度.

2 非分類關(guān)系抽取模型

2.1 非分類關(guān)系抽取

本文將輿情本體概念間非分類關(guān)系抽取問題轉(zhuǎn)化為根據(jù)輿情信息定義概念間非分類關(guān)系,在已知概念對的情況下,輿情語料中的概念間非分類關(guān)系抽取模型如圖1所示.

圖1 結(jié)合注意力機(jī)制的BiLSTM非分類關(guān)系抽取模型

為使模型更好地描述輿情文本的內(nèi)部結(jié)構(gòu)信息,通過詞嵌入技術(shù)(Word2vec)將手工標(biāo)注得到的輿情文本輸入到模型中.將句子中每個詞語和詞性標(biāo)簽映射到向量空間中,用以生成能夠表示詞語語義和詞性含義的向量表示,并采用BiLSTM網(wǎng)絡(luò)對詞向量進(jìn)行編碼獲取句子的高維語義信息.通過計算上下文詞語與概念對的相關(guān)性,建立詞注意力機(jī)制來充分捕捉句子上下文關(guān)鍵詞語的語義信息.并結(jié)合詞性信息獲取關(guān)鍵詞的重要特征,同時通過計算句子與關(guān)系的相關(guān)程度來建立句子層注意力機(jī)制,減少錯誤標(biāo)簽帶來的噪音問題.對提取的語義信息進(jìn)行加權(quán)求和以及非線性映射和歸一化處理,實現(xiàn)信息流的整合,提高輿情本體非分類關(guān)系抽取的效率,并用Softmax實現(xiàn)非分類關(guān)系抽取任務(wù).用H代表模型的隱含層,且由BiLSTM構(gòu)成;w和s分別表示輿情文本中的詞組和簡短句子.

本文結(jié)合注意力機(jī)制BiLSTM模型,完成輿情本體概念間非分類關(guān)系的抽取,利用注意力機(jī)制為不同特征分配注意力權(quán)重,最后通過分類器獲取非分類關(guān)系抽取結(jié)果.其中進(jìn)行輿情本體概念間非分類抽取的結(jié)合注意力機(jī)制的BiLSTM網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示.

該結(jié)構(gòu)包含5個部分:(1)輸入層將句子輸入到該模型中;(2)嵌入層將每一個詞映射成低維向量;(3) LSTM層利用雙向的長短時記憶網(wǎng)絡(luò)獲取句子的高級特征;(4)注意力層產(chǎn)生權(quán)重向量,關(guān)注句子中相關(guān)動詞的語義特征,將由LSTM得到的詞級特征合并到句子級特征向量;(5)輸出層經(jīng)過注意力機(jī)制得到的特征向量將用于非分類關(guān)系抽取,從而得到最終的非分類關(guān)系結(jié)果.

圖2 非分類關(guān)系結(jié)合注意力機(jī)制的BiLSTM網(wǎng)絡(luò)結(jié)構(gòu)

2.2 向量表示層

給定T個字組成的句子S={x1,x2,…,xT},使用word2vec將每一個字xi轉(zhuǎn)換為實數(shù)向量ei.首先,對于句子S中的每一個字,將其轉(zhuǎn)換成嵌入矩陣Wword∈Rdw|V|,其中:V是固定大小的詞匯表;dw是字嵌入的大小,是用戶要選擇的超參數(shù);矩陣Wword是要學(xué)習(xí)的參數(shù),然后,通過使用矩陣向量將字xi轉(zhuǎn)換為字嵌入向量ei,公式為

ei=Wwordvi.

(1)

其中vi是一個大小為|V|的向量,其值在ei的位置為1,其他位置均為0.然后,將該句子作為實值向量embs={e1,e2,…,eT}送入下一層.

2.3 編碼層

長短時記憶網(wǎng)絡(luò)(LSTM)是一種特殊的循環(huán)神經(jīng)網(wǎng)絡(luò),由S.Hochreiter等[16]于1997年提出,主要用于解決梯度消失問題以及針對一般的循環(huán)神經(jīng)網(wǎng)絡(luò)存在的長期依賴問題而專門設(shè)計出來的(如圖3 所示).LSTM神經(jīng)網(wǎng)絡(luò)模型包含3個門:輸入門it,遺忘門ft以及輸出門ot.

圖3 LSTM網(wǎng)絡(luò)結(jié)構(gòu)

公式為:

ft=σ(Wxfxt+Whfht-1+Wcfct-1+bf);

(2)

it=σ(Wxixt+Whiht-1+Wcict-1+bi);

(3)

(4)

(5)

ot=σ(Wxoxt+Whoht-1+Wcoct-1+bo).

(6)

最終該單元的輸出,計算公式為

ht=ot*tanh(ct).

(7)

式中:Wx(f,i,c,o)∈Rd×d,Wh(f,i,c,o)∈Rd×d,Wc(f,i,c,o)∈Rd×d表示LSTM的權(quán)重矩陣;b(f,i,c,o)表示偏置項;ct和ht分別表示在t時刻的LSTM的記憶表示和隱含層狀態(tài)表示.因此,當(dāng)前狀態(tài)單元ct通過加權(quán)和生成,它使用以前的狀態(tài)單元,也使用當(dāng)前時刻單元產(chǎn)生的信息.

循環(huán)神經(jīng)網(wǎng)絡(luò)[17]在序列學(xué)習(xí)問題中獲得廣泛應(yīng)用,并且成果顯著.然而由于常見的梯度消失和梯度爆炸問題,循環(huán)神經(jīng)網(wǎng)絡(luò)通常難以訓(xùn)練.對于一個輸入序列,在一個時間節(jié)點t,LSTM網(wǎng)絡(luò)只包含t以前的信息,卻不包含t以后的,但訪問過去和未來的上下文信息都是有益的,因此,本文使用雙向LSTM網(wǎng)絡(luò),其思想是提出一個訓(xùn)練序列向前和向后2個循環(huán)網(wǎng)絡(luò),其具有相同的結(jié)構(gòu)但權(quán)重參數(shù)不同,將2個序列相加得到最終通過雙向LSTM網(wǎng)絡(luò)的最后結(jié)果.

本文為了學(xué)習(xí)文本中包含的詞語之間、詞性之間的依賴特征,通過結(jié)合注意力機(jī)制的雙向LSTM的文本表示模型處理文本數(shù)據(jù)(如圖1所示).該網(wǎng)絡(luò)包含向前和向后上下文的2個子網(wǎng)絡(luò),同時向前和向后隱含層之間沒有信息流,這使得網(wǎng)絡(luò)展開圖是非循環(huán)的.第ith個字的輸出表示為

(8)

2.4 注意力層

注意力模型最近幾年在深度學(xué)習(xí)各個領(lǐng)域被廣泛使用,并取得了不錯的進(jìn)展.因此,本文使用注意力機(jī)制[18],給不同的特征賦予不同的權(quán)重,學(xué)習(xí)不同局部特征的重要性,摒棄一些噪音數(shù)據(jù),以此來提高非分類關(guān)系抽取結(jié)果的高效性和準(zhǔn)確性.

2.4.1 詞注意力機(jī)制

在非分類關(guān)系抽取任務(wù)中,對于語義信息并不是所有詞語都有相同的重要性,不同的概念對上下文詞語的重要程度也是不同.尤其是概念對之間的動詞至關(guān)重要,因此,使用詞語層注意力機(jī)制來充分捕捉重要的語義信息.

設(shè)由BiLSTM層產(chǎn)生的輸出向量組成的矩陣H=[h1,h2,…,hT]和概念表示〈he1,he2〉,其中T是句子長度,通過一個待訓(xùn)練的權(quán)重參數(shù)w生成對每一個hi的注意力權(quán)重.用句子r表示由輸出向量的加權(quán)和構(gòu)成,計算公式為

(9)

μi=tanh(Wwt+Wwthe1+Wwthe2+bwt).

(10)

其中:Wwt為詞語相關(guān)性權(quán)重矩陣,bwt為偏置.通過Softmax函數(shù)將計算的評分結(jié)果μ1,μ2,…,μT進(jìn)行歸一化,從而得到權(quán)重值αi,計算公式為

(11)

最后,采用最大池化策略,得到句子的顯著特征.其句子表示為

S=maxpool(r).

(12)

2.4.2 句子注意力機(jī)制

為了減少錯誤標(biāo)注帶來的噪音問題,采用句子層注意力機(jī)制的多實例學(xué)習(xí)[19],計算包含相同概念的所有句子和預(yù)測關(guān)系的相關(guān)性,與關(guān)系向量相關(guān)性高的句子賦予更高的權(quán)重,從而降低噪音句子對關(guān)系預(yù)測的影響.

設(shè)S={s1,s2,…,sk}是包含相同概念k個句子組成的句子集,為了表示所有句子與預(yù)測關(guān)系的相關(guān)程度,將句子向量表示為S中所有句子向量的加權(quán)和,公式表示為

(13)

βi=Softmax(siAer).

(14)

其中A是隨機(jī)初始化加權(quán)對角矩陣,er為關(guān)系r的向量表示.

2.5 解碼層

結(jié)合詞性信息和注意力機(jī)制的BiLSTM模型用于動態(tài)捕獲與非分類關(guān)系抽取任務(wù)相關(guān)句子信息,并生成上下文表示,將詞性向量和其他特征結(jié)合,充分利用整個句子的序列信息,獲取輿情文本的語義特征,完成輿情本體概念間非分類關(guān)系的抽取.

(15)

(16)

(17)

其中:ti∈Rm為使用one-hot表示的真實值;yi∈Rm為使用Softmax函數(shù)估計每個關(guān)系類別的概率;m為關(guān)系類別的數(shù)量;λ為L2正則化超參數(shù),同時,將L2正則化和dropout相結(jié)合來緩解隱藏單元過擬合問題.

3 實驗結(jié)果與分析

3.1 實驗數(shù)據(jù)

實驗中選取百度、新浪等中文網(wǎng)頁信息作為語料來源.利用網(wǎng)絡(luò)爬蟲技術(shù)下載輿情文本,對其進(jìn)行去重、去噪等一系列處理,篩選出包含實體和關(guān)系的新聞報道文本,作為實驗語料.該實驗共生成了11 227條樣本數(shù)據(jù),其中8 560條用作訓(xùn)練集,共包含27種非分類關(guān)系,如圖4所示,2 667條用作測試集,每條語句中的概念和概念間的非分類關(guān)系均已標(biāo)記,數(shù)據(jù)結(jié)構(gòu)如表1所示.

圖4 非分類關(guān)系類別及數(shù)量

表1 數(shù)據(jù)集樣本示例

3.2 實驗超參數(shù)設(shè)置

不合理的超參數(shù)設(shè)置會影響輿情本體概念間非分類關(guān)系抽取的結(jié)果.超參數(shù)設(shè)置如表2所示.

表2 超參數(shù)設(shè)置

2012年,G.E.Hinton[20]提出了Dropout策略.在深度學(xué)習(xí)的模型中,如果模型的參數(shù)太多,而訓(xùn)練樣本又太少,訓(xùn)練出來的模型很容易產(chǎn)生過擬合的現(xiàn)象.為了防止過擬合,在正向傳播過程中,Dropout策略通過從網(wǎng)絡(luò)中隨機(jī)省略特征檢測器的共同作用阻止隱藏單元的自適應(yīng)性,來提高神經(jīng)網(wǎng)絡(luò)的性能.

因此,在該網(wǎng)絡(luò)結(jié)構(gòu)中,Dropout策略主要用于嵌入層、LSTM編碼層,在保持輸入輸出神經(jīng)元不變的情況下,隨機(jī)丟棄隱含層部分神經(jīng)元.同時在梯度下降后,使用L2正則化進(jìn)一步減小過擬合問題.模型使用sigmoid作為激活函數(shù),隱含層節(jié)點數(shù)取200,采用Softmax作為分類器.為防止模型計算過程中出現(xiàn)過擬合現(xiàn)象,利用L2正則化方法對網(wǎng)絡(luò)參數(shù)進(jìn)行約束,系數(shù)取0.001,訓(xùn)練過程中引入Dropout策略,丟碼率取0.3,數(shù)據(jù)批處理量取128,訓(xùn)練輪數(shù)取100.

3.3 實驗評價標(biāo)準(zhǔn)

本文采用準(zhǔn)確率(P)、召回率(R)及衡量模型整體性能(F1值)[21]等3種重要指標(biāo)評測非分類關(guān)系實驗結(jié)果,P反應(yīng)模型的準(zhǔn)確程度,R反應(yīng)模型的完備性,F(xiàn)1值是P和R的調(diào)和平均.

3.4 實驗分析

3.4.1 對特征的有效性驗證

實驗中使用多個特征進(jìn)行特征表示,如PF(位置特征)、POS(詞性特征),為了研究每個特征對本文模型的貢獻(xiàn),依次加入不同的特征對模型的性能進(jìn)行比較,結(jié)果如表3和4所示.

表3 以詞向量RV作為比較基線添加其他特征對于訓(xùn)練模型的影響效果 %

表4 以詞向量WV作為比較基線添加其他特征對于訓(xùn)練模型的影響效果 %

表3以通用詞向量(RV)作為比較的基線(RV:百度百科通用領(lǐng)域300維詞向量).依次添加其他特征.其中位置特征使F1值提高了3.86%.詞性包含了潛在的語義信息,使F1值提高了3.97%.相比于位置特征,實驗結(jié)果表明影響不明顯,但也有所提高.

表4使用詞訓(xùn)練模型預(yù)先訓(xùn)練好的輿情信息詞向量(WV)以代替隨機(jī)向量.相較于使用通用詞向量,F(xiàn)1值提高了7.03%.加入特征實驗F1值均有所提高.實驗結(jié)果同樣驗證了多個特征對于捕獲句子中的詞與目標(biāo)實體的關(guān)系信息起著重要作用.

3.4.2 與同類實驗對比

為了驗證結(jié)合注意力機(jī)制的BiLSTM神經(jīng)網(wǎng)絡(luò)模型在輿情本體概念間非分類關(guān)系抽取的效果,使用3.1節(jié)的實驗數(shù)據(jù)和3.2節(jié)的參數(shù)進(jìn)行實驗,各模型在測試集上的P,R和F1值如表5所示.

表5 模型性能對比 %

由表5可以得出以下結(jié)論:

(1) BiLSTM與RNN對比.使用詞向量和詞性向量作為非分類關(guān)系特征的輸入,BiLSTM神經(jīng)網(wǎng)絡(luò)模型的效果優(yōu)于循環(huán)神經(jīng)網(wǎng)絡(luò)模型.RNN能夠處理短距離依賴,對于長距離依賴存在局限性,同時當(dāng)序列較長時,RNN易產(chǎn)生梯度消失問題.與RNN相比,BiLSTM模型P,R以及F1值分別提高了3.15%,4.71%,3.97%.說明BiLSTM有了記憶模塊,緩解了長距離依賴問題,能夠充分利用整個句子的序列信息,獲取更多的上下文語義知識,使提取到的文本特征更有效,從而使得BiLSTM模型的實驗結(jié)果均高于RNN神經(jīng)網(wǎng)絡(luò)模型.

(2) 本文模型和BiLSTM對比.使用詞向量和詞性向量作為非分類關(guān)系特征的輸入,本文模型的效果優(yōu)于BiLSTM神經(jīng)網(wǎng)絡(luò)模型.與BiLSTM相比,P,R以及F1值分別提高了4.77%,6.95%,5.875%.本文模型結(jié)合了詞性信息和詞、句子注意力機(jī)制的優(yōu)點,利用詞注意力機(jī)制捕獲訓(xùn)練句子中關(guān)鍵動詞的語義信息,通過句子注意力利用包含相同概念句子間的相關(guān)性,減少錯誤標(biāo)注帶來的噪音問題.由此說明,本文模型選擇性地關(guān)注句子中重要信息,提高了非分類關(guān)系抽取的準(zhǔn)確率.從而證實了該方法的有效性.

(3) 基于雙向GRU+CATT+SATT模型[22].該模型采納了只使用字向量作為文本的輸入特征,用雙向GRU進(jìn)行訓(xùn)練,并加入基于字級別和基于句子級別的注意力機(jī)制,完成中文文本中人物關(guān)系的抽取任務(wù).

(4) BGRU+2ATT模型[23].模型采納了使用字向量作為文本的輸入特征,用雙向GRU進(jìn)行訓(xùn)練,在字符級和實例級兩個層面中引入了注意力機(jī)制,完成中文文本中人物關(guān)系的抽取任務(wù).

本文模型的P,R和F1隨迭代次數(shù)變化曲線 見圖5.由圖5可知,每訓(xùn)練一定次數(shù),在測試集上驗證數(shù)據(jù),并統(tǒng)計P,R和F1值在訓(xùn)練過程中的變化.當(dāng)epoch值在0~30之間,P,R和F1以及train_acc值上升速率特別快,由于在訓(xùn)練數(shù)據(jù)上隨著訓(xùn)練次數(shù)的增加,模型初始權(quán)重不斷更新,訓(xùn)練集上的準(zhǔn)確率不斷增加,模型學(xué)習(xí)到的知識越多,使得模型在測試集上的準(zhǔn)確率不斷提高.當(dāng)epoch值為100時,結(jié)合注意力機(jī)制的BiLSTM神經(jīng)網(wǎng)絡(luò)模型的train_acc值收斂趨于穩(wěn)定,訓(xùn)練數(shù)據(jù)進(jìn)行訓(xùn)練的準(zhǔn)確率達(dá)到穩(wěn)定,同時測試數(shù)據(jù)的P,R和F1的值收斂趨于穩(wěn)定,達(dá)到了測試過程中的最優(yōu)結(jié)果.由圖5可知,雖然P,R和F1值有一定的波動,但波動不大,最后均收斂趨于穩(wěn)定.

本文模型的P,R和F1隨訓(xùn)練準(zhǔn)確率變化曲線見圖6.從圖6中可以看出,開始階段train_acc值很低,說明模型學(xué)習(xí)到的知識少,使得測試集的結(jié)果P,R和F1值很低.隨著模型不斷優(yōu)化,訓(xùn)練準(zhǔn)確率的提高,測試集P和R也逐漸增加,最后收斂趨于穩(wěn)定,當(dāng)訓(xùn)練P達(dá)到92.24%時,測試集的P和R取得最優(yōu),分別為 64.19% 和64.74%.

圖5 P,R和F1隨迭代次數(shù)變化曲線

4 結(jié)束語

輿情本體概念間非分類關(guān)系的抽取研究有助于推動依賴于本體相關(guān)技術(shù)的發(fā)展,現(xiàn)有的研究多在英文等公開的語料集上進(jìn)行關(guān)系抽取,對于輿情本體的非分類關(guān)系研究較少,且現(xiàn)有的輿情語料數(shù)據(jù)集更少.本文提出結(jié)合詞性信息和注意力機(jī)制的雙向長短時記憶網(wǎng)絡(luò)來抽取輿情本體概念間的非分類關(guān)系,通過注意力機(jī)制動態(tài)地學(xué)習(xí)不同隱式特征信息在文本分類任務(wù)中的貢獻(xiàn)程度,分類函數(shù)預(yù)測非分類關(guān)系類別標(biāo)簽.

通過與傳統(tǒng)RNN模型、BiLSTM模型進(jìn)行對比實驗,說明本文模型緩解了長距離依賴問題,同時充分利用詞和句子注意力機(jī)制的優(yōu)點,結(jié)合詞性信息和詞注意力機(jī)制捕獲訓(xùn)練句子中關(guān)鍵詞語的語義信息,增強(qiáng)包含相同概念句子間的相關(guān)性,減少錯誤標(biāo)注帶來的噪聲問題,進(jìn)而提取了更有效的文本特征,提高了非分類關(guān)系抽取的準(zhǔn)確性.雖然實驗效果有進(jìn)一步的提高,但仍然存在不足之處.手工標(biāo)注的數(shù)據(jù)集太少且存在標(biāo)注錯誤,同時一個包含多個逗號的長句子,存在多種非分類關(guān)系如何正確界定問題.接下來將在增加語料的同時可以引入強(qiáng)化學(xué)習(xí)方法,對模型做進(jìn)一步的優(yōu)化,來提高非分類關(guān)系抽取的準(zhǔn)確性,同時如何將具有相同含義的動詞聚類形成一種新的非分類關(guān)系類型也是下一步的研究任務(wù).

猜你喜歡
輿情注意力語義
讓注意力“飛”回來
語言與語義
“揚(yáng)眼”APP:讓注意力“變現(xiàn)”
消費輿情
A Beautiful Way Of Looking At Things
輿情
輿情
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
輿情
認(rèn)知范疇模糊與語義模糊