国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

BERT模型結(jié)合實(shí)體向量的知識(shí)圖譜實(shí)體抽取方法

2022-08-24 10:24瑋,張銳,尹
關(guān)鍵詞:圖譜向量標(biāo)簽

陳 瑋,張 銳,尹 鐘

(上海理工大學(xué) 光電信息與計(jì)算機(jī)工程學(xué)院,上海 200093)

E-mail:chenw1964@126.com

1 引 言

隨著互聯(lián)網(wǎng)和大數(shù)據(jù)技術(shù)的發(fā)展,萬(wàn)維網(wǎng)上的數(shù)據(jù)也在飛速增長(zhǎng),大量的知識(shí)就包含在這些數(shù)據(jù)之中,然而這些數(shù)據(jù)的質(zhì)量參差不齊,這極大的阻礙了人們獲取高準(zhǔn)確性的知識(shí).同時(shí),互聯(lián)網(wǎng)又是如今人們獲取大規(guī)模知識(shí)的重要來(lái)源.近年來(lái),學(xué)術(shù)界和工業(yè)界都著力于如何獲取高質(zhì)量的知識(shí),并且對(duì)其分析、管理和服務(wù).知識(shí)圖譜[1](Knowledge Graph)是一種全新的展示知識(shí)之間的聯(lián)系和自身內(nèi)部結(jié)構(gòu)的數(shù)據(jù)研究方式,具有直觀、清晰、動(dòng)態(tài)和高效的特點(diǎn).知識(shí)圖譜的關(guān)鍵技術(shù)在于運(yùn)用圖模型描述知識(shí)和對(duì)萬(wàn)物之間的關(guān)系進(jìn)行建模[2].在構(gòu)建知識(shí)圖譜的過(guò)程中,需要從大量的數(shù)據(jù)中抽取知識(shí)并建立聯(lián)系,這些數(shù)據(jù)可以分為結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和純文本數(shù)據(jù),其中,純文本數(shù)據(jù)是知識(shí)的主要來(lái)源.實(shí)現(xiàn)從純文本數(shù)據(jù)中獲取實(shí)體信息依賴于實(shí)體抽取技術(shù),知識(shí)圖譜高適用性和準(zhǔn)確度的保障是高精度的實(shí)體抽取技術(shù)[3].

實(shí)體抽取又叫做命名實(shí)體識(shí)別,是自然語(yǔ)言處理的一項(xiàng)子任務(wù).實(shí)體抽取是指抽取文本中的信息元素,通常包括人名、組織、位置等.在實(shí)體抽取這項(xiàng)技術(shù)中,基于規(guī)則的方法是目前使用最廣泛的方法.近年來(lái),隨著對(duì)機(jī)器學(xué)習(xí)算法研究的深入和創(chuàng)新,將機(jī)器學(xué)習(xí)相關(guān)方法應(yīng)用于知識(shí)圖譜實(shí)體抽取已成為現(xiàn)階段的研究重點(diǎn)之一.

2 相關(guān)工作

在早期,知識(shí)圖譜實(shí)體抽取技術(shù)的實(shí)現(xiàn)主要有基于規(guī)則的方法、基于詞典的方法和基于在線知識(shí)庫(kù)的方法,這3種方法都是在語(yǔ)言學(xué)專家人工構(gòu)造實(shí)體抽取規(guī)則的基礎(chǔ)上,將文本字符串進(jìn)行與實(shí)體抽取規(guī)則匹配來(lái)進(jìn)行實(shí)體抽取.這種方法有Grishman開發(fā)的Proteus系統(tǒng)[4]和Black開發(fā)的FACILE系統(tǒng)[5]等,雖然這種方法具有很高的準(zhǔn)確率和召回率,但是僅僅適用于小規(guī)模的數(shù)據(jù)集,無(wú)法在規(guī)模較大的數(shù)據(jù)集上進(jìn)行遷移和使用.后來(lái)出現(xiàn)了基于統(tǒng)計(jì)模型的方法,該類方法需要先將語(yǔ)料進(jìn)行部分標(biāo)注或者完全標(biāo)注,再進(jìn)行訓(xùn)練.經(jīng)過(guò)標(biāo)注語(yǔ)料之后,文本實(shí)體抽取問(wèn)題就可以利用序列標(biāo)注問(wèn)題相關(guān)方法來(lái)進(jìn)行處理,序列標(biāo)注種的標(biāo)簽與當(dāng)前輸入的特征和之前的預(yù)測(cè)標(biāo)簽都有關(guān)系.主要采用的模型有隱馬爾可夫模型(Hidden Markov Model,HMM)[6]、支持向量機(jī)模型(Support Vector Machine,SVM)[7]和條件隨機(jī)場(chǎng)模型(Conditional Random Fields,CRF)[8].這種利用人工特征的方法取得了很好的識(shí)別效果,但它的弊端也很明顯,不同領(lǐng)域的特征會(huì)有明顯差異,導(dǎo)致識(shí)別方法不能夠兼用.近年來(lái),各界學(xué)者將機(jī)器學(xué)習(xí)和深度學(xué)習(xí)應(yīng)用于各個(gè)領(lǐng)域并取得了很好的效果,命名實(shí)體識(shí)別問(wèn)題也在逐漸與深度神經(jīng)網(wǎng)絡(luò)相結(jié)合.該類方法先將單詞或者文本語(yǔ)句以一種特定的方法轉(zhuǎn)化為不同維度的詞向量,以詞向量作為輸入,再連接特定的神經(jīng)網(wǎng)絡(luò),這種方式不再完全依賴于人工定義的特征.例如,卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)[9]、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)[10]、注意力機(jī)制(Attention Mechanism,AM)[11]和長(zhǎng)短期記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)[12].一個(gè)典型的基于深度學(xué)習(xí)的命名實(shí)體識(shí)別框架由分布式表示(Distributed Representation)、上下文解碼器(Context Encoder)和標(biāo)簽解碼器(Tag Decoder)3部分組成[13].2003年,Hammerton等[14]最早將神經(jīng)網(wǎng)絡(luò)LSTM應(yīng)用到命名實(shí)體識(shí)別中.2014年,Collobert等[15]在文中采用CNN神經(jīng)網(wǎng)絡(luò)替代人工進(jìn)行特征提取并結(jié)合CRF模型.2015年,Huang等[16]在文中將拼寫特征與雙向長(zhǎng)短期記憶網(wǎng)絡(luò)(Bidirectional Long Short-Term Memory,BiLSTM)、CRF模型相結(jié)合.2016年,Lample G等[17]也采用BiLSTM模型與CRF結(jié)合的神經(jīng)網(wǎng)絡(luò)模型并對(duì)多種語(yǔ)言進(jìn)行命名實(shí)體識(shí)別.同年,Chiu等[18]在融合由兩個(gè)公開的外部資源構(gòu)造的詞典特征基礎(chǔ)上,利用卷積神經(jīng)網(wǎng)絡(luò)自動(dòng)學(xué)習(xí)字符級(jí)特征,減少模型對(duì)特征工程的依賴,2017年,Shen等[19]在文中創(chuàng)新的將深度主動(dòng)學(xué)習(xí)應(yīng)用于命名實(shí)體識(shí)別任務(wù)的方法,該方法的最大優(yōu)點(diǎn)就是利用少量的標(biāo)注數(shù)據(jù)獲得較高的學(xué)習(xí)準(zhǔn)確度.2018年,Lin等[20]在方法中將詞進(jìn)行細(xì)化分解,并結(jié)合雙向長(zhǎng)短期記憶網(wǎng)絡(luò)和條件隨機(jī)場(chǎng),提出了Finger-BiLSTM-CRF模型應(yīng)用于命名實(shí)體識(shí)別.2019年,武惠[21]等將遷移學(xué)習(xí)與BiLSTM+CRF相結(jié)合應(yīng)用于命名實(shí)體識(shí)別任務(wù),并在人民日?qǐng)?bào)數(shù)據(jù)集上取得了91.53%的準(zhǔn)確率.

上述方法普遍注重于單個(gè)詞或者單個(gè)字符的本身,沒(méi)有考慮上下文的語(yǔ)境,也無(wú)法表征一詞多義.這樣抽取得到的知識(shí)實(shí)體表示僅僅是一個(gè)靜態(tài)詞向量,并沒(méi)有結(jié)合實(shí)體所處的上下文語(yǔ)境.該類方法獲取的知識(shí)實(shí)體用來(lái)構(gòu)建知識(shí)圖譜很難獲取較高的準(zhǔn)確率.谷歌團(tuán)隊(duì)Jacob Devlin等人[22]于2018年提出的一種BERT(Bidirectional Encoder Representation from Transformers)語(yǔ)言預(yù)處理模型來(lái)表征詞向量.BERT的優(yōu)勢(shì)表現(xiàn)在字符級(jí)和詞級(jí)的范化能力、句子級(jí)甚至是句子間的關(guān)系特征描述更加充分具體,因此,可以將BERT模型作為實(shí)體抽取的上游任務(wù).然而在傳統(tǒng)的BERT模型中,采用的是隨機(jī)Mask方法,該方法忽略了對(duì)于實(shí)體向量的關(guān)注.

針對(duì)上面提到的問(wèn)題,為了進(jìn)一步提高知識(shí)圖譜實(shí)體抽取的準(zhǔn)確率,本文提出一種BERT模型結(jié)合實(shí)體向量的知識(shí)圖譜實(shí)體抽取方法(下文中簡(jiǎn)稱本文模型).本文模型在預(yù)處理任務(wù)中采用基于全詞Mask的BERT模型生成句子向量和具有上下文語(yǔ)義的詞向量,將詞向量取平均值后得到實(shí)體向量,通過(guò)注意力機(jī)制將句子向量與實(shí)體向量結(jié)合,將結(jié)合后的新向量放入條件隨機(jī)場(chǎng)進(jìn)行序列標(biāo)注,找到最優(yōu)的標(biāo)簽以達(dá)到實(shí)體抽取的目的.實(shí)驗(yàn)結(jié)果表明,本文模型在實(shí)體抽取任務(wù)中取得了很好的實(shí)驗(yàn)性能.

3 本文模型

3.1 模型結(jié)構(gòu)

本文提出的新模型結(jié)構(gòu)應(yīng)用于知識(shí)圖譜實(shí)體抽取任務(wù),模型結(jié)構(gòu)如圖1所示.本文模型主要分為3個(gè)部分:1)采用基于全詞Mask的BERT模型對(duì)于輸入文本進(jìn)行預(yù)訓(xùn)練,得到句子表示embedding;2)將embedding中組成知識(shí)實(shí)體的詞向量表示x1,x2取平均值得到Xp、xm,xn取平均值得到Xq,將句子表示中的CLS(序列標(biāo)記[CLS]經(jīng)過(guò)BERT模型后的向量表示)、Xp和Xq通過(guò)注意力機(jī)制得到新的向量Et;3)將新向量Et放入條件隨機(jī)場(chǎng)CRF進(jìn)行序列標(biāo)注,找到最優(yōu)的標(biāo)簽以達(dá)到實(shí)體抽取的目的.

圖1 本文模型結(jié)構(gòu)圖Fig.1 Model structure of this paper

3.2 基于全詞Mask的BERT模型預(yù)訓(xùn)練算法

BERT是一個(gè)預(yù)訓(xùn)練語(yǔ)言表征模型,在ELMO模型和GPT模型的基礎(chǔ)上,將二者的優(yōu)勢(shì)相結(jié)合,其結(jié)構(gòu)如圖2所示,BERT采用雙向Transformer作為編碼器,以此來(lái)融合左右兩側(cè)的上下文BERT模型在語(yǔ)言預(yù)訓(xùn)練方面與傳統(tǒng)方法有所不同,沒(méi)有像Word2Vec中的CBOW那樣對(duì)每一個(gè)詞進(jìn)行預(yù)測(cè),而是采用一種更為簡(jiǎn)潔的方法:MLM(Masked Language Model)遮蔽語(yǔ)言模型.Mask的作用是對(duì)計(jì)算過(guò)程中的某些值進(jìn)行遮蔽,被遮蔽的值在參數(shù)更新時(shí)無(wú)法作用.在Transfer模型中存在padding Mask和sequence Mask,padding Mask的作用是方便處理標(biāo)記布爾值的False的地方,sequence Mask是為了隱藏decoder需要處理的信息.本文模型中考慮了中文分詞的習(xí)慣,將傳統(tǒng)方法中的隨機(jī)單詞Mask換成全詞Mask,如表1所示.

圖2 BERT模型結(jié)構(gòu)圖Fig.2 Model structure of the BERT

表1 中文全詞MaskTable 1 Chinese full word Mask

在BERT模型中,雙向Transformer編碼結(jié)構(gòu)是其核心部分.Transformer完全不同于傳統(tǒng)的RNN模型和CNN模型,Transformer對(duì)文本建模使用自注意力機(jī)制和全連接層.其編碼單元結(jié)構(gòu)如圖3所示.

圖3 Transformer編碼單元結(jié)構(gòu)圖Fig.3 Transformer code unit structure

在Transformer編碼單元結(jié)構(gòu)中,核心是自注意力機(jī)制.該機(jī)制的主要功能是計(jì)算序列中每個(gè)單詞與該序列中所有單詞的相互關(guān)系,然后根據(jù)計(jì)算過(guò)后的相互關(guān)系來(lái)調(diào)整每個(gè)單詞的權(quán)重.采用該機(jī)制得到的單詞向量既包含單詞本身含義又具有該詞與其它詞之間的關(guān)系,因此,這種方式可以學(xué)習(xí)到序列內(nèi)部的長(zhǎng)距離依賴關(guān)系.計(jì)算方法如式(1)所示.其中,Q表示查詢向量;K表示鍵向量;V表示值向量;dk示輸入向量維度.

attention(Q,K,V)=softmax(QKTdk)

(1)

自注意力的缺點(diǎn)是只能捕獲一個(gè)維度的信息,因此,在Transformer中采用了Multi-Headed注意力機(jī)制.它先將矩陣Q、K、V進(jìn)行h次不同的線性映射;然后,分別計(jì)算attention;得到的h個(gè)不同的特征表達(dá);再將所有特征矩陣拼接起來(lái),這樣就可以獲得h個(gè)維度的信息.具體如式(2)和式(3)所示:

MultiHead(K,Q,V)=Concata(h1,…h(huán)n)

(2)

h1=attention(QWQi,KWKi,VWVi)

(3)

自注意力機(jī)制的另一個(gè)缺點(diǎn)是不能捕獲詞的順序信息,BERT引入了位置向量和段向量來(lái)區(qū)分兩個(gè)句子的先后順序.對(duì)于BERT來(lái)說(shuō),詞向量、位置向量和段向量相加構(gòu)成輸入序列中每個(gè)詞,通過(guò)深層雙向編碼,生成最終的句子向量.具體算法過(guò)程如算法1所示.

算法1. 基于全詞Mask的BERT模型預(yù)訓(xùn)練算法

輸入:純文本數(shù)據(jù)

輸出:embedding

第1步.讀取數(shù)據(jù)集;

第2步.構(gòu)建標(biāo)簽字典label_map,進(jìn)行分字操作,匹配標(biāo)簽字典,構(gòu)建list,在句子開頭結(jié)尾添加標(biāo)識(shí)符;

第3步.將字和標(biāo)簽全部轉(zhuǎn)化為id;

第4步.構(gòu)建全詞mask[],空余位置用0補(bǔ)充完整,構(gòu)建InputFeaures()并寫入tf_record()中;

第5步.遍歷所有訓(xùn)練樣本并重復(fù)2、3、4步/for i in enumerate(tokens);

第6步.return embedding.

3.3 融合注意力機(jī)制的CRF算法

對(duì)于給定的文本信息,經(jīng)過(guò)算法1,會(huì)得到句子向量表示embedding.本文模型是應(yīng)用于知識(shí)圖譜實(shí)體抽取.為了提高模型對(duì)知識(shí)實(shí)體的抽取效率,通過(guò)注意力機(jī)制將句子中詞向量和CLS向量相結(jié)合.如圖1所示,將x1和x2取平均后得到Xj,如式(4)所示,其中,a、b表示詞向量的下標(biāo).

Xj=11+b-a∑baxi

(4)

通過(guò)式(5)將CLS和Xj連接在一起組成矩陣.

Et=[CLS,Xj]

(5)

然后,通過(guò)注意力機(jī)制給隱藏狀態(tài)加權(quán)表征,得到新的狀態(tài)序列.計(jì)算過(guò)程如式(6)、式(7)和式(8)所示:

et=Vttanh(WtEt+bt)

(6)

at=exp(et)∑nc=1ec

(7)

st=∑kt=1atEt

(8)

其中,et表示隱藏狀態(tài)向量Et在t時(shí)刻的能量值,Vt和Wt表示t時(shí)刻的權(quán)重系數(shù),bt表示t時(shí)刻對(duì)應(yīng)的偏移量.

由于知識(shí)實(shí)體間的依賴性很強(qiáng),例如,I-PER后面不可能于B-ORG相鄰,可以將新隱藏狀態(tài)序列s傳入CRF層進(jìn)行解碼,得到最終預(yù)測(cè)標(biāo)簽序列.

對(duì)于任一個(gè)序列X=(x1,x2,…,xn),在此假定p是實(shí)體注意力層的輸出得序列,p的大小為n×k,其中,n表示詞的個(gè)數(shù),k為標(biāo)簽個(gè)數(shù),pi,j表示第i個(gè)詞的第j個(gè)標(biāo)簽的分?jǐn)?shù).對(duì)預(yù)測(cè)序列Y=(y1,y2,…,yn)而言得到它的分?jǐn)?shù)函數(shù)如式(9)所示:

s(X,Y)=∑ni=1(Ayi,yi+1+Pi,yi)

(9)

其中,A表示轉(zhuǎn)移分?jǐn)?shù)矩陣,Ai,j代表標(biāo)簽i轉(zhuǎn)移為標(biāo)簽j的分?jǐn)?shù),A的大小為k+2,預(yù)測(cè)序列Y產(chǎn)生的概率為:

p(Y|X)=es(X,Y)∑Y~=YXs(X,Y~)

(10)

ln(p(Y|X))=S(X,Y)-ln(∑Y~=YXs(X,Y~)

(11)

式(10)和式(11)中,Y~表示真實(shí)得標(biāo)注序列,YX表示所有可能的標(biāo)注序列,進(jìn)行解碼后得到最大分?jǐn)?shù)的輸出序列標(biāo)簽Y*如式(12)所示.

Y*=argmaxs(X,Y~)

(12)

4 實(shí)驗(yàn)結(jié)果與分析

4.1 數(shù)據(jù)集與評(píng)價(jià)指標(biāo)

BERT模型的訓(xùn)練依賴于海量的數(shù)據(jù)和非常強(qiáng)大的計(jì)算能力,因此,谷歌開源了不同版本的BERT模型,處理中文數(shù)據(jù)可以采用BERT-base版本,處理英文數(shù)據(jù)集可以采用BERT-base Uncased版本,此版本不需要轉(zhuǎn)換英文首字母大小寫.

本文實(shí)驗(yàn)采用的是人民日?qǐng)?bào)語(yǔ)料庫(kù)作為實(shí)驗(yàn)的數(shù)據(jù)集,它包含了3種實(shí)體類型,分別是人名、地名和組織名.監(jiān)督訓(xùn)練的方式主要標(biāo)注模型包括BIO、BIOE、BIOES等.本文選用的是BIO模型,該模型的標(biāo)簽一共有7個(gè),其中,B代表命名實(shí)體首字,I代表實(shí)體中間,O代表非實(shí)體.相應(yīng)的有B-PER、I-PER分別表示人名首字、人名非首字;B-LOC、I-LOC表示地點(diǎn)名首字、地點(diǎn)名非首字;B-ORG、I-ORG 指組織名首字、組織名非首字;O代表非命名實(shí)體.標(biāo)注示例如表2所示.

表2 部分實(shí)體標(biāo)注示例Table 2 Examples of partial entity annotations

本文實(shí)驗(yàn)使用準(zhǔn)確率P(Precision)、召回率R(Recall)以及F1值對(duì)模型的性能進(jìn)行評(píng)價(jià).3個(gè)評(píng)價(jià)指標(biāo)的計(jì)算公式如式(13)、式(14)和式(15)所示.

P=正確識(shí)別的實(shí)體個(gè)數(shù)所有識(shí)別的實(shí)體個(gè)數(shù)×100%

(13)

R=正確識(shí)別的實(shí)體個(gè)數(shù)所有標(biāo)記的實(shí)體×100%

(14)

F1=2×P×RP+R×100%

(15)

4.2 實(shí)驗(yàn)環(huán)境準(zhǔn)備

本文實(shí)驗(yàn)所需要配置的軟硬件如表3所示.

表3 實(shí)驗(yàn)軟硬件配置表Table 3 Experimental hardware and software configuration table

4.3 實(shí)驗(yàn)參數(shù)配置

在訓(xùn)練過(guò)程中,本實(shí)驗(yàn)采用了Adam優(yōu)化器,設(shè)置學(xué)習(xí)率為0.001,同時(shí),還設(shè)置LSTM_dim為200,batch_size為64,max_seq_len為128.為防止過(guò)擬合問(wèn)題,在BiLSTM的輸入輸出中使用Dropout,取值為0.1.具體各種參數(shù)設(shè)定如表4所示.

表4 實(shí)驗(yàn)參數(shù)設(shè)置Table 4 Experimental parameter setting

4.4 實(shí)驗(yàn)結(jié)果分析

通過(guò)BERT模型訓(xùn)練生成的不同維度向量對(duì)實(shí)驗(yàn)結(jié)果也存在一定的影響,本實(shí)驗(yàn)將LSTM_dim值分別設(shè)置100、200和300進(jìn)行對(duì)比,對(duì)于3次不同實(shí)驗(yàn)的結(jié)果對(duì)比如圖4所示,可以看出,實(shí)體抽取的準(zhǔn)確率、召回率和F1值在向量維度設(shè)置為200時(shí)取得最優(yōu).當(dāng)維度較低時(shí),向量特征不夠完整,會(huì)出現(xiàn)欠擬合現(xiàn)象,當(dāng)維度過(guò)高時(shí),實(shí)驗(yàn)中產(chǎn)生的噪聲會(huì)被捕獲,產(chǎn)生過(guò)擬合現(xiàn)象.

圖4 不同維數(shù)下實(shí)驗(yàn)結(jié)果對(duì)比Fig.4 Comparison of experimental results in different dimensions

為了對(duì)本文模型的評(píng)價(jià)更加合理客觀,實(shí)驗(yàn)選用人民日?qǐng)?bào)語(yǔ)料庫(kù),采用BILSTM模型、LSTM+CRF模型、BILSTM+CRF和經(jīng)典的BERT+BiLSTM+CRF模型作為對(duì)比,實(shí)驗(yàn)結(jié)果如表5所示.

表5 不同模型實(shí)驗(yàn)結(jié)果(單位:%)Table 5 Experimental results of different models (unit:%)

由表5可以看出本文模型具有很好的效果,F(xiàn)1值高達(dá)91.65%.本文模型與傳統(tǒng)的深度學(xué)習(xí)網(wǎng)絡(luò)BiLSTM+CRF模型相比,F(xiàn)1值提高了3.17%,與經(jīng)典的BERT+BiLSTM+CRF模型相比,F(xiàn)1值也提高了0.65%.武惠等人[21]將遷移模型結(jié)合BiLSTM+CRF雖然取得了91.59%的準(zhǔn)確率,但是沒(méi)有使用BERT模型,F(xiàn)1值只有83.92%.本文模型利用BERT模型訓(xùn)練出來(lái)的詞向量和句子向量不僅具有良好的泛化能力,在表征不同語(yǔ)境中的句法和語(yǔ)義信息也有很好的效果,同時(shí)利用注意機(jī)制將句子向量與實(shí)體向量結(jié)合,著重于對(duì)知識(shí)文本中實(shí)體的關(guān)注,提高了知識(shí)圖譜實(shí)體識(shí)別的性能.

此外,本實(shí)驗(yàn)還對(duì)比分析了表5中BiLSTM、LSTM+CRF、BiLSTM+CRF、BERT+BiSTM+CRF和本文模型的前15輪epoch的F1值更新情況,如圖5所示.本文模型和BERT+BiSTM+CRF在訓(xùn)練初期的F1值就能達(dá)到0.75以上,并會(huì)持續(xù)上升,在epoch等于5時(shí)會(huì)達(dá)到最大值,最后會(huì)一直保持在最大值左右.其它3個(gè)神經(jīng)網(wǎng)絡(luò)模型在訓(xùn)練初期就處于一個(gè)非常低的水平,隨著epoch值的增大而增加,在最高值時(shí)也沒(méi)有達(dá)到本文模型的F1值.

為了驗(yàn)證本文模型的合理性,本實(shí)驗(yàn)將句子向量與詞向量取平均后得到的實(shí)體向量的連接方式改為無(wú)注意力機(jī)制,即直接連接方式.實(shí)驗(yàn)結(jié)果如表6所示.

圖5 不同epoch下的F1值Fig.5 F1 values under different epochs

由表6可以看出,采用注意力機(jī)制連接句子向量和實(shí)體向量取得了比較好的效果.原因在于采用無(wú)注意力連接方式增加了多余的參數(shù)來(lái)處理連接后的新向量,采用注意力機(jī)制會(huì)賦予句子向量和實(shí)體向量不同的權(quán)值,經(jīng)過(guò)注意力機(jī)制處理的新向量放入條件隨機(jī)場(chǎng)會(huì)有更好的識(shí)別效果.

表6 句子向量和實(shí)體向量連接方式對(duì)比(單位:%)Table 6 Sentence vector and entity vector connection method comparison (unit:%)

為了進(jìn)一步驗(yàn)證本文提出模型的有效性,本文還選用了CoNLL-2003語(yǔ)料庫(kù)進(jìn)行實(shí)驗(yàn),將其與其它幾個(gè)主流命名實(shí)體識(shí)別模型(文獻(xiàn)[15,16,18-20])進(jìn)行比較,其結(jié)果如表7所示.

表7 本文模型與主流模型實(shí)驗(yàn)結(jié)果對(duì)比(單位:%)Table 7 Comparison of experimental results between the model in this paper and the mainstream models (unit :%)

表7中,總結(jié)了本文模型和其它文獻(xiàn)方法在CoNLL-2003語(yǔ)料庫(kù)的比較結(jié)果.Collobert等人[15]在將CNN神經(jīng)網(wǎng)絡(luò)替代人工進(jìn)行特征提取并結(jié)合CRF模型,取得了F1值為88.05%的結(jié)果;Lample G等人[17]將BiLSTM-CRF模型直接與字符級(jí)的詞向量結(jié)合,F(xiàn)1值達(dá)到了90.08%;Chiu等人[18]將BiLSTM與CNN模型結(jié)合,取得了91.94%的準(zhǔn)確率.Lin等人[20]采用了細(xì)粒度詞表示取得了91.09%的F1值.本文模型采用基于全詞Mask的BERT模型生成句子向量和具有上下文語(yǔ)義的詞向量,采用注意力機(jī)制結(jié)合句子向量和實(shí)體向量,再將結(jié)合后的新向量放入條件隨機(jī)場(chǎng),獲得91.66%的F1值,優(yōu)于其它幾種模型的結(jié)果.從表7中可以看出本文模型的三種指標(biāo)也優(yōu)于其它文獻(xiàn)中的方法.實(shí)驗(yàn)結(jié)果表明,本文模型具有更好的實(shí)體抽取能力.

5 結(jié) 語(yǔ)

目前,在眾多知識(shí)圖譜實(shí)體抽取技術(shù)方法中,普遍存在過(guò)度依賴領(lǐng)域?qū)<液腿斯ぬ卣鞯默F(xiàn)象.為了減少這種問(wèn)題,本文通過(guò)基于全詞Mask的BERT模型獲得句子向量和賦有語(yǔ)境化的詞向量,再通過(guò)注意力機(jī)制和條件隨機(jī)場(chǎng),構(gòu)建的新模型應(yīng)用于知識(shí)圖譜實(shí)體抽取任務(wù).在人民日?qǐng)?bào)語(yǔ)料庫(kù)的評(píng)測(cè)中,相比其他模型,本文模型取得了最佳的結(jié)果.同時(shí)在CoNLL-2003語(yǔ)料庫(kù)中,本文模型也有不錯(cuò)的表現(xiàn).對(duì)于本文模型來(lái)說(shuō),在上游文本預(yù)處理任務(wù)中使用BERT模型,訓(xùn)練得到包含上下文語(yǔ)義的詞向量和句子向量,充分學(xué)習(xí)文本的特征信息,采用注意力機(jī)制將句子向量和實(shí)體向量結(jié)合,再放入條件隨機(jī)場(chǎng),提升了知識(shí)圖譜實(shí)體抽取的效果.實(shí)驗(yàn)表明,本文模型對(duì)于提高知識(shí)圖譜準(zhǔn)確率具有一定的參考價(jià)值.

猜你喜歡
圖譜向量標(biāo)簽
“植物界大熊貓”完整基因組圖譜首次發(fā)布
基于偽譜法的水下航行體快速操舵變深圖譜研究
向量的分解
圖表
不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
向量垂直在解析幾何中的應(yīng)用
向量五種“變身” 玩轉(zhuǎn)圓錐曲線
讓衣柜擺脫“雜亂無(wú)章”的標(biāo)簽
科學(xué)家的標(biāo)簽
科學(xué)家的標(biāo)簽
丹巴县| 高要市| 新竹县| 青海省| 独山县| 昌吉市| 盖州市| 佛冈县| 温泉县| 宝坻区| 葫芦岛市| 青龙| 壶关县| 鄱阳县| 隆回县| 襄城县| 长泰县| 永嘉县| 外汇| 宁都县| 福州市| 绥宁县| 红安县| 临泉县| 明水县| 中宁县| 鲁山县| 肃宁县| 通城县| 班戈县| 元江| 太原市| 拜泉县| 民县| 孝感市| 大荔县| 福海县| 延庆县| 大名县| 彭阳县| 东乌|