任永功,閻 格,何馨宇,2,3
1(遼寧師范大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,遼寧 大連 116081) 2(大連理工大學(xué) 通信與工程博士后研究站,遼寧 大連 116081) 3(大連永佳電子技術(shù)有限公司博士后工作站,遼寧 大連 116081)
隨著互聯(lián)網(wǎng)的高速發(fā)展與普及,使得用戶每天上網(wǎng)時(shí)會(huì)頻繁面對(duì)大量的交互式行為,如何從爆炸式的信息中提取出有用的關(guān)鍵性信息已經(jīng)成為人們重點(diǎn)關(guān)心的話題,因此信息以結(jié)構(gòu)化的方式集中在一處呈現(xiàn)也成為了人們的必備需求之一,這樣會(huì)使得人力與物力成本大大降低,這也是信息抽取的重要意義.
事件抽取任務(wù)是信息抽取領(lǐng)域的重要子任務(wù),而事件抽取包含事件檢測(cè)和元素檢測(cè)兩部分,在金融分析[1]、生物醫(yī)學(xué)[2]、知識(shí)圖譜[3]等各大領(lǐng)域都有廣泛的探究與應(yīng)用.對(duì)于開放域的事件抽取,主要采用無監(jiān)督的方法進(jìn)行抽取[4],由于涉及到的事件類型較為廣泛,模型的泛化性得以保證,而抽取出的以結(jié)構(gòu)化方式呈現(xiàn)的信息又可以在后續(xù)被進(jìn)一步提取其事件關(guān)系,如共指關(guān)系[5]、因果關(guān)系[6]、時(shí)間序列[7]等,所以成為了近年來研究的熱點(diǎn)領(lǐng)域.
事件檢測(cè)指從特定的文本中提取出表達(dá)其對(duì)應(yīng)事件發(fā)生的觸發(fā)詞,主要涉及對(duì)事件的觸發(fā)詞進(jìn)行識(shí)別與分類兩部分,觸發(fā)詞一般以動(dòng)詞詞性或代表動(dòng)作、狀態(tài)的名詞詞性為主,如圖1所示,給定一個(gè)文本中的句子,“earthquake”、“occurred”是句子中的兩個(gè)觸發(fā)詞,分別觸發(fā)“Catastrophe”、“Coming_to_be”事件類型.
圖1 事件檢測(cè)的例子Fig.1 Example of event detection
近年來,事件檢測(cè)任務(wù)主要采取基于特征的網(wǎng)絡(luò)模型和基于深度神經(jīng)網(wǎng)絡(luò)的模型,Nguyen等人[8]采用聯(lián)合抽取模型來標(biāo)注實(shí)體與事件之間的語義關(guān)系,但是忽略了事件之間存在的關(guān)聯(lián)性,Liu等人[9]提出了門控多語言的注意力機(jī)制框架來進(jìn)行事件檢測(cè).Li等人[10]通過構(gòu)建全局特征來彌補(bǔ)局部特征提取所帶來的信息缺失.Chen等人[11]用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)來對(duì)事件進(jìn)行提取.Zhang等人[12]使用跳窗卷積神經(jīng)網(wǎng)絡(luò)以此來提取事件的全局特征.
在事件檢測(cè)任務(wù)中面臨的主要問題其一是觸發(fā)詞存在一詞多義的現(xiàn)象,其二是在一句話中存在著多個(gè)事件觸發(fā)詞并存的情況,這樣會(huì)因?yàn)樘卣魈崛〔怀浞謴亩鴮?dǎo)致檢測(cè)出一句話中全部事件的難度大大增加.針對(duì)上述問題,本文提出了BMCC模型來檢測(cè)事件,它由BERT(B)、Multi-scale CNN(MC)、CRF(C)組成.綜上所述,本文的主要貢獻(xiàn)如下:
1)提出了BMCC模型.即融合了BERT預(yù)訓(xùn)練模型和多尺度CNN的神經(jīng)網(wǎng)絡(luò),將BERT與不同尺度的卷積核在多卷積通道上的卷積信息相結(jié)合,充分地提取上下文語義特征,并且將BIO機(jī)制與CRF結(jié)合來進(jìn)行序列標(biāo)注,更好地識(shí)別多詞觸發(fā)詞的情況,在通用細(xì)粒度事件檢測(cè)任務(wù)中,該模型在MAVEN數(shù)據(jù)集上的總體性能良好.
2)設(shè)計(jì)了多尺度CNN模塊(MCNN).通過不同大小的卷積核在3個(gè)不同卷積通道上進(jìn)行卷積訓(xùn)練,提取更加全面的語義表征,通過實(shí)驗(yàn)表明該模塊使得模型的特征提取能力有所提升,分類效果更優(yōu)越.
3)在CRF進(jìn)行序列標(biāo)注時(shí)引入了BIO標(biāo)注機(jī)制,解決了觸發(fā)詞為多詞時(shí)分類不匹配的問題,同時(shí)緩解了觸發(fā)詞短語標(biāo)簽之間的強(qiáng)依賴性問題,從而提升模型的分類效果.
事件檢測(cè)是事件抽取中的重要任務(wù)之一,它旨在提取出目標(biāo)文本中的觸發(fā)詞,并將其歸類為指定的事件類型.常見的事件檢測(cè)方法大致分為以下3類.
基于模式匹配的事件檢測(cè)方法是通過構(gòu)建模板對(duì)事件進(jìn)行抽取的.Kim等人[13]將WordNet的語義信息融入其中,依賴于短語的模式結(jié)構(gòu)和語義結(jié)構(gòu)來檢測(cè)事件.Yangarber等人[14]通過判斷文本是否相關(guān)將語料庫(kù)劃分成種子模式集,并用相關(guān)模式對(duì)關(guān)聯(lián)本文進(jìn)行學(xué)習(xí),從而達(dá)到事件檢測(cè)的目的.這種方法對(duì)于特定領(lǐng)域有著良好的抽取能力,但是可移植性較差,人力成本較高,不具有普適性.
基于機(jī)器學(xué)習(xí)的事件檢測(cè)方法是在大量的統(tǒng)計(jì)學(xué)習(xí)中將任務(wù)轉(zhuǎn)化為分類的問題,Li等人[15]通過條件隨機(jī)場(chǎng)和全局特征來提高抽取的性能.Chen等人[16]使用了隱馬爾科夫模型以字符級(jí)的方式對(duì)觸發(fā)詞進(jìn)行檢測(cè).這種方法雖然移植性更強(qiáng)但是其往往借助于特征工程和自然語言處理的輔助工具,處理過程繁瑣且容易形成誤差累計(jì).
基于深度學(xué)習(xí)的事件檢測(cè)方法是對(duì)文本中數(shù)據(jù)的語義表征進(jìn)行學(xué)習(xí)的方法,這種方法普適性較強(qiáng),是近年來研究的主要方向.Nguyen[17]等人提出了JRNN模型,通過雙向循環(huán)神經(jīng)網(wǎng)絡(luò)對(duì)句子特征進(jìn)行學(xué)習(xí),并將記憶矩陣和記憶向量引入其中對(duì)模型進(jìn)行預(yù)測(cè).Ding等人[18]通過引用HowNet外部知識(shí)庫(kù)和樹形LSTM對(duì)特征進(jìn)行融合,從而提出了TLNN模型,緩解了觸發(fā)詞歧義的現(xiàn)象.Xu等人[19]基于圖形的方式將文本進(jìn)行了轉(zhuǎn)化,增強(qiáng)了事件與事件之間的聯(lián)系.Pan等人[20]將注意力聚焦在要素上并與編碼層融合從而來提高觸發(fā)詞的抽取能力.Lai等人[21]使用多模態(tài)信息來緩解樣本值異常的情況,從而對(duì)事件進(jìn)行檢測(cè).Cai等人[22]采用無監(jiān)督算法,通過自擴(kuò)展迭代的方法,在無需手動(dòng)標(biāo)注關(guān)鍵詞的情況下對(duì)語句中的關(guān)鍵詞進(jìn)行抽取.Shen等人[23]通過級(jí)聯(lián)解碼的方式在同一框架中進(jìn)行聯(lián)合學(xué)習(xí),實(shí)現(xiàn)了重疊事件的抽取.基于預(yù)訓(xùn)練處理的相關(guān)模型在NLP上也取得了重大的突破,Peters等人[24]提出了上下文相關(guān)的預(yù)訓(xùn)練模型,即Embedding from Language Models(ELMo)模型,此外,Radford等人[25]利用單向Transformer提出的Generative Pre-Training(GPT)模型,Devlin等人[26]利用大量無標(biāo)注文本在無監(jiān)督的情況下形成了雙向Transformer的預(yù)訓(xùn)練模型,即為Bidirectional Encoder Representations from Transformers(BERT).
上述先進(jìn)的方法在事件檢測(cè)任務(wù)中都取得了優(yōu)越的結(jié)果,但是對(duì)深層次的語義表征提取不充分,從而影響提取的精確度.對(duì)于大規(guī)模的通用數(shù)據(jù)來說,在細(xì)粒度的抽取上,需要通過特征去對(duì)語義信息進(jìn)行判斷,所以能否準(zhǔn)確的提取語義特征信息成為了是否可以成功檢測(cè)事件的必要條件,因此本文通過BERT預(yù)訓(xùn)練模型和多尺度CNN對(duì)特征進(jìn)行深層次地提取,最后通過CRF標(biāo)注序列對(duì)事件檢測(cè)結(jié)果進(jìn)行匹配.
本文提出了BMCC模型,首先采用BERT對(duì)文本進(jìn)行編碼生成詞嵌入向量,接著通過BERT的Transformer模型對(duì)詞嵌入向量進(jìn)行預(yù)訓(xùn)練,進(jìn)而得到特征信息.為了得到深層次的語義信息,采用多尺度卷積網(wǎng)絡(luò)模塊來進(jìn)一步獲取更加全面的相關(guān)特征.最后采用了基于BIO機(jī)制標(biāo)注的CRF方法來預(yù)測(cè)出最優(yōu)的序列標(biāo)簽.具體結(jié)構(gòu)如圖2所示.
圖2 BMCC模型結(jié)構(gòu)圖Fig.2 Structural model of BMCC
本文采用BERT預(yù)訓(xùn)練模型對(duì)給定的文本進(jìn)行詞向量嵌入,相比于Word2Vec、Glove等傳統(tǒng)的詞向量表示,BERT則可以獲取單詞的動(dòng)態(tài)表示,充分地考慮到了文本中的上下文關(guān)系,解決了語義多樣性的問題.BERT的結(jié)構(gòu)主要可以分為3層,分別是輸入層、編碼層以及輸出層.在輸入之前先將文本用WordPiece分詞器進(jìn)行分詞操作,其次在每篇文章的句首添加[CLS]標(biāo)記,在每句話的句末添加[SEP]標(biāo)記,以便于句子的分割.如圖3所示,BERT的輸入由3個(gè)嵌入層累加所得,他們分別是將單詞轉(zhuǎn)化為詞向量的標(biāo)記嵌入層、用來分割不同句子的片段嵌入層和將文本句子中單詞的位置信息進(jìn)行編碼的位置嵌入層.在編碼層,BERT采用多維度的多頭注意力機(jī)制來對(duì)句子進(jìn)行編碼操作,將不同的詞向量進(jìn)行權(quán)重組合,從而獲得詞與詞之間的內(nèi)在聯(lián)系.BERT除了使用雙向Transformer模型之外,還結(jié)合了掩碼語言模型(Masked Language Model,MLM)和下一句預(yù)測(cè)任務(wù)(Next Sentence Prediction,NSP)這兩個(gè)功能,使得模型可以更好地獲取文本中的語義信息,增強(qiáng)模型的表征能力.因此,與基于特征表示的ELMo模型和基于單向Transformer的GPT模型相比,BERT擁有更好的詞級(jí)分布式表示,更加體現(xiàn)全局性.
圖3 詞嵌入圖Fig.3 Words embedding
卷積神經(jīng)網(wǎng)絡(luò)(CNN)具有局部相接、權(quán)值共享、下采樣的特性,本文利用其特點(diǎn),對(duì)BERT中輸出的詞向量進(jìn)行更深層次的特征提取,以便提取出更全面的語義表征.卷積操作是利用卷積核在輸入矩陣內(nèi)進(jìn)行水平滑動(dòng),對(duì)矩陣內(nèi)所在的區(qū)域進(jìn)行乘積累加的過程.CNN為了得到高緯度特征,通常采用更深層的卷積,但是會(huì)面臨隨著卷積網(wǎng)絡(luò)的加深其性能會(huì)達(dá)到飽和的問題.為此,谷歌的Szegedy等人[27]提出了卷積模塊,他們拓寬了網(wǎng)絡(luò)模型,減少參數(shù)的個(gè)數(shù),從而提取了更高維度的表征信息.本文參考了Inception V1的卷積思想,針對(duì)通用細(xì)粒度事件檢測(cè)的文本特性,設(shè)計(jì)了多尺度卷積核模塊(Multi-scale CNN,MCNN),將每個(gè)Token相應(yīng)的多特征融合詞向量Wn作為MCNN的輸入,對(duì)其通過1×768、3×768、5×768這3種尺度的卷積核來學(xué)習(xí)文本中不同尺度的信息.
ci=f(v·Wi:i+l-1+b)
(1)
如公式(1)所示,ci是從詞Wi:i+l-1的窗口中產(chǎn)生的局部特征,Wi:i+l-1表示W(wǎng)i后l個(gè)單詞的特征.v表示卷積核,v∈l×d.f為一個(gè)非線性函數(shù),·為矩陣中的點(diǎn)乘運(yùn)算,b為一個(gè)偏置項(xiàng).對(duì)句子中的所有單詞n進(jìn)行卷積后得到了句子的特征圖g,如公式(2)所示:
g=[c1、c2、…、cn-l+1]
(2)
本文將每個(gè)卷積通道都設(shè)置了256個(gè)卷積核來提取不同的特征,將3個(gè)不同通道的卷積核所得到的特征圖設(shè)為Mk,其中k=1,3,5.如公式(3)所示,根據(jù)不同的卷積窗口大小,采用padding的方式將句子邊界進(jìn)行補(bǔ)齊,它們的padding值分別是0、1、2.
Mk=[g1、g2、…、g256]
(3)
最后將這3種尺度的特征進(jìn)行拼接從而獲得關(guān)鍵的語義特征M.
M=M1⊕M2⊕M3
(4)
傳統(tǒng)的CNN網(wǎng)絡(luò)會(huì)通過池化操作來獲取特征信息,但是池化層會(huì)丟失一部分句子中的事件信息,所以本文不進(jìn)行池化操作,以便保留事件所在句子的關(guān)鍵信息.
在序列標(biāo)注中,條件隨機(jī)場(chǎng)(Conditional Random Field,CRF)可以同時(shí)聚焦到文本的上下文信息,它是一個(gè)特征靈活、全局最佳的標(biāo)注框架,與此同時(shí),本文將BIO機(jī)制融入到CRF中,以此對(duì)標(biāo)簽序列進(jìn)行最終的序列標(biāo)注,其中“B”代表事件觸發(fā)詞的首個(gè)單詞,“I”表示事件觸發(fā)詞中間部分的單詞,“O”表示非事件觸發(fā)詞.將上層的輸出M=[m1、m2、…、mn]作為標(biāo)簽序列的輸入,所對(duì)應(yīng)的預(yù)測(cè)標(biāo)簽為Q=[q1、q2、…、qn],如公式(5)所示,可以得到預(yù)測(cè)序列各個(gè)標(biāo)簽的分?jǐn)?shù).
(5)
其中T為標(biāo)簽間對(duì)應(yīng)在觸發(fā)詞上的轉(zhuǎn)移分?jǐn)?shù),Pi,qi表示各個(gè)詞所對(duì)應(yīng)的qi標(biāo)簽的分?jǐn)?shù).最后對(duì)序列進(jìn)行歸一化處理,得到預(yù)測(cè)序列.
(6)
其中q′表示真實(shí)的標(biāo)簽值.在訓(xùn)練的過程中,采用對(duì)數(shù)似然函數(shù)來訓(xùn)練標(biāo)簽,如公式(7)所示:
ln(P(q|M))=score(M,q)-ln(∑q′∈QMeS(M,q′))
(7)
其中,QM代表所有可能的標(biāo)簽集合.在預(yù)測(cè)的過程中,由公式(8)可以得出概率值最高的一組序列.
(8)
本文在Wang等人[28]提出的MAVEN數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),該數(shù)據(jù)集規(guī)避了在原有的小規(guī)模數(shù)據(jù)集上存在的數(shù)據(jù)稀缺以及數(shù)據(jù)類型有限、覆蓋率低的問題.MAVEN數(shù)據(jù)集一共包括4480篇文章,10萬多個(gè)標(biāo)注事件,所覆蓋的事件類型為168種.它是一個(gè)規(guī)模較大的通用領(lǐng)域的英文數(shù)據(jù)集,其中,在41%的事件類型里,它們的標(biāo)注實(shí)例超過500個(gè),有82%的事件類型含有超過100個(gè)標(biāo)注實(shí)例.在此數(shù)據(jù)集中,存在著一句話中同時(shí)出現(xiàn)多個(gè)事件的情況,這樣可以考慮到在一個(gè)句子里不同事件類型之間的內(nèi)在聯(lián)系,更好地幫助模型進(jìn)行事件類型的分類,從而得到通用性和廣泛性更強(qiáng)的模型.MAVEN數(shù)據(jù)集在提供正面實(shí)例(即事件的觸發(fā)詞)的同時(shí),同樣提供了官方的負(fù)面實(shí)例(即事件的非觸發(fā)詞),使得測(cè)試的公平性得以保障,具體的數(shù)據(jù)分布如表1所示.
表1 MAVEN數(shù)據(jù)集(負(fù)面實(shí)例為非觸發(fā)詞的數(shù)量)Table 1 MAVEN dataset(Negative is the number of non-triggers)
本文在Windows 10的操作系統(tǒng)下采用GPU的 CUDA 版本為11.3,在PyTorch框架上對(duì)程序進(jìn)行設(shè)計(jì),其中Python版本為3.8.12,Torch 版本為1.8.0以及BERT預(yù)訓(xùn)練語言模型為“BERT-base-uncased”,詳細(xì)實(shí)驗(yàn)參數(shù)如表2所示.
表2 實(shí)驗(yàn)詳細(xì)參數(shù)設(shè)置Table 2 Detailed experimental parameter setting
本實(shí)驗(yàn)的評(píng)價(jià)指標(biāo)為精確度P(Precision)、召回率R(Recall)和評(píng)價(jià)模型性能綜合指標(biāo)的F1值,如公式(9)~公式(11)所示:
(9)
(10)
事件檢測(cè)任務(wù)可以分為對(duì)事件的觸發(fā)詞進(jìn)行識(shí)別和分類兩個(gè)部分.對(duì)事件觸發(fā)詞進(jìn)行識(shí)別屬于二分類工作,它旨在將識(shí)別出來的事件觸發(fā)詞與所給觸發(fā)詞位置進(jìn)行對(duì)比,位置相同即為識(shí)別正確.而對(duì)事件的觸發(fā)詞進(jìn)行分類是一個(gè)多分類工作,它旨在識(shí)別出觸發(fā)詞類型與所給觸發(fā)詞類型相同即為分類正確.
為了驗(yàn)證BMCC模型的有效性,本文將一些較為先進(jìn)的模型與本實(shí)驗(yàn)?zāi)P瓦M(jìn)行比較,具體的結(jié)果如表3所示.
表3 MAVEN數(shù)據(jù)集上各個(gè)模型的整體性能比較Table 3 Overall trigger classification performance of various models on MAVEN
1)τ-Normalization:Kang等人[29]將以往的聯(lián)合學(xué)習(xí)分解為表示學(xué)習(xí)和結(jié)果分類,并且利用多采樣學(xué)習(xí)的策略來探索不同的表示之間的平衡策略,該模型在MAVEN數(shù)據(jù)集上的結(jié)果為58.4%.
2)DMCNN:Chen等人[11]將CNN設(shè)為基準(zhǔn),利用動(dòng)態(tài)多池化與卷積神經(jīng)網(wǎng)絡(luò)結(jié)合提取特征,他們?cè)谑录z測(cè)任務(wù)中的F1值為60.6%.
3)BiLSTM:Hochreiter等人[30]利用BiLSTM,讓信息前向和后向傳遞,以此來特征選擇,他們的模型F1值為62.8%.
4)BiLSTM+CRF:Lafferty等人[31]將BiLSTM(Bi-directional Long-Short Term Memory)與CRF結(jié)合來處理序列標(biāo)注問題,由于在模型中使用靜態(tài)詞向量,所獲得特征信息有限,所以他們的F1值為64.1%.
5)MOGANED:Yan等人[32]通過句法依存樹與GCN結(jié)合進(jìn)行建模,并且通過注意力機(jī)制來聚合多階句法信息,其F1值為63.8%.
6)HBTNGMA:Chen等人[33]將分層和偏執(zhí)標(biāo)簽結(jié)合來共同檢測(cè)句子中的事件,并且設(shè)計(jì)了帶有門控的多層注意力機(jī)制以融合句子中動(dòng)態(tài)的信息,他們的F1值為62.7%.
7)MLBiNet:Luo等人[34]通過編碼-解碼的框架設(shè)計(jì)了多層雙向網(wǎng)絡(luò),以此來提取跨句語義信息和事件信息,他們的模型在MAVEN數(shù)據(jù)集上的F1值為63.6%.
結(jié)果表明,在MAVEN語料庫(kù)上,BMCC模型的結(jié)果優(yōu)于其他模型.本文模型的F1值比Kang高6.8%,比Chen等人高4.6%,比Hochreiter等人高2.4%,比Lafferty等人高1.1%,比Yan等人高1.4%,比Chen等人高2.5%,比Luo等人高1.6%,這也證明了BMCC模型的有效性.
為了進(jìn)一步驗(yàn)證本文模型的泛化性能,本文對(duì)BMCC模型進(jìn)行了交叉驗(yàn)證實(shí)驗(yàn),將訓(xùn)練集中的數(shù)據(jù)以隨機(jī)分配的方式平均分成10份進(jìn)行10次交叉驗(yàn)證.在不重復(fù)選取的情況下,每一次選取其中的一份作為驗(yàn)證集,其余9份作為訓(xùn)練集對(duì)模型進(jìn)行訓(xùn)練,以此來防止在實(shí)驗(yàn)的過程中模型所產(chǎn)生的過擬合現(xiàn)象.實(shí)驗(yàn)結(jié)果如圖4所示,在交叉實(shí)驗(yàn)中模型具備較好的泛化能力,其平均F1值從原來的65.17%提升到65.28%,實(shí)驗(yàn)結(jié)果證明了模型的穩(wěn)定性.
圖4 交叉驗(yàn)證實(shí)驗(yàn)結(jié)果Fig.4 Results of the cross-validation experiment
由于BERT是基于Transformer的編碼來進(jìn)行模型的預(yù)訓(xùn)練,使得模型層次加深,從而捕捉到詞匯的語義表達(dá).由于MCNN具有多個(gè)通道的卷積核,可以更加全面的提取文章的的卷積核,可以更加全面的提取文章的有效信息表征,并且CRF具有強(qiáng)大的推理能力,其有效地解決了模型中的標(biāo)記偏執(zhí)問題.所以,本文提出了融合BERT預(yù)訓(xùn)練模型和多尺度CNN的神經(jīng)網(wǎng)絡(luò),以解決在事件檢測(cè)任務(wù)中語義信息提取不充分的問題.本文采用BERT作為實(shí)驗(yàn)的基線模型,其F1值為61.66%,以下為BMCC模型的創(chuàng)新部分結(jié)果分析,如表4所示.
表4 實(shí)驗(yàn)?zāi)P偷南诒容^Table 4 Ablation comparison of our experimental model
4.3.1 MCNN模塊的有效性
本文將BERT與多尺度的CNN結(jié)合,設(shè)計(jì)了3個(gè)不同尺度的卷積通道,其卷積核大小分別為1、3、5.由于不同大小的卷積核,所以感受的視野范圍也不同,用尺度較小的1×768卷積核,使得較小的特征能夠被提取.用3×768的卷積核能夠提取一般長(zhǎng)度句子間相關(guān)性的語義特征.用5×768尺度的卷積核,使得在較長(zhǎng)的句子之間,它們的相關(guān)性特征可以被充分提取.通過設(shè)立多個(gè)卷積通道,讓模型感受不同維度的文本信息,所提取的尺度特征也會(huì)增多,從而可以提取不同的語義信息,進(jìn)一步豐富其語義表征,進(jìn)而提高了模型的精確度和召回率,使得觸發(fā)詞的準(zhǔn)確率F1值提高了2.17%.
4.3.2 CRF的有效性
傳統(tǒng)的序列標(biāo)注softmax分類器在進(jìn)行標(biāo)簽分類時(shí)往往會(huì)將標(biāo)簽間的依存關(guān)系忽略,從而影響序列的分類結(jié)果,本實(shí)驗(yàn)將其替換成基于BIO機(jī)制的CRF方法對(duì)序列進(jìn)行標(biāo)注,使得語義特征在錯(cuò)綜復(fù)雜、非獨(dú)立卻具有重復(fù)性的情況下,充分地利用上下文的特征信息,從而使模型獲取的信息更為豐富.并且模型在每一個(gè)狀態(tài)轉(zhuǎn)移時(shí)都會(huì)進(jìn)行歸一化操作,充分地考慮到了觸發(fā)詞之間不匹配的問題,使得一句話中出現(xiàn)多個(gè)事件的準(zhǔn)確率得以提高,從而將F1值提高了1.34%.
最終使得通用細(xì)粒度事件檢測(cè)任務(wù)在MAVEN數(shù)據(jù)集上的F1值達(dá)到了65.17%的良好效果.
本文提出了融合BERT預(yù)訓(xùn)練模型和多尺度CNN的神經(jīng)網(wǎng)絡(luò)模型來進(jìn)行通用細(xì)粒度事件檢測(cè).該模型首先通過BERT進(jìn)行語義編碼和模型的預(yù)訓(xùn)練來提取不同粒度的詞義表征,而后采用MCNN模塊進(jìn)行多尺度的卷積,將詞嵌入向量進(jìn)行不同尺度的卷積從而提取出不同視野的語義特征,進(jìn)而得到語義豐富的表征信息.最后通過條件隨機(jī)場(chǎng)CRF對(duì)序列進(jìn)行標(biāo)注,實(shí)現(xiàn)多標(biāo)簽的分類.相比于傳統(tǒng)的事件檢測(cè)模型,BMCC模型在實(shí)驗(yàn)中效果更好,在MAVEN數(shù)據(jù)集上F1取得了65.17%的良好成績(jī).然而由于該模型未融入句義信息及句法特征,所以在句子與文檔方面的語義信息提取不全面.在接下來的研究工作中,本文將考慮引入句子級(jí)和篇章級(jí)的語義特征,從而在模型中引入更多有效的語義特征,進(jìn)一步提高通用細(xì)粒度事件檢測(cè)的模型性能.