国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于BERT 的突發(fā)事件文本自動(dòng)標(biāo)注方法

2021-12-17 00:56楊芷婷馬漢杰
關(guān)鍵詞:語料語料庫向量

楊芷婷,馬漢杰

(浙江理工大學(xué) 信息學(xué)院,杭州 310018)

0 引言

自然語言處理技術(shù)(Natural Language Processing,NLP)是計(jì)算機(jī)科學(xué)、人工智能和語言學(xué)交叉的領(lǐng)域,主要研究用計(jì)算機(jī)來處理、理解和應(yīng)用人類語言,達(dá)到人與計(jì)算機(jī)之間的有效通信。信息抽取為自然語言處理領(lǐng)域的一個(gè)重要研究方向。其中,命名實(shí)體識(shí)別(Named Entity Recognition,NER)是信息抽取的基礎(chǔ)任務(wù),其任務(wù)是從文本中識(shí)別出諸如人名、組織名、日期、時(shí)間、地點(diǎn)、特定的數(shù)字形式等內(nèi)容,并為之添加相應(yīng)的標(biāo)注信息,為信息抽取后續(xù)工作提供便利[1]。在實(shí)際自然語言處理任務(wù)中,如社交媒體文本處理等,NER 作為上游任務(wù)在整個(gè)系統(tǒng)中起著舉足輕重的作用。

隨著網(wǎng)絡(luò)信息的爆發(fā)式增長,傳統(tǒng)的文本分析手段已不適合處理海量突發(fā)事件信息,機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘技術(shù)才是目前信息抽取任務(wù)處理過程中備受青睞的處理技術(shù)。隨著評(píng)測(cè)會(huì)議,如:MUC(Message Understanding Conference)[2]、自動(dòng)內(nèi)容抽取(Automatic Content Extraction,ACE)[3]的舉辦,事件抽取技術(shù)取得了長足進(jìn)展。2016 年P(guān)eng等人將Chen等人發(fā)表的SOTA 中文分詞系統(tǒng)[4]與中文媒體ER 模型結(jié)合[5],在實(shí)體識(shí)別訓(xùn)練過程中利用分詞訓(xùn)練提供的輸出參數(shù)訓(xùn)練,使識(shí)別效果提高了5%[6];Lample 在堆疊LSTM 模型(S-LSTM)基礎(chǔ)上,結(jié)合基于字符的表示模型[7]和詞嵌入模型,在多種語言上得到了較好的訓(xùn)練結(jié)果[8];偉峰等人在2019 年首先提出利用基于注意力機(jī)制[9]的序列標(biāo)注模型,聯(lián)合抽取句子級(jí)事件的觸發(fā)詞和實(shí)體,與獨(dú)立進(jìn)行實(shí)體抽取和事件識(shí)別相比,聯(lián)合標(biāo)注的方法在F值上提升了1 個(gè)百分點(diǎn);武惠[10]提出基于遷移學(xué)習(xí)和深度學(xué)習(xí)的TrBiLSTM-CRF 模型,采用實(shí)例遷移學(xué)習(xí)算法將源域知識(shí)遷移到目標(biāo)域,在小規(guī)模數(shù)據(jù)集上取得了較好的效果。

本文利用深度學(xué)習(xí)網(wǎng)絡(luò)搭建學(xué)習(xí)模型,以標(biāo)注的中文事件語料數(shù)據(jù)為輸入,訓(xùn)練得到自動(dòng)提取事件信息的網(wǎng)絡(luò)模型,該模型主要由BERT-BiLSTMCRF 組成。其中,BERT 預(yù)訓(xùn)練語言模型由谷歌人工智能團(tuán)隊(duì)提出,能夠較完整地保存文本語義信息;BiLSTM-CRF 是較為常見的序列標(biāo)注模型,在語音識(shí)別、詞性標(biāo)注、實(shí)體識(shí)別等領(lǐng)域應(yīng)用廣泛。在中文文本事件知識(shí)提取領(lǐng)域,研究語義、推理和挖掘是提取信息的主要手段之一,在程序開發(fā)過程中還需語言領(lǐng)域相關(guān)儲(chǔ)備知識(shí),對(duì)研究人員來說是個(gè)不小的挑戰(zhàn),而深度學(xué)習(xí)網(wǎng)絡(luò)訓(xùn)練模型和大數(shù)據(jù),使得中文信息處理發(fā)展向前推進(jìn)了一大步。

1 相關(guān)工作

由于事件文本的特殊性,學(xué)者們對(duì)不同的事件語料庫采用了不同的標(biāo)注體系[11],目前影響較大的事件標(biāo)注語料庫有ACE 測(cè)評(píng)語料[12]和TimeBank語料[13],中文事件標(biāo)注語料比較常用的是中文突發(fā)事件語料庫(CEC)。CEC 語料庫是由上海大學(xué)(語義智能實(shí)驗(yàn)室)所構(gòu)建。CEC 語料庫根據(jù)國務(wù)院頒布的《國家突發(fā)公共事件總體應(yīng)急預(yù)案》分類體系,收集了5 類(地震、火災(zāi)、交通事故、恐怖襲擊和食物中毒)突發(fā)事件的新聞報(bào)道作為生語料,經(jīng)過對(duì)生語料進(jìn)行文本預(yù)處理、文本分析、事件標(biāo)注以及一致性檢查等處理,最后將標(biāo)注結(jié)果保存到語料庫中,CEC 合計(jì)332 篇[14]。與ACE 和TimeBank 語料庫相比,CEC 語料庫的規(guī)模雖然偏小,但是對(duì)事件和事件要素的標(biāo)注卻最為全面。

CEC 標(biāo)注語料采用XML 格式,文本格式以Title、ReportTime、Content、eRelation 標(biāo)簽依序組成,如圖1 所示。Content 標(biāo)簽內(nèi)容為已標(biāo)注事件元素的新聞文本。Event 標(biāo)簽主要包含的標(biāo)簽有:事件觸發(fā)詞(Denoter)、事件發(fā)生地點(diǎn)(Location)、時(shí)間(Time)、對(duì)象者(Participant)等。eRelation 標(biāo)簽定義事件之間的關(guān)系屬性,有5 種類型值:因果(causal)、伴隨(accompany)、跟隨(follow)、組成(composite)以及意念包含(thoughtContent)。

圖1 CEC 語料標(biāo)簽樹Fig.1 CEC corpus label tree

中文實(shí)體識(shí)別與英文不同,是以分詞為基礎(chǔ)(word-based)的訓(xùn)練模型,識(shí)別效果與分詞準(zhǔn)確性相關(guān)。如:“南京市長江大橋”若錯(cuò)誤地被分割為“南京/市長/江大橋”,則會(huì)影響該實(shí)體的識(shí)別效果。不少專家研究得出,在中文實(shí)體識(shí)別中使用基于字(character-based)深度識(shí)別模型優(yōu)于基于詞的模型。但由于中文的多義性和多態(tài)性,單純依靠字特征將會(huì)丟失詞語隱藏的信息。因此,如何將基于字的模型和基于詞的模型混合得到更好的結(jié)果,是當(dāng)前中文實(shí)體識(shí)別的一大研究熱點(diǎn)[15]。在數(shù)據(jù)不足或特殊文本的情況下,引入語法結(jié)構(gòu)特征和詞性特征,通過編寫規(guī)則,識(shí)別事件信息是常用的事件抽取方法[16]。

本文主要針對(duì)的是中文文本的事件識(shí)別和事件元素提取研究。利用BERT-BiLSTM-CRF 模型對(duì)CEC 語料進(jìn)行訓(xùn)練,提取出相關(guān)事件元素。在進(jìn)行處理之前,需要對(duì)事件語料進(jìn)行預(yù)處理,將標(biāo)注的xml 文件轉(zhuǎn)換成可訓(xùn)練格式。事件觸發(fā)詞抽取任務(wù)要求正確識(shí)別觸發(fā)詞并判斷觸發(fā)詞賦予正確的類型。對(duì)于實(shí)體識(shí)別,要求對(duì)文本中事件觸發(fā)詞Denoter、事件中的對(duì)象Participant、時(shí)間Time、地點(diǎn)Location、目標(biāo)Object等5 類實(shí)體進(jìn)行正確識(shí)別和分類。

2 網(wǎng)絡(luò)模型

2.1 LSTM 模型

2013 年Mikolov 提出Word2Vec 模型,包含兩個(gè)模型CBOW 和Skip-gram,前者通過窗口語境預(yù)測(cè)目標(biāo)詞出現(xiàn)的概率,后者使用目標(biāo)詞預(yù)測(cè)窗口中的每個(gè)語境詞出現(xiàn)的概率。語義上相似或相關(guān)的詞,得到的表示向量也相近,這樣的特性使得Word2Vec獲得巨大成功。2014 年Hochreiter 與Schmidhuber提出LSTM 模型,解決了梯度消失和爆炸問題,能夠提取更長文本之間的信息,屬于循環(huán)神經(jīng)網(wǎng)絡(luò)RNN的一種變體。其結(jié)構(gòu)如圖2 所示。

圖2 LSTM 模型Fig.2 The model of LSTM

每個(gè)LSTM 單元由循環(huán)連接的記憶細(xì)胞ct組成,細(xì)胞包含3 種類型的門:遺忘門ft、輸入門it、輸出門ot。在時(shí)刻t各個(gè)門的計(jì)算公式如下:

其中,Wi、Ui、Wf、Uf、Wo、Uo分別表示各個(gè)門的權(quán)重矩陣;bi、bf和bo為各個(gè)門的偏置矩陣;Wu、Uu、bu分別是新記憶內(nèi)容ut的權(quán)重矩陣和偏置矩陣;ht為LSTM 的隱藏狀態(tài);σ為元素級(jí)sigmoid激活函數(shù);tanh為元素級(jí)的雙曲正切激活函數(shù);?表示元素級(jí)相乘操作。

公式(2)中,遺忘門通過查看ht-1和gt信息,使用sigmoid函數(shù)輸出一個(gè)0~1 之間的向量,決定細(xì)胞狀態(tài)ct-1中信息的取舍;公式(4)中,輸入門通過查看ht-1和gt信息,使用tanh層得到新的候選細(xì)胞信息ut,并同樣使用sigmoid函數(shù)決定信息的更新(公式(1)、公式(5)是新細(xì)胞信息的更新公式);最后,由輸出門公式(3)判斷輸出細(xì)胞的狀態(tài)特征,將細(xì)胞狀態(tài)經(jīng)過tanh層后得到的向量與輸出門得到的向量相乘(公式(6))即為細(xì)胞單元最終的輸出。

在句子中,識(shí)別一個(gè)實(shí)體需要考慮上下文信息,所以本文使用雙向LSTM(Bidirectional LSTM)獲取句子的語境信息。BiLSTM 的結(jié)構(gòu)如圖3 所示,隱藏狀態(tài)表達(dá)公式為:

圖3 BiLSTM 結(jié)構(gòu)圖Fig.3 The structure of BiLSTM

2.2 BERT 模型

BERT 模型由谷歌提出[17],需要面向各類任務(wù),其輸入處理與常見的語言訓(xùn)練模型不同,在詞向量的基礎(chǔ)上添加了位置向量和段落向量,如圖4。在處理輸入的句子時(shí),序列首位會(huì)加上[CLS]標(biāo)記,若輸入句子正確時(shí),則添加[SEP]標(biāo)記。

圖4 BERT 模型輸入向量Fig.4 BERT input vector

雖然通過神經(jīng)網(wǎng)絡(luò)訓(xùn)練模型可以得到詞的向量表示,但該向量為固定向量,無法體現(xiàn)字的多義性。而BERT 預(yù)訓(xùn)練語言模型可以得到一個(gè)字上下文相關(guān)表示,能夠表示字的多義性及句子的語法特點(diǎn)[18]。面對(duì)不同的學(xué)習(xí)任務(wù),BERT 模型內(nèi)部結(jié)構(gòu)不需要做太多改變,主要對(duì)輸出層做出調(diào)整。BERT模型采用雙向Transformer[19]做為編碼器(結(jié)構(gòu)如圖5 所示),采用多頭注意力機(jī)制,可以更好的捕捉詞與詞之間的關(guān)系,序列編碼更具整體性。Transformer 編碼單元如圖6 所示,編碼單元最主要的模塊是自注意力部分計(jì)算公式:

圖5 雙向Transformer 結(jié)構(gòu)Fig.5 Bidirectional Transformer structure

圖6 Transformer 編碼單元Fig.6 Transformer encoder unit

其中,Q、K、V為輸入向量分別乘以WQ、WK、WV矩陣,經(jīng)過線性變化得到dk為輸入向量維度。經(jīng)過dk進(jìn)行縮小之后通過softmax歸一化得到權(quán)重表示,最后得到句子中所有詞向量的帶權(quán)和,這樣的詞向量相較于傳統(tǒng)詞向量更加具有全局性。

此外,BERT 模型采用了多頭注意力機(jī)制(Multi-Head Attention),多頭自注意力計(jì)算過程分為4 步:

(1)輸入經(jīng)過線性變換后生成Q、K、V3 個(gè)向量;

(2)進(jìn)行分頭操作(假設(shè)原始向量維度為512,分成8 個(gè)head 后,每個(gè)head 維度為64);

(3)每個(gè)head 進(jìn)行自注意力計(jì)算;

(4)最后將計(jì)算結(jié)果拼接起來。公式描述為:

為解決深度學(xué)習(xí)中的退化問題,編碼單元加入了殘差網(wǎng)絡(luò)和層歸一化,如式11 所示:

之后將歸一化結(jié)果使用ReLU 做為激活函數(shù),運(yùn)算如下:

該模型在預(yù)訓(xùn)練中主要包括2 個(gè)任務(wù):Masked語言模型和Next 句子預(yù)測(cè)。在訓(xùn)練過程中,首先構(gòu)造句子對(duì)。構(gòu)造方法是在規(guī)模文本中,選擇具有上下文關(guān)系的句子對(duì),對(duì)其中50% 的句子對(duì)進(jìn)行隨機(jī)替換,使其不具有上下文關(guān)系,然后在“Masked 語言模型”和“Next 句子預(yù)測(cè)”任務(wù)上進(jìn)行訓(xùn)練,捕捉詞級(jí)別和句子級(jí)別的表示。

2.3 CRF 模型

CRF 模型[20]由Collobert 提出,相較于softmax分類器,能考慮標(biāo)簽序列的全局信息,獲得更優(yōu)的標(biāo)簽序列。CRF是在給定隨機(jī)變量X的條件下,隨機(jī)變量Y的馬爾科夫隨機(jī)場(chǎng),在序列預(yù)測(cè)問題常用的是線性鏈馬爾科夫隨機(jī)場(chǎng)。對(duì)于觀察序列x=(x1,x2,…,xn)和狀態(tài)序列y=(y1,y2,…,yn),利用Softmax歸一化后的概率如式(13)所示:

其中,fk是轉(zhuǎn)移特征函數(shù);hj是狀態(tài)特征函數(shù);λk、μj是對(duì)應(yīng)的權(quán)值;Z(x)是歸一化因子,計(jì)算公式如下:

模型在預(yù)測(cè)過程(解碼)時(shí),使用動(dòng)態(tài)規(guī)劃的Viterbi 算法來求解最優(yōu)路徑,如式(15)所示:

3 實(shí)驗(yàn)過程

3.1 實(shí)驗(yàn)數(shù)據(jù)

本文使用的是上海大學(xué)公開的中文突發(fā)事件語料庫,是一個(gè)一個(gè)小規(guī)模的事件語料庫,合計(jì)332 篇。語料文本包括:地震、火災(zāi)、交通事故、恐怖襲擊、食物中毒等5 類。其中各類文本數(shù)據(jù)統(tǒng)計(jì)見表1。

表1 CEC 語料文本數(shù)據(jù)統(tǒng)計(jì)Tab.1 CEC corpus text data statistics

對(duì)于CEC 語料的處理方式可以參考實(shí)體識(shí)別訓(xùn)練時(shí)使用的BIO 三段標(biāo)記法:對(duì)于每個(gè)需要識(shí)別的標(biāo)簽,將第一個(gè)字標(biāo)記為“B-(實(shí)體類別)”,后續(xù)標(biāo)記為“I-(實(shí)體類別)”,對(duì)于無關(guān)字,一律標(biāo)記為O。以下面一段xml 格式文本為例做一說明:

經(jīng)過轉(zhuǎn)換之后變?yōu)槿缦滦问剑ㄎ淖中备芎蟊硎緲?biāo)注序列):

學(xué)/B-PP 校/I-PP等/O 單/O 位/O 也/O 立/O即/O 疏/B-DNT 散/I-DNT 到/O 安/B-LOC 全/ILOC 場(chǎng)/I-LOC 所/I-LOC。/O

BIO 三段記法最大的優(yōu)點(diǎn)是支持逐字標(biāo)記,減少了系統(tǒng)因分詞而產(chǎn)生的誤差。標(biāo)記好的數(shù)據(jù)有O、B-PP、I-PP、B-LOC、I-LOC、B-TM、I-TM、BDNT、I-DNT、B-OJ、I-OJ、B-RT、I-RT、X、[CLS]和[SEP]共16 大類;[CLS]為句子開始標(biāo)志,[SEP]為句子結(jié)尾標(biāo)志。對(duì)于每一類實(shí)體的識(shí)別效果,采用精確率(P)、召回率(R)和F值作為模型性能的評(píng)價(jià)標(biāo)準(zhǔn),具體計(jì)算公式如下:

3.2 模型參數(shù)

本文采用由谷歌人工智能團(tuán)隊(duì)開發(fā)的Tensorflow框架搭建模型,BERT 預(yù)訓(xùn)練語言模型默認(rèn)采用12頭注意力機(jī)制,每次讀取序列長度為128,預(yù)訓(xùn)練詞長度為768;訓(xùn)練批次為16,優(yōu)化器采用Adam,學(xué)習(xí)率設(shè)置為10-5。LSTM 隱藏單元設(shè)為128,為解決梯度消失和爆炸問題,設(shè)置丟棄率為0.5,采用梯度裁剪技術(shù),clip 設(shè)置為5。由雙向LSTM 網(wǎng)絡(luò)輸出得到的256 維字向量,經(jīng)過壓縮為16 維向量作為CRF層的輸入。

3.3 實(shí)驗(yàn)結(jié)果及分析

將訓(xùn)練數(shù)據(jù)從xml 格式轉(zhuǎn)換為適合的訓(xùn)練數(shù)據(jù)后,得到標(biāo)簽統(tǒng)計(jì)見表2。

表2 訓(xùn)練數(shù)據(jù)標(biāo)簽統(tǒng)計(jì)Tab.2 Train data labels statistics

由于訓(xùn)練數(shù)據(jù)量較少,將訓(xùn)練數(shù)據(jù)按照8 ∶2 分割為訓(xùn)練集和測(cè)試集。訓(xùn)練得到的網(wǎng)絡(luò)模型在測(cè)試集上各類實(shí)體的識(shí)別率與BiLSTM+CRF 神經(jīng)網(wǎng)絡(luò)識(shí)別率對(duì)比結(jié)果見表3。

表3 實(shí)驗(yàn)識(shí)別結(jié)果Tab.3 Label element recognition experiment results

由此可知,相較于使用訓(xùn)練好的維基百科字向量+BiLSTM+CRF 模型,使用BERT 模型得到的訓(xùn)練結(jié)果在各個(gè)元素上皆優(yōu)于該模型,尤其在對(duì)象元素識(shí)別上得到了近20%的提高。再對(duì)比文獻(xiàn)[24],采用人工語法規(guī)則自動(dòng)標(biāo)注得到的實(shí)驗(yàn)結(jié)果見表4。

表4 人工語法規(guī)則自動(dòng)標(biāo)注結(jié)果Tab.4 Experiment results of using grammar rule

可以看出,使用機(jī)器學(xué)習(xí)的方法在時(shí)間、報(bào)道時(shí)間、參與對(duì)象3 類實(shí)體的識(shí)別準(zhǔn)確率、召回率和F1值上均有所提高,在發(fā)生地點(diǎn)、觸發(fā)詞的識(shí)別率上稍有降低。由此表明,在利用BERT-BiLLSTM-CRF模型基礎(chǔ)上,確實(shí)可以提高部分實(shí)體識(shí)別的精確率,避免了對(duì)實(shí)驗(yàn)文本的語法規(guī)則和人工實(shí)現(xiàn)過濾規(guī)則等耗費(fèi)時(shí)力的操作,但在觸發(fā)詞等實(shí)體類的識(shí)別上稍顯劣勢(shì),這也是今后需要研究改進(jìn)的地方。

4 結(jié)束語

本文利用BERT-BilSTM-CRF 深度學(xué)習(xí)模型,對(duì)CEC 語料庫進(jìn)行自動(dòng)化標(biāo)注,提高了標(biāo)注效率。與傳統(tǒng)手工標(biāo)注方法相比極大的提高標(biāo)注速度,即使在識(shí)別準(zhǔn)確率不高的情況下也可人工調(diào)整,有利于大規(guī)模語料標(biāo)注工作。對(duì)比BiLSTM-CRF 網(wǎng)絡(luò)模型,在事件各個(gè)要素識(shí)別上都取得較為明顯的優(yōu)化。本文實(shí)驗(yàn)?zāi)P瓦€存在改進(jìn)的地方,如在無明顯規(guī)則的事件觸發(fā)詞、事件參與對(duì)象等實(shí)體識(shí)別的效果并不理想,這是由于事件對(duì)象短語在事件句中沒有較為明顯的規(guī)律特征,需要結(jié)合中文語法特征進(jìn)一步發(fā)掘有效識(shí)別規(guī)則,有待進(jìn)一步研究。

猜你喜歡
語料語料庫向量
向量的分解
淺談視頻語料在對(duì)外漢語教學(xué)中的運(yùn)用
基于語料庫翻譯學(xué)的廣告翻譯平行語料庫問題研究
可比語料庫構(gòu)建與可比度計(jì)算研究綜述
運(yùn)用語料庫輔助高中英語寫作
如何使用第二外語學(xué)習(xí)者語料
向量垂直在解析幾何中的應(yīng)用
向量五種“變身” 玩轉(zhuǎn)圓錐曲線
語料庫與譯者培養(yǎng)探索
英語教學(xué)中真實(shí)語料的運(yùn)用
正定县| 锦屏县| 民和| 特克斯县| 寻乌县| 临江市| 德江县| 赣州市| 荃湾区| 衡南县| 沙湾县| 隆化县| 阳西县| 大渡口区| 海晏县| 高要市| 朔州市| 张家口市| 遂宁市| 盖州市| 新沂市| 桦川县| 苏州市| 太白县| 海阳市| 阿巴嘎旗| 巴青县| 额济纳旗| 宣威市| 如东县| 瑞丽市| 晋州市| 临清市| 申扎县| 襄垣县| 大丰市| 弋阳县| 田林县| 清新县| 台前县| 嘉祥县|