国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多顆粒度文本表征的中文命名實(shí)體識(shí)別方法

2022-06-17 09:09:48張桂平蔡?hào)|風(fēng)陳華威
中文信息學(xué)報(bào) 2022年4期
關(guān)鍵詞:分詞字符編碼器

田 雨,張桂平,蔡?hào)|風(fēng),陳華威,宋 彥

(1. 沈陽(yáng)航空航天大學(xué) 人機(jī)智能研究中心,遼寧 沈陽(yáng) 110136;2. 香港中文大學(xué)(深圳) 數(shù)據(jù)科學(xué)學(xué)院,廣東 深圳 518172)

0 引言

中文命名實(shí)體識(shí)別CNER(Chinese Named Entity Recognition)是自然語(yǔ)言處理NLP(Natural Language Processing)的一項(xiàng)基本任務(wù),與關(guān)系抽取[1-2]、指代消解[3]、問(wèn)答系統(tǒng)[4]等任務(wù)關(guān)系密切。得益于機(jī)器學(xué)習(xí)技術(shù)和共享語(yǔ)料庫(kù)的發(fā)展,命名實(shí)體識(shí)別近年來(lái)取得了長(zhǎng)足的進(jìn)展,在自然語(yǔ)言處理領(lǐng)域發(fā)揮著重要作用。

與中文分詞[5]、詞性標(biāo)注[6]等任務(wù)類(lèi)似,實(shí)體識(shí)別通常被視為序列標(biāo)注任務(wù)。對(duì)中文而言,即為每個(gè)字符分配一個(gè)相應(yīng)的標(biāo)簽,以判斷字符在實(shí)體中的位置以及實(shí)體的類(lèi)型。然而,中文句子由連續(xù)的漢字組成,與英文等語(yǔ)言不同,中文句子沒(méi)有天然存在的分隔符。因此,識(shí)別實(shí)體邊界時(shí)會(huì)受到分詞錯(cuò)誤的影響。例如,在“南京市長(zhǎng)江大橋”中,正確的分詞結(jié)果為“南京市/長(zhǎng)江大橋”,此時(shí)二者傾向于地理位置類(lèi)型的實(shí)體;若分詞結(jié)果為“南京市長(zhǎng)/江大橋”,二者則更傾向于人物名稱(chēng)類(lèi)型的實(shí)體。

命名實(shí)體通常包括人名、地名、組織名等名詞,因此直觀地看,中文命名實(shí)體識(shí)別可以先對(duì)句子分詞,然后再給每個(gè)詞語(yǔ)分配對(duì)應(yīng)的標(biāo)簽[7],所以分詞作為中文自然語(yǔ)言處理的基本任務(wù),可以為識(shí)別實(shí)體邊界提供幫助。在中文NER任務(wù)中,為了更準(zhǔn)確地識(shí)別實(shí)體邊界,緩解字符嵌入帶來(lái)的語(yǔ)義表示不充分問(wèn)題,外部知識(shí)中的預(yù)訓(xùn)練詞典被許多研究者引入到模型中。

Zhang等[7]在探究詞序列的顯式利用過(guò)程中,提出了Lattice LSTM模型,該模型利用預(yù)訓(xùn)練的詞典,提取出序列中潛在的成詞單元,并將字符與對(duì)應(yīng)單元通過(guò)Lattice結(jié)構(gòu)融合,較好地緩解了實(shí)體識(shí)別中的邊界識(shí)別錯(cuò)誤。由于上述Lattice的方法較復(fù)雜,不利于GPU的并行計(jì)算,Li 等[8]提出了Flat-Lattice的方法,將Lattice結(jié)構(gòu)轉(zhuǎn)換為一系列的跨度組合,同時(shí)引入特定的位置編碼,并使用了Transformer的編碼器作為文本編碼層,在多個(gè)數(shù)據(jù)集上都有較好的識(shí)別性能。Sui等[9]提出了一種協(xié)作圖網(wǎng)絡(luò),利用三種不同的方式將字符和詞序列相結(jié)合,以此獲取不同的詞匯知識(shí)。

以上方法雖然探討了字表征和詞表征對(duì)命名實(shí)體識(shí)別的影響,但是仍然存在兩個(gè)難點(diǎn)。第一,上述方法沒(méi)有顯式地將模型內(nèi)部字符特征與對(duì)應(yīng)的所有N-gram特征相結(jié)合。第二,預(yù)訓(xùn)練詞典中的N-gram雖然包含潛在的成詞信息,但是存在較多的噪聲,對(duì)模型的性能會(huì)產(chǎn)生不利的影響。針對(duì)第一個(gè)問(wèn)題,本文設(shè)計(jì)了一種N-gram編碼器,其能夠有效地利用N-gram表征,提取其中潛在的成詞特征,然后將模型隱藏層輸出與對(duì)應(yīng)的N-gram表征進(jìn)行結(jié)合,從而顯式地利用詞典中的N-gram。針對(duì)第二個(gè)問(wèn)題,本文利用開(kāi)源的分詞工具和預(yù)訓(xùn)練詞向量,在模型輸入端引入了一種新的詞粒度表征,通過(guò)字、詞、N-gram的結(jié)合,降低了詞典噪聲對(duì)模型的影響。

綜上,現(xiàn)有的命名實(shí)體識(shí)別模型在輸入端大多使用字向量,本文分析了預(yù)訓(xùn)練詞典被應(yīng)用在NER任務(wù)時(shí)的優(yōu)缺點(diǎn),提出了一種基于多顆粒度文本表征的NE-Transformer模型。本文的貢獻(xiàn)如下:

(1) 本文首次在中文命名實(shí)體識(shí)別任務(wù)中聯(lián)合了三層不同顆粒度的文本表征。

(2) 本文提出了NE-Transformer模型(N-gram Enhanced Transformer),在模型輸入端融合了字向量和詞向量,并使用N-gram編碼器引入潛在的成詞信息,緩解了實(shí)體邊界識(shí)別錯(cuò)誤的問(wèn)題。

(3) 在多個(gè)數(shù)據(jù)集上的實(shí)驗(yàn)表明,NE-Transformer模型較Baseline模型有更突出的性能表現(xiàn)。

在接下來(lái)的內(nèi)容中,第1節(jié)介紹相關(guān)研究,第2節(jié)詳細(xì)介紹基于多顆粒度文本表征的命名實(shí)體識(shí)別模型,第3節(jié)對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行對(duì)比分析,最后一節(jié)是全文總結(jié)。

1 相關(guān)研究

早在1991年,就有學(xué)者研究了從金融新聞報(bào)道中自動(dòng)抽取公司名稱(chēng)的算法[10],該研究通常被認(rèn)為是命名實(shí)體識(shí)別研究的前身[11]。在1995年第六屆MUC會(huì)議中,NER作為一個(gè)明確的任務(wù)被提出[12]。隨后在NER各階段的發(fā)展歷程中,出現(xiàn)了不同的主流方法,包括傳統(tǒng)方法和基于深度學(xué)習(xí)的方法。

在傳統(tǒng)方法中,使用規(guī)則進(jìn)行NER的方法會(huì)消耗大量的時(shí)間和精力,且領(lǐng)域遷移性差?;跈C(jī)器學(xué)習(xí)的方法雖然摒棄了制定規(guī)則所需的繁瑣步驟,將NER統(tǒng)一作為序列標(biāo)注任務(wù)來(lái)完成,但需要大量已標(biāo)注好的訓(xùn)練數(shù)據(jù)并人為定義特征模板,然后通過(guò)實(shí)驗(yàn)進(jìn)行反復(fù)調(diào)整,同樣耗時(shí)耗力。因此,可以自動(dòng)學(xué)習(xí)出文本特征信息的深度神經(jīng)網(wǎng)絡(luò)方法在近年來(lái)取得不錯(cuò)的進(jìn)展。

將神經(jīng)網(wǎng)絡(luò)應(yīng)用到NER任務(wù)時(shí),需要在輸入端對(duì)詞語(yǔ)進(jìn)行編碼,因?yàn)樽址度朐谛阅苌弦獌?yōu)于詞嵌入[13],因此將字符向量作為模型的輸入是進(jìn)行NER任務(wù)的常規(guī)操作。Huang等[14]首次將雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)Bi-LSTM(Bidirectional Long Short-Term Memory)應(yīng)用到序列標(biāo)注任務(wù)中,有效提高了詞性標(biāo)注、實(shí)體識(shí)別的預(yù)測(cè)精度。隨后,Lample等[15]、Dong等[16]、Zhang等[17]在此基礎(chǔ)上展開(kāi)了一系列的研究。

然而,僅使用字符嵌入無(wú)法準(zhǔn)確地表示詞語(yǔ)邊界,在識(shí)別結(jié)果中存在由于邊界識(shí)別錯(cuò)誤而引發(fā)的問(wèn)題。為緩解這一現(xiàn)象,預(yù)訓(xùn)練的詞典被引入到了NER任務(wù)中。Zhang等[7]利用Lattice LSTM的結(jié)構(gòu),將與字相關(guān)的詞粒度信息融入模型中,實(shí)現(xiàn)了字詞信息的結(jié)合。Liu等[18]提出了Word-Character LSTM模型,將字詞信息結(jié)合的同時(shí),減少了字符間信息的傳遞,并設(shè)計(jì)了四種編碼策略來(lái)加速模型訓(xùn)練。Cao等[19]在進(jìn)行實(shí)體識(shí)別任務(wù)的同時(shí),引入了分詞任務(wù),采用對(duì)抗學(xué)習(xí)的方法將任務(wù)共享的信息融入到了中文NER內(nèi)。

雖然BiLSTM-CRF主流框架在命名實(shí)體識(shí)別領(lǐng)域被廣泛的研究,但是LSTM無(wú)法對(duì)一個(gè)位置同時(shí)關(guān)注其上下文的信息,加上長(zhǎng)距離的依賴(lài)關(guān)系也會(huì)隨著句子長(zhǎng)度的增加而逐漸被忽略,因此近年來(lái),Transformer架構(gòu)[20]開(kāi)始在NLP領(lǐng)域的多項(xiàng)任務(wù)中嶄露頭角,如文本生成[21-23]、機(jī)器翻譯[20]、預(yù)訓(xùn)練模型[24-26]等。由于傳統(tǒng)的Transformer并不十分適用于NER,因此Yan等[27]提出了一種改進(jìn)的Transformer結(jié)構(gòu),引入了定向的相對(duì)位置編碼,同時(shí)可以捕獲不同字符間的距離信息,使Transformer能夠更準(zhǔn)確地識(shí)別命名實(shí)體。Li等[8]克服了Lattice LSTM模型無(wú)法充分利用GPU并行計(jì)算的問(wèn)題,將Lattice轉(zhuǎn)化為體現(xiàn)詞語(yǔ)長(zhǎng)度的平面結(jié)構(gòu),并提出了四種位置編碼,在NER任務(wù)中取得了不錯(cuò)的成績(jī)。此外,Nie等[28]提出了SANER模型,針對(duì)非正式文本,在TENER模型的基礎(chǔ)上,結(jié)合預(yù)訓(xùn)練的詞典,引入字符的相似詞,設(shè)計(jì)了一種語(yǔ)義增強(qiáng)模塊,在非正式文本領(lǐng)域發(fā)揮了高性能的表現(xiàn)。

由于中文命名實(shí)體識(shí)別仍然存在實(shí)體邊界識(shí)別錯(cuò)誤的問(wèn)題,因此本文在SANER模型的基礎(chǔ)上,將輸入文本的字、詞表征進(jìn)行組合,并在Transformer中引入N-gram編碼器,將N-gram中的潛在詞信息融入模型主干,從而更準(zhǔn)確地識(shí)別實(shí)體邊界。

2 基于多顆粒度文本表征的Transformer命名實(shí)體識(shí)別框架

本節(jié)描述了提出的基于多顆粒度文本表征的命名實(shí)體識(shí)別模型,其結(jié)構(gòu)如圖1所示,其包含三個(gè)模塊: ①向量表示模塊,使用低維稠密的字向量和詞向量表示每個(gè)字符蘊(yùn)含的特征,使用隨機(jī)初始化的方法創(chuàng)建N-gram向量; ②文本編碼層,捕獲字符的上下文信息,并使用N-gram編碼器引入潛在詞語(yǔ)信息,為模型主干補(bǔ)充潛在詞語(yǔ)特征; ③CRF解碼層,使用CRF作為模型的解碼器。

圖1 NE-Transformer模型圖

2.1 向量表示模塊

分布式詞向量表征是當(dāng)前神經(jīng)網(wǎng)絡(luò)方法中常用的一種對(duì)字符進(jìn)行編碼的選擇。與高維稀疏的獨(dú)熱向量相比,低維稠密分布式詞向量的每個(gè)維度表示一個(gè)潛在的特征,由于分布式表示可自動(dòng)在文本中進(jìn)行學(xué)習(xí),因此其能夠捕獲詞語(yǔ)的語(yǔ)義和語(yǔ)法特征[29]。此外,由于實(shí)體識(shí)別跟分詞任務(wù)關(guān)系密切,本文通過(guò)引入詞向量和N-gram向量來(lái)豐富字符編碼的表示。

2.1.1 字向量

當(dāng)命名實(shí)體識(shí)別被視為序列標(biāo)注任務(wù)時(shí),常使用字向量對(duì)文本編碼。針對(duì)一句話(huà)X={x1,x2,…,xn},n表示輸入序列的長(zhǎng)度,第i個(gè)字符的字向量表示如式(1)所示。

(1)

2.1.2 詞向量

雖然使用字符編碼的方式不再要求對(duì)文本分詞,但是單一字符在一定程度上缺乏詞的語(yǔ)義信息,無(wú)法體現(xiàn)詞語(yǔ)的特點(diǎn),因此本文引入了詞向量作為對(duì)字向量的補(bǔ)充。在現(xiàn)有方法中,一般先利用Word2Vec[31]等工具生成預(yù)訓(xùn)練的詞典,然后在詞典中抽取存在的Bi-gram與字符向量拼接,作為模型的輸入。與該方法不同,本文利用Tian等[32]發(fā)布的分詞系統(tǒng)WMSeg,先對(duì)數(shù)據(jù)集中的句子進(jìn)行分詞,然后在騰訊詞向量[33]中提取對(duì)應(yīng)的向量作為與字符對(duì)應(yīng)的詞向量,使用該分詞系統(tǒng)的原因是其在中文分詞任務(wù)中表現(xiàn)出了十分優(yōu)越的性能。在X中,第i個(gè)字符對(duì)應(yīng)的詞向量如式(3)所示。

2.1.3N-gram向量

N-gram作為一種外部知識(shí)類(lèi)型,對(duì)中文分詞、詞性標(biāo)注等序列標(biāo)注任務(wù)有正面影響[25-26,34]。

由于N-gram可以為模型提供潛在的構(gòu)詞特征,因此本文除了使用預(yù)訓(xùn)練的字向量和詞向量,還使用隨機(jī)初始化的方式為每個(gè)N-gram分配了一個(gè)向量,如式(4)、式(5)所示。

2.1.4 模型輸入

在NLP任務(wù)中,獲得高質(zhì)量的文本特征表示是模型取得高性能表現(xiàn)的關(guān)鍵[35],因此模型的輸入采用了字向量和詞向量的拼接,第i個(gè)字符的最終向量表示如式(6)所示,當(dāng)預(yù)訓(xùn)練的詞典中不包含當(dāng)前使用的字向量或詞向量時(shí),模型會(huì)使用均勻分布的方法來(lái)隨機(jī)初始化一個(gè)字向量或詞向量。輸入句子的矩陣表示如式(7)所示。

2.2 文本編碼層

由于傳統(tǒng)的Transformer不能很好地適用于命名實(shí)體識(shí)別任務(wù),因此本文在文本編碼層使用了改進(jìn)的Transformer編碼器——TENER[27],并添加了語(yǔ)義增強(qiáng)模塊[28]。為了進(jìn)一步緩解實(shí)體邊界模糊的問(wèn)題,本文在模型主干外引入了N-gram編碼器,以此提取N-gram中潛在的成詞信息。本節(jié)介紹了模型主干和N-gram編碼器的相關(guān)內(nèi)容。

2.2.1 語(yǔ)義增強(qiáng)的Transformer

由于在非正式文本中,存在數(shù)據(jù)稀疏問(wèn)題,所以其中的命名實(shí)體個(gè)數(shù)很少,常常在幾句話(huà)中才會(huì)出現(xiàn)一個(gè)符合要求的命名實(shí)體。Nie等[28]提出了一種語(yǔ)義增強(qiáng)的模型SANER,利用改進(jìn)的Transformer編碼器TENER和字符的相似字,豐富了非正式文本中字符的語(yǔ)義信息。由于該模型能夠充分挖掘字符語(yǔ)義信息,因此本文使用SANER模型作為模型主干和基線(xiàn)。

改進(jìn)的Transformer編碼器通過(guò)在多頭注意力(Multi-Head Attention)中引入定向的相對(duì)位置編碼,明確了不同方向字符給當(dāng)前字符帶來(lái)的方向信息和距離信息,由式(8)來(lái)表示。

H=Adapted-Transformer(E)

(8)

其中,N={h1,h2,…,hi,…,hn}是對(duì)應(yīng)的隱藏層輸出。此外,在得到字符i的相似字Ci={ci,1,,ci,2,…,ci,j,…,ci,s}后,通過(guò)式(9)、式(10)計(jì)算每個(gè)相似字對(duì)第i個(gè)字符的注意力得分,并加權(quán)求和。

其中,ei,j表示第i個(gè)字符對(duì)應(yīng)的第j個(gè)相似字的編碼。

最后通過(guò)門(mén)控機(jī)制來(lái)平衡特征提取模塊和語(yǔ)義增強(qiáng)模塊的信息,如式(11)、式(12)所示,W1,W2都是可學(xué)習(xí)的參數(shù)矩陣,oi表示門(mén)控單元的最終輸出向量。

2.2.2N-gram編碼器

受Diao等[25]的啟發(fā),本文增添了N-gram的編碼信息來(lái)引入潛在詞語(yǔ)語(yǔ)義,從而提升模型效果。為了更充分地挖掘句子中N-gram的潛在成詞信息,并與模型主干相匹配,本文使用了具有L層的N-gram編碼器來(lái)提取N-gram的特征表示,并使之與模型中字符的隱藏層向量相結(jié)合。

為了建模N-gram之間的依賴(lài)關(guān)系,提取N-gram潛在特征,同時(shí)能夠與模型主干的子層相對(duì)應(yīng),我們選擇了Transformer的編碼端作為N-gram編碼器,由于模型不關(guān)注各N-gram的位置,所以在N-gram編碼器中沒(méi)有添加位置編碼,只使用了傳統(tǒng)的多頭注意力計(jì)算得分,計(jì)算過(guò)程如式(13)、式(14)所示。

其中,G(l)表示N-gram編碼器在第l層的輸入,當(dāng)l等于1時(shí),G(l)等于Engram,此外,Wq,Wk,Wv是可訓(xùn)練的參數(shù)矩陣。之后,我們將注意力得分送入層歸一化和前饋神經(jīng)網(wǎng)絡(luò)中進(jìn)行運(yùn)算,得到第l層的輸出,計(jì)算過(guò)程用式(17)代替。

2.3 CRF解碼層

(19)

其中,Wc和bc是計(jì)算標(biāo)簽yi-1到y(tǒng)i轉(zhuǎn)移得分的可學(xué)習(xí)參數(shù),L是所有標(biāo)簽的集合。

3 實(shí)驗(yàn)與分析

3.1 實(shí)驗(yàn)數(shù)據(jù)

本文采用了Peng等[37]發(fā)布的Weibo NER數(shù)據(jù)集,Zhang等[7]發(fā)布的Resume數(shù)據(jù)集以及Weischedel等[38]公布的OntoNotes4數(shù)據(jù)集,三種數(shù)據(jù)集都采用BIOES標(biāo)注方案[15],各數(shù)據(jù)集的詳細(xì)情況如表1所示。

表1 數(shù)據(jù)集詳細(xì)介紹

Weibo數(shù)據(jù)集屬于社交媒體領(lǐng)域,包含4種實(shí)體類(lèi)別: 人名(PER)、機(jī)構(gòu)(ORG)、地點(diǎn)(LOC)和地理政治(GPE),共28個(gè)標(biāo)簽。

Resume數(shù)據(jù)集屬于中文簡(jiǎn)歷領(lǐng)域,包含8種實(shí)體標(biāo)簽: 人名(NAME)、機(jī)構(gòu)(ORG)、地點(diǎn)(LOC)、職業(yè)名稱(chēng)(TITLE)、教育組織(EDU)、國(guó)家(CONT)、專(zhuān)業(yè)(PRO)、種族(RACE),共28個(gè)標(biāo)簽。

OntoNotes4數(shù)據(jù)集屬于新聞?lì)I(lǐng)域,包含四種實(shí)體類(lèi)別: 人名(PER)、機(jī)構(gòu)(ORG)、地點(diǎn)(LOC)和地理政治(GPE),共17個(gè)標(biāo)簽。

3.2 實(shí)驗(yàn)參數(shù)設(shè)置

本文實(shí)驗(yàn)采用PyTorch1.4框架,使用的預(yù)訓(xùn)練詞向量包括Giga[7]、騰訊詞向量[33]和BERT[24]。此外,本文還使用了表2的參數(shù)對(duì)模型進(jìn)行了微調(diào),最后利用在驗(yàn)證集上性能表現(xiàn)最好的模型對(duì)測(cè)試集進(jìn)行評(píng)估。在超參數(shù)中,Transformer編碼器的多頭注意力頭數(shù)變化集合為{4,8,12},編碼器子層的數(shù)量集合為{1,2,4},編碼器輸出的隱藏層向量長(zhǎng)度為[64,128,256],MaxN-gram length表示模型采用的N-gram最大長(zhǎng)度,設(shè)為5。

表2 模型超參數(shù)設(shè)置

3.3 實(shí)驗(yàn)與分析

本文使用標(biāo)準(zhǔn)的精確率P(Precision)、召回率R(Recall)、F1值作為模型的評(píng)價(jià)指標(biāo)。

3.3.1 整體模型對(duì)比

表3~5分別列出了下述各模型在3個(gè)數(shù)據(jù)集上有關(guān)精確率P、召回率R、F1值的對(duì)比結(jié)果。

對(duì)比模型除了上文提到的Lattice LSTM[7]、TENER[27]、Flat[8]、協(xié)作圖網(wǎng)絡(luò)[9]、BERT[24]、SANER[28],還包括Zhu等[39]提出的CAN-NER模型,該模型首次將CNN與局部注意力機(jī)制結(jié)合起來(lái),以增強(qiáng)模型捕獲字符序列之間局部上下文關(guān)系的能力;Meng等[40]提出的Glyce,該方法引入了中文字形信息,在多項(xiàng)NLP任務(wù)中表現(xiàn)出了良好的性能;Nie等[30]提出的AESINER模型,用鍵值對(duì)記憶網(wǎng)絡(luò)將句法知識(shí)融入模型主干;以及Diao等[25]提出的中文預(yù)訓(xùn)練模型ZEN,Song等[26]提出的ZEN2等。

綜合表3~5可知,本文提出的NE-Transformer模型在Weibo、Resume、OntoNotes4上的F1值分別達(dá)到了72.41%,96.52%,82.83%,其中在Weibo數(shù)據(jù)集上的性能提升最大,這是由于Weibo語(yǔ)料屬于社交媒體領(lǐng)域,文本格式不規(guī)范,并且文本中的詞匯邊界相較于其他領(lǐng)域更加模糊,因此詞粒度信息的融入使得字符的編碼特征蘊(yùn)含更豐富的語(yǔ)義信息,從而更容易獲得較高的性能。此外,由于現(xiàn)有模型[30,40]在Resume數(shù)據(jù)集上已經(jīng)達(dá)到了較高的得分,故而本文模型在該數(shù)據(jù)集上與上述模型性能相當(dāng)。

表3 Weibo數(shù)據(jù)集實(shí)體識(shí)別實(shí)驗(yàn)結(jié)果

表4 Resume數(shù)據(jù)集實(shí)體識(shí)別實(shí)驗(yàn)結(jié)果

表5 OntoNotes4數(shù)據(jù)集實(shí)體識(shí)別實(shí)驗(yàn)結(jié)果

3.3.2 實(shí)驗(yàn)結(jié)果與分析

為了研究改進(jìn)方案的有效性,本文對(duì)三種數(shù)據(jù)集進(jìn)行了對(duì)比實(shí)驗(yàn),結(jié)果如表6所示,表格中的Y和N分別代表使用或者不使用對(duì)應(yīng)的外部知識(shí)。

表6 融入詞表征和N-gram表征的F1值結(jié)果對(duì)比

表6的第一行為baseline,模型輸入部分只使用字向量,文本編碼層不使用N-gram編碼器,第二行在baseline的基礎(chǔ)上加入了N-gram編碼器,第三行在baseline的基礎(chǔ)上加入了詞向量,第四行同時(shí)引入了詞向量和N-gram編碼器。

由表6可以看出,添加詞向量和N-gram編碼器的三種方案相較于baseline都有一定的性能提升,其中baseline即未添加詞向量和N-gram編碼器的模型。而僅添加N-gram編碼器時(shí),Weibo語(yǔ)料的F1值下降了0.1%,導(dǎo)致這種現(xiàn)象出現(xiàn)的原因可能是Weibo語(yǔ)料中存在的實(shí)體較少,而模型學(xué)習(xí)到了較多的N-gram噪聲,使得模型性能下降。值得注意的是,雖然僅添加N-gram編碼器對(duì)模型性能的影響不明顯,但是將詞與N-gram特征結(jié)合后,模型性能得到了較大的提升,在Weibo、Resume、OntoNotes4數(shù)據(jù)集上F1值分別提高了1.25%、0.32%、0.44%,這可能是因?yàn)榧尤朐~向量之后,減少了N-gram噪聲對(duì)模型的影響,使得模型能夠更準(zhǔn)確地識(shí)別實(shí)體邊界。

同時(shí),添加詞向量與添加N-gram編碼器對(duì)不同領(lǐng)域的數(shù)據(jù)集產(chǎn)生了不同的影響,在社交媒體領(lǐng)域,詞向量比N-gram編碼器的作用更大,提高了0.58%;而在新聞?lì)I(lǐng)域,即OntoNotes4數(shù)據(jù)集,N-gram 編碼器為模型帶來(lái)了更好的性能,提升了0.13%。

為了進(jìn)一步分析詞向量和N-gram編碼器的效果,表7統(tǒng)計(jì)了詞向量和不同N-gram數(shù)量對(duì)模型的影響,包括精確率P、召回率R和F1值。

通過(guò)表7可以看出,在NE-Transformer中,隨著N-gram長(zhǎng)度的增加,模型的F1也得到了不同程度的提升,并且當(dāng)N-gram長(zhǎng)度為4時(shí),三個(gè)數(shù)據(jù)集上的F1達(dá)到最優(yōu),與僅添加詞向量的模型(baseline加詞向量)相比,F(xiàn)1值分別提高了0.67%,0.20%,0.41%,這表明不同長(zhǎng)度的N-gram對(duì)模型都有正面的效果,但是超過(guò)一定的界限(即N-gram長(zhǎng)度為4)時(shí),反而會(huì)使得模型學(xué)習(xí)到不必要的噪聲,使得模型F1值出現(xiàn)了下降。

同樣值得注意的是,表7的結(jié)果表明詞、N-gram特征在不同的方面影響了模型性能。與baseline相比,添加詞特征后,在Weibo、Resume、OntoNotes4三個(gè)語(yǔ)料上的精確率P分別提升了3.21%、0.35%、1.85%,在此基礎(chǔ)上添加N-gram編碼器后,召回率得到了明顯的提升,產(chǎn)生這種結(jié)果的原因可能是詞、N-gram的加入彌補(bǔ)了單個(gè)字符缺失的詞語(yǔ)義信息,同時(shí)降低了N-gram噪聲對(duì)識(shí)別效果的影響,因此二者的結(jié)合進(jìn)一步提升了命名實(shí)體識(shí)別的效果。

表7 最大N-gram數(shù)量對(duì)三種數(shù)據(jù)集的影響

3.4 案例分析

為了驗(yàn)證NE-Transformer模型能夠識(shí)別出更多的實(shí)體,我們?cè)赪eibo數(shù)據(jù)集中選擇了兩個(gè)實(shí)例進(jìn)行分析。表8、表9列舉了在實(shí)驗(yàn)結(jié)果中出現(xiàn)的經(jīng)典案例。在兩個(gè)實(shí)例中,Baseline存在的問(wèn)題都是實(shí)體邊界錯(cuò)誤,案例1的句子為“好男人就是我”,其中的人物實(shí)體“男人”被識(shí)別為“好男人”。例2的句子為“爸爸媽媽想你們了”,其中的人物實(shí)體“爸爸”和“媽媽”被識(shí)別為一個(gè)實(shí)體,即“爸爸媽媽”。而通過(guò)NE-Transformer結(jié)合字、詞、N-gram的信息之后,兩個(gè)實(shí)例的實(shí)體邊界均得到了正確的識(shí)別。

表8 案例分析1

表9 案例分析2

由此可以看出,本文提出的NE-Transformer模型通過(guò)使用N-gram編碼器在模型內(nèi)部引入與字符相關(guān)的N-gram,同時(shí)在模型輸入端加入詞表征,能夠更準(zhǔn)確地識(shí)別實(shí)體邊界,并更加有效地建模上下文關(guān)系,從而達(dá)到更好的效果。

4 總結(jié)與展望

本文針對(duì)公開(kāi)的三種中文命名實(shí)體識(shí)別數(shù)據(jù)集,提出了一種基于多顆粒度文本表征的中文命名實(shí)體識(shí)別方法,首先使用分詞系統(tǒng)對(duì)語(yǔ)料分詞,在模型的輸入端將字、詞向量進(jìn)行融合,并隨機(jī)初始化了N-gram向量,豐富了字向量的語(yǔ)義表示。隨后,我們探索了預(yù)訓(xùn)練詞典在NER任務(wù)中所發(fā)揮的作用,并首次直接聯(lián)合了三層不同顆粒度的文本表征,包括字、詞、N-gram表征,同時(shí)設(shè)計(jì)了一種有效的聯(lián)合方法,緩解了模型在訓(xùn)練過(guò)程中遇到的實(shí)體邊界模糊問(wèn)題。在三種數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,本文模型較baseline可以更好地識(shí)別句子中的命名實(shí)體,并在社交媒體語(yǔ)料中取得了目前最好的效果。未來(lái)可以考慮將NE-Transformer模型應(yīng)用到其他序列標(biāo)注任務(wù)中,并探索N-gram的其他使用方式對(duì)命名實(shí)體識(shí)別的影響。

猜你喜歡
分詞字符編碼器
尋找更強(qiáng)的字符映射管理器
字符代表幾
一種USB接口字符液晶控制器設(shè)計(jì)
電子制作(2019年19期)2019-11-23 08:41:50
結(jié)巴分詞在詞云中的應(yīng)用
消失的殖民村莊和神秘字符
基于FPGA的同步機(jī)軸角編碼器
基于PRBS檢測(cè)的8B/IOB編碼器設(shè)計(jì)
值得重視的分詞的特殊用法
JESD204B接口協(xié)議中的8B10B編碼器設(shè)計(jì)
電子器件(2015年5期)2015-12-29 08:42:24
多總線(xiàn)式光電編碼器的設(shè)計(jì)與應(yīng)用
贞丰县| 清水河县| 晋宁县| 潜山县| 惠来县| 长宁区| 梅河口市| 巴塘县| 鹤壁市| 盖州市| 晴隆县| 靖宇县| 曲水县| 桐柏县| 米林县| 曲阳县| 开江县| 财经| 连江县| 屯昌县| 平塘县| 武威市| 昆明市| 江华| 两当县| 杂多县| 阳城县| 天津市| 平定县| 峨山| 彝良县| 云龙县| 陕西省| 彭州市| 杨浦区| 策勒县| 潜江市| 卓资县| 万年县| 新邵县| 田林县|