摘 要: 由于中文語(yǔ)言缺少顯式的分隔符,使得中文命名實(shí)體識(shí)別任務(wù)面臨缺少詞語(yǔ)邊界信息的難題. 為了解決這一問(wèn)題,現(xiàn)有的主流模型通過(guò)引入詞典來(lái)利用詞語(yǔ)邊界信息. 然而,詞典中的詞語(yǔ)信息只是根據(jù)字詞之間的匹配關(guān)系融入漢字表示中,忽視了句子信息對(duì)于詞語(yǔ)選擇的影響,與句子語(yǔ)義信息無(wú)關(guān)的詞語(yǔ)不可避免地引入到模型中,使模型感知錯(cuò)誤的詞語(yǔ)邊界信息. 為了減少無(wú)關(guān)詞語(yǔ)對(duì)于實(shí)體識(shí)別結(jié)果的影響,本文提出了一種新的中文命名實(shí)體識(shí)別方法ELKI,通過(guò)帶有句子語(yǔ)義信息的漢字上下文表示來(lái)增強(qiáng)詞典知識(shí)的融入,從而改善模型感知詞語(yǔ)邊界的精度. 具體地,本文設(shè)計(jì)了一種新型的交叉注意力網(wǎng)絡(luò)從詞典中挖掘與語(yǔ)義信息相關(guān)的詞語(yǔ)信息. 同時(shí),本文構(gòu)造了一種門(mén)控融合網(wǎng)絡(luò)來(lái)動(dòng)態(tài)地將詞典知識(shí)融入到漢字的上下文表示中. 在Resume、MSRA 和OntoNotes 三個(gè)基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明本文方法優(yōu)于其它的基線(xiàn)模型.
關(guān)鍵詞: 中文命名實(shí)體識(shí)別; 交叉注意力網(wǎng)絡(luò); 門(mén)控融合網(wǎng)絡(luò); 信息抽取
中圖分類(lèi)號(hào): TP391 文獻(xiàn)標(biāo)志碼: A DOI: 10. 19907/j. 0490-6756. 2024. 042001
1 引言
命名實(shí)體識(shí)別(Named Entity Recognition,NER)是自然語(yǔ)言處理(Natural Language Processing,NLP)領(lǐng)域的一項(xiàng)基本任務(wù),旨在定位句子中的實(shí)體并將這些實(shí)體劃分為預(yù)定義的類(lèi)別(如人名、地名和組織等). NER 是信息抽?。↖nformationExtraction, IE)任務(wù)的第一階段,在信息檢索、智能問(wèn)答以及其他NLP 下游任務(wù)中扮演了重要角色. 隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,現(xiàn)有的主流模型借助于神經(jīng)網(wǎng)絡(luò)模型的強(qiáng)大學(xué)習(xí)能力,極大提升了NER 系統(tǒng)的性能.
對(duì)于中文NER 任務(wù),由于句子中的詞語(yǔ)之間沒(méi)有任何的分隔符并且也沒(méi)有顯式的形態(tài)學(xué)標(biāo)記,這使得中文NER 面臨缺少詞語(yǔ)邊界信息的難題. 針對(duì)這一問(wèn)題,傳統(tǒng)的方法是先對(duì)句子進(jìn)行分詞操作,再使用基于詞語(yǔ)的序列標(biāo)注方法來(lái)預(yù)測(cè)每個(gè)詞語(yǔ)的實(shí)體類(lèi)型[1,2]. 然而,基于詞語(yǔ)的方法有時(shí)會(huì)對(duì)準(zhǔn)確識(shí)別實(shí)體產(chǎn)生負(fù)面作用. 具體地,分詞算法不可避免地會(huì)產(chǎn)生錯(cuò)誤分詞,從而在后續(xù)實(shí)體標(biāo)注中進(jìn)行錯(cuò)誤傳播,造成NER 系統(tǒng)輸出錯(cuò)誤的實(shí)體結(jié)果. 為了解決分詞算法帶來(lái)的錯(cuò)誤傳播問(wèn)題,一些學(xué)者開(kāi)始探索在基于漢字的方法中引入詞典知識(shí)來(lái)避免分詞算法產(chǎn)生的錯(cuò)誤. 然而,目前主流模型都是根據(jù)漢字與詞語(yǔ)之間的匹配關(guān)系來(lái)采取不同的策略將詞語(yǔ)信息整合到漢字表示中,但是同一漢字能夠存在于多個(gè)潛在詞語(yǔ)中,其中就會(huì)有與句子語(yǔ)義信息無(wú)關(guān)的詞語(yǔ),也被稱(chēng)為“歧義”詞語(yǔ). 如圖1 所示,與漢字“市”相關(guān)的潛在詞語(yǔ)包括“ 成都市”和“ 市長(zhǎng)”,而根據(jù)句子的語(yǔ)義信息,詞語(yǔ)“成都市”應(yīng)該被識(shí)別為地點(diǎn)實(shí)體,所以詞語(yǔ)“ 市長(zhǎng)”就是與句子語(yǔ)義信息無(wú)關(guān)的詞語(yǔ),從而會(huì)對(duì)漢字“市”的標(biāo)簽識(shí)別產(chǎn)生消極影響. 如何解決好“歧義”詞語(yǔ)的問(wèn)題也是中文NER 模型面臨的一大重要挑戰(zhàn).
準(zhǔn)確識(shí)別句子中實(shí)體的關(guān)鍵因素是增強(qiáng)屬于同一實(shí)體的漢字之間的聯(lián)系,漢字之間的局部范圍內(nèi)的聯(lián)系能夠幫助NER 模型更好地從詞典中學(xué)習(xí)與句子語(yǔ)義信息相關(guān)的詞語(yǔ)信息,即漢字級(jí)的上下文信息對(duì)于提升NER 系統(tǒng)具有顯著的影響.為了使模型能夠利用漢字級(jí)的上下文信息來(lái)更好地學(xué)習(xí)詞典知識(shí),我們借鑒了Xue 等[3]提出的多孔機(jī)制注意力方法,提出了一種基于漢字上下文信息增強(qiáng)詞典知識(shí)融入(Enhancing Lexicon KnowledgeIntegration Utilizing Character Context Information,ELKI)的新型中文NER 模型,命名為ELKI. 我們首先設(shè)計(jì)一種關(guān)系感知的字詞交叉注意力網(wǎng)絡(luò),將漢字的上下文表示作為查詢(xún)向量,借助字詞關(guān)系信息來(lái)增強(qiáng)模型學(xué)習(xí)語(yǔ)義相關(guān)詞語(yǔ)和排除語(yǔ)義無(wú)關(guān)詞語(yǔ)的能力. 之后,我們構(gòu)造了門(mén)控網(wǎng)絡(luò)來(lái)動(dòng)態(tài)調(diào)整每個(gè)漢字本身的上下文信息和與其所關(guān)聯(lián)的詞語(yǔ)知識(shí)信息的融合權(quán)重,從而能夠隱式地利用漢字之間的關(guān)聯(lián)信息.
2 相關(guān)工作
將詞典知識(shí)整合到基于漢字模型的策略已經(jīng)引起了眾多研究者的興趣,現(xiàn)有的主流方法可以被分為:基于注意力機(jī)制的方法、基于圖的方法和基于序列的方法3 類(lèi).
2. 1 基于注意力機(jī)制的方法
基于注意力機(jī)制的方法旨在設(shè)計(jì)一種新型的注意力網(wǎng)絡(luò)來(lái)從詞字格中學(xué)習(xí)詞語(yǔ)信息. Xue 等[3]提出了一種多孔機(jī)制的格感知自注意力方法,利用相鄰的漢字之間的局部依賴(lài)關(guān)系增強(qiáng)NER 系統(tǒng)的性能. Li 等[4]提出了FLAT 模型,在自注意力網(wǎng)絡(luò)中加入了4 種相對(duì)位置編碼來(lái)獲取詞字格中的各節(jié)點(diǎn)信息. 琚生根等[5]提出了關(guān)聯(lián)記憶網(wǎng)絡(luò)方法,利用注意力機(jī)制將訓(xùn)練集中相關(guān)句子的標(biāo)簽信息融入句子的漢字表示中. 基于注意力機(jī)制的方法直接利用詞字格來(lái)學(xué)習(xí)詞語(yǔ)信息,節(jié)省了字詞匹配處理所消耗的時(shí)間,并且根據(jù)注意力網(wǎng)絡(luò)的特性,這種方式能夠加快模型的訓(xùn)練速度. 但是,這一方法未能對(duì)漢字的潛在詞語(yǔ)進(jìn)行區(qū)分,可能導(dǎo)致模型學(xué)習(xí)錯(cuò)誤的實(shí)體信息.
2. 2 基于圖的方法
基于圖的模型是采用圖神經(jīng)網(wǎng)絡(luò)(Graph NeuralNetwork, GNN)來(lái)提高模型的性能. Ding 等[6]提出了多重連圖模型,將輸入序列和詞典信息一起建模,并使用門(mén)控圖神經(jīng)網(wǎng)絡(luò)(Gated GraphNeural Network, GGNN)來(lái)學(xué)習(xí)圖中的節(jié)點(diǎn)信息. Gui 等[7]根據(jù)中文詞典構(gòu)造了有向的詞字圖,之后采用聚合和更新操作使每個(gè)結(jié)點(diǎn)融合更多信息. Sui 等[8]提出了協(xié)作圖網(wǎng)絡(luò)(CollaborativeGraph Network, CGN),通過(guò)融合4 種不同詞字圖的圖注意力網(wǎng)絡(luò)得分來(lái)整合潛在的詞語(yǔ)信息. 這些方法先將詞字格結(jié)構(gòu)轉(zhuǎn)換為圖結(jié)構(gòu),之后再利用不同的圖神經(jīng)網(wǎng)絡(luò)方法學(xué)習(xí)詞典知識(shí). 然而,中文語(yǔ)言的序列特性對(duì)于NER 的結(jié)果非常重要,基于圖的結(jié)構(gòu)忽視了這一特性.
2. 3 基于序列的方法
基于序列的方法通過(guò)整合詞典知識(shí)來(lái)增強(qiáng)漢字的表示能力,之后再利用漢字級(jí)的序列標(biāo)注方法預(yù)測(cè)每個(gè)漢字的實(shí)體標(biāo)簽. Zhang 等[9]提出了基于格的LSTM 模型,在傳統(tǒng)的漢字級(jí)的LSTM 中添加額外的記憶單元來(lái)將詞語(yǔ)信息融入到構(gòu)成當(dāng)前詞語(yǔ)的最后1 個(gè)漢字表示中. Gui 等[10]提出了帶有反思機(jī)制的多層卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeural Network, CNN)架構(gòu)模型,通過(guò)反饋高層的特征來(lái)調(diào)整與漢字相關(guān)的各詞語(yǔ)信息之間的權(quán)重. Hu 等[11]在整合一階詞匯知識(shí)的基礎(chǔ)上進(jìn)一步引入了相鄰漢字的相關(guān)詞語(yǔ)信息,即將二階詞匯知識(shí)引入到漢字級(jí)的模型中,從而使?jié)h字能夠?qū)W習(xí)到更多的詞語(yǔ)信息. Ma 等[12]提出了SoftLexicon模型,根據(jù)“BMES”字詞關(guān)系模式將每個(gè)漢字相關(guān)的詞語(yǔ)劃分為4 個(gè)集合,將融合后的詞語(yǔ)集合連接到漢字表示中. Hu 等[13]將與漢字相關(guān)的詞語(yǔ)信息劃分為2 種類(lèi)型,并使用不同的融合策略來(lái)將詞語(yǔ)信息連接到漢字表示中. Zhang 等[14]提出了LSFCNER,利用靜態(tài)和動(dòng)態(tài)2 種權(quán)重來(lái)融合4 種詞語(yǔ)集合的信息,并利用語(yǔ)法信息來(lái)增強(qiáng)模型對(duì)于句子的理解能力. 胥小波等[15]提出了融合句法和多粒度語(yǔ)義信息的多特征NER 模型,在模型表示層引入詞典特征和句型特征,利用ON-LSTM 來(lái)增強(qiáng)漢字的表示能力. 盡管基于序列的方法需要對(duì)句子中的漢字以及潛在詞語(yǔ)花費(fèi)額外時(shí)間作預(yù)處理,但是這種方法可以有效地利用句子的序列特性來(lái)提高模型輸出結(jié)果的準(zhǔn)確性.
3 模型
本文旨在利用漢字的上下文信息和詞典知識(shí)來(lái)獲得更好的NER 性能. 漢字級(jí)上下文信息有助于學(xué)習(xí)算法更好地挖掘語(yǔ)義相關(guān)的詞語(yǔ)信息,并在小范圍內(nèi)準(zhǔn)確定位實(shí)體信息. 詞典知識(shí)則包含了豐富的潛在詞語(yǔ)信息,能夠使模型感知詞語(yǔ)邊界信息. 本文提出的ELKI 模型可以分為3 個(gè)模塊(包含輸入表示層、整合層和解碼層),模型的整體架構(gòu)如圖2 所示. 在輸入表示層,我們通過(guò)3 個(gè)嵌入查找表對(duì)句子生成的所有輸入數(shù)據(jù)進(jìn)行編碼.在整合層,我們?cè)O(shè)計(jì)了新型交叉注意力網(wǎng)絡(luò)來(lái)獲取每個(gè)漢字對(duì)應(yīng)的詞典知識(shí)表示,并構(gòu)建了門(mén)控網(wǎng)絡(luò)來(lái)融合每個(gè)漢字的詞典知識(shí)及其上下文信息表示. 在解碼層中,我們使用雙向門(mén)控循環(huán)單元(Bidirectional Gate Recurrent Unit, BiGRU)和條件隨機(jī)場(chǎng)(Conditional Random Field, CRF)來(lái)預(yù)測(cè)每個(gè)漢字的實(shí)體標(biāo)簽.
3. 1 輸入表示層
我們首先根據(jù)嵌入查找表將輸入句子生成的所有漢字、詞語(yǔ)和漢字-詞語(yǔ)關(guān)系映射為稠密向量,然后將漢字向量輸入到BiGRU 中,以獲得其上下文表示. 我們將輸入句子表示為s,其可以表示為1組漢字構(gòu)成的序列s = (c1,c2,…,cn ),其中ci 表示句子中的第i 個(gè)漢字. 每個(gè)漢字都由1 個(gè)稠密向量表示:
xci= ec (ci ), (1)
其中,e c 表示漢字嵌入查找表.
句子中的潛在詞語(yǔ)可以表示為{w1,w2,…,wm },其中每個(gè)詞語(yǔ)wk 是通過(guò)查詢(xún)?cè)~典D 獲得的. 每個(gè)詞語(yǔ)也可以表示為輸入句子s 的子序列. 例如,第k 個(gè)詞語(yǔ)的首部漢字為ci,尾部漢字為cj,則可以使用1 組連續(xù)的漢字序列{ cki,…,ckj} 來(lái)表示wk. 每個(gè)詞語(yǔ)也使用1 個(gè)稠密向量表示.
xwk= ew (wk ), (2)
其中,ew 表示詞語(yǔ)嵌入查找表.
漢字-詞語(yǔ)關(guān)系表由R ∈R n × m 表示,關(guān)系表中的每個(gè)元素都是根據(jù)漢字和詞語(yǔ)之間的組成或鄰接關(guān)系來(lái)確定. 表1 列出了關(guān)系表中各元素的詳細(xì)信息.
我們給出的例子如圖3 所示,漢字“市”與其他3 個(gè)詞語(yǔ)“市”、“成都市”和“市長(zhǎng)”存在組成關(guān)系,因此根據(jù)漢字“市”在這3 個(gè)詞語(yǔ)中的位置,其關(guān)系值分別被設(shè)置為“S”、“E”和“B”. 此外,漢字“ 市”與另外2 個(gè)詞語(yǔ)“成都”和“長(zhǎng)蘭路”存在鄰接關(guān)系,則關(guān)系值分為設(shè)置為“R”和“L”. 之后,關(guān)系表中的每個(gè)元素ri,j 也同樣被轉(zhuǎn)換為稠密向量.
xri,j = er (ri,j ), (3)
其中,er 是字詞關(guān)系嵌入查找表.
接下來(lái),我們使用BiGRU 獲取漢字的上下文表示. 漢字ci 在前向GRU 和后向GRU 的隱狀態(tài)分別表示為:
其中,h→ci- 1 和h←ci+ 1 分別是當(dāng)前位置的前1 個(gè)位置的隱狀態(tài)和后1 個(gè)位置的隱狀態(tài). 之后,每個(gè)漢字的上下文表示xctxi 被表示為前向隱狀態(tài)和后向隱狀態(tài)的連接xctxi =[ h→ci;h←ci].
3. 2 整合層
漢字的上下文信息隱式地包含了漢字在原始語(yǔ)句中的關(guān)聯(lián)度,這一信息對(duì)于命名實(shí)體識(shí)別系統(tǒng)學(xué)習(xí)詞典知識(shí)和定位實(shí)體大有幫助. 算法1 描述了ELKI 模型整合層的詳細(xì)處理流程.
3. 2. 1 交叉注意力網(wǎng)絡(luò)
交叉注意力網(wǎng)絡(luò)以漢字的上下文表示、詞語(yǔ)表示以及字詞關(guān)系表示作為輸入數(shù)據(jù),漢字的詞典融合表示作為輸出數(shù)據(jù).這一模塊的主要目的是使每個(gè)漢字通過(guò)其上下文表示信息自適應(yīng)地從潛在詞語(yǔ)中學(xué)習(xí)詞典知識(shí).每個(gè)漢字的詞典表示xli的計(jì)算方式為
xli= Concatenate ( xl1i ,xl2i ,…,xlHi ) (9)
其中,Qi 是第i 個(gè)漢字的查詢(xún)向量,Kj 和Vj 分別是第j 個(gè)詞語(yǔ)的鍵向量和值向量. Ri,j 是第i 個(gè)漢字和第j 個(gè)詞語(yǔ)之間的關(guān)系表示. 如果漢字與詞語(yǔ)之間的關(guān)系值為“N”,即漢字與詞語(yǔ)不存在組成或鄰接關(guān)系,那么交叉注意力網(wǎng)絡(luò)會(huì)掩蓋字詞間的注意力分?jǐn)?shù). Wq,Wk,Wr ∈ Rdmodel × d_head 為可訓(xùn)練的參數(shù),I 為單位矩陣,d_head 是多頭注意力網(wǎng)絡(luò)中每個(gè)頭的維度大小且dmodel = H × d_head. Q hi 是查詢(xún)向量Qi 的第h 頭的表示,K hj ,V hj 和Rhi,j也分別是多頭注意力網(wǎng)絡(luò)中各部分的第h 頭表示.
3. 2. 2 門(mén)控融合網(wǎng)絡(luò)
融合更多的詞典知識(shí)能夠使模型更好地感知詞語(yǔ)邊界信息,而融合更多的上下文信息能夠使非實(shí)體漢字減少與其他漢字的關(guān)聯(lián)程度. 基于此,我們?cè)O(shè)計(jì)了門(mén)控網(wǎng)絡(luò)為漢字的上下文表示和詞典表示分配不同的融合權(quán)重.每個(gè)漢字經(jīng)過(guò)門(mén)控網(wǎng)絡(luò)融合后的結(jié)果xfi 表示為
αi = σ (W gates xs + W gatel xli+ bgate ) (10)
xfi = αi xctxi + (1 - αi ) xli(11)
其中xs =1nΣi = 1n xctxi 表示句子的語(yǔ)義信息. σ 是sigmoid 函數(shù),α 是由門(mén)控網(wǎng)絡(luò)計(jì)算得到的融合權(quán)重. W gates ,W gatel 和bgate 均為可訓(xùn)練的參數(shù).
3. 2. 3 輸出網(wǎng)絡(luò)
在整合層的輸出部分,我們使用單層全連接神經(jīng)網(wǎng)絡(luò)來(lái)處理門(mén)控網(wǎng)絡(luò)的輸出數(shù)據(jù). 每個(gè)漢字在整合層模塊的輸出xoi可以表示為
xoi = LayerNorm (max (0,Wo xfi + bo ) ) (12)
Wo 和bo 均為線(xiàn)性變換中可訓(xùn)練的參數(shù).
3. 3 解碼層
解碼層將整合層的輸出經(jīng)過(guò)BiGRU 處理后輸入CRF 中預(yù)測(cè)每個(gè)漢字的實(shí)體標(biāo)簽. 由前向和后向GRU 的隱狀態(tài)連接后的表示{ hoi=[ hoi;hoi] }ni= 1作為輸入序列的標(biāo)簽特征. 之后,使用CRF 模型處理這些標(biāo)簽特征. 對(duì)于輸入序列s,其標(biāo)簽序列y = { y1,y2,…,yn } 的概率輸出可以表示為
其中,y'表示所有潛在的標(biāo)簽序列;W CRFyi' 表示與yi相關(guān)的參數(shù)矩陣;bCRF ( yi- 1,yi ) 是標(biāo)簽yi - 1 到標(biāo)簽yi 的轉(zhuǎn)移得分. 在預(yù)測(cè)實(shí)體標(biāo)簽時(shí),本文使用維特比(Viterbi)算法來(lái)尋找輸入序列s 的具有最高條件概率的標(biāo)簽序列y?.
y? = argmaxyP ( y|s) (14)
4 實(shí)驗(yàn)
4. 1 數(shù)據(jù)集和評(píng)價(jià)指標(biāo)
本文提出的ELKI 模型在Resume[9]、MSRA[16]和OntoNotes 3 個(gè)中文命名實(shí)體識(shí)別基準(zhǔn)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn). Resume 數(shù)據(jù)集由從新浪財(cái)經(jīng)獲取的大量中國(guó)股市高管的簡(jiǎn)歷信息構(gòu)成,共含有8 種命名實(shí)體類(lèi)型. MSRA 數(shù)據(jù)集的內(nèi)容來(lái)源于新聞?lì)I(lǐng)域,共包含4 種類(lèi)型的命名實(shí)體. OntoNotes 數(shù)據(jù)集是由康奈爾大學(xué)、賓夕法尼亞大學(xué)和《紐約時(shí)報(bào)》合作創(chuàng)建和維護(hù)的大型語(yǔ)義注釋數(shù)據(jù)集,主要來(lái)自新聞?lì)I(lǐng)域. 3 個(gè)數(shù)據(jù)集的詳細(xì)統(tǒng)計(jì)數(shù)據(jù)如表2 所示. 本次實(shí)驗(yàn)采用的評(píng)價(jià)指標(biāo)分別是準(zhǔn)確率(Precision,P)、召回率(Recall, R)和F1 值(F1-score, F1).
4. 2 實(shí)驗(yàn)設(shè)置
ELKI 模型的實(shí)驗(yàn)環(huán)境詳情和各模塊的實(shí)驗(yàn)參數(shù)設(shè)置分別如表3 和表4 所示.對(duì)于嵌入信息,漢字和詞語(yǔ)的預(yù)訓(xùn)練嵌入向量與Zhang 等[9]一致,字詞間的關(guān)系嵌入向量通過(guò)隨機(jī)初始化的方式獲取.
4. 3 基線(xiàn)模型
本文選擇以下模型作為基線(xiàn)模型:(1) Lattice-LSTM[9]:該模型設(shè)計(jì)了一種基于詞字格結(jié)構(gòu)的LSTM 網(wǎng)絡(luò),通過(guò)為詞語(yǔ)的尾部漢字添加額外的詞語(yǔ)單元將詞典信息整合到漢字表示中;(2) LRCNN[10]:該模型是一種多層卷積神經(jīng)網(wǎng)絡(luò)架構(gòu)模型,通過(guò)反饋高層的特征精煉詞語(yǔ)的權(quán)重;(3) LGN[7]:該模型使用圖神經(jīng)網(wǎng)絡(luò)方法來(lái)整合詞語(yǔ)信息;(4) PLTE[3]:該模型提出了一種格感知的注意力網(wǎng)絡(luò)編碼器來(lái)捕獲詞字格中節(jié)點(diǎn)間的依賴(lài)信息;(5) SoftLexicon[12]:該模型根據(jù)字詞之間的匹配關(guān)系將與漢字相關(guān)的詞語(yǔ)分為4 個(gè)集合,采用不同的權(quán)重來(lái)融合4 種詞語(yǔ)集合的信息;(6) HLEA[13]:該模型將與漢字相關(guān)的詞語(yǔ)劃分為2 類(lèi),選擇不同的融合權(quán)重來(lái)整合這2 類(lèi)詞語(yǔ)信息;(7) LSFCNER[14]:該模型是融合了詞匯信息和句法信息的漢字級(jí)中文命名實(shí)體識(shí)別模型;(8) BERT[17]:該模型是一種預(yù)訓(xùn)練的語(yǔ)言表示模型,成功地使11 個(gè)NLP 任務(wù)取得了極大的提升.
4. 4 實(shí)驗(yàn)結(jié)果
表5 描述了本文提出的ELKI 模型與其他基線(xiàn)模型的對(duì)比結(jié)果. 從表5 可以得出ELKI 優(yōu)于其他的基線(xiàn)模型. 具體來(lái)說(shuō),ELKI 與PLTE 相比,F(xiàn)1值在3 個(gè)數(shù)據(jù)集上分別提升了0. 44%、0. 61% 和1. 33%. 對(duì)于其他的基于序列的模型,在Resume數(shù)據(jù)集,ELKI 與SoftLexicon、HLEA 和LSFCNER相比分別提升了0. 35%、0. 22% 和0. 26%;在MSRA 數(shù)據(jù)集,ELKI 也分別提升了0. 21%、0. 28% 和0. 52%;對(duì)于OntoNotes 數(shù)據(jù)集,ELKI相對(duì)于SoftLexicon 和PLTE 分別提升了0. 29%和1. 33%. 表5 的結(jié)果表明,ELKI 模型獲得了較高的性能提升,ELKI 學(xué)習(xí)詞典知識(shí)具體極大優(yōu)勢(shì).
為了進(jìn)一步驗(yàn)證ELKI 結(jié)合高級(jí)預(yù)訓(xùn)練模型的性能表現(xiàn),本文選取了一些結(jié)合BERT 的基線(xiàn)模型進(jìn)行實(shí)驗(yàn)對(duì)比,得到的實(shí)驗(yàn)結(jié)果由表6 所描述. 在本次實(shí)驗(yàn)中,本文將BERT 模型最后一層輸出的漢字隱狀態(tài)整合到ELKI 模型的解碼層中,與ELKI 整合層的輸出做連接后在經(jīng)由解碼層處理.從表6 的數(shù)據(jù)可以推斷出,對(duì)于MSRA 數(shù)據(jù)集,ELKI(BERT)在實(shí)驗(yàn)中取得的F1 值與PLTE(BERT)和SoftLexicon(BERT)相比分別提升了1. 26% 和0. 37%;對(duì)于Resume 數(shù)據(jù)集,ELKI(BERT)分別提升了0. 14% 和0. 28%;對(duì)于OntoNotes數(shù)據(jù)集,ELKI(BERT)相比于PLTE(BERT)提升了0. 84%,但比SoftLexicon(BERT)低了1. 37%. 產(chǎn)生這一結(jié)果的原因是OntoNotes數(shù)據(jù)集中有多個(gè)長(zhǎng)句,為了讓機(jī)器進(jìn)行處理,我們必須對(duì)這些句子進(jìn)行分段,這導(dǎo)致BERT 無(wú)法完全感知句子的完整語(yǔ)義信息,從而影響ELKI 的性能.
4. 5 實(shí)驗(yàn)分析
4. 5. 1 消融實(shí)驗(yàn)分析
為了進(jìn)一步驗(yàn)證ELKI 引入的字詞關(guān)系表示和門(mén)控融合模塊的性能表現(xiàn),本文進(jìn)行消融實(shí)驗(yàn)來(lái)進(jìn)行闡述. 具體地,兩組消融實(shí)驗(yàn)的設(shè)置如下:
(1) -w/o char-word relation:這組消融實(shí)驗(yàn)的目的是驗(yàn)證字詞關(guān)系表示的有效性,基于此,本組消融實(shí)驗(yàn)中不會(huì)將字詞關(guān)系表加入交叉注意力網(wǎng)絡(luò)中;
(2) -w/o gate fusion:這組消融實(shí)驗(yàn)是用于驗(yàn)證門(mén)控融合模塊對(duì)模型性能的提升,因此,本組實(shí)驗(yàn)刪除該模塊而采用連接操作xfi =[ xctxi ;xli].
消融實(shí)驗(yàn)結(jié)果如表7 所示. 從表7 結(jié)果可以得出:(1) 模型性能的下降充分證明了兩個(gè)模塊的有效性;(2) 在消融實(shí)驗(yàn)(1)中獲得的F1 值分別比ELKI 低0. 4%、0. 55% 和1. 33%,這驗(yàn)證了字詞間的關(guān)系可以幫助模型更好地捕捉詞典信息;(3) 在消融實(shí)驗(yàn)(2)中獲得的F1 值分別比ELKI 低0. 89%、0. 09% 和0. 35%,這表明門(mén)控融合模塊能夠有效地利用漢字之間的相關(guān)性.
綜上,字詞關(guān)系表示為挖掘漢字的詞典知識(shí)提供了很大的幫助,使得漢字能夠更好地感知語(yǔ)義相關(guān)的詞語(yǔ)信息;門(mén)控融合網(wǎng)絡(luò)可以動(dòng)態(tài)控制漢字上下文信息和詞典知識(shí)信息的融合權(quán)重,使NER 模型能夠更好地區(qū)分不同的實(shí)體.
4. 5. 2 注意力分析
圖4 描述了由交叉注意力網(wǎng)絡(luò)計(jì)算得到的注意力得分熱力圖,從數(shù)據(jù)中可以分析出句子中的每個(gè)漢字能夠依據(jù)字詞關(guān)系表為合適的詞語(yǔ)分配更高的分?jǐn)?shù). 這進(jìn)一步驗(yàn)證了ELKI 所提出的交叉注意力網(wǎng)絡(luò)模塊能夠極大地提升模型整合詞典知識(shí)的能力,并且在這種方式下漢字的上下文信息也能夠很好地幫助每個(gè)漢字挖掘詞語(yǔ)信息.
為了進(jìn)一步探索模型超參數(shù)中注意力頭數(shù)對(duì)于模型性能的影響,本文繼續(xù)設(shè)置了如下實(shí)驗(yàn):將注意力頭數(shù)分別取值為4、8 和16 用于對(duì)比,詳細(xì)的實(shí)驗(yàn)結(jié)果呈現(xiàn)于圖5. 由此可以推斷出當(dāng)注意力頭數(shù)為8 時(shí),交叉注意力網(wǎng)絡(luò)能夠更有效地利用漢字的上下文信息從詞典知識(shí)中挖掘有用的詞語(yǔ)信息.
4. 5. 3 字詞關(guān)系模式分析
在本文提出的ELKI模型的交叉注意力網(wǎng)絡(luò)模塊中漢字與詞語(yǔ)之間采用“BMESRL”關(guān)系模式進(jìn)行匹配,通過(guò)引入新的字詞關(guān)系“R”和“L”來(lái)降低“歧義”詞語(yǔ)對(duì)于模型性能的消極影響. 為了驗(yàn)證在傳統(tǒng)的“BMES”關(guān)系模式的基礎(chǔ)上增加的2 種新型字詞關(guān)系對(duì)與模型性能的提升,本文根據(jù)不同的關(guān)系模式設(shè)置了一組對(duì)比實(shí)驗(yàn),具體結(jié)果由表8 所示. ELKI 所采用的“BMESRL”關(guān)系模式的優(yōu)勢(shì)在于能夠消除“歧義”詞語(yǔ)對(duì)于模型學(xué)習(xí)詞典知識(shí)的影響. 如圖3 所示,詞語(yǔ)“市長(zhǎng)”是漢字“市”的相關(guān)詞語(yǔ)并且它們之間的關(guān)系值根據(jù)字詞之間的匹配原則設(shè)置為“B”. 然而,漢字“ 市”應(yīng)該屬于實(shí)體詞語(yǔ)“ 成都市”且應(yīng)與詞語(yǔ)“ 市長(zhǎng)”無(wú)任何信息關(guān)聯(lián),所以漢字“ 市”與詞語(yǔ)“市長(zhǎng)”之間的關(guān)系值“B”會(huì)對(duì)實(shí)體預(yù)測(cè)產(chǎn)生消極的影響. 當(dāng)采用“BMESRL”關(guān)系模式時(shí),另一個(gè)詞語(yǔ)“長(zhǎng)蘭路”是漢字“市”的右鄰接且包含漢字“長(zhǎng)”,因此可以將它們之間的關(guān)系值設(shè)置為“L”,這樣便能夠降低“ 歧義”詞語(yǔ)帶來(lái)的干擾. 表8 的數(shù)據(jù)也充分顯示了“BMESRL”可以使模型擁有更好的性能表現(xiàn).
5 結(jié)論
本文提出了一種新的中文命名實(shí)體識(shí)別模型ELKI,該模型旨在利用漢字的上下文信息和中文詞典信息提高命名實(shí)體識(shí)別系統(tǒng)的性能. ELKI 引入了2 個(gè)重要的模塊交叉注意力網(wǎng)絡(luò)和門(mén)控融合網(wǎng)絡(luò),用于增強(qiáng)漢字的表示能力. 在Resume、MSRA 和OntoNotes 等3 個(gè)中文命名實(shí)體識(shí)別基準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果進(jìn)一步證明了ELKI 在中文命名實(shí)體識(shí)別任務(wù)有巨大優(yōu)勢(shì)并且也能夠很容易與BERT 等其他自然語(yǔ)言處理的預(yù)訓(xùn)練模型相結(jié)合來(lái)獲得更強(qiáng)大的性能表現(xiàn).
參考文獻(xiàn):
[1] Zhang S, Qin Y, Wen J,et al. Word segmentationand named entity recognition for sighan bakeoff3[C]//Proceedings of the Fifth SIGHAN Workshopon Chinese Language Processing. Sydney:Associationfor Computational Linguistics, 2006.
[2] He J, Wang H. Chinese named entity recognition andword segmentation based on character[ C]//Proceedingsof the Sixth SIGHAN Workshop on Chinese Language Processing.[S. l.]:Association for ComputationalLinguistics, 2008.
[3] Xue M, Yu B, Liu T, et al. Porous lattice transformerencoder for chinese ner [C]//Proceedings ofthe 28th International Conference on ComputationalLinguistics. Barcelona: International Committee onComputational Linguistics, 2020.
[4] Li X, Yan H, Qiu X, et al. Flat: Chinese ner usingflat-lattice transformer [C]//Proceedings of the 58thAnnual Meeting of the Association for ComputationalLinguistics. Online:Association for ComputationalLinguistics, 2020.
[5] Ju S, Li T, Sun J. Chinese fine-grained named entityrecognition based on associated memory networks[ J]. Journal of Software, 2021, 32: 2545.[琚生根,李天寧,孫界平. 基于關(guān)聯(lián)記憶網(wǎng)絡(luò)的中文細(xì)粒度命名實(shí)體識(shí)別[J]. 軟件學(xué)報(bào), 2021, 32:2545.]
[6] Ding R, Xie P, Zhang X, et al. A neural multidigraphmodel for chinese ner with gazetteers [C]//Proceedings of the 57th Annual Meeting of the Associationfor Computational Linguistics. Florence: Associationfor Computational Linguistics, 2019.
[7] Gui T, Zou Y, Zhang Q, et al. A lexicon-basedgraph neural network for chinese ner [C]//Proceedingsof the 2019 Conference on Empirical Methods inNatural Language Processing and the 9th InternationalJoint Conference on Natural Language Processing(EMNLP-IJCNLP). Hong Kong:Associationfor Computational Linguistics, 2019.
[8] Sui D, Chen Y, Liu K, et al. Leverage lexicalknowledge for chinese named entity recognition viacollaborative graph network [C]//Proceedings of the2019 Conference on Empirical Methods in NaturalLanguage Processing and the 9th International JointConference on Natural Language Processing(EMNLP-IJCNLP). Hong Kong:Association forComputational Linguistics, 2019.
[9] Zhang Y, Yang J. Chinese ner using lattice lstm[ C]//Proceedings of the 56th Annual Meeting of the Associationfor Computational Linguistics. Melbourne:Associationfor Computational Linguistics, 2018.
[10] Gui T, Ma R, Zhang Q, et al. Cnn-based chinesener with lexicon rethinking [C]//Proceedings of theTwenty-Eighth International Joint Conference on ArtificialIntelligence. Macao: International Joint Conferenceon Artificial Intelligence, 2019.
[11] Hu D, Wei L. Slk-cner: Exploiting second-orderlexicon knowledge for chinese ner[ C]//The 32nd InternationalConference on Software Engineering andKnowledge Engineering. KSIR Virtual ConferenceCenter: KSI Research Inc, 2020.
[12] Ma R, Peng M, Zhang Q, et al. Simplify the usageof lexicon in Chinese ner [C]//Proceedings of the58th Annual Meeting of the Association for ComputationalLinguistics. Online: Association for ComputationalLinguistics, 2020.
[13] Hu J, Ouyang Y, Li C, et al. Hierarchical lexiconembedding architecture for chinese named entity recognition[C]//Artificial Neural Networks and MachineLearning-ICANN 2021-30th International Conferenceon Artificial Neural Networks. Bratislava:Springer, 2021.
[14] Zhang M, Li B, Liu Q, et al. Chinese named entityrecognition fusing lexical and syntactic information[C]//The 6th International Conference on Innovationin Artificial Intelligence. Guangzhou: Associationfor Computing Machinery, 2022.
[15] Xu X, Wang T, Kang R, et al. Multi-feature chinesenamed entity recognition [J]. Journal of Sichuan University(Nature Science Edition), 2022, 59: 022003.[胥小波, 王濤, 康睿, 等. 多特征中文命名實(shí)體識(shí)別[J].四川大學(xué)學(xué)報(bào)(自然科學(xué)版), 2022, 59: 022003.]
[16] Levow G A. The third international chinese languageprocessing bakeoff: Word segmentation and namedentity recognition [C]//Proceedings of the FifthSIGHAN Workshop on Chinese Language Processing.Sydney: Association for Computational Linguistics,2006.
[17] Devlin J, Chang M W, Lee K, et al. Bert: Pretrainingof deep bidirectional transformers for language understanding[C]//Proceedings of the 2019 Conferenceof the North American Chapter of the Associationfor Computational Linguistics: Human LanguageTechnologies. Minneapolis:Association forComputational Linguistics, 2019.
(責(zé)任編輯: 伍少梅)
基金項(xiàng)目: 國(guó)家自然科學(xué)基金重點(diǎn)項(xiàng)目(62137001); 四川省重點(diǎn)研發(fā)項(xiàng)目(2023YFG0265)