国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合相似度負采樣的遠程監(jiān)督命名實體識別方法

2024-08-15 00:00:00劉楊線巖團相艷黃于欣
計算機應(yīng)用研究 2024年8期

摘 要:實體漏標(biāo)是目前遠程監(jiān)督命名實體識別(distantly supervised named entity recognition,DS-NER)存在的一個難點問題。訓(xùn)練集中的漏標(biāo)實體在模型訓(xùn)練中提供了不正確的監(jiān)督信息,模型將在后續(xù)預(yù)測實體類型時更傾向于將該類實體預(yù)測為非實體,導(dǎo)致模型的實體識別和分類能力下降,同時影響了模型的泛化性能。針對這一問題,提出了融合實體特征相似度計算負采樣命名實體識別方法。首先,通過對候選樣本和標(biāo)注實體樣本進行相似度計算并打分;其次,以相似度得分作為依據(jù)對候選樣本進行采樣,采樣出參與訓(xùn)練的樣本。與隨機負采樣方法相比,該方法通過結(jié)合相似度計算,降低了采樣到漏標(biāo)實體的可能性,進而提高了訓(xùn)練數(shù)據(jù)的質(zhì)量,從而提升了模型的性能。實驗結(jié)果表明,該方法在 CoNLL03、Wiki、Twitter三個數(shù)據(jù)集上與其他模型相比,比基線模型平均取得了5%左右的F1值提升,證明了該方法能夠有效緩解遠程監(jiān)督條件下實體漏標(biāo)帶來的命名實體識別模型性能下降的問題。

關(guān)鍵詞:命名實體識別; 實體漏標(biāo); 遠程監(jiān)督; 負采樣; 數(shù)據(jù)增強

中圖分類號:TP391 文獻標(biāo)志碼:A

文章編號:1001-3695(2024)08-011-2322-07

doi:10.19734/j.issn.1001-3695.2023.12.0577

Incorporating similarity negative sampling for distantly supervised NER

Liu Yang1,2, Xian Yantuan1,2, Xiang Yan1,2, Huang Yuxin1,2

(1.Faculty of Information Engineering & Automation, Kunming University of Science & Technology, Kunming 650500, China; 2.Yunnan Key Laboratory of Artificial Intelligence, Kunming 650500, China)

Abstract:The entity omission is a typical problem of distantly supervised named entity recognition. Entity omission in the training set provides incorrect supervision information during model training, model will be more inclined to predict this type of entity as a non-entity when subsequently predicting entity types, resulting in a decline in the model’s entity recognition and classification capabilities, and affects the generalization performance of the model. To deal with the problem, this paper proposed a incorporating similarity negative sampling for distantly supervised named entity recognition. Firstly, it calculated and scored the similarity between the candidate samples and the labeled entity samples. Secondly, it sampled the candidate samples based on the similarity score, and sampled the samples participating in the training. Compared with the random negative sampling method, this method reduced the possibility of sampling missing entities by combining similarity calculations, thereby improving the quality of training data and thus improving the performance of the model. Experimental results show that compared with other models on the three data sets of CoNLL03, Wiki, and Twitter, compared with the baseline model, the proposed model achieved an average F1 value improvement of about 5 percentage points. It is proved that this method can effectively alleviate the problem of performance degradation of the named entity recognition model caused by missing entities under distantly supervised conditions.

Key words:named entity recognition; entity omission; distantly supervised; negative sampling; data augmentation

0 引言

命名實體識別(named entity recognition,NER)主要是從文本中識別出特定類別的實體,例如人名、地名、組織機構(gòu)名等,是自然語言處理(natural language processing,NLP)中的基礎(chǔ)任務(wù)之一,能夠服務(wù)于事件抽?。?]、實體鏈接[2]、關(guān)系抽取[3]、知識圖譜等一系列下游任務(wù)。例如:在對話理解任務(wù)中,系統(tǒng)通過命名實體識別系統(tǒng)提取出相應(yīng)的實體詞,能夠幫助系統(tǒng)更加準(zhǔn)確地理解對話;在機器翻譯任務(wù)中,正確的識別命名實體有助于保證翻譯的準(zhǔn)確性和一致性,提高機器翻譯模型的整體性能,所以提升命名實體識別模型的性能是十分必要的。

早期的命名實體識別任務(wù)識別實體種類少,標(biāo)注粒度較粗,且語種和領(lǐng)域單一,隨著自然語言處理任務(wù)的不斷發(fā)展和應(yīng)用領(lǐng)域的不斷拓展,為了保障下游任務(wù)的性能,就對命名實體識術(shù)提出了更高的要求。實體種類由早期的幾類實體類型發(fā)展到十幾類實體類型;標(biāo)注粒度從早期的粗粒度標(biāo)注進化到更細粒度的標(biāo)注;從早期的大語種不斷發(fā)展到使用人口較少的語種,并且根據(jù)不同具體的應(yīng)用領(lǐng)域衍生出了針對領(lǐng)域的命名實體識別等。由于上述原因,命名實體識別使用人工標(biāo)注訓(xùn)練數(shù)據(jù)成為了制約模型性能發(fā)展的一大瓶頸。由于語種與領(lǐng)域的不斷拓展,利用人工方式來標(biāo)注數(shù)據(jù)花費時間較長,成本較為高昂,難以滿足當(dāng)前條件下各類命名實體識別模型對訓(xùn)練數(shù)據(jù)的要求。一種解決手段是引入遠程監(jiān)督(distantly supervised,DS)[4]的策略,不同于傳統(tǒng)命名實體識別方法采用人工標(biāo)注數(shù)據(jù)來訓(xùn)練,遠程監(jiān)督的思路是利用外部知識庫或領(lǐng)域詞典對來自不同語種或者不同領(lǐng)域的訓(xùn)練數(shù)據(jù)進行大量的標(biāo)注,這樣可以使得模型獲得所需的訓(xùn)練數(shù)據(jù),從而緩解訓(xùn)練數(shù)據(jù)缺乏的問題。在擁有了訓(xùn)練數(shù)據(jù)后,命名實體識別模型的應(yīng)用領(lǐng)域由此得到了極大擴展,下游任務(wù)性能也因此得到了提高。

不過基于遠程監(jiān)督方法的命名實體識別仍存在缺陷,這阻礙了遠程監(jiān)督方法的進一步使用,因為通過遠程監(jiān)督獲取的標(biāo)簽,標(biāo)注的實體大多有正確的標(biāo)簽,由于外部知識庫或詞典并不是完備集,其覆蓋范圍有限,不能保證完全覆蓋數(shù)據(jù)集中包含的所有實體,從而導(dǎo)致數(shù)據(jù)集中有少量標(biāo)注數(shù)據(jù)存在實體被漏標(biāo)的情況。圖1展示了一個遠程標(biāo)注示例,其中“OGR”指機構(gòu),“PER”指人名。第一行是初始文本,第二行是遠程監(jiān)督標(biāo)注,第三行是正確標(biāo)注。示例中,由于外部知識庫或者詞典不完備,機構(gòu)實體“Manchester City”和“Arsenal”未被標(biāo)注。

若有某個實體在訓(xùn)練集中被漏標(biāo),模型在訓(xùn)練時便會將其作為非實體學(xué)習(xí),導(dǎo)致模型在后續(xù)預(yù)測實體類型時更傾向于將該實體預(yù)測為非實體,這將損害模型的性能。

在訓(xùn)練過程中引入負采樣策略緩解漏標(biāo)實體問題是當(dāng)前的一種主流方法,能夠在一定程度上避免采樣到漏標(biāo)實體作為負例參與訓(xùn)練。已有的采樣方法在采樣策略上進行了諸多探索,如隨機采樣、均勻采樣[5]、加權(quán)采樣[6]等,有效地提升了遠程監(jiān)督命名實體識別的效果。然而上述模型的采樣方法在采樣策略上大多帶有一定的隨機性,不可避免地導(dǎo)致采樣出部分漏標(biāo)實體參與訓(xùn)練,給模型帶來了不正確的監(jiān)督信號,從而導(dǎo)致命名實體識別模型性能下降。

針對上述提出的問題,本文提出了融合相似度負采樣的遠程監(jiān)督命名實體識別方法。該方法主要貢獻在于:

a)不同于之前方法的負采樣策略帶有隨機性,本文提出了融合相似度計算的主動采樣策略,能夠盡可能地避免采樣出未標(biāo)注的實體參與訓(xùn)練,提高訓(xùn)練數(shù)據(jù)的質(zhì)量,緩解實體漏標(biāo)帶來的模型性能下降問題。

b)采用了基于同義實體詞替換的數(shù)據(jù)增強方法,有效地擴充了訓(xùn)練數(shù)據(jù),同時提高了訓(xùn)練樣本的豐富度,而且可以獲得相對原始數(shù)據(jù)更多樣性的語義特征。

c)本文方法在CoNLL03、Wiki、Twitter三個數(shù)據(jù)集上的結(jié)果與以往的基線模型相比,性能相比基線模型平均取得了5%左右的F1值提升。

1 相關(guān)工作

命名實體識別方法的發(fā)展經(jīng)歷了基于規(guī)則和手工模板的方法、基于統(tǒng)計機器學(xué)習(xí)方法和基于深度學(xué)習(xí)的方法三個階段。

早期的命名實體識別方法主要采用基于規(guī)則和手工模板的方法,該方法主要通過相關(guān)領(lǐng)域?qū)<覍δ繕?biāo)文本手工制定有效的規(guī)則識別命名實體。

基于統(tǒng)計機器學(xué)習(xí)的方法從給定的、有標(biāo)簽的訓(xùn)練數(shù)據(jù)出發(fā),然后通過手動方式構(gòu)造特征,根據(jù)特定模型對文本中的每個單詞進行標(biāo)簽的標(biāo)注,實現(xiàn)命名實體識別。方法有條件隨機場(conditional random field,CRF)[7,8]、最大熵模型(maximum entropy,ME)[9]、支持向量機(support vector machine,SVM)[10]、隱馬爾可夫模型(hidden Markov model,HMM)[11]等。

近年來,隨著技術(shù)的發(fā)展和計算設(shè)備算力的不斷提升,深度學(xué)習(xí)在計算機視覺、圖像處理等方面取得了巨大的成功,而且在自然語言處理領(lǐng)域的應(yīng)用也取得了很大的進步。命名實體識別方法的研究也從傳統(tǒng)基于統(tǒng)計機器學(xué)習(xí)的方法轉(zhuǎn)向基于深度學(xué)習(xí)的方法。長短期記憶網(wǎng)絡(luò)(long short-yerm memory,LSTM)[12]被應(yīng)用于處理命名實體識別問題,使用LSTM作為編碼器,CRF作為解碼器成為了NER任務(wù)中最基礎(chǔ)的模型架構(gòu)之一。Lample等人[13]在此基礎(chǔ)上采用了雙向長短期記憶網(wǎng)絡(luò)(bi-directional long short-term memory,BiLSTM)作為編碼器,提出了BiLSTM-CRF模型用于解決命名實體識別問題,BiLSTM網(wǎng)絡(luò)結(jié)構(gòu)有效利用輸入的前向和后向特征信息,能同時關(guān)注到上下文的語義信息進行輸出。Google在2018年提出基于Transformer的預(yù)訓(xùn)練語言模型(pre-trained language model,PLM)BERT(bidirectional encoder tepresentations from Transfor-mers)[14],在多項NLP任務(wù)中成功SOTA(state-of-the-art),掀起了NLP領(lǐng)域使用預(yù)訓(xùn)練語言模型的潮流,此后大多NER工作均在PLM的基礎(chǔ)上進行微調(diào)。

基于跨度(Span)的命名實體識別方法是一種直觀而有效的方式,基于Span的方法將句子視為實體跨度的集合,其中的元素就是句子所有可能的子序列,利用Span的語義信息對每一個Span進行驗證,進而可以有效地識別實體。Fu等人[15]首先研究了基于Span的命名實體識別預(yù)測模型,并與傳統(tǒng)序列標(biāo)記框架進行了對比。游新冬等人[16]提出了一種基于跨度與拼接的中文命名實體抽取模型,在多個中文命名實體識別數(shù)據(jù)集上的實驗證明了其有效性。

為了克服人工標(biāo)注時間成本過長的缺陷,能以較快的速度構(gòu)建數(shù)據(jù)集,遠程監(jiān)督方法被用于訓(xùn)練數(shù)據(jù)標(biāo)注。但在實際應(yīng)用中,外部知識庫或詞典并不是完備集,無法保證完整覆蓋訓(xùn)練集中的所有實體,實體漏標(biāo)情況不可避免。為了減輕漏標(biāo)實體對模型的影響,Yang等人[17]將部分條件隨機場 (partial conditional random fields,partial CRF)引入學(xué)習(xí)過程中,同時設(shè)計了一個選擇器對樣本進行過濾,在一定程度上減輕了遠程監(jiān)督所帶來的漏標(biāo)問題。Peng 等人[18]提出了一種基于正無標(biāo)注(positive-unlabeled,PU)學(xué)習(xí)的命名實體識別方法,該方法可以利用未標(biāo)注數(shù)據(jù)和實體詞典進行模型的學(xué)習(xí),且只需使用實體詞典去標(biāo)注部分實體,當(dāng)詞典的質(zhì)量不佳時,該方法仍能很好地識別句子中的實體。但當(dāng)高質(zhì)量的訓(xùn)練數(shù)據(jù)稀缺時,上述方法仍會很大程度上受到未標(biāo)注實體的影響,從而影響模型的性能。

漏標(biāo)的實體(偽負樣本)所占比例與真負樣本相比占較少,因此負采樣的優(yōu)勢在于能夠提高采集到真負樣本的概率。因而在實體漏標(biāo)條件下訓(xùn)練模型過程中,負采樣策略被廣泛應(yīng)用。楊一帆等人[19]在病歷領(lǐng)域使用了負采樣方法,有效緩解了醫(yī)療領(lǐng)域數(shù)據(jù)漏標(biāo)造成的模型性能下降問題。Xu等人[20]利用Span標(biāo)注方法,以負采樣的方式代替了部分訓(xùn)練,緩解了遠程監(jiān)督數(shù)據(jù)集中樣本帶噪的問題。但是上述負采樣策略均基于隨機性采樣,仍會采樣出部分漏標(biāo)實體參與訓(xùn)練,影響命名實體識別模型的性能。

數(shù)據(jù)增強(data augmentation)一般是基于現(xiàn)有數(shù)據(jù)生成更多的新數(shù)據(jù),這樣可以增加訓(xùn)練的數(shù)據(jù)量,提高模型的泛化能力;或者給數(shù)據(jù)增加噪聲,提升模型的魯棒性。計算機視覺(computer vision,CV)被廣泛使用,在NLP任務(wù)中也被普遍應(yīng)用。Yang等人[21]提出了一種名為FactMix的數(shù)據(jù)增強方法,通過利用訓(xùn)練集對訓(xùn)練樣本進行詞替換,利用PLM對非實體部分進行隨機替換,能夠提高模型的跨領(lǐng)域能力。Wei[22]等人提出一種簡易的數(shù)據(jù)增強技術(shù)(easy data augmentation,EDA),通過同義詞替換、隨機插入、隨機交換和隨機刪除實現(xiàn)數(shù)據(jù)增強效果,能夠提高神經(jīng)網(wǎng)絡(luò)的分類性能。但上述數(shù)據(jù)增強方式大多是隨機的,增強應(yīng)盡可能YpIUO1m1a4xSnwsx87HXAQ==使擴增的數(shù)據(jù)句子在語義和結(jié)構(gòu)上沒有發(fā)生變化,而對應(yīng)的實體之間類型應(yīng)該相同。因此,本文的數(shù)據(jù)增強考慮采用基于同義實體詞替換的數(shù)據(jù)增強方法。

2 融合相似度負采樣的遠程監(jiān)督命名實體識別模型

2.1 問題定義

命名實體識別是將文本中的命名實體定位識別并分類為預(yù)定義實體類型(如人名、組織名、地名等)的過程。給定一個長度為n的句子X={x1,x2,…,xn},基于Span的方法是通過枚舉出X所有可能的子序列,即跨度(Span),本文使用S表示所有可能的Span的集合,記為S={s1,1,s1,2,…,si,j,…,sn,n}。其中使用(i,j)來表示每個單獨的Span,i表示每個Span在句子中的開始位置,j表示每個Span的結(jié)束位置,L為Span的最長取值,即0<j-i<L。對于所有枚舉出的Span,模型會從預(yù)定義的標(biāo)簽空間預(yù)測相應(yīng)的實體類型,預(yù)定義的標(biāo)簽空間中有v個實體類型,記為Y={y1,y2,…,yv}。

如圖2所示,給定一個句子x=“Liverpool FC is a football club”,其對應(yīng)標(biāo)簽為Y={(0,1,ORG)},其可能的所有跨度為

S={(0,0),(0,1),…,(1,1),(1,2),…,(5,5)}

對于其他非實體Span,則被標(biāo)記為標(biāo)簽O。

2.2 模型架構(gòu)

原有的負采樣策略采樣過程是基于隨機采樣方法獲取負樣本,不可避免地會采樣到漏標(biāo)實體作為負例進行訓(xùn)練,造成模型性能下降。因為漏標(biāo)實體應(yīng)與相同類型實體具有高相似度,與不同類型的其他實體具有低相似度。如果候選樣本與不同實體類型都具有較高的相似度,則此樣本很可能是一個負樣本而不是漏標(biāo)實體。所以本文提出了一種融合相似度計算遠程監(jiān)督命名實體識別方法,采用基于樣本相似度計算的主動采樣策略,盡可能避免采樣到漏標(biāo)實體參與訓(xùn)練,以此緩解實體漏標(biāo)帶來的模型性能下降問題。

本文模型的總體結(jié)構(gòu)如圖3所示,該模型主要包括編碼器層、Span處理層、樣本相似度計算及采樣層、分類預(yù)測層。按批次輸入的文本數(shù)據(jù)通過數(shù)據(jù)增強及編碼層中的數(shù)據(jù)增強部分得到增強數(shù)據(jù),而后將原始數(shù)據(jù)和增強數(shù)據(jù)通過編碼部分進行編碼;Span處理層將編碼后的數(shù)據(jù)處理成跨度的向量表示,并將其送入樣本相似度計算及采樣層;通過計算候選樣本與已標(biāo)注樣本之間的相似度并獲取相似度得分,以相似度得分作為依據(jù)進行采樣,而后把已標(biāo)注樣本和采樣的樣本通過分類層輸出樣本的預(yù)測值。針對已標(biāo)注樣本和采樣出的樣本分別計算損失,合并后即為總損失。

2.3 編碼器層及Span處理層

本文使用預(yù)訓(xùn)練語言模型BERT作為編碼器。開始階段,為了得到句子中每個單詞對應(yīng)的上下文特征向量hi,需要利用BERT對句子進行編碼。給定句子X={x1,x2,…,xn},將句子X輸入BERT編碼器后,對于其中的每一個單詞xi,都會得到一個對應(yīng)的上下文特征向量hi,如式(1)所示。

h1,h1,…,h1=BERTencoder(x1,x2,…,xn)(1)

Span的長度記為L,如式(2)所示。其中i表示Span的開始位置,j表示每個Span的結(jié)尾位置。

L=j-i+1(2)

對Span長度進行編碼,記為l,是對Span的長度特征進行編碼后的可訓(xùn)練嵌入。將可能的所有跨度集合記為S,對于S中的每個Span而言,si,j∈S,其中每個子元素可以表示為

si,j=[hi;hj;l](3)

其中:hi表示Span的開始部分;hj表示每個Span的結(jié)尾部分。有跨度集合S∈Euclid ExtraaBpB×N×r,其中B為批次中數(shù)據(jù)條數(shù),N為批次數(shù)據(jù)中最長Span的長度,r為使用多層線性層進行降維后的維度。

2.4 相似度計算及采樣層

本文通過實體的標(biāo)簽信息,將跨度分為標(biāo)注樣本和未標(biāo)注樣本,并且將未標(biāo)注樣本都視為潛在的負樣本。以此為據(jù),將處理得到的S劃分為已標(biāo)注樣本向量表示集SL={sl1,sl2,…,slR}和候選樣本向量表示集SU={su1,su2,…,suT},其中T>>R。未標(biāo)注樣本與標(biāo)注樣本的相似度計算公式如式(4)所示。

p=sim(su)=su·sl‖su‖‖sl‖(4)

對于su∈SU,都會與SL中的每一個樣本計算相似度,記為pi;用上述計算出的相似度來計算未標(biāo)注樣本的相似度得分H,其計算過程如式(5)所示,其中R為批次中已標(biāo)注樣本的數(shù)量。

H(su)=-∑Ri=1pilog2pi(5)

而后以計算出的相似度得分為依據(jù),對SU中的樣本按從高到低進行排序,并按此得分為依據(jù)進行采樣。為了盡可能地從候選樣本中采樣出負樣本,也為了節(jié)省計算成本,采樣數(shù)量由采樣率控制,采樣數(shù)量如式(6)所示,其中T為未標(biāo)注樣本的數(shù)量,r代表采樣率。

K=(1-r)×T(6)

由此采樣出的樣本集合為Sselect={ssel1,ssel2,…,sselk},數(shù)量為K個。

2.5 分類預(yù)測層

對于SL和Sselect中的特征向量si,j,將其輸入到多層感知機(multi-later perceptron,MLP)中來預(yù)測Span的標(biāo)簽類型,通過標(biāo)簽的權(quán)重和Span向量的內(nèi)積來評分,評分函數(shù)如式(7)所示。

score(si,j,yv)=sTi,jwlabel(7)

其中:wlabel代表標(biāo)簽的權(quán)重;si,j代表Span的特征向量;v為可學(xué)習(xí)的實體類型種類。而后將每個實體Span得分輸入到softmax函數(shù)中,選擇得分最高的標(biāo)簽當(dāng)作實體標(biāo)簽,如式(8)所示。

P(y|si)=softmax(W·score(si,j,yv)+b)(8)

其中:W和b分別為softmax層的權(quán)重和偏置。

本文模型的損失函數(shù)采用Zhang等人[23]提出的廣義交叉熵損失函數(shù)(generalized cross entropy loss,GCE loss),如式(9)所示。

LGCE=∑ni=11-P(y|si,j)qq(9)

其中:n為樣本數(shù)量;q為變換參數(shù)。

對于SL和Sselect來說,兩個序列經(jīng)過兩次廣義交叉熵損失函數(shù)分別得到LossL、Losssel,總損失為兩者加和,如式(10)所示。

Lossall=LossL+Losssel(10)

3 實驗結(jié)果與分析

3.1 實驗數(shù)據(jù)集

本文使用了三個公共數(shù)據(jù)集進行實驗,分別是CoNLL03、Wiki、Twitter,其中數(shù)據(jù)集的標(biāo)簽通過遠程監(jiān)督方式[24]獲得。

a)CoNLL03數(shù)據(jù)集是來自路透社語料庫的新聞通信文章,標(biāo)注了人名(PER,persons)、地名(LOC,locations)、組織機構(gòu)(ORG,organizations)、MISC(miscellaneous)四種實體,其中原始訓(xùn)練集數(shù)據(jù)為14 041條,測試集為3 250條,實驗集為3 453條;b)Wiki數(shù)據(jù)集來自于維基百科的文章,標(biāo)注了人名(PER,persons)、地名(LOC,locations)、組織機構(gòu)(ORG,organizations)、MISC(miscellaneous)四種實體。其中原始訓(xùn)練集數(shù)據(jù)為1 142條,測試集為280條,實驗集為274條;c)Twitter數(shù)據(jù)集來自于推特的推文,標(biāo)注了地名(geoloc)、設(shè)施(facility)、電影(movie)、公司(company)等10種實體,其中原始訓(xùn)練集數(shù)據(jù)為2 393條,測試集為1 000條,測試集為3 473條。此外為了驗證本文模型在中文命名實體識別上的能力,還在Ontonotes[25]中文數(shù)據(jù)集上開展了對比實驗。

3.2 實驗設(shè)置

實驗使用的GPU為GeForce RTX 2080Ti。本文采用PyTorch實現(xiàn)提出的模型和算法實驗。實驗中采用反向傳播算法進行參數(shù)優(yōu)化。

本文使用Adam優(yōu)化器來訓(xùn)練模型,其學(xué)習(xí)率初始值為1E-5。廣義交叉熵損失函數(shù)的變換參數(shù)q值設(shè)為0.2。Span最大長度設(shè)置為8。訓(xùn)練過程將BERT_BASE作為預(yù)訓(xùn)練語言模型,隱層數(shù)為768,注意力機制頭數(shù)為12頭。其他主要超參數(shù)具體設(shè)置如表1所示。

3.3 評價指標(biāo)

本文將準(zhǔn)確率P(precision)、召回率R(precision)、F1值(F1 score)作為實驗的評價標(biāo)準(zhǔn),如式(11)~(13)所示。

P=識別正確的實體數(shù)識別的實體數(shù)×100%(11)

R=識別正確的實體數(shù)樣本的實體總數(shù)×100%(12)

F1=2PRP+R×100%(13)

3.4 模型實現(xiàn)細節(jié)

實體漏標(biāo)會導(dǎo)致模型學(xué)習(xí)不正確的監(jiān)督信號,導(dǎo)致模型對噪聲數(shù)據(jù)產(chǎn)生擬合,從而導(dǎo)致模型性能變差。本文提出融合相似度計算的負采樣算法來盡量避免噪聲數(shù)據(jù)參與訓(xùn)練。具體而言,該算法首先通過基于同義詞替換的數(shù)據(jù)增強方法擴充訓(xùn)練數(shù)據(jù),例如句子“Shanghai is an East Asian city”中,“Shanghai”為LOC實體類型,在其對應(yīng)的同義實體候選集中有其同義的單詞“Tokyo”,進行替換后,生成新句子“Tokyo is an East Asian city”,依此類推,一個句子就可以變成兩個句子或者多個句子,實現(xiàn)訓(xùn)練數(shù)據(jù)的擴充,從而達到數(shù)據(jù)增強的目的。

在同義實體詞替換過程中,因為替換的實體詞與被替換的詞屬于同一實體類型,所以替換后生成的句子仍然是合乎語法和語義的。而后依據(jù)實體的標(biāo)簽信息,將樣本劃分為標(biāo)注樣本和未標(biāo)注樣本,其中標(biāo)注樣本視為正樣本,未標(biāo)注樣本視為負樣本,通過計算正負樣本之間的相似度并計算相似度得分,以此作為主動采樣的依據(jù)。最后在相似度得分的基礎(chǔ)上對負樣本進行采樣,采樣出的訓(xùn)練數(shù)據(jù)參與訓(xùn)練。

算法1 融合相似度計算的負采樣算法

輸入:存在數(shù)據(jù)漏標(biāo)情況的原始訓(xùn)練數(shù)據(jù)樣本。

輸出:采樣出的參與訓(xùn)練的樣本。

a)對輸入數(shù)據(jù)進行預(yù)處理。

b)使用基于同義詞替換的數(shù)據(jù)增強方法對訓(xùn)練數(shù)據(jù)進行擴充。

c)根據(jù)式(1)對訓(xùn)練數(shù)據(jù)進行編碼得到數(shù)據(jù)的特征向量h。

d)根據(jù)式(3)對特征向量進行跨度編碼得到跨度向量集S。

e)根據(jù)實體的標(biāo)簽信息,將跨度向量集劃分為標(biāo)注樣本向量集SL和候選樣本向量集Sselect。

f)根據(jù)式(4)計算候選樣本與標(biāo)注樣本之間的樣本相似度pi。

g)由步驟f)計算出的樣本相似度,根據(jù)式(5)計算出樣本的相似度得分H。

h)將步驟g)計算出的相似度得分按從高到低對候選樣本進行排序,并根據(jù)式(6)來進行負采樣,從而采樣出參與訓(xùn)練的樣本。

i)返回最后參與訓(xùn)練的樣本集Sselect。

3.5 對比實驗

為驗證本文模型的有效性,采用以下方法作為基準(zhǔn)模型,與本文模型進行比較:

a)BiLSTM-CRF[26]是傳統(tǒng)的命名實體識別方法,使用通過遠程監(jiān)督獲得標(biāo)記數(shù)據(jù)進行訓(xùn)練。

b)AutoNER[24] 通過附加規(guī)則和字典對遠程監(jiān)督的數(shù)據(jù)集進行過濾,并為遠程監(jiān)督命名實體識別任務(wù)提出了一種新的標(biāo)注方案。

c)LRNT[27] 將部分條件隨機場用于采樣非實體部分數(shù)據(jù)參與訓(xùn)練。

d)KB Matching使用基于知識庫的方法,通過字符串匹配來檢索實體。

e)Span-NS[5]在訓(xùn)練過程中采用了基于隨機采樣方法的采樣策略。

f)Span-NS-V[6]在訓(xùn)練過程中均采用了基于加權(quán)抽樣方法的采樣策略。

g)BS-NER[17]利用Span標(biāo)注方法,以負采樣的方式代替了部分訓(xùn)練,緩解了遠程監(jiān)督數(shù)據(jù)集中樣本帶噪的問題。

本文模型和其他基線模型在CoNLL03、Wiki、Twitter數(shù)據(jù)集上的實驗結(jié)果如表2所示。

如表2所示,相比于其他的基線模型,本文模型的主要評價指標(biāo)都有所提升,尤其是F1值的表現(xiàn)均為最優(yōu)。本文模型在CoNLL03數(shù)據(jù)集上的表現(xiàn)都優(yōu)于其他基線模型,其中R和F1值都高于其他模型,與BiLSTM-CRF等未采用負采樣策略的模型相比,F(xiàn)1值分別提升了10.33~21.69百分點不等,這說明融合相似度計算的主動采樣策略有利于緩解實體漏標(biāo)問題,能夠提高模型性能。

與Span-NS等負采樣模型相比,本文模型的性能仍要好于先前的負采樣模型。因為先前的負采樣模型的采樣策略大多帶有一定的隨機性,所以模型不可避免地會選擇未標(biāo)記的實體參與訓(xùn)練,從而在一定程度上對模型的性能造成影響。本文模型對比先前的采樣模型,F(xiàn)1值提升了1.11~5.58百分點不等,這說明當(dāng)訓(xùn)練數(shù)據(jù)中存在漏標(biāo)實體時,在負采樣的過程中引入融合相似度計算的主動采樣策略,可以提高采樣出的樣本質(zhì)量,盡可能地避免采樣到漏標(biāo)實體。

在Wiki數(shù)據(jù)集上,本文模型的表現(xiàn)也全面超過了其他基線模型。與Span-NS和Span-NS-V相比,F(xiàn)1值分別提升了2.92和2.90百分點。即使是和當(dāng)前性能最優(yōu)的模型相比,本文模型的性能仍要好于BS-NER,F(xiàn)1值提高1.89百分點。Wiki數(shù)據(jù)集數(shù)據(jù)量與其他兩個數(shù)據(jù)集相比是偏少的,訓(xùn)練數(shù)據(jù)的缺少可能會給模型帶來過擬合問題,本文模型與之前的模型相比,引入了基于同義詞替換的數(shù)據(jù)增強方法,有效擴充了訓(xùn)練數(shù)據(jù),同時可以獲得相對原本數(shù)據(jù)更多樣性的語義特征,并且能夠提高模型的泛化能力;同時得益于負采樣方法提升了R值,從而提升了整體的F1值,這也反映在了實驗結(jié)果上。

本文模型在Twitter數(shù)據(jù)集上也取得了不錯的效果,相比未采用負采樣方法的F1值平均提高了22.31百分點。與近期的BS-NER相比,都同樣取得了最優(yōu)的結(jié)果,F(xiàn)1值提高了2.64百分點。與Span-NS-V相比,取得了最優(yōu)F1值,在精確率和召回率上各有優(yōu)勢。

從圖4可以更加直觀地看出,本文模型在CoNLL03、Wiki和 Twitter三個數(shù)據(jù)集上的F1值都取得了較其他模型更優(yōu)的結(jié)果。總體來看,本文模型在各類指標(biāo)上優(yōu)勢明顯,表明了融合相似度計算的主動采樣策略的遠程監(jiān)督命名實體識別方法能夠有效緩解實體漏標(biāo)帶來的模型性能下降問題,并且結(jié)合了同義實體詞替換的數(shù)據(jù)增強方法,提高了數(shù)據(jù)來源的豐富性,從而提升了模型的泛化性能。

為了驗證本文模型在中文命名實體識別中的應(yīng)用能力,在Ontonotes數(shù)據(jù)集上開展對比實驗,本文選擇TENER[28]、FLAT[29]、Lattice[30]三個具有代表性的中文命名實體識別模型作為基線模型來進行對比。本文模型和其他基線模型在Ontonotes數(shù)據(jù)集上的實驗結(jié)果如表3所示。

如表3所示,相比于其他三個基線模型,F(xiàn)1值分別提高了 2.37、0.71和0.62百分點。雖然本文模型是用于處理英文命名實體識別,但實驗結(jié)果證明本文模型在中文命名實體識別上也能達到較好的效果。綜上,由本文模型在中文命名實體識別數(shù)據(jù)集上的表現(xiàn),可以證明本文模型在中文命名實體識別領(lǐng)域也有一定的競爭力。

3.6 消融實驗

本節(jié)通過消融實驗來驗證模型模塊的有效性。消融實驗將在三個通過遠程監(jiān)督進行的標(biāo)注數(shù)據(jù)集上進行,設(shè)置如下:a)不使用負采樣策略與數(shù)據(jù)增強方法,只使用原始的框架訓(xùn)練模型(記為w/o AUG+NEG_S);b)僅使用數(shù)據(jù)增強方法訓(xùn)練模型,不采用負采樣策略參與訓(xùn)練(記為w/o NEG_S);c)僅使用負采樣方法訓(xùn)練模型,不采用數(shù)據(jù)增強方法參與訓(xùn)練(記為w/o AUG)。實驗結(jié)果如表4所示。

從表中可以得出以下結(jié)論:

a)在三個數(shù)據(jù)集上,本文模型的F1值都是最佳的,說明模型中的每一個模塊(包括負采樣策略和數(shù)據(jù)增強方法)都是十分重要的。

b)在三種設(shè)置條件下,w/o AUG+NEG_S效果是最差的,分別比原模型降低了7.46、7.44、7.19百分點。這說明本文模型所提出的融合相似度計算的主動采樣策略和同義實體詞替換的數(shù)據(jù)增強方法能夠十分有效地提升模型性能,其效果對模型皆具有正向作用。融合相似度計算的主動采樣策略能夠更加準(zhǔn)確地避免從樣本中采樣出漏標(biāo)實體作為樣本來訓(xùn)練分類器,從而提高模型分類性能;數(shù)據(jù)增強模塊可以有效擴充訓(xùn)練數(shù)據(jù),增強模型泛化性。

c)為驗證融合相似度計算的負采樣策略對模型的提升能力,本文以w/o NEG_S同原始模型進行比較,實驗結(jié)果相比較實驗組F1值下降了5.98~6.58百分點不等。這說明當(dāng)訓(xùn)練數(shù)據(jù)中存在漏標(biāo)實體時,在采樣負例訓(xùn)練模型的過程中引入相似度計算機制,可以進一步提升訓(xùn)練數(shù)據(jù)質(zhì)量,從而提高模型的性能。這對模型性能的提升是非常有效的,其在模型中是不可或缺的一部分。

d)w/o AUG相較于原始模型,數(shù)據(jù)指標(biāo)有一定程度的下降,證實了基于同義實體詞替換的數(shù)據(jù)增強方法對模型是有正增益的。通過基于同義實體詞替換的數(shù)據(jù)增強可以有效擴充訓(xùn)練數(shù)據(jù),增加了樣本來源的多樣性,同時又可以獲得相對原本數(shù)據(jù)更多樣性的語義特征,提高了模型的泛化能力,對模型的增益效果也體現(xiàn)在了實驗結(jié)果上。

3.7 采樣率對比實驗

在負采樣階段,采樣的樣本數(shù)量與質(zhì)量都和采樣率有關(guān),這由式(5)可以看出,因此本文對不同的采樣率進行對比實驗,以探索采樣率對實驗結(jié)果的影響。

以三個數(shù)據(jù)集的F1值為例,表5列出了不同采樣率下,三個數(shù)據(jù)集的實驗結(jié)果。high代表采樣時按樣本相似度得分從高到低對樣本進行采樣,low代表采樣時按樣本相似度得分從低到高對樣本進行采樣,如圖5所示。

從表5中發(fā)現(xiàn),當(dāng)采樣出的樣本為相似度得分靠前5%的樣本時,F(xiàn)1值結(jié)果為最優(yōu),另兩個相似度得分靠前的采樣率下的模型表現(xiàn)略有下降。

相比之下,當(dāng)采樣到相似度得分較低的樣本時,模型性能出現(xiàn)了明顯的下降。說明從相似度得分較低的樣本中采樣出的樣本中可能含有較多的漏標(biāo)實體,這樣的樣本不利于模型學(xué)習(xí)樣本分類,會給模型帶來錯誤的監(jiān)督信號,從而導(dǎo)致模型性能下降。

3.8 案例分析

本文使用“Japan began the defence of their Asian Cup title with a lucky 2-1 win against Syria in a Group C championship match on Friday.”作為例子進行示例分析,其中將未使用融合相似度計算的主動負采樣方法的訓(xùn)練模型(without NS)作為本文模型的對比案例,Gold是標(biāo)準(zhǔn)標(biāo)簽。在表6中,展示了未使用負采樣方法的模型和本文模型在遠程監(jiān)督條件下獲取標(biāo)簽數(shù)據(jù)訓(xùn)練模型后作出的預(yù)測。未使用負采樣方法的模型主要從遠程監(jiān)督中獲取標(biāo)簽學(xué)習(xí),在訓(xùn)練過程中由于漏標(biāo)實體影響,將Asian識別為實體;而本文模型通過融合相似度計算的主動采樣策略,避免了漏標(biāo)實體帶來的錯誤監(jiān)督信號,而且通過數(shù)據(jù)增強和學(xué)習(xí)預(yù)訓(xùn)練語言模型中的知識成功識別出Asian Cup為MISC類型實體,由此進一步說明了本文模型的有效性。

4 結(jié)束語

本文提出了一種融合相似度負采樣的遠程監(jiān)督命名實體識別方法。融合相似度計算的主動負采樣策略盡可能地避免采樣出漏標(biāo)實體作為負例參與訓(xùn)練,提升了遠程監(jiān)督條件下命名實體識別模型的性能;同時,通過基于同義詞替換的數(shù)據(jù)增強方法,增強了模型的泛化能力。實驗結(jié)果表明,本文模型在三個常用的命名實體識別數(shù)據(jù)集均取得了優(yōu)異的性能,有效地緩解了遠程監(jiān)督方法條件下實體漏標(biāo)造成的模型性能下降問題。由于本文模型是針對實體漏標(biāo)這一噪聲進行研究的,對其他類型實體噪聲的抗噪能力還有待進一步提高。在下一步的研究方向中,擬對數(shù)據(jù)中不完全標(biāo)注帶來的噪聲進行進一步研究處理,以提高模型在此種噪聲條件下的預(yù)測精度,進而增強模型的泛用能力。

參考文獻:

[1]張虎, 張廣軍. 基于多粒度實體異構(gòu)圖的篇章級事件抽取方法[J]. 計算機科學(xué), 2023, 50(5): 255-261. (Zhang Hu, Zhang Guangjun. Document-level event extraction based on multi-granularity entity heterogeneous graph[J]. Computer Science, 2023, 50(5): 255-261.)

[2]Gupta N, Singh S, Roth D. Entity linking via joint encoding of types, descriptions, and context[C]//Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2017: 2681-2690.

[3]王紅, 史金釧, 張志偉. 基于注意力機制的LSTM的語義關(guān)系抽?。跩]. 計算機應(yīng)用研究, 2018, 35(5): 1417-1420,1440. (Wang Hong, Shi Jinchuan, Zhang Zhiwei. Text semantic relation extraction of LSTM based on attention mechanism[J]. Application Research of Computers, 2018,35(5): 1417-1420,1440.)

[4]Ji Guoliang, Liu Kang, He Shizhu, et al. Distant supervision for relation extraction with sentence-level attention and entity descriptions[C]//Proc of the 31st AAAI Conference on Artificial Intelligence, the 29th Innovative Applications of Artificial Intelligence Conference and the 7th Symposium on Educational Advances in Artificial Intelligence. Palo Alto,CA: AAAI Press, 2017: 3060-3066.

[5]Li Yangming, Liu Lemao, Shi Shuming. Empirical analysis of unlabeled entity problem in named entity recognition[EB/OL].(2021-03-18). https://arxiv.org/abs/2012.05426.

[6]Li Yangming, Liu Lemao, Shi Shuming. Rethinking negative sampling for handling missing entity annotations[EB/OL].(2022-02-25). https://arxiv.org/abs/2108.11607.

[7]Song Shengli, Zhang Nan, Huang Haitao. Named entity recognition based on conditional random fields[J]. Cluster Computing, 2017, 22(S3): 5195-5206.

[8]栗偉, 趙大哲, 李博, 等. CRF與規(guī)則相結(jié)合的醫(yī)學(xué)病歷實體識別[J]. 計算機應(yīng)用研究, 2015,32(4): 1082-1086. (Li Wei, Zhao Dazhe, Li Bo, et al. Combining CRF and rule based medical named entity recognition[J]. Application Research of Compu-ters, 2015, 32(4): 1082-1086.)

[9]Ahmed I, Sathyaraj R. Named entity recognition by using maximum entropy[J]. International Journal of Database Theory & Application, 2015, 8:43-50.

[10]原旎, 盧克治, 袁玉虎, 等. 基于深度表示的中醫(yī)病歷癥狀表型命名實體抽取研究[J]. 世界科學(xué)技術(shù)-中醫(yī)藥現(xiàn)代化, 2018, 20(3): 355-362. (Yuan Ni, Lu Kezhi, Yuan Yuhu,et al. Depth representation-based named entity extraction for symptom phenotype of TCM medical record[J]. World Science and Technology—Modernization of Traditional Chinese Medicine and Materia Medica, 2018, 20(3): 355-362.)

[11]Patil N V, Patil A S, Pawar B V. HMM based named entity recognition for inflectional language[C]//Proc of International Conference on Computer, Communications and Electronics. Piscataway, NJ: IEEE Press, 2017: 565-572.

[12]王博冉, 林夏, 朱曉東,等. Lattice LSTM神經(jīng)網(wǎng)絡(luò)法中文醫(yī)學(xué)文本命名實體識別模型研究[J]. 中國衛(wèi)生信息管理雜志, 2019, 16(1): 84-88. (Wang Boran, Lin Xia, Zhu Xiaodong, et al. Chinese name language entity recognition(NER) using Lattice LSTM in medical language[J]. Chinese Journal of Health Informatics and Management, 2019,16(1): 84-88.)

[13]Lample G, Ballesteros M, Subramanian S, et al. Neural architectures for named entity recognition[C]//Proc of Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies.Stroudsburg, PA: Association for Computational Linguistics, 2016: 260-270.

[14]Devlin J, Chang M W, Lee K, et al. BERT: pre-training of deep bidirectional transformers for language understanding[C]//Proc of the Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Stroudsburg, PA: Association for Computational Linguistics, 2019:4171-4186.

[15]Fu Jinlan, Huang Xuanjing, Liu Pengfei. SpanNER: named entity recognition as span prediction[C]//Proc of the 59th Annual Meeting of the Association for Computational Linguistics and the 11th International Joint Conference on Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2021: 7183-7195.

[16]游新冬, 劉陌村, 韓君妹,等. EMSS: 一種基于Span匹配的中文實體抽取方法[J/OL]. 小型微型計算機系統(tǒng). (2023-07-10). http://kns.cnki.net/kcms/detail/21.1106.TP.20230710.1020.003.html. (You Xindong, Liu Mocun, Han Junmei, et al. EMSS: a Chinese entity extraction method based on Span matching[J/OL].Journal of Chinese Computer Systems. (2023-07-10). http://kns.cnki.net/kcms/detail/21.1106.TP.20230710.1020.003.html.)

[17]Yang Yaosheng, Chen Wenliang, Li Zhenghua, et al. Distantly supervised NER with partial annotation learning and reinforcement lear-ning[C]//Proc of the 27th International Conference on Computational Linguistics. Stroudsburg, PA: Association for Computational LinguisticPeElexO9iLW9K2uUQQNYdNcQyXvqx2SqmcxswMohuRM=s, 2018: 2159-2169.

[18]Peng Minlong, Xing Xiaoyu, Zhang Qi, et al. Distantly supervised named entity recognition using positive-unlabeled learning[C]//Proc of the 57th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2019: 2409-2419.

[19]楊一帆, 施淼元, 繆慶亮,等. 基于遠程監(jiān)督的病歷文本漏標(biāo)問題研究[J]. 中文信息學(xué)報, 2022, 36(8): 73-80. (Yang Yifan, Shi Miaoyuan, Miao Qingliang, et al. Conquering unlabeled entity in medical record text under distant supervision framework[J]. Journal of Chinese Information Processing, 2022, 36(8): 73-80.)

[20]Xu Lu, Bing Lidong, Li Wei. Sampling better negatives for distantly supervised named entity recognition[C]//Proc of the 61st Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2023: 4874-4882.

[21]Yang Linyi, Yuan Lifan, Cui Leyang, et al. FactMix: using a few labeled in-domain examples to generalize to cross-domain named entity recognition[C]//Proc of the 29th International Conference on Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2022: 5360-5371.

[22]Wei J, Zou Kai. EDA: easy data augmentation techniques for boosting performance on text classification tasks[C]//Proc of Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2019: 6382-6388.

[23]Zhang Zhilu, Sabuncu M R. Generalized cross entropy loss for trai-ning deep neural networks with noisy labels[C]//Proc of the 32nd International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2018: 8792-8802.

[24]Shang Jingbo, Liu Liyuan, Gu Xiaotao, et al. Learning named entity tagger using domain-specific dictionary[C]//Proc of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2018: 2054-2064.

[25]Weischedel R, Palmer M, Marcus M, et al. OntoNotes release 4. 0. LDC2011T03[EB/OL].(2011-02-15). https://doi.org/10.35111/gfjf-7r50.

[26]Ma Xuezhe, Hovy E. End-to-end sequence labeling via bi-directional LSTM-CNNs-CRF[C] //Proc of the 54th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2016: 1064-1074.

[27]Cao Yixin, Hu Zikun, Chua T S, et al. Low-resource name tagging learned with weakly labeled data[C]//Proc of Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2019: 261-270.

[28]Yan Hang, Deng Bocao, Li Xiaonan, et al. TENER: adapting Transformer encoder for named entity recognition[EB/OL].(2019-12-10). https://arxiv.org/abs/1911.04474.

[29]Li Xiaonan, Yan Hang, Qiu Xipeng, et al. FLAT: Chinese NER using flat-lattice transformer[C]//Proc of the 58th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2020: 6836-6842.

[30]Zhang Yue, Yang Jie. Chinese NER using Lattice LSTM[C] //Proc of the 56th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: Association for Computational Linguistics, 2018: 1554-1564.

水城县| 威信县| 隆昌县| 繁峙县| 潮安县| 简阳市| 石门县| 淮南市| 德兴市| 兰考县| 许昌县| 郧西县| 铁岭县| 冷水江市| 隆化县| 思茅市| 邯郸市| 虹口区| 石门县| 兰州市| 建平县| 漳平市| 绵阳市| 怀化市| 高安市| 神农架林区| 响水县| 镇江市| 闵行区| 顺平县| 雅安市| 淄博市| 西乌珠穆沁旗| 六盘水市| 茂名市| 临安市| 海原县| 涟源市| 会泽县| 阿坝| 阜南县|