国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向新類型人名識別的數(shù)據(jù)增強(qiáng)方法

2019-08-05 07:42:08宋希良韓先培
中文信息學(xué)報 2019年6期
關(guān)鍵詞:子集詞典實體

宋希良, 韓先培, 孫 樂

(1. 中國科學(xué)院 軟件研究所 中文信息處理實驗室,北京 100190; 2. 中國科學(xué)院大學(xué),北京 100049)

0 引言

命名實體識別(named entity recognition,NER)是信息抽取中的基礎(chǔ)任務(wù),旨在從無結(jié)構(gòu)的文本中識別出人名、地名和組織結(jié)構(gòu)名等類型的實體。人名識別可以作為命名實體識別任務(wù)的一部分,使用命名實體識別的方法與其他類型的實體同時進(jìn)行識別;其也可以作為一項單獨的任務(wù),使用基于規(guī)則、詞典、統(tǒng)計以及混合的方法進(jìn)行識別。

基于規(guī)則的方法需要領(lǐng)域?qū)<铱偨Y(jié)并維護(hù)大量的規(guī)則,需要相應(yīng)的人力成本;基于詞典的方法只能識別詞典范圍內(nèi)的實體,泛化性能差。除純粹基于規(guī)則和詞典的方法外,當(dāng)前的人名識別方法依賴于訓(xùn)練語料對特定類型人名的覆蓋,在遇到新類型人名時識別性能顯著下降。例如,《人民日報》語料中的人名大部分都是漢族人名,系統(tǒng)在遇到維吾爾人名、日本人名和蘇俄人名等子類型人名時性能很差。

針對上述問題重新構(gòu)建訓(xùn)練語料是一種耗時耗力的任務(wù)。有研究者利用Wikipedia的結(jié)構(gòu)自動標(biāo)注數(shù)據(jù)用于訓(xùn)練數(shù)據(jù),如DBpedia Spotlight[注]https://www.dbpedia-spotlight.org/、TagMe[注]https://tagme.d4science.org/tagme/、AIDA[注]https://gate.d5.mpi-inf.mpg.de/webaida等,但其存在兩個問題:一是其實體來源于Wikipedia實體集合,大部分是比較常見的實體,且其類型和規(guī)模不能進(jìn)行擴(kuò)展;二是其文本來自Wikipedia文本,訓(xùn)練得到的模型對其他類型的文本(如來自社交媒體的文本)的性能會變差。也有研究者提出基于詞典的數(shù)據(jù)標(biāo)注方法,文獻(xiàn)[1]提出了兩種使用詞典進(jìn)行標(biāo)注訓(xùn)練的方法,一種是使用生語料庫詞典匹配的訓(xùn)練方法(DMC Training),另一種是使用生語料庫自動標(biāo)注加詞典增強(qiáng)與標(biāo)注語料庫相結(jié)合的訓(xùn)練方法(DECAC Training)。此類方法也存在兩個問題:一是這種類似于遠(yuǎn)距離監(jiān)督學(xué)習(xí)的方法會產(chǎn)生標(biāo)注噪聲,詞典中的實體在不同的上下文中可能不是實體或者與詞典中的實體類型不一致;二是對于不在詞典中的真實實體則會被錯誤地標(biāo)注成非實體。

此外,針對子類型人名識別問題,有學(xué)者針對不同的人名子類型,總結(jié)該子類型人名特點,使用規(guī)則、詞典、統(tǒng)計以及相混合的方法構(gòu)建特定于該類型的人名識別系統(tǒng)。文獻(xiàn)[2-3]使用統(tǒng)計和規(guī)則相結(jié)合的方法來識別日本人名以及音譯人名,文獻(xiàn)[4]利用統(tǒng)計的方法結(jié)合總結(jié)的維吾爾人名的構(gòu)成規(guī)則來進(jìn)行維吾爾族人名的識別,文獻(xiàn)[5]針對音譯人名的發(fā)音特點,將中文拼音與對應(yīng)外語的字符串映射到國際音標(biāo)字母表(international phonetic alphabet,IPA)然后基于發(fā)音相似度進(jìn)行音譯人名的識別。該類型方法的準(zhǔn)確率較高,但移植到其他人名子類型的靈活性比較差。

針對以上問題,本文提出了一種基于數(shù)據(jù)增強(qiáng)(data augmentation)的方法,通過簡單的新類型實體替換策略來生成偽訓(xùn)練數(shù)據(jù),有效提升系統(tǒng)對不同新類型人名的識別性能。對每種子類型人名,本文提出了貪心的代表性子類型人名選擇算法來選擇有代表性的該類型人名實體的子集,讓模型自動學(xué)習(xí)該子類型的人名構(gòu)成特點,無需特定于該類型人名的先驗知識。

本文的組織結(jié)構(gòu)如下:第1節(jié)主要介紹相關(guān)工作;第2節(jié)主要介紹本文所采用的數(shù)據(jù)增強(qiáng)方法;第3節(jié)主要介紹實驗設(shè)置、實驗結(jié)果和實驗結(jié)論;最后一節(jié)介紹本文的結(jié)論和未來工作。

1 相關(guān)工作

人名識別可以作為NER任務(wù)的一部分,可以采用NER的方法進(jìn)行識別,此類方法通常將任務(wù)建模成序列標(biāo)注任務(wù),使用的統(tǒng)計模型有隱馬爾可夫模型HMM[6]、條件隨機(jī)場模型CRF[7-8]以及深度學(xué)習(xí)模型[9-12]等。對特定的子類型人名識別時,當(dāng)前的方法主要采用針對特定于該子類型的特點,利用該子類型先驗知識,建立特定于該子類型人名的模型。文獻(xiàn)[13]使用基于語義角色標(biāo)注的方法,利用中國人名及上下文中的不同角色作用,來進(jìn)行中國人名識別,該方法依賴于訓(xùn)練語料中對中國人名以及上下文的角色覆蓋情況。也有學(xué)者針對人名的構(gòu)成特點,使用混合策略的方法進(jìn)行人名的識別。文獻(xiàn)[5]利用外國人名的中文音譯名的發(fā)音特點,提出了基于中文和外文相似度的外文翻譯人名的識別方法;文獻(xiàn)[3,14]提出了CRF模型初篩—人名可行度模型確認(rèn)—上下文規(guī)則篩選—局部統(tǒng)計算法進(jìn)行邊界糾正—全文擴(kuò)散未識別人名的統(tǒng)計和規(guī)則相結(jié)合的線式方法,規(guī)則主要來源于基于錯誤驅(qū)動的轉(zhuǎn)換學(xué)習(xí)和基于人名的邊界糾正規(guī)則。以上的方法的性能均依賴于標(biāo)注數(shù)據(jù),標(biāo)注數(shù)據(jù)的覆蓋情況、質(zhì)量及規(guī)模決定了模型的性能。

與本文相關(guān)的一項評測任務(wù)是WNUT2017[注]http://noisy-text.github.io/2017/emerging-rare-entities.html組織的評測任務(wù)“Emerging and Rare entity recognition”,該任務(wù)旨在從最新出現(xiàn)的文本如社交媒體文本中,識別出比較稀少或未出現(xiàn)過的實體。該評測任務(wù)的潛在要求是待識別的實體在訓(xùn)練數(shù)據(jù)中沒有出現(xiàn)過或者出現(xiàn)的次數(shù)極少,因此該任務(wù)限制了訓(xùn)練數(shù)據(jù)中實體的覆蓋度。參與評測任務(wù)隊伍模型的主要框架是基于詞、字符的Bi-LSTM-CRF模型,各個隊伍主要進(jìn)行了兩個方向的探索:一是實體本身信息的探索如實體、組塊、詞典等更深層次的信息;二是實體上下文信息的探索,如全局上下文信息和局部上下文信息。

也有學(xué)者研究不同領(lǐng)域間的命名實體識別問題,即領(lǐng)域適應(yīng)問題。其假設(shè)與本文稍有不同:假設(shè)源領(lǐng)域和目標(biāo)領(lǐng)域的上下文分布不同,但實體的類別標(biāo)簽相同或類似。根據(jù)目標(biāo)領(lǐng)域中的數(shù)據(jù)是否有標(biāo)注,可以分為兩種類型的任務(wù):第一種,目標(biāo)領(lǐng)域沒有標(biāo)注數(shù)據(jù),只有大量未標(biāo)注數(shù)據(jù);第二種,目標(biāo)領(lǐng)域有少量標(biāo)注數(shù)據(jù)和大量未標(biāo)注數(shù)據(jù)。第一種任務(wù)主要采用的是無監(jiān)督領(lǐng)域適應(yīng)方法,文獻(xiàn)[15-16]利用主題模型如LSA和LDA將特征映射到潛在語義空間,以此來進(jìn)行領(lǐng)域適應(yīng);文獻(xiàn)[17]使用迭代訓(xùn)練的方式,在大量的未標(biāo)注目標(biāo)數(shù)據(jù)集上訓(xùn)練模型。在第二種任務(wù)中,針對目標(biāo)領(lǐng)域的少量標(biāo)注數(shù)據(jù),不同的研究者提出了不同的使用方式:文獻(xiàn)[18]與主題模型類似,將源領(lǐng)域和目標(biāo)領(lǐng)域的特征組織成層次的樹狀結(jié)構(gòu),然后在訓(xùn)練目標(biāo)領(lǐng)域模型時,使用源領(lǐng)域模型的先驗知識,以此來進(jìn)行領(lǐng)域適應(yīng);文獻(xiàn)[19-20]在領(lǐng)域之間共享全部或部分架構(gòu)源,但其目的是使用源領(lǐng)域訓(xùn)練的參數(shù)對目標(biāo)領(lǐng)域參數(shù)進(jìn)行初始化,以此來利用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到的源領(lǐng)域的語義先驗知識。

2 數(shù)據(jù)增強(qiáng)方法

新類型人名實體的識別性能依賴于訓(xùn)練數(shù)據(jù)對這些人名的覆蓋,而通用領(lǐng)域的人名訓(xùn)練數(shù)據(jù)往往不包含新類型的人名實體,或者僅包含很少量的新類型人名實體。包含新類型人名的真實訓(xùn)練數(shù)據(jù)不易獲取,但其人名集合及通用領(lǐng)域人名訓(xùn)練數(shù)據(jù)容易獲取。本文假設(shè)不同類型的人名出現(xiàn)的上下文分布一致,基于此假設(shè)提出了數(shù)據(jù)增強(qiáng)(data augmentation,DA)方法,通過獲取不同人名子類型的詞典,以簡單的替換策略來自動生成符合語法和假設(shè)的新類型人名標(biāo)注實例。

2.1 人名上下文條件獨立性假設(shè)

在不同的人名子類型出現(xiàn)的上下文中,有很多通用的上下文,例如,人名后面可以有表示動作性的詞語,前面可以有表示頭銜的詞語。這些比較通用的上下文對判定候選詞是否是人名提供必要的信息;另一方面,在不同的人名子類型出現(xiàn)的上下文中,也有特定于其子類型的上下文,例如,日本人名的上下文可以是包含與日本有關(guān)的地名、組織機(jī)構(gòu)名等,這些上下文對區(qū)分該人名的子類型提供重要的信息。特定人名子類型的上下文只能通過包含該子類型人名的真實標(biāo)注數(shù)據(jù)獲取,由于缺乏真實的標(biāo)注數(shù)據(jù),這一類信息很難獲取到,但通用的上下文信息可以在通用領(lǐng)域的標(biāo)注數(shù)據(jù)中獲取。在本文中,不同子類型的人名統(tǒng)一標(biāo)注為PER,不區(qū)分其子類型,同時為了充分利用通用人名標(biāo)注數(shù)據(jù)來自動生成子類型人名標(biāo)注數(shù)據(jù),本節(jié)提出了人名上下文條件獨立性假設(shè)。該假設(shè)指不同類型的人名出現(xiàn)的上下文分布一致,具體地,給定出現(xiàn)人名實體的上下文,其出現(xiàn)的人名子類型與上下文無關(guān)。更形式地,給定人名左上下文Cleft,以及右上下文Cright,其出現(xiàn)不同人名子類型peri,perj的概率相等,如式(1)所示。

P(peri|Cleft,Cright)=P(perj|Cleft,Cright), ?i≠j

(1)

例如,“今天上午,{PER} 出席了會議,并做了大會報告?!敝械腜ER可以是任何人名子類型的實體。

本文在Chinese Gigaword第二版中的新華社語料[注]https://catalog.ldc.upenn.edu/LDC2005T14中,統(tǒng)計了不同類型的人名及其上下文的分布情況。本文在使用Stanford NER工具進(jìn)行標(biāo)注以后,將人名分為漢族人名、歐美人名、日本人名、蘇俄人名及新疆維吾爾族人名(維族人名),計算各種子類型人名之間的JS散度,計算結(jié)果如表1所示。從表1中可以看出,各種子類型人名之間的JS散度值比較小,而與整個語料的JS散度值比較大,這在一定程度上驗證了本文提出的上下文條件獨立性假設(shè)。

表1 各種人名子類型上下文以及語料分布的JS距離

2.3 新類型人名選擇與詞典獲取

本文選擇的人名的子類型是維族人名子類型、日本人名子類型以及蘇俄人名子類型。維吾爾人名雖然屬于中國人名,但由于維吾爾人有自己的獨立語言,人名數(shù)量多、規(guī)律性差、隨意性大、結(jié)構(gòu)成分復(fù)雜、歧義性較大,識別起來存在著一定困難[4],且因其相關(guān)的研究比較少,因此本文選 擇 了維吾爾人名子類型作為新類型人名之一。文獻(xiàn)[21]對人名做了深入統(tǒng)計:在3.8 萬個歐美人名、4.4萬個蘇俄人名和1.5萬個日本人名的實體名列表上,300個高頻歐美人名用字覆蓋了98.75%的歐美人名,200個高頻蘇俄人名覆蓋了99.32%的蘇俄人名,而1 000個高頻日語人名用字覆蓋了94.19%的日本人名。相比歐美人名,日本人名用字相對比較廣,姓氏比較多,且還有許多與地名重合的部分,識別起來更具有挑戰(zhàn)性,因此本文選擇了日本人名子類型作為第二種新類型人名。蘇俄人名的識別相關(guān)研究比較少,本文選擇將其作為第三種新類型人名進(jìn)行識別。

新類型人名詞表存儲了新類型人名使用的字符和詞語的分布和組合情況,主要用于生成新類型人名訓(xùn)練語料。本文采用多種策略,從互聯(lián)網(wǎng)上獲取對應(yīng)的子類型人名實體表,主要來源于現(xiàn)成的人名詞表,如搜狗詞庫[注]https://pinyin.sogou.com/dict/;雙語人名詞表,如新華社世界人名翻譯大辭典[22];對應(yīng)子類型人名的垂直網(wǎng)站,如新疆地區(qū)政府網(wǎng)站、教育網(wǎng)站的公示信息等。

2.3 訓(xùn)練實例生成

獲取新類型人名詞典以后,需要使用該詞典與通用人名的標(biāo)注語料生成新類型人名的標(biāo)注數(shù)據(jù)。當(dāng)新類型的人名資源不容易獲取時,獲取到的新類型人名詞典的規(guī)模比較小,這時可以使用該新類型人名詞典的全部人名實體生成標(biāo)注數(shù)據(jù),這樣不會使得學(xué)習(xí)到的模型在標(biāo)注時傾向于該類型人名實體。本文獲取到的三種新類型人名實體的規(guī)模與訓(xùn)練語料標(biāo)注實例在同一數(shù)量級上,使用全部的詞典會使得新產(chǎn)生的標(biāo)注數(shù)據(jù)中該人名子類型的標(biāo)注實例頻率遠(yuǎn)超于其他類型(如通用人名)實例,而且使用過多的詞典,會使得上下文重復(fù)出現(xiàn),模型在訓(xùn)練數(shù)據(jù)上出現(xiàn)過擬合現(xiàn)象。因此產(chǎn)生新類型標(biāo)注數(shù)據(jù)時,需要選擇新類型詞典中的一個子集,該子集能夠有效地代表整個新類型詞典,使用其產(chǎn)生更合理的標(biāo)注數(shù)據(jù)。

本節(jié)從兩個方面研究了代表整個字典的子集選擇方法。一方面,選擇的子集的詞匯能盡可能多地覆蓋整個詞典的詞匯。這里的詞匯可以是字符,也可以是分詞的子詞。本文研究了使用字符時的子集覆蓋情況,發(fā)現(xiàn)維族人名和蘇俄人名的子集的規(guī)模僅僅在幾百時就能覆蓋整個集合,日本人名子集規(guī)模稍微大一些,但其規(guī)模相對于訓(xùn)練實例的數(shù)量都太小,而使用字符覆蓋不能保證子詞的覆蓋,這對基于詞粒度的人名識別系統(tǒng)的幫助是有限的。本文使用的人名實體識別模型是基于詞粒度的,因此選擇使用子詞的覆蓋度進(jìn)行子集選擇,同時在分詞時本文選擇最小粒度的分詞器,這樣盡可能地減少分詞錯誤,減少子集選擇的規(guī)模。給定子集的規(guī)模大小N,本文定義的覆蓋度如式(2)所示。

Coverage=|Udict∩UN|/|Udict|

(2)

其中,UN表示規(guī)模為N的子集的子詞集合,Udict表示整個新類型詞典的子詞的集合,|U|表示集合U的元素數(shù)量。

另一方面,詞典中的子詞有的是高頻子詞,包含該子詞的人名也是相對高頻人名,包含詞典中的長尾子詞人名是相對低頻人名。為了使得子集能夠包含更多的高頻子詞,同時也覆蓋長尾的子詞,選擇的子集子詞分布要盡可能地與整個詞典子詞分布接近。本文使用KL距離描述子集和全集的子詞分布相似程度,如式(3)所示。

(3)

其中,p是全集的子詞分布,q是子集的子詞分布。

上述的兩個目標(biāo)相互影響,同時優(yōu)化比較困難。為了簡化問題,本文提出了貪心的代表性子類型人名選擇算法,將以上兩個過程分開,分別使用貪心的替代算法。首先設(shè)定子集的初始規(guī)模N,使用貪心的策略最大化字符覆蓋度;之后設(shè)定子集增大的最大規(guī)模為αN(α>1),使用貪心的策略最大化子集和全集的子詞分布相似度。上述過程的算法描述如算法1所示。

Algorithm1:代表性子類型人名選擇算法Input:特定新類型人名實體集合Udict,覆蓋度最大候選集合數(shù)N,候選子集最大數(shù)αN(α>1)Output:候選新類型人名子集UαN;候選子類型子集大小count←0;候選子類型子集UαN←[];新類型人名全集剩余集合Uleft←UdictWhilecount(?person};count=count+1;EndWhilecount<αNdo 從集合Uleft選擇一個人名person,最大化KL(p‖q)減少量; IfKl(p‖q)>0then UαN=UαN∪{person}; Uleft=Uleft(?person}; count=count+1; EndEnd返回UαN

3 實驗及其結(jié)果

3.1 實驗設(shè)置

3.1.1 數(shù)據(jù)及其處理

本文選用1998年《人民日報》1—6月份的語料:1—4月的數(shù)據(jù)作為基本的訓(xùn)練集,5—6月的數(shù)據(jù)作為基本的測試集。對這些數(shù)據(jù)使用ansj[注]https://github.com/NLPchina/ansj_seg細(xì)粒度分詞器進(jìn)行分詞。在本文中,只考慮人名類別的實體,將地點和組織機(jī)構(gòu)類型的實體忽略。原始訓(xùn)練和測試數(shù)據(jù)中的人名出現(xiàn)次數(shù)和人名出現(xiàn)句子數(shù)的統(tǒng)計信息如表2所示。構(gòu)造的三種新類型人名詞典,其規(guī)模都在3萬以上,如表3所示[注]部分人名來自https://github.com/wainshine/Chinese-Names-Corpus并進(jìn)行了過濾。。

表2 訓(xùn)練測試數(shù)據(jù)人名統(tǒng)計信息

表3 新類型人名詞典規(guī)模

本文使用兩種類型的測試數(shù)據(jù):一種是使用數(shù)據(jù)增強(qiáng)的方式自動生成的包含新類型人名的偽測試數(shù)據(jù),其中的子類型人名從不在訓(xùn)練數(shù)據(jù)中出現(xiàn)的人名詞典中隨機(jī)選擇;另一種是從三種新類型人名的新聞網(wǎng)站獲取并人工標(biāo)注的真實數(shù)據(jù)。這些新聞網(wǎng)站包括天山網(wǎng)[注]http://www.ts.cn/、俄羅斯衛(wèi)星通訊社[注]http://sputniknews.cn/、日本新聞網(wǎng)[注]http://www.ribenxinwen.com/等。按照三種新類型人名等比例標(biāo)注,去掉大量不包含新類型人名的句子以及噪聲數(shù)據(jù),共標(biāo)注536句,人名實體出現(xiàn)540次。

本文設(shè)定每一種新類型人名子集的最大實體數(shù)為包含通用人名句子數(shù)的1/3,使用覆蓋度策略選擇子類型人名時,N大小設(shè)置為能夠覆蓋90%該子類型人名詞典子詞的最小子詞數(shù)。

3.1.2 模型

為了更好地適應(yīng)不同人名子類型的識別,提高模型的通用性,本文選擇了不同的模型。為了減少模型本身帶來的誤差,我們選擇了兩類模型三種實現(xiàn)方法。第一類模型是傳統(tǒng)的CRF模型,本文選擇了Stanford CRF[8]和CRFsuite[23]兩種實現(xiàn)方法;第二種是基于深度學(xué)習(xí)的模型,本文選擇的是Anago[12]實現(xiàn)方法。其中Stanford CRF使用其在OntoNotes數(shù)據(jù)集上調(diào)優(yōu)的特征集合。CRFSuite的特征模板為窗口為6的上下文字符、子詞以及前綴、后綴、長度等。Anago的詞向量來自Wikipedia中文數(shù)據(jù)訓(xùn)練的200維度詞向量,同時使用了基于字符的向量,其他參數(shù)默認(rèn)。本文實驗中均沒有使用詞性特征。

3.1.3 對比實驗設(shè)置

本節(jié)使用《人民日報》的原始訓(xùn)練數(shù)據(jù)分別訓(xùn)練三個模型,以此作為基線系統(tǒng),記作Base,使用新類型人名增強(qiáng)的訓(xùn)練數(shù)據(jù)訓(xùn)練的三個模型作為對比系統(tǒng),記作DA。將訓(xùn)練得到的系統(tǒng)分別在偽測試數(shù)據(jù)和真實標(biāo)注數(shù)據(jù)上進(jìn)行測試,在模型后面分別使用fake和mannual作標(biāo)記。評價的指標(biāo)為人名實體的準(zhǔn)確率(P)、召回率(R)和F1值。

此外,為了對比覆蓋度和分布相似性兩個因素對實驗結(jié)果的影響,本文構(gòu)造了“低覆蓋度—高分布相似性(LCHD)”和“高覆蓋度—低分布相似性(HCLD)”的兩組訓(xùn)練和測試數(shù)據(jù)集,使用上述的三個模型進(jìn)行實驗。

3.2 實驗結(jié)果及分析

將基線系統(tǒng)和對比系統(tǒng)在增強(qiáng)的測試數(shù)據(jù)集上進(jìn)行測試,偽測試數(shù)據(jù)中保留了部分原有的通用人名數(shù)據(jù)。表4展示了三種方法分別在不同語料上的人名識別結(jié)果。其中Base表示使用原始的《人民日報》數(shù)據(jù)訓(xùn)練得到的基線系統(tǒng),DA表示使用增強(qiáng)的數(shù)據(jù)訓(xùn)練得到的對比系統(tǒng)?!澳P?fake)”和“模型(mannual)”分別表示模型在偽測試數(shù)據(jù)中的測試結(jié)果和在真實標(biāo)注數(shù)據(jù)上的測試結(jié)果。表5展示了三種詞典子集選擇策略的實驗結(jié)果。

總體而言,在偽測試數(shù)據(jù)和人工標(biāo)注的新聞數(shù)據(jù)的測試結(jié)果中,人名識別的性能均有顯著提升,F(xiàn)1值分別提升了至少12個和6個百分點。從表4可以看出,在偽測試數(shù)據(jù)中,三種模型F1值均提升了12個以上百分點,其中CRFSuite模型提升最高,約20個百分點,其次是Stanford CRF,提升15個百分點,Anago的F1提升12個百分點。實驗結(jié)果表明,在對新類型人名不進(jìn)行人工標(biāo)注的情況下,使用新類型人名詞典基于數(shù)據(jù)增強(qiáng)方法生成的偽訓(xùn)練數(shù)據(jù),能夠充分利用通用人名標(biāo)注數(shù)據(jù)的標(biāo)注結(jié)果,顯著提升新類型人名的識別性能。

表4 三種模型與基線系統(tǒng)對比實驗結(jié)果

表5 三種詞典子集選擇策略實驗結(jié)果

三個模型在偽測試數(shù)據(jù)上的測試性能接近,但在《人民日報》原有數(shù)據(jù)集上進(jìn)行訓(xùn)練的基線模型中,Anago的F1值最高,其次是Stanford CRF模型。在人工標(biāo)注的真實數(shù)據(jù)集實驗中,三個模型的F1值均提升了6個百分點以上,Anago提升了12個百分點,CRFSuite和Stanford CRF分別提升了7個和6個百分點。真實測試數(shù)據(jù)的性能整體上要低于在偽測試數(shù)據(jù)上的性能,主要是由于真實數(shù)據(jù)來源于最新的新聞數(shù)據(jù),與1998年《人民日報》行文風(fēng)格差異很大,人名實體的上下文分布也不完全一致。

基于覆蓋度和分布相似性策略選擇的兩組訓(xùn)練數(shù)據(jù)訓(xùn)練的三組模型,在偽標(biāo)注數(shù)據(jù)集上的性能與基于兩種因素的選擇結(jié)果類似,F(xiàn)1相差在0.5個百分點以內(nèi)。其在真實的標(biāo)注數(shù)據(jù)集的測試結(jié)果如表5所示??傮w而言,考慮兩種因素的選擇策略(Gold)性能最佳。CRFSuite模型的F1值在三組選擇策略中非常接近;Stanford CRF模型的F1也比較接近,基于高分布相似性策略(LCHD)要比基于高覆蓋度策略(HCLD)的F1值高1.4個百分點;Anago模型的F1值在三種策略中差異比較大,Gold策略比LCHD高6個百分點,比HCLD高11.5個百分點。通過實驗樣例分析,雖然實驗中LCHD是低覆蓋度策略,但在真實數(shù)據(jù)集測試時,與HCLD策略的覆蓋度差異很小,但后者選擇的詞表與真實分布相反:HCLD策略更傾向于選擇真實分布中低頻的詞,這使得模型已覆蓋的詞典學(xué)習(xí)存在偏差。通過其他額外的實驗分析,我們發(fā)現(xiàn)通過高覆蓋率選擇初始的子集后,通過均勻分布選擇剩余的詞典詞語的策略,實驗性能也能接近Gold策略的結(jié)果。

在本文實驗中,基線方法的F1比較高的原因有三點:①《人民日報》語料中含有一些日本人名和音譯人名實體; ②本文使用的分詞器的分詞粒度比較小,很多新類型人名實體被分詞器分成了單字詞,這些單字詞在原始的人民日報語料中已經(jīng)被覆蓋了一部分; ③使用替換策略增強(qiáng)數(shù)據(jù)方法生成的測試數(shù)據(jù)實體的上下文與訓(xùn)練數(shù)據(jù)分布一致,模型可以根據(jù)上下文信息獲取部分實體的類別信息。

4 結(jié)論與展望

本文介紹了利用新類型人名詞典增強(qiáng)訓(xùn)練數(shù)據(jù)的方法,提出了貪心的代表性子類型人名選擇算法,用于解決訓(xùn)練數(shù)據(jù)不覆蓋新類型人名時模型不能有效識別這些人名實體的問題。實驗對比了在偽測試數(shù)據(jù)和真實測試數(shù)據(jù)下的識別結(jié)果,本文提出的方法對識別結(jié)果均有顯著提高。

目前本文只考慮了人名實體類型,沒有考慮其他實體類型,在未來工作中,我們將探索多種實體類型的數(shù)據(jù)增強(qiáng)方法,以進(jìn)一步提高模型對不同實體的各種子類型的識別能力。此外,本文中所選擇的詞典的子集規(guī)模相對比較大,沒有深入探究產(chǎn)生最佳性能的最小的詞典子集規(guī)模,在未來工作中,我們將繼續(xù)研究選擇詞典子集的最小規(guī)模,以及影響該規(guī)模的因素。

猜你喜歡
子集詞典實體
由一道有關(guān)集合的子集個數(shù)題引發(fā)的思考
拓?fù)淇臻g中緊致子集的性質(zhì)研究
關(guān)于奇數(shù)階二元子集的分離序列
米沃什詞典
文苑(2019年24期)2020-01-06 12:06:50
前海自貿(mào)區(qū):金融服務(wù)實體
中國外匯(2019年18期)2019-11-25 01:41:54
評《現(xiàn)代漢語詞典》(第6版)
實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
詞典例證翻譯標(biāo)準(zhǔn)探索
兩會進(jìn)行時:緊扣實體經(jīng)濟(jì)“釘釘子”
振興實體經(jīng)濟(jì)地方如何“釘釘子”
黎川县| 潜山县| 灵宝市| 吉安市| 垫江县| 琼结县| 华安县| 于田县| 金川县| 阿城市| 敖汉旗| 峨边| 搜索| 宜州市| 礼泉县| 道孚县| 宣威市| 弋阳县| 河间市| 辽宁省| 南召县| 华阴市| 东乌| 确山县| 青阳县| 西和县| 泰兴市| 托克逊县| 三亚市| 安多县| 广安市| 昌乐县| 专栏| 句容市| 叙永县| 公主岭市| 普格县| 天峻县| 鄱阳县| 浙江省| 庄河市|