国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向中文社交媒體語料的無監(jiān)督新詞識別研究

2018-05-04 06:46黃鍇宇黃德根
中文信息學(xué)報 2018年3期
關(guān)鍵詞:詞串新詞分詞

張 婧,黃鍇宇,梁 晨,黃德根

(大連理工大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧 大連 116024)

0 引言

社交媒體數(shù)據(jù)承載著大量輿情信息及商業(yè)信息。近年來,面向微博等社交媒體語料的自然語言處理任務(wù)受到廣泛關(guān)注,例如,微博情感分析[1]、命名實體識別[2-4]、熱點事件抽取[5]等。此外,還有很多面向微博語料的評測任務(wù),例如,COAE2014評測任務(wù)中新增加了面向微博的情感新詞發(fā)現(xiàn)任務(wù),NLPCC2015也開展了面向微博的中文分詞及詞性標(biāo)注任務(wù)[6]。目前,很多優(yōu)秀的中文分詞系統(tǒng)應(yīng)用在傳統(tǒng)語料(例如新聞、專利)上,已經(jīng)達(dá)到了令人滿意的效果[7-10]。然而,由于用戶在社交媒體中發(fā)表言論時通常使用極其隨意的表達(dá)方式,因此,社交媒體語料中包含很多縮略詞、轉(zhuǎn)義詞、諧音詞等新詞,使得現(xiàn)有的很多自然語言處理技術(shù)和工具無法正常用于社交媒體語料的詞法分析任務(wù)[11]。研究顯示,在中文分詞評測中,系統(tǒng)間性能差別最大的是未登錄詞的召回情況[12]。為了提高面向社交媒體語料的中文分詞效果,本文利用大規(guī)模未標(biāo)注的微博語料進(jìn)行新詞識別研究。

1 相關(guān)工作

新詞識別方法一般分為有監(jiān)督方法和無監(jiān)督方法。有監(jiān)督方法需要利用大規(guī)模熟語料作為訓(xùn)練語料,但面向社交媒體的熟語料極其匱乏,故無監(jiān)督方法更適用于面向微博語料的新詞識別任務(wù)。文獻(xiàn)[13]提出采用信息熵(Information Entropy,IE)與詞法規(guī)則相結(jié)合的無監(jiān)督方法,識別微博語料中的新詞,該文獻(xiàn)首先采用詞關(guān)聯(lián)性信息的迭代上下文熵算法獲取候選新詞,再使用詞法信息進(jìn)行過濾,取得較好的效果。文獻(xiàn)[14]提出Overlap Variety(OV)方法來解決微博語料中低頻新詞的召回問題,OV方法在衡量候選新詞可信度的時候不單純考慮候選新詞的頻率,而是比較該候選新詞的前后鄰接詞(Accessor Variety,AV)和該候選新詞的覆蓋串的AV值。該篇文獻(xiàn)的實驗表明,OV方法是目前新詞識別效果最先進(jìn)的方法之一。

現(xiàn)有的無監(jiān)督新詞識別方法大都采用傳統(tǒng)統(tǒng)計量IE、AV、PMI(Point-wise Mutual Information)等提取大規(guī)模未標(biāo)注語料中的詞碎片的分布信息。為了更加有效地使用已有的統(tǒng)計量,本文利用發(fā)展語料,分析了傳統(tǒng)統(tǒng)計量對有意義的二元詞串和無意義的二元詞串的區(qū)分效果,并選擇最具有區(qū)分力度的統(tǒng)計量對語料中的詞碎片進(jìn)行考量,獲得候選新詞。

除了以上傳統(tǒng)統(tǒng)計量之外,詞向量的提出為無監(jiān)督新詞識別方法提供了有利的參考信息。文獻(xiàn)[15]首先提出了分布式詞表示方法,又稱詞向量(word embedding)。通過大規(guī)模語料訓(xùn)練得到的詞向量既包含詞語的語義信息,又包含詞語的句法信息。文獻(xiàn)[16]提出了兩種訓(xùn)練詞向量的神經(jīng)網(wǎng)絡(luò)模型CBOW和Skip-gram,該方法采用低維空間表示法,不但解決了維數(shù)災(zāi)難問題,而且挖掘了詞語之間的關(guān)聯(lián)屬性,從而提高了詞語表示在語義上的準(zhǔn)確度。CBOW模型是在已知上下文的基礎(chǔ)上預(yù)測當(dāng)前詞,而Skip-gram模型恰好相反,是在已知當(dāng)前詞的基礎(chǔ)上預(yù)測其上下文。

目前,關(guān)于詞向量的研究備受關(guān)注。文獻(xiàn)[17]提出了一種新的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)來訓(xùn)練詞向量,該文獻(xiàn)的實驗證明,在訓(xùn)練詞向量的過程中,該方法能結(jié)合局部信息和全局信息更好地獲取詞的語義信息。文獻(xiàn)[18]提出了基于字向量和詞向量相結(jié)合的方式獲得詞向量,該文獻(xiàn)表明,字詞結(jié)合的詞向量比傳統(tǒng)詞向量涵蓋了更有效的語義及句法信息。

本文結(jié)合上述的詞向量技術(shù)和傳統(tǒng)統(tǒng)計量,提出了一種新的無監(jiān)督新詞識別方法。首先,使用PMI方法獲取候選新詞;其次,采用多種策略在大規(guī)模未標(biāo)注的微博語料上訓(xùn)練得到字向量和詞向量;再根據(jù)訓(xùn)練得到的字向量和詞向量構(gòu)建成詞概率較低的弱成詞詞串集合,利用該集合對候選新詞從內(nèi)部構(gòu)成和外部環(huán)境兩個方面進(jìn)行過濾,以提高新詞識別效果。此外,本文還重現(xiàn)了目前新詞識別效果較好的Overlap Variety方法作為本文的對比實驗。

2 新詞定義及其分析

2.1 新詞定義

新詞,又稱未登錄詞,目前沒有統(tǒng)一的界定。文獻(xiàn)[19]將新詞定義為沒有在詞典中出現(xiàn)的詞;文獻(xiàn)[20]則認(rèn)為,新詞是指隨時代發(fā)展新出現(xiàn)的詞或舊詞新用的詞。本文所識別的新詞與傳統(tǒng)定義的新詞不同,不是單純指分詞系統(tǒng)詞典中不存在的詞,而是指分詞語料標(biāo)準(zhǔn)集中存在的,但分詞系統(tǒng)標(biāo)注結(jié)果中不存在的詞。具體定義如下:

GSS(gold standard set): 表示人工標(biāo)注的標(biāo)準(zhǔn)分詞集合。

SRS(segmented results set): 表示使用分詞工具進(jìn)行分詞后得到的分詞集合。

本文對新詞的定義: New word={w,w∈GSS 且 w?SRS}。

這樣定義的原因有兩點: 第一,該定義所指的新詞一部分屬于分詞系統(tǒng)所使用的詞典中不包含的詞,記為NWset1;另一部分屬于系統(tǒng)詞典中包括,但分詞系統(tǒng)未正確切分的詞,記為NWset2。這兩類新詞對于提高分詞系統(tǒng)的性能都具有重要的作用,NWset1可以豐富現(xiàn)有詞典的詞匯,而NWset2可以完善詞典中已有的詞語的成詞代價。第二,這樣定義新詞不局限于特定的某個詞典,因而即使對于詞典差異很大的分詞系統(tǒng),我們的定義也同樣適用。

2.2 新詞分析

我們根據(jù)《北京大學(xué)現(xiàn)代漢語語料庫基本加工規(guī)范》[21]人工標(biāo)注了一萬條微博語料作為發(fā)展語料,實驗數(shù)據(jù)部分對發(fā)展語料的標(biāo)注過程進(jìn)行了詳細(xì)介紹。經(jīng)過統(tǒng)計,發(fā)展語料標(biāo)準(zhǔn)集中的總詞條數(shù)(不同詞個數(shù))為46 112,其中新詞個數(shù)為22 957,新詞比例為49.79%,可見微博語料中包含大量新詞。此外,我們對發(fā)展語料中新詞的詞長分布進(jìn)行了分析,分析結(jié)果如圖1所示。

圖1表明,發(fā)展語料中的新詞主要由二元新詞和三元新詞構(gòu)成,二者之和占新詞總數(shù)的92%,遠(yuǎn)遠(yuǎn)超過其他新詞的比例。因此,本文重點識別微博語料中詞長不大于3的新詞。

圖1 發(fā)展語料中新詞的詞長分布

3 理論基礎(chǔ)

3.1 詞向量

詞向量的提出使得在無監(jiān)督的條件下獲得語料中詞語的語義信息成為可能。由于詞向量模型中基于softmax方法的Skip-gram模型更適用于低頻詞,而微博語料中新詞的頻率普遍偏低(經(jīng)統(tǒng)計,規(guī)模為一萬條微博的發(fā)展語料中,頻率為1的新詞占總詞條的69%)。因此本文使用基于softmax方法的Skip-gram模型訓(xùn)練得到詞向量,訓(xùn)練參數(shù)為: 維度=200,窗口=9,最低詞頻=1。實驗中我們收集了35萬條未標(biāo)注的微博語料用來訓(xùn)練詞向量。通過采用不同的策略,訓(xùn)練得到以下三種不同的詞向量,用于構(gòu)建候選新詞過濾集合。三種詞向量分別為: 詞向量WE,字向量CE和含位置信息的字向量LCE,為了敘述方便,后文統(tǒng)稱為詞向量。

詞向量: 使用Nihao分詞工具[8]對未標(biāo)注的微博語料進(jìn)行預(yù)分詞,將預(yù)分詞語料中的詞及詞碎片作為神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練單位,訓(xùn)練得到詞向量,記為WE(word embedding)。

字向量: 將未標(biāo)注的微博語料按字切分,將字作為神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練單位,訓(xùn)練得到字向量,記為CE(character embedding)。

含位置信息的字向量: 由于中文中字的歧義現(xiàn)象比較嚴(yán)重,為了獲得更加有效的字向量,我們使用分詞工具對大規(guī)模未標(biāo)注的微博語料進(jìn)行預(yù)分詞后,根據(jù)字在詞語中的位置對字進(jìn)行細(xì)分類。本文根據(jù)字在詞中的位置,將字分為四個類別: B表示該字出現(xiàn)在所在詞語的開始位置;E表示該字出現(xiàn)在所在詞語的結(jié)束位置;M表示該字出現(xiàn)在所在詞語的中間位置,即非開始位置和結(jié)束位置;S表示該字獨立成詞或表示該字為詞碎片。將含有分類信息的字作為神經(jīng)網(wǎng)絡(luò)模型的訓(xùn)練單位,訓(xùn)練得到包含位置信息的字向量,記為LCE(location information based character embedding)。

3.2 傳統(tǒng)統(tǒng)計量

在很多自然語言處理任務(wù)中,都會使用前后鄰接詞、信息熵、點互信息等統(tǒng)計量提取重要參考信息,本節(jié)將對這三種統(tǒng)計量在新詞識別任務(wù)中的使用方法進(jìn)行詳細(xì)介紹。

3.2.1 前后鄰接詞(Accessor Variety,AV)

文獻(xiàn)[22]首次提出Accessor Variety的概念,其核心思想是若某個詞串w是有意義的,那么它可以適用于多種不同的語言環(huán)境,即,如果一個詞串出現(xiàn)在不同的語言環(huán)境下,那它可能是有意義的。在新詞識別任務(wù)中,令Lav(w)表示與詞串w直接相鄰的不同的前一個字的個數(shù),Rav(w)表示與詞串w直接相鄰的不同的后一個字的個數(shù)。Lav(w)和Rav(w)這兩個值可以用來衡量詞串w對不同語境的適應(yīng)能力。詞串w的AV值定義如式(1)所示。

gav(w)=logAV(w)

(1)

其中,AV(w)=min{Lav(w),Rav(w)}。

3.2.2 信息熵(Information Entropy,IE)

信息熵是信息論的基本概念,又稱熵,可以衡量一個隨機(jī)變量的不確定性。一個隨機(jī)變量的信息熵越大,它的不確定性就越大,那么,正確估計其值的可能性就越小。在新詞識別任務(wù)中,我們利用信息熵衡量語料中某一詞串的所有前鄰接詞(或后鄰接詞)分布的不確定性。信息熵越小說明詞串的前鄰接詞(或后鄰接詞)分布越集中,這樣的詞串越有可能與其前鄰接詞(或后鄰接詞)合并形成候選新詞;反之,說明詞串的前鄰接詞(或后鄰接詞)分布的越分散,該詞串獨立成詞的可能性越大。我們用左信息熵LIE計算詞串與其前鄰接詞的信息熵,用右信息熵RIE計算詞串與其后鄰接詞的信息熵,計算如式(2)所示。

(2)

(3)

其中,w為當(dāng)前考察的詞串,m為w的前鄰接詞的總數(shù),n為w的后鄰接詞的總數(shù),lwi為w的第i個前鄰接詞,rwi為w的第i個后鄰接詞。

3.2.3 點互信息(Point-wiseMutualInformation,PMI)

點互信息源于信息論中的互信息,是一種用來度量關(guān)聯(lián)性的統(tǒng)計量。在新詞識別任務(wù)中,通常使用PMI來衡量詞碎片之間的共現(xiàn)程度,其具體的計算如式(4)所示。

(4)

其中,x、y表示語料中的詞或詞碎片,P(x,y)表示x和y作為相鄰詞串同時出現(xiàn)的頻率,P(x)、P(y)分別表示x和y在整個語料中出現(xiàn)的頻率。

4 新詞識別算法

在新詞識別過程中,由于二元新詞的構(gòu)成形式(單字+單字)相對于三元新詞的構(gòu)成形式(單字+二字、二字+單字、單字+單字+單字)較為簡單,因此,我們優(yōu)先識別二元新詞,根據(jù)過濾后的二元新詞對語料進(jìn)行自動修正,然后進(jìn)行二次迭代,識別三元新詞。每次迭代過程中,將新詞識別任務(wù)分為候選新詞識別和候選新詞過濾兩個子任務(wù),下面分別詳細(xì)介紹這兩個子任務(wù)的處理方法。

4.1 候選新詞識別

本文首先利用發(fā)展語料分析現(xiàn)有統(tǒng)計量(AV,IE,PMI)對預(yù)分詞結(jié)果中的單字詞碎片的區(qū)分效果,根據(jù)分析結(jié)果選擇區(qū)分效果最為明顯的統(tǒng)計量進(jìn)行候選新詞識別。由于二元新詞的識別結(jié)果將直接影響到三元新詞的識別,所以,在此分析過程中,我們主要針對連續(xù)的兩個單字組成的二元詞串進(jìn)行分析。分析方法及結(jié)果如下:

圖2 傳統(tǒng)統(tǒng)計量對二元詞串的區(qū)分效果

分析方法: 根據(jù)發(fā)展語料的預(yù)分詞結(jié)果(SRS集合)和標(biāo)準(zhǔn)集(GSS集合)獲取有意義的二元詞串和無意義的二元詞串,分別計算每個二元詞串的PMI值和二元詞串中第一個字的RIE值、RAV值,以及第二個字的LIE值、LAV值。每個統(tǒng)計量取不同值時所包含的二元詞串的比例如圖2所示。

詞串的獲取: 抽取發(fā)展語料的SRS集合中所有連續(xù)的兩個長度為1的詞串組成的二元詞串,記作SetAll。

有意義的詞串: 對于SetAll中的詞串bigramToken,如果發(fā)展語料的GSS集合中存在該詞串bigramToken,則bigramToken為有意義的詞串。

無意義的詞串: 對于SetAll中的詞串bigramToken,如果不在發(fā)展語料的GSS集合中,則bigramToken為無意義的詞串。

圖2的數(shù)據(jù)表明,IE(包括LIE和RIE)和AV(包括LAV和RAV)對有意義和無意義的二字詞串的區(qū)分度不大。即,無論IE和AV的閾值定為多少,識別結(jié)果中的有意義的詞串和無意義的詞串的比例都差不多;而PMI對有意義和無意義的詞串具有明顯的區(qū)分效果,PMI值大于-4的二字詞串中,有意義的詞串的比重明顯大于無意義的詞串。因此,本文選擇PMI對候選新詞進(jìn)行識別。在第一次迭代進(jìn)行二元候選新詞識別過程中,PMI閾值設(shè)為-4,即選擇PMI值大于-4的二元詞串作為候選新詞。

4.2 候選新詞過濾

現(xiàn)有的候選新詞的過濾方法一般是基于規(guī)則或詞典的方法,例如,詞性規(guī)則和停用詞詞典。這些方法的過濾效果較為明顯,但通用性較差。本文先利用詞向量構(gòu)建弱成詞詞串集合,然后再利用該集合對候選新詞從內(nèi)部構(gòu)成和外部環(huán)境兩個方面進(jìn)行過濾。由于詞向量可以根據(jù)不同的目標(biāo)語料訓(xùn)練得到,因此,該方法不局限于特定的語料,通用性較好。

本文所選的弱成詞詞串的功能與停用詞的功能類似(即與其他詞串合并成為詞語的能力較差),但弱成詞詞串不同于停用詞,二者主要有兩點不同: 第一,停用詞中包含詞長大于1的詞語,而我們構(gòu)建的弱成詞詞串只包含長度為1的字符;第二,停用詞不包含位置信息,而弱成詞詞串包含位置信息。

構(gòu)建弱成詞詞串集合時,我們選擇成詞能力較差的高頻單字詞及標(biāo)點作為種子集合。該種子集合共包含11個字符: {“我”,“是”,“的”,“了”,“在”,“?!保?,”,“、”,“;”,“!”,“?”}。然后利用詞向量計算當(dāng)前詞與種子集合中詞的相似度,以此為依據(jù)擴(kuò)展種子集合,經(jīng)過T次迭代進(jìn)而得到弱成詞詞串集合,本文實驗中,T=3。詞與集合的相似度計算公式如式(5)所示。利用詞向量和種子集合構(gòu)建弱成詞詞串集合的算法如算法1所示。

(5)

算法1:弱成詞詞串集合的構(gòu)建算法輸入:詞向量字典WEDictionary、種子集合SeedSet、預(yù)分詞語料segCorpus輸出:弱成詞詞串集合L1.foriterator=1toTdoL2. tokenSim=[] //用于存放詞和集合的相似度L3. fortokeninsegCorpusdoL4. iftoken的長度等于1thenL5. 獲取包含該token的詞向量L6. forwordinSeedSetdoL7. 獲取word的詞向量L8. endforL9. 根據(jù)式(5)計算token和SeedSet的相似度,將結(jié)果保存到tokenSim中L10 endifL11. endforL12. 將tokenSim中的token按照其相似度值從大到小排序,取TopM的token加入SeedSet中L13.endfor

構(gòu)建好弱成詞詞串集合后,從候選新詞的內(nèi)部構(gòu)成和外部環(huán)境兩個方面對候選新詞進(jìn)行過濾。從候選新詞的內(nèi)部構(gòu)成上對其進(jìn)行過濾時,利用弱成詞詞串集合判斷構(gòu)成候選新詞的詞碎片的成詞能力,如果構(gòu)成候選新詞的任一詞碎片的成詞能力較弱,則該候選新詞會被過濾掉;從候選新詞的外部環(huán)境上對其進(jìn)行過濾時,如果該候選新詞的前鄰接詞或后鄰接詞中包含成詞能力較弱的詞串,說明該候選新詞的外部環(huán)境較為穩(wěn)定,則該候選新詞不會被過濾掉,反之,該候選新詞會被過濾掉。具體如算法2所示。

算法2:候選新詞過濾算法輸入:詞向量詞典WEDictionary、弱成詞詞串集合AntiWordSet、候選新詞NWCandidateSet、預(yù)分詞語料segCorpus輸出:過濾后的候選新詞FilteredNW//從候選新詞的內(nèi)部構(gòu)成上對其進(jìn)行過濾:L1. forcandidate=wiwi+1inNWCandidateSetdoL2. 計算AS1=AvgSim(wi,AntiWordSetM)和AS2=AvgSim(wi+1,AntiWordSetM)L3. ifAS1大于閾值SIMorAS2大于閾值SIMthen將candidate過濾掉L4. endfor//從候選新詞的外部環(huán)境上對其進(jìn)行過濾:L5. forcandidate=wiwi+1inNWCandidateSetdoL6. 獲取candidate在segCorpus中的上下文contextStr=wi-cwi-c+1...wi-1wiwi+1...wi+1+cL7. 將所有contextStr加入到candidate的上下文集合contextStrSet中L8. environmentFlag=0L9. forcontextStr=wi-cwi-c+1...wi-1wiwi+1...wi+1+cincontextStrSetdoL10. 計算prefixContext=AvgSim(wj,AntiWordSetM),i-c≤j≤i-1L11. 計算suffixContext=AvgSim(wj,AntiWordSetM),i+2≤j≤i+1+cL12. ifprefixContext大于閾值SIMorsuffixContext大于閾值SIMthenenvironmentFlag=1L13. endforL14. ifenvironmentFlag==0then過濾該候選新詞candidateL15.endfor

表1 弱成詞詞串示例

在構(gòu)建弱成詞詞串集合的過程中,本文經(jīng)過T=3次迭代,經(jīng)過多次實驗,當(dāng)弱成詞詞串集合包含170個詞串時,實驗結(jié)果達(dá)到最優(yōu)。最終,獲得的弱成詞詞串集合包括120個標(biāo)點和50個字符。表1是弱成詞詞串集合中包含的部分標(biāo)點和字符。表中的標(biāo)點和字符后面的B、M、E、S表示該字符的位置。

5 實驗及實驗結(jié)果

5.1 實驗語料

未標(biāo)注語料: 為了獲得盡可能豐富的詞串信息,我們收集了2011~2015年近35萬條未標(biāo)注的微博語料,預(yù)分詞后,用于訓(xùn)練詞向量以及計算詞串的IE、AV、PMI等信息。

測試語料: 使用NLPCC2015年的面向微博語料的中文分詞評測任務(wù)的訓(xùn)練語料作為本實驗的測試語料,語料規(guī)模為一萬條微博[6]。

發(fā)展語料: 為了在完全不參考測試語料的情況下對本文的方法進(jìn)行調(diào)參,我們根據(jù)《北京大學(xué)現(xiàn)代漢語語料庫基本加工規(guī)范》[21]人工標(biāo)注了一萬條微博作為發(fā)展語料。為了確保人工標(biāo)注的一致性,我們隨機(jī)選取500條微博讓兩名標(biāo)注人員(標(biāo)注人員A和標(biāo)注人員B)對其進(jìn)行標(biāo)注,然后對比兩人的標(biāo)注結(jié)果,針對不一致的標(biāo)注結(jié)果進(jìn)行討論和修改,直到標(biāo)注的一致性達(dá)到一定的Kappa值[23]。因Kappa值考量了標(biāo)注人員隨機(jī)標(biāo)注的可能性,故它比一般的百分比計算方法更具有說服性,其計算如式(6)所示。

標(biāo)注人員的標(biāo)注任務(wù)是在預(yù)分詞的基礎(chǔ)上進(jìn)行的,假設(shè)預(yù)分詞結(jié)果為:W1W2...Wi...Wn,標(biāo)注人員是在原有詞串的間隔處進(jìn)行操作。如果選擇將Wi與Wi+1合并,標(biāo)注者在Wi與Wi+1之間的標(biāo)記為yes(記為下標(biāo)y),反之,如果不合并,則此處的標(biāo)記為no(記為下標(biāo)n)。根據(jù)兩名標(biāo)注人員的標(biāo)記結(jié)果,最后計算得到的kappa值為93.55%,這說明標(biāo)注結(jié)果已經(jīng)達(dá)到了較高的一致性,因此,標(biāo)注人員標(biāo)注的發(fā)展語料是可靠的。

其中,P(A)表示兩名標(biāo)注人員實際標(biāo)注一致的概率;P(e)表示兩名標(biāo)注人員隨機(jī)標(biāo)注一致的概率;C(AyBy)表示兩名標(biāo)注人員在對應(yīng)相同的地方都選擇合并的操作數(shù);C(AnBn)表示兩名標(biāo)注人員在對應(yīng)相同的地方都選擇不合并的操作數(shù),因預(yù)分詞結(jié)果中很多地方都不需要合并,且我們更關(guān)注兩名標(biāo)注人員同時選擇合并的情況。因此,在計算Kappa時,兩名標(biāo)注人員都未修改的地方不予考慮,即C(AnBn)=0;Count表示被任意一名標(biāo)注人員修改過的地方的總數(shù);P(Ay)表示標(biāo)注人員A標(biāo)注成yes的概率,即標(biāo)注人員A標(biāo)成yes的操作數(shù)除以標(biāo)注人員A總的操作數(shù),式(8)中的其他P(*)表示的意思類似于P(Ay)。

5.2 實驗設(shè)計及結(jié)果分析

5.2.1 新詞識別結(jié)果

實驗過程中,我們首先識別由兩個單字詞碎片組成的詞串,然后進(jìn)行二次迭代,獲得三元新詞。為了檢驗本文的方法,我們進(jìn)行了如下對比實驗,二元新詞的識別結(jié)果如表2所示。

表2 二元新詞識別結(jié)果

Baseline: 利用PMI識別預(yù)分詞語料中的二元新詞,其中PMI的閾值設(shè)定為-4;

Baseline+WE: 采用Baseline的方法獲得候選新詞,使用基于詞向量WE構(gòu)建的弱成詞詞串集合對候選新詞從內(nèi)部結(jié)構(gòu)方面進(jìn)行過濾;

Baseline+CE: 采用Baseline的方法獲得候選新詞,使用基于字向量CE構(gòu)建的弱成詞詞串集合對候選新詞從內(nèi)部結(jié)構(gòu)方面進(jìn)行過濾;

Baseline+LCE: 采用Baseline的方法獲得候選新詞,使用基于含有位置信息的字向量LCE構(gòu)建的弱成詞詞串集合對候選新詞從內(nèi)部結(jié)構(gòu)方面進(jìn)行過濾;

ExperimentX+External: 表示在實驗ExperimentX的基礎(chǔ)上,從外部環(huán)境方面對候選新詞進(jìn)一步進(jìn)行過濾,其中上下文窗口c的取值為1的實驗效果最佳;

OverlapVariety: 為了將本文提出的方法和現(xiàn)有優(yōu)秀的方法進(jìn)行對比,我們重現(xiàn)了文獻(xiàn)[14]提出的OverlapVariety方法。

數(shù)據(jù)顯示,單純從內(nèi)部構(gòu)成方面對候選新詞過濾的實驗中,LCE的過濾效果最為明顯,比基線系統(tǒng)的F值提高了3.28%,比Overlap Variety方法提高了1.43%;從外部環(huán)境對候選新詞過濾后,F(xiàn)值得到進(jìn)一步提高,最佳結(jié)果比基線系統(tǒng)提高了6.75%。實驗表明,本文利用含有位置信息的字向量構(gòu)建的弱成詞詞串集合能有效過濾二元候選新詞中的噪音詞串。

根據(jù)二元新詞的識別結(jié)果,將預(yù)分詞語料中的二元新詞進(jìn)行合并,然后進(jìn)行二次迭代,進(jìn)一步識別語料中的三元新詞。二次迭代過程中,獲取三元候選新詞時,同樣采用PMI方法。利用發(fā)展語料調(diào)整PMI閾值時,PMI閾值對新詞識別結(jié)果的影響如圖3所示。

由圖3可見,二次迭代的PMI閾值為2時,發(fā)展語料中新詞識別結(jié)果的F值達(dá)到峰值。因此,本文二次迭代時設(shè)定PMI閾值為2。最終發(fā)展語料中二元新詞和三元新詞的識別結(jié)果如表3的第一行數(shù)據(jù)所示;測試語料的識別結(jié)果如表3的第二行數(shù)據(jù)所示。

實驗結(jié)果表明,測試語料和發(fā)展語料的識別結(jié)果比較接近,說明本文提出的方法能夠有效識別二元和三元新詞,并對候選新詞中的噪音進(jìn)行有效過濾;同時,該結(jié)果也進(jìn)一步證明了我們標(biāo)注的發(fā)展語料的可信度。

表3 二元新詞和三元新詞的識別結(jié)果

此外,我們通過改變未標(biāo)注語料的大小,比較了語料規(guī)模對新詞識別結(jié)果的影響,實驗結(jié)果如圖4所示。實驗表明語料規(guī)模從1萬條微博(只包含發(fā)展語料)到35萬條微博逐漸擴(kuò)大時,召回率逐漸降低,精確率和F值不斷提高。當(dāng)語料規(guī)模達(dá)到15萬條微博后,實驗結(jié)果趨于平穩(wěn)。

5.2.2 新詞識別結(jié)果分析

我們最終識別到的新詞包括醫(yī)學(xué)、科技、金融、生物、影視娛樂等多種領(lǐng)域的術(shù)語;還有人名、地名、品牌名等命名實體;此外,還有包括字母、數(shù)字與漢字組合成的新詞,以及包含錯字的新詞。表4是我們識別到的新詞的舉例。

圖4 語料規(guī)模對新詞識別結(jié)果的影響

表4 新詞示例

雖然本文提出的方法能夠識別很多領(lǐng)域的新詞,但該方法仍存在缺點。該方法對四字詞的識別效果不佳,例如我們識別出的新詞中還包括“心如止”(正確為: 心如止水)、“語道破”(正確為: 一語道破);此外,新詞識別結(jié)果中除了上述識別不完整的四字詞外,還有類似于“負(fù)全責(zé)”、“請接力”、“取決于”、“隱藏著”等包含多余成分的錯誤詞語。因此,要獲得更加高質(zhì)量的新詞,還需要很多工作和努力。

6 總結(jié)和展望

本文是面向中文社交媒體語料的新詞識別研究。這一研究任務(wù)的難點在于,社交媒體語料中沒有成熟的訓(xùn)練語料,無法通過有監(jiān)督的方法訓(xùn)練得到可靠的新詞識別模型。因此,本文采用基于PMI和多種策略的詞向量的無監(jiān)督方法進(jìn)行新詞識別和過濾。實驗結(jié)果表明,本文利用詞向量構(gòu)建的弱成詞詞串集合對候選新詞進(jìn)行了有效過濾,新詞識別效果明顯優(yōu)于基線系統(tǒng)和現(xiàn)有的最佳的無監(jiān)督新詞識別方法之一Overlap Variety方法。此外,為了分析傳統(tǒng)統(tǒng)計量PMI、AV、IE等方法的識別效果,本文根據(jù)《北大分詞語料標(biāo)注規(guī)則》標(biāo)注了面向社交媒體語料的分詞語料,作為實驗的發(fā)展語料,發(fā)展語料的實驗結(jié)果與最終測試語料的實驗結(jié)果較為接近,證明本文標(biāo)注的發(fā)展語料具有較高的可靠性。

盡管本文所提出方法的識別結(jié)果得到了明顯提高,但最終的F值還沒有達(dá)到60%,因此還存在很大的提升空間。下一步,我們將在此基礎(chǔ)上,進(jìn)一步提高新詞識別的精確度,利用自學(xué)習(xí)方法逐漸擴(kuò)大面向社交媒體的成熟語料,為有監(jiān)督方法提供可靠的訓(xùn)練語料。

[1] Nguyen T H, Shirai K. Topic modeling based sentiment analysis on social media for stock market prediction[C]//Proceedings of the 53rd Annural Meeting of the Association for Computational Linguistics. 2015: 1354-1364.

[2] Liu X, Zhou M, Wei F, et al. Joint inference of named entity recognition and normalization for tweets[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Long Papers. 2012: 526-535.

[3] Peng N, Dredze M. Named Entity Recognition for Chinese Social Media with Jointly Trained Embeddings[C]//Proceedings of the 2015 Conference on EMNLP of the Association for Computational Linguistics. Lisbon, Portugal, 2015: 548-554.

[4] Li C, Liu Y. Improving Named Entity Recognition in Tweets via Detecting Non-Standard Words[C]//Proceedings of the 53rd Annural Meeting of the Association for Computational Linguistics. 2015: 929-938.

[5] Dong G, Li R, Yang W, et al. Microblog burst keywords detection based on social trust and dynamics model[J]. Chinese Journal of Electronics, 2014, 23(4): 695-700.

[6] Qiu X, Qian P, Yin L, et al. Overview of the NLPCC 2015 Shared Task: Chinese Word Segmentation and POS Tagging for Micro-blog Texts[M].Natural Language Processing and Chinese Computing. Springer International Publishing, 2015: 541-549.

[7] Liu Y, Zhang Y, Che W, et al. Domain Adaptation for CRF-based Chinese Word Segmentation using Free Annotations[C]//Proceedings of EMNLP. 2014: 864-874.

[8] Degen H, Deqin T. Context information and fragments based cross-domain word segmentation[J]. China Communications, 2012, 9(3): 49-57.

[9] Li Z, Sun M. Punctuation as implicit annotations for Chinese word segmentation[J]. Computational Linguistics, 2009, 35(4): 505-512.

[10] Tseng H, Chang P, Andrew G, et al. A conditional random field word segmenter for sighan bakeoff 2005[C]//Proceedings of the 4th SIGHAN workshop on Chinese language Processing. 2005: 168-171.

[11] Eisenstein J. What to do about bad language on the internet[C]//Proceedings of HLT-NAACL. 2013: 359-369.

[12] Sproat R, Emerson T. The first international Chinese word segmentation bakeoff[C]//Proceedings of the 2nd SIGHAN workshop on Chinese language processing. Association for Computational Linguistics, 2003: 133-143.

[13] 霍帥, 張敏, 劉奕群, 等. 基于微博內(nèi)容的新詞發(fā)現(xiàn)方法[J]. 模式識別與人工智能, 2014, 27(2): 141-145.

[14] Ye Y, Wu Q, Li Y, et al. Unknown Chinese word extraction based on variety of overlapping strings[J]. Information Processing & Management, 2013, 49(2): 497-512.

[15] Rumelhart D E, Hinton G E, Williams R J. Learning representations by back-propagating errors[J]. Cognitive modeling, 1988, 5(3): 1.

[16] Mikolov T, Sutskever I, Chen K, et al. Distributed representations of words and phrases and their compositionality[C]//Proceedings of the 27th NIPS. 2013: 3111-3119.

[17] Huang E H, Socher R, Manning C D, et al. Improving word representations via global context and multiple word prototypes[C]//Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Long Papers. Association for Computational Linguistics, 2012: 873-882.

[18] Chen X, Xu L, Liu Z, et al. Joint learning of character and word embeddings[C]//Proceedings of IJCAI. 2015: 1236-1242.

[19] Chen K J, Ma W Y. Unknown word extraction for Chinese documents[C]//Proceedings of the 19th international conference on Computational linguistics. Association for Computational Linguistics, 2002: 1-7.

[20] 鄒綱, 劉洋, 劉群, 等. 面向 Internet 的中文新詞語檢測[J]. 中文信息學(xué)報, 2004, 18(6): 2-10.

[21] 俞士汶, 段慧明, 朱學(xué)鋒, 等. 北京大學(xué)現(xiàn)代漢語語料庫基本加工規(guī)范[J]. 中文信息學(xué)報, 2002, 16(5): 51-66.

[22] Feng H, Chen K, Deng X, et al. Accessor variety criteria for Chinese word extraction[J]. Computational Linguistics, 2004, 30(1): 75-93.

[23] Carletta J. Assessing agreement on classification tasks: the kappa statistic[J]. Computational linguistics, 1996, 22(2): 249-254.

猜你喜歡
詞串新詞分詞
聲音·數(shù)字·新詞 等
分詞在英語教學(xué)中的妙用
小學(xué)語文詞串教學(xué)之淺見
小學(xué)語文詞串教學(xué)之淺見
靈動的詞串,寫話的紐帶
結(jié)巴分詞在詞云中的應(yīng)用
結(jié)巴分詞在詞云中的應(yīng)用
《微群新詞》選刊之十四
學(xué)詩偶感
小學(xué)語文閱讀教學(xué)中詞串的設(shè)計
丰镇市| 水城县| 乐陵市| 平和县| 嘉义县| 鱼台县| 陵川县| 明溪县| 许昌市| 兴国县| 老河口市| 肃北| 司法| 齐齐哈尔市| 邵阳市| 无棣县| 清流县| 芮城县| 遵化市| 玉溪市| 新干县| 怀来县| 琼海市| 鄂温| 苍南县| 疏勒县| 永安市| 临城县| 汝城县| 托克逊县| 城口县| 平乡县| 沈丘县| 罗江县| 文山县| 裕民县| 和顺县| 邹城市| 灵石县| 平南县| 无为县|