周霜霜,徐金安,陳鈺楓,張玉潔
北京交通大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,北京 100044)(*通信作者電子郵箱jaxu@bjtu.edu.cn)
融合規(guī)則與統(tǒng)計(jì)的微博新詞發(fā)現(xiàn)方法
周霜霜,徐金安*,陳鈺楓,張玉潔
北京交通大學(xué) 計(jì)算機(jī)與信息技術(shù)學(xué)院,北京 100044)(*通信作者電子郵箱jaxu@bjtu.edu.cn)
結(jié)合微博新詞的構(gòu)詞規(guī)則自由度大和極其復(fù)雜的特點(diǎn),針對(duì)傳統(tǒng)的C/NC-value方法抽取的結(jié)果新詞邊界的識(shí)別準(zhǔn)確率不高,以及低頻微博新詞無(wú)法正確識(shí)別的問題,提出了一種融合人工啟發(fā)式規(guī)則、C/NC-value改進(jìn)算法和條件隨機(jī)場(chǎng)(CRF)模型的微博新詞抽取方法。一方面,人工啟發(fā)式規(guī)則是指對(duì)微博新詞的分類和歸納總結(jié),并從微博新詞構(gòu)詞的詞性(POS)、字符類別和表意符號(hào)等角度設(shè)計(jì)的微博新詞的構(gòu)詞規(guī)則;另一方面,改進(jìn)的C/NC-value方法通過引入詞頻、鄰接熵和互信息等統(tǒng)計(jì)量來(lái)重構(gòu)NC-value目標(biāo)函數(shù),并使用CRF模型訓(xùn)練和識(shí)別新詞,最終達(dá)到提高新詞邊界識(shí)別準(zhǔn)確率和低頻新詞識(shí)別精度的目的。實(shí)驗(yàn)結(jié)果顯示,與傳統(tǒng)方法相比,所提出的方法能有效地提高微博新詞識(shí)別的F值。
微博新詞;構(gòu)詞規(guī)則;統(tǒng)計(jì)量特征;C/NC-value方法;條件隨機(jī)場(chǎng)模型
微博是中國(guó)最熱門的社交平臺(tái)之一,是網(wǎng)絡(luò)新詞的主要來(lái)源。微博新詞作為未登錄詞的大量出現(xiàn),給微博文本分析帶來(lái)很大困難。其中,微博文本的分詞精度低下是必須解決的首要問題。既有研究結(jié)果顯示,60%的分詞錯(cuò)誤都由未登錄詞導(dǎo)致[1]。如何有效地提高微博新詞的識(shí)別精度,具有重要的研究意義和實(shí)用價(jià)值。目前,微博新詞識(shí)別主要研究方法包括:基于規(guī)則、基于統(tǒng)計(jì)、規(guī)則與統(tǒng)計(jì)相融合等三種方法。
基于規(guī)則的方法是從語(yǔ)言學(xué)的角度對(duì)新詞的構(gòu)詞規(guī)則進(jìn)行歸納總結(jié)并構(gòu)建正則表達(dá)式規(guī)則庫(kù)。鄒綱等[2]針對(duì)網(wǎng)頁(yè)上的中文新詞識(shí)別問題,提出一種從網(wǎng)頁(yè)中自動(dòng)檢測(cè)新詞語(yǔ)的方法,并根據(jù)構(gòu)詞規(guī)則對(duì)自動(dòng)檢測(cè)的結(jié)果進(jìn)行過濾,最終抽取新詞語(yǔ)。該方法對(duì)高頻新詞有很好的識(shí)別效果。Ma等[3]針對(duì)網(wǎng)絡(luò)新聞中的未登錄詞,提出一種自下而上的歸并算法,同時(shí)引入一些基本語(yǔ)法規(guī)則,避免了過多的高頻垃圾串的抽取。Sasano等[4]針對(duì)日語(yǔ)中的未登錄詞,利用衍生規(guī)則和象聲詞模式,通過在句子的格框架中添加新節(jié)點(diǎn)的方式發(fā)現(xiàn)最優(yōu)路徑,以此實(shí)現(xiàn)對(duì)未登錄詞的識(shí)別,該方法對(duì)某些特定類別的未登錄詞有很好的識(shí)別效果。基于規(guī)則的方法針對(duì)特定領(lǐng)域可以得到很高的準(zhǔn)確率,但是人工制定規(guī)則需要大量人工成本,存在規(guī)則領(lǐng)域性適應(yīng)能力低下等問題。
基于統(tǒng)計(jì)的方法通常使用大規(guī)模語(yǔ)料庫(kù),通過計(jì)算統(tǒng)計(jì)信息量來(lái)發(fā)現(xiàn)新詞。Wang 等[5]將新詞識(shí)別問題與分詞問題結(jié)合,在對(duì)文本分詞標(biāo)注和新詞標(biāo)注的基礎(chǔ)上,利用統(tǒng)計(jì)量特征對(duì)改進(jìn)的條件隨機(jī)場(chǎng)(Conditional Random Field, CRF)模型進(jìn)行訓(xùn)練,同時(shí)提高了分詞和新詞識(shí)別的效果。Sun等[6]融合詞法特征和邊界特征,提出一種快速的線上CRF訓(xùn)練方法,將識(shí)別到的新詞加入到詞典列表不斷進(jìn)行模型訓(xùn)練,最后分詞結(jié)果和新詞識(shí)別結(jié)果都得到了提升。Huang等[7]設(shè)定少量種子新詞,并依據(jù)詞性構(gòu)建三元組模型循環(huán)擴(kuò)充新詞候選集,通過一系列統(tǒng)計(jì)量特征將新詞識(shí)別結(jié)果量化。該方法不需要復(fù)雜的語(yǔ)言規(guī)則,只在詞性標(biāo)注的基礎(chǔ)上就可以得到很好的新詞識(shí)別效果。邢恩軍等[8]提出一種基于上下文詞頻詞匯量的統(tǒng)計(jì)指標(biāo),該指標(biāo)通過將信息熵公式中的鄰接字符串在語(yǔ)料集中出現(xiàn)的次數(shù)改成鄰接字符串集合的大小,克服了左右信息熵在識(shí)別新詞時(shí)特征不夠明顯的缺點(diǎn)。該方法與領(lǐng)域無(wú)關(guān),且對(duì)新詞的長(zhǎng)度沒有限制,僅采用一個(gè)統(tǒng)計(jì)指標(biāo)就能取得較好的效果。統(tǒng)計(jì)方法有很強(qiáng)的領(lǐng)域適應(yīng)能力和可擴(kuò)展性,但具有需要大規(guī)模語(yǔ)料庫(kù)和數(shù)據(jù)稀疏問題嚴(yán)重等問題。
規(guī)則和統(tǒng)計(jì)相融合的方法是目前研究的主流方法。Nuo等[9]提出一種將統(tǒng)計(jì)度量值和上下文規(guī)則結(jié)合的新詞識(shí)別方法,先利用互信息等統(tǒng)計(jì)量將結(jié)合度高的單字組合形成候選新詞,并利用基于上下文的擴(kuò)展機(jī)制,確定新詞的左右邊界。通過該方法構(gòu)建的新詞詞典有效地提高了分詞效果,但只局限于識(shí)別被切分成單字碎片的新詞。杜麗萍等[10]提出一種非監(jiān)督的新詞識(shí)別方法,利用點(diǎn)互信息(Pointwise Mutual Information, PMI)的改進(jìn)算法——PMIk算法與少量基本的過濾規(guī)則相結(jié)合,從大規(guī)模百度貼吧語(yǔ)料中自動(dòng)識(shí)別出網(wǎng)絡(luò)新詞,實(shí)驗(yàn)結(jié)果顯示該方法比改進(jìn)前的算法取得了更好的新詞識(shí)別效果。Li等[11]使用基于支持向量機(jī)(Support Vector Machine, SVM)和詞特征的方法進(jìn)行新詞識(shí)別,并在程序中引入了少量的規(guī)則過濾,有效地提高了新詞識(shí)別的效果。Attia等[12]通過使用有限狀態(tài)的詞法猜測(cè)工具和基于機(jī)器學(xué)習(xí)的預(yù)標(biāo)注工具體系來(lái)進(jìn)行未登錄詞的抽取,實(shí)驗(yàn)證實(shí)方法的有效性并已將抽取的未登錄詞集合作為公開的開放資源。規(guī)則和統(tǒng)計(jì)相融合的方法可以相互取長(zhǎng)補(bǔ)短,在一定程度上緩解單獨(dú)使用統(tǒng)計(jì)方法造成的數(shù)據(jù)稀疏問題,同時(shí)解決單獨(dú)使用規(guī)則方法造成的領(lǐng)域適應(yīng)能力差等問題。
綜上所述,針對(duì)傳統(tǒng)方法所存在的問題,本文提出了一種基于規(guī)則與統(tǒng)計(jì)相融合的方法。該方法針對(duì)微博新詞的構(gòu)詞規(guī)則極其復(fù)雜和自由度大的特點(diǎn),構(gòu)建人工啟發(fā)式規(guī)則庫(kù),引入新的統(tǒng)計(jì)量特征改進(jìn)傳統(tǒng)的C/NC-value方法,并將抽取得到的新詞集作為訓(xùn)練數(shù)據(jù),利用條件隨機(jī)場(chǎng)模型對(duì)訓(xùn)練語(yǔ)料進(jìn)行新詞的標(biāo)注、建模和識(shí)別,最終有效地提高了新詞邊界的識(shí)別準(zhǔn)確率和低頻新詞的識(shí)別精度。最后,將抽取的微博新詞集合加入微博分詞的用戶字典,分詞實(shí)驗(yàn)結(jié)果顯示可有效提高微博文本的分詞和詞性標(biāo)注精度。本文方法具有不需要大規(guī)模語(yǔ)料庫(kù)作為學(xué)習(xí)數(shù)據(jù)進(jìn)行訓(xùn)練、計(jì)算量小、精準(zhǔn)度高等優(yōu)點(diǎn)。
本文方法流程如圖1所示,主要包括數(shù)據(jù)預(yù)處理、規(guī)則方法抽取、改進(jìn)C/NC-value方法過濾、后處理和CRF模型訓(xùn)練與識(shí)別新詞等5個(gè)部分。
第1步 數(shù)據(jù)預(yù)處理。主要包括:
1)將文本字符統(tǒng)一轉(zhuǎn)換為UTF-8編碼。
2)過濾微博文本中某些固定格式的特殊字符串。主要包括三類:一是網(wǎng)頁(yè)地址URL,如“http://t.cn/zOixljh”“http://t.cn/RPKM61K”等;二是郵箱地址,如“cszyzxj@163.com”“mcq0544@qq.com”等;三是微博文本特有的一種字符串格式,由符號(hào)“@”后面緊跟一個(gè)用戶名稱和一個(gè)空格符號(hào)組成,表示提及該用戶,如“@且聽風(fēng)吟_5734”和“@李開復(fù)”等。
3)通過實(shí)驗(yàn)室獨(dú)自研發(fā)的基于感知機(jī)的微博文本分詞工具對(duì)微博語(yǔ)料進(jìn)行分詞和詞性標(biāo)注處理。如:“石家莊/ns火車站/n成功/a地/u接受/v了/u冰/n桶/q 挑戰(zhàn)/v,/wd接/v下來(lái)/v,/wd他/rr有/v權(quán)/n挑戰(zhàn)/v三/m個(gè)/q火車站/n。/wj”。
第2步 使用新詞的構(gòu)詞規(guī)則庫(kù)對(duì)已經(jīng)經(jīng)過預(yù)處理的微博語(yǔ)料進(jìn)行新詞抽取,得到新詞候選串。
第3步 利用統(tǒng)計(jì)量信息重構(gòu)NC-value目標(biāo)函數(shù),對(duì)新詞候選串進(jìn)行篩選。
第4步 有針對(duì)性地制定規(guī)則對(duì)一些明顯錯(cuò)誤的識(shí)別結(jié)果進(jìn)行過濾,得到初步新詞集。部分規(guī)則實(shí)例如下:
1)數(shù)字加量詞的組合構(gòu)成的常規(guī)字符串,如:“2015年”“12歲”“3個(gè)”等;
2)符號(hào)組合形成的非表情字符串,如“?。。 薄???”“<<<”等;
3)非語(yǔ)氣詞與語(yǔ)氣詞組合形成的字符串,如“是嗎”“在呢”“行啊”等。
第5步 將抽取的新詞集作為訓(xùn)練數(shù)據(jù),利用條件隨機(jī)場(chǎng)模型對(duì)訓(xùn)練語(yǔ)料進(jìn)行新詞的標(biāo)注、建模和識(shí)別,最后經(jīng)后處理得到最終的新詞集。
圖1 系統(tǒng)流程
2.1 微博新詞構(gòu)詞特點(diǎn)
微博新詞具有涉及領(lǐng)域廣、構(gòu)詞模式相對(duì)自由等特點(diǎn),因此,從多種角度對(duì)新詞進(jìn)行分析和歸納,總結(jié)新詞產(chǎn)生的途徑和構(gòu)詞規(guī)律可有效提高新詞的抽取精度。
2.2 微博新詞構(gòu)詞規(guī)則
如表1所示,微博新詞的構(gòu)詞方式復(fù)雜多樣,有諧音詞、方言詞、舊詞新用、縮略詞、英語(yǔ)音譯詞、符號(hào)新詞和新造詞等。從詞性構(gòu)成的角度分析,新詞的組成集中在名詞、動(dòng)詞、形容詞和區(qū)別詞之間,同時(shí)介詞與副詞也具備了一定的構(gòu)詞能力,能夠與其他詞語(yǔ)組合形成新詞。從音節(jié)的角度分析,新詞構(gòu)成的總趨勢(shì)是向多音節(jié)發(fā)展,以雙音節(jié)、三音節(jié)和四音節(jié)為主;同時(shí),微博新詞還充分運(yùn)用了英語(yǔ)、漢語(yǔ)、數(shù)字、符號(hào)等互相組合的方式,結(jié)構(gòu)新穎自由。本文主要從三個(gè)角度進(jìn)行總結(jié):
1) 詞性構(gòu)成,包括動(dòng)詞、名詞、形容詞、區(qū)別詞相互組合的常規(guī)規(guī)則以及介詞、副詞與名詞、動(dòng)詞組合的特殊規(guī)則。規(guī)則實(shí)例見表2的詞性。
2) 成詞字符類別,主要針對(duì)英文、數(shù)字和漢字的組合。規(guī)則實(shí)例見表2的字符類別。
3) 符號(hào)表意規(guī)則,微博文本中存在大量的表情符號(hào),本文將其總結(jié)為兩類:一是靜態(tài)表情符號(hào),是由一些基本的符號(hào)組合形成的,形式上類似于日語(yǔ)中的顏文字;二是動(dòng)態(tài)表情符號(hào),有固定的構(gòu)成格式:“[字符串]”。規(guī)則實(shí)例見表2的符號(hào)。
表1 微博新詞構(gòu)詞特點(diǎn)
表2 新詞規(guī)則
3.1 C/NC-value算法
該算法由Frantzi等[13]提出,是一種領(lǐng)域獨(dú)立的復(fù)合詞抽取算法。主要包括兩部分:
一是基于統(tǒng)計(jì)量信息計(jì)算C-value值,統(tǒng)計(jì)信息包括候選詞的詞頻和詞長(zhǎng)以及包含當(dāng)前候選詞的更長(zhǎng)候選詞的詞頻和詞數(shù),如式(1)所示:
(1)
其中:w=w1w2…wn是候選詞;|w|表示w的長(zhǎng)度; f(w)表示w的詞頻;Tw表示包含w的候選詞集;a表示Tw中任意的包含w的候選詞; f(a)表示a的詞頻; p(Tw)表示包含w的候選詞總數(shù)。
二是結(jié)合上下文信息計(jì)算NC-value值,上下文信息是指出現(xiàn)在候選詞前后的上下文相關(guān)詞的統(tǒng)計(jì)信息,包括上下文相關(guān)詞出現(xiàn)在候選詞前后的次數(shù)和權(quán)重,權(quán)重通過與上下文相關(guān)詞同時(shí)出現(xiàn)的候選詞的數(shù)量除以總的候選詞的數(shù)量計(jì)算得到,如式(2)所示:
α+β=1
(2)
其中:Cw表示出現(xiàn)在候選詞w前后的上下文相關(guān)詞集合,b表示Cw中任意的出現(xiàn)在候選詞w前后的上下文相關(guān)詞,fw(b)表示b在候選詞w的上下文中出現(xiàn)的次數(shù),t(b)表示與b同時(shí)出現(xiàn)的候選詞數(shù)量,n表示候選詞的總個(gè)數(shù)。α和β為取值0~1的參數(shù)。
3.2 改進(jìn)的C/NC-value算法
既有C/NC-value方法抽取微博新詞的缺點(diǎn)主要包括:1)部分識(shí)別結(jié)果存在詞語(yǔ)粘連現(xiàn)象,新詞的邊界識(shí)別不正確;2)低頻新詞無(wú)法正確識(shí)別。
針對(duì)上述問題,本文引入鄰接熵和互信息兩種統(tǒng)計(jì)量,重構(gòu)NC-value目標(biāo)函數(shù),以提高新詞邊界的識(shí)別準(zhǔn)確率和低頻新詞的識(shí)別精度。使用鄰接熵改善分詞精度的方法由Huang等[14]提出,能有效解決未登錄詞的左右邊界問題。該方法利用信息熵來(lái)衡量候選新詞的左鄰字符和右鄰字符的不確定性,候選新詞的鄰接熵越大,說(shuō)明鄰接字符的不確定性越大,成為新詞邊界的可能性就越大。具體定義如式(3)~(5)所示:
(3)
(4)
BE(w)=min{HL(w),HR(w)}
(5)
互信息是一個(gè)用來(lái)衡量候選詞子串之間的結(jié)合程度的統(tǒng)計(jì)量。本文將互信息加入到目標(biāo)函數(shù)中,通過計(jì)算候選低頻新詞及其子串間的結(jié)合程度來(lái)提高微博低頻新詞的識(shí)別精度。根據(jù)文獻(xiàn)[15]對(duì)互信息的定義,本文改進(jìn)如式(6)所示:
(6)
其中:p(w)表示w出現(xiàn)的頻率;p(w1w2…wi)表示w的子串w1w2…wi出現(xiàn)的頻率;p(wi+1wi+2…wn)表示w的子串wi+1wi+2…wn出現(xiàn)的頻率。改進(jìn)后的NC-value值計(jì)算如式(7)所示:
NC-value(w)=α*C-value(w)+β*BE(w)+γ*MI(w);α+β+γ=1
(7)
其中:C-value(w)是根據(jù)式(1)得到的C-value值;BE(w)是根據(jù)式(3)、(4)、(5)得到的鄰接熵值;MI(w)是根據(jù)式(6)得到的互信息值;α、β和γ為參數(shù),取值范圍為[0,1]。
3.3 條件隨機(jī)場(chǎng)(CRF)
CRF模型由Lafferty等[16]提出,是一種典型的判別式模型。它在觀測(cè)序列的基礎(chǔ)上對(duì)目標(biāo)序列進(jìn)行建模,重點(diǎn)解決序列化標(biāo)注的問題。條件隨機(jī)場(chǎng)的定義如式(8)所示:
(8)
其中:tk(yi-1,yi,x,i)為轉(zhuǎn)移函數(shù),表示觀察序列和標(biāo)記序列在i-1和i時(shí)刻的特征;sk(yi,x,i)為狀態(tài)函數(shù),表示觀察序列和標(biāo)記序列在i時(shí)刻的特征;Z(X)為歸一化因子;λ和u為訓(xùn)練所得參數(shù)。
CRF模型將新詞發(fā)現(xiàn)看作一個(gè)序列標(biāo)注過程,利用單字在新詞中的位置信息來(lái)標(biāo)記新詞。本文采用四詞位標(biāo)注集,如表3所示。
表3 四詞位標(biāo)注集
特征模板的設(shè)置主要利用上下文的信息,從訓(xùn)練語(yǔ)料中獲得字特征,采用當(dāng)前字和其前后兩個(gè)字及其詞性信息作為特征。特征模板具體描述如表4所示。
將得到的初步新詞的特征量化,作為訓(xùn)練特征,利用CRF模型訓(xùn)練出新詞抽取模板,利用該模型對(duì)預(yù)處理的微博語(yǔ)料進(jìn)行標(biāo)注抽取,并對(duì)抽取結(jié)果進(jìn)行后處理修正,識(shí)別出更多的新詞。最后,將CRF模型識(shí)別出的新詞與初步得到的新詞集合并整理,即為最終識(shí)別出的新詞集。
4.1 實(shí)驗(yàn)語(yǔ)料
由于目前尚無(wú)公開的微博新詞標(biāo)準(zhǔn)數(shù)據(jù)集,新詞發(fā)現(xiàn)實(shí)驗(yàn)使用的語(yǔ)料數(shù)據(jù)來(lái)源于爬萌(http://www.cnpameng.com/),從2014年6月1日的新浪微博數(shù)據(jù)(約10萬(wàn)條)中隨機(jī)抽取出2萬(wàn)條,通過實(shí)驗(yàn)室獨(dú)自研發(fā)的基于感知機(jī)的微博文本分詞工具進(jìn)行分詞和詞性標(biāo)注處理,并對(duì)預(yù)處理后的語(yǔ)料進(jìn)行新詞的規(guī)則方法抽取和C/NC-value的改進(jìn)算法識(shí)別,得到初步的新詞集。
從語(yǔ)料中抽取新詞并進(jìn)行人工校對(duì),共抽取新詞800個(gè),作為標(biāo)準(zhǔn)新詞集。通常來(lái)講,新詞是指未被收錄到詞典中的詞語(yǔ)[17]。在本研究任務(wù)中,新詞滿足以下條件:1) 符合本文提出的構(gòu)詞規(guī)則;2) 不在用戶字典中;3) 分詞工具切分出現(xiàn)錯(cuò)誤;4) 在網(wǎng)絡(luò)上被廣泛使用。
4.2 評(píng)價(jià)方法
通過準(zhǔn)確率P、召回率R和F值對(duì)新詞發(fā)現(xiàn)實(shí)驗(yàn)的結(jié)果進(jìn)行評(píng)價(jià)。計(jì)算公式如下所示:
(9)
(10)
(11)
4.3 初步實(shí)驗(yàn)及參數(shù)優(yōu)化
在計(jì)算NC-value值獲取初步新詞集的過程中,需要對(duì)候選新詞w的C-value值、鄰接熵和互信息的權(quán)重,即參數(shù)α、β和γ進(jìn)行設(shè)定。先對(duì)三種統(tǒng)計(jì)量單獨(dú)使用時(shí)的情況進(jìn)行實(shí)驗(yàn),結(jié)果見表5的三種統(tǒng)計(jì)量單獨(dú)使用部分。實(shí)驗(yàn)結(jié)果顯示,單獨(dú)使用三種統(tǒng)計(jì)量得到的準(zhǔn)確率P、召回率R和F值均較低,新詞識(shí)別效果較差。
接下來(lái),對(duì)三個(gè)參數(shù)的取值進(jìn)行調(diào)整。依據(jù)貪心算法的思想,在滿足α+β+γ=1的基礎(chǔ)上,先將α置于0~1取值,β則在0~1-α取值,相應(yīng)的γ值為1-α-β,以0.1為步長(zhǎng)對(duì)三個(gè)參數(shù)動(dòng)態(tài)調(diào)整,結(jié)果顯示當(dāng)α=0.4時(shí)得到了最大的F值;再將α的取值范圍設(shè)為0.35~0.45,β的取值范圍仍為0~1-α,γ值仍為1-α-β,以0.01為步長(zhǎng)再次對(duì)三個(gè)參數(shù)動(dòng)態(tài)調(diào)整,記錄下得到最大的F值時(shí)的參數(shù)取值。再按照相同的方法,依次對(duì)β和γ做同樣的實(shí)驗(yàn)。三種情況下得到的最大的F值及相應(yīng)的參數(shù)取值如表5的調(diào)參實(shí)驗(yàn)結(jié)果部分所示。結(jié)果顯示,當(dāng)α=0.34,β=0.35,γ=0.31時(shí)得到了最大的F值,即達(dá)到了最好的新詞識(shí)別效果。
表5 三種統(tǒng)計(jì)量單獨(dú)使用時(shí)和調(diào)參的實(shí)驗(yàn)結(jié)果
對(duì)候選新詞的NC-value值設(shè)定閾值,如果閾值設(shè)定過高,會(huì)過濾掉很多有意義的新詞;反之,如果閾值設(shè)定過低,又會(huì)使新詞結(jié)果中出現(xiàn)很多垃圾串。多次實(shí)驗(yàn)結(jié)果顯示,閾值設(shè)定為0.42時(shí)效果最佳。本文中,當(dāng)NC-value值大于0.42時(shí),判定該候選詞為初步的新詞。
4.4 新詞發(fā)現(xiàn)實(shí)驗(yàn)結(jié)果及分析
將本文方法與傳統(tǒng)的新詞發(fā)現(xiàn)方法進(jìn)行對(duì)比,選取文獻(xiàn)[10-12]分別提出的方法作為三個(gè)基線系統(tǒng),同時(shí)將三個(gè)基線系統(tǒng)方法、單獨(dú)使用規(guī)則的方法、單獨(dú)使用改進(jìn)的C/NC-value方法、規(guī)則與傳統(tǒng)的C/NC-value結(jié)合的方法、規(guī)則與改進(jìn)的C/NC-value結(jié)合的方法、結(jié)合支持向量機(jī)(SVM)分類器(http://www.csie.ntu.edu.tw/~cjlin/libsvm/)的方法與本文提出的結(jié)合條件隨機(jī)場(chǎng)(CRF)模型(https://sourceforge.net/projects/crfpp/)的方法進(jìn)行新詞識(shí)別的對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果見表6。
表6 新詞發(fā)現(xiàn)結(jié)果
實(shí)驗(yàn)結(jié)果分析:
1)基線方法1[10]提出了PMI的改進(jìn)算法,并使用部分過濾規(guī)則;基線方法2[11]使用基于SVM和詞特征的方法進(jìn)行新詞識(shí)別,并在程序中引入了少量的規(guī)則過濾;基線方法3[12]通過使用有限狀態(tài)的詞法猜測(cè)工具和基于機(jī)器學(xué)習(xí)的預(yù)標(biāo)注工具體系來(lái)進(jìn)行未登錄詞的抽取。三個(gè)基線系統(tǒng)都得到較高的召回率,但新詞識(shí)別的準(zhǔn)確率較低。一些新詞與其他詞語(yǔ)被錯(cuò)誤地劃分成一個(gè)字串,如在新詞識(shí)別結(jié)果中出現(xiàn)“太給力”“驚呆了”“的惡搞”等詞。而本文方法更關(guān)注微博新詞的語(yǔ)言學(xué)特點(diǎn),進(jìn)行歸納總結(jié)和制定規(guī)則,識(shí)別結(jié)果中均是符合構(gòu)詞規(guī)則的詞語(yǔ)。如在預(yù)處理后的語(yǔ)料中存在“太/d給/p力/n”“驚/v呆/v了/y”“的/u惡/a搞/v”的切分,通過使用規(guī)則“介詞+名詞”可以將“給力”正確抽取,使用規(guī)則“動(dòng)詞+動(dòng)詞”可以將“驚呆”正確抽取, 使用規(guī)則“形容詞+動(dòng)詞”可以將“惡搞”正確抽取,因此,構(gòu)詞規(guī)則的引入可以很好地提升新詞識(shí)別的準(zhǔn)確率。
2)通過對(duì)實(shí)驗(yàn)4和實(shí)驗(yàn)5的結(jié)果分析可以發(fā)現(xiàn):?jiǎn)为?dú)使用規(guī)則的方法,由于缺少對(duì)候選串的過濾機(jī)制,識(shí)別結(jié)果中存在大量的非新詞詞語(yǔ),如“拼盡”(拼/v盡/v)、“學(xué)英語(yǔ)”(學(xué)/v英語(yǔ)/n)、“媒體人”(媒體/n人/n)等;單獨(dú)使用改進(jìn)的C/NC-value統(tǒng)計(jì)方法,由于缺少規(guī)則方法抽取候選串的過程,使新詞識(shí)別結(jié)果中出現(xiàn)大量的垃圾串,如“真好看”“太稀飯”“小心啊”等,因此,兩種方法得到的準(zhǔn)確率和召回率均相對(duì)較低。本文將規(guī)則與統(tǒng)計(jì)的方法進(jìn)行融合,減少了垃圾串的產(chǎn)生,同時(shí)又能過濾掉大部分的非新詞詞語(yǔ),使新詞識(shí)別的準(zhǔn)確率和召回率都得到很大的提升。
3)實(shí)驗(yàn)6是在規(guī)則抽取的基礎(chǔ)上利用傳統(tǒng)的NC-value目標(biāo)函數(shù)過濾得到新詞。規(guī)則的引入使其得到相對(duì)較高的準(zhǔn)確率,不符合本文構(gòu)詞規(guī)則的詞語(yǔ)不會(huì)出現(xiàn)在候選新詞列表中;但是新詞識(shí)別的召回率較低,說(shuō)明目標(biāo)函數(shù)考慮的統(tǒng)計(jì)信息對(duì)新詞的識(shí)別效果不佳。實(shí)驗(yàn)7提出的改進(jìn)的C/NC-value方法,通過引入鄰接熵和互信息有效提高了新詞發(fā)現(xiàn)精度。鄰接熵的引入可以很好地解決新詞邊界問題,如通過規(guī)則方法抽取后,“歡迎點(diǎn)贊”(歡迎/v點(diǎn)/v贊/v)、“點(diǎn)贊”(點(diǎn)/v贊/v)、“點(diǎn)贊支持”(點(diǎn)/v贊/v支持/v)都出現(xiàn)在候選新詞列表中,通過改進(jìn)的NC-value方法可以準(zhǔn)確地確定新詞的左右邊界,將“點(diǎn)贊”保留,其余兩種情況被過濾掉,因此進(jìn)一步提高了新詞識(shí)別的準(zhǔn)確率;同時(shí),互信息反映了候選詞子串之間的結(jié)合程度,當(dāng)?shù)皖l新詞的子串出現(xiàn)的頻率也較低,子串之間的結(jié)合程度緊密時(shí),其互信息值仍然較高,從而達(dá)到精確識(shí)別該類新詞的效果。
4)實(shí)驗(yàn)8和實(shí)驗(yàn)9是在得到的初步新詞集的基礎(chǔ)上分別結(jié)合SVM分類器和CRF模型進(jìn)行新詞識(shí)別。實(shí)驗(yàn)依據(jù)初步新詞集對(duì)分詞后的語(yǔ)料進(jìn)行標(biāo)注得到訓(xùn)練集,經(jīng)分詞工具粗切分的語(yǔ)料作為測(cè)試集。其中,在實(shí)驗(yàn)8中,通過選取詞頻、鄰接熵和互信息三個(gè)特征組成特征向量,相關(guān)參數(shù)設(shè)定參照文獻(xiàn)[11]。在實(shí)驗(yàn)9中,通過將得到的初步新詞的特征量化作為訓(xùn)練特征,并利用CRF模型構(gòu)建新詞抽取模板,對(duì)測(cè)試語(yǔ)料進(jìn)行新詞的標(biāo)注識(shí)別。實(shí)驗(yàn)結(jié)果顯示兩種方法均能進(jìn)一步提高對(duì)低頻新詞的識(shí)別效果。其中,基于序列標(biāo)注的CRF模型更有效地利用了新詞的上下文信息,對(duì)新詞的識(shí)別效果達(dá)到最佳。通過本文方法識(shí)別到的低頻新詞包括“細(xì)思恐極”“喜大普奔”“累覺不愛”“hold住”等。
4.5 微博分詞測(cè)試
為了驗(yàn)證本文方法的有效性,將采用不同新詞識(shí)別方法得到的新詞集合作為用戶詞典加入到實(shí)驗(yàn)室獨(dú)自研發(fā)的微博文本分詞工具中,進(jìn)行分詞和詞性標(biāo)注實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表7所示。本實(shí)驗(yàn)使用2016年NLPCC(http://tcci.ccf.org.cn/conference/2016/pages/page05_evadata.html)微博分詞評(píng)測(cè)任務(wù)提供的2萬(wàn)條訓(xùn)練集作為訓(xùn)練語(yǔ)料,8 000條測(cè)試集作為測(cè)試語(yǔ)料,同時(shí)參照基于賓州大學(xué)漢語(yǔ)樹庫(kù)的分詞標(biāo)準(zhǔn)[18]對(duì)測(cè)試語(yǔ)料進(jìn)行分詞和人工校對(duì),參照中國(guó)科學(xué)院計(jì)算技術(shù)研究所漢語(yǔ)詞性標(biāo)記集(http://ictclas.nlpir.org/nlpir/html/readme.htm)進(jìn)行手工詞性標(biāo)注。
實(shí)驗(yàn)評(píng)價(jià)方法仍然使用準(zhǔn)確率P、召回率R和F值,其中準(zhǔn)確率P和召回率R定義如下:
(12)
(13)
實(shí)驗(yàn)結(jié)果如表7所示。從實(shí)驗(yàn)結(jié)果可看出:1)通過與不加用戶詞典得到的結(jié)果對(duì)比,加入不同的新詞識(shí)別方法得到的新詞詞典,分詞和詞性標(biāo)注結(jié)果的F值都得到了提升,說(shuō)明新詞詞典的加入可以提高分詞系統(tǒng)的分詞標(biāo)注精度。2)使用新詞用戶詞典,可以糾正不同類型新詞出現(xiàn)的分詞和詞性標(biāo)注錯(cuò)誤,尤其對(duì)符合本文提出的構(gòu)詞規(guī)則的新詞效果顯著。如不同詞性組合構(gòu)成的新詞、數(shù)字與漢字結(jié)合構(gòu)成的新詞和表情符號(hào)等。三種不同類別的新詞被切分的情況如圖2所示。3)相比其他方法,使用本文方法構(gòu)建的新詞詞典在分詞標(biāo)注結(jié)果中得到了最大的F值,說(shuō)明了本文方法的有效性。
圖2 分詞和詞性標(biāo)注實(shí)例
序號(hào)加入通過不同方法得到的詞典分詞精度(不帶詞性標(biāo)注)P/%R/%F值/%分詞精度(帶詞性標(biāo)注)P/%R/%F值/%1不加詞典94.7994.7894.7991.5091.4091.452基線方法1[10]95.2095.3495.2792.2092.3692.283基線方法2[11]95.4595.6295.5392.2592.3492.294基線方法3[12]95.8095.7795.7892.4692.5592.505單獨(dú)使用規(guī)則方法94.8694.7994.8291.5291.9091.716單獨(dú)使用改進(jìn)C/NC-value方法94.7094.9294.8091.6691.5791.617規(guī)則與傳統(tǒng)C/NC-value結(jié)合的方法95.7795.8295.7992.4592.5092.478規(guī)則與改進(jìn)C/NC-value結(jié)合的方法96.1996.2696.2292.9092.9992.959結(jié)合SVM分類器的方法96.5696.9096.7393.1693.4593.3010結(jié)合CRF模型的方法97.2397.8997.5693.9993.8793.93
本文結(jié)合微博新詞的構(gòu)詞規(guī)則極其復(fù)雜和自由度大的特點(diǎn),針對(duì)傳統(tǒng)的C/NC-value方法抽取的結(jié)果詞語(yǔ)粘連現(xiàn)象嚴(yán)重,新詞邊界的識(shí)別準(zhǔn)確率不高,以及部分微博新詞由于出現(xiàn)頻率低而無(wú)法正確識(shí)別的問題,提出了一種融合規(guī)則和統(tǒng)計(jì)的微博新詞發(fā)現(xiàn)方法。通過對(duì)微博文本新詞的構(gòu)詞規(guī)則進(jìn)行歸納總結(jié),建立新詞構(gòu)詞規(guī)則庫(kù);通過改進(jìn)傳統(tǒng)的C/NC-value方法,重構(gòu)NC-value目標(biāo)函數(shù),并結(jié)合條件隨機(jī)場(chǎng)模型(CRF)訓(xùn)練和識(shí)別新詞,提高了新詞邊界的識(shí)別準(zhǔn)確率和低頻新詞的識(shí)別精度。最后,將新詞識(shí)別結(jié)果加入用戶字典,分詞實(shí)驗(yàn)結(jié)果顯示提高了微博文本分詞和詞性標(biāo)注的精度。
本研究主要特點(diǎn)如下:
1) 通過對(duì)大量微博文本新詞的歸納分析,對(duì)微博新詞的構(gòu)詞規(guī)則作了系統(tǒng)的分類和總結(jié),在人工啟發(fā)式構(gòu)詞規(guī)則中融合了詞性、構(gòu)詞字符類別和符號(hào)表意等特征。
2) 針對(duì)微博新詞發(fā)現(xiàn),改進(jìn)了C/NC-value算法。導(dǎo)入詞頻、鄰接熵和互信息,重構(gòu)NC-value的目標(biāo)函數(shù),有效地解決了該算法抽取結(jié)果所包含的詞語(yǔ)粘連現(xiàn)象相對(duì)嚴(yán)重、新詞邊界識(shí)別準(zhǔn)確率不高以及低頻新詞無(wú)法正確識(shí)別的問題。
3) 使用條件隨機(jī)場(chǎng)模型(CRF)進(jìn)一步提高了對(duì)低頻新詞的識(shí)別精度,使識(shí)別效果得到了很大的提升。
4) 規(guī)則與統(tǒng)計(jì)方法相融合,相互取長(zhǎng)補(bǔ)短,該方法具有不需要大規(guī)模語(yǔ)料庫(kù)、計(jì)算量小、精準(zhǔn)度高等特點(diǎn)。
未來(lái)工作中,將進(jìn)一步分析新詞識(shí)別結(jié)果的錯(cuò)誤類型,面向大規(guī)模開放微博語(yǔ)料,總結(jié)和歸納微博新詞的構(gòu)詞規(guī)則,以及改進(jìn)統(tǒng)計(jì)算法提高新詞識(shí)別精度。
References)
[1] SPROAT R, EMERSON T. The first international Chinese word segmentation bakeoff [C]// Proceedings of the 2nd SIGHAN Workshop on Chinese Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2003, 17: 133-143.
[2] 鄒綱, 劉洋, 劉群, 等.面向Internet的中文新詞語(yǔ)檢測(cè)[J]. 中文信息學(xué)報(bào), 2004, 18(6):1-9.(ZOU G, LIU Y, LIU Q, et al. Internet-oriented Chinese new words detection [J]. Journal of Chinese Information Processing, 2004, 18(6):1-9.)
[3] MA W Y, CHEN K J. A bottom-up merging algorithm for Chinese unknown word extraction [C]// Proceedings of the 2nd SIGHAN Workshop on Chinese Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2003, 17: 31-38.
[4] SASANO R, KUROHASHI S, OKUMURA M. A simple approach to unknown word processing in Japanese morphological analysis [J]. Nuclear Physics A, 2014, 21(6): 1183-1205.
[5] WANG A, KAN M Y. Mining informal language from Chinese microtext: joint word recognition and segmentation [EB/OL]. [2016- 01- 06]. http://www.aclweb.org/old_anthology/P/P13/P13-1072.pdf.
[6] SUN X, WANG H, LI W. Fast online training with frequency-adaptive learning rates for Chinese word segmentation and new word detection [C]// Proceedings of the 50th Annual Meeting of the Association for Computational Linguistics: Long Papers. Stroudsburg, PA: Association for Computational Linguistics, 2012, 1: 253-262.
[7] HUANG M, YE B, WANG Y, et al. New word detection for sentiment analysis [EB/OL]. [2016- 01- 03]. http://mirror.aclweb.org/acl2014/P14-1/pdf/P14-1050.pdf.
[8] 邢恩軍, 趙富強(qiáng).基于上下文詞頻詞匯量指標(biāo)的新詞發(fā)現(xiàn)方法[J]. 計(jì)算機(jī)應(yīng)用與軟件, 2016, 33(6):64-67.(XING E J, ZHAO F Q. A novel approach for Chinese new word identification based on contextual word frequency-contextual word count [J]. Computer Applications and Software, 2016, 33(6): 64-67.)
[9] NUO M, LIU H, LONG C, et al. Tibetan unknown word identification from news corpora for supporting lexicon-based Tibetan word segmentation [EB/OL]. [2016- 01- 03]. http://rsr.csdb.cn/serverfiles/csdb/paper/upload/20151021/201510210132497839.pdf.
[10] 杜麗萍, 李曉戈, 于根, 等.基于互信息改進(jìn)算法的新詞發(fā)現(xiàn)對(duì)中文分詞系統(tǒng)改進(jìn)[J]. 北京大學(xué)學(xué)報(bào)(自然科學(xué)版), 2016, 52(1):35-40.(DU L P, LI X G, YU G, et al. New word detection based on an improved PMI algorithm for enhancing segmentation system [J]. Acta Scientiarum Naturalium Universitatis Pekinensis, 2016, 52(1): 35-40.)
[11] LI C, XU Y. Based on support vector and word features new word discovery research [M]// Trustworthy Computing and Services. Berlin: Springer, 2013: 287-294.
[12] ATTIA M, SAMIH Y, SHAALAN K, et al. The floating Arabic dictionary: an automatic method for updating a lexical database through the detection and lemmatization of unknown words [EB/OL]. [2016- 01- 03]. http://www.aclweb.org/anthology/C12-1006.
[13] FRANTZI K, ANANIADOU S, MIMA H. Automatic recognition of multi-word terms: the C-value/NC-value method [J]. International Journal on Digital Libraries, 2000, 3(2): 115-130.
[14] HUANG J H, POWERS D. Chinese word segmentation based on contextual entropy [EB/OL]. [2016- 01- 06]. http://www.aclweb.org/website/old_anthology/Y/Y03/Y03-1017.pdf.
[15] YE Y, WU Q, LI Y, et al. Unknown Chinese word extraction based on variety of overlapping strings [J]. Information Processing and Management, 2013, 49(2): 497-512.
[16] LAFFERTY J D, MCCALLUM A, PEREIRA F C N. Conditional random fields: probabilistic models for segmenting and labeling sequence data [C]// Proceedings of the 18th International Conference on Machine Learning. San Francisco, CA: Morgan Kaufmann, 2001: 282-289.
[17] LI H, HUANG C, GAO J, et al. The use of SVM for Chinese new word identification [C]// Proceedings of the 1st International Joint Conference on Natural Language Processing. Berlin: Springer, 2004: 723-732.
[18] XIA F. The segmentation guidelines for the PENN Chinese treebank (3.0) [EB/OL]. [2016- 01- 07]. http://repository.upenn.edu/cgi/viewcontent.cgi?article=1038&context=ircs_reports.
This work is partially supported by National Natural Science Foundation of China (61370130, 61473294), the Fundamental Research Funds for the Central Universities (2014RC040), the International Science and Technology Cooperation Program of China (2014DFA11350).
ZHOU Shuangshuang, born in 1991, M. S. candidate. Her research interests include natural language processing, information extraction.
XU Jin’an, born in 1970, Ph. D., associate professor. His research interests include natural language processing, machine translation.
CHEN Yufeng, born in 1981, Ph. D., associate professor. Her research interests include natural language processing, artificial intelligence.
ZHANG Yujie, born in 1961, Ph. D., professor. Her research interests include natural language processing, machine translation.
New words detection method for microblog text based on integrating of rules and statistics
ZHOU Shuangshuang, XU Jin’an*, CHEN Yufeng, ZHANG Yujie
(College of Computer and Information Technology, Beijing Jiaotong University, Beijing 100044, China)
The formation rules of microblog new words are extremely complex with high degree of dispersion, and the extracted results by using traditional C/NC-value method have several problems, including relatively low accuracy of the boundary of identified new words and low detection accuracy of new words with low frequency. To solve these problems, a method of integrating heuristic rules, modified C/NC-value method and Conditional Random Field (CRF) model was proposed. On one hand, heuristic rules included the abstracted information of classification and inductive rules focusing on the components of microblog new words. The rules were artificially summarized by using Part Of Speech (POS), character types and symbols through observing a large number of microblog documents. On the other hand, to improve the accuracy of the boundary of identified new words and the detection accuracy of new words with low frequency, traditional C/NC-value method was modified by merging the information of word frequency, branch entropy, mutual information and other statistical features to reconstruct the objective function. Finally, CRF model was used to train and detect new words. The experimental results show that theFvalue of the proposed method in new words detection is improved effectively.
microblog new word; formation rule; statistical feature; C/NC-value method; Conditional Random Field (CRF) model
2016- 09- 25;
2016- 10- 10。 基金項(xiàng)目:國(guó)家自然科學(xué)基金資助項(xiàng)目(61370130,61473294);中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金資助項(xiàng)目(2014RC040);科學(xué)技術(shù)部國(guó)際科技合作計(jì)劃項(xiàng)目(K11F100010)。
周霜霜(1991—),女,遼寧葫蘆島人,碩士研究生,主要研究方向:自然語(yǔ)言處理、信息抽取; 徐金安(1970—),男,河南開封人,副教授,博士,CCF會(huì)員,主要研究方向:自然語(yǔ)言處理、機(jī)器翻譯; 陳鈺楓(1981—),女,福建南平人,副教授,博士,主要研究方向:自然語(yǔ)言處理、人工智能; 張玉潔(1961—),女,河南安陽(yáng)人,教授,博士,主要研究方向:自然語(yǔ)言處理、機(jī)器翻譯。
1001- 9081(2017)04- 1044- 07
10.11772/j.issn.1001- 9081.2017.04.1044
TP391.1
A