国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

中文新詞識(shí)別研究概述

2017-02-28 11:05:59李淑平
科技資訊 2016年29期

李淑平

摘 要:新詞識(shí)別是中文信息處理的重要課題,但因新詞產(chǎn)生的速度快,語法、語用靈活,詞典難以及時(shí)收錄等問題使新詞識(shí)別成為了中文信息處理領(lǐng)域的難點(diǎn)和熱點(diǎn)問題。新詞識(shí)別研究的方法主要有規(guī)則方法、統(tǒng)計(jì)方法以及規(guī)則與統(tǒng)計(jì)相結(jié)合的方法。新詞識(shí)別的規(guī)則主要有新詞詞性規(guī)則和新詞構(gòu)詞模式規(guī)則。統(tǒng)計(jì)方法主要通過計(jì)算詞的TF/IDF值、詞內(nèi)部概率、詞的頻次對(duì)比、詞的臨接類別等進(jìn)行新詞識(shí)別。最后該文總結(jié)了中文新詞識(shí)別研究中存在的問題,指出未來研究的方向。

關(guān)鍵詞:新詞識(shí)別 構(gòu)詞模式 詞內(nèi)部概率 鄰接類別

中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1672-3791(2016)10(b)-0145-03

新詞識(shí)別研究是中文信息處理中的一個(gè)基礎(chǔ)性問題,它直接關(guān)系到中文分詞的效果,繼而影響到后續(xù)各級(jí)的信息處理問題。在應(yīng)用領(lǐng)域中新詞識(shí)別對(duì)于信息檢索、數(shù)據(jù)挖掘、輿情監(jiān)測(cè)、機(jī)器翻譯等各個(gè)方面都將產(chǎn)生影響。因此,新詞識(shí)別是中文信息處理的一個(gè)重要課題,但因新詞產(chǎn)生的速度快,語法、語用靈活,詞典難以及時(shí)收錄等問題使新詞識(shí)別成為了中文新詞處理領(lǐng)域的難點(diǎn)和熱點(diǎn)問題。

1 新詞的定義

“從詞典參照的角度,新詞語是指通過各種途徑產(chǎn)生的具有現(xiàn)代漢語基本詞匯所沒有的新形式、新意義或新用法的詞語;從時(shí)間參照角度,新詞語是出現(xiàn)在某一時(shí)間段內(nèi)或自某一時(shí)間點(diǎn)以來首次出現(xiàn)的具有新詞形、新詞義或者新用法的詞匯”[1]。而新詞“按照來源可以分為以下幾類:命名實(shí)體、縮略語、方言詞、新造詞、專業(yè)術(shù)語、音譯詞、字母詞、詞義及用法發(fā)生變化的舊有詞語。”[2]。在中文信息處理領(lǐng)域,研究者一般把新詞視為未登錄詞來進(jìn)行處理,根據(jù)構(gòu)成新詞的規(guī)則和各種統(tǒng)計(jì)特征來進(jìn)行新詞識(shí)別研究。

2 中文新詞識(shí)別研究的發(fā)展過程

國內(nèi)關(guān)于新詞識(shí)別的研究,最早的一篇文章是1990年汪華峰[3]的《漢語自然語言理解中詞切分中新詞問題初探》,作者提出了一種基于統(tǒng)計(jì)的方法,這種統(tǒng)計(jì)方法根據(jù)漢字出現(xiàn)的頻次,生成n階詞表,之后將這個(gè)詞表和詞典匹配,刪去詞典中已有的詞,即為新詞。這篇文章嘗試了一種基于統(tǒng)計(jì)的新詞識(shí)別方法,代表了之后新詞識(shí)別的主流方向。

2002年之后關(guān)于新詞識(shí)別的文章越來越多,近十幾年來取得了較多的成果。統(tǒng)計(jì)方法或統(tǒng)計(jì)、規(guī)則方法相結(jié)合逐漸成為了主流方法,而采用單一規(guī)則方法的文章則非常少,各家總結(jié)出的統(tǒng)計(jì)特征也越來越多。徐遠(yuǎn)方[4]使用支持向量機(jī)(SVM)將新詞識(shí)別看做一個(gè)分類問題利用詞特征進(jìn)行識(shí)別,正確率達(dá)到61.78%,召回率73.68%,F(xiàn) 值為67.20%。林自芳[5]基于詞內(nèi)部模式的方法進(jìn)行新詞識(shí)別,準(zhǔn)確率為65.7%,召回率為67.3%,F(xiàn) 值為66.5%。崔世起[6]等根據(jù)新詞構(gòu)詞模式、詞性規(guī)則和獨(dú)立詞概率方法進(jìn)行新詞識(shí)別,準(zhǔn)確率達(dá)到95%以上。吳悅[7]等采用一種基于二元背景模型的新詞發(fā)現(xiàn)方法,準(zhǔn)確率為57%,召回率為59%,F(xiàn) 值為58%。李鈍[8]等采用N-gram算法和局部匹配預(yù)測(cè)算法(PPM)識(shí)別新詞,準(zhǔn)確率為92%,召回率為90.8%,F(xiàn) 值為91.3%。陳飛[9]等基于條件隨機(jī)場(chǎng)的方法識(shí)別新詞,準(zhǔn)確率、召回率和F 值都達(dá)到了90%以上。丁建立[10]等采用免疫遺傳算法進(jìn)行新詞識(shí)別,準(zhǔn)確率為87.6%,召回率為79.5%,F(xiàn) 值為83.4%。從實(shí)驗(yàn)結(jié)果來看,N-gram算法、局部匹配預(yù)測(cè)算法(PPM)、條件隨機(jī)場(chǎng)算法和免疫遺傳算法對(duì)新詞識(shí)別效果較好,而其他方法的結(jié)果大多數(shù)都在60%左右。

3 中文新詞識(shí)別的主要技術(shù)方法

新詞識(shí)別的方法總體上可以分為3類:基于規(guī)則的方法、基于統(tǒng)計(jì)的方法和規(guī)則與統(tǒng)計(jì)相結(jié)合的方法。

3.1 規(guī)則方法

基于規(guī)則的方法,主要利用的是語言學(xué)知識(shí),總結(jié)新詞的構(gòu)詞特點(diǎn),建立規(guī)則庫,利用規(guī)則庫篩選新詞。這種方法的優(yōu)點(diǎn)是準(zhǔn)確率高,但缺點(diǎn)是構(gòu)建規(guī)則庫工作量大、成本高,而規(guī)則不能概括所有的語言現(xiàn)象,對(duì)于不符合規(guī)則的新詞會(huì)造成漏召,且規(guī)則過多時(shí)規(guī)則之間也容易相互沖突,另外新詞產(chǎn)生的速度快、組詞靈活,因此,構(gòu)建的規(guī)則庫往往難以適應(yīng)新詞產(chǎn)生的速度,規(guī)則庫的更新困難。規(guī)則方法常與特定領(lǐng)域相關(guān),移植性差。由于規(guī)則方法的種種局限,現(xiàn)在運(yùn)用單一規(guī)則方法的研究非常少,而主要傾向于采用統(tǒng)計(jì)或統(tǒng)計(jì)加規(guī)則的方法。目前用在新詞識(shí)別中的規(guī)則主要有以下幾點(diǎn)。

3.1.1 新詞詞性規(guī)則

通過對(duì)新詞的詞性進(jìn)行研究發(fā)現(xiàn),新詞主要集中在名詞、動(dòng)詞、形容詞這三類實(shí)詞上,其中名詞所占比例最高,而虛詞一般不構(gòu)成新詞。如黃軒[11]等依據(jù)詞性將規(guī)則分為正規(guī)則和負(fù)規(guī)則來識(shí)別新詞。韓艷[12]等、周超[13]等按照常規(guī)構(gòu)詞規(guī)則和特殊構(gòu)詞規(guī)則等來識(shí)別新詞。

3.1.2 新詞構(gòu)詞模式

為了充分利用新詞的構(gòu)詞規(guī)則,各家對(duì)新詞的構(gòu)詞模式進(jìn)行了研究,王琳琳[14]主要研究了“1+···+1”模式以及“N+1”模式的新詞。林自芳在文中提到新詞的十一種模式。賈自艷[15]在文中運(yùn)用禁用詞、后綴、前綴、名詞、特殊語義類、首詞是單字、不可擴(kuò)展的實(shí)義詞、只做首詞的詞語列表、只做尾詞的詞語列表等規(guī)則層層過濾來識(shí)別新詞。

3.2 統(tǒng)計(jì)方法

統(tǒng)計(jì)方法主要以大規(guī)模語料庫作為訓(xùn)練語料,根據(jù)新詞的特點(diǎn)統(tǒng)計(jì)各種有效數(shù)據(jù)來識(shí)別新詞。統(tǒng)計(jì)方法不依賴規(guī)則、不限定領(lǐng)域,移植性好。但統(tǒng)計(jì)方法的計(jì)算量往往很大,而且由于沒有規(guī)則,統(tǒng)計(jì)方法的準(zhǔn)確率相對(duì)較低,往往形成大量垃圾串,垃圾串的過濾是統(tǒng)計(jì)方法的難點(diǎn)。隨著大規(guī)模語料庫的建立和海量的網(wǎng)絡(luò)資源,統(tǒng)計(jì)方法逐漸成為了新詞識(shí)別的主流方法,隨著研究的深入關(guān)于新詞識(shí)別的統(tǒng)計(jì)特征也越來越多,主要有以下幾點(diǎn)。

3.2.1 詞的出現(xiàn)頻數(shù)(TF)和出現(xiàn)文數(shù)(IDF)

新詞作為一種詞語,首先要滿足作為詞的特征,需要具備一定的使用度和通用度,即新詞要滿足一定的頻次和出現(xiàn)文數(shù)要求,這是新詞的一個(gè)基本判定條件,因此,多數(shù)學(xué)者會(huì)用到這一統(tǒng)計(jì)數(shù)據(jù),如段宇鋒[16]、吳春穎[17]等都使用了TF/IDF作為識(shí)別新詞的統(tǒng)計(jì)特征。

3.2.2 詞內(nèi)部概率

新詞作為詞,還需要滿足作為詞的獨(dú)立性和穩(wěn)定性,而不是一個(gè)臨時(shí)性的組合,因此,對(duì)于字符或詞語,是否和鄰近的字或詞組合構(gòu)成一個(gè)新詞,可用詞內(nèi)部概率來衡量,如果兩個(gè)相鄰的字符或詞語它們的詞內(nèi)部概率大,則說明它們結(jié)合緊密程度高、使用穩(wěn)定,很可能是一個(gè)新詞。在具體算法中,各家的概念和公式會(huì)有所不同,如有的借用關(guān)聯(lián)規(guī)則理論提出成詞支持度和成詞置信度,判斷的依然是一個(gè)字串或詞組成新詞的概率,還有的使用互信息、粘結(jié)度等概念。還有學(xué)者將成詞概率細(xì)化為首尾單字成詞概率和改進(jìn)位置成詞概率等。

3.2.3 時(shí)間特征

新詞是在一定的時(shí)期后新出現(xiàn)的詞,因此,它的一個(gè)重要特點(diǎn)是在之前的語料中沒有,而在某一時(shí)期后頻繁出現(xiàn),因此,識(shí)別新詞可以引入時(shí)間特征,有些學(xué)者以某一時(shí)間為界將語料分為背景語料和前景語料,然后統(tǒng)計(jì)背景語料和前景語料的詞語出現(xiàn)的頻次對(duì)比,如果某一字符串或詞語在背景語料中很少,而在前景語料中大量出現(xiàn),則它很可能是一個(gè)新詞。吳悅[7]等使用似然比來度量字符串在前景語料中的概率相比于在背景語料中概率的強(qiáng)烈程度。劉哲[18]等也使用了時(shí)間特征來識(shí)別新詞。

3.2.4 鄰接類別

新詞在詞的內(nèi)部具有穩(wěn)定性, 但詞的上下文語境卻很靈活,即它可以出現(xiàn)在多種語境中,可用上下文鄰接來反映詞的這個(gè)特征。上下文鄰接一般分為左鄰接和右鄰接,即當(dāng)前詞的前一個(gè)字或詞和當(dāng)前詞的后一個(gè)字或詞。由左鄰接和右鄰接組成的集合是上下文鄰接集合,這個(gè)集合元素越多,說明詞的上下文語境越靈活,越可能是一個(gè)新詞。如鐘將[19]等使用鄰接類別這一特征來識(shí)別新詞。有的文獻(xiàn)中也使用左右信息熵的概念來反映新詞的這一特征。

3.3 規(guī)則和統(tǒng)計(jì)相結(jié)合的方法

針對(duì)規(guī)則方法和統(tǒng)計(jì)方法各自的不足,也有學(xué)者將兩種方法相結(jié)合以提高識(shí)別效果。大多數(shù)學(xué)者采用的是統(tǒng)計(jì)方法為主規(guī)則方法為輔。如程濤[20]等、張?zhí)K[21]等都采用統(tǒng)計(jì)和規(guī)則相結(jié)合的方法來識(shí)別新詞。

4 存在的問題

4.1 新詞識(shí)別的方法仍有一定局限性,識(shí)別效果有待提高

從目前新詞識(shí)別研究的成果來看,準(zhǔn)確率、召回率及F 值仍然偏低,新詞識(shí)別中還存在著種種的問題沒有解決。如:新詞定義不統(tǒng)一,人工判定新詞的主觀性,新詞產(chǎn)生時(shí)間的模糊性,分詞后識(shí)別方法中的分詞錯(cuò)誤,垃圾串過濾的復(fù)雜性等。

4.2 缺乏少數(shù)民族語的新詞識(shí)別研究

少數(shù)民族語言信息處理近年來獲得較大發(fā)展,形成了許多成果,在詞法、語法、語義、語音、語料庫、機(jī)器翻譯等領(lǐng)域都有成果,但新詞識(shí)別研究的成果卻幾乎沒有,因此,開展少數(shù)民族語言的新詞識(shí)別研究是迫切需要的。

4.3 多語種的新詞識(shí)別研究成果少

中國境內(nèi)除漢語外,還有許多少數(shù)民族語言,各少數(shù)民族語言的信息化進(jìn)程也越來越快,開展跨語言的信息處理研究也越來越重要,但關(guān)于多語種的新詞識(shí)別研究目前只看到劉冰洋[22]等的《多語種網(wǎng)絡(luò)文本快速新詞抽取》,它針對(duì)的是中英文語料,多語種的漢語和少數(shù)民族語新詞識(shí)別還沒有看到相關(guān)成果。

5 結(jié)語

中文新詞識(shí)別是未登錄詞處理中的一個(gè)重要內(nèi)容,直接影響著中文分詞的效果。近年來的研究成果越來越多,該文總結(jié)了中文新詞識(shí)別的主要技術(shù)方法,分析評(píng)價(jià)了各自方法的優(yōu)劣,指出了中文新詞識(shí)別研究中存在的一些問題,為開展更進(jìn)一步研究奠定了基礎(chǔ)。

參考文獻(xiàn)

[1] 呂學(xué)強(qiáng),黃河,李渝勤,等.BBS中文新詞自動(dòng)挖掘[J].現(xiàn)代圖書情報(bào)技術(shù),2007(1):37-39.

[2] 鄒綱,劉洋,劉群,等.面向Internet的中文新詞語檢測(cè)[J].中文信息學(xué)報(bào),2004,18(6):1-9.

[3] 汪華峰,陳峪.漢語自然語言理解中詞切分中新詞問題初探[C]//第一屆全國語言識(shí)別學(xué)術(shù)報(bào)告與展示會(huì)論文集.1990.

[4] 徐遠(yuǎn)方,李成城.基于SVM和詞間特征的新詞識(shí)別研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2012,22(5):134-136.

[5] 林自芳,蔣秀鳳.基于詞內(nèi)部模式的新詞識(shí)別[J].計(jì)算機(jī)與現(xiàn)代化,2010(11):162-165.

[6] 崔世起,劉群,孟瑤,等.基于大規(guī)模語料庫的新詞檢測(cè)[J].計(jì)算機(jī)研究與發(fā)展,2006,43(5):927-932.

[7] 吳悅,燕鵬舉,翟魯峰.基于二元背景模型的新詞發(fā)現(xiàn)[J].清華大學(xué)學(xué)報(bào):自然科學(xué)版,2011(9):1317-1320.

[8] 李鈍,屠衛(wèi),石磊,等.基于上下文感知的中文新詞識(shí)別算法[J].計(jì)算機(jī)工程與設(shè)計(jì),2012,33(10):4022-4027.

[9] 陳飛,劉奕群,魏超,等.基于條件隨機(jī)場(chǎng)方法的開放領(lǐng)域新詞發(fā)現(xiàn)[J].軟件學(xué)報(bào),2013(5):1051-1060.

[10] 丁建立,慈祥,黃劍雄.一種基于免疫遺傳算法的網(wǎng)絡(luò)新詞識(shí)別方法[J].計(jì)算機(jī)科學(xué),2011,38(1):240-245.

[11] 黃軒,李熔烽.博客語料的新詞發(fā)現(xiàn)方法[J].現(xiàn)代電子技術(shù),2013,36(2):144-146.

[12] 韓艷,姚建民,朱巧明,等.不限領(lǐng)域的中文新詞的識(shí)別研究[J].鄭州大學(xué)學(xué)報(bào):理學(xué)版,2008,40(3):67-71.

[13] 周超,嚴(yán)馨,余正濤,等.融合詞頻特性及鄰接變化數(shù)的微博新詞識(shí)別[J].山東大學(xué)學(xué)報(bào):理學(xué)版,2015,50(3):6-10.

[14] 王琳琳.規(guī)則與統(tǒng)計(jì)相結(jié)合的中文新詞識(shí)別研究[J].嘉興學(xué)院學(xué)報(bào),2014,26(6):124-130.

[15] 賈自艷,史忠植.基于概率統(tǒng)計(jì)技術(shù)和規(guī)則方法的新詞發(fā)現(xiàn)[J].計(jì)算機(jī)工程,2004,30(20):19-21.

[16] 段宇鋒,鞠菲.基于N-gram的專業(yè)領(lǐng)域中文新詞識(shí)別[J].現(xiàn)代圖書情報(bào)技術(shù),2012(2):41-47.

[17] 吳春穎,王士同,蔡崇超.一種基于新詞發(fā)現(xiàn)的Web文本表示方法[J].計(jì)算機(jī)應(yīng)用,2008,28(3):764-767.

[18] 劉哲,黃永峰,羅芳,等.網(wǎng)絡(luò)新詞識(shí)別算法研究[J].計(jì)算機(jī)工程與科學(xué),2013,35(9):141-145.

[19] 鐘將,耿升華,董高峰.一種新詞檢測(cè)方法研究[J].數(shù)字通信,2013,40(2):1-5.

[20] 程濤,施水才,張玉杰,等.基于大規(guī)模語料庫的新聞?lì)I(lǐng)域新詞挖掘[C]//第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議,2007.

[21] 張?zhí)K,梁穎紅,牛麗.基于術(shù)語抽取技術(shù)的新聞新詞發(fā)現(xiàn)方法研究[J].蘇州市職業(yè)大學(xué)學(xué)報(bào),2014(3):14-16.

[22] 劉冰洋,劉倩,張瑾,等.多語種網(wǎng)絡(luò)文本快速新詞抽取[J].中文信息學(xué)報(bào),2014,28(2):78-84.

莫力| 镇康县| 开封县| 海阳市| 诏安县| 道真| 响水县| 阿勒泰市| 定西市| 新民市| 林芝县| 运城市| 赣榆县| 和政县| 正镶白旗| 缙云县| 九江县| 新余市| 莱西市| 吉水县| 江门市| 沈丘县| 诏安县| 龙胜| 阿克苏市| 会宁县| 孟村| 长武县| 伊川县| 隆尧县| 隆回县| 宝坻区| 通城县| 从江县| 沛县| 湖南省| 昆明市| 广西| 肃北| 绥德县| 富宁县|