国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于術(shù)語抽取技術(shù)的新聞新詞發(fā)現(xiàn)方法研究

2014-03-08 02:39梁穎紅
關(guān)鍵詞:內(nèi)部結(jié)構(gòu)互信息詞綴

張 蘇,梁穎紅,牛 麗

(蘇州市職業(yè)大學(xué) 計算機工程學(xué)院,江蘇 蘇州 215104)

基于術(shù)語抽取技術(shù)的新聞新詞發(fā)現(xiàn)方法研究

張 蘇,梁穎紅,牛 麗

(蘇州市職業(yè)大學(xué) 計算機工程學(xué)院,江蘇 蘇州 215104)

新聞新詞的識別在中英文翻譯、手機應(yīng)用推送等方面有著重要作用.通過對網(wǎng)絡(luò)新聞新詞的使用情況、新聞新詞的來源和特點的分析,提出一種基于混合策略的高精度長術(shù)語抽取技術(shù)新聞新詞發(fā)現(xiàn)的方案.在通過預(yù)處理的網(wǎng)絡(luò)新聞?wù)Z料中,計算基于詞匯NC-value值的互信息以確定詞匯內(nèi)部結(jié)構(gòu)的結(jié)合性,通過新聞新詞規(guī)則處理進行新聞新詞發(fā)現(xiàn).

中文信息處理;新詞發(fā)現(xiàn);互信息;NC-value

在中文信息處理中,沒有被收錄在分詞詞表中,但應(yīng)該切分出來的詞稱為未登錄詞.未登錄詞包含了命名實體,例如人名、地名、機構(gòu)名、專有名詞等,未登錄詞還包含縮寫詞、新增詞匯等.在中文信息處理中,未登錄詞的識別是中文分詞的基礎(chǔ)工作[1].

在新詞的發(fā)現(xiàn)和研究中,漢語言文學(xué)方向的學(xué)者多是從語言的發(fā)展過程、詞群的突發(fā)現(xiàn)象進行研究,例如文獻[2]以“X男”、“X女”為代表研究漢語新詞群的內(nèi)部結(jié)構(gòu)、形成特點和發(fā)展趨勢.文獻[3]提出了類詞綴的概念,研究詞根和詞綴的關(guān)系以及基于類詞綴的新詞確定.文獻[4]研究漢語新聞新詞的來源構(gòu)成.文獻[5]從網(wǎng)絡(luò)術(shù)語、身勢情態(tài)語符號、數(shù)字諧音詞和字母詞的角度討論了網(wǎng)絡(luò)新詞的來源.文獻[6]從詞長、語義、詞群化方面研究了新詞的特點,以及單純新詞語和合成新詞語的語義建構(gòu)特點和分類.文獻[7]研究新詞語法結(jié)構(gòu)中聚合和組合的語言規(guī)則.文獻[8]研究新聞新詞的來源和新聞中新詞使用的規(guī)范.

在數(shù)據(jù)挖掘和信息處理領(lǐng)域涉及新詞處理的研究有:文獻[1]提出一種面向大型語料庫的基于詞頻信息和模式串垃圾詞過濾方法的新詞發(fā)現(xiàn)方法.文獻[9]提出一種利用文本挖掘技術(shù)的專業(yè)詞庫新詞關(guān)聯(lián)發(fā)現(xiàn)方法;文獻[10]提出一種基于NC-value參數(shù)和互信息的長術(shù)語抽取方法.

1 新聞新詞的含義

新聞新詞指的是在新聞?wù)Z言中所出現(xiàn)的最近詞匯,通常反映了當前社會關(guān)注的焦點,是近期出現(xiàn)的熱點事件和熱點現(xiàn)象的總結(jié),通常具有豐富的衍生含義,指代某種流行現(xiàn)象、熱點事件或者是近期大眾關(guān)心的人和事.

新聞新詞作為詞庫中未收錄的詞語,其發(fā)現(xiàn)工作也屬于未登錄詞識別的一種應(yīng)用.對于未登錄詞的識別的研究重點主要是命名實體等,詞性主要為名詞,在句子中擔任固定的句法功能.而新聞新詞構(gòu)詞形式豐富,不僅可能是名詞、動詞、形容詞等,也可能是個復(fù)合短語,新聞新詞通常表現(xiàn)了目前公眾關(guān)心的熱點信息,包含以下幾類:

1)代表熱點事件.如“中國好鄰居”、“朕略萌”、“錘子哥”、“球嫂”、“中國大媽”等.

2)最近爆紅的人名.如“古川雄輝”、“林蕭”、“周崇光”等.

3)網(wǎng)絡(luò)用語.如“天朝”、“魔都”、“滾粗”、“鹵煮”、“碎覺”、“鎮(zhèn)樓”等.

新聞新詞的來源可以分為縮略詞、外來詞、復(fù)合詞、生造詞、新詞詞群五種.

1)縮略詞.一般用簡短的表達表示一個完整、固定的意思.例如高大上(高端、大氣、上檔次)、累覺不愛(很累,感覺自己不會再愛了)、不明覺厲(雖然不明白你在說什么,但是聽起來感覺很厲害的樣子)、喜大普奔(喜聞樂見、大快人心、普天同慶、奔走相告)、人艱不拆(人生已經(jīng)如此艱難,有些事情就不要拆穿了)、十動然拒(十分感動,然后拒絕了他).

2)外來詞.一般為音譯詞,它的特點是多數(shù)無內(nèi)部結(jié)構(gòu).例如:古川雄輝、林賽羅韓、阿特拉斯(機器人)、索契(冬奧會)、殺馬特.

3)復(fù)合詞.在新聞新詞中最多,很多是由有二三個內(nèi)部結(jié)構(gòu)的字詞形成一個新的表達,描述一個特定事件.例如,吞釘認親、東九涂鴉墻、異形老宅、神秘好人、百萬租女友、最炫護路風、漢字英雄.

4)生造詞.在網(wǎng)絡(luò)環(huán)境中憑空造一個詞出來,部分生造的詞會得到廣泛認可成為新的流行詞匯.例如,“天朝”、“魔都”、“滾粗”、“鹵煮”、“碎覺”、“鎮(zhèn)樓”.

5)新詞詞群.例如,中國好**(中國好聲音、中國好學(xué)姐、中國好鄰居),**哥(犀利哥、錘子哥、章魚哥),**黨(高三黨、標題黨、寂寞黨、砸貼黨、百度黨、拍磚黨、熊貓黨),**族(蟻族、啃老族、月光族).

根據(jù)以上的分析,新聞新詞出現(xiàn)比較多的情況有具有內(nèi)部結(jié)構(gòu)的復(fù)合詞,完全沒有內(nèi)部結(jié)構(gòu)的詞以及新詞詞群.因此,考慮計算新詞內(nèi)部的結(jié)合性,將結(jié)構(gòu)性明顯的詞和完全沒有結(jié)構(gòu)性的詞以及根據(jù)詞群詞綴過濾出來的詞進行進一步的提取,在技術(shù)上參考長術(shù)語抽取方法來實現(xiàn).

2 新聞新詞發(fā)現(xiàn)方法

基于混合策略的高精度長術(shù)語抽取技術(shù)的新聞新詞發(fā)現(xiàn)方法,其步驟如圖1所示.

使用網(wǎng)絡(luò)蜘蛛從因特網(wǎng)上下載新聞網(wǎng)頁,對新聞網(wǎng)頁進行去噪處理,保留新聞文本和主要標記.對文本進行粗切分生成生語料庫,在對生語料進行進一步處理時,采用基于NC值的候選術(shù)語抽取技術(shù),根據(jù)上下文信息庫和術(shù)語詞性構(gòu)成規(guī)則計算NC值,計算基于NC值的互信息值.再根據(jù)互信息值提取新聞新詞的候選語料,選出重復(fù)字符串中內(nèi)部結(jié)合明顯且互信息高的詞以及重復(fù)字符串中內(nèi)部字間互信息低的詞,以及含有典型詞綴的重復(fù)詞,對于選出的詞根據(jù)規(guī)則進行去除垃圾串和新詞提取.

圖1 基于混合策略的高精度長術(shù)語抽取技術(shù)的新聞新詞發(fā)現(xiàn)方法

3 基于混合策略的高精度長術(shù)語抽取技術(shù)

對于新詞識別的方法,分為基于規(guī)則和基于統(tǒng)計兩個方法,目前大部分的研究者都采用規(guī)則和統(tǒng)計相結(jié)合的方法提取新詞[11].

考慮到新聞新詞中一部分詞內(nèi)部結(jié)構(gòu)穩(wěn)定互信息值高,一部分詞內(nèi)部無結(jié)構(gòu)互信息值極低,以及一部分基于典型詞綴的詞語的發(fā)現(xiàn),參考長術(shù)語自動抽取技術(shù)[10]中內(nèi)部結(jié)構(gòu)互信息的計算方法實現(xiàn)新聞新詞發(fā)現(xiàn).

該方法設(shè)計了一個參數(shù)NC-value,該參數(shù)用于反應(yīng)上下文信息,通過詞匯在較長的候選詞中出現(xiàn)的頻率來確定.抽取過程從具有最大長度的字符串開始計算,記a為候選字符串,Ca代表a的上下文詞匯的總和,fa(b)代表b在a的上下文中出現(xiàn)的次數(shù),weight(b)代表b在上下文中的權(quán)重,其計算方法為

式中:weight表示a的上下文詞匯合集;t(m)表示和詞語m一起出現(xiàn)的術(shù)語個數(shù);n表示所有被考慮的候選術(shù)語的總個數(shù).NC-value參數(shù)的計算方法為

式中:t(a)表示a在較長的候選術(shù)語中出現(xiàn)的頻率;C(a)表示候選術(shù)語;f(a)表示a在語料中出現(xiàn)的頻率.互信息指的是兩個事件集合之間的相關(guān)性,兩個事件X和Y的互信息的計算公式為

利用互信息計算一個字符串的內(nèi)部的結(jié)構(gòu)度,互信息值越高,X和Y組成短語的可能性越大;互信息值越低,X和Y值組成短語的可能性越小.其中

N為全部候選串的C-value之和,基于NC-value參數(shù)的X和Y的互信息MI值計算公式為

使用NC-value和互信息相結(jié)合的方法抽取新聞新詞候選詞的基本思路如下:

1)對生語料進行文本粗切分;

2)根據(jù)上下文信息庫和術(shù)語詞性構(gòu)成規(guī)則計算候選術(shù)語的NC值;

3)根據(jù)候選術(shù)語內(nèi)部結(jié)構(gòu)的NC值計算互信息值;

4)根據(jù)互信息值確定內(nèi)部結(jié)構(gòu)的結(jié)合性,將互信息值大于指定閾值以及小于指定閾值的詞匯作為新聞新詞的候選詞匯;

5)根據(jù)新聞新詞的組成規(guī)則和新聞文本信息篩選和確定新聞新詞.

4 結(jié)論

通過對新聞新詞的類型和來源的分析,研究了新聞新詞的特點,根據(jù)新聞新詞內(nèi)部結(jié)構(gòu)明顯、內(nèi)部無結(jié)構(gòu)和典型詞綴詞群3個特點,借鑒術(shù)語抽取技術(shù)中的互信息計算方法,提出一種新聞新詞發(fā)現(xiàn)方法.將圍繞新聞新詞的出詞效果,研究生語料的預(yù)處理和標注以及新聞新詞的語法規(guī)則做進一步研究,以提高出詞的準確率和召回率.

[1]崔世起,劉群,孟遙,等.基于大規(guī)模語料庫的新詞檢測[J].計算機研究與發(fā)展,2006(5):927-932.

[2]黃娟.“X男”、“X女”新詞群研究[D].揚州:揚州大學(xué),2011.

[3]沈光浩.漢語派生詞新詞語研究[D].河北:河北師范大學(xué),2012.

[4]羅輝.漢語新聞新詞匯來源簡析[J].重慶科技學(xué)院學(xué)報:社會科學(xué)版,2012(2):130-131,153.

[5]李薇薇.漢語語境下的網(wǎng)絡(luò)新詞語研究[D].汕頭:汕頭大學(xué),2003.

[6]游玉祥.新詞語的特點分析及其認知解釋[D].上海:上海外國語大學(xué),2012.

[7]曹起.新時期現(xiàn)代漢語變異研究[D].吉林:吉林大學(xué),2013.

[8]欒建偉.新聞中新詞新語運用及規(guī)范[J].寫作,2008(2):34-37.

[9]李寶虹.基于統(tǒng)計特征和語法結(jié)構(gòu)的漢語新生詞匯的識別[J].情報科學(xué),2013(8):94-97.

[10]梁穎紅,張文靜,周德富.基于混合策略的高精度長術(shù)語自動抽取[J].中文信息學(xué)報,2009(6):26-30.

[11]張海軍,史樹敏,朱朝勇,等.中文新詞識別技術(shù)綜述[J].計算機科學(xué),2010(3):6-10,16.

(責任編輯:李 華)

Research on News Neologisms Identifcation with Long Term Extraction Technology

ZHANG Su,LIANG Ying-hong,NIU Li
(School of Computer Engineering,Suzhou Vocational University,Suzhou 215104,China)

The news neologisms identification technology can be used in such areas as English-Chinese translation,mobile software information push and so on.This paper frst analyzes the usage of news neologisms,then the origins and features of news neologisms.A News Neologisms Identifcation method is proposed,which is based on a hybrid strategy with high precision long terms’extraction for high precision.Based on the preprocessed network news corpus,the mutual information value is calculated by the NC-value parameter so as to ascertain the associativity of inner structure of words and expressions in an effort to discover news neologisms by means of flter rules.

Chinese information processing;news neologism identifcation;mutual information;NC-value

TP391

A

1008-5475(2014)03-0014-03

2014-05-12;

2014-06-01

國家自然科學(xué)基金資助項目(61100138);蘇州市云計算及智能信息處理重點實驗室開放基金項目(SXZ201303);蘇州市科技計劃項目(SZS201201);江蘇省教育科學(xué)“十二五”規(guī)劃課題資助項目(C-b/2013/03/005)

張?zhí)K(1979-),女,江蘇蘇州人,講師,碩士,主要從事智能信息處理、自然語言處理方向研究.

猜你喜歡
內(nèi)部結(jié)構(gòu)互信息詞綴
從網(wǎng)絡(luò)語“X精”看“精”的類詞綴化
一種含內(nèi)部結(jié)構(gòu)的水下圓柱殼振動聲輻射計算方法
盾構(gòu)隧道內(nèi)部結(jié)構(gòu)全預(yù)制方案探討
釋西夏語詞綴wji2
COREX豎爐內(nèi)部結(jié)構(gòu)對物料運動影響的物理模擬
基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習
聯(lián)合互信息水下目標特征選擇算法
改進的互信息最小化非線性盲源分離算法
基于增量式互信息的圖像快速匹配方法
試析否定詞綴在漢維語中的不同表現(xiàn)
海安县| 剑阁县| 原阳县| 台东县| 东港市| 宿迁市| 朝阳区| 荔浦县| 金山区| 镇远县| 峨眉山市| 竹山县| 永登县| 秦皇岛市| 田东县| 永胜县| 阜新市| 会同县| 龙里县| 长垣县| 报价| 锡林郭勒盟| 车致| 新营市| 延长县| 宣汉县| 平邑县| 衡阳市| 吉木乃县| 融水| 两当县| 贡嘎县| 胶州市| 定西市| 三原县| 秀山| 唐河县| 常宁市| 修武县| 新泰市| 乐陵市|