一種基于加權(quán)投票的術(shù)語自動識別方法

2011-06-14 03:45:36游宏梁沈鈞毅

中文信息學報 2011年3期

游宏梁, 張巍, 沈鈞毅, 劉挺

(1. 西安交通大學電子與信息工程學院，陜西西安 710049;2. 北京文獻服務(wù)處，北京 100142; 3. 哈爾濱工業(yè)大學計算機學院, 黑龍江哈爾濱 150001)

1 引言

術(shù)語自動識別(Automatic Term Recognition，ATR)也稱為術(shù)語自動抽取(Automatic Term Extraction)，是指從文本中自動發(fā)現(xiàn)領(lǐng)域術(shù)語的過程。術(shù)語所形成的術(shù)語表或術(shù)語庫是信息抽取、文本挖掘領(lǐng)域諸多任務(wù)的重要輔助知識。中文分詞、實體識別等任務(wù)，對術(shù)語詞表具有很強的依賴性。

術(shù)語是某領(lǐng)域中反復使用的，形式較為固定、又表達某特定概念的詞語。漢語中，術(shù)語可以由一個字或多個字組成；英語中，術(shù)語可以由一個詞或多個詞組成。術(shù)語具有一定的結(jié)構(gòu)特點： (1)邊界特點(按照概念詞匯的前后界標記，概念詞匯可分為三類：有前后界標記的、有前界或后界標記的、無前后界標記的)；(2)長度特點(中文概念詞匯長度主要是2～6個字)；(3)詞性特點(概念詞匯大多是名詞性的短語)和詞性模式特點(如Noun+Noun、(Adj |Noun)+Noun等)。另外，在特定領(lǐng)域的自然語言文本中，術(shù)語也服從一定的統(tǒng)計規(guī)律： (1)在某一領(lǐng)域中出現(xiàn)頻率較高或只出現(xiàn)在某個領(lǐng)域中；(2)在不相關(guān)領(lǐng)域中出現(xiàn)頻率相對較低。術(shù)語的以上特點是實現(xiàn)術(shù)語自動抽取的主要依據(jù)。

從C-value[1]系列方法的出現(xiàn)以來，術(shù)語自動識別技術(shù)取得了較大突破。隨后對C-value方法做了多次改進，還陸續(xù)提出了NC-value方法、SNC-value等方法。C-value方法實際上是一種統(tǒng)計方法，其主要思想是計算術(shù)語的單元性(Unithood)[2]。后來提出的NC-value方法引入了上下文信息，目的是將詞語本身的統(tǒng)計特征和詞語出現(xiàn)的上下文環(huán)境特征相融合，提高術(shù)語識別的準確性。

除了借用單元性外，Kageura等人還提出了術(shù)語度(Termhood)[2]的概念。術(shù)語度的思想是通過候選術(shù)語與領(lǐng)域的相關(guān)性強弱來判斷其成為領(lǐng)域術(shù)語的可能性。C-value方法之后出現(xiàn)了很多衡量術(shù)語度的方法，但是術(shù)語度很少單獨使用，而通常是和其他衡量方法一起使用。具有代表性的有Term Extractor[3]、GlossEX[4]、ATRACT[5]等。

目前，多特征融合的趨勢越來越明顯。特征融合由起初的單元性和上下文特征的融合，再到Term Extractor的單元性、領(lǐng)域一致性、上下文特征、結(jié)構(gòu)特征的融合，有效性不斷得到驗證。但是，綜合所有特征不一定比使用一個或者部分特征表現(xiàn)更好。因此，如何選擇和融合特征值得深入探討。

本文嘗試將Tf-idf、C-value、Term Extractor進行比較，并采用加權(quán)投票算法進行融合。第2節(jié)簡述相關(guān)的研究工作和研究方法；第3節(jié)介紹了候選術(shù)語抽取方法和候選術(shù)語排序方法；第4節(jié)比對了單獨指標和加權(quán)投票算法的結(jié)果；第5節(jié)是總結(jié)和未來工作的展望。

2 相關(guān)研究工作概述

目前，術(shù)語自動識別主流方法都遵循“先預(yù)選，再排序”的流程，即首先挑選出候選術(shù)語；再利用某個指標衡量其成為術(shù)語的可能性，并按照可能性的高低進行排序。

在挑選候選術(shù)語方面，中文一般先進行分詞，再抽取候選術(shù)語。英文候選詞的挑選依據(jù)是術(shù)語的詞性特征。Frantzi[6]、Ismail Fahmi[7]等人認為，術(shù)語的詞性具有一定的規(guī)律。他們首先對文本進行詞性標注，接著通過觀察分析，提煉出術(shù)語的詞性規(guī)律，得出詞性過濾規(guī)則；最后，利用這些規(guī)則與已標注好詞性的文本進行匹配，如果詞性串匹配，則提取出相對應(yīng)的詞或詞組。這些詞或者詞組就是候選術(shù)語。但問題是，如果詞性規(guī)則過于嚴格，容易導致候選術(shù)語個數(shù)不足，從而降低了術(shù)語的“召回率”；如果詞性規(guī)則過于寬松，容易引入“噪音”詞，從而降低術(shù)語抽取的“準確率”。因此，人為地制定詞性模板會影響規(guī)則的準確性。為了獲取更加嚴謹?shù)脑~性規(guī)則，需要借助程序?qū)Υ笠?guī)模術(shù)語的詞性規(guī)則進行提取，并為這些詞性規(guī)則定制優(yōu)先級(不對規(guī)則進行歸并，僅對規(guī)則進行優(yōu)先匹配排序)。目前，很多信息抽取系統(tǒng)(如General Architecture for Text Engineering, GATE) 都提供了更加靈活的平臺，允許定制模板，并設(shè)定模板的優(yōu)先級*http://gate.ac.uk。

在候選術(shù)語的排序方面，目前采用的指標大多基于術(shù)語的統(tǒng)計特征、上下文特征、領(lǐng)域相關(guān)性、結(jié)構(gòu)特征等。Salton提出的Tf-idf[8]方法綜合考量了術(shù)語在一篇文檔中的頻率和不同文檔中的分布；Frantzi等人的C-value方法側(cè)重對具有包含關(guān)系的字串進行統(tǒng)計，并按照頻率進行排序；Frantzi等人還提出了融合上下文詞匯權(quán)重的NC-value[2]方法；Term Extractor還綜合領(lǐng)域相關(guān)度(Domain Pertinence)、領(lǐng)域一致性(Domain Consensus)、領(lǐng)域凝聚度(Lexical Cohesion)等指標，并采用了結(jié)構(gòu)相關(guān)性(認為候選術(shù)語出現(xiàn)在標題、摘要中就更有可能是術(shù)語)來度量術(shù)語性。

表1 人工啟發(fā)式規(guī)則

表2 各種方法所采用的特征

3 候選術(shù)語的生成與排序方法

本文所采用的術(shù)語自動抽取流程與通用流程大致相同，也有所改進。一般流程如圖1所示。首先對文本進行預(yù)處理，如中文分詞、詞性標注、英文詞根還原等；接著利用過濾規(guī)則匹配出候選術(shù)語，如名詞短語(例如復合詞、“形容詞—名詞”短語和“介詞—名詞”短語)等；隨后利用統(tǒng)計、規(guī)則匹配或機器學習等方法對候選術(shù)語進行排序；最后按照某個閾值T截取前N個詞，評估其抽取質(zhì)量。

圖1 術(shù)語自動抽取的一般過程

本文的過程與傳統(tǒng)術(shù)語抽取流程的不同之處有兩個：一是在候選術(shù)語生成階段，采用了詞性規(guī)則自動生成算法，來解決規(guī)則的準確性差和領(lǐng)域適應(yīng)性差問題；二是在候選術(shù)語排序階段，采用了多方法的加權(quán)投票，解決排序方法的領(lǐng)域適應(yīng)性問題。下面將介紹這兩方面的改進工作。

3.1 基于詞性規(guī)則自動獲取的候選術(shù)語的生成

為了徹底掌握某領(lǐng)域中術(shù)語的詞性特點，本文對大規(guī)模術(shù)語的詞性構(gòu)成進行了統(tǒng)計，試圖得到一個較為真實的適應(yīng)領(lǐng)域特點的術(shù)語規(guī)則集合。

這種方法的主要障礙是大規(guī)模的準確詞性規(guī)則如何獲取。但是在自由文本中，獲取精確的詞性模板較為困難。幸運的是，科技文獻中存在大量的半結(jié)構(gòu)化元數(shù)據(jù)，其中大量關(guān)鍵詞都經(jīng)過了文獻作者的詳細推敲，準確性十分可靠。而且這些關(guān)鍵詞就是該領(lǐng)域的術(shù)語。因此獲取這些關(guān)鍵詞的詞性構(gòu)成規(guī)則，就是獲取了術(shù)語的詞性規(guī)則。

值得一提的是，有人會提出疑問，既然單獨用關(guān)鍵詞作為術(shù)語就可以滿足需要了，而且大量文章的關(guān)鍵詞其形成的術(shù)語表也會具有一定的規(guī)模，可以被應(yīng)用系統(tǒng)使用，就沒有必要進一步從自由文本中抽取。但后來實驗證實，關(guān)鍵詞雖然可以構(gòu)成術(shù)語集，但是這個術(shù)語集是不完全的甚至還沒達到近乎完全的地步*導致這種不完全性的原因是，一般的科技文獻關(guān)鍵詞數(shù)量都被限定在一定范圍內(nèi)，因此多數(shù)研究者不會也不可能將出現(xiàn)在文章中的細節(jié)術(shù)語都列為關(guān)鍵詞。。這種不完全性對于某些對術(shù)語具有極強依賴性的應(yīng)用系統(tǒng)來說，將是致命性的(如自動標引、分類等無法發(fā)現(xiàn)能準確代表新文章主題的的術(shù)語)。為了一定程度上克服這種不完全性，就需要術(shù)語抽取系統(tǒng)能夠發(fā)現(xiàn)關(guān)鍵詞以外的“新”術(shù)語，因此，采用本文描述的過程來抽取術(shù)語還是十分必要的。

提取關(guān)鍵詞的過程比較簡單，通過分隔符(如逗號、分號)就能對關(guān)鍵詞串進行簡單的切分提取，對應(yīng)于圖2中的模塊(1)。為了消除關(guān)鍵詞在“關(guān)鍵詞”域和“摘要”域中形態(tài)不一致情況(由于關(guān)鍵詞在“關(guān)鍵詞”域中沒有句法特征)，我們對“摘要”和“關(guān)鍵詞”的文本進行了詞根還原。但在此之前，摘要文本已經(jīng)完成了詞性標注，對應(yīng)于步驟(2)。我們采用的標注工具是Stanford的POSTagger*http://nlp.stanford.edu/software/tagger.shtml。上述預(yù)處理完成工作后，獲得了三個集合：規(guī)范化的關(guān)鍵詞、規(guī)范化的文本以及和文本相對應(yīng)的詞性標注。

圖2 詞性規(guī)則的自動生成

步驟(3)是模板生成的核心算法。其思想是：首先在文本中搜索關(guān)鍵詞的出現(xiàn)位置，一旦搜索成功，就提取出該關(guān)鍵詞的對應(yīng)詞性串。接著對詞性串進行頻率統(tǒng)計，并確定規(guī)則的優(yōu)先級*確定優(yōu)先級的目的是解決模板的沖突問題。例如具有包含關(guān)系的兩個詞性串，如A=JJ+NN+NN，B=NN+NN，A的優(yōu)先級要高于B。如果遇到詞性串JJ+NN+NN，其對應(yīng)的詞串為“sudden death testing”，那么就首先觸發(fā)模板A匹配出這個詞，然后，再觸發(fā)B模板匹配出“death testing”，但是二者權(quán)重要根據(jù)模板的嚴格程度有所區(qū)別。A更嚴格，因此A的匹配更加“難得”，因此其可信度也可能高。但是，這并不絕對。。

模板生成后，剩余工作就是利用帶有優(yōu)先級的模板去匹配文本所對應(yīng)的詞性序列。為了提高搜索效率，筆者采用了先定位名詞、再尋找名詞前后字符串的方法。這樣做的依據(jù)是，術(shù)語的最后一個詞都是名詞詞性。隨后，每一個匹配出的候選術(shù)語的邊界被標示出來。

3.2 基于加權(quán)投票算法的候選術(shù)語排序

候選排序方法涉及到兩個問題：指標的選擇和指標的加權(quán)投票算法。

3.2.1 選擇的指標

本文選擇三個指標： Tf-idf、C-value和Term-Extractor。在表2中已經(jīng)列出了各種方法所采用的特征。選用方法的依據(jù)是特征之間的互補性： Tf-idf用到了單篇文檔中的術(shù)語頻率以及在文檔集合中術(shù)語的分布特征，一般是作為各種方法的基準評判指標；C-value不僅考察了詞匯的頻率，還引入了具有包含關(guān)系的詞串的頻率對比(例如，information作為術(shù)語的出現(xiàn)次數(shù) 和information retrieval進行比較，如果information單獨出現(xiàn)的頻率小于information retrieval的頻率，則后者的C-value值更高)，是具有代表性的基于詞形特征的方法；Term-Extractor是綜合特征較多的一種方法。從表2中可以看出，三種方法所采用的特征類型重疊不多，將三種方法進行融合能夠覆蓋大多數(shù)的特征類型。

3.2.2 加權(quán)投票算法

另一個關(guān)鍵問題是加權(quán)投票算法。目前的投票算法有兩種[9]：少數(shù)服從多數(shù)投票和加權(quán)投票。少數(shù)服從多數(shù)的方法過于機械，本文不予采用。由于本文采用的各個方法的輸出值都是實數(shù)，采用加權(quán)投票方法更適合于本文的這種指標性結(jié)果。而且，可以通過調(diào)整權(quán)重影響各個方法的作用發(fā)揮。過程如圖3所示。候選術(shù)語用T表示，指標用Mi表示；每個指標的預(yù)定義權(quán)重為wi.。對于任一指標Mi來說，先計算T的得分R(T)；然后將累加，算出得分ranki；最后根據(jù)投票算法的新閾值Th判斷是否是術(shù)語。

圖3 加權(quán)投票算法

用ranki代表投票算法計算第i個詞得出的指標值。其公式如下：

其中，k代表算法的個數(shù)，用R(ti)代表候選概念詞匯t在第i個算法的排序；wi代表算法i的權(quán)重，它根據(jù)如下公式計算：

其中，Pi代表算法i的準確度。該權(quán)值的確定方法沿襲了Klein[10]的思想：如果某個指標的準確性高，則權(quán)值wi就高，其作用就更明顯；Pi值既參考每個指標在權(quán)威文章中公布的實驗結(jié)果，還可通過實驗確定每個權(quán)值的大小。前提是結(jié)果需是各指標根據(jù)同類型或相似類型數(shù)據(jù)得到的。今后還要研究如何通過自動驗證方法確定Pi值的大小。

4 實驗設(shè)計及結(jié)果分析

4.1 實驗設(shè)計

本文使用了IEEE2006-2007年的5.5萬條科技文獻元數(shù)據(jù)。經(jīng)過篩選，最后確定采用元數(shù)據(jù)中的摘要和關(guān)鍵詞作為處理對象。經(jīng)過統(tǒng)計發(fā)現(xiàn)，5.5萬條元數(shù)據(jù)中，關(guān)鍵詞總共出現(xiàn)了39.4萬次。經(jīng)過了去重、同義詞消解之后，驚奇地發(fā)現(xiàn)，這39.4萬個詞實際上只包含了11.1萬個互不相同的關(guān)鍵詞，即每一個關(guān)鍵詞大概出現(xiàn)了三次。

為了了解這些詞匯的分布特點，我們對詞匯出現(xiàn)的頻率特征進行了簡單的統(tǒng)計。令人驚奇的是，關(guān)鍵詞在文本中的分布規(guī)律與Zipf 法則*http://en.wikipedia.org/wiki/Zipf’s_law十分相似，“長尾效應(yīng)”十分明顯：出現(xiàn)1次的概念詞匯共有9萬個，占總數(shù)的80%，出現(xiàn)2次的約8 000個，占7%，而3次的占2.7%。其規(guī)律如圖4所示。

圖4 關(guān)鍵詞的分布規(guī)律

Zipf法則是自然語言文本中所有詞匯的規(guī)律總結(jié)；而關(guān)鍵詞的分布規(guī)律僅是對特定的具有一定信息量的領(lǐng)域術(shù)語進行統(tǒng)計得到的規(guī)律總結(jié)。二者的詞匯范圍不同，但規(guī)律卻驚人的相似。這可能說明，在特定領(lǐng)域的文本集合中，有意義的概念的分布也可能遵循某一個類似Zipf定律的分布法則。將來可能指導更加深入的研究。在本文中暫且不做探討。

自動抽取系統(tǒng)主要分為三個處理模塊：預(yù)處理模塊，用來進行詞根還原、同義詞消解、詞性標注；模板生成模塊，用來自動獲得詞性模板，并確定模板的匹配優(yōu)先級；排序算法，用于對候選術(shù)語進行排序。

在預(yù)處理方面，為了使詞匯的詞根還原更準確，我們選定了外部詞典WordNet*http://wordnet.princeton.edu/作為詞根還原的主要依據(jù)。

另外，還應(yīng)用了WorldNet的同義詞集(一個同義詞集表示同一個概念)來識別同義詞。其辦法是，遇到任意兩個詞，如果他們被收錄在同一個同義詞集中，則認為他們是用來表達同一個概念的同義詞。該假設(shè)的前提條件是兩個詞出現(xiàn)在相同領(lǐng)域中。因為筆者認為，在特定領(lǐng)域中，詞匯表達的概念單一，歧義性較弱，因而詞義可以由同一個詞代替。

本文還選擇了POSTagger作為詞性標注的工具。面對本領(lǐng)域，我們尚未構(gòu)建自己的訓練樣例，因此，POSTagger使用Wall Street Journal樣例訓練出的標注模型完成本文的詞性標注工作。結(jié)果發(fā)現(xiàn)，標注的結(jié)果很好。原因可能是科技文獻中的語言較為嚴謹，錯誤較少，IEEE科技文獻中的詞語雖然專業(yè)，但算不上生僻。

投票算法對三個算法采用相同的權(quán)重進行加權(quán)，即每個權(quán)重值都是1/3。

結(jié)果的評價采用的是P@N和UAP(Un-interpolated Average Precision)[11]。

4.2 實驗結(jié)果及分析

表3反映了經(jīng)過統(tǒng)計之后的部分高頻和低頻術(shù)語。從結(jié)果中可以看出，高頻術(shù)語通常具有更加廣泛的含義，屬于較為寬泛、涉及面較廣的高層概念；而低頻術(shù)語由于其限定多、意義窄，經(jīng)常出現(xiàn)在某些特定環(huán)境中，而這種特定環(huán)境屬于個例，并不多見，因此，這些詞匯的意義通常非常具體，屬于較低層的概念。這個規(guī)律也啟示了作者，傳統(tǒng)的基于詞頻的方法有可能忽視80%的低頻詞群體，因而我們應(yīng)該采用多種特征，更加客觀和全面地考察候選術(shù)語。

圖5 自動術(shù)語抽取系統(tǒng)框架

表3高頻和低頻術(shù)語舉例

表4顯示了部分自動獲取的高頻詞性規(guī)則。按照規(guī)則的頻率由高到低排序為： (NN NN)>(JJ NN NN)>(NN NN NN)>(JJ NN)>(JJ NN NN NN)>(JJ JJ NN)>(NN NN NN NN)?？梢?，關(guān)鍵詞中術(shù)語模式以名詞性短語為主。該條規(guī)律同F(xiàn)rantzi[6]和Fahmi[7]的人工指定的詞性規(guī)則基本一致。但是，由于他們采用的規(guī)則集合是由正則表達式生成的，沒有對模板進行優(yōu)化篩選，因此錯誤地引入了很多噪音詞。本文提出的自動獲取方式克服了人工指定規(guī)則的不準確性影響，減少了噪音規(guī)則的個數(shù)。

表4 自動生成的詞性模板

實驗結(jié)果生成的詞性規(guī)則數(shù)量很多，達到了700多個。但是并不是所有規(guī)則都被用來進行候選概念詞匯抽取，而是通過頻率截斷來篩選高可信度規(guī)則。而且，模板集合也由于詞性標注的不準確性引入了噪音。這些噪音一般是偶然事件，因此也可以通過頻率篩選過濾掉。

表5顯示了在摘要中命中的部分候選術(shù)語。規(guī)則匹配方法命中效果較好，候選術(shù)語的質(zhì)量比較高，但是，不可避免地產(chǎn)生了噪音和錯誤，例如Indian Market雖然滿足”JJ NN” 詞性模式，但不是術(shù)語；又“如JJ JJ NN”雖然是合理的詞性模板，但詞性標注的不準確性導致“random key predistribution” 中的“key”被錯誤標注為形容詞JJ。但是，這尚未影響抽取結(jié)果的準確性。接著我們采用了三種指標混合的方法對候選概念詞匯進行可信度排序，還與各種單獨指標進行了比較，結(jié)果如表6所示。

表5 命中模板及候選術(shù)語舉例

表6 識別算法的比較/%

比較表6 中的不同方法可以看出，Tf-idf、 C-value和 Term Extractor在前100個詞匯的準確率都能達到90%以上。但在前1 000個詞匯中，其準確率下降速度不同，C-value的衰減速度最慢，而Term Extractor的衰減速度最快，準確率比前兩種要低?；诩訖?quán)平均的方法雖然衰減速度一般，但是隨著截取的詞匯的數(shù)量的增加，準確率衰減速度很慢，能夠保證在大規(guī)模關(guān)鍵詞提取時具有較高的可用性。可以看出，基于加權(quán)投票的識別算法是一種可用的方法。

經(jīng)過觀察，發(fā)現(xiàn)新抽取出的詞匯與關(guān)鍵詞、自由詞中的某些詞匯具有一定的語義相似性，因此可以考慮將相似性判斷作為提高結(jié)果準確率的方法。該方法將在以后詳細闡述。

5 結(jié)論與展望

本文通過實驗，證明了基于多指標加權(quán)投票方法的有效性，也驗證了多特征融合思路在術(shù)語識別任務(wù)中的正確性。從實驗結(jié)果中可以看出，C-value仍然是綜合效果較好的一種方法。投票算法本質(zhì)上是對C-value方法進行了特征補充。

一般來說，在加權(quán)算法中，某種效果較差的方法能夠降低整個算法的效果。導致這種情況產(chǎn)生的前提是評價結(jié)果集中的所有輸出的正確數(shù)比例，而不考慮結(jié)果中的排序。而本文的評價策略采用的是P@N(結(jié)果數(shù)量巨大，難以評價整個候選術(shù)語列表)，而不是評價整個結(jié)果集。因為正確的結(jié)果在排序中更加靠前而且緊湊，所以經(jīng)過投票，抽取效果看上去還是得到了提升。

分析實驗的中間結(jié)果，還說明利用WordNet進行同義詞識別具有一定實用性。而基于準確關(guān)鍵詞的模板自動生成方法，確實能夠得到足夠準確的詞性模板，經(jīng)過與人工定義模板簡單比較發(fā)現(xiàn)，模板的帶來的詞匯噪音較少。

本文的ATR方法仍然有改進空間。投票算法目前采用的是等權(quán)重加權(quán)，將來還會嘗試多種權(quán)重組合，并改進現(xiàn)有的基于準確率值的權(quán)重確定方法。本文尚未明確比較人工模板和自動模板的抽取效果。未來還要將本文所采用的三種方法所涉及的所有特征融合為一體，形成一個新算法，并充分考慮特征之間的關(guān)系，來完成識別任務(wù)。相信特征的有機結(jié)合將會促進識別效果獲得進一步提高。

[1] Frantzi K. T., Ananiadou S. The C/NC-value: domain independent method for multi-word term extraction[J]. Journal of Natural Language Processing. 1999, 6(3):145-180.

[2] Kageura Kyo, Umino Bin. Methods of Automatic Term Recognition: A Review[J]. Terminology，1996，3(2): 259-289.

[3] Sclano, F., and Velardi, P. Termextractor: a web application to learn the shared terminology of emergent web communities[C]//Proceedings of the 3rd International Conference on Interoperability for Enterprise Software andApplications[C] (I-ESA 2007). 2007.

[4] Kozakov L., Park Y., Fin T. H., Drissi Y., Doganata Y. N., Cofino T. Glossary extraction and knowledge in large organisations via semantic web technologies[C]//Proceedings of the 6th International Semantic Web Conference and the 2nd Asian Semantic Web Conference (Se-mantic Web Challenge Track), 2004.

[5] Mima H., Ananiadou S. and Nenadic G. ATRACT Workbench: An Automatic Term Recognition and Clustering of Terms, in Text, Speech and Dialogue[M]. Lecture Notes in AI. Springer Verlag, 2001:2001-2166.

[6] Frantzi Katerina，Ananiadouy SoPhia, MimazHideki. Automatic Recognition of Multi-Word Terms: TheC-Value/NC-Value Method[J]. International Joumal on Digital Libraries，2000.

[7] I. Fahmi. Incorporating dependency relation for multi-word term extraction[J]. TABU Dag, 2005.

[8] Salton G, McGill M. J. Introduction to modern information retrieva[J]. McGraw-Hill, 1983.

[9] Sinha R., Mihalcea R. Unsupervised graphbasedword sense disambiguation using measures of word semantic similarity[C]//ICSC ’07: Proceedings of the International Conference on Semantic Computing. Washington DC, USA: IEEE Computer Society, 2007:363-369.

[10] Z. Zhang, J. Iria, C. Brewster, F. Ciravegna. A Comparative Evaluation of Term Recognition Algorithms[C]//Proceedings of the 6th International Conference on Language Resources and Evaluation.Marrakech, Marocco, 2008.

[11] Schone, P., and Jurafsky, D. Is knowledge-free induction of multiword unit dictionary headwords a solved problem?[C]//Proceedings of Empirical Methods in Natural Language Processing.2001.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡