国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種基于維基百科的中文詞語相關(guān)度學(xué)習(xí)算法

2016-05-04 00:41:27黃嵐杜友福
中文信息學(xué)報(bào) 2016年3期
關(guān)鍵詞:維基百科維基計(jì)算方法

黃嵐,杜友福

(長(zhǎng)江大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院 湖北 荊州434000)

一種基于維基百科的中文詞語相關(guān)度學(xué)習(xí)算法

黃嵐,杜友福

(長(zhǎng)江大學(xué) 計(jì)算機(jī)科學(xué)學(xué)院 湖北 荊州434000)

詞語相關(guān)程度計(jì)算是語義計(jì)算的基礎(chǔ)。維基百科是目前最大、更新最快的在線開放式百科全書,涵蓋概念廣,概念解釋詳細(xì),蘊(yùn)含了大量概念間關(guān)聯(lián)關(guān)系,為語義計(jì)算提供了豐富的背景知識(shí)。然而,中文維基百科中存在嚴(yán)重的數(shù)據(jù)稀疏問題,降低了中文詞語相關(guān)度計(jì)算方法的有效性。針對(duì)這一問題,該文利用機(jī)器學(xué)習(xí)技術(shù),提出一種新的基于多種維基資源的詞語相關(guān)度學(xué)習(xí)算法。在三個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果驗(yàn)證了新算法的有效性,在已知最好結(jié)果的基礎(chǔ)上提升了20%—40%。

詞語相關(guān)度;維基百科;中文信息處理;回歸;鏈接結(jié)構(gòu)

1 引言

計(jì)算詞語之間的相關(guān)程度是實(shí)現(xiàn)智能信息處理的基礎(chǔ)。比如當(dāng)用戶檢索“Siri”時(shí)能自動(dòng)識(shí)別出“iPhone”是與之相關(guān)程度很高的詞語,而詞語“梨”的相關(guān)程度則很低。利用詞語間語義相關(guān)程度來提升信息處理智能化水平,已成功應(yīng)用于智能搜索[1-3]、文本分類與聚類[4-6]、文本理解[7-8]等領(lǐng)域。

傳統(tǒng)的詞語相關(guān)度計(jì)算方法往往需要從大規(guī)模人工編撰的語義資源中獲得背景知識(shí),比如WordNet[9-10]、Cyc[11]、中文知網(wǎng)HowNet[12]等。這類語義資源由人工編撰和維護(hù),耗費(fèi)人力物力且更新周期長(zhǎng),難以捕獲新興事物。針對(duì)這個(gè)問題,從大眾編寫的在線百科網(wǎng)站中自動(dòng)抽取結(jié)構(gòu)化知識(shí),并基于此開發(fā)語義分析技術(shù),在近幾年得到很大發(fā)展。

維基百科*http: //www.wikipedia.org/是目前最大的在線百科網(wǎng)站,其內(nèi)容雖然由用戶提供,但質(zhì)量可以與專家編寫的傳統(tǒng)百科全書媲美[13]。維基百科的最大優(yōu)點(diǎn)是涵蓋范圍廣、信息開放、更新快。目前針對(duì)英語詞語最成功的相關(guān)度計(jì)算方法大多基于英文版維基百科實(shí)現(xiàn)[14-18]。在用中文版維基百科實(shí)現(xiàn)針對(duì)中文詞語的相關(guān)度計(jì)算方法時(shí)我們發(fā)現(xiàn),中英文版本在資源數(shù)據(jù)量上存在非常大的差別,比如中文版本中收錄的概念只有英文版本的百分之十。為了獲得有效的中文詞語相關(guān)度計(jì)算方法,必須解決中文維基百科中存在的數(shù)據(jù)稀疏問題。

本文針對(duì)中文維基百科中的數(shù)據(jù)稀疏問題,提出綜合多種資源的詞語相關(guān)度計(jì)算方法,并利用成熟的機(jī)器學(xué)習(xí)技術(shù)學(xué)習(xí)不同資源的最佳整合方式。本文首先介紹詞語相關(guān)度的基本概念和研究背景,歸納出幾類基本的利用維基百科資源實(shí)現(xiàn)詞語相關(guān)度計(jì)算的方法。基于此,選取用于中文詞語相關(guān)度計(jì)算的維基資源,并設(shè)計(jì)其描述特征。最后在三個(gè)基準(zhǔn)數(shù)據(jù)集上評(píng)測(cè)各部分特征的表現(xiàn),得出面向中文的詞語相關(guān)度計(jì)算模型。實(shí)驗(yàn)結(jié)果表明,本文提出的計(jì)算模型在已知最好結(jié)果的基礎(chǔ)上提升了20%—40%。

2 詞語相關(guān)度的基本概念

在針對(duì)中文的詞語相關(guān)度計(jì)算研究方面,近年來利用知識(shí)庫的方法漸漸得到關(guān)注。比如,劉群等[19]和王紅玲等[12]利用知網(wǎng)HowNet實(shí)現(xiàn)了基于結(jié)構(gòu)化知識(shí)庫的中文詞語相關(guān)度計(jì)算,用詞語對(duì)應(yīng)HowNet意元間路徑長(zhǎng)度衡量語義關(guān)聯(lián)程度。

在利用維基百科作為背景知識(shí)庫的研究方面,北京郵電大學(xué)的李赟等[20]研究了從維基百科中自動(dòng)抽取語義相關(guān)詞對(duì)的方法,北京大學(xué)的萬富強(qiáng)和吳云芳將顯式語義分析方法應(yīng)用于中文語境[21]。國(guó)防科技大學(xué)的汪祥和賈焰等[22]及華中師范大學(xué)的涂新輝和何婷婷等[23]均考察了用維基百科中的鏈接結(jié)構(gòu)和分類體系來計(jì)算詞語間語義關(guān)聯(lián)程度的有效性,并分別采集了人工標(biāo)注的中文詞語相關(guān)度數(shù)據(jù)集。據(jù)筆者所知,這兩個(gè)數(shù)據(jù)集是目前僅有的中文人工標(biāo)注數(shù)據(jù)集,因此也是本文實(shí)驗(yàn)的基準(zhǔn)數(shù)據(jù)集。

縱觀目前中文詞語相關(guān)度研究,仍存在三個(gè)方面的問題沒有解決。首先,沒有量化中文維基百科中存在的數(shù)據(jù)稀疏問題,本文從各類型資源的角度進(jìn)行了詳細(xì)分析,為選取計(jì)算資源提供了基礎(chǔ)。其次,不同類型資源的數(shù)據(jù)量和性質(zhì)都不相同,傳統(tǒng)的線性整合方式缺乏理論支持。第三,沒有考慮維基百科類目結(jié)構(gòu)與傳統(tǒng)結(jié)構(gòu)化知識(shí)庫如WordNet和HowNet的本質(zhì)區(qū)別。本文針對(duì)這三個(gè)問題,在借鑒英文成功計(jì)算方法的基礎(chǔ)上,提出一種新的基于機(jī)器學(xué)習(xí)的中文詞語相關(guān)度學(xué)習(xí)算法。

3 基于維基百科的詞語相關(guān)度計(jì)算方法

3.1 基于維基百科的結(jié)構(gòu)化知識(shí)抽取

與傳統(tǒng)Web站點(diǎn)相比,維基百科的內(nèi)容高度結(jié)構(gòu)化,便于實(shí)現(xiàn)結(jié)構(gòu)化知識(shí)的自動(dòng)抽取。維基百科中的頁面大體分為五類: 文章(Article)、類目(Category)、重定向(Redirect)、消歧(Disambiguation)和管理(Administration)頁面。除管理頁面外,前四類常被用于抽取結(jié)構(gòu)化知識(shí)[23-24]。比如從文章頁面中抽取單個(gè)概念的信息,從重定向頁面中獲得概念同義詞,從消歧頁面中獲取多義詞的不同釋義,從類目頁面和類目層級(jí)結(jié)構(gòu)中獲取概念間的上位和下位關(guān)系。圖1展示了維基頁面中信息與結(jié)構(gòu)化知識(shí)的對(duì)應(yīng)關(guān)系。

除此之外,維基百科頁面之間的鏈接及其附帶的錨文本也是重要的結(jié)構(gòu)化知識(shí)資源。比如“麥金塔電腦”頁面有“Macintosh”、“Macintosh電腦”、“蘋果機(jī)”等28個(gè)不同的錨文本,即其他維基頁面用這些詞語指向“麥金塔電腦”。這些鏈接錨文本提供了非常豐富的同義詞。同時(shí),頁面附屬的出鏈接和入鏈接也可用于量化概念間的語義關(guān)聯(lián)強(qiáng)度。

從維基百科中抽取的結(jié)構(gòu)化資源為相關(guān)度計(jì)算提供了豐富的背景知識(shí)。按照所用資源的類型,可將基于維基百科的詞語相關(guān)度計(jì)算方法歸納為四類: 基于鏈接結(jié)構(gòu)的、基于文章全文的、基于類目層級(jí)結(jié)構(gòu)的和綜合多種資源的計(jì)算方法。下面分別進(jìn)行介紹。

3.2 基于鏈接結(jié)構(gòu)的計(jì)算方法

維基百科文章之間存在大量互鏈接,構(gòu)成了龐大的鏈接網(wǎng)絡(luò),通常表示為一個(gè)有向無權(quán)圖。每個(gè)文章對(duì)應(yīng)于圖中的一個(gè)頂點(diǎn),文章的出鏈接和入鏈接分別對(duì)應(yīng)于該頂點(diǎn)的出邊和入邊。

圖1 基于維基百科文章的結(jié)構(gòu)化知識(shí)抽取

根據(jù)所使用的鏈接網(wǎng)絡(luò)是全局還是局部的,可將基于鏈接結(jié)構(gòu)的相關(guān)度計(jì)算方法分為兩類。前者多采用基于全局網(wǎng)絡(luò)結(jié)構(gòu)的圖隨機(jī)游走方法,代表為個(gè)性化PageRank算法(Personalized PageRank,PPR)[18]。不同詞語對(duì)應(yīng)的跳轉(zhuǎn)向量(teleport vector)不同,生成的PageRank分布向量也不同,而分布向量間的相似度(如余弦相似度)即可作為詞語相似度。由于要遍歷整個(gè)網(wǎng)絡(luò),這類算法的開銷大,且效果欠佳[18]。

第二種方法以文章節(jié)點(diǎn)的近鄰局部網(wǎng)絡(luò)結(jié)構(gòu)為基礎(chǔ),首先將文章表示為其鄰居節(jié)點(diǎn)的加權(quán)向量[16]。鄰居節(jié)點(diǎn)即對(duì)應(yīng)于當(dāng)前文章的鏈入和鏈出文章。然后用向量間相似度(或距離)作為詞語語義關(guān)聯(lián)程度。常用的向量相似度計(jì)算方法有Jaccard相似性、余弦公式、Google距離公式[25]等。

基于鏈接結(jié)構(gòu)的計(jì)算方法不要求解析維基百科文章的內(nèi)容,不依賴于語言相關(guān)的自然語言處理技術(shù),因此通用性好、效率高。然而,由于鏈接結(jié)構(gòu)依附于節(jié)點(diǎn),即維基文章,此類方法往往只適用于概念,即存在對(duì)應(yīng)維基頁面的詞語。前期研究中我們發(fā)現(xiàn)維基百科中收錄概念以實(shí)體居多,如人物、地點(diǎn)、事件等。很多常用詞語并不存在對(duì)應(yīng)的維基概念,如“重視”、“方便”和“敵意”。僅考慮文章鏈接的方法無法處理這些未登錄詞語。針對(duì)這一問題,我們對(duì)基于鏈接結(jié)構(gòu)的計(jì)算方法進(jìn)行了擴(kuò)展,使之也能適用于不存在對(duì)應(yīng)維基概念的未登錄詞語(見4.1節(jié))。

3.3 基于文章全文的計(jì)算方法

維基百科頁面也是以自然語言書寫而成,與其他文本無異,詞語出現(xiàn)過的文章一定程度上描述了詞語的含義。比如,“籃球”出現(xiàn)頻次最多的文章有“NBA”、“籃球”、“姚明”、“邁克爾·喬丹”等。此類方法的代表是由Gabrilovich和Markovitch提出的顯式語義分析(ESA,Explicit Semantic Analysis)方法[15,21]。

通過解析維基文章的內(nèi)容,可將詞語表示為該詞語所出現(xiàn)過的文章的向量。其中每個(gè)維度對(duì)應(yīng)一個(gè)維基文章,維度上的取值取決于詞語在文章中的出現(xiàn)頻次。換句話說,此類方法通過解析維基文章內(nèi)容構(gòu)建詞語的概念表示空間,即用維基概念表示詞語語義內(nèi)涵。與傳統(tǒng)概念空間模型如LSA和LDA方法不同,這里每個(gè)維度都有著明確、顯式的定義,是可解釋的,因此稱為顯式語義分析。最后,詞語相關(guān)度可由其對(duì)應(yīng)概念向量的相似度計(jì)算得到。本文稱這類方法為基于概念空間的計(jì)算方法。

適用范圍廣是此類方法的最大優(yōu)點(diǎn)。只要是在維基文章中出現(xiàn)過的詞語,即可計(jì)算其語義關(guān)聯(lián)程度。比如本文所解析的中文維基百科版本中總共包含 48萬概念和122萬詞語,詞語數(shù)量遠(yuǎn)遠(yuǎn)超過了概念數(shù)量。

此類方法的不足主要存在于兩方面。首先,解析文章內(nèi)容依賴于語言相關(guān)的自然語言處理技術(shù),比如中文分詞,英文stemming等。其次,詞語對(duì)應(yīng)的概念向量往往規(guī)模龐大,導(dǎo)致實(shí)時(shí)計(jì)算向量相似度的效率較低。比如,中文維基百科中的詞語平均出現(xiàn)在54.9篇文章中,最多出現(xiàn)于39萬篇文章,即概念向量中非零元素的平均數(shù)量為54.9,最大值為39萬。本文6.3節(jié)專門針對(duì)這些因素進(jìn)行了實(shí)驗(yàn)研究。

3.4 基于類目層級(jí)結(jié)構(gòu)的計(jì)算方法

維基百科的文章和類目之間的包含與被包含關(guān)系構(gòu)成了類目網(wǎng)絡(luò),類似于WordNet中層級(jí)式的概念組織方式。因此最初基于維基百科的詞語相關(guān)度計(jì)算方法便是將定義于WordNet上的算法移植到維基百科的類目結(jié)構(gòu)中[14]。

然而,維基百科的類目結(jié)構(gòu)與WordNet的層級(jí)結(jié)構(gòu)有著本質(zhì)差別。首先,WordNet的層級(jí)結(jié)構(gòu)有著嚴(yán)格的上下位關(guān)系內(nèi)涵,而維基類目結(jié)構(gòu)的內(nèi)涵模糊。維基類目層級(jí)除了表示IsA和ClassOf關(guān)系之外,還可以表示地理位置的包含關(guān)系、關(guān)聯(lián)概念等等。其次,WordNet中同類POS詞語間的層級(jí)結(jié)構(gòu)為嚴(yán)格的樹結(jié)構(gòu)。而維基百科允許一個(gè)概念或類目有多個(gè)父類目,因此形成網(wǎng)狀結(jié)構(gòu)。由于這些本質(zhì)上的區(qū)別,基于維基類目結(jié)構(gòu)的計(jì)算方法效果往往欠佳[14-16]。

類似于基于鏈接的計(jì)算方法,應(yīng)用類目結(jié)構(gòu)也要求首先將詞語映射到維基百科概念上。因此,此類方法的適用范圍有限。綜合上述分析,本文沒有使用類目結(jié)構(gòu)這一維基資源。

3.5 綜合多種資源的計(jì)算方法

前述的三種計(jì)算方法都各有優(yōu)點(diǎn)和缺點(diǎn),為了揚(yáng)長(zhǎng)補(bǔ)短,整合多種資源來計(jì)算詞語相關(guān)度成為最自然的解決方案。比如可先用每種方法計(jì)算得到一個(gè)相關(guān)度數(shù)值,再取其加權(quán)平均值作為最終的詞語相關(guān)度[22]。然而,如何確定各類資源的權(quán)重仍有待解決。本文提出用機(jī)器學(xué)習(xí)算法,通過學(xué)習(xí)標(biāo)注數(shù)據(jù),即人工標(biāo)注的詞語對(duì)間語義關(guān)聯(lián)程度,得到各種資源的最佳配置。

4 詞語相關(guān)度學(xué)習(xí)算法

4.1 特征設(shè)計(jì)

特征選取往往是決定機(jī)器學(xué)習(xí)算法有效性的關(guān)鍵?;谇懊娴姆治?,我們從鏈接結(jié)構(gòu)和文章全文資源中抽取設(shè)計(jì)了八個(gè)特征,如表1所示。根據(jù)是否需要先將輸入詞語映射到維基概念,將特征分為兩類: 需要映射、描述概念間關(guān)聯(lián)的特征(F1-F3)和不需要映射、描述詞語間關(guān)聯(lián)的特征(F4-F8)。前者稱為概念相關(guān)度,后者稱為詞語相關(guān)度。

表1 各種相關(guān)度計(jì)算指標(biāo)及其復(fù)雜度比較

4.1.1 概念相關(guān)度特征的計(jì)算方法

給定一對(duì)概念及其對(duì)應(yīng)的鏈接向量li和lj,F(xiàn)2應(yīng)用Google距離公式NGD(Normalized Google Distance),計(jì)算li和lj間的距離,F(xiàn)3計(jì)算兩者間的余弦相似度。NGD的計(jì)算方法如式(1)所示。

(1)

其中,|l|為向量長(zhǎng)度,|li∩lj|為li和lj交集的大小,|W|為維基百科中所有文章頁面的總數(shù)。NGD基于ci和cj的共現(xiàn)鏈接數(shù)以及各自特有的鏈接數(shù)來衡量?jī)烧唛g的語義關(guān)聯(lián)程度。余弦相似度的計(jì)算方法如式(2)所示。

(2)

其中,lik為li中k維上的取值。具體實(shí)現(xiàn)時(shí),向量li和lj均為稀疏向量,因此可只遍歷取值非零的元素。不同于NGD,余弦相似度考慮了每個(gè)鏈接的權(quán)重。沿用文獻(xiàn)[16]的方法,給定s和t為維基文章,且存在s→t的鏈接,則該鏈接的權(quán)重如式(3)所示。

(3)

4.1.2 詞語相關(guān)度特征的計(jì)算方法

概念相關(guān)度是進(jìn)一步計(jì)算詞語相關(guān)度的基礎(chǔ)。給定一對(duì)詞語,F(xiàn)4和F5考查wi和wj的所有可能釋義,即所有可能對(duì)應(yīng)的維基概念,并求得其間的最大和平均相關(guān)度。F6和F7考查wiwj作為詞組的可能性。比如詞語“麥金塔”和“電腦”所組成的詞組“麥金塔電腦”在維基百科中的出現(xiàn)次數(shù)可觀,說明“麥金塔”和“電腦”的相關(guān)程度較高。F6描述詞組wiwj在錨文本中出現(xiàn)的可能性,具體為wiwj出現(xiàn)在錨文本中的文章數(shù)量與其出現(xiàn)的維基百科文章總數(shù)之比。F7為詞組wiwj的出現(xiàn)頻次。F8則應(yīng)用3.3節(jié)中描述的概念空間方法,先生成wi和wj對(duì)應(yīng)的維基概念向量vi和vj,再計(jì)算vi和vj間的余弦相似度。

最后,F(xiàn)9為類特征。對(duì)于訓(xùn)練數(shù)據(jù),其取值等于該詞語對(duì)上所有人工標(biāo)注數(shù)值的平均值。對(duì)于測(cè)試數(shù)據(jù),其取值為算法的預(yù)測(cè)值。

4.1.3 特征的計(jì)算效率分析

表1還列出了各個(gè)特征的計(jì)算復(fù)雜度。其中,|L|為 維基文章附屬鏈接向量的平均長(zhǎng)度,并可根據(jù)鏈接方向分為入鏈接向量和出鏈接向量。中文維基百科中,入鏈接和出鏈接向量的平均長(zhǎng)度分別為20.9和14.6,而英文維基文章的平均值分別為21.3和17.8。|S|指詞語所有可能對(duì)應(yīng)的維基概念數(shù)量。比如“蘋果”有六個(gè)候選中文維基概念,每個(gè)概念表示一種可能釋義。而“apple”有37個(gè)候選英文維基概念。C指常量,因?yàn)镕6和F7為wiwj作為詞組出現(xiàn)的先驗(yàn)概率,可離線計(jì)算。|V|為概念向量(稀疏表示)的平均長(zhǎng)度,比如中文維基百科中這一數(shù)值為54.9。

除了計(jì)算復(fù)雜度之外,是否必須實(shí)時(shí)計(jì)算是另一個(gè)影響計(jì)算效率的重要因素。無需實(shí)時(shí)計(jì)算的特征可預(yù)先離線計(jì)算得到,比如詞組可能性。而鏈接向量的交集運(yùn)算等特征則需要基于輸入數(shù)據(jù)實(shí)時(shí)計(jì)算得到。綜合復(fù)雜度和計(jì)算實(shí)時(shí)性分析,描述詞語可能釋義間相關(guān)度的特征(即F4和F5)是最耗時(shí)的特征,而詞組可能性類特征是計(jì)算復(fù)雜度最低的特征。

4.2 機(jī)器學(xué)習(xí)算法

根據(jù)學(xué)習(xí)過程中是否利用了人工標(biāo)注數(shù)據(jù),機(jī)器學(xué)習(xí)算法可分為監(jiān)督式和非監(jiān)督式學(xué)習(xí)。監(jiān)督式學(xué)習(xí)又可根據(jù)預(yù)測(cè)變量是數(shù)值型還是離散型,分為回歸和分類兩類。相關(guān)度學(xué)習(xí)屬于典型的回歸問題,即學(xué)習(xí)從一個(gè)數(shù)值變量集合到另一個(gè)數(shù)值變量的映射關(guān)系。經(jīng)典的回歸學(xué)習(xí)算法有線性回歸、高斯過程、基于支持向量機(jī)的回歸算法、回歸樹等。在前期工作中我們得出平均性能最好的是高斯過程(Guassian Process)算法[26],因此本文結(jié)果都基于Weka數(shù)據(jù)挖掘軟件[27]中高斯過程算法的實(shí)現(xiàn)得到。

5 實(shí)驗(yàn)設(shè)計(jì)

5.1 數(shù)據(jù)集

本文用三個(gè)基準(zhǔn)數(shù)據(jù)集來測(cè)試相關(guān)度計(jì)算方法的有效性: Sim353、Words240和Words30。為了學(xué)習(xí)概念相關(guān)度,首先通過人工消歧,為數(shù)據(jù)集中的詞語找到與之對(duì)應(yīng)的維基概念。表2比較了三個(gè)數(shù)據(jù)集的規(guī)模,包括詞語對(duì)、詞語、概念對(duì)和概念的數(shù)量。

表2 基準(zhǔn)數(shù)據(jù)集及其規(guī)模比較

Sim353數(shù)據(jù)集由Finkelstein等人收集[28],原始數(shù)據(jù)集包含353個(gè)英語詞對(duì),是廣泛用于測(cè)試詞語相關(guān)度算法的基準(zhǔn)數(shù)據(jù)集。本文在Milne和Witten[16]處理得到的英文數(shù)據(jù)集(包含313個(gè)詞對(duì))基礎(chǔ)上,參照其處理方式,對(duì)其中全部詞語進(jìn)行人工消歧,并映射到中文維基概念。在去掉不存在對(duì)應(yīng)概念的詞語和涉及這些詞語的詞對(duì)后,最終得到234個(gè)概念對(duì)。

Words240數(shù)據(jù)集是由國(guó)防科技大學(xué)的汪祥和賈焰等人[22]參照Finkelstein創(chuàng)建Sim353數(shù)據(jù)集的方法而收集的面向中文的詞語相關(guān)度基準(zhǔn)數(shù)據(jù)集。經(jīng)過人工消歧,得到218個(gè)維基概念對(duì)。

Words30數(shù)據(jù)集由華中師范大學(xué)的涂新輝和何婷婷等[23]收集,類似于Miller和Charles在1991年收集的數(shù)據(jù)集[29]。其中包含了30個(gè)中文詞對(duì),人工消歧后得到26個(gè)維基概念對(duì)。

5.2 中文維基百科預(yù)處理

本文使用WikipediaMiner[24]工具解析維基百科XML備份文件。中文和英文分別是2012年5月23日和2011年7月22日生成的版本。其中,中文版本包含約48萬篇文章,英文版本包含約357萬篇文章,與維基百科官方統(tǒng)計(jì)數(shù)據(jù)一致*http: //en.wikipedia.org/wiki/Wikipedia: Non-English_Wikipedias。

對(duì)中文版本的預(yù)處理包括繁體中文到簡(jiǎn)體中文轉(zhuǎn)換,使用中國(guó)科學(xué)院ICTCLAS分詞工具*http: //www.ictclas.org/對(duì)文章內(nèi)容進(jìn)行分詞,將英文詞語轉(zhuǎn)換為其小寫形式,過濾URL、數(shù)字和無意義字符。預(yù)處理后總共得到122萬詞語,其中包含44萬英文詞語。

5.3 性能指標(biāo)

依照之前的研究,本文沿用Spearman相關(guān)系數(shù)作為衡量詞語相關(guān)度算法性能的指標(biāo)[15-18,21-24]。Spearman相關(guān)系數(shù)衡量機(jī)器計(jì)算結(jié)果與人工標(biāo)注值的一致程度。給定兩個(gè)變量,其取值介于[-1,1]之間,值越高意味著兩變量的取值正向單調(diào)相關(guān)程度越高。

為了清楚行文,以下用“相關(guān)度”表示語義關(guān)聯(lián)程度(即relatedness),用“一致性”表示算法預(yù)測(cè)的結(jié)果與人工標(biāo)注值之間相關(guān)性(即correlation),即Spearman系數(shù)。除6.3節(jié)外,所有結(jié)果都是十次10-折交叉驗(yàn)證得到的平均值。

6 實(shí)驗(yàn)結(jié)果分析

本節(jié)首先分析了中文維基百科中的數(shù)據(jù)稀疏問題,然后依次分析了基于鏈接結(jié)構(gòu)的概念相關(guān)度學(xué)習(xí)算法的效果、基于概念向量的詞語相關(guān)度學(xué)習(xí)效果和結(jié)合兩者的詞語相關(guān)度學(xué)習(xí)效果。最后探討了交叉數(shù)據(jù)集上的學(xué)習(xí)效果。

6.1 中文維基百科中的數(shù)據(jù)稀疏問題

中文維基百科有約48萬個(gè)文章頁面(即概念),為英文維基百科文章總數(shù)的十分之一。除了概念收錄范圍上的巨大差距之外,數(shù)據(jù)稀疏問題也普遍存在于其他類型的維基資源中。表3從多個(gè)角度比較了中文和英文維基百科的數(shù)據(jù)規(guī)模。

表3 中文與英文維基百科中相關(guān)度計(jì)算資源的規(guī)模比較

續(xù)表

“平均錨文本數(shù)”指維基文章的平均鏈入錨文本數(shù)量,反映維基文章的別名多寡程度。比如“蘋果公司”有19個(gè)錨文本: “蘋果公司”、“蘋果電腦公司”、“Apple”、“蘋果”、“蘋果計(jì)算機(jī)”“Apple Store”和“蘋果機(jī)”等。而在英文維基百科中,“Apple Inc.”有84個(gè)錨文本?!捌骄拍顢?shù)”反映錨文本的歧義程度,指每個(gè)錨文本可能對(duì)應(yīng)的概念個(gè)數(shù),數(shù)值越低,說明歧義程度越低。比如“蘋果”可以指“蘋果”、“蘋果公司”、“蘋果 (電影)”、“蘋果電腦”、“麥金塔電腦”和“iPhone”。在英文維基百科中,“apple”有37種可能釋義?!捌骄割惸繑?shù)”指維基文章所屬父類目的平均數(shù)量,而“類目平均大小”指類目包含的子類目和文章數(shù)量的平均值。

從表3中可以看到,中、英文版本在文章的平均鏈接數(shù)上差別比較小。這說明局部鏈接結(jié)構(gòu)是比較穩(wěn)定的,實(shí)際實(shí)驗(yàn)結(jié)果也顯示了這一點(diǎn)(表4)。而即便是這一最穩(wěn)定的資源,其中的數(shù)據(jù)稀疏問題也已經(jīng)嚴(yán)重影響到中文詞語相關(guān)度計(jì)算的有效性,凸顯出整合多種資源的必要。

6.2 概念相關(guān)度學(xué)習(xí)效果

表4列出了基于鏈接結(jié)構(gòu)的概念相關(guān)度學(xué)習(xí)算法(即CRM,concept relatedness measure)在三個(gè)基準(zhǔn)數(shù)據(jù)集上的效果,并比較了鏈接方向?qū)W(xué)習(xí)算法的影響。最后一列CRM同時(shí)考慮出鏈接和入鏈接。

表4 基于鏈接結(jié)構(gòu)的概念相關(guān)度學(xué)習(xí)算法準(zhǔn)確度

在英文Sim353數(shù)據(jù)集上,Agirre等人[10]取得了0.78的一致性,為當(dāng)前最好結(jié)果。其方法用到兩種資源: 從Web文本集中得到的詞語分布相似度(distributional similarity)和基于WordNet概念層級(jí)結(jié)構(gòu)的概念相關(guān)度。Agirre與本文方法的最大不同在于使用支持向量機(jī)學(xué)習(xí)詞對(duì)排序,即不同詞對(duì)相關(guān)程度的相對(duì)大小。然而,實(shí)際應(yīng)用中往往只有當(dāng)前詞對(duì)的信息,無法與其他詞對(duì)進(jìn)行比較。而且詞對(duì)相關(guān)度的具體數(shù)值往往比其相對(duì)排序更有價(jià)值,比如在計(jì)算文本間的語義相關(guān)程度時(shí)。與本文直接相關(guān)的是Milne和Witten提出的WLM算法[16],該算法的最好結(jié)果為0.74,是本文算法的比較基準(zhǔn)。

Sim353數(shù)據(jù)集上的比較結(jié)果顯示了數(shù)據(jù)稀疏問題的負(fù)面作用。同樣的算法和同源的數(shù)據(jù),由于中文維基百科中的數(shù)據(jù)稀疏問題,中文相關(guān)度計(jì)算方法的一致性只有0.62,相較于英文的0.74下降了16%。

在針對(duì)中文的相關(guān)研究中,三個(gè)數(shù)據(jù)集上的已知最好結(jié)果分別為0.59、0.47和0.52,前兩者由汪祥等人[22]取得,后者由涂新輝等人[23]獲得(見表7)。直觀地看表4中的結(jié)果,在Sim353和Words240數(shù)據(jù)集上,使用單一鏈接結(jié)構(gòu)的CRM方法與人工標(biāo)注相關(guān)度的一致性已超過最好結(jié)果。然而,CRM的結(jié)果是在概念對(duì)上取得,而已知結(jié)果是針對(duì)詞語的,比較基準(zhǔn)不同。本文第6.4和6.5節(jié)進(jìn)行了更公平的比較。

6.3 基于概念空間的詞語相關(guān)度計(jì)算效果

依照3.3節(jié)和4.1.2節(jié)的描述,本節(jié)將詞語表示為概念空間中的向量,以概念向量間相似度作為詞語間語義關(guān)聯(lián)程度。理論上,這樣的計(jì)算方法適用于所有曾出現(xiàn)在維基百科中的的詞語。表5比較了基準(zhǔn)數(shù)據(jù)集中能夠直接處理的詞語對(duì)與概念對(duì)數(shù)量,以及詞語相關(guān)度算法(即WRM,word relatedness measure)與概念相關(guān)度算法CRM的效果。由于本節(jié)測(cè)試的是單一特征(即F8)與人工標(biāo)注(即F9)的一致性,沒有使用機(jī)器學(xué)習(xí)算法(6.4節(jié)將探討使用機(jī)器學(xué)習(xí)算法的效果),因此沒有用交叉驗(yàn)證的實(shí)驗(yàn)方法,實(shí)驗(yàn)結(jié)果是基于所有數(shù)據(jù)一次得到。

表5 基于概念向量的中文詞語相關(guān)度計(jì)算準(zhǔn)確度

從表5中結(jié)果可以看到,WRM能夠直接處理的詞語對(duì)數(shù)并不多,甚至少于概念對(duì)的數(shù)量。這是由中文分詞問題造成的。數(shù)據(jù)集中的部分詞語可被切分為多個(gè)詞語,比如“中世紀(jì)”可被分為“中”“世紀(jì)”;“聯(lián)邦調(diào)查局”可被分為“聯(lián)邦”“調(diào)查局”;“不明飛行物”可被分為“不明”“飛行物”。在解析維基文章內(nèi)容時(shí),即構(gòu)建詞語的概念向量表示時(shí),這些詞語是經(jīng)過切分的。也就是說,預(yù)處理過程會(huì)對(duì)“不明”“飛行物”分別構(gòu)建概念向量,而倒排索引中不會(huì)存在“不明飛行物”對(duì)應(yīng)的向量條目。因此,有必要對(duì)基準(zhǔn)數(shù)據(jù)集中的詞語進(jìn)行相同的分詞處理。

6.3.1 中文分詞的影響

本文采取的策略是切分輸入詞語,并將分詞所得詞語與原始詞語合并,構(gòu)成詞語集合。比如“聯(lián)邦調(diào)查局”切分后集合由三個(gè)詞組成: {聯(lián)邦調(diào)查局,聯(lián)邦,調(diào)查局}。再提取每個(gè)詞語的概念向量,并將其合并。雖然索引中沒有“聯(lián)邦調(diào)查局”,但通過合并“聯(lián)邦調(diào)查局”(向量為空)、“聯(lián)邦”和“調(diào)查局”的概念向量即可得到“聯(lián)邦調(diào)查局”的概念表示。

這一策略成功處理了大多數(shù)原先不能直接處理的詞語。WRM在三個(gè)數(shù)據(jù)集上的處理率從原來的55%、93%、57%提升至99%、100%和100%。由于解析中文維基百科文章時(shí)過濾了所有數(shù)字,導(dǎo)致Sim353中有兩個(gè)詞語“5”和“7”不能處理,少了兩個(gè)詞語對(duì),總共為311對(duì)詞語。

表6比較了分詞前后學(xué)習(xí)算法與人工標(biāo)注的一致性。其中第五列中結(jié)果顯示,分詞之后,三個(gè)數(shù)據(jù)集上的一致性好像都有不同程度的下降。然而,第三列和第五列的計(jì)算基準(zhǔn)不同,分詞后能夠處理的詞語對(duì)數(shù)大幅增加。以Words30為例,兩者分別在17對(duì)和30對(duì)詞語上計(jì)算得到。為了公平衡量分詞效果,我們只比較能直接處理的數(shù)據(jù),即表6的第三列和第七列。結(jié)果顯示本文的分詞策略并不會(huì)負(fù)面影響詞語相關(guān)度計(jì)算結(jié)果: Words240和Words30數(shù)據(jù)集上的結(jié)果與分詞前持平,而在Sim353數(shù)據(jù)集上還有些微提升。同時(shí),分詞能極大擴(kuò)展算法的

表6 分詞對(duì)中文詞語相關(guān)度計(jì)算準(zhǔn)確度的影響

適用范圍。因此本文余下部分所有涉及概念空間相似度(即F8)的部分都是經(jīng)過分詞的。

6.3.2 概念向量長(zhǎng)度的影響

概念向量的長(zhǎng)度k對(duì)向量相似度算法的效果和效率有重要影響。k值越大,考慮的信息越全面,算法的開銷也越大。圖2比較了k的不同取值對(duì)詞語相關(guān)度計(jì)算的影響。k=10意味著詞語的概念向量中最多只包含該詞語出現(xiàn)頻次最多的前十個(gè)維基概念。圖2中橫軸的最后一個(gè)維度比較了當(dāng)k取值為all時(shí)的情況,即考慮詞語出現(xiàn)過的所有概念。

從圖2(a)可以明顯看出k值并非越大越好。實(shí)際上,三個(gè)數(shù)據(jù)集上的最好結(jié)果都在k∈[150,500]取得。同時(shí),k值越大,運(yùn)行時(shí)間的開銷越大。當(dāng)考慮所有概念時(shí)(k=all),運(yùn)行時(shí)間是只考慮前200概念的1000倍。因此,綜合效果和效率,我們選取k=200為缺省值。

圖2 概念向量長(zhǎng)度對(duì)中文詞語相關(guān)度計(jì)算的影響: (a) 對(duì)準(zhǔn)確度的影響; (b) 對(duì)效率的影響

6.4 詞語相關(guān)度學(xué)習(xí)算法的效果

上一節(jié)單獨(dú)考量了基于概念空間的詞語相關(guān)度計(jì)算方法的效果,并沒有用到機(jī)器學(xué)習(xí)。本節(jié)綜合基于鏈接結(jié)構(gòu)的概念相關(guān)度和基于概念空間的詞語相關(guān)度,考察運(yùn)用機(jī)器學(xué)習(xí)算法將兩者結(jié)合的效果。

給定一對(duì)詞語和指定的特征類型,算法分別在三個(gè)基準(zhǔn)數(shù)據(jù)集上以十次10-折交叉驗(yàn)證的方式構(gòu)建高斯過程回歸模型,并對(duì)其進(jìn)行測(cè)試。表7比較F4—F8中不同特征組合所生成模型與人工標(biāo)注結(jié)果的一致性,并在最后一列對(duì)比已知最好結(jié)果。

表7 中文詞語相關(guān)度學(xué)習(xí)算法的準(zhǔn)確度

首先,從表7第二列的結(jié)果中可以看出,由于采用了分詞和整合概念向量的策略,詞語相關(guān)度算法能夠處理所有詞語對(duì)。而概念相關(guān)度算法(即CRM)只能處理其中的已登錄詞語(見6.2節(jié)),不能處理維基百科未收錄的詞語,適用范圍有限。

其次,在整體性能方面,應(yīng)用機(jī)器學(xué)習(xí)所得的詞語相關(guān)度計(jì)算模型是有效的。在全部三個(gè)數(shù)據(jù)集上,訓(xùn)練生成模型都取得了超過CRM且超過已知最好結(jié)果的準(zhǔn)確度。由此可見,本文提出的詞語相關(guān)度學(xué)習(xí)算法不僅適用范圍更廣,且準(zhǔn)確度更高。

在所有特征中,可能概念相關(guān)度(即F4、F5)和概念向量空間模型(F8)兩類特征的表示能力最強(qiáng),它們的結(jié)合也取得了不錯(cuò)的準(zhǔn)確度(即表7第8列)。F4和F5是基于局部鏈接結(jié)構(gòu)的,F(xiàn)8則是基于維基文章全文的,各自從不同角度描述了詞語之間的語義關(guān)聯(lián)程度。因此,這一結(jié)果也體現(xiàn)出綜合不同類型維基資源的必要性。

由于不能單從兩個(gè)詞語能否組成一個(gè)合法詞組來判斷詞語間的相關(guān)程度,因此沒有對(duì)詞組可能性類特征(即F6、F7)單獨(dú)進(jìn)行測(cè)試。從表7第6列和第7列的結(jié)果可以看出,用詞組類特征描述詞語間關(guān)聯(lián)程度的效果并不明顯,尤其在Words30數(shù)據(jù)集上。這可能是因?yàn)閃ords30中詞語對(duì)作為單一詞組出現(xiàn)的可能性不高,比如“不明飛行物”和“飛碟”。相比較下,在效果最明顯的Words240數(shù)據(jù)集中,詞語對(duì)作為詞組出現(xiàn)的可能性較高,比如“發(fā)表”和“文章”、“北京”和“奧運(yùn)會(huì)”、“自然”和“環(huán)境”等。

綜合考慮表7中的實(shí)驗(yàn)結(jié)果,本文余下部分采用第8列對(duì)應(yīng)的模型,即結(jié)合可能概念相關(guān)度(F4、F5)和概念向量空間模型(F8)兩類特征。

6.5 交叉數(shù)據(jù)集對(duì)詞語相關(guān)度學(xué)習(xí)效果的影響

本文首次同時(shí)使用了國(guó)內(nèi)學(xué)者采集的Words240和Words30數(shù)據(jù)集與英文中最常用的Sim353數(shù)據(jù)集。在前面的實(shí)驗(yàn)中我們發(fā)現(xiàn),算法在不同數(shù)據(jù)集上的表現(xiàn)不盡一致。為了更深入了解數(shù)據(jù)集的性質(zhì)與之間關(guān)聯(lián),我們進(jìn)一步開展了交叉數(shù)據(jù)集的實(shí)驗(yàn)。

給定兩個(gè)數(shù)據(jù)集D1和D2,先用D1中的全部數(shù)據(jù)訓(xùn)練生成詞語相關(guān)度計(jì)算模型,再在D2中的全部數(shù)據(jù)上進(jìn)行測(cè)試。表8比較了三個(gè)數(shù)據(jù)集的所有可能交叉結(jié)果。

表8 交叉數(shù)據(jù)集對(duì)中文詞語相關(guān)

一般情況下,當(dāng)訓(xùn)練集和測(cè)試集為同一數(shù)據(jù)集時(shí),訓(xùn)練所得模型的一致性應(yīng)該最高,盡管這樣的實(shí)驗(yàn)方法存在過度擬合的風(fēng)險(xiǎn)。然而,值得注意的是,在Words240上訓(xùn)練所得模型在另外兩個(gè)數(shù)據(jù)集上都取得了更好的結(jié)果,不僅接近本文算法在該測(cè)試數(shù)據(jù)集上的最好結(jié)果(即表8對(duì)角線上的結(jié)果),更超過了已知的最好結(jié)果。比如,在Words30上取得了0.72的一致性,在已知最好結(jié)果基礎(chǔ)上提升了39%。這說明該模型具有很好的泛化能力,能很好預(yù)測(cè)未見詞語對(duì)的相關(guān)度,比較適合實(shí)踐應(yīng)用。另外,由Sim353訓(xùn)練生成模型的泛化能力也不錯(cuò),在Words240和Words30上取得的一致性均為0.63,相較于已知的最好結(jié)果0.47和0.52分別提升了34%和21%。相比較之下,Words30數(shù)據(jù)集由于其規(guī)模與前兩者相差較大,導(dǎo)致其生成模型的泛化能力有限。

7 結(jié)束語

本文針對(duì)中文維基百科中存在的數(shù)據(jù)稀疏問題,綜合鏈接結(jié)構(gòu)和維基文章全文兩種不同類型的維基資源,從中分別抽取描述詞語間語義關(guān)聯(lián)程度的特征,應(yīng)用機(jī)器學(xué)習(xí)算法從人工標(biāo)注數(shù)據(jù)中學(xué)習(xí)不同特征的最佳配置。實(shí)驗(yàn)結(jié)果驗(yàn)證了本文所提出方法的有效性,在已知最好結(jié)果的基礎(chǔ)上提升了20%—40%。本文還系統(tǒng)考察了中文分詞、概念向量長(zhǎng)度對(duì)詞語相關(guān)度計(jì)算的影響,研究了各類特征的預(yù)測(cè)能力,最后比較了不同基準(zhǔn)數(shù)據(jù)集所生成模型的泛化能力。下一步的工作首先是將本文中的詞語相關(guān)度學(xué)習(xí)算法應(yīng)用于中文文本分析任務(wù),比如聚類和信息檢索。其次是進(jìn)一步研究百科知識(shí)的跨語言處理和應(yīng)用。

[1] 36Kr.下一代搜索引擎即將來臨: 知識(shí)圖譜的用戶體驗(yàn)報(bào)告[OL]. 2014[2014-7-12]. http: //www.36kr.com/p/205737.html.

[2] Ruiz E L,Manotas I G,GarcíA R V. et al. Financial news semantic search engine[J]. Expert Systems with Applications,2011,38(12): 15565-15572.

[3] Milne D,Witten I H,Nichols,D M. A knowledge-based search engine powered by Wikipedia[C]//Proceedings of the 16th CIKM. New York: ACM,2007: 445-454.

[4] Gabrilovich E,Markovitch,S Feature generation for text categorization using world knowledge[C]//Proceedings of the 19th IJCAI. SanFrancisco: Kaufmann,2005: 1048-1053.

[5] Hu J,F(xiàn)ang L,Cao Y,et al. Enhancing text clustering by leveraging Wikipedia semantics[C]//Proceedings of the 31st ACM SIGIR. New York: ACM,2008: 179-186.

[6] Huang A,Milne,D Frank,E Witten,I H Clustering documents with active learning using Wikipedia[C]//Proceedings of the 8th IEEE ICDM. Washington,DC: IEEE Computer Society,2008: 839-844.

[7] Pippig K,Burghardt D,Prechtel N. Semantic similarity analysis of user-generated content for theme-based route planning[J]. Journal of Location Based Services,2013,7(4): 223-245.

[8] Yan P,Jin W. Improving cross-document knowledge discovery using explicit semantic analysis[C]//Proceedings of the 14th DaWaK. Heidelberg: Springer-Verlag,2012: 378-389.

[9] Huang L,Milne D,F(xiàn)rank E,Witten I H. Learning a Concept-Based Document Similarity Measure[J]. Journal of the American Society for Information Science and Technology,2012,63(8): 1593-1608.

[10] Agirre E,Alfonseca E,Hall K,et al. A study on similarity and relatedness using distributional and WordNet-based approaches[C] //Proceedings of NAACL. Stroudsburg: ACL,2009: 19-27.

[11] Lenat D B. CYC: A large-scale investment in knowledge infrastructure[J]. Communications of the ACM,1995,38: 33-38.

[12] 王紅玲,呂強(qiáng),徐瑞. 中文語義相關(guān)度計(jì)算模型研究[J]. 計(jì)算機(jī)工程與應(yīng)用,2009(7): 167-170.

[13] Giles J. Internet encyclopaedias go head to head[J]. Nature,2005,438: 900-901.

[14] Strube M,Ponzetto S P. WkiRelate! Computing semantic relatedness using Wikipedia[C]//Proceedings of the 21st AAAI. Menlo Park,CA: AAAI Press,2006: 1419-1424.

[15] Gabrilovich E,Markovitch S. Computing semantic relatedness using Wikipedia-based explicit semantic analysis[C]//Proceedngs of the 20th IJCAI. San Francisco: Kaufmann,2007: 1606-1611.

[16] Milne D,Witten I H. An effective,low-cost measure ofsemantic relatedness obtained from Wikipedia links[C].//Proceedings of the Advancement of Artificial Intelligence Workshop on Wikipedia and Artificial Intelligence. Menlo Park,CA: AAAI Press,2008: 25-30.

[17] Yazdani M,Belis A P. Computing text semantic relatedness using the contents and links of a hypertext encyclopedia[J]. Artificial Intelligence,2013,194: 176-202.

[18] Yeh E,Ramage D,Manning C D,et al. WikiWalk: Random walks on Wikipedia for semantic relatedness[C]//Proceedings of the 2009 Workshop on Graph-Based Methods for Natural Language Processing. Stroudsburg,PA: ACL,2009: 41-49.

[19] 劉群,李素建. 基于知網(wǎng)的詞匯語義相似度計(jì)算[J]. 中文計(jì)算語言學(xué),2002,7(2): 59-76.

[20] 李赟,黃開妍,任福繼,鐘義信. 維基百科的中文語義相關(guān)詞獲取及相關(guān)度分析計(jì)算[J]. 北京郵電大學(xué)學(xué)報(bào),2009,32(3): 109-112.

[21] 萬富強(qiáng),吳云芳. 基于中文維基百科的詞語語義相關(guān)度計(jì)算. 中文信息學(xué)報(bào),2013,27(6): 31-37,109.

[22] 汪祥,賈焰,周斌,丁兆云,梁政. 基于中文維基百科鏈接結(jié)構(gòu)與分類體系的語義相關(guān)度計(jì)算[J]. 小型微型計(jì)算機(jī)系統(tǒng),2011,32(11): 2237-2242.

[23] 涂新輝,張紅春,周琨峰,何婷婷. 中文維基百科的結(jié)構(gòu)化信息抽取及詞語相關(guān)度計(jì)算方法. 中文信息學(xué)報(bào),2012,26(2): 109-114.

[24] Milne D,Witten I H.An open-source toolkit for mining Wikipedia[J]. Artificial Intelligence,2013(194): 222-239.

[25] Cilibrasi R L,Vitányi P M. The Google similarity distance[J]. IEEE Transactions on Knowledge and Data Engineering,2007,19(3): 370-383.

[26] Rasmussen C E,Williams C K I. Gaussian processes formachine learning[M]. Cambridge,MA: MIT Press,2006.

[27] Hall M,F(xiàn)rank E,Holmes G,et al. The WEKA Data Mining Software: An Update[J]. SIGKDD Explorations,2009,11(1): 10-18.

[28] Finkelstein L,Gabrilovich Y M,Rivlin E. et al. Placing search incontext: The concept revisited[J]. ACM Transactions on Information Systems,2002,20(1): 116-131.

[29] Miller G A,Charles W G. Contextual correlates of semantic similarity[J]. Language and Cognitive Processes,1991,6(1): 1-28.

Learning the Semantic Relatedness of Chinese Words from Wikipedia

HUANG Lan,DU Youfu

(College of Computer Science,Yangtze University,Jingzhou,Hubei 434000,China)

Semantic word relatedness measures are fundamental to many text analysis tasks such as information retrieval,classification and clustering. As the largest online encyclopedia today,Wikipedia has been successfully exploited for background knowledge to overcome the lexical differences between words and derive accurate semantic word relatedness measures. In Chinese version,however,the Chinese Wikipedia covers only ten percent of its English counterpart. The sparseness in concept space and associated resources adversely impacts word relatedness computation. To address this sparseness problem,we propose a method that utilizes different types of structured information that are automatically extracted from various resources in Wikipedia,such as article’s full-text and their associated hyperlink structures. We use machine learning algorithms to learn the best combination of different resources from manually labeled training data. Experiments on three standard benchmark datasets in Chinese showed that our method is 20%-40% more consistent with an average human labeler than the state-of-the-art methods.

word relatedness; Wikipedia; Chinese information processing; regression; hyperlink structure

黃嵐(1982—),博士,主要研究領(lǐng)域?yàn)闄C(jī)器學(xué)習(xí)和文本分析。E?mail:lanhuang@yangtzeu.edu.cn杜友福(1961—),碩士,教授,主要研究領(lǐng)域?yàn)槿斯ぶ悄?。E?mail:dyf@yangtzeu.edu.cn

2014-02-26 定稿日期: 2014-07-15

長(zhǎng)江青年基金(2015cqn52)

1003-0077(2016)03-0036-10

TP391

A

猜你喜歡
維基百科維基計(jì)算方法
維基百科影響司法
英語世界(2023年10期)2023-11-17 09:18:46
浮力計(jì)算方法匯集
維基百科青年
英語文摘(2021年8期)2021-11-02 07:17:46
愛的最后一課
基于變長(zhǎng)隱馬爾科夫模型的維基詞條編輯微過程挖掘
隨機(jī)振動(dòng)試驗(yàn)包絡(luò)計(jì)算方法
不同應(yīng)變率比值計(jì)算方法在甲狀腺惡性腫瘤診斷中的應(yīng)用
維基解密大爭(zhēng)論:爭(zhēng)論固有焦點(diǎn)和在互聯(lián)網(wǎng)時(shí)代呈現(xiàn)的爭(zhēng)論新特征
新聞傳播(2015年4期)2015-07-18 11:11:29
APP
一種伺服機(jī)構(gòu)剛度計(jì)算方法
丰原市| 顺昌县| 松溪县| 宝清县| 方山县| 酒泉市| 湘阴县| 城市| 安乡县| 银川市| 绥化市| 彭州市| 苗栗市| 视频| 黑山县| 徐州市| 南平市| 长岛县| 桂东县| 伊川县| 仙居县| 漠河县| 邢台县| 琼结县| 澄迈县| 荥阳市| 崇左市| 安徽省| 卢湾区| 文安县| 射洪县| 长岭县| 瓮安县| 五峰| 容城县| 饶平县| 微博| 恭城| 台中市| 昆明市| 电白县|