国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

結(jié)合潛在語(yǔ)義分析與點(diǎn)互信息的同義詞抽取

2014-02-25 05:37:38馬海昌張志昌趙學(xué)鋒孫飛
電腦知識(shí)與技術(shù) 2014年1期

馬海昌 張志昌 趙學(xué)鋒 孫飛

摘要:同義詞在信息檢索、自動(dòng)文摘、情感分析、機(jī)器翻譯等應(yīng)用中都發(fā)揮著重要的作用。該文提出在大規(guī)模語(yǔ)料中結(jié)合潛在語(yǔ)義分析與上下文互信息進(jìn)行同義詞挖掘的方法,分析了不同的詞匯上下文窗口選擇、權(quán)值計(jì)算、潛在語(yǔ)義分析降維、余弦相似度計(jì)算在同義詞抽取中的作用。實(shí)驗(yàn)結(jié)果表明,同義詞抽取的效果明顯提高。

關(guān)鍵詞:同義詞;同義詞抽??;點(diǎn)互信息;潛在語(yǔ)義分析;余弦相似度

中圖分類號(hào):TP18 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2014)01-0128-05

1 概述

詞匯知識(shí)是自然語(yǔ)言處理中最基本且最重要的資源之一。各種詞匯關(guān)系中,同義詞被廣泛應(yīng)用于信息檢索的查詢擴(kuò)展等各個(gè)方面,能提高文獻(xiàn)數(shù)據(jù)庫(kù)和網(wǎng)絡(luò)檢索的效率,實(shí)現(xiàn)檢索的智能化;并能應(yīng)用于詞表、本體、語(yǔ)義網(wǎng)絡(luò)等知識(shí)系統(tǒng)的構(gòu)建和互操作性的實(shí)現(xiàn),以及應(yīng)用在自動(dòng)標(biāo)引、自動(dòng)文摘、自動(dòng)分類、機(jī)器翻譯、自動(dòng)問答等自然語(yǔ)言處理和信息抽取領(lǐng)域。同義詞抽取為其它信息的抽取提供了基礎(chǔ)性支持,可以對(duì)本體、知識(shí)庫(kù)、詞典進(jìn)行正確性檢測(cè),并對(duì)其進(jìn)行擴(kuò)充和完善。因此,抽取并構(gòu)建大量的中文同義詞語(yǔ)料,對(duì)自然語(yǔ)言處理、信息檢索各應(yīng)用領(lǐng)域的性能提高具有重要意義。

但是,隨著互聯(lián)網(wǎng)的飛速發(fā)展,文本信息的爆炸式增長(zhǎng),使得利用人工方式抽取大量文本信息的難度日益增大。因此,研究如何從海量的文本信息中方便、快捷、準(zhǔn)確、全面、自動(dòng)地抽取知識(shí)(如“同義詞”)變得異常重要。

自然語(yǔ)言處理和信息檢索領(lǐng)域中的同義詞的概念不等同于語(yǔ)言學(xué)中和日常生活中的同義詞,不考慮其感情色彩和語(yǔ)氣;與語(yǔ)言學(xué)上嚴(yán)格定義的同義詞相比,其含義更加寬泛,主自然語(yǔ)言處理和信息檢索領(lǐng)域中的同義詞的概念不等同于語(yǔ)言學(xué)中和日常生活中的同義詞,不考慮其感情色彩和語(yǔ)氣;與語(yǔ)言學(xué)上嚴(yán)格定義的同義詞相比,其含義更加寬泛,主要是指一個(gè)或多個(gè)能夠相互替換、表達(dá)相同概念的詞或詞組[1],主要包括學(xué)名與俗名(如“電子計(jì)算機(jī)”與“電腦”)、全稱與簡(jiǎn)稱(如“奧林匹克運(yùn)動(dòng)會(huì)”與“奧運(yùn)會(huì)”)、新稱與舊稱(如“北京大學(xué)”與“京師大學(xué)堂”)、型號(hào)與代號(hào)(如“土星5號(hào)運(yùn)載火箭”與“神農(nóng)五號(hào)”)、書面語(yǔ)與口語(yǔ)(如“聊天”與“談話”)、同素逆序詞(如“演講”與“講演”)、大陸與臺(tái)灣的稱謂差異(如“操作系統(tǒng)”與“作業(yè)系統(tǒng)”)、外來(lái)語(yǔ)譯名(如“奧巴馬”與“歐巴馬”)、異形詞(如“筆劃”與“筆畫”)、語(yǔ)義近似詞(如“尊敬”與“尊重”)等。

目前,大部分中文同義詞語(yǔ)料是人工構(gòu)建的。人工構(gòu)建的語(yǔ)料的優(yōu)點(diǎn)是準(zhǔn)確性高,能夠保證一定程度的質(zhì)量;缺點(diǎn)是耗時(shí)費(fèi)力,主觀性強(qiáng),更新滯后,覆蓋面小,構(gòu)建的語(yǔ)料庫(kù)規(guī)模較小,構(gòu)建不當(dāng)往往會(huì)對(duì)下一步的應(yīng)用造成消極影響。另外,隨著社會(huì)的快速發(fā)展、科學(xué)技術(shù)的不斷進(jìn)步和中國(guó)對(duì)外交往的逐漸擴(kuò)大,各領(lǐng)域的新名詞新術(shù)語(yǔ)不斷涌現(xiàn),人工構(gòu)建的同義詞詞典就無(wú)法及時(shí)體現(xiàn)隨時(shí)代變化的動(dòng)態(tài)語(yǔ)言現(xiàn)象。因此,迫切需要一種從海量的文本中自動(dòng)抽取同義詞的方法?;诖?,該文研究了結(jié)合潛在語(yǔ)義分析與上下文互信息的同義詞抽取。

接下來(lái)的幾部分詳細(xì)介紹了本文的思路。第二部分主要介紹了相關(guān)研究;第三部分給出了結(jié)合LSA與上下文互信息的同義詞抽取方法;第四部分說明實(shí)驗(yàn)方法和結(jié)果,給出相應(yīng)的分析;第五部分進(jìn)行總結(jié),并展望未來(lái)的工作。

2 相關(guān)研究

大規(guī)模語(yǔ)料的同義詞抽取的難點(diǎn)是如何表達(dá)兩個(gè)詞匯之間的相似程度,即計(jì)算兩個(gè)詞匯的相似度,進(jìn)而在詞匯相似度的基礎(chǔ)上識(shí)別同義詞。常見的計(jì)算詞匯相似度的方法分別是:1)依賴于已有語(yǔ)義分類詞典的方法[2];2)利用大規(guī)模語(yǔ)料進(jìn)行基于分布假設(shè)的方法[3-4]。

基于語(yǔ)義詞典的方法必須依賴語(yǔ)義詞典。語(yǔ)義詞典往往是由人工按照詞匯的語(yǔ)義類別組織詞匯而形成的一個(gè)樹狀層次結(jié)構(gòu)。在計(jì)算詞匯相似度時(shí),利用詞典中兩個(gè)詞匯之間的層次?;谡Z(yǔ)義詞典的詞匯相似度或者同義詞抽取方法存在的問題是:人工構(gòu)建語(yǔ)義詞典耗時(shí)費(fèi)力;語(yǔ)義詞典的收詞規(guī)模往往有限,而且收納的詞匯難以做到及時(shí)更新,這都會(huì)影響詞匯相似度的計(jì)算和同義詞的抽??;受限于詞典編撰者個(gè)人的經(jīng)驗(yàn)知識(shí),無(wú)法反映大規(guī)模語(yǔ)料庫(kù)中詞匯真實(shí)的意義和用法,最終導(dǎo)致性能不佳。因此現(xiàn)有的研究更多地是采用大規(guī)模語(yǔ)料庫(kù)的方法。

基于大規(guī)模語(yǔ)料庫(kù)的同義詞抽取或者詞匯相似度計(jì)算方法的研究首先基于詞匯的分布性假設(shè),即“相似的詞匯出現(xiàn)在相似的上下文環(huán)境中”[5]。選取詞匯的上下文特征并表示為向量,然后計(jì)算向量之間的相似度作為它們的相似度?;谡Z(yǔ)料的方法綜合反映了詞匯在句法、語(yǔ)義、語(yǔ)用等方面的相似性和差異性,因此它比較客觀。但這種方法計(jì)算量大、數(shù)據(jù)稀疏、數(shù)據(jù)噪聲的干擾較大及依賴于訓(xùn)練的語(yǔ)料庫(kù);如何克服上述缺陷,達(dá)到縮小分布相似與語(yǔ)義相似的差距的目的。因此,該文使用了潛在語(yǔ)義分析與上下文互信息結(jié)合方法對(duì)大規(guī)模語(yǔ)料進(jìn)行同義詞抽取。

3 結(jié)合LSA和互信息的同義詞抽取

3.1基本思想

本文使用了搜狗實(shí)驗(yàn)室網(wǎng)站提供的2008年7月中旬關(guān)于新聞的語(yǔ)料作為研究對(duì)象,該語(yǔ)料共包含384個(gè)文本文件,大小為4.42G。

我們首先提取了語(yǔ)料的之間的內(nèi)容,并把文件編碼格式由GBK轉(zhuǎn)化為UTF-8,然后,利用標(biāo)點(diǎn)符號(hào)“。???”進(jìn)行斷句處理,再利用北京理工大學(xué)張華平研制的分詞軟件NLPIR漢語(yǔ)分詞系統(tǒng)對(duì)所有文本進(jìn)行了自動(dòng)分詞和詞性標(biāo)注,把語(yǔ)料中出現(xiàn)的所有名詞、動(dòng)詞、形容詞設(shè)置目標(biāo)詞。統(tǒng)計(jì)目標(biāo)詞的頻次并刪除出現(xiàn)10次以下的目標(biāo)詞,以目標(biāo)詞為基準(zhǔn)選取前后窗口為3的上下文詞作為它的上下文特征。例如:日本/ns 強(qiáng)烈/a 地震/n 導(dǎo)致/v 公路/n 路面/n 開裂/v;設(shè)“導(dǎo)致”為目標(biāo)詞,它的上下文特征分別為“日本/ns”、“強(qiáng)烈/a”、“地震/n”、“公路/n”、“路面/n”、“開裂/v”。

在預(yù)處理的語(yǔ)料中抽取同義詞,利用兩方面的信息。首先,利用潛在語(yǔ)義分析(Latent Semantic Analysis,LSA)方法對(duì)語(yǔ)料的詞—文檔矩陣進(jìn)行分析;同時(shí),在奇異值分解之后的詞匯語(yǔ)義降維矩陣中,使用余弦相似度方法計(jì)算兩個(gè)詞匯的相似度。其次,若一個(gè)目標(biāo)詞i處在另一個(gè)目標(biāo)詞j中上下文中,使用點(diǎn)互信息(Pointwise Mutural Information,PMI)計(jì)算這兩個(gè)目標(biāo)詞的互信息值PMI(i, j)。最后,將詞匯在LSA分解結(jié)果的相似度和互信息綜合起來(lái),當(dāng)兩個(gè)詞匯的余弦相似度與它們的互信息PMI(i, j)和大于某閾值,則認(rèn)為它們兩者是同義詞。

3.2詞匯的點(diǎn)互信息(PMI)特征

3.2.1 點(diǎn)互信息PMI的計(jì)算

互信息[3,6]是信息論中的一個(gè)測(cè)度,可以用來(lái)度量?jī)蓚€(gè)詞匯之間的相似性。使用向量空間模型把每個(gè)目標(biāo)詞都構(gòu)造成特征向量,特征向量的每個(gè)維度表示一個(gè)特征。使用目標(biāo)詞與其點(diǎn)互信息(PMI)表示上下文詞對(duì)目標(biāo)詞的權(quán)值。利用PMI公式如下:

[PMI(wi,cj)=P(wi,cj)P(wi)×P(cj)=tf(wi,cj)×Tcount(wi)×count(cj)] (1)

其中:tf(wi,cj)是目標(biāo)詞wi與其上下文詞cj共現(xiàn)的頻次;T表示為語(yǔ)料中出現(xiàn)詞的總數(shù);count(x)表示語(yǔ)料中詞x出現(xiàn)的次數(shù)。

3.2.2基于詞匯點(diǎn)互信息向量的相似度計(jì)算

特征向量構(gòu)建完成后,詞匯之間語(yǔ)義的相似度就轉(zhuǎn)換為計(jì)算向量之間的相似度。使用余弦相似公式為:

[cos(wi,wj)=cos(wi,wj)=w∈T(wi)?T(wj)(weight(wi,w)×weight(wj,w))w∈T(wi)weight2(wi,w)×w∈T(wj)weight2(wj,w)] (2)

其中:T(w)是出現(xiàn)在w的上下文的詞,w為上下文詞,weight為利用(2)計(jì)算得出的權(quán)重。當(dāng)cos(wi,wj)大于某個(gè)閾值時(shí)認(rèn)為wi,wj為同義詞。

3.3 潛在語(yǔ)義分析(LSA) 的詞匯相似

3.3.1潛在語(yǔ)義分析理論

潛在語(yǔ)義分析(Latent Semantic Analysis, LSA) [Landauer & Dumais, 1997][7,8]是一種用于知識(shí)獲取和展示的計(jì)算理論和方法。為了實(shí)現(xiàn)LSA思想,需要通過數(shù)學(xué)方法建立潛在語(yǔ)義空間模型并利用數(shù)學(xué)中矩陣奇異值分解(Singular Value Decomposition, SVD)理論來(lái)實(shí)現(xiàn)。LSA的基本思想是首先構(gòu)造一個(gè)m[×]n的詞—文檔矩陣C,每個(gè)詞只會(huì)在少量文檔中出現(xiàn),因此C是高階稀疏矩陣。對(duì)C進(jìn)行SVD分解(設(shè)C的秩=r,存在k,k

[C≈Ck=UkkVTk] (3)

其中:由U的前k列組成的Uk是m×k矩陣,即壓縮到k維空間的詞向量;由Σ的前k行、前k列組成的Σk是k×k矩陣,即矩陣C的前k個(gè)奇異值;由V的前k行組成的Vk是k×n矩陣,即壓縮到k維空間的文檔向量。若k太大,則語(yǔ)義空間接近標(biāo)準(zhǔn)的向量空間模型,同時(shí)失去詞之間的依賴能力,存在噪聲且計(jì)算量比較大;若k太小,保留的重要語(yǔ)義結(jié)構(gòu)太少,無(wú)法把握運(yùn)算的結(jié)果;因此根據(jù)因子分析理論和具體實(shí)驗(yàn)來(lái)確定k值。在閾值給定的情況下,選取前k個(gè)最大主因子,可以令k滿足以下貢獻(xiàn)率不等式[16]:

[1kai1raj>θ] (4)

其中:θ為包含原始信息的閾值,可取為40%,50%,60%,……。貢獻(xiàn)率不等式是用來(lái)衡量k維子空間對(duì)于整個(gè)空間的表示程度。但是這個(gè)數(shù)值可能會(huì)很大,不便控制其規(guī)模,考慮到向量運(yùn)算的響應(yīng)速度和存儲(chǔ)空間限制,對(duì)維數(shù)規(guī)定其范圍,一般k值在100~300之間。

3.3.2詞-文檔矩陣的構(gòu)建

前面分析了LSA理論,詞-文檔矩陣的構(gòu)建主要依據(jù)詞與文檔的內(nèi)在關(guān)系。因此,文檔的集合作為訓(xùn)練語(yǔ)料構(gòu)造一個(gè)詞-文檔矩陣C,采用tf-idf方式對(duì)詞進(jìn)行權(quán)值計(jì)算。公式(6)[7]如下:

[cij=|tfij×log|Nndi+0.5||i-1n(tfij)2×log2|Nndi+0.5|] (5)

其中:cij為詞ti在文檔ci中的權(quán)重;tfij為詞ti在文檔ci中的頻次;N為訓(xùn)練文檔的總數(shù);ndi為訓(xùn)練文檔集中出現(xiàn)ti文檔數(shù),分母為歸一化因子。

詞—文檔矩陣C是一個(gè)高階稀疏矩陣,利用LSA對(duì)C進(jìn)行降維得到近似C的詞—文檔矩陣,去除了大量因詞匯的同義或多義而產(chǎn)生的“噪聲”;使用余弦相似得到兩個(gè)詞匯的相似值更精確。

3.3.3基于潛在語(yǔ)義分析的詞匯相似度計(jì)算

詞—文檔矩陣C構(gòu)建后,使用SVD對(duì)C分解,每個(gè)目標(biāo)詞w取C的前兩部分U和Σ構(gòu)成新的詞—文檔矩陣A,利用公式(8)得到w在文檔中權(quán)重,w在所有文檔中權(quán)重構(gòu)成它的特征向量。k為定值時(shí)兩個(gè)目標(biāo)詞之間的相似度計(jì)算轉(zhuǎn)化為計(jì)算兩個(gè)目標(biāo)詞向量的余弦相似度。公式如下(9):

[cos(wi,wj)=cos(wiwj)=m=1kwim×wjmm=1k(wim)2m=1k(wjm)2] (6)

其中:k 表示詞—文檔矩陣的維數(shù),wxm表示目標(biāo)詞x的第m維權(quán)值。

3.4 LSA與PMI結(jié)合的詞匯相似度計(jì)算

本文提出了利用LSA與PMI結(jié)合的兩個(gè)目標(biāo)詞之間相似度計(jì)算方法,目標(biāo)詞wi與wj相似度等于wi與wj的余弦相似度加上wi與cj的上下文PMI值與wj與ci的上下文PMI值之和的一半。當(dāng)wx出現(xiàn)在wy的上下文中,cy就是wy;否則,p(wx,cy)=0。公式如下(10):

[Sim(wi,wj)=λcos(wi,wj)+(1-λ)[PMI(wi,cj)+PMI(wj,ci)]2=λ×m=1kwim×wjmm=1k(wim)2m=1k(wjm)2+(1-λ)×tf(wi,cj)×Tcount(wi)×count(cj)+tf(wj,ci)×Tcount(wj)×count(ci)2] (7)

其中:k 表示詞—文檔矩陣的維數(shù),wym表示目標(biāo)詞y的第m維權(quán)值,tf(wi,cj)為語(yǔ)料中上下文詞cj與目標(biāo)詞wi共現(xiàn)的頻數(shù),T為語(yǔ)料中所有出現(xiàn)詞的總數(shù),count(x)為語(yǔ)料中x出現(xiàn)的頻次,λ為權(quán)重因子且λ∈[0,1]。Sim(wi,wj)大于某個(gè)閾值時(shí),認(rèn)為wi,wj為同義詞。

4 實(shí)驗(yàn)與結(jié)果

4.1 評(píng)價(jià)方法

為了評(píng)價(jià)文本所提出的同義詞抽取方法的效果,選擇哈爾濱工業(yè)大學(xué)信息檢索研究室的《同義詞詞林》(擴(kuò)展版)作為評(píng)測(cè)標(biāo)準(zhǔn)。擴(kuò)展版對(duì)原先《同義詞詞林》中屬于同一詞群的詞匯進(jìn)一步的細(xì)分、擴(kuò)展后,詞匯層次等級(jí)達(dá)到了5層?;陬悇e大小的考慮,一般使用2、3、4層進(jìn)行評(píng)價(jià),第2層有94個(gè)類,第3層有1400個(gè)類,第4層有4229個(gè)類。該文只使用第4層的評(píng)價(jià)結(jié)果??紤]到從語(yǔ)料中同義詞抽取的準(zhǔn)確性和全面性,使用正確率、召回率及F指標(biāo)作為評(píng)價(jià)指標(biāo),分別計(jì)算它們的微平均和宏平均值。

4.1.1 微平均指標(biāo)

顧名思義,微平均以每個(gè)語(yǔ)義關(guān)系為一個(gè)計(jì)算單元,評(píng)測(cè)公式[1]如下:

正確率:[P1=AA+B×100%] (8)

召回率:[R1=AA+C×100%] (9)

F指標(biāo):[F1=P1×R1α×R1+1-α×P1] (10)

其中:A為返回的結(jié)果中出現(xiàn)正確的同義詞數(shù)目;B為返回的結(jié)果中出現(xiàn)錯(cuò)誤的同義詞數(shù)目;C為未返回但確實(shí)是正確的同義詞數(shù)目;α為正確率相對(duì)于召回率的重要程度,α∈[0, 1]。為了平衡F值中正確率和召回率的權(quán)重相等,達(dá)到評(píng)測(cè)較好效果,α = 0.5,F(xiàn)指標(biāo)的計(jì)算公式(11)如下:

[F1=2×P1×R1P1+R1] (11)

4.1.2宏平均指標(biāo)

宏平均以每個(gè)詞匯為一個(gè)計(jì)算單元,對(duì)每個(gè)詞匯的評(píng)價(jià)指標(biāo)計(jì)算公式[1]如下:

詞匯I的正確率:[Pi=AiAi+Bi×100%] (12)

詞匯I的召回率:[Ri=AiAi+Ci×100%] (13)

詞匯I的F指標(biāo):[Fi=Pi×Riβ×Ri+1-β×Pi] (14)

其中:Ai為返回的結(jié)果中詞匯I的正確的同義詞數(shù)目;Bi為返回的結(jié)果中詞匯I的錯(cuò)誤的同義詞數(shù)目;Ci表示未返回的但確實(shí)是詞匯I的正確的同義詞數(shù)目;β為詞匯I的正確率相對(duì)于召回率的重要程度, β∈[0, 1]。同理為了使詞匯I的正確率和召回率的權(quán)重相等,β = 0.5,詞匯I的F指標(biāo)計(jì)算公式(12)如下:

[Fi=2×Pi×RiPi+Ri] (15)

宏平均值計(jì)算公式如下:

正確率:[P2=1NiPi] (16)

召回率:[R2=1NiRi] (17)

F指標(biāo):[F2=1NiFi] (18)

其中:N表示訓(xùn)練語(yǔ)料中被評(píng)測(cè)詞匯數(shù)。

4.2結(jié)果分析

基于本文提出方法的同義詞抽取實(shí)驗(yàn)中,由公式(6)可得到k秩的近似矩陣Ck,取k = 150、 θ = 75%,本實(shí)驗(yàn)分別取矩陣Ck的前兩部分Uk、Σk的乘積得到一個(gè)新矩陣。利用公式(10),通過實(shí)驗(yàn)結(jié)果來(lái)檢驗(yàn)當(dāng)λ 取不同值時(shí)的F指標(biāo)性能。同時(shí),當(dāng)兩個(gè)詞之間結(jié)合上下文信息和潛在語(yǔ)義分析的相似度值超過一定閾值之后,則認(rèn)為它們互相是同義詞。

本文從關(guān)于新聞的大規(guī)模語(yǔ)料中利用所提出的方法抽取得到龐大的同義詞集。為了便于評(píng)測(cè),根據(jù)語(yǔ)料中詞語(yǔ)的特點(diǎn),使用哈工大的《同義詞詞林》擴(kuò)展版作為評(píng)測(cè)標(biāo)準(zhǔn),隨機(jī)選取了200個(gè)名詞、200個(gè)動(dòng)詞、200個(gè)形容詞作為樣本進(jìn)行人工評(píng)測(cè)。實(shí)驗(yàn)中,當(dāng)Sim(wi,wj)> 0.974818548528時(shí),我們認(rèn)為wi與wj是同義詞。實(shí)驗(yàn)結(jié)果表明F指標(biāo)與λ的關(guān)系如下圖1所示;可見當(dāng)λ= 0.8時(shí)抽取的目標(biāo)詞的相似度性能最佳。

利用公式(11)、(12)、(13)、(19)、(20)、(21)得到評(píng)測(cè)結(jié)果如表1所示。

從圖1、表1中可見,無(wú)論是名詞、動(dòng)詞還是形容詞,微平均與宏平均指標(biāo)的值均增加。LSA方法對(duì)語(yǔ)義空間的維度進(jìn)行降維,消除語(yǔ)義表達(dá)中的“噪音”;因此,正確率的增長(zhǎng)率優(yōu)于召回率的增長(zhǎng)率。

5 結(jié)論與展望

在自然語(yǔ)言處理信息檢索的各種實(shí)際應(yīng)用中,同義詞都具有重要的價(jià)值。該文提出在大規(guī)模語(yǔ)料中利用潛在語(yǔ)義分析結(jié)合詞的上下文互信息來(lái)抽取同義詞的方法。LSA從詞語(yǔ)之間的相關(guān)性出發(fā),通過分析大量文本中詞語(yǔ)的使用關(guān)聯(lián),提取出潛在的語(yǔ)義空間結(jié)構(gòu),有效地獲得詞匯的語(yǔ)義知識(shí),但由于LSA方法本身的計(jì)算量和所需存儲(chǔ)空間巨大,同時(shí)也僅是簡(jiǎn)單地選擇目標(biāo)詞的上下文作為特征向量,沒有考慮句子語(yǔ)法結(jié)構(gòu)中所包含的詞匯之詞的更深層次的語(yǔ)義關(guān)聯(lián)信息,從而影響了LSA對(duì)文本內(nèi)容的處理能力。因此通過將LSA方法和詞匯上下文互信息特征結(jié)合起來(lái),使得名詞、動(dòng)詞、形容詞的正確率、召回率、F指標(biāo)均得到提高。

參考文獻(xiàn):

[1] Hagiwara M, Ogawa Y, Toyama K. Selection of effective contextual information for automatic synonym acquisition.Proc.COLING/ACL, 2006:353-360.

[2] 劉青磊,顧小豐.基于《知網(wǎng)》的詞語(yǔ)相似度算法研究[J].中文信息學(xué)報(bào),2010,24(6):31-36.

[3] 王石,曹存根,裴亞軍,等.一種基于搭配的中文詞匯語(yǔ)義相似度計(jì)算方法[J].中文信息學(xué)報(bào),2013,27(1):7-14.

[4] 石靜,吳云芳,邱立坤.基于大規(guī)模語(yǔ)料庫(kù)的漢語(yǔ)詞義相似度計(jì)算方法[J].中文信息學(xué)報(bào),2013,27(1):1-6.

[5] Harris Z. Mathematical structures of language [D]. Wiley, New Jersey, 1969.

[6] 裘國(guó)永,王娜,汪萬(wàn)紫.基于互信息和遺傳算法的兩階段特征選擇方法[J].計(jì)算機(jī)應(yīng)用研究,2012,29(8),2903-2905.

[7] 余正濤,樊孝忠,郭劍毅,等.基于潛在語(yǔ)義分析的漢語(yǔ)問答系統(tǒng)答案提取[J].計(jì)算機(jī)學(xué)報(bào),2006,29(10),1889-1893.

[8] 劉磊,曹存根,張春霞,等.概念空間中上下位關(guān)系的意義識(shí)別研究[J].計(jì)算機(jī)學(xué)報(bào),2009,32(8),1651-1661.

古交市| 黑水县| 太谷县| 开封县| 临沂市| 曲阳县| 石楼县| 中方县| 阳城县| 晋宁县| 凤山县| 泽普县| 江源县| 双鸭山市| 湾仔区| 文水县| 集安市| 登封市| 红河县| 思南县| 雅江县| 琼结县| 金沙县| 宜都市| 鄂托克前旗| 梓潼县| 郎溪县| 环江| 邵东县| 克山县| 奎屯市| 梅州市| 邢台县| 林甸县| 孟州市| 顺平县| 章丘市| 阿克苏市| 库尔勒市| 张北县| 康保县|