国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于VCK-vector模型的詞義消歧方法

2020-06-09 12:20:59戴洪濤侯開虎周洲肖靈云
軟件 2020年2期
關(guān)鍵詞:自然語言處理

戴洪濤 侯開虎 周洲 肖靈云

摘 ?要: 自然語言處理(NLP)旨在如何讓計算機更好的理解人類的語言,但是在自然語言中句段、詞匯本身存在多義和歧義,計算機無法將其轉(zhuǎn)換為能識別的二進制編碼,這是當下NLP領(lǐng)域內(nèi)存在的最大問題。本文將Viterbi算法的詞性標注模型、CBOW語言模型及K-Means聚類算法組合,構(gòu)建一種基于詞向量的多義詞組合消歧模型(VCK-Vector)。通過詞性分布對比、語義相關(guān)度任務(wù)和聚類效果分析等方法評測模型,最后通過百度AI詞向量與模型輸出結(jié)果進行對比。結(jié)果顯示基于VCK-vector模型在實際場景運用中是可行的。

關(guān)鍵詞:?自然語言處理;多義詞消歧;VCK-vector模型

中圖分類號: TP391.9????文獻標識碼:?A????DOI:10.3969/j.issn.1003-6970.2020.02.029

【Abstract】: Natural Language Processing (NLP) aims to make computers better understand human language. However in natural language,there are polysemy and ambiguity in sentence segment and vocabulary,?and computers cannot convert them into recognizable binary codes. This is the biggest problem in the field of NLP.This paper combined the part of speech tagging model of Viterbi algorithm, CBOW language model and K-Means clustering algorithm to construct a polysemous word combination disambiguation model (VCK-Vector) based on word vector. The model was evaluated by comparing part-of-speech distribution, semantic correlation task and clustering effect analysis. Finally, Baidu AI word vector was compared with the output of the model. The results are showed that the paper propose polysemous word combination disambiguation model (VCK-Vector) based is feasible in scene application.

【Key words】: Natural language processing; Polysemy disambiguation; VCK-vector model

0??引言

中文同一個句子、詞匯在不同場景運用會表達出不同的含義,使計算機準確分辨不同的語義是一件很困難的事情。讓計算機消除詞匯中的歧義,理解人類語言是自然語言處理領(lǐng)域的核心任務(wù)。針對計算機如何在處理中文多義詞消除歧義的問題,國外的研究起步較早,1986年Hinton等人就提出了One-hot表示法的雛形,雖然運用了神經(jīng)網(wǎng)絡(luò)來獲取信息,但是還未上升到自然語言處理的高度,僅僅是把符號映射在N維空間中[1]。隨后,Benigo等人通過神經(jīng)網(wǎng)絡(luò)建立了概率語言模型,然而此模型在訓練前指定的上下文范圍十分有限,并缺乏對時序信息進行建模,不符合自然語言處理文本信息的要求[2]。另外,Mnih A.和Hin G提出了于語言知識無關(guān)的構(gòu)建詞類二叉樹的方法[3]。Zheng X等人基于先前的研究結(jié)果,將神經(jīng)網(wǎng)絡(luò)框架應用到了中文領(lǐng)域[4]。Mikolov等人首次提出了CBOW模型與Skip-gram兩個模型[5]。Lin Qiu使用POS標注的方法區(qū)分一詞多詞性的詞向量[6]。最近,Seifollahi, Saeed和Shajari, Mehdi提出了利用詞義消歧來分析新聞標題具體含義[7]。中文相較于英文的詞匯消歧方法稍有不同,主要分為兩個方向。其一,基于概率統(tǒng)計學將算法和模型組合于消歧任務(wù)中,王旭陽等人通過對詞語預處理、詞語構(gòu)建及相似度排序等三個步驟,將中文網(wǎng)頁數(shù)據(jù)進行映射[8-13]。李國佳等人通過K-Means聚類的方法標記類別,并訓練相關(guān)的語料集,可得到多義詞每個詞義的詞向量[14]。其二,構(gòu)建多義詞詞典以其為標準用來消歧,基于Lesk算法[15]產(chǎn)生了相關(guān)的改進算法,王永生以詞義詞典WordNet為對照,通過對多義詞的詞義打分,采用得分最高的詞義作為最終的詞義[16]。除了上述研究成果外,李小濤等人基于多義詞詞典的詞義分解和同義擴展來進行消歧[17]。卞月峰通過多義詞典進行詞義標注并將其用作訓練集,該方法在消歧目標上具有較高準確率[18-23]。綜上所述,國內(nèi)許多學者對多義詞消歧的兩個方向均有研究,基于概率統(tǒng)計學的詞義消歧方法,靈活性好,消歧效率高,但是消歧任務(wù)為語料庫體量和類別所制約,其準確性較低。基于語義詞典的方法準確率較高,但構(gòu)建詞典需耗費大量的工作,效率難以提高,并且消歧方法單一,改進難度大。兩個方向各有利弊,但是核心問題及亟需改善的地方在于:(1)如何將中文多義詞的特征進行提取;(2)如何對大型中文語料庫中的多義詞進行消歧?;谝陨戏治觯疚膶⒒诟怕式y(tǒng)計學的詞義消歧方法,構(gòu)建多義詞組合消歧模型對語料庫中的多義詞詞義消歧,通過該模型確定中文多義詞的具體詞義。本文從以下幾個方面展開研究:(1)中文詞語如何以向量化方式表征;(2)將Viterbi算法的詞性標注模型與N-gram詞性標注模型標注的結(jié)果對比,分析實驗;(3)構(gòu)建基于VCK-vector的組合消歧模型;(4)將本文的組合模型與其它模型的結(jié)果對比,驗證模型的可行性。

1??NLP相關(guān)理論方法

1.1 ?N-gram模型

在自然語言處理中N-gram模型是一個十分常見的理論方法,其實質(zhì)是基于條件概率公式的貝葉斯判別模型,假設(shè)有一句由n個詞語組成的句子S=(w1,w2,…,wn),假設(shè)每個詞wi都依賴于從第一個詞w1到wi之前的詞wi-1,那么可得整個句子S的概率為:

1.2??CBOW語言模型

連續(xù)詞袋模型(continuous bag of words,簡稱CBOW)為了解決詞語向量化的問題,CBOW模型使用二分類的方法多次判斷目標詞。其本質(zhì)就是將多個隱藏層減少到了一個隱藏層。若關(guān)鍵詞W上下文中有[a, b, c, d, e, f, g, h]8個分類,那么就先將其進行二分類,先判斷W是屬于[a, b, c, d]還是[e, f, g, h]。首先如果判斷出W屬于[e, f, g, h],那么就再進一步判斷是W屬于[e, f]還是[g, h],這樣進行多次二分類,直到最終將W分配到某個分類中去。如果按二分類的方法來定位詞語,就可以把計算單個詞語的時間復雜度從o(h*N)降為o(h*logN),從而達到大幅度減少計算量和降低時間復雜度的目標。

1.3??Viterbi算法

Viterbi算法是自然語言處理中常用的分詞和詞性標注方法,其實質(zhì)是利用動態(tài)規(guī)劃的思想去尋找復雜網(wǎng)狀路徑中最大概率最短路徑的方法。馬爾科夫鏈的求解引入了Viterbi算法利用動態(tài)規(guī)劃的思路來求解最大概率最短路徑,使復雜度降為O(N*D),有效減少了計算量。其算法思想如圖3所示。

1.4 ?K-Means聚類

K-Means聚類的原理是在分類未開始之前在所有樣本中隨機選取K個樣本作為初始的聚類中心,然后計算每個樣本與聚類中心的距離,將每個樣本按照距離分給其離的最近的聚類中心,然后每個類簇的聚類中心又會根據(jù)類簇內(nèi)的樣本重新計算,直到所有樣本都被分配完成。重復以上過程,直到滿足終止條件,聚類完成。本文用K-Means聚類處理的詞向量是n維空間向量,因此設(shè)K個初始聚類中心向量為:{O1,O2,…Ok},空間中各個點的向量為xi, i=1,2,3,…,n。則各個點xi到各個聚類中心的距離為,將xi歸為最小d所對應的類別λi中,此時更新聚類簇。然后對于每個聚類簇C,重新計算其聚類中心Oj,計算公式如2-32所示。直到所有的聚類中心都不在變化,輸出聚類結(jié)果C={C1,C2,…,Ck}。

2??VCK-vector模型的構(gòu)建

中文自然語言處理相較于英語更加復雜,英語可從時態(tài)中提取相關(guān)特征信息,但中文卻沒有這些特點。因此需要新的方法將中文多義詞的特征表示出來。

2.1??模型的構(gòu)建流程

首先針對具有不同詞性的中文多義詞,消歧模型根據(jù)詞性的不同,將其在語料庫中標注出來,再由語言模型訓練語料庫,具有不同詞性的多義詞就可以根據(jù)其詞性將其分為兩個詞向量,并且其上下文也是不一樣的。之后針對只有一個詞性但是含義不同的多義詞則需要確定其具體的含義完成消歧任務(wù),消歧模型通過聚類的方法將只有一個詞性的多義詞結(jié)合其上下文來分析其具體含義。因此需要構(gòu)建的消歧模型是一種結(jié)合詞性標注模型、語言模型和聚類算法的組合消歧模型。根據(jù)消歧模型的消歧原理,構(gòu)建消歧模型可以分為三個部分,第一個部分用于將語料庫中的不同詞性多義詞根據(jù)詞性對其進行區(qū)分;第二個部分用于將區(qū)分過后的多義詞進行向量化來提取出中文多義詞的特征;第三個部分通過對向量化后的多義詞及其相關(guān)上下文進行聚類的方式完成對只有一個詞性但具有不同含義的多義詞消歧任務(wù)。圖4為構(gòu)建模型的流程圖。

相較于其他基于統(tǒng)計概率的消歧方法所構(gòu)建的多義詞消歧模型,該消歧模型是從多義詞的詞性出發(fā),將多義詞人為地分為了兩種類別,然后分別采用詞性標注模型與聚類算法解決兩種類別的多義詞消歧問題,這是其它單純使用詞向量來進行多義詞消歧的模型所缺乏的,也是該模型的“再創(chuàng)新”之處。

2.2??上下文特征提取

在中文里某個句子或某個段落中的詞的含義是根據(jù)周圍的若干個詞或句子所組成的語境來決定的。多義詞消歧任務(wù)的第一步,應該是提取歧義詞的上下文特征,即從目標詞w的句子周圍收集n-1個詞,這些詞也被稱為語境詞。通過提取分析這些詞所含有的信息,將其抽象為統(tǒng)一的特征表達,從而通過這些特征來對多義詞進行消歧。上下文的范圍在自然語言處理中也被叫做“窗口”的大小。范圍的選取應該根據(jù)特征提取模型的特點而定,不是固定不變的。吳云芳等人[24]把《現(xiàn)代漢語語法詞典》中的語法特征進行了提取并應用到消歧模型中,使得同形詞的平均消歧正確率達到了90%以上。Mihalcea[25]等人將語義依賴關(guān)系特征提取出來轉(zhuǎn)化為語義連接圖,并使用了隨機游走策略對多義詞進行了消歧。盧志茂[26]等人又將語句依存關(guān)系與貝葉斯模型進行結(jié)合,有效解決了原貝葉斯分類模型中特征較弱的上下文對消歧任務(wù)造成的噪聲影響。

針對詞義消歧的問題,本文采用CBOW模型,從輸入層到隱藏層是將目標詞w周圍的n-1個詞作為輸入并進行求和平均,不需要將窗口范圍設(shè)置過大,只需要w左邊的兩個詞與右邊的兩個詞就已足夠,所以設(shè)置窗口大小為5。如果窗口范圍設(shè)置過大,會導致隱藏層得到的求和平均向量所包含的輸入過多,導致丟失掉其中一部分信息。而CBOW模型一開始是將所有輸入的詞向量與模型參數(shù)隨機初始化,因此在CBOW模型中上下文的特征(即詞向量)是通過訓練過程提取出來的。

2.3??基于詞性標注的上下文特征改進

本文將語料庫交給語言模型進行詞向量訓練從而得出詞語特征之前對語料庫進行詞性標注,希望可以通過對語料庫進行詞性標注的手段來改善消歧效果。因為本文采用的語料庫是維基百科中文語料庫,其數(shù)據(jù)量為千兆級,包含30余萬篇文章,所以不可能采用傳統(tǒng)人工標注的方式對其進行詞性標注。本文引用了兩種中文詞性標注模型對語料庫進行詞性標注:分別為基于N-gram詞性標注模型及基于Viterbi算法的詞性標注模型。

通過改進,實現(xiàn)了兩個目標,第一點將不同詞性具有不同語義的多義詞w區(qū)分了出來,使其從原來語言模型的輸入w改善成為了w/tag的形式,增加了多義詞的區(qū)分度,其中tag表示為多義詞標注的詞性。第二點將原本無監(jiān)督的訓練方式改善成為了半監(jiān)督的訓練方式,使得多義詞詞向量特征更加明顯。不僅改善了多義詞的消歧效果,并且為進一步優(yōu)化模型做好了基礎(chǔ)工作。

2.4??詞向量訓練及其處理

關(guān)于CBOW語言模型及Skip-gram語言模型的實現(xiàn)的操作步驟:(1)模型的輸出層函數(shù)為Hierarchical Softmax,統(tǒng)計所有詞的詞頻,準備構(gòu)建霍夫曼樹。(2)根據(jù)語料庫的詞頻構(gòu)建霍夫曼樹。(3)CBOW語言模型,將目標詞w的上下文詞向量求和平均作為輸入變量,按照目標詞w在第二步中生成的霍夫曼編碼,對其路徑上的每個中間節(jié)點進行分類并且按照分類結(jié)果訓練隱藏層向量和目標詞w的詞向量。(4)完成霍夫曼樹、霍夫曼編碼及輸入變量以后,從霍夫曼樹的根節(jié)點開始,根據(jù)節(jié)點的向量和模型參數(shù)對每個節(jié)點進行Logistic分類,如果分類錯誤,則要對該節(jié)點的向量進行修正,并記錄誤差量。

Skip-gram語言模型的實現(xiàn)與CBOW語言模型的原理是相同的,不同點在于Skip-gram模型并不是對單個的輸入詞向量進行迭代更新,而是對2c個輸出詞的詞向量進行迭代更新。

2.5??VCK- vector模型

本文對維基百科中文語料庫進行了詞性標注,提取了上下文特征并且得到了多義詞的詞向量。將多義詞的不同詞性轉(zhuǎn)化為了不同向量,完成了對多義詞不同詞性的消歧目標。對于同詞性的多義詞無法消除的歧義。由此引入K-Means聚類法,將之前多義詞詞向量及與其相關(guān)度較高的詞向量提取出來,進行K-Means聚類,得到多義詞所在類別的聚類中心,并使用該中心的向量代替多義詞的詞向量,得到多義詞在上下文中最終的詞向量。以上是本文基于統(tǒng)計學的方法完成多義詞消歧技術(shù)的過程和原理。在之前的研究中,本文結(jié)合了詞性標注模型、將詞語轉(zhuǎn)化為詞向量的語言模型以及統(tǒng)計學中的聚類方法,共同形成了本文基于詞向量的多義詞組合消歧模型(Viterbi-CBOW-K-means of Vector)模型,本文將其簡寫為VCK-vector模型。

3??VCK-vector模型的實現(xiàn)

3.1??語料庫預處理

維基百科的中文語料庫為Xml格式,需將其轉(zhuǎn)換為utf-8編碼的.txt文本才能對其進行后續(xù)處理。其具體操作為調(diào)用python中的logging、os、sys等第三方庫,對Xml文件的讀取和.txt文件的寫入操作。由于語料庫中存在著大量的繁體中文,需使用opencc程序?qū)ζ溥M行文體轉(zhuǎn)換。語料庫中仍然存在著許多標點符號以及“的”、“地”、“得”這樣的字,在自然語言處理中稱為停用詞,需將這些標點符號及停用詞去除。本實驗采用復旦大學整理公布的停用詞表作為標準對語料庫進行清洗。

3.2??分詞及詞性標注

本文所用的維基百科的中文語料庫體量很大,所以使用穩(wěn)定性能較好的jieba分詞工具。在詞性標注上,本文分別使用N-gram模型與基于Viterbi算法構(gòu)建的詞性標注器對維基百科中文語料庫進行了詞性標注并對標注結(jié)果進行了對比。

3.3??詞向量的訓練

詞性標注任務(wù)完成后,得到語言模型訓練詞向量所需要的輸入,即經(jīng)過詞性標注的維基百科中文語料庫。然后使用CBOW模型、Skip-gram模型分別訓練未經(jīng)過詞性標注和進行過詞性標注的維基百科中文語料庫,得到兩種語料庫的詞向量模型。訓練結(jié)果如表1、2所示。

3.4 ?K-Means聚類

本文選擇與多義詞相關(guān)度最高的10個詞語作為聚類對象,將K值定為3。通過K-Means聚類后,得到與多義詞同類別的若干個詞語,并且得到該類別的聚類中心。聚類完成后,對得到幾個指標來進行多義詞的消歧,用以判斷上下文相關(guān)詞語與多義詞之間的相關(guān)程度。

4??模型對比驗證

本文實驗環(huán)境為:CPU:4核,Inter(R) Core(TM) i5-7500 @ 3.40?GHz;

RAM & ROM:8?GB & 150?G;

操作系統(tǒng):64位Windows7;

開發(fā)語言:Python3.6;

IDE:Pycharm及第三方庫;

實驗對象:維基百科中文語料庫(1.60?GB)。

4.1??詞性標注模型

本文采取簡單對比兩種詞性標注模型標注完成后的語料各個詞性分布的合理性進行評估,并選擇詞性分布更加合理的模型進行下一步實驗。結(jié)果如表3、表4所示。

由上表可知基于Viterbi算法的標注模型采用的訓練語料庫是python中的jieba詞庫,其詞語豐富程度和詞性豐富程度都優(yōu)于sinica_treebank詞庫,得到的詞性標注結(jié)果分布更加平均合理。因此,本文采用基于Viterbi算法的詞性標注集進行后續(xù)實驗。

4.2 ?CBOW與Skip-gram語言模型

本文采用語義相關(guān)性來對兩種語言模型進行評價。如表5、6所示為兩個語言模型分別以“關(guān)心”作為研究對象,分析研究對象之間的關(guān)系。由表可知CBOW語言模型的區(qū)分度較好,Skip-gram語言模型區(qū)分度較差。并且從實驗過程來看,CBOW語言模型進行詞向量訓練,耗時9個小時,用Skip-gram語言模型進行詞向量訓練時,耗時36個小時。

4.3??語料庫標注前后詞向量對比

本文語料庫標注模型采用基于Viterbi算法的詞性標注模型,詞向量的訓練模型為CBOW語言模型,其中以“關(guān)心”為研究對象的相關(guān)度如表7、8所示。

由上表可知,經(jīng)過詞性標注的語料庫其詞向量的表現(xiàn)更好。證明本文對研究對象進行詞性標注的工作是可行的,通過對語料庫進行科學的詞性標注,不僅可以消除不同詞性的多義詞歧義,并且可以使后續(xù)工作得到的詞向量具有更高的質(zhì)量。

4.4??K-Means聚類改進后的詞向量

K-Means聚類前后詞向量的對比的標準為聚類中心的相關(guān)度,因為向量維度為400維,無法在本章中列出所有的維度,所以在此只列出所有聚類詞語的類別以及與其對應聚類中心的距離,如表9所示。

經(jīng)過K-Means聚類之后,“了解”、“關(guān)注”、“重視”等7個詞被分到了第1類和第2類中,其他詞語與“關(guān)心”一同被劃分為第3類。通過聚類后的結(jié)果,可以確定多義詞“關(guān)心”的詞義是與“愛護”和“照顧”最相關(guān)的,也就是說在上下文中,這里的“關(guān)心”更加傾向于表示對某人愛護和照顧有加的意思。

4.5 ?VCK-vector模型與百度AI詞向量的對比

為了比較模型最后得出結(jié)果的優(yōu)劣,以VCK-vector模型與百度AI得到的詞向量之間的距離關(guān)系進行比較。如表10與11所示。

由表可知,雖然百度AI的詞向量維度相對VCK-vector模型,“關(guān)心”更加遠離了其他相關(guān)詞語,VCK-vector模型更加稠密的詞向量可以減少計算量并且其所包含的信息更加準確。

5??結(jié)束語

詞義消歧任務(wù)是自然語言處理過程和應用中的重點和難點問題,本文提出了一種VCK-vector消歧模型,利用對多義詞進行詞性標注、進行詞向量轉(zhuǎn)換以及K-Means聚類的方法,并結(jié)合現(xiàn)有的多種詞性標注算法、詞向量訓練模型以及聚類算法對多義詞的消歧進行了深入的研究。本文得出以下幾點結(jié)論:

(1)在詞性標注任務(wù)上,本文對兩種不同的詞性標注模型,即N-gram詞性標注模型及基于Viterbi算法的詞性標注模型進行了對比,并分析了輸出結(jié)果,基于Viterbi算法的詞性標注模型表現(xiàn)效果更好;

(2)本文對CBOW模型及Skip-gram模型進行了對比分析,并采用評判任務(wù)對兩種模型輸出的詞向量進行了對比,分析了兩種語言模型各自的特點、算法過程和最后得到的輸出結(jié)果,證明CBOW模型更適合作為本文的語言模型。

(3)詞性標注的語料庫相較于未經(jīng)詞性標注的語料庫之間得出的詞向量效果更佳;

(4)本文針對初步得到的詞向量進行了K-?Means聚類,并與未進行K-Means聚類的詞向量進行比較,實驗結(jié)果證明本文對詞向量進行K-?Means聚類可以有效的消解多義詞存在的詞義;

(5)通過與百度AI的詞向量進行比較,VCK-?vector模型更加稠密的詞向量可以減少計算量并且其所包含的信息更加準確。

綜上所述,本文通過實驗證明了本文所提出的多義詞組合消歧模型(VCK-vector)模型是有效可行的。中文語義消歧的方法隨著研究的深入將不斷改善,但如何正確且高效率的完成消歧任務(wù)仍是其研究重點。本文提出的組合消歧模型達到了消除多義詞歧義的效果,但局限性很大,首先不論詞性標注還是訓練詞向量,都應對比更多的算法模型,提出更加完善的組合模型,其次本文采用了K-Means聚類對多義詞消歧,針對詞向量的處理,還可以結(jié)合主題模型(LDA)、LSI及TF-IDF、最大熵及機器學習等模型算法深化研究,提高詞向量質(zhì)量,最后本文的語料庫單一,在處理具體的消歧任務(wù)時,應結(jié)合本文的組合模型實施辦法來采用相應的語料庫作為訓練對象,以提高實際運用中的準確性。

參考文獻

Hinton G E, Rumelhart D E, Williams R J. Learning internal representation-s by back-propagating errors[J]. Parallel Distributed Processing: Exploration-s in the Microstructure of Cognition,?1985,?1.

Bengio Y, Ducharme R, Vincent P, et al. A neural probabilistic language m-odel[M]. Innovations in Machine Learning. 2006.

Mnih A, Hinton G. Three new graphical models for statistical language mo-delling[C]. International Conference on Machine?Learning. Corvallis, Orego-n, USA, June 20-24, 2007.

Zheng X, Chen H, Xu T. Deep Learning for Chinese Word Segmentation a-nd POS Tagging[C]. Settle, Washington, USA, EMNLP. 2013:?647-657

Mikolov T, Chen K, Corrado G, et al. Efficient Estimation of Word Repres-entations in Vector Space[J]. Computer Science,?2013.

Lin Q, Yong C, Nie Z, et al. Learning word representation considering pro-ximity and ambiguity[C]. Twenty-eighth Aaai Conference on Artificial Intel-ligence. Boulder, Colorado?2014.

Seifollahi S, Shajari M. Word sense disambiguation application?in sentime-nt analysis of news headlines: an applied approach to FOREX market pre-diction[J]. Journal of Intelligent Information Systems, 2019: 1-27.

王旭陽, 姜喜秋.基于上下文信息的中文命名實體消歧方法研究[J].計算機應用研究, 2018, 35(4): 1072-1075.

楊曉峰, 李堂秋, 洪青陽.?基于實例的漢語句法結(jié)構(gòu)分析歧義消解[J].?中文信息學報, 2001, 15(3).

楊雪.?基于維基百科的命名實體消歧的研究與實現(xiàn)[D].?北京,?北京郵電大學,?2014.

史天藝, 李明祿.?基于維基百科的自動詞義消歧方法[J].?計算機工程, 2009, 35(18):?62-66.

寧博, 張菲菲.?基于異構(gòu)知識庫的命名實體消歧[J].?西安郵電大學學報, 2014(4):?70-76.

汪沛, 線巖團, 郭劍毅, et al.?一種結(jié)合詞向量和圖模型的特定領(lǐng)域?qū)嶓w消歧方法[J]. 智能系統(tǒng)學報編輯部, 2016, 11(3):?366-374.

李國佳, 趙瑩地, 郭鴻奇.?一種基于多義詞向量表示的詞義消歧方法[J].?智能計算機與應用, 2018, v.8(04):?57-61.

Lesk M. Automatic sense disambiguation using machine readable dictionari-es:how to tell a pine cone from an ice cream cone[C]. Acm Sigdoc Con-ference. Banasthali University, Rajasthan, India, 1986.

王永生.?基于改進的Lesk算法的詞義排歧算法[J].?微型機與應用,?2013(24):?69-71.

李小濤,?游樹娟,?陳維.?一種基于詞義向量模型的詞語語義相似度算法[J/OL].?自動化學報:?1-16?[2019-04-01].?https://doi.org/10.16383/j.aas.c180312.

卞月峰.?面向全文標注的中文詞義消歧研究與實現(xiàn)[D].?南京,?南京師范大學, 2015.

孫磊.?基于Web知識的無監(jiān)督英文目錄標簽消歧[J].?計算機應用與軟件, 2010, 27(9):?224-227+282.

劉琦.?一種基于WordNet上下文的詞義消歧算法[D].?吉林,吉林大學.

鄧龍.?基于語義的中文詞義消歧技術(shù)研究[D].?哈爾濱,?哈爾濱理工大學.

張春祥,?徐志峰,?高雪瑤.?一種半監(jiān)督的漢語詞義消歧方法[J/OL].?西南交通大學學報:?1-6?[2019-04-01].?http://kns.?cnki.net/kcms/detail/51.1277.U.20180306.1913.006.html.

高寧寧.?基于混合特征和規(guī)則的詞義消歧研究[D].?吉林,吉林大學.

吳云芳, 金澎, 郭濤.?基于詞典屬性特征的粗粒度詞義消歧[J].?中文信息學報, 2007, 21(2):?1-8.

Mihalcea, Rada. Graph-based ranking algorithms for sentence extraction, a-pplied to text summarization[J]. Unt Scholarly Works, 2004, 170-173:?20.

盧志茂, 劉挺, 張剛,?等.?基于依存分析改進貝葉斯模型的詞義消歧[J].?高技術(shù)通訊, 2003, 13(5):?1-7.

猜你喜歡
自然語言處理
基于LSTM自動編碼機的短文本聚類方法
自然語言處理與司法案例
魅力中國(2017年24期)2017-09-15 04:35:10
國外基于知識庫的問答系統(tǒng)相關(guān)研究進展及其啟示
中國市場(2016年39期)2017-05-26 17:55:58
基于依存句法的實體關(guān)系抽取
基于組合分類算法的源代碼注釋質(zhì)量評估方法
面向機器人導航的漢語路徑自然語言組塊分析方法研究
詞向量的語義學規(guī)范化
求知導刊(2016年10期)2016-05-01 14:09:25
漢哈機器翻譯中的文字轉(zhuǎn)換技術(shù)研究
HowNet在自然語言處理領(lǐng)域的研究現(xiàn)狀與分析
科技視界(2016年5期)2016-02-22 11:41:39
基于.NET的維哈柯多語種網(wǎng)上數(shù)據(jù)采集系統(tǒng)的設(shè)計與實現(xiàn)
南平市| 山阳县| 固安县| 乡宁县| 福贡县| 郎溪县| 宝应县| 雷山县| 闸北区| 信阳市| 浪卡子县| 余姚市| 彭泽县| 元阳县| 修文县| 礼泉县| 景谷| 河西区| 大同市| 昌吉市| 石嘴山市| 皮山县| 临颍县| 弥渡县| 万载县| 寿宁县| 台南市| 台前县| 称多县| 和田县| 舒城县| 龙山县| 青冈县| 城步| 山东省| 高台县| 托克托县| 东山县| 抚顺县| 曲阳县| 呼图壁县|