詞間關(guān)系的不確定圖模型與關(guān)鍵詞自動抽取方法

2019-02-15 09:21黃睿智黃德才

小型微型計(jì)算機(jī)系統(tǒng) 2019年2期

黃睿智，黃德才

(浙江工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院，杭州 310023)

1 引言

關(guān)鍵詞可以高度凝練文本的主題，快速獲取文本的核心內(nèi)容，在信息檢索、自然語言處理、情報(bào)學(xué)等領(lǐng)域都起著重要的作用.隨著數(shù)據(jù)信息化及大數(shù)據(jù)時(shí)代的到來，大量文本信息涌現(xiàn)，采用早期的手工標(biāo)注關(guān)鍵詞方法將消耗大量人力及時(shí)間，如何自動高效并準(zhǔn)確地從文本中抽取關(guān)鍵詞逐漸得到了人們的關(guān)注，成為了自然語言處理領(lǐng)域的一個重要課題，同時(shí)廣泛應(yīng)用于人工智能、推薦系統(tǒng)、機(jī)器翻譯等工業(yè)領(lǐng)域.

關(guān)鍵詞抽取指的是通過計(jì)算機(jī)程序從文本中自動抽取具有重要性和主題性的詞或短語的自動化技術(shù).主流的關(guān)鍵詞抽取方法可以分為監(jiān)督方法及無監(jiān)督方法，其中監(jiān)督方法往往會把關(guān)鍵詞抽取看作一個二分類問題，通過對已標(biāo)注的語料庫訓(xùn)練分類器來判斷文本的某個詞是否為關(guān)鍵詞，其中分類器包括基于決策樹算法[1]、基于樸素貝葉斯方法[2]等. 監(jiān)督學(xué)習(xí)的關(guān)鍵詞抽取準(zhǔn)確率較高，但其需要對大量語料信息進(jìn)行人工標(biāo)注，需要花費(fèi)大量人力時(shí)間，同時(shí)，語料的質(zhì)量也會直接影響模型的準(zhǔn)確性；無監(jiān)督方法中采用的技術(shù)包括統(tǒng)計(jì)法、基于主題的方法、基于網(wǎng)絡(luò)圖法等，其中TF-IDF[3]算法是一個經(jīng)典的基于統(tǒng)計(jì)法的關(guān)鍵詞抽取算法，其中TF(Term Frequency)指的是詞頻，IDF(Inverse Document Frequency)指的是逆向文件頻率，算法基于這樣一個假設(shè)：當(dāng)一個單詞在一個文本中出現(xiàn)多次，而在其他文本中出現(xiàn)較少，則該單詞可以作為關(guān)鍵詞，該算法簡單快速，但在很多短文本中，高頻詞并不一定是關(guān)鍵詞，且很多詞的詞頻相近致使TF項(xiàng)無法起到作用，同時(shí)該方法無法體現(xiàn)詞間的語義關(guān)系.

針對TF-IDF的改進(jìn)包括，文獻(xiàn)[4]通過提高特征值權(quán)重一定程度克服TF-IDF中IDF帶來的問題；文獻(xiàn)[5]引入了情感判斷來提高TF-IDF的準(zhǔn)確性；文獻(xiàn)[6]引入了詞語關(guān)聯(lián)度來避免單詞TF-IDF帶來的誤差；文獻(xiàn)[7]通過引入規(guī)則對候選詞進(jìn)行評分結(jié)合TF-IDF來抽取關(guān)鍵詞.綜上，許多關(guān)鍵詞抽取的研究都將TF-IDF作為基礎(chǔ)特征，并結(jié)合詞性特征，候選詞評分等方法提高關(guān)鍵詞抽取的準(zhǔn)確率，但很少結(jié)合詞間語義的關(guān)系，本文將首先將詞轉(zhuǎn)為詞向量，并結(jié)合不確定圖提出一種詞間相似度公式來表示詞間語義上的關(guān)系.

TextRank[8]是一個經(jīng)典的基于網(wǎng)絡(luò)圖的關(guān)鍵詞抽取算法，它將每個詞看作圖中的一個節(jié)點(diǎn)，采用隨機(jī)游走法來計(jì)算每個詞的分值，通過分值的高低來判斷該詞的關(guān)鍵程度. TextRank作為一中無監(jiān)督學(xué)習(xí)方法，無需標(biāo)注訓(xùn)練數(shù)據(jù)，速度快適應(yīng)性強(qiáng)，但其通過共現(xiàn)頻率來構(gòu)建網(wǎng)絡(luò)圖的方法，針對短文本時(shí)往往會形成鏈?zhǔn)降膱D結(jié)構(gòu)，從而致使準(zhǔn)確率降低，同時(shí)TextRank也無法體現(xiàn)詞間語義上的關(guān)系.

綜上，傳統(tǒng)的關(guān)鍵詞抽取算法單純依靠統(tǒng)計(jì)或詞的關(guān)聯(lián)信息[9]及詞的文本位置無法體現(xiàn)文本中各次語義間的關(guān)系，而如果加入人為制定的規(guī)則對候選詞進(jìn)行評分來來提高算法準(zhǔn)確率的方法，在實(shí)際應(yīng)用中針對不同的業(yè)務(wù)需求需要相應(yīng)改變規(guī)則，同時(shí)也需要人為維護(hù)一定數(shù)量的候選詞庫，使得該方法一定程度轉(zhuǎn)化為了半監(jiān)督學(xué)習(xí). 同時(shí)，工業(yè)上諸如商品介紹、用戶評論、新聞等文本信息很多均以篇幅較短的文本為主，傳統(tǒng)關(guān)鍵詞抽取算法在長文本關(guān)鍵詞抽取時(shí)可以取得尚可的準(zhǔn)確率，但針對短文本時(shí)往往效果較差.

本文結(jié)合word2vec首次提出了一種詞間的文本局部相似度公式，并通過詞間關(guān)系建立了不確定圖模型，參考文獻(xiàn)[10]的圖聚類相關(guān)方法及定理提出了頂點(diǎn)密度概念及候選關(guān)鍵詞評價(jià)指標(biāo)DEN，并提出了基于不確定圖的候選關(guān)鍵詞抽取算法，最終結(jié)合IDF提出了一種全新關(guān)鍵詞評價(jià)優(yōu)化標(biāo)準(zhǔn)DEN-IDF. 這種關(guān)鍵詞抽取的新方法在每個過程均不依賴于外部人工標(biāo)注數(shù)據(jù)，能夠?qū)崿F(xiàn)全程無監(jiān)督. 通過大量文本實(shí)驗(yàn)仿真發(fā)現(xiàn)，DEN-IDF的準(zhǔn)確率比TF-IDF提高了8%左右，比TextRank提高了12%左右，其中DEN-IDF在面對短文本時(shí)準(zhǔn)確率比TF-IDF提高了9%左右，比TextRank提高了13%左右.

2 相關(guān)工作

2.1 詞的向量化

詞的向量化目的是將語料庫中的每個詞數(shù)值化一個指定長度的向量，最早由Hinton[11]提出，它可以將詞映射到一個低維、稠密的實(shí)數(shù)向量空間中，使得詞義相近的詞在空間上的距離越近.通過借鑒文獻(xiàn)[12]中的NNLM，Mikolov等提出了Word2vec模型[13].

圖1 CBOW模型Fig.1 CBOW model

Word2vec模型通過優(yōu)化NNLM中的神經(jīng)網(wǎng)絡(luò)，大大提高了訓(xùn)練效率，其模型包括圖1的CBOW模型及圖2的Skip-gram模型. 兩個模型的網(wǎng)絡(luò)結(jié)構(gòu)都包括：輸入層、投影層、輸出層，其中CBOW利用詞w(t)及文本中該詞周圍的n個詞來預(yù)測當(dāng)前詞，skip-gram則利用從w(t)來預(yù)測它周圍的n個詞以CBOW模型為例，假設(shè)context(w)為w(t)周圍的n個詞，訓(xùn)練過程將(context(w),w(t))作為輸入，輸出為p(w(t)|context(w)),通過極大似然估計(jì)最大化輸出. 當(dāng)模型訓(xùn)練完成后，對語料庫中的每個詞可以得到一個相應(yīng)的向量.通過比較兩個詞向量的空間距離，可以得到兩個詞在語義上的差異，如本文實(shí)驗(yàn)得到的word2vec模型中，"貧窮"與"貧苦"的詞向量余弦相似度為0.89，"住所"與"住處"的詞向量余弦相似度為0.87，表示這兩對詞在語義上為近義詞.

圖2 skip-gram模型Fig.2 skip-gram model

2.2 不確定圖

不確定圖最早由Gao&Gao[14]提出，表示為一個三元組G=(V,E,p)，其中V={v1,v2,…,vn}為所有頂點(diǎn)的集合，E={e1,e2,…,em}為所有邊的集合，p={p1,p2, …,pm}表示相應(yīng)的邊存在的概率，當(dāng)pi=0時(shí)表示邊ei不存在.本文中的每條邊存在的概率假設(shè)是相互獨(dú)立的.

圖3 不確定圖及其鄰接矩陣Fig.3 Uncertain graph and the adjacency matrix

3 基于不確定圖的關(guān)鍵詞抽取

本文的關(guān)鍵詞抽取方法的主要步驟為訓(xùn)練詞向量、文本預(yù)處理、構(gòu)建不確定圖、關(guān)鍵詞抽取，流程圖如圖4所示. 采用維基百科中文語料庫作為詞向量訓(xùn)練集，在文本預(yù)處理階段，采用jieba(https://github.com/fxsjy/jieba)作為分詞工具，去除停用詞后可以將文本轉(zhuǎn)化為一個有序詞組，接下來將就構(gòu)建不確定圖及關(guān)鍵詞抽取做詳細(xì)介紹.

3.1 構(gòu)建不確定圖

文獻(xiàn)[7]中提出，對于短文本，由于文檔本身沒有首尾段落，本身首尾句的重要程度與其他句子沒有明顯的區(qū)別. 在實(shí)驗(yàn)中對一些新聞、評論、商品介紹等短文本研究發(fā)現(xiàn)，當(dāng)一段文本轉(zhuǎn)化為一個有序詞組時(shí)，關(guān)鍵詞一般不會出現(xiàn)在首尾位置；同時(shí)，關(guān)鍵詞可以表達(dá)文本的主題意思，那么一般情況下關(guān)鍵詞與文本中的其他詞語義相近，如果使用詞向量余弦相似度來表示詞間的語義相似程度，那么一段短文本的關(guān)鍵詞將具有以下兩個特征：

圖4 算法流程圖
Fig.4 Flow chart of algorithm

1) 關(guān)鍵詞的位置一般不位于文本的首尾且在文本中可能出現(xiàn)多次.

2) 關(guān)鍵詞與文本中其他詞的詞向量余弦相似度較高.

根據(jù)這兩個特征，可以構(gòu)建詞與詞之間的相似度，一個文本經(jīng)過分詞及去除停用詞的過程稱為預(yù)處理過程，一個文本通過預(yù)處理過程可以得到一個長度為n的有序詞組W={w1,w2,w3,…,wn}，對于每個詞之間做以下定義：

定義1.文本間隔：對于詞wi、wj，其間隔的詞數(shù)為a，則其文本間隔tDis(wi,wj)=1+a.

例1.已知短文本例文及預(yù)處理結(jié)果如下所示，由于"元宵節(jié)"在文中出現(xiàn)多次，因此"傳統(tǒng)節(jié)日"與"元宵節(jié)"的文本間隔為1、25，這種情況下，將取最小值作為兩個詞的文本間隔，即本例中tDis("傳統(tǒng)節(jié)日", "元宵節(jié)")=1. 因此，當(dāng)某個詞在文本中多次出現(xiàn)時(shí)，該詞與其他詞的文本間隔將會較小，如果首尾詞在文本只出現(xiàn)很少次，那么其與其他詞的文本間隔將會很大.

例文：每年的陰歷正月十五是中國人很重視的傳統(tǒng)節(jié)日，元宵節(jié).正月十五日是一年中第一個月圓之夜，加上吃元宵的習(xí)俗，這個節(jié)日就和團(tuán)圓兩個字牢牢的聯(lián)系起來.元宵節(jié)是春節(jié)之后的第一個重要節(jié)日，不管是南方北方都對這個節(jié)日比較重視，舉行很多的活動來慶祝這個節(jié)日

預(yù)處理結(jié)果：每年/陰歷/正月十五/中國人/重視/傳統(tǒng)節(jié)日/元宵節(jié)/正月十五/日/一年/中/第一個/月圓之夜/加上/吃/元宵/習(xí)俗/節(jié)日/團(tuán)圓/兩個/字/牢牢/元宵節(jié)/春節(jié)/第一個/節(jié)日/南方/北方/都/節(jié)日/重視/很多/活動/慶祝/節(jié)日

定義2.文本局部相似度：根據(jù)前文提出的關(guān)鍵詞特征，定義詞wi、wj的在當(dāng)前文本下的文本局部相似度LocalSim定義為：

(1)

其中consinSim(wi,wj)表示詞wi與wj詞向量的余弦相似度，規(guī)定wi與自身的文本局部相似度定為0. 例1中"傳統(tǒng)節(jié)日"與"元宵節(jié)"的詞向量余弦相似度為0.757，LocalSim("傳統(tǒng)節(jié)日", "元宵節(jié)")=0.757.

利用文本構(gòu)建不確定圖的步驟如下：

1) 首先，我們定義不確定圖G=(V,E,p)，其中將W中的每個詞作為頂點(diǎn)，即V={w1,w2,w3,…,wn}，同時(shí)將所有頂點(diǎn)間加上連邊，即E=V×V，邊概率為兩個頂點(diǎn)所代表的詞之間的文本局部相似度，定義為：

(2)

2) 對邊概率小于或等于0的邊進(jìn)行剪枝，剪枝完成后，刪除沒有連邊的頂點(diǎn)，最終得到文本不確定圖DG.

3) 若此時(shí)DG的頂點(diǎn)V′={w1,w2,…,wm}，其鄰接矩陣A表示為：

(3)

3.2 頂點(diǎn)密度及候選關(guān)鍵詞評價(jià)指標(biāo)

定義3.頂點(diǎn)密度：在指定步長l下wi的頂點(diǎn)密度為：

(4)

定義4.候選關(guān)鍵詞評價(jià)指標(biāo)DEN：一定步長下wi的頂點(diǎn)密度在利用min-max函數(shù)歸一化后稱為DEN(wi).

將DEN作為候選關(guān)鍵詞的評價(jià)指標(biāo)，通過計(jì)算每個詞在一定步長下的DEN，可以得到候選關(guān)鍵詞的排序.

3.3 自適應(yīng)候選關(guān)鍵詞抽取算法

結(jié)合定義3提出自適應(yīng)候選關(guān)鍵詞抽取算法，該算法通過步長自適應(yīng)自動的計(jì)算得到每個詞對應(yīng)頂點(diǎn)的頂點(diǎn)密度，算法1給出了詳細(xì)過程.

算法1.自適應(yīng)候選關(guān)鍵詞抽取算法．

輸入：文本不確定圖DG=(V′,E′,p)及迭代上限ul

輸出：wi及DEN(wi)集合S={(w1,d1),(w2,d2),…,(wm,dm)}

1. 由DG得到邊概率矩陣A

2. 令l=1

1) 計(jì)算每個頂點(diǎn)的密度，并按遞減順序排序

2) 當(dāng)頂點(diǎn)密度排序與上次循環(huán)一樣時(shí)，退出循環(huán)；否則l=l+1

4. 將頂點(diǎn)密度利用函數(shù)min-max函數(shù)歸一化，其中DEN(wi)記作di

5. 輸出集合S={(w1,d1),(w2,d2),…,(wm,dm)}

算法初始化步長為1，在每次循環(huán)過程中計(jì)算當(dāng)前各個頂點(diǎn)密度并排序，隨后依次增加步長，當(dāng)某次循環(huán)中，頂點(diǎn)密度排序次序不再發(fā)生變化時(shí)，或迭代次數(shù)達(dá)到上限時(shí)則退出循環(huán)，并將所有頂點(diǎn)密度歸一化后輸出所有頂點(diǎn)對應(yīng)的詞及其DEN值.

3.4 帶權(quán)重的DEN-IDF

在經(jīng)過算法1處理后得到的候選關(guān)鍵詞排序中，仍然有一些常見詞排名較前，即IDF值較大的詞. 因此，本文提出DEN-IDF作為關(guān)鍵詞評價(jià)的優(yōu)化標(biāo)準(zhǔn).

對于W={w1,w2,…,wm}，我們首先將其IDF值利用min-max函數(shù)歸一化，定義IDF*(wi)為詞wi歸一化后的IDF值. 提出以下定義：

4.4 合理施肥芝麻施肥應(yīng)依據(jù)芝麻各生育階段需肥特性、土壤肥力、品種特性、栽培條件等因素進(jìn)行配方施肥[8-9]。

定義5.DEN-IDF：我們定義一個詞wi的DEN-IDF值為：

DEN-IDF(wi)=a·DEN(wi)+(1-a)·IDF*(wi)

(5)

圖5 關(guān)鍵詞抽取算法對比Fig.5 Comparison of keyword extraction algorithms

關(guān)于權(quán)重a的取值，通過對訓(xùn)練集數(shù)據(jù)的實(shí)驗(yàn)得到a的近似取值為0.6，具體實(shí)驗(yàn)方法及過程在第4章介紹. 圖5顯示的例1中的文本分別使用TF-IDF、TextRank及DEN-IDF得到的top-5關(guān)鍵詞. 可以看出例1中例文的關(guān)鍵詞應(yīng)為"元宵節(jié)"，相比TF-IDF及TextRank，DEN-IDF可以得到更準(zhǔn)確的結(jié)果.

4 實(shí) 驗(yàn)

4.1 實(shí)驗(yàn)數(shù)據(jù)及評價(jià)指標(biāo)

本文使用維基中文百科作為詞向量訓(xùn)練數(shù)據(jù)，使用搜狗實(shí)驗(yàn)室新聞?wù)Z料集作為關(guān)鍵詞抽取算法測試數(shù)據(jù)，其中維基中文百科文檔數(shù)在40萬左右，搜狗實(shí)驗(yàn)室語料集中，選取10個領(lǐng)域，每個領(lǐng)域隨機(jī)選取10篇文檔，一共100篇作為測試文檔集，并人工為每篇文檔設(shè)置5個關(guān)鍵詞. 其中本文將字?jǐn)?shù)在350字以下的文檔作為短文本，測試文檔集中短文本一共有36篇，非短文本一共有64篇. 利用此文檔集進(jìn)行關(guān)鍵詞抽取實(shí)驗(yàn)，評價(jià)指標(biāo)包括準(zhǔn)確率P(precision)、召回率R(recall)、F值F(F-measure)，其中具體公式如下：

(6)

(7)

(8)

4.2 DEN-IDF權(quán)重選擇

為了獲取最為合適的權(quán)重a，我們?nèi)值分別為0.15、0.3、0.45、0.6、0.75、0.9，分別每個權(quán)重對測試文檔集每篇文檔抽取DEN-IDF最高的5個詞作為關(guān)鍵詞，并計(jì)算其各自的準(zhǔn)確率. 實(shí)驗(yàn)結(jié)果如圖6所示.

圖6 權(quán)重準(zhǔn)確率對比
Fig.6 Precision of different weight

通過圖6可以發(fā)現(xiàn)，在權(quán)重取0.6時(shí)，其準(zhǔn)確率達(dá)到最高，因此，本文將a近似取值為0.6.

4.3 關(guān)鍵詞抽取實(shí)驗(yàn)

為了考察DEN-IDF關(guān)鍵詞抽取方法的有效性，實(shí)驗(yàn)中使用傳統(tǒng)的TF-IDF、TextRank及DEN-IDF對測試文檔集每篇文檔進(jìn)行關(guān)鍵詞抽取，分別抽取top3、top5、top7個詞作為關(guān)鍵詞，計(jì)算各自準(zhǔn)確率、召回率及F值.實(shí)驗(yàn)結(jié)果如表1、表2和表3所示.

表1 關(guān)鍵詞抽取準(zhǔn)確率實(shí)驗(yàn)Table 1 Keyword extraction experiments about precision

分析上述實(shí)驗(yàn)結(jié)果可得以下結(jié)論：

1) 算法抽取關(guān)鍵詞的個數(shù)對關(guān)鍵詞抽取的效果影響較大. 由表1及表2可以發(fā)現(xiàn)，TF-IDF、TextRank及DEN-IDF在選取top3詞作為關(guān)鍵詞時(shí)其準(zhǔn)確率均最大，召回率最小，隨著選取關(guān)鍵詞數(shù)量的增加，準(zhǔn)確率逐漸下降，而召回率逐漸增加.

表2 關(guān)鍵詞抽取召回率實(shí)驗(yàn)Table 2 Keyword extraction experiments about recall

2) 傳統(tǒng)的關(guān)鍵詞抽取算法整體效果較為一般. 由表1、表2及表3可以發(fā)現(xiàn)，對于抽取不同個數(shù)的關(guān)鍵詞，TF-IDF的準(zhǔn)確率平均值為36.8%，召回率平均值為34.6%，F(xiàn)值平均值為34.6%；TextRank的準(zhǔn)確率平均值為31.5%，召回率平均值為29.7%，F(xiàn)值平均值為29.7%. 可以看出，對于中短篇幅的文檔，基于詞頻統(tǒng)計(jì)的TF-IDF效果略優(yōu)于基于網(wǎng)絡(luò)圖的TextRank，但總體效果一般.

表3 關(guān)鍵詞抽取F值實(shí)驗(yàn)Table 3 Keyword extraction experiments about F-measure

3) DEN-IDF較傳統(tǒng)關(guān)鍵詞抽取算法，能顯著提升關(guān)鍵詞抽取效果. 由表1、表2及表3可以發(fā)現(xiàn)，對于抽取不同個數(shù)的關(guān)鍵詞，DEN-IDF較TF-IDF，準(zhǔn)確率平均提升8%，最大提升11%，召回率平均提升7%，最大提升9%；F值平均提升7%，最大提升9%；DEN-IDF較TextRank，準(zhǔn)確率平均提升12%，最大提升17%，召回率平均提升12%，最大提升17%，F(xiàn)值平均提升11%，最大提升14%.同時(shí)，DEN-IDF的準(zhǔn)確率平均值達(dá)到了43.7%，召回率平均值達(dá)到了41.9%，F(xiàn)值平均值達(dá)到了41.6%.

4) DEN-IDF針對短文本抽取關(guān)鍵詞時(shí)也能得到良好的效果. 表4為分別對測試文檔集中的短文本及非短文本抽取top5詞作為關(guān)鍵詞時(shí)的準(zhǔn)確率數(shù)據(jù)，其中TF-IDF及TextRank在短文本數(shù)據(jù)下的準(zhǔn)確率分別為31.2%及27.1%，說明其在面對短文本時(shí)的效果較差. DEN-IDF在面對短文本時(shí)準(zhǔn)確率比TF-IDF提高了9.3%，比TextRank提高了13.4%，達(dá)到了40.5%. 說明DEN-IDF在針對短文時(shí)同樣能保持良好的效果.

表4 短文本/非短文本關(guān)鍵詞抽取實(shí)驗(yàn)Table 4 Keyword extraction experiments about short text/ non-short text

綜上，在未加詞性、主題等外部標(biāo)簽的情況下，本文提出的基于不確定圖的無監(jiān)督關(guān)鍵詞抽取算法較傳統(tǒng)算法效果提升明顯，面對短文本及非短文本都能取得良好的效果. 如果結(jié)合例如文[7]中的候選詞方法將會進(jìn)一步提高關(guān)鍵詞抽取效果.

4.4 算法優(yōu)勢分析

DEN-IDF通過構(gòu)建全新的詞間關(guān)系不確定圖模型及兩層關(guān)鍵詞評價(jià)方法來改進(jìn)傳統(tǒng)關(guān)鍵詞抽取算法存在的缺點(diǎn). 首先結(jié)合詞向量余弦相似度及詞間的文本間隔定義了新的詞間關(guān)系，這種關(guān)系不僅能體現(xiàn)詞間語義關(guān)系也能體現(xiàn)詞間的句中相對位置關(guān)系及詞頻. 隨后將一個句子轉(zhuǎn)化為詞間關(guān)系的不確定圖模型，并通過頂點(diǎn)間的轉(zhuǎn)移概率提出了頂點(diǎn)密度概念，當(dāng)某個詞具有高密度時(shí)代表了該詞與其他詞的關(guān)系緊密，因此將頂點(diǎn)密度作為候選關(guān)鍵詞評價(jià)標(biāo)準(zhǔn)，最后通過IDF得到了關(guān)鍵詞的優(yōu)化標(biāo)準(zhǔn). 合理的詞間關(guān)系不確定圖模型轉(zhuǎn)換方式及兩層式的關(guān)鍵詞評價(jià)標(biāo)準(zhǔn)使得DEN-IDF較傳統(tǒng)的無監(jiān)督關(guān)鍵詞抽取算法大大的提高了準(zhǔn)確率.

5 結(jié) 論

本文主要研究了基于不確定圖的中文關(guān)鍵詞抽取算法，首先利用word2vec構(gòu)建詞向量模型，結(jié)合詞向量余弦相似度提出了詞間的文本局部相似度，以此為基礎(chǔ)構(gòu)建不確定圖，并將歸一化后的頂點(diǎn)密度DEN作為候選關(guān)鍵詞的評指標(biāo)，最后使用IDF來過濾常用詞，提出了DEN-IDF作為關(guān)鍵詞評價(jià)的優(yōu)化標(biāo)準(zhǔn).相比傳統(tǒng)的關(guān)鍵抽取方法，DEN-IDF兼顧了詞義、詞頻及詞的文本位置等因此，關(guān)鍵詞的P、R、F值相較基于網(wǎng)絡(luò)圖的TextRank各提升了13%左右，相較TF-IDF各提升了7%左右，在短文本及非短文本測試集下準(zhǔn)確率都達(dá)到了40%以上.在實(shí)驗(yàn)過程中發(fā)現(xiàn)，提高word2vec模型的質(zhì)量可以提高關(guān)鍵詞抽取的效果，在未來的工作可以考慮，通過主題劃分的方式來提高word2vec模型，以改進(jìn)本文關(guān)鍵詞抽取算法及其他領(lǐng)域的推廣研究.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡