王小林,朱 磊,邰偉鵬
(安徽工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,安徽 馬鞍山 243002)
基于擴(kuò)充詞匯鏈改進(jìn)的關(guān)鍵詞提取算法
王小林,朱 磊,邰偉鵬
(安徽工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,安徽 馬鞍山 243002)
的準(zhǔn)確提取在文本分類、文本聚類、信息檢索等方面起著重要作用?,F(xiàn)有的基于詞匯鏈的關(guān)鍵詞提取方法在計(jì)算詞語相似度時(shí),賦予第一類獨(dú)立義原系數(shù)的值最大并且通過第一類獨(dú)立義原相似度約束其他三類義原相似度;通過區(qū)域特征和詞頻提取關(guān)鍵詞時(shí),詞語的權(quán)重依賴詞匯鏈的長度,不能充分利用區(qū)域特征等問題。為了提高關(guān)鍵詞的提取準(zhǔn)確率,計(jì)算詞語相似度時(shí),用對(duì)比的兩個(gè)詞語每類義原個(gè)數(shù)的和與四類義原個(gè)數(shù)總和的比值大小排序后動(dòng)態(tài)的獲取系數(shù)取代固定系數(shù),并且去除每類義原受到前面所有義原類的約束;提取關(guān)鍵詞時(shí),用詞匯鏈的有效權(quán)重替代詞匯鏈的長度。實(shí)驗(yàn)結(jié)果表明:改進(jìn)后的算法較傳統(tǒng)的算法提高了準(zhǔn)確率。
關(guān)鍵詞提??;區(qū)域特征;詞語相似度;有效權(quán)重;詞匯鏈;義原
信息時(shí)代不斷的發(fā)展,信息內(nèi)容呈現(xiàn)的方式成多樣化,但是以文本呈現(xiàn)信息內(nèi)容的方式依舊不可取代。隨著網(wǎng)絡(luò)上文本數(shù)據(jù)的不斷增長,如果還靠人工去獲取所需文本信息,那么將會(huì)耗費(fèi)太多的時(shí)間和精力,如何提高文本信息的獲取效率變得尤為突出。在對(duì)海量的文本數(shù)據(jù)進(jìn)行處理時(shí),研究人員從文本分類、文本聚類、信息檢索等方面進(jìn)行了大量的研究,發(fā)現(xiàn)了一個(gè)非常關(guān)鍵的問題,就是如何從文本中獲取能簡約概括文本信息的關(guān)鍵詞。關(guān)鍵詞能夠具體的概括出文本所要表達(dá)的信息,使讀者不必查看文本就能知道該文本是不是自己所需要的。而且,通過計(jì)算文本關(guān)鍵詞的相關(guān)性度量[1],就能很快的對(duì)文本進(jìn)行分類、聚類,因此,可以提高文本分類、聚類的效率。在信息檢索方面,關(guān)鍵詞的作用顯得尤為突出,用戶在搜索引擎中輸入關(guān)鍵詞,搜索引擎會(huì)向用戶給出那些包含關(guān)鍵詞的文章。國外對(duì)關(guān)鍵詞研究的比較早,已經(jīng)建立了一些實(shí)用和試驗(yàn)系統(tǒng)。Witten[2]采用樸素貝葉斯技術(shù)對(duì)短語離散的特征值進(jìn)行訓(xùn)練,獲取模型的權(quán)值,以完成下一步從文檔中抽取關(guān)鍵短語的任務(wù)。Turney[3]設(shè)計(jì)的GenEx系統(tǒng)將遺傳算法和C4.5決策樹機(jī)器學(xué)習(xí)方法用于關(guān)鍵短語的抽取。
由于漢語本身沒有詞語邊界這一特點(diǎn),給關(guān)鍵詞提取增加了一些難度。文獻(xiàn)[4]提出了最大熵模型,當(dāng)前關(guān)鍵詞候選集合中的每一項(xiàng)都在一定程度上反映了文章的內(nèi)容,因此,要計(jì)算每一候選項(xiàng)反應(yīng)主題內(nèi)容的程度大小,最大熵模型就是計(jì)算這個(gè)程度大小以獲取關(guān)鍵詞的基礎(chǔ),但是由于特征選取以及特征參數(shù)的估計(jì)不夠準(zhǔn)確,因此,在關(guān)鍵詞自動(dòng)標(biāo)引中并不是太理想。文獻(xiàn)[5]的關(guān)鍵詞提取方法中,關(guān)鍵詞的權(quán)重依賴于插值系數(shù),由于插值系數(shù)受訓(xùn)練集影響太大,因此,結(jié)果不太理想。文獻(xiàn)[6]提出的關(guān)鍵詞算法,通過計(jì)算語義距離,不僅計(jì)算量大而且計(jì)算復(fù)雜,最后還要自定義一個(gè)閾值去提取關(guān)鍵詞,閾值的高與低影響著提取的準(zhǔn)確率,因此,局限性很大。文獻(xiàn)[7]的關(guān)鍵詞提取算法中所用到的詞語相似度算法,給予第一獨(dú)立義原最大系數(shù),并且讓第一獨(dú)立義原約束其他義原,但是第一獨(dú)立義原對(duì)詞語只是一個(gè)大概的描述,起不到區(qū)分詞語的作用,且由于原有的算法過于依賴詞頻,造成部分詞頻不是很高的,卻是非常關(guān)鍵的詞語,未能被標(biāo)引出來。
文中正是針對(duì)文獻(xiàn)[7]方法中出現(xiàn)不足提出的基于擴(kuò)充詞匯鏈[8]改進(jìn)的關(guān)鍵詞提取方法,該方法在計(jì)算詞語相似度時(shí),用對(duì)比的兩個(gè)詞語每類義原個(gè)數(shù)的和與四類義原個(gè)數(shù)的總和的比值取代固定系數(shù),去除第一類義原約束,提取關(guān)鍵詞時(shí),用詞匯鏈的有效權(quán)重替代詞匯鏈的長度。通過實(shí)驗(yàn)該方法在準(zhǔn)確率和召回率上有所提高。
1.1 詞語相似度算法[9]
《知網(wǎng)》是一個(gè)以漢語和英語的詞語所代表的概念為描述對(duì)象,以揭示概念與概念之間以及概念所具有的屬性之間的關(guān)系為基本內(nèi)容的常識(shí)知識(shí)庫?!吨W(wǎng)》中含有豐富的詞匯語義知識(shí)和世界知識(shí)。在《知網(wǎng)》中有兩個(gè)主要的概念:“概念”與“義原”。“概念”是對(duì)詞匯語義的一種描述,每一個(gè)詞可以表達(dá)為幾個(gè)概念。“概念”是用一種“知識(shí)表示語言”來描述的,這種“知識(shí)表示語言”所用的詞匯叫做“義原”?!傲x原”是用于描述一個(gè)“概念”的最小意義單位。每個(gè)義原類別都是一個(gè)樹狀結(jié)構(gòu)。文獻(xiàn)[7]計(jì)算詞語相似度的方法:對(duì)于兩個(gè)漢語詞語W1和W2,如果W1有n個(gè)義項(xiàng)(概念)S11,S12,…,S1n,W2有m個(gè)義項(xiàng)(概念)S21,S22,…,S2m,規(guī)定W1和W2之間的相似度是各個(gè)義項(xiàng)的相似度最大值,即
其中Sim(W1,W2)表示兩個(gè)詞語的相似度,Sim(S1i,S2j)表示兩個(gè)詞語中義項(xiàng)的相似度,這樣就把兩個(gè)詞語的相似度計(jì)算歸結(jié)到兩個(gè)詞語中義項(xiàng)的相似度計(jì)算上。由于義項(xiàng)由一系列義原構(gòu)成,這樣就把義項(xiàng)的相似度計(jì)算歸結(jié)到義原相似度計(jì)算上。所有的義原根據(jù)上下位關(guān)系構(gòu)成了一個(gè)樹狀的義原層次體系,通過語義距離計(jì)算相似度的辦法來計(jì)算義原的相似度,即
其中P1,和P2表示兩個(gè)義原,d表示兩個(gè)義原在義原樹上的距離,α為一個(gè)可調(diào)節(jié)的參數(shù)。
參照《知網(wǎng)》對(duì)實(shí)詞義原的分析及分類,可以把實(shí)詞的義原分為四類:第一獨(dú)立義原描述式,將兩個(gè)義項(xiàng)的這一部分的相似度記為 Sim1(P1,P2);其他獨(dú)立義原描述式,將兩個(gè)義項(xiàng)的這一部分的相似度記為Sim2(P1,P2);關(guān)系義原描述式,將兩個(gè)義項(xiàng)的這一部分的相似度記為Sim3(P1,P2);符號(hào)義原描述式,將兩個(gè)義項(xiàng)的這一部分的相似度記為Sim4(P1,P2)。
于是,兩個(gè)概念語義表達(dá)式的整體相似度記為
其中βi是可調(diào)節(jié)參數(shù)(1≤i≤4),且β1+β2+β3+β4=1,由于第一獨(dú)立義原反映了整個(gè)義項(xiàng)的主特征,所以第一獨(dú)立義原的系數(shù)β1一般大于等于0.5。
1.2 改進(jìn)的詞語相似度算法
筆者認(rèn)為,第一獨(dú)立義原是對(duì)義項(xiàng)做了基礎(chǔ)的解釋,其表述該義項(xiàng)[9]所屬的范疇,但是并不能闡述出義項(xiàng)的特征。隨著對(duì)義項(xiàng)解釋的不斷深入,第一獨(dú)立義原對(duì)整個(gè)義項(xiàng)的影響越來越低,并且與義原樹的根結(jié)點(diǎn)的距離都比較近。因此,給四類義原分配固定的系數(shù)是不合適的。例如對(duì)“教師”的描述:
DEF=human|人,#occupation|職位,*teach|教,education|教育
由上述DEF可知,首先,教師是屬于“人”的范疇,并且與“職位”相關(guān),是給其他同屬于“人”這個(gè)范疇的對(duì)象實(shí)施“教”的,最后還和“教育”有關(guān)。隨著解釋的慢慢深入,把教師這個(gè)詞語的特征慢慢的表露出來。與第一獨(dú)立義原相比,后面三個(gè)義原就成為“教師”區(qū)別于其他同屬“人”這個(gè)范疇的關(guān)鍵性因素。如果此時(shí)還是給予第一獨(dú)立義原最大系數(shù)的話,那么后面“#occupation|職位,*teach|教,education|教育”這三個(gè)義原所屬的義原類就不能獲得較大的系數(shù),使得這些能突顯教師特征的義原類的相似度值很小,使得教師與其他“人”這個(gè)范疇的實(shí)體無法區(qū)分開來。另一方面,《知網(wǎng)》要求第一獨(dú)立義原能夠最大的體現(xiàn)出這個(gè)義項(xiàng)的含義,但是有些往往與人們的主觀意識(shí)不相符,比如“鉆石”的描述:
DEF=material|材料,?tool|用具,#decorate|裝飾,precious|珍
鉆石給人的第一印象就是一種珍貴的飾品,但是《知網(wǎng)》給出的第一獨(dú)立義原卻是“材料”,和人們平常的認(rèn)知有很大的出處,反而“precious|珍”更加的符合人們平常的認(rèn)知。
去除義原之間的約束,改進(jìn)的義項(xiàng)相似度計(jì)算公式為
其中βi={0.4,0.3,0.2,0.1},每類義原系數(shù)βi的值是根據(jù)兩個(gè)義項(xiàng)每類義原個(gè)數(shù)總和占四類義原比值,然后根據(jù)比值從高到低的排序從βi={0.4,0.3,0.2,0.1}中獲取相對(duì)應(yīng)的值。對(duì)于一些特殊情況做出如下規(guī)定:如果四類義原占比一樣,那么默認(rèn)給予第一獨(dú)立義原最大系數(shù)值,其他三類義原隨機(jī)獲??;如果出現(xiàn)某一個(gè)義項(xiàng)某類義原沒有,那么當(dāng)其他類義原獲取完系數(shù)后,把最后那個(gè)系數(shù)平均到其他三類義原系數(shù)上;如果只有第一類獨(dú)立義原那么系數(shù)βi的值就為1。
2.1 擴(kuò)充詞匯鏈的構(gòu)建
文中詞匯鏈的構(gòu)建方法是在文獻(xiàn)[7]的基礎(chǔ)上進(jìn)行了擴(kuò)充。原方法中只提取了名詞作為備選關(guān)鍵詞,筆者覺得不太合理,因?yàn)橛行┰~語既是名詞也是動(dòng)詞,在很多文本內(nèi)容中充當(dāng)著關(guān)鍵詞的角色,所以文中采用名詞和動(dòng)詞作為關(guān)鍵詞的備選關(guān)鍵詞。
詞匯鏈構(gòu)建的具體方法是:從備選關(guān)鍵詞中,選出一個(gè)詞,建立一個(gè)詞匯鏈,然后從集合中提取出一個(gè)詞與詞匯鏈中每個(gè)詞作對(duì)比,相似度大于或等于閾值就插入到詞匯鏈中,小于閾值的就以該詞語新建一條詞匯鏈,往復(fù)循環(huán),直到集合中的詞語插入完為止。
2.2 文本關(guān)鍵詞選擇方法
文章不同的區(qū)域具有不同的功能,某些區(qū)域的詞語具有特殊的價(jià)值,是選擇關(guān)鍵詞的重要區(qū)域。文獻(xiàn)[7]提出如下關(guān)鍵詞選擇方法
其中,weighti表示第i個(gè)詞語的權(quán)值;frei表示第i個(gè)詞語的詞頻因子;loci表示第i個(gè)詞語的區(qū)域因子,一般地,當(dāng)詞語i出現(xiàn)在標(biāo)題中時(shí),loci=5,否則loci=1;|chaini|表示第i個(gè)詞語所在詞匯鏈的詞匯數(shù)目(詞匯鏈長度);|headi|表示第i個(gè)詞語所在詞匯鏈中包含標(biāo)題詞的數(shù)目。a、b、c是frei、loci、|chaini|之間的調(diào)節(jié)因子,一般為1。
根據(jù)公式(5)計(jì)算出每個(gè)詞語的權(quán)重,按照遞減排序,最后從詞匯鏈中依次選取關(guān)鍵詞匯,直至關(guān)鍵詞匯的數(shù)目達(dá)到要求為止。
2.3 改進(jìn)的文本關(guān)鍵詞選擇方法
一篇文章中每個(gè)區(qū)域都有自己的職能,比如摘要是對(duì)文章的精煉,關(guān)鍵詞表達(dá)文章的主題,結(jié)論是對(duì)文章的總結(jié)。文獻(xiàn)[10]統(tǒng)計(jì)表明從標(biāo)題和摘要中提取關(guān)鍵詞,則可達(dá)到人工標(biāo)引的74.68%,所以該文關(guān)鍵詞提取方法中每個(gè)詞語的權(quán)重更傾向于通過累加詞匯鏈中那些存在于標(biāo)題、關(guān)鍵詞、摘要、結(jié)論中的詞語的個(gè)數(shù)與自身權(quán)重的積得到。在處理詞匯鏈長度時(shí),只獲取出現(xiàn)在特征區(qū)域詞語的數(shù)目,忽略那些非特征區(qū)域的詞語,因此,提出了有效權(quán)重,有效權(quán)重就是為了防止詞匯鏈中沒有特征區(qū)域的詞語,但是通過加上詞匯鏈的長度,增加了自身的權(quán)重,對(duì)最后的關(guān)鍵詞提取造成偏差,所以文中的方法會(huì)對(duì)標(biāo)題、摘要、關(guān)鍵詞、結(jié)論這四處區(qū)域的詞語增加它們的權(quán)重,如公式
weighti=frei+loci+0.4×(|headi|×5+(|abstracti|+|keywordi|+|conclusioni|)×3)+|effectiveChaini| (6)其中,weighti表示第i個(gè)詞語的權(quán)重,frei表示詞語i的頻率;loci表示的是位置權(quán)重,一般地,在標(biāo)題處loci=5,在摘要、關(guān)鍵詞、結(jié)論處loci=3,其他處則為1;headi、abstracti、keywordi、conclusioni分別表示詞語i所在詞匯鏈中出現(xiàn)在標(biāo)題、摘要、關(guān)鍵詞和結(jié)論處的個(gè)數(shù);0.4是構(gòu)建詞匯鏈時(shí)的閾值;|headi|×5+(|abstracti|+ |keywordi|+|conclusioni|)×3表示詞語i所在的詞匯鏈中出現(xiàn)在標(biāo)題、摘要、關(guān)鍵詞、結(jié)論處詞語的個(gè)數(shù)與其權(quán)重積的和。|effectiveChaini|為有效權(quán)重,是該詞匯鏈包含標(biāo)題、摘要、關(guān)鍵詞、結(jié)論處詞語的個(gè)數(shù)。根據(jù)公式(6)計(jì)算出每個(gè)詞語的權(quán)重,然后按照遞減排序。從詞匯鏈中選取詞匯,直到達(dá)到要求的關(guān)鍵詞個(gè)數(shù)為止。
3.1 詞語相似度改進(jìn)算法的結(jié)果與分析
因?yàn)槲墨I(xiàn)[7]采用的就是文獻(xiàn)[11]的詞語相似度算法,為了便于對(duì)比結(jié)果,所以直接從文獻(xiàn)[11]選取一些實(shí)驗(yàn)結(jié)果,第三列為文獻(xiàn)[11]中的實(shí)驗(yàn)結(jié)果,第四列為公式(4)的實(shí)驗(yàn)結(jié)果。其對(duì)比結(jié)果見表1。
表1 文獻(xiàn)[11]與公式(4)詞語相似度對(duì)比結(jié)果
男人的描述:DEF=human|人,family|家,male|男
母親的描述:DEF=human|人,family|家,female|女
從“男人”和“母親”的描述可以看出,這兩個(gè)詞語的唯一區(qū)別來自于第二類義原中的“male|男”和“female|女”,由于它們的第一獨(dú)立義原相同,根據(jù)文獻(xiàn)[7]的算法,第一類義原具有最大系數(shù)而且還約束其他義原,這就造成了相似度值相當(dāng)?shù)母?,達(dá)到了0.833,與實(shí)際不符。
深紅的描述:DEF=atribute|屬性,color|顏色,red|紅,&physical|物質(zhì)
粉紅的描述:DEF=aValue|屬性值,color|顏色,red|紅
從第七行結(jié)果看出根據(jù)文獻(xiàn)[7]中方法“深紅”和“粉紅”相似度很小。因?yàn)檫@兩個(gè)詞語的第一類獨(dú)立義原完全不相同,造成第一類獨(dú)立義原相似度很低,而且還讓第一類義原約束其他類義原,這就是造成這兩個(gè)詞相似度低的原因。反觀根據(jù)文中算法得到的結(jié)果0.466,因?yàn)槭歉鶕?jù)每類義原在兩個(gè)詞語中占得比例來分配系數(shù)的值,也不讓第一類義原去約束其他義原,所以文中的詞語相似度算法更符合實(shí)際。第十二行中的詞語“走”和“跑”每個(gè)義項(xiàng)都只有第一類獨(dú)立義原,因此,第一獨(dú)立義原就能充分說明該義項(xiàng)的特征。由于沒有其他類義原,那么再給予其他類義原系數(shù)就沒有意義。文獻(xiàn)[7]的方法缺少對(duì)只有第一類獨(dú)立義原的考慮,結(jié)果為0.222,與實(shí)際不太相符。文中方法得到的結(jié)果0.444,相較于文獻(xiàn)[7]方法的結(jié)果提高了一倍,因此,用對(duì)比的兩個(gè)詞語每類義原個(gè)數(shù)的和與四類義原個(gè)數(shù)的總和的比值替代固定系數(shù),結(jié)果更加貼近實(shí)際。
3.2 改進(jìn)的文本關(guān)鍵詞提取方法的結(jié)果與分析
以《體育科學(xué)》中一篇名為《廣東省高校高級(jí)知識(shí)分子體育參與特征研究》為例。分詞工具使用的是中科院計(jì)算機(jī)研究所的ICTCLAS,該分詞系統(tǒng)具有中文分詞、詞性標(biāo)注等功能。
對(duì)文章分詞后,動(dòng)詞和名詞總共352個(gè),為降低計(jì)算時(shí)的復(fù)雜度以及提高計(jì)算的速率,以1∶2的比例挑選出現(xiàn)頻率最高的前20個(gè)詞語作為候選詞進(jìn)一步處理。先根據(jù)文獻(xiàn)[11]中的公式(3),閾值設(shè)置為0.3得到的詞匯鏈,再根據(jù)公式(5)提取的關(guān)鍵詞為:體育、知識(shí)分子、活動(dòng)、高校、年齡、選擇、研究、特征、消費(fèi)、人口。
根據(jù)文中的詞語相似度算法公式(4),閾值設(shè)置為0.4,構(gòu)建詞匯鏈,再根據(jù)公式(6)提取的關(guān)鍵詞為:體育、知識(shí)分子、活動(dòng)、年齡、高校、選擇、研究、進(jìn)行、特征、參與。具體結(jié)果見表2。
表2 提取的關(guān)鍵詞的頻率與權(quán)重
從文章的題目可以得出該篇文章講的是對(duì)廣東省高校的高級(jí)知識(shí)分子參與體育活動(dòng)特征的研究,從文獻(xiàn)[7]算法提取出來的關(guān)鍵詞中,只能得到:高校、知識(shí)分子、體育活動(dòng)、特征、研究。但是從文中改進(jìn)的算法中可以得到:高校、知識(shí)分子、參與、體育、活動(dòng)、特征、研究,明顯與標(biāo)題的語義關(guān)系更加貼近。再看通過文中方法提取關(guān)鍵詞結(jié)果的最后一行,“參與”為關(guān)鍵詞但是其詞語的頻率只為9,文中方法把詞頻低但卻是關(guān)鍵詞的詞語提取出來,較原文的方法好了很多。
按照上述過程,從復(fù)旦大學(xué)語料庫提取經(jīng)濟(jì)、教育、體育、環(huán)境、科技各20篇文獻(xiàn),從每類中選取10篇作為訓(xùn)練集,用來確定構(gòu)建詞匯鏈時(shí)的閾值s。把s設(shè)置為0.3、0.4、0.5、0.6、0.7分別統(tǒng)計(jì)獲得的詞匯鏈數(shù)目,再根據(jù)關(guān)鍵詞提取的召回率,確定最佳的相似度閾值為0.4。
為了驗(yàn)證文中算法的有效性,將剩下的經(jīng)濟(jì)、教育、體育、環(huán)境、科技50篇文獻(xiàn)按照方法2.2與方法2.3進(jìn)行對(duì)比實(shí)驗(yàn)。利用準(zhǔn)確率和召回率來評(píng)定自動(dòng)提取關(guān)鍵詞的結(jié)果,公式為
表3列出了文獻(xiàn)[7]的詞匯鏈提取關(guān)鍵詞算法和文中改進(jìn)的詞匯鏈提取關(guān)鍵詞算法的結(jié)果對(duì)比。
表3 關(guān)鍵詞提取結(jié)果對(duì)比
從表3中可以看出,文中改進(jìn)的算法較文獻(xiàn)[7]中的算法在召回率上有9%提升,在準(zhǔn)確率上有10.7%的提升。進(jìn)一步,通過對(duì)文獻(xiàn)的分析,發(fā)現(xiàn)基于擴(kuò)充詞匯鏈改進(jìn)的關(guān)鍵詞提取算法存在的問題有以下幾個(gè)方面:分詞方面受到分詞系統(tǒng)ICTCLAS影響較大,ICTCLAS把“中美”切分成“中/b”、“美/b”,顯然拆分后的詞語不是關(guān)鍵詞,但是手動(dòng)標(biāo)引“中美”卻是關(guān)鍵詞。這個(gè)問題在所有利用分詞系統(tǒng)的方法中都會(huì)存在,因此,要解決此問題,必須提高分詞系統(tǒng)的新詞與未登錄詞的識(shí)別能力。
詞語相似度的閾值設(shè)置對(duì)詞匯鏈的構(gòu)建影響較大。構(gòu)建詞匯鏈時(shí)的主要依據(jù)還是閾值,閾值大了,詞匯鏈過多,每條詞匯鏈中的詞數(shù)會(huì)很少;閾值小了,詞匯鏈過少,每條詞匯鏈的詞數(shù)會(huì)過多。因此,定義閾值的大小顯得尤為重要,解決的辦法就是自定義一個(gè)或者根據(jù)訓(xùn)練集獲取一個(gè)。
文中提出的基于擴(kuò)充詞匯鏈改進(jìn)的關(guān)鍵詞提取方法,每類義原系數(shù)βi的值是兩個(gè)義項(xiàng)每類義原個(gè)數(shù)總和占四類義原比值,然后根據(jù)比值從高到低的排序從系數(shù)集合中獲取相對(duì)應(yīng)的值。
但是在計(jì)算詞語相似度時(shí),只考慮了上下位關(guān)系,在提取關(guān)鍵詞時(shí),先依據(jù)詞頻選取詞語,構(gòu)建關(guān)鍵詞備選集合,這會(huì)忽略某些頻率低,但卻是關(guān)鍵詞的一些詞語。在后續(xù)研究工作中筆者將研究同義關(guān)系以及反義關(guān)系,提高詞語相似度計(jì)算的準(zhǔn)確率,在構(gòu)建詞匯鏈時(shí),使詞匯鏈的數(shù)目以及每條鏈中詞數(shù)達(dá)到較好的標(biāo)準(zhǔn),再結(jié)合網(wǎng)絡(luò)節(jié)點(diǎn)中心度理論,提取出那些詞頻低卻是關(guān)鍵詞的詞語。
[1]王立霞,淮曉永.基于語義的中文文本關(guān)鍵詞提取算法[J].計(jì)算機(jī)工程,2012,38(1):1-4.
[2]WITTEN I H,PAYNTEER G W,F(xiàn)RANK E,et al.KEA:Practical automatic keyphrase extraction[C]//The 4thACM Conference on Digital Libraries California,USA:ACM Press,1999:254-256.
[3]TURNEY P D.Learning algorithms for keyphrase extraction[J].Information Retrieval,2000,2(2):303-336.
[4]李素建,王厚峰,俞士汶,等.關(guān)鍵詞自動(dòng)標(biāo)引的最大熵模型應(yīng)用研究[J].計(jì)算機(jī)學(xué)報(bào),2004,27(9):1192-1197.
[5]張建娥.基于TFIDF和詞語關(guān)聯(lián)度的中文關(guān)鍵詞提取方法[J].情報(bào)科學(xué),2012,30(10):1542-1545.
[6]姜芳,李國和,岳翔.基于語義的文檔關(guān)鍵詞提取方法[J].計(jì)算機(jī)應(yīng)用研究,2015,32(1):142-145.
[7]索紅光,劉玉樹.一種基于詞匯鏈的關(guān)鍵詞抽取方法[J].中文信息學(xué)報(bào),2006,20(6):25-30.
[8]王良芳.文本挖掘關(guān)鍵詞提取算法的研究[D].杭州:浙江工業(yè)大學(xué),2013.
[9]楊林.基于文本的關(guān)鍵詞提取方法研究與實(shí)現(xiàn)[D].馬鞍山:安徽工業(yè)大學(xué),2013.
[10]劉開瑛,薛翠芳,鄭家恒,等.中文文本中抽取特征信息的區(qū)域與技術(shù)[J].中文信息學(xué)報(bào),1998,12(2):1-7.
[11]劉群,李素建.基于《知網(wǎng)》的詞匯語義相似度計(jì)算[C]//第三屆漢語詞匯語義學(xué)研討會(huì)論文集.臺(tái)北:[s.n.],2002:59-76.
An improved keyword extraction algorithm based on extended lexical chains
WANG Xiaolin,ZHU Lei,TAI Weipeng
(School of Computer Science&Technology,Anhui University of Technology,Ma’anshan 243032,China)
Keyword extraction plays an important role in the text classification,text clustering and information retrieval.In calculating word similarity,the conventional keyword extraction method based on lexical chains gave the first class independent sememe coefficient the maximum value and restrained the other three sememe similarity through the first independent sememe similarity.In extracting keywords through the regional characteristics and word frequency,it could not take advantage of regional characteristics because of the over-reliance of word weight on lexical chain length.In order to improve the accuracy of keyword extraction,in calculating word similarity,we obtained the coefficients dynamically based on the ratio sorted from the largest to the smallest of the sums of the number of each sememe category of the two words to the sums of four categories of sememes instead of fixed coefficients.And we also removed the restraint of each sememe from the primitive types.In extracting keywords,we replaced the length of lexical chains with their effective weight.Experimental results show that this algorithm has improved the accuracy.
keyword extraction;regional characteristics;word similarity;effective weight;lexical chain;sememe
責(zé)任編輯:艾淑艷
TP368.1
:A
:2096-3289(2017)02-0049-06
2015-06-27
國家自然科學(xué)基金資助項(xiàng)目(61402009)
王小林(1964-),男,安徽安慶人,教授,碩士生導(dǎo)師,研究方向:人工智能,中文信息處理。