国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于詞序統(tǒng)計(jì)組合的中文文本關(guān)鍵詞提取技術(shù)

2015-12-23 01:02:56蘇祥坤吾守爾斯拉木買買提依明哈斯木
關(guān)鍵詞:詞序詞頻權(quán)重

蘇祥坤,吾守爾·斯拉木,買買提依明·哈斯木,2

(1.新疆大學(xué) 信息科學(xué)與工程學(xué)院 新疆多語種信息技術(shù)實(shí)驗(yàn)室,新疆 烏魯木齊830046;2.和田師范??茖W(xué)校 計(jì)算機(jī)科學(xué)系,新疆 和田848000)

0 引 言

文本挖掘是數(shù)據(jù)挖掘領(lǐng)域的一個(gè)重要表現(xiàn),關(guān)鍵詞提取則是文本挖掘的重要手段和文本主題的體現(xiàn),幫助用戶從繁重的文本信息選取工作中解脫出來。單文本關(guān)鍵詞提取是指針對(duì)單一的文本進(jìn)行主要信息的提取工作,關(guān)鍵詞是為了文獻(xiàn)標(biāo)引工作而從報(bào)告、論文中選取出來以表示全文主題內(nèi)容信息款目的單詞和術(shù)語。然而當(dāng)前人們每天使用的大多數(shù)互聯(lián)網(wǎng)網(wǎng)頁中并沒有提供其關(guān)鍵詞的標(biāo)引。這使得人們?cè)跒g覽網(wǎng)頁時(shí),憑借網(wǎng)頁標(biāo)題和檢索結(jié)果很容易忽略一些對(duì)自己需求有價(jià)值的信息。本文針對(duì)此問題提出了一種基于詞序統(tǒng)計(jì)組合關(guān)鍵詞提取方法。本文通過統(tǒng)計(jì)詞序,組合生成組合詞,以此選取包括詞性特征、詞序特征、位置特征、詞頻特征、詞長(zhǎng)特征、詞跨度特征、TFIDF等在內(nèi)的多種特征進(jìn)行綜合評(píng)定候選關(guān)鍵詞的權(quán)重大小。該方法能夠高效提取表征文本主要信息的關(guān)鍵詞,其準(zhǔn)確率可達(dá)到70%以上,方便普通用戶和各領(lǐng)域、專業(yè)人員的使用。另外,由于日益增加的新詞、分詞系統(tǒng)的錯(cuò)誤劃分,可能將這些新詞進(jìn)行拆分并偏離原意。對(duì)一些高頻的未登錄的新詞,本文提出的方法在一定程度上具有很大的反饋?zhàn)饔谩?/p>

1 相關(guān)工作

目前,國內(nèi)外各學(xué)者已經(jīng)對(duì)關(guān)鍵詞提取進(jìn)行了大量的研究和實(shí)驗(yàn)。較常用的關(guān)鍵詞提取方法大致可以分為基于語義的方法、基于統(tǒng)計(jì)的方法和基于機(jī)器學(xué)習(xí)的方法三大類。

常用的基于語義的方法多是建立在分析詞語詞義,繼而構(gòu)造語義有向圖等。如:方俊等[1]提出的基于語義的關(guān)鍵詞提取算法,通過消歧算法得到候選詞,繼而提取出關(guān)鍵詞。謝鳳宏等[2]提出的基于加權(quán)復(fù)雜網(wǎng)絡(luò)的文本關(guān)鍵詞提取,通過構(gòu)建復(fù)雜的語義網(wǎng)絡(luò)拓?fù)鋱D來進(jìn)行關(guān)鍵詞的權(quán)重計(jì)算,并繼而提取出關(guān)鍵詞。胡學(xué)鋼等[3]提出的基于詞匯鏈的關(guān)鍵詞提取方法。此外還有張穎穎等[4]提出的基于同義詞的方法等等。

常用的統(tǒng)計(jì)方法多以TFIDF算法為基礎(chǔ)進(jìn)行關(guān)鍵詞權(quán)重計(jì)算并進(jìn)行關(guān)鍵詞提取實(shí)驗(yàn)的。如張建娥[5]提出的基于TFIDF 和詞語關(guān)聯(lián)度的中文關(guān)鍵詞提取方法2、李靜月[6]提出的對(duì)TFIDF 公式進(jìn)行改進(jìn)的網(wǎng)頁關(guān)鍵詞提取方法等等。

而常用的機(jī)器學(xué)習(xí)方法則是建立在大量的語料庫基礎(chǔ)上,并進(jìn)行大量的參數(shù)訓(xùn)練,多用SVM 模型和貝葉斯模型等進(jìn)行關(guān)鍵詞的計(jì)算和提取。如:羅準(zhǔn)辰[7]設(shè)計(jì)的基于分離模型的中文關(guān)鍵詞提取算法,對(duì)單獨(dú)的關(guān)鍵詞提取和串提取有不錯(cuò)的效果;王錦波[8]等提出的基于樸素貝葉斯模型的中文關(guān)鍵詞提取方法等。

2 本文方法

本文采用的是已有的中科院分詞系統(tǒng)進(jìn)行分詞和詞性標(biāo)注。在分詞的過程中,人工調(diào)整程序,每一個(gè)分詞和詞性標(biāo)注后的詞語進(jìn)行詞語在文章中的詞序的統(tǒng)計(jì)。本文實(shí)驗(yàn)是以網(wǎng)頁單文本為語料實(shí)驗(yàn)對(duì)象進(jìn)行實(shí)驗(yàn)的,所以本文初步對(duì)文本進(jìn)行預(yù)處理之后,再進(jìn)行分詞切詞、詞性標(biāo)注、詞序統(tǒng)計(jì)、停用詞過濾、組合詞生成、詞頻統(tǒng)計(jì)、二次過濾、權(quán)重計(jì)算、子串過濾和提取關(guān)鍵詞等步驟。其系統(tǒng)框架流程如圖1所示。

圖1 系統(tǒng)框架流程

2.1 文本預(yù)處理

通過閱讀及研究發(fā)現(xiàn),文本的標(biāo)題和首句往往對(duì)文本主旨有很大的標(biāo)引作用,所以預(yù)處理階段主要是提取文本的標(biāo)題和首句。其文本標(biāo)題和正文的規(guī)律,具體可參見文獻(xiàn) [9]。

對(duì)于文本首句的提取,在研究斷句的時(shí)候,發(fā)現(xiàn)從標(biāo)點(diǎn)符號(hào)的用法上可以進(jìn)行首句的提取。中文文本中,標(biāo)志句子的標(biāo)點(diǎn)有句號(hào)、問號(hào)、嘆號(hào)、省略號(hào)等。所以只要在句末找到這類符號(hào),就可以裁定、提取出相應(yīng)句子。

2.2 組合詞生成

研究發(fā)現(xiàn),現(xiàn)有分詞系統(tǒng)并不能全面的、完整的考慮到文本中的詞的關(guān)系,所以有些可以作為關(guān)鍵詞的詞組往往被拆分成單個(gè)的詞,而有時(shí)候詞組比單個(gè)詞更具有作為文章關(guān)鍵詞的作用來反映文章主旨。如計(jì)算機(jī)領(lǐng)域里的“數(shù)據(jù)挖掘”這個(gè)詞組,分詞之后會(huì)拆分成 “數(shù)據(jù)”和 “挖掘”,而單獨(dú)的 “數(shù)據(jù)”和 “挖掘”并沒有 “數(shù)據(jù)挖掘”一詞更能表達(dá)文章意思、主旨。

類似的詞語有很多,它們大多在文中被拆分的時(shí)候詞頻較大且左右相鄰,拆分后其詞與其它詞語搭配很少或不搭配。所以本文利用其在文中的詞序位置和詞性關(guān)系對(duì)其進(jìn)行了組合。在很大程度上避免了類似過濾缺點(diǎn)的發(fā)生。其中詞性的組合規(guī)則本文參照了張紅鷹[9]提出的詞性組合規(guī)則。有的研究人員采用構(gòu)建有向圖[10]的方法進(jìn)行組合詞的生成,但這樣無疑是增加了計(jì)算量和實(shí)現(xiàn)難度。還有先計(jì)算權(quán)重后進(jìn)行組合的方法[9],但這樣容易在過濾和計(jì)算權(quán)重階段造成權(quán)重的計(jì)算偏差,繼而造成組合的偏差。還有羅準(zhǔn)辰[7]基于分離模型的提取詞串的方法,具有很高的準(zhǔn)確率,但需運(yùn)用大型統(tǒng)計(jì)詞典,這在處理大型批量數(shù)據(jù)計(jì)算量方面稍顯局限。

綜合分析后,根據(jù)主客觀需要,本文設(shè)計(jì)了如下算法,描述如下:

輸入:待提取關(guān)鍵詞的文本T,需提取的關(guān)鍵詞個(gè)數(shù)m

輸出:提取的m 個(gè)文本關(guān)鍵詞或詞組

步驟1 對(duì)原始文本進(jìn)行預(yù)處理,包括分詞切詞、詞性標(biāo)注、詞序統(tǒng)計(jì)及停用詞過濾;

步驟2 對(duì)步驟2得到的結(jié)果進(jìn)行詞語和詞組的詞頻統(tǒng)計(jì),過濾掉詞頻大?。?的詞語;

步驟3 逐個(gè)詞語掃描,對(duì)步驟2得到的結(jié)果進(jìn)行詞語組合:前者詞語A 和后者詞語B 詞序之差=1且符合合并規(guī)則的進(jìn)行相鄰合并,設(shè)置新組合詞的詞序?yàn)楹笳咴~語B的詞序值,并記錄被覆蓋的詞語;組合詞作為正常詞語進(jìn)行新的組合并標(biāo)記出新的詞性,直到所有詞語掃描完畢;

步驟4 過濾組合詞詞長(zhǎng)<2或組合詞詞長(zhǎng)>6的詞語,剩下的詞語作為候選詞語;

步驟5 對(duì)候選詞語計(jì)算權(quán)重并降序排列候選詞,進(jìn)行子串過濾,輸出排列前m 個(gè)權(quán)值較大的詞語作為最終關(guān)鍵詞。

2.3 二次過濾

通過研究發(fā)現(xiàn),可作為一篇文章的關(guān)鍵詞的詞語在文章中出現(xiàn)的頻率往往在1詞以上,所以那些只出現(xiàn)一次的詞語就可以排除作為關(guān)鍵詞的可能而進(jìn)行過濾。

另外,可作為關(guān)鍵詞的詞長(zhǎng)一般最多包含6 個(gè)漢字,所以詞長(zhǎng)大于6個(gè)詞的就同樣可以排除作為關(guān)鍵詞的可能而進(jìn)行過濾。另外,作為關(guān)鍵詞的詞語多是名詞、動(dòng)詞、名詞類詞組或動(dòng)詞類詞組,所以其它詞性的詞語或詞組如:虛詞、介詞、助詞等,同樣也可以排除作為關(guān)鍵詞的可能而進(jìn)行過濾。

經(jīng)過兩次過濾之后,剩下的詞語作為候選詞進(jìn)行權(quán)重計(jì)算,其準(zhǔn)確率大大提高,時(shí)間和空間都會(huì)得到大大的改善。

2.4 權(quán)重計(jì)算

如果處理的是同一領(lǐng)域的文本,那么TFIDF會(huì)把那些在各個(gè)文本中都出現(xiàn)的高頻詞或關(guān)鍵詞給過濾掉。如:處理屬于科技類的一系列文本,由于 “信息檢索”可能出現(xiàn)在所有文本中,所以當(dāng)計(jì)算log(n/DF(x))時(shí),結(jié)果會(huì)為0,因此可能會(huì)過濾掉這樣的重要關(guān)鍵詞。而單獨(dú)的只考慮其它特征又會(huì)容易忽略某一詞在不同文本的區(qū)分性和單文本的代表性。

所以本文同時(shí)采取TFIDF 和其它特征進(jìn)行綜合加權(quán),計(jì)算候選關(guān)鍵詞的權(quán)重,并以此來提取關(guān)鍵詞。

2.4.1 詞頻加權(quán)

詞頻是一個(gè)詞語在文章中出現(xiàn)的總次數(shù)。研究發(fā)現(xiàn),如果一個(gè)詞語在文章中出現(xiàn)的頻率越高,說明這個(gè)詞語對(duì)文章主旨反映的貢獻(xiàn)也就越大,所以本文對(duì)詞語詞頻的加權(quán)計(jì)算公式是

式中:Cpin_weight——詞頻的權(quán)重,n_pinlv——該詞在文章中出現(xiàn)的總次數(shù)。Cpin_weight隨著詞頻的增加而逐漸上升,且逐漸向1收斂。也就是說詞語出現(xiàn)的頻率越高,該詞作為關(guān)鍵詞的可能性也就越大。但增長(zhǎng)又非線性的,即便詞頻過高,也會(huì)基本趨于穩(wěn)定,更符合實(shí)際權(quán)重計(jì)算的需要。

2.4.2 詞性加權(quán)

研究發(fā)現(xiàn),對(duì)于一篇文章而言,反映文本主旨的,可以作為關(guān)鍵詞的多是名詞類和動(dòng)詞類的詞語等等。所以詞語Ci詞性的權(quán)重公式如下所示

2.4.3 標(biāo)題、首句和首末段加權(quán)

研究發(fā)現(xiàn),一篇文章的標(biāo)題的命名好壞、準(zhǔn)確與否直接影響了文章的主旨反映和讀者的興趣。更有甚者,一篇文章的標(biāo)題往往是一篇文章主旨的濃縮,甚至是核心內(nèi)容,所以出現(xiàn)在文章標(biāo)題里的詞語也往往對(duì)與關(guān)鍵詞提取具有重要的貢獻(xiàn)。

文章首句則常是文章話題、主題或是文章所要議論的引發(fā)、提示,所以首句中的詞語對(duì)關(guān)鍵詞的提取貢獻(xiàn)也同樣不容忽視。

另外,一篇文章的第一段往往是全文的初步概括,承載著全文的主旨,所以對(duì)出現(xiàn)在第一段中的詞也需要增設(shè)權(quán)重。末段往往是對(duì)全文的概括和總結(jié),所以也納入了考慮范圍。

出現(xiàn)在其它段的詞不再額外增設(shè)權(quán)重值。其各權(quán)重設(shè)置見表1。

表1 權(quán)重設(shè)置

2.4.4 詞長(zhǎng)加權(quán)

研究發(fā)現(xiàn),一個(gè)詞語的長(zhǎng)度越長(zhǎng),則包含的信息量也就越豐富,更加能起到表達(dá)文章主旨的作用,成為關(guān)鍵詞的可能性也就越大。其計(jì)算公式如下所示

式中:Cchang_weight——詞長(zhǎng)的權(quán)重,C_length 是詞的長(zhǎng)度。

2.4.5 詞跨度加權(quán)

研究發(fā)現(xiàn),詞語在正文中首次出現(xiàn)和末次出現(xiàn)的跨度越大,則詞在貫穿全文和表達(dá)文章主旨的作用上也就越重要,可以在一定程度上做為關(guān)鍵詞提取的考慮因素。計(jì)算公式如下所示

式中:Ckua_weight——詞跨度的權(quán)重,Clast——詞最后出現(xiàn)在文章中的詞序,Cfirst——詞首次出現(xiàn)在文章中的詞序,Ctotal——文章中的最后一個(gè)詞的詞序。

2.4.6 TFIDF權(quán)重計(jì)算

TFIDF是一種常用的經(jīng)典的統(tǒng)計(jì)方法,詞語X 在文本P中出現(xiàn)的頻率越高,同時(shí)在其它文本中出現(xiàn)的頻率越低,則X 對(duì)P的貢獻(xiàn)也就越大,其公式為TFIDF=TF*IDF,其中,TF表示詞頻 (term frequency),IDF 表示逆向文件頻率 (inverse document frequency)TF 表示詞條在文本中出現(xiàn)的頻率。

但如果關(guān)鍵詞在所有文本中都出現(xiàn),log(n/DF(x))=0。那么只用TFIDF 方法是提取不出來該詞的。如果采用依據(jù)詞庫的方法進(jìn)行提取,其詞庫的建立完善與否直接關(guān)系到提取的準(zhǔn)確性,而且需要大量的比較和計(jì)算,這在進(jìn)行大數(shù)據(jù)操作時(shí)具有很大的局限性,所以本文只把TFIDF作為一個(gè)重要加權(quán)特征進(jìn)行考慮。

2.4.7 最終權(quán)重計(jì)算

綜合以上分析,最終權(quán)重計(jì)算公式為

式中:Last_weight——候選詞的最終權(quán)重,a,b,c,d,e,f,g,h,i均為各個(gè)特征權(quán)重的比例因子,可以用來調(diào)整不同特征權(quán)重在最終權(quán)重的貢獻(xiàn)度大小。將最終權(quán)重值按大小降序排列,得到前N 個(gè)詞作為候選關(guān)鍵詞。各種屬性的系數(shù)影響因子賦值參考文獻(xiàn) [9]如下所示:a=1.5,b=1.1,c=1.0,d=1.0,e=1.0,f=1.0,g=1.0,h=1.0,i=1.0。

2.5 子串過濾

對(duì)最終候選詞排序的時(shí)候,有的詞可能會(huì)是另一個(gè)詞的子串,而子串往往沒有父串的語義信息豐富,作為關(guān)鍵詞的可能性小,如果子串、父串都進(jìn)行提取可能會(huì)造成信息的重復(fù)提取,進(jìn)而影響結(jié)果的準(zhǔn)確度。如: “信息檢索”一詞是“信息”和 “檢索”的父串,所以遇見類似的情況的時(shí)候,只提取父串“信息檢索”即可。但如果只單純的考慮包含關(guān)系的過濾和利用分詞的最小詞頻進(jìn)行過濾[9]可能會(huì)造成重要語義的過濾。如一篇關(guān)于計(jì)算機(jī)的文章,文章中多次出現(xiàn)“計(jì)算機(jī)應(yīng)用”,“計(jì)算機(jī)發(fā)展”,“計(jì)算機(jī)科學(xué)”等詞語,但對(duì)于這篇文章來說,文章主旨和語義指向應(yīng)該是 “計(jì)算機(jī)”,即計(jì)算機(jī)比計(jì)算機(jī)應(yīng)用更加具有關(guān)鍵詞代表性。

那么,如果只單純的考慮包含關(guān)系的過濾,就會(huì)過濾掉 “計(jì)算機(jī)”這個(gè)詞,那么就會(huì)造成提取詞語語義的局限性,只提取了局部語義。而如果只考慮子串權(quán)重大于父串權(quán)重就全部提取,又會(huì)造成上述類似 “信息檢索”和 “信息”“檢索”的重復(fù)提取,容易造成具體指向不明,影響最終提取結(jié)果的準(zhǔn)確率。

研究發(fā)現(xiàn),經(jīng)本文方法計(jì)算的最終權(quán)重,有意義的子串父串最大差值不超過0.25,所以本文曾采用了子串值<父串值+0.25的方法進(jìn)行過濾子串實(shí)驗(yàn)。但后來實(shí)驗(yàn)發(fā)現(xiàn)如果采用此方法過濾,不能針對(duì)所有文本過濾掉子串,當(dāng)子串權(quán)重實(shí)際較大的時(shí)候,便過濾不掉這種子串。如軍事類別中一篇關(guān)于遼寧艦的文章,在此文章中,“遼寧艦”一詞被分詞成 “遼寧”和 “艦”兩個(gè)詞,實(shí)際詞頻值分別為10 和13,計(jì)算的權(quán)重分別為2.709090909090909 和2.7285714285714286,而實(shí)際的組合詞 “遼寧艦”的權(quán)重是1.9090909090909092,那么再用該方法過濾的時(shí)候就過濾不掉子串。所以,本文采用組合詞頻的比值方法來過濾子串。其計(jì)算公式如下所示

式中:ci_gl——計(jì)算結(jié)果,C_pinlv——組合詞C的詞頻值,A_pinlv 和B _pinlv——子串A 和B 的詞頻值。當(dāng)ci_glv的值大于0.3[9]的時(shí)候就過濾掉子串,否則不過濾。通過實(shí)驗(yàn)結(jié)果表明,該方法較前幾種過濾方法能夠更好的過濾掉子串。

3 實(shí)驗(yàn)結(jié)果

本文實(shí)驗(yàn)環(huán)境為Window XP 操作系統(tǒng),2.8 GHz的CPU,2G 內(nèi)存,編程工具為Myeclipse10。我們從人民網(wǎng)站上采集了涉及教育、經(jīng)濟(jì)、博客、軍事,科技,汽車,娛樂7個(gè)領(lǐng)域的2100篇文本。隨機(jī)抽取20篇,30篇,40篇文本,文本平均大小為7KB左右,對(duì)每一篇文本提取5個(gè)關(guān)鍵詞,分別對(duì)使用詞序和沒有使用詞序兩類提取關(guān)鍵詞的方法進(jìn)行測(cè)試,其提取結(jié)果與4個(gè)語言學(xué)專業(yè)的研究生人工提取的關(guān)鍵詞準(zhǔn)確率進(jìn)行比較。準(zhǔn)確率計(jì)算公式為

式中:P——準(zhǔn)確率,A——計(jì)算機(jī)抽取的關(guān)鍵詞集合,H——人工標(biāo)注的關(guān)鍵詞集合,|A∩H|——兩個(gè)集合完全匹配的關(guān)鍵詞數(shù)目,|A|——A 集合所包含關(guān)鍵詞數(shù)目。最終計(jì)算結(jié)果與無詞序組合的TFIDF方法、有詞序組合的TFIDF方法、無詞序組合的本文方法進(jìn)行結(jié)果比較。實(shí)驗(yàn)計(jì)算結(jié)果如圖2所示。

圖2 實(shí)驗(yàn)結(jié)果

從圖2中我們可以看出,本文采用的基于詞序統(tǒng)計(jì)組合的關(guān)鍵詞提取方法較無詞序的提取方法,準(zhǔn)確率至少提高了7.55個(gè)百分點(diǎn)。本文方法較其它3種方法提取的結(jié)果準(zhǔn)確率都有不同程度的提高,具體結(jié)果見表2。

表2 各方法提取結(jié)果對(duì)比

實(shí)驗(yàn)結(jié)果表明,本文提出的詞序統(tǒng)計(jì)組合的方法較其它方法更加高效、準(zhǔn)確,該方法提取的關(guān)鍵詞能較好的反映和體現(xiàn)文本主題。另外,影響結(jié)果準(zhǔn)確率的原因有:首先,分詞的準(zhǔn)確率高低是對(duì)結(jié)果準(zhǔn)確率產(chǎn)生重要的影響因素之一;由于本文沒有考慮命名實(shí)體的識(shí)別,所以對(duì)于人名、地名,尤其是外譯名詞等識(shí)別度不高,這也影響了結(jié)果的準(zhǔn)確度;網(wǎng)頁文章不似科技學(xué)術(shù)文獻(xiàn)寫作那么規(guī)范,用詞那么準(zhǔn)確,表征性那么高;組合詞只考慮了部分主要詞類的組合,沒有完整的語義組合規(guī)則,這也有一定的局限性;此外,人工提取關(guān)鍵詞的時(shí)候,由于各人認(rèn)識(shí)不同,所以關(guān)鍵詞提取的時(shí)候,不可避免的出現(xiàn)人工誤差,這也會(huì)影響結(jié)果的準(zhǔn)確度。以上原因都將是我們以后工作將要改進(jìn)和努力的地方。

4 結(jié)束語

本文進(jìn)行了三次候選詞的過濾,第一次是對(duì)停用詞的過濾,第二次是對(duì)組合后的詞組和低頻詞進(jìn)行過濾。第三次是對(duì)候選詞子串的過濾。實(shí)驗(yàn)發(fā)現(xiàn),經(jīng)過三次過濾,實(shí)驗(yàn)結(jié)果的準(zhǔn)確性較一次、兩次過濾得到大大的改善和提高。由于我們的實(shí)驗(yàn)尚在在起步階段,準(zhǔn)確率會(huì)受同義詞、近義詞等詞義方面的影響,此外還會(huì)受外譯詞語和新生詞等方面的影響。另外,本文對(duì)未登錄的新詞也起到了一定的識(shí)別作用,但對(duì)其識(shí)別的精確度還優(yōu)待改善、提高。以后的工作,我們會(huì)重點(diǎn)針對(duì)這些方面進(jìn)行提高和改善。

[1]FANG Jun,GUO Lei,WANG Xiaodong.Semantically improved automatic keyphrase extraction [J].Computer Science,2008,35 (6):148-151 (in Chinese). [方俊,郭雷,王曉東.基于語義的關(guān)鍵詞提取算法 [J].計(jì)算機(jī)科學(xué),2008,35(6):148-151.]

[2]XIE Fenghong,ZHANG Dawei,HUANG Dan,et al.Text keywords extraction based on weighted complex network [J].Journal of Systems Science and Mathematical Sciences,2010(11):1592-1596 (in Chinese). [謝鳳宏,張大為,黃丹,等.基于加權(quán)復(fù)雜網(wǎng)絡(luò)的文本關(guān)鍵詞提取 [J].系統(tǒng)科學(xué)與數(shù)學(xué),2010 (11):1592-1596.]

[3]HU Xuegang,LI Xinghua,XIE Fei,et al.Keyword extraction based on lexical chains for Chinese news web pages [J].Pattern Recognition and Artificial Intelligence,2010,23 (1):45-51 (in Chinese).[胡學(xué)鋼,李星華,謝飛,等.基于詞匯鏈的中文新聞網(wǎng)頁關(guān)鍵詞提取方法 [J].模式識(shí)別與人工智能,2010,23 (1):45-51.]

[4]ZHANG Yingying,XIE Qiang,DING Qiulin.Chinese keyword extraction algorithm based on synonym chains[J].Computer Engineering,2010,36 (19):93-95 (in Chinese).[張穎穎,謝強(qiáng),丁秋林.基于同義詞鏈的中文關(guān)鍵詞提取算法[J].計(jì)算機(jī)工程,2010,36 (19):93-95.]

[5]ZHANG Jian’e.A Chinese keywords extraction approach based on TFIDF and word correlation [J].Information Science,2012,30 (10):1542-1544 (in Chinese). [張建娥.基于TFIDF和詞語關(guān)聯(lián)度的中文關(guān)鍵詞提取方法 [J].情報(bào)科學(xué),2012,30 (10):1542-1544.]

[6]LI Jingyue,LI Peifeng,ZHU Qiaoming.An improved TFIDF based approach to extract key words from web pages [J].Computer Applications and Software,2011,28 (5):25-27(in Chinese).[李靜月,李培峰,朱巧明.一種改進(jìn)的TFIDF網(wǎng)頁關(guān)鍵詞提取方法 [J].計(jì)算機(jī)應(yīng)用與軟件,2011,28(5):25-27.]

[7]LUO Zhunchen,WANG Ting.Research on the Chinese keyword extraction algorithm based on separate models[J].Journal of Chinese Information Processing,2009,23 (1):63-70(in Chinese).[羅準(zhǔn)辰,王挺.基于分離模型的中文關(guān)鍵詞提取算法研究 [J].中文信息學(xué)報(bào),2009,23 (1):63-70.]

[8]WANG Jinbo,WANG Lianzhi,GAO Wanlin,et al.On an improved nave Bayesian keyword extraction algorithm [J].Computer Applications and Software,2014,31 (2):174-181(in Chinese).[王錦波,王蓮芝,高萬林,等.一種改進(jìn)的樸素貝葉斯關(guān)鍵詞提取算法研究 [J].計(jì)算機(jī)應(yīng)用與軟件,2014,31 (2):174-181.]

[9]ZHANG Hongying.Chinese key words extraction algorithm[J].Computer Systems&Applications,2009,26 (8):73-76(in Chinese).[張紅鷹.中文文本關(guān)鍵詞提取算法 [J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2009,26 (8):73-76.]

[10]JIANG Changxing,PENG Hong,CHEN Jianchao,et al.Keywords extraction algorithm based on combined word and synset[J].Application Research of Computers,2010,27(8):2853-2856 (in Chinese). [蔣昌星,彭宏,陳建超,等.基于組合詞和同義詞集的關(guān)鍵詞提取算法 [J].計(jì)算機(jī)應(yīng)用研究,2010,27 (8):2853-2856.]

[11]YUAN Jinsheng,MAO Xinwu.Keyword extraction from Chinese news web pages based on multi-features[J].Computer Engineering and Applications,2014,50 (19):222-226 (in Chinese).[袁津生,毛新武.基于組合特征的中文新聞網(wǎng)頁關(guān)鍵詞提取方法 [J].計(jì)算機(jī)工程與應(yīng)用,2014,50 (19):222-226.]

猜你喜歡
詞序詞頻權(quán)重
論東坡詞的敘事藝術(shù)
基于詞頻分析法的社區(qū)公園歸屬感營建要素研究
園林科技(2021年3期)2022-01-19 03:17:48
權(quán)重常思“浮名輕”
修改病句的妙招
孩子(2019年12期)2019-12-27 06:08:44
為黨督政勤履職 代民行權(quán)重?fù)?dān)當(dāng)
基于公約式權(quán)重的截短線性分組碼盲識(shí)別方法
漢語搭配信息對(duì)詞匯識(shí)別的影響
俄漢語定語對(duì)比
詞頻,一部隱秘的歷史
云存儲(chǔ)中支持詞頻和用戶喜好的密文模糊檢索
仪陇县| 喀喇| 遂溪县| 乌兰县| 炎陵县| 景谷| 河南省| 永顺县| 芜湖市| 正安县| 鞍山市| 太湖县| 咸丰县| 德令哈市| 河间市| 勃利县| 友谊县| 交口县| 阳原县| 巩留县| 石河子市| 朝阳区| 墨江| 石阡县| 博爱县| 永泰县| 桦甸市| 巫山县| 铜山县| 蓝田县| 新龙县| 东台市| 普格县| 土默特左旗| 延庆县| 安阳市| 平利县| 神木县| 色达县| 余江县| 利川市|