国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于PageRank值的文本相似度改進(jìn)模型

2010-08-07 08:20:48熊才權(quán)田浩
關(guān)鍵詞:特征詞詞條搜索引擎

熊才權(quán) 田浩

湖北工業(yè)大學(xué)計(jì)算機(jī)學(xué)院 湖北 430068

0 引言

在Google模式中,PageRank值的計(jì)算和向量空間模型的計(jì)算是相互獨(dú)立的,在向量空間模型的計(jì)算中也沒(méi)有考慮到 PageRank值本身所包含的信息含義。本文在計(jì)算文本相似度時(shí)結(jié)合 PageRank值所包含的信息提出在計(jì)算文本相似度時(shí)先以 PageRank值的大小作為特征選擇的條件,然后在VSM模型中考慮類別信息以提高檢索的質(zhì)量。

1 基于PageRank值的VSM改進(jìn)模型

對(duì)文本進(jìn)行分類是一個(gè)比較復(fù)雜的問(wèn)題,文本自動(dòng)分類是信息檢索與數(shù)據(jù)挖掘領(lǐng)域的研究熱點(diǎn)與核心技術(shù),而基于機(jī)器學(xué)習(xí)的文本分類技術(shù)的相關(guān)研究已經(jīng)取得較大進(jìn)展。本文首先簡(jiǎn)單的把具有相同 PageRank值的網(wǎng)頁(yè)歸為同一類,然后在計(jì)算相似度的過(guò)程中考慮這種分類的影響,并區(qū)分不同類別間的信息差異,最終得到更為有效的檢索結(jié)果。如果把具有相同 PageRank值的網(wǎng)頁(yè)歸為同一類,就可以把所有網(wǎng)頁(yè)文本根據(jù)其重要性簡(jiǎn)單劃分為11種類別。在下載系統(tǒng)中對(duì)網(wǎng)絡(luò)爬蟲(chóng)添加部分代碼使其根據(jù) PageRank值的大小對(duì)網(wǎng)頁(yè)分類存儲(chǔ)可以簡(jiǎn)單實(shí)現(xiàn)這種初步的分類。

1.1 詞頻的統(tǒng)計(jì)方法

在文本分類中詞頻一般是基于自然語(yǔ)言的,經(jīng)過(guò)文本分類后得到的詞條可以認(rèn)為是計(jì)算機(jī)可識(shí)別的機(jī)器語(yǔ)言,在真實(shí)生活中使用頻率高的詞條可能在機(jī)器語(yǔ)言中使用率并不高。在考慮文本分類的同時(shí)為了保證相似度計(jì)算的一致性,可以對(duì)機(jī)器語(yǔ)言的文本頻率進(jìn)行統(tǒng)計(jì)以在文本相似度計(jì)算中使用。

詞條頻率的統(tǒng)計(jì)過(guò)程如下:

(1)對(duì)所有分類后的頁(yè)面提取特征詞;

(2)統(tǒng)計(jì)各個(gè)類別Ci的文本總數(shù)Mi和包含詞條t的文檔數(shù)mi;

(3)計(jì)算詞條t在各個(gè)類別的各個(gè)文本中的詞頻,公式如下:

在詞條頻率的統(tǒng)計(jì)過(guò)程中首先需要提取特征詞,特征詞的提取與用戶可能的檢索詞是相關(guān)的。例如“搜索引擎”、“天安門”等都可能是用戶潛在的檢索詞,所以必須做為特征詞進(jìn)行統(tǒng)計(jì)。本文提供了包含 1370個(gè)檢索內(nèi)容的檢索庫(kù),所有檢索庫(kù)中的詞都作為特征詞進(jìn)行統(tǒng)計(jì)。然而,在搜索引擎中進(jìn)行的每一次檢索都對(duì)詞條進(jìn)行一次頻率統(tǒng)計(jì)是不現(xiàn)實(shí)的,即使根據(jù)本文所提供的檢索庫(kù)所得到的最終統(tǒng)計(jì)結(jié)果也是不全面的。但是,由 PageRank算法可知,網(wǎng)頁(yè)的連接是基于詞條的,所以詞條頻率的變化與 PageRank值的傳遞具有一致性,在 PageRank值更新的時(shí)期內(nèi),基于網(wǎng)絡(luò)的詞條頻率可認(rèn)為保持不變??梢栽谟?jì)算 PageRank值的同時(shí)進(jìn)行詞條頻率的統(tǒng)計(jì)計(jì)算,也可以改進(jìn) PageRank算法,利用PageRank算法計(jì)算出詞條頻率。

1.2 改進(jìn)的IDF方法

一個(gè)詞條如果在一個(gè)類別的文檔中頻率較高,則說(shuō)明該詞條能夠很好的代表這個(gè)類別的文本特征,這樣的詞條應(yīng)該給它們賦予較高的權(quán)重,并選來(lái)作為該類文本的特征詞以區(qū)別其它類文檔。例如,計(jì)算機(jī)類的文本中“CPU”會(huì)出現(xiàn)在許多文檔中,“CPU”應(yīng)該選來(lái)作為計(jì)算機(jī)類文本的特征詞以區(qū)別其它類文檔。

根據(jù)上述原理提出改進(jìn)的IDF方法如下:

設(shè)總的文檔數(shù)為 N,包含詞條t的文檔數(shù)為 n,其中某一類Ci中包含詞條t的文檔數(shù)為mi,除Ci類外,包含詞條t的文檔數(shù)為k,則t在Ci類中的IDFi值為:

顯然,IDFi隨mi增大而增大,隨k增大而減小。如果在某一類Ci中包含詞條t的文檔數(shù)量大,而在其它類中包含詞條t的文檔數(shù)量小的話,則t能夠代表Ci類的文本的特征,具有很好的類別區(qū)分能力。

1.3 改進(jìn)的VSM模型

綜上所述,在對(duì)搜索引擎中文本相似度計(jì)算的方法和過(guò)程進(jìn)行改進(jìn)后提出“基于PageRank值的VSM改進(jìn)模型”,其文本相似度的計(jì)算過(guò)程如下:

(1)對(duì)所有下載的頁(yè)面根據(jù)PageRank值的大小進(jìn)行分類,并統(tǒng)計(jì)特征詞條在各個(gè)類別中的詞頻TFi;

(2)由改進(jìn)的IDF方法計(jì)算詞條在各個(gè)類別中的IDFi;

(3)計(jì)算該特征項(xiàng)t在文本d中的重要程度Wt,d;

(4)計(jì)算文本d和查詢式q的相似度sim(q,d);其公式如下:

(5)根據(jù)相似度的大小生成相似度排序列表。其中,具有相同相似度的頁(yè)面PageRank值大的排在前面。

為了驗(yàn)證改進(jìn)后的效果,需對(duì)原模型和改進(jìn)后的模型所生成的結(jié)果進(jìn)行比較。假設(shè):由原模型(VSM)得到的排序?yàn)椋簕A1,A2,……,An};由改進(jìn)后的模型(BPVSM)得到的排序?yàn)椋簕B1,B2,……,Bn}。

定義1:相關(guān):若檢索結(jié)果頁(yè)面Ai或Bi中包含檢索信息則Ai或Bi相關(guān),否則Ai或Bi不相關(guān)。

定義2:異點(diǎn):在兩次排序中若Ai≠Bi則Ai和Bi為異點(diǎn)。

定義 3:優(yōu)異點(diǎn):在兩次排序中?Ai≠Bi,若 Ai相關(guān)而B(niǎo)i不相關(guān)則Ai為優(yōu)異點(diǎn),若Bi相關(guān)而Ai不相關(guān)則Bi為優(yōu)異點(diǎn);在兩次排序中?Ai=Bj,若i>j則Ai為優(yōu)異點(diǎn),若i<j則Bj為優(yōu)異點(diǎn)。

2 實(shí)驗(yàn)結(jié)果及分析

網(wǎng)絡(luò)上的數(shù)據(jù)是極其巨大的,對(duì)所有網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行完備的實(shí)驗(yàn)分析是困難的。整個(gè)互連網(wǎng)是由一個(gè)個(gè)網(wǎng)絡(luò)構(gòu)成的,其中任意一個(gè)網(wǎng)絡(luò)都可以認(rèn)為是一個(gè)較小的互連網(wǎng)。例如:分別對(duì)中國(guó)教育網(wǎng)和對(duì)中國(guó)電信網(wǎng)進(jìn)行實(shí)驗(yàn)所得到的結(jié)果幾乎沒(méi)有區(qū)別。所以,適當(dāng)縮小實(shí)驗(yàn)范圍不會(huì)影響最終的實(shí)驗(yàn)結(jié)果。在本實(shí)驗(yàn)中,限制網(wǎng)絡(luò)蜘蛛的爬取范圍是在中國(guó)教育網(wǎng)內(nèi)(即網(wǎng)址后部分為.edu.cn)。但是即使僅對(duì)中國(guó)教育網(wǎng)進(jìn)行全面的分析計(jì)算也是一個(gè)巨大的工程,為了證明改進(jìn)后的算法對(duì)檢索結(jié)果的影響可進(jìn)行驗(yàn)證性實(shí)驗(yàn),其過(guò)程如下:

首先,精選檢索內(nèi)容,生成包含了 1370個(gè)檢索條目的檢索內(nèi)容庫(kù),然后分別在Google中檢索,并用網(wǎng)絡(luò)蜘蛛爬取檢索結(jié)果頁(yè)面。

其次,根據(jù)改進(jìn)后的模型對(duì)檢索結(jié)果進(jìn)行再排序。由于在搜索引擎中一個(gè)頁(yè)面顯示 10個(gè)結(jié)果,而用戶一般難以容忍翻看到 10以后的結(jié)果,所以盡量避免對(duì)后面的結(jié)果頁(yè)面進(jìn)行分析計(jì)算。在實(shí)驗(yàn)中,只對(duì)結(jié)果頁(yè)面的前1/3進(jìn)行了分析計(jì)算(檢索結(jié)果少于 300則全部進(jìn)行分析計(jì)算),最終只顯示前10個(gè)頁(yè)面的排序。

最后,分別統(tǒng)計(jì)兩次排序前十個(gè)頁(yè)中所包含的相關(guān)頁(yè)面的數(shù)目,比較兩次排序的相關(guān)性;分別統(tǒng)計(jì)兩次排序的優(yōu)異點(diǎn),比較兩次排序的優(yōu)異性;并用 MATLAB對(duì)統(tǒng)計(jì)結(jié)果進(jìn)行模擬得到仿真圖。

在實(shí)驗(yàn)中,檢索內(nèi)容庫(kù)主要分為復(fù)雜檢索和簡(jiǎn)單檢索,復(fù)雜檢索為可以確定具體結(jié)果的檢索,例如檢索內(nèi)容為“毛澤東 開(kāi)國(guó)典禮 語(yǔ)錄”為復(fù)雜檢索,而“毛澤東 語(yǔ)錄”為簡(jiǎn)單檢索。同時(shí)考慮到部分新詞如“綠領(lǐng)”并未被詞典收錄,檢索內(nèi)容庫(kù)具有 37條包含新詞的檢索如“綠領(lǐng) 含義”。檢索內(nèi)容庫(kù)概要見(jiàn)表1。

表1 檢索內(nèi)容庫(kù)

經(jīng)過(guò)對(duì)實(shí)驗(yàn)數(shù)據(jù)統(tǒng)計(jì)分析發(fā)現(xiàn)改進(jìn)后的模型在提高檢索的準(zhǔn)確率上比原模型更加有效,在對(duì)包含新詞的檢索中貢獻(xiàn)更加明顯。最終統(tǒng)計(jì)結(jié)果見(jiàn)表2。

表2 兩次排序的效率比較

對(duì) 1370次排序的相關(guān)性進(jìn)行模擬,發(fā)現(xiàn)兩條相關(guān)性曲線相互交織在一起,其中BPVSM的大部分略高于VSM;見(jiàn)圖 1(縱坐標(biāo)表示相關(guān)頁(yè)面的數(shù)目,橫坐標(biāo)表示按照相關(guān)頁(yè)面的數(shù)目的大小排列的1370次統(tǒng)計(jì))。

圖1 相關(guān)性統(tǒng)計(jì)圖

對(duì)相關(guān)數(shù)(其范圍為0-100)進(jìn)行逆向統(tǒng)計(jì)的模擬,發(fā)現(xiàn)兩條曲線在11%和20%左右有較大的起伏;BPVSM在11%和20%有兩次波峰,而VSM僅在20%有一次波峰。見(jiàn)圖2(橫坐標(biāo)為頁(yè)面相關(guān)數(shù),縱坐標(biāo)表示具有某個(gè)相關(guān)數(shù)的統(tǒng)計(jì)次數(shù))。

圖2 相關(guān)性逆向統(tǒng)計(jì)圖

對(duì)1370次排序的優(yōu)異點(diǎn)統(tǒng)計(jì)進(jìn)行模擬,發(fā)現(xiàn)VSM曲線有少量的奇異點(diǎn)落在BPVSM曲線的上方,忽略少量的奇異點(diǎn)后可認(rèn)為BPVSM曲線在VSM曲線的上方。見(jiàn)圖 3(縱坐標(biāo)表示優(yōu)異點(diǎn)數(shù)目,橫坐標(biāo)為按照優(yōu)異點(diǎn)數(shù)目排序的 1370次統(tǒng)計(jì))。

圖3 優(yōu)異點(diǎn)統(tǒng)計(jì)圖

綜上所述,實(shí)驗(yàn)結(jié)果表明:

(1)兩種模型檢索結(jié)果的查準(zhǔn)率比較接近,但改進(jìn)后的模型查準(zhǔn)率更高;

(2)兩次排序的查準(zhǔn)率在7%-35%之間,在11%和20%左右達(dá)到最大概率;

(3)改進(jìn)后的模型可以明顯提高對(duì)新詞的查準(zhǔn)率;

(4)改進(jìn)后的模型對(duì)前 100個(gè)網(wǎng)頁(yè)的可信度提高了約1.45174倍。

3 結(jié)束語(yǔ)

相似度的計(jì)算與排序是搜索引擎的一個(gè)重要部分,提高相似度的計(jì)算與排序的效率和質(zhì)量對(duì)提高整個(gè)搜索引擎的質(zhì)量具有重大的意義。本文基于搜索引擎的文本檢索部分提出了基于 PageRank值的文本相似度改進(jìn)模型,通過(guò)模擬實(shí)驗(yàn)表明改進(jìn)后的模型可以提高檢索的準(zhǔn)確率,在對(duì)新詞的檢索中更加明顯。

基于 PageRank值統(tǒng)計(jì)詞頻,詞頻的統(tǒng)計(jì)必須保持與PageRank值的更新同步,這必然會(huì)增加整個(gè)搜索引擎的工作量;其次,改進(jìn)后的模型依然存在奇異點(diǎn)(即完全不相關(guān)的頁(yè)面卻獲得了很高的相似度),若在改進(jìn)后的模型中考慮消去產(chǎn)生奇異點(diǎn)的原因可以提高模型的穩(wěn)定性。

[1] PAGE.L,BRIN.S.The anatomy of a large scalehyper textual Web search engine [J].Computer Networks and ISDN Systems.1998.

[2] PAGE.L,BRIN.S,MOTWAN.R.WINOGRAD.T. The PageRank citation Ranking:Bringing Order to the Web[J]. Stanford Digital Library Technologies Project.1998.

[3] MATTEW.R,PEDRO.D.The intelligent surfer: Probabilistic combination of link and content information in PageRank[J].Neural Information Processing Systems.2002.

[4] SALTON G,WONG A,YANG C.A Vector SpaceModel for Automatic Indexing[J]. Comm-unications of ACM.1975.

[5] YANG Y.An Evaluation of Statistical Approaches to Text Categorization[J].Information Retrieval.1999.

[6] 梁斌.走進(jìn)搜索引擎[M].北京:電子工業(yè)出版社.2007.

[7] 蘇金樹(shù),張博鋒,徐昕.基于機(jī)器學(xué)習(xí)的文本分類技術(shù)研究進(jìn)展軟件學(xué)報(bào)[J].2006.

猜你喜歡
特征詞詞條搜索引擎
基于改進(jìn)TFIDF算法的郵件分類技術(shù)
產(chǎn)品評(píng)論文本中特征詞提取及其關(guān)聯(lián)模型構(gòu)建與應(yīng)用
2016年4月中國(guó)直銷網(wǎng)絡(luò)熱門詞條榜
2016年3月中國(guó)直銷網(wǎng)絡(luò)熱門詞條榜
2016年9月中國(guó)直銷網(wǎng)絡(luò)熱門詞條榜
網(wǎng)絡(luò)搜索引擎亟待規(guī)范
面向文本分類的特征詞選取方法研究與改進(jìn)
大數(shù)據(jù)相關(guān)詞條
基于Nutch的醫(yī)療搜索引擎的研究與開(kāi)發(fā)
廣告主與搜索引擎的雙向博弈分析
绵阳市| 清丰县| 黄平县| 玉树县| 武城县| 榆林市| 新干县| 昌宁县| 北宁市| 古田县| 赤水市| 朝阳市| 广州市| 湖南省| 南部县| 扶风县| 拜城县| 乃东县| 井研县| 新密市| 伊金霍洛旗| 平度市| 新蔡县| 鸡东县| 定边县| 双峰县| 社会| 江津市| 凤城市| 永顺县| 五台县| 雅安市| 谢通门县| 来安县| 若尔盖县| 苏尼特右旗| 昭通市| 伽师县| 辛集市| 乐安县| 玉环县|