基于層次分析法的網(wǎng)頁排序技術(shù)

2015-07-02 18:14呂嘉慧

山東工業(yè)技術(shù) 2015年13期

摘要：在大數(shù)據(jù)時代，網(wǎng)頁搜索的效率和質(zhì)量要求越來越高，本文在研究分析層次分析法原理的基礎(chǔ)上，提出了基于此的網(wǎng)頁搜索排序技術(shù)和處理方法，通過仿真實證了該方法的可行性和有效性。

關(guān)鍵詞：搜索引擎；層次分析法；網(wǎng)頁排序

1 概要

經(jīng)過多年的探索發(fā)展，向量空間模型、語言模型、布爾模型、鏈接分析算法、相關(guān)性排序模型等都曾或正被應(yīng)用到搜索引擎中。目前用得比較多的排序算法是在鏈接分析算法的基礎(chǔ)上加入更多的排序因素：關(guān)鍵詞在網(wǎng)頁中出現(xiàn)的位置、點擊次數(shù)和網(wǎng)頁被引用次數(shù)等。這些方法最大的不足是不同用戶搜索得到的網(wǎng)頁結(jié)果排序是一樣。

2 層次分析法

2.1 層次分析法原理

層次分析法（AHP），其主要思想是通過對復(fù)雜系統(tǒng)的有關(guān)要素及其相互關(guān)系進(jìn)行分析，將其簡化為有序的遞階層次結(jié)構(gòu)，使這些要素歸類到不同的層次，形成一個多層次的分析結(jié)構(gòu)模型，最終把系統(tǒng)分析轉(zhuǎn)化為確定最低層（決策方案）相對于最高層（總目標(biāo)）的相對重要性權(quán)值的問題。

AHP使用時先將問題中的因素劃分到不同層次中，利用一致矩陣法確定各層次因素間的權(quán)重，經(jīng)過歸一化得出由同層次因素對于上一層次某因素的相對重要性的權(quán)值所組成的矩陣。然后計算某層次所有因素對最高層相對重要性的權(quán)值。兩次相對重要性權(quán)值計算都需進(jìn)行一致性檢驗。

AHP實現(xiàn)網(wǎng)頁排序的原理是以網(wǎng)頁和搜索關(guān)鍵詞之間的相關(guān)度為最高層，點擊次數(shù)、詞頻、詞位置、引用次數(shù)、瀏覽時間和用戶個人信息作為中間層，搜索的結(jié)果網(wǎng)頁為最底層。通過結(jié)合搜索和層次分析法排序完成搜索任務(wù)。

2.2 基于層次分析的網(wǎng)頁排序

首先對用戶提交的關(guān)鍵詞進(jìn)行同義詞查詢，基于關(guān)鍵詞及其同義詞進(jìn)行擴展查詢，查詢返回關(guān)鍵詞在頁面中的位置、瀏覽平均時間、點擊率、被引用次數(shù)等信息，然后對返回的結(jié)果頁面結(jié)合AHP分析得出相關(guān)性排序網(wǎng)頁，最終向用戶反饋排序結(jié)果。

假設(shè)用戶提交關(guān)鍵詞后得到5個頁面，為得到的頁面創(chuàng)建SearchedPage實例。該實例有以下字段：id（頁面在DB中的編號），relevance（關(guān)鍵詞與頁面的相關(guān)程度），hitWeight（頁面被點擊次數(shù)權(quán)重，/100），refWeight（頁面被引用次數(shù)權(quán)重），posWeight（關(guān)鍵詞位置權(quán)重，根據(jù)關(guān)鍵詞第一次出現(xiàn)的位置判斷，標(biāo)題部分取20，正文按每10%減1，正文前10%取10），freWeight（關(guān)鍵詞頻率權(quán)重，*100），readTWeight（頁面平均瀏覽時間權(quán)重，*100），cusWeight（用戶個性化相關(guān)權(quán)重，頁面類別與用戶愛好匹配取3，否則取1），synWeight（詞義距離權(quán)值，取值0-5，直接匹配取0）。假設(shè)這5個頁面：（hitWeight，refWeight，posWeight，freWeight，readTWeight，cusWeight，synWeight）

5個頁面取值分別為：P1（9.6，24，20，0.93，2.7，1，1），P2（3.1，7，9，0.2，1.76，1，1），P3（8.2，13，10，0.98，0.84，3，1），P4（9.7，8，10，1.15，0.79，1，0），P5（5.4，36，20，0.81，0.8，3，2）。利用AHP求解relevance。

根據(jù)中間層因素對relevance取值的影響程度，建立比較矩陣T，其中t12= 1/3表示作者認(rèn)為關(guān)鍵詞在頁面中的位置比其出現(xiàn)頻率更重要。

通過計算，得比較矩陣T的最大特征根λ=7.3，相應(yīng)特征變量為W=（0.11，0.34，0.05，0.24，0.10，0.08，0.09）T，一致性檢驗指標(biāo)CI = （λ- n）/（n - 1） = 0.05，n = 7。查表知隨機一致性指標(biāo)為RI=1.32，一致性比率CR=CI/RI=0.038<0.1，通過一致性檢驗。

根據(jù)SearchedPage屬性值，構(gòu)建P1到P5實例對freWeight等指標(biāo)的判斷矩陣，如下。

因為篇幅有限，本文不列出K2—K10，只給出K2—K10比較矩陣的最大特征值λi（i=1，2，3，……，7）與對應(yīng)的特征向量Wi（i=1，2，3，……，7）。

λ1=10.04 W1=（0.14，0.05，0.16，0.14，0.12）

λ2=10.86 W2=（0.13，0.02，0.08，0.10，0.17）

λ3=10.09 W3=（0.17，0.03，0.14，0.17，0.11）

λ4=10.11 W4=（0.19，0.07，0.07，0.05，0.04）

λ5=10.12 W5=（0.12，0.03，0.08，0.04，0.25）

λ6=10.01 W6=（0.03，0.04，0.19，0.03，0.18）

λ7=10.29 W7=（0.11，0.03，0.12，0.13，0.07）

算出K1—K10最大特征值、特征向量對應(yīng)的CI、CR知通過一致性檢驗，層次總排序一致性比率：CR=（t1CI1+t2CI2+L+a7CI7）/（a1RI1+a2RI2+L+a7RI7），其中：（t1，t2，t3，t4，t5，t6，t7）T=（0.11，0.34，0.05，0.24，0.10，0.08，0.09）T，算得CR=0.032，CR<0.1通過檢驗。

因此，通過同義詞和個性化搜索后得到SearchedPage的5個實例P1、P2、P3、P4、P5排序為P1、P5、P3、P4、P2。

3 結(jié)語

基于層次分析的搜索排序技術(shù)可以較好的解決傳統(tǒng)的同義詞擴展方式又會帶來更多的查詢結(jié)果難以合理排序的問題，并有利于提高搜索的精確率和覆蓋率。

參考文獻(xiàn)：

[1]常璐，夏祖奇.搜索引擎的幾種常用排序算法[D].圖書情報工作，2003（06）.

[2]金祖旭，李敏波.基于用戶反饋的搜索引擎排名算法[Z].計算機系統(tǒng)應(yīng)用，2010（12）.

作者簡介：呂嘉慧（1993-），女，廣東佛山人，本科，研究方向：搜索引擎。endprint

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于層次分析法的網(wǎng)頁排序技術(shù)