傅向華 馬兆豐 何 明 馮博琴
摘要:從語義相關(guān)性角度分析超鏈歸納主題搜索(HITS)算法,發(fā)現(xiàn)其產(chǎn)生主題漂移的原因在于頁面被投影到錯誤的語義基上,因此提出了一種個性化的主題提取和層次發(fā)現(xiàn)算法(PTDHE),通過個人查詢?nèi)罩緮U展查詢詞,構(gòu)造符合用戶需要的個性化根集和基礎(chǔ)集合,達到防止主題漂移的目的.PTDHE采用基于最小最大原則的圖劃分方法,層次地發(fā)現(xiàn)與用戶查詢相關(guān)的主題頁面集合,利用HITS算法分別計算每個主題頁面集合中頁面的權(quán)威值,返回與查詢相關(guān)的其他主題權(quán)威頁面.在14個查詢上的實驗結(jié)果表明,與HITS算法相比,PTDHE算法不僅可以減少2%一66%的主題漂移率,而且可以發(fā)現(xiàn)與查詢相關(guān)的多個主題.
關(guān)鍵詞:鏈接分析;超鏈歸納主題搜索;主題提??;主題漂移;查詢擴展
中圖分類號:TP311文獻標識碼:A文章編號:0253—987X(2005)02—0119—04