朱強(qiáng)
【摘 要】介紹了網(wǎng)絡(luò)信息提取系統(tǒng)中用戶興趣模型建立的方法,在詳細(xì)分析了現(xiàn)有興趣模型的基礎(chǔ)上,提出了一種由短期興趣模型和長(zhǎng)期興趣模型組成的混合型用戶興趣模型,采用加入時(shí)間因素的二層樹狀結(jié)構(gòu)表示用戶興趣模型,使模型既具有向量空間模型表示用戶興趣類的特點(diǎn),又具有類型層次結(jié)構(gòu)模型的層次性。
【關(guān)鍵詞】網(wǎng)絡(luò)信息;混合型用戶興趣模型;二層樹狀結(jié)構(gòu)
1.存在問題
用戶興趣模型是個(gè)性化信息過濾系統(tǒng)實(shí)現(xiàn)個(gè)性化的關(guān)鍵。目前的個(gè)性化信息過濾系統(tǒng)都不能很好的為用戶提供個(gè)性化服務(wù)。分析其原因,用戶興趣模型主要存在以下問題:
(1)描述用戶對(duì)半結(jié)構(gòu)化的Web數(shù)據(jù)的興趣,現(xiàn)有的方法采用一個(gè)多維向量或者一組向量來表示。實(shí)驗(yàn)證明,這種表示模型不能完全描述出用戶的真正興趣所在,而且獨(dú)立的向量也給興趣的更新帶來不便。
(2)現(xiàn)有的系統(tǒng)大多要求用戶清楚地表述他們的興趣,然而有時(shí)讓用戶準(zhǔn)確而清楚地描述他們的信息需求是相當(dāng)困難的,因?yàn)橛脩敉鶎?duì)模糊而好奇的東西會(huì)產(chǎn)生比較濃厚的興趣。
(3)現(xiàn)階段很多系統(tǒng)都假設(shè)用戶興趣很少改變,但這與事實(shí)情況并不相符。當(dāng)用戶興趣模型與用戶的實(shí)際興趣不一致時(shí),查準(zhǔn)率和查全率必然低。
2.模型建立
為了解決現(xiàn)有用戶興趣模型不能區(qū)分短期和長(zhǎng)期興趣的問題,本文提出了一種混合用戶興趣模型,將用戶興趣模型分為短期興趣模型和長(zhǎng)期興趣模型,短期興趣模型中存儲(chǔ)用戶的近期興趣,長(zhǎng)期興趣模型中存儲(chǔ)用戶的長(zhǎng)期偏好。同時(shí)提出了基于時(shí)間向量的二層樹狀結(jié)構(gòu)來表示用戶興趣模型,節(jié)點(diǎn)采用加入時(shí)間因素的向量空間表示法表示,然后通過層次和劃分結(jié)合的聚類算法把用戶興趣特征項(xiàng)聚類成不同的主題。
系統(tǒng)通過收集用戶瀏覽過的網(wǎng)頁(yè),除去不感興趣的頁(yè)面,得到用戶感興趣的頁(yè)面。把用戶感興趣的頁(yè)面進(jìn)行預(yù)處理后,采用樹狀向量空間表示,并進(jìn)行聚類分析得到用戶的興趣度,同時(shí)收集用戶的瀏覽行為,調(diào)整用戶的興趣度,由此建立短期興趣模型。系統(tǒng)通過用戶初次使用時(shí)填寫的注冊(cè)信息建立短期興趣模型,當(dāng)用戶的某一短期興趣加入時(shí)間間隔達(dá)到一定程度,則認(rèn)為該興趣為用戶的長(zhǎng)期興趣,把此興趣加入用戶的長(zhǎng)期興趣模型中,并在短期興趣模型中刪除此興趣。用戶的興趣模型采用基于優(yōu)化時(shí)間窗興趣漂移的遺忘機(jī)制進(jìn)行更新。
3.基于時(shí)間的二層樹狀空間向量模型表示
用戶興趣模型表示是對(duì)從網(wǎng)頁(yè)中抽取的元數(shù)據(jù)(特征值)進(jìn)行量化,以結(jié)構(gòu)化的形式描述和存儲(chǔ)用戶興趣信息,用戶模型的表示決定了模型反映用戶真實(shí)信息的能力和可計(jì)算能力,也在一定程度上限制了建模方法和模型更新算法的選取,同時(shí)是決定算法簡(jiǎn)繁優(yōu)劣的重要因素之一,用戶興趣模型表示是建立用戶興趣模型的重要工作。
用戶通常對(duì)多方面的內(nèi)容感興趣,并且其興趣不斷變化。用戶的一些長(zhǎng)期興趣很少發(fā)生變化,而短期興趣卻會(huì)經(jīng)常發(fā)生變化。這就要求用戶模型既能夠考慮到用戶的長(zhǎng)期興趣演變,也能夠迅速捕獲短期的興趣變遷,表達(dá)用戶當(dāng)前的興趣。鑒于此,本系統(tǒng)需要能區(qū)分不同時(shí)期興趣的用戶興趣模型表示方法。本系統(tǒng)要求系統(tǒng)響應(yīng)時(shí)間短,而處理的數(shù)據(jù)量大,分析現(xiàn)有的用戶模型表示方法,向量空間模型能將文本和查詢簡(jiǎn)化為易于數(shù)學(xué)處理的特征項(xiàng)及權(quán)值集合的向量表示,但是向量空間模型不能區(qū)分用戶的長(zhǎng)短期興趣,所以在向量空間模型的基礎(chǔ)上進(jìn)行了擴(kuò)展,在其中加入時(shí)間向量來表示用戶興趣模型。但同時(shí)只采用加入時(shí)間向量的空間向量表示法并不能區(qū)分用戶的不同興趣類別,易造成用戶興趣混亂,故此本課題參考網(wǎng)易搜索引擎的“開放式目錄(ODP)”管理方式,把用戶興趣模型表示成二層樹類結(jié)構(gòu),上層父概念類是對(duì)下層所有子類的共同屬性的概括,而下層子概念類則是從不同角度對(duì)上層父概念類加以細(xì)化,所有子節(jié)點(diǎn)之間形成平等的兄弟關(guān)系,這能滿足本系統(tǒng)能區(qū)分不同興趣類別的要求。
綜上所述,本系統(tǒng)通過基于時(shí)間向量的二層樹狀結(jié)構(gòu)來表示用戶興趣模型,第一層節(jié)點(diǎn)表示用戶的興趣主題,一個(gè)主題可以有很多主題特征項(xiàng),第二層節(jié)點(diǎn)表示用戶某個(gè)興趣主題下的特征項(xiàng),興趣主題和特征項(xiàng)采用加入時(shí)間因素的向量空間模型表示,這樣的二層樹狀結(jié)構(gòu)模型既具有特征項(xiàng)和權(quán)值表示用戶興趣類的特點(diǎn),也具有類型層次結(jié)構(gòu)模型的層次性,同時(shí)還能通過特征項(xiàng)主題加入時(shí)間的不同來區(qū)分短期和長(zhǎng)期興趣。
因此整個(gè)模型樹分為兩級(jí)節(jié)點(diǎn):第一級(jí)節(jié)點(diǎn)代表用戶的興趣類別,用一組興趣主題詞(I1,I2,…,In)來代表用戶的n個(gè)興趣類別,每一興趣類 Ii 根據(jù)用戶興趣度的高低賦予一定的權(quán)值Wi,且記錄加入時(shí)間Si。因此用戶的興趣可以表示為((i1,w1,s1),(i2,w2,s2),…,(in,wn,sn))的加權(quán)矢量形式。第二級(jí)節(jié)點(diǎn),即葉子節(jié)點(diǎn),它代表用戶某一興趣類別下的特征項(xiàng),以加入時(shí)間因素的向量空間表示成(T,W,S)形式。
在向量空間模型中加入時(shí)間向量S(s1,s2,...,si,...,sn),記錄新的特征項(xiàng)加入的時(shí)間,表示用戶對(duì)某一特征項(xiàng)的興趣持續(xù)程度。這樣每個(gè)用戶興趣特征項(xiàng)D由一個(gè)三元組(T,W,S)構(gòu)成。其中,T為特征項(xiàng),W為特征項(xiàng)的權(quán)重,S為特征項(xiàng)的時(shí)間參數(shù)。得到的每個(gè)網(wǎng)頁(yè)表示為一個(gè)規(guī)范化特征矢量P(d)={(t1,w1,s1),…(ti,wi,si),…(tn,wn,sn)}。當(dāng)把一張網(wǎng)頁(yè)加入短期興趣模型時(shí),首先通過Web網(wǎng)頁(yè)預(yù)處理表示成向量形式P(d)={(t1,w1,s1),…(ti,wi,si),…(tn,wn,sn)},其加入短期興趣模型的時(shí)間表示為S。文檔的加入時(shí)間以絕對(duì)時(shí)間表示,如從2000年1月1日零點(diǎn)到當(dāng)前時(shí)間的秒數(shù),進(jìn)行程序設(shè)計(jì)時(shí),使用一個(gè)long型變量來表示時(shí)間參數(shù)。
為了適應(yīng)用戶興趣的變化,把用戶興趣分為長(zhǎng)期興趣和短期興趣,對(duì)應(yīng)的也就用兩棵興趣樹來分別表示。基于時(shí)間的樹狀模型能夠準(zhǔn)確地描述用戶興趣所在,根據(jù)樹狀模型的第一級(jí)節(jié)點(diǎn),就可以大概地知道用戶的興趣類型,及其對(duì)每一興趣類的興趣度高低。由于用戶興趣類型是根據(jù)對(duì)用戶瀏覽的內(nèi)容頁(yè)面進(jìn)行聚類分析所得,每一興趣類的主題詞采用概化的方法在相應(yīng)聚簇的特征向量中歸納得到,每一興趣類的權(quán)值通過權(quán)值計(jì)算公式計(jì)算得到,所以這樣得到的興趣模型能夠滿足興趣模型的準(zhǔn)確性和完整性要求。樹狀模型的第二級(jí)節(jié)點(diǎn)是加入時(shí)間因素的向量空間模型表示的特征項(xiàng),這樣就能通過加入特征項(xiàng)的時(shí)間判斷此特征項(xiàng)是長(zhǎng)期興趣還是短期興趣,而且能通過特征項(xiàng)的權(quán)值判斷用戶對(duì)此特征項(xiàng)感興趣程度。
4.總結(jié)
現(xiàn)有的信息過濾系統(tǒng)存在不能有效提取用戶興趣、用戶興趣變化得不到及時(shí)反饋等問題,究其原因是沒有很好地平衡系統(tǒng)準(zhǔn)確性、適應(yīng)性以及用戶負(fù)擔(dān)之間的矛盾。本課題擬從統(tǒng)計(jì)學(xué)習(xí)、人工智能相結(jié)合的角度研究網(wǎng)絡(luò)提取系統(tǒng)的關(guān)鍵問題,關(guān)注如何在提高系統(tǒng)的準(zhǔn)確度和穩(wěn)定性的前提下,最終達(dá)到向用戶提供高效率的個(gè)性化檢索的目的。該系統(tǒng)的研究將促進(jìn)網(wǎng)絡(luò)信息提取技術(shù)的發(fā)展,提高現(xiàn)有的信息過濾技術(shù)。
【參考文獻(xiàn)】
[1]張衛(wèi)豐,徐寶文.基于WWW緩沖的用戶實(shí)時(shí)二維興趣模型.計(jì)算機(jī)學(xué)報(bào),2004,27(4):461~470.
[2]邵志峰,李榮陸,胡運(yùn)發(fā).基于中圖分類法的用戶興趣模型研究.計(jì)算機(jī)應(yīng)用與軟件,2007,24(8):85~86.
[3]張瑜,袁方.基于用戶興趣的個(gè)性化信息檢索方法.山東大學(xué)學(xué)報(bào),2006,41(3):120~125.