韓曉吉 劉鳳鳴
山東師范大學(xué)管理科學(xué)與工程學(xué)院 山東 250014
信息在開放和互動的網(wǎng)絡(luò)環(huán)境中增長越來越快,同時也出現(xiàn)了信息過剩,知識難獲取的狀況。個性化搜索引擎針對不同的用戶,利用其背景知識、興趣特征等多種信息,對其檢索詞和檢索結(jié)果進行分析和提煉后再呈現(xiàn)給用戶,提高檢索結(jié)果的精準(zhǔn)度和用戶的滿意度,節(jié)省用戶在檢索結(jié)果處理上所花費的精力。用戶興趣模型是用來獲得、存儲、管理用戶需求及其興趣特征,描述用戶潛在的需求及興趣的模型,它不僅僅是用戶興趣的一般描述,而是面向算法、具有特定數(shù)據(jù)結(jié)構(gòu)、形式化的知識,它是個性化檢索的關(guān)鍵。由于用戶興趣模型建立之初缺乏完整的用戶描述,系統(tǒng)所獲取用戶興趣信息的相關(guān)度和準(zhǔn)確度低等因素,所以最初建立的用戶興趣模型不能完全反應(yīng)用戶的興趣需求;而且用戶興趣隨環(huán)境和時間的變化會不斷地發(fā)展變化,表現(xiàn)在模型中就是用戶興趣產(chǎn)生了漂移;長久不用的興趣知識會造成數(shù)據(jù)冗余,不僅會浪費存儲空間,增加計算的復(fù)雜度,而且新更新的知識與之前的類似知識會產(chǎn)生沖突。所以用戶興趣模型的更新在個性化檢索系統(tǒng)中尤為重要,它決定了系統(tǒng)對用戶的適應(yīng)度,也決定了系統(tǒng)的服務(wù)質(zhì)量。本文在闡述用戶興趣模型更新機制后,基于艾賓浩斯遺忘原理提出了一種新的用戶興趣模型更新機制。
用戶興趣更新是指在用戶興趣模型建立之后,對模型增加新獲取的用戶興趣知識或者刪除過時不用的用戶興趣知識。更新用戶興趣模型可以降低模型的信息存儲量,減少模型中的數(shù)據(jù)冗余,簡化計算復(fù)雜度,并提高計算的精度;即使更新的用戶興趣模型能夠使個性化檢索系統(tǒng)更好的適應(yīng)用戶,提高服務(wù)質(zhì)量。一些建模方法可以基于模型表示技術(shù)的特點來更新,如機器學(xué)習(xí)通過歸納和分析方法來更新、神經(jīng)網(wǎng)絡(luò)通過增加和刪除無效的神經(jīng)元來更新、遺傳算法通過遺傳優(yōu)化染色體來更新;也有一些模型需要系統(tǒng)和用戶一起來更新模型,如基于主題、關(guān)鍵詞列表以及空間向量表示法就可以通過修改用戶興趣關(guān)鍵詞或者關(guān)鍵詞權(quán)重的方式來更新,因為本身這些模型興趣數(shù)據(jù)的獲取就有來源于用戶的部分,用戶所提交的數(shù)據(jù)也占據(jù)了模型的很大比例。但是所有模型的更新都要涉及到兩個方面:用戶興趣漂移和更新用戶興趣模型,但是上面所介紹的用戶興趣的表示技術(shù)卻不能包含上面的兩個方面,他們只有把那兩個方面都做好的基礎(chǔ)上才能基于自己的特點來更新用戶興趣模型。有關(guān)用戶興趣漂移研究較多,其中包括漂移概念研究、興趣變化規(guī)律研究、興趣漂移模型研究、興趣漂移機制研究以及興趣跟蹤研究等。1986年Schlimmer和Granger第一次建立了可以更新的用戶興趣模型STAGGER,這是一個逐漸的學(xué)習(xí)系統(tǒng),它能夠動態(tài)的追蹤用戶的變化,基于貝葉斯網(wǎng)絡(luò)將用戶興趣分為感興趣和不感興趣兩種,通過增加新的屬性節(jié)點和調(diào)整興趣之間的鏈接權(quán)重來更新用戶興趣模型。1994年Mitchell 等使用一種軟件助手來安排會議,這種軟件采用機器學(xué)習(xí)方法來獲取用戶對會議安排的興趣,學(xué)習(xí)方法使用至少包含180個樣本的時間窗來快速的適應(yīng)用戶的興趣,這180個樣本由新產(chǎn)生的用戶興趣樣本與之前存儲在模型之中的舊樣本一起組成,這種機制主要基于這些樣本帶來的測試來決定用戶興趣是否發(fā)生了偏移。1995年Moloof和Michalski提出基于遺忘部分興趣的漸進遺忘機制來更新用戶興趣模型,這種更新機制是選擇在興趣描述邊界的案例,然后將現(xiàn)在對用戶興趣的相關(guān)度小的或者獨立的樣本移除用戶興趣模型。這種方法用基于時間的遺忘機制將一些超過時間閾的部分用戶興趣模型移除,從而實現(xiàn)更新用戶興趣模型。1996年 Widermer和Kubat提出的FLORA系統(tǒng)引入了遺忘技術(shù),這種遺忘技術(shù)是通過可調(diào)節(jié)的窗口來實現(xiàn)的,所謂遺忘就是刪除達到遺忘閾的用戶興趣數(shù)據(jù),窗口大小和遺忘頻率是假設(shè)的,基于這種假設(shè)對模型做啟發(fā)式的動態(tài)更新。1997年Widermer提出了基于元學(xué)習(xí)方法更新用戶興趣模型的方法,這種方法假設(shè)用戶的背景知識以及用戶現(xiàn)在感興趣的知識能夠預(yù)測用戶下一次要檢索的知識,而且提出了2級學(xué)習(xí)機制,1級是用元學(xué)習(xí)方法檢索用戶興趣漂移,1級是將用戶的背景知識和現(xiàn)有興趣知識信息用在學(xué)習(xí)過程中。經(jīng)證明使用2級學(xué)習(xí)機制可以很好的對用戶興趣模型進行更新。1998年Harrie 、Sammut以及Horn使用元學(xué)習(xí)方法識別潛在的用戶背景,這種方法假設(shè)用戶興趣在相當(dāng)長的時間內(nèi)是穩(wěn)定的,它使用批處理學(xué)習(xí)機制與粗集方法來檢測用戶興趣的漂移。1998年Grabtree和Soltusiak 通過監(jiān)控用戶瀏覽WEB網(wǎng)頁和使用電子郵件的習(xí)慣來做為更新用戶興趣模型的依據(jù),并使用粗集方法來檢測用戶興趣的更改,他們的研究表明用戶興趣可以通過測量用戶興趣度在一段時間內(nèi)的相似度來查看興趣是否發(fā)生了改變。1999年Billsus和Pazzani引入智能Agent來更新用戶興趣模型,首先要將用戶興趣分為長期和短期兩類,短期興趣模型只要通過觀察用戶最近的行為就能做出更新與否的決策,但是從長期興趣模型需要逐漸的來更新。2000年Ivan Koychev改進了時間窗方法,它使用一種標(biāo)記測試來感測用戶的興趣漂移,然后通過調(diào)整時間窗的窗口大小,目的是最大化的提高對最近用戶興趣數(shù)據(jù)分類的準(zhǔn)確性。同年Ivan Koychev提出了另外一種漸進遺忘機制,并給出了遺忘函數(shù)W=f(t),他將每一個樣本都賦予一定的權(quán)重,權(quán)重的大小隨著時間會不斷變化,當(dāng)達到一定的權(quán)重閾值時候,這個用戶興趣就要更新。2003年Abreu在虛擬地圖的應(yīng)用中引入遺忘機制,并使用 ED方法改進了遺忘機制在用戶興趣模型中的更新效果。2007年Yalcin指出了單獨的VSM無法更新用戶興趣模型,所以他們引入了Learn++算法來支持興趣漂移,綜合的 VSM 可以很好的適應(yīng)用戶興趣的變化。2008年Yingrong li定義了一種UChoo的方法來更新用戶興趣模型,UChoo方法也是定義對每個興趣樣本都定義了以個權(quán)重描述,這個權(quán)重描述使得最近的用戶興趣比時間長久的用戶興趣更重要一些,反映在權(quán)重上值就更大一些。
假設(shè)用戶興趣模型已經(jīng)建立起來,這時候不需要用戶提供興趣知識,系統(tǒng)使用機器學(xué)習(xí)方法可以獲取用戶的興趣信息。但是系統(tǒng)并不知道用戶的興趣是不是改變了,如果改變了新獲取的用戶興趣數(shù)據(jù)該怎么與原來的用戶興趣數(shù)據(jù)融合在一起;系統(tǒng)對那些過時的,用戶不在感興趣的樣本該怎么處理才能達到最好的服務(wù)效果。之前學(xué)者們大多都通過時間窗方法和遺忘機制來解決這個問題。因為用戶興趣模型是通過用戶描述文件(User Profile)來表示用戶興趣知識的,而用戶描述文件中的用戶興趣是以分類的方式聚集在一起的。如果將用戶的興趣分為長期興趣和短期興趣兩種,短期興趣由于影響因素比較的多,更新比較快,時間窗方法將是一種比較好的解決方式,時間窗方法應(yīng)用的基礎(chǔ)是用戶興趣是以用戶最近瀏覽序列來體現(xiàn)的,通過瀏覽序列以及瀏覽內(nèi)容可以看出用戶興趣是否發(fā)生了變更。長期興趣一般比較穩(wěn)定,雖然也存在著影響因素,但是衰減比較的慢,學(xué)者們更多的是采用遺忘機制來更新長期興趣。
更新是用戶興趣模型的重要功能,模型只有一直獲取用戶的興趣數(shù)據(jù),才能保證系統(tǒng)對用戶的適應(yīng)性,正因如此模型的數(shù)據(jù)量才會不斷地增大。根據(jù)帕累托法則,20%的重點信息能夠產(chǎn)出80%的決策結(jié)果,所以只需要保留重要的,與用戶下一次檢索密切相關(guān)的信息,這樣就可以把長久不用的興趣信息更新掉,從而減小模型的信息儲存量。用戶的興趣是否被模型更新取決于與之聯(lián)系的事件的數(shù)目、它所涉及的內(nèi)容與用戶的相關(guān)度、時間以及現(xiàn)在所能表現(xiàn)用戶當(dāng)前興趣的準(zhǔn)確度等因素。對用戶興趣模型來說,相對于獲取用戶興趣數(shù)據(jù)是主動,用戶興趣的更新則是被動的。也就是說模型能夠主動去選擇是否獲取并存儲用戶的某一興趣,而不能選擇去更新用戶的某一興趣,因為系統(tǒng)很難判斷當(dāng)前的用戶興趣是否產(chǎn)生了漂移,也不知道獲取的信息將怎么替代過時的信息。用戶興趣模型更新的這些特點與人腦的遺忘機制很相似。人腦總是只保存最有意義和最經(jīng)常使用的那部分數(shù)據(jù),大量的次要信息在長時間不使用后會被慢慢遺忘,這種遺忘的機制使得大腦總是能適應(yīng)不斷增長的信息處理工作,更快地提取到最有價值的那部分數(shù)據(jù)。德國心理學(xué)家赫爾曼.艾賓浩斯(Hermann Ebbinghaus)認為遺忘的速度在記憶緊接著的過后最快,然后慢慢放緩,直到遺忘的停止。但此時記憶的內(nèi)容不到原先的30%。他認為“記憶與遺忘是時間的函數(shù)”心理學(xué)研究認為,并根據(jù)實驗結(jié)果繪成遺忘曲線,即著名的艾賓浩斯遺忘曲線。如圖1所示。
圖1 艾賓浩斯遺忘曲線
從圖1可以看出人的遺忘是有規(guī)律的,遺忘的進程并不是均衡的,而是先快后慢的方式,可以認為在遺忘最快的那段時間大腦中所保留的知識稱為短期記憶,遺忘到最后剩余的不足30%就幾乎是穩(wěn)定的長期記憶了。心理學(xué)研究表明,人的興趣對應(yīng)于記憶也可分為長期興趣和短期興趣。興趣的衰減同記憶一樣也是時間的函數(shù),但是衰減的時間并不一致,衰減的規(guī)律也有所區(qū)別,但是大致是相同的。本文則基于艾賓浩斯遺忘原理給出假設(shè),在前人研究的基礎(chǔ)上給出自己對興趣漂移的觀點。
檢測用戶興趣漂移是用戶興趣模型更新重要的一個環(huán)節(jié),因為如果興趣發(fā)生漂移,當(dāng)前所獲取用戶的興趣知識跟用戶描述文件里存儲的知識就是相同的,如果加入就會產(chǎn)生數(shù)據(jù)冗余,增加了用戶描述文件的存儲量,同時也增加了對用戶下一次檢索而做的興趣計算的復(fù)雜度。只有在判定用戶的興趣發(fā)生了變更,才能去更新用戶描述文件。本文介紹了之前學(xué)者們對用戶興趣漂移做出的研究,學(xué)者們提出的研究都很有建樹,同時也加快了用戶興趣漂移研究的進程。筆者發(fā)現(xiàn)前人的研究都集中在了用戶興趣的預(yù)測,但忽略了預(yù)測的驗證。依據(jù)艾賓浩斯的遺忘曲線我們可以得到記憶的遺忘是有規(guī)律的,對應(yīng)于記憶的衰減也是符合規(guī)律的,而且在正常狀況下,這種規(guī)律將是一種遞減函數(shù)。基于這樣的假設(shè)筆者提出基于艾賓浩斯遺忘規(guī)律的前驗用戶興趣漂移。獲取當(dāng)前的用戶興趣之后加入到用戶描述文件之中,如果新生成的興趣衰減曲線符合系統(tǒng)設(shè)置的閾值,那么表明興趣并沒有發(fā)生漂移,這里我們使用漸進遺忘機制,就是將描述用戶興趣的關(guān)鍵詞賦予權(quán)重,權(quán)重的大小由衰減函數(shù)隨著時間計算得出。如果發(fā)現(xiàn)新生成的興趣衰減函數(shù)不符合常態(tài),已經(jīng)超出了系統(tǒng)設(shè)定的閾值,那么可以判定用戶的興趣發(fā)生了漂移。這個時候我們將重新為用戶的新興趣建立用戶興趣描述文件。
用戶興趣模型的更新需要分為兩種方式:修改興趣權(quán)重和重建用戶描述文件。前者是用戶的興趣發(fā)生了衰減,但是并未發(fā)生漂移,后者是用戶興趣發(fā)生了漂移。對于更新用戶興趣模型的研究,大多學(xué)者都在自己研究的基礎(chǔ)上提出了樣本數(shù)量的問題,樣本數(shù)量決定了用戶興趣在整個模型中的地位,同時也決定了用戶興趣的性質(zhì)。也就是量變會引起質(zhì)變。顯然本文提出的這兩種更新方式都是很宏觀的,沒有具體的給出更新數(shù)量。現(xiàn)在的更新的研究可以分為三種:全部更新,新的興趣知識全部加入到用戶興趣模型,過時的興趣知識全部刪除;部分更新,也就是漸進遺忘機制,將當(dāng)前興趣模型加入的同時,將處于興趣另一個邊界的興趣知識,也就是時間隔得最久的知識更新掉;全部加入,同時保留用戶的全部興趣知識。顯然第一種和第三種都不符合本文的意向,想要=應(yīng)用于實際也不太現(xiàn)實。對于第二種部分更新的方式,有學(xué)者采用黃金分割法,也有學(xué)者采用線函數(shù),還有20/80的方法來分。兩外基于時間窗方法的研究者在自己的試驗中也給出了相應(yīng)的更新數(shù)量,Ivan Koychev就得出了130的最優(yōu)值,但是這些也只是基于在個人系統(tǒng)的研究數(shù)值。本文基于學(xué)者們的研究成果,提出基于遺忘百分比的更新。也就是根據(jù)遺忘曲線上的遺忘百分比,將模型中的興趣知識相應(yīng)的更新。這種方法的優(yōu)點是簡單易行,但是基于每個人的興趣衰減規(guī)律的基礎(chǔ)上的。因為艾賓浩斯提出的遺忘曲線是在統(tǒng)計大量不同人的遺忘數(shù)據(jù)之后生成的一種曲線,從而這種曲線具有共性的群體規(guī)律,此遺忘曲線并不考慮接受實現(xiàn)個人的個性特點,而是尋求處于平衡點的遺忘規(guī)律。因為我們的生理特點、生活經(jīng)歷不同,可能導(dǎo)致我們有不同的興趣習(xí)慣、興趣特點。我們要根據(jù)每個人的不同特點,尋找到屬于自己的興趣衰減方式。
本文在分析艾賓浩斯遺忘原理的基礎(chǔ)上,提出對應(yīng)的用戶興趣遺忘機制,并基于前人研究的基礎(chǔ)上,基于艾賓浩斯遺忘規(guī)律從用戶興趣漂移和更新用戶興趣模型兩個方面的提出前驗用戶興趣漂移和基于遺忘百分比的更新算法。艾賓浩斯遺忘曲線只是時間的函數(shù),對于其他的影響因素并沒有涉及,本文也只是基于興趣時間來更新用戶興趣模型。
[1]Koychev I,Lothian R.Tracking.Drifting concepts by time window optimisation[M].Research and Development in Intelligent Systems XXII.2006.
[2]Abreu,A,Correia,L.An hybrid aping approach with place forgetting[J].42nd IEEE Conference on Decision and Control.2003.Proceedings.
[3]Yalcin.A,Erdem.Z,Gurgen.F.Ensemble based incremental SVM classifiers for changing environments[J].22nd international symposium on Computer and information sciences.2007.
[4]Yingrong Li,Yang Wei,Anastasiya Kolesnikova,Won Don Lee.A New Gradual Forgetting Approach for Mining Data Stream with Concept Drift [J].International Symposium on Information Science and Engieering.2008.
[5]宋麗哲,牛振東,余正濤,來瀚濤,董祥軍.一種基于混合模型的用戶興趣漂移方法[J].計算機工程.2006.
[6]郭新明,弋改珍.混合模型的用戶興趣漂移算法[J].智能系統(tǒng)學(xué)報.2010.
[7]Koychev.I,Schwab.I.Adaptation to Drifting User's Interests.In proc.of ECML2000 Workshop: Machine Learning in New Information Age.2000.
[8]Mladenic D.Text-learning and Related Intelligent Agents.IEEE Intelligent Systems 1999.
[9]Conlan.O,Wade.V,Bruen.C,Grgan.M.Multi-model metadata driven approach to adaptive hypermedia services for personalized eLearning [J].Adaptive hypermedia and adaptive web-based systems.100–111.Springer,Berlin.2002.
[10]Peter Eberle.Christian Schwarzinger,Christian Starry.User modeling and cognitive user support: towards structured development[J].Univ Access Inf Soc.2010.