劉景昊
【摘 要】隨著Internet的迅速發(fā)展,各種信息以指數(shù)級的速度增長,類型也愈來越多。如何有效的解決信息過載帶來的種種問題,如何滿足各種不同用戶的需求,成為新的研究課題。本文提出一種基于混合方法的推薦系統(tǒng)方法,經(jīng)驗(yàn)性的比較了混合算法與單純貼近算法之間的表現(xiàn),并且說明了混合方法較純貼近方法可以提供更準(zhǔn)確的推薦效果。
【關(guān)鍵詞】混合推薦系統(tǒng);內(nèi)容算法;人工智能
0.引言
在互聯(lián)網(wǎng)的迅猛發(fā)展下,隨著信息過載問題的逐年升溫,互聯(lián)網(wǎng)用戶對信息需求的日益膨脹,推薦系統(tǒng)在各個(gè)領(lǐng)域的數(shù)字化進(jìn)程中扮演著越來越重要的角色.在過去的數(shù)十年中,推薦系統(tǒng)在學(xué)術(shù)研究、工業(yè)界各種應(yīng)用上取得了長足的進(jìn)步.然而,現(xiàn)有的推薦算法仍然存在特征提取、冷啟動、過擬合、稀疏問題,需要不斷完善和解決.一些推薦系統(tǒng)通過混合使用協(xié)同方法和基于內(nèi)容的方法,來避免單純使用基于內(nèi)容的方法或協(xié)同算法中的某些局限[1]。將協(xié)同方法和基于內(nèi)容的方法混合應(yīng)用至推薦系統(tǒng)有很不同方式,大概可以分為以下幾類:
(1)單獨(dú)分開執(zhí)行協(xié)同方法和基于內(nèi)容的方法并將其預(yù)測合并。
(2)將一些基于內(nèi)容算法的特征應(yīng)用于協(xié)同方法中。
(3)將一些協(xié)同方法的特征應(yīng)用于基于內(nèi)容方法中。
(4)建立一個(gè)將協(xié)同算法和基于內(nèi)容算法特征結(jié)合應(yīng)用的模型。
上述方法已經(jīng)被推薦系統(tǒng)的研究者所采用,下面將展開介紹。
構(gòu)建混合推薦系統(tǒng)的一種方法是單獨(dú)執(zhí)行協(xié)同算法和基于內(nèi)容的方法。然后,我們可以得到兩種情況。首先,我們可以將從各自的推薦系統(tǒng)中得到的結(jié)果(評級)采用線性組合或者投票機(jī)制的方法進(jìn)行處理,以獲得一個(gè)最終的結(jié)果。此外,我們可以采用其中某一種推薦系統(tǒng),也即在任何情況下都采用一種比其他推薦系統(tǒng)都要好的系統(tǒng),當(dāng)然,這里的好是建立在一定的“質(zhì)量”評價(jià)標(biāo)準(zhǔn)之上的。比如,每日學(xué)習(xí)系統(tǒng)選擇了一個(gè)可以對推薦給出高置信區(qū)間值的推薦系統(tǒng),同時(shí)這個(gè)系統(tǒng)能夠選擇出那些與用戶過去的評價(jià)更加一致的推薦。
1.混合推薦系統(tǒng)概念與特征
一些混合型推薦系統(tǒng),包括Schwaighofer[2]和Rashid [3]里描述的“通過內(nèi)容的協(xié)同”,都基于一些傳統(tǒng)的協(xié)同技術(shù),但是也能夠?yàn)槊總€(gè)用戶保留基于內(nèi)容的文件。這些基于內(nèi)容的文件,不是平常的相關(guān)項(xiàng),而是被用來計(jì)算兩個(gè)用戶之間相似度的項(xiàng)。正如在曾匯艷,麥永浩[4]中所述,這些措施是用來解決一些純協(xié)同方法中遇到的稀疏性相關(guān)問題,從而使許多成對用戶擁有大量重要的相關(guān)項(xiàng)。這種方法的另一個(gè)好處是可以推薦項(xiàng)目給用戶,這些項(xiàng)目不僅在擁有類似文件的用戶之間取得高的評級值,并且同時(shí)能夠在擁有不同文件的用戶中得到高分。這個(gè)項(xiàng)目不僅包含與用戶估計(jì)值高度相關(guān)的一些相似文件,而且也更直接的包含那些與用戶文件相反的估計(jì)值高的項(xiàng)目。Sarwar[6]介紹了一種使用多種不同過濾方法的相似方法---特別是內(nèi)容分析代理業(yè)作為一種附加的方法加入到了協(xié)同過濾算法內(nèi)。由此造成的結(jié)果是,那些與過濾評級評價(jià)一致的用戶往往可以得到更好的推薦效果。與此相類似,使用了一種協(xié)同方法,在這種方法中傳統(tǒng)用戶評級向量被擴(kuò)展了,這正是由一種純粹基于內(nèi)容方法的預(yù)測得到的。
2.混合推薦系統(tǒng)模式
在這個(gè)分類中最流行的方法是把一些降維技術(shù)應(yīng)用在一組基于內(nèi)容的文件中。比如,Herlocker[5]使用了潛在語義索引來創(chuàng)建用戶文件集合的協(xié)同視圖,這些用戶文件是用特征向量來表示的,使得性能相比基于內(nèi)容方法有了改善。
眾多研究者近些年一直在研究這個(gè)問題。部分研究人員建議使用基于內(nèi)容和協(xié)同特性來應(yīng)用在一個(gè)基于單因素的分類中。Balabanovic[7]建議用一個(gè)統(tǒng)一的概率方法用于綜合使用協(xié)同推薦和基于內(nèi)容的推薦,這個(gè)方法是基于概率的潛在語義分析。然而,另一種貼近使用了貝葉斯混合作用回歸模型,也應(yīng)用了馬科夫鏈等預(yù)測和估值方法。更特殊的是使用了用戶的文件信息和在單一統(tǒng)計(jì)模型使用的項(xiàng),來估計(jì)對于用戶i和項(xiàng)目j的未知額定值rij :
r=Xμ+Zу+ωу+e
e|→N(0,σ)
λ|→N(0,Λ)
у|→N(0,Γ)
這里i=1,……,I并且j=1,……,J分別代表了用戶和項(xiàng);e,λ和у是引入產(chǎn)生噪音的隨機(jī)變量,并且沒有注意到不同用戶,不同項(xiàng)目的來源。
Xij是一個(gè)包含了用戶和項(xiàng)特征的矩陣,Zi是一個(gè)用戶特性的向量, ω是一個(gè)項(xiàng)特性的向量。這個(gè)模型中未知參數(shù)是 μ,σ,Λ和Γ,它們的值是從已知數(shù)據(jù)來利用馬科夫鏈方法進(jìn)行處理得到的。總體上來說,利用用戶屬性集{Zj} 來創(chuàng)建一個(gè)用戶文件的一部分,項(xiàng)的屬性集{ωj} 用來創(chuàng)建一個(gè)項(xiàng)文件的一部分,它們的交集{Xij} 來估計(jì)每個(gè)項(xiàng)的等級。
無論用戶何時(shí)對系統(tǒng)發(fā)出請求,它的評級都能通過實(shí)時(shí)按需計(jì)算而有效的得到。一種不同的方法被采用,目的是來改善已經(jīng)存在的協(xié)同過濾算法的性能,在這個(gè)方法中用戶組評級的輸入是被精心挑選的,使用的技術(shù)包括排除噪音、冗余度還有就是利用了評級數(shù)據(jù)的稀疏性。此外,在其中的最新發(fā)展中,K.Yu[9]提出了一種協(xié)同過濾的概率方法,即把基于記憶與基于模型的技術(shù)結(jié)合起來的方法。特別是在[9]中提出的(1)使用主動學(xué)習(xí)的方法來了解每個(gè)用戶偏好的概率模型(2)使用在混合模型中的存儲的用戶文件來計(jì)算推薦。后者提出的方法在一些方面用到了傳統(tǒng)的基于記億的算法思想。
3.總結(jié)
混合推薦系統(tǒng)也可以用一種基于知識的技術(shù)來討論,比如基于案例的推理,這樣做的目的是為了改進(jìn)推薦的準(zhǔn)確性,并且消除一些傳統(tǒng)推薦系統(tǒng)的局限性。比如,基于知識的推薦系統(tǒng)作為主菜,用到一些關(guān)于飯店、烹飪風(fēng)格和食物的知識域,來為它的用戶推薦飯店。基于知識系統(tǒng)的主要缺點(diǎn)是一種對知識獲取的需要。眾所周知,這是大多數(shù)人工智能應(yīng)用的瓶頸。然而,基于知識的推薦系統(tǒng)從應(yīng)用領(lǐng)域發(fā)展而來,這種知識域是從一種機(jī)器可以讀出的表格所構(gòu)建的,比如是一種存在論。舉例來說,快捷系統(tǒng)使用主題存在論的研究,來對用戶在線進(jìn)行推薦。
此外,許多文章,經(jīng)驗(yàn)性的比較了混合算法與單純貼近算法之間的表現(xiàn),并且說明了混合方法較純貼近方法可以提供更準(zhǔn)確的推薦效果。
【參考文獻(xiàn)】
[1]K.Yu,X.Xu,J.Tao,M.Ester,and H.-P.Kriegel.“Instance Selection Techniques for Memory-Based Collaborative Filtering.”Proc.Second SIAM Intl Conf.Data Mining (SDM02),2002.
[2]K.Yu,Tresp,X.Xu,and H.-P.Kriegel,“Probabilistic Memory-Based Collaborative Filtering,”IEEE Trans.Knowledge and Data Eng,vol.16,no.1,pp.56-69,Jan,2004.
[3]A.M.Rashid,I.Albert,D.Cosley,S.K.Lam,S.M.McNee,J.A.Konstan,andJ.Riedl,“Getting to Know You:Learning New User Preferences in Recommender Systems,”Proc.Intl Conf.Intelligent User Interfaces,2002.
[4]曾匯艷,麥永浩.基于內(nèi)容預(yù)測和項(xiàng)目評分的協(xié)同過濾推薦[J].計(jì)算機(jī)應(yīng)用,2004,24(1):111-113.
[5]Herlocker J,Konstan J,Borchers A,et al.An Algorithmic Framework for Performing Collaborative Filtering[C]//Proceedingsofthe22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval.[S.l.]:ACM Press,1999.
[6]Sarwar B,Karypis G.Item-based Collaborative Filtering Recom-mendation Algorithm[C]//Proceedings of the 10th International World Wide Web Conference.Hong Kong,China: [s.n.],2001.
[7]Balabanovic M,Shohalm Y.Fab:Content Based Collaborative Recommendation[J].Communication of the ACM,1997,40(3):66-72.
[8]趙建東, 陳小樂.基于Internet 的智能家庭網(wǎng)絡(luò)控制器的實(shí)現(xiàn)[J].電子技術(shù)應(yīng)用,2002,28(12):46-48.
[9]K.Yu,A.Schwaighofer,V.Tresp,X.Xu,and H.-P.Kriegel,“Probabilistic Memory-Based Collaborative Filtering,”IEEE Trans.Knowledge and Data Eng, vol.16,no.1,pp.56-69,Jan.2004.
[10]楊思忠,劉錦德.家庭網(wǎng)絡(luò)及相關(guān)技術(shù)[J].計(jì)算機(jī)應(yīng)用,2000,20(7):24-28.
[11]葉朝輝,楊士元.智能家庭網(wǎng)絡(luò)研究綜述[J].計(jì)算機(jī)應(yīng)用研究,2001,18(9):1-6.
[12]宋倩,李祥珍.基于電力線通信技術(shù)的智能家居系統(tǒng)[J].電力系統(tǒng)通信,2004,25(12):40-43.現(xiàn)代通信網(wǎng)絡(luò).