楊立 胡運(yùn)紅 邵桂榮
摘要:針對(duì)現(xiàn)有的推薦系統(tǒng)多采用近鄰用戶的偏好行為來預(yù)測(cè)當(dāng)前用戶的偏好,而不考慮用戶的偏好會(huì)隨著時(shí)間的變化而改變,影響了推薦準(zhǔn)確率的問題,提出了一種基于時(shí)間衰減與偏好波動(dòng)的協(xié)同偏好獲取方法。首先,基于時(shí)間因素、用戶歷史偏好等獲取偏好衰減增量與衰減速度,并據(jù)此生成衰減函數(shù),使用衰減函數(shù)對(duì)用戶歷史行為數(shù)據(jù)進(jìn)行衰減修正;其次,基于用戶的歷史偏好分布獲取其偏好波動(dòng)幅度;最后,將衰減函數(shù)與偏好波動(dòng)幅度分別加入到最近鄰獲取與偏好獲取流程,協(xié)同為用戶生成推薦列表。在大規(guī)模真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,所提出的方法與基于屬性評(píng)分分布的協(xié)同過濾(RDCF)與最優(yōu)TopN的協(xié)同過濾(OTCF)相比,平均絕對(duì)誤差(MAE)值分別降低了近6.42%和7.73%。實(shí)驗(yàn)結(jié)果表明所提方法能夠提高推薦準(zhǔn)確度,提升推薦質(zhì)量。
關(guān)鍵詞:
推薦系統(tǒng);時(shí)間衰減;衰減增量;衰減速度;偏好波動(dòng)
中圖分類號(hào): TP391.9; TP18 文獻(xiàn)標(biāo)志碼:A
0引言
隨著大數(shù)據(jù)時(shí)代的到來,海量信息資源充斥整個(gè)信息服務(wù)領(lǐng)域,而其展示平臺(tái)或資源獲取途徑雖然在近年來有了較大的發(fā)展,資源檢索與篩選技術(shù)也趨于成熟,但仍不能為用戶提供符合其需求的個(gè)性化資源推薦服務(wù)。特別是隨著移動(dòng)客戶端的普及,資源展示界面越來越小型化,用戶及服務(wù)提供商對(duì)于高質(zhì)量的推薦系統(tǒng)的需求也越來越大。
推薦系統(tǒng)的主要思路就是基于用戶的歷史偏好信息,采用基于模型或基于內(nèi)容的方法來建立用戶的興趣模型,將用戶可能感興趣的,且沒有過行為記錄的商品推薦給用戶[1-3]。目前,許多研究者都提出了不同的推薦系統(tǒng)實(shí)現(xiàn)方案,其中最著名與應(yīng)用最廣的是基于協(xié)同過濾的推薦系統(tǒng),協(xié)同過濾起源與生物理論中的“協(xié)同進(jìn)化”,原意為生物鏈中某一個(gè)物種發(fā)生進(jìn)化,而與其相關(guān)的其他物種也會(huì)隨之進(jìn)化。在信息獲取領(lǐng)域,協(xié)同過濾基于這種思想,通過獲取與待預(yù)測(cè)偏好用戶的偏好最相似的其他用戶,并基于這些用戶的偏好行為為當(dāng)前用戶生成推薦服務(wù)。例如,Chen等[4]提出了一種隨著時(shí)間變化并考慮用戶接受能力的推薦方法,在數(shù)據(jù)稀疏性的環(huán)境下,提高了推薦準(zhǔn)確度;汪靜等[5]用共同評(píng)分和相似性權(quán)重來改進(jìn)協(xié)同過濾推薦算法,增加了用戶間共同評(píng)分權(quán)重,在一定程度上提高了推薦準(zhǔn)確度;郭晶晶等[6]采用李雅普諾夫模型與信任度相結(jié)合,將推薦系統(tǒng)應(yīng)用于基于物聯(lián)網(wǎng)的信任推薦領(lǐng)域,提升了系統(tǒng)效益;孫光福等[7]提出了一種基于用戶間時(shí)序行為的推薦方法,并將最近鄰集合采用基于奇異值分解的協(xié)同過濾算法進(jìn)行處理,提高了推薦準(zhǔn)確度;王興茂等[8]從非共同評(píng)分項(xiàng)目集出發(fā),基于歷史偏好記錄獲取近鄰用戶的貢獻(xiàn)程度,提高了推薦質(zhì)量;Focuss等[9]基于圖模型相關(guān)理論提出了一種基于隨機(jī)游走的節(jié)點(diǎn)相似度計(jì)算方法,有效地緩解了協(xié)同過濾推薦系統(tǒng)中數(shù)據(jù)稀疏性問題對(duì)推薦準(zhǔn)確度的影響。而由于用戶的偏好會(huì)隨著時(shí)間的變化而產(chǎn)生波動(dòng)[10],上述方法并沒有考慮時(shí)間因素對(duì)于用戶偏好的影響,影響了推薦的準(zhǔn)確度。針對(duì)這個(gè)問題本文提出了一種基于時(shí)間衰減與偏好波動(dòng)的協(xié)同偏好獲取方法,首先基于時(shí)間因素、用戶歷史偏好等獲取偏好衰減增量、衰減速度,并生成衰減函數(shù);其次,基于用戶的歷史偏好分布獲取其偏好波動(dòng)幅度,并將衰減函數(shù)與偏好波動(dòng)幅度分別加入到最近鄰獲取與偏好獲取流程,協(xié)同為用戶生成推薦列表。不但考慮了用戶自身的偏好波動(dòng),還同時(shí)加入了用戶偏好隨時(shí)間的衰減對(duì)其偏好的影響,能取得更好的推薦準(zhǔn)確度。
1融合時(shí)間衰減與偏好波動(dòng)的偏好預(yù)測(cè)方法
本文在經(jīng)典協(xié)同過濾算法的基礎(chǔ)上提出了一種融合時(shí)間衰減與偏好波動(dòng)的協(xié)同偏好獲取方法,在用戶真實(shí)歷史偏好行為數(shù)據(jù)的基礎(chǔ)上,基于衰減速度與衰減增量,獲取基于時(shí)間因素的用戶偏好衰減函數(shù),并據(jù)此修正用戶的歷史偏好行為?;诖?,通過偏好行為相似性度量算法度量用戶偏好間的相似關(guān)系,并結(jié)合基于歷史偏好合同類偏好所獲取的偏好波動(dòng)幅度,為用戶生成推薦服務(wù)??傮w流程如圖1所示。
1.1相似度度量方法
由于用戶的偏好會(huì)隨著時(shí)間的變化而產(chǎn)生波動(dòng),在多數(shù)情況下,用戶對(duì)某類項(xiàng)目的喜好程度會(huì)隨著時(shí)間的變化而逐漸衰減,衰減的程度與策略與具體用戶相關(guān)。例如用戶在一定的時(shí)期內(nèi)喜歡某個(gè)歌曲,隨著時(shí)間的變化和用戶聽歌次數(shù)的增加,該用戶對(duì)這個(gè)歌曲的喜好程度會(huì)逐漸減少。據(jù)此本文提出了一種用戶偏好隨時(shí)間衰減策略,基于時(shí)間與用戶的歷史偏好,通過定義衰減函數(shù)、衰減速度、衰減增量,將時(shí)間因素與用戶偏好變化關(guān)聯(lián)起來,具體算法描述與相關(guān)定義如下。
1.2偏好波動(dòng)
偏好波動(dòng)(Preference Fluctuation)指的是在用戶自身因素的影響下,用戶的偏好所產(chǎn)生波動(dòng)的情況。即是在排除外界影響因素的前提下,用戶偏好不會(huì)恒定不變,而是會(huì)有一定幅度波動(dòng)的現(xiàn)象。通過度量用戶歷史偏好間的差異程度,獲取用戶的偏好波動(dòng)幅度(Preference Fluctuation Range),基于此去修正預(yù)測(cè)的用戶偏好。具體表示如下:
Puw=Puw·(1+PFR)(9)
其中:Pui為采用偏好預(yù)測(cè)算法為用戶u生成的對(duì)于項(xiàng)目w的預(yù)測(cè)評(píng)分,PFR為偏好波動(dòng)幅度。
PFR=∑ISISL∑j,l∈Is, j≠lPuj-PulCard(ISL)·Card(IS)·(Card(IS)-1),ND≥NX
-∑ISISL∑j,l∈Is, j≠lPuj-PulCard(ISL)·Card(IS)·(Card(IS)-1),其他 (10)
其中:Is表示任一同類商品集合;ISL為IS的集合,即所有同類商品的集合;Pul與Puj分別表示用戶u對(duì)于同類項(xiàng)目l與j的歷史偏好值;Card(IS)與Card(ISL)分別表示商品集合IS與ISL中的項(xiàng)目數(shù)量;ND表示在集合ISL中用戶u的偏好值大于等于其均值(用戶u對(duì)其他所有項(xiàng)目的評(píng)分均值)的歷史偏好行為數(shù)量;NX則為其中小于其均值的歷史偏好行為數(shù)量。即是根據(jù)用戶歷史偏好的分布情況,提出了增強(qiáng)與懲罰兩種修正策略,并基于修正后的偏好值,將值最大的TOPN個(gè)項(xiàng)目推薦給用戶u。
1.3方法實(shí)施步驟
基于用戶的歷史行為數(shù)據(jù),方法的實(shí)施步驟如下:
1)基于時(shí)間因素、用戶歷史偏好等獲取偏好衰減增量;
2)計(jì)算用戶偏好衰減速度;
3)根據(jù)衰減增量與衰減速度生成衰減函數(shù);
4)根據(jù)衰減函數(shù)獲取衰減后的用戶行為,并獲取修正后的行為最近鄰;
5)根據(jù)歷史偏好行為與同類偏好行為生成偏好波動(dòng)幅度;
6)基于修正后的行為最近鄰和偏好波動(dòng)幅度,獲取用戶偏好。
2實(shí)驗(yàn)設(shè)計(jì)及結(jié)果分析
2.1實(shí)驗(yàn)數(shù)據(jù)集
本文采用Netflix數(shù)據(jù)集作為本文提出方法進(jìn)行仿真實(shí)驗(yàn)的基礎(chǔ)數(shù)據(jù),Netflix是最常用的推薦領(lǐng)域真實(shí)數(shù)據(jù)集之一,它采用評(píng)分值來度量用戶對(duì)電影的喜好程度。每個(gè)電影采用五分制,分值越高則表明電影越符合用戶的興趣。Netflix共涉及48萬個(gè)用戶對(duì)1.7萬個(gè)電影的近一億條偏好行為數(shù)據(jù)(評(píng)分制,最高為5分),以及相應(yīng)的偏好行為發(fā)生的時(shí)間信息(1998年10月到2005年12月),精確到“天”。本文實(shí)驗(yàn)數(shù)據(jù)是Netflix的子集,共選取了3000個(gè)用戶對(duì)近2200個(gè)電影的數(shù)據(jù)子集,并將該數(shù)據(jù)集分為訓(xùn)練集與測(cè)試集兩部分,分別進(jìn)行實(shí)驗(yàn)檢驗(yàn)。
2.2算法評(píng)價(jià)標(biāo)準(zhǔn)
目前評(píng)價(jià)推薦算法優(yōu)劣的標(biāo)準(zhǔn)主要可分為統(tǒng)計(jì)精度度量和決策支持精度度量兩種策略。本文所采用的平均絕對(duì)誤差(Mean Absolute Error,MAE)是統(tǒng)計(jì)精度度量策略中比較常用和受到廣泛認(rèn)可的評(píng)價(jià)策略。MAE通過度量所提出的推薦算法預(yù)測(cè)出的用戶偏好與實(shí)際用戶偏好間的差異程度,來評(píng)價(jià)所提出推薦算法的優(yōu)劣,其值越小則說明提出的推薦算法所作出的預(yù)測(cè)與用戶實(shí)際偏好間的偏差越小,推薦準(zhǔn)確度越好。假設(shè)根據(jù)推薦算法預(yù)測(cè)出用戶評(píng)分為{p1,p2,…,pN},而其對(duì)應(yīng)的真實(shí)用戶評(píng)分為{q1,q2,…,qN},則MAE可表示為:
MAE=(∑Ni=1pi-qi)/N(11)
2.3實(shí)驗(yàn)設(shè)計(jì)及結(jié)論
本文實(shí)驗(yàn)主要包括兩部分:第1部分是參數(shù)檢驗(yàn)實(shí)驗(yàn),主要檢驗(yàn)衰減速度中的λ與χ參數(shù),即獲取不同偏好值對(duì)于衰減速度的不同影響情況;第2部分是對(duì)比實(shí)驗(yàn),將提出的基于波動(dòng)序列的推薦算法與現(xiàn)有算法進(jìn)行對(duì)比。
實(shí)驗(yàn)1參數(shù)λ與χ檢驗(yàn)實(shí)驗(yàn)。
針對(duì)實(shí)驗(yàn)所用數(shù)據(jù)集Netflix,分別提取20%、30%、50%、70%的數(shù)據(jù)作為訓(xùn)練集,其余作為測(cè)試集進(jìn)行實(shí)驗(yàn),由于參數(shù)λ與χ影響的是不同偏好值下的偏好衰減速度,兩參數(shù)之間沒有交互影響關(guān)系,在進(jìn)行實(shí)驗(yàn)時(shí),兩個(gè)參數(shù)所對(duì)應(yīng)的偏好值分離開,并分別進(jìn)行實(shí)驗(yàn)檢驗(yàn)。分別以兩種情況下所獲取的修正后的用戶歷史偏好作為預(yù)測(cè)評(píng)分的基礎(chǔ)數(shù)據(jù),以分別判定兩種參數(shù)對(duì)于推薦準(zhǔn)確度的影響。經(jīng)過反復(fù)對(duì)比實(shí)驗(yàn)選取出幾組有代表性的λ與χ取值,如表1,通過對(duì)比所提出算法的MAE值來選取針對(duì)當(dāng)前數(shù)據(jù)集最優(yōu)的參數(shù)λ與χ的取值。實(shí)驗(yàn)結(jié)果見圖2~3所示(其中R表示最近鄰個(gè)數(shù))。
分別對(duì)比不同數(shù)據(jù)集比例下,參數(shù)λ與χ的取值對(duì)推薦結(jié)果MAE值的影響可以發(fā)現(xiàn),隨著訓(xùn)練集比例的增加,所提出推薦算法的MAE值呈現(xiàn)出遞減的趨勢(shì),即推薦的準(zhǔn)確度越來越高。分別對(duì)比參數(shù)λ與χ,可以發(fā)現(xiàn)在4種數(shù)據(jù)集模式下,當(dāng)λ=0.46, χ=1.56時(shí)算法能夠取得整體最佳的推薦準(zhǔn)確度,所以在以下的實(shí)驗(yàn)中,選取λ=0.46, χ=1.56。
實(shí)驗(yàn)2與其他算法對(duì)比實(shí)驗(yàn)。
針對(duì)當(dāng)前數(shù)據(jù)集,經(jīng)過多次實(shí)驗(yàn)對(duì)比,選取30%與50%兩種數(shù)據(jù)集模式將本文算法與現(xiàn)有的推薦算法進(jìn)行對(duì)比。經(jīng)過反復(fù)測(cè)試與篩選,本文選取了基于屬性評(píng)分分布的協(xié)同過濾(Collaborative Filtering based on Rating Distribution,RDCF)算法[11]和最優(yōu)TopN的協(xié)同過濾(Optimizing TopN Collaborative Filtering,OTCF)算法[12]作為算法的對(duì)比算法。其中:RDCF將用戶歷史偏好轉(zhuǎn)化成用戶對(duì)項(xiàng)目的屬性偏好分布,并改進(jìn)了偏好行為相似性度量方法;OTCF算法采用動(dòng)態(tài)的負(fù)項(xiàng)目抽樣來獲取TopN推薦項(xiàng)目集。本文采用MAE作為對(duì)比實(shí)驗(yàn)的評(píng)價(jià)標(biāo)準(zhǔn),分別對(duì)3種算法進(jìn)行仿真實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖10~114所示。
從實(shí)驗(yàn)結(jié)果可以看出,在Netflix數(shù)據(jù)集上以MAE為評(píng)價(jià)標(biāo)準(zhǔn),本文提出時(shí)間衰減與偏好波動(dòng)的推薦算法,在兩種不同數(shù)據(jù)集比例下,能夠取得更小的MAE值,即推薦準(zhǔn)確度要優(yōu)于RDCF和OTCF。也即說明在使用用戶的歷史偏好信息建立用戶的興趣模型時(shí),考慮用戶偏好隨時(shí)間衰減與用戶自身的偏好波動(dòng),相比于現(xiàn)有的推薦方法,能夠取得更好的推薦準(zhǔn)確度。
3結(jié)語
針對(duì)現(xiàn)有的推薦方法多采用近鄰用戶的偏好行為來預(yù)測(cè)當(dāng)前用戶的偏好,而不考慮用戶的偏好會(huì)隨著時(shí)間的變化而改變,影響了推薦準(zhǔn)確率。針對(duì)這個(gè)問題提出了一種基于時(shí)間衰減與偏好波動(dòng)的協(xié)同偏好獲取方法,首先基于時(shí)間因素、用戶歷史偏好等獲取偏好衰減增量、衰減速度,并生成衰減函數(shù);其次,基于用戶的歷史偏好分布獲取其偏好波動(dòng)幅度,并將衰減函數(shù)與偏好波動(dòng)幅度分別加入到最近鄰獲取與偏好獲取流程,協(xié)同為用戶生成推薦列表,并且在大規(guī)模真實(shí)數(shù)據(jù)集的仿真實(shí)驗(yàn)結(jié)果表明,所提出的推薦方法相比現(xiàn)有的推薦方法,能夠取得更好的推薦準(zhǔn)確度。未來的研究工作將會(huì)致力于研究考慮時(shí)間因素的情景感知推薦方法,以期進(jìn)一步地提高推薦質(zhì)量。
參考文獻(xiàn):
[1]
吳月萍,杜奕.基于人工魚群算法的協(xié)同過濾推薦算法[J].計(jì)算機(jī)工程與設(shè)計(jì),2012,33(5):1852-1856.(WU Y P, DU Y. Collaboration filtering recommendation algorithm based on artificial fish swarm algorithm [J]. Computer Engineering & Design, 2012, 33(5): 1852-1856.)
[2]
PARK S T, CHU W. Pairwise preference regression for coldstart recommendation [C]// Proceedings of the Third ACM Conference on Recommender Systems. New York, ACM, 2009: 21-28.
[3]
DAI Y, DANIELS A, WU J. Demo: recommendation system for dynamic spectrum access through spectrum mining and prediction [J]. Spectrum, 2014, 43(5): 415-416.
[4]
CHEN W, HSU W, LEE M L. Modeling users receptiveness over time for recommendation [C]// Proceeding of the 36th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York, ACM, 2013: 373-382.
[5]
汪靜,印鑒,鄭利榮,等.基于共同評(píng)分和相似性權(quán)重的協(xié)同過濾推薦算法[J].計(jì)算機(jī)科學(xué),2010,37(2):99-104.(WANG J, YIN J, ZHENG L R, et al. Collaborative filtering recommendation algorithm based on coratings and similarity weight [J]. Computer Science, 2010, 37(2): 99-104.)
[6]
郭晶晶,馬建峰.面向虛擬社區(qū)物聯(lián)網(wǎng)的信任推薦算法[J].西安電子科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2015,42(2):59-65.(GUO J J, MA J F. Trust recommendation algorithm for virtual community based interest of things [J]. Journal of Xidian University (Natural Science), 2015, 42(2): 59-65.)
[7]
孫光福,吳樂,劉淇,等.基于時(shí)序行為的協(xié)同過濾推薦算法[J].軟件學(xué)報(bào),2013,24(11):2711-2733.(SUN G F, WU L, LIU Q, et al. Recommendations based on collaborative filtering by exploiting sequential behaviors [J]. Journal of Software, 2013, 24(11): 2711-2733.)
[8]
王興茂,張興明.基于貢獻(xiàn)因子的協(xié)同過濾推薦算法[J].計(jì)算機(jī)應(yīng)用研究,2015,32(12):132-136.(WANG X M, ZHANG X M. Collaborative recommendation algorithm based on contributor factor [J]. Application Research of Computers, 2015, 32(12): 132-136.)
[9]
FOUSS F, PIROTTE A, RENDERS M, et al. Randomwalk computation of similarities between nodes of a graph with application to collaborative recommendation [J]. Knowledge and Data Engineering, 2007, 19(3): 355-369.
[10]
李源鑫,肖如良,陳洪濤,等.時(shí)間衰減制導(dǎo)的協(xié)同過濾相似性計(jì)算[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2013,22(11):129-134.(LI Y X, XIAO R L, CHEN H T. Time decay guided similarity calculation in collaborative filtering [J]. Computer Systems & Applications, 2013, 22(11): 129-134.)
[11]
王茜,楊莉云,楊德禮.面向用戶偏好的屬性值評(píng)分分布協(xié)同過濾算法[J].系統(tǒng)工程學(xué)報(bào),2010,25(4):561-568.(WANG Q, YANG L Y, YANG D L. Collaborative filtering algorithm based on rating distribution of attributions faced user preference [J]. Journal of Systems Engineering, 2010, 25(4): 561-568.)
[12]
ZHANG W, CHEN T, WANG J, et al. Optimizing topN collaborative filtering via dynamic negative item sampling [C]// Proceeding of the 36th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York, ACM, 2013: 785-788.