融合時(shí)間衰減與偏好波動(dòng)的協(xié)同偏好獲取方法

2016-07-19 21:08楊立胡運(yùn)紅邵桂榮

計(jì)算機(jī)應(yīng)用 2016年7期

楊立胡運(yùn)紅邵桂榮

摘要：針對(duì)現(xiàn)有的推薦系統(tǒng)多采用近鄰用戶的偏好行為來預(yù)測(cè)當(dāng)前用戶的偏好，而不考慮用戶的偏好會(huì)隨著時(shí)間的變化而改變，影響了推薦準(zhǔn)確率的問題，提出了一種基于時(shí)間衰減與偏好波動(dòng)的協(xié)同偏好獲取方法。首先，基于時(shí)間因素、用戶歷史偏好等獲取偏好衰減增量與衰減速度，并據(jù)此生成衰減函數(shù)，使用衰減函數(shù)對(duì)用戶歷史行為數(shù)據(jù)進(jìn)行衰減修正；其次，基于用戶的歷史偏好分布獲取其偏好波動(dòng)幅度；最后，將衰減函數(shù)與偏好波動(dòng)幅度分別加入到最近鄰獲取與偏好獲取流程，協(xié)同為用戶生成推薦列表。在大規(guī)模真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明，所提出的方法與基于屬性評(píng)分分布的協(xié)同過濾（RDCF）與最優(yōu)TopN的協(xié)同過濾（OTCF）相比，平均絕對(duì)誤差（MAE）值分別降低了近6.42%和7.73%。實(shí)驗(yàn)結(jié)果表明所提方法能夠提高推薦準(zhǔn)確度，提升推薦質(zhì)量。

關(guān)鍵詞：

推薦系統(tǒng)；時(shí)間衰減；衰減增量；衰減速度；偏好波動(dòng)

中圖分類號(hào)： TP391.9； TP18 文獻(xiàn)標(biāo)志碼：A

0引言

隨著大數(shù)據(jù)時(shí)代的到來，海量信息資源充斥整個(gè)信息服務(wù)領(lǐng)域，而其展示平臺(tái)或資源獲取途徑雖然在近年來有了較大的發(fā)展，資源檢索與篩選技術(shù)也趨于成熟，但仍不能為用戶提供符合其需求的個(gè)性化資源推薦服務(wù)。特別是隨著移動(dòng)客戶端的普及，資源展示界面越來越小型化，用戶及服務(wù)提供商對(duì)于高質(zhì)量的推薦系統(tǒng)的需求也越來越大。

推薦系統(tǒng)的主要思路就是基于用戶的歷史偏好信息，采用基于模型或基于內(nèi)容的方法來建立用戶的興趣模型，將用戶可能感興趣的，且沒有過行為記錄的商品推薦給用戶[1-3]。目前，許多研究者都提出了不同的推薦系統(tǒng)實(shí)現(xiàn)方案，其中最著名與應(yīng)用最廣的是基于協(xié)同過濾的推薦系統(tǒng)，協(xié)同過濾起源與生物理論中的“協(xié)同進(jìn)化”，原意為生物鏈中某一個(gè)物種發(fā)生進(jìn)化，而與其相關(guān)的其他物種也會(huì)隨之進(jìn)化。在信息獲取領(lǐng)域，協(xié)同過濾基于這種思想，通過獲取與待預(yù)測(cè)偏好用戶的偏好最相似的其他用戶，并基于這些用戶的偏好行為為當(dāng)前用戶生成推薦服務(wù)。例如，Chen等[4]提出了一種隨著時(shí)間變化并考慮用戶接受能力的推薦方法，在數(shù)據(jù)稀疏性的環(huán)境下，提高了推薦準(zhǔn)確度；汪靜等[5]用共同評(píng)分和相似性權(quán)重來改進(jìn)協(xié)同過濾推薦算法，增加了用戶間共同評(píng)分權(quán)重，在一定程度上提高了推薦準(zhǔn)確度；郭晶晶等[6]采用李雅普諾夫模型與信任度相結(jié)合，將推薦系統(tǒng)應(yīng)用于基于物聯(lián)網(wǎng)的信任推薦領(lǐng)域，提升了系統(tǒng)效益；孫光福等[7]提出了一種基于用戶間時(shí)序行為的推薦方法，并將最近鄰集合采用基于奇異值分解的協(xié)同過濾算法進(jìn)行處理，提高了推薦準(zhǔn)確度；王興茂等[8]從非共同評(píng)分項(xiàng)目集出發(fā)，基于歷史偏好記錄獲取近鄰用戶的貢獻(xiàn)程度，提高了推薦質(zhì)量；Focuss等[9]基于圖模型相關(guān)理論提出了一種基于隨機(jī)游走的節(jié)點(diǎn)相似度計(jì)算方法，有效地緩解了協(xié)同過濾推薦系統(tǒng)中數(shù)據(jù)稀疏性問題對(duì)推薦準(zhǔn)確度的影響。而由于用戶的偏好會(huì)隨著時(shí)間的變化而產(chǎn)生波動(dòng)[10]，上述方法并沒有考慮時(shí)間因素對(duì)于用戶偏好的影響，影響了推薦的準(zhǔn)確度。針對(duì)這個(gè)問題本文提出了一種基于時(shí)間衰減與偏好波動(dòng)的協(xié)同偏好獲取方法，首先基于時(shí)間因素、用戶歷史偏好等獲取偏好衰減增量、衰減速度，并生成衰減函數(shù)；其次，基于用戶的歷史偏好分布獲取其偏好波動(dòng)幅度，并將衰減函數(shù)與偏好波動(dòng)幅度分別加入到最近鄰獲取與偏好獲取流程，協(xié)同為用戶生成推薦列表。不但考慮了用戶自身的偏好波動(dòng)，還同時(shí)加入了用戶偏好隨時(shí)間的衰減對(duì)其偏好的影響，能取得更好的推薦準(zhǔn)確度。

1融合時(shí)間衰減與偏好波動(dòng)的偏好預(yù)測(cè)方法

本文在經(jīng)典協(xié)同過濾算法的基礎(chǔ)上提出了一種融合時(shí)間衰減與偏好波動(dòng)的協(xié)同偏好獲取方法，在用戶真實(shí)歷史偏好行為數(shù)據(jù)的基礎(chǔ)上，基于衰減速度與衰減增量，獲取基于時(shí)間因素的用戶偏好衰減函數(shù)，并據(jù)此修正用戶的歷史偏好行為?；诖?，通過偏好行為相似性度量算法度量用戶偏好間的相似關(guān)系，并結(jié)合基于歷史偏好合同類偏好所獲取的偏好波動(dòng)幅度，為用戶生成推薦服務(wù)?？傮w流程如圖1所示。

1.1相似度度量方法

由于用戶的偏好會(huì)隨著時(shí)間的變化而產(chǎn)生波動(dòng)，在多數(shù)情況下，用戶對(duì)某類項(xiàng)目的喜好程度會(huì)隨著時(shí)間的變化而逐漸衰減，衰減的程度與策略與具體用戶相關(guān)。例如用戶在一定的時(shí)期內(nèi)喜歡某個(gè)歌曲，隨著時(shí)間的變化和用戶聽歌次數(shù)的增加，該用戶對(duì)這個(gè)歌曲的喜好程度會(huì)逐漸減少。據(jù)此本文提出了一種用戶偏好隨時(shí)間衰減策略，基于時(shí)間與用戶的歷史偏好，通過定義衰減函數(shù)、衰減速度、衰減增量，將時(shí)間因素與用戶偏好變化關(guān)聯(lián)起來，具體算法描述與相關(guān)定義如下。

1.2偏好波動(dòng)

偏好波動(dòng)（Preference Fluctuation）指的是在用戶自身因素的影響下，用戶的偏好所產(chǎn)生波動(dòng)的情況。即是在排除外界影響因素的前提下，用戶偏好不會(huì)恒定不變，而是會(huì)有一定幅度波動(dòng)的現(xiàn)象。通過度量用戶歷史偏好間的差異程度，獲取用戶的偏好波動(dòng)幅度（Preference Fluctuation Range），基于此去修正預(yù)測(cè)的用戶偏好。具體表示如下：

Puw=Puw·（1+PFR）（9）

其中：Pui為采用偏好預(yù)測(cè)算法為用戶u生成的對(duì)于項(xiàng)目w的預(yù)測(cè)評(píng)分，PFR為偏好波動(dòng)幅度。

PFR=∑ISISL∑j，l∈Is， j≠lPuj-PulCard（ISL）·Card（IS）·（Card（IS）-1），ND≥NX

-∑ISISL∑j，l∈Is， j≠lPuj-PulCard（ISL）·Card（IS）·（Card（IS）-1），其他（10）

其中：Is表示任一同類商品集合；ISL為IS的集合，即所有同類商品的集合；Pul與Puj分別表示用戶u對(duì)于同類項(xiàng)目l與j的歷史偏好值；Card（IS）與Card（ISL）分別表示商品集合IS與ISL中的項(xiàng)目數(shù)量；ND表示在集合ISL中用戶u的偏好值大于等于其均值（用戶u對(duì)其他所有項(xiàng)目的評(píng)分均值）的歷史偏好行為數(shù)量；NX則為其中小于其均值的歷史偏好行為數(shù)量。即是根據(jù)用戶歷史偏好的分布情況，提出了增強(qiáng)與懲罰兩種修正策略，并基于修正后的偏好值，將值最大的TOPN個(gè)項(xiàng)目推薦給用戶u。

1.3方法實(shí)施步驟

基于用戶的歷史行為數(shù)據(jù)，方法的實(shí)施步驟如下：

1）基于時(shí)間因素、用戶歷史偏好等獲取偏好衰減增量；

2）計(jì)算用戶偏好衰減速度；

3）根據(jù)衰減增量與衰減速度生成衰減函數(shù)；

4）根據(jù)衰減函數(shù)獲取衰減后的用戶行為，并獲取修正后的行為最近鄰；

5）根據(jù)歷史偏好行為與同類偏好行為生成偏好波動(dòng)幅度；

6）基于修正后的行為最近鄰和偏好波動(dòng)幅度，獲取用戶偏好。

2實(shí)驗(yàn)設(shè)計(jì)及結(jié)果分析

2.1實(shí)驗(yàn)數(shù)據(jù)集

本文采用Netflix數(shù)據(jù)集作為本文提出方法進(jìn)行仿真實(shí)驗(yàn)的基礎(chǔ)數(shù)據(jù)，Netflix是最常用的推薦領(lǐng)域真實(shí)數(shù)據(jù)集之一，它采用評(píng)分值來度量用戶對(duì)電影的喜好程度。每個(gè)電影采用五分制，分值越高則表明電影越符合用戶的興趣。Netflix共涉及48萬個(gè)用戶對(duì)1.7萬個(gè)電影的近一億條偏好行為數(shù)據(jù)（評(píng)分制，最高為5分），以及相應(yīng)的偏好行為發(fā)生的時(shí)間信息（1998年10月到2005年12月），精確到“天”。本文實(shí)驗(yàn)數(shù)據(jù)是Netflix的子集，共選取了3000個(gè)用戶對(duì)近2200個(gè)電影的數(shù)據(jù)子集，并將該數(shù)據(jù)集分為訓(xùn)練集與測(cè)試集兩部分，分別進(jìn)行實(shí)驗(yàn)檢驗(yàn)。

2.2算法評(píng)價(jià)標(biāo)準(zhǔn)

目前評(píng)價(jià)推薦算法優(yōu)劣的標(biāo)準(zhǔn)主要可分為統(tǒng)計(jì)精度度量和決策支持精度度量兩種策略。本文所采用的平均絕對(duì)誤差（Mean Absolute Error，MAE）是統(tǒng)計(jì)精度度量策略中比較常用和受到廣泛認(rèn)可的評(píng)價(jià)策略。MAE通過度量所提出的推薦算法預(yù)測(cè)出的用戶偏好與實(shí)際用戶偏好間的差異程度，來評(píng)價(jià)所提出推薦算法的優(yōu)劣，其值越小則說明提出的推薦算法所作出的預(yù)測(cè)與用戶實(shí)際偏好間的偏差越小，推薦準(zhǔn)確度越好。假設(shè)根據(jù)推薦算法預(yù)測(cè)出用戶評(píng)分為{p1，p2，…，pN}，而其對(duì)應(yīng)的真實(shí)用戶評(píng)分為{q1，q2，…，qN}，則MAE可表示為：

MAE=（∑Ni=1pi-qi）/N（11）

2.3實(shí)驗(yàn)設(shè)計(jì)及結(jié)論

本文實(shí)驗(yàn)主要包括兩部分：第1部分是參數(shù)檢驗(yàn)實(shí)驗(yàn)，主要檢驗(yàn)衰減速度中的λ與χ參數(shù)，即獲取不同偏好值對(duì)于衰減速度的不同影響情況；第2部分是對(duì)比實(shí)驗(yàn)，將提出的基于波動(dòng)序列的推薦算法與現(xiàn)有算法進(jìn)行對(duì)比。

實(shí)驗(yàn)1參數(shù)λ與χ檢驗(yàn)實(shí)驗(yàn)。

針對(duì)實(shí)驗(yàn)所用數(shù)據(jù)集Netflix，分別提取20%、30%、50%、70%的數(shù)據(jù)作為訓(xùn)練集，其余作為測(cè)試集進(jìn)行實(shí)驗(yàn)，由于參數(shù)λ與χ影響的是不同偏好值下的偏好衰減速度，兩參數(shù)之間沒有交互影響關(guān)系，在進(jìn)行實(shí)驗(yàn)時(shí)，兩個(gè)參數(shù)所對(duì)應(yīng)的偏好值分離開，并分別進(jìn)行實(shí)驗(yàn)檢驗(yàn)。分別以兩種情況下所獲取的修正后的用戶歷史偏好作為預(yù)測(cè)評(píng)分的基礎(chǔ)數(shù)據(jù)，以分別判定兩種參數(shù)對(duì)于推薦準(zhǔn)確度的影響。經(jīng)過反復(fù)對(duì)比實(shí)驗(yàn)選取出幾組有代表性的λ與χ取值，如表1，通過對(duì)比所提出算法的MAE值來選取針對(duì)當(dāng)前數(shù)據(jù)集最優(yōu)的參數(shù)λ與χ的取值。實(shí)驗(yàn)結(jié)果見圖2～3所示（其中R表示最近鄰個(gè)數(shù)）。

分別對(duì)比不同數(shù)據(jù)集比例下，參數(shù)λ與χ的取值對(duì)推薦結(jié)果MAE值的影響可以發(fā)現(xiàn)，隨著訓(xùn)練集比例的增加，所提出推薦算法的MAE值呈現(xiàn)出遞減的趨勢(shì)，即推薦的準(zhǔn)確度越來越高。分別對(duì)比參數(shù)λ與χ，可以發(fā)現(xiàn)在4種數(shù)據(jù)集模式下，當(dāng)λ=0.46， χ=1.56時(shí)算法能夠取得整體最佳的推薦準(zhǔn)確度，所以在以下的實(shí)驗(yàn)中，選取λ=0.46， χ=1.56。

實(shí)驗(yàn)2與其他算法對(duì)比實(shí)驗(yàn)。

針對(duì)當(dāng)前數(shù)據(jù)集，經(jīng)過多次實(shí)驗(yàn)對(duì)比，選取30%與50%兩種數(shù)據(jù)集模式將本文算法與現(xiàn)有的推薦算法進(jìn)行對(duì)比。經(jīng)過反復(fù)測(cè)試與篩選，本文選取了基于屬性評(píng)分分布的協(xié)同過濾（Collaborative Filtering based on Rating Distribution，RDCF）算法[11]和最優(yōu)TopN的協(xié)同過濾（Optimizing TopN Collaborative Filtering，OTCF）算法[12]作為算法的對(duì)比算法。其中：RDCF將用戶歷史偏好轉(zhuǎn)化成用戶對(duì)項(xiàng)目的屬性偏好分布，并改進(jìn)了偏好行為相似性度量方法；OTCF算法采用動(dòng)態(tài)的負(fù)項(xiàng)目抽樣來獲取TopN推薦項(xiàng)目集。本文采用MAE作為對(duì)比實(shí)驗(yàn)的評(píng)價(jià)標(biāo)準(zhǔn)，分別對(duì)3種算法進(jìn)行仿真實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果如圖10～114所示。

從實(shí)驗(yàn)結(jié)果可以看出，在Netflix數(shù)據(jù)集上以MAE為評(píng)價(jià)標(biāo)準(zhǔn)，本文提出時(shí)間衰減與偏好波動(dòng)的推薦算法，在兩種不同數(shù)據(jù)集比例下，能夠取得更小的MAE值，即推薦準(zhǔn)確度要優(yōu)于RDCF和OTCF。也即說明在使用用戶的歷史偏好信息建立用戶的興趣模型時(shí)，考慮用戶偏好隨時(shí)間衰減與用戶自身的偏好波動(dòng)，相比于現(xiàn)有的推薦方法，能夠取得更好的推薦準(zhǔn)確度。

3結(jié)語

針對(duì)現(xiàn)有的推薦方法多采用近鄰用戶的偏好行為來預(yù)測(cè)當(dāng)前用戶的偏好，而不考慮用戶的偏好會(huì)隨著時(shí)間的變化而改變，影響了推薦準(zhǔn)確率。針對(duì)這個(gè)問題提出了一種基于時(shí)間衰減與偏好波動(dòng)的協(xié)同偏好獲取方法，首先基于時(shí)間因素、用戶歷史偏好等獲取偏好衰減增量、衰減速度，并生成衰減函數(shù)；其次，基于用戶的歷史偏好分布獲取其偏好波動(dòng)幅度，并將衰減函數(shù)與偏好波動(dòng)幅度分別加入到最近鄰獲取與偏好獲取流程，協(xié)同為用戶生成推薦列表，并且在大規(guī)模真實(shí)數(shù)據(jù)集的仿真實(shí)驗(yàn)結(jié)果表明，所提出的推薦方法相比現(xiàn)有的推薦方法，能夠取得更好的推薦準(zhǔn)確度。未來的研究工作將會(huì)致力于研究考慮時(shí)間因素的情景感知推薦方法，以期進(jìn)一步地提高推薦質(zhì)量。

參考文獻(xiàn)：

[1]

吳月萍，杜奕.基于人工魚群算法的協(xié)同過濾推薦算法[J].計(jì)算機(jī)工程與設(shè)計(jì)，2012，33（5）：1852-1856.（WU Y P， DU Y. Collaboration filtering recommendation algorithm based on artificial fish swarm algorithm [J]. Computer Engineering & Design， 2012， 33（5）： 1852-1856.）

[2]

PARK S T， CHU W. Pairwise preference regression for coldstart recommendation [C]// Proceedings of the Third ACM Conference on Recommender Systems. New York， ACM， 2009： 21-28.

[3]

DAI Y， DANIELS A， WU J. Demo： recommendation system for dynamic spectrum access through spectrum mining and prediction [J]. Spectrum， 2014， 43（5）： 415-416.

[4]

CHEN W， HSU W， LEE M L. Modeling users receptiveness over time for recommendation [C]// Proceeding of the 36th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York， ACM， 2013： 373-382.

[5]

汪靜，印鑒，鄭利榮，等.基于共同評(píng)分和相似性權(quán)重的協(xié)同過濾推薦算法[J].計(jì)算機(jī)科學(xué)，2010，37（2）：99-104.（WANG J， YIN J， ZHENG L R， et al. Collaborative filtering recommendation algorithm based on coratings and similarity weight [J]. Computer Science， 2010， 37（2）： 99-104.）

[6]

郭晶晶，馬建峰.面向虛擬社區(qū)物聯(lián)網(wǎng)的信任推薦算法[J].西安電子科技大學(xué)學(xué)報(bào)（自然科學(xué)版），2015，42（2）：59-65.（GUO J J， MA J F. Trust recommendation algorithm for virtual community based interest of things [J]. Journal of Xidian University （Natural Science）， 2015， 42（2）： 59-65.）

[7]

孫光福，吳樂，劉淇，等.基于時(shí)序行為的協(xié)同過濾推薦算法[J].軟件學(xué)報(bào)，2013，24（11）：2711-2733.（SUN G F， WU L， LIU Q， et al. Recommendations based on collaborative filtering by exploiting sequential behaviors [J]. Journal of Software， 2013， 24（11）： 2711-2733.）

[8]

王興茂，張興明.基于貢獻(xiàn)因子的協(xié)同過濾推薦算法[J].計(jì)算機(jī)應(yīng)用研究，2015，32（12）：132-136.（WANG X M， ZHANG X M. Collaborative recommendation algorithm based on contributor factor [J]. Application Research of Computers， 2015， 32（12）： 132-136.）

[9]

FOUSS F， PIROTTE A， RENDERS M， et al. Randomwalk computation of similarities between nodes of a graph with application to collaborative recommendation [J]. Knowledge and Data Engineering， 2007， 19（3）： 355-369.

[10]

李源鑫，肖如良，陳洪濤，等.時(shí)間衰減制導(dǎo)的協(xié)同過濾相似性計(jì)算[J].計(jì)算機(jī)系統(tǒng)應(yīng)用，2013，22（11）：129-134.（LI Y X， XIAO R L， CHEN H T. Time decay guided similarity calculation in collaborative filtering [J]. Computer Systems & Applications， 2013， 22（11）： 129-134.）

[11]

王茜，楊莉云，楊德禮.面向用戶偏好的屬性值評(píng)分分布協(xié)同過濾算法[J].系統(tǒng)工程學(xué)報(bào)，2010，25（4）：561-568.（WANG Q， YANG L Y， YANG D L. Collaborative filtering algorithm based on rating distribution of attributions faced user preference [J]. Journal of Systems Engineering， 2010， 25（4）： 561-568.）

[12]

ZHANG W， CHEN T， WANG J， et al. Optimizing topN collaborative filtering via dynamic negative item sampling [C]// Proceeding of the 36th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York， ACM， 2013： 785-788.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

融合時(shí)間衰減與偏好波動(dòng)的協(xié)同偏好獲取方法