国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于用戶興趣變化融合的個性化推薦模型

2013-09-11 03:21:32梁光磊譚國平
計算機工程與設(shè)計 2013年8期
關(guān)鍵詞:物品個性化融合

劉 春,梁光磊,譚國平

(1.中國電信股份有限公司廣東研究院IT運營支撐部,廣東 廣州510630;2.華南理工大學(xué)計算機學(xué)院,廣東 廣州510006;3.河海大學(xué) 計算機與信息學(xué)院,江蘇 南京210098)

0 引 言

互聯(lián)網(wǎng)的快速發(fā)展,把人們帶入了信息時代,給人們帶來便利的同時也滋生了 “信息過載”,“資源迷向”等問題[1],為解決上述問題,提供個性化服務(wù)的推薦系統(tǒng)應(yīng)運而生[2]。推薦系統(tǒng)從不同的角度有不同的劃分方法,從算法來分,通常主要分為以下幾類:基于內(nèi)容、基于用戶-產(chǎn)品二部圖[3]、基于協(xié)同過濾、基于本體知識、基于機器學(xué)習(xí)和數(shù)據(jù)挖掘技術(shù)及基于多種模型融合的推薦等。其中融合的推薦是指在前述幾種推薦方法基礎(chǔ)上,對兩種或多種推薦方法融合進行取利去弊的結(jié)合,從而達到提高系統(tǒng)性能的目的。個性化推薦的研究成果首先在電商領(lǐng)域獲得了成功應(yīng)用,有統(tǒng)計分析顯示,亞馬遜的35%的銷售額是由其推薦系統(tǒng)拉動的[4],甚至有市場調(diào)研公司的數(shù)據(jù)顯示,亞馬遜網(wǎng)站推薦的銷售轉(zhuǎn)化率可以高達60%。

個性化服務(wù)在電商領(lǐng)域的成功應(yīng)用,加速了它在其它行業(yè)的推廣。目前推薦系統(tǒng)已被廣泛應(yīng)用于音樂,電影,書籍,個性化廣告匹配,社交網(wǎng)絡(luò)等領(lǐng)域。近年來移動互聯(lián)網(wǎng)的發(fā)展,吸引了數(shù)以萬計的獨立開發(fā)者,他們開發(fā)的各類應(yīng)用堆滿了應(yīng)用商店,人們出現(xiàn)了新的”應(yīng)用迷航“問題,因此急需引入個性化推薦服務(wù),來為用戶推薦符合其興趣愛好的應(yīng)用軟件,幫助用戶更好的選擇,同時也可增加開發(fā)者的收益,增加開發(fā)者的平臺粘性。某電信運營商的 “愛游戲”平臺是專門提供各類游戲下載的游戲應(yīng)用商店,隨著游戲提供商及開發(fā)者的不斷加入,游戲軟件數(shù)量激增,并在一定程度上導(dǎo)致大多數(shù)的游戲軟件成為了長尾物品[5](指那些埋沒在軟件庫里,沒有機會與用戶見面的物品)。然而,當(dāng)前應(yīng)用平臺上的推薦方法很難將這些長尾物品發(fā)掘出推薦給對它可能感興趣的用戶。為了解決上述問題,本文提出了一種融合的個性化推薦模型,首先采用本體論中的概念的思想對游戲軟件建模,然后通過對用戶的行為日志進行分析建立用戶偏好模型,最后依賴于時間因子將兩種推薦模型進行有效的融合。該模型不僅能夠有效準(zhǔn)確的進行個性化推薦,提供個性化服務(wù),同時還具有良好的擴展性和移植性,稍加改變便可將其應(yīng)用到其他領(lǐng)域如視頻的個性化推薦,圖書的推薦等等。

1 游戲模型構(gòu)建與用戶行為分析

1.1 基于本體概念的思想構(gòu)建游戲類概念-屬性模型

計算機領(lǐng)域的本體論模型主要從概念關(guān)系角度來揭示事物的特征和本質(zhì)。它通常由概念、概念所具有的特征、概念的實例及概念間的關(guān)系組成。本體學(xué)習(xí)研究通常是研究如何從結(jié)構(gòu)化或者非結(jié)構(gòu)化的數(shù)據(jù)源中抽取概念及發(fā)現(xiàn)概念間的關(guān)系[6],比較流行的詞典知識庫如英文的 Word-Net,中文的HowNet均是以詞典知識為基礎(chǔ)構(gòu)成的概念關(guān)系網(wǎng)。本文的游戲軟件模型構(gòu)建主要參考文獻 [6]所述的本體學(xué)習(xí)及概念抽取思想,按照面向?qū)ο笤O(shè)計思路,將游戲軟件抽象成由各個類及其屬性所組成的整體。我們提取游戲軟件的各個類概念及其屬性并根據(jù)他們之間的上下層級關(guān)系建立了如表1所示的游戲模型。

1.1.1 游戲軟件的流行度估算

流行度即熱門程度,一款軟件在一段時期內(nèi)下載的人數(shù)越多,說明該軟件越受大眾喜愛,可以認(rèn)為其流行度高;如果一款游戲軟件在相當(dāng)長的一段時期內(nèi)只有少數(shù)人下載則可認(rèn)為其流行度很低。據(jù)此以一段時間的下載次數(shù)多少衡量一款軟件的當(dāng)前流行度,定義如下

式中:pop(i)——軟件i的流行度,該公式是對不同下載量的軟件進行權(quán)重衡量;Ci——游戲i的下載量 (用次數(shù)表示);α——權(quán)重基數(shù),可根據(jù)系統(tǒng)平臺的流量和下載量設(shè)定為某個默認(rèn)值。

1.1.2 游戲軟件的綜合評分score

一款游戲的口碑如何,是否好玩,是否精致,主要由用戶的評價和評分來衡量,并可從系統(tǒng)平臺中獲得用戶對軟件的評分,而后進行加權(quán)平均。定義游戲軟件的綜合評分公式如下

式中:scoreji——用戶j對游戲i的評分;n——對軟件i進行評分的用戶總和。

1.2 用戶在游戲應(yīng)用平臺上的行為分析

通過分析用戶的操作日志可得出用戶在系統(tǒng)平臺的一般性行為見表2。

1.3 用戶的長期興趣度和隨時間變化的短期興趣度

通常用戶的興趣可分為長期興趣和短期興趣。在相當(dāng)長一段時間內(nèi)變化比較慢的興趣可稱之為長期興趣,例如用戶經(jīng)常喜歡下載格斗類的游戲,說明用戶喜歡格斗游戲,這個興趣一般不會突然改變。在短時間內(nèi)變化較快的興趣稱之為短期興趣,比如用戶之前一直玩格斗類游戲,近一個星期突然下了一部分音樂類的游戲,這反映了用戶最近的興趣是音樂類的。通過分析用戶的顯性行為和隱性行為,可得出用戶的短期興趣和長期興趣,進而能夠進行隨用戶興趣變化的個性化推薦。

表2 用戶的一般行為

1.3.1 用戶的長期興趣度

假設(shè)已獲取用戶u的所有日志信息,對該用戶的整個日志信息進行統(tǒng)計分析。比如用戶的日志記錄中出現(xiàn)的動作類游戲比例較高,在用戶的整個日志記錄中持久地出現(xiàn)該類別的游戲,不管最近用戶有沒有下載動作類的游戲,都可認(rèn)為用戶的長期興趣是動作類游戲。定義用戶對游戲?qū)傩詉的長期興趣偏好公式如下

式中:prefer_a(u,i)——用戶u對屬性i的長期偏好值。N——某類概念中屬性的個數(shù)。Fi——該類中第i個屬性出現(xiàn)的頻次。此公式表明了各個屬性頻次在用戶日志記錄中所占的比重,衡量了一個屬性的對用戶的相對重要程度。

1.3.2 基于時間變化的近期興趣度

(1)非線性遺忘函數(shù)的引入

德國心理學(xué)家艾賓浩斯對遺忘現(xiàn)象所做的系統(tǒng)研究表明:人對事物的遺忘過程是非線性的,并且是先快后慢的,我們引入了雙曲線函數(shù)來擬合艾賓浩斯的非線性遺忘曲線,參考文獻 [17]給出調(diào)整后的遺忘函數(shù)如下

其中ti即用戶對軟件i的最晚一次行為的時間 (時間的單位均以天數(shù)來計),tmin表示用戶行為日志的最早時間,tmax即為用戶行為日志的最晚時間。θ為遺忘系數(shù),θ的值越大遺忘的越快,表明用戶的近期行為所占的比重較大,對不同的推薦系統(tǒng)可動態(tài)調(diào)整其值。

(2)根據(jù)用戶顯性和隱性行為分析用戶的初始興趣度。

用戶的顯性操作行為往往是用戶興趣的直接反映,而隱性行為則是用戶興趣的間接反映。本模型中所考慮了下載,收藏,評分和使用頻次這些線性和隱性用戶行為。它們綜合反映了用戶對一款軟件是否感興趣,有些行為是隨時間而累積的,因此將這些分析用來衡量用戶的近期興趣變化。給出計算用戶u對游戲i的初始興趣值公式

其中down即為是否需要下載,取為1或0,對于wap類網(wǎng)頁的游戲,直接點開即可玩,用戶容易丟失,相對來說需要下載客戶端的游戲更能粘住用戶;collect為是否收藏,值為1或者0;score即為用戶u對游戲i的評分,有的有評分,有的沒評分,沒評分的則以該用戶的普遍評分來平滑;freq(i)為用戶使用游戲i的頻次,計算公式如下

式中:x——使用次數(shù),freq(i)的值與該游戲的使用頻次成正比。

用戶的各個行為所占的權(quán)重α+β+γ+θ=1,權(quán)重的確定一般根據(jù)用戶操作需要付出的代價來定。比如 “下載”行為的權(quán)重就要低于 “收藏行為”;而要用戶的 “評分行為”與 “收藏行為”需要付出的代價相似。用戶 “再次使用行為”和 “下載行為”操作難度應(yīng)該相似。

(3)基于時間因素的用戶對軟件i的興趣度:

為了反映用戶近期的興趣偏好情況,結(jié)合遺忘函數(shù)和用戶的初始興趣值定義,給出反映用戶近期興趣偏好的興趣計算公式

式中:pre_final(u,i)——用戶u對游戲i最終興趣偏好值。prefer_Init(u,i)——上面計算的用戶對游戲i的初始興趣值,h(ti)——該用戶在時間ti的遺忘值。

2 基于用戶興趣偏好的推薦模型構(gòu)建

2.1 用戶對各個屬性的興趣度值

假設(shè)用戶u的歷史記錄中有N款游戲,根據(jù)上節(jié)中計算出的用戶對屬性j長期興趣偏好值和用戶對游戲i基于時間變化的最終興趣值,給出用戶對各個屬性的綜合興趣值。這里采用平均差分的思想將用戶對整個游戲的興趣值分化到各個屬性維度上。

(1)定義用戶u對屬性j的近期興趣偏好公式如下

式中:Prefer_a_r(u,j)——用戶u對屬性j的近期興趣偏好;bij——布爾值,游戲i包含屬性j則值為1,否則為0;Mj為N個游戲中含有屬性j的游戲的個數(shù),N為用戶歷史記錄中的游戲個數(shù)。由于采用平均差分法可能會導(dǎo)致用戶的長期興趣偏好值與用戶的近期興趣偏好值不在一個范圍內(nèi),因此要進行歸一化操作,歸一化到0-1之間。(2)定義用戶對各個屬性的初始興趣度的計算公式

分析上式計算結(jié)果可發(fā)現(xiàn)用戶u的興趣度大多集中在某些類的某些屬性上。通常準(zhǔn)確確定屬性的權(quán)重還要考慮重要度和類內(nèi)集中度這兩個因素。重要度體現(xiàn)了用戶對某些屬性的偏好度,集中度則體現(xiàn)了類別內(nèi)各個屬性值的波動程度,反映該類概念對用戶選擇的影響力大小。如果一個類內(nèi)的各個屬性的興趣度值波動較小,說明此類不是引起用戶選擇的因素,如果一個類中的各個屬性的興趣值波動較大,說明該類概念更能影響用戶的選擇。設(shè)游戲本體模型中第k個類概念下有nk個屬性,下面給出重要度[8]和改進的文獻 [9]中的類內(nèi)集中度的計算公式。

(3)屬性重要度參見文獻 [8]中重要度的計算公式。

(4)改進的類內(nèi)集中度公式如下

式中:CENk——類概念k的類內(nèi)集中度,Nk——類概念k中的屬性個數(shù),——用戶對屬性i的初始興趣度,如果某個類中只有一個屬性的話,集中度就為1,如果各個屬性的興趣值都相等的話就會出現(xiàn)CENk值為0,則需要加參數(shù)進行平滑。

類內(nèi)集中度概念在文本分類中是表示某些特征對該類劃分的影響度,在本模型中中用來評價該類對用戶選擇游戲的影響力的大小。

(5)生成用戶屬性興趣偏好向量

用戶對第k類的第j個屬性的最終興趣偏好值計算公式參考文獻 [8]修改如下:

根據(jù)上述公式生成用戶的屬性的偏好序列,用向量模型的形式表示如下

例如a11表示第1類的第1個屬性,Pt11表示用戶U對第1類的第1個屬性的最終屬性興趣值。上述用戶偏好向量反映了用戶U對各個屬性的興趣值大小,對于所有用戶則可以以矩陣表的形式將各個偏好向量存儲起來。我們可將計算出的屬性興趣值按從大到小排序,在進行推薦的時候,可以設(shè)一個閥值a,只考慮屬性興趣度大于a的n個屬性的值,這樣將大大降低系統(tǒng)的計算復(fù)雜度,提高系統(tǒng)的效率。

2.2 推薦算法描述

根據(jù)用戶U的興趣偏好向量,對U的興趣偏好屬性進行閥值篩選,然后從海量游戲軟件中找出與用戶U的興趣特征相匹配的候選游戲,按照下面的公式計算各個候選游戲的得分。候選游戲g得分的計算公式如下

式中:Score_c(g)——章一中給出的游戲g的綜合得分;N——該游戲g的屬性個數(shù);bgi——游戲g的屬性i是否在篩選過的用戶興趣偏好序列里,用布爾值表示如果是則為1否則為0。Pti即為用戶對屬性i的最終興趣權(quán)重。分母部分是為了要挖掘長尾物品,消除過于熱門和過于冷門的游戲?qū)Y(jié)果的影響,pop(g)為游戲g的流行度;α為可調(diào)參數(shù)。據(jù)此計算所有候選軟件的得分,然后降序排序,取top-N推薦給用戶。

3 基于用戶興趣變化的協(xié)同過濾推薦模型

協(xié)同過濾技術(shù)是目前推薦系統(tǒng)中的主流技術(shù),它基于統(tǒng)計學(xué)的思想,采用群體性過濾方法,通過分析與用戶興趣類似的其它用戶的喜好情況來為用戶進行個性化推薦,正是由于參考了其它群體的興趣,可以發(fā)現(xiàn)用戶的潛在興趣愛好。協(xié)同過濾技術(shù)首先由亞馬遜成功應(yīng)用于電商領(lǐng)域,國內(nèi)的豆瓣,淘寶,當(dāng)當(dāng)?shù)膫€性化推薦系統(tǒng)也采用了協(xié)同過濾的思想。目前協(xié)同過濾主要分為基于用戶的協(xié)同過濾(UserCF),基于物品的協(xié)同過濾 (ItemCF)及基于模型的協(xié)同過濾。ItemCF是依據(jù)群體用戶的喜好來衡量物品之間的相似性,不考慮物品的具體內(nèi)容特征,而UserCF是依據(jù)群體用戶的喜好來衡量用戶之間的相似性,不考慮用戶的具體特征。UserCF主要是適用于物品種類變化較快,而用戶的規(guī)模相對穩(wěn)定的領(lǐng)域,如新聞推薦,笑話推薦,個性化閱讀等領(lǐng)域。ItemCF主要用于物品數(shù)量相對穩(wěn)定,用戶量很大的情況,比如電商,電影推薦等。某電信運營商的“游戲”應(yīng)用平臺比較符合ItemCF的情況,其游戲數(shù)量的增長要遠遠小于用戶數(shù)的增長。使用協(xié)同過濾技術(shù)首先要解決的是評分矩陣的稀疏性問題,下面首先討論稀疏矩陣的填充問題。

3.1 稀疏評分矩陣的填充

由于用戶—物品評分矩陣大多數(shù)情況下是稀疏的,這里給出幾種常用的填充稀疏矩陣的方法:①對于用戶沒有評分的物品統(tǒng)一的按 ‘0’來填充,這是最簡單但也是準(zhǔn)確性最差的方法;②對于用戶沒有評分的物品按該用戶對其它物品評分的 ‘平均值’來填充;③KNN的方式,取該用戶的幾個最近鄰鄰居對該物品評分的均值或差值來填充,SlopeOne算法的評分預(yù)測思想即采用的這種方式來預(yù)測;④LFM方法[10],Simon Funkt參見Netflix推薦比賽時提出了的隱語模型方法,主要過程如下:首先整理出一份用戶評分矩陣作為訓(xùn)練集,通過隱語義分析模型迭代計算發(fā)掘用戶-物品之間的隱因子;然后進行評分預(yù)測,用預(yù)測出的值來填充。經(jīng)過驗證,該方法可準(zhǔn)確的預(yù)測缺失值,但是該方法基于機器學(xué)習(xí),必須先進行訓(xùn)練,才能發(fā)掘出隱因子,在實時性要求比較高的推薦系統(tǒng)中,難以滿足需求。

3.2 計算物品之間的相似度矩陣

根據(jù)游戲應(yīng)用平臺的特點:用戶的評分極其稀疏,但又要求能夠?qū)崟r的把一些游戲軟件推薦給適合的用戶。參考項亮的著作[11]我們采用的基于條件概率的方法來計算物品共現(xiàn)矩陣,以此來衡量物品之間的相似度,條件概率的計算公式如下

式中:N (i)——喜歡游戲i的用戶數(shù),N (j)——喜歡游戲j的用戶數(shù)。

上述公式基于這樣的一種假設(shè),如果i,j同時被多個用戶喜歡,那么可以認(rèn)為i和j在某種程度上是相似的。通常一些熱門游戲的玩的人數(shù)比較多,但是如果用上述方法會出現(xiàn)大多數(shù)游戲都與熱門游戲相似的假象,為了防止任何游戲都與熱門游戲的相似度很大,修正后的計算公式參見文獻 [11]的53頁。

John S.Breese在文獻 [12]中提出了一個稱為IUF(inverse user frequence),即用戶活躍度對數(shù)的倒數(shù),他認(rèn)為不活躍用戶對相似度矩陣的貢獻度比不活躍用戶的貢獻度要大。比如系統(tǒng)中有些用戶十分活躍,可能每天都會下載軟件,該用戶雖然下載次數(shù)很多,但可能并不是出于自身的興趣,因此有必要降低這些過于活躍的用戶對物品相似度的貢獻度。

消除過于活躍用戶影響的物品相似度計算公式修正如下

式中:Puj——用戶u對候選游戲軟件j的評分;i——用喜歡的游戲中與游戲j最相似K個,K值一般取10,Wij衡量i和j的相似度;N (u)——用戶喜歡的游戲集合;prefer_final是以上計算出的用戶對游戲i的興趣度;分母部分主要用來消除過于熱門和冷門的游戲的影響以挖掘長尾物品,其中α為調(diào)節(jié)參數(shù)。

式中:N (u)——用戶U所玩的游戲的數(shù)目。

John S.Breese的實驗表明在準(zhǔn)確率和召回率保持不變的情況下,通過消除過于活躍用戶的影響,提高了推薦結(jié)果的覆蓋率,改進了ItemCF的綜合性能。

Karypis的研究[13]證明,如果將ItemCF的相似度矩陣按最大值歸一化,可以提高推薦的準(zhǔn)確率。根據(jù)上述相似度計算公式計算出物品的初始相似度矩陣M,然后使用最大值歸一化公式對M進行最大值歸一化,公式描述參見文獻 [11]的58頁。

3.3 改進的ItemCF推薦算法描述

根據(jù)以上計算得到物品相似度矩陣后,給出引入時間因素及消除熱門物品影響的ItemCF推薦算法如下

4 兩種推薦模型的融合

融合的推薦方法是通過把兩種或多種推薦方法按照一定的規(guī)則整合,以此來彌補各自推薦方法的不足。通常情況下融合的推薦模型能夠達到比較好的推薦效果,Netflix百萬美元推薦系統(tǒng)改進大賽的冠軍團隊就是融合幾十種推薦模型才達到了提升10%的目標(biāo)[14],可見融合的推薦模型確實能提升推薦系統(tǒng)的性能。根據(jù)文獻 [1]中提供的融合思路,推薦模型的融合主要有前融合、中融合,后融合,本模型中采用的是后融合的方式。

基于用戶興趣偏好的推薦能夠發(fā)現(xiàn)與用戶歷史興趣相符合的物品,而基于協(xié)同過濾的推薦,能夠發(fā)掘用戶的潛在興趣。本模型將基于用戶興趣偏好的推薦方法和改進后的ItemCF推薦方法進行后融合,還引入了時間因子對融合模型參數(shù)進行自適應(yīng)調(diào)節(jié),融合后的推薦方法描述如下

式中:Vicb——基于用戶興趣偏好的推薦算法中計算出的得分值,Vicf——游戲軟件i使用改進后的ItemCF算法中計算出的得分值。Β——基于時間因素的自動調(diào)節(jié)參數(shù),β的計算方法描述如下

式中:Tcur——當(dāng)前時間 (時間單位均以天來計),Tonline——游戲的發(fā)布時間,α為調(diào)參數(shù),這樣就解決了新上線不久的軟件,其用戶數(shù)不是很多,使用ItemCF算法不能有效的推薦給可能對它感興趣的用戶的問題。該公式中表示如果一部游戲是新游戲,則剛上線不久時β很大,Vcb權(quán)重較大可以將其推薦給對它的感興趣的用戶,隨著用戶數(shù)的增多,該軟件則為部分用戶熟知,β逐漸降低,Vcf權(quán)重逐漸增大,可以挖掘?qū)λ信d趣的潛在用戶。

注:Vcb是基于用戶興趣偏好的推薦模型算出的游戲得分,Vcf是基于改進的ItemCF算出的游戲得分。在進行融合時,如果一部游戲在兩個推薦模型中同時被推薦則可用上面的公式進行加權(quán),如果只在一種模型里被推薦則在另外一個模型里的值就可以看作是0或者基于另外一個模型的推薦公式進行計算得出在該模型中的得分后再進行加權(quán)。在使用這個融合公式時,Vcb和Vcf值應(yīng)該先歸一化到同一范圍內(nèi)。

5 實驗驗證與結(jié)果分析

由于本推薦模型是用于top-N推薦,根據(jù)文獻 [11]所述,我們不采用常規(guī)的評分預(yù)測評價方法MAE和RMSE方法,而采用信息檢索領(lǐng)域的準(zhǔn)確率來進行評測,為了評測模型發(fā)掘長尾物品的能力,把覆蓋率也作為一個評測指標(biāo)。實驗依據(jù)某電信運營商的 “游戲”平臺的實際用戶數(shù)據(jù),隨機選取游戲行為相對較多的用戶,實驗的用戶總數(shù)為7286個,用戶的行為日志的時間段是8個月,游戲數(shù)為5000款。表3為用戶游戲行為信息表樣例。

表3 用戶游戲行為信息表樣例

將每個用戶玩過的游戲隨機按7∶3比例分為兩份,記作A份和B份,將A份作為訓(xùn)練集,B份作為測試集。用訓(xùn)練集的數(shù)據(jù)訓(xùn)練得到相應(yīng)的推薦模型,然后運用上述的推薦算法得出每個用戶的top-N推薦列表 (此次實驗N=10)。這里的推薦列表包括以下3份:

(1)采 用 基 于 用 戶 興 趣 偏 好 (user interest preference,UIP)的推薦方法得到的個性化推薦列表 (參考第一、二章)。

(2)采用改進后的ItemCF算法得到的個性化推薦列表(參考第三章)。

(3)采用后融合推薦方法得到的個性化推薦列表 (參考第四章)。

將這3個推薦列表與測試集的結(jié)果進行對比,得出如圖1所示。

從實驗結(jié)果可以看出:采用基于UIP的推薦方法在精確度和覆蓋率方面稍低于改進后的ItemCF算法,但是基于UIP方法計算復(fù)雜度低,模型構(gòu)建相對簡單,并且能夠進行實時推薦,能夠為用戶推薦符合其興趣偏好的物品;改進后的ItemCF算法在由于能夠根據(jù)群體興趣發(fā)現(xiàn)用戶的潛在興趣,因而在精確度方面要稍高于UIP,但是在計算物品相似度矩陣方面開銷較大;3種算法在覆蓋率上都接近50%,融合方法的挖掘長尾物品的能力稍強,并且采用融合的推薦方法,比單獨采用UIP方法和改進的ItemCF推薦方法在精確度上提升超過70%,由此可見我們采用的考慮時間因子的融合的推薦模型是較優(yōu)的;④由圖示可以看出,在精確度方面3種模型最高只達到10%左右,這除了與模型中參數(shù)調(diào)優(yōu)有關(guān)外,還受平臺測試數(shù)據(jù)特性的影響,部分用戶行為數(shù)據(jù)和物品信息缺失,導(dǎo)致精確度的整體拉低。以上只是離線實驗的結(jié)果,該結(jié)果已經(jīng)驗證了該融合的個性化推薦模型的優(yōu)良性。對推薦系統(tǒng)最準(zhǔn)確的評測則是用戶滿意度,我們將在系統(tǒng)上線后進行在線驗證本個性化推薦模型的各項指標(biāo)。

圖1 3種推薦方式效果比對

6 結(jié)束語

本文討論了將基于用戶興趣偏好 (UIP)推薦和改進的ItemCF算法進行后融合的個性化推薦模型,并將其應(yīng)用于應(yīng)用商店領(lǐng)域的軟件推薦。實驗表明該融合模型反映了用戶興趣漂移性,提高了個性化推薦的精度,提升了該應(yīng)用平臺的綜合推薦性能。在取得一定成果的同時我們還遇到了個性化推薦算法都會遇到的冷啟動問題[15],我們的初步解決方案是采用非個性化推薦方式,表述如下:

(1)新用戶:由于無法獲取其日志記錄,則可進行非個性化推薦,將各個游戲的綜合評分score_c(i)和流行度pop(i)進行加權(quán),生成一個熱門游戲列表,推薦給新用戶。計算公式如下

式中:ɑ——可變參數(shù)。

(2)新游戲軟件:可在系統(tǒng)設(shè)置一個最新上線列表,可以把新上線的軟件放到最新上線列表中,這樣新軟件就可以面向所有用戶。

以上只是解決 “冷啟動”問題的初步方案,推薦系統(tǒng)的 “冷啟動”問題是為大多數(shù)研究人員所關(guān)注的問題,除此之外推薦系統(tǒng)中的數(shù)據(jù)稀疏性、推薦模型的擴展性問題[16]、基于潛在因子分析法的實時應(yīng)用[17]和基于網(wǎng)絡(luò)圖構(gòu)建高效推薦模型等問題都是推薦系統(tǒng)領(lǐng)域的熱門研究問題,這些問題的解決對提高推薦系統(tǒng)的性能非常重要,這些將是我們今后研究的方向。

[1]XU Hailing,WU Xiao,LI Xiaodong,et al.Comparison study of Internet recommendation system [J].Journal of software,2009,20 (2):350-362 (in Chinese). [許海玲,吳瀟,李曉東,等.互聯(lián)網(wǎng)推薦系統(tǒng)比較研究 [J].軟件學(xué)報,2009,20 (2):350-362.]

[2]Adomavicius G,Tuzhilin A.Toward the next generation of recommender systems:A survey of the state-of-the-art and possible extensions [J].IEEE Trans on Knowledge and Data Engineering,2005,17 (6):734-749.

[3]Zhou T,Ren J,Medo M,et al.Bipartite network projection and personal recommendation [J].Physical Review E,2007,76 (4):7.

[4]LIU Jianguo,ZHOU Tao,WANG Binghong.The research progress of personalized recommendation system [J].Progress in Natural Science,2009,19 (1):1-12 (in Chinese).[劉建國,周濤,汪秉宏.個性化推薦系統(tǒng)的研究進展 [J].自然科學(xué)進展,2009,19 (1):1-12.]

[5]Chris Anderson.Long tail theory [M].QIAO Jiangtao,transl.Beijing:China CITIC Press,2006:35-39 (in Chinese).[克里斯·安德森.長尾理論 [M].喬江濤,譯.北京:中信出版社,2006:35-39.]

[6]DU Xiaoyong,LI Man,WANG Shan.A survey on ontology learning research [J].Journal of Software,2006,17 (9):1837-1847 (in Chinese).[杜小勇,李曼,王珊.本體學(xué)習(xí)研究綜述 [J].軟件學(xué)報,2006,17 (9):1837-1847.]

[7]ZHENG Xianrong,TANG Zeying,CAO Xianbin.Non-lineal gradual forgetting collaborative filtering algorithm capable of adapting to user’s drifting interest [J].Computer Aided Engineering,2007,16 (2):69-73 (in Chinese).[鄭先榮,湯澤瀅,曹先彬.適應(yīng)用戶興趣變化的非線性逐步遺忘協(xié)同過濾算法 [J].計算機輔助工程,2007,16 (2):69-73.]

[8]LI Ning,WANG Zilei,WU Gang,et al.Research on user pattern in personalized film recommendation system [J].Computer Applications and Software,2010,27 (12):51-54 (in Chinese).[李寧,王子磊,吳剛,等.個性化影片推薦系統(tǒng)中用戶模型研究 [J].計算機應(yīng)用與軟件,2010,27 (12):51-54.]

[9]LI Ning.The study of personalized movie recommendation technology in home network [D].Hefei:University of Science & Technology China,2009 (in Chinese).[李寧.家庭網(wǎng)絡(luò)中個性化影片推薦技術(shù)研究 [D].合肥:中國科學(xué)技術(shù)大學(xué),2009.]

[10]Simon Funk.Netflix update:Try this at home [EB/OL].[2006-12-11].http://sifter.org/~simon/journal/20061211.html.

[11]XIANG Liang.Recommendation system in action [M].Beijing:The People Post and Telecommunications Press,2012:51-59 (in Chinese).[項亮.推薦系統(tǒng)實踐 [M].北京:人民郵電出版社,2012:51-59.]

[12]Breese J S,Heckerman D,Kadie C.Empirical analysis of predictive algorithms for collaborative filtering [C]//Proceedings of the 14th Conference on Uncertainty in Artificial Intelligence,1998:43-52.

[13]Mukund Deshpande, George Karypis.Item-based top-N recommendation algorithms [J].ACM Transactions on Information Systems,2004,22 (1):143-177.

[14]Netflix HQ.Grand prize awarded to team BellKor’s pragmatic chaos [EB/OL].[2006-08-29].http://www.netflixprize.com//community/viewtopic.php?id=1537.

[15]Ahn H J.A new similarity measure for colaborative filtering to alleviate the new user cold-starting problem [J].Information Sciences,2008,178 (1):37-51.

[16]Bell R,Koren Y.Scalable collaborative filtering with jointly derived neighborhood interpolation weights [C]//IEEE International Conference on Data Mining,2007.

[17]Takeshi Suzuki,Gendo Kumoi,Kenta Mikawa,et al.A study of recommender systems on a latent probabilistic space model [C]//Proceedings of 12th Asia Pacific Industrial Engineering & Management Systems Conference,2011.

猜你喜歡
物品個性化融合
稱物品
村企黨建聯(lián)建融合共贏
融合菜
從創(chuàng)新出發(fā),與高考數(shù)列相遇、融合
“雙十一”,你搶到了想要的物品嗎?
《融合》
堅持個性化的寫作
文苑(2020年4期)2020-05-30 12:35:12
誰動了凡·高的物品
新聞的個性化寫作
新聞傳播(2018年12期)2018-09-19 06:27:10
上汽大通:C2B個性化定制未來
洪雅县| 泊头市| 海伦市| 罗源县| 辽中县| 水城县| 竹山县| 龙胜| 巴林左旗| 柯坪县| 栾川县| 玉溪市| 华亭县| 塘沽区| 海伦市| 临江市| 东港市| 逊克县| 卢龙县| 泾阳县| 聂拉木县| 额敏县| 沅陵县| 林口县| 普兰店市| 宣武区| 贵德县| 小金县| 辰溪县| 左权县| 民勤县| 双柏县| 马鞍山市| 凌海市| 那坡县| 淳安县| 平南县| 皋兰县| 昆明市| 灌阳县| 南平市|