黃蘭,錢育蓉
(新疆大學(xué)軟件學(xué)院,烏魯木齊 830008)
結(jié)合評(píng)分可信度和動(dòng)態(tài)時(shí)間加權(quán)的推薦算法
黃蘭,錢育蓉
(新疆大學(xué)軟件學(xué)院,烏魯木齊 830008)
為了解決電子商務(wù)推薦系統(tǒng)在推薦新項(xiàng)目方面的冷啟動(dòng)問(wèn)題,同時(shí)提高用戶與推薦項(xiàng)目的相似度,通過(guò)對(duì)比當(dāng)前的推薦算法,提出一種結(jié)合可信度和動(dòng)態(tài)時(shí)間加權(quán)的推薦算法。該算法引入用戶評(píng)分可信度來(lái)計(jì)算用戶和項(xiàng)目的相似性,將新項(xiàng)目推薦給可信度高的用戶;分析用戶興趣、項(xiàng)目受歡迎度和時(shí)間的關(guān)系構(gòu)造動(dòng)態(tài)時(shí)間加權(quán)函數(shù),將項(xiàng)目推薦給用戶興趣度高且項(xiàng)目受歡迎度高的用戶。通過(guò)實(shí)驗(yàn)驗(yàn)證該算法與傳統(tǒng)的基于用戶的推薦UBCF算法相比能夠提高近7%的推薦準(zhǔn)確度,與基于項(xiàng)目的推薦IBCF算法相比能夠提高近4.7%的推薦準(zhǔn)確度,同時(shí)解決新項(xiàng)目推薦的冷啟動(dòng)問(wèn)題。
推薦系統(tǒng);協(xié)同過(guò)濾;可信度;時(shí)間加權(quán)
近年來(lái),隨著互聯(lián)網(wǎng)數(shù)字信息的爆炸式增長(zhǎng),推薦系統(tǒng)[1]已成為個(gè)性化服務(wù)重要的研究熱點(diǎn),通過(guò)預(yù)測(cè)用戶的偏好給用戶推薦商品、服務(wù)及個(gè)性化的信息,幫助用戶解決信息過(guò)載問(wèn)題。推薦系統(tǒng)的主要推薦技術(shù)有基于內(nèi)容的推薦、協(xié)同過(guò)濾推薦、組合推薦[2-7]等,其中協(xié)同過(guò)濾推薦算法是推進(jìn)系統(tǒng)中應(yīng)用最廣泛和最成功的推薦技術(shù)之一[8]、在許多領(lǐng)域取得較好的發(fā)展,如電子商務(wù)(阿里巴巴,Amazon、京東等)、信息檢索(百度、Google、Yahoo等)、社交網(wǎng)絡(luò)(騰訊QQ、微信、Facebook等)等。協(xié)同過(guò)濾推薦算法現(xiàn)面臨著兩個(gè)主要的挑戰(zhàn):(1)冷啟動(dòng)問(wèn)題,由于新項(xiàng)目沒(méi)有評(píng)分記錄,如何推薦新項(xiàng)目。(2)概念漂移問(wèn)題,用戶興趣和項(xiàng)目受歡迎度總是在不斷變化,如何找到它們與時(shí)間之間的變化關(guān)系。這兩個(gè)問(wèn)題不僅影響了用戶相似度和項(xiàng)目相似度的計(jì)算精度,還影響了預(yù)測(cè)推測(cè)的準(zhǔn)確度,導(dǎo)致推薦質(zhì)量下降。
本文提出了一種結(jié)合用戶評(píng)分可信度的相似性方法度量,從用戶等級(jí)和商品時(shí)間特效兩方面來(lái)及計(jì)算用戶評(píng)分的可信度,對(duì)傳統(tǒng)的相似性度量方法進(jìn)行改進(jìn),提高相似的準(zhǔn)確度;計(jì)算用戶評(píng)分的可信度結(jié)果按從大到小排列,將新項(xiàng)目推薦給前N個(gè)可信度高的用戶,提高新項(xiàng)目的推薦準(zhǔn)確度,解決新項(xiàng)目推薦的冷啟動(dòng)問(wèn)題。本文還提出了基于用戶興趣的時(shí)間加權(quán)和基于項(xiàng)目受歡迎度的時(shí)間加權(quán),來(lái)解決用戶興趣和項(xiàng)目受歡迎程度隨時(shí)間動(dòng)態(tài)變化的問(wèn)題。
1.1 用戶-項(xiàng)目評(píng)分矩陣
推薦系統(tǒng)通過(guò)使用m×n階的用戶-項(xiàng)目評(píng)分矩陣來(lái)表示用戶對(duì)項(xiàng)目的評(píng)價(jià)信息。通常,m個(gè)用戶集合用集合U={u1,u2,...,um}表示,n個(gè)項(xiàng)目集合用集合I={i1,i2,...,in}表示,用戶i對(duì)項(xiàng)目j的評(píng)分值用rij表示(rij值越大,表示用戶i對(duì)項(xiàng)目j越喜歡)。關(guān)于m×n階的用戶-項(xiàng)目評(píng)分矩陣如表1所示。
1.2傳統(tǒng)協(xié)同過(guò)濾推薦算法
根據(jù)用戶-項(xiàng)目評(píng)分矩陣可以計(jì)算用戶之間的相似度或項(xiàng)目之間的相似度,目前常用的相似度計(jì)算度量方法有3種:皮爾森相關(guān)相似性(Pearson Correlation Codffient,PC),余弦相似性(Cosine Similarity,COS),修正的余弦相似性(Adjusted Cosine Similarity,ACOS)[9]。
表1 用戶-項(xiàng)目評(píng)分矩陣表
公式(3)中,rvi表示用戶v對(duì)項(xiàng)目i的評(píng)分,表示用戶u對(duì)其所評(píng)價(jià)過(guò)所有項(xiàng)目的均值,表示用戶v對(duì)其所評(píng)價(jià)過(guò)所有項(xiàng)目的均值,sim(u,v)用戶u和用戶v的相似度,NBsu表示用戶u的所有最近鄰居集合,Pui表示用戶u對(duì)項(xiàng)目i偏愛(ài)的預(yù)測(cè)評(píng)分值。其中,Pui值越大,說(shuō)明用戶u對(duì)項(xiàng)目i越喜歡。
本文使用皮爾森相關(guān)相似性PC方法作為用戶之間的相似性計(jì)算,表達(dá)式如下:
公式(1)中:rui表示用戶u對(duì)項(xiàng)目i的評(píng)分,rvi表示用戶v對(duì)項(xiàng)目i的評(píng)分;表示用戶u對(duì)其所評(píng)價(jià)過(guò)所有項(xiàng)目的均值,表示用戶v對(duì)其所評(píng)價(jià)過(guò)所有項(xiàng)目的均值;Puv表示用戶u和用戶v評(píng)價(jià)過(guò)所有項(xiàng)目的公共項(xiàng)目集合。其中,sim(u,v)值越大,說(shuō)明兩個(gè)用戶之間的相似度越高。
本文使用皮爾森相關(guān)相似性PC方法作為項(xiàng)目之間的相似性計(jì)算,表達(dá)式如下:
2.1 用戶時(shí)間權(quán)重
(1)用戶評(píng)分可信度時(shí)間權(quán)重
本文使用m×n階的用戶評(píng)價(jià)時(shí)間矩陣來(lái)表示用戶對(duì)項(xiàng)目的評(píng)價(jià)信息。其中,m個(gè)用戶集合用集合U={u1,u2,…,um}表示,n個(gè)項(xiàng)目集合用集合I={i1,i2,…,in}表示,用戶i對(duì)項(xiàng)目j評(píng)分時(shí)間用gij表示,用戶i對(duì)項(xiàng)目j購(gòu)買時(shí)間用bij表示(項(xiàng)目的購(gòu)買時(shí)間及項(xiàng)目的評(píng)價(jià)時(shí)間都為為年月日,時(shí)間單位為天)。關(guān)于m×n階的用戶評(píng)價(jià)時(shí)間矩陣如表2所示。
表2 用戶評(píng)價(jià)時(shí)間矩陣表
①用戶等級(jí)因素:
公式(2)中:rui表示用戶u對(duì)項(xiàng)目i的評(píng)分,ruj表示用戶u對(duì)項(xiàng)目j的評(píng)分;表示評(píng)價(jià)過(guò)項(xiàng)目i的所有用戶的評(píng)分均值表示評(píng)價(jià)過(guò)項(xiàng)目j的所有用戶的評(píng)分均值;Uij表示項(xiàng)目i和項(xiàng)目j共同評(píng)價(jià)用戶的公共用戶集合。其中,sim(i,j)值越大,說(shuō)明兩個(gè)項(xiàng)目之間的相似度越高。
使用公式(1)計(jì)算預(yù)測(cè)評(píng)分值,即目標(biāo)用戶對(duì)項(xiàng)目的預(yù)測(cè)評(píng)分值,將項(xiàng)目月評(píng)分值的前TOP-N項(xiàng)目推薦給用戶,預(yù)測(cè)評(píng)分公示如下:
公式(4)中:Lu為用戶u等級(jí)的可信度,lu為用戶u的會(huì)員級(jí)別。本文用戶級(jí)別分為5個(gè)級(jí)別,用戶級(jí)別越高其評(píng)分信用度也就越高(用戶級(jí)別:鐵牌1、銅牌2、銀牌3、金牌4、鉆石5)。
②商品時(shí)間特效因素:
公式(5)中:Tu表示用戶u的時(shí)間權(quán)值(Tu∈[0,1]),sum表示用戶u評(píng)價(jià)項(xiàng)目的總數(shù),gui表示用戶u對(duì)項(xiàng)目i的評(píng)分時(shí)間,bui表示用戶u對(duì)項(xiàng)目i的購(gòu)買時(shí)間。(gui-bui)的值越大,Tu越大,即用戶評(píng)價(jià)項(xiàng)目時(shí)間與用戶購(gòu)買項(xiàng)目時(shí)間差越大,說(shuō)明該用戶的評(píng)論是比較客觀而可信的,其評(píng)價(jià)過(guò)的項(xiàng)目也是可信的;反之,(guibui)的值越小,Tu越小,說(shuō)明該用戶的評(píng)論是比較主觀而不可信的,其評(píng)價(jià)過(guò)的項(xiàng)目也是不可信的。公式(5)反映了用戶評(píng)價(jià)項(xiàng)目的平均可信程度。
Wu為用戶u的評(píng)分可信度,用戶評(píng)分可信度公式如下:
(2)用戶興趣時(shí)間權(quán)重
在日常生活中,用戶的興趣會(huì)隨著時(shí)間而發(fā)生變化,而用戶的興趣對(duì)商品的銷售量是有很大影響的。通常,用戶近期所購(gòu)買的商品為用戶的短期興趣,用戶短期興趣對(duì)項(xiàng)目可能未來(lái)受關(guān)注程度較為重要;而用戶長(zhǎng)期所購(gòu)買的商品為用戶的長(zhǎng)期興趣,用戶的長(zhǎng)期興趣對(duì)項(xiàng)目可能未來(lái)受關(guān)注程度也有一定的影響。因此,本文通過(guò)將用戶短期興趣和長(zhǎng)期興趣相結(jié)合,引入用戶興趣時(shí)間權(quán)重的方法,提高項(xiàng)目的受關(guān)注程度,從而提高項(xiàng)目的推薦準(zhǔn)確率。
用戶短期興趣時(shí)間權(quán)重公式定義如下:
公式(7)中,sP(u,i,tx)表示短時(shí)間內(nèi)用戶u對(duì)項(xiàng)目i在tx時(shí)刻的喜歡程度,tx表示某時(shí)刻時(shí)間值,ti表示用戶u購(gòu)買項(xiàng)目i的時(shí)間值(時(shí)間單位都為月)。其中(txti)值越小,因而sP(u,i,tx)值就越大,用戶興趣隨時(shí)間的變化呈非遞減性。說(shuō)明項(xiàng)目i離現(xiàn)在的時(shí)間越近,則用戶u越喜歡項(xiàng)目i。
用戶長(zhǎng)期興趣時(shí)間權(quán)重公式定義如下:
公式(8)中,lP(u,i,tx)表示長(zhǎng)時(shí)間內(nèi)用戶u對(duì)項(xiàng)目i在tx時(shí)刻的喜歡程度(tx∈T,T為定義的一個(gè)時(shí)間窗口集合),|IuT|表示用戶u在T時(shí)刻時(shí)喜歡項(xiàng)目集合I的個(gè)數(shù),C(x,y)表示項(xiàng)目x和項(xiàng)目y是否是同類型商品(C(x,y)=0不是相似類型項(xiàng)目,C(x,y)=1是相似類型項(xiàng)目,y∈|IuT|)。其中,C(x,y)值越大,因而lP(u,i,tx)值就越大,用戶的長(zhǎng)期興趣受用戶購(gòu)買同類項(xiàng)目的總數(shù)影響。說(shuō)明用戶購(gòu)買同類項(xiàng)目越多,用戶越喜歡這類項(xiàng)目。
結(jié)合用戶短期興趣和長(zhǎng)期興趣時(shí)間權(quán)重公式定義如下:
公式(9)中,η∈[0,1],影響因子η隨著的取值不同,用戶u對(duì)項(xiàng)目i的興趣程度也會(huì)隨之變化。
2.2 項(xiàng)目受歡迎度時(shí)間權(quán)重
在推薦系統(tǒng)中,由于受時(shí)間的影響,項(xiàng)目的受歡迎程度會(huì)發(fā)生改變,因此推薦的準(zhǔn)確度也會(huì)被影響。一般項(xiàng)目隨時(shí)間的變化呈現(xiàn)非遞減性,而一些項(xiàng)目對(duì)不同的季節(jié)也比較敏感,如服裝類產(chǎn)品、電器類產(chǎn)品、護(hù)膚類產(chǎn)品等,項(xiàng)目的受歡迎程度會(huì)隨季節(jié)的變化而發(fā)生改變。
設(shè)集合T={t1,t2,…,tn},ti表示項(xiàng)目在i時(shí)刻賣出的項(xiàng)目總數(shù)(時(shí)間單位按月計(jì)算)。本文將受時(shí)間影響和受季節(jié)變化的這兩種因素進(jìn)行加權(quán)結(jié)合,項(xiàng)目時(shí)間權(quán)重公式定義如下:
公式(10)中,f(ix)表示項(xiàng)目i在x時(shí)刻的受歡迎程度,max(T)表示賣出項(xiàng)目總數(shù)最多的時(shí)間值(T是從產(chǎn)品發(fā)布時(shí)間到現(xiàn)在的時(shí)間段集合),tx表示x時(shí)刻的時(shí)間值。Kij項(xiàng)目i在j季度是否敏感(Kij=0時(shí)項(xiàng)目對(duì)季節(jié)不敏感,Kij=1項(xiàng)目對(duì)季節(jié)敏感,j=1,2,3,4)。當(dāng)tx-max(T)值越小,說(shuō)明在tx時(shí)刻離受歡迎時(shí)刻越近,則在tx時(shí)刻項(xiàng)目i就越受歡迎。其中,λ∈[0,1],當(dāng)影響因子λ變化時(shí),項(xiàng)目受歡迎程度也會(huì)變換。
2.3 結(jié)合用戶評(píng)分可信度時(shí)間權(quán)重的用戶相似性算法
在皮爾森相關(guān)相似性PC算法中,用戶相似性是對(duì)兩個(gè)用戶過(guò)去評(píng)論過(guò)的公共項(xiàng)目集合進(jìn)行相似性計(jì)算。該算法在一定程度上實(shí)現(xiàn)了對(duì)用戶之間的相似性計(jì)算,然而并未考慮用戶在評(píng)論項(xiàng)目時(shí)該評(píng)價(jià)值是否可信。如果兩個(gè)用戶評(píng)價(jià)項(xiàng)目值都是可信的,兩用戶的相似度值較為可靠;如果兩個(gè)用戶評(píng)價(jià)項(xiàng)目值是不可信的,則兩用戶的相似度值就不會(huì)準(zhǔn)確。為了提高兩個(gè)用戶之間相似性的準(zhǔn)確度,本文將用戶時(shí)間權(quán)重與皮爾森相關(guān)相似性PC算法相結(jié)合,公式定義如下:
公式(11)中:min(wu,wv)表示用戶u和用戶v評(píng)分可信度小的那個(gè)用戶,|ru∩rv|/|ru∪rv|表示用戶u、v公共評(píng)價(jià)項(xiàng)目集合與總評(píng)價(jià)項(xiàng)目集合的比值,用戶評(píng)分可信度越大,用戶之間公共評(píng)價(jià)項(xiàng)目越多,兩個(gè)用戶越相似。
2.4 結(jié)合用戶興趣時(shí)間權(quán)重的項(xiàng)目相似性算法
在皮爾森相關(guān)相似性PC算法中,項(xiàng)目相似性是對(duì)兩項(xiàng)目過(guò)去被用戶評(píng)論過(guò)的公共用戶集合進(jìn)行相似性計(jì)算。該算法在一定程度上實(shí)現(xiàn)了對(duì)項(xiàng)目之間的相似性計(jì)算,然而并未考慮用戶對(duì)項(xiàng)目興趣的改變。本文將用戶興趣時(shí)間權(quán)重與皮爾森相關(guān)相似性PC算法相結(jié)合,公式定義如下:
2.5 結(jié)合用戶評(píng)分可信度和動(dòng)態(tài)時(shí)間加權(quán)的預(yù)測(cè)推薦算法
公式(3)為用戶u對(duì)項(xiàng)目i的預(yù)測(cè)評(píng)分值,由于該預(yù)測(cè)評(píng)分是根據(jù)用戶之間的相似性來(lái)計(jì)算的,用戶對(duì)項(xiàng)目的評(píng)分值是較為主觀的,為提高預(yù)測(cè)分值的準(zhǔn)確度,本文在考慮用戶評(píng)分的可信度的變化情況下,對(duì)預(yù)測(cè)算法進(jìn)行了修改,公式定義如下:
公式(13)中,sim(u,v)是公式(9)中基于用戶時(shí)間權(quán)重后的用戶相似性。
2.6 結(jié)合時(shí)間權(quán)重的協(xié)同過(guò)濾算法描述
輸入:目標(biāo)用戶u,用戶-項(xiàng)目評(píng)分矩陣R,用戶時(shí)間評(píng)價(jià)矩陣T
輸出:推薦給目標(biāo)用戶u的集合top-N
①根據(jù)用戶時(shí)間評(píng)價(jià)矩陣使用公式(6),計(jì)算用戶評(píng)分的可信度。
②根據(jù)用戶-項(xiàng)目評(píng)分矩陣公式(12),計(jì)算項(xiàng)目的相似性。
③根據(jù)用戶-項(xiàng)目評(píng)分矩陣使用公式(11),計(jì)算項(xiàng)用戶間似性,然后根據(jù)計(jì)算出來(lái)的結(jié)果找到目標(biāo)用戶u的鄰居集合U。根據(jù)用戶u的鄰居集合計(jì)算出用戶未評(píng)分的項(xiàng)目集合Unot。
④判斷推薦給用戶的項(xiàng)目是否是新項(xiàng)目,如果是,執(zhí)行⑤;如果不是,執(zhí)行⑥。
⑤根據(jù)①,將用戶未評(píng)分的項(xiàng)目集合Unot按可信度值從大到小排列,取前N個(gè)值推薦給用戶u。
⑥將用戶未評(píng)分的項(xiàng)目集合Unot用公式(13)計(jì)算出用戶對(duì)項(xiàng)目的預(yù)測(cè)值,按從小到大排列,取前N個(gè)值推薦給用戶u。
3.1 實(shí)驗(yàn)數(shù)據(jù)集
本實(shí)驗(yàn)采用某國(guó)內(nèi)知名購(gòu)物網(wǎng)站的數(shù)據(jù)集,由國(guó)內(nèi)數(shù)據(jù)堂在線公布的數(shù)據(jù)集(http://www.datatang.com/ data/15516),可用于評(píng)論分析、情感計(jì)算、用戶行為分析等研究領(lǐng)域。該數(shù)據(jù)集包含該網(wǎng)站上31萬(wàn)用戶對(duì)18000件商品的165萬(wàn)條用戶評(píng)論數(shù)據(jù)。其中評(píng)分值分為5個(gè)等級(jí),評(píng)分值越高表示用戶越喜愛(ài)(評(píng)分值范圍1-5),0表示用戶未買此商品或未對(duì)此商品進(jìn)行評(píng)分。本實(shí)驗(yàn)數(shù)據(jù)集的數(shù)據(jù)稀疏性為:1-1650000/(310000× 18000)=99.97%,由此可知此用戶評(píng)分?jǐn)?shù)據(jù)的稀疏性是非常高。
3.2 評(píng)估標(biāo)準(zhǔn)
(1)預(yù)測(cè)質(zhì)量方面
本文使用的是統(tǒng)計(jì)精度評(píng)價(jià)方法中一種常用的衡量預(yù)測(cè)結(jié)果的度量方法,即平均絕對(duì)誤差(Mean Absolute Error,MAE),該方法就是通過(guò)統(tǒng)計(jì)用戶對(duì)項(xiàng)目的實(shí)際評(píng)分和預(yù)測(cè)評(píng)分之間的差值,來(lái)判斷預(yù)測(cè)的準(zhǔn)確性(MAE越小,說(shuō)明預(yù)測(cè)質(zhì)量越高)。MAE計(jì)算公式如下:
Rui,m表示用戶u對(duì)項(xiàng)目i的真實(shí)評(píng)分,Pui,m表示用戶u對(duì)項(xiàng)目i的預(yù)測(cè)評(píng)分。
(2)推薦質(zhì)量方面
本文是從薦全率(Precision)和薦準(zhǔn)率(Recall)兩個(gè)方面來(lái)評(píng)估推薦質(zhì)量的準(zhǔn)確度,即推薦質(zhì)量標(biāo)準(zhǔn)F1。薦全率是評(píng)估推薦項(xiàng)目的全面性,薦準(zhǔn)率是評(píng)估推薦項(xiàng)目的準(zhǔn)確性,F(xiàn)1越大,則說(shuō)明推薦質(zhì)量越高。F1計(jì)算公式如下:
其中薦全率(Precision)和薦準(zhǔn)率(Recall)的計(jì)算公式如下:
T為測(cè)試數(shù)據(jù)集中獲得推薦的項(xiàng)目集合,V為推薦集合中推薦正確的項(xiàng)目集合,W為測(cè)試集中用戶喜歡的所有項(xiàng)目集合。
3.3 實(shí)驗(yàn)結(jié)果
(1)調(diào)整用戶興趣時(shí)間權(quán)值參數(shù)
圖1為基于時(shí)間用戶興趣度的不同取值對(duì)預(yù)測(cè)質(zhì)量的影響(η=0.5,0.3,0.7)。當(dāng)η=0.3時(shí),用戶興趣度受長(zhǎng)期興趣度影響比短期興趣度影響大;當(dāng)η=0.5時(shí),用戶興趣受長(zhǎng)期興趣度影響與短期興趣度影響相同;當(dāng)η=0.7時(shí),用戶興趣受長(zhǎng)期興趣度影響比短期興趣度影響小。根據(jù)圖1呈現(xiàn)的結(jié)果可以看出,η不同取值對(duì)MEA值影響不同。根據(jù)圖1中曲線可以求得不同影響因子η的MEA平均值,當(dāng)η=0.3時(shí),MEA平均值為0.766;當(dāng)η=0.5時(shí),MEA平均值為0.738;當(dāng)η=0.7時(shí),MEA平均值為0.771。由此可知,當(dāng)η=0.5時(shí),說(shuō)明用戶興趣度對(duì)MEA值的影響最準(zhǔn)確。在現(xiàn)實(shí)生活中,用戶興趣度受用戶近期訪問(wèn)項(xiàng)目的影響和以前早期訪問(wèn)項(xiàng)目數(shù)據(jù)的影響是相同的。
結(jié)論(1):當(dāng)用戶長(zhǎng)期興趣度和用戶短期興趣度對(duì)用戶興趣度影響相同時(shí),預(yù)測(cè)質(zhì)量準(zhǔn)確度最好。
(2)調(diào)整項(xiàng)目時(shí)間權(quán)值參數(shù)
圖2為基于時(shí)間項(xiàng)目受歡迎度的不同取值對(duì)預(yù)測(cè)質(zhì)量的影響(λ=0.5,0.3,0.7)。當(dāng)λ=0.3時(shí),項(xiàng)目受歡迎度受時(shí)間度影響度影響比受季節(jié)變化影響度影響大;當(dāng)λ=0.5時(shí),項(xiàng)目受歡迎度受時(shí)間度影響度影響與受季節(jié)變化影響度影響相同;當(dāng)λ=0.7時(shí),項(xiàng)目受歡迎度受時(shí)間度影響度影響比受季節(jié)變化影響度影響小。根據(jù)圖2呈現(xiàn)的結(jié)果可以看出,λ不同取值對(duì)MEA值影響不同。根據(jù)圖2中曲線可以求得不同影響因子λ的MEA平均值,當(dāng)λ=0.3時(shí),MEA平均值為0.775;當(dāng)λ= 0.5時(shí),MEA平均值為0.748;當(dāng)λ=0.7時(shí),MEA平均值為0.783。由此可知,當(dāng)λ=0.5時(shí),說(shuō)明項(xiàng)目受歡迎度對(duì)MEA值的影響最準(zhǔn)確。在現(xiàn)實(shí)生活中,隨著時(shí)間變化,項(xiàng)目的受歡迎程度成非線性減弱。對(duì)項(xiàng)目長(zhǎng)時(shí)間而言,大部分商品總會(huì)從受歡迎到淘汰;對(duì)項(xiàng)目季節(jié)而言,許多項(xiàng)目受季節(jié)影響,在特定的某個(gè)季節(jié)才會(huì)受歡迎,比如說(shuō)受夏季的影響,電風(fēng)扇需求量會(huì)比其他季節(jié)的需求量都大。
圖1 參數(shù)η對(duì)MEA的影響
結(jié)論(2):當(dāng)項(xiàng)目受時(shí)間影響度和項(xiàng)目受季節(jié)影響度對(duì)項(xiàng)目受歡迎度影響相同時(shí),預(yù)測(cè)質(zhì)量準(zhǔn)確度最好。
圖2 參數(shù)λ對(duì)MEA的影響
(3)調(diào)整新項(xiàng)目推薦的用戶評(píng)分可信度參數(shù)
圖3為基于用戶評(píng)分可信度的新項(xiàng)目推薦不同取值對(duì)推薦質(zhì)量的影響(β>=0.6,0.7,0.8)。當(dāng)β=0.6時(shí),將新項(xiàng)目推薦給用戶評(píng)分可信度大于0.6的用戶;當(dāng)β=0.7時(shí),將新項(xiàng)目推薦給用戶評(píng)分可信度大于0.7的用戶;當(dāng)β=0.8時(shí),將新項(xiàng)目推薦給用戶評(píng)分可信度大于0.8的用戶。根據(jù)圖3呈現(xiàn)的結(jié)果可以看出,β不同取值對(duì)MEA值影響不同。根據(jù)圖3中曲線可以求得不同影響因子β的MEA平均值,當(dāng)β=0.6時(shí),MEA平均值為0.382;當(dāng)β=0.7時(shí),MEA平均值為0.347;當(dāng)β=0.8時(shí),MEA平均值為0.333。由此可知,當(dāng)β=0.8時(shí),說(shuō)明推薦新項(xiàng)目的F1值最準(zhǔn)確。在現(xiàn)實(shí)生活中,因?yàn)樵u(píng)分可信度高的用戶會(huì)員等級(jí)高,購(gòu)買東西多,信用度也高,所以將新項(xiàng)目推薦給用戶評(píng)分可信度高的用戶,推薦的新項(xiàng)目的準(zhǔn)確率越好。因此通過(guò)使用用戶評(píng)分可信度標(biāo)準(zhǔn)來(lái)解決新項(xiàng)目的冷啟動(dòng)問(wèn)題。
結(jié)論(3):當(dāng)推薦新項(xiàng)目時(shí),用戶評(píng)分可信度與新項(xiàng)目推薦準(zhǔn)確率呈正相關(guān)性,即用戶評(píng)分可信度越大,推薦準(zhǔn)確率越高。
圖3 參數(shù)β對(duì)F1的影響
(4)相似性模型比較
圖4為相似性模型PC,COS,ACOS的MEA比較。如圖4所示,本文從Jaccard系數(shù)和評(píng)分可信度進(jìn)行優(yōu)化,使用MEA進(jìn)行比較。從圖4可以看出,在PC相似性模型中,評(píng)分可信度相似性模型比Jaccard系數(shù)相似性高3%,比為優(yōu)化相似性模型相似性高7%;在COS相似性模型中,評(píng)分可信度相似性模型比Jaccard系數(shù)相似性高4%,比為優(yōu)化相似性模型相似性高9%;在ACOS相似性模型中,評(píng)分可信度相似性模型比Jaccard系數(shù)相似性高3%,比為優(yōu)化相似性模型相似性高7%。由此可知,,評(píng)分可信度相似性模型的相似度比較好。與未優(yōu)化的相似模型相比,Jaccard系數(shù)優(yōu)化的模型可以根據(jù)用戶/項(xiàng)目的公共集合自動(dòng)調(diào)整大小,因此提高了相似性計(jì)算的準(zhǔn)確度。但是由于用戶評(píng)分的主觀性,模型的性能會(huì)在一定程度上受到約束。評(píng)分可信度相似性模型是對(duì)Jaccard系數(shù)相似性模型進(jìn)行優(yōu)化,將Jaccard系數(shù)與用戶評(píng)分可信度相結(jié)合,對(duì)用戶的過(guò)去評(píng)分行為進(jìn)行評(píng)分可信度的計(jì)算,通過(guò)降低用戶評(píng)分的主觀性誤差,改善這種約束,從而提高相似性計(jì)算的準(zhǔn)確度。
結(jié)論(4):與未優(yōu)化相似性模型相比,評(píng)分可信度相似性模型提高了近7%的相似性計(jì)算;與Jaccard系數(shù)相似性模型相比,評(píng)分可信度相似性模型提高了近3%的相似性計(jì)算。因此可信度相似性模型對(duì)提高相似性計(jì)算是有效的。
(5)推薦模型比較
圖5為不同推薦模型的F1比較。如圖5所示,將本文的結(jié)合用戶評(píng)分信用度和動(dòng)態(tài)時(shí)間加權(quán)的協(xié)同過(guò)濾算法(UCTCF)與基于用戶的系統(tǒng)過(guò)濾算法(UBCF)和基于項(xiàng)目的協(xié)同過(guò)濾算法相比較(IBCF)(UCTCF的F1值取最優(yōu))。根據(jù)圖5可以求得不同推薦模型的F1平均值,IBCF的F1平均值為0.307,UBCF的F1平均值為0.284,UCTCF的F1平均值為0.354,由此可知,結(jié)合用戶評(píng)分信用度和動(dòng)態(tài)時(shí)間加權(quán)的協(xié)同過(guò)濾算法比傳統(tǒng)推薦算法推薦性能好。
結(jié)論(5):與UBCF推薦模型相比,UCTCF推薦模型提高了近7%的推薦準(zhǔn)確度;與IBCF推薦模型相比,UCTCF推薦模型提高了近4.7%的推薦準(zhǔn)確度。因此UCTCF推薦模型對(duì)提高推薦準(zhǔn)確度是有效的。
本研究結(jié)果發(fā)現(xiàn),結(jié)合評(píng)分可信度和動(dòng)態(tài)時(shí)間加權(quán)推薦算法能有效地提高推薦準(zhǔn)確率;當(dāng)用戶長(zhǎng)期興趣度和用戶短期興趣度對(duì)用戶興趣度影響相同時(shí),預(yù)測(cè)質(zhì)量準(zhǔn)確度最好;當(dāng)項(xiàng)目受時(shí)間影響度和項(xiàng)目受季節(jié)影響度對(duì)項(xiàng)目受歡迎度影響相同時(shí),預(yù)測(cè)質(zhì)量準(zhǔn)確度最好;當(dāng)推薦新項(xiàng)目時(shí),用戶評(píng)分可信度與新項(xiàng)目推薦準(zhǔn)確率呈正相關(guān)性。本研究解決了新項(xiàng)目推薦的冷啟動(dòng)問(wèn)題和時(shí)間概念漂移問(wèn)題,優(yōu)化了傳統(tǒng)的相似性模型和推薦模型。由于本研究數(shù)據(jù)集是購(gòu)物網(wǎng)站的數(shù)據(jù)集,根據(jù)用戶的購(gòu)買特點(diǎn)對(duì)原有的模型進(jìn)行優(yōu)化的,因此比較適合電子商務(wù)購(gòu)物網(wǎng)站。
圖5 推薦模型的F1比較
[1]Isinkaye FO etal.,Recommendation Systems:Principles,Methods and Evaluation,Egyptian Informatics(2015),http://dx.doi.org/ 10.1016/j.eij.2015.06.005.
[2]Silvia Puglisi,Javier Parra-Arnau,Jordi Forné,On Content-Based Recommendation and User Privacy in Social-Tagging Systems,Computer Standards&Interfaces 41(2015)17-27.
[3]Dong-sheng Li etal.Item-Based Top-N Recommendation Resilient to Aggregated Information Revelation.Knowledge-Based Systems,2014,67:290-304.
[4]Alper Bilge etal.Robustness Analysis of Privacy-Preserving Model-Based Recommendation Schemes.Expert Systems with Applications,2014,:3671-3681.
[5]Jing Zhang,Qin-ke Peng etal.Collaborative Filtering Recommendation Algorithm Based on User Preference Derived from Item Domain Features,Physica A,2014,:66-76.
[6]Nitin Pradeep Kumar,Zhen-zhen Fan.Hybrid User-Item Based Collaborative Filtering.Procedia Computer Science,2015,60:1453-1461.
[7]Ahmad A.Kardan,Mahnaz Ebrahimi.A Novel Approach to Hybrid Recommendation Systems Based on Association Rules Mining for Content Recommendation in Asynchronous Discussion Groups,Information Sciences,2013,219:93-110.
[8]Su Xiaoyuan,Khoshgoftaar T M.A Suervey of Collaborative Filtering Techniques[C].Proc.of Conference on Advances in Artificial Intelligence.[S.1.]:IEEE Press,2009:421-425.
[9]Chou AY.The Analysis of Online Social Networking:How Technology is Changing E-Commerce Purchasing Decision.Int'l Journal of Information Systems and Change Management,2010,4(4):353-365.[doi:10.1504/IJISCM.2010.036917]
Recommendation Algorithm Combining Score's Credibility and Dynamic Time Weighted
HUANG Lan,QIAN Yu-rong
(School of Software,Xinjiang University,Urumqi Xinjiang 830008)
To solve cold start problem which the new project recommends in e-commerce recommendation system and improve the similarity of user-user and item-item.Proposes a recommendation algorithm combining score's credibility and dynamic time weighted by contrasting the current recommendation algorithm.The proposed method introduces the credibility of users'ratings to compute the similarity of user-user and item-item.Then the new items are recommended to the user of high credibility.Dynamic time weighted function is constructed by analyzing the relationship between time and users'interests or the popularity of the project.Then the items are recommended to the user of high interests and the item of high popularity.The algorithm is verified by experiment that it compared with the traditional user-based collaborative filtering UBCF algorithm can improve the accuracy of nearly 7%of the recommended,and it compared with item-based collaborative filtering IBCF algorithm can improve the accuracy of nearly 4.7%of the recommended.At the same time,the algorithm solves the problem of cold start in recommendation of new project.
Recommendation System;Collaborative Filtering;Credibility;Time Weighted
國(guó)家自然科學(xué)基金項(xiàng)目(No.61562086、No.61462079、No.61363083、No.61262088)
1007-1423(2016)35-0013-08
10.3969/j.issn.1007-1423.2016.35.003
黃蘭(1988-),女,四川遂寧人,碩士研究生,研究方向?yàn)榇髷?shù)據(jù)
錢育蓉(1980-),女,山東武城人,博士,副教授,研究方向?yàn)榫W(wǎng)絡(luò)計(jì)算和遙感圖像處理,E-mail:qyr@xju.edu.cn
2016-10-20
2016-11-25