劉波
摘要:傳統(tǒng)的協(xié)同過濾推薦算法一般基于用戶對(duì)商品的評(píng)分而并未考慮用戶的地理位置信息以及受到數(shù)據(jù)稀疏性問題的影響很大,該文針對(duì)以上問題,提出了一種基于用戶地理位置的協(xié)同過濾推薦算法,根據(jù)用戶的距離計(jì)算用戶相似度,結(jié)合用戶的評(píng)分信息對(duì)傳統(tǒng)的user-based算法進(jìn)行改進(jìn)。實(shí)驗(yàn)結(jié)果表明,在對(duì)商品進(jìn)行top-k推薦時(shí),改進(jìn)后的算法具有更好的推薦效果,推薦精確率和召回率都有所提升。
關(guān)鍵詞:地理位置;距離;協(xié)同過濾;門店推薦;位置相似度
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2018)33-0012-03
隨著移動(dòng)互聯(lián)網(wǎng)的快速發(fā)展,越來越多的用戶通過手機(jī)等移動(dòng)設(shè)備接入互聯(lián)網(wǎng),網(wǎng)絡(luò)中的數(shù)據(jù)也呈現(xiàn)出爆炸增長的趨勢(shì),如何充分利用這些數(shù)據(jù),為移動(dòng)用戶提供更好的推薦內(nèi)容顯得越來越重要。傳統(tǒng)的推薦方式有基于內(nèi)容的推薦、基于關(guān)聯(lián)規(guī)則的推薦、協(xié)同過濾推薦、基于矩陣分解的推薦、集成學(xué)習(xí)推薦,其中協(xié)同過濾推薦是在移動(dòng)推薦領(lǐng)域應(yīng)用最廣泛的推薦算法。傳統(tǒng)的協(xié)同過濾算法面臨很多的不足,如受用戶評(píng)分標(biāo)準(zhǔn)不一致性和數(shù)據(jù)稀疏性影響較大,針對(duì)這些問題,我們考慮引入門店的地理位置信息,通過結(jié)合門店的距離[1]來實(shí)現(xiàn)更加精準(zhǔn)的用戶推薦。
一般來說,由于用戶個(gè)體活動(dòng)范圍的局限性,用戶傾向于選擇固定地區(qū)的門店進(jìn)行消費(fèi),距離該個(gè)體消費(fèi)門店越遠(yuǎn)的店,其產(chǎn)生消費(fèi)的成本越高,消費(fèi)的概率也越低。目前一般的推薦系統(tǒng)并沒有深入研究門店聚集性對(duì)用戶消費(fèi)產(chǎn)生的影響,本文綜合用戶喜好和門店的距離因素,提出了一種加入門店地理位置的協(xié)同過濾推薦算法[2][5],用于為門店尋找合適的用戶。
1數(shù)據(jù)與算法
1.1數(shù)據(jù)來源
本文數(shù)據(jù)集來自門店交易數(shù)據(jù)。門店每天產(chǎn)生交易流水,其中包含了豐富的用戶行為記錄,結(jié)合門店本身的地理位置信息,產(chǎn)生了包含地理位置的行為數(shù)據(jù)[3]。原始數(shù)據(jù)集為北京市某個(gè)商圈的所有門店消費(fèi)記錄以及門店的地理位置坐標(biāo),經(jīng)過預(yù)處理過后,如表3所示。mid為門店ID,uid為用戶ID,rating為門店對(duì)用戶的評(píng)分,這里采用的是隱式評(píng)分,即只要有過消費(fèi)記錄,不論消費(fèi)多少次,即把評(píng)分置為1,表名該門店的用戶偏好。latitude為門店的緯度坐標(biāo),longitude為門店的經(jīng)度坐標(biāo)。
1.2推薦算法
傳統(tǒng)的協(xié)同過濾算法是從門店-用戶的二元評(píng)分矩陣中計(jì)算目標(biāo)門店與其他門店的相似度,找到距離目標(biāo)門店最近的n個(gè)門店,綜合這n個(gè)門店對(duì)用戶的評(píng)分,對(duì)目標(biāo)門店對(duì)用戶的評(píng)分,最終得出該門店的top-k用戶推薦。
在計(jì)算目標(biāo)門店與周圍門店的相似度時(shí),相似度的計(jì)算方式主要有兩種:皮爾遜相似度和修正的余弦相似度。
一般采用的距離衰減函數(shù)主要有3種[9],高斯衰減函數(shù)、指數(shù)衰減函數(shù)、冪函數(shù)衰減。如圖1所示,可以看出,指數(shù)函數(shù)和冪函數(shù)在門店距離較近時(shí)衰減非常快,高斯函數(shù)在門店間距較低時(shí)衰減較為平滑,我們采用高斯衰減函數(shù)。
針對(duì)門店最近鄰個(gè)數(shù)的取值,從實(shí)驗(yàn)結(jié)果圖3、圖4可以看出,最近鄰個(gè)數(shù)越低,precision值越高,以top-k取值20為例,當(dāng)nearest達(dá)到最低為3時(shí),precision、recall、f1值最優(yōu),推薦效果最好。這說明用戶在選擇門店進(jìn)行消費(fèi)時(shí),與門店的相關(guān)性很高。
綜合以上試驗(yàn)結(jié)果可以看出,在精確度(precision)、召回率(recall)、f1這3個(gè)指標(biāo)上,基于地理位置的協(xié)同過濾算法都要明顯的優(yōu)于傳統(tǒng)協(xié)同過濾算法。
3結(jié)語
本文提出了一種基于門店地理位置的協(xié)同過濾推薦算法,通過計(jì)算門店地理位置的相似度,對(duì)比傳統(tǒng)的通過皮爾遜相關(guān)系數(shù)與余弦距離的相似度計(jì)算方法,取最近鄰的N個(gè)門店進(jìn)行top-k用戶推薦。實(shí)驗(yàn)結(jié)果表明,基于門店地理位置相似度的協(xié)同過濾算法在本數(shù)據(jù)集上要優(yōu)于傳統(tǒng)無改進(jìn)的協(xié)同過濾算法。
參考文獻(xiàn):
[1] 劉樹棟,孟祥武.基于位置的社會(huì)化網(wǎng)絡(luò)推薦系統(tǒng)[J].計(jì)算機(jī)學(xué)報(bào),2015(3802):322-336.
[2]田恩菊.基于地理位置的朋友推薦研究[D].山東大學(xué),2017.
[3] 任星怡,宋美娜,宋俊德.基于用戶簽到行為的興趣點(diǎn)推薦[J].計(jì)算機(jī)學(xué)報(bào),2017(4001):28-51.
[4] 朱鵬軍.基于用戶行為特征的性別預(yù)測(cè)研究[J].電腦知識(shí)與技術(shù),2018(1402):158-160.
[5] LogeshRavi,SubramaniyaswamyVairavasundaram,SilviaConforto.ACollaborativeLocationBasedTravelRecommendationSystemthroughEnhancedRatingPredictionfortheGroupofUsers[J].ComputationalIntelligenceandNeuroscience,2016.
[6] JieBao,YuZheng,DavidWilkie,MohamedMokbel.Recommendationsinlocation-basedsocialnetworks:asurvey[J].GeoInformatica,2015(193).
[7] HaidongZhong,ShaozhongZhang,LinglingHua,WentingYuan,XudongZhao.AConceptualandTechnologicalFrameworkonLocationBasedPersonalizedRecommendationforMobileE-commerce[J].JournalofConvergenceInformationTechnology,2013(810).
[8] ACOLLABORATIVELOCATIONMODELFORCELLULARMOBILEPOSITIONLOCATION[J].JournalofElectronics,2004(06):449-453.
[9] YuLiu,ChaoguiKang,SongGao,YuXiao,YuanTian.Understandingintra-urbantrippatternsfromtaxitrajectorydata[J].JournalofGeographicalSystems,2012(144).
【通聯(lián)編輯:光文玲】