丁 哲,秦 臻,鄭文韜,秦志光
?
基于移動(dòng)用戶(hù)瀏覽行為的推薦模型
丁 哲,秦 臻,鄭文韜,秦志光
(電子科技大學(xué)信息與軟件工程學(xué)院 成都 610054; 電子科技大學(xué)網(wǎng)絡(luò)與數(shù)據(jù)安全四川省重點(diǎn)實(shí)驗(yàn)室 成都 610054)
推薦算法已經(jīng)被廣泛地應(yīng)用于很多領(lǐng)域。但是如果利用傳統(tǒng)的推薦算法預(yù)測(cè)移動(dòng)用戶(hù)瀏覽互聯(lián)網(wǎng)的行為,并在此基礎(chǔ)上對(duì)移動(dòng)用戶(hù)進(jìn)行個(gè)性化的內(nèi)容推薦,傳統(tǒng)推薦算法的推薦效果往往比較差。該文通過(guò)分析移動(dòng)用戶(hù)瀏覽互聯(lián)網(wǎng)的記錄,得出傳統(tǒng)推薦算法效果差的原因。在此基礎(chǔ)上,提出了一個(gè)基于移動(dòng)用戶(hù)瀏覽行為的推薦模型,即RMBDMU。該模型可以對(duì)移動(dòng)用戶(hù)瀏覽互聯(lián)網(wǎng)的行為進(jìn)行預(yù)測(cè),在預(yù)測(cè)的基礎(chǔ)上對(duì)移動(dòng)用戶(hù)進(jìn)行內(nèi)容推薦。為了驗(yàn)證推薦模型的有效性,在真實(shí)的移動(dòng)用戶(hù)瀏覽互聯(lián)網(wǎng)的行為數(shù)據(jù)上進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果顯示基于移動(dòng)用戶(hù)瀏覽行為的推薦模型比傳統(tǒng)的推薦算法更為有效。
移動(dòng)用戶(hù); 瀏覽行為的預(yù)測(cè); 概率頻繁項(xiàng)集挖掘; 推薦模型
隨著手機(jī)應(yīng)用的普及,移動(dòng)技術(shù)已經(jīng)成為人們生活中不可或缺的一部分。人們利用手機(jī)通訊、瀏覽網(wǎng)上的信息等,使電商和移動(dòng)運(yùn)營(yíng)商掌握了大量移動(dòng)用戶(hù)上網(wǎng)行為的數(shù)據(jù)。如何利用這些數(shù)據(jù)預(yù)測(cè)移動(dòng)用戶(hù)的上網(wǎng)行為,并在預(yù)測(cè)的基礎(chǔ)上對(duì)用戶(hù)進(jìn)行內(nèi)容推薦成為了學(xué)術(shù)界的研究熱點(diǎn)。目前大部分電商網(wǎng)站,如淘寶、亞馬遜等,都利用所掌握的用戶(hù)數(shù)據(jù)為用戶(hù)提供產(chǎn)品推薦
與傳統(tǒng)的用戶(hù)購(gòu)買(mǎi)記錄和用戶(hù)評(píng)分記錄不同,移動(dòng)用戶(hù)瀏覽互聯(lián)網(wǎng)信息的行為記錄存在很大不確定性。這就導(dǎo)致了傳統(tǒng)的基于用戶(hù)購(gòu)買(mǎi)或評(píng)分?jǐn)?shù)據(jù)的推薦算法不適用于基于移動(dòng)用戶(hù)瀏覽行為的推薦。移動(dòng)用戶(hù)常常為了完成一個(gè)自己相對(duì)陌生的臨時(shí)任務(wù),需要利用手機(jī)在互聯(lián)網(wǎng)上瀏覽大量相關(guān)的信息。當(dāng)這項(xiàng)工作完成以后,該用戶(hù)很少瀏覽相關(guān)信息。例如,一個(gè)移動(dòng)用戶(hù)去倫敦度假,他會(huì)利用手機(jī)在互聯(lián)網(wǎng)上瀏覽大量關(guān)于倫敦旅游景點(diǎn)的信息。當(dāng)他度假回來(lái),可能就很少關(guān)注倫敦旅游景點(diǎn)的信息。移動(dòng)用戶(hù)在互聯(lián)網(wǎng)上的大部分瀏覽行為都是為了完成這種臨時(shí)性的任務(wù)而產(chǎn)生的,所以移動(dòng)用戶(hù)瀏覽大部分互聯(lián)網(wǎng)信息的原因并不是自己的興趣,而是這種臨時(shí)的需求,這就導(dǎo)致了移動(dòng)用戶(hù)瀏覽行為記錄存在很大的不確定性。所以很難利用傳統(tǒng)的推薦算法發(fā)現(xiàn)用戶(hù)真正感興趣的互聯(lián)網(wǎng)信息。為了能夠從移動(dòng)用戶(hù)瀏覽行為的記錄中發(fā)現(xiàn)移動(dòng)用戶(hù)的興趣,本文提出一種新的基于移動(dòng)用戶(hù)瀏覽行為的推薦模型(recommendation model based on mobile user behaviors, RMBDMU)。該模型不僅分析了移動(dòng)用戶(hù)瀏覽互聯(lián)網(wǎng)信息的次數(shù),還分析了移動(dòng)用戶(hù)關(guān)注互聯(lián)網(wǎng)信息的天數(shù),從而分析出移動(dòng)用戶(hù)的興趣。本文有以下3個(gè)貢獻(xiàn)。
1) 通過(guò)分析移動(dòng)用戶(hù)瀏覽互聯(lián)網(wǎng)信息的記錄,發(fā)現(xiàn)造成傳統(tǒng)推薦算法無(wú)法有效地應(yīng)用于基于移動(dòng)用戶(hù)瀏覽信息推薦的原因。
2) 提出一種新的基于移動(dòng)用戶(hù)瀏覽行為的推薦模型(RMBDMU)。
3) 在真實(shí)的移動(dòng)用戶(hù)瀏覽行為的數(shù)據(jù)上對(duì)提出的推薦模型進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明該推薦模型比傳統(tǒng)的推薦算法更為有效。
最常用的協(xié)同過(guò)濾推薦算法是建立在鄰居模型的基礎(chǔ)上。最早的基于鄰居模型的協(xié)同過(guò)濾推薦算法是基于用戶(hù)鄰居的協(xié)調(diào)過(guò)濾推薦算法[1]。如果將基于用戶(hù)鄰居的協(xié)同過(guò)濾推薦算法應(yīng)用于電商系統(tǒng),該算法需要大量的計(jì)算量,這就導(dǎo)致了推薦效果較差。為了解決這一問(wèn)題,基于項(xiàng)目鄰居的協(xié)同過(guò)濾算法得到廣泛的應(yīng)用[2-3]。
基于隱語(yǔ)義模型推薦算法,如奇異分解,也是一種常用的協(xié)同過(guò)濾模型。隱語(yǔ)義模型中,隱因子建立用戶(hù)興趣和商品之間的聯(lián)系[4-5]。文獻(xiàn)[6]在SVD中引入了自信度,并提出基于隱反饋的推薦算法。文獻(xiàn)[7]利用價(jià)格之間的聯(lián)系處理推薦算法中的冷啟動(dòng)問(wèn)題。
頻繁項(xiàng)集挖掘是數(shù)據(jù)挖掘中的一個(gè)重要的分支。1993年,文獻(xiàn)[8]提出了Apriori算法。為了提高項(xiàng)集挖掘的效率,文獻(xiàn)[9]提出了基于FP樹(shù)挖掘算法,基于FP樹(shù)挖掘算法相對(duì)Apriori算法,減少了挖掘頻繁項(xiàng)集的運(yùn)行時(shí)間和所需的空間。雖然Aprior和基于FP樹(shù)挖掘算法得到了廣泛的應(yīng)用,但Apriori算法和基于FP樹(shù)的挖掘算法很難直接應(yīng)用于基于不確定數(shù)據(jù)集的頻繁項(xiàng)集挖掘。在2007年,文獻(xiàn)[10]提出了期望支持度的方法來(lái)計(jì)算項(xiàng)集在不確定數(shù)據(jù)集中的支持度。文獻(xiàn)[11]提出了頻繁概率來(lái)計(jì)算項(xiàng)集在不確定數(shù)據(jù)集中的支持度。本文利用頻繁概率作為頻繁度的度量。文獻(xiàn)[12]提出了一種新的挖掘概率頻繁項(xiàng)集的方法,該方法可以挖掘出由項(xiàng)集組成的集合,包含項(xiàng)集的個(gè)數(shù)最少,但包含的所有頻繁項(xiàng)集的概率很高。而文獻(xiàn)[12]中計(jì)算頻繁概率的方法則是建立在泊松二項(xiàng)分布的相關(guān)理論[13-15]基礎(chǔ)上。
本文根據(jù)互聯(lián)網(wǎng)信息的內(nèi)容對(duì)互聯(lián)網(wǎng)信息進(jìn)行分類(lèi)。由于移動(dòng)用戶(hù)瀏覽互聯(lián)網(wǎng)信息的原因很多,并且在一時(shí)間段,移動(dòng)用戶(hù)關(guān)注的時(shí)間不一定隨著瀏覽的次數(shù)增加而增加。所以傳統(tǒng)推薦算法很難在瀏覽數(shù)據(jù)中發(fā)現(xiàn)移動(dòng)用戶(hù)的興趣。
本文應(yīng)用的數(shù)據(jù)是31660個(gè)用戶(hù)3個(gè)月的智能手機(jī)應(yīng)用程序日志,這些數(shù)據(jù)來(lái)源于網(wǎng)絡(luò)運(yùn)營(yíng)商。當(dāng)智能手機(jī)的應(yīng)用程序訪問(wèn)互聯(lián)網(wǎng)的資源時(shí),就會(huì)生成其訪問(wèn)資源的記錄。所使用的數(shù)據(jù)包括179 954181個(gè)訪問(wèn)記錄,每個(gè)記錄是由表示其用戶(hù)ID和被訪問(wèn)互聯(lián)網(wǎng)資源的數(shù)字編碼組成。通過(guò)使用正則表達(dá)式對(duì)不同關(guān)鍵字的匹配,得到了與被訪問(wèn)的互聯(lián)網(wǎng)資源相匹配的主題。本文按照主題對(duì)信息進(jìn)行分類(lèi),如體育類(lèi)、金融類(lèi)等。通過(guò)分析31660個(gè)移動(dòng)用戶(hù)在2013年10月的瀏覽數(shù)據(jù),發(fā)現(xiàn)移動(dòng)用戶(hù)的瀏覽特征。
圖1 關(guān)注時(shí)間對(duì)比分析
通過(guò)分析31660個(gè)移動(dòng)用戶(hù)在2013年10月瀏覽網(wǎng)絡(luò)信息的日志,獲得移動(dòng)用戶(hù)瀏覽行為的特點(diǎn)。在2013年10月中,不同的關(guān)注天數(shù)的主題占2013年10月關(guān)注所有主題的人均百分比如圖1所示。在圖1中,橫坐標(biāo)表示移動(dòng)用戶(hù)對(duì)主題的關(guān)注天數(shù),縱坐標(biāo)表示關(guān)注相應(yīng)天數(shù)的主題數(shù)占2013年10月總關(guān)注主題數(shù)的人均百分比。從圖1可以看出,在10月份,移動(dòng)用戶(hù)瀏覽的不同主題的信息,大部分主題只關(guān)注1~3天,即關(guān)注1~3天的主題數(shù)占10份關(guān)注總主題數(shù)的42%。隨著關(guān)注時(shí)間的擴(kuò)大,關(guān)注主題數(shù)急劇下降。當(dāng)關(guān)注時(shí)間大于20天后,關(guān)注的主題數(shù)目趨近于平穩(wěn),約占10月份關(guān)注總主題數(shù)的5%。
分析不同關(guān)注天數(shù)的主題的人均瀏覽次數(shù),如圖2所示。通過(guò)分析圖2,可以發(fā)現(xiàn)在2013年10月,移動(dòng)用戶(hù)對(duì)主題的瀏覽次數(shù)并不一定隨著關(guān)注時(shí)間的增加而增加。
圖2 瀏覽次數(shù)對(duì)比
通過(guò)上述分析,可以得出:1)移動(dòng)用戶(hù)關(guān)注大量的互聯(lián)網(wǎng)信息,但是只有很少的一部分是與該用戶(hù)的興趣相關(guān)的;2) 在一段時(shí)間之內(nèi),移動(dòng)用戶(hù)瀏覽次數(shù)多的互聯(lián)網(wǎng)信息不一定與該用戶(hù)的興趣相關(guān)聯(lián)。
本文提出一個(gè)新的基于移動(dòng)用戶(hù)瀏覽行為的推薦模型(RMBDMU)。該模型建立在概率頻繁項(xiàng)集挖掘的基礎(chǔ)上,發(fā)現(xiàn)移動(dòng)用戶(hù)對(duì)于不同主題的互聯(lián)網(wǎng)信息的興趣度,然后根據(jù)興趣度的大小,將主題以遞減的方式排序,最后將前個(gè)主題推薦給移動(dòng)用戶(hù)。
為了使模型有更好的推薦效果,本文從兩方面對(duì)第個(gè)主題信息的興趣度的預(yù)測(cè)結(jié)果進(jìn)行優(yōu)化。
1) 利用用戶(hù)鄰居對(duì)用戶(hù)的興趣度進(jìn)行優(yōu)化
如果不同的移動(dòng)用戶(hù)具有相似的行為,那么他們的興趣也可能相似,所以利用皮爾森相似度來(lái)對(duì)移動(dòng)用戶(hù)行為的相似性進(jìn)行度量,從而發(fā)現(xiàn)每個(gè)移動(dòng)用戶(hù)的鄰居用戶(hù),利用鄰居用戶(hù)對(duì)用戶(hù)的興趣度進(jìn)行優(yōu)化。
2) 利用主題鄰居對(duì)用戶(hù)的興趣度進(jìn)行優(yōu)化
利用皮爾森相似度,可以找到第個(gè)主題的前個(gè)鄰居,從而利用式(8)得到對(duì)于第個(gè)主題,基于鄰居主題的關(guān)注度。最終利用式(9)優(yōu)化用戶(hù)對(duì)第個(gè)主題關(guān)注度。其中是控制權(quán)重的參數(shù)。
最后關(guān)于用戶(hù)對(duì)第個(gè)主題的興趣度,即Interesing()的預(yù)測(cè)結(jié)果是(是控制權(quán)重的參數(shù)):
本文利用移動(dòng)用戶(hù)的人均1值和在測(cè)試集中,移動(dòng)用戶(hù)人均瀏覽推薦主題的平均瀏覽次數(shù),對(duì)測(cè)試結(jié)果進(jìn)行評(píng)估。1值是融合了正確率和召回率的指標(biāo),即是準(zhǔn)確率和召回率的調(diào)和平均值[14]。人均1值如式(12)所示,其中表示用戶(hù)的人數(shù),Precision表示對(duì)第個(gè)用戶(hù)推薦的準(zhǔn)確率,即對(duì)第個(gè)移動(dòng)用戶(hù)推薦,并且被該用戶(hù)瀏覽的主題占為第個(gè)用戶(hù)推薦的全部瀏覽主題的百分比,Recall表示對(duì)第個(gè)用戶(hù)推薦的召回率,即對(duì)第個(gè)移動(dòng)用戶(hù)推薦,并被該用戶(hù)瀏覽的主題占總該移動(dòng)用戶(hù)瀏覽總主題數(shù)的百分比。
利用2013年10月15日-2013年10月31日的瀏覽數(shù)據(jù)作為訓(xùn)練集,2013年10月1日-2013年10月14日的瀏覽數(shù)據(jù)訓(xùn)練模型中的參數(shù)。
1) 對(duì)于參數(shù)和參數(shù)的調(diào)節(jié):為了評(píng)估隨著用戶(hù)鄰居數(shù)的變化對(duì)模型的推薦效果的影響,設(shè)置和為0.1,minsup為1,和為5,的范圍從1~20。實(shí)驗(yàn)結(jié)果顯示當(dāng)大于等于5時(shí),人均1值達(dá)到穩(wěn)定,所以設(shè)置等于5。在評(píng)估主題鄰居數(shù)對(duì)推薦效果的影響時(shí),設(shè)置和為0.1,minsup為1,為10,為5,從1~20,實(shí)驗(yàn)結(jié)果顯示當(dāng)≥5時(shí),人均1值達(dá)到穩(wěn)定,設(shè)置為5。
2) 對(duì)于參數(shù)和進(jìn)行調(diào)節(jié),設(shè)minsup為1,、和為5,當(dāng)測(cè)試對(duì)推薦效果的影響時(shí),和為0.1,的取值范圍從0.1~1。實(shí)驗(yàn)結(jié)果顯示當(dāng)≥0.7時(shí),人均1值達(dá)到穩(wěn)定,即52.8%,所以設(shè)置為0.7,當(dāng)測(cè)試對(duì)推薦效果的影響時(shí),設(shè)置為0.7,的取值范圍是從0.1~1。實(shí)驗(yàn)結(jié)果顯示當(dāng)≥0.8時(shí),人均1值達(dá)到穩(wěn)定,即55.8%,所以設(shè)置為0.8。
3) 最大推薦主題數(shù): 為了評(píng)估最大推薦數(shù),設(shè)minsup為1,為0.7,和為5,為0.8,為0.1。的取值范圍是從1~20,隨著的增加,推薦效果有很大的改進(jìn)。當(dāng)≥10,推薦效果達(dá)到穩(wěn)定狀態(tài)。此時(shí)人均1值為53.41%。所以設(shè)的最大值為10。
4) 參數(shù):為了評(píng)估的變化對(duì)推薦效果的影響,設(shè)為10,為0.7,和為5,為0.8,minsup為1。在實(shí)驗(yàn)中的取值范圍從0.1~1。實(shí)驗(yàn)結(jié)果顯示人均1值隨的增大而增大,當(dāng)等于0.9時(shí),人均1值達(dá)到最大,所以實(shí)驗(yàn)值設(shè)置為0.9。
5) 最小關(guān)注天數(shù)minsup:為了發(fā)現(xiàn)最小關(guān)注天數(shù)變化對(duì)推薦結(jié)果的影響,設(shè)等于10,為0.7,和為5,為0.8,等于0.9。minsup從1~15。實(shí)驗(yàn)結(jié)果顯示,人均1值隨minsup的增大而增大,當(dāng)minsup≥13時(shí),人均1值達(dá)到穩(wěn)定值。所以設(shè)置minsup為13。
本文有4個(gè)對(duì)比實(shí)驗(yàn),分別是:1) 基于項(xiàng)目鄰居的協(xié)同過(guò)濾推薦算法(collaborative filtering recommendation model based on item neighbors, CFRMIN)。該算法利用皮爾森相似度尋找用戶(hù)瀏覽過(guò)的主題的鄰居,然后利用用戶(hù)瀏覽過(guò)的主題的鄰居集合去預(yù)測(cè)用戶(hù)對(duì)自己瀏覽過(guò)的主題的感興趣程度[6]。2) 基于隱語(yǔ)義模型的推薦算法(rcommendationmodel based on latent factor model, RMLFM)[4]。3) 基于瀏覽次數(shù)的推薦算法(rcommendation model based on browsing times, RMBT),即將所有用戶(hù)瀏覽過(guò)的主題按用戶(hù)瀏覽次數(shù),以遞減的順序排序,將前個(gè)推薦給用戶(hù)。4) 基于用戶(hù)關(guān)注天數(shù)的推薦算法(recommendation model based on concerning a number of days, RMCD),即將用戶(hù)瀏覽過(guò)的主題按用戶(hù)關(guān)注的天數(shù),以遞減的順序排序,將前個(gè)推薦給用戶(hù)。
圖3 第1組實(shí)驗(yàn)的移動(dòng)用戶(hù)人均F1值
本文通過(guò)兩組實(shí)驗(yàn)測(cè)試模型的有效性。1) 利用31660個(gè)移動(dòng)用戶(hù)2013年10月日-2013年10月31日的瀏覽數(shù)據(jù)作為訓(xùn)練集。并以2013年11月的瀏覽數(shù)據(jù)作為測(cè)試集,測(cè)試結(jié)果如圖3和圖4所示。2) 訓(xùn)練集和參數(shù)不變,以2013年12月的瀏覽數(shù)據(jù)作為測(cè)試集,測(cè)試結(jié)果如圖5和圖6所示。本文提出的推薦模型(RMBDMU)的實(shí)驗(yàn)效果總體優(yōu)于CFRMIN和RMLFM的實(shí)驗(yàn)效果。正如第2.3節(jié)提到的,首先移動(dòng)用戶(hù)關(guān)注的大量信息中,只有很少的一部分是和他的興趣相關(guān)的,其次,在一段時(shí)期,移動(dòng)用戶(hù)瀏覽越多的信息,可能不是與其興趣相關(guān)的。所以尋找主題之間的關(guān)系,是非常困難的。CFRMIN和RMLFM都是基于主題之間的相互關(guān)系的,所以效果很差。圖3和圖5中,可以看出當(dāng)?shù)扔?時(shí),RMBDMU的人均1值分別是0.443和0.412。隨著的增大,RMBDMU的人均1值逐漸的增大。當(dāng)大于等于8時(shí),RMBDMU的人均1值到達(dá)穩(wěn)定,分別是0.594和0.591。雖然RMBDMU的人均1值隨著值得增大而增大,但是RMBDMU的人均1值與RMCD和RMBT的人均1值非常接近。這說(shuō)明RMBDMU推薦的主題和RMCD和RMBT推薦給用戶(hù)的主題,用戶(hù)都有關(guān)注。但是圖4和圖6顯示,用戶(hù)人均對(duì)RMBDMU推薦主題的平均瀏覽次數(shù)遠(yuǎn)遠(yuǎn)大于用戶(hù)人均對(duì)RMCD和RMBT推薦給用戶(hù)主題的平均瀏覽次數(shù)。這說(shuō)明RMBDMU推薦給用戶(hù)的主題,用戶(hù)的關(guān)注度更高。
圖4 第1組實(shí)驗(yàn)用戶(hù)人均瀏覽推薦主題平均瀏覽次數(shù)
圖5 第2組實(shí)驗(yàn)的移動(dòng)用戶(hù)人均F1值
圖6 第2組實(shí)驗(yàn)用戶(hù)人均瀏覽推薦主題平均瀏覽次數(shù)
本文首先分析傳統(tǒng)推薦算法無(wú)法在移動(dòng)用戶(hù)上網(wǎng)瀏覽數(shù)據(jù)上進(jìn)行有效內(nèi)容推薦的原因。然后提出了一種基于移動(dòng)用戶(hù)瀏覽行為的推薦模型。通過(guò)在真實(shí)的移動(dòng)用戶(hù)瀏覽數(shù)據(jù)上進(jìn)行測(cè)試,實(shí)驗(yàn)驗(yàn)證了模型的有效性。
[1] HERLOCKER J L, KONSTAN J A, BORCHERS A, et al. An algorithmic framework for performing collaborative filtering[C]//Proceedings of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. Berkeley: ACM, 1999: 230-237.
[2] SCHAFER J B, DAN F, HERLOCKER J, et al. Collaborative filtering recommender systems[C]//The Adaptive Web, Methods and Strategies of Web Personalization. Berlin, Heidelberg: Spring, 2015: 46-45.
[3] SARWAR B, KARYPIS G, KONSTAN J, et al. Item-based collaborative filtering recommendation algorithms[C]// Proceedings of the 10th International Conference on World Wide Web. Hong Kong, China: ACM, 2001: 285-295.
[4] FUNK S. FunkSVD [EB/OL]. (2006-12-11). http:// sifter.org/~simon/journal/20061211.html.
[5] KOREN Y, BELL R. Advances in collaborative filtering[M]. Recommender Systems Handbook. New York: Springer, 2011.
[6] HU Y, KOREN Y, VOLINSKY C.Collaborative filtering for implicit feedback datasets[C]//Eighth IEEE International Conference on Data Mining. Pisa: IEEE, 2009: 263-272.
[7] CHEN J, JIN Q, ZHAO S, et al. Does product recommendation meet its waterloo in unexplored categories: no, price comes to help[C]//Proceedings of the 37th International ACM SIGIR Conference on Research & Development in Information Retrieval. Gold Coast: ACM, 2014:667-676.
[8] AGRAWAL R SRIKANT R. Fast algorithm for mining association rules[J]. Journal of Computer Science & Technology, 1994, 15(6): 619-624.
[9] HAN J, KAMBER M, PEI J. Data mining: Concepts and techniques[M]. Netherlands:Elsevier, 2011.
[10] CHUI C K, KAO B, HUNG E. Mining frequent item sets from uncertain data[J]. 2007, 4426: 47-58.
[11] LEUNG K S. Uncertain frequent pattern mining[M]. Frequent Pattern Mining. New York: Springer International Publishing, 2014.
[12] LIU C, CHEN L, ZHANG C. Summarizing probabilistic frequent patterns: a fast approach[C]//ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. Chicago: [s.n.], 2013: 527-535.
[13]BERNECKER T, CHENG R, CHEUNG D W, et al. Model-based probabilistic frequent itemset mining[J]. Knowledge and Information Systems, 2013, 37(1): 181-217.
[14] WANG L, CHEUNG D W L, CHENG R, et al. Efficient mining of frequent item sets on large uncertain databases[J], IEEE Transactions on Knowledge and Data Engineering, 2012, 24(12): 2170-2183.
[15] CAM L L. An approximation theorem for the Poisson binomial distribution.[J]. Pacific Journal of Mathematics, 1960, 10(4): 1181-1197.
編 輯 蔣 曉
A Recommendation Model Based on Browsing Behaviors of Mobile Users
DING Zhe, QIN Zhen, ZHENG Wen-tao, and QIN Zhi-guang
( School of Information and Software Engineering, University of Electronic Science and Technology of China Chengdu 610054; Network and Data Security Key Laboratory of Sichuan Province, University of Electronic Science and Technology of China Chengdu 610054)
Recommendation algorithms have been commonly adopted in many fields. However, traditional recommendation algorithms fail to achieve the expected recommendation results if they are applied to predict browsing behaviors of the mobile users and further to recommend personalized content to the mobile users. By analyzing the Internet browsing data of the mobile users, this paper proposes a recommendation model based on browsing data of mobile users, denoted as RMBDMU, to predict the future browsing activities of the mobile users and take them as the bases to recommend contents to the mobile users. An experiment on the Internet browsing behavior data of the real mobile users is conducted to verify the effectiveness of the model. The experiment result shows that the recommendation model based on browsing data of mobile users is more effective than the traditional recommendation algorithms.
mobile users; prediction of browsing behaviors; probabilistic frequent itemset mining; recommendation model
TP393
A
10.3969/j.issn.1001-0548.2017.06.020
2016-07-21;
2016-12-15
國(guó)家自然科學(xué)基金( 61133016, 61300191, 61202445, 61370026);四川省科技支撐計(jì)劃(2014GZ0106, 2016JZ0020)
丁哲(1982-),男,博士生,主要從事機(jī)器學(xué)習(xí)、推薦算法和信息安全方面的研究.