黃武漢 孟祥武 王立才
(北京郵電大學(xué)智能通信軟件與多媒體北京市重點(diǎn)實(shí)驗(yàn)室 北京 100876)
(北京郵電大學(xué)計(jì)算機(jī)學(xué)院 北京 100876)
隨著移動(dòng)通信技術(shù)的飛速發(fā)展,移動(dòng)設(shè)備逐漸成為人們獲取信息的主要平臺(tái)之一。與傳統(tǒng)互聯(lián)網(wǎng)終端相比,移動(dòng)設(shè)備擁有移動(dòng)性強(qiáng)、上下文感知能力強(qiáng)、可攜帶性好、入網(wǎng)方便等特點(diǎn),使得人們可以隨時(shí)隨地獲取移動(dòng)網(wǎng)絡(luò)服務(wù)和信息內(nèi)容[1]。然而,隨著移動(dòng)多媒體技術(shù)和移動(dòng)信息承載、傳輸能力的提升,尤其是移動(dòng)社交網(wǎng)絡(luò)的興起,大量豐富多彩的移動(dòng)服務(wù)和信息內(nèi)容日益涌現(xiàn),為人們帶來嚴(yán)重的移動(dòng)信息過載問題。此外,移動(dòng)網(wǎng)絡(luò)資源有限,移動(dòng)設(shè)備也存在輸入輸出能力弱、電池續(xù)航能力弱等缺點(diǎn),如何從浩瀚的移動(dòng)信息海洋中發(fā)現(xiàn)用戶真正感興趣的內(nèi)容,以提升移動(dòng)用戶的個(gè)性化服務(wù)體驗(yàn),成為面向移動(dòng)通信網(wǎng)絡(luò)的個(gè)性化服務(wù)領(lǐng)域亟待解決的技術(shù)難題。傳統(tǒng)推薦系統(tǒng)在解決互聯(lián)網(wǎng)信息過載問題方面取得較大進(jìn)展,成為輔助人們信息過濾和決策的主要工具之一。由于移動(dòng)通信網(wǎng)絡(luò)與傳統(tǒng)桌面互聯(lián)網(wǎng)相比,有自身的特點(diǎn),而且移動(dòng)信息傳遞也頗受上下文信息、移動(dòng)社會(huì)化網(wǎng)絡(luò)的影響,所以傳統(tǒng)推薦系統(tǒng)的各種模型和算法并不能完全適用于移動(dòng)通信網(wǎng)絡(luò)中的數(shù)據(jù)建模與推薦。目前,國內(nèi)外研究人員也開始研究如何將傳統(tǒng)推薦系統(tǒng)的模型和算法應(yīng)用于移動(dòng)通信網(wǎng)絡(luò)環(huán)境,并取得一定進(jìn)展[2]。
本文面向移動(dòng)通信網(wǎng)絡(luò)中的信息過載問題,利用移動(dòng)通信行為構(gòu)建初步的移動(dòng)社會(huì)化網(wǎng)絡(luò),并深入挖掘潛在的用戶社會(huì)化關(guān)系,然后將其應(yīng)用于協(xié)同過濾算法,幫助移動(dòng)用戶發(fā)現(xiàn)與其興趣最相似的近鄰用戶,并進(jìn)行移動(dòng)用戶偏好預(yù)測(cè),最終提出一種移動(dòng)通信網(wǎng)中基于用戶社會(huì)化關(guān)系挖掘的改進(jìn)協(xié)同過濾算法。本文第2節(jié)介紹了協(xié)同過濾算法、相似性計(jì)算方法、移動(dòng)推薦系統(tǒng)等方面的相關(guān)工作;第3節(jié)提出移動(dòng)通信網(wǎng)中基于用戶社會(huì)化關(guān)系挖掘的協(xié)同過濾算法;第4節(jié)給出仿真實(shí)驗(yàn)分析和利用公開數(shù)據(jù)集展開的實(shí)驗(yàn),結(jié)果表明了該方法的有效性和合理性;最后給出結(jié)論。
推薦系統(tǒng)[3]作為緩解“信息過載”的重要手段,已得到廣泛研究。從信息過濾的角度,可以將其分為:協(xié)同過濾、基于內(nèi)容的過濾和混合式過濾[3]。其中,協(xié)同過濾源于“集體智慧”的思想,首先根據(jù)部分用戶對(duì)項(xiàng)目的偏好信息或者評(píng)分信息計(jì)算用戶之間或者項(xiàng)目之間的相似性,然后利用相似用戶或者相似項(xiàng)目的用戶偏好來預(yù)測(cè)未知的潛在用戶偏好,最后按照偏好排序結(jié)果生成推薦。
協(xié)同過濾中的相似性計(jì)算方法主要有3種。第1種為余弦相似度公式[4],定義如下:
其中sim(x,y)表示用戶x與y的相似度,rx,s表示用戶x對(duì)項(xiàng)目s的偏好度,Sxy表示x與y共同評(píng)分的項(xiàng)目集合。
第 2種為 Pearson相關(guān)系數(shù)計(jì)算公式[5],表示用戶x對(duì)已評(píng)分項(xiàng)目的平均評(píng)分值,定義如下:sim(x,y)=
第3種算法為修正的Pearson相關(guān)系數(shù)計(jì)算公式[5],rmid表示修正中值, 定義如下:
近年來,研究人員針對(duì)移動(dòng)通信網(wǎng)絡(luò)環(huán)境和移動(dòng)用戶的特點(diǎn),提出“移動(dòng)推薦系統(tǒng)”的概念。文獻(xiàn)[6]提出可以通過分析移動(dòng)通信網(wǎng)下的服務(wù)內(nèi)容,并結(jié)合用戶使用的反饋信息等,為用戶推薦其更喜歡的服務(wù)。文獻(xiàn)[7]則認(rèn)為要結(jié)合移動(dòng)終端的可移動(dòng)性特點(diǎn),利用一些便攜式的傳感器設(shè)備,捕獲用戶在日常服務(wù)體驗(yàn)中的直接情感表達(dá)信息,從而為用戶提供其所喜愛的服務(wù)。相對(duì)互聯(lián)網(wǎng)而言,針對(duì)移動(dòng)通信網(wǎng)中以社會(huì)化推薦方式進(jìn)行用戶評(píng)分預(yù)測(cè)的研究相對(duì)較少。文獻(xiàn)[8]提出了一種基于社會(huì)化網(wǎng)絡(luò)的混合推薦算法,該算法將傳統(tǒng)的協(xié)同過濾與社會(huì)化網(wǎng)絡(luò)中的人際關(guān)系結(jié)合,但并未陳述如何衡量社會(huì)化網(wǎng)絡(luò)中的信任關(guān)系,而且并沒有考慮如何利用移動(dòng)通信行為構(gòu)建社會(huì)化網(wǎng)絡(luò)關(guān)系及其進(jìn)一步挖掘。文獻(xiàn)[9]直接以互聯(lián)網(wǎng)下的郵件系統(tǒng)為例子,介紹了如何利用用戶日常的郵件交互行為建立一個(gè)互聯(lián)網(wǎng)下的社會(huì)化網(wǎng)絡(luò),以此來進(jìn)行偏好預(yù)測(cè),同樣未考慮移動(dòng)通信網(wǎng)絡(luò)環(huán)境下的移動(dòng)社會(huì)化網(wǎng)絡(luò)與推薦系統(tǒng)之間的結(jié)合。
本文針對(duì)移動(dòng)通信網(wǎng)中的個(gè)性化推薦問題,提出了一種基于移動(dòng)用戶社會(huì)化關(guān)系挖掘的協(xié)同過濾算法。首先對(duì)余弦相似度公式進(jìn)行了改進(jìn),使得共同評(píng)分項(xiàng)目較少的用戶間也能進(jìn)行相似度計(jì)算,擴(kuò)大推薦數(shù)據(jù)源;其次,通過挖掘移動(dòng)社會(huì)化網(wǎng)絡(luò)中存在的直接及其潛在關(guān)系,獲得與用戶喜好密切相關(guān)的用戶數(shù)據(jù),將這些重要的用戶偏好信息作為填充初始推薦數(shù)據(jù)源的數(shù)據(jù)之一進(jìn)行評(píng)分預(yù)測(cè),在一定程度上緩解了數(shù)據(jù)稀疏性問題。
移動(dòng)通信網(wǎng)中存在著大量的用戶交互數(shù)據(jù),主要包括電話、短信等通信記錄及用戶使用移動(dòng)通信網(wǎng)服務(wù)的一些評(píng)價(jià)信息。這些信息對(duì)于分析移動(dòng)網(wǎng)絡(luò)用戶需求和構(gòu)建移動(dòng)社會(huì)化網(wǎng)絡(luò)具有重要價(jià)值。本文建立的數(shù)據(jù)模型包括4個(gè)數(shù)據(jù)集:
(1)用戶集合,即所有移動(dòng)通信網(wǎng)用戶集合,使用U表示。
(2)移動(dòng)網(wǎng)絡(luò)服務(wù)集合,即需要處理的所有移動(dòng)網(wǎng)絡(luò)服務(wù)集合,使用S表示。
(3)用戶社會(huì)化關(guān)系矩陣,即集合U中的用戶間的交互行為,這種行為是雙向的,本文使用F'來表示最初的通信關(guān)系矩陣,對(duì)這個(gè)矩陣中的數(shù)據(jù)本文將按一定的規(guī)則進(jìn)行挖掘,計(jì)算出好友關(guān)系矩陣F,F是一個(gè)不對(duì)稱矩陣,即用戶x認(rèn)為用戶y是可以信任的好友并不代表y也認(rèn)為x是可以信任的,在交互行為中,表現(xiàn)為x聯(lián)系了y,那就表示x信任y。
(4)用戶對(duì)服務(wù)的評(píng)分矩陣,即集合U中用戶對(duì)集合S中服務(wù)的評(píng)分矩陣,這些數(shù)據(jù)來源于用戶對(duì)所使用業(yè)務(wù)的反饋、評(píng)價(jià)等記錄。如用戶連續(xù)訂閱了某個(gè)業(yè)務(wù),就認(rèn)為該用戶喜歡這個(gè)業(yè)務(wù);在一段時(shí)間內(nèi)訂閱,則表明用戶對(duì)這個(gè)業(yè)務(wù)感興趣等,結(jié)合用戶的使用反饋及網(wǎng)上評(píng)分來修正這些數(shù)值,就可以挖掘出原始的評(píng)分矩陣,使用R表示。
在上述兩個(gè)矩陣中,用fx→y表示F中存在用戶x信任y的記錄,rx,s表示用戶x對(duì)于服務(wù)s的評(píng)分值。
將F'中的短信與通話數(shù)據(jù)進(jìn)行如下處理,來確定F。
步驟 1 將數(shù)據(jù)中的通信主體抽取出來,判斷是否是所需要預(yù)測(cè)的目標(biāo),如果不是,則刪除數(shù)據(jù),形成矩陣F1,這一步是為了刪除一些廣告及網(wǎng)外用戶號(hào)碼的無用數(shù)據(jù)。
步驟 2 以用戶x為例,將F1中由x充當(dāng)發(fā)送方的短信數(shù)據(jù)提取出,統(tǒng)計(jì)短信總數(shù)c及各個(gè)充當(dāng)接受方的用戶i和對(duì)應(yīng)短信數(shù)ci;將F1中由x充當(dāng)主叫方的通話數(shù)據(jù)提取出,統(tǒng)計(jì)用戶x通話總時(shí)間t,通話總次數(shù)q及各個(gè)充當(dāng)被叫方的用戶i與用戶x通話的總時(shí)間ti,通話總次數(shù)qi。定義p為x對(duì)用戶i的信任程度,則
本文認(rèn)為,在F1中的所有通信組合中,x僅與其通信對(duì)象中的 80%用戶是好友關(guān)系,所以取p最高的 80%用戶,將這些用戶定義為x信任的對(duì)象即好友,并將信任程度p作為數(shù)值加入矩陣F2中。
步驟 3 對(duì)于U中的每一個(gè)用戶,都執(zhí)行步驟2,并把好友關(guān)系及信任程度p寫入矩陣F2中,則F2就是從通信記錄中挖掘出的直接好友關(guān)系矩陣。
由通信記錄確定的直接好友關(guān)系比較稀疏,不利于推薦,而且現(xiàn)實(shí)中,也不是所有的好友間都有通信行為,因而從通信記錄中無法全面地獲取用戶間的好友關(guān)系,所以需要通過矩陣F2挖掘更多有用的信息。對(duì)于任意兩個(gè)好友而言,他們的好友集合或多或少會(huì)存在交集。用fx表示x的好友集合,如果x與y是好友關(guān)系,則fx與fy將存在交集,基于此本文認(rèn)為:當(dāng)fx∩fy中的元素在fx中的比例達(dá)到某個(gè)閾值α(如50%)時(shí),x信任y,即y是x的好友。所以進(jìn)一步做如下處理:
步驟 4 以用戶x為例,將F2中的fx取出,與U中x的非好友關(guān)系用戶在F2中的好友集合進(jìn)行比較,用fy表示y的好友集合,當(dāng)滿足條件式(5)時(shí),將y定義為x的好友。
步驟 5 由于集合fx∩fy確定了y與x的好友關(guān)系,因此x對(duì)y的信任程度也應(yīng)由此集合確定,用p表示集合x對(duì)fx∩fy所有用戶信任程度的平均值,即
其中pi表示x對(duì)用戶i的信任程度。使用式(7)計(jì)算py:
將好友關(guān)系及對(duì)應(yīng)的信任程度p寫入矩陣F3中。顯然,這里的信任程度只是對(duì)以單個(gè)用戶為中心的社交網(wǎng)絡(luò)關(guān)系的描述,在全局網(wǎng)絡(luò)中不具有可比性。
步驟 6 對(duì)F2中每一個(gè)有好友的用戶都重復(fù)步驟4,步驟5,將這種間接好友關(guān)系及信任程度寫入矩陣F3。
步驟 7 由F2與F3最終確定好友關(guān)系矩陣F,如式(8)所示,其中F2代表直接好友關(guān)系矩陣,F(xiàn)3代表間接好友關(guān)系矩陣。
對(duì)于U中的任意用戶組合x與y,用其共同評(píng)分項(xiàng)目來計(jì)算他們之間基于業(yè)務(wù)評(píng)分的相似度,從而得到相似度集合SM。
其中sim(x,y)表示x與y的相似度,用rmax表示R中所定義的最大評(píng)分值,rmin表示最小評(píng)分值,相似度計(jì)算公式如式(10)所示。
用SMx表示x與集合U中其他用戶的相似度集合,mx表示x與好友的相似度集合,用nx表示x與非好友的相似度集合,其中mx中的各個(gè)用戶與x還存在著通過社會(huì)化關(guān)系而得到的信任程度關(guān)系,顯然,
數(shù)據(jù)選取方式可以根據(jù)3種不同方法進(jìn)行。
方法1:選取SMx中相似度大小為前50的用戶數(shù)據(jù)。
方法2:選取mx中相似度大小在前t%的用戶數(shù)據(jù)。
方法3:選取nx中相似度大小為前50的用戶數(shù)據(jù)與mx中相似度大小在前t%的用戶數(shù)據(jù)。
第1種是傳統(tǒng)的協(xié)同過濾算法中的數(shù)據(jù)選取方式(Traditional Data Selection,TDS);第2種是建立在好友關(guān)系的數(shù)據(jù)選擇方式(Data Selection Based on Friends,DSBF);第3種是本文所提出的基于用戶社會(huì)化關(guān)系挖掘的混合數(shù)據(jù)選擇方式(Data Selection Based on the Combination of Tradition and Friends,DSBCTF)。
將通過社會(huì)化關(guān)系挖掘出的好友關(guān)系及其信任程度與傳統(tǒng)的基于項(xiàng)目評(píng)分的相似度結(jié)合,進(jìn)行評(píng)分預(yù)測(cè),具體如式(12)。
與傳統(tǒng)協(xié)同過濾算法相比,本文算法增加了通過社會(huì)化關(guān)系挖掘出的好友關(guān)系及其信任程度對(duì)推薦結(jié)果的影響,而且當(dāng)預(yù)測(cè)用戶無評(píng)分項(xiàng)目即=0 時(shí),采用與預(yù)測(cè)用戶及其相關(guān)用戶的其他間接評(píng)分無關(guān)的預(yù)測(cè)公式,使得推薦結(jié)果更加符合實(shí)際。公式中C表示上述提到的3種不同的用戶集合,表示x已知評(píng)分的平均值,py表示x對(duì)y的信任程度,當(dāng)y不是x好友時(shí):py=0 。對(duì)于 3種數(shù)據(jù)選取方式,本文將用實(shí)驗(yàn)的方法確定最優(yōu)解;其中t% 的取值,將在4.2節(jié)中確定。通過計(jì)算,便可以得到x對(duì)未知評(píng)分業(yè)務(wù)的評(píng)分值。若無法預(yù)測(cè),將用0代替。
本文實(shí)驗(yàn)環(huán)境為:2 GB內(nèi)存,2.93 GHz雙核CPU,Windows XP2操作系統(tǒng),Java1.6開發(fā)語言,Eclipse3.5集成環(huán)境,Mysql5.0數(shù)據(jù)庫。實(shí)驗(yàn)將分成兩個(gè)部分:(1)使用仿真數(shù)據(jù)集展開實(shí)驗(yàn)表明本算法的可行性和有效性;(2)使用公開數(shù)據(jù)集來研究相關(guān)參數(shù)的選擇方法以及與其他基準(zhǔn)算法的性能比較。
4.1.1 模擬數(shù)據(jù)集介紹實(shí)驗(yàn)所需要生成的模擬數(shù)據(jù)包括移動(dòng)用戶列表,移動(dòng)業(yè)務(wù)列表,移動(dòng)用戶的關(guān)系列表和移動(dòng)用戶對(duì)移動(dòng)業(yè)務(wù)的原始評(píng)分列表,其中移動(dòng)用戶的關(guān)系列表只是直接的好友關(guān)系,實(shí)驗(yàn)中,將根據(jù)這個(gè)列表進(jìn)一步挖掘潛在的社會(huì)化關(guān)系。為了使實(shí)驗(yàn)更加簡(jiǎn)便,直接規(guī)定:對(duì)單個(gè)用戶而言,他對(duì)所有好友的信任程度相等,并且等于直接參與評(píng)分預(yù)測(cè)的好友數(shù)的倒數(shù)。
這里用實(shí)際的900個(gè)移動(dòng)手機(jī)號(hào)碼代表用戶,將用戶分成3個(gè)集合,假定每個(gè)集合中的用戶在業(yè)務(wù)評(píng)分上相似,不同集合中的用戶業(yè)務(wù)評(píng)分差異較大;移動(dòng)業(yè)務(wù)數(shù)為90,這些業(yè)務(wù)分為3個(gè)集合,分別代表電話套餐、短信套餐和GPRS套餐業(yè)務(wù)。另外隨機(jī)確定一些好友關(guān)系組合,其中每個(gè)用戶平均有10-30個(gè)好友。這些好友分布在不同的3個(gè)集合中,本集合成員(自己除外)占有 80%的比例,其余兩個(gè)集合成員占有20%的比例,形成最初的用戶關(guān)系矩陣。
假定3個(gè)集合的用戶對(duì)3種不同的套餐業(yè)務(wù)評(píng)分差異很大并預(yù)先規(guī)定了這些評(píng)分矩陣的不同取值范圍,具體如表1所示,表中U_S1表示用戶對(duì)電話套餐業(yè)務(wù)集合的評(píng)分值范圍,U_S2表示用戶對(duì)短信套餐業(yè)務(wù)集合的評(píng)分值范圍,U_S3表示用戶對(duì)GPRS套餐業(yè)務(wù)集合的評(píng)分值范圍。根據(jù)這個(gè)規(guī)則和設(shè)定的評(píng)分覆蓋率(這里為30%),形成原始評(píng)分矩陣。
4.1.2 評(píng)價(jià)方法本文使用兩種度量標(biāo)準(zhǔn)來衡量實(shí)驗(yàn)結(jié)果:首先借鑒信息檢索領(lǐng)域廣泛使用的查準(zhǔn)率[10],查準(zhǔn)率(Precise),又稱“準(zhǔn)確率”,用來衡量系統(tǒng)的查準(zhǔn)率。定義如下:
表1 評(píng)分范圍限定
其中Th表示可預(yù)測(cè)結(jié)果中,符合表1所述規(guī)則的數(shù)據(jù)量,T表示可預(yù)測(cè)結(jié)果的總數(shù)據(jù)量。
然后,使用MAE[10]公式的另一種形式的絕對(duì)誤差率|,來評(píng)價(jià)實(shí)驗(yàn)結(jié)果,定義如下:
其中N表示可預(yù)測(cè)數(shù)據(jù)量,ri表示預(yù)測(cè)結(jié)果中不符合表1的評(píng)分值,ti表示與ri對(duì)應(yīng)的在表1中應(yīng)該所處的范圍的臨界值。rmax與rmin表示數(shù)據(jù)集中的最大與最小評(píng)分值,本實(shí)驗(yàn)中rmax=10,rmin=0。
4.1.3 實(shí)驗(yàn)描述及結(jié)果分析首先我們從模擬生成的初始好友矩陣中挖掘出更多的社會(huì)化關(guān)系,其中間接好友關(guān)系挖掘閾值α定為50%。而后將數(shù)據(jù)作為輸入,代入本文所提的DSBCTF數(shù)據(jù)選擇算法中進(jìn)行評(píng)分預(yù)測(cè),其中t%定為70%,在預(yù)測(cè)評(píng)分階段,數(shù)據(jù)集中的好友信任程度,由參與計(jì)算的好友數(shù)的倒數(shù)確定。
經(jīng)過計(jì)算,將得到了一個(gè)預(yù)測(cè)的評(píng)分表。利用4.1.2節(jié)中的評(píng)價(jià)標(biāo)準(zhǔn)衡量實(shí)驗(yàn)結(jié)果,結(jié)果顯示:本文算法的準(zhǔn)確率P=8 0.74%,絕對(duì)誤差率|E|=5.56%。
處于同一個(gè)社交網(wǎng)絡(luò)的用戶,由于在生活中頻繁的交流,使得他們的業(yè)務(wù)喜好相近。通過周圍好友的偏好數(shù)據(jù),能夠更加準(zhǔn)確且合理的預(yù)測(cè)出用戶偏好。試驗(yàn)結(jié)果表明,本文所提出的移動(dòng)網(wǎng)絡(luò)用戶社會(huì)化關(guān)系挖掘算法在實(shí)踐中是可行的,理論上通過對(duì)用戶社會(huì)化關(guān)系的挖掘可以使推薦結(jié)果更加準(zhǔn)確。
4.2.1 公開數(shù)據(jù)集介紹公開數(shù)據(jù)集使用Filmtipset[11],Filmtipset是瑞士最大的電影推薦社區(qū),它擁有超過90000位注冊(cè)用戶和兩千萬以上的電影評(píng)分?jǐn)?shù)據(jù)。這個(gè)數(shù)據(jù)集包含:用于 Weekly Recommendation的訓(xùn)練集、用于圣誕周推薦任務(wù)測(cè)試集和評(píng)測(cè)集、用于奧斯卡周推薦任務(wù)的測(cè)試集和評(píng)測(cè)集;用于社會(huì)化推薦任務(wù)的訓(xùn)練集、測(cè)試集和評(píng)測(cè)集。本文選擇其中有關(guān)1000個(gè)用戶與500部電影的數(shù)據(jù)集合,并選取了這1000個(gè)用戶的關(guān)系矩陣和1000個(gè)用戶對(duì)500部電影的評(píng)分集。對(duì)于這些評(píng)分?jǐn)?shù)據(jù)按照不同的訓(xùn)練集和測(cè)試集比劃分,形成15組測(cè)試數(shù)據(jù),每組測(cè)試數(shù)據(jù)包含1個(gè)訓(xùn)練集和1個(gè)測(cè)試集。
4.2.2 評(píng)價(jià)方法本實(shí)驗(yàn)使用4.1.2節(jié)中介紹的絕對(duì)誤差率||來評(píng)價(jià)試驗(yàn)結(jié)果,對(duì)于式(17)中的參數(shù),N表示預(yù)測(cè)結(jié)果數(shù)據(jù)量,ri表示由訓(xùn)練集中數(shù)據(jù)經(jīng)本文算法預(yù)測(cè)得到的評(píng)分值,ti表示與ri對(duì)應(yīng)的測(cè)試集評(píng)分值,rmax與rmin表示數(shù)據(jù)集中的最大與最小評(píng)分值,本實(shí)驗(yàn)中rmax=10,rmin=0。
4.2.3 實(shí)驗(yàn)描述及結(jié)果分析
(1)基于參數(shù)t%的交叉實(shí)驗(yàn) 使用本文提出的DSBCTF數(shù)據(jù)選取方式,將4.2.2節(jié)中的15組訓(xùn)練集數(shù)據(jù)隨機(jī)抽取10組分別代入本文的算法進(jìn)行計(jì)算,使用改進(jìn)的余弦相似度計(jì)算方法,間接好友關(guān)系挖掘閾值α定為50%,當(dāng)好友選取比例分別為20%,50%和70%時(shí),||值比較如圖1所示。
圖1 不同好友數(shù)據(jù)選取比例的平均誤差率比較
對(duì)于挖掘出的好友關(guān)系,僅表明他們之間的信任程度很高,但是他們的業(yè)務(wù)喜好也有可能差異很大,所以不能將這些關(guān)系全部用于預(yù)測(cè)業(yè)務(wù)評(píng)分。從這些好友關(guān)系中通過他們之間基于業(yè)務(wù)評(píng)分的相似性大小來選取部分?jǐn)?shù)據(jù),將使得推薦更加合理。選取比例決定了選取的好友數(shù)量,當(dāng)參與預(yù)測(cè)的數(shù)量過少時(shí),有可能忽略掉某些關(guān)鍵數(shù)據(jù)的影響,通過試驗(yàn)發(fā)現(xiàn):當(dāng)好友選取比例為70%時(shí),平均誤差率比較小,所以本文將參數(shù)t%定為70%。
(2)TDS、DSBF、DSBCTF對(duì)比實(shí)驗(yàn) 將4.2.2節(jié)中的15組訓(xùn)練集數(shù)據(jù)隨機(jī)抽取10組代入本文算法進(jìn)行偏好預(yù)測(cè),其中t%的取值定為70%,間接好友關(guān)系挖掘閾值α定為50%,當(dāng)選用3種不同的數(shù)據(jù)選取方式時(shí),||值比較如圖2所示。
3種算法中,從直接參與評(píng)分預(yù)測(cè)的數(shù)據(jù)量上看,DSBCTF方法所選取的數(shù)據(jù)量最多,它包含了傳統(tǒng)基于項(xiàng)目評(píng)分相似性及社會(huì)化關(guān)系挖掘的用戶信息,TDS,DSBF則僅有部分?jǐn)?shù)據(jù);從數(shù)據(jù)的推薦意義上看,TDS缺少了來自社會(huì)化關(guān)系挖掘的好友數(shù)據(jù),而DSBF缺少了來自傳統(tǒng)基于項(xiàng)目評(píng)分相似性的用戶數(shù)據(jù),與DSBCTF相比,這兩種方法都不能較全面地預(yù)測(cè)用戶項(xiàng)目評(píng)分。實(shí)驗(yàn)結(jié)果也表明:本文提出的基于用戶社會(huì)化關(guān)系挖掘的混合數(shù)據(jù)選取算法(DSBCTF)性能最好,誤差率最小。
圖2 3種數(shù)據(jù)選取方法的性能比較
基于移動(dòng)社交網(wǎng)絡(luò)服務(wù)現(xiàn)狀,多數(shù)用戶更相信來自真實(shí)社交網(wǎng)絡(luò)中朋友而非系統(tǒng)的推薦信息,且交往密切的用戶在興趣上較為相似。本文面向移動(dòng)通信網(wǎng),提出一種基于移動(dòng)用戶社會(huì)化關(guān)系挖掘的協(xié)同過濾算法,通過對(duì)移動(dòng)通信網(wǎng)下的社會(huì)化潛在關(guān)系進(jìn)行挖掘,將好友數(shù)據(jù)融入傳統(tǒng)的協(xié)同過濾算法中。在實(shí)驗(yàn)部分,首先通過一個(gè)仿真數(shù)據(jù)實(shí)驗(yàn)驗(yàn)證了該方案的可行性和有效性,然后通過公開的Filmtipset數(shù)據(jù)集實(shí)驗(yàn)確定了合理的參數(shù)設(shè)置,并與TDS,DSBF數(shù)據(jù)選取方法進(jìn)行了性能比較。實(shí)驗(yàn)結(jié)果表明,本文算法不僅緩解了評(píng)分矩陣稀疏性問題,而且有效地提高了偏好預(yù)測(cè)和推薦結(jié)果的準(zhǔn)確度。
[1]Jonna H,Albrecht S,Jani M,et al..Context-aware mobile media and social networks.Proceedings of the 11th International Conference on Human-Computer Interaction with Mobile Devices and Services,Bonn,Germany,2009:1-3.
[2]Ricci F.Mobile recommender systems.International Journal of Information Technology and Tourism,2011,12(3):205-231.
[3]Wang L C,Meng X W,Zhang Y J,et al..New approaches to mood-based hybrid collaborative filtering.Proceedings of the Workshop on Context-Aware Movie Recommendation at the 4th ACM Conference on Recommender Systems (ACM Recsys’10),Barcelona,Spain,2010:28-33.
[4]Gediminas A and Alexander T.Toward the next generation of recommender systems:a survey of the state-of-the-art and possible extensions.IEEE Transactions on Knowledge and Data Engineering,2005,17(6):152-162.
[5]方娟,梁文燦.一種基于協(xié)同過濾的網(wǎng)格門戶推薦模型.電子與信息學(xué)報(bào),2010,32(7):1585-1590.Fang Juan and Liang Wen-can.A grid portal recommendation model based on collaborative filtering.Journal of Electronics&Information Technology,2010,32(7):1585-1590.
[6]Matthias B and Gernot B.Improving the recommendation of mobile services by interpreting the user’s icon arrangement.Proceedings of the 11th International Conference on Human-Computer Interaction with Mobile Devices and Services,Bonn,Germany,2009:15-18.
[7]Gupta A,Kalra A,Boston D,et al..MobiSoC:a middleware for mobile social computing applications.Mobile Networks and Applications,2009,14(10):35-52.
[8]Arazy O,Kumar N,and Shapira B.Improving social recommender systems.IT Professional,2009,11(4):38-44.
[9]Dijiang H and Vetri A.Email-based social network trust.IEEE International Conference on Social Computing /IEEE International Conference on Privacy,Security,Risk and Trust,Boston,USA,2010:363-370.
[10]Herlocker J,Konstan J,Terveen L,et al..Evaluating collaborative filtering recommender systems.ACM Transactions on Information Systems,2004,22(1):20-21.
[11]Fernando D and Pedro G C.Movie recommendations based in explicit and implicit features extracted from the Filmtipset dataset.Proceedings of the Workshop on Context-Aware Movie Recommendation at the 4th ACM Conference on Recommender Systems (ACM Recsys’10),Barcelona,Spain,2010:45-52.