基于增強二部圖網(wǎng)絡(luò)結(jié)構(gòu)的推薦算法①

2019-04-29 08:58張岐山

計算機系統(tǒng)應用 2019年4期

張岐山,文闖

(福州大學經(jīng)濟與管理學院,福州 350108)

引言

人工智能時代背景下產(chǎn)生了許多信息過載[1]問題,協(xié)同過濾算法是當今電子商務(wù)以及各種個性化推薦中應用最廣泛的推薦技術(shù),協(xié)同過濾算法存在冷啟動問題,同時算法存在需要獲取大量用戶歷史數(shù)據(jù),存在稀疏性等問題.為解決以上問題,國內(nèi)外許多專家學者提出并完善了基于信任的推薦系統(tǒng)[2],

Guo[3]根據(jù)信任的來源將信任分為顯性信任(Explicit Trust 和隱性信任(Implicit Trust),顯性信任是指用戶網(wǎng)絡(luò)之中主體之間的直接交互,主動表達的信任關(guān)系,隱性信任是指根據(jù)用戶網(wǎng)絡(luò)中主體之間的直接交互關(guān)系挖掘出信任關(guān)系,根據(jù)用戶的某些行為(如評分)來推測用戶之間的信任關(guān)系,顯性信任具有很強可靠性和準確性,而隱性信任更好的區(qū)分信任度,能顯著提高覆蓋率,緩解冷啟動問題.Massa 等人[4,5]提出一種使用顯示信任的推薦系統(tǒng),用信任權(quán)重代替?zhèn)鹘y(tǒng)推薦系統(tǒng)的相似度進行推薦,相比傳統(tǒng)算法,提高了精度,增加了覆蓋范圍,可預測的評分總數(shù),同時也能規(guī)避惡意用戶虛假評分降低推薦質(zhì)量的隱患.Jamali[6]也考慮了信任問題,采取隨機游走的方法利用顯性信息,在用戶網(wǎng)絡(luò)中隨機選取信任鄰居,把用戶看成網(wǎng)絡(luò)中的節(jié)點,連接的邊即為信任關(guān)系,其強度代表了兩個用戶間信任度.文獻[7]引入了全局變量,融合用戶間局部信任度和全局信任度,從海量用戶歷史數(shù)據(jù)中,挖掘出用戶潛在的信任關(guān)系,緩解了數(shù)據(jù)的稀疏性問題,提高了推薦的準確性.Ray 等[8]設(shè)定了相似性閾值,提出了當用戶間相似度低于設(shè)定閾值則舍去,重構(gòu)信任網(wǎng)絡(luò)之后再預測評分,此法提高了算法精確度,但是犧牲了數(shù)據(jù)的覆蓋率,也無從緩解冷啟動問題.Moradi 等[9]提出了RTCE 模型,該模型首先基于顯性信任機制為目標項目進行打分,同時設(shè)定信任閾值,對于評分可靠性低于閾值的用戶,通過綜合考慮積極因子,消極因子重構(gòu)信任度.文獻[10]創(chuàng)建了用戶間信任繁殖算法以此拓寬信任網(wǎng)絡(luò),通過信任繁殖得到了更多有效鄰居用戶,提高了算法的覆蓋率,緩解了推薦算法中的數(shù)據(jù)稀疏性和冷啟動問題.Zhou 等[11]利用動力學傳播原理構(gòu)建用戶-項目二部圖網(wǎng)絡(luò)結(jié)構(gòu),用戶將自己的資源均衡分配給關(guān)注的項目,從而計算用戶與用戶的資源相關(guān)信任值,該算法提高了推薦預測精度,減少了算法的復雜度.

針對推薦算法的相關(guān)問題,本文在已有的研究成果上聚焦于用戶顯性信任關(guān)系以及通過設(shè)定閾值衍生繁殖隱性信任關(guān)系,充分考慮了信任關(guān)系的主觀性,非對稱性,傳播性,弱傳遞性,以及適應性,同時融合用戶偏好,依據(jù)評分相似性選擇目標用戶的最優(yōu)近鄰集合,從而進行預測.本文的主要創(chuàng)新點主要體現(xiàn)在以下方面：

1)在基于加權(quán)用戶項目二部圖[12]的信任繁殖[13]模型過程中加入對直接信任的閾值篩選控制,降低了推薦系統(tǒng)的噪聲,同時構(gòu)建用戶信任與用戶偏好關(guān)系融合的強化模型,具有一定現(xiàn)實合理性,最后設(shè)計與不融合用戶偏好的算法模型進行自身對比,對比結(jié)果證明了融合用戶偏好信任的優(yōu)越性.

2)計算得到的信任度最后融合實驗下表現(xiàn)更加優(yōu)異的基于MSD 和Jaccard 相似性的JMSD 相似系數(shù)[14],在Movielens 數(shù)據(jù)集和Last.FM 數(shù)據(jù)集下的實驗表明與基準算法相比較,本文提出基于二部圖的增強繁殖信任推薦算法模型以下簡稱BTUCF 算法模型,緩解了了推薦算法的數(shù)據(jù)稀疏性和冷啟動問題,提高了算法結(jié)果召回率,降低了算法的平均絕對誤差.

下一節(jié)本文對傳統(tǒng)協(xié)同過濾以及傳統(tǒng)加權(quán)二部圖推薦算法性能特點及局限性進行分析,第二節(jié)對本文提出增強的自適應繁殖信任模型進行描述,第三節(jié)討論分析了本文得到實驗模型結(jié)果.

1 相關(guān)工作

1.1 傳統(tǒng)協(xié)同過濾

基于用戶的協(xié)同過濾算法基礎(chǔ)流程如下：

1)基于用戶的協(xié)同過濾算法,輸入數(shù)據(jù)集為用戶-項目的評分矩陣,記為Rum,用戶u對項目m的評分記為rum,未評分項目即rum=0,用戶-項目評分矩陣共有m行n列,每一行都分別代表用戶u依次對各項目的評分,每一列都分別代表某個項目受到各用戶的評分數(shù)據(jù),形式如下：

協(xié)同過濾算法主要通過構(gòu)建相似度矩陣來預測目標用戶對該項目的喜好程度,相似度計算方法是協(xié)同過濾算法推薦的關(guān)鍵因素,相似度的度量方法主要分為四種：修正的Pearson 相關(guān)系數(shù),均方偏差(MSD),Jaccard 相似度和斯皮爾曼等級相關(guān)(Spearman’s rank correlation).

顯式用戶評分矩陣非常稀疏,相比其它相似度量本文采用的Jaccard 相似度能一定程度的從全局角度利用用戶間的交互關(guān)系,但是缺少了用戶與用戶之間的直接信任交互與間接信任用戶間的交互信息,只考慮傳統(tǒng)協(xié)同過濾缺少了對這些必要信息的有效補充.

1.2 傳統(tǒng)加權(quán)二部圖推薦算法

二部圖中定義用戶集合U={u1,u2,u3,···,ui} 定義項目集合為O={m1,m2,m3,···,mj}將i個用戶節(jié)點和j個項目的關(guān)系轉(zhuǎn)化為一種選擇關(guān)系,當用戶Ui評價過項目mj就連接此用戶與項目,對每一條用戶與項目的連接線都賦予權(quán)重Wi,特別的當用戶對項目的評分大于等于3 時Wi=1；當用戶對項目的評分小于3 時Wi=β通過實驗證明當β=0.5 時推薦結(jié)果最優(yōu)[13],本文中亦使用該最優(yōu)值.

1)用戶-項目關(guān)系圖構(gòu)造如圖1所示.

圖中用戶對項目的關(guān)注度如式(4)所示：

其中,Aij為項目mj受到用戶Ui關(guān)注項目總數(shù),len(ui)為用戶ui評價過的項目權(quán)重總和,eij為用戶ui是否對項目mj有評價的布爾類型,有即為1 沒有即取0.

2)項目-用戶有向圖類似于用戶-項目有向網(wǎng)絡(luò)圖構(gòu)建,將項目得到的用戶關(guān)注度重新反饋給用戶如圖2所示.

圖1 用戶—項目模型

圖2 用戶—項目模型

圖中項目對用戶的反饋表達式如式(3)所示：

其中,f(ui)為項目反饋給用戶ui的關(guān)注度,len(mji)為用戶ui評價過項目mj的項目權(quán)重總和,eji為項目mj是否對用戶ui有評價的布爾類型,有即為1 沒有即取0,Aij為項目mj受到用戶ui關(guān)注項目總數(shù).

最后結(jié)合用戶-項目,項目-用戶的有向網(wǎng)絡(luò)圖,從而可以得到用戶-用戶的有向網(wǎng)絡(luò)圖,結(jié)合式(4)和(5)推導出用戶與用戶之間的推導信任,推導信任取值范圍為0 與1 之間.0 表示無評價歷史,無信任交互,信任值越大信任程度越高,如式(7)所示：

Guo[3]闡述的衡量主體與主體之間的信任關(guān)系5 個重要特性：主觀性：不同的主體有不同的興趣偏好,判斷標準,所以主體對于其他主體可能會有不同的信任值；非對稱性：主體對主體的信任都是單方面的,一般是不對稱的,在實際中A 對B 的信任度一般不等于B 對A 的信任值；弱傳遞性：信任是具有傳遞性的,在A 信任B,B 信任C 的前提下,trustAB和trustBC足夠大時,A 對C 的信任值是有顯著意義的；傳播性：主體之間的直接信任關(guān)系以及其變化會影響其他主體之間的信任關(guān)系,特別是當一個主體的興趣或者發(fā)生不誠信行為時,與其有信任關(guān)系的其余主體評估水平就會發(fā)生變化,這樣通過該主體獲得推薦的信任關(guān)系也會發(fā)生相應變化；適應性：主體之間的信任關(guān)系會隨著時間函數(shù)的變化,上下文環(huán)境的變化而變化,由于信任的動態(tài)性,推薦系統(tǒng)中的信任建立之后,要根據(jù)系統(tǒng)內(nèi)各種要素的變化不斷調(diào)整調(diào)和參數(shù).對比五種特性,傳統(tǒng)加權(quán)二部圖法在主觀性上一分為二的權(quán)重考慮沒有充分考慮用戶偏好,沒有在用戶之間建立不對稱的可適應性傳遞信任,沒有充分挖掘非直接交互的用戶間的潛在信任信息,同時沒有設(shè)定閾值的廣泛信任關(guān)系加入了不存在的信任關(guān)系,降低了系統(tǒng)的抵抗惡意攻擊能力,增加了系統(tǒng)噪聲.

2 一種增強的自適應繁殖信任模型

2.1 增強的二部圖網(wǎng)絡(luò)信任機制

(1)傳統(tǒng)加權(quán)二部圖基礎(chǔ)上的信任繁殖.利用傳統(tǒng)加權(quán)二部圖得到直接信任,但是直接信任只反映了有相互交互的用戶之間的關(guān)注度程度,實際數(shù)據(jù)中許多用戶之間并沒有直接互動,根據(jù)信任的可傳遞性與傳播性,用戶A 信任B,用戶B 信任用戶C,則存在用戶A 信任用戶C,挖掘潛在的間接信任可以拓寬信任關(guān)系,信任繁殖可以極大的提高算法的覆蓋率與算法精度.根據(jù)文獻[13]創(chuàng)建的信任進行了拓展,同時設(shè)定閾值d,本文只對直接信任大于0.01 才計算ITrust間接信任計算公式如下：

(2)綜合信任度.結(jié)合用戶間直接信任DTrust與間接信任ITrust,可計算用戶間綜合信任度,計算公式如下：

自適應性因子? 表達式如下：

(3)結(jié)合用戶偏好的信任增強機制.增強的信任加權(quán)的二部圖在用戶-項目關(guān)系連接線上考慮了權(quán)重Wi當評分大于3 時Wi=1,當評分小于3 時Wi=0.5,加入權(quán)重后的二部圖模型具有較為明顯的優(yōu)勢,但仍存在一個問題,加入權(quán)重的推薦系統(tǒng)降低了系統(tǒng)抵抗惡意攻擊的能力,沒有考慮用戶的評分偏好問題,樂觀用戶偏向于打高分,消極用戶偏向于打低分,傳統(tǒng)加權(quán)二部圖中假設(shè)三個用戶對四個項目的評分值分別為(1,1,1,1),(2,2,2,2)和(1,2,2,3),計算得到的信任關(guān)系u1與u2,u3與u4是相同的,這顯然不符合不符合實際情況,根據(jù)信任特性u1與u2用戶的信任度應該大于u1與u3,用戶針對此問題,本文提出了一種偏好的調(diào)整信任度,其公式為：

基于以上,本文在第一種模型上提出一種新的偏好調(diào)整用戶信任度度量方法構(gòu)建第二種模型,增強信任公式表現(xiàn)如下：

2.2 結(jié)合JMSD 相關(guān)系數(shù)推薦

本文采用的是實驗下性能更加優(yōu)異的基于MSD和JMSD相似性的JMSD系數(shù),基于用戶共同評分項的個數(shù)來度量的JMSD系數(shù)中作為一種補充的全局信任信息結(jié)合二部圖網(wǎng)絡(luò)信任機制全面的挖掘了用戶之間信任關(guān)系.均方偏差MSD公式為：

MSD無法處理用戶共同評分項過少這個問題,而Jaccard相似度是基于用戶共同評分項的個數(shù)來度量,其公式如下：

JMSDuv其公式如下：

基于相似度與偏好調(diào)整信任度的研究,對于目標用戶ui的未知評分預測,給出綜合相似系數(shù)Sim如公式：

(12)根據(jù)計算的相似系數(shù)Sim,對于用戶未進行評分的項目,可采用如下預測公式預測：

3 實驗結(jié)果和分析

3.1 實驗數(shù)據(jù)集

為檢驗算法的合理性,本文使用Grouplens 提供組供的Movielens 數(shù)據(jù)集和在線音樂系統(tǒng)Last.FM 提供的Last.FM 數(shù)據(jù)集對算法模型進行驗證,Movielens 由美國Minnesota 大學計算機科學與工程學院的Grouplens項目組創(chuàng)辦,本文選擇其中的Ml100k 數(shù)據(jù)集,數(shù)據(jù)集包括了943 個用戶的100 000 條評價數(shù)據(jù),評分范圍1-5,每個用戶至少對20 部電影項目作出評價,分值越大喜好越大；Last.FM 數(shù)據(jù)集包含了1892 個用戶對17 632 張音樂專輯的收聽信息,實驗中與基準對比算法一致將收聽數(shù)量轉(zhuǎn)化成收聽評分用于對比.兩個數(shù)據(jù)集均按照4：1 劃分訓練集和測試集,Movielens 數(shù)據(jù)集和Last.FM 數(shù)據(jù)集根據(jù)數(shù)據(jù)稀疏性定義計算分別為：

3.2 度量標準

本文采用推薦系統(tǒng)的度量標準是廣泛應用于評價協(xié)同過濾推薦算法的平均絕對誤差(MAE),以及召回率(Recall)定義如下：

1)平均絕對誤差和均方根誤差通過訓練集計算用戶的預測評分和測試集的實際真實評分之間的偏差來度量算法的推薦準確性,所以MAE和RMSE越小,推薦的結(jié)果越準確.

2)召回率(Recall)又叫查全率,主要指通過算法可以預測出來的評分數(shù)與所有待測分數(shù)之間的比值.其中m表示通過算法模型得到的測試集預測評分數(shù),n表示測試集中待測評分數(shù).

3.3 算法推薦性能比較

本文提出JMSDuv相關(guān)系數(shù)與增強信任繁殖模型構(gòu)建BTUCF 算法模型,在Python3.6 環(huán)境下,為了評價推薦算法的精度,對提出的模型算法進行試驗驗證,在相同的實驗環(huán)境下,對不同數(shù)據(jù)集首先對算法模型進行敏感性分析,然后與三種基準算法進行實驗對比和分析,參照的基準算法包括了主流的基于用戶的協(xié)同過濾推薦TraCF 算法[15],基于信任模型的協(xié)同過濾推薦Tru_1CF 算法[16]以及一種改進的基于信任的改進算法Tru_2CF[17].第一種基準對比算法是基于用戶推薦的經(jīng)典推薦算法,第二種基準對比算法是經(jīng)典的采用構(gòu)建信任網(wǎng)絡(luò)上的局部和全局信任構(gòu)建信任矩陣引入信任模塊和相似度模塊不同權(quán)重推薦算法,第三種基準改進算法設(shè)置了通信信任,相似信任,和傳遞信任三個信任度構(gòu)建信任矩陣.最后為了證實本文引入用戶偏好的合理性,設(shè)置了JMSDuv相關(guān)系數(shù)與信任繁殖模型構(gòu)建算法模型,即沒有融合用戶偏好的算法模型(以下簡稱BTCF 算法模型)作為另外一組對比算法進行自身對照.

3.3.1 敏感性分析

敏感性實驗主要分析在Movielens 數(shù)據(jù)集和Last.FM 數(shù)據(jù)集下參數(shù)λ對本文提出的BTCF 和BYUCF 推薦精度MAE的影響,實驗結(jié)果分別如圖3和圖4.

圖3 Movielens 數(shù)據(jù)集下MAE 分析

圖4 Last.FM 數(shù)據(jù)集下MAE 分析

從圖3圖4中中我們可以看到JMSD系數(shù)和融合用戶偏好的信任在推薦結(jié)果中的影響力是不一樣的,Movielens 數(shù)據(jù)集下λ=0.8 時取得了最好的結(jié)果.Last.FM 數(shù)據(jù)集下中λ=0.8 時取得最優(yōu)結(jié)果.

基于二部圖的自適應性繁殖信任推薦算法其評分預測結(jié)果主要來源于兩個部分：評分相似系數(shù)和偏好信任系數(shù),當λ=0.0 時表示在算法模型中融合用戶偏好的信任對最后的推薦結(jié)果起唯一作用,當λ=1.0 時表示在算法模型中JMSD系數(shù)對最后的推薦結(jié)果起唯一作用,相比于傳統(tǒng)信任算法推薦,比較從λ=0.0 和λ=1.0的變化,采用用戶之間的評分數(shù)據(jù)其推薦質(zhì)量高于采用用戶之間的融合用戶偏好的信任,這表明在推薦模型中,信任必須來源于用戶的評分,這符合信任的定義和特點,同時也表明了本文基于融合用戶偏好的信任挖掘了用戶之間的潛在信任聯(lián)系,提高了推薦質(zhì)量.

3.3.2 性能對比分析

不同數(shù)據(jù)及下本文提出的BTUCF 算法模型與基于用戶的協(xié)同過濾推薦TraCF 模型,基于信任模型的協(xié)同過濾推薦Tru_1CF 算法,一種改進的基于信任的改進算法Tru_2CF 以及本文提出的沒有融合用戶偏好BTCF 算法對比如下：

表1 Movielens 數(shù)據(jù)集最佳點推薦精度比較

表1可知Movielens 數(shù)據(jù)集下BTUCF 算法模型有較大改進,對比試驗結(jié)果,在參數(shù)K=7,λ=7 時(算法最佳點)具有更低的MAE值和更高的召回率.

表2 Last.FM 數(shù)據(jù)集最佳點推薦精度比較

由表2可知Last.FM 數(shù)據(jù)集下BTUCF 算法模型在MAE指標表現(xiàn)上優(yōu)于傳統(tǒng)協(xié)同過濾算法和經(jīng)典信任算法,但是與對比算法一種改進的基于信任的改進算法處于相同水平,召回率表現(xiàn)還是更加優(yōu)異,MAE在Movielens 數(shù)據(jù)下系統(tǒng)更加優(yōu)秀是因為推薦系統(tǒng)采用的是在較小鄰居域表現(xiàn)更好的JMSD相似系數(shù),Last.FM 數(shù)據(jù)集相比Movielens 數(shù)據(jù)集更加稀疏推薦系統(tǒng)的優(yōu)勢被相對稀釋,進一步說明了本模型對數(shù)據(jù)稀疏性的反應程度.

圖5、圖6給出了五種算法在不同數(shù)據(jù)集和不同鄰居數(shù)量下的MAE和Recall值,我們可以直觀的發(fā)現(xiàn),結(jié)合JMSD系數(shù)的推薦模型算法與結(jié)合皮爾遜以及改進的皮爾遜算法模型有較大差異,在K 較小的區(qū)間內(nèi)結(jié)合JMSD系數(shù)的推薦模型算法具有更好的表現(xiàn).這也驗證了文獻[17]的結(jié)論和本文引入JMSD系數(shù)的合理性,在算法結(jié)果對比下本文提出的BTUCF 算法模型在召回率的變現(xiàn)上更好,同時具由較低的平均絕對誤差.

圖5 Movielens 數(shù)據(jù)集下的MAE 對比圖

圖6 Movielens 數(shù)據(jù)集下的Recall 對比圖

同時對比BTCF 算法模型和TUCF 算法模型,前者因為算法模型引入了繁殖信任融合JMSD系數(shù),改進算法的同時也增加了數(shù)據(jù)噪聲對推薦系統(tǒng)的影響,引入用戶偏好的BTUCF 算法模型可以緩解噪聲數(shù)據(jù)的影響,使得系統(tǒng)在K較小值范圍能更取得更低的MAE,但是作為引入用戶偏好的模型也降低了系統(tǒng)的召回率.

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡