摘要:隨著互聯(lián)網(wǎng)與數(shù)據(jù)處理技術(shù)的迅速發(fā)展,網(wǎng)絡(luò)信息的與日俱增,增加了用戶從網(wǎng)絡(luò)中快速獲取有用信息的難度,而個性化推薦可以根據(jù)用戶的自身屬性與歷史行為數(shù)據(jù),為其推薦可能感興趣的信息或商品,對人們?nèi)粘I町a(chǎn)生了深遠影響。本文在基于證據(jù)理論的置信協(xié)同推薦算法的基礎(chǔ)上,改進組合規(guī)則,建立改進置信推薦模型,選取Epinions評分數(shù)據(jù)進行測試,并對不同改進模型的準(zhǔn)確度進行檢驗。
關(guān)鍵詞:推薦系統(tǒng);證據(jù)理論:不確定評分
中圖分類號:TP393 文獻標(biāo)識碼:A
文章編號:1009-3044(2019)35-0207-03
網(wǎng)絡(luò)平臺中的購物推薦搜索引擎為用戶提供可能感興趣的商品,但海量信息存在使得搜索結(jié)果中往往會包含一些用戶不期望的冗余信息。個性化推薦在這種需求背景下應(yīng)運而生,它為人們提供了一種全新的獲取信息模式。推薦方法是一種信息過濾系統(tǒng),用于預(yù)測用戶對物品的“評分”或“偏好”。推薦的物品包括:電影、音樂、新聞、書籍、學(xué)術(shù)論文、搜索查詢以及其他產(chǎn)品。本文基于證據(jù)理論的置信協(xié)同推薦算法,引入軟評分方法,用軟評分機制度量用戶對物品評價的不確定性,結(jié)合K鄰近算法計算用戶的近鄰用戶圈,用改進證據(jù)組合規(guī)則將圈中用戶的商品評分進行融合,建立改進證據(jù)組合規(guī)則的置信協(xié)同推薦模型,最后將融合后評分高的物品推薦給目標(biāo)用戶。最后用數(shù)據(jù)Epinions驗證改進模型的有效性。
1 相關(guān)理論基礎(chǔ)
定義1設(shè)Θ={θ1,θ2,…θn}表示X所有可能取值的完備集合,且Θ內(nèi)的所有元素是兩兩互斥的,稱Θ為X的辨識框架。證據(jù)理論是建立在冪集2Θ={A:A∈Θ}上的。
定義2設(shè)Θ是X的辨識框架,則從集合2Θ到[0,1]的映射m為2Θ上的基本信度分配(BBA)函數(shù),如果滿足:
式中m(A)是事件A的信度分配,表示對A的信任程度。對空集中分配的基本信度代表了辨識框架的不一致性和不完整性。
定義3(D-S證據(jù)組合規(guī)則)設(shè)m1和m2是辨識框架Q下的兩個證據(jù)E1和E2相對應(yīng)的BBA,焦元為A,∈Θ,則合成規(guī)則為:
定義4(Dubois和Prade合成規(guī)則)設(shè)m1和m2是辨識框架Q下的兩個證據(jù)E1和E2相對應(yīng)的BBA,焦元分別為Ai和Bj,則合成規(guī)則為:
定義5(Smets合成規(guī)則)設(shè)m1和m2是辨識框架Q下的兩個證據(jù)E1和E2相對應(yīng)的BBA,焦元分別為A1和A2,則合成規(guī)則為:
2 基于改進證據(jù)組合規(guī)則的置信協(xié)同推薦算法
近年來,許多研究表明,在利用D-S合成規(guī)則進行證據(jù)推理時,會出現(xiàn)不符合常識的結(jié)論,直接影響推理決策的正確性和可靠性。為了更好地融合不同用戶對物品的評分,改進合成規(guī)則,引入DP合成規(guī)則和Smets合成規(guī)則,建立改進證據(jù)組合規(guī)則的置信協(xié)同推薦算法。其步驟如下:
1)軟評分生產(chǎn)機制:根據(jù)偏概率模型(Partial probabilitymodels)和冪集方法(Power set approach),將傳統(tǒng)“硬評分”數(shù)據(jù)轉(zhuǎn)換成“軟評分”。
2)社區(qū)挖掘:通過用戶關(guān)系網(wǎng)利用標(biāo)簽傳播算法(LPA)對用戶進行社區(qū)分類,在各社區(qū)中分別計算用戶的相似度,利用改進的KNN算法篩選近鄰用戶。
3)信息融合:用不同的證據(jù)組合規(guī)則將近鄰用戶的物品評分進行融合,將融合后評分高的物品推薦給待推薦的用戶。
3 實例分析
本文選取Epinions數(shù)據(jù)集,其中包含硬評分和用戶關(guān)系兩個部分組成。在硬評分部分,評分值由低到高為1到5,步長為1,每個用戶都至少評價了20個物品,并且在用戶關(guān)系網(wǎng)中,每個用戶至少認識10位其他用戶。該測試的數(shù)據(jù)集一共有40163位用戶,評價了139738件物品,一共產(chǎn)生了664824條評分記錄。這40163位用戶的信任關(guān)系有487183層。
3.1 D-S合成規(guī)則下的推薦過程
利用標(biāo)簽傳播算法(LPA)將40163名用戶劃分為4個社團。不同社團的部分用戶展示在表1中。
利用D-S證據(jù)理論對各個物品的評分進行融合,得到表2物品推薦表。
計算平均絕對誤差(DS-MAE)和混淆矩陣(DS-Recall)值評價推薦模型的準(zhǔn)確度。DS-MAE值越小說明出錯的概率越小,也就是測評的結(jié)果越好,準(zhǔn)確度越高。在實驗結(jié)果中,期望較高的回收率,DS-Recall值越大時,說明準(zhǔn)確度越高。
先將數(shù)據(jù)分為10組,再分別計算出結(jié)果準(zhǔn)確度,10個測試組的平均絕對誤差(DS-MAE)的平均值為0.7748,回收率(DS-Recall)的平均值0.5335。
3.2不同合成規(guī)則下改進推薦算法的結(jié)果對比
對證據(jù)理論的置信協(xié)同推薦模型進行改進,引入DP合成規(guī)則和Smets合成規(guī)則,建立改進證據(jù)組合規(guī)則的置信協(xié)同推薦模型。在模型改進的基礎(chǔ)上分別計算不同合成規(guī)則下推薦結(jié)果準(zhǔn)確度,并與D-S組合規(guī)則結(jié)果進行對比分析。
利用Smets合成規(guī)則得DS-MAE的平均值為0.680,DS-Recall的平均值為0.547,使用Smets合成規(guī)則以后DS-MAE減少,DS-Recall增加,這說明整體的準(zhǔn)確度也會增高。
DP合成規(guī)則的DS-MAE的平均值為0.477,DS-Recall的平均值為0.577,使用DP合成規(guī)則以后DS-MAE明顯減少,DS-Recall增加,這說明通過DP的合成規(guī)則,推薦的準(zhǔn)確度有了大幅度的提高。
表3展示了使用不同的合成規(guī)則以后得到的DS-MAE值和DS-Recall值,通過比較可以發(fā)現(xiàn),使用DP合成規(guī)則之后整體的準(zhǔn)確率得到提高。
4 結(jié)論
社交網(wǎng)絡(luò)的不確定性信息處理方法是推薦系統(tǒng)研究的熱點和難點。本文在證據(jù)理論框架下,引入軟評分系統(tǒng),結(jié)合了社團識別算法和K近鄰算法,提出ECR算法,對物品進行推薦并對數(shù)據(jù)的靈敏度進行檢驗??紤]到傳統(tǒng)D-S組合規(guī)則的局限性,本文引入新的合成規(guī)則和推薦算法ECR-Sm和ECR-DP來提高推薦準(zhǔn)確度。在這些算法的研究基礎(chǔ)上,對數(shù)據(jù)集Epinions進行測試并評估測試準(zhǔn)確度,結(jié)果表明改進的合成規(guī)則推薦模型的準(zhǔn)確率得到提高。
參考文獻:
[1]Shafer G A.Mathematical Theory of Evidence [M]. Princeton,New Jersey: Princeton University Press,1976.
[2]Wickramarathne TL et al.CoFiDS:A belief-theoretic ap-proach for automated collaborative filtering[J]. IEEE Transac-tions on Knowledge and Data Engineering. 2011,23(2):175-189.
[3]江濤.基于DS證據(jù)理論的信息融合算、法[J].計算機科學(xué),2013(40):120-124.
[4]雷蕾,王曉丹.結(jié)合SVM與DS證據(jù)理論的信息融合分類方法[J].計算機工程與應(yīng)用,2013,49(11):114-117.
【通聯(lián)編輯:唐一東】
收稿日期:2019-08-20
基金項目:陜西省教育廳專項科學(xué)研究計劃(19JK0330)
作者簡介:馬麗娜(1986-),女,研究生學(xué)歷,西安財經(jīng)大學(xué)行知學(xué)院,講師,研究領(lǐng)域為統(tǒng)計數(shù)據(jù)分析。