高子建,張晗睿,竇萬春,徐江民,孟順梅+
(1.南京理工大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,江蘇 南京 210094;2.南京大學(xué) 計(jì)算機(jī)軟件新技術(shù)國家重點(diǎn)實(shí)驗(yàn)室,江蘇 南京 210023)
隨著云計(jì)算和移動互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,社會進(jìn)入高度信息化時(shí)代,網(wǎng)絡(luò)中信息資源規(guī)模正以前所未有的速度快速增長。面對規(guī)模愈發(fā)龐大的信息資源,人們難以準(zhǔn)確、實(shí)時(shí)地獲取滿足自身需求的信息,從而引發(fā)了“信息過載”問題[1]。推薦系統(tǒng)作為解決信息過載的有效途徑之一,成為信息檢索、數(shù)據(jù)挖掘等領(lǐng)域最為活躍的分支之一[2-3]。推薦系統(tǒng)能根據(jù)用戶興趣需求為用戶推薦適合用戶的產(chǎn)品,能有效減輕數(shù)據(jù)負(fù)載,幫助用戶從海量信息中提取有效信息,準(zhǔn)確作出推薦,對提高用戶體驗(yàn)具有很重要的意義。在眾多推薦算法中,協(xié)同過濾(Collaborative Filtering, CF)推薦算法是最有效的算法之一[4],其主要包括基于鄰域模型的協(xié)同推薦算法[5]和基于矩陣分解的隱語義模型(Latent Factor Model, LFM)[6]。
近年來,網(wǎng)絡(luò)中用戶以及產(chǎn)品信息規(guī)模越來越大,龐大的數(shù)據(jù)信息成為豐富資源的同時(shí)也給現(xiàn)有協(xié)同推薦算法帶來了極大挑戰(zhàn)。面對海量、多源、異構(gòu)且稀疏的用戶行為數(shù)據(jù),傳統(tǒng)的基于鄰域模型的協(xié)同推薦方法和LFM模型顯得力不從心[7-8]。傳統(tǒng)的基于鄰域的協(xié)同推薦模型需要在計(jì)算所有用戶對或者產(chǎn)品對間相似度的基礎(chǔ)上挖掘用戶相似信息,以確定目標(biāo)用戶的相似歷史用戶,但在面對代入上下文信息的維度較高、規(guī)模較大且數(shù)據(jù)稀疏的用戶評論信息時(shí),計(jì)算量龐大,推薦算法的效率是影響推薦性能進(jìn)一步提高的瓶頸之一[9-10],同時(shí)冷啟動問題也是協(xié)同推薦方法中亟待解決的問題之一[11-12]。盡管LFM模型能在一定程度上解決基于鄰域模型的協(xié)同推薦算法中的數(shù)據(jù)稀疏性問題,但是隨著數(shù)據(jù)規(guī)模的擴(kuò)大,數(shù)據(jù)稀疏性問題日益嚴(yán)重,在處理數(shù)據(jù)日益稀疏的評分矩陣時(shí),由于沒有足夠多的信息指導(dǎo)預(yù)測,傳統(tǒng)的LFM模型的預(yù)測效果不盡如人意。
實(shí)際上,在網(wǎng)絡(luò)中除了評分還有很多有用的用戶或產(chǎn)品的標(biāo)簽信息,例如在MoveiLens評分網(wǎng)站中除了提供用戶的評分信息還提供用戶的性別、年齡、職業(yè)等標(biāo)簽特征信息以及電影的分類特征信息等。這些信息在一定程度也反映了用戶的偏好信息或產(chǎn)品的特征信息,如果將這些標(biāo)簽特征信息與評分信息相結(jié)合能在一定程度上提高傳統(tǒng)的僅基于評分矩陣的推薦算法的預(yù)測性能。此外,任何一種推薦算法都不會絕對地優(yōu)于另一種推薦算法,因此,可將多種推薦模型有效融合,構(gòu)建性能更高的混合推薦模型。
基于上述發(fā)現(xiàn),本文提出一種基于譜聚類和隱語義模型的智能協(xié)同推薦算法。該算法在利用譜聚類算法挖掘用戶或項(xiàng)目間相似信息的基礎(chǔ)上,將基于隱語義模型的推薦模型與基于鄰域的協(xié)同推薦模型相結(jié)合,以解決傳統(tǒng)協(xié)同推薦算法中的瓶頸問題,從而提升推薦性能。該算法基于用戶標(biāo)簽特征信息挖掘用戶間的相似信息,對沒有評過分的用戶也能找到其相似用戶,因此可以解決冷啟動問題。具體而言,首先在獲取用戶(或項(xiàng)目)的標(biāo)簽特征向量基礎(chǔ)上,利用譜聚類算法對用戶進(jìn)行聚類以獲取目標(biāo)用戶的相似用戶,同時(shí)基于譜聚類算法可將原始評分矩陣劃分為多個(gè)較低維的子評分矩陣,然后在各子評分矩陣內(nèi)利用基于隱語義模型的矩陣分解模型對缺失評分進(jìn)行局部預(yù)測以解決數(shù)據(jù)稀疏性問題,最后利用改進(jìn)的基于鄰域的協(xié)同推薦算法為目標(biāo)用戶進(jìn)行全局評分預(yù)測。本文在MovieLens實(shí)驗(yàn)數(shù)據(jù)集上將方法與現(xiàn)有幾種協(xié)同推薦算法相比較,以驗(yàn)證所提方法的有效性。
基于鄰域模型的協(xié)同推薦方法主要是基于用戶歷史行為信息,為用戶尋找偏好相似的最近鄰對象,以“人以群分”或“物以類聚”的思想,為用戶推薦可能感興趣的物品。目前,國內(nèi)外許多學(xué)者對基本最近鄰模型進(jìn)行了不同程度的改進(jìn),以提高模型推薦效果。CHEN等[13]基于用戶對服務(wù)的服務(wù)質(zhì)量(Quality of Service,QoS)屬性進(jìn)行評分,提出一種QoS感知的個(gè)性化服務(wù)推薦方法,通過建立區(qū)域模型為用戶尋找QoS偏好相似的近鄰對象。文獻(xiàn)[14]通過情境感知信息來挖掘目標(biāo)情境與特定情境中用戶偏好之間的隱藏關(guān)系,根據(jù)用戶情境為用戶推薦其感興趣的項(xiàng)目。MENG等[15]則通過挖掘用戶文本評論數(shù)據(jù),提取關(guān)鍵詞向量構(gòu)建用戶偏好模型,基于語義信息改進(jìn)原有近鄰模型中基于評分的相似度計(jì)算方式。CAI等[16]則借鑒認(rèn)知心理學(xué)中的“典型性效應(yīng)”為用戶尋找相似近鄰。最近鄰模型的構(gòu)建思想簡單易懂,但該模型對于樣本數(shù)據(jù)稀疏或冷啟動場景,推薦效果不佳,且不具有很好的可擴(kuò)展性。
相比于基于鄰域的協(xié)同推薦模型,基于矩陣分解技術(shù)的隱語義模型能較好地應(yīng)對數(shù)據(jù)稀疏性問題,且考慮了評分矩陣中隱含信息對推薦效果的影響。隱語義模型最早由KOREN在2009年提出[17]。文獻(xiàn)[18]將二值化用戶屬性加入隱語義模型,利用分類模型評估其他用戶屬性的重要程度,找出目標(biāo)用戶的相似用戶,并結(jié)合目標(biāo)用戶的評分信息進(jìn)行預(yù)測推薦。此外,為提高推薦準(zhǔn)確度,ZHANG等[19]將動態(tài)時(shí)間信息引入基本二維矩陣模型,提出一種基于張量分解的時(shí)間感知服務(wù)推薦方法。文獻(xiàn)[20]基于BERT(bidirectional encoder representations from transformer)模型從評論中提取用戶和項(xiàng)目的深層非線性特征向量,并將用戶和項(xiàng)目的深層特征向量與潛在隱向量以一、二階特征項(xiàng)的方式產(chǎn)生深度特征項(xiàng)來進(jìn)行預(yù)測推薦。
聚類算法屬于機(jī)器學(xué)習(xí)中的一種非監(jiān)督學(xué)習(xí)方法,可以對樣本數(shù)據(jù)進(jìn)行有效分組。因此,聚類算法可以在協(xié)同推薦模型中用于搜尋目標(biāo)用戶的相似用戶(最近鄰)。文獻(xiàn)[21]對標(biāo)簽特征進(jìn)行聚類生成主題標(biāo)簽簇,并構(gòu)建項(xiàng)目—主題關(guān)聯(lián)矩陣與原始評分矩陣相結(jié)合計(jì)算項(xiàng)目間的相似度,最后利用基于鄰域的協(xié)同推薦模型預(yù)測推薦。DENG等[22]則基于K-medoids聚類算法和概率模型改進(jìn)傳統(tǒng)推薦模型以提升推薦準(zhǔn)確度。LIU等[23]提出一種基于聚類算法的協(xié)同推薦模型,引入時(shí)間衰減函數(shù)預(yù)處理評分信息,基于用戶特征向量和項(xiàng)目屬性向量對用戶和項(xiàng)目進(jìn)行聚類,然后利用改進(jìn)的相似度計(jì)算方法尋找目標(biāo)用戶的相似用戶進(jìn)行預(yù)測推薦。WEST等[24]提出一種基于分層聚類方法的文獻(xiàn)推薦方法。
給定一個(gè)樣本數(shù)據(jù)集,每個(gè)樣本(u,i,rui)表示用戶u對項(xiàng)目i的評分為rui,樣本數(shù)據(jù)中還包含用戶標(biāo)簽特征[F1,F2,…,Ft],每個(gè)用戶u都有一個(gè)標(biāo)簽特征向量與之對應(yīng),t表示用戶標(biāo)簽特征向量的維數(shù)。本文的任務(wù)則是從用戶標(biāo)簽特征信息及評分信息中挖掘出用戶—用戶,用戶—項(xiàng)目間的交互信息,預(yù)測出目標(biāo)用戶對候選項(xiàng)目的評分。
如圖1所示,本文提出的算法模型包括3個(gè)模塊:模塊一是基于從樣本數(shù)據(jù)獲取的用戶標(biāo)簽特征向量,利用譜聚類算法對用戶分組聚類;模塊二利用在各子聚類內(nèi)構(gòu)建評分矩陣,利用基于矩陣分解的隱語義模型在各子聚類內(nèi)局部預(yù)測缺失評分;模塊三則利用改進(jìn)的協(xié)同推薦模型進(jìn)行全局預(yù)測推薦。該算法是基于用戶標(biāo)簽特征信息挖掘用戶間的相似信息,對沒有評過分的用戶也能找到其相似用戶,因此可以解決冷啟動問題。同時(shí)在模塊二中在各子矩陣中對缺失評分進(jìn)行局部預(yù)測,一定程度上解決了數(shù)據(jù)稀疏性問題。
譜聚類(Spectral Clustering, SC)是一種基于圖論的聚類方法[25]。在譜聚類中,將所有樣本數(shù)據(jù)看作空間中的點(diǎn),可以將這些點(diǎn)連接起來構(gòu)成無向帶權(quán)圖,G=
利用K近鄰(KNN)算法遍歷所有樣本點(diǎn),將與每個(gè)樣本點(diǎn)最近(利用高斯核函數(shù)度量距離)的K個(gè)點(diǎn)作為其近鄰,可通過以下兩種方式將其構(gòu)建為對稱鄰接矩陣:
隱語義模型是由Simon Funk利用梯度下降(Gradient Descent, GD)改進(jìn)奇異值分解(Singular Value Decomposition,SVD)算法而來的[17]。從矩陣分解角度而言,隱語義模型則是將評分矩陣R分解為兩個(gè)分別與用戶特征和項(xiàng)目特征相關(guān)的低維矩陣的乘積:
R=PTQ。
(1)
其中:P∈Rf×n,Q∈Rf×m,n和m分別為用戶個(gè)數(shù)和項(xiàng)目個(gè)數(shù),則用戶u對項(xiàng)目i的評分可表示為:
(2)
其中,puf表示用戶u的第f個(gè)特征值,qif則表示項(xiàng)目i的第f個(gè)特征值。為求得參數(shù)puf和qif,可通過最小化式(3)中的損失函數(shù)求得:
(3)
另外,在實(shí)際情況中,用戶有些屬性與項(xiàng)目無關(guān),項(xiàng)目有些屬性與用戶無關(guān),因此可以在預(yù)測模型中加入偏置項(xiàng),增加了偏置項(xiàng)的SVD模型稱為BiasSVD模型。
(1)首先預(yù)處理獲取的用戶標(biāo)簽特征樣本點(diǎn)X={x1,x2,…,xn},然后利用基于高斯核函數(shù)的K近鄰算法和用戶標(biāo)簽特征向量計(jì)算用戶相似度矩陣S={sij}n×t,其中t為標(biāo)簽特征維數(shù):
(4)
然后,基于相似度矩陣構(gòu)建鄰接矩陣W={wij}n×t,在該方法中由于利用K近鄰方法構(gòu)建的相似度矩陣中并不對稱,因此利用下面方式構(gòu)建對稱的K近鄰相似度矩陣,只要一個(gè)點(diǎn)在另一個(gè)點(diǎn)的K近鄰中,則保留sij:
(5)
(3)計(jì)算拉普拉斯矩陣L:L=D-W。
(4)利用Ncut切法求拉普拉斯矩陣L的k個(gè)最小特征值構(gòu)建特征矩陣F:
首先構(gòu)建標(biāo)準(zhǔn)化后的拉普拉斯矩陣Ls:Ls=D-1/2LD-1/2=I-D-1/2WD-1/2,其中I為單位矩陣;
計(jì)算標(biāo)準(zhǔn)化拉普拉斯矩陣Ls的特征值,選取前k個(gè)最小的特征值(k為希望輸出的聚類簇的個(gè)數(shù)),并計(jì)算前k個(gè)特征值所對應(yīng)的特征向量f1,f2,…,fk;
將上述k個(gè)特征向量作為列向量組成的矩陣按行標(biāo)準(zhǔn)化,最終組成維度為n×k的特征矩陣T={f1,f2,…,fk},T∈Rn×k;
(5)令hi∈Rk為特征矩陣T的第i行向量作為新的中間數(shù)據(jù)樣本點(diǎn),其中i=1,2,…,n,然后利用k-means聚類算法將新的樣本點(diǎn)H={h1,h2,…,hn}聚類成簇{A1,A2,…,Ak}。
(6)將新樣本點(diǎn)的聚類簇轉(zhuǎn)化為原始用戶聚類簇C={C1,C2,…,Ck},其中,Ci={j|hj∈Ai}。
在基于上述步驟將用戶分組聚類后,可將維度較高的原始評分矩陣分為k個(gè)規(guī)模較小的子評分矩陣,本文將利用基于矩陣分解的隱語義模型對評分矩陣中的缺失評分進(jìn)行填充以解決數(shù)據(jù)稀疏性問題,對每個(gè)子評分矩陣操作如下:
設(shè)Rg×m為某個(gè)子評分矩陣,g為對應(yīng)子聚類中用戶的個(gè)數(shù),m為樣本中項(xiàng)目的個(gè)數(shù),本文中基于BiasSVD算法對評分矩陣進(jìn)行分解預(yù)測。BiasSVD算法假設(shè)評分系統(tǒng)包括偏置項(xiàng)和用戶與項(xiàng)目交互影響因子兩部分,如式(6)所示:
(6)
其中:偏置項(xiàng)包括全局平均值μ,用戶偏置項(xiàng)bu,項(xiàng)目偏置項(xiàng)bi。
在隱語義模型中,通過最小化式(7)中的損失函數(shù)來學(xué)習(xí)求得式(6)中的參數(shù)bu,bi,puf以及qif。
(7)
然后利用隨機(jī)梯度下降方法(Stochastic Gradient Descent,SGD)求解上述損失函數(shù),分別對各參數(shù)求偏導(dǎo)可得下式,
(8)
bu←bu+γ(ρui-λbu),
bi←bi+γ(ρui-λbi),
puf←puf+γ(qif·ρui-λpuf),
qif←qif+γ(puf·ρui-λqif),
(9)
通過上述基于BiasSVD算法的隱語義模型則可以在各子評分矩中局部預(yù)測缺失評分。
在各子聚類內(nèi)對缺失評分進(jìn)行局部初次預(yù)測后,將子評分矩陣組合成原始評分矩陣,利用改進(jìn)的基于鄰域的協(xié)同推薦模型進(jìn)行二次全局預(yù)測。由于在經(jīng)過局部填充缺失評分后,評分矩陣變得很密集,若利用傳統(tǒng)的基于鄰域的協(xié)同推薦模型,則需計(jì)算所有用戶對間的相似度值,計(jì)算量較為龐大。因此本文再次利用k-means聚類算法基于用戶評分向量對用戶進(jìn)行聚類,將用戶集再次劃分為k′個(gè)類。然后在目標(biāo)用戶所在的聚類內(nèi),基于皮爾遜相關(guān)系數(shù)(Pearson Correlation Coefficient, PCC)計(jì)算目標(biāo)用戶u與子聚類內(nèi)其他用戶的相似度,計(jì)算公式如下:
(10)
(11)
本文使用的數(shù)據(jù)集為movielens 100k數(shù)據(jù)集和movielens 1M數(shù)據(jù)集,實(shí)驗(yàn)環(huán)境為 PC 機(jī); Windows 10 操作系統(tǒng);編程語言為 Python 3.7。每個(gè)用戶至少有20個(gè)評分,每個(gè)用戶擁有的標(biāo)簽特征包括性別、年齡和事業(yè)。在實(shí)驗(yàn)中數(shù)據(jù)集劃分為兩部分:80%的訓(xùn)練數(shù)據(jù)集和20%的測試數(shù)據(jù)集。
本文采用4種廣泛使用的性能測量指標(biāo)來評估推薦系統(tǒng)的預(yù)測準(zhǔn)確度:平均絕對誤差(MAE)、均方根誤差(RMSE)、準(zhǔn)確率(Precision)和召回率(Recall)。
平均絕對誤差(MAE)是絕對誤差的平均值,能更好地反映預(yù)測值誤差的實(shí)際情況;均方根誤差(RMSE)則是用來衡量預(yù)測值與真值之間的偏差;MAE和RMSE值越小說明算法的預(yù)測準(zhǔn)確度越高。
其中:rij是真實(shí)評分,prij是預(yù)測評分。
下面給出準(zhǔn)確率和召回率的公式:
其中:R(u)表示根據(jù)預(yù)測算法推薦給用戶u的項(xiàng)目,T(u)則表示用戶u在測試集合里面實(shí)際喜歡的項(xiàng)目。
為了評價(jià)本文方法(記為SC_LFM_KCCF)的推薦準(zhǔn)確性,將其與其他3種推薦方法進(jìn)行比較,即基于用戶的皮爾森相關(guān)系數(shù)算法(User-based Pearson Correlation Coefficient,UPCC)、矩陣分解算法(Matrix Factorization,MF)和基于k-means聚類的協(xié)同過濾算法(Kmeans-Clustering-based Collaborative Filtering,KCCF)。 UPCC[5]是一個(gè)典型的基于鄰域的協(xié)同過濾推薦算法,MF是一種常用的基于矩陣分解的推薦算法[17],KCCF是一種基于k-means均值聚類改進(jìn)的協(xié)同過濾推薦算法。
4.3.1 預(yù)測準(zhǔn)確性分析(MAE&RMSE)
在這一部分中,為了評估SC_LFM_KCCF的預(yù)測精度,將其與其他3種方法(UPCC、MF和KCCF)在MAE和RMSE進(jìn)行了比較。實(shí)驗(yàn)結(jié)果如圖2所示。圖2是在“movielens 1M”數(shù)據(jù)集上進(jìn)行的,展現(xiàn)了4種方法的MAE和RMSE的預(yù)測性能。較低的MAE和RMSE意味著較好的預(yù)測性能,可以發(fā)現(xiàn)本文方法優(yōu)于其他3種方法,MAE和RMSE最低。因此,與其他3種比較方法相比,本文方法,即SC_LFM_KCCF,是考慮數(shù)據(jù)稀疏問題和冷啟動問題的最佳推薦策略。同時(shí),可以看出本文方法的MAE值比KCCF方法低,因此采用譜聚類算法和隱語義模型改進(jìn)CF推薦算法比直接采用k-means聚類算法改進(jìn)CF推薦算法更有效。
4.3.2 Top-N推薦準(zhǔn)確性分析(Precision&Recall)
為了進(jìn)一步評估SC_LFM_KCCF的預(yù)測準(zhǔn)確性,將其與其他3種方法(UPCC、MF和KCCF)在Top-N推薦準(zhǔn)確度上進(jìn)行了比較。實(shí)驗(yàn)結(jié)果如圖3、圖4所示,該實(shí)驗(yàn)是在“movielens 1M”數(shù)據(jù)集上進(jìn)行的。圖3給出了4種方法在Top-N(N=3、5、7)推薦上的Precision值,圖4中展示4種方法的Recall值。從實(shí)驗(yàn)結(jié)果可以看出,SC_LFM_KCCF在準(zhǔn)確率和召回率方面都優(yōu)于其他3種比較方法,進(jìn)一步證明了SC_LFM_KCCF具有更好的預(yù)測精度。同時(shí)從實(shí)驗(yàn)結(jié)果可以看出,隨著N值的增加,4種方法的精度降低,召回率增加。因此,較小的N意味著更高的Top-N預(yù)測準(zhǔn)確度。
4.3.3 譜聚類算法中參數(shù)k對算法準(zhǔn)確性的影響分析
本節(jié)旨在分析參數(shù)k(譜聚類算法中的聚類數(shù))對推薦準(zhǔn)確度的影響。實(shí)驗(yàn)是在“movielens 100k”數(shù)據(jù)集上進(jìn)行的,圖5給出了隨著k值的變化本文方法的MAE值的變化情況,其中k以5為步長從5增加到25。從圖5中可以看出,在前期隨著聚類數(shù)k值的增加(5≤k<15),MAE值逐漸降低,算法的準(zhǔn)確度逐漸上升;后期隨著k值的增加(15≤k≤25),MAE值不斷增加,推薦準(zhǔn)確度降低;當(dāng)k=15時(shí),本文方法取得最佳推薦效果。這是因?yàn)楫?dāng)聚類數(shù)k值較大時(shí),會導(dǎo)致聚類不均勻,影響算法的精確性,從而使得推薦準(zhǔn)確度下降。因此,在本文提出的基于譜聚類和隱語義模型改進(jìn)的協(xié)同推薦算法中,要選取合適的k值以獲得最佳推薦效果。
本文基于用戶標(biāo)簽特征信息以及用戶評分信息,提出一種基于譜聚類和隱語義模型的智能協(xié)同推薦方法。該方法在獲取用戶的標(biāo)簽特征向量基礎(chǔ)上,利用基于KNN模型的譜聚類算法挖掘用戶間的相似信息,將用戶進(jìn)行分組聚類,然后基于聚類將原始評分矩陣劃分為較低維的多個(gè)子評分矩陣,然后在各子評分矩陣內(nèi)利用基于隱語義模型的矩陣分解模型對缺失評分進(jìn)行局部預(yù)測,最后利用改進(jìn)的基于鄰域的協(xié)同推薦算法為目標(biāo)用戶進(jìn)行全局評分預(yù)測。實(shí)驗(yàn)證明,改進(jìn)后的算法與傳統(tǒng)協(xié)同推薦算法以及基于k-means聚類改進(jìn)的協(xié)同推薦算法相比,能夠有效提升推薦準(zhǔn)確度,并能較好地解決數(shù)據(jù)稀疏性問題以及冷啟動問題。下一步工作改進(jìn)思路主要包括利用知識圖譜構(gòu)建用戶—項(xiàng)目實(shí)體之間關(guān)系圖以獲取更具體的用戶及項(xiàng)目特征信息,并利用深度學(xué)習(xí)方法構(gòu)建預(yù)測模型以進(jìn)一步提升推薦準(zhǔn)確度。