金 淳,何世福
(大連理工大學(xué) 管理與經(jīng)濟(jì)學(xué)部 系統(tǒng)工程研究所,遼寧 大連 116024)
為解決數(shù)據(jù)量的快速增長帶來嚴(yán)峻的數(shù)據(jù)稀疏性問題[1],一些研究通過填充未評分項(xiàng)目值[2,3]、SVD[4-6]等矩陣分解和聚類[7-9]等方法對協(xié)同過濾算法改進(jìn),但存在填充后數(shù)據(jù)量極大增加導(dǎo)致的計(jì)算資源消耗,或縮減評分?jǐn)?shù)據(jù)集帶來評分預(yù)測精度降低的問題。因子分解機(jī)模型[10](簡稱FM模型)使用矩陣分解的思想,將多項(xiàng)式參數(shù)分解成為兩個輔助向量,考慮了特征組合問題,對稀疏數(shù)據(jù)有良好學(xué)習(xí)能力和較高的預(yù)測精度。為解決數(shù)據(jù)維度、用戶和商品特征數(shù)目的增加帶來推薦算法可擴(kuò)展性問題,目前主要使用數(shù)據(jù)集縮減[11]、增量更新[12,13]和矩陣分解[14]等方法來提取較小的數(shù)據(jù)集,但這些方法在海量數(shù)據(jù)情況下的迭代次數(shù)增多、計(jì)算矩陣的指數(shù)級增長,計(jì)算效率較低。L-BFGS(limited-memory BFGS)[15-17]是擬牛頓法的一種,核心思想為存儲和使用最近的若干次迭代計(jì)算的向量序列來構(gòu)造Hessian矩陣的近似矩陣,具有收斂速度快和占用計(jì)算空間低等特點(diǎn)。而FM使用傳統(tǒng)方法進(jìn)行參數(shù)訓(xùn)練收斂速度較慢,使用L-BFGS算法進(jìn)行參數(shù)訓(xùn)練可以彌補(bǔ)此缺點(diǎn),使算法具有良好的可擴(kuò)展性。
綜上,本文提出基于L-BFGS優(yōu)化的協(xié)同過濾推薦算法(L-BFGS-CF)。該算法使用FM模型進(jìn)行評分預(yù)測,L-BFGS算法作為FM模型訓(xùn)練方法。本研究試圖為解決云環(huán)境數(shù)據(jù)極度稀疏情況下的協(xié)同過濾算法計(jì)算效率及可擴(kuò)展性提出新思路。
推薦系統(tǒng)根據(jù)已有的用戶特征、行為(如查看、購買、評分)信息和商品特征信息,對已有商品進(jìn)行評分預(yù)測,按預(yù)測的評分結(jié)果排序得到推薦列表,將相應(yīng)的商品推薦給用戶。在推薦系統(tǒng)中,一般產(chǎn)生如下數(shù)據(jù)矩陣:用戶評分矩陣(User-Item評分矩陣)、用戶特征矩陣和商品特征矩陣。設(shè)User-Item評分矩陣R中包含m個用戶U={Ui|i=1,2,…,m}和n個商品I={Ij|j=1,2,…,n},那么R可以用一個m×n矩陣表示,如式(1)所示
(1)
其中,評分r描述了用戶對不同商品的偏好程度,分?jǐn)?shù)越高表示用戶越喜歡該商品;若r=?表示該用戶ui沒有對商品Ij評分,具體評分矩陣為R=[r1,1,…,r1,n;r2,1,…,r2,n;…;rm,1,…,rm,n]。
用戶特征表包含m個用戶和p個特征FU={FU,k|k=1,2,…,p},如用戶的年齡、職業(yè)等。商品特征一般包含n個商品和q個特征FI={FI,l|l=1,2,…,q},如商品的類型、品牌等特征。在協(xié)同過濾推薦時考慮用戶和商品的特征組合問題能取得更好的推薦質(zhì)量。
協(xié)同過濾技術(shù)是根據(jù)用戶對商品或信息的行為偏好,發(fā)現(xiàn)用戶、商品或內(nèi)容之間的相關(guān)性進(jìn)行推薦,主要技術(shù)包括:基于用戶(user-CF)、基于商品(item-CF)和基于模型(model-CF)的協(xié)同過濾算法。主要技術(shù)的假設(shè)與定義見文獻(xiàn)[1]。
1.2.1 相似性度量方法
基于用戶或商品的協(xié)同過濾無需獲取用戶或商品特征,只依賴于現(xiàn)有評分?jǐn)?shù)據(jù)和相似度計(jì)算方法對評分進(jìn)行預(yù)測,所以User-Item評分矩陣越密集,預(yù)測精度越高。協(xié)同過濾中的相似度計(jì)算方法一般使用Jaccard相似系數(shù)、余弦相似度和Pearson相關(guān)系數(shù)。設(shè)用戶u和v之間的相似度為Sim(u,v),3種相似度計(jì)算方式如式(2)、式(3)、式(4)所示[18]
(2)
(3)
(4)
User-CF或Item-CF方法的核心在于通過相似性計(jì)算找到用戶或商品的最近鄰居。但是,在評分矩陣極度稀疏的情況下,兩個用戶共有評分集合I(u,v)很小,通常只有幾個少數(shù)的商品。數(shù)據(jù)稀疏性使該方法無法得到準(zhǔn)確的用戶或商品相似度,使得計(jì)算出的目標(biāo)商品或用戶的最近鄰居不準(zhǔn)確,導(dǎo)致算法精度不高。
1.2.2 基于模型的協(xié)同過濾
由于相似性度量方法的缺點(diǎn),一些學(xué)者使用Model-CF進(jìn)行研究。主要基于User-Item評分矩陣訓(xùn)練出推薦模型,對未評分商品進(jìn)行評分預(yù)測。其中協(xié)同過濾的經(jīng)典算法Slo-peOne算法基于這樣一種假設(shè):兩個商品的偏好值之間存在著某種線性關(guān)系,可以通過線性函數(shù)Y=mX+b來描述,即通過商品X的偏好值對Y的偏好值進(jìn)行預(yù)測[9]。如式(5)所示
(5)
其中,I(u,v)為用戶u和v共同評分的項(xiàng)目集合,r代表用戶評分。
該算法簡單、快速、容易實(shí)現(xiàn),但僅通過線性回歸計(jì)算商品間的評分差異對評分進(jìn)行預(yù)測,沒有考慮商品間共同評分的用戶數(shù)目,導(dǎo)致算法精度不高。
(6)
(7)
在云環(huán)境的大數(shù)據(jù)量情況下,該算法的r值選取存在一定的困難,選取過小會導(dǎo)致失去評分矩陣中的重要信息和結(jié)構(gòu);選取過大達(dá)不到降維的目的且容易導(dǎo)致訓(xùn)練數(shù)據(jù)過擬合問題,嚴(yán)重影響算法精度。
上述傳統(tǒng)基于模型的協(xié)同過濾方法通過填充評分矩陣導(dǎo)致數(shù)據(jù)量急劇增長,且需要更多的迭代次數(shù),使其計(jì)算效率和算法可擴(kuò)展性不高,難以適應(yīng)云環(huán)境下快速增長的數(shù)據(jù)量、數(shù)據(jù)高維化和算法可擴(kuò)展性要求。
本算法屬于基于模型的協(xié)同過濾算法。算法改進(jìn)思路為:使用L-BFGS優(yōu)化算法對FM模型進(jìn)行訓(xùn)練,再使用FM模型進(jìn)行評分預(yù)測,力求從精度和效率兩方面對協(xié)同過濾模型進(jìn)行提升。在云環(huán)境下,User-Item評分?jǐn)?shù)據(jù)維度越來越高的同時也變得越來越稀疏,使用FM模型對極度稀疏數(shù)據(jù)的良好學(xué)習(xí)能力,提高對用戶評分的預(yù)測精度。L-BFGS優(yōu)化算法用來訓(xùn)練FM模型在精度和效率上都有較好的表現(xiàn)。結(jié)合Spark分布式計(jì)算框架的特性,使本算法能夠適應(yīng)云環(huán)境下的協(xié)同過濾推薦。
本算法使用FM模型進(jìn)行用戶對商品的評分預(yù)測以提高算法計(jì)算效率和精度。FM模型引進(jìn)輔助向量對多項(xiàng)式模型(本文只考慮二階多項(xiàng)式模型)的二次項(xiàng)參數(shù)進(jìn)行估計(jì),旨在解決在數(shù)據(jù)稀疏情況下訓(xùn)練多項(xiàng)式模型參數(shù)的問題[10]。
多項(xiàng)式模型的特征xi和xj組合一般用xixj表示,即xi和xj都不為零時,組合特征xixj才有意義。多項(xiàng)式模型二階方程為式(8)
(8)
其中,F(xiàn)代表樣本的特征數(shù)量,xi是第i個特征的值,w0、wi、wij是模型參數(shù)。每個二次項(xiàng)參數(shù)wij需要大量xi和xj都非零的樣本進(jìn)行訓(xùn)練,但實(shí)際推薦系統(tǒng)中數(shù)據(jù)稀疏度非常大,可供模型訓(xùn)練的樣本極少,導(dǎo)致參數(shù)wij不準(zhǔn)確進(jìn)而嚴(yán)重影響模型的精度。
FM模型基于矩陣分解的思路,將式(8)中的二次項(xiàng)參數(shù)wij組成一個對稱矩陣W,使用矩陣分解方法可分解為W=VTV,V的第j列為第j維特征的隱向量,則二次項(xiàng)參數(shù)可以表示為wij=vi,vj。因此,F(xiàn)M模型方程如式(9)所示
(9)
其中,vi是第i維特征的隱向量,vi,vj代表向量點(diǎn)積,隱向量長度為K(K?F)。在式(9)中,二次項(xiàng)的參數(shù)數(shù)量為K×F個,相比多項(xiàng)式模型的二次項(xiàng)參數(shù)數(shù)量F(F+1)/2要大大減少。而由于將wij分解為兩個隱向量的點(diǎn)積vi,vj,所以特征組合xkxi和xixj的系數(shù)vk,vi和vi,vj有了共同項(xiàng)vi而不再相互獨(dú)立。即所有包含xi的非零特征組合的樣本都可以用來訓(xùn)練vi,從而極大減輕數(shù)據(jù)稀疏性的影響。
對式(9)的二次項(xiàng)進(jìn)行化簡,可將模型改寫為式(10)
(10)
化簡后的FM模型時間復(fù)雜度從O(KF2)優(yōu)化到了O(KF),極大提高模型計(jì)算效率。
使用FM模型進(jìn)行預(yù)測時,考慮L2正則的優(yōu)化目標(biāo)函數(shù),通常取式(11)
(11)
Rendle[10]使用了隨機(jī)梯度下降(SGD)、交替最小二乘法(ALS)和馬爾可夫鏈蒙特卡羅法(MCMC)3種學(xué)習(xí)算法來進(jìn)行參數(shù)學(xué)習(xí),也有較好的預(yù)測精度。但是在數(shù)據(jù)量劇增的情形下,上述算法需要的迭代次數(shù)和計(jì)算資源消耗較高,所以本文使用更適合實(shí)際業(yè)務(wù)的大規(guī)模優(yōu)化算法:L-BFGS算法,來對FM模型進(jìn)行參數(shù)訓(xùn)練。
在L-BFGS算法中,迭代格式為式(12)
xk+1=xk+αkPk
(12)
式中,αk為步長,Pk為搜索方向,Pk的計(jì)算公式為式(13)
Pk=-Hk▽f(xk)
(13)
對L-BFGS算法過程,對sk和yk作如下定義
sk=xk+1-xk
(14)
yk=gk+1-gk
(15)
(16)
其中,gk≡▽f(xk),上述式(14)和式(15)一維數(shù)組即是需要保存的每次迭代的曲率信息。
結(jié)合FM模型,L-BFGS算法流程如下:
(17)
(18)
其中,τk為比例系數(shù),E為單位矩陣。
步驟2 使用式(12)沿搜索方向找到下一個迭代點(diǎn);
步驟3 根據(jù)Armijo-Goldstein準(zhǔn)則和FM傳入?yún)?shù)允許偏差值ε判斷算法是否停止;
步驟4 如果|▽f(xk)|≥ε,使用式(13)更新搜索方向Pk;
步驟5 將訓(xùn)練得到的參數(shù)w0、一次項(xiàng)參數(shù)矩陣W和二次項(xiàng)隱向量V返回到FM模型。
L-BFGS算法利用最近一次保存的曲率信息來估計(jì)實(shí)際Hassian矩陣的近似矩陣,這使得當(dāng)前步的搜索方向較為理想,收斂速度較快,同時實(shí)際工程中,一般設(shè)置步長αk=1,在大多數(shù)情況下都是滿足的,節(jié)省了步長搜索時間,提高算法效率。
綜上,本文提出的L-BFGS-CF算法采用L-BFGS訓(xùn)練FM模型參數(shù),算法流程如圖1所示。L-BFGS-CF算法的詳細(xì)步驟如下:
輸入:數(shù)據(jù)集R,迭代次數(shù)T′,隱向量v維度,正則化系數(shù)λ,允許偏差ε
輸出:填充后的預(yù)測評分矩陣R′
步驟1 初始化Spark實(shí)例配置SparkContext(),讀取Spark環(huán)境配置;
步驟2 使用FM模型對數(shù)據(jù)集R進(jìn)行格式化轉(zhuǎn)換并按8∶2比例隨機(jī)劃分為訓(xùn)練集Rtrain和測試集Rtest;
步驟3 將轉(zhuǎn)換后的訓(xùn)練集Rtrain、模型參數(shù)傳遞給L-BFGS算法;
步驟4 初始化L-BFGS參數(shù),選擇初始點(diǎn)x0和需要存儲的迭代次數(shù)T′;
步驟6 根據(jù)式(12)進(jìn)行迭代計(jì)算;
步驟7 如果|▽f(xk)|≥ε,根據(jù)式(13)計(jì)算搜索方向Pk,返回步驟6;
步驟8 如果|▽f(xk)|≤ε,返回訓(xùn)練參數(shù)w0、W和V給FM模型;
步驟9 用式(10)對測試集Rtest商品進(jìn)行評分預(yù)測,填充評分矩陣R′。
圖1 L-BFGS-CF算法流程
為驗(yàn)證L-BFGS-CF改進(jìn)后的預(yù)測效果,采用4組不同數(shù)據(jù)量的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)。選取SVD++,KNN-100和基于聚類(記為Cluster)的3種協(xié)同過濾算法對比分析,驗(yàn)證L-BFGS-CF的精度;其次增加實(shí)驗(yàn)數(shù)據(jù)的特征個數(shù),分析使用L-BFGS-CF算法數(shù)據(jù)特征數(shù)量與精度的關(guān)系;最后,使用不同迭代次數(shù)對L-BFGS-CF進(jìn)行實(shí)驗(yàn),分析算法收斂速度。
3.1.1 實(shí)驗(yàn)環(huán)境
實(shí)驗(yàn)環(huán)境為VMware搭建的Spark高可用(HA)集群,包含3個節(jié)點(diǎn):主節(jié)點(diǎn)為Master,子節(jié)點(diǎn)分別為Slave01和Slave02。安裝內(nèi)存16 G,處理器為四核Intel Core i5 2.6.0 GHz,軟件環(huán)境為CentOS-6.7,Hadoop-2.5.0-cdh5.3.6,Spark-1.6.1-cdh5.3.6,Scala-2.10.4,jdk-1.7.67。內(nèi)存及各組件分配見表1。
表1 實(shí)驗(yàn)節(jié)點(diǎn)資源分配情況
3.1.2 實(shí)驗(yàn)數(shù)據(jù)集
實(shí)驗(yàn)數(shù)據(jù)集使用MovieLens(http://grouplens.org/datasets/movielens/)、NetFlix Prize(http://www.netflixprize.com/)及天池競賽(https://tianchi.shuju.aliyun.com/datalab/index.htm)數(shù)據(jù)集。MovieLens是由GroupLens Research從MovieLens站點(diǎn)提供的評分?jǐn)?shù)據(jù)進(jìn)行收集整理,此數(shù)據(jù)被廣泛用于研究協(xié)同過濾的實(shí)驗(yàn)數(shù)據(jù),分別選取數(shù)據(jù)量大小10萬和100萬的數(shù)據(jù)集:MovieLens-100K,MovieLens-1M。同時,為了驗(yàn)證模型對不同數(shù)據(jù)集的適應(yīng)性,采用天池競賽IJCAI-15 Dataset進(jìn)行實(shí)驗(yàn)。該數(shù)據(jù)集包含天貓40多萬用戶的5000萬條購買商品記錄,從中抽取1000萬條有效數(shù)據(jù)記為TMALL-10M,用于預(yù)測用戶再次購買同一商家商品的可能性。NetFlix數(shù)據(jù)集包含17萬多用戶的19億條評分記錄,由于實(shí)驗(yàn)環(huán)境限制,本文從中選取1%的評分?jǐn)?shù)據(jù)進(jìn)行實(shí)驗(yàn),記為NetFlix-100M。
表2統(tǒng)計(jì)了各組數(shù)據(jù)集的特征數(shù)量情況,包括評分?jǐn)?shù)量(rating),用戶數(shù)量(user),商品數(shù)量(item),以及數(shù)據(jù)稀疏度(sparsity),數(shù)據(jù)稀疏度通過式(19)計(jì)算。此外,用戶性別、用戶年齡及用戶職業(yè)等用戶特征,商品類型及標(biāo)簽等商品特征可以直接從上述數(shù)據(jù)集中獲取
(19)
表2 實(shí)驗(yàn)數(shù)據(jù)集特征
實(shí)驗(yàn)從每個數(shù)據(jù)集中隨機(jī)選取80%作為訓(xùn)練集,剩余20%作為測試集。通過劃分不同比例進(jìn)行實(shí)驗(yàn),結(jié)果表明訓(xùn)練集和測試集的比例劃分對L-BFGS-CF的影響甚微。
3.1.3 評判度量指標(biāo)
推薦系統(tǒng)性能的評判度量指標(biāo)通常使用均方根誤差(RMSE)和平均絕對誤差(MAE)。其中,RMSE作為NetFlix Prize賽事的標(biāo)準(zhǔn)度量指標(biāo);MAE廣泛使用于推薦系統(tǒng)預(yù)測精度的評判標(biāo)準(zhǔn)。RMSE和MAE越低,表示推薦系統(tǒng)的預(yù)測精度越高。各指標(biāo)計(jì)算如式(20)和式(21)所示[1]
(20)
(21)
3.2.1 不同數(shù)據(jù)量下4種算法精度對比
為方便比較,選取迭代次數(shù)為100次和特征數(shù)量為4個的情況下進(jìn)行實(shí)驗(yàn)對比,結(jié)果如圖2和圖3所示。相比較小的數(shù)據(jù)集,NetFlix-100M的精度提升最為明顯。
圖2 不同數(shù)據(jù)量大小情況4種算法的RMSE值對比
圖3 不同數(shù)據(jù)量大小情況4種算法的MAE值對比
(1)L-BFGS-CF與SVD++相比,RMSE和MAE值分別降低0.198和0.142。SVD++屬于矩陣分解的一種,由于是隨機(jī)填充User-Item評分矩陣,大量增加了數(shù)據(jù)量及算法復(fù)雜度,同時數(shù)據(jù)填充造成數(shù)據(jù)失真,從而使預(yù)測精度下降,這在數(shù)據(jù)量越大的時候變得更加明顯。
(2)與KNN-100相比,RMSE和MAE值分別降低0.085和0.063。KNN-100算法雖然無需訓(xùn)練模型,但對于樣本不平衡的數(shù)據(jù)誤差比較大,且算法計(jì)算量大,在數(shù)據(jù)量很大時需要耗用大量的內(nèi)存。
(3)與Cluster相比,RMSE和MAE值分別降低0.056和0.04。Cluster方法由于聚類中心往往是隨機(jī)選擇的,存在聚類結(jié)果不穩(wěn)定的問題,同時算法復(fù)雜度高,在不斷地迭代過程中,保存的計(jì)算矩陣占用大量的內(nèi)存和CPU時間,在精度和速率上都有所欠缺。
在不同大小的數(shù)據(jù)對比中,L-BFGS-CF算法均有最低的RMSE和MAE值,具有良好的預(yù)測精度。而對于TMALL-10M的數(shù)據(jù)集,由于預(yù)測結(jié)果為布爾類型,算法精度相比預(yù)測評分值的其它數(shù)據(jù)要低。
3.2.2 特征數(shù)量對L-BFGS-CF精度的影響
選取MovieLens-1M數(shù)據(jù)集考查L-BFGS-CF迭代次數(shù)T和特征數(shù)量F的關(guān)系,分析對算法精度的影響,結(jié)果如圖4和圖5所示。隨著L-BFGS-CF算法迭代次數(shù)的增加,3種特征數(shù)量的情況下算法MAE和RMSE值都逐漸減少;而隨著特征數(shù)量的增加,L-BFGS-CF算法的精度隨之提升,但需要更大的迭代次數(shù)才能達(dá)到較為理想的精度。
圖4 不同特征數(shù)量下L-BFGS-CF的RMSE值對比
圖5 不同特征數(shù)量下L-BFGS-CF的MAE值對比
3.2.3 L-BFGS-CF算法收斂速度分析
選取特征數(shù)量為4個的情況下使用不同迭代次數(shù)T考查算法收斂速度,結(jié)果如圖6和圖7所示。L-BFGS-CF算法的RMSE和MAE值隨著迭代次數(shù)的增加而逐漸變小,表明迭代次數(shù)是計(jì)算精度的主要影響因素之一。而不同大小的數(shù)據(jù)集來看,隨著數(shù)據(jù)集的增大,算法的RMSE和MAE值逐步減??;此外算法在迭代次數(shù)為10-50次的精度提升最為明顯。對于TMALL-10M數(shù)據(jù),由于布爾類型的預(yù)測結(jié)果,在迭代次數(shù)50次左右達(dá)到相對穩(wěn)定點(diǎn)。
圖6 不同迭代次數(shù)L-BFGS-CF的RMSE值對比
圖7 不同迭代次數(shù)L-BFGS-CF的MAE值對比
綜上可知,與其它3種協(xié)同過濾算法相比,L-BFGS-CF算法在規(guī)模不同的數(shù)據(jù)集均有最小的RMSE和MAE值,算法在迭代次數(shù)為50次可達(dá)到較好的精度,收斂速度快,且在適當(dāng)增加迭代次數(shù)和數(shù)據(jù)集特征數(shù)量時能得到更好的預(yù)測精度。
本文針對所提出的基于L-BFGS優(yōu)化的協(xié)同過濾算法的研究結(jié)論如下:
(1)算法設(shè)計(jì)上,采用FM模型對評分進(jìn)行預(yù)測,F(xiàn)M模型使用輔助向量對的特征組合系數(shù)進(jìn)行估計(jì),避免了訓(xùn)練數(shù)據(jù)的稀疏性對參數(shù)學(xué)習(xí)的影響;采用L-BFGS算法訓(xùn)練模型具有收斂速度快和占用計(jì)算空間低等特點(diǎn),在數(shù)據(jù)量劇增的云環(huán)境下具有良好的可擴(kuò)展性。
(2)實(shí)驗(yàn)結(jié)果表明:與SVD++、KNN-100和基于聚類的協(xié)同過濾算法相比,本算法的RMSE值分別降低了0.198,0.085,0.056;MAE值分別降低了0.142,0.063,0.04。在4種規(guī)模的數(shù)據(jù)集上都取得了最小的RMSE和MAE值,具有良好的推薦精度。同時在適當(dāng)增加迭代次數(shù)和數(shù)據(jù)集特征可以取得更好的推薦質(zhì)量。本文在Spark分布式計(jì)算框架實(shí)現(xiàn)本算法,有效提高了算法計(jì)算效率和保證推薦系統(tǒng)的實(shí)時性,更適合云環(huán)境下的個性化推薦問題。
未來的研究工作考慮將Fuzzy C-means聚類算法與本算法結(jié)合,在進(jìn)一步節(jié)省計(jì)算資源消耗的同時提高算法推薦精度。
[1]Yang X,Guo Y,Liu Y,et al.A survey of collaborative filtering based social recommender systems[J].Computer Communications,2014,41(5):1-10.
[2]Hernando A,Bobadilla J,Ortega F.A non negative matrix factorization for collaborative filtering recommender systems based on a Bayesian probabilistic model[J].Knowledge-Based Systems,2016,97(C):188-202.
[3]WEI Suyun,XIAO Jingjing,YE Ning.Collaborative filtering algorithm based on Co-clustering smoothing[J].Journal of Computer Research and Development,2013,50(s2):163-169(in Chinese).[韋素云,肖靜靜,業(yè)寧.基于聯(lián)合聚類平滑的協(xié)同過濾算法[J].計(jì)算機(jī)研究與發(fā)展,2013,50(s2):163-169.]
[4]Cobos C,Rodriguez O,Rivera J,et al.A hybrid system of pedagogical pattern recommendations based on singular value decomposition and variable data attributes[J].Information Processing & Management,2013,49(3):607-625.
[5]Zhou X,He J,Huang G,et al.SVD-based incremental approaches for recommender systems[J].Journal of Computer and System Sciences,2015,81(4):717-733.
[6]NIU Changyong,LIU Guoshu.Collaborative filtering algorithm based on both local and global similarity and singular value decomposition(SVD)[J].Computer Engineering and Design,2016,37(9):2497-2501(in Chinese).[牛常勇,劉國樞.基于局部全局相似度的SVD的協(xié)同過濾算法[J].計(jì)算機(jī)工程與設(shè)計(jì),2016,37(9):2497-2501.]
[7]Tsai CF,Hung C.Cluster ensembles in collaborative filtering recommendation[J].Applied Soft Computing,2012,12(4):1417-1425.
[8]CHEN Kehan,HAN Panpan,WU Jian.User clustering based social network recommendation[J].Chinese Journal of Computers,2013,36(2):349-359(in Chinese).[陳克寒,韓盼盼,吳健.基于用戶聚類的異構(gòu)社交網(wǎng)絡(luò)推薦算法[J].計(jì)算機(jī)學(xué)報,2013,36(2):349-359.]
[9]DENG Xiaoyi,JIN Chun,HAN Qingping,et al.Improved collaborative filtering model based on context clustering and user ranking[J].Systems Engineering-Theory & Practice,2013,33(11):2945-2953(in Chinese).[鄧曉懿,金淳,韓慶平,等.基于情境聚類和用戶評級的協(xié)同過濾推薦模型[J].系統(tǒng)工程理論與實(shí)踐,2013,33(11):2945-2953.]
[10]Rendle S.Factorization machines with libfm[J].ACM Transactions on Intelligent Systems and Technology,2012,3(3):57.
[11]Baltrunas L,Ricci F.Experimental evaluation of context-depen-dent collaborative filtering using item splitting[J].User Modeling and User-Adapted Interaction,2014,24(1-2):7-34.
[12]Salah A,Rogovschi N,Nadif M.A dynamic collaborative filtering system via a weighted clustering approach[J].Neurocomputing,2016,175(A):206-215.
[13]Nilashi M,Jannach D,Bin Ibrahim O,et al.Clustering-and regression-based multi-criteria collaborative filtering with incremental updates[J].Information Sciences,2015,293(1):235-250.
[14]ZHANG Bangzuo,GUI Xin,HE Tang,et al.A novel reco-mmender algorithm on fusion heterogeneous information network and rating matrix[J].Journal of Computer Research and Development,2014,51(s2):69-75(in Chinese).[張邦佐,桂欣,何濤,等.一種融合異構(gòu)信息網(wǎng)絡(luò)和評分矩陣的推薦新算法[J].計(jì)算機(jī)研究與發(fā)展,2014,51(s2):69-75.]
[15]Biglari F.Dynamic scaling on the limited memory BFGS met-hod[J].European Journal of Operational Research,2015,243(3):697-702.
[16]LI Weitao,ZHOU Yuanfeng,GAO Shanshan,et al.Rapid sampling on implicit surfaces via hybrid optimization[J].Chinese Journal of Computers,2014,37(3):593-601(in Chinese).[李偉濤,周元峰,高珊珊,等.基于混合優(yōu)化的快速隱式曲面采樣方法[J].計(jì)算機(jī)學(xué)報,2014,37(3):593-601.]
[17]Biglari F,Ebadian A.Limited memory BFGS method based on a high-order tensor model[J].Computational Optimization and Applications,2015,60(2):413-422.
[18]Liu H,Hu Z,Mian A,et al.A new user similarity model to improve the accuracy of collaborative filtering[J].Know-ledge-Based Systems,2014,56(3):156-166.