国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于概率矩陣分解的推薦算法

2017-07-05 14:58:36
關(guān)鍵詞:可擴(kuò)展性聚類協(xié)同

張 昪

(蘭州財(cái)經(jīng)大學(xué) 信息工程學(xué)院,甘肅 蘭州 730000)

基于概率矩陣分解的推薦算法

張 昪

(蘭州財(cái)經(jīng)大學(xué) 信息工程學(xué)院,甘肅 蘭州 730000)

為了解決傳統(tǒng)協(xié)同過(guò)濾推薦算法的可擴(kuò)展性差和數(shù)據(jù)稀疏性的問(wèn)題,提出了一種基于隨機(jī)梯度下降的概率矩陣分解推薦算法。該算法是生成兩個(gè)服從高斯分布的隨機(jī)數(shù)矩陣,不斷訓(xùn)練和更新使得這兩個(gè)矩陣的內(nèi)積趨近于用戶評(píng)分矩陣,為了避免模型過(guò)度擬合訓(xùn)練數(shù)據(jù),在此基礎(chǔ)上加入正則項(xiàng)進(jìn)行約束,并通過(guò)批處理的隨機(jī)梯度下降法來(lái)優(yōu)化模型。在MovieLens提供的數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)驗(yàn)證,與傳統(tǒng)的協(xié)同過(guò)濾算法相比較,該算法不僅緩解了可擴(kuò)展性問(wèn)題和稀疏性問(wèn)題,而且推薦的準(zhǔn)確度也得以提升。

推薦算法;協(xié)同過(guò)濾;概率矩陣分解(PMF);隨機(jī)梯度下降法(SGD)

0 引言

隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,當(dāng)今社會(huì)已經(jīng)進(jìn)入了信息爆炸的時(shí)代,人們想要從海量的數(shù)據(jù)中搜索到自己需求的信息無(wú)異于大海撈針,在這種情況下,個(gè)性化推薦技術(shù)迅速的發(fā)展起來(lái)。這是一種信息過(guò)濾手段,可以挖掘用戶的興趣愛(ài)好,針對(duì)不同的用戶提供個(gè)性化服務(wù),解決了信息過(guò)載的問(wèn)題。通過(guò)個(gè)性化推薦能使用戶從瀏覽者變?yōu)橘?gòu)買者,提高用戶對(duì)網(wǎng)站的忠誠(chéng)度,從而增加網(wǎng)站效益。目前幾乎所有電子商務(wù)、在線音樂(lè)視頻網(wǎng)站都不同程度的使用了推薦技術(shù),例如國(guó)外的Amazon、Youtube、Pandora以及國(guó)內(nèi)的阿里巴巴、豆瓣電影、蝦米音樂(lè)等。

目前主流的推薦算法有六種[1],即:協(xié)同過(guò)濾推薦、基于內(nèi)容推薦、基于關(guān)聯(lián)規(guī)則推薦、基于效用推薦、基于知識(shí)推薦和在以上五種推薦技術(shù)上的混合推薦算法。文獻(xiàn)[2]分析了各類算法的優(yōu)點(diǎn)和不足,提出了改進(jìn)的方法和未來(lái)可能研究的方向。其中應(yīng)用最為廣泛的是協(xié)同過(guò)濾算法[3],但協(xié)同過(guò)濾算法仍存在以下幾種問(wèn)題,如:推薦的實(shí)時(shí)性難以保證、算法的可擴(kuò)展性差、冷啟動(dòng)問(wèn)題和稀疏性問(wèn)題,針對(duì)這些問(wèn)題有許多學(xué)者在協(xié)同過(guò)濾算法上進(jìn)行了不同的改進(jìn)。

為了提高推薦的實(shí)時(shí)響應(yīng)速度,鄧愛(ài)林等提出項(xiàng)目聚類協(xié)同過(guò)濾算法[4],根據(jù)用戶對(duì)項(xiàng)目評(píng)分的相似性對(duì)項(xiàng)目進(jìn)行聚類,生成相應(yīng)的聚類中心,在此基礎(chǔ)上計(jì)算目標(biāo)項(xiàng)目與聚類中心的相似性,在推薦中考慮與目標(biāo)項(xiàng)目在同一類中的其他項(xiàng)目,該算法可以有效地提高在線最近鄰查詢速度,但是推薦精度沒(méi)有顯著降低。李海霞提出將蟻群算法融合到協(xié)同過(guò)濾算法中[5],該算法使用蟻群算法實(shí)現(xiàn)用戶聚類,從而在一定程度上降低了候選鄰居集的數(shù)量,然后在用戶簇中運(yùn)用融合用戶和項(xiàng)目的協(xié)同過(guò)濾推薦算法對(duì)用戶進(jìn)行推薦,雖然能夠解決候選鄰居集較大的問(wèn)題,但是蟻群算法簇?cái)?shù)目過(guò)高,并且存在蟻群算法的孤立點(diǎn)。

為了解決可擴(kuò)展性差的問(wèn)題,Sarwar BM等人提出基于奇異值分解的協(xié)同過(guò)濾算法[6],將一個(gè)比較復(fù)雜的矩陣用更小更簡(jiǎn)單的3個(gè)子矩陣的相乘來(lái)表示,這3個(gè)小矩陣描述了大矩陣重要的特性,該算法可以有效的解決一義多詞問(wèn)題,顯著提高推薦系統(tǒng)的伸縮性,但是降維會(huì)導(dǎo)致信息損失,并且在空間維數(shù)很高的情況下,降維效果難以保證。

為了解決冷啟動(dòng)問(wèn)題,何佳知提出基于內(nèi)容和協(xié)同過(guò)濾的混合算法[7],使用用戶-特征評(píng)分矩陣代替?zhèn)鹘y(tǒng)的用戶-項(xiàng)目評(píng)分矩陣,根據(jù)用戶對(duì)項(xiàng)目特征,對(duì)具有相同特征偏好的用戶進(jìn)行聚類,生成相應(yīng)的聚類中心,推薦時(shí),首先確定目標(biāo)用戶喜好的特征類型,再計(jì)算與所有聚類中心的相似性,從而確定最近鄰居的所屬簇,最后借助最近鄰?fù)瓿蓪?duì)目標(biāo)用戶的推薦。

為了解決數(shù)據(jù)稀疏性問(wèn)題,許多研究者通過(guò)矩陣分解來(lái)降維,最早的矩陣分解模型利用的是奇異值分解[8],但這個(gè)方法在一開(kāi)始時(shí)需要對(duì)矩陣的缺失值進(jìn)行填充,從而將一個(gè)稀疏矩陣轉(zhuǎn)化成一個(gè)稠密矩陣,然后進(jìn)行分解,然而,對(duì)高維稠密矩陣進(jìn)行分解的時(shí)間復(fù)雜度和空間復(fù)雜度都特別高。此外,常用的解決數(shù)據(jù)稀疏性問(wèn)題的方法還有主成分分析方法[9],通過(guò)主成分分析,降低矩陣的稀疏性,保留了最能代表用戶興趣的維度,提高了推薦的質(zhì)量,但該算法舍棄了部分用戶評(píng)價(jià)或用戶,不可避免的要損失一些有價(jià)值的信息。

本文為了解決數(shù)據(jù)稀疏性問(wèn)題,也是以矩陣分解為基礎(chǔ),提出了基于概率矩陣分解[10](Probabilistic Matrix Factorization,PMF)的方法,從概率的角度將用戶和項(xiàng)目的一些潛在信息映射到低維的特征空間,然后利用低維的特征向量的線性組合來(lái)解釋特定用戶對(duì)特定項(xiàng)目的喜好程度。此外,為了提高推薦速度,還加入了批處理模塊,使模型收斂更加穩(wěn)定,以得到用戶個(gè)性化的推薦。

1 問(wèn)題描述

其中用戶未評(píng)分的項(xiàng)目用0代替,推薦算法就是要預(yù)測(cè)出用戶未測(cè)評(píng)的項(xiàng)目。

1.1 矩陣分解

矩陣分解的思想是每一個(gè)用戶和每一個(gè)項(xiàng)目都有自己的一些特性,矩陣分解的方法可以從用戶評(píng)分矩陣中分解出用戶-特征矩陣,項(xiàng)目-特征矩陣。

1.2 基于用戶的協(xié)同過(guò)濾

基于用戶的協(xié)同過(guò)濾算法(CF-User)主要利用整個(gè)用戶-項(xiàng)目評(píng)分矩陣進(jìn)行推薦,尋找與目標(biāo)用戶相似度高的用戶,認(rèn)為目標(biāo)用戶與其有相同的愛(ài)好,將該用戶選擇的項(xiàng)目推薦給目標(biāo)用戶[11]。

該算法可以概括為兩步:

①計(jì)算用戶之間的相似度,構(gòu)造用戶相似度矩陣;

②采用相應(yīng)的算法估計(jì)評(píng)分,并據(jù)此為目標(biāo)用戶進(jìn)行推薦。

常用的相似度的計(jì)算方法有皮爾森相關(guān)系數(shù)[12]

(1)

余弦相似度[13]

(2)

按照相似度的大小進(jìn)行排序,選擇前k個(gè)用戶或者相似度大于指定閾值的用戶作為最近鄰居集N。通過(guò)計(jì)算目標(biāo)用戶x的最近鄰居集N來(lái)預(yù)測(cè)x未作評(píng)分的項(xiàng)目,具體方法如公式(3):

(3)

最終可以選擇預(yù)測(cè)分?jǐn)?shù)較高的前S個(gè)項(xiàng)目作為推薦結(jié)果。然而在一個(gè)系統(tǒng)中,用戶的數(shù)量是不斷發(fā)生變化的,此時(shí)基于用戶的協(xié)同過(guò)濾算法往往需要重新計(jì)算不同用戶間的相似度,更新用戶相似度矩陣,時(shí)間復(fù)雜度高,可擴(kuò)展性差。

1.3 基于項(xiàng)目的協(xié)同過(guò)濾算法

基于項(xiàng)目的協(xié)同過(guò)濾算法(CF-Item)通過(guò)用戶-項(xiàng)目評(píng)價(jià)數(shù)據(jù)建模,也是利用用戶-項(xiàng)目評(píng)價(jià)數(shù)據(jù)進(jìn)行推薦,計(jì)算不同項(xiàng)目之間的相似度,認(rèn)為用戶會(huì)喜歡同一類項(xiàng)目,將相似度較高的項(xiàng)目推薦給目標(biāo)用戶[14]。

該算法可以概括為兩步:

①計(jì)算項(xiàng)目之間的相似度,構(gòu)造項(xiàng)目相似度矩陣;

②采用相應(yīng)的算法估計(jì)評(píng)分,并據(jù)此將相似度較高的項(xiàng)目推薦給相關(guān)用戶。

構(gòu)造項(xiàng)目相似度矩陣的方法以及目標(biāo)用戶對(duì)項(xiàng)目預(yù)測(cè)評(píng)分的方法與基于用戶協(xié)同過(guò)濾的計(jì)算方法相類似。

基于項(xiàng)目的協(xié)同過(guò)濾算法同樣也存在著當(dāng)項(xiàng)目不斷變化時(shí),也要重新計(jì)算不同項(xiàng)目間的相似性,更新項(xiàng)目相似度矩陣,仍然存在著可擴(kuò)展性差、時(shí)間復(fù)雜度高等問(wèn)題。

2 基于概率矩陣分解的算法

(4)

其中,Iij為指示函數(shù),Iij=1表示用戶i對(duì)項(xiàng)目j進(jìn)行過(guò)評(píng)分,Iij=0表示用戶i對(duì)項(xiàng)目j未進(jìn)行過(guò)評(píng)分。

(5)

(6)

由公式(4)、(5)、(6)可得到U和V的聯(lián)合概率分布:

(7)

對(duì)U和V的概率分布取對(duì)數(shù)得:

(8)

求解公式(8)的最大值可等價(jià)替換為求帶正則化參數(shù)的誤差函數(shù)的最小值,如公式(9):

(9)

為了解出目標(biāo)函數(shù),本文采用隨機(jī)梯度下降法(SGD),這種算法通過(guò)對(duì)參數(shù)求導(dǎo)的方法來(lái)找到目標(biāo)函數(shù)的參數(shù)下降最快的方向,讓變量沿著這個(gè)方向不斷移動(dòng),直到移動(dòng)到極小值點(diǎn)。

對(duì)它求導(dǎo),可以發(fā)現(xiàn)每次迭代的時(shí)候,Ui和Vj的更新公式變成:

(11)

Ui←Ui+α×(e×Vj-λ×Ui)

(12)

Vj←Vj+α×(e×Ui-λ×Vj)

(13)

其中,α為隨機(jī)梯度下降的學(xué)習(xí)率。

此外,為了提高算法的推薦效率,加入了批處理模塊,對(duì)于實(shí)驗(yàn)中的90000條訓(xùn)練數(shù)據(jù),將其分成9個(gè)批次,每次處理10000條數(shù)據(jù),這樣很大程度上減少了模型訓(xùn)練的運(yùn)算量,同時(shí)也減小了對(duì)每條訓(xùn)練數(shù)據(jù)進(jìn)行計(jì)算時(shí)造成的模型收斂的不穩(wěn)定性。

基于概率矩陣分解的推薦算法如下:

輸入:訓(xùn)練集train_vec,測(cè)試集probe_vec

輸出:預(yù)測(cè)評(píng)分pred_out,平方根誤差RMSE

①設(shè)置正則化參數(shù),最大迭代次數(shù)maxepoch,分解維度f(wàn)eat

②生成電影數(shù)量(1682)feat和用戶數(shù)量(943)feat兩個(gè)標(biāo)準(zhǔn)正態(tài)分布矩陣

③if迭代次數(shù)epoch

④采用批處理,分為9個(gè)批次,每次處理10000條評(píng)分記錄,if批處理次數(shù)batch<9,

⑤計(jì)算損失函數(shù)p,根據(jù)負(fù)梯度方向不斷更新2)的兩個(gè)矩陣

⑥end

⑦讀入測(cè)試集,根據(jù)2的兩個(gè)矩陣計(jì)算測(cè)試集的預(yù)測(cè)評(píng)分,將大于5的評(píng)分替換為5,將小于1的評(píng)分替換為1

⑧計(jì)算RMSE

⑨end

3 實(shí)驗(yàn)實(shí)證與分析

3.1 實(shí)驗(yàn)環(huán)境

本文所涉及的實(shí)驗(yàn)均在DELL計(jì)算機(jī)上實(shí)現(xiàn),操作系統(tǒng)采用Windows7 32位,內(nèi)存為2G,處理器為AMDAthlon(tm)ⅡNeoK345Dual-CoreProcessor1.40GHz,本文提出的模型均在Matlab2012b平臺(tái)上用Matlab語(yǔ)言編寫實(shí)現(xiàn)。

3.2 數(shù)據(jù)集

本文將隨機(jī)選取90000條記錄作為訓(xùn)練集,剩余10000條記錄作為測(cè)試集。

3.3 度量標(biāo)準(zhǔn)

預(yù)測(cè)評(píng)分準(zhǔn)確度用來(lái)衡量算法計(jì)算出來(lái)的預(yù)測(cè)評(píng)分與用戶給出的真實(shí)評(píng)分之間的吻合程度,通過(guò)誤差來(lái)表示推薦結(jié)果是否符合用戶的需求。主要的評(píng)價(jià)指標(biāo)有平均絕對(duì)誤差(MAE)和平均方根誤差(RMSE)[15],而RMSE加大了對(duì)預(yù)測(cè)不準(zhǔn)的用戶項(xiàng)目評(píng)分的懲罰(平方項(xiàng)的懲罰),因而對(duì)推薦算法的評(píng)測(cè)更加苛刻。本文選用RMSE作為評(píng)價(jià)指標(biāo)。

RMSE通過(guò)計(jì)算預(yù)測(cè)的用戶評(píng)分與實(shí)際的用戶評(píng)分之間的偏差來(lái)度量預(yù)測(cè)的準(zhǔn)確性。推薦算法整體的RMSE越小,意味著推薦的質(zhì)量越高,算法的RMSE表示為公式(14):

(14)

3.4 實(shí)驗(yàn)結(jié)果分析

3.4.1 參數(shù)對(duì)實(shí)驗(yàn)結(jié)果的影響

由圖1可以看出,當(dāng)λ∈[0.05,0.1]時(shí),模型的平方根誤差明顯獲得了較低的誤差,在下面的實(shí)驗(yàn)中,統(tǒng)一取λ=0.1為最優(yōu)值。

3.4.2 分解維度和迭代次數(shù)對(duì)實(shí)驗(yàn)結(jié)果的影響

實(shí)驗(yàn)中動(dòng)態(tài)考慮分解維度和迭代次數(shù)的影響,分別取迭代次數(shù)為10、20、30、40、50,分解維度為2、5、10、15、20,實(shí)驗(yàn)結(jié)果如圖2所示。

由圖2可以看出,當(dāng)分解維度不變的情況下隨著迭代次數(shù)的增加,RMSE略有下降;當(dāng)?shù)螖?shù)不變的情況下分解維度先下降后又上升,在分解維度為5時(shí)取得最小的RMSE,因此迭代次數(shù)為50次,分解維度為5時(shí),RMSE取得最小值。

3.4.3 不同算法預(yù)測(cè)準(zhǔn)確度的比較

為了驗(yàn)證PMF算法預(yù)測(cè)準(zhǔn)確度的實(shí)際效果,將其與傳統(tǒng)的基于用戶和基于項(xiàng)目的協(xié)同過(guò)濾算法進(jìn)行比較,分別選取鄰居個(gè)數(shù)為10、20、30、40、50,實(shí)驗(yàn)結(jié)果如圖3所示。

由圖3可以看出,隨著鄰居個(gè)數(shù)的增加,CF-User和CF-Item算法的RMSE均有所上升,CF-Item算法的RMSE要低于CF-User算法,而PMF算法相比于其他兩種算法在不同的鄰居個(gè)數(shù)的情況下均能獲得較低的RMSE值,由此也證明了PMF算法確實(shí)能提高推薦算法的預(yù)測(cè)準(zhǔn)確度。

3.4.4 數(shù)據(jù)稀疏性對(duì)實(shí)驗(yàn)結(jié)果的影響

為了驗(yàn)證PMF算法的抗稀疏性的效果,下面將分為4組對(duì)比實(shí)驗(yàn),查看數(shù)據(jù)越來(lái)越稀疏的情況下,PMF算法和CF算法的推薦效果,實(shí)驗(yàn)結(jié)果如圖4所示。

*注:①將數(shù)據(jù)集中訓(xùn)練集隨機(jī)取80000條作為訓(xùn)練集,測(cè)試集保持不變;②將數(shù)據(jù)集中訓(xùn)練集隨機(jī)取70000條作為訓(xùn)練集,測(cè)試集保持不變;③將數(shù)據(jù)集中訓(xùn)練集隨機(jī)取60000條作為訓(xùn)練集,測(cè)試集保持不變;④將數(shù)據(jù)集中訓(xùn)練集隨機(jī)取50000條作為訓(xùn)練集,測(cè)試集保持不變由圖4可以看出,隨著數(shù)據(jù)越來(lái)越稀疏,三種算法的RMSE都略有上升,但PMF算法的RMSE始終低于CF-Item和CF-User算法,有著更好的抗稀疏性。

3.4.5 可擴(kuò)展性對(duì)實(shí)驗(yàn)結(jié)果的影響

將實(shí)驗(yàn)數(shù)據(jù)集由原來(lái)的943個(gè)用戶對(duì)1682部電影的100000條評(píng)價(jià)記錄擴(kuò)展到6040個(gè)用戶對(duì)3952部電影的1000209條評(píng)價(jià)記錄,各個(gè)算法所需的時(shí)間如表1所示。

表1 三種算法的時(shí)間比較

由表1可以看出,由于用戶和項(xiàng)目的數(shù)量發(fā)生變化,傳統(tǒng)的協(xié)同過(guò)濾算法需要重新計(jì)算用戶相似矩陣和項(xiàng)目相似矩陣,花費(fèi)大量的時(shí)間,CF-User所需的時(shí)間幾乎是PMF算法的100倍,而CF-Item則是PMF算法的125倍,該實(shí)驗(yàn)表明PMF在算法擴(kuò)展性方面明顯優(yōu)于傳統(tǒng)的協(xié)同過(guò)濾算法。

4 結(jié)語(yǔ)

伴隨著信息大爆炸的背景,越來(lái)越多的研究者開(kāi)始關(guān)注推薦算法,但是傳統(tǒng)的推薦算法依然存在著一些不足,如算法的可擴(kuò)展性低、抗稀疏性差等問(wèn)題,針對(duì)這些問(wèn)題,本文提出了基于概率矩陣分解的推薦算法,在MovieLens數(shù)據(jù)集下,對(duì)提出的算法和傳統(tǒng)的協(xié)同過(guò)濾算法進(jìn)行了對(duì)比分析。實(shí)驗(yàn)表明,基于概率矩陣分解的推薦算法能夠有效的緩解這些問(wèn)題,同時(shí)提高了推薦的準(zhǔn)確度。但PMF算法包含了太多的人為經(jīng)驗(yàn)參數(shù),在以后的工作中,將考慮使用貝葉斯矩陣分解來(lái)研究推薦問(wèn)題。

[1] ADOMAVICIUS.G,TUZHILIN.A.Toward the Next Generation of Recommender Systems:A Survey of the State-of-the-Art and Possible Extensions[J].IEEE Transactions on knowledge and Data Engineering,2005,17(17):734-749.

[2] 楊博,趙鵬飛.推薦算法綜述[J].山西大學(xué)學(xué)報(bào)(自然科學(xué)版),2011,34(3):337-350.

[3] 陳潔敏,湯庸,李建國(guó),等.個(gè)性化推薦算法研究[J].華南師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2014(5):8-15.

[4] 鄧愛(ài)林,左子葉,朱揚(yáng)勇.基于項(xiàng)目聚類的協(xié)同過(guò)濾推薦算法[J].小型微型計(jì)算機(jī)系統(tǒng),2004,25(9):1665-1670.

[5] 李海霞.基于蟻群聚類的電子商務(wù)個(gè)性化推薦算法研究[D].山東:山東師范大學(xué),2014.

[6] SARWAR BM,KARYPIS G,KONSTAN JA,et al.Application of dimensionality reduction in recommender system-A case study[C].ACM WebKDD 2000 Workshop,2000.

[7] 何佳知.基于內(nèi)容和協(xié)同過(guò)濾的混合算法在推薦系統(tǒng)中的應(yīng)用研究[D].上海:東華大學(xué),2016.

[8] BILLSUS D,PAZZANI MJ.Learning Collaborative Information Filters[C].ICML.1998,98:46-54.

[9] 李遠(yuǎn)博,曹菡.基于PCA降維的協(xié)同過(guò)濾推薦算法[J].計(jì)算機(jī)技術(shù)與發(fā)展,2016(2):26-30.

[10] MNIH A,SALAKHUTDINOV R. Probabilistic matrix factorization[C].Advances in Neural Information Processing Systems.2007:1257-1264.

[11] 熊海濤.面向復(fù)雜數(shù)據(jù)的推薦分析研究[M].北京:北京理工大學(xué)出版社,2015.

[12] RESNICK P,IAKOVOU N,SUSHAK M,et al.GroupLens:An open Architecture for Collaborative Filtering of Netnews[C].Process of the 1994 Computer Supported Cooperative Work Conference,1994:175-186.

[13] BREESE JS,HECKERMAN D,KADIE C.Empirical Analysis of Predictive Algorithms for Collaborative Filtering[C].Process of the 14th Coference on Uncertainty in Artificial Intelligence,1998:43-52.

[14] DUECK D,FREY B.Probabilistic sparse matrix factorization[J].University of Toronto,Toronto:Technical Report:PSI-2004-23,2004.

[15] RICCI F,ROKACHL,SHAPIRA B,et al.Recommender system hand-book[M].[S.l.]:Springer,2011.

[16] 張航,葉東毅.一種基于多正則化參數(shù)的矩陣分解推薦算法[J].計(jì)算機(jī)工程與應(yīng)用,2017,53(3):74-79.

[責(zé)任編輯、校對(duì):周 千]

A Recommendation Algorithm Based on Probabilistic Matrix Factorization

ZHANGBian

(College of Information Engineering,Lanzhou University of Finance and Economics,Lanzhou 730000,China)

In this paper,we propose a probabilistic matrix factorization recommendation algorithm based on stochastic gradient descent to solve the problem of poor scalability and data sparsity.This algorithm is to generate two random number matrices with Gaussian distribution,which are then continuously trained and updated to make their inner product close to user rating matrix.In order to avoid over-fitting the training data,the regularization constraint is applied,and the model is optimized through the batch process of stochastic gradient descent.Data from experiment on the MovieLens show that the proposed algorithm not only relieves the problem of poor scalability and data sparsity,but also improves the accuracy compared with the traditional collaborative filtering algorithm.

recommendation algorithm;collaborative filtering;probabilistic matrix factorization;stochastic gradient descent

2017-02-21

張昪(1994-),女,山西臨汾人,碩士研究生,主要從事數(shù)據(jù)挖掘個(gè)性化理論與方法研究。

TP301.6

A

1008-9233(2017)03-0078-06

猜你喜歡
可擴(kuò)展性聚類協(xié)同
蜀道難:車與路的協(xié)同進(jìn)化
“四化”協(xié)同才有出路
汽車觀察(2019年2期)2019-03-15 06:00:50
基于DBSACN聚類算法的XML文檔聚類
恩智浦推出全新i.MX 8X 處理器,為工業(yè)應(yīng)用帶來(lái)更高的安全性、可靠性和可擴(kuò)展性
汽車零部件(2017年3期)2017-07-12 17:03:58
電力監(jiān)控軟件的可擴(kuò)展性設(shè)計(jì)
三醫(yī)聯(lián)動(dòng) 協(xié)同創(chuàng)新
基于微軟技術(shù)的高可擴(kuò)展性中小企業(yè)系統(tǒng)解決方案研究
構(gòu)建高可擴(kuò)展性的物流裝備管理系統(tǒng)
基于改進(jìn)的遺傳算法的模糊聚類算法
一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
南城县| 南平市| 沅江市| 昔阳县| 桓台县| 乐安县| 烟台市| 伊通| 宣化县| 屏边| 黔西县| 宣汉县| 井冈山市| 左权县| 中牟县| 安龙县| 开江县| 咸阳市| 扶风县| 彰化县| 印江| 宁安市| 兴国县| 龙口市| 锦州市| 磴口县| 赫章县| 漳浦县| 三门县| 山西省| 泾源县| 曲靖市| 航空| 济阳县| 策勒县| 浙江省| 教育| 黄浦区| 灯塔市| 桦甸市| 于田县|