国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種改進的協(xié)同過濾推薦算法

2020-01-15 01:16:36李昆侖戎靜月蘇華仃
河北大學學報(自然科學版) 2020年1期
關鍵詞:皮爾森冷啟動聚類

李昆侖,戎靜月,蘇華仃

(河北大學 電子信息工程學院,河北 保定 071000)

近年來隨著云計算、大數(shù)據(jù)、互聯(lián)網(wǎng)的快速發(fā)展,電商也隨之發(fā)展起來并得到了用戶的認可和應用.隨著電商用戶及商品數(shù)目的增多,為了使用戶在大量的商品中快速、方便地找到符合自己需求的項目,同時電商將用戶需要的項目推薦給用戶,許多學者進行了相關的研究,個性化推薦系統(tǒng)[1]應運而生.推薦算法是推薦系統(tǒng)中最重要的部分,算法的優(yōu)劣直接影響推薦效果的好壞.傳統(tǒng)的推薦算法已經(jīng)很難滿足用戶的個性化需求,目前主要的推薦算法有協(xié)同過濾推薦算法[2]、基于內(nèi)容的推薦算法[3]、基于關聯(lián)規(guī)則的推薦算法[4-5]、混合推薦算法[6]等.其中協(xié)同過濾推薦算法不需要考慮具體推薦內(nèi)容,技術上易于實現(xiàn),所以應用最為廣泛.但是也面臨著一些難以解決的問題,比如數(shù)據(jù)缺失引起的數(shù)據(jù)稀疏性問題[7]、新用戶加入引起的冷啟動問題[8-9]、用戶興趣變化引起的用戶興趣漂移[10]等問題.

基于用戶的協(xié)同過濾推薦算法主要是根據(jù)用戶的歷史評分數(shù)據(jù),用已評分的數(shù)據(jù)計算用戶相似度產(chǎn)生近鄰集,從而產(chǎn)生推薦.隨著電商項目的迅速增加,推薦系統(tǒng)中用戶和產(chǎn)品的數(shù)量持續(xù)增加,用戶購買量及評分數(shù)的增長遠遠比不上電商項目的增長速度,當用戶和產(chǎn)品數(shù)量達到千萬或更多時,U-I(用戶對產(chǎn)品的評分) 矩陣將變得十分龐大.然而,推薦系統(tǒng)中每個用戶對產(chǎn)品的評價是有限的,因此U-I 矩陣十分稀疏,從而產(chǎn)生數(shù)據(jù)稀疏性問題[11].在個性化推薦系統(tǒng)中,用戶對產(chǎn)品的喜好程度通常可以由其對歷史產(chǎn)品的評價信息來反映.面對稀疏的評估數(shù)據(jù),推薦系統(tǒng)難以準確地判斷用戶偏好.

針對數(shù)據(jù)稀疏性問題,傳統(tǒng)的解決方案是用現(xiàn)有數(shù)據(jù)的均值填充缺失的數(shù)據(jù)[12],但是這會給預測結果帶來很大誤差,進而影響推薦系統(tǒng)的推薦精度.對此文獻[13]提出的改進的算法中加入了用戶興趣相似性和評分相似性;文獻[14]給用戶的屬性分配權重加入到相似度的計算當中,提出了一種基于用戶多屬性的協(xié)同過濾算法;文獻[15]將用戶屬性、用戶興趣與傳統(tǒng)的相似度相結合,調(diào)整不同的權重,通過動態(tài)選擇近鄰集的方法來降低數(shù)據(jù)稀疏性.上述方法都是通過加入一些新的因素,調(diào)整不同因素所占的比例,與傳統(tǒng)相似度相結合來提高推薦精度,雖然數(shù)據(jù)稀疏性在一定程度上得到了緩解,但是計算量卻明顯增大.

另一方面,冷啟動問題也會引起推薦系統(tǒng)推薦精度差的問題.冷啟動問題包括用戶冷啟動問題和項目冷啟動問題[16].用戶的冷啟動是針對推薦系統(tǒng)的新用戶,他們對有些產(chǎn)品的評價記錄很少甚至沒有,該推薦系統(tǒng)無法從少量的評價數(shù)據(jù)中獲得新用戶的興趣愛好,因此無法準確推薦.項目冷啟動意味著當新項目添加到系統(tǒng)時,很少被用戶選中甚至沒有.針對這些新項目,系統(tǒng)很難找到合適的辦法來準確向用戶推薦.由于本文主要針對基于用戶的協(xié)同過濾推薦算法,主要研究用戶冷啟動.針對冷啟動問題,目前解決冷啟動問題的方法很多,常用的方法主要包括以下3個方面:1)向新用戶隨機推薦或推薦熱門產(chǎn)品[17].隨機推薦之后,根據(jù)用戶的反饋不斷改進用戶的偏好模型,與此同時可能給用戶推薦的產(chǎn)品用戶都不喜歡,這樣會降低用戶對系統(tǒng)的信任度.隨機推薦的改進是向用戶推薦熱門產(chǎn)品,但仍然無法做到個性化推薦;2)傳統(tǒng)協(xié)同過濾的改進方法[18],對用戶或產(chǎn)品間相似性度量方法的改進;3)結合機器學習的方法[19].對此文獻[20]提出加入用戶的注冊信息,利用用戶的注冊信息進行推薦.文獻[21]提出利用用戶的社交網(wǎng)絡賬號,對新用戶推薦其好友喜歡的物品.由于涉及用戶隱私,數(shù)據(jù)獲取并不容易實現(xiàn).

針對數(shù)據(jù)稀疏性和用戶冷啟動問題,本文首先通過改進的填充方式填充原有的稀疏數(shù)據(jù),充分利用有評分的數(shù)據(jù),避免了一個或幾個用戶對數(shù)據(jù)填充的不準確,提高了填充精度.然后在相似度的計算中加入用戶的屬性,如年齡、性別、職業(yè)、郵編,這樣可以避免新用戶的加入造成的冷啟動問題.實驗結果表明,與傳統(tǒng)方法相比,該方法具有更高的推薦精度.

1 推薦系統(tǒng)中常用的相似性計算方法及評分預測方法

傳統(tǒng)的基于用戶的推薦算法中最重要的工作是尋找到目標用戶的近鄰集[22],通過近鄰用戶向目標用戶進行商品推薦,因此近鄰用戶的尋找精度將直接影響推薦效果.近鄰用戶是通過相似度的計算來確定的,將相似度按照由大到小的順序排列,取前N個用戶得到目標用戶的近鄰集.推薦算法大致可分為3步:1)獲取用戶-項目評分矩陣,對其數(shù)據(jù)進行預處理;2)通過用戶/項目之間的相似度獲得目標用戶的最相似近鄰用戶集;3)根據(jù)所有近鄰用戶對目標項目的評分,來預測目標用戶對目標項目的評分從而進行推薦.

1.1 常用相似度計算方法

相似度計算是尋找近鄰用戶的關鍵,相似度計算主要包括余弦相似度、修正的余弦相似度、皮爾森相關系數(shù)、各種距離相似度等.

1.1.1 余弦相似度

余弦相似度主要是通過計算2個向量的夾角來判斷其相似性,又稱為夾角余弦[23],取值在-1~1,夾角余弦越大,表示2個向量的夾角越小,則其相似程度越高.具體的計算公式如下:

(1)

1.1.2 修正余弦相似度

余弦相似度沒有考慮用戶的評分尺度的影響,即有些用戶對所有項目的評分相對較高,而有些用戶要求嚴格對所有項目的評分相對較低,例如(5,5,5)和(1,1,1)的余弦相似度值為1,2個向量將會非常相似,但實際情況恰好相反.因此提出修正的余弦相似度,將用戶的平均評分引入計算公式,減少評分尺度的影響,具體計算公式如下[24]:

(2)

1.1.3 皮爾森相關系數(shù)

皮爾森相關系數(shù),又稱為相關相似性,需要找到2個用戶共同評過分的項目,然后計算其相關性[25],計算公式如下:

(3)

1.1.4 距離相似度

前面介紹的余弦相似度主要關注向量方向的差異度,而距離相似度關注2個點的距離,距離越近相似度越大.距離包括歐式距離、曼哈頓距離、切比雪夫距離、閔可夫斯基距離、馬氏距離等,因為距離和相似度大致成反比.距離相似度公式如下:

(4)

1.2 常用評分預測方法

根據(jù)相似度確定目標的近鄰用戶之后,需要通過近鄰用戶對目標項目的評分進行評分預測,評分預測方法有平均評分法、加權平均評分法、偏移的加權平均評分法.

1.2.1 平均評分法

平均評分法是根據(jù)近鄰用戶對目標項目所有評分的均值直接作為目標用戶對目標項目的評分[26].設近鄰用戶為U=(u1,u2,…,um),項目為I=(i1,i2,…,in),具體公式如下:

(5)

1.2.2 加權平均評分法

平均評分法將所有近鄰集中的用戶評分數(shù)據(jù)取均值作為目標評分,但是忽略了相似度權重的影響,與目標用戶相似度越高,評分預測的結果越準確,所以加權的平均評分法引入相似度的權重,s(u,k)為目標用戶u與近鄰用戶k的相似度[27],具體公式如下:

(6)

1.2.3 偏移的加權平均評分法

(7)

2 傳統(tǒng)推薦算法中幾個關鍵部分的改進

針對傳統(tǒng)的協(xié)同過濾推薦算法進行優(yōu)化,對原始數(shù)據(jù)集進行預處理,將評分數(shù)目遠小于項目數(shù)目的數(shù)據(jù)過濾掉,進行初步降維.由于數(shù)據(jù)的稀疏性問題,需對數(shù)據(jù)集中缺失的數(shù)據(jù)部分進行填充,根據(jù)用戶評分習慣進行層次聚類,并將用戶基本信息和共同評分項所占的比值作為計算相似度的權重.通過 Slope-one[29]算法計算前k個最相似用戶對缺失數(shù)據(jù)的填充值,同時加入相似度權重得到最終填充值.針對填充后的數(shù)據(jù),首先在傳統(tǒng)相似度的基礎上,加入用戶基本信息作為相似度的權重,其次通過Sigmoid函數(shù)引入用戶項目評分的時間戳對相似度的影響,獲得目標用戶的最近鄰集,最后利用改進后的相似度對目標用戶進行推薦.

2.1 相似度計算

用戶相似度是尋找近鄰用戶集的依據(jù),傳統(tǒng)的相似度計算方式是以用戶具有相同的興趣為前提,僅通過用戶對項目的評分來計算相似度,不考慮不同用戶的屬性,如性別、年齡、職業(yè)等對用戶相似度造成的影響,由此得到的用戶相似度準確度不高.本文基于傳統(tǒng)的相似度計算方式,首先加入編碼后的用戶信息求得歐氏距離,其次引入指數(shù)函數(shù)作為相似度的用戶信息權重,針對時間改變造成用戶興趣漂移的問題,加入評分時間戳的影響,最后引入 Sigmoid 函數(shù)作為時間戳的函數(shù),表明評分時間越相近,用戶的相似度越高,權重越大.

函數(shù)表達式為

(8)

傳統(tǒng)的相似性用皮爾森相關系數(shù)

(9)

改進后的相似度計算公式

(10)

β=e-Db(u,v),

(11)

(12)

其中Db(u,v)是對用戶性別、年齡、職業(yè)編碼后計算的歐式距離,ru,b為對用戶u的信息進行編碼后的向量,β表示用戶信息所占的權重,s(u,i)為用戶u對項目i的評分時間戳所占的權重大小,評分時間越相近評分權重越大,則相似度越高,sim(u,k)為最終相似度的計算公式,ru,i為用戶u對項目i的評分.

加入用戶屬性和時間戳的相似度,可以在一定程度上減少新用戶加入造成的冷啟動問題,使得推薦效果更佳準確.

2.2 數(shù)據(jù)填充

由于用戶-項目評分數(shù)據(jù)稀疏性問題,在計算相似度尋找近鄰用戶會產(chǎn)生很大誤差,造成推薦效果不佳,因此將評分數(shù)目遠小于項目數(shù)目的數(shù)據(jù)進行過濾、刪除,然后對缺失的數(shù)據(jù)進行填充,傳統(tǒng)填充方式雖然完成了對缺失數(shù)據(jù)的填充,但推薦效果并沒有明顯改善,對此本文在傳統(tǒng)填充方式上,引入用戶屬性和相似度權重,利用 Slope-one 算法對填充算法進行改進.

根據(jù)用戶對項目的評分信息,利用層次聚類,對用戶數(shù)據(jù)進行聚類.根據(jù)用戶對項目評分均值分成3類,即評分均值大于4的用戶,均值小于2的用戶,均值在2~4的用戶,分別用Uo、Up、Un表示3個類別,分別代表積極、消極、中立態(tài)度的用戶群體.

聚類過程如下:

分別對聚類后的每個簇進行缺失值的填充,對數(shù)據(jù)進行降維、減少計算量的效果.填充之前首先計算需要填充的用戶和在同一個簇中其他用戶的相似度,然而傳統(tǒng)的相似度計算方式是利用評分數(shù)據(jù)計算歐氏距離,當新加入的用戶沒有評分信息時,無法計算距離,對此本文引入用戶的基本信息來計算相似度.

對用戶信息進行 One-hot編碼和LabelEncoder編碼,利用編碼后的用戶信息,基于歐氏距離計算相似度,同時加入共同評分項作為權重,獲得相似度值.利用Slope-one算法計算前m個用戶對缺失值的填充數(shù)據(jù),并加入相似度的權重獲得最終填充數(shù)值.通過設定相似度閾值,來篩選出相似度高的用戶,過濾掉相似度低的用戶.如果閾值過小,會降低填充精度,如果閾值過大,會導致計算量增大,因此,需要多次反復實驗,在保證合理的計算量的前提下,盡可能提高填充精度,確定最終的閾值m.

Slope-one算法原本是計算不同項目之間的評分差的一種線性算法,根據(jù)用戶對某個項目的評分預測另一個項目的評分.本文利用Slope-one算法的思想,通過用戶a、b的平均評分差,及用戶a對項目I的評分,計算對項目I無評分的用戶b的填充數(shù)據(jù).具體計算公式如下:

(13)

Pbi=rai-R(a,b),

(14)

其中,R(a,b)為用戶a、b對所有共同評分項目的平均評分差;N(a)為a用戶評過分的項目;N(b)為b用戶評過分的項目;N(a)∩N(b)是a、b均評過分的項目集合;rai為用戶a對項目i的評分,rbi為用戶b對項目i的評分;|N(a)∩N(b)|是a、b均評過分的項目數(shù).Pbi是用戶b對項目i評分的填充數(shù)據(jù),rai為用戶a對項目i的評分.

各缺失值的填充計算公式如下:

(15)

(16)

simab=Db(u,v)×αu,v,

(17)

(18)

(19)

其中Db(u,v)為編碼后的歐式距離,rb,u,i為用戶u的信息編碼與對項目i的評分組成的向量,αu,v為共同評分項所占的權重,simab為用戶a與用戶b加入用戶信息和共同評分項后的相似度,Pbj為用戶b對項目j的缺失值的填充值,Poj為最終的填充值.

由以上分析可知,根據(jù)用戶評分習慣對用戶進行層次聚類,達到了初步降維的效果,并且聚類后求相似度的準確度有所提高.在計算相似度時加入用戶的基本信息,改善了冷啟動的影響.加入共同評分項的權重,進一步提高了相似度的準確度.通過均值填充,減少評分尺度的影響,并且加入相似度權重,提高了填充值的精度,從而能更準確地推薦.

算法如下.

Step1:引入用戶性別、年齡、職業(yè)這些基本信息.對用戶進行層次聚類,最后得到3種不同的用戶群體;

Step2:對不同的用戶群體運用公式(17)計算要填充的用戶與其他用戶的相似度,按從大到小取前m個值,組成一個近鄰用戶集;

Step3:通過公式(18),利用上述集合中的向量對目標向量進行缺失值的初步填充;

Step4:引入相似度權重,對目標向量進行最終的缺失值填充;

Step5: 重復步驟1、2、3、4,直到數(shù)據(jù)集填充完畢.

2.3 評分預測

通過相似度的計算得到了目標用戶的近鄰用戶集U=(u1,u2,…,um),根據(jù)每個近鄰用戶對目標項目的評分利用填充公式 (18)和(19)對目標項目進行評分預測,第k個近鄰用戶對第i個目標用戶的預測結果為rk,i,然后利用預測公式(20)對最終的目標項目進行預測評分,然后循環(huán)此步驟,直到對所有的目標項目評分完成預測,最終形成推薦.

最后根據(jù)改進的相似度的計算方法,用TopN取前N個最相似的用戶進行推薦.

(20)

3 實驗結果與分析

首先簡單介紹本文涉及到的實驗環(huán)境和選取的數(shù)據(jù)集以及實驗的評價指標,然后根據(jù)該數(shù)據(jù)集將本文所提出的方法和改進前的方法進行對比分析.原始數(shù)據(jù)的稀疏度是0.891 6,經(jīng)過2次實驗,其中第1次實驗的數(shù)據(jù)稀疏度是0.888 2,第2次是0.892 5.

3.1 實驗環(huán)境和數(shù)據(jù)集介紹

實驗使用的計算機的配置是Intel Core i5-7200的CUP,8GB運行內(nèi)存,Windows 10家庭中文版64位操作系統(tǒng),編程語言使用Python語言,版本為Python3.6,編輯器用的是Jupyter Notebook.

本實驗采用的是由Minnesota大學GroupLens研究小組提供的100 K的MovieLens數(shù)據(jù)集,它還有1 m、20 m等幾個版本.數(shù)據(jù)集主要包含2部分數(shù)據(jù):1)用戶對項目的評分數(shù)據(jù),該數(shù)據(jù)集包含943個用戶,1 682部項目,100 000條評分數(shù)據(jù),評分為1~5分,且每個用戶項目評分次數(shù)不少于20次.2)用戶基本屬性數(shù)據(jù),該數(shù)據(jù)集包含用戶的性別、年齡、職業(yè)、郵編的基本信息.本次實驗采用2次5折交叉驗證,分別計算系統(tǒng)的MAE值,得到最終的實驗結果.

3.2 實驗評價指標

目前推薦算法性能的評價指標主要有平均絕對誤差(MAE)、均方誤差(MSE)、查全率、查準率、F1-score等.此系統(tǒng)采用平均絕對誤差MAE作為評價指標,MAE為預測值和真實值之差,表明其值越小,則預測的結果越準確.假設推薦系統(tǒng)對項目的預測評分集合為{r1,r2,r3,…,rn},項目的實際評分為{p1,p2,p3,…,pn},則用戶MAE值可以用式(21)表示

(21)

系統(tǒng)的MAE可以用式(22)表示

(22)

3.3 實驗結果與分析

3.3.1 第1輪實驗結果

圖1描述的是聚類前后,均采用改進的填充方式進行填充,用皮爾森系數(shù)計算相似性時系統(tǒng)的MAE值隨近鄰用戶取值的變化曲線.其中NCUFP曲線為聚類前系統(tǒng)的MAE曲線,CUFP曲線為聚類后系統(tǒng)的MAE曲線,從圖1中可以看到,訓練集經(jīng)過聚類后系統(tǒng)的MAE值隨近鄰用戶的變化趨勢比較平緩,并且整體比聚類前的MAE值低,這樣可以選擇少量的近鄰用戶,降低系統(tǒng)的成本,并且通過聚類,降低了數(shù)據(jù)的維度,大大減少了計算量.當近鄰用戶數(shù)在200~400時,在計算量少和系統(tǒng)成本低的前提下,系統(tǒng)的MAE值趨于最低,當相似用戶大于400時,聚類效果不太明顯,但系統(tǒng)的成本和計算量會增加,所以選擇近鄰用戶數(shù)為350,通過聚類得到的模型最佳.

圖2描述的是不對用戶進行聚類,分別用均值填充和改進填充進行填充,并且用皮爾森系數(shù)和改進的皮爾森系數(shù)求相似度得到的系統(tǒng)的MAE隨近鄰用戶的變化曲線的對比圖.NC-MFPS曲線代表用均值填充,皮爾森計算相似性得到的系統(tǒng)MAE曲線,NC-UFPS曲線代用改進填充方式填充,用皮爾森計算相似性得到的系統(tǒng)MAE曲線;NC-FUPS曲線代表用改進填充方式填充,改進的皮爾森相似度計算相似性,得到的系統(tǒng)MAE曲線.

圖1 聚類前后的MAE值對比

圖2 不聚類改進填充相似度MAE值對比

針對圖2中的NC-MFPS和NC-UFPS曲線的對比,可以得出通過改進后的填充方式比均值填充方式,在相同的相似度計算條件下,系統(tǒng)的MAE值明顯降低了;針對NC-UFPS和NC-FUPS的曲線對比,可以得到通過改進后的方式計算相似度尋找近鄰用戶,系統(tǒng)的MAE值到在近鄰用戶取150~750時低于改進前的MAE.由于改進相似度的計算方式后得到的近鄰用戶更精確了,從而降低了系統(tǒng)的誤差.由NC-FUPS曲線,可以看出當近鄰用戶在300~400的時候系統(tǒng)的MAE值最低.所以在選擇合適的近鄰用戶的數(shù)量下,改進后的方式的推薦性能更優(yōu).同時,改進后的方式加入了用戶的基本信息,更利于改善冷啟動問題.

圖3描述的是對用戶進行聚類,分別用均值填充、改進填充進行填充,并且用皮爾森系數(shù)和改進的皮爾森系數(shù)求相似度得到的系統(tǒng)的MAE隨近鄰用戶的變化曲線的對比圖.MFPS曲線代表用均值填充,皮爾森計算相似性得到的系統(tǒng)MAE曲線,用MFPS表示;UFPS曲線代表用用改進填充方式填充,用皮爾森計算相似性得到的系統(tǒng)MAE曲線,用UFPS表示;FUPS曲線代表用改進填充方式填充,改進的皮爾森相似度計算相似性,得到的系統(tǒng)MAE曲線,用FUPS表示.

圖3整體可以看出聚類后的系統(tǒng)MAE隨近鄰用戶的增加變化不大,改進填充方式和相似度計算后明顯降低了系統(tǒng)的MAE. 從圖3中的MFPS和UFPS曲線的對比圖,可以得到,通過改進填充之后系統(tǒng)的MAE值比改進前明顯降低了,通過UFPS和FUPS的曲線對比,可以得到通過改進后的方式計算相似度尋找近鄰用戶,系統(tǒng)的MAE值低于改進前的MAE,由于改進相似度的計算方式后得到的近鄰用戶更精確了,從而降低了系統(tǒng)的誤差.由FUPS曲線,可以看出當近鄰用戶在350~450的時候系統(tǒng)的MAE值最低.

圖4描述的是對數(shù)據(jù)進行填充時,聚類前后系統(tǒng)的MAE值隨填充選取的近鄰用戶的變化曲線.

圖3 聚類后改進填充相似度MAE值對比

圖4 聚類前后填充選取不同近鄰用戶MAE值對比

由圖4可以看出通過聚類,系統(tǒng)的MAE值隨近鄰用戶的波動比較平緩.并且通過2條曲線的對比,在近鄰用戶小于80時,通過聚類系統(tǒng)的MAE值要小于改進之前系統(tǒng)的MAE值.由此得到根據(jù)用戶屬性聚類降低了系統(tǒng)的MAE,提升了系統(tǒng)精度.實驗過程中聚類最小的用戶數(shù)是80,當近鄰用戶大于80之后聚類前后效果相差不大.

3.3.2 第2輪預測結果

經(jīng)過第2次交叉驗證實驗,同樣得到4個圖,分別是圖5、圖6、圖7、圖8.同樣得到用改進聚類、改進填充、改進相似度計算方式的方法得到不同系統(tǒng)的MAE值隨近鄰用戶的變化曲線.

圖5 聚類前后的MAE值對比

圖6 不聚類改進填充相似度MAE值對比

通過對比實驗1與實驗2的結果,發(fā)現(xiàn)在選取相同近鄰用戶時實驗2系統(tǒng)的MAE值要高于實驗1系統(tǒng)的MAE值.由于對數(shù)據(jù)進行預處理后,第1次實驗的數(shù)據(jù)稀疏度是0.888 2,第2次是0.892 5,第2次實驗的稀疏度要高于第1次實驗,可以得到,數(shù)據(jù)越稀疏,系統(tǒng)的MAE值越大,因此通過改進填充方式,降低數(shù)據(jù)的稀疏度尤為重要.

圖7 聚類后改進填充相似度MAE值對比

圖8 聚類前后填充選取不同近鄰用戶MAE值對比

4 結論

針對傳統(tǒng)推薦算法在數(shù)據(jù)稀疏情況下存在的問題提出了一種改進的協(xié)同過濾推薦算法,首先針對數(shù)據(jù)缺失引起的數(shù)據(jù)稀疏性問題,該算法通過加入用戶屬性的影響,對填充方式進行了相應的改進并對數(shù)據(jù)進行填充,在一定程度上緩解了數(shù)據(jù)稀疏性帶來的影響;其次針對相似度計算不準確導致推薦精度降低的問題,在傳統(tǒng)相似度計算的基礎上,加入用戶基本屬性和時間戳的影響,對相似度進行了相應的改進.經(jīng)過實驗驗證,本算法提高了推薦的準確性,并且減少了冷啟動給系統(tǒng)帶來的影響,提高了系統(tǒng)的可擴展性.

猜你喜歡
皮爾森冷啟動聚類
輕型汽油車實際行駛排放試驗中冷啟動排放的評估
基于學習興趣的冷啟動推薦模型
客聯(lián)(2021年2期)2021-09-10 07:22:44
基于DBSACN聚類算法的XML文檔聚類
電子測試(2017年15期)2017-12-18 07:19:27
基于改進的遺傳算法的模糊聚類算法
一種層次初始的聚類個數(shù)自適應的聚類方法研究
數(shù)字翹楚皮爾森:忍過100多次整形的女軍人
有夢的青春不易“殘”
軍事技能“冷啟動”式訓練理念初探
自適應確定K-means算法的聚類數(shù):以遙感圖像聚類為例
使用冷啟動液須知
泰兴市| 平原县| 耒阳市| 巴东县| 贵溪市| 黑山县| 钟山县| 诸城市| 巩留县| 武宁县| 三穗县| 黎城县| 上杭县| 沾化县| 华容县| 五华县| 蓬莱市| 建昌县| 磐安县| 亳州市| 磴口县| 从江县| 晋江市| 武川县| 牟定县| 额敏县| 邻水| 灵石县| 临武县| 临汾市| 灵山县| 托克逊县| 屏南县| 巴里| 民勤县| 鹰潭市| 巴青县| 洛浦县| 叙永县| 东明县| 嘉义市|