国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于專家動(dòng)態(tài)生成的協(xié)同過(guò)濾推薦算法

2020-04-09 06:36賈彭慧劉鑫一孔亞斌郗佳林
關(guān)鍵詞:指標(biāo)值精確性物品

賈彭慧,劉鑫一,孔亞斌,郗佳林

(長(zhǎng)安大學(xué) 信息工程學(xué)院,陜西 西安 710064)

0 引 言

信息技術(shù)和互聯(lián)網(wǎng)的高速發(fā)展使人們逐漸進(jìn)入了信息過(guò)載的時(shí)代[1]。推薦系統(tǒng)[2]因其可以根據(jù)用戶需求和歷史行為主動(dòng)為用戶提供個(gè)性化服務(wù)而成為解決這一問(wèn)題的有效手段。

按照組成部分,推薦系統(tǒng)可分為三大類:基于內(nèi)容的推薦系統(tǒng)、協(xié)同過(guò)濾(collaborative filtering,CF)推薦系統(tǒng)和混合推薦系統(tǒng)[3]。在推薦系統(tǒng)中,協(xié)同過(guò)濾[4]的應(yīng)用最為廣泛,在商業(yè)中取得了巨大的成就,其中包括著名的電子商務(wù)網(wǎng)站Amazon.com[5]。協(xié)同過(guò)濾可分為基于用戶的協(xié)同過(guò)濾推薦算法(user-based collaborative filtering,UBCF)[6]和基于物品的協(xié)同過(guò)濾推薦算法[7]。文中以UBCF算法為基礎(chǔ)展開研究。

雖然上述文獻(xiàn)提到的方法在一定程度上提高了推薦系統(tǒng)的精確性,但仍然存在一些不足之處:(1)某些領(lǐng)域的專家用戶匱乏,在數(shù)據(jù)稀缺的情況下無(wú)法直接形成專家數(shù)據(jù)集;(2)在用戶中挖掘的專家數(shù)據(jù)集是固定的,并沒(méi)有為每個(gè)用戶建立個(gè)性化的專家數(shù)據(jù)集;(3)現(xiàn)有的專家用戶評(píng)估模型只考慮了用戶自身的因素,并沒(méi)有對(duì)用戶之間的關(guān)系進(jìn)行考量。

針對(duì)上述問(wèn)題,文中提出了一種基于專家動(dòng)態(tài)生成的協(xié)同過(guò)濾推薦算法(dynamically generated expert-based collaborative filtering,DGECF)。該算法通過(guò)計(jì)算用戶之間的交叉性、信任性以及趨同性三項(xiàng)指標(biāo)值和專家因子值動(dòng)態(tài)地為每個(gè)用戶挖掘出特定的專家數(shù)據(jù)集,然后通過(guò)計(jì)算用戶與所挖掘?qū)<覕?shù)據(jù)集之間的相似度來(lái)預(yù)測(cè)評(píng)分,最終完成推薦。實(shí)驗(yàn)結(jié)果表明,該算法可以提高推薦系統(tǒng)的精確性。

1 DGECF算法

在實(shí)際生活中,每個(gè)領(lǐng)域都有專業(yè)知識(shí)較為全面的人,稱這些人為專家。通常對(duì)用戶而言,專家的意見有較高的參考價(jià)值。為了提高推薦系統(tǒng)的精確性,DGECF算法為每個(gè)訓(xùn)練用戶(訓(xùn)練集中的用戶,簡(jiǎn)稱訓(xùn)練用戶)動(dòng)態(tài)地挖掘?qū)<覕?shù)據(jù)集,再通過(guò)計(jì)算測(cè)試用戶(測(cè)試集中的用戶,簡(jiǎn)稱測(cè)試用戶)與他所對(duì)應(yīng)專家數(shù)據(jù)集的相似度進(jìn)行預(yù)測(cè)評(píng)分。圖1給出了DGECF算法的概述圖,其中包括4部分:

圖1 DGECF算法概述圖

(1)動(dòng)態(tài)專家挖掘方法:該方法分為三部分,首先計(jì)算訓(xùn)練用戶的指標(biāo)值;其次計(jì)算專家因子值;最后根據(jù)近鄰算法為每個(gè)用戶建立特定的專家數(shù)據(jù)集。這部分內(nèi)容將在第三節(jié)中給出詳細(xì)介紹。

(2)計(jì)算測(cè)試用戶與專家的相似度:文中采用一種改進(jìn)的余弦相似度計(jì)算方法[13],該方法在計(jì)算用戶u和專家e之間的相似度Sim(u,e)時(shí),考慮了兩個(gè)用戶共同評(píng)定的物品數(shù)量,即調(diào)整因子,計(jì)算公式如下:

(1)

其中,Sue表示用戶u和專家e共同評(píng)價(jià)物品的集合,Nu∩e表示用戶u和專家e共同評(píng)定物品的數(shù)量,Nu表示用戶u評(píng)定物品的數(shù)量,Ne表示專家e評(píng)定物品的數(shù)量。

(3)預(yù)測(cè)測(cè)試用戶評(píng)分:采用Resnick公式[12]的變形,用戶u對(duì)物品i的預(yù)測(cè)評(píng)分如下:

邊坡穩(wěn)定性影響因素選取應(yīng)遵循獨(dú)立性原則,防止各因素之間存在交叉情況,以避免造成指標(biāo)隸屬度的“冗余值”,導(dǎo)致評(píng)價(jià)結(jié)果的不準(zhǔn)確。筆者結(jié)合眾多文獻(xiàn)研究,現(xiàn)將各影響因素分為三類兩級(jí)指標(biāo):(1)自然因素:年均降雨量C11、地下水影響C12、植被覆蓋現(xiàn)狀C13、(2)設(shè)計(jì)因素:坡高C21、坡角C22、排水條件C23、加固強(qiáng)度C24和(3)地質(zhì)因素:巖體類型C31、風(fēng)化程度C32、不利結(jié)構(gòu)面影響C33、坡體結(jié)構(gòu)C34、黏聚力C35、摩擦角C36。

(2)

(4)精確性評(píng)估:通過(guò)計(jì)算測(cè)試用戶的預(yù)測(cè)評(píng)分與實(shí)際評(píng)分的平均絕對(duì)誤差(MAE)和均方根誤差(RMSE),評(píng)估算法的精確性。

2 動(dòng)態(tài)專家挖掘方法

在動(dòng)態(tài)專家挖掘方法中,指標(biāo)值的選擇關(guān)系到整個(gè)算法的優(yōu)劣。文中針對(duì)目前專家用戶評(píng)估模型沒(méi)有對(duì)用戶之間的關(guān)系進(jìn)行考量的情況,通過(guò)實(shí)驗(yàn)和數(shù)據(jù)分析,確定選擇用戶之間的交叉性、信任性以及趨同性這三項(xiàng)作為動(dòng)態(tài)專家挖掘的指標(biāo)值。根據(jù)計(jì)算得到的指標(biāo)值,計(jì)算專家因子值,最后將專家因子值從小到大進(jìn)行排序挑選出近鄰專家數(shù)據(jù)集。

2.1 指標(biāo)值計(jì)算

2.1.1 交叉性指標(biāo)

兩個(gè)用戶共同評(píng)價(jià)物品的數(shù)量越多,表示用戶之間的交叉性越強(qiáng),用戶交叉性指標(biāo)值的計(jì)算如下:

(3)

其中,A(u)表示用戶u與其他用戶之間的交叉性指標(biāo),Nu∩v表示用戶u和v共同評(píng)價(jià)物品的數(shù)量,max(N)表示用戶之間共同評(píng)價(jià)物品數(shù)量的最大值。

2.1.2 信任性指標(biāo)

信任因素在推薦中起到了關(guān)鍵作用[15-16],專家通常擁有更多的信任人數(shù),用戶信任性指標(biāo)值的計(jì)算如下:

(4)

其中,T(u)表示用戶u與其他用戶之間的信任性指標(biāo),Mu∩v表示用戶u與用戶v共同擁有信任者的數(shù)量,max(M)表示用戶之間共同擁有信任者數(shù)量的最大值。

2.1.3 趨同性指標(biāo)

用戶對(duì)相同物品的評(píng)分越接近,用戶之間的差異性越小。通過(guò)計(jì)算評(píng)分差異的平均值并對(duì)其歸一化,進(jìn)而求得用戶之間的趨同性指標(biāo)值,公式如下:

(5)

其中,O(u)表示用戶u與其他用戶之間的趨同性指標(biāo),rui表示用戶u對(duì)物品i的評(píng)分值。

2.2 專家因子計(jì)算

對(duì)于用戶而言,專家因子的值越大,專家也就越專業(yè)。綜合用戶的交叉性指標(biāo)、信任性指標(biāo)、趨同性指標(biāo),定義專家因子的計(jì)算公式,如下:

Exp(e)=α*A(u)+β*T(u)+γ*O(u)

(6)

其中,α,β,γ表示各部分所占權(quán)重,α+β+γ=1。

2.3 專家數(shù)據(jù)集選取

在推薦系統(tǒng)領(lǐng)域中,基于近鄰的方法[17]是最早使用的方法之一,不同的專家會(huì)產(chǎn)生不同的推薦效果,根據(jù)為每個(gè)用戶建立的專家數(shù)據(jù)集中的專家因子挑選k位近鄰專家作為該用戶的專家數(shù)據(jù)集。

3 實(shí) 驗(yàn)

3.1 實(shí)驗(yàn)數(shù)據(jù)集

實(shí)驗(yàn)使用來(lái)自基于社交網(wǎng)絡(luò)的電影推薦系統(tǒng)FilmTrust數(shù)據(jù)集(https://www.librec.net/datasets.html)[18]對(duì)算法進(jìn)行驗(yàn)證。該數(shù)據(jù)集由兩部分組成,即用戶評(píng)分集和信任集。

用戶評(píng)分集中包括1 508位用戶對(duì)2 071部電影的35 494條評(píng)分?jǐn)?shù)據(jù),評(píng)分值的范圍是[0.5,4.0],分值的高低代表了用戶對(duì)電影的偏好程度。信任集中包括用戶之間的1 853條信任關(guān)系評(píng)分?jǐn)?shù)據(jù),評(píng)分值為1或者空,1代表用戶之間存在信任關(guān)系,空值代表用戶之間不信任。

3.2 評(píng)估標(biāo)準(zhǔn)

精確性是評(píng)估推薦系統(tǒng)過(guò)程中最基本的指標(biāo)之一[19]。文中分別采用MAE和RMSE作為精確性度量標(biāo)準(zhǔn)[20]。

MAE越小,推薦越準(zhǔn)確。假設(shè)預(yù)測(cè)用戶評(píng)分集合為{p1,p2,…,pn},與之相對(duì)應(yīng)的實(shí)際用戶評(píng)分集合為{q1,q2,…,qn},n為所有預(yù)測(cè)評(píng)分商品的數(shù)目,則MAE的計(jì)算公式如下:

(7)

RMSE越小,推薦質(zhì)量越高,RMSE的計(jì)算公式如下:

(8)

3.3 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

文中分別對(duì)UBCF算法、RUBCF算法和DGECF算法進(jìn)行了實(shí)驗(yàn),通過(guò)計(jì)算實(shí)驗(yàn)結(jié)果的MAE和RMSE對(duì)算法的精確性進(jìn)行評(píng)估。為了提高仿真結(jié)果的真實(shí)性,實(shí)驗(yàn)將FilmTrust數(shù)據(jù)集中的評(píng)分集按照8∶2的比例隨機(jī)分成訓(xùn)練集和測(cè)試集。測(cè)試用戶中有一些用戶屬于新用戶,即從未有過(guò)歷史記錄的用戶。對(duì)于新用戶,DGECF算法的實(shí)驗(yàn)處理方法是:首先在測(cè)試集中確定新用戶所預(yù)測(cè)的物品,然后在訓(xùn)練集中找出對(duì)該物品已進(jìn)行過(guò)評(píng)分的用戶,最后將這些用戶對(duì)該物品評(píng)分的均值作為新用戶的評(píng)分。在專家因子的公式中,通過(guò)枚舉法改變權(quán)重值來(lái)觀察MAE和RMSE的變化,最終發(fā)現(xiàn)當(dāng)α=0.3,β=0.4,γ=0.3時(shí),精確性最高。

(1)不同算法下MAE和RMSE的比較分析。

UBCF和RUBCF算法都使用余弦相似度作為相似性的度量方法,所不同的是RUBCF算法在UBCF算法的基礎(chǔ)上使用了Resnick公式。為了便于比較,文中提出的DGECF算法選取與UBCF和RUBCF算法相同的近鄰值(50,100,150,200,300,400,500,600,700和全部鄰居)進(jìn)行預(yù)測(cè)評(píng)分,并計(jì)算MAE和RMSE。實(shí)驗(yàn)結(jié)果如表1所示。

表1 MAE和RMSE

由表1可以看出,在UBCF算法中,隨著近鄰值k的增加,MAE和RMSE都略微下降,當(dāng)近鄰值取全部鄰居時(shí),MAE和RMSE最低,分別為:2.122 5和2.334 2;在RUBCF算法中,MAE和RMSE均隨著k的增加呈現(xiàn)出先微量下降后微量上升的趨勢(shì),當(dāng)k取400時(shí),MAE和RMSE最低,分別為:0.671 6和0.874 3;在DGECF算法中,MAE和RMSE均隨著k的增加先微量下降再微量上升最后趨于平緩,并且當(dāng)近鄰值k取400時(shí),MAE和RMSE最低,分別為:0.625 8和0.816 0。

(2)不同算法下MAE和RMSE平均值的比較分析。

由表2可以看出,文中提出的DGECF算法的MAE和RMSE平均值最低,分別為:0.627 4和0.818 8,相對(duì)于UBCF算法和RUBCF算法,MAE分別降低了75.18%和6.90%,RMSE分別降低了69.73%和6.54%,說(shuō)明DGECF算法具有更高的精確性。

表2 MAE和RMSE的平均值

4 結(jié)束語(yǔ)

傳統(tǒng)協(xié)同過(guò)濾推薦算法中數(shù)據(jù)稀疏性嚴(yán)重影響推薦精確性的問(wèn)題,提出了一種基于專家動(dòng)態(tài)生成的協(xié)同過(guò)濾推薦算法(DGECF),并通過(guò)在FilmTrust數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果驗(yàn)證了該算法的有效性。下一步將在新用戶與DGECF算法的結(jié)合、指標(biāo)值的選取策略、相似度的計(jì)算方法等方面繼續(xù)進(jìn)行研究和完善。

猜你喜歡
指標(biāo)值精確性物品
稱物品
寧波北侖第三集裝箱碼頭有限公司平衡計(jì)分卡績(jī)效管理探索與實(shí)踐
財(cái)政支出績(jī)效評(píng)價(jià)指標(biāo)體系構(gòu)建及應(yīng)用研究
淺談食品中大腸菌群檢測(cè)方法以及指標(biāo)值的對(duì)應(yīng)關(guān)系
圖畫捉迷藏
陣列式煙氣流量測(cè)量裝置在脫硫CEMS中的應(yīng)用
內(nèi)容分析法在心理學(xué)教材研究中的應(yīng)用
測(cè)量工程的質(zhì)量控制分析
找物品
創(chuàng)意,源自生活的可愛小物品
普洱| 宁阳县| 石景山区| 乌审旗| 沧州市| 甘肃省| 武鸣县| 法库县| 合阳县| 望江县| 延川县| 台东县| 田东县| 疏勒县| 涿鹿县| 藁城市| 海伦市| 漳州市| 邹城市| 孟州市| 扎鲁特旗| 泗水县| 桦南县| 肇东市| 武清区| 纳雍县| 五华县| 阿拉善右旗| 鄱阳县| 乳山市| 宁蒗| 赤水市| 湘阴县| 淮北市| 新密市| 北宁市| 叙永县| 巨鹿县| 土默特右旗| 金湖县| 吉林市|