国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種修正評(píng)分偏差并精細(xì)聚類中心的協(xié)同過(guò)濾推薦算法

2024-03-16 13:38:40段剛龍
統(tǒng)計(jì)與決策 2024年4期
關(guān)鍵詞:聚類協(xié)同情感

馬 鑫,段剛龍

(1.南開大學(xué)商學(xué)院,天津 300110;2.西安理工大學(xué) a.經(jīng)濟(jì)與管理學(xué)院;b.大數(shù)據(jù)分析與商務(wù)智能實(shí)驗(yàn)室,西安 710054)

0 引言

近年來(lái),推薦系統(tǒng)作為傳統(tǒng)搜索引擎的重要補(bǔ)充,成為幫助用戶專注有用信息和緩解信息過(guò)載的重要工具,而協(xié)同過(guò)濾是個(gè)性化推薦系統(tǒng)中使用最普遍的推薦算法[1]。為應(yīng)對(duì)協(xié)同過(guò)濾算法的數(shù)據(jù)稀疏等問(wèn)題,既有研究往往結(jié)合聚類、回歸、圖等算法[2,3]或矩陣分解、多模態(tài)數(shù)據(jù)融合、矩陣填充等技術(shù)[1,4,5]進(jìn)行組合推薦。在聚類算法方面,劃分聚類算法因具有準(zhǔn)確率高、可操作性強(qiáng)等優(yōu)點(diǎn),常被學(xué)者加以改進(jìn)后用來(lái)對(duì)用戶進(jìn)行聚類。改進(jìn)方法主要有手肘法[6]、輪廓系數(shù)[7]、譜聚類[8]、粗聚類[9]等。雖然上述改進(jìn)算法在一定程度上提升了基于劃分聚類的協(xié)同過(guò)濾推薦(Divide Clustering-based Collaborative Filtering Recommender,DC-CFR)算法的推薦效果,但仍存在以下不足:(1)評(píng)分失真且評(píng)分區(qū)分度小。現(xiàn)有產(chǎn)品評(píng)分多為“5 星評(píng)價(jià)”,離散、有限數(shù)值往往難以準(zhǔn)確量化用戶的真實(shí)喜好,而這種偏差會(huì)進(jìn)一步影響用戶聚類中高維稀疏評(píng)分向量間的空間距離測(cè)算,影響DC-CFR算法的表現(xiàn);此外,受從眾效應(yīng)和可得性效應(yīng)的影響,用戶評(píng)分分布較為集中,信息量較小,通過(guò)空間距離或相關(guān)系數(shù)比較用戶間異同的難度較大。(2)初始聚類中心隨機(jī)。自由參數(shù)問(wèn)題是劃分聚類算法的主要缺陷。相比于最佳聚類數(shù)的確定,初始聚類中心的選擇較少被討論和研究。而隨機(jī)初始聚類中心不僅易使聚類結(jié)果陷入局部最優(yōu),而且會(huì)增加聚類迭代次數(shù),累積數(shù)據(jù)稀疏造成的用戶聚類偏差,影響DC-CFR 算法推薦效果。

鑒于此,本文提出一種基于評(píng)論情感挖掘與數(shù)據(jù)場(chǎng)聚類的協(xié)同過(guò)濾推薦算法(Comment Sentiment Mining and Data Field Clustering-based Collaborative Filtering Recommender,CSM-DFC-CFR),該算法首先利用高頻詞性路徑規(guī)則等無(wú)監(jiān)督情感挖掘技術(shù)量化評(píng)論情感來(lái)修正用戶-產(chǎn)品評(píng)分矩陣中的評(píng)分;其次,利用數(shù)據(jù)場(chǎng)算法計(jì)算劃分聚類自由參數(shù)的取值;然后,通過(guò)基于相似用戶的聚類協(xié)同過(guò)濾推薦算法生成產(chǎn)品推薦列表;最后,在三個(gè)真實(shí)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),以驗(yàn)證改進(jìn)算法的推薦效果。

1 基于劃分聚類的協(xié)同過(guò)濾推薦算法

傳統(tǒng)的DC-CFR 算法是基于相似用戶的協(xié)同過(guò)濾推薦算法的一種改進(jìn)算法,具有易理解、易復(fù)現(xiàn)、推薦結(jié)果新穎度高等優(yōu)勢(shì)[10]。其基本思想是:在用戶-產(chǎn)品評(píng)分矩陣上,通過(guò)劃分聚類創(chuàng)建較少且包含目標(biāo)用戶的聚類簇,以降低近鄰用戶檢索中的相似度計(jì)算次數(shù),減小數(shù)據(jù)稀疏性對(duì)聚類效果的影響。

假設(shè)有用戶-產(chǎn)品評(píng)分矩陣M=[r1r2…rm]T,其中ri=(ri,1,ri,2,…,ri,n),m為用戶數(shù),n為產(chǎn)品數(shù),ri,j為用戶i對(duì)產(chǎn)品j的評(píng)分。隨機(jī)選擇k個(gè)用戶評(píng)分向量ri作為初始聚類中心C=[c1c2…ck]T,按歐氏距離大小將用戶歸到最近聚類中心:

更新聚類中心:

其中,|Ck|為第k個(gè)聚類中包含的用戶數(shù)。

當(dāng)誤差平方和最小時(shí)聚類停止迭代:

計(jì)算目標(biāo)用戶u與同簇用戶v的相似度:

預(yù)測(cè)用戶-產(chǎn)品評(píng)分矩陣中目標(biāo)用戶缺失評(píng)分:

其中,為目標(biāo)用戶u同簇用戶v的歷史評(píng)分均值,Nu為用戶u的最近鄰域。

將ru,j降序排列,選擇前z個(gè)較高評(píng)分對(duì)應(yīng)的產(chǎn)品pj生成推薦列表。

2 基于評(píng)論情感挖掘與數(shù)據(jù)場(chǎng)聚類的協(xié)同過(guò)濾算法

2.1 評(píng)論情感挖掘算法

在線產(chǎn)品評(píng)論一直是用戶生成決策的重要信息來(lái)源。為進(jìn)一步提升DC-CFR 算法在高維數(shù)據(jù)空間中的用戶聚類能力,本文利用一種無(wú)監(jiān)督評(píng)論情感挖掘算法修正評(píng)分與用戶偏好間的偏差。

假設(shè)有用戶u的評(píng)論集合Tu={t1,t2,…,tm},m為歷史評(píng)論數(shù),ti為用戶u對(duì)產(chǎn)品i的評(píng)論。

對(duì)評(píng)論t進(jìn)行預(yù)處理,附加148612個(gè)詞的分詞詞庫(kù)和3451 個(gè)詞的停用詞詞庫(kù),利用pkuseg 工具進(jìn)行分詞并標(biāo)注詞性,統(tǒng)計(jì)并生成10個(gè)高頻詞性路徑:

其中,n為名詞,a為形容詞,d為副詞,v為動(dòng)詞,an為形容詞性名詞,l為習(xí)用語(yǔ)。

按Ruls路徑對(duì)評(píng)論t進(jìn)行模糊匹配,生成詞對(duì)pt={(w1,s1),(w2,s2),…,(wf,sf)},f為詞對(duì)個(gè)數(shù),wi為實(shí)體詞,si為情感詞。

計(jì)算實(shí)體詞wi與產(chǎn)品主題詞themei之間的互信息,剔除不相關(guān)實(shí)體詞及對(duì)應(yīng)情感詞:

其中,I(wi,themei)為wi與themei之間的互信息,值越大表明關(guān)聯(lián)程度越強(qiáng);p(wi,themei)為wi與themei共同出現(xiàn)的次數(shù),p(wi)為wi單獨(dú)出現(xiàn)的次數(shù),p(themei)為themei單獨(dú)出現(xiàn)的次數(shù)。

利用SingleRank算法計(jì)算Tu中實(shí)體詞wi的權(quán)重hwi,生成實(shí)體偏好向量Hu=(hw1,hw2,…,hwg),g為集合Tu中的實(shí)體詞數(shù)量。

計(jì)算評(píng)論t中的實(shí)體詞相對(duì)權(quán)重:

基于NTUSD[11]、Hownet[12]的研究以及自整理詞典,按[積極,中性,消極]=[5,3,1]的規(guī)則量化情感詞,生成評(píng)論t中情感詞si的情感值cssi。

評(píng)論t的整體情感值為:

設(shè)定評(píng)分修正幅度Δ,將Et調(diào)整到[-Δ,Δ]范圍:

修正用戶-產(chǎn)品評(píng)分矩陣中評(píng)論t的對(duì)應(yīng)評(píng)分r:

2.2 數(shù)據(jù)場(chǎng)算法

受物理學(xué)場(chǎng)論啟發(fā),數(shù)據(jù)場(chǎng)將數(shù)域空間中的數(shù)據(jù)對(duì)象當(dāng)作相互作用的有質(zhì)量粒子,任一數(shù)據(jù)對(duì)象均受其他對(duì)象的共同作用,且當(dāng)無(wú)外力作用時(shí),數(shù)據(jù)對(duì)象會(huì)相向運(yùn)動(dòng)并聚集成簇,類似劃分聚類過(guò)程,因此常被用于劃分聚類算法優(yōu)化[13]。

為解決劃分聚類算法的自由參數(shù)問(wèn)題,尤其是隨機(jī)初始聚類中心的選擇問(wèn)題,本文提出了一種數(shù)據(jù)場(chǎng)算法,可一次性確定最佳聚類數(shù)和最優(yōu)初始聚類中心,減少聚類迭代次數(shù),避免數(shù)據(jù)稀疏性引起的用戶聚類偏差累積。

假設(shè)有修正評(píng)分后的用戶-產(chǎn)品評(píng)分矩陣R=[r1r2…rm]T,其中,ri=(ri,1,ri,2,…,ri,n),m為用戶數(shù),n為產(chǎn)品數(shù),ri,j為用戶i對(duì)產(chǎn)品j的評(píng)分,U為用戶集合。

計(jì)算數(shù)據(jù)場(chǎng)中各用戶ui的相互作用勢(shì)值:

其中,d為歐氏距離,mj為用戶uj的質(zhì)量,滿足Σm=1,σ為數(shù)據(jù)對(duì)象之間的相互作用力里程。

對(duì)于用戶質(zhì)量mi和作用里程σ,給定計(jì)算公式:

其中,|Ngi|為與用戶ui相距不超過(guò)1/4分位數(shù)距離的用戶數(shù),φ(ui)為對(duì)應(yīng)σ取值下用戶ui的勢(shì)值,argmin 為獲取最小值對(duì)應(yīng)σ的函數(shù)。

利用隨機(jī)爬山法計(jì)算數(shù)據(jù)場(chǎng)的勢(shì)值極大值,將極大值對(duì)應(yīng)用戶評(píng)分向量作為初始聚類中心C=[c1c2…ck]T,最佳聚類數(shù)k即為|C|。

2.3 改進(jìn)的協(xié)同過(guò)濾推薦算法

本文首先通過(guò)評(píng)論情感挖掘算法修正評(píng)分偏差,使評(píng)分更加接近用戶真實(shí)偏好,得到更加準(zhǔn)確的用戶-產(chǎn)品評(píng)分矩陣;然后,利用數(shù)據(jù)場(chǎng)算法計(jì)算用戶聚類的最佳聚類數(shù)和最優(yōu)初始聚類中心;最后,通過(guò)基于劃分聚類的協(xié)同過(guò)濾推薦算法為目標(biāo)用戶生成推薦結(jié)果。

2.3.1 算法模型構(gòu)建

本文提出的基于評(píng)論情感挖掘與數(shù)據(jù)場(chǎng)聚類的協(xié)同過(guò)濾推薦算法(CSM-DFC-CFR)模型見(jiàn)圖1。

圖1 基于評(píng)論情感挖掘與數(shù)據(jù)場(chǎng)聚類的協(xié)同過(guò)濾算法模型

2.3.2 算法描述

圖1所示模型包含三大模塊,具體描述如下:

(1)利用評(píng)論情感修正用戶評(píng)分模塊。首先,利用高頻詞性路徑規(guī)則匹配評(píng)論文本中的實(shí)體詞與情感詞,并借助互信息剔除無(wú)關(guān)實(shí)體詞及對(duì)應(yīng)情感詞;然后,利用混合情感詞詞典對(duì)情感詞進(jìn)行量化,計(jì)算評(píng)論中各實(shí)體詞的相對(duì)權(quán)重;最后,按實(shí)體詞相對(duì)權(quán)重對(duì)各量化情感值進(jìn)行加權(quán)以獲得評(píng)論總體情感值,在[-Δ,Δ]區(qū)間內(nèi)對(duì)用戶評(píng)分進(jìn)行修正。

(2)利用數(shù)據(jù)場(chǎng)計(jì)算劃分聚類參數(shù)模塊?;谠u(píng)分修正后更加接近用戶真實(shí)喜好的用戶-產(chǎn)品評(píng)分矩陣,先計(jì)算各用戶質(zhì)量m和數(shù)據(jù)場(chǎng)作用里程σ,再將其作為勢(shì)函數(shù)參數(shù),計(jì)算用戶之間的相互作用勢(shì)值,利用啟發(fā)式隨機(jī)爬山法挖掘勢(shì)值分布規(guī)律,尋優(yōu)勢(shì)值極大值。

(3)劃分聚類協(xié)同過(guò)濾推薦模塊。首先,將勢(shì)值極大值點(diǎn)對(duì)應(yīng)評(píng)分向量和勢(shì)值極大值點(diǎn)個(gè)數(shù)分別作為劃分聚類的聚類數(shù)和初始聚類中心,對(duì)用戶進(jìn)行迭代聚類;然后,計(jì)算目標(biāo)用戶與同聚類簇用戶相似度,并按相似度大小降序排列生成最近鄰域Nu;最后,基于鄰域用戶相似度和非共有評(píng)分預(yù)測(cè)目標(biāo)用戶可能評(píng)分,按評(píng)分高低生成長(zhǎng)度為z的產(chǎn)品推薦列表。

2.3.3 算法流程

綜上所述,CSM-DFC-CFR算法步驟如下:

3 算法驗(yàn)證

3.1 數(shù)據(jù)來(lái)源與處理

遵循網(wǎng)站robots協(xié)議,利用爬蟲采集了2015年6月17日至2020 年5 月9 日某知名電商平臺(tái)1190 個(gè)類目下153129 個(gè)商品的評(píng)分及評(píng)論文本,從中隨機(jī)抽取三組數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)集,分別占原始評(píng)分?jǐn)?shù)據(jù)的0.8%(數(shù)據(jù)集1)、0.9%(數(shù)據(jù)集2)和1.1%(數(shù)據(jù)集3)。同時(shí),剔除歷史評(píng)分總數(shù)為0的用戶行和產(chǎn)品列,并按用戶評(píng)分時(shí)間先后將前80%數(shù)據(jù)作為訓(xùn)練集,后20%數(shù)據(jù)作為測(cè)試集,以供模型訓(xùn)練使用。實(shí)驗(yàn)數(shù)據(jù)集的統(tǒng)計(jì)特征如表1所示。

表1 預(yù)處理后實(shí)驗(yàn)數(shù)據(jù)集統(tǒng)計(jì)特征

3.2 評(píng)價(jià)指標(biāo)與對(duì)照算法

采用精度Precision(見(jiàn)公式(15))、召回率Recall(見(jiàn)公式(16))和F1-Score(見(jiàn)公式(17))共三種常見(jiàn)評(píng)價(jià)指標(biāo)對(duì)算法推薦效果進(jìn)行評(píng)價(jià)[10,14]。特別地,所有評(píng)價(jià)指標(biāo)均依據(jù)產(chǎn)品推薦列表R(u)和測(cè)試集用戶選擇列表T(u)計(jì)算得出。

關(guān)于對(duì)照算法,選擇基于用戶的協(xié)同過(guò)濾推薦(U-CFR)算法、基于K-means的協(xié)同過(guò)濾推薦(KM-CFR)算法、融合Canopy和K-means的協(xié)同過(guò)濾推薦(CKM-CFR)算法、基于評(píng)論情感挖掘的協(xié)同過(guò)濾推薦(CSM-CFR)算法、基于數(shù)據(jù)場(chǎng)聚類的協(xié)同過(guò)濾推薦(DFC-CFR)算法以及本文所提算法(CSM-DFC-CFR)共六種算法在三個(gè)實(shí)驗(yàn)數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),所有實(shí)驗(yàn)結(jié)果的數(shù)據(jù)為1折15次交叉實(shí)驗(yàn)結(jié)果的平均值。

3.3 實(shí)驗(yàn)結(jié)果

3.3.1 參數(shù)影響

對(duì)于評(píng)分修正幅度Δ,分別取值為0.1、0.2、0.3、0.4和0.5,探討Δ的最佳取值。由圖2 可知,CSM-DFC-CFR 算法精度在Δ=0.4時(shí)最優(yōu)(召回率也相對(duì)較優(yōu)),算法表現(xiàn)最佳。

圖2 不同評(píng)分調(diào)整幅度Δ對(duì)CSM-DFC-CFR算法精度影響

對(duì)于最近鄰域大小|Nu|,很容易理解,最近鄰數(shù)量增加會(huì)降低目標(biāo)用戶與鄰居之間的評(píng)分相似度,如果取值過(guò)大,那么勢(shì)必會(huì)影響算法表現(xiàn)。參照文獻(xiàn)[15],將所有算法最近鄰域大小取值為5。此外,參照文獻(xiàn)[16],令各算法推薦列表長(zhǎng)度z=15。

3.3.2 算法性能分析

不同對(duì)照算法在三個(gè)測(cè)試集中的1折15次Precision、Recall和F-Score表現(xiàn)如圖3所示。對(duì)比U-CFR算法和CSMDFC-CFR 算法的兩種變體算法(CSM-CFR 和DFC-CFR)的結(jié)果發(fā)現(xiàn),評(píng)論情感挖掘修正用戶評(píng)分和數(shù)據(jù)場(chǎng)聚類方法均能提升協(xié)同過(guò)濾算法的性能,且數(shù)據(jù)場(chǎng)聚類的方法對(duì)算法推薦效果正向作用更大。此外,進(jìn)一步對(duì)比CSM-DFC-CFR及其兩種變體算法可以發(fā)現(xiàn),評(píng)論情感挖掘修正用戶評(píng)分和數(shù)據(jù)場(chǎng)聚類兩種方法的結(jié)合要比任意一種方法對(duì)算法推薦性能的提升效果都要明顯。對(duì)比U-CFR、KM-CFR、CKM-CFR 和CSM-DFC-CFR 算法,結(jié)果表明,本文所提CSM-DFC-CFR算法在三個(gè)不同評(píng)價(jià)指標(biāo)上推薦性能均最佳,CKM-CFR 算法次之,而KM-CFR和U-CFR算法較差。

圖3 不同測(cè)試集中推薦算法的性能表現(xiàn)

3.3.3 算法有效性分析

為充分證明本文所提算法的有效性,進(jìn)一步利用Kruskal-Wallis 檢驗(yàn)方法對(duì)CSM-DFC-CFR 與U-CFR、KM-CFR、CKM-CFR和CSM-CFR算法的1折15次交叉驗(yàn)證結(jié)果進(jìn)行組間差異比較。表2的結(jié)果表明,在95%的置信區(qū)間內(nèi),各測(cè)試集CSM-DFC-CFR算法的性能表現(xiàn)均顯著優(yōu)于其他對(duì)照算法(P<0.05)。還可以發(fā)現(xiàn),雖然CSMDFC-CFR 與DFC-CFR 算法在各評(píng)價(jià)指標(biāo)結(jié)果之間并不存在顯著組間差異,但平均而言,CSM-DFR-CFR 算法的Precision、Recall 和F1-Score 均優(yōu)于DFC-CFR 算法。以上結(jié)果充分證明了本文所提推薦算法的有效性,算法的優(yōu)化思路與實(shí)際數(shù)據(jù)相吻合。

表2 CSM-DFC-CFR和對(duì)照算法的性能差異比較

4 結(jié)束語(yǔ)

本文針對(duì)當(dāng)前DC-CFR 算法存在的評(píng)分失真和區(qū)分度小以及自由參數(shù)問(wèn)題,提出了一種基于評(píng)論情感挖掘和數(shù)據(jù)場(chǎng)聚類的協(xié)同過(guò)濾推薦算法。其中,評(píng)論情感挖掘是指利用無(wú)監(jiān)督情感挖掘技術(shù)對(duì)評(píng)論整體情感進(jìn)行量化,通過(guò)加權(quán)方式修正用戶評(píng)分,以提升評(píng)分區(qū)分度(細(xì)化了評(píng)分粒度),縮小評(píng)分與用戶真實(shí)喜好之間的偏差。數(shù)據(jù)場(chǎng)聚類是指利用數(shù)據(jù)場(chǎng)計(jì)算最佳聚類數(shù)和最優(yōu)初始聚類中心,對(duì)用戶進(jìn)行劃分聚類,以縮小最近鄰域檢索范圍,優(yōu)化高維數(shù)據(jù)聚類表現(xiàn)。三個(gè)真實(shí)數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果表明,與其他算法相比,本文所提算法在Precision、Recall和F1-Score指標(biāo)上的表現(xiàn)均最優(yōu)。值得注意的是,本文未處理虛假用戶評(píng)論,即假定評(píng)論中不存在不實(shí)消費(fèi)經(jīng)歷及對(duì)商品實(shí)體的鼓吹或誹謗[17],未來(lái)將考慮運(yùn)用文體或元數(shù)據(jù)特征識(shí)別并剔除虛假評(píng)論,對(duì)本文算法進(jìn)行改進(jìn)。

猜你喜歡
聚類協(xié)同情感
蜀道難:車與路的協(xié)同進(jìn)化
如何在情感中自我成長(zhǎng),保持獨(dú)立
失落的情感
北極光(2019年12期)2020-01-18 06:22:10
情感
“四化”協(xié)同才有出路
汽車觀察(2019年2期)2019-03-15 06:00:50
如何在情感中自我成長(zhǎng),保持獨(dú)立
基于DBSACN聚類算法的XML文檔聚類
三醫(yī)聯(lián)動(dòng) 協(xié)同創(chuàng)新
基于改進(jìn)的遺傳算法的模糊聚類算法
一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
洪江市| 隆尧县| 宜城市| 平度市| 通州区| 商丘市| 屏边| 恩施市| 台北市| 武平县| 靖西县| 宁夏| 杭锦旗| 衡南县| 惠水县| 延边| 大安市| 阿荣旗| 凯里市| 临沭县| 上栗县| 佛教| 巴塘县| 商河县| 若羌县| 汝阳县| 琼中| 南澳县| 乌拉特中旗| 苏尼特左旗| 碌曲县| 五莲县| 廊坊市| 郑州市| 崇州市| 东乡族自治县| 济宁市| 乐清市| 开原市| 交城县| 宜兰市|