国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于項(xiàng)目特征與用戶(hù)興趣模糊性的推薦算法

2022-09-22 05:59:40黃向春趙芬霞安建業(yè)
軟件導(dǎo)刊 2022年9期
關(guān)鍵詞:類(lèi)別準(zhǔn)確率矩陣

黃向春,趙芬霞,安建業(yè)

(天津商業(yè)大學(xué)理學(xué)院 天津 300134)

0 引言

隨著大數(shù)據(jù)時(shí)代到來(lái),各種數(shù)據(jù)信息快速增長(zhǎng)。在面臨海量數(shù)據(jù)時(shí),用戶(hù)通常需要花費(fèi)大量時(shí)間尋找感興趣的信息,信息過(guò)載已成為互聯(lián)網(wǎng)發(fā)展不得不面對(duì)的挑戰(zhàn)。

為此,推薦系統(tǒng)應(yīng)運(yùn)而生。該系統(tǒng)通過(guò)收集用戶(hù)歷史信息或行為數(shù)據(jù)建立用戶(hù)或項(xiàng)目特征模型,預(yù)測(cè)用戶(hù)感興趣的信息然后推薦給用戶(hù)。如果電商網(wǎng)站能將用戶(hù)感興趣的產(chǎn)品準(zhǔn)確推薦給用戶(hù),不僅能夠增加電商網(wǎng)站的銷(xiāo)量,還能提升用戶(hù)對(duì)網(wǎng)站設(shè)計(jì)的滿(mǎn)意度,產(chǎn)生巨大的商業(yè)價(jià)值[1]。

根據(jù)推薦策略不同,推薦系統(tǒng)可分為基于內(nèi)容的推薦、基于知識(shí)的推薦、基于規(guī)則的推薦、協(xié)同過(guò)濾的推薦、混合推薦等。其中,協(xié)同過(guò)濾推薦是目前發(fā)展最成熟、應(yīng)用最廣泛的個(gè)性化推薦技術(shù)[2-6]。該類(lèi)系統(tǒng)通過(guò)尋找與目標(biāo)用戶(hù)興趣相似的“鄰居”,給目標(biāo)用戶(hù)推薦可能感興趣的信息,系統(tǒng)整體設(shè)計(jì)較為簡(jiǎn)單,僅基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)算法就能夠取得較好推薦效果。

然而,協(xié)同過(guò)濾推薦算法的推薦效果嚴(yán)重依賴(lài)于用戶(hù)的歷史偏好信息,當(dāng)該類(lèi)信息無(wú)法被收集或信息量過(guò)少時(shí),會(huì)造成數(shù)據(jù)稀疏程度較高。此時(shí),項(xiàng)目評(píng)價(jià)信息的真實(shí)性和有效性將無(wú)法得到保證[7],協(xié)同過(guò)濾算法的推薦效果也會(huì)相應(yīng)降低。

1 相關(guān)研究

目前,為解決項(xiàng)目評(píng)分矩陣稀疏性問(wèn)題的方法種類(lèi)較多。例如,Ma[8]首先提出將SVD 矩陣分解應(yīng)用于協(xié)同過(guò)濾推薦,在Netflix Prize 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果表明,該算法推薦準(zhǔn)確率相較于基準(zhǔn)算法具有一定的提升,且推薦結(jié)果穩(wěn)定性較強(qiáng)。Goldberg 等[9]利用主成分分析降維技術(shù)構(gòu)建推薦算法,并將其成功應(yīng)用于“笑話(huà)”推薦上,實(shí)踐結(jié)果表明算法效果較好。李紅梅等[10]提出一種改進(jìn)LSH 的協(xié)同過(guò)濾算法,該算法有效克服評(píng)分?jǐn)?shù)據(jù)的高維稀疏問(wèn)題。然而,上述算法并未考慮項(xiàng)目特征或用戶(hù)偏好的模糊性問(wèn)題。

為此,Zhang 等[11]使用三角模糊數(shù)描述用戶(hù)對(duì)項(xiàng)目的綜合評(píng)價(jià),根據(jù)三角形面積和中點(diǎn)衡量三角模糊數(shù)的相似度,確定用戶(hù)相似度,提升相似度計(jì)算的準(zhǔn)確率。然而,三角模糊數(shù)中隸屬度的最大值只對(duì)應(yīng)一個(gè)點(diǎn),靈活性低于梯形模糊數(shù),可擴(kuò)展性較差。吳毅濤等[12]借鑒年齡模糊模型,將滿(mǎn)意度映射到原始評(píng)分上,通過(guò)梯形模糊相似度計(jì)算策略衡量用戶(hù)相似度提升推薦效果[13-15],同時(shí)證明模糊相似度是余弦相似度在模糊域上的擴(kuò)展,實(shí)驗(yàn)結(jié)果表明該算法的預(yù)測(cè)精度優(yōu)于基于三角模糊數(shù)的協(xié)同過(guò)濾算法。然而,該模型的結(jié)構(gòu)相對(duì)固定,無(wú)法隨數(shù)據(jù)集和用戶(hù)的改變自動(dòng)調(diào)整。Wu等[16]在文獻(xiàn)[9]的基礎(chǔ)上,根據(jù)評(píng)分分布情況自動(dòng)生成個(gè)性化梯形模糊評(píng)分模型,基于模糊相似度和模糊評(píng)分預(yù)測(cè)評(píng)分提升推薦質(zhì)量,實(shí)驗(yàn)結(jié)果表明該算法的預(yù)測(cè)誤差更低。王森等[17]構(gòu)建一種新的梯形模糊評(píng)分模型,通過(guò)融合基于模糊評(píng)分的項(xiàng)目相似度和基于標(biāo)簽隸屬度的項(xiàng)目相似度形成新的項(xiàng)目相似度,進(jìn)一步提升了推薦準(zhǔn)確率。

然而,項(xiàng)目特征和用戶(hù)興趣均具有一定程度的模糊性。例如,對(duì)電影《戰(zhàn)狼1》進(jìn)行項(xiàng)目特征劃分時(shí),它的所屬類(lèi)別并非是絕對(duì)的、唯一的,多數(shù)觀眾認(rèn)為它屬于動(dòng)作類(lèi)、軍事類(lèi)、戰(zhàn)爭(zhēng)題材的電影,但也有一部分觀眾認(rèn)為它是愛(ài)情類(lèi)電影。為了綜合所有觀眾的評(píng)價(jià),設(shè)定《戰(zhàn)狼1》隸屬于動(dòng)作類(lèi)電影的程度為80%;隸屬于軍事類(lèi)電影的程度為85%;隸屬于愛(ài)情類(lèi)電影的程度為20%。同理,用戶(hù)對(duì)電影的喜愛(ài)程度也可按照此情況進(jìn)行劃分。通過(guò)綜合考慮用戶(hù)興趣和項(xiàng)目相似度來(lái)計(jì)算推薦信任分,據(jù)此給出更為準(zhǔn)確的推薦結(jié)果。

2 算法描述

2.1 模糊集和隸屬函數(shù)

設(shè)在論域X上給定集值映射μA:X→[0,1],記作μA(x),即μA確定了X上的一個(gè)模糊集,記為A,μA(x)為x對(duì)A的隸屬度,記為:A={(x,μA(x))|x∈X}。在模糊理論中,常見(jiàn)模糊集包括矩陣型、三角形、梯形、K 次拋物線(xiàn)型、高斯型、柯西型等。

2.2 項(xiàng)目特征隸屬度矩陣

隸屬度可用來(lái)描述項(xiàng)目對(duì)于不同類(lèi)別的所屬程度。例如,對(duì)項(xiàng)目Ij(j=1,2,…,N)而言,將項(xiàng)目所屬類(lèi)別定義在空間X={x1,x2,…,xK}中,Ij的隸屬度函數(shù)可表示為μk(Ij)[18]。本文采用類(lèi)高斯隸屬函數(shù)[19]描述項(xiàng)目的特征模糊性。計(jì)算公式如式(1)所示:

其中,N=|Lj|為項(xiàng)目Ij所對(duì)應(yīng)項(xiàng)目特征屬性的個(gè)數(shù),rk(1 ≤rk≤|Lj|)為項(xiàng)目Ij屬于第k個(gè)類(lèi)別的秩,α一般設(shè)置為1.2[20],μk(Ij)是關(guān)于rk的遞減函數(shù),以電影數(shù)據(jù)集為例,排序靠前的類(lèi)別可賦予高的隸屬度,與電影無(wú)關(guān)的類(lèi)別其隸屬度可賦予0。

然而,不同電影之間相同的所屬類(lèi)別,由于所在位序存在不同,對(duì)應(yīng)的隸屬度也會(huì)不同[21]。例如,電影Toy Story(選自MovieLens 100K 數(shù)據(jù)集),類(lèi)別有Adventure、Animation、Children′s,所屬類(lèi)別的秩依次為rk=1、2、3,這3 個(gè)類(lèi)別在所有類(lèi)別中的序號(hào)依次為3、4、5。根據(jù)式(1)計(jì)算電影Toy Story 對(duì)應(yīng)類(lèi)別的隸屬程度分別為:μ3(Ij)=1、μ4(Ij)=0.536、μ5(Ij)=0.467、μk(Ij)=0,(k=1,2,6,7,···,19),k表示電影的類(lèi)別序號(hào),即電影Toy Story 屬于Adventure、Animation、Children′s的隸屬程度分別為1、0.536、0.467。

本文從MovieLens 100k 電影數(shù)據(jù)集中,選取用戶(hù)5 的觀影記錄,觀影記錄所屬類(lèi)別的隸屬度如表1所示。

Table 1 Film category membership表1 電影類(lèi)別隸屬度

2.3 用戶(hù)類(lèi)別偏好矩陣

利用類(lèi)高斯隸屬度函數(shù)可構(gòu)建項(xiàng)目特征隸屬度矩陣UN×K,N、K分別表示項(xiàng)目總數(shù)和項(xiàng)目特征個(gè)數(shù)。將單個(gè)用戶(hù)的項(xiàng)目特征隸屬度矩陣按列相加,結(jié)果表示用戶(hù)訪問(wèn)項(xiàng)目類(lèi)別隸屬程度的總和,總和越大表示用戶(hù)對(duì)該類(lèi)別項(xiàng)目的喜歡程度越高?;诖?,生成該用戶(hù)的類(lèi)別偏好向量s[15]。s=(p1,p2,…,p19),將s歸一化為s′=(s1,s2,…,s19),其中sk為:

最后,將所有用戶(hù)的類(lèi)別偏好向量作為行,構(gòu)造用戶(hù)類(lèi)別偏好矩陣SM×K。其中,M表示用戶(hù)個(gè)數(shù),K為項(xiàng)目類(lèi)別個(gè)數(shù)。

2.4 用戶(hù)興趣模型

由于用戶(hù)對(duì)項(xiàng)目的評(píng)分受用戶(hù)類(lèi)別偏好的影響,因此對(duì)于兩種不同類(lèi)別的項(xiàng)目,相同的項(xiàng)目評(píng)分可能代表著不同的喜好程度。為此,通過(guò)用戶(hù)類(lèi)別偏好矩陣SM×K對(duì)用戶(hù)評(píng)分矩陣RM×N進(jìn)行修正。計(jì)算公式如下:

其中,r′mn為第m個(gè)用戶(hù)對(duì)第n個(gè)項(xiàng)目修正后的評(píng)分,rmn為第m個(gè)用戶(hù)對(duì)第n個(gè)項(xiàng)目的原始分,Kn為第n個(gè)項(xiàng)目所屬項(xiàng)目類(lèi)別的總數(shù),設(shè)其所對(duì)應(yīng)的類(lèi)別序號(hào)依次為為第m個(gè)用戶(hù)對(duì)第n個(gè)項(xiàng)目所屬第ij類(lèi)型的偏好程度,修正后的用戶(hù)項(xiàng)目評(píng)分矩陣記為。通過(guò)用戶(hù)類(lèi)別偏好矩陣修正后的用戶(hù)項(xiàng)目評(píng)分?jǐn)?shù)據(jù)更離散化,能準(zhǔn)確代表用戶(hù)對(duì)項(xiàng)目的喜好程度。

然后,利用修正后的用戶(hù)項(xiàng)目評(píng)分矩陣構(gòu)建項(xiàng)目Ij的用戶(hù)興趣模型。在構(gòu)造用戶(hù)興趣模型時(shí),將用戶(hù)對(duì)電影的興趣分為非常喜歡、喜歡、不喜歡和非常不喜歡,由于要將修正后的評(píng)分均值作為用戶(hù)喜歡和不喜歡的臨界點(diǎn),在多次實(shí)驗(yàn)測(cè)試后,選擇將0.75 為臨界點(diǎn),構(gòu)建的梯形隸屬度函數(shù)如下:

其中,x為用戶(hù)u對(duì)項(xiàng)目的修正評(píng)分值,為用戶(hù)u修正評(píng)分的均值,x0.75為用戶(hù)u修正評(píng)分的0.75 分位數(shù)。電影數(shù)據(jù)用戶(hù)的評(píng)分最高為5,因此x的上限設(shè)定為5,并定義用戶(hù)喜歡的項(xiàng)目集合為

2.5 推薦信任分

經(jīng)過(guò)多次實(shí)驗(yàn)比較后,本文選用cosine 余弦計(jì)算項(xiàng)目之間的相似度,即項(xiàng)目Ii和Ij的相似度計(jì)算公式為:

接下來(lái),綜合用戶(hù)的興趣和項(xiàng)目間的相似度計(jì)算推薦信任分,計(jì)算公式如式(6)所示:

其中,μIn(x)為用戶(hù)對(duì)項(xiàng)目In的喜歡程度,S(In,Ij)為In與要推薦項(xiàng)目Ij之間的相似度,推薦信任分R(Ij)表示用戶(hù)喜好程度與相似程度的加權(quán)和,數(shù)值越高表示推薦信任分越高。

最后,根據(jù)R(Ij)大小產(chǎn)生Top -N 進(jìn)行推薦。

3 實(shí)驗(yàn)結(jié)果與分析

3.1 數(shù)據(jù)集

MovieLens 100k 數(shù)據(jù)集包括943 個(gè)用戶(hù)對(duì)1 682 部電影的10 萬(wàn)條評(píng)分?jǐn)?shù)據(jù),電影類(lèi)別總共有19 種,分別為動(dòng)作、冒險(xiǎn)、動(dòng)畫(huà)等。每名用戶(hù)至少對(duì)20 部、至多對(duì)737 部電影進(jìn)行評(píng)分,評(píng)分為1-5的整數(shù)。

實(shí)驗(yàn)采用準(zhǔn)確率(Precision)和召回率(Recall)作為系統(tǒng)評(píng)價(jià)指標(biāo),計(jì)算公式如式(7)、式(8)所示:

其中,用戶(hù)u推薦的P個(gè)物品記為R(u),用戶(hù)u在測(cè)試集上喜歡的物品集合為T(mén)(u)。

3.2 實(shí)驗(yàn)步驟

本文實(shí)驗(yàn)具體步驟如下:

步驟1:調(diào)用MovieLens 100k 數(shù)據(jù)集中的u.data 文件(用戶(hù)電影評(píng)分?jǐn)?shù)據(jù)),生成用戶(hù)電影評(píng)分矩陣。

步驟2:輸入數(shù)據(jù)集中的u.Item 文件(電影所屬類(lèi)別數(shù)據(jù)),根據(jù)公式(1)生成電影所屬類(lèi)別的隸屬度矩陣。

步驟3:根據(jù)電影所屬類(lèi)別和用戶(hù)的觀影記錄,根據(jù)公式(2)構(gòu)建用戶(hù)—電影類(lèi)別偏好矩陣。

步驟4:通過(guò)用戶(hù)—電影類(lèi)別偏好矩陣,根據(jù)公式(3)對(duì)用戶(hù)電影評(píng)分矩陣進(jìn)行評(píng)分修正。

步驟5:基于修正后的評(píng)分,根據(jù)公式(4)獲得用戶(hù)喜歡的項(xiàng)目集合E。

步驟6:從數(shù)據(jù)集中隨機(jī)抽取100 個(gè)用戶(hù)作為樣本,將單個(gè)用戶(hù)修正后的電影評(píng)分劃分為訓(xùn)練集和測(cè)試集,訓(xùn)練集的大小依次為5、15、25、35、45、55,剩余樣本作為測(cè)試集。

步驟7:通過(guò)用戶(hù)興趣模型確定每個(gè)用戶(hù)感興趣的項(xiàng)目個(gè)數(shù),并通過(guò)式(5)、式(6)計(jì)算測(cè)試集的電影推薦信任分。

步驟8:根據(jù)推薦信任分產(chǎn)生Top -N,計(jì)算推薦的準(zhǔn)確率(Precision)及召回率(Recall)。

3.3 實(shí)驗(yàn)結(jié)果

本文提出的基于項(xiàng)目特征與用戶(hù)興趣模糊性的推薦算法(Based on the fuzziness of item features and user interest method,F(xiàn)IUM)分別選擇了5、15、25、35、45、55 的訓(xùn)練集個(gè)數(shù),推薦Top-5的準(zhǔn)確率如圖1所示。

Fig.1 Accuracy of FIUM algorithm圖1 FIUM算法準(zhǔn)確率

由圖1 可見(jiàn),隨著訓(xùn)練集數(shù)目增加,推薦準(zhǔn)確率先增加再減少,最后趨于穩(wěn)定,表明一旦訓(xùn)練集的數(shù)目足夠代表用戶(hù)興趣時(shí),增加訓(xùn)練集的個(gè)數(shù)將不再提高推薦準(zhǔn)確率。

接下來(lái),將FIUM 與基于用戶(hù)的協(xié)同過(guò)濾推薦算法(User-based-CF,UCF)和基于項(xiàng)目的協(xié)同過(guò)濾推薦算法(Item-based-CF,ICF)進(jìn)行比較。設(shè)定UCF 的鄰居個(gè)數(shù)與ICF 相似項(xiàng)目個(gè)數(shù)K為9,F(xiàn)IUM 的訓(xùn)練集個(gè)數(shù)同樣設(shè)置為9,N取1-300,算法的Top -N 推薦準(zhǔn)確率及召回率分別如圖2、圖3所示。

Fig.2 Comparison of accuracy between FIUM and UCF and ICF圖2 FIUM與UCF和ICF準(zhǔn)確率比較

實(shí)驗(yàn)結(jié)果表明,隨著推薦數(shù)目增多,相較于UCF 和ICF,F(xiàn)IUM 算法平均準(zhǔn)確率分別提高39.66%和5.74%;平均召回率分別提高36.68%和158.76%。當(dāng)推薦數(shù)目大于10 時(shí),F(xiàn)IUM 的準(zhǔn)確率明顯高于UCF 算法;當(dāng)推薦數(shù)目大于100時(shí),F(xiàn)IUM 算法召回率明顯高于ICF 算法的召回率。

Fig.3 Comparison of recall between FIUM and UCF and ICF圖3 FIUM與UCF和ICF召回率比較

4 結(jié)語(yǔ)

本文提出了基于項(xiàng)目特征和用戶(hù)興趣模糊性的推薦算法,并與基于用戶(hù)和基于項(xiàng)目的協(xié)同過(guò)濾算法進(jìn)行比較。實(shí)驗(yàn)結(jié)果表明,該算法的召回率和推薦準(zhǔn)確率相較于比較模型均有所提升。

然而,該算法需要計(jì)算用戶(hù)感興趣的項(xiàng)目與各個(gè)項(xiàng)目之間的相似度,在面對(duì)海量項(xiàng)目推薦時(shí),計(jì)算量較大,會(huì)導(dǎo)致系統(tǒng)推薦效率降低。并且,MovieLens 觀影數(shù)據(jù)除了以上常規(guī)數(shù)據(jù)外,還含有導(dǎo)演信息、演員信息、時(shí)間等信息,現(xiàn)階段還未將其充分利用。下一步,將嘗試對(duì)此類(lèi)信息進(jìn)行模糊化或直接加入用戶(hù)興趣模型中來(lái)提高推薦準(zhǔn)確率及召回率。

猜你喜歡
類(lèi)別準(zhǔn)確率矩陣
乳腺超聲檢查診斷乳腺腫瘤的特異度及準(zhǔn)確率分析
健康之家(2021年19期)2021-05-23 11:17:39
不同序列磁共振成像診斷脊柱損傷的臨床準(zhǔn)確率比較探討
2015—2017 年寧夏各天氣預(yù)報(bào)參考產(chǎn)品質(zhì)量檢驗(yàn)分析
高速公路車(chē)牌識(shí)別標(biāo)識(shí)站準(zhǔn)確率驗(yàn)證法
初等行變換與初等列變換并用求逆矩陣
服務(wù)類(lèi)別
矩陣
南都周刊(2015年4期)2015-09-10 07:22:44
矩陣
南都周刊(2015年3期)2015-09-10 07:22:44
矩陣
南都周刊(2015年1期)2015-09-10 07:22:44
論類(lèi)別股東會(huì)
商事法論集(2014年1期)2014-06-27 01:20:42
黄冈市| 潜江市| 库尔勒市| 东平县| 定安县| 广州市| 台前县| 文登市| 玉龙| 通城县| 万全县| 井研县| 南城县| 高陵县| 河西区| 东宁县| 南阳市| 禄丰县| 云林县| 涞源县| 安达市| 苍南县| 湖州市| 黑河市| 永丰县| 肇庆市| 平邑县| 崇仁县| 高淳县| 晋州市| 博湖县| 东乌珠穆沁旗| 新乡县| 稷山县| 永胜县| 海盐县| 大埔县| 两当县| 富裕县| 松江区| 溧阳市|