国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于改進(jìn)的傾向得分估計(jì)的無偏推薦模型

2022-01-05 02:31駱錦濰劉杜鋼潘微科
計(jì)算機(jī)應(yīng)用 2021年12期
關(guān)鍵詞:偏置長尾物品

駱錦濰,劉杜鋼,潘微科*,明 仲

(1.大數(shù)據(jù)系統(tǒng)計(jì)算技術(shù)國家工程實(shí)驗(yàn)室(深圳大學(xué)),廣東深圳 518060;2.人工智能與數(shù)字經(jīng)濟(jì)廣東省實(shí)驗(yàn)室(深圳)(深圳大學(xué)),廣東深圳 518060;3.深圳大學(xué)計(jì)算機(jī)與軟件學(xué)院,廣東深圳 518060)

(?通信作者電子郵箱panweike@szu.edu.cn)

0 引言

推薦系統(tǒng)作為大數(shù)據(jù)時代的產(chǎn)物,旨在為用戶推薦其感興趣或喜歡的物品。推薦系統(tǒng)所使用的數(shù)據(jù)通常來自用戶與物品的歷史交互行為,包括顯式反饋和隱式反饋兩種形式。顯式反饋通常是指能夠充分展示用戶對物品偏好程度的反饋(如評分);而隱式反饋則通常指點(diǎn)擊、瀏覽等不能充分表示用戶偏好的反饋[1]。相比收集過程困難的顯式反饋,隱式反饋廣泛存在于用戶與系統(tǒng)的行為日志中,收集成本低廉,因此基于隱式反饋的推薦算法研究更符合現(xiàn)實(shí)場景[2]。

另一方面,推薦系統(tǒng)遭受著各種偏置問題,例如曝光偏置(exposure bias)、位置偏置(position bias)和選擇偏置(selection bias)等[3]。其中,曝光偏置是指推薦系統(tǒng)會給予不同的物品不同的曝光概率從而導(dǎo)致數(shù)據(jù)的采集存在偏置。例如:某不滿足用戶偏好的物品由于得到系統(tǒng)高頻的曝光而被用戶點(diǎn)擊,進(jìn)而導(dǎo)致系統(tǒng)增加推薦該物品的次數(shù)。如果不對數(shù)據(jù)偏置進(jìn)行處理,推薦系統(tǒng)難以捕捉用戶的真實(shí)偏好,有損推薦的多樣性和公平性。相比傳統(tǒng)推薦模型,無偏推薦模型的關(guān)注點(diǎn)在于如何從有偏的歷史交互記錄中挖掘用戶無偏的真實(shí)偏好信息,因此近年來受到學(xué)術(shù)界和工業(yè)界愈來愈多的關(guān)注[4-5]。

其中,基于傾向得分估計(jì)(propensity socre estimation)的無偏推薦模型能夠有效緩解曝光偏置,但這類模型的糾偏程度和性能依賴于傾向得分估計(jì)的準(zhǔn)確度[6]。目前關(guān)于顯式反饋數(shù)據(jù)的傾向得分估計(jì)的研究已比較充分,而對于推薦系統(tǒng)中更常用的隱式反饋數(shù)據(jù)傾向得分估計(jì)的研究還非常少,這將限制基于傾向得分估計(jì)的推薦模型的糾偏能力和推薦性能。對于推薦系統(tǒng)中隱式反饋數(shù)據(jù)中的曝光偏置,先前的方法只通過從稀疏數(shù)據(jù)中獲取物品的流行度信息來估計(jì)傾向得分,這導(dǎo)致傾向得分估計(jì)不夠精確,進(jìn)而會對模型的性能和無偏性質(zhì)帶來損害。為了克服現(xiàn)有方法在傾向得分估計(jì)上的不足,本文同時挖掘隱式反饋數(shù)據(jù)中用戶層面和物品層面的信息,并通過用戶流行度偏好和物品流行度配對的思想將兩者融合起來,最終得到配對傾向得分估計(jì)(Match Propensity Estimator,MPE)方法。

本文的主要工作包括:

1)提出一種同時利用物品層面與用戶層面信息的MPE方法。該方法在無輔助數(shù)據(jù)集的情況下,以用戶的流行度偏好作為切入點(diǎn),融合用戶層面和物品層面的信息,實(shí)現(xiàn)了對傾向得分更精確的估計(jì)。

2)將所提出的MPE 方法與傳統(tǒng)推薦模型和前沿?zé)o偏推薦模型進(jìn)行結(jié)合,并在無偏推薦領(lǐng)域的公開數(shù)據(jù)集上開展了一系列實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果表明MPE 方法能夠有效緩解隱式反饋數(shù)據(jù)中的曝光偏置,進(jìn)而讓模型在各項(xiàng)推薦指標(biāo)上優(yōu)于相關(guān)工作。

3)得益于MPE 對曝光偏置問題的解決,可以使模型從有偏數(shù)據(jù)中更好地捕捉用戶無偏的真實(shí)偏好,進(jìn)而提升模型在長尾物品上的推薦性能。

1 相關(guān)工作

1.1 傳統(tǒng)推薦模型

在推薦系統(tǒng)算法的研究中,基于協(xié)同過濾的算法被廣泛接受和應(yīng)用[7]。協(xié)同過濾的思想是通過尋找和利用不同用戶之間或(和)不同物品之間的相似性來協(xié)同地預(yù)測用戶對物品的喜好程度。在協(xié)同過濾的研究中,因?yàn)槠浜唵吻腋咝У奶攸c(diǎn),潛在因素模型(latent factor model)一直是推薦系統(tǒng)算法研究的熱點(diǎn)[8]。潛在特征模型通過訓(xùn)練學(xué)習(xí)用戶和物品的潛在特征向量,并利用這些潛在特征向量來計(jì)算用戶偏好,進(jìn)而實(shí)現(xiàn)推薦。

基于隱式反饋的推薦算法面臨著兩大難題,即正未標(biāo)記問題(positive-unlabeled problem)和非隨機(jī)缺失(Missing-Not-At-Random,MNAR)問題。正未標(biāo)記問題是指推薦系統(tǒng)所收集的隱式反饋只包括正反饋(如點(diǎn)擊、收藏、購買),而未觀測樣本可能包含負(fù)反饋和潛在的正反饋[9]。這意味著一個物品沒有得到點(diǎn)擊可能是由于用戶不喜歡,也可能是因?yàn)橛脩魶]有觀測到該物品而無法點(diǎn)擊。非隨機(jī)缺失問題則是由于數(shù)據(jù)偏置所導(dǎo)致的[10-11],例如,推薦系統(tǒng)通常會傾向于推薦熱門的物品,這會導(dǎo)致在長尾物品上的數(shù)據(jù)缺失程度比熱門物品上的嚴(yán)重得多。如果推薦模型不對數(shù)據(jù)偏置進(jìn)行處理,將使得原本的流行物品獲得更多的曝光機(jī)會,而長尾物品則難以被用戶所觀測到,即馬太效應(yīng)。

隱式反饋通常對應(yīng)于top-K排序問題,而成對偏好假設(shè)更為接近排序問題的設(shè)定,因此有學(xué)者提出了基于成對損失函數(shù)的貝葉斯個性化排序(Bayesian Personalized Ranking,BPR)模型[12],其核心思想為:相比未點(diǎn)擊的物品,用戶可能更喜歡點(diǎn)擊的物品,模型通過極大似然估計(jì)來最大化正負(fù)樣本(即點(diǎn)擊與未點(diǎn)擊樣本)之間的差異。BPR 模型在排序任務(wù)上能取得較好的效果,且先前的工作通常都將其作為一個重要的基線模型。

作為另外一個重要的分支,權(quán)重矩陣分解(Weighted Matrix Factorization,WMF)[13]基于一個啟發(fā)式的想法:在隱式反饋的設(shè)定下,由于正未標(biāo)記問題的存在,無法將未觀測樣本完全置信地作為負(fù)樣本。因此,相比未觀測樣本,應(yīng)給予正樣本更高的權(quán)重。在后續(xù)的工作中,有學(xué)者認(rèn)為WMF對未觀測樣本賦予一樣的權(quán)重是不合理的,并首次提出了基于物品流行度來為未觀測樣本進(jìn)行加權(quán)的快速矩陣分解(Fast Matrix Factorization,F(xiàn)MF)方法[14]。FMF 同樣基于一個啟發(fā)式的想法:用戶沒有點(diǎn)擊一個流行物品則表示該用戶很可能不喜歡該物品。

在傳統(tǒng)推薦模型的研究中,先前的工作主要基于啟發(fā)式的想法來設(shè)計(jì)新的模型,以便更好地符合隱式反饋的設(shè)定;另一方面,數(shù)據(jù)偏置的問題沒有得到充分的重視和研究。

1.2 無偏推薦模型

在現(xiàn)有文獻(xiàn)中,無偏推薦算法的研究方向主要分為以下兩種:1)利用少量無偏權(quán)威數(shù)據(jù)(gold-standard data)的方法;2)基于逆傾向得分(Inverse Propensity Score,IPS)的方法。

利用少量無偏權(quán)威數(shù)據(jù)的方法旨在利用由均勻策略收集得到的小規(guī)模的無偏數(shù)據(jù)集去幫助在大規(guī)模的有偏數(shù)據(jù)集上構(gòu)建無偏的推薦算法[15]。均勻策略是指不使用部署的推薦策略進(jìn)行物品的推送,而是隨機(jī)地從候選集中選擇物品,且對它們進(jìn)行隨機(jī)排序以進(jìn)行展示。均勻策略盡可能地屏蔽了系統(tǒng)層面上偏置的來源,這意味著在均勻策略下收集到的觀測數(shù)據(jù)可以被認(rèn)為是一個權(quán)威的無偏數(shù)據(jù)。文獻(xiàn)[15]中,作者分別對有偏數(shù)據(jù)和無偏數(shù)據(jù)進(jìn)行建模,并且利用一個參數(shù)對齊項(xiàng)來將無偏知識進(jìn)行遷移。隨后,有研究人員提出了一個基于無偏數(shù)據(jù)和知識蒸餾的反事實(shí)推薦框架[16],其中無偏數(shù)據(jù)分別在四個不同的蒸餾模塊中被更充分地利用。但是這個方向的一個難處在于無偏數(shù)據(jù)的收集需要高昂的代價(jià),尤其當(dāng)其在真實(shí)產(chǎn)品的線上流量中部署時。

基于IPS 的方法旨在利用傾向得分來將有偏數(shù)據(jù)分布平衡為無偏數(shù)據(jù)分布,從而解決偏置問題。傾向得分(propensity score)的概念于1983 年首次提出[17]。文獻(xiàn)[6]中,作者首次將IPS 應(yīng)用在推薦算法中,提出了矩陣分解的IPS 版本MF-IPS,同時也提出了顯式反饋設(shè)定下的傾向得分估計(jì)方法(naive Bayes 等)。文獻(xiàn)[18]中,字節(jié)跳動公司在搜索系統(tǒng)領(lǐng)域首次提出了基于成對損失函數(shù)的無偏置排序算法,緩解了在搜索系統(tǒng)領(lǐng)域中位置偏置的問題。由于IPS 具有簡潔、可離線計(jì)算和高效的特點(diǎn),當(dāng)前大部分旨在解決偏置問題的工作都遵循這個思路。

除了上述兩個方向,有研究者嘗試在評分預(yù)測問題上同時使用無偏數(shù)據(jù)和傾向得分來緩解數(shù)據(jù)偏置[19]。

文獻(xiàn)[20]的作者將IPS 框架首次應(yīng)用到基于隱式反饋的推薦算法中,提出了相關(guān)性矩陣分解(Relevance Matrix Factorization,RMF)模型,并從理論上證明了該模型具有無偏的性質(zhì)。

2 推薦模型

本章將給出符號描述與相關(guān)定義,并介紹本文所使用的傳統(tǒng)推薦模型FMF和前沿的無偏推薦模型RMF。

2.1 符號系統(tǒng)描述

假設(shè)有用戶全集U={1,2,…,n}和物品集合I={1,2,…,m};Yu,i∈{0,1}則表示用戶u對物品i的點(diǎn)擊反饋,包括點(diǎn)擊(1)和未點(diǎn)擊(0);D為訓(xùn)練數(shù)據(jù),其中包括觀測到的點(diǎn)擊樣本和隨機(jī)采樣的未觀測樣本。在本文中,推薦系統(tǒng)的目標(biāo)是根據(jù)D中不同用戶的歷史交互記錄,挖掘用戶的真實(shí)偏好,并最終給用戶生成先前未交互過且符合用戶偏好的物品列表。

本文所涉及的模型均屬于潛在特征模型,該類模型將反饋矩陣分解或映射為潛在特征空間中的用戶特征矩陣和物品特征矩陣。通過優(yōu)化預(yù)設(shè)的損失函數(shù)獲得最佳的用戶特征向量和物品特征向量后,便可以通過向量的內(nèi)積來計(jì)算用戶在原有隱式反饋矩陣中的缺失值。最終按照預(yù)測值進(jìn)行降序排序后,選擇前K個物品推薦給用戶。

2.2 快速矩陣分解模型

快速矩陣分解(FMF)模型[14]的損失函數(shù)為:

其中:w≥1 是一個超參數(shù),表示點(diǎn)擊數(shù)據(jù)相比未點(diǎn)擊數(shù)據(jù)的置信度,在沒有先驗(yàn)知識的情況下,該方法對所有點(diǎn)擊數(shù)據(jù)設(shè)置相同的權(quán)重;ci為物品i的流行度;Uu?和Vi?則表示用戶u和物品i的潛在特征向量;λ為正則化項(xiàng)上的參數(shù),用于防止模型過擬合;分別表示一個樣本(u,i)的正損失函數(shù)(標(biāo)簽為1)和負(fù)損失函數(shù)(標(biāo)簽為0),其中損失函數(shù)可以是交叉熵或平方損失等。為了公平起見,在本文的所有實(shí)驗(yàn)中都采用平方損失(square loss):

2.3 相關(guān)性矩陣分解模型

相關(guān)性矩陣分解(RMF)從理想損失函數(shù)出發(fā),通過IPS框架得到RMF模型[20]的損失函數(shù)如下:

其中:θu,i為IPS 框架下的傾向得分,在RMF 模型中也可以解釋為樣本(u,i)的曝光概率。RMF 采用潛在特征模型,預(yù)測規(guī)則同式(3)。本文略去RMF 的具體推導(dǎo)過程,但從其損失函數(shù)可以看出在正樣本部分(點(diǎn)擊數(shù)據(jù)),RMF 給每個樣本(u,i)賦予一個個性化的權(quán)重,代表不同曝光概率的正樣本相關(guān)性不同,即RMF 通過逆傾向得分在一定程度上恢復(fù)由曝光偏置導(dǎo)致的分布漂移。在已知真實(shí)的傾向得分的理想情況下,RMF可以有效緩解曝光偏置。

3 傾向得分估計(jì)

與傳統(tǒng)推薦算法相比,基于IPS 的推薦模型能較好地解決數(shù)據(jù)的偏置問題,但是其性能嚴(yán)重依賴于傾向得分估計(jì)的準(zhǔn)確性,即傾向得分的估計(jì)準(zhǔn)確性直接影響IPS 模型的糾偏能力,只有在已知真實(shí)的傾向得分的理想情況下,IPS 模型才能被認(rèn)為具有真正的無偏性質(zhì)。然而在現(xiàn)實(shí)中,只能通過傾向得分估計(jì)方法對傾向得分進(jìn)行估計(jì),其中傾向得分估計(jì)值越準(zhǔn)確,則IPS 模型越接近于無偏模型,從而具有更好的性能。對于推薦系統(tǒng)中常見的隱式反饋數(shù)據(jù),現(xiàn)有工作在傾向得分估計(jì)的準(zhǔn)確性上亟待改進(jìn)。本章將首先分析現(xiàn)有傾向得分估計(jì)方法的缺陷,隨后,提出一個新的配對傾向得分估計(jì)(MPE)方法來克服這些缺陷,從而進(jìn)一步提升基于IPS 的推薦模型的性能。

3.1 流行度傾向得分估計(jì)方法

在RMF[20]中,作者采用流行度敏感(popularity-aware)的傾向得分估計(jì)方法,即通過計(jì)算物品流行度來估計(jì)曝光率。其估計(jì)方法如下所示:其中:τ≤1 為平滑項(xiàng),U為用戶全集,I為物品全集。式(5)旨在通過計(jì)算物品i的相對點(diǎn)擊概率來估計(jì)物品流行度,從而確定傾向得分的具體數(shù)值。

流行度傾向得分估計(jì)方法可以解釋為對于所有用戶,推薦系統(tǒng)都“一視同仁”地按照物品的流行度高低進(jìn)行推薦。這與推薦系統(tǒng)旨在實(shí)現(xiàn)個性化推薦的目標(biāo)不一致。換言之,推薦系統(tǒng)應(yīng)該學(xué)習(xí)不同用戶的不同偏好,從而對不同的用戶采用不同的推薦策略。另一方面,只考慮物品層面的信息來估計(jì)傾向得分可能是不充分和不準(zhǔn)確的。正如前面所述,傾向得分的估計(jì)精度會直接影響模型的糾偏能力并最終影響推薦效果,因此有必要引入更多信息來提升傾向得分估計(jì)的準(zhǔn)確性。

傳統(tǒng)的推薦模型FMF 雖然沒有使用IPS 框架,但其在未觀測數(shù)據(jù)部分的加權(quán)處理在一定程度上也可以被解釋為傾向得分。為了實(shí)驗(yàn)的統(tǒng)一,本文同樣采用式(5)來計(jì)算FMF 模型在損失函數(shù)式(1)中的ci,即物品i的流行度。

3.2 配對傾向得分估計(jì)方法

在沒有輔助數(shù)據(jù)集的情況下,估計(jì)傾向得分的難點(diǎn)在于如何從稀疏的隱式反饋數(shù)據(jù)中挖掘用戶層面的信息和物品層面的流行度信息,并將它們進(jìn)行結(jié)合,以更好地建模歷史推薦系統(tǒng)的曝光率。

在流行度偏置的研究中,研究人員已經(jīng)觀察到不同用戶對待“流行物品”的態(tài)度是不一樣的。文獻(xiàn)[21]的作者將用戶劃分為熱門導(dǎo)向型(blockbusters-focused)、追求多樣型(diverse)和獵奇型(niche),通過實(shí)證研究驗(yàn)證了不同用戶對流行度的偏好程度是不同的?;谶@個結(jié)論,本文創(chuàng)新性地以用戶的“流行度偏好”作為切入點(diǎn)來挖掘用戶層面的信息,進(jìn)而提出MPE方法:

其中:pi表示物品i的流行度,由式(7)計(jì)算;Pu表示從歷史數(shù)據(jù)中估計(jì)的用戶u的“流行度偏好”,數(shù)值越高表示該用戶的流行度偏好程度越高。本文首先提取用戶u的歷史點(diǎn)擊物品集合Iu,然后計(jì)算所有物品流行度pi的均值,如式(8)所示;α∈(0,1]為閾值參數(shù),代表樣本(u,i)在推薦系統(tǒng)中能獲得的最大曝光率。MPE方法的思想是歷史推薦系統(tǒng)可以捕捉到用戶個性化的“流行度偏好”,當(dāng)物品i的流行度與用戶u的“流行度偏好”越匹配時,樣本(u,i)在歷史推薦系統(tǒng)中就會獲得越高的曝光率。注意,當(dāng)兩者完全匹配(|Pu-pi|=0)時,曝光率θu,i為閾值α。

進(jìn)一步可以發(fā)現(xiàn),式(5)的流行度傾向得分估計(jì)方法實(shí)際上是本文MPE 方法的一個特例,即當(dāng)α=1,Pu=1 時,θu,i=1-||1-pi=pi,MPE 退化為流行度傾向得分估計(jì)方法。從這個視角可以看出,流行度傾向得分實(shí)際上是將所有用戶看作極端的熱門導(dǎo)向型用戶,而這顯然是對用戶群體做出的一個過于簡化的假設(shè)。挖掘并結(jié)合用戶流行度偏好信息的MPE方法可以很好地解決這個問題。

為了驗(yàn)證本文MPE 方法的有效性,本文分別將MPE 與原始的FMF 模型[14]和RMF 模型[20]進(jìn)行結(jié)合,并將它們稱作FMF-MPE 模型和RMF-MPE 模型,其中RMF-MPE 模型的訓(xùn)練算法如下:

算法1 RMF-MPE模型訓(xùn)練算法。

輸入 觀測數(shù)據(jù)點(diǎn)擊矩陣Y∈{0,1}n×m,學(xué)習(xí)率μ,潛在特征維度d,正則化參數(shù)λ,傾向得分的最小閾值M,迭代次數(shù)T;

輸出 訓(xùn)練好的模型參數(shù):用戶潛在特征矩陣U∈Rn×d,物品潛在特征矩陣V∈Rm×d。

RMF-MPE模型的算法流程主要分為兩部分:

1)傾向得分的估計(jì)。輸入觀測數(shù)據(jù)點(diǎn)擊矩陣Y∈{0,1}n×m,通過MPE 估計(jì)每個(u,i)樣本的傾向得分并保存。值得注意的是,本文通過預(yù)先設(shè)置的閾值M來限制傾向得分的最小值(算法1第3)步)。先前的研究已經(jīng)表明這種處理有助于減少IPS模型的方差[20]。

2)模型的損失函數(shù)的優(yōu)化。在每一次迭代中,根據(jù)模型具體的損失函數(shù)求取梯度,然后通過梯度下降的方式來更新模型參數(shù),即用戶潛在特征矩陣U∈Rn×d和物品潛在特征矩陣V∈Rm×d。

4 實(shí)驗(yàn)與結(jié)果

4.1 數(shù)據(jù)集

本文采用在現(xiàn)有工作中最常用的Yahoo!R3數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù)集。需要說明的是,本文僅選用Yahoo!R3 數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù)集是因?yàn)樗悄壳皟H有的一個較大的,且提供在均勻策略下收集到的測試集的公開的推薦系統(tǒng)數(shù)據(jù)集。Yahoo!R3 數(shù)據(jù)集是雅虎公司在音樂服務(wù)推薦中收集的顯式反饋評分?jǐn)?shù)據(jù)。Yahoo!R3 數(shù)據(jù)包括15 400 位用戶和1 000首歌曲。訓(xùn)練集中有超過300 000 條在正常交互場景下收集的用戶對音樂的評分記錄,其中每個用戶至少有10 條評分記錄。Yahoo!R3 數(shù)據(jù)集還提供了一個使用均勻策略收集到的測試集:系統(tǒng)為5 400 位用戶中的每個用戶隨機(jī)選取10 首音樂作品,并要求該用戶對這些音樂作品給予反饋。因此,Yahoo!R3 的測試集可以被認(rèn)為是完全隨機(jī)缺失的(missing at complete random),即具有無偏性質(zhì)。

需要說明的是,不同于傳統(tǒng)推薦算法的評估,無偏置推薦算法的評估需要在具有無偏性質(zhì)的測試集上才能驗(yàn)證推薦模型的無偏性質(zhì)與真正性能[22]。因此,本文采用Yahoo!R3 數(shù)據(jù)集而不是其他常見的推薦數(shù)據(jù)集,例如MovieLens數(shù)據(jù)集。

本文采用與文獻(xiàn)[20]一致的數(shù)據(jù)集處理方式:將數(shù)據(jù)集里的評分記錄數(shù)據(jù)轉(zhuǎn)化為隱式反饋數(shù)據(jù),即將評分記錄ru,i≥4 的樣本當(dāng)作點(diǎn)擊數(shù)據(jù)(Yu,i=1),將其他樣本作為未觀測數(shù)據(jù)(Yu,i=0)。由于Yahoo!R3已劃分好訓(xùn)練集和均勻策略收集的測試集,本文在訓(xùn)練集中隨機(jī)選取10%的樣本作為驗(yàn)證集,并在驗(yàn)證集上對模型參數(shù)進(jìn)行調(diào)優(yōu)。最后,在權(quán)威的隨機(jī)測試集上進(jìn)行效果評估。

4.2 評估指標(biāo)

本文采用三種常用的排序評估指標(biāo),分別是折損累計(jì)增益(Discounted Cumulative Gain,DCG)、召回率(Recall)和平均精確率(Mean Average Precision,MAP)。將推薦列表的長度記為K,則三個評估指標(biāo)可以表示為DCG@K、Recall@K和MAP@K,用于評估推薦算法在排序前K個位置的表現(xiàn)。令推薦算法為用戶u產(chǎn)生的長度為k的推薦列表為Ire@ku,實(shí)驗(yàn)測試集中用戶u喜歡的物品集合為Iteu,測試集中的用戶集合為Ute。

DCG 是評估排序任務(wù)的一個綜合性指標(biāo),計(jì)算公式如式(9),其中:l表示用戶u的推薦列表中的位置,δ(i(l)∈Iteu)表示推薦列表中第l個物品是否在測試集中用戶u的喜歡物品中。DCG越大表示算法在排序推薦中的準(zhǔn)確性越高。

召回率計(jì)算推薦列表前K個位置包含的測試集中用戶喜歡的物品個數(shù)占測試集中用戶喜歡的物品總個數(shù)的比例,計(jì)算公式如式(10)。算法的召回率越大表示算法能夠準(zhǔn)確地覆蓋更多的未知正樣本。

4.3 對比模型

如前所述,本文專注于解決推薦系統(tǒng)中隱式反饋數(shù)據(jù)的曝光偏置問題。在基于隱式反饋的傳統(tǒng)推薦方法中,貝葉斯個性化排序(BPR)[12]是一個有代表性的經(jīng)典算法,本文將其作為一個基線模型。FMF[14]和RMF[20]是與本文方法最接近的兩個主流算法,在本文中被視為兩個重要的基線模型。其中,RMF 是前沿且具有代表性的基于隱式反饋的無偏推薦算法。因此,實(shí)驗(yàn)部分包含BPR、FMF、RMF、FMF-MPE 和RMFMPE 五個推薦模型,其中FMF-MPE 和RMF-MPE 是結(jié)合本文MPE方法的模型。

4.4 參數(shù)調(diào)節(jié)

對于FMF模型和FMF-MPE模型,本文統(tǒng)一地設(shè)置正樣本權(quán)重為1 以確保對比的公平性。流行度傾向得分估計(jì)方法和MPE 方法中的τ值根據(jù)文獻(xiàn)[20]將其設(shè)置為τ=0.5,傾向得分的最小閾值統(tǒng)一地設(shè)置為M=0.01。MPE 方法中的α在{0.6,0.7,…,1}范圍內(nèi)進(jìn)行選擇。本文所有模型算法的潛在特征的特征維度d在{20,30,…,200}范圍內(nèi)進(jìn)行選擇,正則化參數(shù)λ在{0.000 01,0.000 1,…,0.01}范圍內(nèi)選擇,迭代次數(shù)T統(tǒng)一設(shè)置為300。五個模型的最佳參數(shù)如下所示:

BPR:d=30,λ=0.000 1。

FMF:w=1,d=200。

FMF-MPE:w=1,d=200,λ=0.000 01,α=0.8。

RMF:d=200,λ=0.000 01。

RMF-MPE:d=200,λ=0.000 01,α=0.8。

4.5 實(shí)驗(yàn)結(jié)果及分析

實(shí)驗(yàn)一:物品全集上的實(shí)驗(yàn)。

上述五個模型算法在Yahoo!R3數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表1所示。

表1 五個模型在Yahoo!R3數(shù)據(jù)集上的推薦性能Tab.1 Recommendation performance of five models on Yahoo!R3 dataset

通過對表1的實(shí)驗(yàn)結(jié)果進(jìn)行分析,可以得出以下結(jié)論:

1)FMF 的表現(xiàn)與BPR 相近,總體上略微遜色于BPR?;贗PS 的RMF 模型表現(xiàn)顯著優(yōu)于FMF 和BPR,這得益于IPS模型可以有效地緩解數(shù)據(jù)的偏置問題,從而使RMF 模型可以學(xué)習(xí)到更為無偏的潛在特征。

2)結(jié)合本文MPE方法的RMF-MPE的表現(xiàn)相比RMF有顯著的提升(DCG@5相比RMF提升了5.35%),是在各項(xiàng)評估指標(biāo)中表現(xiàn)最佳的模型。這表明相較于流行度傾向得分估計(jì)方法,MPE能在相同的數(shù)據(jù)中挖掘出更多的有用信息,即用戶層面的流行度偏好信息,最終實(shí)現(xiàn)對曝光率更精確的建模。由于IPS 框架模型的效果與傾向得分估計(jì)精確度直接相關(guān),RMF-MPE 的實(shí)驗(yàn)結(jié)果驗(yàn)證了本文MPE 方法實(shí)現(xiàn)了更加精確的傾向得分估計(jì),進(jìn)而提升了推薦模型的無偏程度和推薦性能。

3)結(jié)合本文MPE 方法的FMF-MPE 模型相比FMF 模型在所有指標(biāo)上也都有顯著地提升,綜合性能接近RMF 模型。值得注意的是,F(xiàn)MF 不是基于IPS 框架的模型,其效果的提升也驗(yàn)證了MPE 對歷史推薦系統(tǒng)在曝光率建模上的有效性,并且說明MPE具有較好的通用性。

實(shí)驗(yàn)二:長尾物品上的實(shí)驗(yàn)。

將Yahoo!R3數(shù)據(jù)集中的物品按照點(diǎn)擊數(shù)從大到小進(jìn)行排序,并以物品排序?yàn)闄M坐標(biāo),點(diǎn)擊次數(shù)為縱坐標(biāo)進(jìn)行統(tǒng)計(jì),得到長尾分布如圖1所示。

圖1 Yahoo!R3數(shù)據(jù)集中物品的點(diǎn)擊次數(shù)分布Fig.1 Distribution of number of clicks on items in Yahoo!R3 dataset

在推薦系統(tǒng)的場景下,長尾物品的有效推薦也是一個非常重要的研究問題。推薦系統(tǒng)往往能夠在流行度高的“短頭”(short-head)部分取得很好的推薦效果,而在“長尾”(long-tail)部分的推薦效果往往不盡人意[23-24]。處理長尾部分中零散的、個性化的需求問題能夠創(chuàng)造比短頭部分還要大的利潤。由于曝光偏置可能是導(dǎo)致長尾效應(yīng)的一個重要因素,解決曝光偏置可望提升推薦模型在長尾物品上的推薦效果。

因此,本文對上述五種模型算法在長尾物品上的推薦效果進(jìn)行進(jìn)一步的實(shí)驗(yàn)。將點(diǎn)擊數(shù)排名前10%的物品標(biāo)記為Yahoo!R3 的短頭物品,其余為長尾物品。在保持所有實(shí)驗(yàn)的模型參數(shù)、訓(xùn)練過程不變的基礎(chǔ)上,僅在測試集中的長尾物品(點(diǎn)擊次數(shù)<250 的物品)子集上進(jìn)行推薦效果評估。實(shí)驗(yàn)結(jié)果如圖2所示。

圖2 五個模型在Yahoo!R3數(shù)據(jù)集中長尾物品上的推薦效果Fig.2 Recommendation performance of five models on long-tail items in Yahoo!R3 dataset

通過對圖2的實(shí)驗(yàn)結(jié)果進(jìn)行分析,可以得出以下結(jié)論:

1)從DCG 和MAP評估指標(biāo)來看,五個模型在長尾物品上的實(shí)驗(yàn)結(jié)果相比在物品全集上的實(shí)驗(yàn)結(jié)果有較大的差距,而在召回率上呈現(xiàn)出不一樣的趨勢。這可能是因?yàn)樵趯y試集縮小為原來的長尾物品子集后,長尾物品實(shí)驗(yàn)中的待召回物品數(shù)目減少而導(dǎo)致召回率提升(評估指標(biāo)的局限性)。五個模型在長尾部分的推薦效果表現(xiàn)均遜色于它們在物品全集上的表現(xiàn),這驗(yàn)證了推薦系統(tǒng)中長尾難題的存在,也符合經(jīng)驗(yàn)上的認(rèn)知。

2)BPR、FMF、FMF-MPE、RMF和RMF-MPE在長尾物品上的推薦性能依次提升,且FMF 在長尾物品上的表現(xiàn)優(yōu)于BPR(物品全集上呈現(xiàn)相反的趨勢)??梢钥闯?,基于IPS 的RMF和RMF-MPE相比傳統(tǒng)推薦模型,在長尾物品推薦上的性能有顯著的提升,這得益于傾向得分對數(shù)據(jù)偏置問題的有效解決。從式(4)可以看到,RMF 為觀測數(shù)據(jù)中的長尾物品樣本(即曝光率小的點(diǎn)擊樣本)賦予了更高的權(quán)重。這表示在訓(xùn)練過程中模型根據(jù)傾向得分適應(yīng)性地提高了長尾物品的權(quán)重,即系統(tǒng)更加信任從這些長尾物品樣本中所學(xué)習(xí)到的個性化偏好信息,這也是符合直覺的一個結(jié)果。

3)我們認(rèn)為RMF-MPE 相比RMF 在長尾物品上的提升來自MPE 對傾向得分估計(jì)精度的提高,使得模型捕捉到用戶更具適應(yīng)性的無偏偏好。RMF 與RMF-MPE 都是基于逆傾向得分的模型,因此整體來說都會提升長尾物品在損失函數(shù)中的權(quán)重(長尾物品的曝光率低);而MPE 根據(jù)用戶的流行度偏好將用戶分類,融合用戶側(cè)和物品側(cè)的信息來估計(jì)傾向得分,使得同一物品對不同用戶有不同的傾向得分值,這在一定程度上增強(qiáng)了模型的表達(dá)能力,從而提升長尾物品上的性能。這說明數(shù)據(jù)糾偏對于提升長尾物品上的推薦性能是至關(guān)重要的,也值得今后在這方向上進(jìn)行更深入的研究。

5 結(jié)語

本文針對現(xiàn)有的基于隱式反饋的無偏推薦算法在傾向得分估計(jì)上的缺陷,在分析先前工作不足的基礎(chǔ)上,引入用戶的流行度偏好,并通過配對用戶流行度偏好和物品流行度,提出了配對傾向得分估計(jì)(MPE)方法,并在公開數(shù)據(jù)集上通過實(shí)驗(yàn)驗(yàn)證了MPE 的有效性和通用性。在未來希望能夠進(jìn)一步研究以下幾點(diǎn):1)由于推薦系統(tǒng)的迭代,不同時間點(diǎn)的傾向得分是變化的,在未來的研究中可以探討如何有效地利用時序信息;2)基于隱式反饋的傾向得分的估計(jì)精度還有進(jìn)一步提升的空間,我們將研究如何構(gòu)建更加通用和更加精確的傾向得分估計(jì)方法;3)無偏置推薦算法在評估時受限于無偏置測試集的收集,在未來的研究中可以探討傳統(tǒng)推薦算法的評估和無偏置推薦算法的評估的互補(bǔ)性。

猜你喜歡
偏置長尾物品
噴錫鋼網(wǎng)曲線偏置方法研究
基于動態(tài)語義記憶網(wǎng)絡(luò)的長尾圖像描述生成
基于40%正面偏置碰撞的某車型仿真及結(jié)構(gòu)優(yōu)化
基于雙向線性插值的車道輔助系統(tǒng)障礙避讓研究
稱物品
某越野車小偏置碰撞結(jié)構(gòu)優(yōu)化
圖畫捉迷藏
找物品
創(chuàng)意,源自生活的可愛小物品