国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于帕累托效應(yīng)視角下的推薦系統(tǒng)多角度公平性

2022-01-27 13:39:38杜清月黃曉雯桑基韜
太原理工大學(xué)學(xué)報 2022年1期
關(guān)鍵詞:公平性偏差物品

杜清月,黃曉雯,?;w

(北京交通大學(xué) 計算機與信息技術(shù)學(xué)院,交通數(shù)據(jù)分析與挖掘北京市重點實驗室,北京 100044)

推薦系統(tǒng)通過學(xué)習(xí)用戶的行為捕捉用戶偏好,繼而為用戶推薦符合用戶興趣的物品或信息。目前常見的推薦系統(tǒng)應(yīng)用場景有:電子商務(wù)、電影和視頻、音樂、社交網(wǎng)絡(luò)、閱讀、基于位置的服務(wù)、個性化郵件和廣告等。在線平臺使用推薦系統(tǒng)挖掘用戶潛在的興趣從而獲得巨大的商機和盈利。

盡管推薦系統(tǒng)在工業(yè)應(yīng)用中獲得廣泛應(yīng)用,并已被驗證其有提升平臺效益的作用,然而推薦系統(tǒng)使用的用戶行為數(shù)據(jù)是觀察性的,這使得數(shù)據(jù)中廣泛存在的各種偏差會導(dǎo)致推薦系統(tǒng)的結(jié)果出現(xiàn)不公平的現(xiàn)象。推薦系統(tǒng)是一個多利益相關(guān)者的復(fù)雜系統(tǒng),其中涉及的角色有作為接受推薦物品的用戶和提供物品的商家,如圖1所示。根據(jù)推薦系統(tǒng)影響的角色可以將推薦系統(tǒng)公平性分為用戶角度公平性和物品角度公平性。用戶角度公平性指推薦系統(tǒng)會根據(jù)用戶私有敏感屬性提出推薦建議,而不是用戶的真實偏好,這對具有不同敏感屬性的用戶來說是不公平的。物品角度公平性是由于物品私有屬性(例如曝光,位置)不同,導(dǎo)致物品得到的點擊概率不同,從而影響推薦系統(tǒng)捕捉用戶偏好而造成推薦誤差,從而引起物品角度的不公平現(xiàn)象。

圖1 推薦系統(tǒng)中用戶角度和物品角度公平性示意圖Fig.1 User fairness and item fairness in recommender system

用戶角度公平性是由于推薦系統(tǒng)的數(shù)據(jù)是觀察得到的,推薦系統(tǒng)在分析這些數(shù)據(jù)后往往會得出一些虛假的相關(guān)性結(jié)論,即用戶的偏好與其私有敏感屬性(例如性別、年齡、職業(yè)等)高度相關(guān),這導(dǎo)致推薦系統(tǒng)會根據(jù)用戶的敏感屬性做出推薦建議。例如,美妝視頻的點擊量大部分來源于女性,NBA相關(guān)視頻則更受男性青睞,推薦系統(tǒng)往往傾向于向女性推薦美妝視頻,向男性推薦NBA視頻,在這種情況下,推薦系統(tǒng)受到用戶敏感屬性的嚴重影響,對美妝和NBA都喜歡的用戶無法獲得足夠的推薦信息,對這類用戶來說是不公平的。公平的推薦系統(tǒng)在給用戶做出推薦時并不過分依賴用戶敏感屬性。目前許多研究工作提出消除用戶敏感屬性信息來獲得公平的推薦,但是這些策略在消除用戶敏感屬性信息時往往會出現(xiàn)多目標的帕累托效應(yīng)問題。通常情況下,提高用戶角度公平性會損害推薦準確率[1],這與推薦系統(tǒng)保證推薦性能的基礎(chǔ)目標相悖。因此,解決用戶角度存在的不公平性,構(gòu)建用戶公平感知的推薦系統(tǒng)具有兩個目標:一是提升用戶角度公平性,二是保證推薦系統(tǒng)準確率。

物品角度的公平性是由于物品某些私有屬性導(dǎo)致其得到的推薦概率不同,推薦系統(tǒng)經(jīng)過數(shù)據(jù)分析會加重這種偏差。常見物品角度公平性問題有物品曝光偏差和位置偏差等。針對物品角度的偏差問題,很多研究工作使用采樣的方式通過對數(shù)據(jù)進行處理從而均衡偏差[13-14]。大多數(shù)推薦算法普遍將與用戶發(fā)生交互的物品作為正樣本,與用戶未發(fā)生交互的物品作為負樣本。然而實際情況下,由于曝光偏差的存在,被曝光的物品與用戶發(fā)生交互,在訓(xùn)練過程中作為正樣本,沒被曝光的物品作為負樣本,而沒被曝光的物品用戶尚未接觸,并非不喜歡,從而產(chǎn)生偏差。通過這種數(shù)據(jù)訓(xùn)練的推薦系統(tǒng)模型會根據(jù)曝光來選取推薦的物品,導(dǎo)致高曝光的物品推薦率越來越高,低曝光的物品推薦率越來越低。本文通過基于曝光的負采樣策略更準確地捕捉用戶偏好,緩解曝光偏差問題,提高推薦系統(tǒng)的準確率。

本文采用對抗學(xué)習(xí)方法,通過訓(xùn)練對抗正則化器來消除用戶向量中的偏見屬性信息,提升用戶角度公平性。由于解決用戶角度公平性存在公平性和推薦準確率之間的帕累托最優(yōu),因此,本文采用基于曝光的負采樣策略來解決物品角度的曝光偏差問題,使得推薦系統(tǒng)能夠準確地捕捉用戶偏好,在保證用戶角度公平性的同時提高推薦系統(tǒng)準確率,從而達到帕累托最優(yōu)。在加入基于曝光的負采樣策略之后能夠讓高質(zhì)量的物品得到更高的曝光,低質(zhì)量的物品則得到更低的曝光,與質(zhì)量成正比的曝光率對于提供物品的商家來說是公平的曝光策略[18]。本文的方法在解決用戶角度的帕累托最優(yōu)問題的同時保證了用戶和物品的多角度公平性。

本文的主要貢獻包括:

1) 通過對抗學(xué)習(xí)解決用戶角度公平性問題,主要包括性別、年齡、職業(yè)3個用戶屬性的公平性。

2) 針對用戶角度公平性中存在的帕累托效應(yīng)問題,通過引入基于曝光的負采樣策略提高推薦系統(tǒng)準確率從而達到帕累托最優(yōu)。

3) 基于曝光的負采樣策略在一定程度上解決物品曝光偏差的問題,保證了物品角度的曝光公平性,從而達到推薦系統(tǒng)的用戶和物品的多角度公平性。

1 相關(guān)工作

1.1 用戶角度公平性中的帕累托效應(yīng)

推薦系統(tǒng)中用戶角度的公平性研究目的是使推薦系統(tǒng)在做出推薦意見時與用戶的私有敏感屬性(例如性別,年齡,職業(yè),種族等)無關(guān)。目前很多工作致力于消除用戶敏感屬性信息,使得擁有不同敏感屬性的用戶擁有公平的推薦建議。常用于解決用戶角度公平性的一類方法是對抗學(xué)習(xí)。對抗學(xué)習(xí)的目的是消除用戶敏感屬性信息得到公平的用戶表示,基本思想是通過在推薦模型和對手模型之間玩一個最大最小的游戲,最小化對手模型對于用戶敏感屬性的預(yù)測能力是通過降低對手模型的預(yù)測能力來消除用戶表示中的敏感屬性信息。EDWARDS et al[2]首先提出了對抗的框架ALFR(Adversarial Learned Fair Representation)來消除數(shù)據(jù)表示中的敏感屬性信息。BOSE et al[1]使用組合對抗的思路,去除數(shù)據(jù)中的多種敏感屬性信息(例如MovieLens數(shù)據(jù)集中性別,年齡和職業(yè)等敏感信息)。隨后,WU et al[3]提出了由于用戶之間并不是獨立的,而是具有一定的聯(lián)系,在組合對抗中加入圖譜信息建立用戶關(guān)系,以圖譜的視角利用組合對抗去除數(shù)據(jù)中的多種敏感屬性信息。BEIGI et al[4]從隱私保護的角度使用對抗學(xué)習(xí)的思路消除推薦系統(tǒng)中用戶敏感屬性對于推薦結(jié)果的影響,使得推薦系統(tǒng)在受到攻擊時能夠保護用戶敏感屬性。WU et al[5]提出了一種基于分解對抗學(xué)習(xí)和正交正則化的公平新聞推薦方法,可以解決推薦系統(tǒng)中用戶偏見屬性帶來的不公平性問題,該方法在解耦用戶偏見屬性信息時加入正交正則化策略,使得偏見信息更好地和用戶偏好解耦,提高了推薦系統(tǒng)的公平性。但是這些方法都普遍存在帕累托效應(yīng)問題。在解決用戶角度公平性時往往是問題建模成多目標優(yōu)化問題,在平衡用戶角度公平性和推薦系統(tǒng)推薦性能時通常存在帕累托效應(yīng),即:公平性和推薦性能之間存在沖突,如何優(yōu)化這兩個目標是推薦系統(tǒng)公平性問題中需要解決的問題。在帕累托優(yōu)化問題中的一個經(jīng)典的方法[6]是基于scalarization method的MGDA(Multiple gradient descent algorithm)模型,通過加權(quán)的方式將多目標轉(zhuǎn)化成一個目標,這種加權(quán)的權(quán)重通常是人為定義,但并不能保證帕累托最優(yōu)。XIE et al[7]提出了一種個性化近似帕累托最優(yōu)的多目標推薦框架PAPERec,通過一個強化學(xué)習(xí)模塊來近似逼近帕累托最優(yōu)。另一種方法是啟發(fā)式搜索,主要流行算法是進化算法,主要應(yīng)用在推薦系統(tǒng)多樣性和長尾分布的場景中。

1.2 推薦系統(tǒng)多角度公平性

在解決用戶角度公平性和推薦系統(tǒng)準確率之間的帕累托效應(yīng)之后,還要考慮推薦系統(tǒng)中用戶和物品的多角度公平性問題。推薦系統(tǒng)的數(shù)據(jù)中存在很多物品角度的偏差,這些偏差會造成推薦系統(tǒng)在給出推薦建議時存在物品角度的不公平問題,例如物品曝光偏差、位置偏差、流行度偏差等。CHEN et al[8]提出了一種基于元學(xué)習(xí)的通用去偏框架,將尋找最優(yōu)去偏策略問題轉(zhuǎn)化為設(shè)置框架中的去偏參數(shù)問題,利用少量的無偏數(shù)據(jù)作為監(jiān)督信息,采用元學(xué)習(xí)的策略來學(xué)習(xí)框架中的去偏參數(shù)。在解決流行度偏差時通常使用因果圖[9]、反事實推理[10]、對抗學(xué)習(xí)[11]等方法來消除物品角度的流行度偏差的公平性問題。在本文中主要關(guān)注曝光偏差帶來的推薦系統(tǒng)公平性問題。用于解決曝光偏差的方法目前有基于曝光函數(shù)的推薦[12],基于負采樣的推薦[13-14]等。例如WANG et al[14]提出基于強化負采樣的方法通過尋找真實的負樣本來解決曝光偏差為推薦系統(tǒng)帶來的負面影響,從而提高推薦性能和物品角度的公平性。推薦系統(tǒng)是一個多利益相關(guān)者的復(fù)雜系統(tǒng),ABDOLLAHPOURI et al[15]按照推薦系統(tǒng)中相關(guān)利益的角色總結(jié)出對應(yīng)不同角色的公平性。BURKE et al[16]提出了一種基于最近鄰的改進版本的稀疏線性方法(SLIM)來解決推薦系統(tǒng)多角度公平性的問題。ABDOLLAHPOURI et al[17]通過對數(shù)據(jù)的實驗分析推薦系統(tǒng)中的曝光偏差對多角度公平性的影響,并提出衡量多角度曝光偏差公平性的評價指標。WU et al[18]提出了多角度公平感知的推薦模型(TRFOM),通過調(diào)整推薦列表中物品的排名來解決多角度公平性的問題。

2 推薦系統(tǒng)多角度公平性方法

本文提出一種多角度公平的推薦系統(tǒng)(multi-side fairness recommendation system,MsFRS),從帕累托視角解決推薦系統(tǒng)多角度公平性。本節(jié)首先對推薦系統(tǒng)中的帕累托效應(yīng)進行實驗驗證,再對MsFRS的具體方法進行詳細闡述。圖2為整體框架圖,主要包含3個部分:1) 推薦模型,即根據(jù)用戶和物品歷史數(shù)據(jù)為用戶提供推薦物品;2) 基于對抗學(xué)習(xí)的用戶角度公平性模塊,使用對抗正則器消除用戶敏感屬性信息;3) 基于曝光的負采樣模塊,計算物品的曝光度,通過采樣策略選擇合適的負樣本緩解曝光偏差,提高推薦系統(tǒng)準確率。其中涉及的符號定義如表1所示。

圖2 MsFRS方法框架圖Fig.2 Architecture of MsFRS approach

表1 符號及其描述Table 1 Notations and descriptions

2.1 推薦系統(tǒng)的帕累托效應(yīng)問題

表2是使用組合對抗方法[1]解決用戶角度公平性時在用戶性別、職業(yè)、年齡公平性結(jié)果。其中性別使用分類AUC,職業(yè)和年齡使用F1作為評價指標。組合對抗方法是對單一的敏感屬性采用對抗學(xué)習(xí)的方法來去除敏感屬性信息,隨后將過濾掉敏感屬性信息的用戶進行組合,從而達到去除多種敏感屬性信息的目的。

表2 不同方法在用戶性別、職業(yè)、年齡公平性對比Table 2 Comparison of different methods in the fairness of users’ gender, occupation and age

組合對抗的方法與無對抗對比方法相比,在性別、職業(yè)、年齡3個屬性上的分類指標都有明顯的下降,說明組合對抗的方法能夠很好地消除用戶敏感屬性信息,提高用戶角度公平性。圖3是使用組合對抗方法[1]解決用戶角度公平性在推薦性能上的實驗結(jié)果,與沒有使用對抗的基線相比,其推薦系統(tǒng)均方誤差RMSE提高10%,說明組合對抗方法在提高用戶角度公平性時,會損失推薦性能,證明在解決用戶角度公平性時確實存在公平性和推薦準確率之間的帕累托效應(yīng)。

圖3 組合對抗準確率RMSEFig.3 Compositional adversary RMSE

2.2 推薦模型

為了驗證多角度公平的推薦系統(tǒng)MsFRS在推薦性能和公平性上有效性,本文采用了相對簡單的線性推薦模型矩陣分解(MF)[19]作為推薦器R.給定數(shù)據(jù)集D,假設(shè)用戶和物品歷史數(shù)據(jù)為O+={(u,i)|u∈U,i∈I},其中U為數(shù)據(jù)集中的用戶集合,I為物品集合。矩陣分解將用戶和項目信息參數(shù)化為用戶嵌入和項目嵌入,并利用用戶嵌入和物品嵌入來預(yù)測用戶u對于物品i的購買可能性,其目標函數(shù)為:

(1)

為了能夠與基于曝光的負采樣模塊相結(jié)合,采用成對的BPR[19]的損失函數(shù)。特別的,BPR損失函數(shù)的目標是對于任何一個用戶來說,有歷史數(shù)據(jù)的物品評分應(yīng)該大于沒有歷史數(shù)據(jù)的物品評分,如下:

(2)

式中:σ(·)是激活函數(shù),訓(xùn)練推薦器來計算用戶相對于j更喜歡i的概率。j~fS(u,i)是通過負采樣策略得到負樣本。

2.3 基于對抗學(xué)習(xí)的用戶角度公平性

在推薦系統(tǒng)的用戶數(shù)據(jù)中通常包括用戶的私有敏感屬性,例如用戶的性別、年齡等屬性。假設(shè)對所有的用戶u∈U都有K個偏見屬性ak∈A,k=1,…,K.用戶角度公平性的目的是讓推薦系統(tǒng)根據(jù)用戶的偏好提供推薦意見,與用戶的私有敏感屬性無關(guān)。對于用戶u形式上可以表示為:

fR(u,i)⊥a,?i∈I.

(3)

而在矩陣分解中,假設(shè)用戶的敏感屬性信息僅存在于用戶嵌入ru中,則上述公式可以寫為:

ru⊥a,?u∈U.

(4)

換言之,用戶嵌入與偏見屬性之間的互信息為0,即I(ru,a)=0.

為了訓(xùn)練消除偏見屬性信息的公平的用戶向量,使用了一個對抗正則化器,對于敏感屬性k∈K,使用一個分類器Dk:Rd×Ak├[0,1],它用來從用戶嵌入ru中預(yù)測第k個偏見屬性ak,由推薦器選擇使用矩陣分解方法,使用BPR的損失函數(shù),加入對抗正則化的損失函數(shù)可以定義如下:

(5)

式中:λ是一個控制對抗正則化強度的一個超參數(shù)。為了優(yōu)化這個損失函數(shù),采用交替訓(xùn)練的方式:1) 固定LD參數(shù),更新優(yōu)化推薦損失LR.2) 固定推薦損失LR,更新優(yōu)化對抗正則化損失LD.理論上來說,當對抗正則化器的權(quán)值λ增加到無窮大時,用戶嵌入與偏見屬性之間的互信息為0,此時達到最公平的效果。但是當λ無窮大時,會影響推薦準確率,所以在現(xiàn)實的實驗設(shè)置中,λ是推薦準確率和用戶公平性之間的一個權(quán)衡。所以本文的方法后續(xù)通過基于曝光的負采樣模塊在不影響用戶公平性的前提下,提高推薦準確率。fS是基于曝光的負采樣策略,j是通過fS得到的負樣本。

2.4 基于曝光的負采樣策略

為了解決用戶角度公平性問題中存在的帕累托效應(yīng),本文通過基于曝光的負采樣方法解決物品角度的曝光偏差來提高推薦準確率和物品公平性。在成對的正負樣本數(shù)據(jù)中,曝光偏差主要影響在負樣本的選擇上。通常負樣本會隨機選擇與用戶沒有歷史行為的物品。但是由于曝光偏差的存在,這樣的物品并不是真正意義上的負樣本。隨機選擇的負樣本因為曝光偏差的存在會影響推薦準確率。基于曝光的負采樣策略首先是對物品進行分組,根據(jù)物品與用戶交互的次數(shù)分成高曝光物品組Ihigh和低曝光物品組Ilow。

I=Ihigh∪IlowandIhigh∩Ilow=φ .

(6)

正樣本通常選擇與用戶交互的物品,而這些物品通常是具有高曝光率的物品。文獻[21]的研究工作表明,基于流行度采樣也就是靜態(tài)的對流行度過采樣會使迭代收斂過程中過早停止,導(dǎo)致負樣本缺乏多樣性,且會影響推薦質(zhì)量。所以本文并沒有從高曝光的物品中進行采樣。其次,對于高曝光的物品更有可能是真實的負樣本問題,對于召回模型的訓(xùn)練樣本來說,既要有和用戶最匹配的樣本,也要有和用戶最不匹配的樣本。而高曝光率的物品很有可能是上一版本的推薦模型給用戶篩選后得到的,推薦系統(tǒng)認為這些物品對于用戶來說是比較匹配的,如果繼續(xù)拿高曝光的物品去做召回會影響推薦模型,而低曝光的物品對用戶來說則是最不匹配的。所以本文最終采用在低曝光組對負樣本進行采樣。

j~fS(u,i),i∈Ilow.

(7)

基于曝光的負采樣策略是通過提高推薦系統(tǒng)的準確率從而解決帕累托效應(yīng),通過在一定程度上緩解曝光偏差的問題來保證物品角度的公平性,從而達到推薦系統(tǒng)的用戶和物品的多角度公平性。

3 實驗設(shè)置與分析

3.1 數(shù)據(jù)集

本文選擇推薦系統(tǒng)中常用的數(shù)據(jù)集MovieLens2數(shù)據(jù)集來驗證提出的多角度公平的推薦系統(tǒng)MsFRS.數(shù)據(jù)集相關(guān)的統(tǒng)計信息如表3所示。本文使用的是正負樣本對的BPR損失函數(shù),而MovieLens數(shù)據(jù)集是評分數(shù)據(jù),所以對數(shù)據(jù)集中的評分進行預(yù)處理:將所有用戶與物品的歷史數(shù)據(jù)視為正樣本并且標記為1,負樣本通過負采樣的策略得到并標記為0.MovieLens數(shù)據(jù)集中的3個用戶屬性性別、年齡和職業(yè)作為用戶的敏感屬性。其中性別為二值敏感屬性,年齡和職業(yè)建模為多值敏感屬性。

表3 數(shù)據(jù)集統(tǒng)計Table 3 Statistics for the dataset

3.2 評價指標

本文采用3方面評價指標,分別是用戶角度公平性評價指標,推薦準確率評價指標,物品角度公平性評價指標。

3.2.1用戶角度評價指標

用戶角度公平性評價指標選擇敏感屬性對抗正則化分類器的評價指標。分類準確率越低則代表用戶向量中的敏感屬性信息越少,推薦建議受敏感屬性的影響越小,用戶角度的公平性越高。

由于性別是二分類目標,選擇AUC作為性別分類的評價指標,理想狀態(tài)下,AUC為0.5時達到公平性的最優(yōu)狀態(tài)。年齡和職業(yè)為多分類問題,選擇宏F1值作為評價指標。具體定義如下:

(8)

(9)

3.2.2推薦準確率評價指標

推薦系統(tǒng)準確率使用常用的評價指標:HR@K,NDCG@K,具體定義如下:

(10)

(11)

式中:N為用戶數(shù)目,hits(i)為第i個用戶訪問的物品是否在推薦列表中,pi為第i個用戶真實訪問的物品在推薦列表的位置。

3.2.3物品角度公平性評價指標

物品角度評價指標主要是衡量曝光偏差的公平性,我們認為質(zhì)量越高的物品曝光越高對于推薦系統(tǒng)是越公平的,在評估物品質(zhì)量時,本文參考了論文[18]中關(guān)于物品質(zhì)量的定義,物品的曝光與物品質(zhì)量成正比對于推薦系統(tǒng)來說是公平的。具體地,本文參考論文[20]中對于物品質(zhì)量的定義:將與用戶交互次數(shù)來定義物品的質(zhì)量,與用戶交互次數(shù)越高,則質(zhì)量越高。對于推薦系統(tǒng)來說,并不是對所有的物品具有相等的曝光率是公平的,這樣會嚴重影響推薦性能,所以采用了和質(zhì)量成正比的曝光率,具體定義如下:

(12)

式中:ehigh和elow分別表示高曝光組物品的曝光率和低曝光組物品的曝光率;Ihigh和Ilow分別表示高曝光組和低曝光組物品的質(zhì)量,在具體的實驗設(shè)置中,本文采用了在全局數(shù)據(jù)中物品與用戶交互次數(shù)來表示該物品的質(zhì)量,即與用戶交互次數(shù)越多的物品其質(zhì)量越高。理想狀態(tài)下,當高曝光組物品和低曝光物品的曝光與質(zhì)量的比值相等時,推薦系統(tǒng)達到物品角度曝光偏差的公平。在實驗中,使用高曝光組物品與低曝光組物品的曝光與質(zhì)量比值的差值來衡量推薦系統(tǒng)的物品角度的公平性,即:

(13)

3.3 對比方法介紹及參數(shù)設(shè)置

本文實驗采用以下3種對比方法:

1) 無對抗+隨機采樣。使用選擇的MF推薦算法設(shè)置λ=0,即沒有對抗正則化器,負樣本選擇采用隨機采樣。

2) 對抗+隨機采樣。使用對抗正則化器消除敏感屬性,且負樣本選擇采用隨機采樣。

3) MsFRS.使用對抗正則化器消除敏感屬性,且負樣本通過基于曝光的負采樣策略得到。本方法為本文提出的多角度公平的推薦系統(tǒng)。

數(shù)據(jù)集按照9∶1的比例劃分為訓(xùn)練集和測試集。用戶嵌入的維度ru設(shè)置為32.與用戶交互次數(shù)大于1 000的物品集為高曝光組,小于1 000的物品集為低曝光組。本文將敏感屬性分類器實現(xiàn)為多層感知器(MLPs),使用帶有默認參數(shù)的Adam優(yōu)化器。在對比不同的物品角度的采樣方法時,不對敏感屬性分類器做改動。

3.4 總體性能比較

表3總結(jié)了對比方法和MsFRS分別在用戶角度公平性、推薦系統(tǒng)性能、物品角度公平性的性能對比。可以得到如下結(jié)論:

表3 不同方法在推薦準確率、用戶角度公平性和物品角度公平性上的性能對比Table 3 Performance of different methods in recommendation accuracy, user fairness, and item fairness

1) MsFRS與對比方法相比,在性別、年齡和職業(yè)3種敏感屬性的分類效率明顯降低,說明基于對抗的用戶角度公平性方法很好地消除了用戶向量中的敏感屬性信息,保證了用戶角度的公平性。

2) 加入對抗正則化器后,用戶公平性提高,推薦系統(tǒng)準確率下降,存在公平性和準確率之間的帕累托效應(yīng)。

3) 基于曝光的負采樣策略提高了推薦系統(tǒng)準確率,有效地解決了公平和效率之間的帕累托效應(yīng)。

4) 基于曝光的負采樣策略一定程度上解決了曝光偏差的問題,保證了物品角度公平性。

下面將從用戶角度公平性、推薦系統(tǒng)準確率、物品角度公平性3個角度詳細介紹MsFRS方法的實驗結(jié)果。

3.4.1用戶角度公平性分析

實驗從性別、年齡、職業(yè)3個敏感屬性進行分析。從實驗結(jié)果來看,在沒有加入對抗正則化器時,對于敏感屬性的分類準確率較高,在性別屬性上的預(yù)測AUC達到0.7,說明用戶嵌入中的性別信息將會嚴重影響給用戶的推薦建議。通過加入對抗正則化器之后,性別、年齡和職業(yè)分類準確率明顯降低。圖4是訓(xùn)練過程中不同方法在性別分類上的AUC的對比圖,可以看出對敏感屬性進行對抗學(xué)習(xí)之后,分類準確率下降,用戶嵌入中的敏感屬性信息減少,在使用用戶嵌入為用戶提供推薦意見時能夠降低對敏感屬性的依賴,從而達到提高用戶角度公平性的目的。對于年齡和職業(yè)2個敏感屬性,多角度推薦系統(tǒng)公平性方法中的負采樣方法相比隨機采樣來說,分類器的準確率有略微的上升,如圖5所示,猜測可能是目前的對抗方法只針對用戶嵌入進行敏感屬性的預(yù)測,而物品嵌入中其實也隱形存在著用戶的敏感屬性信息,所以不同的采樣方法中改變了物品嵌入從而影響了敏感屬性的預(yù)測準確率。

圖4 不同方法在性別分類上的AUC對比圖Fig.4 Comparison chart of AUC of different methods on gender classification

圖5 不同方法在年齡分類上的F1對比圖Fig.5 Comparison of F1 of different methods on age classification

3.4.2推薦系統(tǒng)準確率分析

在組合對抗[1]方法中存在明顯的分類準確率提高,推薦性能下降的現(xiàn)象。在使用隨機采樣加入負樣本之后,NDCG@10指標提高,如圖6、圖7所示,負樣本增加了捕捉用戶偏好的信息,提高了推薦系統(tǒng)性能。但是對于隨機采樣負樣本來說存在曝光偏差的問題,隨機采的負樣本并不是真正意義上的負樣本,沒有與歷史用戶有數(shù)據(jù)的物品可能是用戶不喜歡,也可能是物品并沒有曝光給用戶。基于曝光的負采樣策略通過將樣本分組為高曝光組和低曝光組來采樣負樣本,進一步考慮了曝光偏差對用戶偏好的影響,從提高了推薦系統(tǒng)的準確率,達到用戶公平性與推薦系統(tǒng)準確率的帕累托最優(yōu)。

圖6 不同方法在加入性別對抗的推薦準確率NDCG@10對比圖Fig.6 Comparison of different methods in recommendation accuracy NDCG@10 with gender adversarial

圖7 不同方法加入年齡對抗的推薦準確率NDCG@10對比圖Fig.7 Comparison of different methods in recommendation accuracy NDCG@10 with age adversarial

3.4.3物品角度公平性分析

圖8 不同方法在物品角度公平性上性能分析Fig.8 Performance analysis of different methods in item fairness

3.5 參數(shù)分析

λ是一控制對抗正則化強度的超參數(shù),本文最終選取1 000.圖9為性別分類與不同超參數(shù)λ之間的權(quán)衡,隨著λ值的增大,對抗正則化的強度增大,敏感屬性性別分類AUC持續(xù)降低,說明對抗正則化器起到了消除敏感屬性信息的作用,當λ為1 000時,AUC的值不再繼續(xù)下降。圖10顯示推薦系統(tǒng)準確率與不同λ的權(quán)衡,可以看到隨著對抗正則化強度的增大,推薦準確率在下降,在λ為1 000時有輕微的提高,隨著λ值的提高,推薦系統(tǒng)準確率依舊持續(xù)下降,為了權(quán)衡用戶公平性和推薦系統(tǒng)準確率,最終超參數(shù)λ選擇取值1 000.

圖9 性別分類AUC與不同λ的權(quán)衡Fig.9 Tradeoff of gender AUC versus different λ

圖10 推薦系統(tǒng)準確率與不同λ的權(quán)衡Fig.10 Tradeoff of recommendation accuracy versus different λ

4 總結(jié)

本文針對推薦系統(tǒng)中存在的用戶公平和推薦準確率之間的帕累托問題提出了推薦系統(tǒng)多角度公平性方法。通過加入對抗正則化器提高了用戶角度公平性,引入基于曝光的負采樣策略提高了推薦系統(tǒng)準確率從而達到帕累托最優(yōu),基于曝光的負采樣策略在一定程度上解決物品曝光偏差的問題,保證了物品角度的曝光公平性,從而達到推薦系統(tǒng)的用戶和物品的多角度公平性。在真實的數(shù)據(jù)集上進行實驗后,結(jié)果表明在用戶角度公平性、推薦系統(tǒng)準確率、物品角度公平性3個評價指標上有很好的表現(xiàn)。但是目前的從帕累托視角解決推薦系統(tǒng)多角度公平性方法(MsFRS)還處于一種問題定義的探索階段。在用戶角度公平性方面使用基本的對抗方法來實現(xiàn),生成的用戶嵌入只需要欺騙對抗正則化器,因此它尚不能完全消除用戶敏感屬性的信息,這是將來可以改進的一個方向。除此之外,基于曝光的負采樣模型也可以考慮使用更加復(fù)雜且有效的負采樣模型。

猜你喜歡
公平性偏差物品
稱物品
“雙十一”,你搶到了想要的物品嗎?
如何走出文章立意偏差的誤區(qū)
兩矩形上的全偏差
誰動了凡·高的物品
一種提高TCP與UDP數(shù)據(jù)流公平性的擁塞控制機制
公平性問題例談
關(guān)于均數(shù)與偏差
關(guān)于公平性的思考
找物品
藁城市| 凤庆县| 措美县| 东光县| 吴川市| 怀来县| 嘉黎县| 襄樊市| 固原市| 旬邑县| 梧州市| 新沂市| 彭阳县| 萝北县| 阜南县| 桑植县| 荔波县| 屯门区| 资中县| 六枝特区| 白朗县| 丽江市| 双牌县| 金溪县| 全椒县| 高碑店市| 湘西| 遂宁市| 科技| 东安县| 上虞市| 东海县| 邻水| 玉林市| 扶沟县| 剑河县| 昭觉县| 南开区| 宣恩县| 将乐县| 青阳县|