国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于混合偏好分析的聯(lián)邦推薦框架

2023-11-16 10:54:32宋雨倫李大中張絲雨崔玲龍王功舉
關(guān)鍵詞:聯(lián)邦群體個體

宋雨倫,李大中,張絲雨,莊 媛,崔玲龍,王功舉,閆 龍

(聯(lián)通數(shù)字科技有限公司 數(shù)據(jù)智能事業(yè)部,北京 100013)

0 引言

由于互聯(lián)網(wǎng)在規(guī)模和覆蓋等層面的高速發(fā)展,信息過載使得用戶找到對自己有用的信息變得困難,從而使得信息利用效率降低;同時讓商家無法找到真正的目標群體[1],且盲目擬合數(shù)據(jù)而不考慮固有偏差將導(dǎo)致許多嚴重問題,例如線下評估和線上指標之間的差異,損害用戶的滿意度等[2]。所以,如何提高推薦算法的精確性、可解釋性、多樣性等以獲得信息更高的使用效率和用戶更多的信任都是推薦系統(tǒng)研究的重點。

近年來,我國高度重視數(shù)字經(jīng)濟高質(zhì)量發(fā)展,同時統(tǒng)籌發(fā)展與安全,相繼出臺了多部相關(guān)法律法規(guī),保障網(wǎng)絡(luò)空間數(shù)據(jù)流通的安全及合規(guī)。聯(lián)邦學習技術(shù)有助于解決多方數(shù)據(jù)合作中面臨的兩大挑戰(zhàn):一是數(shù)據(jù)安全難以得到保障,隱私數(shù)據(jù)泄露問題亟待解決;二是由于網(wǎng)絡(luò)安全隔離和行業(yè)隱私,不同行業(yè)、部門之間存在數(shù)據(jù)壁壘,導(dǎo)致數(shù)據(jù)形成“孤島”無法安全共享[3]。

本文在保障數(shù)據(jù)使用安全合規(guī)的前提下,結(jié)合聯(lián)邦建模技術(shù),提出了一種混合個體及群體偏好分析的聯(lián)邦推薦框架。本文主要貢獻如下:

(1)本文提出考慮組合因素的同一屬性間偏好度分析和結(jié)合信息熵的不同屬性間在意度分析方法,通過糾正與真實興趣屬性具有強關(guān)聯(lián)性的非興趣屬性影響,初步解決了算法的過擬合問題,增強了算法的可解釋性。

(2)本文提出了一種混合偏好分析的聯(lián)邦推薦框架(Mixed Preference Analysis Federated Recommendation Framework,MPA-FRF),通過基于聯(lián)邦的相似興趣用戶分群模塊找到用戶所在興趣群,結(jié)合個體和群體超參權(quán)重組合、個體偏好分數(shù)集合、個體所在群體偏好分數(shù)集合進行資源推薦,緩解了推薦系統(tǒng)存在的過度專業(yè)化問題,提高了算法在特定任務(wù)上的表現(xiàn)。

1 相關(guān)工作

在推薦算法研究領(lǐng)域,基于內(nèi)容的推薦是非常主要的一個方向,基于內(nèi)容過濾的推薦技術(shù)的核心思想是:以用戶歷史選擇記錄或偏好記錄作為參考推薦,挖掘其他未知的記錄中與參考推薦關(guān)聯(lián)性高的項目作為系統(tǒng)推薦的內(nèi)容[4]。但基于內(nèi)容的推薦存在一些問題,比如缺乏屬性之間關(guān)系的偏好分析;用戶只能獲得其用戶畫像中已知的或已定義的物品的推薦,阻礙了用戶發(fā)現(xiàn)新物品或其他選擇(過度專業(yè)化問題)[5];與興趣屬性具有強關(guān)聯(lián)性的非興趣屬性偏差等問題。這會導(dǎo)致當項目畫像構(gòu)建水平不夠充分時,只分析個人興趣會影響用戶畫像構(gòu)建的準確性[6]。

為了改進基于內(nèi)容的推薦缺乏分析屬性之間更深層的關(guān)系的缺陷,Soares等人通過分析用戶的歷史行為來形成該用戶的需求偏好,并結(jié)合項目的特征進行推薦[7]。高陽等人通過結(jié)合項目之間的相似性,分析特征值頻率分布規(guī)律來進行推薦[8]。Qiao等人利用公共子序列進行距離匹配并結(jié)合加權(quán)思想進行項目推薦[9]。這類算法都分析了用戶自身特征和屬性間的復(fù)雜關(guān)系,緩解了過擬合問題,然而并沒有解決過度專業(yè)化問題;且它們的計算思想沒有考慮組合因素,可能會產(chǎn)生由于某些興趣屬性與非真實興趣屬性具有強關(guān)聯(lián)性而產(chǎn)生不準確的預(yù)測結(jié)果。

為了改進基于內(nèi)容的推薦存在的過度專業(yè)化問題,國內(nèi)外學者提出基于內(nèi)容的推薦結(jié)合協(xié)同過濾可在一定程度上補充用戶的興趣畫像。這種方法的實質(zhì)是混合推薦算法。何登平等人提出一種基于多源信息聚類和受限玻爾茲曼機的混合推薦算法[10],通過聚類分析和加權(quán)融合的方式解決協(xié)同過濾算法中數(shù)據(jù)稀疏性問題,同時提高了推薦算法的準確性。由于這類方法本質(zhì)都是協(xié)同過濾等統(tǒng)計學方法來結(jié)合群體信息進行推薦補充,并不能實現(xiàn)對屬性間偏好分析,以達到更有效的推薦和更有說服力的解釋性。

因此,本文針對基于內(nèi)容的推薦算法存在的如過度專業(yè)化、過擬合、缺乏可解釋性問題,提出了一種混合個體及群體偏好分析的聯(lián)邦推薦框架,結(jié)合聯(lián)邦建模技術(shù),直觀地反映了用戶及用戶所在興趣群體的同屬性-異屬性偏好分析結(jié)果,提升推薦系統(tǒng)的可解釋性,同時向用戶推薦更符合其需求偏好的資源。

2 方法闡述

如圖1所示,本推薦框架包含三個模塊:基于隨機森林的偏好分析模塊、基于聯(lián)邦的相似興趣用戶分群模塊、基于混合偏好分析的推薦模塊?;陔S機森林的偏好分析模塊是一種考慮組合因素的同一屬性間偏好度和結(jié)合信息熵的不同屬性間在意度的分析方法,利用該算法可以得到個體和個體所在興趣群體對資源的同屬性和異屬性偏好分析信息;在基于聯(lián)邦的相似興趣用戶分群模塊中,參與方A利用自有數(shù)據(jù)將目標興趣較為明確的用戶進行聚類,提供聯(lián)邦建模標簽,參與方B利用自身數(shù)據(jù)建立興趣領(lǐng)域相似度矩陣,提供與目標領(lǐng)域相關(guān)興趣的特征信息,進行縱向聯(lián)邦學習[11],構(gòu)建用戶興趣分群聯(lián)邦模型M;在混合偏好分析的推薦模塊中,通過網(wǎng)格遍歷群體和個體的超參權(quán)重組合,此后當一個待預(yù)測(用戶,資源)組合輸入后,先對用戶進行興趣群體判斷,再結(jié)合個體和群體超參權(quán)重組合、個體偏好分數(shù)集合、個體所在群體偏好分數(shù)集合,輸入預(yù)測模型計算資源對該用戶的推薦分數(shù),最后遍歷所有資源,取前N個資源進行推薦。

2.1 基于隨機森林的偏好分析模塊

本節(jié)通過挖掘隨機森林模型內(nèi)部的信息,結(jié)合組合因素和信息熵來實現(xiàn)用戶對資源的偏好分析。偏好分析分為兩部分,分別是用戶對資源同一屬性間偏好度分析和用戶對資源不同屬性間在意度分析。

2.1.1 考慮組合因素的同一屬性間偏好度分析

同一屬性間偏好度指,用戶對某類資源中某一屬性各屬性值間的偏好度排序,例如對汽車類別下油耗等級中高油耗、中油耗、低油耗進行排序。偏好度的定義為在用戶喜歡的組合中,即用戶的隨機森林樹模型中,葉子節(jié)點為1的分支中各屬性的修正投票值。這樣定義的原因是存在與用戶興趣屬性具有強關(guān)聯(lián)性的非興趣屬性,例如一個人由于職業(yè)原因需要購買很多醫(yī)學用品,由于醫(yī)學這個屬性和白色具有強相關(guān)性,因此表面上看這個人買了很多白色物品,但不能得出其喜歡白色超過其他顏色的結(jié)論,當一個人在不同屬性組合中,在顏色這個屬性上總是白色才能說明其顏色偏好。

故將用戶對資源同一屬性間偏好度描述為:

(2)設(shè)其中Vk是資源的某種屬性的集合(如顏色),屬性值vi∈Vk(如白色),perc(vi)是所有分支下(包括葉子節(jié)點1和0)vi在其所在屬性集合Vk中的數(shù)量占比,perc(vi)=n(vi)/n(Vk),則屬性值vi的同一屬性偏好分數(shù)為s(vi)=sinit(vi)/perc(vi);

(3)遍歷所有屬性值,得到目標用戶對資源的同一屬性偏好度列表。

過程如圖2所示。

2.1.2 結(jié)合信息熵的不同屬性間在意度分析

不同屬性間在意度指,用戶對某類資源中不同屬性間各屬性值的在意度排序,例如對汽車類別油耗、排量、價格、保值率等各屬性的在意值排序,在意度可以定義為用戶在該屬性的各項值在喜歡和不喜歡的資源中分布的信息熵,且在意度與信息熵呈反比關(guān)系。比如一個用戶在油耗和保值率中的資源油耗信息熵小于保值率的信息熵,即在喜歡和不喜歡的資源中,保值率分布混亂,油耗分布相對穩(wěn)定,說明該用戶更在意油耗這個屬性。

依據(jù)決策樹生成過程中信息熵增益較多的屬性生成距離頂端較近的節(jié)點的原理,將用戶對資源不同屬性間的在意度描述為:

(1)設(shè)資源的屬性集合為A={a1,a2,…,an},屬性ai所在層數(shù)為x(ai),其中樹頂端為層數(shù)1,逐層遞增,隨機森林的最大深度為max_depth,分支數(shù)為n,依次遍歷每條分支,若屬性ai在該分支,則在該分支的不同屬性在意得分為scored,branch(ai)=max_depth-x(ai),若屬性ai不在該分支,則在該分支的不同屬性在意得分為scored,branch(ai)=max_depth-x-1,其中x為該分支層數(shù);

(3)遍歷所有屬性,得到目標用戶對資源的不同屬性在意度列表。

過程如圖3所示。

圖3 不同屬性間在意度分析流程圖

2.2 基于聯(lián)邦的相似興趣用戶分群模塊

在實際分群中,有些用戶在某些領(lǐng)域的行為較少,興趣不明確,不具備直接聚類來得到所在相似群體興趣偏好的條件。理想的群體推薦系統(tǒng)不僅應(yīng)該能夠準確地學習用戶的個人偏好,而且能夠從數(shù)據(jù)中準確學習偏好聚合策略[12]。本文的目標是利用聯(lián)邦的方式在敏感數(shù)據(jù)不泄露的前提下,增加相似興趣數(shù)據(jù)維度,使得在目標興趣領(lǐng)域不明確的用戶也可以判斷其興趣群體,為此提出基于聯(lián)邦的相似興趣用戶分群模塊。

該模塊利用聯(lián)邦平臺[13],該平臺采用去中心架構(gòu),支持聯(lián)邦學習、隱私求交、聯(lián)邦分析等功能,可處理百億級數(shù)據(jù)。

算法具體如下:

(1)精確的目標興趣用戶分群:參與方A利用自有數(shù)據(jù)將目標興趣較為明確的用戶進行聚類,設(shè)得到k類需求偏好不同的用戶;

(2)興趣領(lǐng)域相似度矩陣建立:參與方B利用自身數(shù)據(jù)將不同興趣領(lǐng)域的數(shù)據(jù)進行分類統(tǒng)計,利用TF-IDF算法計算得到各領(lǐng)域的向量,再利用余弦相似度算法計算興趣領(lǐng)域之間的相似度,得到興趣領(lǐng)域相似度矩陣,篩選得到與目標興趣領(lǐng)域相似的興趣領(lǐng)域;

(3)基于聯(lián)邦的用戶相似興趣分群模型生成:參與方A提供目標興趣領(lǐng)域用戶分群結(jié)果,參與方B依據(jù)興趣領(lǐng)域相似度矩陣,提供與目標領(lǐng)域相關(guān)的特征信息,進行縱向聯(lián)邦學習,構(gòu)建用戶興趣分群聯(lián)邦模型M。

過程如圖4所示。

圖4 基于聯(lián)邦的相似興趣用戶分群模塊流程圖

2.3 基于混合偏好分析的推薦模塊

此模塊主要思想是結(jié)合個體偏好分數(shù)信息、用戶所在群體偏好分數(shù)信息、最優(yōu)混合個體和群體偏好權(quán)重進行資源推薦。

則對于每個資源i用戶u的分數(shù)為:

(1)

(2)

其中xk,i表示資源i在k屬性上取值,xk,r表示目標在k屬性上取r值;若該屬性k不可以量化,則當資源i在屬性k上的值與r相同時,qk,r=1,當資源在屬性k上的值與r不同時,qk,r=0。η表示用戶群U的不同屬性在意度權(quán)重,γ表示用戶群U的相同屬性偏好度權(quán)重,此權(quán)重系數(shù)由實驗部分通過網(wǎng)格遍歷得出最優(yōu)組合。

最后,遍歷候選資源對用戶的推薦分數(shù),將分數(shù)從高到低排序,取前N個資源對用戶進行推薦。通過群體和個人興趣偏好相結(jié)合,可以緩解基于內(nèi)容推薦的過度專業(yè)化問題,對用戶進行分群后,還可以針對不同的用戶群體制定不同的營銷方案,提供針對性的產(chǎn)品和服務(wù),提高客戶滿意度[14]。

過程如圖5所示。

圖5 基于混合偏好分析的推薦模塊

其中混合個體及群體偏好計算資源混合偏好得分推薦環(huán)節(jié)執(zhí)行過程如算法1所示。

算法1:混合個體及群體偏好計算資源混合偏好得分推薦算法

輸入:群體U的不同屬性間在意度列表{D1,D2,…,DK},用戶u的不同屬性間在意度列表{d1,d2,…,dK},群體U的同一屬性間偏好度列表{S1,S2,…,Sm},用戶u的同一屬性間偏好度列表{s1,s2,…,sm}。

輸出:將各個資源s(u,i)從高到低排序,取topN資源對用戶進行推薦。

①用戶所在群體U對不同屬性在意度權(quán)重列表為{α1,α2,…,αK};

②用戶對不同屬性在意度權(quán)重列表為{β1,β2,…,βK};

③用戶u在k屬性上取r屬性值的概率pk,r,用戶所在群體U在k屬性上取r屬性值的概率是Pk,r;

④for each item

⑤資源i在k屬性上取r屬性值的概率,若該屬性k可以量化,則應(yīng)用式(2)進行計算,若該屬性k不可以量化,則當資源在屬性k上的值與r相同時,qk,r=1,當資源在屬性k上的值與r不同時,qk,r=0;

⑦end for

3 實驗與結(jié)果分析

3.1 基于聯(lián)邦的相似興趣分群與偏好結(jié)果分析

利用聯(lián)邦平臺進行建模,參與方A提供21 889個用戶的82 048條目標興趣領(lǐng)域線索數(shù)據(jù),數(shù)據(jù)類型包括用戶對目標興趣領(lǐng)域(汽車)資源的評分數(shù)據(jù)、資源的屬性數(shù)據(jù)(油耗、排量、價格等)。參與方B提供21 889個用戶在10個與汽車相關(guān)興趣領(lǐng)域特征數(shù)據(jù),如在金融理財、線下購物、旅游出行等領(lǐng)域的流量特征偏好分數(shù)。

在基于聯(lián)邦的相似興趣用戶分群模塊的精確目標興趣用戶分群環(huán)節(jié),將對六款以上資源有過瀏覽行為的用戶稱為目標興趣較為明確的用戶(活躍用戶)。圖6(a)所示為活躍用戶的相似興趣分群結(jié)果。可以看到,當聚類結(jié)果為2類時,可以明顯區(qū)分。因此,在本實驗中,將目標用戶的興趣分為兩種類型,并使用2.2節(jié)中方法進行基于聯(lián)邦的相似興趣用戶分群。

圖6 不同基于興趣的分群算法結(jié)果比較

圖6(b)是基于本文提出的基于聯(lián)邦的相似興趣的用戶分群模塊對所有用戶的分群結(jié)果,圖6(c)是基于靜態(tài)屬性對所有用戶的分群結(jié)果。通過降維可視化可以看出,本文提出的基于聯(lián)邦的相似興趣的用戶分群模塊得到的結(jié)果更接近活躍用戶的興趣群體分布,從類別分布的角度來看,本文聚類方法具有較好的分類效果。

接下來使用2.1節(jié)中提出的用戶偏好分析方法對實驗結(jié)果進行進一步驗證,表1為進行偏好分析后的結(jié)果。

表1 基于隨機森林的用戶屬性偏好分析結(jié)果

其中,在同一屬性偏好分析中,數(shù)字表示用戶組對該屬性值的偏好程度,要注意,不同屬性間得分不具有可比性;在不同屬性在意度得分分析中,數(shù)字表示用戶群體對該屬性的關(guān)心程度,不同屬性的得分具有可比性??梢钥闯龇秩汉蟮挠脩襞d趣分為兩類,cluster_1是偏好中國制造的SUV,cluster_2是偏好日本制造的中型轎車,且同一屬性偏好分析中,后者偏好的價格、保值率比前者整體偏高,在不同屬性在意度分析中,兩類人群首先都最在意價格,其次的屬性排名中,cluster_1更在意車的款式、產(chǎn)國、大小,cluster_2更在意車的保值率、產(chǎn)國、油耗。由此可見,通過本文的偏好分析方法,可以將參與方A的客戶分為兩類人群:品質(zhì)類和外觀類,這也驗證了本文的偏好分析模塊比樹模型輸出的判斷規(guī)則具有更好的可解釋性??山忉尩耐扑]系統(tǒng)不僅為用戶或系統(tǒng)設(shè)計人員提供推薦結(jié)果,也解釋為什么推薦此類項目。通過這種方式,有助于提高系統(tǒng)透明度、說服力、有效性、可信度[15]。

3.2 推薦結(jié)果分析

本節(jié)實驗首先探求本文所提框架的最佳超參——個體及群體混合偏好最優(yōu)權(quán)重,然后將MPA-FRF與非混合偏好分析的聯(lián)邦推薦框架(Preference Analysis Federated Recommendation Framework,PA-FRF)、改進前的原隨機森林模型(Random Forest,RF)、結(jié)合靜態(tài)群體特征的混合偏好分析的聯(lián)邦推薦框架(Mixed Preference Analysis Federated Recommendation Framework Using static data,stc-MPA-FRF)進行對比,驗證本文所提方法的推薦有效性。

通過網(wǎng)格搜索選取隨機森林模型的最佳超參組合,得到當子樹的數(shù)量n_estimators=45,樹的最大生長深度max_depth=5,葉子的最小樣本數(shù)量min_samples_leaf=5時,樹模型具有最佳性能。

圖7是本文所提算法在η分別為0、0.2、0.4、0.6、0.8、1時,γ分別為0、0.2、0.4、0.6、0.8、1時模型的推薦準確率、召回率、覆蓋度、流行度(新穎性)的統(tǒng)計。

圖7 不同閾值下MPA-FRF算法效果比較

從圖7可知,當η=0.8、γ=0.2時所提算法具有最好的性能表現(xiàn),具體而言,隨著γ的值增加,模型的準確度、召回率呈現(xiàn)先增加后下降的整體趨勢,覆蓋率維持不變,新穎性隨著流行度逐漸上升呈現(xiàn)逐步下降的趨勢。由超參的取值可見,在相似興趣群體對用戶個人的影響中,不同屬性間在意度比相同屬性間偏好度影響更多;且由于η=0.8、γ=0.2時模型準確率、召回率等均高于η=0、γ=0(不考慮群體偏好對個人的影響)時模型準確率和召回率,由此證明了MPA-FRF具有一定解決過度專業(yè)化問題的能力。

表2是選定最佳超參組合后不同方法推薦精度、召回范圍、F1值和流行度(新穎性)結(jié)果的比較??梢钥闯?,MPA-FRF、PA-FRF、stc-MPA-FRF在F1方面均比RF高,這表明2.1節(jié)所提的基于隨機森林的偏好分析算法可以通過糾正與真實興趣屬性具有強關(guān)聯(lián)性的非興趣屬性影響,初步解決傳統(tǒng)基于內(nèi)容算法的過擬合問題;且由于MPA-FRF在F1和新穎度方面均比stc-MPA-FRF有優(yōu)勢,表明基于聯(lián)邦的相似興趣用戶分群算法在緩解傳統(tǒng)基于內(nèi)容算法的過度專業(yè)化問題方面有一定效果。

總的來說,MPA-FRF在精確率、F1值和流行度方面表現(xiàn)較好,而RF方法在召回率方面具有優(yōu)勢。因此,MPA-FRF方法是一個有潛力的新方法,具有在推薦系統(tǒng)中實際應(yīng)用的可能性,特別是在需要高精度和多樣性的情況下。

4 結(jié)論

本文提出了一種混合個體及群體偏好分析的聯(lián)邦推薦框架,捕捉個體真實偏好并有效結(jié)合群體偏好,通過聯(lián)邦平臺進行建模與推薦,緩解了基于內(nèi)容推薦的過擬合和過度專業(yè)化問題,實驗結(jié)果表明本文算法相較于基于隨機森林的內(nèi)容推薦算法在各方面指標上均有明顯提升,并且提高了推薦內(nèi)容的可解釋性。

猜你喜歡
聯(lián)邦群體個體
一“炮”而紅 音聯(lián)邦SVSound 2000 Pro品鑒會完滿舉行
通過自然感染獲得群體免疫有多可怕
科學大眾(2020年10期)2020-07-24 09:14:12
303A深圳市音聯(lián)邦電氣有限公司
關(guān)注個體防護裝備
勞動保護(2019年7期)2019-08-27 00:41:02
“群體失語”需要警惕——“為官不言”也是腐敗
當代陜西(2019年6期)2019-04-17 05:04:02
個體反思機制的缺失與救贖
學習月刊(2015年22期)2015-07-09 03:40:48
How Cats See the World
中學科技(2015年1期)2015-04-28 05:06:12
20年后捷克與斯洛伐克各界對聯(lián)邦解體的反思
關(guān)愛特殊群體不畏難
中國火炬(2012年8期)2012-07-25 09:29:50
聯(lián)邦憲法法院60年——一個來自德國的成功故事?
洪洞县| 同德县| 青州市| 遂川县| 彭山县| 新野县| 尚志市| 察哈| 上蔡县| 汪清县| 禹城市| 泸西县| 新郑市| 泸水县| 苏州市| 长岛县| 璧山县| 特克斯县| 射阳县| 旌德县| 台州市| 墨竹工卡县| 沈阳市| 龙游县| 淄博市| 漳州市| 饶平县| 南岸区| 齐齐哈尔市| 湖南省| 莆田市| 西乌珠穆沁旗| 丰镇市| 大宁县| 英吉沙县| 荔波县| 林州市| 贵州省| 内江市| 呼玛县| 华安县|