国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于互信息的魯棒跨域推薦系統(tǒng)

2022-07-06 08:02劉昱康于學(xué)軍
關(guān)鍵詞:魯棒性推薦系統(tǒng)

劉昱康 于學(xué)軍

摘要:由于大量新用戶和新產(chǎn)品的出現(xiàn),跨域推薦系統(tǒng)已經(jīng)成為解決推薦系統(tǒng)冷啟動問題的關(guān)鍵。然而,現(xiàn)有的跨域推薦系統(tǒng)都假設(shè)其訓(xùn)練數(shù)據(jù)中不存在任何的錯誤標(biāo)注,但是在現(xiàn)實情況下,該假設(shè)很難得到滿足,這就導(dǎo)致了跨域推薦系統(tǒng)在相當(dāng)多的真實推薦場景下的表現(xiàn)很難令人滿意。為了減少現(xiàn)實情況下錯誤標(biāo)注對跨域推薦系統(tǒng)的影響,提高真實推薦場景下跨域推薦系統(tǒng)推薦結(jié)果的準(zhǔn)確性,本文提出了一種基于互信息的魯棒跨域推薦系統(tǒng),該推薦系統(tǒng)由域分離網(wǎng)絡(luò)和互信息魯棒風(fēng)險兩個模塊構(gòu)成。域分離網(wǎng)絡(luò)模塊很好地解決了源域與目標(biāo)域差異的問題;在互信息魯棒風(fēng)險模塊中,提出了一個基于互信息的風(fēng)險函數(shù)來過濾掉數(shù)據(jù)中的錯誤標(biāo)注,使用該風(fēng)險函數(shù)所訓(xùn)練出的跨域推薦系統(tǒng)可以很好地處理訓(xùn)練數(shù)據(jù)中存在的錯誤信息,使跨域推薦系統(tǒng)能更好地應(yīng)用在各種真實的推薦場景下。本文采用對比試驗的方法,在真實的數(shù)據(jù)集上將所提出的方法與幾種現(xiàn)有的推薦方法進(jìn)行了比較,試驗表明,現(xiàn)有的推薦方法在現(xiàn)實情況下很難不受到錯誤標(biāo)注的影響,而本文提出的方法很好地應(yīng)對了錯誤標(biāo)注的影響,具有更優(yōu)越的性能。

關(guān)鍵詞:推薦系統(tǒng);新用戶;冷啟動問題;魯棒性;互信息

中圖分類號:TP181文獻(xiàn)標(biāo)志碼:A

為了解決大數(shù)據(jù)時代的數(shù)據(jù)過載問題,推薦系統(tǒng)在近些年已經(jīng)被學(xué)術(shù)界廣泛關(guān)注而且也在現(xiàn)實生活中獲得了大量的部署。為了更好給新用戶推薦新產(chǎn)品(即解決推薦系統(tǒng)中的冷啟動問題)[1],研究者們提出了跨域推薦系統(tǒng)使用多用戶領(lǐng)域(一般稱為源域)的數(shù)據(jù)去解決少用戶領(lǐng)域(一般稱為目標(biāo)域)的推薦問題[2-3]?,F(xiàn)有的跨域推薦系統(tǒng)主要分為兩種類型[4]:第一種類型通過將來自多個域的數(shù)據(jù)集以通用的格式(例如,一個通用的評分矩陣[5])組合起來去聚合知識,他們會假設(shè)“用戶-產(chǎn)品”的數(shù)據(jù)格式是固定的[2,6-9];第二種類型通過遷移的知識來鏈接領(lǐng)域,這一系列研究僅限于基于矩陣分解的協(xié)同過濾方法,因為在不同域跨域共享的一個潛在因素允許知識轉(zhuǎn)移[10-12]。無論是以上哪一種跨域推薦系統(tǒng),他們都假設(shè)源域中的知識是正確的,不含有任何錯誤信息的。然而這個假設(shè)在現(xiàn)實推薦場景中很難被滿足。假設(shè)源域的數(shù)據(jù)來自于用戶點擊記錄,如果用戶勿點擊了一個產(chǎn)品,那么該用戶點擊記錄數(shù)據(jù)中就存在了錯誤信息,繼而打破了現(xiàn)有方法的假設(shè),導(dǎo)致現(xiàn)有方法的效果出現(xiàn)了大幅下降。

本文發(fā)現(xiàn)這種錯誤信息會極大得降低跨域推薦系統(tǒng)的性能,使其無法在現(xiàn)實場景中使用。為了解決這個問題,本文提出了一個基于互信息的魯棒跨域推薦系統(tǒng)——互信息魯棒域分離網(wǎng)絡(luò)。在該系統(tǒng)中,一個基于互信息的風(fēng)險函數(shù)被提出來去自動過濾數(shù)據(jù)中存在的錯誤標(biāo)注。該風(fēng)險函數(shù)是香農(nóng)互信息的廣義版本,它保留了香農(nóng)互信息的所有屬性,包括非負(fù)性、對稱性和信息單調(diào)性,并且還具有相對不變性。使用該風(fēng)險函數(shù)所訓(xùn)練出的跨域推薦系統(tǒng)可以很好地處理訓(xùn)練數(shù)據(jù)中存在的錯誤信息。同時,本文采用了真實的數(shù)據(jù)集驗證了互信息魯棒域分離網(wǎng)絡(luò)的有效性。結(jié)果表明,當(dāng)源域含有錯誤信息時,該網(wǎng)絡(luò)依然可以很好地解決推薦系統(tǒng)中的冷啟動問題。

1跨域推薦系統(tǒng)的定義與所用符號

在跨域推薦系統(tǒng)中,有兩個基礎(chǔ)空間,它們分別是特征空間X以及標(biāo)簽空間Y,其中X是d維歐式空間的一個子集,而Y是由標(biāo)簽1,2,…,L組成。不同的標(biāo)簽代表被推薦的不同產(chǎn)品,而空間X中元素x則代表了用戶。在跨域推薦系統(tǒng)中,有兩個不同的數(shù)據(jù)集,分別是源域S及目標(biāo)域T:

由于被研究的問題屬于跨域推薦系統(tǒng)范疇,因此,源域和目標(biāo)域是由不同的分布生成的。另外,在現(xiàn)實的應(yīng)用中,得到充足的源域真實標(biāo)簽也是一件極其困難的事。一般來說,在源域數(shù)據(jù)的標(biāo)簽中會混入噪音標(biāo)簽(錯誤標(biāo)簽)。因此,在標(biāo)簽噪音跨域推薦系統(tǒng)中,僅有帶噪音的源域數(shù)據(jù) Sn是可得的:

2模型介紹

本文提出了一個新的模型去解決標(biāo)簽噪音跨域推薦系統(tǒng)問題。本文提出的方法被命名為互信息魯棒域分離網(wǎng)絡(luò)(mutual information robust domain separation networks,MIRDSN)。MIRDSN 是基于兩個基礎(chǔ)模塊:第一個模塊是被稱作域分離網(wǎng)絡(luò)(domain separation networks,DSN),DSN的主要目的是解決源域及目標(biāo)域的域差異問題;第二個模塊被稱做互信息魯棒風(fēng)險(mutual information robust risk,MIRR),MIRR的主要目的是緩解源域里標(biāo)簽噪音所引起的分類誤差。

2.1域分離網(wǎng)絡(luò)

2.3最終的優(yōu)化函數(shù)

3試驗結(jié)果與分析

3.1數(shù)據(jù)集介紹

本文選取了兩個來自于雅虎的數(shù)據(jù)集作為本次試驗的數(shù)據(jù)。兩個數(shù)據(jù)集分別為視頻點播服務(wù)(VIDEO)和新聞閱讀(NEWS)的瀏覽日志。而試驗的主要目的就是向從未使用過VIDEO和NEWS的用戶進(jìn)行推薦。

在VIDEO數(shù)據(jù)集中,每個數(shù)據(jù)的特征為一個用戶的歷史觀看記錄,每個數(shù)據(jù)的標(biāo)簽為該用戶最新觀看的視頻;在NEWS數(shù)據(jù)集中,有用戶的歷史閱讀記錄,但沒有每個用戶的視頻觀看記錄。即VIDEO數(shù)據(jù)集是一個被標(biāo)注過的源域;NEWS數(shù)據(jù)集是一個為被標(biāo)注過的目標(biāo)域。為了測試所提出的模型的效果,本文找到了38 250個同時點播過視頻或瀏覽過新聞的用戶,即有了一個有標(biāo)簽的目標(biāo)域用于測試本文所提出的推薦系統(tǒng)。VIDEO和NEWS數(shù)據(jù)集各含有約1 000萬條數(shù)據(jù)。在VIDEO和NEWS數(shù)據(jù)集中,它們都含有一些文本特征。在VIDEO數(shù)據(jù)集中,本文使用標(biāo)題、分類、簡介和演員信息作為額外特征,在NEWS數(shù)據(jù)集中,標(biāo)題和分類被當(dāng)作額外特征。由于VIDEO和NEWS數(shù)據(jù)集中沒有指出哪些數(shù)據(jù)是完全正確的,為了模仿噪音環(huán)境,本文采用對稱噪音的生成方式來生成在噪音環(huán)境下的VIDEO數(shù)據(jù)。

3.2對比方法

本文選擇了其它4種推薦算法作為對比算法,來印證本文所提出的方法是否具有更優(yōu)秀的性能。最受歡迎法(most popular item,POP)直接推薦了訓(xùn)練數(shù)據(jù)中被觀看最多的視頻,和POP方法比較,可以知道MIRDSN是否做到了個性化的推薦。Domain Separation NetworksDSN為經(jīng)典遷移學(xué)習(xí)方法??缬蚓仃嚪纸夥ǎ╟ross-domain matrix factorization,CdMF)為經(jīng)典協(xié)同過濾方法,本次試驗將VIDEO-NEWS數(shù)據(jù)集轉(zhuǎn)化為用戶-視頻的點擊矩陣,然后輸入該矩陣給CdMF方法來獲得推薦結(jié)果。神經(jīng)網(wǎng)絡(luò)(neural networks,NN)為非遷移方法,NN只會最小化經(jīng)驗風(fēng)險和樣本重構(gòu)風(fēng)險而不考慮最小化域之間的分布差異。33207F7F-5A67-453B-9785-0D27C4D9F5DC

3.3試驗設(shè)置

3.4試驗結(jié)果與分析

4結(jié)束語

本文考慮了標(biāo)簽噪音跨域推薦系統(tǒng)問題。該問題主要解決了推薦系統(tǒng)中的兩個核心問題:1)推薦系統(tǒng)中測試數(shù)據(jù)集和訓(xùn)練數(shù)據(jù)集來自不同分布;2)推薦系統(tǒng)中訓(xùn)練數(shù)據(jù)集包含了錯誤標(biāo)簽。為了解決標(biāo)簽噪音跨域推薦系統(tǒng)問題,本文提出了互信息魯棒域分離網(wǎng)絡(luò)模型。該模型主要由兩部分組成:域分離網(wǎng)絡(luò)和互信息魯棒風(fēng)險。域分離網(wǎng)絡(luò)解決了測試數(shù)據(jù)集和訓(xùn)練數(shù)據(jù)集分布差異的問題。互信息魯棒風(fēng)險緩解了訓(xùn)練數(shù)據(jù)集中的標(biāo)簽噪音問題。本文通過試驗驗證了所提模型的有效性。試驗表明,互信息魯棒域分離網(wǎng)絡(luò)在噪音環(huán)境下可以很好地達(dá)到理想的推薦效果。參考文獻(xiàn):

[1]ZHAO C, LI C L, XIAO R, et al. CATN: cross-domain recommendation for cold-start users via aspect transfer network[C]//SIGIR 2020. New York: ACM, 2020:229-238.

[2] ZHU F, WANG Y, CHEN C C, et al. Cross-domain recommendation: challenges, progress, and prospects[C]//IJCIA 2021. UK: IJCIA,2021:4721-4728.

[3] SAHU A, DWIVEDI P. Knowledge transfer by domain-independent user latent factor for cross-domain recommender systems[J].Future Generation Computer Systems, 2020,108:320-333.

[4] WANG C, NIEPERT M, LI H. RecSys-DAN: discriminative adversarial networks for cross-domain recomme der systems[J].IEEE Transactions on Neural Networks and Learning Systems,2020,31(8):2731-2740.

[5] LONI B, SHI Y, LARSON M, et al. Cross-domain collaborative filtering with factorization machines[C]//ECIR 2014. Berlin: Springer Verlag, 2014:656-661.

[6] ABEL F, HERDER E, HOUBEN G, et al. Cross-system user modeling and personalization on the social web[J].User Modeling and User-Adapted Interaction,2013,23(2):169-209.

[7] SHANG J, SHUN M X, COLLINS-THOMPSON K. Demographic inference via knowledge transfer in cross-domain recommender systems[C]//ICDM 2018. New York: IEEE, 2018:1218-1223.

[8] LOW Y C, AGARWAL D, SMOLA A. Multiple domain user personalization[C]//SIGKDD 2011. New York: ACM, 2011:123-131.

[9] NAKATSUJI M, FUJIWARA Y, TANAKA A, et al. Recommendations over domain specific user graphs[C]// ECAI 2010. Amsterdam: IOS Press, 2010:607-612.

[10]IWATA T, TAKEUCHI K. Cross-domain recommendation without shared users or items by sharing latent vector distributions[C]//AISTATA 2015. Brookline: Microtome Publishing, 2015: 379-387.

[11]LIAN J X, ZHUANG F Z, XIE X, et al. CCCFNet: a content-boosted collaborative filtering neural network for cross domain recommender systems[C]//WWW 2017. New York: ACM, 2017: 817-818.

[12]ELKAHKY A, SONG Y, HE X D. A multi-view deep learning approach for cross-domain user modeling in recommendation systems[C]//WWW 2015. New York: ACM, 2015: 278-288.

[13]BOUSMALIS K, TRIGEORGIS G, SILBERMAN N, et al. Domain separation networks[C]//NeurlPS 2016. LA Jolla: NIPS, 2016: 343-351.33207F7F-5A67-453B-9785-0D27C4D9F5DC

[14]KANAGAWA H,KOBAYASHI H,SHIMIZU N,et al. Cross-domain recommendation via deep domain adaptation[C]//ECIR 2019. Berlin: Springer Verlag, 2019: 20-29.

[15]GANIN Y, USTINOVA E, AJAKAN H, et al. Domain-adversarial training of neural networks[J].Journal of Machine Learning Research,2016,17(59):1-35.

[16]GRETTON A, BORGWARDT K, RASCH M, et al. A kernel two-sample test[J].Journal of Machine Learning Research,2012,13(3):723-773.

[17]LONG M S, WANG J M, Ding G G, et al. Adaptation regularization: a general framework for transfer learning[J].IEEE Transactions on Knowledge and Data Engineering,2014,26(5):1076-1089.

[18]XU Y L, CAO P,KONG Y Q, et al. L_DMI: a novel information-theoretic loss function for training deep nets robust to label noise[C]//NeurlPS 2019. LA Jolla: NIPS, 2019: 6222-6233.

[19]CLEVERT D, UNTERTHINER T, HOCHREITER S. Fast and accurate deep network learning by exponential linear units (ELUS)[C]//ICLR 2016.

[19]JIANG L, ZHOU Z Y, LEUNG T, et al. Mentornet: learning data-driven curriculum for very deep neural networks on corrupted labels[C]//ICML 2018. San Diego: JMLR, 2018:2304-2313.

(責(zé)任編輯:于慧梅)

A Robust Cross-domain Recommender System Based

on Mutual-Information Theory

LIU Yukang, YU Xuejun*

(Department of Information,Beijing University of Technology,Beijing 100124,China)Abstract: Due to the emergence of a large number of new users and new products, cross-domain recommendation system has become the key to solve the cold-start problem of recommendation system. However, the current cross-domain recommendation systems assume that there is no error label in their training data, which is difficult to be satisfied in reality, leading to the underperformance of cross-domain recommendation systems in many real recommendation scenarios. To reduce the impact of error label on cross-domain recommendation system in reality and improve the accuracy of push-out results of cross-domain recommendation system in real recommendation scenarios, this paper, based on mutual information, proposes a robust cross-domain recommendation system consisting of two modules: domain separation network and mutual information robust risk. The domain separation network module solves the problem of difference between source domain and target domain. Then in the mutual information robust risk module, this paper proposes a risk function based on mutual information to filter out the error annotation in the data. The cross-domain recommendation system trained by the risk function can well deal with the error information in the training data and be better applied in various real recommendation scenarios. In this paper, the proposed method is compared with several existing recommendation methods on the real data set by using the method of comparative experiment. It is verified that it is difficult to avoid the influence of error label in reality, and the proposed method does have better performance.

Key words: recommender system; new users; cold-start problem; robustness; mutual information

于學(xué)軍(1972—):女,北京人,博士,副教授。所屬研究所:智能媒體研究所,研究方向是軟件工程方法、軟件架構(gòu)以及可信云,可信軟件測試等。在多種軟件定制開發(fā)方面具有較為豐富的經(jīng)驗,作為負(fù)責(zé)人主持了信息系統(tǒng)開發(fā)項目20余項,發(fā)表軟件開發(fā)相關(guān)論文30余篇。任應(yīng)用軟件產(chǎn)品質(zhì)量監(jiān)督檢驗中心和中國軟件質(zhì)量網(wǎng)特聘專家、北京市財政局信息系統(tǒng)建設(shè)項目財評專家。33207F7F-5A67-453B-9785-0D27C4D9F5DC

猜你喜歡
魯棒性推薦系統(tǒng)
武漢軌道交通重點車站識別及網(wǎng)絡(luò)魯棒性研究
數(shù)據(jù)挖掘在選課推薦中的研究
基于用戶偏好的信任網(wǎng)絡(luò)隨機游走推薦模型
一種基于三維小波變換的魯棒視頻水印方案
基于個性化的協(xié)同過濾圖書推薦算法研究
個性化推薦系統(tǒng)關(guān)鍵算法探討
淺談Mahout在個性化推薦系統(tǒng)中的應(yīng)用
電子節(jié)氣門非線性控制策略
一種基于奇異值分解的魯棒水印算法
關(guān)于協(xié)同過濾推薦算法的研究文獻(xiàn)綜述
许昌县| 庐江县| 礼泉县| 平遥县| 泸定县| 林口县| 马关县| 建德市| 蓝田县| 鄂尔多斯市| 田东县| 新巴尔虎左旗| 彭山县| 永寿县| 沿河| 德兴市| 普定县| 新源县| 饶平县| 钟祥市| 武威市| 建昌县| 滦平县| 四平市| 湾仔区| 徐闻县| 洪泽县| 基隆市| 吉安市| 灌云县| 伊吾县| 增城市| 青冈县| 雷州市| 琼中| 新闻| 古田县| 赤水市| 同心县| 玛沁县| 金阳县|