国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Look-alike和K-means算法的音樂(lè)冷啟動(dòng)問(wèn)題研究

2022-09-29 01:10王屯屯
電腦知識(shí)與技術(shù) 2022年23期
關(guān)鍵詞:冷啟動(dòng)

王屯屯

摘要:在音樂(lè)推薦領(lǐng)域,根據(jù)用戶的行為習(xí)慣進(jìn)行偏好建模并進(jìn)行推薦。但是對(duì)于熱度較低的音樂(lè),由于很少有用戶進(jìn)行消費(fèi),幾乎得不到推薦,導(dǎo)致系統(tǒng)中的馬太效應(yīng)越發(fā)明顯,不利于音樂(lè)平臺(tái)的長(zhǎng)期發(fā)展。基于look-alike框架針對(duì)冷門(mén)音樂(lè)分別進(jìn)行建模,訓(xùn)練周期較長(zhǎng),且由于樣本數(shù)量少,模型效果不理想。利用K-means算法對(duì)冷門(mén)歌曲進(jìn)行聚類(lèi),再投入look-alike框架進(jìn)行訓(xùn)練,訓(xùn)練周期大幅度縮短,且推薦準(zhǔn)確率更高。

關(guān)鍵詞:Look-alike;kmeans;音樂(lè)推薦;冷啟動(dòng)

中圖分類(lèi)號(hào):TP311? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1009-3044(2022)23-0001-02

1引言

隨著互聯(lián)網(wǎng)的飛速發(fā)展以及智能移動(dòng)終端的普及,隨時(shí)隨地聽(tīng)音樂(lè)已經(jīng)成為當(dāng)代社會(huì)的一種常態(tài)。面對(duì)海量音樂(lè),主動(dòng)檢索和排行榜成為很多人的選擇。推薦系統(tǒng)的推出,可以很好地主動(dòng)為用戶提供音樂(lè)[1]。推薦系統(tǒng)一般需要大量用戶日志信息作為支撐[2],但是冷門(mén)音樂(lè)相關(guān)訓(xùn)練數(shù)據(jù)較少,推薦效果不佳,因此需要針對(duì)冷啟動(dòng)狀態(tài)下的音樂(lè)制定特殊推薦算法。一種可行的思路是根據(jù)冷門(mén)音樂(lè)的消費(fèi)群體,找到與這些用戶相似的目標(biāo)用戶進(jìn)行推薦。而look-alike的工作機(jī)制就是基于用戶畫(huà)像和社交關(guān)系找到相似用戶,因此該算法適合用于解決音樂(lè)冷啟動(dòng)問(wèn)題。但是在該算法框架中,需要為每首音樂(lè)進(jìn)行模型訓(xùn)練,使得推薦的音樂(lè)數(shù)量較少,并且每首音樂(lè)消費(fèi)用戶較少,訓(xùn)練樣本不足,導(dǎo)致模型準(zhǔn)確率不高。K-means算法作為復(fù)雜度較低的聚類(lèi)算法,可以快速地將相似的音樂(lè)進(jìn)行聚類(lèi),然后將該群體下音樂(lè)集中起來(lái)進(jìn)行訓(xùn)練,不僅可以擴(kuò)大樣本數(shù)量,還可以提高look-alike的效率。

2 相關(guān)工作

針對(duì)推薦系統(tǒng)物品冷啟動(dòng)問(wèn)題,很多研究者提出自己的算法。SAVESKI等人[3]綜合考慮物品的內(nèi)容特征和消費(fèi)該物品的用戶產(chǎn)生的行為特征,將這兩個(gè)特征矩陣一起分解。借助矩陣分解可以實(shí)現(xiàn)精準(zhǔn)的推薦,在此基礎(chǔ)上利用物品的內(nèi)容特征實(shí)現(xiàn)物品冷啟動(dòng)。LIU等人[4]在協(xié)同過(guò)濾的基礎(chǔ)上,再次進(jìn)行內(nèi)容過(guò)濾實(shí)現(xiàn)物品冷啟動(dòng)。通過(guò)虛擬分配項(xiàng)目的信息文件,在進(jìn)行內(nèi)容篩選的基礎(chǔ)上,借助傳統(tǒng)的協(xié)同過(guò)濾框架得到推薦結(jié)果。陳克寒等人[5]基于兩個(gè)階段的聚類(lèi)過(guò)程,在考慮圖摘要算法的基礎(chǔ)上,通過(guò)常規(guī)的內(nèi)容相似算法,得到較為理想的推薦結(jié)果。文獻(xiàn)[6]基于look-alike框架,借助于種子用戶與目標(biāo)用戶間的行為相似性,達(dá)到受眾擴(kuò)展目的。此外,考慮到種子的不同成員,為了達(dá)到目標(biāo)用戶的自適應(yīng)學(xué)習(xí)的健壯性,在局部attention單元的基礎(chǔ)上,還精心設(shè)計(jì)了全局attention單元。為了降低時(shí)間性能消耗,對(duì)Seeds進(jìn)行了聚類(lèi)操作,不僅訓(xùn)練變快,而且最大限度地減少了種子信息的丟失。

3 模型介紹

3.1 Look-alike

Look-alike模型由Facebook公司于2013年發(fā)表,最初的目的是為廣告主尋找與已有廣告(種子)類(lèi)似的潛在用戶群體。本文將冷門(mén)音樂(lè)作為廣告,根據(jù)已經(jīng)消費(fèi)過(guò)冷門(mén)音樂(lè)的用戶,發(fā)掘相似的用戶進(jìn)行音樂(lè)推薦,從而提高冷門(mén)音樂(lè)的熱度,緩解系統(tǒng)中的馬太效應(yīng)。Look-alike框架根據(jù)具體實(shí)現(xiàn)的算法,主要分為三種:基于相似度,基于邏輯回歸以及基于注意力深度學(xué)習(xí)模型。

(1)基于相似度的look-alike模型

基于相似度的look-alike模型是最直觀、最簡(jiǎn)單的一種方法:選取某種相似度評(píng)價(jià)指標(biāo),計(jì)算種子用戶與目標(biāo)用戶的相似度,降序排序并取頭部用戶進(jìn)行投放。常用的相似度指標(biāo)包括:余弦相似度和Jaccard系數(shù)。

余弦相似度主要針對(duì)具備連續(xù)值屬性特征,具體定義如下:

其中N表示特征數(shù)量,Uik和Ujk分別表示用戶Ui和Uj的第k維特征的取值。

Jaccard系數(shù)主要針對(duì)具備離散值屬性特征,具體定義如下:

其中U(i,j)表示用戶Ui和用戶Uj特征值相同,TUik和TUjk分別表示用戶Ui和Uj在k維特征上進(jìn)行的截?cái)嘀怠?/p>

定義好兩個(gè)用戶間的相似度后,需要定義目標(biāo)用戶Ut與種子用戶群體Seeds間的相似度,主要方式有取最大值simmax和平均值simmeans,具體定義如下:

其中sim(Ut,Us)的計(jì)算方式,要根據(jù)具體需求確定?;谙嗨贫鹊膶?shí)現(xiàn)方法設(shè)計(jì)比較簡(jiǎn)單,但是當(dāng)數(shù)據(jù)規(guī)模較大時(shí),時(shí)間復(fù)雜度比較高。

(2) 基于邏輯回歸的look-alike模型

該方式將look-alike作為概率預(yù)測(cè)問(wèn)題,而該問(wèn)題通常借助二分類(lèi)任務(wù)進(jìn)行,通過(guò)邏輯回歸預(yù)測(cè)目標(biāo)用戶的喜歡程度。模型的效果取決于樣本的質(zhì)量,因此數(shù)據(jù)集的生成至關(guān)重要。正樣本比較好獲取,可以直接采用種子用戶的行為,對(duì)于負(fù)樣本一般選擇所有非種子用戶的數(shù)據(jù)。

(3)基于深度學(xué)習(xí)的look-alike模型

該實(shí)現(xiàn)方式最具代表性的是由騰訊發(fā)布的look-alike系統(tǒng),用于緩解微信的“看一看”中存在的馬太效應(yīng)。該模型將用戶的行為送入word2vector模型訓(xùn)練,得到Embedding特征,并且將特征分為離線訓(xùn)練和在線處理兩部分,并且將常用的softmax改為negative sampling,而損失函數(shù)則采用傳統(tǒng)的sigmoid cross entropy。

3.2 融合K-means模型

本文采用基于邏輯回歸的look-alike模型解決音樂(lè)冷啟動(dòng)問(wèn)題,模型結(jié)構(gòu)如圖1所示:

傳統(tǒng)的look-alike框架會(huì)為每一首音樂(lè)訓(xùn)練模型,并進(jìn)行推廣。但是這樣會(huì)對(duì)計(jì)算性能要求比較高,訓(xùn)練周期較長(zhǎng)。此外,單首音樂(lè)的樣本數(shù)據(jù)較少,模型訓(xùn)練效果不佳。根據(jù)啟發(fā)式算法,相似的音樂(lè)會(huì)被同一批人喜歡,這里將所有音樂(lè)送入K-means模型進(jìn)行聚類(lèi),將相似的音樂(lè)歸入一類(lèi)進(jìn)行模型訓(xùn)練和目標(biāo)用戶投放。

圖中音樂(lè)1和音樂(lè)3比較相似,被劃分為一個(gè)簇,音樂(lè)2、音樂(lè)4和音樂(lè)5被劃分到另外一個(gè)簇。將這兩個(gè)簇內(nèi)相關(guān)用戶對(duì)簇內(nèi)音樂(lè)的行為作為正樣本,相關(guān)用戶對(duì)簇外音樂(lè)的行為作為負(fù)樣本,分別訓(xùn)練邏輯回歸模型。最后將目標(biāo)用戶送入訓(xùn)練好的模型,提取消費(fèi)概率最高的用戶進(jìn)行投放。

4 實(shí)驗(yàn)

本章節(jié)對(duì)算法框架進(jìn)行了詳細(xì)的闡述,將通過(guò)投放準(zhǔn)確度和時(shí)間消耗兩方面分別驗(yàn)證本文所提模型的優(yōu)勢(shì)。本文實(shí)驗(yàn)所采用數(shù)據(jù)為真實(shí)互聯(lián)網(wǎng)公司脫敏后的用戶行為數(shù)據(jù)。

4.1 評(píng)價(jià)指標(biāo)

在投放準(zhǔn)確度方面,這里采用AUC評(píng)價(jià)指標(biāo),具體定義如下:

其中Rk表示第k個(gè)正樣本所在的位置,i表示正樣本數(shù)量,j表示負(fù)樣本數(shù)量。該評(píng)價(jià)指標(biāo)的取值范圍為[0,1],值越大,代表模型的效果越好。

在對(duì)模型的時(shí)間消耗評(píng)價(jià)方面,會(huì)計(jì)算每個(gè)模型推送M首音樂(lè)時(shí)所需要的總時(shí)間??倳r(shí)間分為數(shù)據(jù)預(yù)處理、模型訓(xùn)練、結(jié)果預(yù)測(cè)以及數(shù)據(jù)推送四個(gè)步驟。由于數(shù)據(jù)預(yù)處理和數(shù)據(jù)推送對(duì)每個(gè)模型保持一致,因此只計(jì)算模型訓(xùn)練和結(jié)果預(yù)測(cè)的時(shí)間進(jìn)行對(duì)比。

4.2 實(shí)驗(yàn)設(shè)置

提取用戶的音樂(lè)歷史行為,行為類(lèi)型包括:播放,收藏以及下載。將播放時(shí)間小于10秒的用戶行為設(shè)置為負(fù)樣本,其他行為設(shè)置為正樣本。此外,考慮到負(fù)樣本數(shù)量太少,將這些用戶對(duì)應(yīng)的其他音樂(lè)收藏下載行為也設(shè)置為負(fù)樣本。

將“用戶-音樂(lè)”行為進(jìn)行倒排,獲取每首音樂(lè)對(duì)應(yīng)的用戶數(shù)量UNUM,將UNUM分布在[10,100]的音樂(lè)作為冷門(mén)音樂(lè)進(jìn)行實(shí)驗(yàn)。數(shù)量小于10的音樂(lè),用戶行為過(guò)少,訓(xùn)練出來(lái)的模型效果較差;數(shù)量大于100的音樂(lè),暫時(shí)不認(rèn)定為冷門(mén)音樂(lè)。

4.3 實(shí)驗(yàn)結(jié)果

本文所提模型LAKM(Look-alike based on K-means),首先將所有音樂(lè)的以后行為送入K-means模型進(jìn)行聚類(lèi),將相似的音樂(lè)作為一個(gè)整體,每個(gè)簇訓(xùn)練一個(gè)邏輯回歸模型,預(yù)測(cè)目標(biāo)用戶對(duì)簇的喜歡程度,按照打分降序取TOPN進(jìn)行推薦。對(duì)比模型look-alike直接為每一首音樂(lè)訓(xùn)練邏輯回歸模型并進(jìn)行投放。具體實(shí)驗(yàn)結(jié)果如圖2和圖3所示:

通過(guò)實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),本文所提模型LAKM在AUC和TIME上均優(yōu)于對(duì)比模型look-alike。LAKM模型通過(guò)K-means方法進(jìn)行聚類(lèi),該聚類(lèi)算法較為簡(jiǎn)單,耗時(shí)較短,而以簇為單位進(jìn)行投放,訓(xùn)練的邏輯回歸數(shù)量遠(yuǎn)遠(yuǎn)小于對(duì)比模型,因此所需時(shí)間極大縮減;相較于單首音樂(lè),多首相似音樂(lè)的用戶行為明顯較多,訓(xùn)練出來(lái)的模型效果更好,因此能夠更好地進(jìn)行音樂(lè)推送。

5 總結(jié)與展望

在利用look-alike框架投放冷門(mén)音樂(lè)時(shí),需要每一首音樂(lè)訓(xùn)練邏輯回歸模型。利用K-means對(duì)冷門(mén)音樂(lè)進(jìn)行聚類(lèi),找到相似的音樂(lè)作為一個(gè)整體進(jìn)行推薦,不僅可以提高樣本數(shù)量,還降低了訓(xùn)練模型的數(shù)量,在提高投放準(zhǔn)確度的同時(shí),降低了訓(xùn)練時(shí)間,使得更多音樂(lè)可以得到投放機(jī)會(huì),解決音樂(lè)推薦的冷啟動(dòng)問(wèn)題。在特征選擇方面,只采用了音樂(lè)的Embedding特征,后續(xù)將考慮加入更多音樂(lè)特征。

參考文獻(xiàn):

[1] 田杰,胡秋霞,司佳豪.基于深度信念網(wǎng)絡(luò)DBN的音樂(lè)推薦系統(tǒng)設(shè)計(jì)[J].電子設(shè)計(jì)工程,2021,29(23):162-165,170.

[2] 喬雨,李玲娟.推薦系統(tǒng)冷啟動(dòng)問(wèn)題解決策略研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2018,28(2):83-87.

[3] Saveski M,Mantrach A.Item cold-start recommendations:learning local collective embeddings[C]//Proceedings of the 8th ACM Conference on Recommender systems.Foster City,Silicon Valley,California,USA.New York:ACM,2014:89-96.

[4] Liu H S,Goyal A,Walker T,et al.Improving the discriminative power of inferred content information using segmented virtual profile[C]//Proceedings of the 8th ACM Conference on Recommender systems.Foster City,Silicon Valley,California,USA.New York:ACM,2014:97-104.

[5] 陳克寒,韓盼盼,吳健.基于用戶聚類(lèi)的異構(gòu)社交網(wǎng)絡(luò)推薦算法[J].計(jì)算機(jī)學(xué)報(bào),2013,36(2):349-359.

[6] Liu Y D,Ge K K,Zhang X,et al.Real-time attention based look-alike model for recommender system[C]//Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining.Anchorage AK USA.New York,NY,USA:ACM,2019:2765-2773.

【通聯(lián)編輯:聞翔軍】

猜你喜歡
冷啟動(dòng)
冷啟動(dòng)對(duì)重型混動(dòng)車(chē)實(shí)際道路行駛排放的影響研究
輕型汽油車(chē)實(shí)際行駛排放試驗(yàn)中冷啟動(dòng)排放的評(píng)估
Evaluation of Arctic Sea Ice Drift and its Relationship with Near-surface Wind and Ocean Current in Nine CMIP6 Models from China
基于PEMS試驗(yàn)的重型柴油車(chē)?yán)鋯?dòng) 排放特征研究
基于學(xué)習(xí)興趣的冷啟動(dòng)推薦模型
質(zhì)子交換膜燃料電池冷啟動(dòng)研究綜述①
輕型車(chē)在WLTC下常、低溫冷啟動(dòng)排放特性試驗(yàn)研究
輕型汽車(chē)?yán)鋯?dòng)排放特性研究
基于移動(dòng)互聯(lián)網(wǎng)的非活躍用戶個(gè)性化推薦研究
綜合隱語(yǔ)義模型和信任關(guān)系網(wǎng)絡(luò)的個(gè)性化推薦
随州市| 昔阳县| 克山县| 甘谷县| 金乡县| 浮梁县| 孟州市| 开化县| 桃园市| 冷水江市| 葵青区| 城口县| 大荔县| 吕梁市| 枣阳市| 营山县| 蒙山县| 遂溪县| 佳木斯市| 蕲春县| 泗洪县| 金坛市| 霍州市| 曲阳县| 边坝县| 开远市| 胶州市| 平山县| 洪雅县| 通化市| 潼关县| 邵阳县| 乌苏市| 远安县| 曲麻莱县| 巫山县| 禄劝| 乌兰浩特市| 陆良县| 疏附县| 北流市|