羅彪 周激流 張衛(wèi)華
摘要:基于變分自編碼器的協(xié)同推薦算法可以幫助解決推薦算法中的稀疏性問題,但是由于變分自編碼器模型先驗(yàn)是單一的高斯分布,使得表達(dá)趨向簡單和平均,存在擬合不足的問題.高斯混合變分自編碼器模型擁有更加復(fù)雜的先驗(yàn),相對于原本的變分自編碼器模型,它對于非線性的任務(wù)有著更強(qiáng)的適應(yīng)性和效果,已被廣泛應(yīng)用于無監(jiān)督聚類和半監(jiān)督學(xué)習(xí).受此啟發(fā),本文研究基于高斯混合變分自編碼器模型的協(xié)同過濾算法.本文基于Cornac推薦系統(tǒng)比較框架設(shè)計(jì)實(shí)驗(yàn),將高斯混合變分自編碼器改進(jìn)后用于協(xié)同推薦任務(wù)中,利用生成模型重新生成的用戶-物品矩陣進(jìn)行推薦.在推理模型和生成模型中分別用一層隱藏層提取深層特征增加模型魯棒性,并且使用提前停止的訓(xùn)練策略以減少過擬合.本文在多組公開數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),與其他推薦算法在NDCG和召回率指標(biāo)上進(jìn)行對比.實(shí)驗(yàn)證明,改進(jìn)的基于高斯混合變分自編碼器模型的協(xié)同過濾算法在推薦任務(wù)中表現(xiàn)優(yōu)異.
關(guān)鍵詞:協(xié)同過濾;變分自編碼器;高斯混合;神經(jīng)網(wǎng)絡(luò)
收稿日期: 2022-04-24
基金項(xiàng)目: 四川省自然科學(xué)基金(2022YFQ0047)
作者簡介: 羅彪(1998-), 男,四川綿陽人,碩士研究生,主要研究方向?yàn)橥扑]系統(tǒng).E-mail: 1726483356@qq.com
通訊作者: 張衛(wèi)華.E-mail: zhangweihua@scu.edu.cn
Gaussian mixture variational autoencoder for collaborative filtering
LUO Biao,ZHOU Ji-Liu, ZHANG Wei-Hua
(College of Computer Science, Sichuan University, Chengdu 610065, China)
The collaborative recommendation algorithm based on the Variational Autoencoder (VAE)can help solve the sparsity problem in the recommendation algorithm, but the VAE models prior is a single Gaussian distribution, which makes the expression tends to be simple and average, and suffers from the problem of underfitting. The Gaussian Mixture Variational Autoencoder (GMVAE)model has a more complex prior, which is more adaptable and effective for nonlinear tasks compared to the original VAE model, and has been widely used for unsupervised clustering and semi-supervised learning. Inspired by this, this paper investigates a collaborative filtering algorithm based on the GMVAE model. In this paper, the authors design experiments based on the Cornac recommender system comparison framework, and use the improved GMVAE for the collaborative recommendation task, the user-item matrix regenerated by the generative model is used for recommendation task. Deep features are extracted with one hidden layer in the inference model and one layer in the generation model to increase model robustness, and an early stop strategy is used to reduce overfitting. In this paper, experiments are conducted on multiple public datasets to compare with other recommendation algorithms in terms of NDCG and recall metrics. The experiments demonstrate that the improved collaborative filtering algorithm based on a GMVAE model performs well in the recommendation task.
Collaborative filtering; Variational autoencoder; Gaussian mixture; Neural network
1 引 言
隨著互聯(lián)網(wǎng)的發(fā)展,往往有太多無用的冗余信息被展示在用戶面前,用戶在海量的數(shù)據(jù)信息中尋找真正需要的信息變得越來越困難.在這種情況下,推薦系統(tǒng)變得越來越重要,一個好的推薦算法可幫助用戶有效地找到他所需要的部分?jǐn)?shù)據(jù).協(xié)同過濾算法是一種被廣泛使用的推薦系統(tǒng)算法,協(xié)同過濾算法通過用戶的歷史數(shù)據(jù)計(jì)算用戶或物品之間的相似性來進(jìn)行推薦[1].隱性的偏好數(shù)據(jù)往往可以表達(dá)成用戶-物品評分矩陣,一些矩陣分解模型被用于協(xié)同過濾中,該方法相對簡單[2,3].然而,因?yàn)橹荒懿东@數(shù)據(jù)中的線性模式,這些早期的方法能力大多是有限的,這使得要適應(yīng)更大的稀疏矩陣成為挑戰(zhàn).
許多情況下,在所有可能的用戶與物品的互動中,只有不到1%的相互作用實(shí)際發(fā)生,也就是說用戶-物品評分矩陣是一個巨大的稀疏矩陣,這被稱為稀疏性問題,是協(xié)同過濾的一個重要的限制因素[1,4].稀疏性問題不僅給矩陣分解方法帶來了麻煩,而且給一些非線性神經(jīng)網(wǎng)絡(luò)方法也帶來了很大的挑戰(zhàn)和困難.這些神經(jīng)網(wǎng)絡(luò)方法的復(fù)雜性和確定性使其難以處理海量的稀疏數(shù)據(jù).
變分自編碼器(Variational Autoencoder,VAE)模型可以幫助解決稀疏性問題,且已經(jīng)被應(yīng)用于協(xié)同過濾推薦算法,體現(xiàn)出非常優(yōu)越的性能[5].變分自編碼器是一種可通過神經(jīng)網(wǎng)絡(luò)構(gòu)建非線性概率潛在模型的貝葉斯方法,它作為一種非線性神經(jīng)網(wǎng)絡(luò)方法,其性能優(yōu)于矩陣分解等線性方法.與一般的神經(jīng)網(wǎng)絡(luò)不同,變分自編碼器并不嘗試學(xué)習(xí)特定的數(shù)據(jù)點(diǎn),而是學(xué)習(xí)這些點(diǎn)上的潛在分布,從而讓它具有解釋潛在空間中的不確定性的能力[6].
現(xiàn)有文獻(xiàn)已報道各種變分自編碼器模型及其改進(jìn)模型[7].例如,Liang等人[5]在生成模型中使用多項(xiàng)似然以及在參數(shù)估計(jì)方面使用貝葉斯推理,將變分自編碼器用于隱性偏好數(shù)據(jù)的協(xié)同推薦.Li等人[8]提出了一種考慮內(nèi)容信息的協(xié)同變分自編碼器,利用評分信息和內(nèi)容信息,克服了協(xié)同推薦中的稀疏性和冷啟動等困難.考慮到用戶-物品評分矩陣是一種兩路數(shù)據(jù),Truong等人[9]使用了一個生成模型和兩個分別基于用戶的和基于物品的推斷模型,提出了雙邊變分自編碼器.
變分自編碼器利用神經(jīng)網(wǎng)絡(luò)捕捉數(shù)據(jù)的潛在特征,假設(shè)潛變量服從簡單的高斯分布,而后對數(shù)據(jù)進(jìn)行重構(gòu).在這樣的前提假設(shè)下,變分自編碼器存在的問題之一是使用單一的高斯分布作為模型的先驗(yàn).這只是一種對大多數(shù)問題的折中近似,并沒有捕捉數(shù)據(jù)的完整特征.有研究表明,這個簡單的假設(shè)將鼓勵變分自編碼器適應(yīng)盡可能擴(kuò)散[10],這會導(dǎo)致模型對真實(shí)分布的擬合不足,更加傾向于一個接近平均的分布.
面對這樣的情況,將簡單單一的高斯分布擴(kuò)展成為多個高斯的混合分布,就成了一個自然而然的想法.高斯混合變分自編碼器(GMVAE)作為變分自編碼器的一種變體,已經(jīng)被廣泛應(yīng)用于半監(jiān)督學(xué)習(xí)和無監(jiān)督聚類中.高斯混合變分自編碼器的主要思想是使用多重高斯分布取代傳統(tǒng)變分自編碼器的單一高斯先驗(yàn).這種方式可以使得潛變量對于數(shù)據(jù)潛在分布的捕捉更加復(fù)雜,更加接近數(shù)據(jù)的真實(shí)分布,具有更強(qiáng)的學(xué)習(xí)能力.Kingma等人[11]提供了高斯混合變分自編碼器的概率模型并證明了生成方法可以有效地進(jìn)行半監(jiān)督學(xué)習(xí). Dilokthanakul等人[12]分析了一種使用混合高斯作為先驗(yàn)分布的變分自編碼器,以便使用深度生成模型進(jìn)行無監(jiān)督聚類.Rao等人[13]提出了一種方法 (CURL)來解決一個他們稱之為無監(jiān)督持續(xù)學(xué)習(xí)的問題.CURL使用了一種潛在的混合高斯,這與高斯混合變分自編碼器中使用的圖模型類似. Collier等人[14]表明,使用連續(xù)松弛法能在保持可接受的聚類質(zhì)量的同時,大大減少訓(xùn)練時間.張顯煬等人[15]的研究中,利用高斯混合的變分自編碼器實(shí)現(xiàn)了對海面艦船的軌跡預(yù)測,相比于傳統(tǒng)的預(yù)測算法,取得了更好的預(yù)測結(jié)果.
現(xiàn)在已經(jīng)有研究將高斯混合變分自編碼用于協(xié)同過濾中,Charbonneau使用了這一模型應(yīng)用于Tou.TV和MovieLens-20M數(shù)據(jù)集并且測試了他的模型效果[16].文獻(xiàn)[6]中模型在實(shí)現(xiàn)多重高斯時使用了多個不同的中間變量,有著更大的模型復(fù)雜度.與文獻(xiàn)[6]不同,本文的模型只有一個中間變量,通過增加了一個網(wǎng)絡(luò)結(jié)構(gòu)實(shí)現(xiàn)了混合高斯,并且對模型進(jìn)行了性能測試,在經(jīng)典數(shù)據(jù)集上取得了優(yōu)異的效果.
2 背景知識
在一個原始的變分自編碼器中,潛變量的先驗(yàn)是一個固定的單一各向同性高斯分布.先驗(yàn)是一種對潛在分布進(jìn)行的合理假設(shè),它將作為一種潛在結(jié)構(gòu)去影響變分自編碼對于數(shù)據(jù)的學(xué)習(xí)和重構(gòu).如果數(shù)據(jù)的重新表達(dá)中包含單一高斯的先驗(yàn),將使得表達(dá)趨向于簡單和分散,對復(fù)雜的數(shù)據(jù)將擬合不足.這就需要選擇更加合適的先驗(yàn)代替原先的簡單高斯分布,來捕獲更多結(jié)構(gòu)層次的數(shù)據(jù)特征.從這個角度出發(fā),已經(jīng)有多種變分自編碼的變體被發(fā)明,使其可以學(xué)習(xí)更復(fù)雜的潛在表征.在本研究中,選擇高斯混合變分自編碼器,通過假設(shè)數(shù)據(jù)可以被多個混合的高斯生成,可以對多層次的結(jié)構(gòu)化人群分布特點(diǎn)進(jìn)行建模并且捕獲他們的潛在特征.
常規(guī)變分自編碼器以x|w~N(μw,diag(σ2w))作為先驗(yàn)分布,它常常面臨擬合坍塌的問題,使得模型不能充分表達(dá)生成數(shù)據(jù).將單一高斯變?yōu)槎嘀馗咚箷r,首先要面對的問題是:將無法計(jì)算Kullback-Leibler (KL)項(xiàng),然而這個項(xiàng)是原來模型的學(xué)習(xí)優(yōu)化算法中必須的.當(dāng)變分后驗(yàn)分布遵循混合高斯[17]時,變分自編碼器中使用的積分[6]是不解析的.為了解決這個問題,引入了一種被用在無監(jiān)督集群任務(wù)[12]中的方法,如圖 1所示.在基本的變分自編碼器框架下,增加了一個過程來引入不同類別的標(biāo)簽y,分別參與生成模型和變分模型.與無監(jiān)督或者半監(jiān)督學(xué)習(xí)有所不同,無監(jiān)督或者半監(jiān)督學(xué)習(xí)中引入這個分類過程最主要的目的是對數(shù)據(jù)進(jìn)行聚類任務(wù),這個變量作為學(xué)習(xí)的主要目標(biāo)來輸出聚類的類別標(biāo)簽.在模型中,這個分類變量并不作為標(biāo)簽輸出而是作為一個新增的潛變量對人群進(jìn)行建模,通過已知數(shù)據(jù)學(xué)習(xí)數(shù)據(jù)的潛在表達(dá),重構(gòu)生成數(shù)據(jù),最后利用重構(gòu)生成的數(shù)據(jù)對用戶進(jìn)行推薦.
除了直接對個體和產(chǎn)品上的潛在分布進(jìn)行變分自編碼器學(xué)習(xí)外,本方法還包括了一個將人群聚集成更加具體的群體的過程.因此,可以將潛在空間劃分為不同的類別,用混合高斯先驗(yàn)作為一種更加合適建模數(shù)據(jù)的結(jié)構(gòu),這對于推薦任務(wù)中的海量用戶和物品,以及不同用戶的潛在關(guān)聯(lián)有著更好的適應(yīng)性和擬合能力.這個模型中的推斷模型是一個關(guān)鍵的問題,然而這個問題通過多種方法已經(jīng)解決,并且可以通過標(biāo)準(zhǔn)反向傳播進(jìn)行優(yōu)化.
3 基于高斯混合變分自編碼器的協(xié)同過濾算法
3.1 生成模型
用u∈{1,…,U}表示所有用戶編號,i∈{1,…,I}表示所有物品編號.矩陣X∈NU×I表示用戶與物品的評分矩陣.在協(xié)同推薦任務(wù)中,通過生成模型來生成服從原始數(shù)據(jù)潛在分布的數(shù)據(jù),利用生成的數(shù)據(jù)進(jìn)行推薦.首先是生成模型pθ(y,x,z)=p(y)p(z)pθ(x|y,z).xu=[xu1,…,xuI]表示一個用戶的用戶向量,z表示了用戶和物品的關(guān)系的潛在變量,y表示一個標(biāo)識屬于不同組的用戶分布的先驗(yàn)變量.生成模型中描述重新生成的數(shù)據(jù)X由連續(xù)的潛在變量z和潛在的分類變量y生成,如下.
p(y)=Cat(y|π),p(z)=N(z|0,I),pθ(x|y,z)=f(x;y,z,θ). ???(1)
式中,將y看成一個額外的潛變量,y服從多項(xiàng)分布,通過對原始數(shù)據(jù)的后驗(yàn)分布pθ(y|x)來得到,表示每個用戶所屬的個體組.z是一個潛變量,f(x;y,z,θ)是一個合適的似然函數(shù),例如伯努利分布或者高斯分布,是一個有關(guān)潛變量的非線性變化,表示經(jīng)過變分自編碼器重構(gòu)后的數(shù)據(jù).在實(shí)驗(yàn)中是由深度神經(jīng)網(wǎng)絡(luò)來表示這個非線性函數(shù)的.
3.2 變分模型
在模型中,由于隨機(jī)變量之間的非線性依賴,對真實(shí)的后驗(yàn)分布的處理非常困難,因此,使用qφ(y,z|x)來近似難以處理的真實(shí)后驗(yàn)分布p(y,z|x).qφ(y,z|x)是一個混合高斯后驗(yàn)分布,該分布可以被分解成兩個部分,qφ(y|x)是一個判別分類器將用戶分類成不同的群體,qφ(z|y,x)是對于某一特定群體的單一高斯后驗(yàn)分布.
qφ(z|y,x)=N(z|μφ(y;x),diag(σ2φ(y;x))),qφ(y|x)=Cat(y|πφ(x)), ???(2)
式中,qφ(z|x,y)項(xiàng)服從受到y(tǒng)和x約束的高斯分布;μφ(y;x)是一個表示均值的向量;σφ(y;x)是一個表示標(biāo)準(zhǔn)差的向量;qφ(y|x)服從一個受到x約束的多項(xiàng)式分布;而πφ(x)是一個概率向量.函數(shù)μφ(y;x),σφ(y;x)以及πφ(x)用深度神經(jīng)網(wǎng)絡(luò)表示.目標(biāo)是找到一個q滿足
q*φ(y,z|x)=argminq∈QKL(qφ(y,z|x)||p(y,z|x)) ???(3)
要最小化qφ(y,z|x)和真實(shí)分布p(y,z|x)在KL尺度上面的差異.可以通過下面的方式獲得變分下界.
如圖 1所示,將真實(shí)后驗(yàn)和估計(jì)分解如下.
最后得到了變分下界:
由于實(shí)際訓(xùn)練中沒有關(guān)于y的標(biāo)簽,和 Kingma 等人[11]不同的是本研究將y直接作為一個潛在變量,而不是輸出作為一個標(biāo)簽.由此可見,混合高斯的作用主要是增加模型容量,使其適應(yīng)更復(fù)雜的數(shù)據(jù),而不是將其用于分類任務(wù).
本研究使用了和Kingma 等人相同的方法,使用通過蒙特卡羅采樣估算損失.可以使用下界來優(yōu)化θ和φ,下界主要部分的梯度如下所示.
使用adaGrad優(yōu)化器優(yōu)化參數(shù)θ和φ,通過(θn+1,φn+1)=(θn,φn)+Γ(gθ,gφ),其中Γ(gθ,gφ)是一個梯度對角矩陣.訓(xùn)練過程如下所示.
4 實(shí)驗(yàn)與分析
本節(jié)開展了在公開的數(shù)據(jù)集上對GMVAE模型的實(shí)驗(yàn),并分析了模型有效的原因.實(shí)驗(yàn)基于Cornac[18,19],一個用于多模式推薦系統(tǒng)的比較框架.本實(shí)驗(yàn)用到的數(shù)據(jù)集、基線模型和指標(biāo)都來自該框架.
4.1 實(shí)驗(yàn)設(shè)計(jì)
4.1.1 數(shù)據(jù)集
數(shù)據(jù)集如表1所示,對于所有的數(shù)據(jù)集,實(shí)驗(yàn)判斷是否存在用戶和物品的交互,并且將存在交互視為一種正反饋對數(shù)值評分?jǐn)?shù)據(jù)進(jìn)行二值化.
ML-100K, ML-1M, ML-10M以及 ML-20M是一組大小不同且常在推薦系統(tǒng)領(lǐng)域作為評價標(biāo)準(zhǔn)的數(shù)據(jù)集,它包含了用戶對不同電影的評分,其中,每一個用戶至少對20個電影進(jìn)行評分.
Amazon clothing, Amazon office和 Amazon toy是一組由亞馬遜提供的相對稀疏的數(shù)據(jù)集,包含了用戶對物品的評分.另一個數(shù)據(jù)集epinions也包含了用戶對產(chǎn)品的評分?jǐn)?shù)據(jù).
4.1.2 基 線
將本模型與兩個變分自編碼器變體模型和另外兩個基于協(xié)同過濾的模型進(jìn)行比較.
(1)雙邊變分自編碼器(BiVAECF):BiVAE(Bilateral Variational Autoencoder)是一個變分自編碼器系列模型,它以相似的方式對待用戶和物品,并且更適合兩路數(shù)據(jù).此外,約束自適應(yīng)先驗(yàn)(Constrained Adaptive Priors,CAP)提高了BiVAE的性能,增強(qiáng)模型的性能優(yōu)于傳統(tǒng)的VAE模型和其他幾個類似的濾波模型[9].
(2)變分自編碼器(VAECF):該模型是變分自編碼器的擴(kuò)展.與線性因子模型相比,它有更加優(yōu)越的模型容量,同時它在一些真實(shí)的數(shù)據(jù)集上的表現(xiàn)優(yōu)于不少最先進(jìn)的基線[5].
(3)層次化的泊松分解(HPF):HPF(Hierarchical Poisson Factorization)是一種將用戶和商品與兩個潛在向量關(guān)聯(lián)起來的概率模型.經(jīng)證實(shí),HPF的性能優(yōu)于其他競爭方法,包括MF(Matrix Factorization)模型[2].
(4)廣義矩陣分解(GMF):GMF(Generalized Matrix Factorization)由矩陣分解模型演變而來,并與神經(jīng)網(wǎng)絡(luò)相結(jié)合.利用神經(jīng)網(wǎng)絡(luò)取代內(nèi)積的方式,改進(jìn)了在推薦系統(tǒng)中被廣泛使用的矩陣分解方法.與其他基于分解的方法相比,GMF有顯著的提升[20].
4.1.3 評價指標(biāo)
選擇了標(biāo)準(zhǔn)化折現(xiàn)累積增益(Normalized Discounted Cumulative Gain,NDCG)和召回率作為評價模型的兩個標(biāo)準(zhǔn)措施.選擇M=50作為top-M推薦.
4.1.4 實(shí)驗(yàn)設(shè)置
打亂數(shù)據(jù)集,將其分為訓(xùn)練集、驗(yàn)證集和測試集,分別占80%、10%和10%.在保留的驗(yàn)證集上,用NDCG作為基準(zhǔn)調(diào)整了模型.表示人群類型數(shù)量的潛變量y的維度和表示用戶物品關(guān)系的潛變量z的維度分別被設(shè)定為10和100.然而,這些參數(shù)的改變對實(shí)驗(yàn)結(jié)果并沒有明顯的影響.對于推理和生成模型,分別使用具有一個隱藏層的MLPs,使用整流線性單元(ReLU)函數(shù)作為每個隱藏層的激活函數(shù).對于隱藏層,將其寬度設(shè)置為256,本研究發(fā)現(xiàn)使用更深或更寬的隱藏層結(jié)構(gòu)沒有讓實(shí)驗(yàn)結(jié)果有明顯的改善.在重建損失方面,當(dāng)使用交叉熵而不是平均平方誤差(MSE)時,取得了顯著的改善.從{1e-5,…,1e-2}中選擇1e-4作為學(xué)習(xí)率,從{100,…,500}中選擇100作為每輪的步數(shù).對于使用Adam優(yōu)化,批次大小被設(shè)定為128.與此同時,本研究還使用了早期停止策略來緩解模型的過度擬合.對于基線模型,使用Cornac中設(shè)置的默認(rèn)參數(shù).
4.2 實(shí)驗(yàn)分析
高斯混合變分自編碼器與BiVAECF、VAECF、
HPF和GMF進(jìn)行比較.如表2所示,模型在某些數(shù)據(jù)集上表現(xiàn)良好,但在其他數(shù)據(jù)集上則不然.模型在ML-10M和ML-20M數(shù)據(jù)集上取得了最好的效果,NDCG和Recall值同時較高,則表明模型有精準(zhǔn)的推薦順序且沒有遺漏潛在的推薦物品,但在epinions數(shù)據(jù)集上則不然.
模型在更完整的數(shù)據(jù)集上表現(xiàn)得更好,這歸功于混合高斯先驗(yàn)使得模型有更大的模型容量.混合高斯適用于預(yù)先對種群進(jìn)行不同分類的假設(shè),當(dāng)用戶數(shù)據(jù)量越來越密集時,這種假設(shè)更為合理.當(dāng)用戶數(shù)據(jù)較少時,由于很難對用戶進(jìn)行更清晰的分類,使得模型性能較弱.為了解釋這一現(xiàn)象,本研究繪制了在不同的數(shù)據(jù)集上訓(xùn)練模型時的損失和NDCG.
在相對密集的數(shù)據(jù)集上,高斯混合變分自編碼器的效果良好,而在稀疏的數(shù)據(jù)集上,它的效果不佳.模型在ML-100K上訓(xùn)練時,性能較早達(dá)到峰值,然而隨著loss的不斷下降性能開始變差,如圖2所示.這一跡象表明,模型可能在過于稀疏的數(shù)據(jù)集上陷入過擬合.然而當(dāng)模型在ML-20M上進(jìn)行訓(xùn)練時,隨著訓(xùn)練的進(jìn)行,性能逐漸穩(wěn)定在一個較高的水平上.如圖 3所示,在相對稀疏的數(shù)據(jù)集amazon_office和epinions上,模型都受到了過擬合帶來的不良影響.然而,可以簡單地使用早停策略來獲得一個不錯的最終結(jié)果.
與傳統(tǒng)的VAE模型相比,本文提出的模型假設(shè)人們可以被分配到不同的組中,同一組中用戶行為相似.當(dāng)用戶群體規(guī)模較大時,這個假設(shè)是相對合理的,簡單的單一高斯先驗(yàn)并不是一個好的選擇.
從模型的復(fù)雜性來看,增加了模型的容量,使模型的先驗(yàn)假設(shè)能適應(yīng)更大的數(shù)據(jù)集.對用戶進(jìn)行分類,使用對應(yīng)的參數(shù)theta和phi,將原始的單高斯先驗(yàn)轉(zhuǎn)化為混合高斯先驗(yàn).在一個相對完整的數(shù)據(jù)集上,本研究所用方法取得了很好的結(jié)果,這說明混合高斯先驗(yàn)于真實(shí)場景是有效的,并且在實(shí)際應(yīng)用中可以避免其過擬合時帶來的副作用.
5 結(jié) 論
協(xié)同推薦任務(wù)中的數(shù)據(jù)具有稀疏性,同時包括海量的物品和用戶,而變分自編碼器的單一高斯先驗(yàn)導(dǎo)致模型對數(shù)據(jù)擬合不足使模型趨向于分散和簡單,難以適應(yīng)協(xié)同過濾任務(wù)中的特征.本文構(gòu)建了一個用于協(xié)同過濾任務(wù)的GMVAE模型.與一般VAE相比,該模型是一種對原有模型的自然拓展,通過假設(shè)數(shù)據(jù)可以從多個不同的高斯分布生成,增加潛變量推測數(shù)據(jù)從其中一個高斯分布生成,學(xué)習(xí)數(shù)據(jù)的潛在特征和結(jié)構(gòu),達(dá)到比原模型更好的適應(yīng)性和擬合效果.相比于初始的變分自編碼器模型,增加了潛變量讓模型可以學(xué)習(xí)到更多潛在表達(dá),更復(fù)雜的先驗(yàn)使模型具有更大的模型容量.在多個經(jīng)典的公開數(shù)據(jù)集上測試本文模型時,在NDCG和Recall指標(biāo)上取得了不錯的效果.實(shí)驗(yàn)結(jié)果表明,GMVAE算法可以應(yīng)用于推薦任務(wù)中.然而,在稀疏的數(shù)據(jù)集上進(jìn)行推薦依然是一項(xiàng)非常具有挑戰(zhàn)性的任務(wù),未來的工作可能包括改進(jìn)GMVAE存在的過擬合問題.
參考文獻(xiàn):
[1]Adomavicius G, Tuzhilin A. Toward the next generation of recommender systems: a survey of the state-of-the-art and possible extensions [J]. IEEE T Knowl Data En, 2005, 17: 734.
[2]Gopalan P, Hofman J M, Blei D M. Scalable recommendation with hierarchical Poisson factorization[C]//Proceedings of 31 th Conference on Uncertainty in Artificial Intelligence. Arlington: AUAI, 2015: 326.
[3]Koren Y, Bell R, Volinsky C. Matrix factorization techniques for recommender systems? [EB/OL]. [2023-09-20]. https://arxiv.org/pdf/1312.6114 v10.pdf.
[4]Sarwar B, Karypis G, Konstan J, et al. Item-based collaborative filtering recommendation algorithms[C]//Proceedings of the 10th International Conference on World Wide Web. New York: ACM, 2001: 285.
[5]Liang D, Krishnan R G, Hoffman M D, et al. Variational autoencoders for collaborative filtering [C]//Proceedings of the 2018 World Wide Web Conference. New York: ACM, 2018: 689.
[6]Kingma D P, Welling M. Auto-encoding variational bayes [EB/OL]. [2022-02-01]. https://arxiv.org/pdf/1312.6114 v10.pdf.
[7]Girin L, Leglaive S, Bie X, et al. Dynamical variational autoencoders: a comprehensive review[J]. Found Trends Mach Learn, 2021, 15: 1.
[8]Li X, She J. Collaborative variational autoencoder for recommender systems[C]//Proceedings of the 23 th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2017: 305.
[9]Truong Q T, Salah A, Lauw H W. Bilateral variational autoencoder for collaborative filtering[C]//Proceedings of the 14th ACM International Conference on Web Search and Data Mining. New York: ACM, 2021: 292.
[10]Mi L, Shen M, Zhang J. A probe towards understanding gan and vae models[EB/OL]. [2022-02-01].https://arxiv.org/abs/1812.05676.
[11]Kingma D P, Rezende D J, Mohamed S, et al. Semi-supervised learning with deep generative models [EB/OL]. ?[2022-02-01]. https://arxiv.org/abs/1406.5298v2.
[12]Dilokthanakul N, Mediano P A M, Garnelo M, et al. Deep unsupervised clustering with gaussian mixture variational autoencoders[EB/OL]. [2022-02-01].https://blog.csdn.net/weixin_44441131/article/details/106746139.
[13]Rao D, Visin F, Rusu A, et al. Continual unsupervised representation learning? [EB/OL]. [2022-02-01]. https://arxiv.org/pdf/1611.02648.pdf.
[14]Collier M, Urdiales H. Scalable deep unsupervised clustering with concrete GMVAEs [EB/OL].[2022-02-01].https://arxiv.labs.arxiv.org/html/1909.08994.
[15]張顯煬, 朱曉宇, 林浩申, 等. 基于高斯混合-變分自編碼器的軌跡預(yù)測算法[J].計(jì)算機(jī)工程, 2020, 46: 50.
[16]Charbonneau K B. Variational autoencoders with Gaussian mixture prior for recommender systems[D]. Montréal: ?cole De Technologie Supérieure, 2020.
[17]Hershey J R, Olsen P A. Approximating the kullback leibler divergence between Gaussian mixture models [C]//Proceedings of the 2007 IEEE International Conference on Acoustics, Speech and Signal Processing-ICASSP'07. Piscataway: IEEE, 2007.
[18]Salah A, Truong Q T, Lauw H W. Cornac: a comparative framework for multimodal recommender systems [J]. J Mach Learn Res, 2020, 21: 3803.
[19]Truong Q T, Salah A, Tran T B, et al. Exploring cross-modality utilization in recommender systems[J]. IEEE Internet Comput, 2021, 25: 50.
[20]He X, Liao L, Zhang H, et al. Neural collaborative filtering [C]//Proceedings of the 26th international Conference on World Wide Web. New York: ACM, 2017: 173.
引用本文格式:
中 文: 羅彪,周激流,張衛(wèi)華. 基于高斯混合變分自編碼器的協(xié)同過濾[J].四川大學(xué)學(xué)報: 自然科學(xué)版, 2023, 60: 062002.
英 文: Luo B,Zhou J L, Zhang W H. Gaussian mixture variational autoencoder for collaborative filtering [J]. J Sichuan Univ: Nat Sci Ed, 2023, 60: 062002.
四川大學(xué)學(xué)報(自然科學(xué)版)2023年6期