彭裕培,陳 力
(汕頭大學(xué)工學(xué)院電子信息工程系,廣東 汕頭 515063)
推薦系統(tǒng)在現(xiàn)實生活中無處不在,比如淘寶的商品推薦系統(tǒng)、美團的美食推薦系統(tǒng)等,如圖1所示.正是由于推薦系統(tǒng)能夠創(chuàng)造極大的經(jīng)濟價值,無論是在學(xué)術(shù)界還是在工業(yè)界,相關(guān)的研究都層出不窮.總的來說,推薦系統(tǒng)的發(fā)展經(jīng)歷了三代技術(shù)的改進.第一代推薦系統(tǒng)是基于協(xié)同過濾[1]的方法,將與用戶明確偏好的商品推薦給用戶,在傳統(tǒng)推薦系統(tǒng)中使用最廣泛,但其未能解決數(shù)據(jù)稀疏和冷啟動問題.第二代推薦系統(tǒng)是基于深度學(xué)習(xí)模型[2],通過深度學(xué)習(xí)技術(shù)完成推薦任務(wù),雖然解決了數(shù)據(jù)稀疏問題,卻仍未解決冷啟動問題.為了解決冷啟動問題,經(jīng)過不斷探索,圖結(jié)構(gòu)模型在推薦領(lǐng)域中受到越來越多的青睞.第三代推薦系統(tǒng)是基于圖神經(jīng)網(wǎng)絡(luò)(GNN)的方法[3],學(xué)習(xí)節(jié)點、邊和子圖更深層的特征,預(yù)測未觀察到的數(shù)據(jù)從而預(yù)測用戶未來的行為.
圖1 推薦系統(tǒng)實例
近年來,基于圖網(wǎng)絡(luò)的個性化推薦算法越來越流行.起初,Zhou等人對其進行了一系列的研究,并提出基于用戶-商品的二分圖推薦算法[4].Liu等人通過不對稱查詢的二分圖資源網(wǎng)絡(luò)的建模,提出了更高精度和覆蓋率的二分圖推薦模型[5].王國霞等人提出了基于二部圖影射的推薦模型[6],利用隨機游走得到圖上每個節(jié)點的穩(wěn)定概率,進而衡量用戶的興趣偏好.楊晗等人研究了網(wǎng)絡(luò)表示學(xué)習(xí)在推薦系統(tǒng)中的應(yīng)用[7].Luo等人提出了一個基于NMF的協(xié)同過濾模型[8],對每個特征的非負更新過程進行了一系列研究和討論,利用基于非負單元素的更新規(guī)則,對Tikhonov正則化項進行了集成操作.Rianne van等人提出GCMC算法[9],通過采用GCN編碼器生成用戶-商品的表示,其只考慮了最鄰近的一階鄰居,因此只有一個圖卷積層.Xiang Wang等人提出NGCF算法[10],將用戶-商品的交互信息集成嵌入到二部圖結(jié)構(gòu)中,形成了用戶-商品圖中的高通連接性表達,從而使得協(xié)作信號有效地以顯示方式編碼到嵌入過程中.
然而目前的推薦系統(tǒng)的基本假設(shè)是用戶對于商品的交互行為是穩(wěn)定且可信的.事實上,在真實推薦系統(tǒng)中,用戶所點擊的商品并不一定能夠反映其真實偏好,例如某些標(biāo)題黨的誘導(dǎo)點擊或者是誤點擊行為.這種記錄下來的反饋數(shù)據(jù)會極大的影響推薦系統(tǒng)對于用戶偏好的學(xué)習(xí)和估計.在錯誤樣本的情況下,模型的推薦效果會出現(xiàn)大幅度的下降.解決上述問題實際上是非常困難的.要解決上述問題,最簡單的方法就是對數(shù)據(jù)進行預(yù)處理如噪音的過濾和特征的抽取,但是這些并非是端到端的方法,無法針對最后的推薦任務(wù)進行端到端的優(yōu)化;另一方面基于學(xué)習(xí)的方法如引入注意力機制[11],傳統(tǒng)方法如引入注意力機制的鄰居,學(xué)習(xí)過程可以一定程度的緩解噪音連接,但是其需要引入大量的計算復(fù)雜度.
綜合考慮上述分析,為了實現(xiàn)噪音交互的過濾并實現(xiàn)一個高效推薦系統(tǒng),需要解決如下的三個挑戰(zhàn):(1)如何設(shè)計實現(xiàn)對高頻噪音連接的有效過濾.二部圖上的交互信號實際上包含穩(wěn)定的低頻信號和波動較大的高頻信號,那么如何對這些高頻信號和低頻信號進行有效過濾是一個迫切需要解決的問題.(2)如何對高階交互中所蘊含的不同層次的噪音連接進行過濾.通常來說推薦系統(tǒng)為了解決稀疏和冷啟動的問題,會考慮用戶商品交互中的高階連接.但是,這也給噪音連接過濾問題帶來了進一步的挑戰(zhàn).在高階連接中如何對不同階鄰居的信息進行過濾和篩選是一個開放式的問題.(3)在過濾噪聲之后,如何學(xué)習(xí)穩(wěn)定的用戶和商品表示并實現(xiàn)推薦.高效準(zhǔn)確的估計用戶的復(fù)雜偏好是推薦系統(tǒng)的基本需求.一個好的偏好學(xué)習(xí)模型可以極大的提升后續(xù)推薦任務(wù)的效果.
圖信號處理[12-13]技術(shù)為人們處理不規(guī)則域的高維數(shù)據(jù)提供了一個新型有效的工具.2013年Shuman等[12]將圖的節(jié)點上的特征定義為圖信號,從傳統(tǒng)信號處理角度在圖論基礎(chǔ)上提出了“圖信號處理”的概念,并定義了圖傅里葉變換、圖濾波、圖卷積等概念.圖上不同頻率的信號均可以通過圖信號處理技術(shù)進行分析和處理.當(dāng)節(jié)點與其鄰居的特征較為接近時,即通過邊所連接的節(jié)點變化幅度較小時,這反映為一種變化幅度較低的低頻信號.反之,如果變化幅度較大,則反映為一種高頻信號.具體的,用戶-商品交互圖中,如果用戶總是點擊其喜好的商品,交互行為反映為變化較小的低頻信號.如果用戶誤點擊一些其不喜歡的商品,那么就反映為圖上的高頻信號.例如圖2中三個用戶均喜歡電子產(chǎn)品,偏好相似,為低頻信號.但是,其中一個用戶誤點擊了一雙鞋子,該噪音連接會引入高頻信號.可以看出,低頻交互信號更好的反映用戶偏好,而高頻交互信號的作用較小.
圖2 低通濾波前后的用戶-商品二部圖
本文研究了用戶-商品二部交互圖上的噪音連接問題,并設(shè)計了一種低通圖濾波器,來對用戶-商品交互進行過濾和降噪,并學(xué)習(xí)魯棒的用戶表示進而提升后續(xù)所推薦任務(wù)的效果.具體來說,我們從圖信號處理中的譜圖理論出發(fā),將用戶和商品定義為頂點,其特征定義為圖信號,用戶和商品的交互關(guān)系定義為邊,分析了圖濾波器對于交互信號的過濾作用.然后,設(shè)計了一種低通圖濾波器,其可以有效抑制圖上的高頻信號,并篩選出穩(wěn)定的低頻信號.進一步的,我們將其擴展為K階圖低通濾波器,來過濾K階鄰居中的噪音連接.通過上述圖濾波器所學(xué)習(xí)的用戶偏好和表示,我們設(shè)計了LGFRec模型,其可以有效地為用戶推薦其感興趣的商品.在兩個公開數(shù)據(jù)集上的大量實驗驗證了我們所設(shè)計的模型的有效性.
本文的組織如下:第一部分為理論模型,說明了圖信號處理相關(guān)理論和本文模型的建立;第二部分通過實驗對本文方法進行評估;第三部分為本文做出總結(jié).
通常來說,用戶的偏好或者商品的特性都是相對穩(wěn)定的.例如,一個電子產(chǎn)品愛好者所點擊的商品大部分為電子產(chǎn)品,這種交互可以精準(zhǔn)的反映用戶的偏好.但是,偶爾由于用戶誤觸的點擊行為或者是“標(biāo)題黨”等現(xiàn)象,會造成一些噪音鏈接,即推薦系統(tǒng)所記錄和觀測到的用戶-商品交互是有噪音的[14].為了精準(zhǔn)預(yù)測用戶-商品的點擊行為,我們希望去除高頻信號的噪音,保留低頻且穩(wěn)定的信號來學(xué)習(xí)用戶和商品表示并進行推薦.為了實現(xiàn)上述目標(biāo),本文從設(shè)計的一個二部圖上的低通濾波器來保留用戶穩(wěn)定的偏好,即低頻信號,獲得一個基于低通圖濾波器的推薦模型(Recommendation with Low-pass Graph Filters,LGFRec).接下來,將會首先介紹用戶-商品二部圖的構(gòu)建過程,低通圖濾波器的設(shè)計,以及如何進行推薦結(jié)果的預(yù)測.
本小節(jié)首先介紹數(shù)據(jù)集的構(gòu)建部分,即:如何將用戶-商品交互建模為圖,方便進一步從圖信號處理的角度來實現(xiàn)推薦.具體來說,二部圖=(v,ε,x)建模了用戶與商品的歷史交互過程.這里為了方便,將用戶和商品節(jié)點進行統(tǒng)一處理.節(jié)點集合v={v1,v2,…,vn}表示用戶與商品的節(jié)點集合,共計n個.x=[x1,x2,…,xn]T∈Rn×d,表示節(jié)點的特征,xn∈Rd代表節(jié)點的vn初始特征,邊集合ε表示用戶與商品的歷史交互信息,如圖3(n=7)所示.
圖3 用戶-商品交互的二部圖(n=7)
用戶與商品的歷史交互,可以進一步轉(zhuǎn)為如下交互圖鄰接矩陣A∈Rn×n:
基于用戶和商品是否產(chǎn)生歷史交互,我們可以學(xué)習(xí)和抽取用戶對于商品的偏好.若用戶vi點擊過商品vj(Aij=1),那么這代表用戶vi比較喜歡商品vj.如圖3所示的交互圖中,用戶數(shù)為3,商品數(shù)為4,其鄰接矩陣為
A35=1,說明用戶v3點擊過商品v5.
需要注意的是,A中所記錄的歷史交互是有噪音的.例如,當(dāng)用戶vi誤點擊或者偶發(fā)點擊商品vj時,當(dāng)次點擊行為并不真實反映用戶的偏好情況.
圖信號f是對圖上節(jié)點的特征的定義,如式(2)所示:
f(v1)表示節(jié)點v1上的信號值.
在濾波之前,首先將圖信號f分解為一組基的組合[15],這與經(jīng)典的傅里葉變化類似.不同節(jié)點vi對應(yīng)不同的頻率的信號,這表明每個節(jié)點均會對應(yīng)與其某個特征向量相關(guān)的值.同時,圖信號f可以分解為特征向量的線性組合:
其中z表示特征向量U的系數(shù),系數(shù)zi表示基信號ui的強度.
為了對歷史交互A進行降噪和過濾,過濾高頻噪音并保留低頻交互信號,本文設(shè)計了一個低通圖濾波器,其從圖信號處理的角度來對用戶-商品交互進行降噪和信息篩選.在介紹圖上的低通濾波器之前,這里首先引入鄰接矩陣、拉普拉斯矩陣、度矩陣、圖卷積的概念[11-12].
為了濾除高頻噪音并抽取用戶穩(wěn)定的偏好,p(·)需要能夠抑制高頻信號,保留低頻信號.因此,本文將其設(shè)計為一個遞減的非負線性函數(shù),進而使得G成為一個低通圖濾波器.具體來說,低通圖濾波器的頻響函數(shù)如式(10)所示:
進一步地,我們設(shè)計了K階的低通圖濾波器,其能夠?qū)τ脩?商品交互圖中的K階交互進行降噪和過濾,即:希望每層圖卷積中均可過濾高頻噪音,保留低頻信號.進一步地,為了增強模型的融合,我們在每一層均加入一個可學(xué)習(xí)的特征變換矩陣W,如式(13)所示:
其中,Wk代表了第k階低通圖濾波器的權(quán)重.通過在推薦系統(tǒng)上應(yīng)用K階的低通圖濾波器,可以使行為相似的用戶具有相似的表示,即所呈現(xiàn)的圖信號是平滑的.基于行為相似的用戶會選擇相似的商品的假設(shè),使用低通圖濾波器進行圖卷積可以使下游的推薦任務(wù)更容易.
基于上述K階低通濾波器,模型可以在過濾K階噪音交互的同時來學(xué)習(xí)用戶和商品的表示,其每一行代表一個用戶(或者商品)的向量表示并可以準(zhǔn)確反映用戶(或者商品)的偏好,進而服務(wù)于后續(xù)的推薦任務(wù).例如,用戶vi與商品vj的偏好分別通過向量與來表示,其蘊含了兩者圖濾波降噪后的特征表示及偏好.
同時考慮用戶和商品的特征表示,模型可以預(yù)測用戶點擊商品的概率.具體地,基于用戶vi與商品vj向量表示的相似度r^ij,可以預(yù)測用戶對商品的點擊可能性[10、17],如式(14)所示:
相似的用戶或者商品在向量空間的位置會比較接近,這可以通過向量相似度來反映.當(dāng)用戶向量與商品向量乘積越高時(即值越高),表示二者偏好的相似度越高,用戶vi越有可能點擊商品vj.否則,值偏低.
推薦模型旨在盡可能推薦用戶感興趣的商品,因此,其需要能夠判斷用戶感興趣的商品與不感興趣的商品之間差異,如距離的遠近.設(shè)商品vj'為用戶vi不感興趣商品,相應(yīng)的點擊概率為以貝葉斯個性化排序(Bayesian Personalized Ranking,BPR)損失函數(shù)[18]作為優(yōu)化目標(biāo)能夠滿足上述需求:
BPR損失函數(shù)對數(shù)據(jù)集中所有樣本進行計算,其中(i,j')可以通過隨機負采樣得到.為正則項,其約束了LGFRec中可學(xué)習(xí)參數(shù)Θ的大小,防止過擬合.正則項的約束程度與系數(shù)α相關(guān).
為了驗證所提出的LGFRec模型的有效性,本文使用了兩個公開數(shù)據(jù)集MovieLens 100k與MovieLens 1M[19]來對其進行實驗和評估.數(shù)據(jù)集具體信息如表1所示.
表1 數(shù)據(jù)集統(tǒng)計信息
對于MovieLens 100k數(shù)據(jù)集,采用其官方數(shù)據(jù)劃分來進行實驗.對于MovieLens 1M數(shù)據(jù)集,這里對每個用戶隨機采樣20%歷史交互商品作為測試數(shù)據(jù),其余為訓(xùn)練數(shù)據(jù).用戶與商品的特征數(shù)為64,采用向量嵌入的方式,隨著模型進行訓(xùn)練.
對于測試集中的每個用戶,本文將用戶沒有產(chǎn)生歷史交互的所有商品均看作負樣本.為了驗證模型對排序商品的敏感,采用了Top-K的推薦評估方式,利用精準(zhǔn)率,召回率,命中率與NDCG這4個指標(biāo)進行評估,分別寫作Precision@K,Recall@K,Hits@K,NDCG@K.
為了證明本文所提出的LGFRec模型的優(yōu)勢,這里將其與幾種較新的推薦方法進行了比較:
(1)NMF[18]:這是一種通過BPR損失優(yōu)化的矩陣分解方法,該方法可以有效學(xué)習(xí)商品和用戶的表示,并基于兩者表示的相似度進行推薦.
(2)GCN[20]:這是一種基本的圖卷積網(wǎng)絡(luò),其通過聚合歷史交互信息來編碼和學(xué)習(xí)用戶與商品表示,該方法也通過BPR損失優(yōu)化來進行優(yōu)化.
(3)GCMC[9]:該模型基于GCN,使用一階鄰域作為特征并且使用多層感知機構(gòu)建編碼用戶與商品的關(guān)系,進而實現(xiàn)高效的商品推薦.
(4)NGCF[10]:這里是一種基于圖神經(jīng)網(wǎng)絡(luò)的高階交互建模推薦模型,其通過編碼用戶與商品的高階協(xié)同信號來描述用戶與商品的表示,從而構(gòu)建推薦系統(tǒng)模型.
本文采用谷歌開源的深度學(xué)習(xí)框架Tensorflow來實現(xiàn)模型.在相同數(shù)據(jù)集中,所有模型均使用相同參數(shù),這樣可以確保公平.在搜索最優(yōu)超參數(shù)時,我們嘗試了{0.05,0.01,0.005}的學(xué)習(xí)率,{0,0.1,0.2}的 Dropout,與{10-4,10-5,10-6}的 L2正則化系數(shù).具體參數(shù)如表2所示.
表2 參數(shù)設(shè)置
表3展示了不同方法在推薦上的有效性.這里以K=20為例,來驗證我們的LGFRec模型的有效性.
表3 有效性實驗
基于表3的實驗結(jié)果,我們有如下的實驗分析和結(jié)論:
(1)圖神經(jīng)網(wǎng)絡(luò)推薦模型如GCMC和NGCF通常優(yōu)于傳統(tǒng)的NMF,這是由于GNN能夠更好的處理用戶-商品交互圖上的高階偏好,進而取得一定的提升.
(2)為了進一步驗證LGFRec模型對高頻噪音的過濾,即低通圖濾波器的有效性,我們移除了LGFRec模型中的低通圖濾波器,此時模型退化為GCN模型.可以看出,在2個數(shù)據(jù)集上LGFRec模型可以顯著GCN模型,這是因為GCN模型無法有效過濾和處理噪音信息,這會導(dǎo)致用戶-商品表示及下游推薦任務(wù)的次優(yōu)表現(xiàn).
(3)本文所設(shè)計的LGFRec模型在MovieLens 100k的數(shù)據(jù)集上的4個指標(biāo)均顯著超過了其他4種模型.這有力證明了LGFRec能夠有效過濾高頻噪音并學(xué)習(xí)更加準(zhǔn)確的用戶-商品表示,進而提升了后續(xù)推薦任務(wù)的效果.
此外,取不同的推薦列表長度,即不同的K值,評估分數(shù)也會不同.對于本文的LGFRec模型,這里我們采集了當(dāng)K從20變化至100時模型在MovieLens 100k與MovieLens 1M上各項指標(biāo)的變化情況.
由圖4和圖5的實驗結(jié)果來看,我們可以發(fā)現(xiàn):當(dāng)列表長度增加時精準(zhǔn)度會下降,而其他指標(biāo)均會上升.這說明當(dāng)列表長度增加時雖然能盡可能預(yù)測所有用戶感興趣的商品,但更多地會增加用戶不感興趣的商品.這表示LGFRec模型有一定穩(wěn)定性,在有噪音情況下仍然盡可能優(yōu)先滿足用戶感興趣的商品.
圖4 MovieLen 100k上不同推薦列表長度的變化
圖5 MovieLen 1M上不同推薦列表長度的變化
同時,我們研究了我們的模型在不同用戶-商品關(guān)系稀疏度下的變化.我們限制了MovieLens 100k訓(xùn)練集中用戶-商品的交互數(shù)目,分別計算每個用戶最多30,60,90和全部交互的情況下的表現(xiàn),相應(yīng)的稀疏度分別為0.021 98,0.031 92,0.041 92,0.062 9.
此時,在不同稀疏度下模型指標(biāo)的變化如圖6所示.從圖中可以發(fā)現(xiàn)各項指標(biāo)會隨著數(shù)據(jù)量增加而升高,在稀疏度為0.031 92的情況下4個指標(biāo)均大幅提高,之后分數(shù)趨于穩(wěn)定.說明LGFRec模型能夠利用較少數(shù)據(jù)達到較高預(yù)測精度,有較強的泛化能力,當(dāng)用戶不活躍時,模型仍舊能進行較精準(zhǔn)的推薦.
圖6 MovieLens 100k上不同稀疏度的推薦效果
進一步地,我們進行了參數(shù)實驗來研究LGFRec模型對于不同參數(shù)的敏感程度.
2.8.1 Dropout
為了探究對于交互信息的直接減少(message dropout)與節(jié)點信息的減少(node dropout)的區(qū)別,我們實驗了在不同dropout下不同指標(biāo)的性能變化,當(dāng)測定其中一個dropout的影響時,另一種dropout值保持0.
從圖7中可以發(fā)現(xiàn)以下3點:
(1)節(jié)點信息的減少對不同指標(biāo)的影響是不同的.如當(dāng)節(jié)點信息減少時,命中率先增大,再減小,而其他3種指標(biāo)均為先增大,再減小,最后還會有所提高.這說節(jié)點信息減少時,模型更依靠交互信息對用戶-商品交互的關(guān)系進行預(yù)測,直接導(dǎo)致部分商品未被列入推薦列表,命中率減少.
(2)交互信息的減少對模型影響總體而言是先增大后減小.同時觀測到在交互信息dropout為0.2至0.4之間時四種指標(biāo)都變化較少.說明數(shù)據(jù)交互信息本身存在一定噪音,LGFRec模型能將這些信息濾除,因此在這個區(qū)間內(nèi)變化較少.
(3)兩種dropout變化趨勢完全不同,說明交互信息與節(jié)點信息為兩種可以在不同層面影響模型預(yù)測效率的參數(shù),因此在參數(shù)設(shè)置時需要分開考慮.
2.8.2 節(jié)點特征維度
為了發(fā)掘特征維度對模型的影響,我們設(shè)置了3種特征維度并觀測其對于模型效果的影響,如圖8所示.
圖8 LGFRec對于節(jié)點表示維度的敏感程度
基于圖8的實驗結(jié)果,我們發(fā)現(xiàn):模型在特征維度為32和64時相差不大,但在128時會顯著下降.這表明模型需要一定容量來保證效果,如選用32或64的維度.如果容量過大,維度大于64,會使得模型過擬合,造成準(zhǔn)確率下降.
2.8.3 正則化系數(shù)
為了探究正則化參數(shù)對模型性能的影響,我們設(shè)置了{10-4,10-5,10-6}三組正則化參數(shù)并測試在該參數(shù)下LGFRec模型的效果,如圖9所示.
圖9 LGFRec對于正則化系數(shù)的敏感程度
實驗發(fā)現(xiàn)3種參數(shù)無明顯區(qū)別,表明我們LGFRec模型已經(jīng)有較強魯棒性,對正則化參數(shù)不敏感,能夠去除噪音,從而防止過擬合的情況發(fā)生.
2.8.4 濾波器層數(shù)
為了探究我們的LGFRec模型能否從多層低通圖濾波中獲益,這里改變了模型濾波的階數(shù)K,并在圖10中展示了濾波階數(shù)為{1,2,3}時LGFRec模型的效果.
圖10 LGFRec對于層數(shù)K的敏感程度
實驗發(fā)現(xiàn)當(dāng)層數(shù)增加時模型表現(xiàn)情況會逐漸降低,說明在MovieLens的推薦中用戶和商品的信號逐漸復(fù)雜時,使用過深的體系結(jié)構(gòu)可能會帶來額外的噪聲,使得模型過擬合.因此,用戶-商品的協(xié)同信號僅需要考慮鄰近的用戶與商品即可.
在推薦系統(tǒng)中,用戶與商品的交互往往包含一些噪音連接(如誤點擊),進而降低了用戶偏好建模的準(zhǔn)確度.本文將用戶和商品的交互建模為二部圖,并從圖信號處理的角度對其進行了降噪處理,進而有效提升商品推薦的準(zhǔn)確度.具體地,本文設(shè)計了一種基于低通圖濾波器的推薦模型LGFRec,其能夠有效濾除高頻的噪音交互,并有效保留用戶的真實偏好交互.通過在兩個數(shù)據(jù)集上與當(dāng)前算法進行比較,本文在大量的實驗結(jié)果上驗證了所設(shè)計算法的有效性.