楊玉枝
[摘? ? ? ? ? ?要]? 為解決推薦系統(tǒng)具有用戶行為數(shù)據(jù)極度稀疏的問題,研究對(duì)跨域圖書推薦系統(tǒng)模型進(jìn)行了研究,通過在系統(tǒng)用戶數(shù)據(jù)、推薦系統(tǒng)算法、內(nèi)容與算法融合三個(gè)層面,結(jié)合圖書館圖書的特點(diǎn),分別對(duì)跨域圖書推薦系統(tǒng)模型進(jìn)行分析。結(jié)果表明,跨域推薦系統(tǒng)為圖書推薦系統(tǒng)提供了豐富的理論支撐。
[關(guān)? ? 鍵? ?詞]? 跨域推薦;圖書推薦系統(tǒng);模型分析
[中圖分類號(hào)]? TP391.4? ? ? ? ? ? ? ? ? [文獻(xiàn)標(biāo)志碼]? A? ? ? ? ? ? ? ? [文章編號(hào)]? 2096-0603(2021)47-0104-02
推薦系統(tǒng)較好地幫助我們解決了信息量過載的問題,比如在商品推薦系統(tǒng)中,受限于個(gè)人的時(shí)間因素以及投入的精力限制,消費(fèi)者常常僅與海量商品中極少部分的商品產(chǎn)生相互關(guān)聯(lián),容易引發(fā)推薦系統(tǒng)數(shù)據(jù)稀疏的問題。為了更好地克服并盡可能解決數(shù)據(jù)稀疏性問題,國內(nèi)外學(xué)者們大多采用跨域推薦系統(tǒng)的方法,具體是通過取長(zhǎng)補(bǔ)短的方式實(shí)現(xiàn)知識(shí)遷移,進(jìn)而達(dá)到采用數(shù)據(jù)相對(duì)豐富的信息去彌補(bǔ)數(shù)據(jù)相對(duì)稀疏的目標(biāo)[1-4]。
跨域推薦系統(tǒng)按照用戶層面可以劃分為:已知用戶匹配的跨域推薦、不依賴用戶的推薦、基于概率偏好模型的跨域推薦以及基于多視角神經(jīng)網(wǎng)絡(luò)的推薦。按照推薦系統(tǒng)算法的角度進(jìn)行分類:基于內(nèi)容的推薦,基于協(xié)同過濾的推薦、內(nèi)容與算法融合的混合推薦以及基于遷移學(xué)習(xí)理論的推薦。該文以圖書推薦為背景,結(jié)合用戶層面和推薦系統(tǒng)算法的角度分別對(duì)跨域推薦系統(tǒng)進(jìn)行闡述和分析,旨在為跨域圖書推薦系統(tǒng)模型研究提供指導(dǎo)思想[5]。
一、用戶層面的跨域推薦
(一)已知用戶匹配
通過導(dǎo)入和整合相同圖書跨域的評(píng)分?jǐn)?shù)據(jù),國外學(xué)者Berkovsky等人提出了非常經(jīng)典的跨域推薦系統(tǒng)模型[6]。Lu[7]等人借用AdaBoosting弱學(xué)習(xí)器理論框架,用基于經(jīng)驗(yàn)誤差的信息篩查方式,有效地去除跨域推薦系統(tǒng)模式不一致的情況。Elkahky[2]等人提出了一種基于深度學(xué)習(xí)理論的內(nèi)容跨域推薦系統(tǒng)MV-DNN,通過跨域的豐富內(nèi)容數(shù)據(jù)共同映射到同一隱語義分布空間中。研究者通過整合圖書之間的匹配信息,尋求在匹配信息之間的特征表征,更大限度地提高已知用戶匹配的推薦系統(tǒng)的準(zhǔn)確性。
(二)不依賴用戶匹配
針對(duì)同一隸屬平臺(tái),充分利用數(shù)據(jù)賬號(hào)匹配信息方便的特性。著名學(xué)者Li[8]等人提出了以codebook為基礎(chǔ)的跨域推薦系統(tǒng)模型CBT,該模型無需知道匹配學(xué)生跨域間的賬號(hào)信息,僅僅通過學(xué)生或者圖書的重疊部分信息可以作為推薦的重要依據(jù)。Chen[4]等人以矩陣分解理論為依據(jù),提出張量分解思路,較好地解決跨域推薦的問題,目的是更好對(duì)隱因子進(jìn)行分解,降低煩瑣的二元關(guān)系轉(zhuǎn)換表。通過不依賴用戶進(jìn)行學(xué)生和圖書之間的匹配,較好地實(shí)現(xiàn)不依賴用戶信息匹配的跨域推薦。
(三)基于概率偏好
基于隱語義模型的協(xié)同過濾算法目前越來越廣泛,以PMF[9]模型為例,將學(xué)生和圖書進(jìn)行歸納,同步映射到不同層的隱聚類上,僅借助學(xué)生和圖書的ID信息,另外憑借例如學(xué)生人口統(tǒng)計(jì)學(xué)特征和物品類別屬性等信息進(jìn)行輔助,最終通過概率偏好模型PPF,有效地解決隱語義模型存在的固有過擬合等問題。為繼續(xù)豐富樣本數(shù)據(jù),較好地提升模型的精準(zhǔn)率,采用跨域推薦模型,引入CMF[1]學(xué)習(xí)機(jī)制,隱向量權(quán)值共享,將引入的超參數(shù)模型拓展為貝葉斯概率生成模型,借助馬爾科夫-蒙特卡洛算法求解,最終實(shí)現(xiàn)了基于概率理論的跨域推薦系統(tǒng)。
(四)基于多視角神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)可較好地解決特征提取的難題,尤其是在非線性特征的表征方面具有獨(dú)特的優(yōu)勢(shì),將跨域概率偏好模型與神經(jīng)網(wǎng)絡(luò)相結(jié)合[10]。例如以豆瓣平臺(tái)為例,若在圖書方面有興趣愛好的用戶,那么在電影推薦方面較大概率具有相同的興趣愛好。進(jìn)而可以推斷,采用多領(lǐng)域間的內(nèi)在聯(lián)系可以較好地共享相同的隱語義向量信息,借助多視角用戶信息的共享通道,不斷優(yōu)化多級(jí)訓(xùn)練的方式,大大地緩解了模型表現(xiàn)出的數(shù)據(jù)嚴(yán)重稀疏等問題。此外,通過不斷對(duì)傳統(tǒng)的推薦模型進(jìn)行神經(jīng)網(wǎng)絡(luò)訓(xùn)練,較好地實(shí)現(xiàn)了特征難表征的難題,有效地增加了跨域推薦模型的自由度,同時(shí)也可以根據(jù)不同的實(shí)際場(chǎng)景,增加以及擴(kuò)充更加復(fù)雜的神經(jīng)網(wǎng)絡(luò)模塊。在充分挖掘神經(jīng)網(wǎng)絡(luò)特征表示的優(yōu)越性的同時(shí),實(shí)現(xiàn)神經(jīng)網(wǎng)絡(luò)的跨域圖書推薦系統(tǒng)。
二、基于推薦系統(tǒng)算法的跨域推薦
(一)基于內(nèi)容
基于內(nèi)容的推薦[11],可以理解為基于歷史行為數(shù)據(jù)對(duì)圖書進(jìn)行推薦,可以根據(jù)學(xué)生之前喜歡圖書的相關(guān)信息,搜索與該圖書相似度最高的圖書進(jìn)行推薦。推薦的依據(jù)來源于學(xué)生借書時(shí)留下的信息以及學(xué)生和圖書關(guān)聯(lián)信息,有效地獲取學(xué)生的興趣愛好。通常情況下,基于內(nèi)容的推薦系統(tǒng)會(huì)出現(xiàn)數(shù)據(jù)丟失,通過分析數(shù)據(jù)分布的特點(diǎn),可以得到原始數(shù)據(jù)的稀疏性以及離散性等特點(diǎn),單純通過內(nèi)容的推薦,效果不佳。
(二)基于協(xié)同過濾
基于協(xié)同過濾的推薦[12],屬于圖書推薦與學(xué)生的興趣相似度較高的推薦。協(xié)同過濾思路可以挖掘?qū)W生和圖書之間的相似隱層關(guān)系,帶來了豐富的內(nèi)容信息,基于學(xué)生或者圖書的協(xié)同過濾思想進(jìn)行跨域推薦方法,可以進(jìn)一步挖掘跨域推薦中豐富的語義關(guān)聯(lián)信息?;趨f(xié)同過濾的方案可以較好地彌補(bǔ)單純通過基于內(nèi)容的推薦系統(tǒng)的缺陷,有效地解決數(shù)據(jù)稀疏性等問題,目前協(xié)同過濾推薦系統(tǒng)算法已經(jīng)作為當(dāng)前學(xué)者研究的熱點(diǎn)。
(三)基于圖理論
基于圖的推薦[13]可以有效利用圖結(jié)構(gòu)信息深度挖掘?qū)W生和圖書之間的內(nèi)部聯(lián)系,進(jìn)一步采用語義關(guān)系建立學(xué)生和圖書之間的語義模型,較好地強(qiáng)化了跨域推薦的效果。圖的理論可以較好地引入注意力機(jī)制模式,可以有效地挖掘數(shù)據(jù)與數(shù)據(jù)之間的相關(guān)性,進(jìn)而彌補(bǔ)數(shù)據(jù)丟失的情況,當(dāng)前研究較多的是基于圖理論和協(xié)同過濾推薦算法的結(jié)合。
(四)遷移學(xué)習(xí)
遷移學(xué)習(xí)與跨域推薦系統(tǒng)的思想比較吻合,在圖書推薦系統(tǒng)中,不同高校的學(xué)生行為數(shù)據(jù)具有相似性,可以通過獲取開源的數(shù)據(jù)集,建立推薦系統(tǒng)模型后,將訓(xùn)練獲取的模型參數(shù)成功遷移學(xué)習(xí)到研究的對(duì)象模型中,可以達(dá)到模型盡快收斂降低模型過擬合的風(fēng)險(xiǎn)。
三、基于內(nèi)容與算法融合的跨域推薦
(一)模型架構(gòu)
以高校學(xué)生為研究對(duì)象,學(xué)生對(duì)圖書的反饋評(píng)價(jià)信息[14],圖書本身的屬性信息,具體分為四個(gè)步驟:提取內(nèi)容信息的特征、獲取相鄰屬性間的信息提取、構(gòu)建異質(zhì)圖以及跨域推薦。模型架構(gòu)的選取并非一成不變,可以根據(jù)實(shí)際數(shù)據(jù)的特點(diǎn),進(jìn)行模型架構(gòu)的刪減以及調(diào)整,在模型架構(gòu)設(shè)計(jì)前可以對(duì)輸入數(shù)據(jù)進(jìn)行簡(jiǎn)要的數(shù)據(jù)分析,對(duì)每個(gè)步驟做必要性評(píng)估。
(二)提取文本信息特征
將反饋評(píng)價(jià)信息與圖書的文本信息進(jìn)行聯(lián)合,最終獲取模型所需要的特征。通過詞袋模型的方法,將文本信息進(jìn)行向量化表示,同時(shí)考慮詞袋與詞袋之間的相關(guān)性,引入注意力機(jī)制,采用深度學(xué)習(xí)的方法提取高緯度相關(guān)性特征。該方式與協(xié)同過濾推薦系統(tǒng)中的圖優(yōu)化比較類似,不同點(diǎn)在于該方案是以文本詞袋理論為前提進(jìn)行數(shù)據(jù)量化。
(三)提取相鄰關(guān)系特征
通過矩陣評(píng)分的方法將學(xué)生和圖書整合到相同的矩陣中,構(gòu)建學(xué)生和圖書的相鄰矩陣,通過矩陣變換的相關(guān)矩陣論知識(shí),對(duì)矩陣進(jìn)行降維以及特征提取,最終獲取相鄰關(guān)系特征,相鄰關(guān)系特征的好壞直接影響跨域推薦模型的精度,因此需要盡可能提高該步驟的精確度。
(四)跨域推薦
將文本特征向量和相鄰向量進(jìn)行融合,參考傳統(tǒng)的構(gòu)建異質(zhì)圖的方式,以學(xué)生對(duì)圖書的評(píng)分指標(biāo)為基礎(chǔ),構(gòu)建學(xué)生和圖書的節(jié)點(diǎn)信息,以及學(xué)生給圖書打分的異質(zhì)圖的邊界信息。最后借助圖理論的相關(guān)知識(shí),計(jì)算節(jié)點(diǎn)與邊界的評(píng)分函數(shù),進(jìn)而實(shí)現(xiàn)對(duì)任意學(xué)生進(jìn)行Top-N的跨域推薦,同步也會(huì)輸出每個(gè)排序的概率值。概率越高的推薦對(duì)象,表明推薦優(yōu)先級(jí)最高,反之推薦優(yōu)先級(jí)最低。
四、結(jié)語
文章對(duì)跨域圖書推薦系統(tǒng)模型進(jìn)行了研究,通過在系統(tǒng)用戶數(shù)據(jù)、推薦系統(tǒng)算法、內(nèi)容與算法融合三個(gè)層面,再結(jié)合圖書館圖書的特點(diǎn),對(duì)跨域圖書推薦系統(tǒng)模型進(jìn)行分析,較好地解決了推薦系統(tǒng)具有用戶行為數(shù)據(jù)極度稀疏的問題。
參考文獻(xiàn):
[1]SINGH A P,GORDON G J.通過集體矩陣分解的關(guān)系學(xué)習(xí)[A].第十四屆ACM SIGKDD知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘國際會(huì)議論文集[C],2008:650-58.
[2]ELKAHKY A.M,SONG Y,HE X.推薦系統(tǒng)中跨域用戶建模的多視圖深度學(xué)習(xí)方法[A].第24屆國際萬維網(wǎng)大會(huì)論文集[C],2015:278-288.
[3]JIANG M,CUIP,YUAN N J,et al.少即是多:通過重疊人群來溝通跨平臺(tái)行為[C].AAAI. 2016:13-19.
[4]CHEN W,HSU W,LEE M L.來自多個(gè)領(lǐng)域的建議[A].第19屆ACM SIGKDD知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘國際會(huì)議論文集[C],2013:892-900.
[5]練建勛.基于多樣化內(nèi)容數(shù)據(jù)的個(gè)性化推薦系統(tǒng)[D].合肥:中國科學(xué)技術(shù)大學(xué),2018.
[6]BERKOVSKY S,KUFLIK T,RICCI F.協(xié)同過濾中的跨域中介[A].用戶建模國際會(huì)議[C], 2007:335-359.
[7]LU Z,ZHONG E,ZHAO L,et al.跨域推薦的選擇性遷移學(xué)習(xí)[A].2013 SIAM數(shù)據(jù)挖掘國際會(huì)議論文集[C],2013:641-649.
[8]LI B,YANG Q,XUE X.電影和書籍可以合作嗎?面向稀疏度降低的跨域協(xié)同過濾[C].IJCAI,2009(9):2052-2057.
[9]ZHANG F,YUAN J,ZHENG K,et al.利用餐廳的就餐偏好進(jìn)行餐廳推薦[A].第25屆國際萬維網(wǎng)大會(huì)論文集[C],2016:725-735.
[10]LIAN J,ZHANG F,XIE X,et al.跨領(lǐng)域推薦系統(tǒng)的多面模型[A].國際知識(shí)科學(xué)、工程和管理會(huì)議[C],2017:322-333.
[11]J. Son,S.B.J.E.S.w.A. Kim. 基于內(nèi)容的多屬性網(wǎng)絡(luò)推薦系統(tǒng)過濾[J].專家系統(tǒng)與應(yīng)用,2017(89):404-412.
[12]Y.Koren, R. Bell,C.J.C. Volinsky.推薦系統(tǒng)的矩陣分解技術(shù)[J].IEEE Computer,2009,42(8):30-37.
[13]Y.Dong,N.V.Chawla,A. Swami.異構(gòu)網(wǎng)絡(luò)的可擴(kuò)展表示學(xué)習(xí)[A].第23屆ACM SIGKDD知識(shí)發(fā)現(xiàn)和數(shù)據(jù)挖掘國際會(huì)議論文集[C],2017:135-144.
[14]李金.基于內(nèi)容和圖結(jié)構(gòu)信息融合的跨域推薦問題研究[D].濟(jì)南:山東大學(xué),2020.
編輯 司 楠