摘要:針對跨領域項目推薦過程中用戶興趣稀疏造成的推薦冷啟動問題,提出一種基于混合興趣主題模型興趣領域潛在狄利克雷分布(PA-LDA)的推薦方法。PA-LDA使用興趣潛在狄利克雷分布(P-LDA)模塊挖掘用戶歷史行為數(shù)據(jù),生成關于目標項目中興趣主題的概率分布,綜合考慮主題和項目內(nèi)容詞對興趣的影響進行參數(shù)估計建模,得到用戶對目標項目的興趣評價。PA-LDA使用領域潛在狄利克雷分布(A-LDA)得到領域?qū)椖磕繕说呐d趣評價,混合兩類興趣評價,使用top-k方法推薦目標項目。在EdX和GCSE兩組真實數(shù)據(jù)集上進行實驗,驗證方法的有效性和準確性。研究結果表明:PA-LDA可以有效解釋用戶興趣和領域興趣對項目推薦的作用原理,實現(xiàn)多維領域推薦的興趣特征捕捉,提升推薦的適應性與準確性。
關鍵詞:主題模型;用戶興趣;領域興趣;興趣混合;top-k推薦
中圖分類號:TP311 文獻標志碼:A 文章編號:1008-0562(2024)02-0241-07
0 引言
“信息過載”帶來的信息過速增長引發(fā)了選擇困惑和決斷失效問題。通常,可以使用個性化推薦方法,根據(jù)用戶的需求,結合用戶本身的興趣偏好因素,為用戶推薦最適合的項。但是,當用戶涉獵到陌生領域時,由于用戶留存的歷史信息較少,形成用戶興趣的稀疏現(xiàn)象,從而造成推薦的冷啟動問題。
目前,針對個性化推薦的研究和理論方法較多,與本研究聯(lián)系最為緊密的推薦方法包括協(xié)同過濾方法和主題建模方法兩類。協(xié)同過濾是一種經(jīng)典的基于鄰域信息相似度的推薦方法,可以根據(jù)鄰域的興趣偏好對用戶興趣進行估計和行為過濾,根據(jù)行為特征的相似性進行推薦,主要包括基于項目的協(xié)同過濾、基于內(nèi)容的協(xié)同過濾和基于模型的協(xié)同過濾。主題建模是一種通過用戶行為信息的單詞分布,推測主題屬類和關聯(lián)強度的關系分析方法,可用來分析推薦過程中各類要素對推薦結果的影響強度。其中最具代表性的是NEWMAN等提出的LDA模型,在此基礎上,MEI等提出了面向領域的建模方法。隨著數(shù)據(jù)分析和人工智能的快速發(fā)展,智能推薦模型被不斷引入,極大地提升了推薦的準確性和推薦效率。這些方法可以捕捉淺層次語義信息,但缺乏對興趣特征在深層次重疊語義信息的表達,造成推薦項目的遺漏,降低推薦的準確性。
因此,對于本文所研究的跨領域推薦問題,需要綜合考慮用戶興趣和領域興趣對項目推薦的影響,在研究項目推薦的過程中包含2個挑戰(zhàn)問題:
(1)如何從領域和用戶信息中,抽取得到領域和用戶的興趣特征,進行準確的形象刻畫。
(2)如何將領域興趣和用戶興趣進行匹配融合,需要分析領域、用戶、項目特征要素之間的關聯(lián)關系,進而將興趣進行混合,提高推薦的準確性。
針對上述挑戰(zhàn),本研究對跨領域興趣可表達性和興趣融合交互性的基本原理和方法進行解釋和分析。具體地,對于用戶熟悉的領域,可以使用用戶興趣和領域興趣實施推薦;對于用戶陌生的領域,可以使用領域興趣作為輔助信息,幫助引導興趣實施推薦,從而解決因用戶興趣缺少而造成的推薦冷啟動問題。
基于此,本文提出一種基于混合興趣模型PA-LDA的推薦方法。模型通過P-LDA模塊和A-LDA模塊分別對用戶和領域進行興趣主題的抽取,進而對用戶興趣和領域興趣進行混合表達,然后使用top-k方法,進行個性化的匹配推薦,彌補推薦過程中的興趣缺失問題。PA-LDA在推薦過程中充分考慮用戶自身興趣和領域興趣對項目推薦影響,用以解決用戶在陌生領域項目推薦過程中產(chǎn)生的數(shù)據(jù)稀疏問題。
1 跨領域混合推薦
本文研究的是跨領域的用戶一領域一項目推薦,是個性化推薦范疇內(nèi)的經(jīng)典問題。首先,給出推薦問題中所使用的各類資源定義。
定義1 項目。對于某一特定領域,vi表示該領域中的一個項目,項目代表現(xiàn)實生活中一個商品、一條新聞等。對于領域V,有V={vi|i∈[1,|V|]},|V|表示領域V中的項目總數(shù)。
定義2 用戶。uj表示使用推薦系統(tǒng)的用戶。用戶集合為U={uj,|j∈[1,|U|]},|U|表示用戶總數(shù)。
定義3 項目記錄。歷史記錄,表示為三元組I=(u,v,V),I表示用戶u所擁有的領域V中的項目資源v。
定義4 內(nèi)容詞。cv表示與項目v相關的一個詞,代表項目的一個特征屬性。Cv表示關鍵詞集合,包含了項目v中的所有特征屬性,有Cv= {cvi|i∈[1,|Cv|]},|Cv|表示項目v中包含的特征總數(shù)。
定義5 歷史記錄。對于任一用戶u,歷史記錄duv定義為四元組duv=(u,v,V,cv),表示用戶u針對領域V中的項目v,關注的特征屬性cv。用戶可能關注該項目的多個特征屬性,記作項目歷史記錄Duv={(u,v,V,cv)|cv∈Cv)}。一個用戶“關注多個項目的多個特征屬性的情況,記作用戶項目歷史記錄集D={Duv|v∈V}。對于所有用戶,全體歷史記錄集記作D={Du|u∈U}。
定義6 主題。z表示項目、領域包含的主題內(nèi)容,可以表示領域、用戶對項目的興趣。一個領域中可以包含多個主題z,一個主題z也可以包含多個領域,主題與領域是多對多的關系。主題與用戶和項目之間的關系也是多對多的關系。Z為主題集,|Z|為主題的總數(shù)。Φz表示項目v關于主題z的概率分布,則{P(v|Φ~z)|v∈V}為領域中項目v關于主題z的概率,表示了主題z對于領域V的影響情況。P(v|Φz)越大,說明用戶在關注領域V中的項目時,受到主題z的影響越大,對主題z的興趣也越高。同樣,興趣也會對項目的內(nèi)容詞產(chǎn)生影響。因此,把Φ'z作內(nèi)容詞cv關于主題z的分布概率。Φz與Φ'z相互影響,相互增強,有助于將內(nèi)容相似的項目集成到同一主題中。
定義7 用戶興趣。每個用戶u有自己的興趣偏好,記作0,是u關于主題的概率分布。
定義8 領域興趣。每個領域都體現(xiàn)出對特定項目的興趣偏好,記作θ'v。θ'v有助于找出領域中的熱門項目情況。
基于上述定義,對興趣領域的主題生成過程和興趣混合過程進行描述。
2 混合興趣主題模型PA-LDA
從用戶個人和全體歷史記錄集可以分別得到用戶個人和領域的興趣偏好,作為項目推薦的準備信息。為了對歷史記錄中的興趣主題進行生成建模,提出了一種混合興趣主題模型PA-LDA,由用戶興趣模塊P-LDA和領域興趣模塊A-LDA組成。
GCSE數(shù)據(jù)集是Google (https://www.gcse.com/)自定義搜索引擎(GCSE)的學習數(shù)據(jù),包含5 668位專業(yè)人員的15 744課時MOOC條目。實驗使用人工實際測試的真實數(shù)據(jù),包含英語、法語、德語的講稿、單詞、拼寫類型的學習狀況,設計57名參與者進行學習跟蹤,采集得到學習數(shù)據(jù)1 127條。
(2)對比方法
用戶話題模型(user-topic model,UT) :參照作者一主題(AT)模型設計的用戶興趣主題生成模型。
個性化推薦模型(personalized recommendationmodel,PRM)[2]:在正態(tài)分布下使用交互矩陣分析用戶興趣與潛在興趣,從而進行推薦。
基于類型的K近鄰模型(category-based K-nearestneighbors,CKNN) :基于類型的KNN算法將用戶的歷史記錄進行分類建模的推薦方法。
基于項目的K近鄰模型(item-based K-nearestneighbors,IKNN):基于項目的KNN算法,通過用戶擁有項目的相似性進行項目推薦。
P-LDA:作為PA-LDA的組成部分,只考慮用戶興趣對項目推薦的影響。
A-LDA:作為PA-LDA的組成部分,只考慮領域興趣對項目推薦的影響。
(3)評價方法和指標
把歷史記錄集D劃分為數(shù)據(jù)集Dtrain和測試集Dtest兩部分,劃分比例為80%和20%。評價方法為
式中:R為召回率;TP為預測的正確樣本的命中次數(shù);|Dtest|為測試集Dtest的總記錄數(shù)。
4.2 實驗結果及分析
本部分通過實驗對比,討論PA-LDA的總體性能和主題變化時方法的可擴展性。
(1)召回率
不同方法在數(shù)據(jù)集EdX和GCSE上,分別針對用戶熟悉領域和陌生領域,進行top-k項目推薦時的召回率對比見圖2。k大于8時,PA-LDA的召回率增長速度趨于穩(wěn)定,說明此時PA-LDA的推薦效果變得更加可靠。在4組實驗中,PA-LDA的召回率優(yōu)于其他方法,驗證了PA-LDA推薦項目的有效性和準確性。對于熟悉領域,PA-LDA能夠更準確地捕捉到個人興趣,使得推薦更具個性化,符合用戶興趣偏好;在陌生領域中,即使缺少了個人興趣的參與,PA-LDA也可以根據(jù)領域熱度進行合理推薦。IKNN和CKNN方法缺少對內(nèi)容詞的分析,使推薦結果中遺漏了很多內(nèi)容相似的項目,從而降低了推薦結果的準確性。PRM雖然考慮了用戶和領域興趣的相互作用,但是由于比較依賴交互矩陣的作用,當k大于10時,由于交互信息的減少,召回率降低。
(2)主題數(shù)量變化時的召回率
本實驗考慮主題數(shù)量對推薦結果的影響,分別設置主題數(shù)為50、100、150、200,觀察PA-LDA各部分推薦結果情況。主題數(shù)量變化時的PA-LDA各模塊召回率見圖3。由圖3可知,對于每個模型,主題數(shù)從50增加到200,對推薦結果的影響效果并不明顯。這是因為上述4種主題設置中,均包含了必要的關鍵主題。當主題數(shù)量從50增加到200時,只是增加了非關鍵的次要主題,它們的概率分布Φ、Φ'都比較小,使得這些次要主題對興趣的影響并不敏感。對比圖3(a)~圖3 (c),3個模型推薦的準確度大小排序為PA-LDAgt;P-LDAgt;A-LDA,可見綜合考慮用戶興趣和領域興趣的PA-LDA模型推薦效果最好。
本實驗的結果說明在推薦過程中,推薦效果主要受到關鍵主題的影響。除關鍵主題外,添加其他的次要主題對推薦效果影響不大。
5 結論
(1)本文針對跨領域推薦時的冷啟動問題,提出一種基于混合興趣主題模型的PA-LDA的推薦方法,通過使用PA-LDA將用戶興趣和領域興趣進行融合.既可以針對用戶個人興趣實現(xiàn)個性化推薦,也可以融合領域興趣對個人興趣進行補充,避免由于興趣缺失而造成的冷啟動問題。最后,通過大量實驗,證明了本文所提出的方法的有效性和準確性。
(2)未來的工作中需要考慮用戶、項目、領域的內(nèi)部要素之間的關聯(lián)關系,進一步增強推薦的準確性,同時提高推薦效率。
基金項目:國家自然科學基金項目(71771111)