国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于知識圖譜的雙端鄰居信息融合推薦算法

2022-06-18 02:09:16王寶亮潘文采
計算機與生活 2022年6期
關(guān)鍵詞:圖譜物品向量

王寶亮,潘文采

1.天津大學(xué) 信息與網(wǎng)絡(luò)中心,天津 300072

2.天津大學(xué) 電氣自動化與信息工程學(xué)院,天津 300072

當(dāng)今社會,隨著網(wǎng)絡(luò)的興起,用戶的選擇信息越來越多,為了解決用戶的個性化推薦問題,推薦系統(tǒng)應(yīng)運而生。其中,協(xié)同過濾算法通過分析相似用戶的行為進行推薦,取得了較大的成功。然而,傳統(tǒng)的協(xié)同過濾算法存在冷啟動和用戶交互信息稀疏的問題,因此研究者通過加入輔助信息例如社交網(wǎng)絡(luò)、物品的屬性信息等來緩解該問題。由于知識圖譜包含豐富的物品信息,也被應(yīng)用于推薦算法中。

將知識圖譜應(yīng)用于推薦算法已成為一個熱點,例如文獻[7]將知識圖譜應(yīng)用于新聞推薦系統(tǒng),將上下文嵌入、知識圖譜實體嵌入和語句嵌入送入CNN網(wǎng)絡(luò),從而在語義層次和知識圖譜層次學(xué)習(xí)嵌入表示。文獻[8-9]將知識圖譜網(wǎng)絡(luò)中與用戶交互的物品的鄰居信息聚合到用戶上,生成信息豐富的嵌入表示。文獻[10-11]將物品的鄰居信息聚合到物品上生成物品嵌入表示。

受上述算法啟發(fā),本文提出基于知識圖譜的用戶物品鄰居信息融合推薦算法,即將用戶鄰居和物品鄰居信息分別融合,從而產(chǎn)生用戶和物品信息均豐富的嵌入表示。在聚合用戶信息時,首先根據(jù)用戶的點擊記錄得到與用戶交互的物品,如圖1 所示的左邊菱形節(jié)點。然后根據(jù)物品在知識圖譜網(wǎng)絡(luò)的位置得到一階鄰居。同理,向外傳播,得到高階鄰居。然后利用節(jié)點和節(jié)點之間的關(guān)系豐富用戶的向量表示。在聚合物品信息時,由于物品通常是知識圖譜的某個實體節(jié)點,如圖1 所示右邊的菱形節(jié)點,直接得到物品的一階和高階鄰居,根據(jù)KGCN(knowledge graph convolutional networks)模型(一種利用圖卷機神經(jīng)網(wǎng)絡(luò)和知識圖譜的推薦模型)聚合信息生成豐富的物品嵌入表示。最后將得到的用戶和物品的向量嵌入表示送入預(yù)測環(huán)節(jié),得到用戶和物品的交互概率。在公開的兩個數(shù)據(jù)集上進行對比實驗,驗證了本文算法的有效性。

圖1 總體框架Fig.1 Overall framework

1 本文算法

1.1 總體框架

本文的總體思路如圖1 所示,其中,正方形節(jié)點表示用戶節(jié)點,圓形和菱形節(jié)點表示知識圖譜中的實體節(jié)點,左邊的菱形節(jié)點表示與用戶有交互關(guān)系的物品節(jié)點。

1.2 用戶節(jié)點鄰居信息融合

給定用戶物品交互矩陣和知識圖譜用戶的跳實體集合定義如下:

用戶的跳的鄰居集合如下:

隨著跳數(shù)的增加,鄰居集合的數(shù)量會變得十分龐大,因而不會選得很大,當(dāng)很大時,帶來的噪音會比有效信息更多。同時,為了降低集合的數(shù)量,每一跳采樣固定數(shù)量大小的鄰居。

其中,R∈Rh∈R,分別表示關(guān)系R和實體head h的嵌入表示,考慮到用戶的點擊歷史是用戶的直接興趣表達(dá),因而將加入權(quán)重表達(dá)式。

p可以表示在R空間下用戶對于h和關(guān)系R的喜好程度,也可以表征每個鄰居節(jié)點和用戶的點擊歷史物品的相似度。

其中,t∈R,是tail t的嵌入向量的表示。

最終的用戶的向量表示為:

然而,對于[],隨著的增長,離用戶的交互歷史越來越遠(yuǎn),包含的噪音信息會更多,因此不同的路徑對模型的影響是不同的,式(5)無法解決該問題,選擇文獻[12]提出的累加操作,如式(6)所示。

圖2 用戶節(jié)點信息融合Fig.2 User node information aggregation

其中,是參數(shù),用來控制每一跳輸出的權(quán)重。該操作能夠區(qū)分不同跳輸出的重要性,其偏導(dǎo)如式(7)所示。

通過控制的大小可以調(diào)整每一跳輸出的比重。

1.3 物品節(jié)點鄰居信息聚合

物品鄰居節(jié)點的聚合采用KGCN模型,其基本框架如圖3 所示。

圖3 KGCN 模型Fig.3 KGCN model

KGCN 模型在知識圖譜中聚合實體特征,從而發(fā)掘物品的潛在關(guān)聯(lián)。涉及的概念如下:

()的規(guī)模很大,選擇隨機采樣固定數(shù)量鄰居的方式降低計算復(fù)雜度。

其中,表示采樣的數(shù)目。

根據(jù)文獻[10]實驗結(jié)果,式(12)的聚合效果在三種聚合方式最好,本文根據(jù)文獻[13]提出的聚合方式,如式(15)所示。

其中,⊙表示element-wise 操作。

根據(jù)式(9)~(11)、(15)~(17),如圖3 所示,不斷從外向內(nèi)聚合,將節(jié)點的信息聚合到物品節(jié)點。最終形成物品節(jié)點的向量表示v。

1.4 預(yù)測部分

通過1.2 和1.3 節(jié),得到了用戶和物品的最終向量表示和v,其中用戶向量包含了用戶的歷史記錄信息和其在知識圖譜中的鄰居信息。物品向量v包含了物品本身和其在知識圖譜的鄰居信息以及用戶對鄰居信息的喜好程度。預(yù)測函數(shù)如式(18)所示。

為了比較對向量的不同操作對最終結(jié)果的影響,預(yù)測函數(shù)公式可替換為式(19)。

其中,∈R

損失函數(shù)如式(20)所示。

1.5 算法流程

雙端鄰居信息融合

2 實驗部分

2.1 數(shù)據(jù)集

本文采用的數(shù)據(jù)集是Book-Crossing(http://www2.informatik.uni-freiburg.de/~cziegler/BX/)和Last.FM(https://grouplens.org/datasets/hetrec-2011/)。其中Book-Crossing數(shù)據(jù)集來自Book-Crossing 市場,包含100 萬個書籍評分信息。Last.FM 數(shù)據(jù)集來自Last.FM 在線音樂系統(tǒng),包含2 000 個用戶的評分信息。對應(yīng)于數(shù)據(jù)集的知識圖譜數(shù)據(jù)從KGCN公開的預(yù)處理知識圖譜獲得(https://github.com/hwwang55/KGCN),該知識圖譜信息來自Microsoft Satori。兩個數(shù)據(jù)集經(jīng)過預(yù)處理后的統(tǒng)計數(shù)據(jù)如表1 所示。

表1 兩個數(shù)據(jù)集的統(tǒng)計數(shù)據(jù)Table 1 Statistics for two datasets

2.2 實驗設(shè)置和參數(shù)

本文算法將與經(jīng)典的推薦算法LibFM、Wide&Deep和基于知識圖譜的推薦算法RippleNet、KGCN、KGNN-LS進行比較。通過評價指標(biāo)ACC(accuracy)和AUC(area under curve)來比較各個算法的性能,它們反映了算法在CTR(click-through rate)預(yù)測時的性能。

本實驗在Windows10 環(huán)境下使用python-3.6.5 進行開發(fā),使用的第三方庫及版本:tensorFlow-1.12.0、numpy-1.15.4、sklearn-0.20.0。對于每個數(shù)據(jù)集,按照6∶2∶2 的比例隨機構(gòu)成訓(xùn)練集、驗證集和測試集。其他相關(guān)的參數(shù)如表2 所示。

表2 參數(shù)的設(shè)置Table 2 Parameter setting

表2 中,-表示用戶端,-表示物品端。表示鄰居采樣數(shù)量,表示跳數(shù),表示嵌入向量的維度,表示正則化參數(shù),表示訓(xùn)練速率,表示式(6)中的參數(shù),調(diào)整每一跳的比重。

KGCN(https://github.com/hwwang55/KGCN)、KGNN-LS(https://github.com/hwwang55/KGNN-LS)的參數(shù)設(shè)置按照文獻[10-11]的設(shè)定進行設(shè)置。對于RippleNet(https://github.com/hwwang55/RippleNet),其在Last.FM數(shù)據(jù)集上的設(shè)置為=16,=3,=10,=0.02,=0.005;在Book-Crossing 數(shù)據(jù)集的設(shè)置為=4,=3,=10,=0.01,=0.001。

2.3 對比實驗結(jié)果

各個模型的CTR 預(yù)測結(jié)果如表3 所示。

表3 CTR 預(yù)測中AUC 和ACC 的結(jié)果Table 3 Results of AUC and ACC in CTR prediction

從表3 的結(jié)果可以看出,相較于經(jīng)典的推薦算法LibFM、Wide&Deep 以及在知識圖譜中僅聚合用戶鄰居信息的RippleNet算法和僅聚合物品鄰居的KGCN、KGNN-LS 算法,本文算法在兩個數(shù)據(jù)集的性能都有所提升。在Book-Crossing 數(shù)據(jù)集上,相較于最優(yōu)基線,AUC和ACC提升1.72%和4.24%;在Last.FM 數(shù)據(jù)集上,AUC和ACC提升1.07%和1.14%。其中模型-表示本文算法僅聚合用戶鄰居信息的結(jié)果,模型-表示本文算法僅聚合物品鄰居信息的結(jié)果。通過對比可以看出聚合兩者的鄰居信息能夠提升算法的有效性。同時可以發(fā)現(xiàn),模型-的算法性能下降較為明顯,主要原因是本文的物品鄰居采樣數(shù)太少且向外聚合的深度也僅為1 跳,因此得到的信息非常少,從而導(dǎo)致性能效果下降更多,這也從側(cè)面說明鄰居信息對算法的性能有較大的影響。

表3 最后一行表示用式(19)作為預(yù)測函數(shù)的結(jié)果??梢钥闯觯剑?9)引入額外的無關(guān)參數(shù)會導(dǎo)致大部分結(jié)果變差,因此需要恰當(dāng)選擇合適的預(yù)測函數(shù),才能提升模型性能。

2.4 參數(shù)敏感性分析

在聚合用戶鄰居信息時,得到每一跳的結(jié)果后,通過值來調(diào)整每一跳累和時的比重,當(dāng)值趨于0時,會選擇最重要的一跳信息作為最終用戶向量表示,當(dāng)值趨于無窮時,累和方式類似于對多跳輸出取平均值作為最終用戶向量表示。由表4 結(jié)果可以看出,對于Book-Crossing 數(shù)據(jù)集和Last.FM 數(shù)據(jù)集,值取小值時,效果要好于大值。這是由于取小值時,會更傾向于取重要一跳的信息作為最終用戶向量表示。表4 中最后一行表示直接累加所有跳的輸出的結(jié)果,可以看出,利用值調(diào)整能夠提升算法的有效性。

表4 參數(shù)γ 對AUC 值的影響Table 4 Influence of parameter γ on AUC value

表5 和表6 表示采樣鄰居數(shù)目對算法的影響。可以看出,當(dāng)值取過低和過高時,模型的性能都會受到影響。過高時,會帶來更多的噪音,過低時無法聚合更多有效的信息。

表5 用戶端每跳采樣值K-u 對AUC 值的影響Table 5 Impact of K-u sampled value per hop on AUC value at user end

表6 物品端每跳采樣值K-i 對ACC 值的影響Table 6 Impact of K-i sampled value per hop on ACC value at item end

表7和表8 表示聚合深度對算法的影響??梢钥闯霰疚乃惴▽酆仙疃鹊拿舾行愿鼜?,特別是對于的性能急劇惡化,說明當(dāng)跳數(shù)增加時,會引入更多的不必要信息,這也符合現(xiàn)實情況。知識圖譜中的1 跳鄰居信息是對實體的更為直接的描述,有很強的相關(guān)性,當(dāng)跳數(shù)增加時,其有效的描述信息會少很多。

表7 用戶端聚合跳數(shù)H-u 對AUC 值的影響Table 7 Impact of user end aggregation hops H-u on AUC value

表8 物品端聚合跳數(shù)H-i 對ACC 值的影響Table 8 Impact of item end aggregation hops H-i on ACC value

表9 表示向量維度對算法性能的影響。合適的向量維度能夠編碼有效的信息而不會引入更多的噪音,也能緩解算法的過擬合現(xiàn)象,同時也會減小算法的訓(xùn)練時間。

表9 向量維度值d 對AUC 值的影響Table 9 Influence of vector dimension value d on AUC value

3 結(jié)束語

針對推薦系統(tǒng)存在的冷啟動問題,本文提出了一種基于知識圖譜的融合用戶鄰居信息和物品鄰居信息的推薦算法。該算法將知識圖譜作為輔助信息,算法首先聚合用戶的鄰居信息,生成有個性化信息的用戶向量,然后將用戶向量送入KGCN 模型聚合物品的鄰居信息,生成有個性化的物品向量。最后將向量送入預(yù)測階段。在數(shù)據(jù)集Book-Crossing 和Last.FM 上的實驗結(jié)果證明了本文算法的有效性,提高了推薦結(jié)果的準(zhǔn)確性,同時增加了推薦算法的可解釋性。下一步將針對知識圖譜中存在的不相關(guān)實體問題做進一步探究。

猜你喜歡
圖譜物品向量
稱物品
向量的分解
聚焦“向量與三角”創(chuàng)新題
“雙十一”,你搶到了想要的物品嗎?
繪一張成長圖譜
誰動了凡·高的物品
補腎強身片UPLC指紋圖譜
中成藥(2017年3期)2017-05-17 06:09:01
主動對接你思維的知識圖譜
向量垂直在解析幾何中的應(yīng)用
向量五種“變身” 玩轉(zhuǎn)圓錐曲線
尚义县| 金乡县| 徐水县| 临沂市| 鹰潭市| 绥棱县| 裕民县| 西乌| 紫阳县| 华池县| 贵港市| 静安区| 台江县| 东台市| 名山县| 杭锦旗| 新密市| 贵德县| 明光市| 临高县| 嘉峪关市| 澜沧| 澎湖县| 保亭| 泾源县| 高州市| 阳春市| 黄冈市| 宁德市| 吉安县| 朔州市| 海丰县| 大安市| 搜索| 登封市| 宁强县| 张家港市| 大关县| 南宫市| 灵石县| 石嘴山市|