段文菁,謝 珺,續(xù)欣瑩,岳曉冬,劉笑笑
1(太原理工大學(xué) 信息與計(jì)算機(jī)學(xué)院,山西 晉中 030600)
2(太原理工大學(xué) 電氣與動(dòng)力工程學(xué)院,太原 030000)
3(上海大學(xué) 計(jì)算機(jī)工程與科學(xué)學(xué)院,上海 200444)
互聯(lián)網(wǎng)的飛速發(fā)展使得信息過(guò)載問(wèn)題亟待解決,個(gè)性化推薦作為大數(shù)據(jù)時(shí)代的產(chǎn)物,依據(jù)海量的用戶行為數(shù)據(jù)深入挖掘有效信息,滿足不同用戶的需求,憑借其顯著優(yōu)勢(shì)受到研究者的青睞,被廣泛應(yīng)用于視頻、電商以及新聞等領(lǐng)域.
個(gè)性化推薦的核心任務(wù)是匹配目標(biāo)用戶的需求,用戶興趣建模作為推薦系統(tǒng)的基礎(chǔ),其構(gòu)建至關(guān)重要,能否建立準(zhǔn)確、高效的用戶模型決定了個(gè)性化推薦的效果.早期的推薦算法以協(xié)同過(guò)濾[1]為代表,依據(jù)群體的歷史反饋信息與相似性關(guān)系,發(fā)掘用戶的潛在喜好.隨著推薦技術(shù)的不斷發(fā)展,深度學(xué)習(xí)以其高效的計(jì)算能力與優(yōu)越的可擴(kuò)展性,迅速在推薦領(lǐng)域占領(lǐng)一席之地,取得了諸多有重要意義的研究成果[2].然而大多算法僅依靠歷史交互信息作為輸入,交互行為的稀疏性嚴(yán)重制約了用戶興趣的表征,且存在明顯的冷啟動(dòng)問(wèn)題,使得個(gè)性化推薦模型有一定的缺陷.
為解決上述局限性,研究者考慮引入不同的輔助信息來(lái)提高推薦性能,如用戶項(xiàng)目屬性[3,4]、評(píng)論文本[5]及社交信息[6]等.近年來(lái),以知識(shí)圖譜為輔助信息的推薦算法,不僅能夠提高推薦的精確度,同時(shí)為推薦結(jié)果提供一定的可解釋性,具有重要的研究意義和價(jià)值[7].項(xiàng)目端的知識(shí)圖譜融合多源異構(gòu)數(shù)據(jù),細(xì)粒度地刻畫(huà)項(xiàng)目特征,突出了項(xiàng)目之間的語(yǔ)義聯(lián)系,同時(shí)利用其獨(dú)特的結(jié)構(gòu)知識(shí),便于挖掘到用戶的深層興趣.然而項(xiàng)目端知識(shí)圖譜,僅補(bǔ)充了項(xiàng)目的知識(shí),對(duì)于無(wú)交互歷史的新用戶,仍存在一定局限.用戶的屬性信息是其自身的固有信息,相較于歷史交互而言,更加穩(wěn)定且不隨時(shí)間變化.研究表明[8],用戶屬性信息中隱含一定的興趣偏好.融合用戶的屬性信息不僅可解決用戶冷啟動(dòng)問(wèn)題,在一定程度上可提高推薦系統(tǒng)性能.融合了知識(shí)圖譜與用戶屬性信息的結(jié)構(gòu)圖如圖1所示.通過(guò)用戶點(diǎn)擊的電影記錄在項(xiàng)目端知識(shí)圖譜上鏈接到其深層的偏好,如電影類型、主演、導(dǎo)演等.
圖1 融合知識(shí)圖譜與用戶屬性信息的結(jié)構(gòu)圖
綜合上述分析,本文提出一種融合知識(shí)圖譜的用戶多層興趣模型(Multi-layer User Interest Model Based on Knowledge Graph,MIKU),該模型以項(xiàng)目端知識(shí)圖譜和用戶屬性為輔助信息,從行為興趣和用戶屬性兩方面對(duì)用戶建模.由于用戶的歷史交互僅代表其直接偏好,未展現(xiàn)出用戶深層的興趣點(diǎn).為了充分挖掘用戶的深層興趣,本文利用知識(shí)圖譜的結(jié)構(gòu)知識(shí),將用戶的行為興趣分為淺層興趣與深層興趣,以用戶的歷史交互項(xiàng)目為淺層興趣,歷史項(xiàng)目通過(guò)圖譜的關(guān)系路徑鏈接的相關(guān)實(shí)體作為深層興趣.由于用戶對(duì)候選項(xiàng)目興趣受其歷史行為的影響,具有多樣性和動(dòng)態(tài)性,采取以不同的加權(quán)機(jī)制自適應(yīng)地計(jì)算用戶對(duì)直接行為以及其深層興趣點(diǎn)的興趣權(quán)重.考慮到新用戶在系統(tǒng)中尚未產(chǎn)生歷史交互行為,無(wú)法分析其行為興趣,本文綜合了用戶的多層興趣與屬性特征,全面分析用戶特征對(duì)其建模,進(jìn)而生成推薦.在公開(kāi)的MovieLens-1M數(shù)據(jù)集上驗(yàn)證,實(shí)驗(yàn)結(jié)果表明,融合了知識(shí)圖譜與用戶屬性的MIKU模型在推薦精度等指標(biāo)上均有顯著提高.
本文的主要貢獻(xiàn):
1)結(jié)合項(xiàng)目端知識(shí)圖譜和用戶屬性信息,利用知識(shí)圖譜的結(jié)構(gòu)知識(shí),挖掘用戶深層興趣.同時(shí)融合用戶固有屬性,從多層行為興趣與用戶屬性角度全面深入挖掘用戶的偏好,提高推薦的精準(zhǔn)度,改善了用戶冷啟動(dòng)問(wèn)題.
2)采用不同的自適應(yīng)加權(quán)機(jī)制,分別從用戶行為對(duì)淺層興趣及深層興趣建模,有效提取用戶交互級(jí)別的動(dòng)態(tài)偏好,刻畫(huà)了用戶興趣的多樣性.
用戶興趣模型的構(gòu)建是推薦算法研究的基礎(chǔ),能否獲取較為準(zhǔn)確的偏好信息是提高推薦精確度的關(guān)鍵.傳統(tǒng)的協(xié)同過(guò)濾算法認(rèn)為,具有相似行為的用戶擁有相近的興趣,利用項(xiàng)目評(píng)分信息計(jì)算兩用戶的相似度.隨著數(shù)據(jù)的不斷增長(zhǎng),用戶和項(xiàng)目的數(shù)據(jù)量極為龐大,用戶真正有過(guò)行為的項(xiàng)目寥寥無(wú)幾,評(píng)分矩陣稀疏,不能很好地表示判定用戶間的相似度.近年來(lái),研究者從不同角度引入各種技術(shù)方法更深一步探索推薦問(wèn)題[9-14].文獻(xiàn)[9]結(jié)合SVM與因式分解模型,旨在解決數(shù)據(jù)稀疏情況下的特征組合問(wèn)題,但卻忽略了用戶的歷史行為乃其興趣的最直觀表現(xiàn);文獻(xiàn)[12]利用用戶的行為序列挖掘用戶的興趣,以其歷史點(diǎn)擊項(xiàng)目平均加權(quán)作為用戶的興趣表征;文獻(xiàn)[13]引入注意力機(jī)制為歷史項(xiàng)目分配不同的權(quán)重加權(quán),表征用戶興趣的多樣性.然而交互行為的稀疏性仍制約著用戶興趣的表征,且信息結(jié)構(gòu)單一,無(wú)法挖掘到用戶深層的興趣,對(duì)于無(wú)用戶交互記錄的新用戶,無(wú)法給出合理的推薦.結(jié)合了輔助信息的推薦系統(tǒng),可有效解決以上缺陷.文獻(xiàn)[14]采用改進(jìn)的K-means聚類方式對(duì)用戶屬性特征聚類,從相似度角度結(jié)合用戶屬性和用戶偏好,緩解冷啟動(dòng)問(wèn)題的同時(shí),提高了推薦效果.
以知識(shí)圖譜為輔助信息的推薦系統(tǒng)一般分為基于路徑的方法與基于嵌入的方法.基于路徑的方法利用圖譜的網(wǎng)絡(luò)結(jié)構(gòu),構(gòu)建項(xiàng)目之間的元路徑特征.文獻(xiàn)[15]引入基于meta-path的隱含特征,來(lái)代表用戶和項(xiàng)目在不同路徑上的連通性.文獻(xiàn)[16]將知識(shí)圖譜視為特殊的異構(gòu)信息網(wǎng)絡(luò),引入加權(quán)元路徑的概念,針對(duì)不同路徑的重要程度賦予相應(yīng)的權(quán)重.而基于嵌入的方法[17]側(cè)重于利用知識(shí)圖譜的結(jié)構(gòu)信息豐富項(xiàng)目或用戶的表征.文獻(xiàn)[18]通過(guò)TransR知識(shí)嵌入算法獲取實(shí)體的語(yǔ)義表示,進(jìn)而獲取更好的物品潛在表示.文獻(xiàn)[19]為了彌補(bǔ)一般的實(shí)體嵌入獨(dú)立于推薦任務(wù),將知識(shí)嵌入與推薦作為兩個(gè)交替的任務(wù)共同優(yōu)化,進(jìn)行多任務(wù)推薦.然而這兩類方法各有缺陷,基于路徑的方法很大程度依賴于預(yù)定義的元路徑,可擴(kuò)展性不強(qiáng).基于嵌入的方法未充分利用圖譜的結(jié)構(gòu)關(guān)系,缺乏推理能力,忽略成對(duì)實(shí)體之間關(guān)系的語(yǔ)義.文獻(xiàn)[20]提出了漣漪網(wǎng)絡(luò),首次將基于路徑與基于嵌入的方法結(jié)合,通過(guò)知識(shí)圖譜探索用戶興趣偏好的傳播過(guò)程,取得了顯著成效,然而該算法僅關(guān)注用戶的傳播偏好,忽略了其歷史點(diǎn)擊項(xiàng)目以及屬性特征對(duì)于興趣建模的重要性,存在一定不足.
本文提出的算法以項(xiàng)目端的知識(shí)圖譜與用戶屬性信息為輔助信息,結(jié)合基于嵌入與基于路徑的推薦算法,既豐富了物品之間的語(yǔ)義關(guān)聯(lián),又可自動(dòng)獲取路徑中的實(shí)體聯(lián)系.利用知識(shí)圖譜的結(jié)構(gòu)知識(shí)挖掘用戶的興趣點(diǎn),從用戶行為中分析其淺層興趣和深層興趣.考慮到用戶興趣的多樣性,通過(guò)對(duì)歷史行為和知識(shí)圖譜中的深層興趣點(diǎn)自適應(yīng)加權(quán)以獲取用戶的興趣表征.同時(shí)為改善冷啟動(dòng)問(wèn)題,結(jié)合用戶的屬性信息,有效彌補(bǔ)了用戶端的特征信息不足,改善了推薦系統(tǒng)性能.
表1給出本文使用的相關(guān)符號(hào).
表1 符號(hào)標(biāo)識(shí)及說(shuō)明
定義1.用戶-項(xiàng)目交互矩陣Y={yuv|u∈U,v∈V},U={u1,u2,...}和V={v1,v2,...}分別表示用戶和項(xiàng)目的集合.
(1)
其中yuv=1表示用戶u和項(xiàng)目v之間存在隱式反饋,例如點(diǎn)擊、觀看、瀏覽等行為;
定義2.存在知識(shí)圖譜G,由大量的實(shí)體關(guān)系三元組(頭實(shí)體,關(guān)系,尾實(shí)體)組成(記為
定義3.用戶u的歷史交互項(xiàng)目集為:δu={v1,v2,...,vNi};
定義4.以用戶u的交互項(xiàng)目相關(guān)實(shí)體集為:εu={et|(eh,r,et)∈G,其中eh∈δu};
定義5.用戶u的相關(guān)三元組集為:Su={(eh,r,et)|(eh,r,et)∈G,其中eh∈δu}.
圖2 MIKU模型總體流程圖
圖3 MIKU的整體模型圖
3.2.1 用戶淺層興趣建模
給定用戶u的點(diǎn)擊記錄δu,由于項(xiàng)目與知識(shí)圖譜的實(shí)體相匹配,對(duì)于每個(gè)項(xiàng)目vi(i=1,2,...,Ni)通過(guò)知識(shí)表示學(xué)習(xí)得到對(duì)應(yīng)的向量表示vi∈d,其中d為向量表示的維度.
為了對(duì)用戶u的興趣建模,一般直接平均其點(diǎn)擊過(guò)的項(xiàng)目特征,為所有歷史項(xiàng)目分配統(tǒng)一的權(quán)重,如公式(2)所示:
(2)
然而,用戶對(duì)項(xiàng)目的興趣是多樣化的,考慮到若用戶的歷史點(diǎn)擊中存在較多與候選項(xiàng)目相似的物品,則可認(rèn)為該用戶對(duì)候選項(xiàng)目感興趣程度越大.因此,本文采用自適應(yīng)加權(quán)機(jī)制,計(jì)算各個(gè)交互項(xiàng)目與待推薦項(xiàng)目之間的相關(guān)權(quán)重,按此權(quán)重對(duì)各個(gè)歷史項(xiàng)目的向量進(jìn)行加權(quán)求和,動(dòng)態(tài)刻畫(huà)用戶的歷史興趣.
具體為,以候選項(xiàng)目表示vj∈d為基礎(chǔ),為用戶u交互歷史項(xiàng)目集δu中每個(gè) vi分配不同的權(quán)重并加權(quán)平均,獲取用戶的淺層興趣表征uH:
(3)
其中αi為自適應(yīng)加權(quán)的權(quán)重因子,給定項(xiàng)目vi和vj利用函數(shù)H1通過(guò)內(nèi)積形式擬合二者之間的相關(guān)性,并通過(guò)softmax函數(shù)將相關(guān)性轉(zhuǎn)化為權(quán)重因子:
(4)
3.2.2 用戶深層興趣建模
知識(shí)圖譜中包含了豐富的實(shí)體信息,利用不同實(shí)體之間的關(guān)聯(lián)可以挖掘用戶的深層興趣,例如用戶m點(diǎn)擊過(guò)電影vm是由于他對(duì)該電影主演感興趣,為了充分挖掘用戶的深層興趣,本文利用知識(shí)圖譜的結(jié)構(gòu)知識(shí),以用戶歷史交互項(xiàng)目通過(guò)知識(shí)圖譜的關(guān)系路徑,鏈接到相關(guān)實(shí)體,挖掘用戶對(duì)相關(guān)實(shí)體的深層興趣.考慮到用戶在不同關(guān)系下的興趣度不同,提出基于知識(shí)路徑加權(quán)的用戶深層興趣建模,刻畫(huà)用戶直接點(diǎn)擊的歷史項(xiàng)目通過(guò)在關(guān)系路徑傳遞至其相關(guān)實(shí)體的興趣.
給定知識(shí)圖譜G,以用戶u的歷史點(diǎn)擊項(xiàng)目δu為頭實(shí)體,沿著知識(shí)路徑鏈接得到相關(guān)實(shí)體εu以及歷史項(xiàng)目的三元組集Su,通過(guò)內(nèi)積函數(shù)H2計(jì)算候選項(xiàng)目vj與三元組(ehi,ri,eti)在關(guān)系ri下與頭實(shí)體ehi的權(quán)重因子βi:
(5)
其中ri∈d×d為關(guān)系ri的張量表示,ehi∈d為項(xiàng)目vi所匹配的頭實(shí)體的向量表示.通過(guò)計(jì)算Su中所有三元組的相關(guān)權(quán)重因子,對(duì)于用戶鏈接到的相關(guān)實(shí)體以對(duì)應(yīng)的概率進(jìn)行加權(quán)求和,從而表征用戶的深層興趣uT:
(6)
3.2.3 用戶屬性建模
傳統(tǒng)推薦只考慮用戶-項(xiàng)目評(píng)分交互的關(guān)聯(lián),忽略了用戶本身的屬性特點(diǎn).本文綜合考慮了用戶屬性特征和用戶興趣特征,更完善地表征用戶,可提高推薦準(zhǔn)確率同時(shí)有效解決了用戶冷啟動(dòng)問(wèn)題.
屬性特征作為用戶本身固有的信息,在用戶無(wú)交互記錄時(shí),可作為依據(jù)有效表征用戶.表2列出MovieLens-1M的用戶信息中前5行數(shù)據(jù),性別2類,年齡7類,職業(yè)21類,具體信息以數(shù)值表示,表2中第一行userID為′1′,性別′F′代表女性,年齡′1′代表年齡小于18歲的用戶,職業(yè)′10′代表該用戶為學(xué)生.
表2 用戶屬性信息
為了提取用戶的屬性特征,本文通過(guò)用戶屬性建模,首先將屬性信息進(jìn)行數(shù)值化處理,例如把用戶性別為′F′映射為1,′M′映射為0.將處理后的數(shù)據(jù)通過(guò)one-hot層轉(zhuǎn)換為稀疏向量,考慮到one-hot類型的特征太過(guò)稀疏,會(huì)導(dǎo)致網(wǎng)絡(luò)參數(shù)太多,且特征長(zhǎng)度不一,不利于后續(xù)特征的融合.本文利用嵌入層,以屬性特征的稀疏向量表示uage,ugender,uocc作為輸入,將其壓縮成統(tǒng)一長(zhǎng)度的低維稠密向量,最后通過(guò)全連接層映射函數(shù)Z將不同特征映射至與用戶興趣特征同一隱空間,用戶屬性特征表示uP為:
uP=Z(uage,ugender,uocc)
(7)
通過(guò)對(duì)用戶的淺層興趣和深層興趣建模,同時(shí)融入了用戶屬性特征,可得到用戶向量表征u:
u=uH+uT+uP
(8)
(9)
其中σ(x)=(1+e-x)-1為sigmoid函數(shù),an表示神經(jīng)網(wǎng)絡(luò)中第n層的激活函數(shù),Wn和bn分別為第n層的權(quán)重和偏置.
模型損失函數(shù)如公式(10)所示:
(10)
在公式(10)中,第1項(xiàng)為推薦中用戶-項(xiàng)目交互行為的預(yù)測(cè)概率和真實(shí)標(biāo)簽之間的交叉熵?fù)p失,其中F為交叉熵函數(shù),第2項(xiàng)計(jì)算了利用語(yǔ)義匹配模型[21]學(xué)習(xí)得到實(shí)體和關(guān)系表征與知識(shí)圖譜G中的關(guān)系為r的示性函數(shù)Xr之間誤差的平方;最后一項(xiàng)是防止過(guò)擬合的正則項(xiàng),λ1為知識(shí)圖譜正則項(xiàng)權(quán)重參數(shù),λ2為L(zhǎng)2正則項(xiàng)參數(shù).
為測(cè)試模型的有效性,本文利用MovieLen-1M電影數(shù)據(jù)集(1)http://grouplens.org/datasets/movielens/對(duì)提出的方法進(jìn)行驗(yàn)證.MovieLens-1M是推薦領(lǐng)域廣泛使用的基準(zhǔn)數(shù)據(jù)集,包含943位用戶對(duì)1682部電影共計(jì)100多萬(wàn)條顯示評(píng)分?jǐn)?shù)據(jù),電影屬性數(shù)據(jù)以及用戶的人口統(tǒng)計(jì)學(xué)數(shù)據(jù)(年齡、性別和職業(yè)等).考慮到用戶的點(diǎn)擊歷史行為更容易收集,本文將顯式評(píng)分轉(zhuǎn)化為隱式反饋數(shù)據(jù),以用戶評(píng)分過(guò)的電影為正樣本,隨機(jī)采樣用戶未評(píng)分過(guò)的電影集合為負(fù)樣本,對(duì)于每個(gè)用戶而言,正負(fù)樣本之比為1∶1.
本文使用文獻(xiàn)[20]提供的微軟Satori知識(shí)圖譜,以電影關(guān)系篩選出符合條件的所有三元組(head,film.film.name,tail),將MovieLens-1M中的電影ID與知識(shí)圖譜中的頭尾實(shí)體ID相匹配,構(gòu)成最終的電影知識(shí)圖譜,其中涉及的電影及知識(shí)圖譜數(shù)據(jù)統(tǒng)計(jì)如表3所示.
表3 實(shí)驗(yàn)數(shù)據(jù)統(tǒng)計(jì)
對(duì)于推薦系統(tǒng)算法推薦的結(jié)果,本文采用3個(gè)指標(biāo)對(duì)其進(jìn)行分析:準(zhǔn)確率Precision@K、召回率Recall@K以及綜合指標(biāo)F@K,其中K為推薦的個(gè)數(shù).
(11)
(12)
其中R(u)表示根據(jù)用戶在訓(xùn)練集上的行為給用戶做出推薦列表,T(u)表示用戶在測(cè)試集上的行為列表.
準(zhǔn)確率和召回率作為推薦評(píng)價(jià)的重要指標(biāo),相互制約影響,可利用F@K作為二者的調(diào)和均值綜合評(píng)價(jià):
(13)
參數(shù)μ表示準(zhǔn)確率在評(píng)價(jià)標(biāo)準(zhǔn)中的重要性,取值范圍為[0,+∞),實(shí)驗(yàn)中常使用μ=1.
本文模型采用離線實(shí)驗(yàn),將MovieLens-1M數(shù)據(jù)集以6:2:2的比例劃分訓(xùn)練集、驗(yàn)證集和測(cè)試集,每個(gè)實(shí)驗(yàn)重復(fù)5次,取最終的平均結(jié)果.實(shí)驗(yàn)主要在Top-K推薦場(chǎng)景中,使用學(xué)習(xí)到的模型為每個(gè)測(cè)試集中的用戶選擇前K個(gè)預(yù)測(cè)概率的物品作為推薦結(jié)果,利用準(zhǔn)確率、召回率和F1值驗(yàn)證本文模型的有效性.
為了驗(yàn)證MIKU模型的有效性,本文使用了如下的基準(zhǔn)方法:
LibFM[9]:基于潛在特征因子的矩陣分解模型,本文將用戶和物品的原始特征以及依據(jù)知識(shí)表示方法學(xué)到的實(shí)體向量作為模型輸入;
PER[15]:引入基于meta-path的隱含特征,來(lái)代表用戶和項(xiàng)目在不同 路徑上的連通性;
CKE[18]:結(jié)合多源輔助信息的協(xié)同過(guò)濾方法,從知識(shí)庫(kù)中學(xué)習(xí)項(xiàng)目的語(yǔ)義表示.本文中僅使用結(jié)構(gòu)化的知識(shí)作為輸入,無(wú)圖片和文本知識(shí);
MKR[19]:以知識(shí)嵌入任務(wù)來(lái)輔助推薦任務(wù)的多任務(wù)特征學(xué)習(xí)方法;
RippleNet[20]:將用戶興趣類比于“漣漪”擴(kuò)散,模擬用戶興趣在知識(shí)圖譜上的偏好傳播模型.
模型中涉及到的相關(guān)參數(shù)如表4所示,為了公平考慮,所有對(duì)比基線方法的參數(shù)均設(shè)置相同.
表4 相關(guān)參數(shù)
4.3.1 相關(guān)參數(shù)驗(yàn)證
為了研究向量表示的嵌入維度d和知識(shí)圖譜正則項(xiàng)權(quán)重λ1對(duì)推薦結(jié)果的影響,實(shí)驗(yàn)中分別選取d的變化范圍為4-64,λ1的范圍為0.001-0.01,保持其他參數(shù)不變進(jìn)行驗(yàn)證,實(shí)驗(yàn)結(jié)果如圖4所示.
圖4 相關(guān)參數(shù)驗(yàn)證結(jié)果
由圖4(a)可看出,當(dāng)推薦個(gè)數(shù)取K=10時(shí),隨著嵌入維度d的增加,準(zhǔn)確率 、召回率及F1值都逐漸上升,這是由于維度的增加可使得特征向量編碼獲得更多有用的信息.然而當(dāng)嵌入維度大于16之后,時(shí)間復(fù)雜度大大增加,且模型訓(xùn)練過(guò)擬合,3個(gè)指標(biāo)均有所下降.從圖4(b)可看出,當(dāng)λ1=0.01時(shí),該模型效果最佳.由于知識(shí)圖譜正則項(xiàng)過(guò)小無(wú)法為模型提供足夠的正則化約束,權(quán)重過(guò)大則會(huì)使得目標(biāo)函數(shù)更側(cè)重于知識(shí)圖譜的優(yōu)化,導(dǎo)致推薦效果變差.
4.3.2 模型消融實(shí)驗(yàn)
為了討論用戶不同模塊興趣對(duì)推薦結(jié)果的影響,本文使用消融實(shí)驗(yàn),將模型拆分為淺層興趣、深層興趣、淺層興趣與深層興趣結(jié)合3個(gè)模塊,以不同模塊作為用戶表征,與MIKU模型進(jìn)行對(duì)比驗(yàn)證,推薦項(xiàng)目的個(gè)數(shù)K分別取1,2,5,10,20,50,100.圖5中的(a)、(b)、(c)分別為不同K值下的準(zhǔn)確率、召回率以及F1值變化.
圖5 不同K值下的準(zhǔn)確度、召回率及F1值
當(dāng)K=10時(shí),實(shí)驗(yàn)結(jié)果如表5所示,可以看出利用知識(shí)圖譜結(jié)構(gòu)信息挖掘的深層興趣對(duì)召回率有明顯改善;結(jié)合淺層興趣與深層興趣,相對(duì)于單獨(dú)模塊而言,在3個(gè)指標(biāo)下結(jié)果均有提升推薦效果;加入屬性信息的算法,在推薦個(gè)數(shù)較少時(shí),準(zhǔn)確率明顯提升,說(shuō)明屬性特征的融合,在一定程度上可改善推薦精度.總而言之,綜合用戶淺層興趣、深層興趣與用戶屬性的MIKU模型,在各個(gè)指標(biāo)上均優(yōu)于獨(dú)立模塊,有效改善了推薦性能.
表5 模型內(nèi)部消融實(shí)驗(yàn)結(jié)果
4.3.3 不同模型對(duì)比
MIKU模型與其他基準(zhǔn)模型對(duì)比結(jié)果如表6所示,為了綜合分析模型,取推薦個(gè)數(shù)K=10.
表6 不同模型對(duì)比結(jié)果
通過(guò)觀察表6分析可知,CKE由于缺少文本和圖像的信息,僅依靠結(jié)構(gòu)化知識(shí)提取的特征信息不足以充分刻畫(huà)物品特征,結(jié)果表現(xiàn)最差;PER由于預(yù)定義的元路徑很難達(dá)到最優(yōu),相對(duì)其他融合知識(shí)感知推薦模型而言,結(jié)果較差;LibFM作為一種通用的推薦算法,結(jié)合了知識(shí)圖譜中的語(yǔ)義信息表現(xiàn)較好,表明有效利用知識(shí)圖譜中的知識(shí)可提高推薦模型的性能;MKR模型利用多任務(wù)學(xué)習(xí)共享信息,有效提升了推薦性能;RippleNet模型相對(duì)于其他模型而言有很強(qiáng)的表現(xiàn),表明有效利用知識(shí)圖譜的結(jié)構(gòu)信息對(duì)于推薦而言至關(guān)重要;本文模型綜合3個(gè)指標(biāo)性能提升了約1.9%~3.07%指標(biāo),證明了MIKU模型結(jié)合知識(shí)圖譜的語(yǔ)義信息與結(jié)構(gòu)知識(shí),同時(shí)融合用戶屬性特征,全面刻畫(huà)用戶模型,有效提高了推薦結(jié)果.
4.3.4 不同生成推薦方法對(duì)比
為了進(jìn)一步研究,利用神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)用戶項(xiàng)目之間的復(fù)雜關(guān)聯(lián)對(duì)推薦結(jié)果的影響,本文在生成推薦過(guò)程中,使用多層感知機(jī)代替用戶與項(xiàng)目特征的簡(jiǎn)單內(nèi)積來(lái)計(jì)算預(yù)測(cè)的點(diǎn)擊概率,結(jié)果如表7所示.
表7 不同生成推薦方法對(duì)實(shí)驗(yàn)結(jié)果影響
由表7可知,對(duì)于融合了多層行為興趣與用戶屬性的MIKU模型而言,利用神經(jīng)網(wǎng)絡(luò)作為最終的概率預(yù)測(cè),便于學(xué)習(xí)到用戶和物品之間復(fù)雜的非線性關(guān)系,更能挖掘到用戶對(duì)項(xiàng)目的深層偏好.
本文提出了融合知識(shí)圖譜的用戶多層興趣模型,為全面刻畫(huà)用戶興趣,從用戶固有屬性與交互行為分析用戶偏好.一方面以知識(shí)圖譜為物品側(cè)信息,細(xì)粒度描述物品特征,刻畫(huà)了物品之間的語(yǔ)義聯(lián)系.另一方面考慮到知識(shí)圖譜的結(jié)構(gòu)性,通過(guò)不同的關(guān)系路徑自動(dòng)鏈接用戶的深層興趣.以用戶歷史行為的淺層興趣與用戶的深層興趣結(jié)合,深入挖掘交互行為中的興趣偏好.同時(shí)結(jié)合了用戶屬性特征的推薦算法,有助于提高推薦性能,在一定程度上可彌補(bǔ)用戶冷啟動(dòng)的缺陷.在今后的工作中,將考慮融合時(shí)間因子,從時(shí)間層面和興趣深度兩個(gè)角度全面刻畫(huà)用戶興趣,進(jìn)一步提升推薦系統(tǒng)性能.