国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合知識圖譜特征學(xué)習(xí)的微博推薦的研究?

2022-03-18 06:20:14夏振宇
計算機(jī)與數(shù)字工程 2022年12期
關(guān)鍵詞:圖譜實體向量

夏振宇 季 旺

(江蘇科技大學(xué)計算機(jī)學(xué)院 鎮(zhèn)江 212003)

1 引言

社交網(wǎng)絡(luò)的的蓬勃發(fā)展在最近幾年尤為明顯,作為互聯(lián)網(wǎng)信息媒體一類重要服務(wù),如YouTube,Twitter還有新浪微博等,它們需要響應(yīng)海量用戶的服務(wù)請求,還要實時響應(yīng)用戶的個性化服務(wù),雖然基于協(xié)同過濾的推薦系統(tǒng)在一定程度上解決了推薦系統(tǒng)落地的問題,但是遺留的稀疏性和冷啟動問題至今得不到很好的解決[1]。知識圖譜由此應(yīng)運(yùn)而生,解決了大數(shù)據(jù)下推薦系統(tǒng)的復(fù)雜問題,帶來了一定的技術(shù)革新。

知識圖譜就是有基本的單元三元組構(gòu)成的(h,r,t),意思及時實體h通過關(guān)系指向r指向?qū)嶓wt,其中每個實體或概念用一個全局唯一的ID 來標(biāo)識,每個屬性一鍵值對刻畫了實體的內(nèi)在屬性,而關(guān)系用來連接兩個實體刻畫它們之間的關(guān)聯(lián)[2]。知識圖譜特征學(xué)習(xí)是比較常見與推薦系統(tǒng)的結(jié)合方式,知識圖譜特征學(xué)習(xí)為知識圖譜中每個實體和關(guān)系學(xué)習(xí)到一個低維向量,同時保持途圖中原有的結(jié)構(gòu)或語義信息,DKN[3]作為一種知識圖譜特征學(xué)習(xí)在推薦系統(tǒng)中得到了很好的應(yīng)用,通過歷史訪問以及標(biāo)題單詞和知識圖譜之間的關(guān)聯(lián)預(yù)測用戶是否點(diǎn)擊下一個新聞,來給用戶更精確地推薦可能感興趣的新聞。DKN 模型的核心是基于CNN 句子特征提取,通過知識圖譜的知識提取對標(biāo)題每個單詞em?bedding,然后得到標(biāo)題中每個單詞的embedding,最后得到每個單詞的上下文embedding,通過這3個通道信息實現(xiàn)對新聞模型的提取,通過KCNN[4],把實體的embedding 和實體的上下文embedding 映射到一個空間里,映射的方式可以選擇線性方式將其類似于RGB 圖片卷積方式使用兩個filter進(jìn)行卷積通過最大池化將其結(jié)果整合為新聞的特征表示向量,根據(jù)不同話題興趣模擬用戶歷史點(diǎn)擊,最后用softmax函數(shù)輸出正則化影響權(quán)重[5],由于是針對文本失效性,DKN 作為一種基于內(nèi)容的模型適合做一些博文點(diǎn)擊預(yù)測,融合了知識圖譜和深度學(xué)習(xí),從語義層面和知識兩個層面對新聞之間的隱含關(guān)系,對于候選文章使用attention 機(jī)制[6]動態(tài)學(xué)習(xí)歷史點(diǎn)擊的表示展現(xiàn)出了知識圖譜在推薦系統(tǒng)上顯著的優(yōu)越性。

本文將DKN 模型應(yīng)用推薦到用戶微博博文上,并對DKN 的embedding 進(jìn)行優(yōu)化,利用優(yōu)化過的DKN 模型實現(xiàn)微博上的個性化推薦,根據(jù)實驗結(jié)果表面,優(yōu)化后的DKN 模型可以很好地實現(xiàn)微博個性化推薦,相比傳統(tǒng)的協(xié)同過濾的模型有很好的預(yù)測表現(xiàn)。

2 相關(guān)工作

2.1 知識圖譜

隨著信息科學(xué)的發(fā)展,智能信息處理愈發(fā)重要,互聯(lián)網(wǎng)平臺上的數(shù)據(jù)指數(shù)級增長,伴隨著信息爆炸,以谷歌為代表Google 的知識圖譜[7]可以理解超過5 億個實體以及35 億個屬性和關(guān)系。國內(nèi)百度等都在自己龐大的數(shù)據(jù)基礎(chǔ)之上構(gòu)建各自的知識圖譜,如百度知心以及阿里基于商品的知識圖譜,發(fā)展知識圖譜是大勢所趨。知識圖譜[8]旨在描述真實世界中存在的各種實體或概念其中,每個實體或概念用一個全局唯一的ID 來標(biāo)識,每個屬性一鍵值對刻畫了實體的內(nèi)在屬性,而關(guān)系用來連接兩個實體刻畫它們之間的關(guān)聯(lián)。知識圖譜通常分為通用知識圖譜和專業(yè)知識圖譜[9],通用知識圖譜主要應(yīng)用于智能搜索領(lǐng)域如中文知識圖譜,專業(yè)知識圖譜描述的目標(biāo)是特定行業(yè)如金融知識圖譜,汽車知識圖譜等與通用知識圖譜相比較其描述范圍有限。在本文工作中,知識圖譜用一種由三元組以及三元組之間相互的鏈接形成的一個網(wǎng)狀知識庫來表示。主要用的是ownthink知識圖譜。

2.2 基于知識圖譜的推薦算法

相關(guān)研究者者將知識圖譜應(yīng)用于推薦領(lǐng)域并取得了較好的效果。Hong 較早地提出將知識圖譜引人到推薦系統(tǒng)中[11]。Oramas 等通過DBpedia 豐富歷史數(shù)據(jù)集的語義信息,從而提升推薦效果[12]。Gu 更進(jìn)一步優(yōu)化旅游知識圖譜隱含的語義反饋信息,優(yōu)化了隱式語義反饋的路徑算法[13],Tang 通過融合商品知識圖譜和用戶評論通過基于路徑的特征處理[14]對數(shù)據(jù)集進(jìn)行挖掘,以捕獲項目之間的復(fù)雜關(guān)系,也得到了很好的效果。

2.3 基于知識圖譜的Embedding

知識圖譜的嵌入(KGE)[15]旨在將實體和關(guān)系進(jìn)行Embedding 表示,類似于Word2Vec,將字或詞表成Embedding 信息,然后根據(jù)是系統(tǒng)和關(guān)系的Embedding 信息進(jìn)行預(yù)測,常見的KGE 模型分為基于翻譯的模型和基于路徑的模型[16],傳統(tǒng)的模型有TransE,TransH,TransD 模型,TransE 認(rèn)為屬于翻譯模型,將三元組實例(h,r,t)中關(guān)系rleation 看作是實體head 到實體tail 翻譯,通過調(diào)整h,r,t使(h+r)盡可能與t相等,TransE[17]采用最大間隔法,最小化定義一個距離函數(shù)d(h+r,t),用來衡量h+r和t之間的距離,目標(biāo)函數(shù)L下:

其中d(x,y)表示向量x與y的距離,可以是曼哈頓距離也可以是歐氏距離,γ表示邊界超參數(shù),[x]+表示當(dāng)x<0 時取0 的值。其中S是知識庫中的是你換及訓(xùn)練集,S'是負(fù)采樣三元組通過替換h或t所得而隨機(jī)生成,這樣梯度更新只需要更新計算距離d(h+r,t)和d(h'+r,t')。

不過transE 算法模型在處理自反關(guān)系以及多對一,一對多,多對多關(guān)系會使得一些不同的實體具有相同或者相似的向量,原因在于出現(xiàn)多個關(guān)系中的同一個實體表示是相同的,Wang 提出的TransH模型就解決了這個問題,對每一個關(guān)系定義一個超平面W和一個關(guān)系向量d,h',t'是h,t在w上的投影于是我們原先定義在transE中的d(h+r,t)為對于平面W我們可以用法向量表示,我們假設(shè)w為平面W的法向量并加約束條,所以我們知道h在w上投影為

通過相似的可以知道t'=t-tw=t-wTtw所以可以合并得到函數(shù):

最終得到目標(biāo)函數(shù)L:

除此之外還有基于語義的匹配模型[18]使用類似于基于相似度的評分函數(shù)評估三元組概率,將實體和關(guān)系映射到隱語義控件進(jìn)行相似度度量,構(gòu)造一個二分類模型,將h,r,t輸入到網(wǎng)絡(luò)中,這樣可以通過概率來確定知識圖譜是否存在。

3 基于知識圖譜特征學(xué)習(xí)的微博推薦模型

3.1 DKN框架

推薦系統(tǒng)的初衷是解決互聯(lián)網(wǎng)信息過載的問題,給用戶推薦其感興趣的問題,當(dāng)然微博個性化推薦仍然存在幾個待解決的問題。一個是時效性,眾所周知,微博的更新速度以及時效性堪比信息直播,第二個微博博文通常是140 字的限制所以語言都是相對濃縮的信息實體,第三就是微博用戶有很明顯的興趣和傾向,一個用戶閱讀了一個微博會屬于某個微博話題或主題,所以利用用戶歷史微博去預(yù)測候選的微博是微博推薦系統(tǒng)的關(guān)鍵,Deep Knowledge-aware Network(DKN)模型加入文章之間的知識層面就解決了這個問題,可以更加精確推薦微博用戶可能感興趣的博文。如圖1 可見,DKN有兩個輸入網(wǎng)絡(luò),一個是候選的微博博文集合,用戶歷史點(diǎn)擊的話題序列。輸入數(shù)據(jù)通過KCNN 來圖區(qū)特征,之上一個attention 層,計算候選的微博與用戶歷史訪問之間的attention 權(quán)重,在頂層拼接兩部分向量然后依次來計算用戶點(diǎn)擊該微博的概率。

圖1 DKN大致框架結(jié)構(gòu)

3.2 KCNN模型

知識抽?。↘nowledge Extraction,KE)[19]是從結(jié)構(gòu)化(例如關(guān)系數(shù)據(jù)庫、XML)和非結(jié)構(gòu)化(例如文本、文檔、圖像)源中創(chuàng)建知識。產(chǎn)生的知識需要采用機(jī)器可讀和機(jī)器可解釋的格式,并且必須以便于推理的方式表示知識,知識抽取是知識圖譜和推薦系統(tǒng)結(jié)合的重要流程,我們以某用戶的一個微博為例子“#足協(xié)表態(tài)將穩(wěn)妥推進(jìn)歸化球員工作#上觀:歸化球員因?qū)嵙Ω鼜?qiáng),短期肯定會占據(jù)本土球員的位置,長期還會對中國足球青訓(xùn)產(chǎn)生致命影響。一旦歸化球員泛濫,中國足球的根基也會動搖,直接全球購買歸化球員就好了,中國足球還辛辛苦苦搞青訓(xùn)做啥?”新政一出,已有球迷發(fā)帖:“如果中國國家隊召入全部歸化球員,全部首發(fā),那我們唯一效力歐洲的留洋球員@武磊7是不是都沒位置了?”#國際足聯(lián)通過歸化球員新政#”,去除一些不規(guī)則的表情和符號通過Entity-Linking 技術(shù)消除歧義,根據(jù)已有的知識提取流程將博文中涉及的實體鏈接在一個step之內(nèi)所形成的子圖,然后利用基于距離的翻譯模型TransE,或者TransR 等得到子圖中每個實體的embedding,最后得到話題中每個單詞對應(yīng)的實體embedding,過程如圖2所示。

圖2 知識提取流程

由于知識圖譜通過特征學(xué)習(xí)的方法得到向量保存了大部分結(jié)構(gòu)信息,不過還是會存在信息丟失,于是DKN 模型通過每個實體相連的實體em?bedding 平均值來進(jìn)一步刻畫每個實體;我們假設(shè)實體e在知識圖譜的鄰居集合可得:

圖3 KCNN模型架構(gòu)

其中函數(shù)g表示線性變換或非線性變換,這樣我們就可以得到微博博文的輸入W:

使用兩個不同的filter[20]方式卷積得到類似關(guān)于h激活的子矩陣,通過最大池化,最后整合得到輸出的特征表示向量如下:

3.3 改進(jìn)的用戶興趣預(yù)測模型

傳統(tǒng)的DKN 模型通過深度學(xué)習(xí)的注意力機(jī)制,由于不同的新聞話題興趣可能是不同的注意力機(jī)制通過模擬用戶點(diǎn)擊微博對候選話題微博的不同影響程度,采用如下公式來計算:

候選微博tj,用戶i的歷史點(diǎn)擊新聞兩者進(jìn)行連接,在使用DNN 函數(shù)H進(jìn)行計算最后采用函數(shù)輸出正則化影響權(quán)重,我們利用TransE的變種方法TransM 在知識嵌入時還可以表示實體之間關(guān)系變得權(quán)重大小,并且傳統(tǒng)的Attention 機(jī)制,給定的embedding,直接給定item embeding 可以用來做點(diǎn)積或者通過權(quán)重矩陣,優(yōu)化后的Attention機(jī)制如圖4所示,將輸入element wise[21]差值向量合并起來作為輸入,然后傳給全連接層,最后得出權(quán)重,嵌入和池化村按組操作的方式,將元素稀疏特征映射到定長表示向量,然后將所有向量連接在一起獲得整體表示向量,這樣我們會發(fā)現(xiàn)損失的信息更少,深度興趣網(wǎng)絡(luò)(DIN)獲得用戶的定長表示向量,通過將所有嵌入向量集中到用戶行為特征組上來產(chǎn)生興趣,如式(11)。此表示向量保持不論候選微博是什么,對于給定用戶而言都是相同的。這樣有限維度的用戶表示向量,表達(dá)用戶的不同興趣將成為瓶頸。為了使其足夠強(qiáng)大,一種簡單的方法就是擴(kuò)大嵌入向量,不幸的是會增加大量學(xué)習(xí)參數(shù)。在有限的情況下會導(dǎo)致過度擬合訓(xùn)練數(shù)據(jù)并增加計算和存儲的負(fù)擔(dān)。與傳統(tǒng)模型相比,DIN[22]引入了一種新穎設(shè)計的局部激活單元,并保持其他結(jié)構(gòu)不變。特別,活單元應(yīng)用于用戶行為功能作為加權(quán)總和池執(zhí)行以自適應(yīng)地方式計算用戶行為功能,放棄輸出使用softmax進(jìn)行歸一化,對數(shù)似然函數(shù)定義為

圖4 優(yōu)化后的興趣注意力機(jī)制

其中S是大小為N的訓(xùn)練集,其中x是網(wǎng)絡(luò)y?{0,1}為標(biāo)簽,p(x)是網(wǎng)絡(luò)輸出在softmax 層之后,代表預(yù)測的概率單擊樣本x。由于特征對應(yīng)的embedding矩陣是巨大的,模型參數(shù)過多,直接上傳統(tǒng)的L2 正則也不現(xiàn)實,于是提出新的正則化方式,其中K 表示特征空間維度,B 表示batch-size,從而決定是否對特征id 對應(yīng)的embedding 向量加上正則化。

4 實驗與結(jié)果分析

1)實驗環(huán)境和實驗數(shù)據(jù)集

本文實驗環(huán)境如下:

操作系統(tǒng):Windows 10 64位操作系統(tǒng)。

CPU:Intel Core i5-8265U 1.80GHz。

內(nèi)存容量:8GB。

對比兩組人員糖化血紅蛋白檢測(HbAlc)、空腹血糖水平(FPG)以及口服葡萄糖50 g篩選測試糖耐受量水平(GCT);同時對比不同檢測方式在妊娠期糖尿病中的診斷情況[3]。

IDE:Pycharm及Python3.7。

本文所使用的數(shù)據(jù)集是來自新浪微博API 公開數(shù)據(jù)集和ownthink公開的知識圖譜。

2)評價指標(biāo)

對構(gòu)建的模型進(jìn)行評估非常關(guān)鍵,AUC常常用的點(diǎn)擊率模型上面,代表模型預(yù)估樣本之間的排序關(guān)系,正負(fù)樣本之間預(yù)測gap 越大,auc 越大。但是AUC計算如果在線上出現(xiàn)新樣本,線下沒有見過會造成AUC 不足,阿里曾提出改進(jìn)AUC 評價指標(biāo),提出新的AUC 指標(biāo),新的AUC 計算公式如下:

3)實驗參數(shù)設(shè)置

表1 實驗參數(shù)設(shè)置

4)結(jié)果分析

本文采用DKN 模型+改進(jìn)后的用戶興趣預(yù)測注意力機(jī)制。最后對本文構(gòu)建的評價模型進(jìn)行實驗,通過與其他融合特征學(xué)習(xí)的推薦模型對比,得到以下試驗結(jié)果。

從實驗結(jié)果可以看出,本文采用的DKN 模型明顯優(yōu)于傳統(tǒng)的基于協(xié)同過濾的與推薦系統(tǒng)模型,并且在改進(jìn)注意力機(jī)制下的整體算法綜合指標(biāo)相較于傳統(tǒng)的DKN 模型有著大幅度提升?;贒KN模型+TransM 訓(xùn)練的改進(jìn)方法對總體預(yù)測效果最好,分類的準(zhǔn)確性也相對更高。無論是哪種知識圖譜embedding 方式,在使用改進(jìn)的用戶興趣預(yù)測模型都有著良好的效果,可見DKN+DIN+TransM是比較好的推薦模型。

表2 不同模型的測試結(jié)果對比

5 結(jié)語

本文針對傳統(tǒng)DKN 模型,并在傳統(tǒng)DKN 模型的attention 機(jī)制進(jìn)行改良,對算法模型的評價指標(biāo)進(jìn)行了優(yōu)化和更新,可以更好地體現(xiàn)推薦算法的綜合性能,本文主要分析的DKN 模型主要用于點(diǎn)擊率類的推薦模型,在深度學(xué)習(xí)作用下,可以通過有效的概率來推斷出用戶點(diǎn)擊的概率主要應(yīng)用于新聞,微博,廣告頭條等個性化推薦,解決了信息爆炸下微博如何準(zhǔn)確進(jìn)行個性化推薦的問題,針對用戶興趣實現(xiàn)對用戶的興趣的建模做出相應(yīng)的推薦,進(jìn)一步提高DKN 在推薦系統(tǒng)下的使用,使知識圖譜與深度學(xué)習(xí)相結(jié)合的推薦系統(tǒng)越來越收到歡迎和普及。

猜你喜歡
圖譜實體向量
向量的分解
聚焦“向量與三角”創(chuàng)新題
繪一張成長圖譜
前海自貿(mào)區(qū):金融服務(wù)實體
中國外匯(2019年18期)2019-11-25 01:41:54
實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
中成藥(2017年3期)2017-05-17 06:09:01
兩會進(jìn)行時:緊扣實體經(jīng)濟(jì)“釘釘子”
振興實體經(jīng)濟(jì)地方如何“釘釘子”
主動對接你思維的知識圖譜
向量垂直在解析幾何中的應(yīng)用
株洲市| 嘉义市| 怀化市| 遂平县| 柘城县| 博乐市| 大英县| 田阳县| 泰来县| 河津市| 龙口市| 韩城市| 张北县| 米易县| 阿鲁科尔沁旗| 奉贤区| 电白县| 咸丰县| 惠州市| 商丘市| 广宁县| 汝阳县| 牡丹江市| 通榆县| 阳城县| 洛南县| 元朗区| 涪陵区| 永定县| 深州市| 景泰县| 长岛县| 临安市| 水富县| 辽源市| 宜城市| 会东县| 彰化县| 宽甸| 修文县| 谷城县|