国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

一種基于長(zhǎng)短期興趣的推薦算法設(shè)計(jì)

2023-11-06 09:38:24時(shí)慧琨
電腦知識(shí)與技術(shù) 2023年25期
關(guān)鍵詞:會(huì)話向量特征

時(shí)慧琨

(淮南師范學(xué)院,安徽淮南 232038)

0 引言

隨著計(jì)算機(jī)、通信技術(shù)的發(fā)展,人類社會(huì)已經(jīng)進(jìn)入信息化時(shí)代,數(shù)字化、智能化已經(jīng)成為社會(huì)發(fā)展趨勢(shì),人們已經(jīng)能夠從各種途徑獲取大量數(shù)據(jù),如何從海量數(shù)據(jù)中得到用戶需要的數(shù)據(jù)或知識(shí)成為用戶面臨的新難題,推薦系統(tǒng)應(yīng)運(yùn)而生。推薦系統(tǒng)對(duì)數(shù)據(jù)進(jìn)行處理,根據(jù)用戶的需求或興趣篩選出用戶需要的信息并推送給客戶,為用戶節(jié)省了時(shí)間,提高了信息獲取的效率。如何根據(jù)用戶需求提高推薦系統(tǒng)效率及用戶滿意度是各種推薦技術(shù)和推薦系統(tǒng)研究的重點(diǎn)。本文研究如何從用戶歷史會(huì)話信息中學(xué)習(xí)用戶長(zhǎng)期及短期興趣,并利用其提高推薦的效果。

1 概述

1.1 推薦系統(tǒng)概述

推薦系統(tǒng)是從海量數(shù)據(jù)中幫助用戶以較小成本獲得感興趣的物品或信息的系統(tǒng),其基本原理是根據(jù)用戶的特征或歷史記錄,再結(jié)合物品或信息的特征,對(duì)用戶的需求目標(biāo)進(jìn)行預(yù)測(cè),并推送給用戶[1]。在推薦系統(tǒng)幫助下,用戶對(duì)海量數(shù)據(jù)的處理轉(zhuǎn)變?yōu)閷?duì)推薦結(jié)果的處理,方便了用戶,提高了數(shù)據(jù)處理的效率。推薦系統(tǒng)自從出現(xiàn)以來(lái),已經(jīng)在購(gòu)物、新聞、視頻等領(lǐng)域得到了廣泛的應(yīng)用。

推薦系統(tǒng)的核心是推薦算法,提高推薦算法的性能和推薦效果,可以從三個(gè)方面著手:1) 增加數(shù)據(jù)。數(shù)據(jù)量的多少?zèng)Q定了推薦算法性能的上限,大量學(xué)習(xí)數(shù)據(jù)是推薦模型尤其是大規(guī)模推薦模型性能的直接保證,而大規(guī)模的學(xué)習(xí)模型目前越來(lái)越流行。2)在數(shù)據(jù)尤其是有效數(shù)據(jù)無(wú)法增加的情況下,從推薦場(chǎng)景中挖掘利用更多的信息。推薦算法中常??紤]了物品、用戶、場(chǎng)景上下文、過(guò)程等多方面的信息,除此之外,還可以利用知識(shí)圖譜對(duì)信息進(jìn)行擴(kuò)展。3)采用不同的算法從數(shù)據(jù)中學(xué)習(xí)更多的知識(shí)。為此,推薦系統(tǒng)中常應(yīng)用了多種算法,常見(jiàn)的包括基于協(xié)同過(guò)濾的算法、基于機(jī)器學(xué)習(xí)的算法、基于深度學(xué)習(xí)的算法、基于圖的推薦算法等。

1.2 基于會(huì)話及用戶興趣的推薦

在推薦系統(tǒng)的研究中,如何對(duì)用戶特征進(jìn)行更加豐富、準(zhǔn)確的刻畫(huà)是研究的重點(diǎn)之一,這要求推薦系統(tǒng)不但要描述用戶的靜態(tài)特征還要考慮其動(dòng)態(tài)特性,會(huì)話信息為此提供了有用的線索。會(huì)話是指用戶與系統(tǒng)的一次連續(xù)完整的交互過(guò)程。會(huì)話為用戶的行為增加了時(shí)間信息,由此產(chǎn)生了基于會(huì)話的推薦及基于序列的推薦。一次會(huì)話期間用戶的行為隱含表示了用戶的需求或意圖,構(gòu)成了用戶的短期興趣。在較長(zhǎng)的時(shí)間段內(nèi),用戶經(jīng)常出現(xiàn)的短期興趣則構(gòu)成了用戶的長(zhǎng)期興趣。興趣的出現(xiàn)豐富了用戶的特征表示,興趣的變化則構(gòu)成了用戶的動(dòng)態(tài)特征。因此,從會(huì)話序列中提取出用戶的短期或長(zhǎng)期興趣,能夠?yàn)橥扑]提供更多的信息,并有助于提高推薦的效果。

定義長(zhǎng)期興趣是指用戶在跨越多個(gè)會(huì)話的較長(zhǎng)時(shí)間內(nèi)表現(xiàn)出的興趣,短期興趣則時(shí)間較短,通常用一個(gè)會(huì)話內(nèi)的興趣來(lái)表示。無(wú)論是長(zhǎng)期還是短期興趣,都具有多樣性、變化性的特點(diǎn)。多樣性,是指不同用戶的興趣千變?nèi)f化,即使是同一個(gè)用戶,也可能存在多種不同的興趣。變化性是指用戶興趣通常都會(huì)隨著時(shí)間的遷移而發(fā)生變化,只是長(zhǎng)期興趣保持的時(shí)間較長(zhǎng)而已。如何對(duì)長(zhǎng)期興趣和短期興趣進(jìn)行表示,并在此基礎(chǔ)上產(chǎn)生推薦是基于會(huì)話和興趣的推薦系統(tǒng)研究的重點(diǎn)。

在基于序列和興趣的推薦系統(tǒng)研究方面,目前已經(jīng)有了一些研究的成果。DIN模型[2]對(duì)輸入序列中的樣本按照其與目標(biāo)項(xiàng)的相關(guān)性進(jìn)行加權(quán)計(jì)算,并作為每個(gè)樣本的權(quán)重用于后期的處理;DIEN[3]模型使用一個(gè)GRU層提取用戶的興趣,并使用一個(gè)帶有注意力機(jī)制的GRU層來(lái)獲得興趣的進(jìn)化特征,在此基礎(chǔ)上產(chǎn)生推薦信息。DSIN 模型[4]在DIEN 的基礎(chǔ)上,對(duì)行為序列建模部分進(jìn)行了改進(jìn),根據(jù)設(shè)定的時(shí)間間隔,將行為序列劃分為不同的會(huì)話,分別對(duì)會(huì)話內(nèi)和會(huì)話間的興趣進(jìn)行建模,利用自注意力機(jī)制提取會(huì)話內(nèi)的興趣,在此基礎(chǔ)上,對(duì)會(huì)話間興趣的演化利用Bi-LSTM進(jìn)行建模,兩者拼接得到用戶最終的興趣表征。MIMN模型[5]則重新設(shè)計(jì)了序列建模的結(jié)構(gòu),借鑒神經(jīng)圖靈機(jī)利用額外存儲(chǔ)模塊來(lái)解決長(zhǎng)序列數(shù)據(jù)問(wèn)題。模型中定義了行為細(xì)化層和多興趣提取層,使用多頭自注意力實(shí)現(xiàn)對(duì)用戶多興趣的提取。王鴻偉等提出的RMN 模型[6]則在循環(huán)神經(jīng)網(wǎng)絡(luò)中增加了興趣記憶模塊,增強(qiáng)了興趣的表達(dá)能力。

DIEN模型中的興趣是通過(guò)將用戶的行為序列劃分為長(zhǎng)度較短的子序列,對(duì)子序列進(jìn)行學(xué)習(xí)得出的,因此學(xué)習(xí)獲得的是短期興趣表示。本文的研究是在DIEN 模型的基礎(chǔ)上,綜合考慮了長(zhǎng)期和短期興趣的影響。通過(guò)對(duì)用戶行為序列的學(xué)習(xí)獲得用戶短期興趣,并通過(guò)短期興趣的學(xué)習(xí)獲得長(zhǎng)期興趣。綜合利用長(zhǎng)期興趣和短期興趣構(gòu)造推薦模型,希望在更多信息的幫助下獲得更好的推薦效果。

2 基于長(zhǎng)短期興趣的推薦系統(tǒng)設(shè)計(jì)

2.1 系統(tǒng)結(jié)構(gòu)

本文提出的推薦模型結(jié)構(gòu)如圖1 所示,由以下幾個(gè)部分組成:

圖1 基于長(zhǎng)短期興趣的推薦模型1

1)長(zhǎng)期興趣向量。由于用戶興趣的多樣性特點(diǎn),每個(gè)用戶使用一個(gè)獨(dú)立的向量表示用戶的長(zhǎng)期興趣;

2)嵌入層。用于將one-hot等形式表示的用戶交互記錄、目標(biāo)項(xiàng)及用戶其他特征轉(zhuǎn)換為稠密表示的嵌入向量。

3)興趣提取層。以用戶的行為序列作為輸入,采用GRU(Gate Recurrent Unit) 模型從用戶的點(diǎn)擊記錄中提取用戶興趣,為了增加興趣表示的準(zhǔn)確程度,利用正負(fù)樣本構(gòu)建輔助損失函數(shù),提高興趣學(xué)習(xí)的準(zhǔn)確性。

4)興趣演化層。為進(jìn)一步提高模型對(duì)用戶興趣動(dòng)態(tài)變化特征的學(xué)習(xí)效果,本層以興趣提取層的輸出作為輸入,利用GRU 對(duì)其進(jìn)一步學(xué)習(xí),利用注意力機(jī)制計(jì)算各個(gè)階段輸出同目標(biāo)項(xiàng)的相關(guān)程度作為更新權(quán)重,對(duì)輸出結(jié)果進(jìn)行加權(quán)后用于GRU 的更新,使得更新結(jié)果對(duì)用戶感興趣目標(biāo)更加側(cè)重,進(jìn)一步提高了興趣表示學(xué)習(xí)的效果。

5)MLP(多層感知機(jī))。用于預(yù)測(cè)用戶對(duì)目標(biāo)項(xiàng)的行為。該層將用戶長(zhǎng)期向量、短期興趣向量、目標(biāo)項(xiàng)嵌入向量以及其他特征的嵌入向量拼接在一起作為輸入,經(jīng)MLP處理后得到最終輸出。

在上述模型中,用戶行為序列中的元素、目標(biāo)項(xiàng)以及其他特征經(jīng)過(guò)嵌入層處理后轉(zhuǎn)換為嵌入向量,其中行為序列對(duì)應(yīng)的嵌入向量經(jīng)過(guò)興趣提取層處理后轉(zhuǎn)換為興趣隱向量,再經(jīng)過(guò)興趣演化層的學(xué)習(xí)進(jìn)一步獲得興趣的動(dòng)態(tài)變化特征,經(jīng)過(guò)注意力加權(quán)后得到用戶的短期興趣向量,將用戶長(zhǎng)期興趣向量、短期興趣向量、目標(biāo)向量及其他特征進(jìn)行拼接后送到最終的多層感知機(jī)處理得到最終的輸出。同時(shí),短期興趣向量用于長(zhǎng)期興趣向量的更新以反應(yīng)長(zhǎng)期興趣的變化特性。

除了以上結(jié)構(gòu)外,本文還提出了另外一種模型,如圖2所示。其中長(zhǎng)期興趣向量并不作為獨(dú)立向量拼接送到MLP中,而是用于對(duì)興趣提取層的隱向量進(jìn)行初始化,這樣對(duì)訓(xùn)練樣本學(xué)習(xí)后得到的是綜合了用戶長(zhǎng)期和短期興趣的綜合興趣向量。除此之外與模型1相同。

圖2 基于長(zhǎng)短期興趣的推薦模型2

2.2 訓(xùn)練及測(cè)試過(guò)程

1)長(zhǎng)短期興趣的表示

本文用兩個(gè)相同長(zhǎng)度的向量來(lái)分別表示用戶的長(zhǎng)期和短期興趣,長(zhǎng)度值dim為一個(gè)超參數(shù)。長(zhǎng)期興趣向量用li(u)(u為用戶ID)表示,短期興趣向量由下文介紹的h(t)’表示,用于表示通過(guò)訓(xùn)練樣本的學(xué)習(xí)而獲得的短期興趣,每次學(xué)習(xí)獲得的短期興趣是獨(dú)立的,并且用于更新長(zhǎng)期興趣向量。

2)訓(xùn)練過(guò)程

①b(1),b(2),…,b(t)及目標(biāo)項(xiàng)均為物品的ID,經(jīng)過(guò)嵌入層處理后得到各自的嵌入表示e(1),e(2),…,e(t),e(target),其中e(i)(i=1,2,…,t,target)∈Rdim。

②興趣提取層基于GRU對(duì)輸入e(1),e(2),…,e(t)進(jìn)行處理,得到輸出h(1),h(2),…,h(t),這個(gè)輸出一方面送給興趣演化層作為輸入,另一方面則用于構(gòu)造一個(gè)輔助損失函數(shù)以提供學(xué)習(xí)更準(zhǔn)確地興趣表示。輔助損失函數(shù)構(gòu)造的方法為:根據(jù)b(i),b(i+1)(i=1,2,…,t-1)的標(biāo)注值是否相同構(gòu)造訓(xùn)練目標(biāo),如果兩者不相同則目標(biāo)為0,否則目標(biāo)為1。以e(i)和e(i+1)為輸入,使用二分類交叉熵?fù)p失函數(shù)(BCELoss)擬合該目標(biāo),假設(shè)系統(tǒng)總的損失函數(shù)為L(zhǎng),輔助損失函數(shù)為L(zhǎng)aux,最終預(yù)測(cè)目標(biāo)項(xiàng)的損失函數(shù)為L(zhǎng)target,則L=Ltarget+α·Laux,其中α是一個(gè)超參數(shù)。

③興趣演化層以h(1),h(2),…,h(t)為輸入,經(jīng)過(guò)該層的GRU 處理后得到更新門(mén)輸出u(t)和重置門(mén)輸出r(t),利用當(dāng)前物品i(t)和目標(biāo)項(xiàng)e(target)計(jì)算注意力值at=softmax(i(t)·wa·e(target)),實(shí)際更新權(quán)值為u(t)’=at×u(t),利用u(t)’對(duì)隱層輸出ht進(jìn)行更新。

④興趣演化層的GRU 模型最終輸出h(t)’,將其與長(zhǎng)期興趣向量li(u)、目標(biāo)項(xiàng)e(target)及其他特征拼接后送給MLP 進(jìn)行最終處理。該MLP 由若干全連接層組成,輸出一個(gè)softmax(2)對(duì)目標(biāo)項(xiàng)用戶是否喜歡做出預(yù)測(cè),最終計(jì)算得到總損失函數(shù)L,利用反向傳播更新各模型的參數(shù)。

⑤長(zhǎng)期興趣向量li(u)的更新。利用公式li(u)=li(u)+γ·h(t)’得到更新后的li(u),其中γ 為一個(gè)超參數(shù),表示更新的權(quán)重。

3)模型評(píng)估及預(yù)測(cè)過(guò)程

模型評(píng)估及對(duì)新數(shù)據(jù)的預(yù)測(cè)過(guò)程和訓(xùn)練過(guò)程基本相同,區(qū)別在于此時(shí)興趣提取層不計(jì)算輔助損失,也不利用損失函數(shù)反向傳播更新模型的權(quán)值,但是長(zhǎng)期興趣向量仍然更新以實(shí)現(xiàn)用戶興趣的遷移演化。

3 實(shí)驗(yàn)及結(jié)果

3.1 測(cè)試數(shù)據(jù)

使用ml-1m數(shù)據(jù)集作為系統(tǒng)的訓(xùn)練和測(cè)試數(shù)據(jù),該數(shù)據(jù)集為GroupLens 研究組根據(jù)MovieLens 網(wǎng)站提供的用戶對(duì)電影的評(píng)分記錄創(chuàng)建,其中包含了6 040位用戶對(duì)3 952 部電影的1 000 209 條評(píng)分,評(píng)分值為1~5,將其中評(píng)分值>=4 轉(zhuǎn)換成1 表示用戶喜歡,否則轉(zhuǎn)換為0。對(duì)每個(gè)用戶的評(píng)分記錄按照時(shí)間排序得到評(píng)分序列,并按照窗口值=6對(duì)其截取子序列從而得到用戶的行為序列,其中前5項(xiàng)作為歷史點(diǎn)擊記錄,最后一項(xiàng)作為學(xué)習(xí)目標(biāo)。隨機(jī)選取其中10%的數(shù)據(jù)作為測(cè)試集,其余為訓(xùn)練集。在隨機(jī)選取時(shí)不進(jìn)行亂序操作,從而保留用戶的興趣進(jìn)化歷史。

3.2 與其它系統(tǒng)的分析比較

以ml-1m作為數(shù)據(jù)集,系統(tǒng)中的超參數(shù)選擇dim=128,α=γ=0.05,不使用其他特征,選擇DeepFM、DIN、DIEN作為比較對(duì)象,以準(zhǔn)確率作為評(píng)價(jià)指標(biāo),測(cè)試結(jié)果如下:

從表1 可以看出,在考慮了用戶長(zhǎng)期及短期興趣特征后,推薦系統(tǒng)的性能相比其它模型有了很大的提升。和DIEN模型僅考慮用戶短期交互系列提取的短期興趣相比,模型中綜合考慮了用戶的長(zhǎng)期與短期興趣,對(duì)用戶的興趣表達(dá)更加豐富,推薦結(jié)果綜合考慮了用戶長(zhǎng)期和短期興趣的變化,在推薦結(jié)果上利用了更多的用戶特征,從而獲得了更好的系統(tǒng)性能。

表1 算法性能測(cè)試結(jié)果

對(duì)本文提出的兩種不同模型來(lái)說(shuō),一種構(gòu)建了長(zhǎng)期興趣和短期興趣各自獨(dú)立的表示,拼接后送給最終的MLP 進(jìn)行學(xué)習(xí)。另一種是將長(zhǎng)期興趣和短期興趣綜合后得到綜合興趣向量作為輸入進(jìn)行學(xué)習(xí)。實(shí)驗(yàn)結(jié)果表明,第一種采用長(zhǎng)短期各自獨(dú)立的興趣表示其特征表達(dá)能力更強(qiáng),系統(tǒng)的性能更好。

4 總結(jié)

本文提出了一種結(jié)合用戶長(zhǎng)期和短期興趣的推薦算法。利用用戶的交互記錄建立短期興趣表示,基于GRU模型建模用戶的興趣和興趣進(jìn)化過(guò)程,并在短期興趣的基礎(chǔ)上學(xué)習(xí)獲得用戶的長(zhǎng)期興趣,結(jié)合長(zhǎng)期、短期興趣及物品特征產(chǎn)生推薦結(jié)果。與其他模型相比,結(jié)合用戶興趣的推薦系統(tǒng)能夠獲得更加豐富的用戶特征表示,幫助系統(tǒng)提升推薦效果。在下一步研究中,如何對(duì)用戶長(zhǎng)期興趣的多樣性進(jìn)行建模是模型進(jìn)一步改進(jìn)的方向。

猜你喜歡
會(huì)話向量特征
向量的分解
聚焦“向量與三角”創(chuàng)新題
如何表達(dá)“特征”
不忠誠(chéng)的四個(gè)特征
抓住特征巧觀察
有意冒犯性言語(yǔ)的會(huì)話含義分析
漢語(yǔ)教材中的會(huì)話結(jié)構(gòu)特征及其語(yǔ)用功能呈現(xiàn)——基于85個(gè)會(huì)話片段的個(gè)案研究
向量垂直在解析幾何中的應(yīng)用
向量五種“變身” 玩轉(zhuǎn)圓錐曲線
線性代數(shù)的應(yīng)用特征
河南科技(2014年23期)2014-02-27 14:19:15
建德市| 郑州市| 化州市| 彭州市| 新晃| 云浮市| 平谷区| 陆河县| 蚌埠市| 鸡东县| 汤阴县| 水富县| 泰州市| 共和县| 梅河口市| 逊克县| 云安县| 鸡泽县| 芦溪县| 资中县| 临高县| 华蓥市| 腾冲县| 聂荣县| 阳信县| 商水县| 客服| 垦利县| 青阳县| 东丰县| 昆明市| 电白县| 定兴县| 尼木县| 兰溪市| 于田县| 浦北县| 钟山县| 南投县| 读书| 邯郸市|