国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

消費(fèi)者異質(zhì)性對(duì)推薦系統(tǒng)的影響研究與仿真

2023-06-25 23:37陳運(yùn)昌趙軍
電腦知識(shí)與技術(shù) 2023年13期
關(guān)鍵詞:推薦系統(tǒng)

陳運(yùn)昌 趙軍

摘要:現(xiàn)有商品推薦系統(tǒng)的研究大多通過改進(jìn)推薦算法以提升推薦效果。很少有研究從消費(fèi)者視角,探究當(dāng)面對(duì)同一推薦系統(tǒng),消費(fèi)者異質(zhì)性對(duì)推薦效果的影響?;谏疃葟?qiáng)化學(xué)習(xí)算法,構(gòu)建細(xì)粒度感知消費(fèi)者行為的推薦系統(tǒng);從消費(fèi)者屬性和行為模型兩個(gè)角度刻畫消費(fèi)者異質(zhì)性;基于多Agent技術(shù)組合推薦系統(tǒng)Agent與消費(fèi)者Agent,構(gòu)建商品推薦仿真模型。仿真結(jié)果表明,消費(fèi)者異質(zhì)性對(duì)企業(yè)利潤、消費(fèi)者滿意度、點(diǎn)擊率均能產(chǎn)生較大影響。

關(guān)鍵詞:推薦系統(tǒng); 消費(fèi)者異質(zhì)性; 多Agent技術(shù); 建模與仿真; 深度強(qiáng)化學(xué)習(xí)

中圖分類號(hào):TP391.9? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):1009-3044(2023)13-0058-05

開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID)

0 引言

商品推薦系統(tǒng)會(huì)根據(jù)消費(fèi)者的瀏覽歷史、交互行為、個(gè)人信息等數(shù)據(jù),結(jié)合商品信息,為異質(zhì)消費(fèi)者提供不同的商品推薦[1]。基于深度強(qiáng)化學(xué)習(xí)(DRL)的推薦系統(tǒng)可以建模用戶行為序列、捕捉動(dòng)態(tài)偏好、最大化長期反饋,在商品推薦領(lǐng)域得到廣泛研究?,F(xiàn)有研究大多探究如何改進(jìn)DRL算法,使推薦系統(tǒng)可以達(dá)到更好的推薦效果。然而,很少有研究明確討論消費(fèi)者異質(zhì)性對(duì)推薦效果的影響。本文從消費(fèi)者屬性和行為模型兩個(gè)角度刻畫消費(fèi)者異質(zhì)性,并基于DRL建立推薦系統(tǒng)與消費(fèi)者交互,從企業(yè)利潤、消費(fèi)者滿意度、點(diǎn)擊率三個(gè)方面,深入探討消費(fèi)者異質(zhì)性對(duì)推薦效果的影響。

目前,國內(nèi)外對(duì)推薦系統(tǒng)研究較多。在提升基于DRL的推薦系統(tǒng)性能方面,潘華麗等人[2]引入預(yù)訓(xùn)練模型和注意力機(jī)制實(shí)現(xiàn)多模態(tài)特征融合,結(jié)合DRL算法有效提升了個(gè)性化推薦效果;華勇等人[3]將多輪對(duì)話推薦系統(tǒng)與DRL相結(jié)合,考慮消費(fèi)者對(duì)商品的多粒度信息反饋,有效提升了推薦成功率。在消費(fèi)者異質(zhì)性研究方面,程永生等人[4]針對(duì)消費(fèi)者異質(zhì)社交能力展開研究,基于效用理論分析消費(fèi)者的購買和推薦行為,探討消費(fèi)者社交能力對(duì)企業(yè)利潤的影響;楊敏等人[5]通過偏好特性與敏感特性兩個(gè)方面構(gòu)建旅客異質(zhì)性,將異質(zhì)性畫像與DRL算法相結(jié)合,有效提升了推薦算法性能。動(dòng)態(tài)的實(shí)驗(yàn)環(huán)境非常重要,多Agent建模與仿真方法已廣泛應(yīng)用于商品推薦的研究[6-7],通過對(duì)異質(zhì)且獨(dú)立的消費(fèi)者Agent及推薦系統(tǒng)Agent建模,可以在抽象層面上合理反映消費(fèi)者和企業(yè)行為,并可以降低模型訓(xùn)練與測(cè)試的成本。綜上,本文從消費(fèi)者屬性和行為模型兩個(gè)角度刻畫消費(fèi)者異質(zhì)性,基于DRL構(gòu)建推薦系統(tǒng),基于多Agent建模與仿真方法實(shí)現(xiàn)動(dòng)態(tài)環(huán)境,探討消費(fèi)者異質(zhì)性對(duì)推薦效果的影響,具有很大的理論與應(yīng)用價(jià)值。

2 基于深度強(qiáng)化學(xué)習(xí)的推薦系統(tǒng)設(shè)計(jì)

消費(fèi)者行為是消費(fèi)者異質(zhì)性的表現(xiàn)方式,為了更好地探究消費(fèi)者異質(zhì)性對(duì)推薦效果的影響,本文基于DRL建立可以細(xì)粒度感知消費(fèi)者行為的推薦系統(tǒng),將消費(fèi)者對(duì)商品i產(chǎn)生的跳過、點(diǎn)擊、加購行為映射為消費(fèi)者滿意度和企業(yè)利潤,并作為商品i產(chǎn)生的環(huán)境獎(jiǎng)勵(lì),根據(jù)環(huán)境獎(jiǎng)勵(lì)優(yōu)化推薦系統(tǒng)。

2.1 消費(fèi)者行為映射

首先介紹消費(fèi)者行為映射為消費(fèi)者滿意度和企業(yè)利潤的方式。消費(fèi)者與推薦列表中的商品i交互產(chǎn)生滿意度[sati],滿意度的計(jì)算如公式(1) 所示:

[sati=0, x=跳過α·Ii+(1-α)·quality+noise,? ?x=點(diǎn)擊、加購] (1)

其中,x表示消費(fèi)者對(duì)商品i采取的行為,包括跳過、點(diǎn)擊、加購。當(dāng)消費(fèi)者跳過商品i時(shí),不產(chǎn)生滿意度;當(dāng)消費(fèi)者點(diǎn)擊或加購商品i時(shí),根據(jù)公式映射為滿意度sati,其中α表示異質(zhì)性中的消費(fèi)者感性,體現(xiàn)了異質(zhì)性對(duì)滿意度的影響。公式計(jì)算與文獻(xiàn)[8]相同,在此不再贅述。本文將sati看作環(huán)境獎(jiǎng)勵(lì)ri1。

消費(fèi)者跳過、點(diǎn)擊和加購行為,需要經(jīng)過行為轉(zhuǎn)化過程,才能映射為企業(yè)利潤。消費(fèi)者跳過、點(diǎn)擊或加購?fù)扑]列表中的商品i,不會(huì)產(chǎn)生利潤,只有購買商品才能產(chǎn)生利潤??紤]到購買行為的稀疏性,推薦系統(tǒng)很難單純依靠購買產(chǎn)生的利潤來優(yōu)化推薦策略[9],故本文引入消費(fèi)者行為轉(zhuǎn)化率,建立跳過、點(diǎn)擊、加購這些相對(duì)頻繁的行為與購買行為之間的聯(lián)系,以更好地計(jì)算商品i的利潤Vi,企業(yè)利潤Vi的計(jì)算公式如公式(2) 所示:

[Vi(x,i)=0, ? ? ? ? ? ? ?x=跳過150price(i)·1λ,? ?x=點(diǎn)擊120price(i)·1λ,? ?x=加購]? ?(2)

其中,price(i)表示商品i的價(jià)格。根據(jù)電商用戶行為分析[10],消費(fèi)者的點(diǎn)擊轉(zhuǎn)化率在2%左右,加購轉(zhuǎn)化率在5%左右,因此[150]和[120]分別表示點(diǎn)擊、加購的行為轉(zhuǎn)化率;[1λ]為歸一化參數(shù),這里λ的取值為[120max(price(i))]。本文將Vi看作環(huán)境獎(jiǎng)勵(lì)ri2。

綜上,消費(fèi)者與商品i交互,產(chǎn)生的環(huán)境獎(jiǎng)勵(lì)包括消費(fèi)者行為映射的滿意度ri1和映射的企業(yè)利潤ri2,則消費(fèi)者對(duì)商品i的行為映射的環(huán)境獎(jiǎng)勵(lì)ri如公式(3) 所示:

[ri=0.5·ri1+0.5·ri2]? ?(3)

其中,0.5為是歸一化處理的參數(shù)。ri、ri1、ri2∈(0,1)。

2.2 構(gòu)建基于深度強(qiáng)化學(xué)習(xí)的推薦系統(tǒng)

本文根據(jù)Slate-Q[8]算法構(gòu)建推薦系統(tǒng)。Slate-Q是Ie E等人設(shè)計(jì)的用于列表推薦的DRL算法,其最大特點(diǎn)是可以計(jì)算列表中單個(gè)商品i的Q值Qi,并根據(jù)Qi計(jì)算商品分?jǐn)?shù)以構(gòu)建推薦列表,如公式(4) :

[Scorei=Ii·Qi]? ? ? ? ? ? (4)

及計(jì)算整個(gè)推薦列表的Q值,如公式(5):

[Q(s,A)=i∈AP(i | s,A)Qi]? ? ? ? ? (5)

借助于Slate-Q的這種特性,再考慮到Qi取決于商品產(chǎn)生的環(huán)境獎(jiǎng)勵(lì)ri,可以推斷出:結(jié)合2.1提出的商品i環(huán)境獎(jiǎng)勵(lì)ri的計(jì)算公式,Slate-Q可以細(xì)粒度掌握消費(fèi)者行為,根據(jù)具體的消費(fèi)者行為優(yōu)化推薦系統(tǒng),提升推薦效果。

在此基礎(chǔ)上,本文修改了Slate-Q的推薦動(dòng)作A的環(huán)境獎(jiǎng)勵(lì)R及Q值計(jì)算公式。推薦動(dòng)作A中包含多個(gè)商品i,則動(dòng)作獎(jiǎng)勵(lì)R如公式⑹所示:

[R=i∈Ari]? ? ? ? ? ? (6)

推薦動(dòng)作A的Q值[Q(s,A)]的計(jì)算公式如公式(7)所示:

[Q(s,A)=i∈AQi]? ?(7)

Slate算法結(jié)合公式(4) 與top-k算法構(gòu)建推薦動(dòng)作A,結(jié)合公式(6) 和(7) 與下文的商品推薦仿真模型,評(píng)價(jià)推薦動(dòng)作A。

3 消費(fèi)者異質(zhì)性設(shè)計(jì)

3.1 消費(fèi)者異質(zhì)性設(shè)計(jì)

本文根據(jù)RecSim[11]中的用戶模型設(shè)計(jì)消費(fèi)者異質(zhì)性,從消費(fèi)者屬性與消費(fèi)者行為模型兩個(gè)方面,細(xì)粒度刻畫消費(fèi)者異質(zhì)性。消費(fèi)者屬性及含義如表1所示:

消費(fèi)者屬性包括靜態(tài)屬性和動(dòng)態(tài)屬性。靜態(tài)屬性包括ɑ、β、threshold、θ,構(gòu)建了消費(fèi)者的異質(zhì)性,其中threshold又分為消費(fèi)者點(diǎn)擊閾值thresholdI和加購閾值thresholdsat,兩個(gè)閾值及θ的作用在下文消費(fèi)者行為模型介紹。動(dòng)態(tài)屬性包括interestt、patientt,Ii、sati,其中interestt、patientt表示消費(fèi)者的實(shí)時(shí)狀態(tài),Ii、sati用于下文的消費(fèi)者行為模型,影響行為和狀態(tài)轉(zhuǎn)換。4個(gè)動(dòng)態(tài)屬性計(jì)算公式與文獻(xiàn)[10]相同,在此不再給出。

消費(fèi)者行為模型決定了當(dāng)消費(fèi)者面對(duì)推薦列表中的商品時(shí),做出跳過、點(diǎn)擊、加購中的哪一個(gè)行為。文獻(xiàn)[8]中提出使用MNL和CL作為消費(fèi)者行為模型。根據(jù)消費(fèi)者行為理論,推薦系統(tǒng)中消費(fèi)者行為具有位置偏向性和吸引偏向性,這兩種模型均忽略了這種情況,且消費(fèi)者只能點(diǎn)擊一次與事實(shí)不符。本文將Ii、sati兩個(gè)動(dòng)態(tài)屬性與DBN(動(dòng)態(tài)貝葉斯網(wǎng)絡(luò))結(jié)合,建立消費(fèi)者行為模型,模型結(jié)構(gòu)如圖1所示:

我們將[Ii?thresholdI]看作消費(fèi)者被商品i吸引,將[sati?thresholdsat]看作消費(fèi)者很滿意商品i,將上圖分解為消費(fèi)者行為規(guī)則如表2所示:

3.2 基于多Agent的商品推薦仿真模型

本文利用RecSim[11]推薦系統(tǒng)仿真平臺(tái),基于多Agent技術(shù)建立商品推薦仿真模型,模型包含異質(zhì)性消費(fèi)者Agent、推薦系統(tǒng)Agent和商品,在仿真環(huán)境下探究消費(fèi)者異質(zhì)性對(duì)推薦效果的影響。其中,消費(fèi)者Agent為3.1建立的異質(zhì)性消費(fèi)者,推薦系統(tǒng)Agent為2.2構(gòu)建的推薦系統(tǒng)。消費(fèi)者Agent需要與商品列表交互,才能體現(xiàn)出消費(fèi)者異質(zhì)性。因此商品仿真模型的設(shè)計(jì)同樣重要。本文根據(jù)RecSim中的文檔模型建立商品仿真模型,本模型可以生成任意數(shù)量的商品,商品具體參數(shù)與含義如表3所示:

T為商品主題集,[topic∈T],[T=5],即本文設(shè)置五種商品主題,每個(gè)商品只屬于一種主題。price為商品價(jià)格,服從分布U(a,b),主題不同價(jià)格也不同:topic0的商品價(jià)格在[10,50]之間,topic1在[50,100]之間;topic2在[100,150]之間;topic3在[150,200]之間;topic4在[200,250]之間。

綜上,本文基于改進(jìn)Slate-Q算法構(gòu)建可細(xì)粒度感知消費(fèi)者行為的推薦系統(tǒng),從消費(fèi)者屬性與消費(fèi)者行為模型兩個(gè)方面構(gòu)建消費(fèi)者異質(zhì)性,基于多Agent技術(shù)建立商品推薦仿真模型。接下來進(jìn)行仿真實(shí)驗(yàn),探討消費(fèi)者異質(zhì)性對(duì)推薦效果的影響。

4 仿真實(shí)驗(yàn)

4.1 仿真過程描述

本文將消費(fèi)者開始瀏覽至退出推薦系統(tǒng)的整個(gè)過程稱為一個(gè)交互回合。在一次推薦過程中,推薦系統(tǒng)會(huì)產(chǎn)生推薦列表,消費(fèi)者會(huì)與列表中的商品進(jìn)行交互,產(chǎn)生企業(yè)利潤及消費(fèi)者滿意度、點(diǎn)擊率,并改變自身狀態(tài)。一個(gè)交互回合會(huì)重復(fù)上述推薦過程,直到消費(fèi)者退出推薦系統(tǒng)。消費(fèi)者異質(zhì)性會(huì)導(dǎo)致消費(fèi)者狀態(tài)及動(dòng)作不同,進(jìn)而導(dǎo)致產(chǎn)生的企業(yè)利潤等推薦效果不同。因此,對(duì)一個(gè)交互回合進(jìn)行仿真,可以探究消費(fèi)者異質(zhì)性對(duì)推薦效果的影響。

4.2 仿真實(shí)驗(yàn)設(shè)置

4.2.1實(shí)驗(yàn)指標(biāo)設(shè)置

本文設(shè)置三個(gè)實(shí)驗(yàn)指標(biāo)以展示推薦效果,(8)(9)(10)為計(jì)算公式。E表示一個(gè)交互回合中涉及的商品集合。

利潤V:

[V=i∈EVi]? ? ?(8)

該指標(biāo)表示消費(fèi)者在一個(gè)交互回合中產(chǎn)生的總利潤。其中,Vi表示消費(fèi)者與商品i交互產(chǎn)生的利潤。

消費(fèi)者滿意度Sat:

[Sat=i∈Esati]? ?(9)

該指標(biāo)表示消費(fèi)者在一個(gè)交互回合中產(chǎn)生的總滿意度。其中,sati表示消費(fèi)者與商品i交互產(chǎn)生的滿意度。

消費(fèi)者點(diǎn)擊率Click_rate:

[Click_rate=i∈EclickiE]? (10)

該指標(biāo)表示消費(fèi)者在一個(gè)交互回合中產(chǎn)生的點(diǎn)擊率。其中,clicki表示消費(fèi)者是否點(diǎn)擊了商品i,是為1,不是為0;|E|表示一個(gè)交互回合中總的商品個(gè)數(shù)。

4.2.2 輸入?yún)?shù)設(shè)置

消費(fèi)者Agent模型需設(shè)置7個(gè)參數(shù)。五個(gè)靜態(tài)屬性默認(rèn)參數(shù)值:α=0.5,β=0.1,thresholdI=0.5,thresholdsat=0.7,θ=0.7;兩個(gè)動(dòng)態(tài)屬性初始參數(shù)值:t=0時(shí),interestt=[1, 0.8, 0.5, 0.2, 0],patient=10。

企業(yè)Agent模型需設(shè)置3個(gè)參數(shù)。候選商品集D的大小|D|=20;推薦列表長度slate_size=4;折扣因子γ=1。

總之,在設(shè)置了實(shí)驗(yàn)指標(biāo)和輸入?yún)?shù)后,進(jìn)行了40 000個(gè)時(shí)間步的模擬,其中包含了大約3 000~4 000個(gè)交互回合,以訓(xùn)練本文的基于DRL的推薦系統(tǒng),并進(jìn)行100個(gè)交互回合的測(cè)試,以探討消費(fèi)者異質(zhì)性對(duì)推薦效果的影響。

4.3 消費(fèi)者異質(zhì)性實(shí)驗(yàn)

探究消費(fèi)者異質(zhì)性對(duì)推薦效果的影響,主要是探究消費(fèi)者理性α、消費(fèi)者享樂度β、興趣閾值 interest_threshold、滿意度閾值sat_threshold這些靜態(tài)屬性對(duì)推薦效果的影響。在接下來的實(shí)驗(yàn)中,本文先按照默認(rèn)值運(yùn)行一次實(shí)驗(yàn)作為對(duì)照組,之后修改某一種靜態(tài)屬性的取值,其余屬性取默認(rèn)值,運(yùn)行試驗(yàn)記錄指標(biāo)變化,以探討消費(fèi)者異質(zhì)性對(duì)推薦效果的影響。

4.3.1 消費(fèi)者理性α

消費(fèi)者理性表示決定消費(fèi)者對(duì)商品的滿意度是更看重對(duì)商品的興趣還是商品本身質(zhì)量。參數(shù)越高,表示滿意度更看重商品質(zhì)量;參數(shù)越低,表示滿意度更看重對(duì)商品的興趣。α依次取值0.5/0.2/0.8,其余屬性取默認(rèn)值,其中0.5為對(duì)照組實(shí)驗(yàn),三次實(shí)驗(yàn)結(jié)果如表4所示。

橙、藍(lán)、紅線分別代表三個(gè)取值的實(shí)驗(yàn)結(jié)果。利潤V和滿意度Sat指標(biāo)下,紅線表現(xiàn)最差,橙和藍(lán)線較接近;點(diǎn)擊率Click_rate指標(biāo)下,藍(lán)線表現(xiàn)最差,橙線略優(yōu)于紅線??梢?,更理性的消費(fèi)者(α=0.8) ,其在一個(gè)交互回合中雖然有較高的點(diǎn)擊率,但僅能產(chǎn)生較少的企業(yè)利潤和自身滿意度;不理性的消費(fèi)者(α=0.2) ,其在一個(gè)交互回合中雖然點(diǎn)擊率不高,但能產(chǎn)生的企業(yè)利潤和自身滿意度較高。

4.3.2 消費(fèi)者享樂度β

消費(fèi)者享樂度表示消費(fèi)者耐心受滿意度的影響程度,當(dāng)β取值較大時(shí),滿意度對(duì)耐心的影響較大,顯著增加消費(fèi)者的交互回合長度。β依次取0.5/0.2/0.8,其余屬性取默認(rèn)值,其中0.5為對(duì)照組實(shí)驗(yàn),三次實(shí)驗(yàn)結(jié)果如表5所示。

橙、藍(lán)、紅線分別代表三個(gè)取值的實(shí)驗(yàn)結(jié)果。三幅圖整體來看,藍(lán)、橙、紅線的長度依次增加,可見享樂度β越高,消費(fèi)者的回合長度越長。利潤V和滿意度Sat指標(biāo)下,藍(lán)線表現(xiàn)最差,橙和紅線較接近;點(diǎn)擊率Click_rate指標(biāo)下,藍(lán)線和紅線表現(xiàn)均差與橙線??梢?,享樂度更高的消費(fèi)者(β=0.8) ,在一個(gè)交互回合中能產(chǎn)生較高的企業(yè)利潤和自身滿意度,但點(diǎn)擊率較低;享樂度更低的消費(fèi)者(β=0.2) ,企業(yè)利潤、自身滿意度及點(diǎn)擊率均較差。

4.3.3 興趣閾值 interest_threshold

興趣閾值表示消費(fèi)者被商品吸引點(diǎn)擊的閾值,滿意度閾值越高,消費(fèi)者應(yīng)該越難點(diǎn)擊。interest_threshold依次取值0.5/0.2/0.8,其余屬性取默認(rèn)值,其中0.5為對(duì)照組實(shí)驗(yàn),三次實(shí)驗(yàn)結(jié)果如表6所示。

橙、藍(lán)、紅線分別代表三個(gè)取值的實(shí)驗(yàn)結(jié)果??梢?,消費(fèi)者興趣閾值參數(shù)在很大程度上影響推薦效果。興趣閾值越低,一個(gè)交互回合內(nèi)產(chǎn)生的企業(yè)利潤、消費(fèi)者自身滿意度、點(diǎn)擊率以及回合長度越高。

4.3.4 滿意度閾值sat_threshold

滿意度閾值表示消費(fèi)者將商品加入購物車的閾值,滿意度閾值越高,消費(fèi)者應(yīng)該越難加購。sat_threshold依次取值0.7/0.5/0.9,其余屬性取默認(rèn)值,其中0.7為對(duì)照組實(shí)驗(yàn),三次實(shí)驗(yàn)結(jié)果如表7所示。

橙、藍(lán)、紅線分別代表三個(gè)取值的實(shí)驗(yàn)結(jié)果。利潤V指標(biāo)下,紅線表現(xiàn)最差,藍(lán)線略低于橙線;滿意度Sat和點(diǎn)擊率Click_rate指標(biāo)下,藍(lán)色線表現(xiàn)最差,藍(lán)線與橙線表現(xiàn)相近。可見,滿意度閾值偏高的消費(fèi)者(sat_threshold=0.9),其在一個(gè)交互回合中產(chǎn)生的自身滿意度和點(diǎn)擊率較高,但僅能產(chǎn)生較少的企業(yè)利潤;滿意度閾值偏低的消費(fèi)者(sat_threshold=0.5),其在一個(gè)交互回合中產(chǎn)生的企業(yè)利潤較高,但其產(chǎn)生的自身滿意度和點(diǎn)擊率均很低。

5 總結(jié)與展望

本文研究了消費(fèi)者異質(zhì)性對(duì)推薦系統(tǒng)推薦效果的影響?;诟倪M(jìn)Slate-Q算法構(gòu)建可細(xì)粒度感知消費(fèi)者行為的推薦系統(tǒng),從消費(fèi)者屬性與行為模型兩方面構(gòu)建消費(fèi)者異質(zhì)性,基于多Agent建模與仿真方法建立商品推薦仿真環(huán)境。仿真實(shí)驗(yàn)表明,消費(fèi)者理性、享樂度、興趣閾值、滿意度閾值等異質(zhì)屬性,均能對(duì)一個(gè)交互回合中的企業(yè)利潤、消費(fèi)者自身滿意度、點(diǎn)擊率產(chǎn)生重要影響。

參考文獻(xiàn):

[1] 宋倩.基于關(guān)聯(lián)規(guī)則算法的電子商務(wù)商品推薦系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].微型電腦應(yīng)用,2021,37(10):205-208.

[2] 潘華莉,謝珺,高婧,等.融合多模態(tài)特征的深度強(qiáng)化學(xué)習(xí)推薦模型[J/OL].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn):1-18[2023-02-10].http://kns.cnki.net/kcms/detail/10.1478.G2.20220907.1507.008.html.

[3] 姚華勇,葉東毅,陳昭炯.考慮多粒度反饋的多輪對(duì)話強(qiáng)化學(xué)習(xí)推薦算法[J].計(jì)算機(jī)應(yīng)用,2023,43(1):15-21.

[4] 程永生.基于消費(fèi)者異質(zhì)性社交能力的推薦獎(jiǎng)勵(lì)策略[J].運(yùn)籌與管理,2020,29(12):231-239.

[5] 楊敏,李宏偉,任怡鳳,等.基于旅客異質(zhì)性畫像的公鐵聯(lián)程出行方案推薦方法[J].清華大學(xué)學(xué)報(bào)(自然科學(xué)版),2022,62(7):1220-1227.

[6] Ghanem Nada..Balancing consumer and business value of recommender systems:a simulation-based analysis[J].Electronic Commerce Research and Applications,2022(55):101195.

[7] Zhou M, Zhang J, Adomavicius G. Longitudinal Impact of Preference Biases on Recommender Systems' Performance[J]. Kelley School of Business Research Paper, 2021(10).

[8] Ie, Eugene et al. SlateQ - A Tractable Decomposition for Reinforcement Learning with Recommendation Sets[C]. International Joint Conference on Artificial Intelligence.(2019): 2592-2599.

[9] Pei C H,Yang X R,Cui Q,et al.Value-aware recommendation based on reinforcement profit maximization[C]//WWW '19:The World Wide Web Conference.May 13 - 17,2019,San Francisco,CA,USA.New York:ACM,2019:3123-3129.

[10] 郝浩宇,任杰成.電商平臺(tái)用戶行為分析系統(tǒng)研究[J].信息與電腦,2021,33(21):80-82.

[11] Ie E,Hsu C W,Mladenov M,et al.RecSim:a configurable simulation platform for recommender systems[EB/OL].2019:arXiv:1909.04847.https://arxiv.org/abs/1909.04847.

【通聯(lián)編輯:李雅琪】

猜你喜歡
推薦系統(tǒng)
基于用戶偏好的信任網(wǎng)絡(luò)隨機(jī)游走推薦模型
基于Mahout分布式協(xié)同過濾推薦算法分析與實(shí)現(xiàn)
基于Baseline SVD主動(dòng)學(xué)習(xí)算法的推薦系統(tǒng)