国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

異策略模仿-強(qiáng)化學(xué)習(xí)序列推薦算法

2024-06-01 23:56:36劉珈麟賀澤宇李俊
計算機(jī)應(yīng)用研究 2024年5期

劉珈麟 賀澤宇 李俊

摘 要:最近,強(qiáng)化學(xué)習(xí)序列推薦系統(tǒng)受到研究者們的廣泛關(guān)注,這得益于它能更好地聯(lián)合建模用戶感興趣的內(nèi)動態(tài)和外傾向。然而,現(xiàn)有方法面臨同策略評估方法數(shù)據(jù)利用率低,導(dǎo)致模型依賴大量的專家標(biāo)注數(shù)據(jù),以及啟發(fā)式價值激勵函數(shù)設(shè)計依賴反復(fù)人工調(diào)試兩個主要挑戰(zhàn)。因此,提出了一種新穎的異策略模仿-強(qiáng)化學(xué)習(xí)的序列推薦算法COG4Rec,以提高數(shù)據(jù)利用效率和實現(xiàn)可學(xué)習(xí)的價值函數(shù)。首先,它通過異策略方式更新分布匹配目標(biāo)函數(shù),來避免同策略更新密集在線交互限制;其次,COG4Rec采用可學(xué)習(xí)的價值函數(shù)設(shè)計,通過對數(shù)衰減狀態(tài)分布比,模仿用戶外傾向的價值激勵函數(shù);最后,為了避免模仿學(xué)習(xí)分布漂移問題,COG4Rec通過累積衰減分布比,強(qiáng)化用戶行為記錄中高價值軌跡片段重組推薦策略。一系列基準(zhǔn)數(shù)據(jù)集上的性能對比實驗和消融實驗結(jié)果表明:COG4Rec比自回歸模型提升了17.60%,它比啟發(fā)式強(qiáng)化學(xué)習(xí)方法提升了3.25%。這證明了所提模型結(jié)構(gòu)和優(yōu)化算法的有效性。這也證明可學(xué)習(xí)的價值函數(shù)是可行的,并且異策略方式能有效提高數(shù)據(jù)利用效率。

關(guān)鍵詞:異策略評估; 模仿學(xué)習(xí); 逆強(qiáng)化學(xué)習(xí); 序列推薦

中圖分類號:TP391 文獻(xiàn)標(biāo)志碼:A?文章編號:1001-3695(2024)05-010-1349-07

doi:10.19734/j.issn.1001-3695.2023.10.0447

Off-policy imitation-reinforcement learning for sequential recommendation

Abstract:Recently, reinforcement learning sequence recommender systems have received widespread attention because they can better model the internal dynamics and external tendencies of user interests. However, existing methods face two major challenges: low utilization of same-strategy evaluation data causes the model to rely on a large amount of expert annotation data and heuristic value incentive functions rely on costly repeated manual debugging. This paper proposed a new hetero-strategic imitation-reinforcement learning method to improve data utilization efficiency and achieve a learnable value function. Firstly, it updated the distribution matching objective function through different strategies to avoid the intensive online interaction limitations of same-strategy updates. Secondly, COG4Rec adopted a learnable value function design and imitated the value incentive function of outdoor tendencies through the logarithmic decay state distribution ratio. Finally, in order to avoid the problem of imitation learning distribution drift, COG4Rec strengthened the recommendation strategy for recombining high-value trajectory segments in user behavior records through the cumulative attenuation distribution ratio. The results of performance comparison experiments and ablation experiments on a series of benchmark data sets show that COG4Rec is 17.60% better than the autoregressive model and 3.25% better than the heuristic reinforcement learning method. This proves the effectiveness of the proposed COG4Rec model structure and optimization algorithm. This also proves that the design of a learnable value function is feasible, and the heterogeneous strategy approach can effectively improve data utilization efficiency.

Key words:off-policy evaluation; imitation learning; inverse reinforcement learning; sequential recommendation

0 引言

推薦系統(tǒng)對探索如何感知用戶真實興趣和解決信息爆炸問題具有重要意義[1]。在推薦任務(wù)中,用戶與系統(tǒng)的交互過程可以被表示為一個動態(tài)序列,該序列包含了用戶的反饋信息。一個典型的應(yīng)用是電子商務(wù)[2],用戶在平臺的活動促銷頁面瀏覽、點擊、添加購物車,直到促銷選項滿足其興趣傾向進(jìn)而購買該推薦選項。序列推薦系統(tǒng)[3~5]基于序列化的交互反饋信息挖掘用戶的興趣傾向,來提供滿足用戶個性化需求的服務(wù),極大地改善了人們的平臺使用體驗,因而具有重要的潛在商業(yè)價值。

一般來說,序列推薦系統(tǒng)中存在短期互動和長期互動兩種不同類型的用戶-商品交互行為。短期互動反映了用戶當(dāng)前的偏好,具有高度的動態(tài)性(內(nèi)動態(tài))[6],例如由最近點擊商品ID組成的交互序列;而長期互動反映了用戶在平臺交互歷史當(dāng)中的興趣傾向[7,8],特點是時變緩慢相對穩(wěn)定(外傾向),例如點擊、收藏、喜歡、購買等多種類型不同價值的反饋信號。近期研究工作指出,用戶興趣內(nèi)動態(tài)方面的充分挖掘,短期來看有助于提升推薦的相關(guān)性,進(jìn)而刺激用戶的活躍度,但忽略用戶外傾向方面的關(guān)注會降低推薦多樣性,進(jìn)而減少用戶長期對平臺的黏住度。因此,聯(lián)合建模內(nèi)動態(tài)和外傾向?qū)崿F(xiàn)個性化推薦既重要,又面臨諸多挑戰(zhàn)[9~11]。

經(jīng)典序列推薦算法[6,12]有效提升了用戶內(nèi)動態(tài)方面的挖掘。為了同時挖掘用戶的外傾向方面,最近的研究提出一系列基于強(qiáng)化學(xué)習(xí)的序列推薦算法[7,8,13,14],將外傾向定義為價值激勵的累積,并通過累積價值激勵函數(shù)最大化過程的同時學(xué)習(xí)用戶的外傾向反饋和序列內(nèi)動態(tài)反饋(圖1)。雖然強(qiáng)化學(xué)習(xí)序列推薦算法有效地建立了聯(lián)合優(yōu)化的序列推薦模型,但作為推薦策略網(wǎng)絡(luò)優(yōu)化指導(dǎo)信號的價值激勵函數(shù)受任務(wù)驅(qū)動,需要反復(fù)工程調(diào)試才能平衡不同反饋信號的價值區(qū)分度需求和強(qiáng)化學(xué)習(xí)訓(xùn)練過程的穩(wěn)定性需求。由于系統(tǒng)數(shù)據(jù)庫積累了豐富的用戶歷史行為記錄,逆強(qiáng)化學(xué)習(xí)方法[15~17]提供了一種新的推薦范式,通過數(shù)據(jù)驅(qū)動價值激勵函數(shù)的學(xué)習(xí),與啟發(fā)式設(shè)計的思路[7,14]相比,降低了任務(wù)復(fù)雜度(圖2)。同時,由于累積價值激勵函數(shù)最大化過程使得交互軌跡依照價值高低拆分成不同的軌跡片段,并重組成新的、更高價值的完整軌跡成為可能,故該類方法不需要假設(shè)用于學(xué)習(xí)價值激勵函數(shù)和最大化累積價值的歷史數(shù)據(jù)是完備的(即歷史數(shù)據(jù)完備性)[17~19]。文獻(xiàn)[20]指出“完備”的含義包括數(shù)量大和質(zhì)量覆蓋高價值推薦模式兩個方面)。然而,基于逆強(qiáng)化學(xué)習(xí)的序列推薦算法通常需要密集的在線交互來評估當(dāng)前推薦策略的性能(即同策略評估)。由于欠優(yōu)化的待估策略與真實用戶的即時交互可能會導(dǎo)致直接的商業(yè)損失和潛在的用戶流失[8],所以同策略評估在序列推薦任務(wù)中的應(yīng)用存在較大限制。同時,相比異策略評估(利用平臺數(shù)據(jù)庫中未知但較優(yōu)的專家策略采集的歷史行為記錄數(shù)據(jù)評估當(dāng)前推薦策略的更新方法),同策略評估方法數(shù)據(jù)利用效率較低[21]。

針對逆強(qiáng)化學(xué)習(xí)存在的問題,提出了一種異策略模仿-強(qiáng)化學(xué)習(xí)的序列推薦算法COG4Rec。鑒于啟發(fā)式激勵函數(shù)形式通常未知,而平臺容易積累用戶-系統(tǒng)交互行為模式(該行為演示模式由已部署的系統(tǒng)采集,采集系統(tǒng)πE通常未知),已有研究工作[19]指出,模仿學(xué)習(xí)在平臺數(shù)據(jù)完備條件下收斂到反映用戶真實行為模式的推薦策略,而強(qiáng)化學(xué)習(xí)在數(shù)據(jù)采集隨機(jī)非完備情況下,可以有效提高外傾向的累計價值函數(shù)。受該研究啟發(fā),COG4Rec的核心思路是模仿真實用戶行為,并通過參數(shù)化可學(xué)習(xí)的模仿度(由對數(shù)衰減狀態(tài)分布比表示)作為隱式價值激勵函數(shù),避免了啟發(fā)式設(shè)計過程。鑒于模仿學(xué)習(xí)過程假定用戶行為積累數(shù)據(jù)涵蓋最優(yōu)行為策略(完備假設(shè))且獨立同分布,COG4Rec從被模仿行為軌跡中挖掘高價值的片段重組以強(qiáng)化長時累計價值,在不損失內(nèi)動態(tài)的建模條件下,累計價值反映了用戶的外傾向分布,該強(qiáng)化學(xué)習(xí)過程避免了模仿學(xué)習(xí)分布漂移問題。COG4Rec是一種基于衰減狀態(tài)分布匹配的逆強(qiáng)化學(xué)習(xí)方法。a)該方法通過匹配衰減狀態(tài)分布挖掘用戶外傾向,并通過自注意力機(jī)制學(xué)習(xí)用戶序列的內(nèi)動態(tài);b)Donsker-Varadhan展開將同策略更新的分布匹配目標(biāo)函數(shù)轉(zhuǎn)換為異策略更新;c)COG4Rec的策略評價網(wǎng)絡(luò)Critic采用隨機(jī)混合集成[22],避免異策略評估的探索誤差[8]。COG4Rec的貢獻(xiàn)包括:提出了一種新的異策略模仿-強(qiáng)化學(xué)習(xí)序列推薦算法,避免強(qiáng)化學(xué)習(xí)啟發(fā)式價值激勵函數(shù)設(shè)計增加推薦任務(wù)復(fù)雜度的同時,聯(lián)合挖掘用戶的外傾向和內(nèi)動態(tài)以提高綜合推薦性能。在序列推薦基準(zhǔn)數(shù)據(jù)集上的總體性能對比和消融實驗分析證明了COG4Rec模型結(jié)構(gòu)和優(yōu)化算法的有效性。在真實場景的基準(zhǔn)數(shù)據(jù)集上的實驗結(jié)果表明,與深度自回歸序列推薦模型相比,COG4Rec相對提升17.60%;與啟發(fā)式強(qiáng)化學(xué)習(xí)序列推薦模型相比,COG4Rec相對提升3.25%。

1 研究基礎(chǔ)和術(shù)語

1.1 術(shù)語

強(qiáng)化學(xué)習(xí)通常將序列推薦問題定義為馬爾可夫決策過程(S,A,P,R,ρ0,γ),其中:

最大化累積獎勵函數(shù)的過程是系統(tǒng)對用戶外傾向的挖掘,該過程彌補(bǔ)了深度序列模型僅挖掘內(nèi)動態(tài)面的不足,故自適應(yīng)的獎勵函數(shù)R直接影響強(qiáng)化學(xué)習(xí)在推薦系統(tǒng)中的成功應(yīng)用。

1.2 研究基礎(chǔ)

序列推薦[3,23]作為推薦系統(tǒng)的重要研究分支,受到研究人員的廣泛關(guān)注,其研究思路經(jīng)歷了深度學(xué)習(xí)時代前的協(xié)同濾波、深度序列推薦模型和強(qiáng)化學(xué)習(xí)序列推薦三個階段。本節(jié)首先總結(jié)了強(qiáng)化學(xué)習(xí)和模仿學(xué)習(xí)工作,兩者組成COG4Rec的研究基礎(chǔ),最后詳細(xì)闡述了不同階段的研究工作進(jìn)展。

1)逆強(qiáng)化學(xué)習(xí)

強(qiáng)化學(xué)習(xí)通過學(xué)習(xí)參數(shù)化的目標(biāo)策略πθ(a|s)來最大化累積獎勵,該目標(biāo)反映了用戶的長時外傾向:

其中:軌跡τ=(s0,a0,s1,a1,…,s|τ|,a|τ|)根據(jù)目標(biāo)推薦策略πθ(a|s),與用戶及時在線交互采樣獲得。

逆強(qiáng)化學(xué)習(xí)的目標(biāo)是根據(jù)專家演示集D={τexp1,…,τexp|D|},學(xué)習(xí)一個最優(yōu)的價值激勵函數(shù)R*,使得

其中:價值激勵函數(shù)的一種實現(xiàn)方式是特征線性映射。

R(s)=wT(s)(3)

2)模仿學(xué)習(xí)

行為克?。?4]是模仿學(xué)習(xí)中較早提出的一類方法。其思路是根據(jù)專家演示集,最小化推薦策略πθ(a|s)在專家演示集上的交叉熵,來使得推薦策略與專家行為策略相似:

分布匹配的思路是利用衰減因子γ優(yōu)化動作-狀態(tài)分布比,避免了式(4)面臨的分布漂移問題。推薦策略的衰減狀態(tài)分布dπθ(s,a)可定義為

其中:s0~p0(·),st~p(·|st-1,at-1),at~πθ(·|st)。

演示數(shù)據(jù)集Euclid Math OneDAp:={(st,at,st+1)k}Nk=1根據(jù)未知的專家策略πdata采集。衰減分布匹配方法(discounted stationary distribution ratio,DDR)[25]通過最小化dπθ和dD之間KL散度來學(xué)習(xí)πθ,該最小化過程可轉(zhuǎn)換為強(qiáng)化學(xué)習(xí)累積激勵最大化:

其中:式(6)的狀態(tài)分布比對應(yīng)強(qiáng)化學(xué)習(xí)的激勵函數(shù)為

值得指出的是,式(7)既可以利用同策略強(qiáng)化學(xué)習(xí),也可以通過異策略強(qiáng)化學(xué)習(xí)優(yōu)化,但考慮到推薦任務(wù)對用戶隱私的保護(hù)[8],COG4Rec采用異策略評估的方法。

3)序列推薦系統(tǒng)

傳統(tǒng)推薦算法假設(shè)相似的用戶具有相似的喜好傾向,提出了基于矩陣分解的協(xié)同濾波算法,代表工作有BPR[26]、NCF[27]、FPMC[28]。BPR提出一種貝葉斯個性化排序推薦方法(成對型排序損失函數(shù)),使用一個有偏估計的分解矩陣作為推薦系統(tǒng)。針對有偏估計矩陣分解的問題,NCF首次提出使用深度神經(jīng)網(wǎng)絡(luò)估計用戶-商品協(xié)同矩陣。FPMC方法則針對矩陣分解方法無法建模用戶-商品交互過程的問題,提出一種基于馬爾可夫鏈的協(xié)同過濾模型,將交互序列近似為一階馬爾可夫鏈,并在序列化增強(qiáng)的成對型排序損失上優(yōu)化。上述方法無法建模高階用戶-商品交互過程。

傳統(tǒng)推薦算法的缺點在于無法建模高階用戶-商品交互過程。基于深度學(xué)習(xí)的推薦模型將用戶-商品交互過程建模為時序序列,模型的潛狀態(tài)向量通過模型學(xué)習(xí)可以挖掘用戶的高階動態(tài)興趣傾向。GRURec[29]應(yīng)用序列化神經(jīng)網(wǎng)絡(luò)預(yù)測下一時刻用戶的興趣傾向。為了解決循環(huán)神經(jīng)網(wǎng)絡(luò)的梯度消散問題和計算效率問題,Caser[12]使用卷積神經(jīng)網(wǎng)絡(luò)作為推薦骨干網(wǎng)絡(luò)。SASRec[6]受機(jī)器翻譯等序列化生成任務(wù)的啟發(fā),使用Transformer結(jié)構(gòu)作為推薦骨干網(wǎng)絡(luò)。由于序列推薦系統(tǒng)中存在多種用戶反饋信號,不同類型的反饋信號對系統(tǒng)具有不同的價值,深度模型的局限是沒有考慮不同反饋信號的價值。

基于強(qiáng)化學(xué)習(xí)的序列推薦旨在優(yōu)化不同反饋信號的累積獎勵函數(shù)。已有工作可以分為:a)基于策略梯度的方法,考慮到推薦問題對實時用戶交互的限制,off-policy REINFOCE[30]采用異策略估計的方法實現(xiàn)YouTube平臺的視頻推薦,針對異策略估計需要對采樣行為策略樣本矯正的問題,該方法提出一種基于傾向性分?jǐn)?shù)的重估方法;b)基于價值函數(shù)的方法,SQN模型[7]利用動作-狀態(tài)價值函數(shù)時序差分優(yōu)化[31]來學(xué)習(xí)累積價值獎勵最大化,并通過聯(lián)合優(yōu)化交叉熵時序預(yù)測來學(xué)習(xí)用戶的動態(tài)興趣變化趨勢,VPQ[14]在SQN的基礎(chǔ)上利用重采樣方法降低時序差分學(xué)習(xí)的方差;c)基于動作-評價結(jié)構(gòu)的方法,SAC[7]利用動作-狀態(tài)價值函數(shù)作為樣本權(quán)重加權(quán)交叉熵時序預(yù)測?;趶?qiáng)化學(xué)習(xí)的序列推薦的激勵函數(shù)設(shè)計主要由任務(wù)導(dǎo)向,需要反復(fù)調(diào)試?;趶?qiáng)化學(xué)習(xí)的序列推薦系統(tǒng)需要依賴專家知識設(shè)計激勵函數(shù),作為累積獎勵最大化過程的優(yōu)化信號,而該設(shè)計任務(wù)驅(qū)動需要大量調(diào)試才能使強(qiáng)化學(xué)習(xí)訓(xùn)練過程穩(wěn)定。

受到上述研究工作啟發(fā),本文提出一種基于衰減狀態(tài)分布匹配博弈(min-max)的激勵函數(shù)優(yōu)化方法,并且通過Gumbel max算子保證激勵函數(shù)具有高區(qū)分度,從而避免了激勵函數(shù)的調(diào)試;同時,推薦策略網(wǎng)絡(luò)試圖降低推薦策略和專家行為策略的衰減狀態(tài)分布比來優(yōu)化推薦策略,策略評價網(wǎng)絡(luò)試圖優(yōu)化隱激勵函數(shù)(式(9))的估計來最大化累積獎勵函數(shù),從而捕捉到不同反饋信號代表的價值信息。

2 異策略模仿學(xué)習(xí)方法

針對上述逆強(qiáng)化學(xué)習(xí)序列推薦方法存在的問題,本文提出了一種異策略模仿-強(qiáng)化學(xué)習(xí)的序列推薦算法COG4Rec(off-poliCy imitatiOn learninG):對于價值激勵函數(shù)設(shè)計的挑戰(zhàn),通過對數(shù)衰減狀態(tài)分布比模仿用戶外傾向的價值激勵函數(shù);對于同策略交互的挑戰(zhàn),通過Donsker-Varadhan展開得到異策略更新的優(yōu)化目標(biāo)。同時,因為推薦問題缺乏公認(rèn)的基準(zhǔn)仿真器,COG4Rec提出了一種基于隨機(jī)混合集成[22]的策略評價網(wǎng)絡(luò),以隨機(jī)性增加多樣性。

2.1 問題定義

序列推薦系統(tǒng)利用用戶-商品交互記錄來強(qiáng)化未來的推薦:給定用戶最近t個交互的商品序列(i1,i2,…,it)和用戶反饋類型(如點擊和購買),系統(tǒng)旨在利用平臺收集的歷史行為樣本作為專家演示集,將其表示為集合Euclid Math OneDAp,預(yù)測下一個候選的it+1,同時限制序列的最大長度為n,即t<n,如果長度短于n,采用右補(bǔ)齊的方式到最大長度。

2.2 框架概述

如圖3所示,COG4Rec包含用于推薦的推薦策略網(wǎng)絡(luò)actor和用于評估推薦的策略評價網(wǎng)絡(luò)critic兩個主要部分。推薦策略網(wǎng)絡(luò)actor首先用可學(xué)習(xí)的位置感知編碼將推薦項目空間映射到編碼空間,進(jìn)而基于注意力機(jī)制編碼表示用戶狀態(tài)向量。策論評價網(wǎng)絡(luò)critic采用前饋神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu),基于actor推薦動作和用戶狀態(tài)預(yù)測可能的累積獎勵,并使用多簇隨機(jī)混合集成彌補(bǔ)數(shù)據(jù)集Euclid Math OneDAp的多樣性不足。下一時刻的推薦候選項采用協(xié)同濾波的思路,通過actor注意力模塊輸出結(jié)果與用戶潛在狀態(tài)編碼向量的內(nèi)積得到。

2.3 模型結(jié)構(gòu)

為了實現(xiàn)式(8)提出的基于衰減狀態(tài)分布匹配的生成對抗學(xué)習(xí)過程,COG4Rec設(shè)計了一種基于actor-critic模型架構(gòu),如圖3所示。

2.3.1 推薦策略網(wǎng)絡(luò)actor

為了挖掘用戶的內(nèi)動態(tài)傾向,推薦策略網(wǎng)絡(luò)actor采用了多頭自注意力模塊作為主干網(wǎng)絡(luò),本節(jié)依次介紹網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計。

b)自注意力模塊。注意力機(jī)制計算的是取值按維度系數(shù)縮放的加權(quán)和,可定義為

其中:j∈{1,2,…}表示當(dāng)前交互序列的前j項。為了增加actor的網(wǎng)絡(luò)深度從而學(xué)習(xí)更高階的用戶表征向量,COG4Rec采用了殘差連接和層歸一化增強(qiáng),如圖3的self-attention所示。

c)預(yù)測層。為了預(yù)測用戶的候選推薦項,actor在自注意力模塊的基礎(chǔ)上,利用用戶編碼共享的商品編碼空間進(jìn)行內(nèi)積矩陣因式分解[6],得到相關(guān)預(yù)測分?jǐn)?shù):

ri,t=S(b)tETi(15)

其中:ri,t表示商品i與當(dāng)前用戶狀態(tài)S(b)t的相關(guān)性,即成為下一個候選項的可能性。雖然共享用戶與商品編碼空間存在一致對稱過擬合的風(fēng)險,但逐點前饋網(wǎng)絡(luò)(式(12)所示)引入的非線性能確保式(15)學(xué)習(xí)到非對稱的商品編碼轉(zhuǎn)換。

值得注意的是,雖然策略評價網(wǎng)絡(luò)critic和推薦策略網(wǎng)絡(luò)actor均可完成預(yù)測層任務(wù),其中critic強(qiáng)調(diào)序列外傾向估值,actor關(guān)注序列內(nèi)動態(tài)相關(guān)性,但是由于離線環(huán)境的限制,相關(guān)研究工作[7]指出,critic作為推薦預(yù)測端,會導(dǎo)致actor梯度估計方差上升。因此COG4Rec采用actor網(wǎng)絡(luò)進(jìn)行推薦預(yù)測。

2.3.2 策略評價網(wǎng)絡(luò)critic

為了挖掘用戶歷史交互的外傾向,COG4Rec采用策略評價網(wǎng)絡(luò)critic最小化推薦策略分布和用戶行為記錄分布的狀態(tài)分布匹配差異,來最大化代表外傾向的累積價值激勵,網(wǎng)絡(luò)結(jié)構(gòu)如圖3 critic所示。具體來說,critic在逐點前饋神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上采用了C簇隨機(jī)混合集成[22],以隨機(jī)性緩解專家演示樣本Euclid Math OneDAp多樣性不足的問題,并通過集成方式,避免隨機(jī)混合引入的噪聲。具體來說,critic以當(dāng)前狀態(tài)編碼向量和推薦項目編碼向量作為輸入:

綜上所述,圖4給出了COG4Rec模型的推薦流程,首先初始化參數(shù)模型,進(jìn)而根據(jù)推薦結(jié)果是否得到正反饋(更新最大似然估計)和是否得到高價值正反饋(更新衰減匹配分布)來更新模型參數(shù),并利用actor網(wǎng)絡(luò)通過貪心搜索的方式得到推薦列表,反復(fù)迭代得到完整的交互軌跡。

2.4 模型優(yōu)化

為了解決有效利用作為專家演示的歷史記錄數(shù)據(jù)Euclid Math OneDAp,并聯(lián)合挖掘用戶興趣的內(nèi)動態(tài)方面和外傾向方面,COG4Rec采用衰減狀態(tài)分布匹配的生成對抗優(yōu)化過程:策略評價網(wǎng)絡(luò)critic最小化推薦策略分布和用戶行為記錄分布的狀態(tài)分布匹配差異,避免了強(qiáng)化學(xué)習(xí)啟發(fā)式設(shè)計價值激勵函數(shù)的過程;COG4Rec的推薦策略網(wǎng)絡(luò)actor最大化累積對數(shù)衰減狀態(tài)分布比,避免了模仿學(xué)習(xí)分布漂移的問題。

2.4.1 外傾向?qū)W習(xí)

為了挖掘用戶歷史交互的外傾向,COG4Rec提出了一種基于衰減狀態(tài)分布比的優(yōu)化學(xué)習(xí)過程。具體來說,式(6)Donsker-Varadhan展開得到:

其中:r(s,a)通過對式(6)進(jìn)行貝爾曼算子轉(zhuǎn)換得到

其中:策略評價網(wǎng)絡(luò)ν(s,a)作用相當(dāng)于狀態(tài)-動作價值函數(shù),充分優(yōu)化學(xué)習(xí)后可近似對數(shù)衰減分布比(式(19)右側(cè)所示),貝爾曼算子定義為

其中:為簡化表示,將t+1時刻狀態(tài)動作表示為t′標(biāo)記,代入貝爾曼算子得到優(yōu)化目標(biāo)JDDR。

其中:因為衰減狀態(tài)分布(式(19)所示)的引入使同策略的采樣(式(18)第二項)化簡為利用專家演示集進(jìn)行的采樣(式(21)第二項),故式(21)是異策略的。

2.4.2 內(nèi)動態(tài)學(xué)習(xí)

為了挖掘用戶當(dāng)前序列的內(nèi)動態(tài)傾向,COG4Rec采用最大似然估計(maximum likelihood estimation,MLE)作為內(nèi)動態(tài)的學(xué)習(xí)目標(biāo),如下:

該目標(biāo)基于當(dāng)前交互歷史,自回歸地優(yōu)化下一時刻的預(yù)測,因此,能夠使得模型向著挖掘內(nèi)動態(tài)方向更新參數(shù)。

算法1 優(yōu)化算法

2.4.3 整體優(yōu)化目標(biāo)

如算法1所示,用戶內(nèi)動態(tài)和外傾向的整體優(yōu)化如下:

其中:推薦策略網(wǎng)絡(luò)actor通過最大化衰減狀態(tài)分布比來逼近專家策略; 策略評價網(wǎng)絡(luò)critic通過最小化衰減狀態(tài)分布比來評估生成的策略。策略評價網(wǎng)絡(luò)critic收斂的解析最優(yōu)解可以表示為(對式(21)兩側(cè)求導(dǎo)等于0可得)

值得指出的是,式(24)為同策略逆強(qiáng)化學(xué)習(xí)方法GAIL[15]及GCL[16]的顯式優(yōu)化目標(biāo),直接估計式(23)的分布比需要大量同策略交互,故GAIL[15]和GCL[16]的策略更新數(shù)據(jù)利用率較異策略更新方法有所下降。

3 實驗結(jié)果及分析

為了驗證COG4Rec的有效性,實驗工作在兩個基準(zhǔn)序列推薦數(shù)據(jù)集(Yoochoose和Retailrocket)上進(jìn)行了廣泛的對比研究。首先,對COG4Rec與代表性的推薦系統(tǒng)基線方法比較了top-k推薦性能,以進(jìn)行總體性能對比;然后,在Retailrocket數(shù)據(jù)集上,對COG4Rec進(jìn)行詳細(xì)的消融實驗分析,以證明該算法關(guān)鍵設(shè)計對系統(tǒng)性能提升的貢獻(xiàn)。

a)實驗設(shè)置。基準(zhǔn)序列推薦數(shù)據(jù)集Yoochoose和Retailrocket分別包含點擊和購買兩類交互反饋。為了保持不同推薦模型對比的一致性,實驗中遵照文獻(xiàn)[7]的預(yù)處理過程,刪除了Yoochoose和Retailrocket中互動次數(shù)少于三次的序列,得到的數(shù)據(jù)集統(tǒng)計結(jié)果如表1所示。實驗用于衡量推薦性能的兩個指標(biāo)是:表征top-k排序性能(k∈{5,10,20})的歸一化折損累計增益NG;反映召回性能的命中率HR[7]。

b)對比基線。選擇了具有代表性的序列推薦算法:(a)深度自回歸序列推薦系統(tǒng)GRURec[29]、Caser[12]、SASRec[6],其自回歸網(wǎng)絡(luò)結(jié)構(gòu)(GRU、CNN、Transformer)能有效地學(xué)習(xí)用戶內(nèi)動態(tài)特性,其表現(xiàn)性能優(yōu)于一階馬爾可夫協(xié)同分解[28];(b)基于強(qiáng)化學(xué)習(xí)的序列推薦模型,基于狀態(tài)-動作價值函數(shù)的VPQ[14]和SSQN[7]、基于“actor-critic”神經(jīng)網(wǎng)絡(luò)架構(gòu)的SSAC[7]和兩種離線強(qiáng)化學(xué)習(xí)方法作為骨干網(wǎng)絡(luò)的CQL[32]和UWAC[33]。

c)實現(xiàn)細(xì)節(jié)。兩個數(shù)據(jù)集采用的輸入序列長度均為10個當(dāng)前時刻的近期交互,并使用數(shù)據(jù)集交互商品數(shù)作為右補(bǔ)齊的掩碼向量,編碼向量均采用64維,批量輸入(batch size)大小為128,實驗統(tǒng)一采用與VPQ相同的激勵函數(shù)設(shè)置方法(購買價值為1,點擊價值為0.2)。CQL超參數(shù)α設(shè)為0.5,VPQ的λ=20,UWAC的λ=1.6。VPQ、SSQN、SSAC和COG4Rec從actor網(wǎng)絡(luò)預(yù)測下一時刻推薦,CQL和UWAC的推薦策略采用maxaQ(s,a)的貪心搜索得到。COG4Rec采用了單頭兩層自注意力模塊,實現(xiàn)過程參考SASRec結(jié)構(gòu)(SASRec代碼地址:https://github.com/kang205/SASRec)。推薦策略網(wǎng)絡(luò)actor的學(xué)習(xí)率為1E-4,策略評價網(wǎng)絡(luò)critic的學(xué)習(xí)率為1E-3,通過Adam執(zhí)行模型反向傳播優(yōu)化。actor網(wǎng)絡(luò)在自注意力模塊之后通過兩層前饋神經(jīng)網(wǎng)絡(luò)(為了節(jié)省計算資源,實驗中采用兩層前饋神經(jīng)網(wǎng)絡(luò)作為非線性映射)映射用戶狀態(tài)編碼和商品編碼(隱藏層64維),并通過內(nèi)積函數(shù)式(24)預(yù)測相關(guān)分?jǐn)?shù)r。策略評價網(wǎng)絡(luò)critic的折扣系數(shù)設(shè)為0.95,兩層前饋神經(jīng)網(wǎng)絡(luò)(隱藏層64維,非線性函數(shù)為ReLU)映射后,通過15簇(C=15)隨機(jī)混合得到評價分?jǐn)?shù)v,actor和critic同步更新。

3.1 總體性能對比

表2、3分別列出了Retailrocket和Yoochoose的性能比較,其中:最優(yōu)結(jié)果粗體表示,次優(yōu)結(jié)果下畫線表示,“*”表示雙邊t檢驗,p<0.05。a)與傳統(tǒng)序列推薦模型GRU4Rec、Caser和SASRec相比,COG4Rec的提升歸功于衰減狀態(tài)分布優(yōu)化的同時建模了用戶的累計外傾向,而傳統(tǒng)模型則僅依賴用戶序列行為內(nèi)動態(tài),使得策略網(wǎng)絡(luò)缺失長時累計價值反饋的監(jiān)督引導(dǎo),因此只反映了序列動態(tài)轉(zhuǎn)移的用戶興趣傾向。由于深度自回歸模型存在梯度消散的問題,故模型本身無法有效建模長時興趣。b)與SSQN和SSAC相比,SSQN和SSAC的特點是均采用深度Q學(xué)習(xí),Q學(xué)習(xí)依靠與環(huán)境交互來糾正異策略估計的偏差,而離線學(xué)習(xí)要求導(dǎo)致評估偏差會在當(dāng)前任務(wù)中累積,從而阻礙這兩種方法有效學(xué)習(xí)用戶的外傾向,而COG4Rec將異策略估計偏差(表現(xiàn)為KL散度)作為critic網(wǎng)絡(luò)優(yōu)化的學(xué)習(xí)目標(biāo)。c)基于強(qiáng)化學(xué)習(xí)的序列推薦模型VPQ、CQL和UWAC通過Q函數(shù)的不確定性來估計預(yù)測方差,并使用乘性加權(quán)(VPQ、UWAC)或減性歸一化(CQL)的方法來消除不確定性,而不確定性由啟發(fā)式設(shè)計得到,因而缺乏自適應(yīng)性。式(8)的收斂點等價于對數(shù)分布比形式的激勵函數(shù)式(9),因此actor最大化累積激勵的過程式(11)避免了啟發(fā)式設(shè)計,COG4Rec更具適應(yīng)性。

綜上所述,COG4Rec通過異策略衰減狀態(tài)分布匹配學(xué)習(xí)的方式解決強(qiáng)化學(xué)習(xí)策略評估的及時交互挑戰(zhàn),提高了數(shù)據(jù)使用效率,并通過收斂到對數(shù)分布比形式的價值激勵函數(shù)來避免啟發(fā)式設(shè)計激勵函數(shù)形式的挑戰(zhàn)。

3.2 消融實驗分析

為了驗證COG4Rec關(guān)鍵設(shè)計的有效性,本文在Retailrocket數(shù)據(jù)集上進(jìn)行了消融實驗(表4給出k=20的結(jié)果,其他k值具備類似的統(tǒng)計趨勢)。表4第一行(“val-only”)表示僅基于 IDDR(r,v) 優(yōu)化actor和critic兩個網(wǎng)絡(luò),該策略強(qiáng)調(diào)對用戶外傾向的捕捉,與僅依靠 IMLE(r) 優(yōu)化actor網(wǎng)絡(luò)去掉critic網(wǎng)絡(luò)的預(yù)測結(jié)果(“rel-only”)相比,它的性能有所下降,這是因為狀態(tài)-動作價值函數(shù)時序差分學(xué)習(xí)無法通過在線交互矯正異策略方差較大的問題,如前所述基于隱私安全性的考慮,欠優(yōu)化的推薦系統(tǒng)與用戶的在線互動受到限制。用戶外傾向IDDR(r,v)和內(nèi)動態(tài)IMLE(r)聯(lián)合優(yōu)化的預(yù)測結(jié)果(“val+rel-rem”)效果更好,證明了COG4Rec優(yōu)化目標(biāo)(式(15))的有效性。引入隨機(jī)混合集成的聯(lián)合優(yōu)化預(yù)測結(jié)果(“val+rel+rem”)進(jìn)一步分散了數(shù)據(jù)樣本,從而實現(xiàn)了最佳性能。

綜上所述,進(jìn)一步的消融實驗驗證了衰減狀態(tài)分布匹配的聯(lián)合優(yōu)化目標(biāo)(式(13)所示)和隨機(jī)混合集成方法(式(24)所示)對提升COG4Rec推薦性能的重要性。

4 結(jié)束語

本文提出了一種基于異策略衰減狀態(tài)分布匹配的新型序列推薦算法COG4Rec,在收斂到對數(shù)分布比形式的價值激勵函數(shù)的同時,保證了累積用戶反饋激勵最大化。此外,COG4Rec采用異策略更新的方式迭代推薦策略,因而提高了數(shù)據(jù)使用效率。值得指出的是,COG4Rec使用的隨機(jī)混合集成是增加演示數(shù)據(jù)多樣性的初步折中方案,而基于用戶模型因果建模的模仿學(xué)習(xí)則是未來進(jìn)一步值得探索的方向。

參考文獻(xiàn):

[1]Zangerle E, Bauer C. Evaluating recommender systems: survey and framework[J]. ACM Computing Surveys, 2022,55(8): 1-38.

[2]Zhao Xiangyu, Zhang Liang, Ding Zhuye, et al. Recommendations with negative feedback via pairwise deep reinforcement learning[C]//Proc of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. New York: ACM Press, 2018: 1040-1048.

[3]Fang Hui, Guo Guibing, Zhang Danning, et al. Deep learning-based sequential recommender systems:concepts, algorithms, and evaluations[M]//Bakaev M, Frasincar F, Ko I Y. Web Engineering. Cham: Springer, 2019: 574-577.

[4]張杰, 陳可佳. 關(guān)聯(lián)項目增強(qiáng)的多興趣序列推薦方法[J]. 計算機(jī)應(yīng)用研究, 2023, 40(2): 456-462. (Zhang Jie, Chen Kejia. Item associations aware multi-interest sequential recommendation method[J]. Application Research of Computers, 2023,40(2): 456-462.)

[5]歐道源, 梁京章, 吳麗娟. 基于高斯分布建模的序列推薦算法[J]. 計算機(jī)應(yīng)用研究, 2023,40(4): 1108-1112. (Ou Daoyuan, Liang Jingzhang, Wu Lijuan. Algorithm of sequential recommendation based on Gaussian distribution modeling[J]. Application Research of Computers, 2023,40(4): 1108-1112.)

[6]Kang W C, Mcauley J. Self-attentive sequential recommendation[C]//Proc of IEEE International Conference on Data Mining. Pisca-taway, NJ: IEEE Press, 2018: 197-206.

[7]Xin Xin, Karatzoglou A, Arapakis I, et al. Self-supervised reinforcement learning for recommender systems[C]//Proc of the 43rd International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM Press, 2020: 931-940.

[8]Xiao Teng, Wang Donglin. A general offline reinforcement learning framework for interactive recommendation[C]//Proc of AAAI Confe-rence on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2021: 4512-4520.

[9]Xu Chengfeng, Zhao Pengpeng, Liu Yanchi, et al. Recurrent convolutional neural network for sequential recommendation[C]//Proc of the World Wide Web Conference. New York:ACM Press, 2019: 3398-3404.

[10]Duan Jiasheng, Zhang Pengfei, Qiu Ruihong, et al. Long short-term enhanced memory for sequential recommendation[J]. World Wide Web, 2023,26(2): 561-583.

[11]Xu Chengfeng, Feng Jian, Zhao Pengpeng, et al. Long-and short-term self-attention network for sequential recommendation[J]. Neurocomputing, 2021,423: 580-589.

[12]Tang Jiaxi, Wang Ke. Personalized top-n sequential recommendation via convolutional sequence embedding[C]//Proc of the 11th ACM International Conference on Web Search and Data Mining. New York: ACM Press, 2018: 565-573.

[13]Bai Xueying, Guan Jian, Wang Hongning. A model-based reinforcement learning with adversarial training for online recommendation[C]//Proc of the 33rd International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2019: 10735-10746.

[14]Gao Chengqian, Xu Ke, Zhou Kuangqi, et al. Value penalized Q-learning for recommender systems[C]//Proc of the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM Press, 2022: 2008-2012.

[15]Ho J, Ermon S. Generative adversarial imitation learning[C]//Proc of the 30th International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2016: 4572-4580.

[16]Finn C, Levine S, Abbeel P. Guided cost learning: deep inverse optimal control via policy optimization[C]//Proc of the 33rd International Conference on Machine Learning.[S.l.]: JMLR.org, 2016: 49-58.

[17]Fu J, Luo K, Levine S. Learning robust rewards with adverserial inverse reinforcement learning[EB/OL]. (2018-02-23). https://openreview.net/forum? id=rkHywl-A-.

[18]Kumar A, Hong J, Singh A, et al. When should we prefer offline reinforcement learning over behavioral cloning?[EB/OL]. (2022-04-12). https://browse.arxiv.org/abs/2204.05618.

[19]Rashidinejad P, Zhu Banghua, Ma Cong, et al. Bridging offline reinforcement learning and imitation learning: a tale of pessimism[J]. IEEE Trans on Information Theory, 2022,68(12): 8156-8196.

[20]Jing Mingxuan, Ma Xiaojian, Huang Wenbing, et al. Reinforcement learning from imperfect demonstrations under soft expert guidance[C]//Proc of AAAI Conference on Artificial Intelligence. Palo Alto, CA: AAAI Press, 2020: 5109-5116.

[21]Kostrikov I, Agrawal K K, Dwibedi D, et al. Discriminator-actor-critic: addressing sample inefficiency and reward bias in adversarial imitation learning[EB/OL]. (2018-10-15). https://browse.arxiv.org/abs/1809.02925.

[22]Agarwal R, Schuurmans D, Norouzi M. An optimistic perspective on offline reinforcement learning[C]//Proc of the 37th International Conference on Machine Learning. [S.l.]: PMLR, 2020: 104-114.

[23]Zhang Shuai, Yao Lina, Sun Aixin, et al. Deep learning based recommender system: a survey and new perspectives[J]. ACM Computing Surveys, 2019, 52(1): article No. 5.

[24]Atkeson C G, Schaal S. Robot learning from demonstration[C]//Proc of the 14th International Conference on Machine Learning. San Francisco, CA: Morgan Kaufmann Publishers Inc., 1997: 12-20.

[25]Nachum O,Chow Y,Dai Bo,et al. Dualdice: behavior-agnostic estimation of discounted stationary distribution corrections[C]//Proc of the 33rd International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc.,2019:article No.208.

[26]Rendle S, Freudenthaler C, Gantner Z, et al. BPR: Bayesian personalized ranking from implicit feedback[C]//Proc of the 25th Conference on Uncertainty in Artificial Intelligence. Arlington, Virginia: AUAI Press, 2009: 452-461.

[27]He Xiangnan, Liao Lizi, Zhang Hanwang, et al. Neural collaborative filtering[C]//Proc of the 26th International Conference on World Wide Web. Republic and Canton of Geneva, CHE: International World Wide Web Conferences Steering Committee. 2017: 173-182.

[28]Rendle S,F(xiàn)reudenthaler C,Schmidt-Thieme L. Factorizing personalized Markov chains for next-basket recommendation[C]//Proc of the 19th International Conference on World Wide Web. New York: ACM Press, 2010: 811-820.

[29]Hidasi B, Karatzoglou A, Baltrunas L, et al. Session-based recommendations with recurrent neural networks[EB/OL]. (2016-03-29). https://arXiv.org/abs/1511.06939.

[30]Chen Minmin, Beutel A, Covington P, et al. Top-k off-policy correction for a REINFORCE recommender system[C]//Proc of the 12th ACM International Conference on Web Search and Data Mining. New York: ACM Press, 2019: 456-465.

[31]Mnih V, Kavukcuoglu K, Silver D, et al. Human-level control through deep reinforcement learning[J]. Nature, 2015,518(7540): 529-533.

[32]Kumar A, Zhou A, Tucker G, et al. Conservative Q-learning for offline reinforcement learning[C]//Proc of the 34th International Conference on Neural Information Processing Systems. Red Hook, NY: Curran Associates Inc., 2020: article No. 100.

[33]Wu Yue, Zhai Shuangfei, Srivastava N, et al. Uncertainty weighted actor-critic for offline reinforcement learning[EB/OL]. (2021-05-17). https://arxiv.org/abs/2105.08140.

建德市| 惠水县| 雅江县| 泸州市| 阳朔县| 盖州市| 西充县| 保定市| 余姚市| 衡阳市| 新丰县| 梧州市| 晴隆县| 石泉县| 昌江| 莎车县| 抚顺县| 吉林市| 白河县| 重庆市| 松滋市| 光山县| 邯郸市| 商洛市| 临沭县| 抚远县| 宝坻区| 万载县| 武强县| 台南县| 桐乡市| 南漳县| 西宁市| 和田市| 海安县| 宜阳县| 壤塘县| 奎屯市| 宜章县| 湖口县| 南宫市|