国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合用戶和商品評(píng)論的雙通道CNN推薦算法

2019-08-12 02:35馮興杰徐一雄曾云澤
現(xiàn)代電子技術(shù) 2019年14期
關(guān)鍵詞:推薦系統(tǒng)特征提取

馮興杰 徐一雄 曾云澤

關(guān)鍵詞: CNN推薦算法; 推薦系統(tǒng); 特征提取; 文本矢量化; 抽象特征映射; 評(píng)分預(yù)測(cè)

中圖分類號(hào): TN911?34; TP301.6 ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼: A ? ? ? ? ? ? ? ? ? ?文章編號(hào): 1004?373X(2019)14?0121?06

Dual channel CNN recommendation algorithm combining user and product reviews

FENG Xingjie, XU Yixiong, ZENG Yunze

(School of Computer Science and Technology, Civil Aviation University of China, Tianjin 300300, China)

Abstract: The recommendation model based on scoring matrix is widely used. However, it ignores the large amount of semantic information in the comments that reflects the user′s interests, and the data sparsity problem still exists although it has achieved certain recommendation accuracy. In allusion to the above problems, a Double?channel CNN recommendation algorithm (C?DCNN) that fuses user reviews and product reviews is proposed. The user and product review texts are vectorized as word vectors, and then the users and the items are extracted by using two CNN networks respectively. Finally, the abstract features of the user and the items are mapped to the same feature space through the dot product in the shared layer to predict the user′s scoring for a particular item. The results of some experiments on the public datasets of Amazon, Yelp, and Beer show that the models MSE on different datasets is smaller than other benchmark algorithms, which also alleviate the problem of data sparsity effectively.

Keywords: CNN recommendation algorithm; recommendation system; characteristic extraction; text vectorization; abstract feature mapping; scoring prediction

0 ?引 ?言

在過去10年中,隨著互聯(lián)網(wǎng)的興起,數(shù)據(jù)量呈現(xiàn)出爆炸式的增長(zhǎng)[1]。為了更好地在信息中挖掘出有價(jià)值的信息呈現(xiàn)給客戶,誕生了許多形式的推薦系統(tǒng)。例如用戶相似度推薦算法[2]、用戶隱因子反饋[3]、評(píng)論文本的情感[4?6]以及情境感知推薦系統(tǒng)等,發(fā)現(xiàn)目前主流的推薦算法都是基于顯性評(píng)分的,盡管它們達(dá)到了一定的推薦精度,但忽略了評(píng)論中大量可用的語義信息。傳統(tǒng)的推薦方法主要有兩類:基于內(nèi)容的推薦[7?8]和協(xié)同過濾推薦[9?10}。雖然傳統(tǒng)的推薦方法在提高推薦系統(tǒng)精度方面有著較好的效果,但評(píng)分矩陣所具有的稀疏性、推薦的冷啟動(dòng)和擴(kuò)展性等問題依然存在。本文研究如何利用評(píng)論文本來優(yōu)化推薦模型。

1 ?相關(guān)工作

隨著深度學(xué)習(xí)的崛起,基于神經(jīng)網(wǎng)絡(luò)的文本內(nèi)容挖掘方法,在文本的分類、聚類、情感分析等相關(guān)自然語言處理的任務(wù)中,逐漸形成一個(gè)熱潮[11]。深度學(xué)習(xí)通過組合低層特征形成更加稠密的高層語義抽象,從而自動(dòng)發(fā)現(xiàn)數(shù)據(jù)的隱含特征表示,解決了傳統(tǒng)機(jī)器學(xué)習(xí)中需要人工設(shè)計(jì)特征的問題。

文獻(xiàn)[12]介紹的詞頻統(tǒng)計(jì)思想最先應(yīng)用于自動(dòng)分類之中,從而開啟了文本挖掘領(lǐng)域的研究。文獻(xiàn)[13]的研究顯示,評(píng)論文本在推薦系統(tǒng)中的應(yīng)用主要分為兩類:用戶建模和物品建模。評(píng)論文本中最常見的建模方式來自于信息檢索領(lǐng)域,在這種方式中,用戶和物品可以直接使用與其相關(guān)的評(píng)論文本來建模。文獻(xiàn)[14]利用用戶評(píng)論學(xué)習(xí)商品特征在不同主題上的分布及用戶對(duì)商品不同特征的偏好程度,把商品特征和用戶偏好的契合度引入傳統(tǒng)的協(xié)同過濾算法中,提高了推薦準(zhǔn)確率。文獻(xiàn)[15]采用LDA模型發(fā)現(xiàn)Yelp評(píng)論文本的子話題后再進(jìn)行預(yù)測(cè)評(píng)分。文獻(xiàn)[16]在實(shí)驗(yàn)中發(fā)現(xiàn)評(píng)論文本的情感分析也有助于提高預(yù)測(cè)精度。使用文本建模是解決評(píng)分矩陣稀疏性最為直接的方法,但大部分只有正反兩類情感,且傳統(tǒng)方法更多的是將評(píng)論文本分成用戶集和商品集,分別對(duì)用戶集和商品集進(jìn)行挖掘,得出各自的潛在主題分布,沒有考慮相互之間的交互帶來的影響,缺乏對(duì)于評(píng)論文本的充分挖掘。在此基礎(chǔ)上,本文提出了融合用戶和商品評(píng)論的雙通道CNN推薦算法(Combine?Double CNN,C?DCNN)。

2 ?聯(lián)合用戶評(píng)論和商品評(píng)論的推薦算法

2.1 ?本文使用符號(hào)的定義

本文所用符號(hào)定義如下:[Netu],提取用戶行為偏好特征的網(wǎng)絡(luò);[Neti],提取物品特征的網(wǎng)絡(luò);[Mu],用戶[u]的評(píng)論的詞向量映射矩陣;[Mi],物品[i]的評(píng)論的詞向量映射矩陣;[t],卷積核的窗口大小;[Kj],卷積層中的第[j]個(gè)卷積核;[oj],卷積層第[j]個(gè)神經(jīng)元的輸出;[Fu],[Netu]經(jīng)過全連接層后的輸出;[Fi],[Neti]經(jīng)過全連接層后的輸出;[g],[Fu]和[Fi]進(jìn)行拼接后的向量;[yui],用戶[u]對(duì)物品[i]的預(yù)測(cè)評(píng)分。

2.2 ?模型結(jié)構(gòu)

本文提出的C?DCNN模型整體結(jié)構(gòu)如圖1所示。該模型包含兩個(gè)平行網(wǎng)絡(luò),左邊的網(wǎng)絡(luò)[Netu]主要用來提取用戶的行為偏好特征,右邊的網(wǎng)絡(luò)[Neti]主要用來提取物品的特征,最后通過一個(gè)共享層整合兩個(gè)網(wǎng)絡(luò)的輸出從而預(yù)測(cè)用戶的評(píng)分。模型的第一層是詞向量映射層,用戶評(píng)論和物品評(píng)論會(huì)被映射成詞向量矩陣作為卷積層的輸入;第二層和第三層都是卷積神經(jīng)網(wǎng)絡(luò)層,主要用來提取用戶行為偏好和物品在高級(jí)抽象空間中的特征表達(dá);第四層是全連接層。由于[Netu]和[Neti]的唯一不同就是第一層的詞向量映射層,因此接下來的章節(jié)主要敘述[Netu]的處理細(xì)節(jié),對(duì)應(yīng)[Neti]的處理步驟同[Netu]。

2.3 ?詞向量映射層

圖2為Amazon評(píng)論數(shù)據(jù)集前10行。其中reviewerID代表用戶ID;asin代表商品ID;overall代表用戶對(duì)商品的評(píng)分;userReviews代表用戶在所有商品上的評(píng)價(jià)集合;movieReviews代表商品的所有評(píng)價(jià)集合。實(shí)驗(yàn)中分別對(duì)userReviews和movieReviews中的評(píng)價(jià)用Word2vec映射成一定維度的稠密向量,再輸入到C?DCNN左右兩個(gè)卷積模型中進(jìn)行推薦。

詞向量映射[f:M→Rn],表示根據(jù)詞字典M將詞映射到[n]維向量的函數(shù),C?DCNN模塊中n取值為50。在詞向量映射層,評(píng)論被映射為詞向量矩陣去挖掘語義信息。首先將用戶[u]的所有評(píng)論詞向量合并為一個(gè)文檔[d],該文檔的長(zhǎng)度固定為包含[n]個(gè)詞,因此該用戶的評(píng)論詞向量矩陣[M]為:

[M=θ(d1)⊕θ(d2)⊕…⊕θ(dn)] (1)

式中:[dk]表示文檔[d]中第[k]個(gè)詞k=1,2,…,n;[θ(dk)]表示將該詞[dk]映射到相應(yīng)的[n]維詞向量空間。

2.4 ?卷積模塊

第二層是卷積神經(jīng)網(wǎng)絡(luò)層,該層用于提取用戶[u]的評(píng)論詞向量矩陣[Mu]的抽象特征,假設(shè)共有[m]個(gè)神經(jīng)元,某一個(gè)神經(jīng)元[j]使用詞窗大小為[t]的卷積核[Kj∈Rc×t]。因此對(duì)詞向量矩陣[Mu],每一個(gè)卷積核[Kj]的卷積結(jié)果可以表示為:

[κj=f(Mu?Kj+bj)] ? ? ? ? (2)

式中:符號(hào)“[?]”表示卷積操作;[bj]是偏移項(xiàng);[f]是激活函數(shù)ReLUs,其表達(dá)式為:

[f(x)=max{0,x}] ? ? ? ? ? ? ? (3)

圖3是卷積模塊中的MaxPooling層,它使用的是一維MaxPooling,詞窗大小設(shè)置為2。例如,在第一個(gè)詞窗范圍內(nèi)的9和3,則取最大值9。

通過MaxPooling層,卷積操作的輸出[κi]將會(huì)被縮減到一個(gè)固定大小的向量:

[oj=max{κ1,κ2,…,κ(n-t+1)}] (4)

式(4)是一個(gè)卷積核的處理結(jié)果,該模型一共使用[k]個(gè)卷積核共同提取多種不同的特征,因此[k]個(gè)卷積核的輸出向量可表示為:

[O=o1,o2,…,ok] ? ? ? ? ? (5)

Dropout是一種防止神經(jīng)網(wǎng)絡(luò)過擬合的有效機(jī)制,每一輪訓(xùn)練中,隨機(jī)失活部分隱藏層的神經(jīng)元使得每次訓(xùn)練的網(wǎng)絡(luò)都不一樣。本文實(shí)驗(yàn)中取Dropout的概率為0.5,也就是說,訓(xùn)練時(shí)每一個(gè)連接都有50%的概率被去除,而在測(cè)試時(shí)保留所有連接。

BN層的主要作用是允許訓(xùn)練網(wǎng)絡(luò)使用較大的學(xué)習(xí)率,加快網(wǎng)絡(luò)收斂速度。在每次梯度下降時(shí),通過mini?batch來對(duì)相應(yīng)的激活函數(shù)做規(guī)范化操作,使得結(jié)果(輸出信號(hào)的各個(gè)維度)的均值為0,方差為1。

在經(jīng)過第二個(gè)卷積層后,數(shù)據(jù)輸入到全連接層,最后得到用戶[u]的高級(jí)抽象特征向量[Fu∈Rd×1],全連接層的具體表達(dá)式為:

[Fu=f(W·O+b′)] ? ? ? ? ?(6)

式中:矩陣[W]是全連接層的權(quán)重參數(shù);[b′]是全連接層的偏移項(xiàng)。最后,可以分別得到用戶卷積網(wǎng)絡(luò)[Netu]和物品卷積網(wǎng)絡(luò)[Neti]的輸出[Fu,F(xiàn)i]。

2.5 ?共享層

[Fu,F(xiàn)i]是處于不同特征空間的用戶特征和物品特征,為了準(zhǔn)確地預(yù)測(cè)出用戶對(duì)物品的評(píng)分,需要將它們映射到相同的特征空間。首先將用戶特征向量[Fu]和物品特征向量[Fi]進(jìn)行拼接操作,得到一個(gè)向量[g=(Fu,F(xiàn)i)]。盡管[Fu,F(xiàn)i]處于不同的特征空間,但是這兩個(gè)空間是存在交集的,也就是它們潛在的相互作用。為了進(jìn)一步捕捉該相互作用,在評(píng)分預(yù)測(cè)函數(shù)加入了[Fu,F(xiàn)i]的點(diǎn)積項(xiàng)[FTuFi],則用戶[u]對(duì)物品[i]的評(píng)分預(yù)測(cè)函數(shù)[yui]的表達(dá)式為:

[yui=w0+i=1gwigi+FTuFi] ?(7)

3.5 ?模型結(jié)構(gòu)討論與分析

為了驗(yàn)證C?DCNN雙通道結(jié)構(gòu)的合理性、能有效緩解數(shù)據(jù)稀疏性以及使用BN層來提高訓(xùn)練速度的必要性,下文分別將具有雙通道結(jié)構(gòu)的C?DCNN與單網(wǎng)絡(luò)結(jié)構(gòu)的SC?DCNN做對(duì)比。下面分別介紹C?DCNN與SC?DCNN的區(qū)別:

1) C?DCNN。其具有兩個(gè)網(wǎng)絡(luò)[Netu]和[Neti]:[Netu]主要從該用戶的評(píng)論提取該用戶的隱特征;[Neti]主要從該物品的評(píng)論提取該物品的隱特征。最后使用一個(gè)共享層來整合兩個(gè)網(wǎng)絡(luò)的輸出至相同的特征空間進(jìn)行評(píng)分預(yù)測(cè)。

2) SC?DCNN。其只使用一個(gè)網(wǎng)絡(luò)[Net],該網(wǎng)絡(luò)具體的卷積層結(jié)構(gòu)與[Netu]一樣。將用戶評(píng)論矩陣[Mu]和物品評(píng)論矩陣[Mi]拼接成一個(gè)矩陣[M]作為[Net]的輸入。由于只有一個(gè)網(wǎng)絡(luò),因此取消共享層,即損失函數(shù)取消點(diǎn)積項(xiàng)。

如表4所示,分別將C?DCNN和SC?DCNN應(yīng)用在數(shù)據(jù)集Yelp,Amazon,Beer來對(duì)比兩個(gè)模型的評(píng)分預(yù)測(cè)MSE。可以看出, C?DCNN在3個(gè)數(shù)據(jù)集上的平均MSE比 SC?DCNN減少0.381。原因在于雙通道的參數(shù)比單網(wǎng)絡(luò)的參數(shù)多1倍,C?DCNN更能細(xì)致地捕獲用戶和物品的隱特征,而且雙通道結(jié)構(gòu)的[Netu]和[Neti]是并行結(jié)構(gòu),互不干擾,能夠分別專注地提取用戶和物品高級(jí)抽象的隱特征。最后通過額外的共享層將兩個(gè)網(wǎng)絡(luò)的隱特征信息映射到相同的特征空間,充分挖掘用戶隱特征和物品隱特征的潛在親和度,因而達(dá)到精準(zhǔn)預(yù)測(cè)評(píng)分的效果。

冷啟動(dòng)問題目前普遍存在于推薦系統(tǒng)中,特別是當(dāng)新用戶加入系統(tǒng)時(shí),它們可用的評(píng)分是有限的,系統(tǒng)從它們的評(píng)分來學(xué)習(xí)出隱含特征并不容易。實(shí)驗(yàn)中發(fā)現(xiàn)在測(cè)試集上,當(dāng)用戶組和評(píng)分量很少時(shí),本文提出的C?DCNN模型的MSE明顯優(yōu)于傳統(tǒng)的單通道結(jié)構(gòu)模型,有效緩解了數(shù)據(jù)稀疏性。

3.6 ?C?DCNN模型穩(wěn)定性分析

為了驗(yàn)證C?DCNN模型的穩(wěn)定性,實(shí)驗(yàn)中數(shù)據(jù)集劃分采用五折交叉驗(yàn)證,并進(jìn)行了8輪實(shí)驗(yàn)。結(jié)果如圖5所示,8輪實(shí)驗(yàn)中的驗(yàn)證集損失值大體趨勢(shì)上與訓(xùn)練輪數(shù)呈負(fù)相關(guān),而且在整體的訓(xùn)練過程中不會(huì)出現(xiàn)大幅度的抖動(dòng),能夠以較大的學(xué)習(xí)率到達(dá)最低的損失值。實(shí)驗(yàn)結(jié)果表明,C?DCNN模型具有良好的穩(wěn)定性。

4 ?結(jié) ?論

本文提出融合用戶和商品評(píng)論的雙通道CNN推薦算法(C?DCNN)。相比傳統(tǒng)利用評(píng)分矩陣的模型,所提算法利用文本詞向量的C?DCNN有效緩解了數(shù)據(jù)稀疏性帶來的影響,極大地提高了預(yù)測(cè)的準(zhǔn)確率。此外,實(shí)驗(yàn)證明了將用戶評(píng)論和商品評(píng)論分別使用兩個(gè)網(wǎng)絡(luò)進(jìn)行處理的合理性,并表明C?DCNN訓(xùn)練過程具有良好的穩(wěn)定性。

本文關(guān)注利用評(píng)論文本進(jìn)行推薦,在今后的研究中將會(huì)考慮用戶、商品特征隨時(shí)間變化,潛在特征的權(quán)重,以及推薦系統(tǒng)中情境對(duì)推薦結(jié)果的影響等因素。

參考文獻(xiàn)

[1] 黃立威,劉艷博,李德毅.基于深度學(xué)習(xí)的推薦系統(tǒng)[J].計(jì)算機(jī)學(xué)報(bào),2017(40):1?29.

HUANG Liwei, LIU Yanbo, LI Deyi. Recommendation system based on deep learning [J]. Chinese journal of computers, 2017(40): 1?29.

[2] 徐志明,李棟,劉挺,等.微博用戶的相似性度量及其應(yīng)用[J].計(jì)算機(jī)學(xué)報(bào),2014,37(1):207?218.

XU Zhiming, LI Dong, LIU Ting, et al. The similarity measure of Weibo users and its application [J]. Chinese journal of computers, 2014, 37(1): 207?218.

[3] 余剛,王知衍,邵璐,等.基于奇異值分解的個(gè)性化評(píng)論推薦[J].電子科技大學(xué)學(xué)報(bào),2015,44(4):605?610.

YU Gang, WANG Zhiyan, SHAO Lu, et al. Personalized comment recommendation based on singular value decomposition [J]. Journal of University of Electronic Science and Technology of China, 2015, 44(4): 605?610.

[4] 申昌,冀俊忠.基于雙通道卷積神經(jīng)網(wǎng)絡(luò)的文本情感分類算法[J].模式識(shí)別與人工智能,2018,31(2):158?166.

SHEN Chang, YAN Junzhong. Text sentiment classification algorithm based on two?channel convolutional neural network [J]. Pattern recognition and artificial intelligence, 2018, 31(2): 158?166.

[5] 李涵昱,錢力,周鵬飛.面向商品評(píng)論文本的情感分析與挖掘[J].情報(bào)科學(xué),2017,35(1):51?55.

LI Hanyu, QIAN Li, ZHOU Pengfei. Affective analysis and mining for commodity comment texts [J]. Information science, 2017, 35(1): 51?55.

[6] 李勇敢,周學(xué)廣,孫艷,等.中文微博情感分析研究與實(shí)現(xiàn)[J].軟件學(xué)報(bào),2017,28(12):3183?3205.

LI Yonggan, ZHOU Xueguang, SUN Yan, et al. Research and implementation of sentiment analysis in Chinese weibo [J]. Journal of software, 2017, 28(12): 3183?3205.

[7] 冷亞軍,陸青,梁昌勇.協(xié)同過濾推薦技術(shù)綜述[J].模式識(shí)別與人工智能,2014,27(8):720?734.

LENG Yajun, LU Qing, LIANG Changyong. Overview of collaborative filtering recommendation techniques [J]. Pattern recognition and artificial intelligence, 2014, 27(8): 720?734.

[8] 單京晶.基于內(nèi)容的個(gè)性化推薦系統(tǒng)研究[D].長(zhǎng)春:東北師范大學(xué),2015.

SHAN Jingjing. Research on content?based personalized recommendation system [D]. Changchun: Northeast Normal University, 2015.

[9] 王瑞琴,蔣云良,李一嘯,等.一種基于多元社交信任的協(xié)同過濾推薦算法[J].計(jì)算機(jī)研究與發(fā)展,2016,53(6):1389?1399.

WANG Ruiqin, JIANG Yunliang, LI Yixiao, et al. A collaborative filtering recommendation algorithm based on multiple social trusts [J]. Journal of computer research and development, 2016, 53(6): 1389?1399.

[10] 陸坤,謝玲,李明楚.一種融合隱式信任的協(xié)同過濾推薦算法[J].小型微型計(jì)算機(jī)系統(tǒng),2016,37(2):241?245.

LU Kun, XIE Ling, LI Mingchu. A Collaborative filtering recommendation algorithm based on implicit trust [J]. Microcomputer systems, 2016, 37(2): 241?245.

[11] SILVER D, HUANG A, MADDISON C J, et al. Mastering the game of Go with deep neural networks and tree search [J]. Nature, 2016, 529(7587): 484?489.

[12] 楊霞,黃陳英.文本挖掘綜述[J].科技信息,2009(33):82.

YANG Xia, HUANG Chenying. Summary of text mining [J]. Science and technology information, 2009(33): 82.

[13] CHEN L, CHEN G, WANG F. Recommender systems based on user reviews: the state of the art [J]. User modeling and user?adapted interaction, 2015, 25(2): 99?154.

[14] 譚云志,張敏,劉奕群,等.基于用戶評(píng)分和評(píng)論信息的協(xié)同推薦框架[J].模式識(shí)別與人工智能,2016,29(4):359?366.

TAN Yunzhi, ZHANG Min, LIU Yiqun, et al. Collaborative recommendation framework based on user rating and comment information [J]. Pattern recognition and artificial intelligence, 2016, 29(4): 359?366.

[15] HUANG J, ROGERS S, JOO E. Improving restaurants by extracting subtopics from yelp reviews [C]// Proceedings of Final Submission of the iConference. Berlin, Germany, 2014: 1?5.

[16] MUKHERJEE S, BASU G, JOSHI S. Incorporating author preference in sentiment rating prediction of reviews [C]// Proceedings of the 22nd International World Wide Web Conference(WWW). Rio de Janeiro, Brazil, 2013: 47?48.

猜你喜歡
推薦系統(tǒng)特征提取
基于Gazebo仿真環(huán)境的ORB特征提取與比對(duì)的研究
基于Daubechies(dbN)的飛行器音頻特征提取
一種基于LBP 特征提取和稀疏表示的肝病識(shí)別算法
數(shù)據(jù)挖掘在選課推薦中的研究
基于用戶偏好的信任網(wǎng)絡(luò)隨機(jī)游走推薦模型
基于個(gè)性化的協(xié)同過濾圖書推薦算法研究
個(gè)性化推薦系統(tǒng)關(guān)鍵算法探討
淺談Mahout在個(gè)性化推薦系統(tǒng)中的應(yīng)用
關(guān)于協(xié)同過濾推薦算法的研究文獻(xiàn)綜述
基于DSP的直線特征提取算法