国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合主題信息和卷積神經網絡的混合推薦算法

2020-08-06 08:28田保軍房建東
計算機應用 2020年7期
關鍵詞:文檔卷積矩陣

田保軍,劉 爽,房建東

(1.內蒙古工業(yè)大學信息工程學院,呼和浩特 010080;2.內蒙古工業(yè)大學數據科學與應用學院,呼和浩特 010080)

(*通信作者電子郵箱ngdtbj@126.com)

0 引言

隨著互聯網信息的指數型增長,用戶的選擇更加多樣化,這樣雖能更好地滿足用戶需求,但是快速查詢所需要的信息變得越來越困難。為了幫助用戶擺脫困境,推薦系統[1]應運而生,其中協同過濾推薦[2]和基于內容的推薦[3]是當前推薦系統的兩種主流技術,但這兩種方法都存在著諸多缺點。其中,數據稀疏性是傳統的協同過濾模型存在的主要問題[4],而基于內容的推薦獲取的又是淺層特征,不能很好地描述用戶與項目的行為[5],導致推薦精度不高。深度學習模型恰好能夠提取到深層次的特征,將深度學習能夠學習到的稠密、連續(xù)、多層次的用戶和項目的特征,例如:近鄰關系、主題關系以及用戶的評論和標簽信息等[6-9],與協同過濾推薦融合,使得混合推薦系統不僅具有傳統推薦方法的簡單、可解釋性強等優(yōu)點,而且使得推薦精度更高。目前,傳統的推薦算法與深度學習算法進行結合已經成為越來越多的研究者關注的研究熱點[10]。

Kim 等[11]提出了基于卷積矩陣因子分解(Convolutional Matrix Factorization,ConvMF)模型,利用卷積神經網絡(Convolutional Neural Network,CNN)處理項目的文本信息,學習到項目的隱特征,融入到通過PMF 模型分解的評分矩陣中,提高了評分預測的準確性。但是該方法僅僅根據評論的原始文字來提取項目的連續(xù)全局特征,忽略了文檔中顯著的主題特征信息。Liu 等[12]提出了一種改進的基于主題模型隱狄利克雷分布(Latent Dirichlet Allocation,LDA)的協同過濾算法。該算法根據用戶項目評分矩陣建立LDA 模型,獲取用戶多個顯著特征單獨表示信息,得到用戶項目選擇概率矩陣,然后按照項目屬性對項目集進行聚類,根據聚類結果對矩陣進行裁剪。實驗結果表明,主題模型可以有效地提高推薦的精度。張敏等[13]將評論信息引入推薦系統中,提出棧式降噪自編碼器(Stacked Denoising AutoEndoder,SDAE)與隱含因子模型(Latent Factor Model,LFM)相結合的混合推薦方法,進一步地提升了推薦模型對潛在評分預測的準確性。Hyun等[14]提出了一個可擴展評論感知的推薦方法SentiRec(Sentic Reccommendation),它在建模用戶和項目時被引導結合評論的情感。該方法分兩步:第一步將每篇評論編碼成一個固定大小的評論向量,這個向量經過訓練以體現評論的觀點;第二步根據向量編碼的評論生成推薦。實驗結果表明,該方法不僅優(yōu)于現有的神經網絡推薦方法,而且推薦效果優(yōu)于僅僅考慮評論上下文連續(xù)特征的方法。Chen 等[15]提出了一種聯合神經協同過濾推薦系統的方法,它是一種將深度特征學習和深度交互建模與關聯矩陣相結合的聯合神經網絡。深度特征學習基于用戶-項目評分矩陣,通過深度學習架構提取用戶和項目的特征表示,聯合訓練使深度特征學習和深度交互建模過程相互優(yōu)化,從而提高推薦性能。

綜上所述,利用深度學習技術、融合多源異構數據成為提高推薦系統準確性的一種重要方法,但是已有相關研究還存在很多問題。其中,從項目評論信息提取的項目特征面臨著艱巨的問題就是輔助數據的表示,輔助數據表示還存在著單一性和準確性不高問題。

針對以上問題,本文提出了一種基于隱狄利克雷分布(LDA)與CNN 的概率矩陣分解推薦模型(Probability Matrix Factorization recommendation model based on LDA and CNN,LCPMF)。該模型綜合考慮項目評論文檔的主題信息與深層語義信息,分別使用LDA 主題模型和文本卷積神經網絡對項目評論文檔建模,獲取項目評論文檔的顯著潛在低維主題信息及全局深層語義信息,接著通過線性加權組合得到項目隱因子矩陣,最后融合到PMF 概率矩陣分解PMF 模型中,產生預測評分進行推薦。通過實驗將本文提出的新推薦模型LCPMF 與經典的PMF、協同深度學習(Collaborative Deep Learning,CDL)與ConvMF 等模型進行實驗結果對比,驗證了本文提出模型的可行性和有效性。

1 相關理論

1.1 基本概率矩陣分解

基于矩陣分解的推薦模型是隱含語義模型的一種方法,屬于基于模型的協同過濾算法[16],概率矩陣分解模型是協同過濾的算法中最具代表性且廣泛使用的,它的基本思想是通過分解評分矩陣再重構的方式補全評分矩陣中的不可觀測值,具體來說,首先構建“用戶-項目”矩陣R并將其分解為兩個低維的矩陣U、矩陣V的乘積方式,然后通過U和V的內積來重構新的評分矩陣,這樣原始的評分矩陣R中沒有評分的項目也有了相應的評分,將用戶已經評分的項目剔除掉,根據“重構”出的分值對剩余項目的評分進行排序即可得到最終的項目推薦列表,其目標函數為:

其中:Rij為真實評分;UTi Vj為預測評分;λU與λV為正則化參數,用來防止過擬合;n與m分別代表n個用戶與m個項目;Iij為指示函數,有評分時為1,沒有評分時為0。

在推薦系統中,真實的用戶對項目的評分矩陣通常是非常稀疏的,例如Amazon 數據集的稀疏度為0.03%,這導致推薦的預測評分準確率較差。針對概率矩陣分解模型中數據稀疏和準確性問題,引入了輔助信息——項目評論文檔,優(yōu)化概率矩陣分解模型,從而緩解用戶評分的稀疏性。

1.2 主題模型

LDA 是一種文檔主題生成模型,也稱為一個三層貝葉斯概率模型,包含詞、主題和文檔三層結構。所謂生成模型,就是說,認為一篇文章的每個詞都是通過“以一定概率選擇了某個主題,并從這個主題中以一定概率選擇某個詞語”這樣一個過程得到。文檔到主題服從多項式分布,主題到詞服從多項式分布[17]。因此,由同一主題下某個詞出現的概率,以及同一文檔下某個主題出現的概率,兩個概率的乘積,可以得到某篇文檔出現某個詞的概率,如圖1所示。

圖1 LDA主題模型結構Fig.1 LDA topic model structure

因此在LDA模型中,一篇文檔生成的方式如下:

1)從狄利克雷分布α中取樣生成文檔j的主題分布θj;

2)從主題的多項式分布θj中取樣生成文檔j第n個詞的主題Zj,n;

3)從狄利克雷分布β中取樣生成主題Zj,n對應的詞語分布φk;

4)從詞語的多項式分布φk中采樣最終生成詞語Wj,n。

在推薦系統的研究中,有學者將主題模型用于基于隱因子模型的推薦算法中,但是當輔助信息稀疏時,它不能夠獲取有效以及充分的輔助數據表示,提升的效果有限。

1.3 卷積神經網絡

卷積神經網絡(CNN)通常應用于計算機視覺領域做圖像分類、檢測,以及自然語言處理等任務[18-19]。近年來,卷積又被引入推薦系統,并取得了很好的效果。網絡結構由嵌入層、卷積層、池化層和輸出層這四個部分構成,可以隱式地從訓練數據中進行學習特征,如圖2所示。

圖2 卷積神經網絡結構Fig.2 Convolutional neural network structure

在之前的推薦系統研究中,也有學者將卷積神經網絡用于基于隱因子模型的推薦算法中,它可以學習用戶或者項目的隱藏特征,如Kim 等[11]使用卷積神經網絡學習項目評論文檔中的隱特征,然后使用學習到的特征與PMF 結合用于推薦,雖然神經網絡學習到了項目文檔的深層語義信息,但它同樣忽略了項目文檔的顯著主題特征表示,不能獲取項目文檔的多層描述,導致了項目評論文檔特征表示提取的不全面。

2 LCPMF算法描述

本章主要從以下三個方面介紹基于LDA 與CNN 的概率矩陣分解推薦算法(LCPMF)。

1)介紹融合CNN 與LDA 的具體思想過程(LDA and CNN,LC)模型,并通過分析項目評論文檔生成項目文檔的潛在特征表示;

2)介紹融合LDA與CNN的概率圖模型,描述PMF模型和融合模型LC結合的主要思想,建立被優(yōu)化之后的項目特征條件概率。

3)給出模型優(yōu)化之后的目標函數以及求解過程。

2.1 融合主題和卷積神經網絡的評論文本建模

已有的相關性研究中從項目評論文檔提取的項目特征表示還存在著單一性和準確性不高問題。綜合考慮評論主題特征與深層語義信息,本文首先使用word2vec與Glove構建詞向量模型,它可以快速地構建單詞的詞向量模型[20],把原先的詞嵌入到一個新的空間,能有效地表征詞的語義信息。建立詞向量模型之后,分別使用LDA 主題模型和文本卷積神經網絡對項目評論文檔建模。

2.1.1 評論文檔LDA建模

LDA 是一種基于概率模型的主題模型算法,用來識別文檔中隱含的主題信息。LDA主題模型雖然忽略了特征之間的聯系,但是可以獲取項目評論文檔的多個顯著特征單獨表示。使用LDA 構建項目評論文檔潛在主題表示,在項目評論文檔數據集中,每一行為一個項目的所有評論,每一個項目的評論代表了一些主題所構成的一個概率分布,而每一個主題又代表了很多單詞所構成的一個概率分布,從而將文本信息轉化為了易于建模的向量信息。針對于每個項目的評論文檔,從項目評論的全部主題分布中提取其中一個項目評論主題分布,從被抽到的項目主題下的單詞分布中提取一個單詞,直至遍歷整個評論文檔中的每個單詞,LDA 認為每篇文檔是多個主題混合而成,而每個主題可以由多個詞的概率表征,主題模型LDA的核心公式為:

其中:Wj,n表示項目評論j中的第n單詞;kn表示單詞對應的主題。本文生成項目評論文檔-主題向量過程如下:

步驟1 輸入為項目評論文檔Yj,對每一篇項目評論文檔,Yj從項目主題分布中抽取一個主題。

步驟2 從已經被抽到的項目主題所對應的單詞分布中抽取一個單詞。

步驟3 重復步驟1~2直至遍歷文檔中的每一個單詞;最后輸出主題模型、主題詞文檔、詞概率文檔、文檔主題文檔、主題概率文檔。

步驟4 先對每個主題下對應的單詞分別進行詞向量表示,并與對應的概率進行相乘;然后進行加權得到主題詞向量表示。

步驟5 對每個文檔下的主題概率與主題詞向量進行乘積表示,加權得到文檔主題向量表示。

步驟6 輸出項目評論文檔潛在主題表示向量。

2.1.2 評論文檔CNN建模

卷積神經網絡CNN 模型雖然不能挖掘項目評論文檔中關鍵性和代表性信息,但是它可以獲取全局信息以及上下文的之間的聯系。CNN模型中的多層卷積可以獲取項目評論文檔中詞語之間的相互關聯,并學習到項目的全局信息以及上下文的之間的聯系,繼而得到項目的隱表示,具體過程如下所示:

1)嵌入層。

本文實驗的項目評論文檔的最大長度max-length設置為300,每個單詞的詞向量維度為200 維,組成詞向量矩陣如式(3)所示。

其中:W1,i為詞向量;G表示由詞向量組成的矩陣。

2)卷積層。

在卷積層中,對詞向量矩陣G提取特征,卷積中使用的滑動窗口大小分別為3、4、5,得到不同文本卷積神經網絡的卷積操作可以用式(4)表示:

其中:A表示某個卷積核上的激活值;wi,j是權重;relu為本文采用的激活函數;G表示卷積層的輸入詞向量矩陣。

經過以上的卷積操作,卷積層的輸出公式如下:

其中,A為經過不同卷積核形成的項目評論文檔新特征,作為卷積池化層的輸入。

3)池化層。

池化層采用最大池化,池化的大小為(300-滑動窗口+1) ×1,每一個卷積核對應一個值,把這些值拼接起來,就得到一個表征該句子的新特征量。

4)輸出層。

在輸出層中,將新特征量映射成最后的項目隱特征表示。利用卷積神經網絡將原始的項目評論文檔轉換成項目特征向量,輸出項目評論文檔的深層語義表示矩陣,用式(6)向L維空間進行映射:

其中:h1、h2為映射矩陣;b1、b2為偏置;dz為池化層的輸出;Yj為卷積神經網絡的輸入;w'為卷積神經網絡的參數,最后卷積神經網絡的輸出維度要與概率矩陣分解PMF 模型中的隱特征向量維度相等。

2.1.3 融合LDA和CNN獲取項目的多層次表示

使用LDA 模型和CNN 模型獲取相同維度的項目潛在低維主題信息及深層語義信息之后,考慮了項目評論文檔局部的潛在的主題特征,同時也注意到推薦也會受到項目評論的全局的深層語義影響。為了同時綜合考慮兩者的關系,使用線性函數將兩者關聯起來,加權整合主題信息及語義信息得到新的項目評論文檔特征,如式(7)所示:

其中:cnn(w',Yj)為經過卷積神經網絡CNN 處理得到的文檔的特征;θj為通過主題模型LDA 提取的文檔的主題特征;ω為權重。LDA主題模型可以獲取項目評論文檔多個顯著特征單獨表示,忽略了特征之間的聯系,而CNN中不能挖掘文檔中關鍵性和代表性信息,但是可以獲取全局信息以及上下文的之間的聯系。通過線性函數將兩者結合起來,得到新的項目評論文檔向量,對于項目評論文檔,既考慮了項目評論文檔的局部信息,又考慮了項目評論文檔的全局信息,得到項目評論文檔的多層次表示,解決項目評論文檔特征提取不全面問題。接下來,將兩個模型融入概率圖模型PMF中。

2.2 融合主題和卷積神經網絡的概率圖模型

針對傳統的協同過濾算法中數據稀疏性和推薦結果不準確性問題,提出了基于LDA 與CNN 的概率矩陣分解推薦模型(LCPMF)。

2.2.1 構建模型LCPMF

算法首先使用基于線性關系的LDA 主題模型與CNN(LC模型)提取項目評論文檔多層次特征表示Yj;然后將多層次特征應用于項目的隱因子V中,其中LDA 主題模型輸出與CNN輸出都與PMF的隱因子個數相同;最后,使用用戶的隱因子U和物品的隱因子V重構評分矩陣R,如圖3所示。

圖3 LCPMF概率圖Fig.3 Probability diagram of LCPMF

圖3中,R為評分,U、V分別為用戶與項目特征,θj為主題分布,Yj為卷積神經網絡的輸入,w'為權重,L'為卷積神經網絡的輸出。

對于傳統的概率矩陣分解模型PMF,用戶對項目的評分Rij的條件概率分布為:

其中:Rij服從均值為μ、方差為σ2的高斯正態(tài)分布的概率密度函數;Iij是指示函數,如果有評分為1,否則為0。

同時假設用戶隱特征均服從μ=0、σ2=σ2U的高斯先驗。

和傳統PMF 算法中不同的是:項目的隱特征向量不再由高斯分布生成,而是由四個變量構成,分別是:項目評論文檔Yj,卷積神經網絡權重w',主題分布θj,高斯噪聲ρj。因此,被優(yōu)化之后的項目隱特征的條件概率表達式為:

其中V*的構成如下所示:

V*表示融合LDA與CNN的項目特征向量,對于所有項目評論文檔運用LDA生成的主題分布服從θj~Dirichlet(α)。

令卷積神經網絡w'與高斯噪聲ρj也服從高斯分布:

從LC 模型提取的項目評論文檔的多層次表示特征向量作為項目的隱因子,其中項目的隱因子滿足均值為ω·cnn(w',Yj)+(1-ω)θj,方差為ρj的高斯分布。

2.2.2 模型優(yōu)化

為了優(yōu)化用戶隱因子的提取、項目偏差變量和LC的隱向量,使用最大后驗估計,根據貝葉斯公式可得:

其中:U、V*分別代表用戶和優(yōu)化之后的項目;R代表評分矩陣;Yj為卷積神經網絡與主題模型的輸入,ω代表衡量卷積神經網絡與主題模型的權重系數。

對式(14)取對數,可得最終的目標函數如下所示:

其中:Rij為處理之后的原始矩陣;(ω·cnn(w',Yj)+(1-ω)θj)TU為預測評分;U、V*各代表用戶與項目的特征;w'為卷積神經網絡的權重;Yj為卷積神經網絡的輸入;wkn代表單詞;K為主題;θjk為第j個項目的主題分布,且,。

根據Loss 損失函數進行求解時,采用梯度下降法對用戶隱向量和項目隱向量進行更新。更新表達式如下:

其中:Ik為對角矩陣;λU與λV*為正則化參數。式(17)中影響項目的潛在向量為CNN 模型與LDA 模型融合之后的項目評論文檔特征。在給定U和V*之后,根據優(yōu)化之后的項目隱特征向量與輸入時的項目特征隱向量的誤差,采用誤差反向傳播算法更新卷積神經網絡的參數。

2.2.3 算法總體流程

基于LCPMF的推薦算法流程如下所示。

3 實驗與結果分析

3.1 實驗環(huán)境

采用 GPU Tesla P100-PCIE-12GB;操作系統為Ubuntukylin-16.04-desktop-amd64;編程環(huán)境使用Pycharm 2018.3.1 x64;開發(fā)語言為Python 2.7;深度學習框架為Keras 2.2.4;后端使用TensorFlow 1.8.0。

3.2 實驗評價標準

為了評估模型的總體性能,采用均方根誤差(Root Mean Square Error,RMSE)、平均絕對偏差(Mean Absolute Error,MAE)作為評價標準。通過預測值和真實值之間的差距來反映推薦模型的好壞,MAE與RMSE值越小,代表著推薦結果的精度就越高。本文采用上述兩種方式進行,具體計算式如下:

其中:T表示測試集評分記錄數;Rij表示用戶i對項目j的真實評分;表示用戶i對項目j的預測評分值。

3.3 實驗結果分析

本文中采用的數據集為Movielens 1M、Movielens 10M 和Amazon 真實數據集。數據集中包括用戶項目的打分。Amazon 數據集包含評論文檔。Movielens 數據集中的評論文檔從IMDB數據集中獲取,數據集詳細描述如表1所示。

將實驗數據集按照8∶1∶1 的比例分為訓練集、驗證集與測試集,分別計算MAE的值和RMSE的值。

表1 實驗數據集詳細描述Tab.1 Detailed description of experimental datasets

本文主要考慮以下幾個主要參數對算法的影響:

1)卷積與主題模型的權重ω對模型的影響。

首先,評測卷積與主題模型的權重ω對模型的影響,參考ConvMF 和深度學習在自然語言處理中的研究,假定K=5,α=0.5,β=0.01,L=50,λU=90,λV*=10。

分析參數ω對實驗評價標準RMSE 值的影響,實驗結果如圖4 所示。從圖4中可以得出:在確定主題LDA 模型參數K=5,α=0.5,β=0.01,隱特征向量維度L=50,正則化參數λU=90,λV*=10的情況下,RMSE的值將隨著ω的值先下降再升高,當ω=0.5時達到最小,之后再增加。

圖4 參數ω對RMSE的影響Fig.4 Influence of parameter ω on RMSE

分析參數ω對實驗評價標準MAE 值的影響,實驗結果如圖5所示。從圖5中可以得出:MAE的值隨著權重參數ω的增加是先下降,之后一直升高,在項目隱向量特征中,LDA 主題特征占據較小的權重相較CNN 語義特征占據較小的權重時,前者推薦精度較好,但是當ω=0.5時,RMSE 與MAE 取最小值。

圖5 參數ω對MAE的影響Fig.5 Influence of parameter ω on MAE

通過以上兩組實驗,可以看出CNN 與LDA 提取項目評論文檔的特征表示具有差異性和互補性;而且,利用這一點將它們的特征表示融合之后,獲取項目文檔多層次的表示,提升了推薦系統的準確性,解決了項目評論文檔特征提取不全面問題。

2)正則化參數λU與λV*對模型的影響。

通過上述實驗,在ω=0.5的情況下,RMSE 與MAE 取得最小值。因此,在同樣條件下,采用此參數調節(jié)正則化參數λU與λV*的實驗。從表2中可以看出,當λV*=10時,隨著λU的不斷增大,RMSE 和MAE 在不斷減?。划敠薝=90時,RMSE 與MAE 取得極小值。當λU=90時,λV*不斷增大時,RMSE 和MAE 反而增高了,說明當λU=90,λV*=10時,RMSE 與MAE 達到最小值。

3)LDA主題個數K對模型的影響。

通過上述實驗,在λU=90,λV*=10的情況下,RMSE與MAE取得最小值,因此,在相同條件下,采用此參數進行主題個數K的最優(yōu)取值實驗,K值采用0、5、10、15、20、25。

分析主題個數K對實驗評價標準RMSE 值的影響,實驗結果如圖6 所示。從圖6中可以看到,當K=0時,只利用CNN 提取了項目評論的全局的深層語義影響,也就是經典的ConvMF 模型,但此時的RMSE 達到最大值,效果最差。圖中的折線呈現出先下降再上升的趨勢,當主題個數K=5時,RMSE達到最小值。

表2 參數λU與λV*對RMSE、MAE的影響Tab.2 Influence of parameter λU and λV*on RMSE and MAE

圖6 參數K對RMSE的影響Fig.6 Influence of different parameter K on RMSE

分析主題K對實驗評價標準MAE 值的影響,實驗結果如圖7所示。從圖7中可以得出:MAE的值隨著主題個數K的先下降再升高,同時在K=5時,MAE取最小值。

圖7 參數K對MAE 的影響Fig.7 Influence of different parameter K on MAE

通過以上兩組實驗,使用線性函數加權整合主題信息及語義信息得到新的項目評論文檔特征,可以明顯地提高推薦的準確性,證明了綜合考慮LDA 提取的評論文檔的主題特征和CNN提取的評論文檔全局特征兩者的關系是可行的。

4)隱特征維度L對模型的影響。

通過上述實驗,在主題個數K=5 的情況下,RMSE 與MAE取得最小值,因此,在相同條件下,采用此參數進行對隱特征維度L值的實驗,隱特征維度L分別采用25、50、75、100。

分析隱特征維度L對實驗評價標準RMSE 值與MAE 值的影響,實驗結果如表3 所示。從表3中可以看到:當隱特征維度L為25時,雖然花費時間較短,但是RMSE 與MAE 的值較高,準確度較低;當隱特征維度L為75和100時,雖然RMSE和MAE的值與50維度時相差不大,但是訓練時間效率上遠超過50 維。最后,綜合考慮時間效率和準確度的因素,將隱特征維度L=50時作為維度選擇的最優(yōu)值。

5)項目文檔最大長度max-length對模型的影響。

通過上述實驗,在隱特征向量維度L=50 的情況下,RMSE 與MAE 取得最小值,因此,在相同條件下,采用此參數進行對項目文檔最大長度max-length的實驗,項目文檔最大長度max-length分別采用50、100、200、300、350。

表3 參數L對模型性能的影響Tab.3 Influence of parameter L on model performance

分析項目文檔最大長度max-length對實驗評價標準RMSE值與MAE值的影響,實驗結果如表4所示。從表4中可以看到:當項目文檔最大長度max-length較小時,RMSE 與MAE 的值較高,準確度較低;當項目文檔最大長度max-length逐漸增大時,RMSE與MAE的值也逐漸降低,當項目文檔最大長度max-length達到350時,RMSE 與MAE 的值反而又開始增大了。所以,當項目文檔長度max-length=300時,RMSE 與MAE達到最優(yōu)。

表4 參數max-length對RMSE和MAE的影響Tab.4 Influence of parameter max-length on RMSE and MAE

6)LCPMF與其他不同模型在不同算法的對比。

將本文所提出的LCPMF,與4 種經典模型:PMF 模型、使用深度學習SDAE 與PMF 結合的推薦模型(CDL)、使用CNN與PMF 結合的推薦模型(ConvMF),分別在Movielens 1M、Movielens 10M 和Amazon 三種數據集上,進行了實驗評價標準RMSE值的比對,如表5所示。

表5 不同算法在不同數據集下的RMSE對比Tab.5 RMSE comparison of different algorithms on different datasets

本文的模型LCPMF 在Movielens 1M、Movielens 10M 和Amazon 三種數據集與PMF、CDL、ConvMF 模型的實驗評價標準MAE值比對,如表6所示。

表6 不同算法在不同數據集下的MAE對比Tab.6 MAE comparison of different algorithms on different datasets

從表5 與表6中可以看出,與經典的PMF 模型、CDL 模型和ConvMF 模型相比,本文提出的算法在不同數據集中無論是RMSE 還是MAE 都有明顯降低。相較PMF、CDL、ConvMF模型,所提推薦模型LCPMF 的均方根誤差(RMSE)和平均絕對誤差(MAE)在Movielens 1M 數據集上分別降低了6.03%和5.38%、5.12% 和4.03%、1.46% 和2.00%,在Movielens 10M 數據集上分別降低了5.35%和5.67%、2.50%和3.64%、1.75%和1.74%,在Amazon 數據集上分別降低17.71%和23.63%、14.92%和17.47%、3.51%和4.87%。這表明本文提出的基于LDA 與CNN 的概率矩陣分解推薦模型(LCPMF)是有效的,融合LDA 和CNN 的方法可以更準確地獲得用戶評論的特征表示,進一步提高推薦算法的準確性。

4 結語

本文提出了一種基于LDA 與CNN 的概率矩陣分解推薦模型(LCPMF)。該模型綜合考慮評論主題與上下文信息,通過結合卷積輸出的上下文特征和主題模型LDA 提取的主題特征,并使用權重系數決定兩個特征定義新文檔的影響程度,在一定程度上解決了數據稀疏和項目文本隱特征向量提取特征欠缺的問題,突出了用戶對項目的偏愛程度,提高了推薦的準確性。在三種公開真實的數據集Movlens 1M、Movlens 10M和Amazon 上進行實驗,使用MAE 和RMSE 指標作為評價標準,將本文模型與經典的模型PMF、CDL、ConvMF 進行對比,實驗結果表明本文提出的模型在推薦質量上都有明顯的提高,驗證了該模型在推薦系統中的可行性與有效性。由于本文僅僅優(yōu)化了項目隱特征向量的表示性問題,并沒有對用戶的隱特征向量進行優(yōu)化,下一步可針對該問題進行研究。

猜你喜歡
文檔卷積矩陣
基于全卷積神經網絡的豬背膘厚快速準確測定
淺談Matlab與Word文檔的應用接口
一種基于卷積神經網絡的地磁基準圖構建方法
基于3D-Winograd的快速卷積算法設計及FPGA實現
一種并行不對稱空洞卷積模塊①
有人一聲不吭向你扔了個文檔
輕松編輯PDF文檔
多項式理論在矩陣求逆中的應用
Word文檔 高效分合有高招
矩陣