龔道慶 曹愛清
摘? ?要:推薦系統(tǒng)是信息過濾的一種重要工具。隨著互聯(lián)網(wǎng)和大數(shù)據(jù)的介入,推薦系統(tǒng)的技術(shù)革新面臨著新的挑戰(zhàn)。近年來,深度學(xué)習(xí)的革命性進(jìn)步在語音識(shí)別、圖像分析和自然語言處理方面都受到了廣泛關(guān)注。與此同時(shí),一種應(yīng)用于許多復(fù)雜任務(wù)的最先進(jìn)的機(jī)器學(xué)習(xí)技術(shù)被用于推薦系統(tǒng),以提高推薦的質(zhì)量。由于其一流的性能表現(xiàn)和高質(zhì)量的推薦結(jié)果,深度學(xué)習(xí)可以更好地理解用戶需求、項(xiàng)目特征及其之間的歷史性互動(dòng)。文章提出將一種改進(jìn)的深度神經(jīng)網(wǎng)絡(luò)應(yīng)用于推薦系統(tǒng)。實(shí)驗(yàn)結(jié)果表明,該方法的效果令人矚目。
關(guān)鍵詞:深度神經(jīng)網(wǎng)絡(luò);推薦系統(tǒng);進(jìn)化算法
信息技術(shù)的革新、物聯(lián)網(wǎng)的迅猛發(fā)展以及在線服務(wù)的普及為人們快速獲取大量信息提供便捷。但是,面對(duì)海量數(shù)據(jù)源,人們?yōu)榱苏业胶线m、有用的信息,導(dǎo)致了信息超載問題的出現(xiàn)。深度學(xué)習(xí)在各方面取得了優(yōu)異的進(jìn)展[1-2]。因此,將深度學(xué)習(xí)引入推薦系統(tǒng)將會(huì)有很大的競(jìng)爭(zhēng)力。
1? ? 推薦系統(tǒng)算法分類
推薦系統(tǒng)總的來說可以分為3類,即基于內(nèi)容的推薦、協(xié)同過濾的推薦和混合推薦[3-4]。其中,基于協(xié)同過濾的推薦還包括基于近鄰的協(xié)同過濾和基于模型的協(xié)同過濾?;诮彽膮f(xié)同過濾又可以細(xì)分為基于用戶的協(xié)同過濾和基于項(xiàng)目的協(xié)同過濾?;谀P偷膮f(xié)同過濾則包含貝葉斯網(wǎng)絡(luò)模型、隱因子模型、圖模型等。
2? ? 深度神經(jīng)網(wǎng)絡(luò)的改進(jìn)方法
2.1? 卷積網(wǎng)絡(luò)參數(shù)優(yōu)化
一組合適的超參數(shù)對(duì)卷積網(wǎng)絡(luò)的性能起決定性作用[4]。卷積網(wǎng)絡(luò)中的卷積塊、池化塊等對(duì)特征提取至關(guān)重要。本研究利用遺傳算法(GA),通過迭代優(yōu)化出最佳卷積池化全連接的鏈接形式。遺傳進(jìn)化基因編碼如圖1所示。
其中,“C”代表卷積塊,“P”代表池化塊,而“F”代表全連接塊。在圖1(a)中,隨意生成了包含卷積-池化-卷積-卷積-池化-全連接的一條基因編碼。通過隨機(jī)初始化的基因,根據(jù)數(shù)據(jù)集的不斷進(jìn)化得到最佳組合的卷積網(wǎng)絡(luò)模型,其過程概述如下:
(1)初始化GA參數(shù)。
(2)設(shè)定超參數(shù)(卷積塊、池化塊、全連接塊)及其對(duì)應(yīng)的閾值。
(3)遺傳進(jìn)化,迭代出最優(yōu)參數(shù)組合。
(4)得到最優(yōu)卷積網(wǎng)絡(luò)模型(GA-CNN)。
2.2? 多層感知機(jī)(MLP)參數(shù)優(yōu)化
在多層感知機(jī)中,結(jié)構(gòu)當(dāng)中的隱藏層和沒層中的神經(jīng)元個(gè)數(shù)對(duì)整個(gè)網(wǎng)絡(luò)性能影響極大,因此,本研究同樣利用GA對(duì)多層感知機(jī)(Multilayer Perceptron,MLP)中的隱藏層數(shù)和神經(jīng)元個(gè)數(shù)進(jìn)行迭代優(yōu)化,得到最優(yōu)組合,其過程概述如下:
(1)初始化GA參數(shù)。
(2)設(shè)定層數(shù)、神經(jīng)元進(jìn)化取值范圍。
(3)遺傳進(jìn)化。
(4)得到最優(yōu)組合,構(gòu)建MLP網(wǎng)絡(luò)(GA-MLP)。
3? ? 基于改進(jìn)的深度學(xué)習(xí)推薦系統(tǒng)框架
首先,將用戶顯示或隱式反饋數(shù)據(jù)、用戶畫像和項(xiàng)目?jī)?nèi)容等信息、社會(huì)化關(guān)系、標(biāo)簽、評(píng)論等輔助數(shù)據(jù)輸入到GA-CNN網(wǎng)絡(luò)模型中進(jìn)行特征提取,得到項(xiàng)目隱表示和用戶隱表示;其次,將提取到的隱表示特征輸入到GA-MLP當(dāng)中;最后,通過多層感知機(jī)分類結(jié)果生成推薦列表給用戶推薦??蚣苋鐖D2所示。
其中,用戶、項(xiàng)目?jī)?nèi)容屬性以及社會(huì)化標(biāo)簽等輔助信息都是中文形式。要想將這些文字放入卷積網(wǎng)絡(luò)當(dāng)中進(jìn)行特征提取,需要用到微軟研發(fā)的Word2vec工具進(jìn)行轉(zhuǎn)換。任何一個(gè)詞,都可以表示成一個(gè)向量。利用神經(jīng)網(wǎng)絡(luò)來理解詞,最簡(jiǎn)單的方法是對(duì)單詞進(jìn)行one-hot編碼,但是得到的結(jié)果極度稀疏。Google的Tomas Mikolov研究發(fā)布的一款基于深度學(xué)習(xí)進(jìn)行詞向量學(xué)習(xí)的工具Word2vec,進(jìn)一步將one-hot壓縮成了一個(gè)稠密的向量(Dense Vector,DV)。通過簡(jiǎn)化神經(jīng)網(wǎng)絡(luò)語言模型內(nèi)部結(jié)構(gòu)(舍棄復(fù)雜的非線性隱藏層),緩解了Bengio模型中占用空間多的問題,Word2vec同時(shí)使用了目標(biāo)詞的上下文信息,省去了人工標(biāo)注的工作,學(xué)習(xí)速率大幅度提升,且能夠更好地表示詞語特征。
4? ? 實(shí)驗(yàn)結(jié)果
本節(jié)實(shí)驗(yàn)在ml-100k,ml-1m,ml-10M,amazon數(shù)據(jù)集上進(jìn)行,對(duì)項(xiàng)目協(xié)同過濾推薦模型、SVD推薦模型、PMF推薦模型、CMF推薦模型以及本實(shí)驗(yàn)的GA-HDL(進(jìn)化混合深度)模型在召回率指標(biāo)上做出比較,結(jié)果如表1所示。
可以看出,ml-100k,ml-1m,ml-10M,amazon這4個(gè)數(shù)據(jù)集,在使用改進(jìn)后的混合深度神經(jīng)網(wǎng)絡(luò)模型中,在召回率指標(biāo)上都優(yōu)優(yōu)于Item-based模型、SVD推薦模型、PMF推薦模型、CMF模型。其中召回率如式(1):
R(u)表示推薦系統(tǒng)在測(cè)試集上為用戶生成的推薦列表,T(u)表示用戶在測(cè)試集上的所有喜歡的項(xiàng)目。本研究通過遺傳算法GA分別對(duì)卷積神經(jīng)網(wǎng)絡(luò)和多層感知機(jī)進(jìn)行結(jié)構(gòu)優(yōu)化[5],再將優(yōu)化后的網(wǎng)絡(luò)組合結(jié)構(gòu)引用到推薦系統(tǒng)當(dāng)中。提出的模型相對(duì)于傳統(tǒng)方法有更好的推薦效果。
[參考文獻(xiàn)]
[1]黃立威,江碧濤,呂守業(yè),等.基于深度學(xué)習(xí)的推薦系統(tǒng)研究綜述[J].計(jì)算機(jī)學(xué)報(bào),2018(7):1619-1647.
[2]張祖平,沈曉陽.基于深度學(xué)習(xí)的用戶行為推薦方法研究[J].計(jì)算機(jī)工程與應(yīng)用,2019(4):142-147,158.
[3]鄧園園,吳美香,潘家輝.基于物品的改進(jìn)協(xié)同過濾算法及應(yīng)用[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2019(1):182-187.
[4]蔣宗禮,于莉.基于用戶特征的協(xié)同過濾推薦算法[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2019(8):190-196.
[5]唐賢倫,劉慶,張娜,等.混合PSO優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)[J].電子科技大學(xué)學(xué)報(bào),2018(2):230-234.