摘 要:隨著大數(shù)據(jù)、區(qū)塊鏈、人工智能等信息新技術(shù)的出現(xiàn)和應(yīng)用,我們已經(jīng)進(jìn)入到數(shù)據(jù)大爆炸時代,海量數(shù)據(jù)在為用戶帶來豐富選擇的同時也對用戶快速檢索到需求的信息,企業(yè)準(zhǔn)確把握用戶的需求提出挑戰(zhàn)。個性化推薦系統(tǒng)是基于海量企業(yè)運(yùn)營數(shù)據(jù),通過挖掘產(chǎn)品數(shù)據(jù)和用戶數(shù)據(jù)隱藏的信息,實(shí)現(xiàn)的針對不同用戶的“千人千面”的個性化推薦服務(wù),有助于企業(yè)精準(zhǔn)把握用戶需求,創(chuàng)造價值增益。
關(guān)鍵詞:大數(shù)據(jù);個性化推薦;機(jī)器學(xué)習(xí)
DOI:10.12249/j.issn.1005-4669.2020.25.320
1 引言
在近年來,隨著電子商務(wù)的興起,推薦系統(tǒng)得到了更為廣泛的應(yīng)用,同時也為推薦系統(tǒng)的研究注入了新的活力,例如Amazon、eBay、淘寶網(wǎng)等都采用了智能推薦系統(tǒng)來為用戶提供個性化的推薦服務(wù)。高質(zhì)量的推薦能夠增加用戶對網(wǎng)站的信任度,使用戶產(chǎn)生依賴心理,提高用戶對網(wǎng)站和企業(yè)的忠誠度。除了在電子商務(wù)領(lǐng)域的應(yīng)用之外,隨著個性化的信息服務(wù)逐漸成為應(yīng)用技術(shù)的熱點(diǎn),推薦系統(tǒng)在新聞、電影、書籍、微博等的個性化推薦中也取得了不同程度的成功。
目前,隨著人們在推薦算法領(lǐng)域的不斷研究,提出了許多準(zhǔn)確度高、可解釋性強(qiáng)的推薦算法,本片論文將基于內(nèi)容的推薦和協(xié)同過濾推薦算法進(jìn)行組合,提出一種聯(lián)合推薦算法并進(jìn)行實(shí)驗(yàn)。
2 推薦系統(tǒng)模型
推薦系統(tǒng)是商家和企業(yè)為了創(chuàng)造商業(yè)增益,增加用戶黏度,通過對用戶歷史行為數(shù)據(jù)和用戶信息數(shù)據(jù)進(jìn)行分析,發(fā)掘用戶興趣點(diǎn),向用戶準(zhǔn)確推送感興趣的商品而應(yīng)用的一套數(shù)據(jù)處理和分析系統(tǒng)。整個系統(tǒng)應(yīng)當(dāng)包括輸入,推薦引擎和輸出三個部分,如下圖1所示。
其中,輸入包括用戶靜態(tài)信息如姓名、性別、年齡等以及用戶動態(tài)信息包括消費(fèi)記錄、興趣傾向、反饋信息等。推薦引擎是整個推薦系統(tǒng)所采用的推薦算法,包括基于內(nèi)容的推薦、基于用戶的推薦、協(xié)同推薦等。輸出是推薦系統(tǒng)根據(jù)推薦引擎對輸入數(shù)據(jù)的處理,產(chǎn)生的待推薦產(chǎn)品列表,并將這些產(chǎn)品進(jìn)行排序,推送給用戶。
2 實(shí)驗(yàn)介紹
1)數(shù)據(jù)集。本實(shí)驗(yàn)所采用的數(shù)據(jù)集是https://grouplens.org/datasets/movielens網(wǎng)站下載的ml-latest-small數(shù)據(jù)集。整個數(shù)據(jù)集統(tǒng)計(jì)了最近一段時間用戶對不同電影的評分情況,整個數(shù)據(jù)集包括611名用戶和9742部電影,數(shù)據(jù)基于現(xiàn)實(shí)統(tǒng)計(jì),真實(shí)可信。
2)聯(lián)合推薦算法原理。對于基于內(nèi)容的推薦算法而言[1],需要根據(jù)每部電影的內(nèi)容以及用戶已經(jīng)評過分的電影來推斷每個用戶對每部電影的喜好程度,從而預(yù)測每個用戶對沒看過的電影的評分。因此,要實(shí)現(xiàn)基于內(nèi)容的推薦系統(tǒng),除了電影評分矩陣外還需要引入一個電影內(nèi)容矩陣X作為算法輸入,X矩陣的橫向代表每部電影,縱向代表電影的特征維度。算法的目標(biāo)是要根據(jù)用戶-電影評分表和電影內(nèi)容矩陣X推導(dǎo)出用戶興趣矩陣θ,然后將用戶興趣矩陣θ與電影內(nèi)容矩陣X相乘,得到用戶對電影的預(yù)測評分矩陣并進(jìn)行排序推薦。整個算法的代價公式為:
對于協(xié)同過濾推薦算法而言[3],則是需要根據(jù)用戶對每種電影類型的喜好程度以及用戶已經(jīng)評過分的電影來推斷每部電影的內(nèi)容,從而預(yù)測每個用戶對沒看過電影的評分。因此,要實(shí)現(xiàn)協(xié)同過濾推薦系統(tǒng),處理電影評分表外還需要引入一個用戶興趣矩陣θ作為輸入,θ矩陣橫向代表每個用戶,縱向代表電影特征。算法的目標(biāo)是要根據(jù)用戶-電影評分表和用戶興趣矩陣θ推導(dǎo)出電影內(nèi)容矩陣X,然后將用戶矩陣θ與電影內(nèi)容矩陣X相乘,得到用戶對電影的預(yù)測評分矩陣并進(jìn)行排序推薦,整個算法的代價公式為:
根據(jù)基于內(nèi)容的推薦算法和協(xié)同推薦算法原理,我們考慮將兩種算法結(jié)合實(shí)現(xiàn)聯(lián)合推薦。對于聯(lián)合推薦算法不需要額外引入輸入信息[2],只需要根據(jù)已有的用戶-電影評分表,通過初始化電影特征矩陣X和用戶興趣矩陣θ構(gòu)建訓(xùn)練模型,并通過模型訓(xùn)練保證訓(xùn)練后的X矩陣和θ矩陣符合實(shí)際預(yù)測,將二者相乘獲得預(yù)測評分矩陣并進(jìn)行排序推薦。整個算法的代價公式為:
在產(chǎn)生電影內(nèi)容矩陣X以及用戶喜好矩陣θ的過程中,除了依據(jù)梯度下降原理調(diào)整矩陣X和矩陣θ的值使聯(lián)合推薦代價公式J(X,θ)收斂之外,考慮采用最小化二乘法的思想,初始固定X值優(yōu)化θ參數(shù),然后固定θ值優(yōu)化X參數(shù),逐步迭代直至代價函數(shù)J(X,θ)收斂。
3)實(shí)驗(yàn)結(jié)果。實(shí)驗(yàn)通過Tensorflow對電影內(nèi)容矩陣X和用戶興趣矩陣θ進(jìn)行初始化使之符合正態(tài)分布,并對實(shí)驗(yàn)?zāi)P瓦M(jìn)行了2000次訓(xùn)練,通過統(tǒng)計(jì)預(yù)測評分矩陣predicts與實(shí)際評分矩陣rating各項(xiàng)的誤差和作為模型誤差,并根據(jù)預(yù)測得分predicts矩陣實(shí)現(xiàn)針對不同用戶的評分最高的20部電影的推薦。實(shí)驗(yàn)結(jié)果如下圖2所示:
4 結(jié)語
個性化推薦系統(tǒng)針對目前電子商務(wù)以及新聞傳媒等行業(yè)面臨的商業(yè)困境,可以從海量用戶數(shù)據(jù)和產(chǎn)品數(shù)據(jù)中準(zhǔn)確篩選用戶需求和用戶消費(fèi)趨向,有助于企業(yè)和網(wǎng)站準(zhǔn)確把握用戶興趣點(diǎn),實(shí)現(xiàn)服務(wù)升級和產(chǎn)品優(yōu)化,同時對于用戶也減少了檢索代價,提高了服務(wù)滿意度。本篇論文通過聯(lián)合推薦算法減少了額外的算法輸入和算法代價,提高了算法運(yùn)行效率,實(shí)現(xiàn)了精準(zhǔn)的針對不同用戶的電影推薦。
參考文獻(xiàn)
[1]曹毅,賀衛(wèi)紅.基于內(nèi)容過濾的電子商務(wù)推薦系統(tǒng)研究[J].計(jì)算機(jī)技術(shù)與發(fā)展,2009,019(006):182-185.
[2]李忠俊,周啟海,帥青紅.一種基于內(nèi)容和協(xié)同過濾同構(gòu)化整合的推薦系統(tǒng)模型[J].計(jì)算機(jī)科學(xué),2009,36(012):142-145.
[3]石麗麗.個性化推薦中協(xié)同過濾算法研究[D].河南大學(xué),2012.
作者簡介
王杰(1996-),男,漢族,山西運(yùn)城人,學(xué)生,工學(xué)碩士,華北電力大學(xué)控制與計(jì)算機(jī)工程學(xué)院計(jì)算機(jī)科學(xué)與技術(shù)專業(yè),研究方向:機(jī)器學(xué)習(xí)。