金詩(shī)思 盧翰霖 李凱 金海潮 譚寓元 黃淳嵐 樂(lè)光學(xué)
摘要:針對(duì)電商網(wǎng)站上的廣告質(zhì)量和用戶(hù)需求不匹配的問(wèn)題,提出基于協(xié)同過(guò)濾在個(gè)性化方面的公平廣告推送算法,在海量數(shù)據(jù)中挖掘?qū)τ脩?hù)有價(jià)值的廣告內(nèi)容。通過(guò)收集用戶(hù)的瀏覽日志,建立單個(gè)用戶(hù)評(píng)分矩陣,利用關(guān)鍵字權(quán)重和相似度算法分析用戶(hù)行為,最后通過(guò)協(xié)同過(guò)濾算法綜合推薦給用戶(hù)。根據(jù)MovieLens數(shù)據(jù)集對(duì)該算法進(jìn)行實(shí)驗(yàn),得出此算法具有較高的準(zhǔn)確度,能夠?qū)崿F(xiàn)對(duì)用戶(hù)個(gè)性化推薦。
關(guān)鍵詞:廣告推送;相似度;協(xié)同過(guò)濾;基于用戶(hù)
中圖分類(lèi)號(hào):TP391 ? ? ? ?文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2019)13-0017-02
目前,我國(guó)互聯(lián)網(wǎng)廣告規(guī)模已有千億級(jí),人們正面臨著“信息過(guò)載”(information overload)的問(wèn)題。為此我們需要建立一個(gè)推薦系統(tǒng)(recommender systems)來(lái)解決這些問(wèn)題[1-3]。正如Jeff Bezos(Amazon的CEO)所言:“如果我在網(wǎng)絡(luò)上有三百萬(wàn)個(gè)用戶(hù),我就應(yīng)該有三百萬(wàn)個(gè)網(wǎng)上商店”,講的正是推薦系統(tǒng)在提供消費(fèi)者個(gè)性化建議的重要性。在一定程度上,精準(zhǔn)的推薦有助于用戶(hù)對(duì)于物品的篩選,提高用戶(hù)對(duì)網(wǎng)站的體驗(yàn)。如日常生活中,人們對(duì)于一些感興趣的事物猶豫時(shí),如何幫助用戶(hù)挑選合適的產(chǎn)品,就需要個(gè)性化推薦系統(tǒng)的運(yùn)用。
目前將個(gè)性化精準(zhǔn)推薦的設(shè)計(jì)主要分為三個(gè)步驟:建立用戶(hù)數(shù)據(jù)集,添加各用戶(hù)基本的特征屬性(如:年齡、性別、社會(huì)職位等),再通過(guò)用戶(hù)對(duì)各類(lèi)商品的評(píng)分得到一個(gè)初步的用戶(hù)偏好。最后根據(jù)網(wǎng)站后臺(tái)中的歷史數(shù)據(jù)進(jìn)行比對(duì),過(guò)濾出相似用戶(hù)行為集合,并進(jìn)行相關(guān)操作,通過(guò)深度學(xué)習(xí)、數(shù)據(jù)挖掘等方式,自行給用戶(hù)推薦商品或服務(wù)。
根據(jù)以上情況,提出基于用戶(hù)的協(xié)同過(guò)濾推送算法T-B-A(Terms-Behavior-AD)是根據(jù)目標(biāo)用戶(hù)的瀏覽行為、歷史數(shù)據(jù)來(lái)匹配有相似興趣的鄰居用戶(hù),而目標(biāo)用戶(hù)的推薦依據(jù)鄰居用戶(hù)的一些行為或評(píng)價(jià)。其核心內(nèi)容在于:用相似度算法來(lái)獲取用戶(hù)的推薦信息,通過(guò)歷史記錄在數(shù)據(jù)集中找到相似的鄰居用戶(hù),而忽略詳細(xì)的行為記錄。這是由于,一般情況下,如果不同用戶(hù)對(duì)一些項(xiàng)目給出的評(píng)價(jià)相近,那么這些用戶(hù)對(duì)其他項(xiàng)目的評(píng)價(jià)也會(huì)相似相鄰[4]。本文以電影推薦為實(shí)驗(yàn)數(shù)據(jù)集,是由于電影推薦所具備的生命周期較長(zhǎng),變化趨勢(shì)較小的特性,分析不同用戶(hù)的行為特征,實(shí)現(xiàn)對(duì)每個(gè)不同用戶(hù)的個(gè)性化精準(zhǔn)推薦。
1 算法介紹
基于用戶(hù)的協(xié)同過(guò)濾算法是根據(jù)用戶(hù)的瀏覽內(nèi)容等為用戶(hù)推薦感興趣的內(nèi)容,主要考慮用戶(hù)的需求。建立關(guān)于用戶(hù)共有電影的評(píng)分矩陣,歸一化處理得到用戶(hù)的評(píng)分,采用TF-IWF算法對(duì)關(guān)鍵詞權(quán)重進(jìn)行初步的計(jì)算后,計(jì)算不同用戶(hù)之間的相似度,運(yùn)用迭代方式選取相似度較高的k個(gè)用戶(hù),實(shí)現(xiàn)個(gè)性化的協(xié)同過(guò)濾推薦。具體流程如圖1所示。
1.1 基于詞語(yǔ)的逆文本頻率(Term Frequency-Inverse Words Frequency)
在文本預(yù)處理階段,最常用的是逆文本頻率“TF-IDF”。但這種算法本質(zhì)上只是簡(jiǎn)單將小概率出現(xiàn)的單詞作為特征詞。關(guān)于TF-IDF算法的改進(jìn),文獻(xiàn)[5]提出的BOR-TFI-DF權(quán)重函數(shù),文獻(xiàn)[6]提出的WA-DI-SI算法,文獻(xiàn)[7]提出的TF-LDF方法,在一定程度上修正TF-IDF方法的不足,但對(duì)改進(jìn)TF-IDF算法而言,引入詞位權(quán)重和詞跨度權(quán)重是比較少見(jiàn)的。因此目前推薦系統(tǒng)常用詞語(yǔ)逆頻率方法“TF-IWF”來(lái)計(jì)算關(guān)鍵詞權(quán)重,具體公式如下:
本文通過(guò)選取的七組訓(xùn)練集,通過(guò)逐漸累加的方法來(lái)驗(yàn)證該算法的性能。我們分別在0、20、40、60、80、100、120個(gè)鄰居數(shù)下對(duì)30多個(gè)用戶(hù)進(jìn)行預(yù)測(cè),并將所有結(jié)果做均方根誤差的處理,經(jīng)多次測(cè)試后得出的實(shí)驗(yàn)結(jié)果如圖3所示。
從結(jié)果顯示,在一定程度上,當(dāng)k取值越大,準(zhǔn)確率就越高,平均誤差率就越低,并隨著k值的增大逐漸趨于平穩(wěn)狀態(tài)。
3 結(jié)語(yǔ)
本文分別從算法的設(shè)計(jì)角度,分析了電影的個(gè)性化精準(zhǔn)推薦,并根據(jù)用戶(hù)的平均評(píng)分結(jié)果對(duì)用戶(hù)的興趣愛(ài)好展開(kāi)分析,利用相似度為用戶(hù)推薦電影。進(jìn)而引申基于用戶(hù)行為的協(xié)同過(guò)濾廣告推送算法也可通過(guò)本算法對(duì)用戶(hù)-廣告評(píng)分矩陣,將用戶(hù)行為與需求的廣告掛鉤。幫助用戶(hù)在信息超載的互聯(lián)網(wǎng)上找到真正屬于自己的廣告內(nèi)容,節(jié)約用戶(hù)的時(shí)間成本,提高了網(wǎng)站的流量的同時(shí)還增加收益。在處理用戶(hù)信息時(shí),結(jié)合了多種加權(quán)方法降低矩陣的稀疏性,達(dá)到了不錯(cuò)的準(zhǔn)確推薦和大范圍的覆蓋效果。
參考文獻(xiàn):
[1] 樓藝嬋. 電子商務(wù)網(wǎng)站的媒介特性研究[J].中國(guó)管理信息化,2014,17(15).
[2] 龐海龍. 基于協(xié)同過(guò)濾的個(gè)性化推薦技術(shù)研究[D].上海:復(fù)旦大學(xué),2003.
[3] 王一晴, 陳羽舒. "雙十一"各大電商廣告宣傳及消費(fèi)者購(gòu)物行為分析[J].全國(guó)商情·理論研究,2016(31):24-25.
[4] 魏慧娟, 戴牡紅, 寧勇余. 基于最近鄰居聚類(lèi)的協(xié)同過(guò)濾推薦算法[J].中國(guó)科學(xué)技術(shù)大學(xué)學(xué)報(bào),2016(09):29-35.
[5] 董晨露, 柯新生. 基于用戶(hù)興趣變化和評(píng)論的協(xié)同過(guò)濾算法研究[J].計(jì)算機(jī)科學(xué),2018.
[6] 李玉翔,周杰,許斌,等.基于用戶(hù)關(guān)系挖掘的多策略推薦算法[J].信息工程大學(xué)學(xué)報(bào),2013,14(4):492-498.
[7] 陳小輝, 高燕, 劉漢燁. 基于歸一化方法的協(xié)同過(guò)濾推薦算法[J].電子設(shè)計(jì)工程,2014(14):17-20.
【通聯(lián)編輯:唐一東】