黃瑋琦
摘要:現(xiàn)代互聯(lián)網(wǎng)已經(jīng)成為了大量信息傳播和擴(kuò)散的主要途徑,電影作為娛樂的重要一環(huán)也在互聯(lián)網(wǎng)中充斥著自己的身影,網(wǎng)上觀影已經(jīng)成為了一種或不可缺的休閑方式,優(yōu)秀方便的電影推薦系統(tǒng)也就成為了炙手可熱的互聯(lián)網(wǎng)新寵。但是,現(xiàn)在很多網(wǎng)站的電影推薦系統(tǒng)并沒有我們所期望的那么智能,往往給我們推薦的并不是我們真正想要看的電影,那么,研究它們的推薦算法就變得極其有意義。
關(guān)鍵詞:電影;推薦算法;基于內(nèi)容;協(xié)同過濾;混合推薦
中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2016)26-0190-03
由于現(xiàn)代科技的快速更新與進(jìn)步,互聯(lián)網(wǎng)技術(shù)也在日新月異地提升。人類的日常生活也越來越離不開網(wǎng)絡(luò),無論是獲取知識,了解新聞還是放松娛樂都可以在網(wǎng)絡(luò)上找到相應(yīng)的資源。然而互聯(lián)網(wǎng)上的存儲信息在以指數(shù)爆炸的模式進(jìn)行快速增長,人們在接觸到大量的互聯(lián)網(wǎng)信息的同時(shí),從中獲取并利用真正有效的信息也變得越來越困難。這種情況被稱之為“信息過載”和“信息迷航”。
電影資源的大量產(chǎn)生是互聯(lián)網(wǎng)信息爆炸現(xiàn)象的一個(gè)具體方面。那么,我們?nèi)绾螐幕ヂ?lián)網(wǎng)海量電影數(shù)據(jù)中挑選我們想看的呢?這個(gè)問題引入了現(xiàn)代個(gè)性化推薦系統(tǒng)的產(chǎn)生。
1個(gè)性化推薦
1.1個(gè)性化推薦的現(xiàn)狀
個(gè)性化推薦技術(shù)是一種通過用戶的歷史記錄來確定用戶的偏好特征,從而為用戶提供符合其偏好以及潛在偏好的個(gè)性化服務(wù)的技術(shù)。該技術(shù)可應(yīng)用于生活中的各種方面渠道,例如電影視頻方面,各大門戶網(wǎng)站可根據(jù)用戶的歷史瀏覽記錄分析并推送符合用戶愛好的個(gè)性化信息。這一過程將網(wǎng)絡(luò)從被動(dòng)地接受使用者請求的行為轉(zhuǎn)變成了主動(dòng)感知到使用者的需求。
個(gè)性化推薦這一概念是在上世紀(jì)末才被獨(dú)立提出的,它以數(shù)據(jù)挖掘?yàn)榛A(chǔ),根據(jù)符合條件的相應(yīng)推薦算法來分析得出用戶的愛好和傾向,并從大量的互聯(lián)網(wǎng)信息存儲中鎖定用戶的興趣資源或潛在興趣資源主動(dòng)推薦給用戶。[1]
個(gè)性化推薦系統(tǒng)的發(fā)展十分快速。在1995年3月,卡耐基。梅隆大學(xué)的Robert Armstrong等人提出了個(gè)性化導(dǎo)航系統(tǒng)Web Watcher。隨后各大著名企業(yè)均開始制定并推出了各自的個(gè)性化廣告方案,例如谷歌開創(chuàng)的AdWards盈利模式,雅虎隨之推出了SmartAds廣告方案, Overstock(美國著名的網(wǎng)上零售商)根據(jù)ChoiceStream公司制作的個(gè)性化橫幅廣告方案,等等。我國首個(gè)個(gè)性化推薦系統(tǒng)研究團(tuán)隊(duì)北京百分點(diǎn)信息科技有限公司成立于2009年,旨在研究和開發(fā)個(gè)性化搜索引擎技術(shù)和解決方案。[2]
1.2電影推薦的現(xiàn)狀
電影和視頻門戶網(wǎng)站在當(dāng)下互聯(lián)網(wǎng)中占據(jù)了不小的比例,在個(gè)性化推薦系統(tǒng)中也是一塊非常重要的研究領(lǐng)域。各大電影網(wǎng)站根據(jù)自身的電影檢索和推薦機(jī)制,通過用戶的個(gè)人信息從互聯(lián)網(wǎng)大量的視頻中抽取用戶可能感興趣的視頻內(nèi)容。其中最為出名的應(yīng)為Netflix公司。其于2006年設(shè)立的百萬獎(jiǎng)金比賽,規(guī)則是實(shí)現(xiàn)一個(gè)電影推薦系統(tǒng)來預(yù)測其用戶感興趣的電影,并使預(yù)測準(zhǔn)確率達(dá)到10%。[3]另有主流視頻門戶網(wǎng)站如Youtobe和Hulu,也都在個(gè)性化推薦方面進(jìn)行了大量研究,以提高視頻網(wǎng)站的訪問量,增加用戶的觀影愉悅度。
國內(nèi)的電影及視頻網(wǎng)站近年來發(fā)展逐漸迅速。優(yōu)酷,愛奇藝,樂視等網(wǎng)站都推出了各自的電影推薦系統(tǒng),雖然推薦結(jié)果的預(yù)測準(zhǔn)確性還有待進(jìn)一步提高。豆瓣電影相對口碑較佳,其網(wǎng)站根據(jù)用戶瀏覽的電影頁面和用戶進(jìn)行的評分從海量電影資源里尋找符合用戶興趣的電影,通過猜你喜歡等模塊推送給用戶,提高了用戶的滿意度。
2相關(guān)推薦算法
2.1 基于內(nèi)容的推薦算法
2.1.1算法簡介
這是一種較為簡單的推薦算法,其根源為信息檢索及信息過濾技術(shù),在大量信息里面挖掘出與用戶興趣相似的電影從而推薦給用戶。該算法根據(jù)對用戶的歷史瀏覽記錄進(jìn)行分析,通過用戶過去感興趣的產(chǎn)品, 來向用戶推薦尚未產(chǎn)生接觸的推薦項(xiàng)(本論文專指電影)。例如電影網(wǎng)站可以根據(jù)某個(gè)用戶過去觀看了許多恐怖類電影進(jìn)而為用戶推薦其他恐怖類電影。
基于內(nèi)容的推薦算法的基本思想是如果使用者的歷史記錄顯示了他對某種特征的電影感興趣,那么他可能對相似特征的也感興趣。出于這個(gè)思想,基于內(nèi)容的推薦算法主要需要結(jié)構(gòu)化兩種描述文件,用戶特征的描述和電影特征的描述。[4]用戶特征的描述來源于用戶對電影的評分集合和用戶建立時(shí)選擇的標(biāo)簽類型。通過這些來建立一個(gè)用戶的興趣模型。電影特征的描述來源于用戶的評分以及上線時(shí)的標(biāo)簽,一般包括電影的特征,屬性信息。推薦系統(tǒng)會經(jīng)常定時(shí)的更新并且維護(hù)用戶和電影的特征文件,推薦過程就是當(dāng)需要獲取某個(gè)用戶的推薦列表時(shí),就去比較用戶和電影的特征文件的相似性,選取相似性高的推薦出去。
該算法主要可從以下三個(gè)步驟進(jìn)行描述:
1)movie Representation:從每個(gè)movie中抽取出部分特征(也就是movie的標(biāo)簽特征)來代表此movie;
2) Profile Learning:根據(jù)某個(gè)用戶過去感興趣(或不感興趣)的movie的特征數(shù)據(jù)進(jìn)行研究,來得出此用戶的興趣特征(profile);
3)Recommendation Generation:根據(jù)對上一步驟中得到的用戶profile與候選movie的特征進(jìn)行對比,以此為依據(jù),為用戶推薦一組關(guān)聯(lián)性最大的movie。[5]
常見的方法是利用添加標(biāo)簽來代表這部電影的屬性,而每個(gè)屬性對應(yīng)的權(quán)重往往是根據(jù)一定的算法。根據(jù)用戶過去的電影瀏覽記錄來推算出此用戶感興趣的 profile,最為基礎(chǔ)的方法是把用戶所有感興趣的電影對應(yīng)的向量平均值來用作此用戶的profile。在獲得了一個(gè)用戶的profile后,本算法就可根據(jù)所有movie與此用戶profile的關(guān)聯(lián)度來為該用戶推薦可能符合其愛好的電影了。
3電影混合推薦系統(tǒng)的研究與實(shí)現(xiàn)
本文上述介紹了目前兩種最為常用的推薦算法原理和他們的優(yōu)缺點(diǎn),在目前已經(jīng)使用的各大電影推薦網(wǎng)站中,這兩種算法并不會是單獨(dú)出現(xiàn)的,而是經(jīng)常被混合起來使用的,例如國外知名電影推薦網(wǎng)站jinni,它所采用的檢索工具叫Movie Genome,同樣也是Google TV所采用的個(gè)性化搜索工具。Jinni 把用戶分為12類型,戰(zhàn)略家、現(xiàn)實(shí)主義者、理想主義者情景劇愛好者和懸疑愛好者等等。在對用戶進(jìn)行分類后,Jinni通過獲取這類的用戶偏向和歷史行為來總結(jié)出這類用戶的特征偏向,以此進(jìn)一步確認(rèn)用戶的偏好類型。而用戶對電影的評級分為10級,由低到高為not at all到strong learning。最后,通過觀察與其他用戶的聯(lián)系,用戶可以了解自己與其他用戶的關(guān)聯(lián)程度,并且能夠選擇自己是否要跟從類似用戶的選擇。如果用戶選擇跟從,那么用戶的推薦列表會被類似用戶最近觀賞的電影目錄所影響。Jinni 在用戶文件夾中會顯示聯(lián)系緊密的其他用戶最近觀賞過的電影以及大多數(shù)人對該電影的評分。當(dāng)用戶進(jìn)入 Jinni推薦頁面,根據(jù)用戶偏好,產(chǎn)生用戶的推薦列表; 另外根據(jù)相似用戶群的最近活動(dòng)信息,將評分較高的電影選出以產(chǎn)生另一個(gè)推薦列表。
那么,下文將會簡單介紹一種混合推薦系統(tǒng)的實(shí)現(xiàn),也將采用基于內(nèi)容的推薦算法加上協(xié)同過濾算法。
首先明確的是,不管使用哪種推薦算法,都需要先計(jì)算用戶的相似度,因?yàn)橛脩舻南嗨贫却蟪潭壬象w現(xiàn)了這個(gè)用戶的特征偏向以及他是否是一個(gè)新用戶。如果這個(gè)用戶是一個(gè)新用戶或者活躍度非常低,那么他就不太適合采用協(xié)同過濾的算法來進(jìn)行推薦,而應(yīng)該直接采用基于內(nèi)容的推薦算法,根據(jù)他之前選擇的標(biāo)簽來進(jìn)行電影推薦,避開冷啟動(dòng);相反,如果他是一個(gè)活躍用戶,那么就可以挖掘出此用戶的歷史行為信息,來跟其他用戶的相似度進(jìn)行比較,采用協(xié)同過濾算法來進(jìn)行推薦,并且挖掘出此用戶的興趣偏向。如上所說,那么就需要為相似度設(shè)置一個(gè)閾值,可以選擇此用戶的相鄰矩陣種相鄰用戶的個(gè)數(shù)N,如果大于N,說明矩陣不稀疏,是個(gè)活躍用戶;相反說明矩陣稀疏,只是個(gè)新用戶。[8]
在本電影推薦系統(tǒng)初始化的時(shí)候,會根據(jù)一些已定的標(biāo)簽將電影數(shù)據(jù)庫分類成多種特征,然后等到用戶登錄時(shí),系統(tǒng)會統(tǒng)計(jì)用戶的瀏覽歷史,然后找到用戶觀看較多的電影類別,然后組成推薦列表。具體算法的內(nèi)容可見前幾節(jié)的算法介紹。
4小結(jié)
本文提出的混合推薦算法主要使用協(xié)調(diào)過濾推薦,基于內(nèi)容的推薦算法則作為輔助算法。如果是新用戶或者沒有被用戶打分或者瀏覽的新產(chǎn)品則釆用基于內(nèi)容的推薦算法,一般的電影推薦任務(wù)則采用協(xié)同過濾算法?;陧?xiàng)目的協(xié)作過濾更為重視用戶的過去已經(jīng)產(chǎn)生的興趣特征,一般推薦的是符合用戶歷史瀏覽中感興趣的電影。而基于用戶的協(xié)作過濾的本質(zhì)是信息獲取和信息過濾,可以根據(jù)海量用戶群中的相似用戶的興趣特征來幫助用戶挖掘潛在興趣,推薦全新的關(guān)注電影類型。
本算法還進(jìn)一步優(yōu)化了協(xié)同過濾推薦算法。在本算法中,通過對相似用戶的歷史瀏覽記錄進(jìn)行分析得到相關(guān)的推薦電影集合,并不直接對用戶相似度來推薦電影,而是先進(jìn)行進(jìn)一步的過濾。本算法先根據(jù)當(dāng)前用戶的點(diǎn)播記錄,挖掘其偏好特征,建立該用戶的興趣模型。然后匹配相關(guān)推薦電影集合中的相似電影與當(dāng)前用戶的興趣模型,匹配度髙的排在推薦列表的前面。該算法可以更好的保證在網(wǎng)站系統(tǒng)進(jìn)行電影推薦的時(shí)候,先展現(xiàn)在用戶眼前的是能更好滿足其偏好特征的電影類型。
參考文獻(xiàn):
[1] 趙亮,胡乃靜,張守志.個(gè)性化推薦算法設(shè)計(jì)[J].計(jì)算機(jī)研究與發(fā)展,2002,39(8):986-991.
[2] 陳天昊.互聯(lián)網(wǎng)電影推薦方法的研究與實(shí)現(xiàn)[D].北京:中國科學(xué)技術(shù)大學(xué),2014.
[3] 余力,劉魯,李雪峰.用戶多興趣下的個(gè)性化推薦算法研究[J].計(jì)算機(jī)集成系統(tǒng),2004,10(12):1610-1615.
[4] 高斐. 面向海量數(shù)據(jù)環(huán)境的個(gè)性化推薦機(jī)制應(yīng)用研究[D].南京:南京郵電大學(xué),2014.
[6] Paul B. Kantor , Francesco Ricci , Lior Rokach , Bracha Shapira. Recommender Systems Handbook [M]. Germany: Springer, 2010: 73-80 .
[6] 項(xiàng)亮. 推薦系統(tǒng)實(shí)踐 [M]. 北京: 人民郵電出版社, 2012: 44-51 .
[7] B Sarwar,G Karypis,J Konstan,J Riedl. Item-based collaborative filtering recommendation algorithms [J]. International Conference on World Wide Web, 2001,4(1):285-295.
[8] 曹毅.基于內(nèi)容和協(xié)同過濾的混合模式推薦技術(shù)研究[D].長沙:中南大學(xué),2007.