国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

考慮圖書(shū)推薦列表相似性的圖書(shū)推薦研究

2018-12-04 10:10張恒章成志周清清
圖書(shū)與情報(bào) 2018年3期

張恒 章成志 周清清

摘 要:亞馬遜網(wǎng)站為每本圖書(shū)生成推薦列表,供用戶(hù)選擇其感興趣的圖書(shū),但該推薦方法僅考慮圖書(shū)之間的相似性。文章在此基礎(chǔ)上引入圖書(shū)推薦列表的相似性,計(jì)算不同圖書(shū)推薦列表的相似度,通過(guò)相似度排序?yàn)槊勘緢D書(shū)生成推薦列表,然后將其與亞馬遜提供的推薦列表融合對(duì)用戶(hù)進(jìn)行個(gè)性化圖書(shū)推薦。實(shí)驗(yàn)結(jié)果顯示,相比于僅使用推薦列表的方法,文章所提出的方法所生成的推薦結(jié)果在平均準(zhǔn)確率、平均召回率、Macro_F1和Micro_F1上都有一定的提升。由此可見(jiàn),推薦列表的相似性對(duì)于圖書(shū)推薦效果可以起到一定的優(yōu)化作用。

關(guān)鍵詞:圖書(shū)推薦列表;Jaccard相似度;推薦優(yōu)化

中圖分類(lèi)號(hào):G250.7;G252 文獻(xiàn)標(biāo)識(shí)碼:A DOI:10.11968/tsyqb.1003-6938.2018056

Using Similarity of Book Recommendation Lists for Book Recommendation

Abstract The Amazon website generates recommendation lists for each book, allowing users to select the books they are interested in. But this recommendation method only considers the similarity among books. Based on the recommendation lists, this paper introduces a similarity of book recommendation lists, and calculates Jaccard similarity of different book recommendation lists, then generates recommendation list for each book by similarity ranking. This paper combines it and the recommendation list provided by Amazon to conduct personalized recommendation for users. The experimental results show that there is a certain improvement in the average accuracy rate, the average recall rate, Macro_F1 and Micro_F1 compared to using only the recommendation list provided by Amazon. It can be seen that the similarity of the recommendation list of the book can play a certain role in optimizing the recommendation effect.

Key words Book recommendation list; Jaccard similarity; Recommendation optimization

當(dāng)前全球圖書(shū)數(shù)量正快速增長(zhǎng),盡管圖書(shū)館可依據(jù)“杜威十進(jìn)制分類(lèi)法”“美國(guó)國(guó)會(huì)圖書(shū)館分類(lèi)法”“中國(guó)圖書(shū)館圖書(shū)分類(lèi)法”等分類(lèi)方法對(duì)圖書(shū)進(jìn)行分類(lèi),以幫助用戶(hù)查找需要的圖書(shū),但用戶(hù)還是會(huì)迷失在“書(shū)?!敝小榱私鉀Q這一問(wèn)題,圖書(shū)館提供關(guān)鍵詞檢索的方式方便用戶(hù)快速檢索。然而,這依然需要用戶(hù)在大量的檢索結(jié)果中尋找滿(mǎn)足其需求的圖書(shū)。另外,僅僅通過(guò)關(guān)鍵詞匹配并不一定能滿(mǎn)足用戶(hù)的真正需求。隨著電子商務(wù)的發(fā)展,圖書(shū)的網(wǎng)上交易量逐漸增長(zhǎng)。當(dāng)前,亞馬遜、當(dāng)當(dāng)網(wǎng)、京東、淘寶等電商平臺(tái)上呈現(xiàn)海量的圖書(shū)資源。這些平臺(tái)積累大量的用戶(hù)數(shù)據(jù),如關(guān)于圖書(shū)的瀏覽、購(gòu)買(mǎi)、評(píng)論等數(shù)據(jù)。電商平臺(tái)以此為基礎(chǔ),主要以協(xié)同推薦的方式為用戶(hù)提供個(gè)性化推薦結(jié)果。目前,商品的個(gè)性化推薦已經(jīng)成為電商平臺(tái)的核心競(jìng)爭(zhēng)力之一。如以亞馬遜網(wǎng)站為例,其個(gè)性化推薦系統(tǒng)在準(zhǔn)確性、時(shí)效性和新穎性上都有良好的表現(xiàn)[1]。

傳統(tǒng)的圖書(shū)推薦方法大多依據(jù)圖書(shū)的相關(guān)用戶(hù)行為數(shù)據(jù),如購(gòu)買(mǎi)、瀏覽記錄等,利用協(xié)同推薦算法為用戶(hù)推薦相關(guān)圖書(shū)列表[2]。這種推薦方法僅考慮目標(biāo)圖書(shū)與推薦圖書(shū)的相似性。由于推薦列表中的圖書(shū)都與目標(biāo)圖書(shū)存在一定的相似性,那么推薦列表作為相似圖書(shū)的集合,在衡量圖書(shū)相似性時(shí)可以被考慮。由此本文在傳統(tǒng)推薦方法的基礎(chǔ)上,引入圖書(shū)推薦列表的相似性,進(jìn)行圖書(shū)的個(gè)性化推薦研究,探索其對(duì)于圖書(shū)推薦效果提升的作用。

2 相關(guān)研究概述

圖書(shū)推薦主要包括兩種類(lèi)型:一是圖書(shū)館中的圖書(shū)推薦。圖書(shū)館利用用戶(hù)的檢索、瀏覽、借閱記錄等進(jìn)行圖書(shū)推薦。相對(duì)來(lái)說(shuō),圖書(shū)館館藏、用戶(hù)行為等數(shù)據(jù)的規(guī)模均較小,用戶(hù)的個(gè)性化推薦效果不甚理想。并且,圖書(shū)館的圖書(shū)推薦大多以推薦書(shū)目的形式呈現(xiàn),針對(duì)某一人群,聚焦于特定閱讀主題;另外一種是電商網(wǎng)站上的圖書(shū)推薦。隨著電子商務(wù)的興起,各大電商網(wǎng)站積累了大量的用戶(hù)數(shù)據(jù),電商網(wǎng)站可以從中細(xì)致地挖掘出用戶(hù)興趣,實(shí)現(xiàn)更為精準(zhǔn)的個(gè)性化圖書(shū)推薦。常用的推薦方法主要包括三類(lèi),即基于內(nèi)容相似度的推薦、基于關(guān)聯(lián)規(guī)則的推薦、基于協(xié)同過(guò)濾的推薦。

(1)基于內(nèi)容相似度的推薦是由信息檢索技術(shù)發(fā)展而來(lái)的。在信息檢索中,系統(tǒng)事先為數(shù)據(jù)庫(kù)中的所有記錄生成特征向量,在用戶(hù)輸入檢索詞后,系統(tǒng)同樣將其表示成向量,然后計(jì)算檢索詞與每一條記錄的相似度,將滿(mǎn)足一定相似度閾值的結(jié)果按照相似度從高到低的順序返回給用戶(hù)。這種技術(shù)應(yīng)用到圖書(shū)推薦中后,推薦系統(tǒng)會(huì)根據(jù)用戶(hù)之前購(gòu)買(mǎi)或者瀏覽的圖書(shū),學(xué)習(xí)出這些圖書(shū)的內(nèi)容特征,然后去尋找與之內(nèi)容相似的圖書(shū)推薦給用戶(hù)[3-4]。該過(guò)程涉及圖書(shū)內(nèi)容的表示,一般使用向量空間模型(Vector Space Model,VSM)[5]來(lái)表示圖書(shū)。其中,內(nèi)容特征的提取常依據(jù)TF-IDF[6]、卡方檢驗(yàn)(CHI)[7]、信息增益(IG)[8]等方法完成。內(nèi)容相似度的計(jì)算,依據(jù)歐幾里得距離、余弦相似度等方法完成。這種推薦方法只能推薦給用戶(hù)內(nèi)容相近的圖書(shū),但用戶(hù)的興趣有時(shí)會(huì)發(fā)生遷移,從一類(lèi)圖書(shū)轉(zhuǎn)移到另一類(lèi)圖書(shū)上。該方法還存在用戶(hù)的“冷啟動(dòng)”問(wèn)題[9-10],即對(duì)于新用戶(hù),系統(tǒng)中沒(méi)有關(guān)于他的任何記錄,不能進(jìn)行有效的推薦。

(2)基于關(guān)聯(lián)規(guī)則的推薦主要通過(guò)大量用戶(hù)的購(gòu)買(mǎi)記錄,發(fā)現(xiàn)商品之間的潛在聯(lián)系,找到用戶(hù)經(jīng)常一起購(gòu)買(mǎi)的商品組合,從而完成商品推薦。如亞馬遜網(wǎng)站上商品詳情頁(yè)面中有與該商品“經(jīng)常一起購(gòu)買(mǎi)的商品”推薦,這就是一個(gè)被大量用戶(hù)所采購(gòu)的商品組合。Apriori算法[11]是最常用的關(guān)聯(lián)規(guī)則發(fā)現(xiàn)算法之一,通過(guò)計(jì)算圖書(shū)之間的支持度和置信度,然后依據(jù)實(shí)際情況分別設(shè)定閾值,找出所有滿(mǎn)足最小支持度和最小置信度的關(guān)聯(lián)規(guī)則,按照置信度大小排序,根據(jù)需求取前N個(gè)最相關(guān)的商品進(jìn)行推薦。

(3)基于協(xié)同過(guò)濾的推薦[12]又可細(xì)分為兩類(lèi),即基于用戶(hù)的協(xié)同推薦[13]、基于物品的協(xié)同推薦[14]。前者首先需要定位目標(biāo)用戶(hù)的鄰近用戶(hù)(即具有相似興趣和需求的用戶(hù)群體),然后將鄰近用戶(hù)感興趣的商品推薦給目標(biāo)用戶(hù)。該方法的難點(diǎn)在于如何確定鄰近用戶(hù),早期的Tapestry圖書(shū)推薦系統(tǒng)[15]依靠人工選定鄰近用戶(hù),后來(lái)發(fā)展出根據(jù)用戶(hù)行為(如對(duì)圖書(shū)的打分)來(lái)構(gòu)建用戶(hù)特征向量,計(jì)算用戶(hù)之間的相似度來(lái)自動(dòng)識(shí)別鄰近用戶(hù)的方法。后者則是先定位“鄰近物品”(在圖書(shū)推薦中即指鄰近圖書(shū)),然后向用戶(hù)推薦其購(gòu)買(mǎi)過(guò)的圖書(shū)的鄰近圖書(shū)[16]。鄰近圖書(shū)也可以通過(guò)相似度來(lái)計(jì)算,但并不是圖書(shū)的內(nèi)容相似度,而是指基于用戶(hù)行為記錄的相似度。如亞馬遜網(wǎng)站上“購(gòu)買(mǎi)此商品的顧客也同時(shí)購(gòu)買(mǎi)”的推薦列表就是使用基于物品的協(xié)同推薦方法生成的?;谟脩?hù)的協(xié)同推薦同樣會(huì)遇到用戶(hù)的“冷啟動(dòng)”問(wèn)題,基于物品的協(xié)同推薦雖然可避免用戶(hù)的“冷啟動(dòng)”問(wèn)題,但依然存在物品的“冷啟動(dòng)”問(wèn)題[17]。由于不再局限于圖書(shū)內(nèi)容,基于協(xié)同過(guò)濾的推薦方法可以給用戶(hù)推薦不同類(lèi)型的圖書(shū),滿(mǎn)足用戶(hù)不斷遷移的興趣。

以上三種推薦方法都依據(jù)圖書(shū)在某些方面的相似性,進(jìn)行圖書(shū)推薦?;趦?nèi)容的推薦從圖書(shū)內(nèi)容的角度出發(fā),尋找內(nèi)容相似的圖書(shū);基于關(guān)聯(lián)規(guī)則的推薦從被用戶(hù)組合購(gòu)買(mǎi)的角度出發(fā),推薦圖書(shū)與目標(biāo)圖書(shū)在同一組合中體現(xiàn)了它們的相似性;基于協(xié)同過(guò)濾的推薦從群體的角度出發(fā),都與同一群體相關(guān)構(gòu)成推薦圖書(shū)與目標(biāo)圖書(shū)的相似性。通過(guò)對(duì)比可以發(fā)現(xiàn),圖書(shū)與推薦圖書(shū)的關(guān)系和論文與參考文獻(xiàn)的關(guān)系非常相似,引用相同參考文獻(xiàn)的論文在研究領(lǐng)域或研究主題上往往是相似的。因此,本文認(rèn)為推薦列表的相似性也反映了圖書(shū)在某種程度上的相似性,從而在傳統(tǒng)圖書(shū)推薦方法的基礎(chǔ)上,還考慮推薦列表的相似性,進(jìn)行圖書(shū)的推薦。

3 研究設(shè)計(jì)

3.1 研究框架

本文以亞馬遜網(wǎng)站上用戶(hù)購(gòu)買(mǎi)圖書(shū)記錄與圖書(shū)的推薦列表數(shù)據(jù)為數(shù)據(jù)來(lái)源,通過(guò)計(jì)算圖書(shū)推薦列表之間的Jaccard相似度[18],為每本圖書(shū)生成新的推薦列表。然后分別使用基于協(xié)同過(guò)濾的圖書(shū)推薦列表、基于推薦列表相似度生成的圖書(shū)推薦列表以及融合兩種推薦列表的圖書(shū)推薦列表,為用戶(hù)推薦圖書(shū)。本文最后對(duì)三種推薦方法進(jìn)行效果評(píng)估,驗(yàn)證推薦列表相似度能否對(duì)圖書(shū)推薦效果起到優(yōu)化作用(具體研究框架見(jiàn)圖1)。

3.2 研究問(wèn)題

基于某一方面的相似性,推薦算法可以找到與目標(biāo)圖書(shū)相似的圖書(shū),構(gòu)成推薦列表。這個(gè)過(guò)程只衡量目標(biāo)圖書(shū)與其推薦圖書(shū)之間的相似性,本文提出的推薦列表相似度則在原推薦算法的基礎(chǔ)上考慮圖書(shū)各自的推薦列表這一外部特征?;诖耍疚闹饕芯恳韵聝蓚€(gè)問(wèn)題:

(1)如何基于圖書(shū)的推薦列表對(duì)用戶(hù)進(jìn)行個(gè)性化推薦?

(2)圖書(shū)推薦列表的相似性是否可以提高個(gè)性化圖書(shū)推薦效果?

3.3 關(guān)鍵技術(shù)描述

3.3.1 數(shù)據(jù)采集

本文從亞馬遜網(wǎng)站上采集用戶(hù)和圖書(shū)的相關(guān)數(shù)據(jù)(數(shù)據(jù)采集流程見(jiàn)圖2)。

首先,本文從亞馬遜網(wǎng)站優(yōu)秀評(píng)論者排行榜(10000名用戶(hù))中獲取每個(gè)用戶(hù)的ID,構(gòu)建用戶(hù)主頁(yè)鏈接,再?gòu)挠脩?hù)主頁(yè)中采集用戶(hù)的購(gòu)買(mǎi)記錄信息,并且從購(gòu)買(mǎi)記錄中篩選出圖書(shū)商品,最后得到7983名購(gòu)買(mǎi)記錄中包含圖書(shū)商品的用戶(hù)(部分用戶(hù)數(shù)據(jù)樣例見(jiàn)表1)。

然后,我們根據(jù)這7983名用戶(hù)購(gòu)買(mǎi)的圖書(shū)ASIN號(hào),構(gòu)建圖書(shū)詳情頁(yè)面鏈接,從而采集圖書(shū)的相關(guān)數(shù)據(jù)。本文用到的圖書(shū)數(shù)據(jù)主要是圖書(shū)的推薦列表,亞馬遜網(wǎng)站的圖書(shū)詳情頁(yè)面中提供了三種推薦列表,即:“經(jīng)常一起購(gòu)買(mǎi)的商品”“購(gòu)買(mǎi)此商品的顧客也同時(shí)購(gòu)買(mǎi)”及“看過(guò)此商品后顧客買(mǎi)的其他商品”。第一種推薦是基于關(guān)聯(lián)規(guī)則生成的,推薦圖書(shū)的數(shù)量一般為一到兩本,第二種推薦是基于協(xié)同過(guò)濾算法生成的,推薦圖書(shū)的數(shù)量不定,最多為100本,第三種推薦是基于大量用戶(hù)的瀏覽記錄生成的,推薦圖書(shū)的數(shù)量一般是4本。提取出三種推薦列表中圖書(shū)的ASIN號(hào),進(jìn)行新一輪的圖書(shū)數(shù)據(jù)采集,如此反復(fù)采集N次(本文實(shí)驗(yàn)中采集次數(shù)為4),最后共得到782355本圖書(shū)的相關(guān)數(shù)據(jù)(部分圖書(shū)的推薦列表數(shù)據(jù)樣例見(jiàn)表2)。

3.3.2 圖書(shū)推薦列表的相似度計(jì)算

文本相似度的計(jì)算方式有余弦相似度[19]、歐幾里得距離[20]、Jaccard相似度[18]等。無(wú)論是余弦相似度還是歐幾里得距離的計(jì)算,一般都考慮向量不同維度的權(quán)重。而Jaccard相似度在計(jì)算時(shí)則不考慮集合中每個(gè)元素的權(quán)重,要么是0,要么是1。本文不考慮推薦列表中不同圖書(shū)的權(quán)重,因此選擇Jaccard相似度來(lái)衡量圖書(shū)推薦列表的相似度大小。

給定集合A和集合B,那么它們的Jaccard相似度計(jì)算公式如下[21]:

3.3.3 基于推薦列表相似度的圖書(shū)推薦列表生成

本文對(duì)個(gè)性化推薦效果進(jìn)行評(píng)估時(shí),選擇購(gòu)買(mǎi)圖書(shū)數(shù)量不少于50本的1347名用戶(hù)用于測(cè)試。這些用戶(hù)購(gòu)買(mǎi)的圖書(shū)共有85024本,由于部分圖書(shū)已被亞馬遜網(wǎng)站下架,無(wú)法獲取圖書(shū)的詳情頁(yè)面,進(jìn)而無(wú)法采集相關(guān)數(shù)據(jù)。因此,進(jìn)行一定的數(shù)據(jù)清洗后,最終獲取1347名用戶(hù)購(gòu)買(mǎi)的71662本圖書(shū)進(jìn)行測(cè)試。

盡管亞馬遜網(wǎng)站基于不同的策略提供了三種圖書(shū)推薦列表,但是三種推薦列表并不是完全覆蓋的。對(duì)測(cè)試用戶(hù)購(gòu)買(mǎi)的所有圖書(shū)(71662本)的推薦列表情況進(jìn)行統(tǒng)計(jì)發(fā)現(xiàn),詳情頁(yè)面中有第一種推薦列表的圖書(shū)有41824本,詳情頁(yè)面中有第二種推薦列表的圖書(shū)有70396本,詳情頁(yè)面中有第三種推薦列表的圖書(shū)有54057本。為了保證數(shù)據(jù)的覆蓋率,本文選擇第二種推薦列表進(jìn)行研究。

本文計(jì)算圖書(shū)推薦列表的Jaccard相似度,可以得到圖書(shū)之間的相似度矩陣(計(jì)算結(jié)果示例見(jiàn)表3)。

對(duì)于每本圖書(shū),根據(jù)相似度矩陣,找出與該圖書(shū)相似度大于0的所有圖書(shū),并按相似度大小排序。由于選擇進(jìn)行研究的第二種推薦列表(基于協(xié)同過(guò)濾)中圖書(shū)的最大數(shù)量為100,在這里選擇相似度最高的前100本作為圖書(shū)的新推薦列表。

3.3.4 個(gè)性化圖書(shū)推薦

個(gè)性化圖書(shū)推薦包括兩個(gè)子任務(wù),即基于單一推薦列表的圖書(shū)推薦、基于兩種推薦列表融合的圖書(shū)推薦。

(1)基于單一推薦列表的圖書(shū)推薦,分別使用亞馬遜提供的基于協(xié)同過(guò)濾的推薦列表與基于推薦列表Jaccard相似度生成的推薦列表,進(jìn)行個(gè)性化圖書(shū)推薦(推薦流程見(jiàn)圖3)。首先找到用戶(hù)購(gòu)買(mǎi)的所有圖書(shū)的推薦列表,統(tǒng)計(jì)找到的所有推薦列表中不同圖書(shū)出現(xiàn)的次數(shù),按照降序排列,選取前100本作為該用戶(hù)的個(gè)性化圖書(shū)推薦結(jié)果。使用基于推薦列表相似度生成的推薦列表時(shí)步驟相同。

(2)基于兩種推薦列表融合的個(gè)性化圖書(shū)推薦,首先賦予兩種推薦列表不同的權(quán)重,然后按照以下規(guī)則對(duì)兩種推薦列表進(jìn)行融合:如果圖書(shū)出現(xiàn)在兩種推薦列表中,那么該圖書(shū)的權(quán)重為1,如果只在一種推薦列表中出現(xiàn),則圖書(shū)的權(quán)重等于相應(yīng)推薦列表的權(quán)重,以此來(lái)將兩種推薦列表中的圖書(shū)綜合在一起。后續(xù)的推薦步驟與基于單一推薦列表的個(gè)性化圖書(shū)推薦相似,只是將統(tǒng)計(jì)推薦列表中圖書(shū)的次數(shù)相應(yīng)地改為計(jì)算圖書(shū)的總權(quán)重。

3.3.5 推薦效果評(píng)估

為驗(yàn)證基于推薦列表的相似度能否提高個(gè)性化圖書(shū)推薦效果,本文選取購(gòu)買(mǎi)圖書(shū)記錄不少于50條的用戶(hù)進(jìn)行個(gè)性化圖書(shū)推薦效果評(píng)估。符合要求的用戶(hù)一共有1347名。按照?qǐng)D書(shū)購(gòu)買(mǎi)記錄的時(shí)間順序,將每個(gè)用戶(hù)購(gòu)買(mǎi)的前70%的圖書(shū)作為訓(xùn)練集,后30%的圖書(shū)作為測(cè)試集。根據(jù)上一步個(gè)性化圖書(shū)推薦中描述的推薦流程,對(duì)每一名用戶(hù)進(jìn)行個(gè)性化圖書(shū)推薦,基于用戶(hù)的訓(xùn)練集生成推薦結(jié)果,與測(cè)試集對(duì)比,計(jì)算每種推薦方式的準(zhǔn)確率(P)、召回率(R)和F1值[22],計(jì)算公式如下:

對(duì)計(jì)算結(jié)果進(jìn)行對(duì)比和分析,從而實(shí)現(xiàn)推薦效果的評(píng)估。對(duì)于基于兩種推薦列表融合的個(gè)性化圖書(shū)推薦,還將調(diào)整兩種推薦列表的權(quán)重比例,進(jìn)行多次測(cè)試,得到使得推薦效果最優(yōu)的權(quán)重比例。

4 實(shí)驗(yàn)結(jié)果與分析

4.1 基于單一推薦列表的個(gè)性化圖書(shū)推薦結(jié)果

本文比較使用兩種不同推薦列表對(duì)用戶(hù)進(jìn)行個(gè)性化圖書(shū)推薦的性能?;趨f(xié)同過(guò)濾的推薦各項(xiàng)指標(biāo)要高于基于推薦列表相似度的推薦,尤其是在平均召回率上,前者比后者高了20.35%(見(jiàn)圖4)。召回率代表測(cè)試集中的圖書(shū)被準(zhǔn)確推薦的數(shù)量大小,召回率越大,用戶(hù)因?yàn)橥扑]而購(gòu)買(mǎi)的圖書(shū)越多,這直接與商家所能取得的利潤(rùn)相關(guān)。從而證明亞馬遜提供的基于協(xié)同過(guò)濾的推薦列表的重要性是不可忽略的,所以本文還將兩種推薦列表融合進(jìn)行個(gè)性化圖書(shū)推薦。

4.2 基于兩種推薦列表融合的個(gè)性化圖書(shū)推薦結(jié)果

本文按照不同的比例設(shè)置兩種推薦列表的權(quán)重,將兩種推薦列表融合后進(jìn)行個(gè)性化圖書(shū)推薦(性能評(píng)估結(jié)果見(jiàn)表4)。從表中可以看出,各評(píng)估指標(biāo)隨著權(quán)重比例S的減小都呈現(xiàn)先增大后減小的變化趨勢(shì)。當(dāng)兩種推薦列表的權(quán)重比例為6 : 4時(shí),四個(gè)評(píng)估指標(biāo)都取得最大值。相比于僅使用基于協(xié)同過(guò)濾的推薦列表,各項(xiàng)指標(biāo)都有一定的提升。

以用戶(hù)“A3I*****HFR”為例,本文分別使用基于協(xié)同過(guò)濾的推薦和融合推薦的結(jié)果(見(jiàn)表5)。使用基于協(xié)同過(guò)濾的推薦列表對(duì)該用戶(hù)進(jìn)行個(gè)性化推薦準(zhǔn)確預(yù)測(cè)了4本圖書(shū),而使用兩種推薦列表融合(權(quán)重比例S=6:4)進(jìn)行個(gè)性化推薦準(zhǔn)確預(yù)測(cè)了7本圖書(shū),準(zhǔn)確率、召回率、F1值后者都高于前者。

此外,經(jīng)過(guò)統(tǒng)計(jì)發(fā)現(xiàn),僅使用亞馬遜提供的基于協(xié)同過(guò)濾的推薦列表進(jìn)行個(gè)性化圖書(shū)推薦時(shí),準(zhǔn)確推薦的圖書(shū)數(shù)量為“0”的用戶(hù)有467名;而使用兩種推薦列表融合(權(quán)重比例S = 6 : 4)進(jìn)行個(gè)性化圖書(shū)推薦時(shí),準(zhǔn)確推薦的圖書(shū)數(shù)量為“0”的用戶(hù)有441名。后者為更多的用戶(hù)找到了準(zhǔn)確推薦的圖書(shū)。

5 結(jié)語(yǔ)

本文通過(guò)計(jì)算亞馬遜圖書(shū)推薦列表的Jaccard相似度,為每本圖書(shū)重新生成了推薦列表,并且設(shè)計(jì)基于圖書(shū)推薦列表和用戶(hù)購(gòu)買(mǎi)記錄進(jìn)行個(gè)性化圖書(shū)推薦的方法。實(shí)驗(yàn)結(jié)果顯示,基于推薦列表相似度生成的推薦列表的效果不如亞馬遜提供的基于協(xié)同過(guò)濾的推薦列表,但通過(guò)調(diào)整兩種推薦列表的權(quán)重比例,將兩者融合再進(jìn)行個(gè)性化圖書(shū)推薦時(shí),推薦效果優(yōu)于基于協(xié)同過(guò)濾的推薦列表。當(dāng)基于協(xié)同過(guò)濾的推薦列表與基于推薦列表相似度生成的推薦列表的權(quán)重之比為6 : 4時(shí),推薦效果最優(yōu),Macro_F1提高了5.84%,Micro_F1提高了6.36%。對(duì)于推薦效果的評(píng)估最直觀的方法是使用個(gè)性化推薦比前后銷(xiāo)售額的變化,但我們無(wú)法獲取相關(guān)的數(shù)據(jù),所以選用了準(zhǔn)確率、召回率、Macro_F1、Micro_F1這種相對(duì)嚴(yán)苛的評(píng)價(jià)指標(biāo)來(lái)對(duì)推薦效果進(jìn)行評(píng)估。在各項(xiàng)評(píng)價(jià)指標(biāo)得分普遍很低的情況下,本文提出的推薦方法所取得的推薦效果提升較為可觀。這說(shuō)明推薦列表的相似度可對(duì)個(gè)性化圖書(shū)推薦效果起到優(yōu)化作用。

本文研究還存在一些不足之處,如本文使用的圖書(shū)數(shù)據(jù)只有78萬(wàn)余條,這些圖書(shū)之間的推薦列表相似度并不能代表所有圖書(shū),因此基于推薦列表相似度為每本圖書(shū)生成的推薦列表可能并不完全,有些推薦列表更相似的圖書(shū)數(shù)據(jù)可能沒(méi)有采集到,今后本文將擴(kuò)大數(shù)據(jù)規(guī)模進(jìn)行研究。另外,本文提出的圖書(shū)推薦效果優(yōu)化方法,需要依賴(lài)圖書(shū)的原始推薦列表,還需要解決“冷啟動(dòng)”問(wèn)題。

參考文獻(xiàn):

[1] 洪亮,任秋圜,梁樹(shù)賢.國(guó)內(nèi)電子商務(wù)網(wǎng)站推薦系統(tǒng)信息服務(wù)質(zhì)量比較研究——以淘寶、京東、亞馬遜為例[J].圖書(shū)情報(bào)工作,2016,60(23):97-110.

[2] 安德智,劉光明,章恒.基于協(xié)同過(guò)濾的圖書(shū)推薦模型[J].圖書(shū)情報(bào)工作,2011,55(1):35-38.

[3] Rong H,Gong L,Qin Z,et al.A Personalized Recommendation Approach Based on Content Similarity Calculation in Large-Scale Data[C].In: Proceedings of the 15th International Conference,ICA3PP 2015,Zhangjiajie,China,2015:460-477.

[4] 張麒麟,姜霖.基于文獻(xiàn)內(nèi)容的圖書(shū)推薦機(jī)制研究[J].圖書(shū)館學(xué)研究,2018(1):78-81,17.

[5] 胡曉,王理,潘守慧.基于改進(jìn)VSM的Web文本分類(lèi)方法[J].情報(bào)雜志,2010,29(5):144-147.

[6] Quan C,Ren F.Unsupervised product feature extraction for feature-oriented opinion determination[J].Information Sciences,2014,DOI:10.1016/j.ins.2014.02.063.

[7] 曾輝,唐佳麗,熊李艷,等.基于動(dòng)詞名詞和CHI特征選擇的中文人物社會(huì)關(guān)系抽取[J].計(jì)算機(jī)應(yīng)用研究,2017,34(6):1631-1635.

[8] 劉汝雋,賈斌,辛陽(yáng).基于信息增益特征選擇的網(wǎng)絡(luò)異常檢測(cè)模型[J].計(jì)算機(jī)應(yīng)用,2016,36(A2):49-53.

[9] Kalloori S,Ricci F.Improving Cold Start Recommendation by Mapping Feature-Based Preferences to Item Comparisons[C].Proceedings of the 25th Conference on User Modeling,Adaptation and Personalization.New York,NY,USA,2017:289-293.

[10] Shi L,Zhao W X,Shen Y D.Local Representative-Based Matrix Factorization for Cold-Start Recommendation[J].ACM Transactions on Information Systems,2017,36(2):1-28.

[11] Han J,Pei J,Yin Y.Mining frequent patterns without candidate generation[C].ACM SIGMOD International Conference on Management of Data.New York,NY,USA,2000,29(2):1-12.

[12] Parvatikar S,Joshi B.Online book recommendation system by using collaborative filtering and association mining[C].In:Proceedings of IEEE International Conference on Computational Intelligence and Computing Research.Orlando,F(xiàn)L,USA,2016:1-4.

[13] Tan Z,He L.An Efficient Similarity Measure for User-Based Collaborative Filtering Recommender Systems Inspired by the Physical Resonance Principle[J].IEEE Access,2017,5(99):27211-27228.

[14] Li C,He K.CBMR:An optimized MapReduce for item-based collaborative filtering recommendation algorithm with empirical analysis[J].Concurrency and Computation:Practice and Experience,2017,29(10):e4092.

[15] Resnick P,Varian H R.Recommender systems[J].Communications of the ACM,New York,NY,USA,1997,40(3):56-58.

[16] Li D,Chen C,Lv Q,et al. An algorithm for efficient privacy-preserving item-based collaborative filtering[J].Future Generation Computer Systems,2016,DOI:10.1016/j.future.2014.11.003.

[17] Wei J,He J,Chen K,et al.Collaborative filtering and deep learning based recommendation system for cold start items [J].Expert Systems with Applications,2017(69):29-39.

[18] 李斌,張博,劉學(xué)軍,等.基于Jaccard相似度和位置行為的協(xié)同過(guò)濾推薦算法[J].計(jì)算機(jī)科學(xué),2016,43(12):200-205.

[19] 武永亮,趙書(shū)良,李長(zhǎng)鏡,等.基于TF-IDF和余弦相似度的文本分類(lèi)方法[J].中文信息學(xué)報(bào),2017,31(5):138-145.

[20] Wang C,Song Y,Li H,et al.Distant Meta-Path Similarities for Text-Based Heterogeneous Information Networks[C].In:Proceedings of the 2017 ACM on Conference on Information and Knowledge Management.New York,NY,USA,2017:1629-1638.

[21] 俞婷婷,徐彭娜,江育娥,等.基于改進(jìn)的Jaccard系數(shù)文檔相似度計(jì)算方法[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2017,26(12):137-142.

[22] 奉國(guó)和.文本分類(lèi)性能評(píng)價(jià)研究[J].情報(bào)雜志,2011,30(8):66-70.

作者簡(jiǎn)介:張恒(1995-),男,南京理工大學(xué)信息管理系碩士研究生;章成志(1977-),男,南京理工大學(xué)信息管理系教授,博士生導(dǎo)師;周清清(1990-),女,南京理工大學(xué)信息管理系博士研究生。

连云港市| 岱山县| 吴忠市| 桃园县| 吉隆县| 株洲市| 中阳县| 房产| 荥阳市| 含山县| 新津县| 区。| 公主岭市| 呈贡县| 阳泉市| 平和县| 揭东县| 泸水县| 遵化市| 元氏县| 轮台县| 大姚县| 重庆市| 宝坻区| 拜城县| 西畴县| 彭山县| 江永县| 原阳县| 连云港市| 疏附县| 开封市| 比如县| 阿拉善右旗| 象山县| 武隆县| 离岛区| 凌源市| 新丰县| 鄂州市| 宁强县|