国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

可提高多樣性的基于重排序圖書推薦算法研究

2018-01-02 00:15鐘足峰
現(xiàn)代情報 2017年12期
關(guān)鍵詞:協(xié)同過濾推薦系統(tǒng)多樣性

鐘足峰

〔摘 要〕通過提供個性化推薦,推薦系統(tǒng)的重要性越來越受到讀者的重視?,F(xiàn)有推薦算法著重關(guān)注推薦的準(zhǔn)確度,將讀者引導(dǎo)到少數(shù)熱點圖書上,導(dǎo)致產(chǎn)生較多長尾圖書的問題;并且讀者的興趣過于集中,不利于挖掘讀者潛在的興趣點。提出一種重排序的基于用戶協(xié)同過濾算法,該算法通過對推薦列表TOP-N進(jìn)行重排序來產(chǎn)生推薦列表。實驗結(jié)果表明,該算法可以在一定精確度損失的條件下,大幅提高最終推薦列表的多樣性有利于讀者接觸更多的未知領(lǐng)域及長尾圖書的銷售。

〔關(guān)鍵詞〕推薦系統(tǒng);協(xié)同過濾;多樣性;長尾圖書

DOI:10.3969/j.issn.1008-0821.2017.12.010

〔中圖分類號〕G252.1 〔文獻(xiàn)標(biāo)識碼〕A 〔文章編號〕1008-0821(2017)12-0059-05

〔Abstract〕The importance of Recommender systems is becoming more and more to readers by providing personalized recommendations.The existing recommendation algorithms that focus on recommendation accuracy will misguide readers to a few hot books,thus creating many long-tail books.As a result,the excessive concentration of reader interest is unfavorable for excavation of potential points of interest.The paper proposed a reranking user-based collaborative filtering algorithm,which generated a new recommendation list via reranking of TOP-N on the original list.The experimental results showed that this algorithm could greatly improve the diversity of the final recommendation list at the sacrifice of certain accuracy.This algorithm helped readers to know more previously unknown fields as well as the borrowing of long-tail books.

〔Key words〕recommender system;collaborative filtering;diversity;long-tail book

隨著高校的不斷發(fā)展和學(xué)生數(shù)量的擴大,圖書館中館藏圖書數(shù)量以幾何倍數(shù)增長。高校圖書館面臨著數(shù)萬讀者與上百萬的圖書資源之間如何進(jìn)行匹配的問題:即在如何發(fā)揮圖書的最大功效的同時,能針對讀者的個性化需求提供圖書推薦服務(wù)。推薦系統(tǒng)實質(zhì)是一種能進(jìn)行信息過濾的系統(tǒng)。其能根據(jù)用戶特征模型通過智能推薦策略實現(xiàn)個性化信息推薦和定制[1]。近年來,越來越多的推薦系統(tǒng)幫助人們從候選集合中找出最優(yōu)資源,在不同的領(lǐng)域如音樂[ 2-3],電影[4-5],旅行[ 6-7],電子商務(wù)[ 8-9 ]、在線學(xué)習(xí)[10]、社交網(wǎng)絡(luò)[11]和圖書[12-13]等領(lǐng)域發(fā)揮著作用。

推薦系統(tǒng)的目的是為用戶推薦合適的項目值,大多數(shù)推薦算法的主要目的是提高推薦的準(zhǔn)確度。但在實際應(yīng)用中,用戶對準(zhǔn)確率高的推薦系統(tǒng)不一定滿意。因為推薦系統(tǒng)不僅需要通過高準(zhǔn)確率來滿足用戶,更重要的是能發(fā)掘出用戶潛在的最大需求效能。例如,系統(tǒng)推薦了熱門經(jīng)典圖書給讀者,使得準(zhǔn)確度非常高,但是這些圖書信息讀者可以從其他途徑輕易得到,因此讀者不會認(rèn)為這樣的系統(tǒng)是有價值的。

由于現(xiàn)有圖書推薦算法過度關(guān)注推薦的準(zhǔn)確度,而很少考慮到推薦的多樣性。將存在以下問題:①對圖書而言,在現(xiàn)有的各種推薦算法中,由于各種熱門經(jīng)典書記被讀者借閱和評論的越多,則將被排在推薦列表的首位,將更容易被讀者借閱和評論,即廣大讀者的興趣被集中引導(dǎo)到同類中的熱門圖書上去。形成馬太效應(yīng),即熱門書籍越來越熱,而其他非熱門的書籍將無人問津,形成長尾書籍。②對圖書館而言,推薦的書籍為經(jīng)典或熱門書籍,也受到大多數(shù)讀者的喜歡,因此將導(dǎo)致推薦結(jié)果同質(zhì)化嚴(yán)重的現(xiàn)象,很難推薦出讀者潛在喜歡的書籍,也就是說,推薦系統(tǒng)提供的實質(zhì)是熱門及經(jīng)典圖書的排名推薦,而并沒有做到推薦的個性化。③對讀者而言,尤其是高校的學(xué)生來說,由于信息的不對稱及認(rèn)知的局限,開始并不知道對哪一方面的知識感興趣,只有多接觸不同種類不同學(xué)科的知識,才能真正發(fā)掘出自己的愛好和特長。因此為了充分推薦給讀者潛在喜歡的書籍,對推薦結(jié)果質(zhì)量的評估,不僅從推薦書籍準(zhǔn)確度評估,更需要對推薦書籍的多樣性進(jìn)行評估。這樣不僅能更好的挖掘讀者潛在的喜好,也能增加長尾書籍的借閱量,為高校圖書館的書籍發(fā)揮更大效益。

一般而言,系統(tǒng)推薦長尾圖書會使得系統(tǒng)的準(zhǔn)確度降低,但這時讀者反而容易發(fā)現(xiàn)一些新穎的,未接觸過的圖書。本文在基于用戶的協(xié)同算法的基礎(chǔ)上,利用重排名算法盡量選擇讀者具有潛在感興趣的圖書形成推薦列表,使生成的推薦列表具有更強的多樣性。

1 相關(guān)研究回顧

1.1 協(xié)同推薦算法

協(xié)同過濾是通過分析使用者的歷史評分記錄,計算與其他使用者的評分的相似度,來挖掘出使用者潛在喜好的項目。協(xié)同過濾推薦算法可分為基于用戶協(xié)同過濾算法、基于項目協(xié)同過濾算法與混合型協(xié)同過濾算法三類。以用戶為基礎(chǔ)協(xié)同過濾算法的概念是根據(jù)評價矩陣計算用戶之間的相鄰程度,取鄰近用戶喜好項目做出推薦。即假設(shè)兩用戶之間有越多的項目評價相似,則喜好的項目也相似[14]。隨著使用者數(shù)量的增加,鄰近用戶的計算機將成線性加大,其性能會越來越差。反應(yīng)速度將越來越慢,而在互聯(lián)網(wǎng)上,系統(tǒng)響應(yīng)速度是影響使用者體驗的重要因素。以項目為基礎(chǔ)的協(xié)同過濾算法則根據(jù)評價矩陣計算推薦項目之間的相鄰程度,選取用戶以往喜好項目的鄰近項目做出推薦。即系統(tǒng)假設(shè)用戶喜好的項目類似,因此系統(tǒng)可以找出與查詢項目相似度高的項目進(jìn)行推薦。同樣隨項目數(shù)量增加,計算量將成線性加大,其性能會越來越差[15]。但由于相似項目集合不易受時間變化影響,可以在離線狀態(tài)先完成相似項目集合計算,因此可在數(shù)據(jù)量大的情況下做出快速推薦。其缺點是如果用戶從未曾對相似項目評過分,則無法采用此方法。而混合型協(xié)同過濾算法是集合以上兩種算法優(yōu)點的算法,將兩種算法進(jìn)行互補[16]。endprint

1.2 推薦系統(tǒng)的評價指標(biāo)

準(zhǔn)確性指標(biāo):推薦的準(zhǔn)確度是評價推薦質(zhì)量的最重要指標(biāo)之一。推薦系統(tǒng)中的一個基本假設(shè)是用戶喜好能帶來精確推薦項目的系統(tǒng)。因此準(zhǔn)確度被絕大多數(shù)推薦系統(tǒng)用來評估推薦結(jié)果的質(zhì)量。平均絕對誤差(MAE)是度量準(zhǔn)確度的一個經(jīng)典方法,其通過度量用戶的過往實際打分與系統(tǒng)的預(yù)測打分的平均絕對誤差值來進(jìn)行計算[17]。其計算公式如公式(1)所示;

該方法使用按項目流行度排序的啟發(fā)式重排名方法,rankItemPop(i)為推薦系統(tǒng)中項目的流行度指標(biāo),將候選項目按流行度(根據(jù)每個項目的歷史評分?jǐn)?shù)計算)從低到高進(jìn)行排序。然后將該排名分兩類處理[20]:1)當(dāng)項目的評分大于閥值TR時,使用rankx(i)重新計算項目排名;2)當(dāng)評分小于TR時,使用原有標(biāo)準(zhǔn)排名方法計算物品排名。其中Tmax為最大評分值,TH為判定物品是否與用戶相關(guān)的閥值。au隨著TR的變化而動態(tài)變化,au的主要作用是確保評分在[TR,Tmax]內(nèi)的項目的排名比在[TH,TR]內(nèi)優(yōu)先。而當(dāng)TR與Tmax靠近時,評分高的物品將被推薦,則造成推薦系統(tǒng)的準(zhǔn)確度越大;TR與TH靠近時,則使用rankx(i)進(jìn)行重排名,則造成推薦系統(tǒng)多樣性增加而準(zhǔn)確性降低。因此,TR具有調(diào)節(jié)推薦系統(tǒng)結(jié)果的準(zhǔn)確度與多樣性的作用。

2 基于中心值距離重排序算法(Center distance-Based Ranking)

從以上算法可以看出,基于商品流行度重排序算法可以提高長尾商品的覆蓋率,然而沒有充分考慮到用戶個性化的潛在愛好,即沒有考慮到個體多樣性的擴展。例如:如果讀者對某熱門書籍評價較高,則按該算法推薦的為該熱門書籍所屬類的長尾商品,即將讀者引向了先前感興趣的領(lǐng)域。而讀者更關(guān)注的可能是不同類的書籍,即未知的領(lǐng)域。如圖1所示:以上算法導(dǎo)致用戶的選項趨向于圖中箭頭1的方向,即引導(dǎo)到B區(qū)域的產(chǎn)品,而最優(yōu)的推薦應(yīng)該是箭頭2的方向,即將用戶的選擇引導(dǎo)到D區(qū)域?;诖嬖诘膯栴},本文提出了一種新的TOP-N重排名推薦方法,兼顧群體多樣性和個體多樣性。思路如下:盡可能將讀者的選擇引導(dǎo)到新的領(lǐng)域的項目,并且這些項目盡可能是長尾的書籍,因此通過計算讀者已經(jīng)借閱書籍的中心值,推薦距離該中心值遠(yuǎn)的書籍,距離中心值越遠(yuǎn)的說明不僅對讀者來說是新的領(lǐng)域的項目,而且對整個所有書籍項目集來說也是長尾的書籍。步驟如下:首先通過基于讀者的協(xié)同推薦算法得出前N個排在前面的書籍項目,然后計算讀者已經(jīng)借閱的項目集的中心值。設(shè)置閾值,將大于閾值的M個項目按照距離中心值的由遠(yuǎn)至近進(jìn)行排序,另外小于閾值的N-M個項目按照標(biāo)準(zhǔn)的推薦算法進(jìn)行排序,合并這N個項目為候選項目進(jìn)行推薦。

其中i*表示某個大于閾值需要進(jìn)行重排序的書籍,R1(u,i*)為所有讀者對其評分的均值,i1表示該讀者已經(jīng)借閱(或評分)的項目,R0(u,i1)為所有讀者對已評分書籍集評分的均值,即中心值。閾值初始值TR=,為所有讀者對所有書籍已評分值的平均。并且根據(jù)實際需要可以動態(tài)設(shè)置閾值 TR(TH

3 實驗及結(jié)果分析

實驗數(shù)據(jù)選用某高校圖書館借閱數(shù)據(jù)集,該圖書館紙質(zhì)圖書211萬余冊,紙質(zhì)中外文期刊2 200多種,每周開放時間100小時,在校本科生23 000多人,為了方便實驗,抽取商學(xué)院和化學(xué)學(xué)院13級學(xué)生共1 023人,從2013年9月1日到2017年1月1日借閱記錄共73 231條借閱記錄,借閱后對圖書打分記錄有21 654條,打分從 1~5,5 分表示最好。實驗用75%的數(shù)據(jù)進(jìn)行學(xué)習(xí),用剩下的25%去預(yù)測驗證。

采用的是精確度指標(biāo)來評價推薦的精確性,采用覆蓋率指標(biāo)來評價推薦的多樣性,實驗使用用戶協(xié)同推薦算法,及基于流行度的重排名算法和本文的基于聚類的重排名算法,使用N=5,10,15,20,25進(jìn)行實驗。

經(jīng)過實驗,圖示3展示了以上述多種評估方法所表示的實驗結(jié)果,由結(jié)果可知,該改進(jìn)的重排名方法不僅展示了在top-N推薦方面的準(zhǔn)確度和多樣性性能,,并且將其與原基于流行度的重排名和用戶協(xié)同推薦算法進(jìn)行了對比。與預(yù)期中一致,用戶協(xié)同推薦算法的推薦結(jié)果具有最高的準(zhǔn)確度,但其覆蓋率和多樣性卻很低。雖然ReRank-Itempop和ReRank-ItemDist算法在精確度和覆蓋率方面差不多,但是在多樣性方面,ReRank-ItemDist方面優(yōu)于ReRank-Itempop算法。表明ReRank-ItemDist算法能更有利于擴張個體的多樣性,即引導(dǎo)個體到新的領(lǐng)域。圖中原重排名方法的準(zhǔn)確度——多樣性曲線是通過使用不同的N的值來確定的。

4 結(jié) 論

近年來,推薦系統(tǒng)已取得重大進(jìn)展。為了提高推薦質(zhì)量涌現(xiàn)了許多解決方法,然而,設(shè)計的算法大多數(shù)為了提高精度,而推薦結(jié)果的多樣性經(jīng)常被忽視。推薦結(jié)果的多樣性不僅能提高長尾圖書的借閱量,而且能挖掘出讀者潛在閱讀興趣點。因此,在本文中,我們提出了基于距離的重排名算法,本算法能對圖書借閱推薦的多樣性進(jìn)行改進(jìn),而只造成少量的推薦精確度損失。此外,該算法非常靈活,能根據(jù)需要設(shè)置其中的參數(shù)N來調(diào)節(jié)推薦結(jié)果多樣性與精確度的比重。同時,通過仿真實驗的設(shè)計,并與傳統(tǒng)算法進(jìn)行比較,得出了基于距離的重排名算法在推薦結(jié)果多樣性指標(biāo)上優(yōu)于傳統(tǒng)算法。

參考文獻(xiàn)

[1]Resnick P,Varian H R.Recommender systems[J].Communications of the ACM,1997,40(3):56-58.

[2]Chen H C,Chen A L P.A music recommendation system based on music and user grouping[J].Journal of Intelligent Information Systems,2005,24(2):113-132.

[3]秦繼偉,鄭慶華.面向推薦系統(tǒng)的音樂內(nèi)涵空間建模研究[J].西安交通大學(xué)學(xué)報,2014,48(4):31-34.

[4]雷鳴,朱明.情感分析在電影推薦系統(tǒng)中的應(yīng)用[J].計算機工程與應(yīng)用,2016,52(10):59-63.

[5]Golbeck J.Generating predictive movie recommendations from trust in social networks[J].Trust Management,2006:93-104.

[6]劉小燕,陳艷麗,賈宗璞,等.基于增強學(xué)習(xí)的旅行計劃推薦系統(tǒng)[J].計算機工程,2010,36(21):254-256.

[7]Shih D H,Yen D C,Lin H C,et al.An implementation and evaluation of recommender systems for traveling abroad[J].Expert Systems with Applications,2011,38(12):15344-15355.

[8]Rosaci D,Sarné G M L.A multi-agent recommender system for supporting device adaptivity in e-Commerce[J].Journal of Intelligent Information Systems,2012,38(2):393-418.

[9]艾丹祥,張玉峰,左暉,等.面向C2C在線情境的一種個性化三維推薦方法[J].情報學(xué)報,2016,35(6):651-663.

[10]Bobadilla J,Serradilla F,Hernando A.Collaborative filtering adapted to recommender systems of e-learning[J].Knowledge-Based Systems,2009,22(4):261-265.

[11]熊回香,楊雪萍.社會化標(biāo)注系統(tǒng)中的個性化信息推薦研究[J].情報學(xué)報,2016,35(5):549-560.

[12]丁勇,朱長水.基于Android平臺的圖書閱讀推薦系統(tǒng)[J].計算機科學(xué),2016,43(s1).

[13]高全力,高嶺,楊建鋒,等.上下文感知推薦系統(tǒng)中基于用戶認(rèn)知行為的偏好獲取方法[J].計算機學(xué)報,2015,(9):1767-1776.

[14]Zhao Z D,Shang M S.User-based collaborative-filtering recommendation algorithms on hadoop[C]//Knowledge Discovery and Data Mining,2010.WKDD10.Third International Conference on.IEEE,2010:478-481.

[15]Sarwar B,Karypis G,Konstan J,et al.Item-based collaborative filtering recommendation algorithms[C]//Proceedings of the 10th international conference on World Wide Web.ACM,2001:285-295.

[16]Wang J,De Vries A P,Reinders M J T.Unifying user-based and item-based collaborative filtering approaches by similarity fusion[C]//Proceedings of the 29th annual international ACM SIGIR conference on Research and development in information retrieval.ACM,2006:501-508.

[17]劉建國,周濤,郭強,等.個性化推薦系統(tǒng)評價方法綜述[J].復(fù)雜系統(tǒng)與復(fù)雜性科學(xué),2009,6(3):1-10.

[18]Bradley K,Smyth B.Improving recommendation diversity[C]//Proceedings of the Twelfth Irish Conference on Artificial Intelligence and Cognitive Science,Maynooth,Ireland,2001:85-94.

[19]Ge M,Delgado-Battenfeld C,Jannach D.Beyond accuracy:evaluating recommender systems by coverage and serendipity[C]//Proceedings of the fourth ACM conference on Recommender systems.ACM,2010:257-260.

[20]Adomavicius G,Kwon Y O.Improving aggregate recommendation diversity using ranking-based techniques[J].IEEE Transactions on Knowledge and Data Engineering,2012,24(5):896-911.

(本文責(zé)任編輯:孫國雷)endprint

猜你喜歡
協(xié)同過濾推薦系統(tǒng)多樣性
基于用戶偏好的信任網(wǎng)絡(luò)隨機游走推薦模型
海洋微生物次生代謝的生物合成機制
舞蹈表演的表現(xiàn)形式多樣性研究
尚义县| 绥中县| 东海县| 司法| 大足县| 雷州市| 莱州市| 仪陇县| 满洲里市| 北碚区| 抚宁县| 宁安市| 西充县| 台湾省| 三亚市| 天全县| 定结县| 商洛市| 曲沃县| 伊金霍洛旗| 海南省| 栾川县| 汾西县| 资阳市| 敦化市| 彭阳县| 井冈山市| 巨鹿县| 浏阳市| 长岭县| 德格县| 宁海县| 兴业县| 奇台县| 长兴县| 三门峡市| 柳江县| 罗平县| 灵武市| 通海县| 南康市|