国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于用戶畫像的圖書推薦算法實證研究

2024-04-30 12:25:21潘文佳費立美
四川圖書館學(xué)報 2024年1期
關(guān)鍵詞:推薦算法用戶畫像個性化推薦

潘文佳 費立美

摘 要:個性化推薦算法能夠幫助讀者從圖書館海量館藏中發(fā)現(xiàn)所需圖書,有助于提高館藏利用率和讀者服務(wù)效率。文章以高校圖書館圖書數(shù)據(jù)、讀者數(shù)據(jù)和借閱數(shù)據(jù)為數(shù)據(jù)源,從中抽取關(guān)鍵詞構(gòu)建圖書畫像和讀者畫像;利用向量空間模型計算圖書與讀者之間的相似度,向讀者推薦與其相似度排名靠前的圖書;并進(jìn)行推薦算法效果實證分析,揭示著錄數(shù)據(jù)、讀者類型、推薦窗口等變量對推薦準(zhǔn)確率的影響。

關(guān)鍵詞:高校圖書館;用戶畫像;推薦算法;個性化推薦

分類號:G252;G250.7??? 文獻(xiàn)標(biāo)識碼:A

An Empirical Study of Book Recommendation Algorithm Based on User Profile

PAN Wenjia, FEI Limei

Abstract: The personalized recommendation algorithm can help readers find the books they need from the massive collection of the library, and help improve the utilization rate of the collection and the efficiency of reader service. This paper takes the book data, reader data and borrowing data of university libraries as the data source, and extracts keywords from them to construct the book portrait and reader portrait, uses vector space model to calculate the similarity between books and readers, and recommends the books with the highest similarity ranking to readers, conducts an empirical analysis of the effect of recommendation algorithm to reveal the influence of variables such as recorded data, reader type and recommendation window on recommendation accuracy.

Keywords: university library; user profile; recommendation algorithm; personalized recommendation

0 引言

在信息爆炸的年代,人們普遍處于信息“過載”和信息“饑渴”的矛盾狀態(tài)中。信息推薦被認(rèn)為是緩解這一矛盾的有效方法。圖書館讀者同樣面臨著“被圖書淹沒,卻饑渴于知識”的困境。一方面,圖書館擁有豐富的館藏圖書,可供選擇的圖書浩如煙海,讀者擁有“過載”的圖書資源;另一方面,紙質(zhì)圖書仍是讀者閱讀的主要載體,但是他們?nèi)D書館借閱圖書的次數(shù)越來越少,甚至于部分讀者“無書可讀”,處于知識“饑渴”狀態(tài)。其實并非真正無書可讀,而是讀者感興趣的、所需要的圖書被淹沒在茫茫書海之中而難以發(fā)現(xiàn)?;谟脩舢嬒竦耐扑]算法能夠幫助讀者發(fā)現(xiàn)所需圖書,降低讀者圖書搜尋難度,是提升圖書館館藏利用率和讀者服務(wù)效率的有效方法。

1 相關(guān)研究評述

使用用戶畫像做個性化推薦由來已久。早在20世紀(jì)90年代,Pazzani等就提出了通過用戶畫像幫助人們尋找他們感興趣的網(wǎng)站[1],其實質(zhì)就是做網(wǎng)站的個性化推薦。Amato等提出將用戶畫像應(yīng)用到數(shù)字圖書館,認(rèn)為用戶畫像能夠準(zhǔn)確地表達(dá)用戶信息需求,在精準(zhǔn)了解用戶信息需求基礎(chǔ)上能夠更好地為用戶提供信息服務(wù)[2]。他們提出了推和拉的兩種服務(wù)模式,其實質(zhì)都是利用用戶畫像過濾用戶不需要的信息。在國內(nèi),黃文彬等提出移動用戶畫像構(gòu)建模型,用于顯示用戶的頻繁活動規(guī)律、周期性行為及出行方式[3],該模型可以為個性化服務(wù)提供更完整豐富的信息。曾建勛提出精準(zhǔn)服務(wù)需要用戶畫像,認(rèn)為數(shù)字圖書館服務(wù)必須統(tǒng)一認(rèn)證和管理用戶,從多維度認(rèn)識用戶的自然屬性、社交屬性、興趣屬性和能力屬性,在用戶的知識創(chuàng)造過程中強化精準(zhǔn)服務(wù)[4]。韓梅花等提出利用用戶畫像識別具有抑郁傾向的用戶并為其推送相應(yīng)的圖書以實現(xiàn)閱讀治療[5]。王仁武等通過圖書館用戶的Web日志構(gòu)建了學(xué)術(shù)用戶畫像并將其用于學(xué)術(shù)資源推薦[6]。王慶等構(gòu)建了圖書館用戶畫像模型,并提出用戶畫像視角下的資源推薦流程和模式,為如何開展基于圖書館用戶畫像的信息資源推薦活動提供了參考[7]。楊帆介紹了國家圖書館大數(shù)據(jù)項目,提出基于讀者畫像和資源畫像構(gòu)建圖書館大數(shù)據(jù)分析平臺,用于圖書館業(yè)務(wù)分析和精細(xì)化讀者服務(wù)[8]。上述文章就如何構(gòu)建圖書館用戶畫像并開展個性化推薦展開了充分論述,為實證研究工作的實施提供了強有力理論支撐。本文借鑒了國家圖書館大數(shù)據(jù)項目中對讀者和資源畫像的思想,同時構(gòu)建讀者和圖書的畫像,通過計算畫像之間的相似度,向讀者推薦與之最相近的圖書。

2 研究框架設(shè)計

本文設(shè)計了如圖1所示的研究框架,主要包括數(shù)據(jù)源、畫像構(gòu)建、個性化推薦和算法評估四部分。實驗數(shù)據(jù)源由南京大學(xué)圖書館提供,包括三類數(shù)據(jù):①圖書著錄數(shù)據(jù),包括圖書的標(biāo)題、作者、出版社、出版年、分類號等元數(shù)據(jù),總共有40余萬種圖書;②讀者屬性數(shù)據(jù),包括讀者入學(xué)年份、所屬學(xué)院和所屬類型(本科、碩士、博士和教職員工),總共有5萬余名讀者;③圖書外借數(shù)據(jù),每條記錄包含有借閱者、借閱圖書、借閱時間和歸還時間等信息,總共有150余萬條記錄。

畫像構(gòu)建環(huán)節(jié)利用分詞技術(shù)從數(shù)據(jù)源中提取關(guān)鍵詞作為畫像標(biāo)簽,并計算標(biāo)簽權(quán)重。個性化推薦環(huán)節(jié)利用向量空間模型計算讀者與圖書的語義相似度,向讀者推薦相似度排名前k本的圖書。最后利用讀者真實借閱數(shù)據(jù)評估推薦算法效果。

3 用戶畫像構(gòu)建

用戶“畫像”是一種比喻,泛指一切對用戶特征的描述,因此其技術(shù)方案和應(yīng)用范圍比較廣泛。本文使用常見的標(biāo)簽技術(shù)為讀者和圖書“畫像”,以關(guān)鍵詞作為讀者和圖書的特征標(biāo)簽,以關(guān)鍵詞權(quán)重區(qū)分標(biāo)簽的重要程度。因此,標(biāo)簽提取和權(quán)值計算是畫像構(gòu)建的關(guān)鍵環(huán)節(jié)。

3.1 標(biāo)簽提取和權(quán)值計算

標(biāo)簽分為靜態(tài)標(biāo)簽和動態(tài)標(biāo)簽兩種類型,靜態(tài)標(biāo)簽表示讀者和圖書的固有屬性,不會隨著時間的變化發(fā)生改變;動態(tài)標(biāo)簽會隨著時間的變化而改變。本文選取的讀者和圖書的靜態(tài)、動態(tài)標(biāo)簽來源情況如表1所示。

讀者的靜態(tài)標(biāo)簽來源于入學(xué)年份、所屬院系和讀者類型三個固有屬性。圖書的靜態(tài)標(biāo)簽來源于紙質(zhì)圖書固有元數(shù)據(jù),本文選用標(biāo)題和作者作為圖書靜態(tài)標(biāo)簽的數(shù)據(jù)來源,出版社、出版年等屬性對圖書的內(nèi)容揭示程度不高,不作為標(biāo)簽來源。

讀者的動態(tài)標(biāo)簽包括年級和借閱興趣(源于圖書靜態(tài)標(biāo)簽)。年級是表征學(xué)生在校學(xué)習(xí)時長的特征,可以通過學(xué)生當(dāng)前借閱時間和學(xué)生入學(xué)年份動態(tài)計算得到。借閱興趣標(biāo)簽通過讀者的借閱記錄動態(tài)計算得到。假設(shè)讀者借閱了一本書,那么這本書的靜態(tài)標(biāo)簽將成為表示讀者借閱興趣的動態(tài)標(biāo)簽,讀者借閱的圖書越多,被貼上的動態(tài)興趣標(biāo)簽越豐富,對讀者興趣的揭示程度越高。與讀者的借閱興趣動態(tài)標(biāo)簽類似,圖書的動態(tài)標(biāo)簽來源于讀者的靜態(tài)標(biāo)簽和年級標(biāo)簽。當(dāng)圖書被一位讀者借閱時,該書將被貼上這位讀者的靜態(tài)標(biāo)簽和年級標(biāo)簽,圖書被借閱的人次越多,其動態(tài)標(biāo)簽越豐富。

每名讀者和每本圖書都會被貼上幾個乃至幾十上百個標(biāo)簽(根據(jù)借閱量的不同而有所差異),這些標(biāo)簽并不均等地標(biāo)識讀者或圖書特征。本文選用TF·IDF值表征標(biāo)簽特征。TF指標(biāo)簽頻率(Term Frequency),即該標(biāo)簽在某本書或某位讀者的標(biāo)簽集合中出現(xiàn)的次數(shù)。通常來講,標(biāo)簽頻率越高,標(biāo)簽越能夠代表讀者或圖書的特征;但并不絕對,比如“應(yīng)用”、“研究”等標(biāo)簽雖然容易成為讀者標(biāo)簽中的高頻標(biāo)簽,但是其代表性并不強。因此需要引入IDF值修正。IDF值即反比文檔頻率(Inverse Document Frequency),用于表征標(biāo)簽在所有讀者或所有圖書中出現(xiàn)的頻率,如果一個標(biāo)簽只在少數(shù)的幾本書或幾名讀者中出現(xiàn),IDF值較高,就更有代表性。讀者靜態(tài)標(biāo)簽或年級標(biāo)簽i的IDF值計算方法如公式(1)所示,其中N是讀者總?cè)藬?shù),ni是包含有標(biāo)簽i的讀者人數(shù)。ni值越小,其IDF值越大,該標(biāo)簽的代表性越顯著。圖書靜態(tài)標(biāo)簽j的IDF值計算方法如公式(2)所示,其中M是圖書種數(shù),mj是包含有標(biāo)簽j的圖書種數(shù)。最終的標(biāo)簽權(quán)重計算方法如公式(3)所示,其中f是標(biāo)簽的TF值。

IDFi=logNni(1)

IDFj=logMmj(2)

TF?IDF=(1+logf)×IDF(3)

3.2 用戶畫像可視化展現(xiàn)

利用詞云對提取后的標(biāo)簽組合做可視化展現(xiàn),直觀顯示讀者畫像和圖書畫像。詞云也稱標(biāo)簽云[9],最初是一種信息組織與檢索工具,用于揭示網(wǎng)站的信息特征,幫助用戶發(fā)現(xiàn)感興趣的內(nèi)容;隨后被用于文本主題特征的可視化呈現(xiàn)。典型的做法是提取文本中的關(guān)鍵詞和詞頻,然后將詞頻作為度量關(guān)鍵詞重要性的指標(biāo)。在可視化展現(xiàn)中,一般通過詞的字號、顏色和布局位置表達(dá)其重要性,通常權(quán)值較大的詞字號更大、顏色更突出、位置更居中;反之權(quán)值較小的詞則使用較小的字號、顏色暗淡、位置更偏。本文使用TF·IDF值作為詞的權(quán)重指標(biāo),能夠更準(zhǔn)確地刻畫詞的重要性。通過詞云,可以給圖書管理員和讀者以直觀的方式呈現(xiàn)讀者和圖書畫像。目前已經(jīng)有各種類型的詞云繪制工具,本文使用基于Python語言的WordCloud開源軟件包繪制詞云。該軟件包的關(guān)鍵調(diào)用函數(shù)是generate_from_frequencies,即根據(jù)詞頻繪制詞云。圖2(a)是圖書的畫像展現(xiàn),從圖中可以直觀地看出,大一本科生是借閱該書的主要讀者群體,尤其是技術(shù)科學(xué)試驗班和自然科學(xué)試驗班。圖2(b)是某個讀者的標(biāo)簽畫像,同樣可以直觀地發(fā)現(xiàn)讀者的借閱興趣聚焦在醫(yī)學(xué)、解剖學(xué)、生理學(xué)和藥理學(xué)等學(xué)科。

4 基于用戶畫像的推薦算法研究

4.1 算法思想

讀者畫像揭示了讀者的興趣特征和身份特征,圖書畫像揭示了圖書的主題特征和已借讀者的身份特征,兩類畫像特征的匹配程度可以作為向讀者推薦圖書的依據(jù),匹配策略如圖3所示。圖書的主題特征與讀者的興趣特征越相近,讀者越有可能借閱這本圖書;讀者的身份特征與借閱過這本圖書的讀者身份特征越相似,說明讀者的“同類”對這本圖書感興趣,讀者也更有可能借閱這本圖書。因此,圖書推薦算法的關(guān)鍵是計算讀者與圖書的相似度,然后推薦相似度較高的圖書給讀者。

4.2 讀者與圖書相似度計算

選用向量空間模型計算讀者與圖書之間的相似度。將讀者和圖書畫像建模為N維向量,其中N是標(biāo)簽總數(shù)。對標(biāo)簽從1到N編號,每個標(biāo)簽xi對應(yīng)編號i。本文根據(jù)IDF值對標(biāo)簽由高到低排序得到編號。編號是為了給標(biāo)簽一個唯一標(biāo)識,編號數(shù)值大小對算法沒有影響。一名讀者或者一本圖書的畫像被表示成向量d,如公式(4)所示,其中wi是編號為i的標(biāo)簽xi的權(quán)重。當(dāng)標(biāo)簽xi在這位讀者(或圖書)的畫像中出現(xiàn)時,權(quán)重wi是該標(biāo)簽的TF·IDF值;如果沒有出現(xiàn)在畫像中,那么權(quán)重wi為0。假設(shè)表示讀者r畫像的向量是dr,表示圖書b畫像的向量是db,那么讀者與圖書的相似度計算方法如公式(5)所示,式中wi,r是讀者r第i個標(biāo)簽的權(quán)重,wi,b是圖書b第i個標(biāo)簽的權(quán)重。分子是讀者與圖書的絕對相似程度,分子是對相似程度的歸一化處理。

d=(w1,w2,…,wn)(4)

simr,b=dr?dbdr×db=∑Ni=1wi,r×wi,b ∑Ni=1wi,r2× ∑Ni=1wi,b2(5)

公式(5)雖然能夠度量圖書和讀者之間的相似度,但是在計算機程序設(shè)計時卻會占用較大的內(nèi)存空間。因為高校圖書館的藏書規(guī)模較大,所以表示圖書特征的標(biāo)簽數(shù)量也會比較多,進(jìn)而導(dǎo)致向量過長而占用過多內(nèi)存空間。本研究采用的數(shù)據(jù)集中,總共提取出約30萬個標(biāo)簽,表示單個讀者或單本圖書的向量長度N為30萬??偣灿?0余萬種圖書,5萬余名讀者,總共有45萬個向量,存儲圖書和讀者特征的向量需要占用約135GB內(nèi)存空間,難以被高校圖書館接受。實際上,一本圖書或一名讀者的標(biāo)簽數(shù)量通常在幾十或幾百個,向量中絕大多數(shù)標(biāo)簽的權(quán)值為0,不必存儲。改用哈希表存儲標(biāo)簽?zāi)軌蛴行Ы档痛鎯臻g復(fù)雜度。假設(shè)讀者r的畫像標(biāo)簽選用哈希表Hr存儲,圖書b的標(biāo)簽畫像選用哈希表Hb存儲,那么讀者r與圖書b的相似度計算方法如公式(6)所示。其中Cr是讀者r的標(biāo)簽集合,Hr[c]是讀者r的標(biāo)簽c的權(quán)值;其中Cb是圖書b的標(biāo)簽集合,Hb[c]是圖書b的標(biāo)簽c的權(quán)值。哈希表H僅存儲權(quán)值非0的標(biāo)簽,沒有被存儲的標(biāo)簽權(quán)值默認(rèn)為0,不必存儲,將極大地降低存儲空間,節(jié)省計算機硬件購置成本。

simr,b=∑c∈Cr∩CbHr[c]×Hb[c] ∑c∈CrHr[c]2× ∑c∈CbHb[c]2(6)

5 推薦算法效果實證分析

5.1 實證方法

面向高校圖書館真實使用場景評估推薦算法效果,根據(jù)讀者借閱歷史記錄預(yù)測讀者未來可能會借閱的圖書。將一名讀者在一天里借閱的所有圖書視作一次借閱記錄。要求算法通過讀者前一次的借閱記錄預(yù)測這名讀者在下一次最有可能借閱的k本圖書,如果下一次借閱的圖書中有1本出現(xiàn)在這k本圖書列表中,則視作一次成功推薦;如果下一次借閱的任何一本圖書都沒有出現(xiàn)在這k本中,則視作一次失敗推薦。準(zhǔn)確率的計算方式是成功推薦次數(shù)除以總推薦次數(shù)。對于只借過一次圖書的讀者和讀者的最后一次借閱,由于無法驗證推薦是否成功,不納入測試范圍。

將所有圖書的著錄數(shù)據(jù)和讀者的屬性數(shù)據(jù)分別作為圖書和讀者的靜態(tài)標(biāo)簽,用于繪制圖書和讀者動態(tài)標(biāo)簽的圖書外借數(shù)據(jù)在測試中需要區(qū)分對待。由于高校圖書館讀者的借閱活動通常以學(xué)年為周期展開,因此將圖書外借數(shù)據(jù)集劃分為13-14學(xué)年、14-15學(xué)年、15-16學(xué)年和16-17學(xué)年,共四個學(xué)年。將前三個學(xué)年的圖書外借數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),用于繪制圖書畫像的動態(tài)標(biāo)簽,將16-17學(xué)年的借閱數(shù)據(jù)作為測試數(shù)據(jù),用于從中提取測試用例。一個測試用例是指一名讀者前一次借閱記錄和后一次借閱記錄形成的借閱記錄測試對,其中前一次借閱記錄是預(yù)測后一次借閱記錄的依據(jù),后一次借閱記錄是評判算法是否準(zhǔn)確預(yù)測的標(biāo)準(zhǔn)??偣矎?6-17學(xué)年的借閱數(shù)據(jù)中提取出98692個測試用例,其中本科生45423個,碩士生31657個,博士生14845個,教師4506個,測試用例規(guī)模較大,測試結(jié)果具有較高置信度。

5.2 結(jié)果及其分析

運用相似度計算公式(6),對上述測試用例進(jìn)行計算。設(shè)定推薦窗口k為10,即每次向讀者推薦10本圖書。面向全校所有讀者的推薦準(zhǔn)確率是20.4 0%。該準(zhǔn)確率偏低,無法直接應(yīng)用到高校圖書館的真實場景。導(dǎo)致準(zhǔn)確率偏低的原因有以下三類:

5.2 .1 著錄數(shù)據(jù)對推薦準(zhǔn)確率的影響

本研究使用的數(shù)據(jù)集僅提供了圖書的標(biāo)題和作者兩個字段,未能獲取圖書的主題詞、內(nèi)容簡介等著錄數(shù)據(jù),導(dǎo)致對圖書的內(nèi)容特征揭示不充分。98692個測試用例中,只有34.3%的測試用例的前一次借閱記錄和后一次借閱記錄的畫像之間有一個以上相同標(biāo)簽,其余65.7%的測試用例前后借閱記錄的畫像標(biāo)簽交集為空。在真實應(yīng)用場景中,應(yīng)當(dāng)融合更多的圖書著錄數(shù)據(jù)以提升書目內(nèi)容特征的揭示程度,增加推薦準(zhǔn)確率。此外,讀者興趣特征揭示不充分也會降低推薦準(zhǔn)確率。為便于測試,本研究僅選擇了讀者前一次借閱的圖書作為揭示其興趣特征的標(biāo)簽來源,并未把讀者所有借閱歷史記錄用于揭示讀者興趣。實際上,有50.3%的測試用例的前一次借閱記錄只有一本書,僅通過一本圖書預(yù)測讀者后續(xù)借閱記錄的難度較大。在真實應(yīng)用場景中,應(yīng)當(dāng)融合讀者所有歷史記錄以充分繪制讀者興趣特征以提升推薦準(zhǔn)確率。

5.2 .2 讀者類型對推薦準(zhǔn)確率的影響

高校圖書館的主要讀者類型有本科生、碩士生、博士生和教師四類,他們的借閱偏好必然存在一定差異。從圖4可以發(fā)現(xiàn),不同類型讀者的推薦成功率并不相同,且呈現(xiàn)出有規(guī)律的差異。即學(xué)歷層次越低,推薦準(zhǔn)確率越低;學(xué)歷層次越高,推薦準(zhǔn)確率越高。這一現(xiàn)象的形成與推薦算法特性和讀者借閱偏好有關(guān)?;诋嬒竦耐扑]算法將圖書的內(nèi)容特征和讀者的閱讀興趣作為主要推薦依據(jù),讀者的借閱興趣越集中,推薦算法的準(zhǔn)確率越高;讀者的借閱興趣越分散,算法就越難預(yù)測讀者可能會借閱的圖書,推薦算法準(zhǔn)確率就越低。高等院校中,本科生群體主要接受公共課和專業(yè)基礎(chǔ)課教育,學(xué)習(xí)偏好更側(cè)重廣度,因此借閱興趣比較分散,推薦準(zhǔn)確率偏低。隨著學(xué)歷層次的提升,學(xué)習(xí)的專業(yè)性增強,讀者的借閱興趣更聚焦,推薦準(zhǔn)確率更高,因此碩士、博士的推薦準(zhǔn)確率隨之增加。教師是所有讀者中專業(yè)性最強的一類群體,他們通常聚焦于自己鉆研的特定領(lǐng)域,興趣最為聚焦;所以面向教師群體的推薦準(zhǔn)確率遠(yuǎn)高出學(xué)生群體。

5.2 .3 推薦窗口對推薦準(zhǔn)確率的影響

推薦窗口是指向讀者推薦圖書數(shù)量。推薦窗口越大,推薦的圖書越多,讀者發(fā)現(xiàn)感興趣圖書的可能性就越大,準(zhǔn)確率自然越高。但是推薦窗口并非越大越好,過大的推薦窗口會再次導(dǎo)致二次信息“過載”,甚至引發(fā)讀者對推薦系統(tǒng)的反感。推薦窗口的準(zhǔn)確率如圖5所示:橫坐標(biāo)為推薦窗口數(shù)量,縱坐標(biāo)為推薦成功率。從圖中可以看出,雖然推薦準(zhǔn)確率整體上隨推薦窗口的增加而增大,但增大的幅度卻逐漸在減小。在推薦窗口較小時,每增加一本推薦圖書,將帶來推薦準(zhǔn)確率較大幅度提升;隨著推薦窗口增大,每增加一本推薦圖書帶來的準(zhǔn)確率提升幅度卻逐漸減小。該曲線上升斜率類似對數(shù)函數(shù)增長模式,說明不能盲目增大推薦窗口,應(yīng)當(dāng)根據(jù)實際情況設(shè)計合理的推薦窗口。典型的做法是利用“畫象”相似度計算設(shè)定相似度閾值, 只選大于相似度閾值且排名前K的圖書加入推薦窗口。

6 結(jié)語

本文以圖書著錄數(shù)據(jù)、讀者屬性數(shù)據(jù)、圖書外借數(shù)據(jù)作為數(shù)據(jù)源,從中提取構(gòu)建圖書畫像和讀者畫像的標(biāo)簽,并利用詞云技術(shù)以可視化方式繪制圖書畫像和讀者畫像。利用向量空間模型計算圖書與讀者之間的相似度,并將相似度排名靠前的圖書推薦給讀者。在高校圖書館圖書外借數(shù)據(jù)集上評估了效果,通過實驗驗證了圖書推薦算法的可用性。實驗結(jié)論如下:①認(rèn)為算法推薦準(zhǔn)確率偏低的主要原因是揭示紙質(zhì)圖書內(nèi)容特征的元數(shù)據(jù)偏少,在實際應(yīng)用中可以通過增加紙質(zhì)圖書的元數(shù)據(jù)提升推薦準(zhǔn)確率。②發(fā)現(xiàn)算法推薦準(zhǔn)確率隨著讀者學(xué)歷層次的增加而增加,原因是讀者的學(xué)歷層次越高,讀者的借閱興趣越聚焦,越有利于預(yù)測讀者的借閱偏好。③討論推薦窗口對推薦準(zhǔn)確率的影響,發(fā)現(xiàn)隨著推薦窗口的增大,增加推薦窗口帶來的推薦準(zhǔn)確率提升越不顯著。在真實環(huán)境中,應(yīng)當(dāng)設(shè)計合理的圖書推薦窗口。

最后,需要強調(diào)指出:實驗是基于用戶畫像對算法公式推導(dǎo)的實證研究,受限于實驗數(shù)據(jù)缺失,僅僅通過少許“標(biāo)簽”很難準(zhǔn)確地呈現(xiàn)推薦準(zhǔn)確率。因此,在后續(xù)研究中應(yīng)當(dāng)融入更豐富的描述資源以提升推薦準(zhǔn)確率。

參考文獻(xiàn):

[1]Michael Pazzani, Daniel Billsus.Learning and revising user profiles: The identification of interesting web sites[J].Machine learning,1997,27(3):313-331.

[2]Giuseppe Amato, Umberto Straccia.User profile modeling and applications to digital libraries[C].Springer,1999:184-197.

[3]黃文彬,徐山川,吳家輝,等.移動用戶畫像構(gòu)建研究[J].現(xiàn)代情報,2016,36(10):54-61.

[4]曾建勛.精準(zhǔn)服務(wù)需要用戶畫像[J].數(shù)字圖書館論壇,2017(12):1.

[5]韓梅花,趙景秀.基于“用戶畫像”的閱讀療法模式研究:以抑郁癥為例[J].大學(xué)圖書館學(xué)報,2017,35(6):105-110.

[6]王仁武,張文慧.學(xué)術(shù)用戶畫像的行為與興趣標(biāo)簽構(gòu)建與應(yīng)用[J].現(xiàn)代情報,2019,39(9):54-63.

[7]王慶,趙發(fā)珍.基于“用戶畫像”的圖書館資源推薦模式設(shè)計與分析[J].現(xiàn)代情報,2018,38(3):105-109,137.

[8]楊帆.畫像分析為基礎(chǔ)的圖書館大數(shù)據(jù)實踐:以國家圖書館大數(shù)據(jù)項目為例[J].圖書館論壇,2019,39(2):58-64.

[9]倪娟.論標(biāo)簽云在高校圖書館學(xué)科知識服務(wù)中的應(yīng)用[J].圖書館,2013(6):18-20.

作者簡介:

潘文佳(1980— ),男,大學(xué)本科,館員,任職于南京圖書館。研究方向:信息技術(shù)與圖情服務(wù)。

費立美(1989— ),女,南京大學(xué)信息管理學(xué)院在職碩士研究生在讀,館員,任職于南京圖書館。研究方向:智慧圖書館與圖書館技術(shù)。

猜你喜歡
推薦算法用戶畫像個性化推薦
把聲音的魅力發(fā)揮到極致
中國廣播(2017年1期)2017-02-21 13:40:10
基于鏈?zhǔn)酱鎯Y(jié)構(gòu)的協(xié)同過濾推薦算法設(shè)計與實現(xiàn)
基于相似傳播和情景聚類的網(wǎng)絡(luò)協(xié)同過濾推薦算法研究
社交網(wǎng)絡(luò)推薦系統(tǒng)
個性化推薦系統(tǒng)關(guān)鍵算法探討
基于協(xié)同過濾算法的個性化圖書推薦系統(tǒng)研究
移動用戶畫像構(gòu)建研究
混合推薦算法在電影推薦中的研究與評述
基于微博的大數(shù)據(jù)用戶畫像與精準(zhǔn)營銷
一種改進(jìn)的基于位置的推薦算法
光泽县| 科尔| 建湖县| 繁昌县| 西丰县| 吉林市| 宾阳县| 乌兰浩特市| 修水县| 平陆县| 五华县| 台安县| 冷水江市| 柏乡县| 上饶市| 英超| 沈丘县| 西和县| 贵德县| 深州市| 吐鲁番市| 平山县| 通道| 甘泉县| 高尔夫| 武山县| 格尔木市| 环江| 麻城市| 阿巴嘎旗| 庆城县| 句容市| 六枝特区| 兴山县| 石林| 南京市| 十堰市| 肇庆市| 库尔勒市| 景东| 兴安盟|