基于用戶畫像的個性化圖書推薦研究
文/武漢科技大學(xué)圖書館 俞奕
【摘要】目的/意義:運(yùn)用個性化推薦服務(wù),滿足高校讀者的個性化需求。方法/過程:首先分析讀者身份信息和歷史借閱行為信息數(shù)據(jù),然后創(chuàng)建圖書館讀者的用戶畫像標(biāo)簽?zāi)P停詈蠼Y(jié)合個性化推薦算法構(gòu)建智慧閱讀推薦系統(tǒng)。結(jié)論:圖書館可以通過用戶畫像標(biāo)簽快速了解讀者群體的興趣方向。
【關(guān)鍵詞】用戶畫像;個性化推薦;智慧圖書館;閱讀推廣
在全民閱讀推廣活動中,圖書館始終是活動的主導(dǎo)力量和核心機(jī)構(gòu)。在舉辦閱讀推廣的活動時,往往需要提前了解各類讀者的興趣愛好,設(shè)計活動主題以激發(fā)他們的閱讀熱情。然而讀者群體的需求十分復(fù)雜,每個人的閱讀喜好一方面會受到年齡、性別、學(xué)歷等自身屬性的影響,另一方面還會受到社會新聞、朋友交際以及閱讀歷史等動態(tài)屬性的影響。因此,相似甚至相同的閱讀推薦書單就不能滿足這種多元化的個性需求。所以,如何對讀者的興趣進(jìn)行描述以及對這些群體進(jìn)行個性化的圖書推薦就成了圖書館的一項(xiàng)重要研究內(nèi)容。在圖書館的借閱系統(tǒng)中,存儲著大量的讀者身份和書籍描述的信息,還有每天都在動態(tài)變化的圖書借閱信息和網(wǎng)絡(luò)檢索、瀏覽信息。如今,大數(shù)據(jù)技術(shù)日益成熟,基于圖書館大數(shù)據(jù)的用戶畫像不僅可以全面的描繪出用戶的閱讀興趣方向,還可以對用戶實(shí)現(xiàn)精準(zhǔn)的個性化推薦。
一、用戶畫像概述
“用戶畫像”的概念提出者是Alan Cooper,他將用戶畫像解釋為“Personas are a concrete representation of taget users”,表示為“建立在一系列真實(shí)數(shù)據(jù)之上的目標(biāo)模型,是真實(shí)用戶的虛擬代表”。這種構(gòu)建方法主要通過調(diào)查問卷、電話訪談等方式來判定用戶的特征類別,早期被應(yīng)用在交互設(shè)計或產(chǎn)品設(shè)計領(lǐng)域中,是一種刻畫目標(biāo)用戶和聯(lián)系用戶訴求的有效工具。在大數(shù)據(jù)時代,還有一種表達(dá)是“User Profile”,表示運(yùn)用數(shù)據(jù)挖掘和分析技術(shù),全面系統(tǒng)地搜集用戶信息資源,包括用戶背景、用戶行為習(xí)慣等主要特征,形成個性化用戶檔案模型。用戶畫像的目的是對目標(biāo)用戶的信息進(jìn)行深度挖掘并開展個性化的閱讀資源服務(wù),增加用戶的黏度和信譽(yù)度。
二、用戶畫像構(gòu)建
標(biāo)簽化是用戶畫像的核心,標(biāo)簽具有語義化和短文本兩個重要特征,不僅便于用戶理解,也便于標(biāo)簽提取和聚類分析。構(gòu)建圖書館的用戶畫像標(biāo)簽,需要利用管理系統(tǒng)中已采集的大量用戶身份和行為數(shù)據(jù)進(jìn)行分析。在對原始數(shù)據(jù)進(jìn)行整合和篩選后,根據(jù)數(shù)據(jù)的屬性和重要性,可以劃分為兩類標(biāo)簽數(shù)據(jù),分別是靜態(tài)標(biāo)簽數(shù)據(jù)和動態(tài)標(biāo)簽數(shù)據(jù)。
(一)靜態(tài)標(biāo)簽數(shù)據(jù)。靜態(tài)標(biāo)簽數(shù)據(jù)的特點(diǎn)是信息內(nèi)容穩(wěn)定幾乎無變動,存儲格式多為結(jié)構(gòu)化形式,利于計算機(jī)檢索和統(tǒng)計分析。數(shù)據(jù)對象主要分為兩類,由圖1所示。一類是讀者的身份信息,其中讀者證號、級別、姓名、性別、學(xué)院、學(xué)歷等屬性起主要標(biāo)簽作用。另一類是書籍的描述信息,主要包括:MARC號、書名、索書號、作者、摘要、出版社和出版時間。MARC號和索書號是兩個重要的書籍標(biāo)簽。MARC是圖書編目的重要信息,根據(jù)《中文文獻(xiàn)CN-MARC著錄規(guī)則》中對中文圖書著錄的描述可以發(fā)現(xiàn),標(biāo)識塊606為主題字段,字段內(nèi)收集了對應(yīng)圖書的主題詞。索書號主要由《中國圖書館圖書分類法》,簡稱“中圖法”規(guī)定。中圖法是我國目前絕大多數(shù)圖書館使用的圖書分類方法。中圖法按照學(xué)科體系將各種學(xué)科門類的文獻(xiàn)信息劃分為5大部類、22大類,每一大類下根據(jù)每種學(xué)科的具體內(nèi)容層層展開。根據(jù)中圖法規(guī)范所確定的圖書索書號能夠比較準(zhǔn)確地反映圖書的主題內(nèi)容。
圖1 靜態(tài)標(biāo)簽數(shù)據(jù)類型描述
(二)動態(tài)標(biāo)簽數(shù)據(jù)。動態(tài)標(biāo)簽數(shù)據(jù)是指在圖書館的讀者交互管理系統(tǒng)中不斷變化的行為信息。如圖2所示,動態(tài)標(biāo)簽數(shù)據(jù)主要包括圖書借閱行為信息、OPAC檢索信息、書籍瀏覽信息和留言板信息。信息形式包含結(jié)構(gòu)化和非機(jī)構(gòu)化數(shù)據(jù)。其中圖書借閱行為信息主要包含:讀者證號、MARC號、財產(chǎn)號、續(xù)借標(biāo)記、借閱時間和還書時間。其中續(xù)借標(biāo)記和借閱時長(還書時間—借閱時間)可以間接判斷用戶對該類主題的喜好程度。OPAC檢索信息則包含檢索時間和檢索關(guān)鍵詞,這些信息可以通過詞頻統(tǒng)計對關(guān)鍵詞的重要性進(jìn)行排序,從而獲取群體用戶的閱讀興趣趨勢。書籍瀏覽信息主要包含:MARC號、網(wǎng)頁點(diǎn)擊量和借閱量。留言板信息為非結(jié)構(gòu)化數(shù)據(jù),包含:讀者證號、留言時間和留言內(nèi)容,運(yùn)用語義分析技術(shù)對讀者留言的內(nèi)容進(jìn)行文本分析可以發(fā)現(xiàn)用戶的潛在需求。
三、個性化資源推薦
通過對讀者進(jìn)行標(biāo)簽化處理,構(gòu)建用戶畫像后。可以根據(jù)協(xié)同過濾和K-means算法對用戶進(jìn)行聚類,將用戶和館藏資源進(jìn)行智能匹配,完成個體和群體用戶的個性化主題推薦。
(一)個體用戶推薦。協(xié)同過濾算法可劃分為UserCF(基于用戶的協(xié)同過濾算法) 和ItemCF(基于物品的協(xié)同過濾算法)。UserCF的算法基本思想是根據(jù)目標(biāo)用戶的興趣愛好尋找相似的“好友”向目標(biāo)用戶進(jìn)行推薦,這種思想與用戶在圖書借閱行為中的興趣偏好特征聚類的想法一致。UserCF推薦算法的主要步驟是:步驟1:采集讀者的行為數(shù)據(jù),對讀者的行為特征進(jìn)行標(biāo)注和量化。步驟2:對處理后的用戶畫像特征矩陣進(jìn)行度量。核心工作是計算目標(biāo)讀者與其他讀者的興趣特征相似度。步驟3:根據(jù)度量結(jié)果由高到低排序,然后列出與目標(biāo)讀者的興趣特征耦合度最高的TOP5讀者列表。步驟4:根據(jù)步驟2中選取讀者的三類最高興趣點(diǎn),獲取TOP5讀者的借閱書單的集合。步驟5:對TOP5讀者閱讀書單列表中的所有借閱書籍按照興趣點(diǎn)分類和篩選,去除讀者已借閱書目后,根據(jù)累計借閱次數(shù)依次降序排列。最后綜合圖書重要性對推薦書目進(jìn)行微調(diào),輸出最佳匹配書目。圖3所示為武漢科技大學(xué)圖書館舉辦的個性化圖書推薦活動的個人圖書推薦頁面。
(二)群體用戶推薦。群體用戶推薦主要反映的是一個群體的共同特征。該特征雖然不能代表任何單個用戶的最主要興趣方向,但是卻可以最大程度的滿足大多數(shù)用戶的共同愛好趨勢。通過K-means聚類處理,讀者群體最終收斂得到的聚類中心就是該讀者群體中所有對象的代表,其各個參數(shù)就是集體閱讀興趣方向的反映。例如:對主題詞標(biāo)簽為“人工智能”、索書號標(biāo)簽為“TP181”、借閱量標(biāo)簽為10次以上且身份標(biāo)簽是本科生的群體進(jìn)行聚類。對聚類后產(chǎn)生的讀者群體舉辦一次以人工智能為主題的讀書會活動,讓這些有相同興趣愛好的讀者群體聚在一起以書會友,增進(jìn)知識交流?;顒又羞x取的圖書既可以是群體內(nèi)借閱人數(shù)最廣泛的圖書,也可以是與主題標(biāo)簽最接近且出版年限最新的圖書。圖4所示為武漢科技大學(xué)圖書館舉辦的以“人工智能”為主題的圖書分享會活動。
四、結(jié)語
本文提出基于用戶畫像的圖書館個性化圖書推薦服務(wù),以圖書館管理系統(tǒng)中的用戶大數(shù)據(jù)為基礎(chǔ),運(yùn)用數(shù)據(jù)挖掘和統(tǒng)計分析技術(shù),提取用戶的興趣標(biāo)簽,對讀者的興趣方向進(jìn)行用戶畫像建模,最后運(yùn)用協(xié)同過濾和K-means算法實(shí)現(xiàn)個體的圖書推薦和群體的圖書推薦服務(wù)。研究結(jié)果表明,用戶畫像技術(shù)在圖書館閱讀推廣上有一定的有效性。筆者擬在今后的研究中進(jìn)一步探尋圖書館大數(shù)據(jù)在文本語義分析和深度學(xué)習(xí)技術(shù)上的應(yīng)用。
【湖北省圖工委科研基金研究項(xiàng)目:基于協(xié)同過濾技術(shù)的圖書館個性化資源推薦(編號:2017-YB-04);湖北省圖工委科研基金研究項(xiàng)目:大數(shù)據(jù)環(huán)境下高校圖書館數(shù)據(jù)可視化分析與實(shí)踐—以武漢科技大學(xué)圖書館為例(編號:2016-YB-03)】
【參考文獻(xiàn)】
[1]何娟.基于用戶個人及群體畫像相結(jié)合的圖書個性化推薦應(yīng)用研究[J].情報理論與實(shí)踐,2019,42(01):129-133+160.
[2]許鵬程,畢強(qiáng),張晗,牟冬梅.數(shù)據(jù)驅(qū)動下數(shù)字圖書館用戶畫像模型構(gòu)建[J].圖書情報工作,2019,63(03):30-37.
[3]翟秀鳳.基于用戶畫像的個性化資源智慧推薦系統(tǒng)研究[J].圖書情報道刊,2018,3(12):17-21.
[4]陳丹,柳益君,羅燁,錢秀芳,吳智勤.基于用戶畫像的圖書館個性化智慧服務(wù)模型框架構(gòu)建[J].圖書館工作與研究,2019(06):72-78.
[5]李新廣.數(shù)字圖書館的用戶偏好模型及個性化推薦研究[D].武漢大學(xué),2011.
[6]王慶,趙發(fā)珍.基于"用戶畫像"的圖書館資源推薦模式設(shè)計與分析[J].現(xiàn)代情報,2018,38(03):105-109+137.
[7]曲立平,吳家喜.基于評分可靠性的跨域個性化推薦方法[J].計算機(jī)應(yīng)用,2018,38(11):3081-3083+3088.
[8]宋楚平.一種改進(jìn)的協(xié)同過濾方法在高校圖書館圖書推薦中的應(yīng)用[J].圖書情報工作,2016,60(24):86-91.
[9]朱白.數(shù)字圖書館推薦系統(tǒng)協(xié)同過濾算法改進(jìn)及實(shí)證分析[J].圖書情報工作,2017,61(09):130-134.