陳 丹 羅 燁 吳智勤
(1.江蘇理工學院計算機工程學院 江蘇常州 213001)
(2.江蘇理工學院圖書館 江蘇常州 213001)
個性化服務體現(xiàn)了圖書館以人為本的理念和價值觀,是現(xiàn)代圖書館提高競爭力的重要途徑。不同于以往的被動服務模式,圖書館個性化服務充分利用館藏資源優(yōu)勢,主動地以用戶為中心開展全方位服務,全面滿足用戶個性化需求。高等院校是國家科技創(chuàng)新、知識創(chuàng)新的重要陣地,高校圖書館是高等學校的重要職能部門之一。高校圖書館需要開展高質(zhì)量的個性化服務,更好地服務于學習、教學、科研,為文化建設和科技發(fā)展作出更大貢獻。
為用戶提供高質(zhì)量的個性化服務,全面深刻地了解用戶是前提。用戶畫像是近年來出現(xiàn)的一種全面勾畫用戶、聯(lián)系用戶與產(chǎn)品的良好工具。用戶畫像描繪用戶的背景、身份、興趣、需求、心理、性格等,全面細致地展現(xiàn)一個用戶的信息全貌,為圖書館理解用戶、制定服務策略提供依據(jù)和參考。在互聯(lián)網(wǎng)+背景下,高校圖書館的用戶數(shù)量和用戶產(chǎn)生的行為、社交等數(shù)據(jù)迅速增加,形成了用戶大數(shù)據(jù)。來源豐富、類型多樣、規(guī)模巨大的用戶大數(shù)據(jù)使精準用戶畫像的構建成為可能。以往的圖書館只能獲取用戶的少量信息,基于小樣本進行個性化服務,在大數(shù)據(jù)時代,圖書館可以獲得用戶方方面面的信息和數(shù)據(jù),從而更為精確地勾畫用戶,把數(shù)據(jù)轉化為價值,使個性化服務更為精準,更好地滿足用戶需求,極大地提升用戶的體驗。
本文提出基于用戶畫像的高校圖書館個性化服務模型框架,如圖1所示。用戶大數(shù)據(jù)是構建圖書館用戶畫像的寶貴資源,首先對圖書館用戶大數(shù)據(jù)進行收集和整合,然后采用大數(shù)據(jù)挖掘算法分析和挖掘用戶大數(shù)據(jù),提取用戶標簽,構建用戶畫像,最后根據(jù)用戶畫像為用戶提供滿足其需求的圖書、論文、專利等圖書館文獻和資源,實現(xiàn)高質(zhì)量的個性化服務。
圖1 基于大數(shù)據(jù)挖掘和用戶畫像的高校圖書館個性化服務模型框架
用戶的身份、偏好、活躍度、顯性興趣等標簽可以通過傳統(tǒng)的統(tǒng)計分析方法得到,而用戶的隱性興趣、潛在需求、心理、情感等則不易直接從數(shù)據(jù)中獲得。通過大數(shù)據(jù)挖掘方法和技術深入分析和挖掘海量用戶數(shù)據(jù),可以洞察用戶的需求、心理、情感、情緒等,提取相關標簽。
物聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)、社交網(wǎng)絡等技術在圖書館的深入應用使得圖書館數(shù)據(jù)持續(xù)不斷地以超大規(guī)模增長,傳統(tǒng)的數(shù)據(jù)統(tǒng)計和分析方法不能適應海量數(shù)據(jù)的處理,需要采用大數(shù)據(jù)挖掘技術分析和挖掘海量動態(tài)的圖書館大數(shù)據(jù)[1]。應用大數(shù)據(jù)挖掘技術,從圖書館用戶大數(shù)據(jù)中提取用戶畫像標簽主要有以下3種途徑。
3.1.1 挖掘用戶行為大數(shù)據(jù)獲取用戶標簽
應用大數(shù)據(jù)挖掘技術分析和處理用戶行為大數(shù)據(jù)是提取用戶畫像的偏好、興趣標簽的重要途徑之一。用戶行為不僅包括借閱行為,也包括圖書館網(wǎng)站的點擊、收藏、下載、閱讀等行為。對于高校圖書館來說,讀者行為還包括自主學習、學術文化交流以及教學和科研等內(nèi)容[2]。劉春雷以浙江圖書館為例,基于數(shù)據(jù)分析對用戶續(xù)借行為進行探討,為圖書館服務工作提供參考和依據(jù)[3]。王向真以技術接受整合模型為基礎,研究高校學生電子圖書使用行為,進而推進電子圖書資源服務的精準營銷[4]。大數(shù)據(jù)挖掘算法眾多,其中關聯(lián)規(guī)則、神經(jīng)網(wǎng)絡、支持向量機、K-Means聚類等算法可用于分析用戶行為大數(shù)據(jù)的規(guī)律和模式,從而發(fā)現(xiàn)用戶偏好、興趣、活躍度等特征,提取標簽。
3.1.2 挖掘用戶社交大數(shù)據(jù)獲取用戶標簽
隨著社交網(wǎng)絡技術的發(fā)展及其普遍應用,高校圖書館建立了基于微博、微信公眾號、QQ群、論壇的知識服務社區(qū),為用戶和圖書館的交流和互動提供了極大的便利,也為提取用戶標簽提供了數(shù)據(jù)來源。用戶社交網(wǎng)絡數(shù)據(jù)由3個維度構成:用戶、交流、內(nèi)容。社交網(wǎng)絡用戶具有社會化、相關性強的特點,其核心是關系。社交網(wǎng)絡使得現(xiàn)實社會中難以形成的關系層在互聯(lián)網(wǎng)上可以不斷涌現(xiàn)。社交網(wǎng)絡中的用戶關系眾多,且用戶之間隨時進行著交流。交流包括討論、交談、評價、分享自己的狀態(tài)更新、贊賞他人的分享和信息等。大量用戶的交流形成了豐富的內(nèi)容,交流內(nèi)容具有類型多樣性的特點。文本是交流內(nèi)容中最常見的數(shù)據(jù)類型。社交網(wǎng)絡上的文本不同于傳統(tǒng)的文本(例如新聞),具有情感性,攜帶了用戶或正面或負面的豐富情感。柳益君等[5]通過用戶在社交網(wǎng)絡中的興趣相似好友來挖掘用戶的多樣隱性興趣,實現(xiàn)多樣性的閱讀推薦。韓梅花等[6]根據(jù)抑郁情感詞典分析用戶微博文本,計算其抑郁情感指數(shù),得到用戶畫像,根據(jù)用戶畫像向用戶推送相應的閱讀治療資源。
3.1.3 挖掘用戶標簽集得到獲取用戶標簽
用戶畫像的標簽體系構建是一個動態(tài)迭代過程,在圖書館用戶畫像建模過程中,標簽不僅可以從用戶數(shù)據(jù)中挖掘得到,也可以通過挖掘已有的用戶標簽集合來得到。鄭海雁等[7]設計標簽集約束近似頻繁模式挖掘算法LCPP,并將該算法并行部署在MapReduce計算模型中,使之能高效處理大規(guī)模數(shù)據(jù)。周樸雄等[8]借助標簽云系統(tǒng)的概念,對其加以改進,將其作為用戶興趣的表達方式,通過共現(xiàn)分析建立標簽集之間的關聯(lián)關系,預測用戶興趣。在已有用戶標簽的基礎上,采用頻繁模式挖掘、關聯(lián)規(guī)則挖掘等大數(shù)據(jù)挖掘算法,深入分析圖書館用戶畫像的標簽之間的關系和模式,可以預測和發(fā)現(xiàn)新的用戶畫像標簽。
關聯(lián)規(guī)則算法是數(shù)據(jù)挖掘中的經(jīng)典算法之一。關聯(lián)規(guī)則挖掘算法最初用來解決購物籃分析問題,通過關聯(lián)規(guī)則挖掘,發(fā)現(xiàn)顧客的購物籃里不同物品之間的關聯(lián),從而幫助商家制定營銷策略。關聯(lián)規(guī)則挖掘技術在零售、電商、金融、搜索引擎、智能推薦等領域有廣泛應用。
應用關聯(lián)規(guī)則算法分析用戶畫像的習慣、偏好和興趣等標簽之間的關聯(lián)性,挖掘用戶在學習、科研等方面的隱性興趣和需求,將之作為新的用戶畫像標簽,進一步完善用戶畫像。對所有用戶畫像進行關聯(lián)規(guī)則挖掘計算量大且意義不明顯,可針對目標用戶,在該目標用戶畫像與其近鄰用戶畫像的范圍內(nèi)進行關聯(lián)規(guī)則挖掘,這樣計算量小且結果更有意義。本文提出基于關聯(lián)規(guī)則的圖書館用戶畫像隱性興趣標簽預測流程,見圖2。例如,目標用戶畫像的興趣標簽中有“機器學習”而無“數(shù)據(jù)挖掘”,對目標用戶及其近鄰的用戶畫像進行顯性興趣標簽關聯(lián)規(guī)則挖掘,得到“機器學習=>數(shù)據(jù)挖掘”的興趣規(guī)則,將“數(shù)據(jù)挖掘”作為目標用戶的隱性興趣預測標簽加入用戶畫像。
用戶畫像構建需要關注時效性、顆粒度、隱私保護等問題。
3.3.1 用戶畫像的時效性
圖2 基于關聯(lián)規(guī)則的圖書館用戶畫像隱性興趣標簽預測流程
構建圖書館用戶畫像需要考慮畫像的時效性。用戶畫像對于時效性很敏感,某一時刻的用戶畫像對該時刻的個性化服務最為有效。用戶畫像的來源數(shù)據(jù)中,用戶屬性數(shù)據(jù)涉及人口統(tǒng)計特征,是靜態(tài)的,相對穩(wěn)定。但是,海量行為數(shù)據(jù)、社交數(shù)據(jù)等具有較強的動態(tài)性,用戶的行為隨時間持續(xù)增加,新行為會使現(xiàn)有用戶畫像失效。此外,用戶會受環(huán)境、其他用戶等各種不確定因素的影響而改變偏好、興趣和需求,這就需要用戶畫像隨之改變以適應用戶新狀況。用戶畫像并非一成不變,而是實時動態(tài)變化的,具有時效性。圖書館要提供精準的個性化服務,需要設計合理有效的用戶畫像動態(tài)更新機制,以準確刻畫用戶的當前狀態(tài)。
3.3.2 用戶畫像的顆粒度
構建圖書館用戶畫像需要考慮顆粒度,即畫像細化程度。顆粒度小的用戶畫像對用戶描述很精細,有利于提高圖書館個性化服務的精準性。但是,顆粒度越小意味著用戶數(shù)據(jù)越細化,這會導致用戶畫像建模成本增加,也會降低用戶畫像適用性。例如,“機械工業(yè)出版社的機器學習書籍”和“機器學習書籍”兩個閱讀興趣標簽,前者顆粒度更小,但是只能代表某一特定出版社出版的機器學習類書籍,使得服務目標過于單一,后者顆粒度更大,但是適用性更好。需要根據(jù)圖書館具體業(yè)務需求選擇合適的顆粒度,構建立體清晰且適用性強的用戶畫像。
3.3.3 用戶畫像的隱私保護
用戶隱私保護是圖書館用戶畫像構建和應用中一個令人關注的問題。構建用戶畫像的過程中不可避免地要收集用戶個人信息,在大數(shù)據(jù)環(huán)境下尤其如此。圖書館需要在“告知與同意”的隱私保護框架下,實施更加有效的措施加強用戶隱私保護。用戶畫像中的用戶隱私管理不僅需要技術方法和手段,也需要完善相關條例和法規(guī)。在技術上,保護用戶敏感信息,保證用戶隱私數(shù)據(jù)的安全,防范各種風險,如數(shù)據(jù)不適當公開、數(shù)據(jù)非法獲取和使用、數(shù)據(jù)損壞或修改、數(shù)據(jù)丟失和泄露等。在用戶畫像建模算法中融入隱私保護技術,或者對用戶畫像信息劃分等級,在不同級別的應用中使用相應等級的用戶信息。在圖書館管理條例和法規(guī)中,規(guī)范圖書館在授權范圍內(nèi)對用戶隱私數(shù)據(jù)的使用、超時銷毀等行為,保障用戶對敏感信息和隱私數(shù)據(jù)的控制權,最終在保障用戶隱私的前提下構建出清晰有效的用戶畫像。
隨著經(jīng)濟的發(fā)展和科技的進步,人類進入了知識社會的新時代。知識的激增在促進社會進步的同時,也讓人們迷失在信息和知識的海洋中,難以找到自己所需要的信息和知識,人們普遍面臨著知識迷航和信息過載的困境。高校圖書館用戶以學生、教師、科研人員為主,他們需要圖書館的個性化服務來幫助自己擺脫信息過載的困境。但是,沒有對用戶全面充分的了解,高校圖書館為用戶提供個性化服務便有盲目性。有了用戶畫像,高校圖書館為用戶提供個性化服務不再盲目,而是有據(jù)可依。通過用戶畫像展示的用戶背景、興趣、需求、活躍度等全貌信息,高校圖書館可以充分洞察用戶,進而有針對性地開展以用戶為中心、以滿足用戶需求為目標的高質(zhì)量個性化服務,幫助用戶擺脫信息過載的困境。
通過用戶畫像關聯(lián)圖書、論文、專利等各類紙質(zhì)和電子館藏資源,圖書館可以為用戶提供符合其興趣、需求的資源和服務。這里以個性化圖書推薦為例,探討用戶畫像在個性化服務中的應用。圖3給出了基于用戶畫像的用戶-圖書關聯(lián)示意。一本圖書與個性化服務相關的屬性有:①作者。用戶可能會喜愛幾位特定作者的書籍。②類別。按中國圖書館分類法得到的圖書類別,用戶可能會喜愛某些類別或方向的圖書。③出版社。用戶可能會偏愛某些出版社的圖書。④出版年份。用戶可能會偏愛某些時期的圖書。⑤媒介類型。用戶可能會偏愛某些媒介類型的圖書,如紙質(zhì)媒介,或pdf、圖像、音視頻等格式的電子媒介。⑥語言。用戶可能會偏愛某些語言的圖書。除了以上6種屬性,也可以從圖書的內(nèi)容描述或用戶的評論等非結構化信息中提取與之相關的特征。通過用戶畫像的圖書偏好和興趣標簽關聯(lián)用戶和館藏書目庫,為用戶提供精準性的個性化圖書推薦服務。
圖3 基于用戶畫像的用戶-圖書關聯(lián)示意圖
在大數(shù)據(jù)時代背景下,高校圖書館需要充分利用大數(shù)據(jù),開展基于大數(shù)據(jù)分析的個性化服務,更好地服務于知識傳播、科技創(chuàng)新。本文首先提出基于用戶畫像的高校圖書館個性化服務模型框架,利用大數(shù)據(jù)挖掘技術分析和挖掘圖書館大數(shù)據(jù),獲取用戶的全貌信息,構建用戶畫像,以用戶畫像為依據(jù)提供高質(zhì)量的個性化服務,并探討了基于大數(shù)據(jù)挖掘的用戶畫像構建,以及用戶畫像支持下的個性化服務。本文的研究對于應用用戶畫像提升高校圖書館服務水平有一定借鑒意義。