鄧志文
【摘 要】用戶畫像作為精準服務的重要手段為圖書館主動信息服務的水平提升提供了有效途徑。本文詳細闡述了圖書館通過用戶畫像進行主動服務的主要流程,并從多角度對其用戶畫像的標簽模型進行了定義,為圖書館用戶畫像提供參考。
【關鍵詞】用戶畫像;數(shù)據(jù)清洗;主動服務
中圖分類號: TP391.41文獻標識碼: A文章編號: 2095-2457(2019)32-0225-002
DOI:10.19694/j.cnki.issn2095-2457.2019.32.106
【Abstract】User portrait,as an important means of precise service, provides an effective way to improve the level of library information active service.This paper elaborates on the main process of library's active service through user portraits,and defines the label model of user portraits from various angles,which can provide reference for library user portraits.
【Key words】User portrait;Data cleaning;Active service
智慧圖書館伴隨著信息挖掘技術、知識可視化技術、大數(shù)據(jù)技術的發(fā)展,在主動分析用戶需求和合理配置圖書館資源等方面起到了關鍵的促進作用,同時也驅動著圖書館的信息服務向主動性、個性化、精準化方向發(fā)展,而這其中用戶畫像作為大數(shù)據(jù)時代實現(xiàn)精準服務的工具之一,已被越來越多圖情領域的研究者關注。
用戶畫像(persona)的概念最早由交互設計之父Alan Cooper最早提出,指出用戶畫像是真實用戶的虛擬代表,是建立在一系列真實數(shù)據(jù)之上的目標用戶模型。進行用戶畫像的前提需要有大量的真實數(shù)據(jù),它包括了用戶在網(wǎng)絡環(huán)境下留下的基本屬性、興趣偏好、網(wǎng)絡行為等各種信息。通過這些真實數(shù)據(jù)對用戶進行分析,進而提煉出高度精練的特征標識來描述用戶,形成標簽化用戶模型。它是數(shù)據(jù)對現(xiàn)實世界的人進行的刻畫,能讓機器更容易解讀用戶,并且可以方便的進行計算處理,幫助機器變得更加智能。
1 圖書館用戶畫像研究現(xiàn)狀
高校圖書館作為機構知識數(shù)據(jù)的中心,擁有著巨大的數(shù)據(jù)資源,如何從這些海量的數(shù)據(jù)中準確檢索出用戶期望的信息一直是信息檢索專家們研究和努力的工作;同時高校的讀者都是對現(xiàn)代新技術應用熟練,根深在網(wǎng)絡社交中的用戶,他們在互聯(lián)網(wǎng)上都產(chǎn)生了大量的個人信息數(shù)據(jù)、網(wǎng)絡社交數(shù)據(jù),都無時無刻的不斷產(chǎn)生各種網(wǎng)絡行為數(shù)據(jù);可以說知識的密集和用戶形為信息的豐富讓圖書館開展用戶畫像的應用有了先天的條件,這其中也不乏有很多研究成果。劉海鷗等對圖書館用戶畫像做了很廣泛的研究,提出通過融合圖書館用戶基本信息標簽、內(nèi)容偏好標簽、互動標簽、會話標簽、情境標簽等來構建用戶畫像模型,并將其引用到情境化推薦系統(tǒng)中[1];姚遠等給出了一種基于本體構建圖書館讀者學術行為的用戶畫像,以知識圖譜的視角考察用戶畫像的構建方法[2];陳臣等利用圖書館讀者小數(shù)據(jù)構建讀者畫像系統(tǒng),實現(xiàn)讀者的動態(tài)畫像,為圖書館個性化服務的決策、定制與推送提供支撐作用[3];何娟通過構建讀者的個人畫像與群體畫像,并綜合兩者所反映出的讀者借閱行為特征,實現(xiàn)圖書的個性化推薦。圖書館用戶畫像的核心不在于擁有豐富的數(shù)據(jù),而在于能對用戶信息分析提取出高度精練有用的信息用于標識用戶,本文將圍繞著圖書館用戶精準畫像過程展開討論和論述。
2 圖書館用戶畫像構建流程
圖1 圖書館用戶畫像構建流程
精準的圖書館用戶畫像是依托圖書館各種業(yè)務系統(tǒng)產(chǎn)生的數(shù)據(jù)去勾勒用戶信息全貌,圖書館用戶畫像的構建可以分為畫像建模、數(shù)據(jù)采集、數(shù)據(jù)清洗、特征工程、數(shù)據(jù)標簽化、推送服務,如圖1所示。
2.1 畫像建模
畫像建模是非?;A也是關鍵的一步,建模又依據(jù)所要應用的業(yè)務領域不同其建模的內(nèi)容也會不同,圖書館用戶畫像建模就需要分析圖書館用戶的各動屬性特征,并建立相應的特征模型。同時要了解構建圖書館用戶畫像期望達到什么樣的應用效果,從而在標簽體系構建時對數(shù)據(jù)深度、廣度及時效性方面做出規(guī)劃,確保底層設計科學合理。
2.2 數(shù)據(jù)采集
只有建立在客觀真實的數(shù)據(jù)基礎上,生成的畫像才有效。在采集數(shù)據(jù)時,需要從用戶畫像模型出發(fā),考慮多種維度,比如用戶基礎數(shù)據(jù)、用戶行為數(shù)據(jù)、用戶學歷學術數(shù)據(jù)、用戶社交絡信息、用戶發(fā)文信息、用戶位置等,并通過圖書館主動調(diào)查、用戶訪談、網(wǎng)絡爬蟲、平臺日志數(shù)據(jù)等方式獲得。
2.3 數(shù)據(jù)清洗
原始數(shù)據(jù)采集上來時往往都是不規(guī)則、非結構化的數(shù)據(jù),而且數(shù)據(jù)大量存在重復、缺失、錯誤等問題。所以需要進行數(shù)據(jù)清洗也就是數(shù)據(jù)畫像分析,并將清洗的結果傳輸?shù)椒治黾斑\用系統(tǒng)中以供使用。數(shù)據(jù)清洗主要工作就是將重復、多余的數(shù)據(jù)篩選清除,將缺失的數(shù)據(jù)補充完整,將錯誤的數(shù)據(jù)糾正或者刪除,最后整理成為我們可以進一步加工、使用的數(shù)據(jù)。數(shù)據(jù)清洗的一般步驟:分析數(shù)據(jù)、缺失值處理、異常值處理、去重處理、噪音數(shù)據(jù)處理。
2.4 特征工程
在用戶畫像整個流程中,特征工程扮演著重要的角色。從數(shù)學的角度講,特征工程就是將原始數(shù)據(jù)空間變換到新的特征空間,或者說是換一種數(shù)據(jù)的表達方式。在這個過程中,需要剔除數(shù)據(jù)中的異常值,將得到的數(shù)據(jù)映射到構建的用戶模型中。特征工程首先需要將原始數(shù)據(jù)轉化為實向量,原始數(shù)據(jù)有很多類型,比如數(shù)值類型、離散類型,還有文本、圖像以及視頻等,然后將原始數(shù)據(jù)空間變換為模型向量空間,最后將用戶的多種特征組合到一起。用戶數(shù)據(jù)標簽化結果直接影響最終畫像的準確度,因而數(shù)據(jù)標簽化時需要與應用平臺的功能與特點相結合。如圖書館用戶標簽化需要采用多級標簽、多級分類,第一級標簽是基本信息(姓名、性別等),第二級是上網(wǎng)行為、借書行為、下載行為;第三級是讀者的社會屬性(地理位置、工作地址、家庭地址等),總之要為用戶提供盡可能多的標簽去描述個性愛好。
2.5 推送服務
在信息量超大的互聯(lián)網(wǎng)時代,主動服務已成為圖書館吸引讀者、推廣資源、提升服務能力的有效手段。圖書館基于用戶畫像的主動服務要依據(jù)前期勾勒的用戶畫像,對用戶偏好和潛在需求進行分析預測,掌握用戶需求進而提供精準化的服務內(nèi)容。并借助移動終端、門戶網(wǎng)站等渠道,采用個性化定制、主動推送等方式,滿足用戶對個性化服務的要求。
3 圖書館用戶畫像建模
高校圖書館最主要的職責是為師生提供紙本、電子等信息服務,在構建用戶畫像模型中,除分析用戶的基本屬性名,更多的是需要關注用戶的學術行為,為用戶提供精準的學術資源信息服務,如表1是圖書館用戶畫像模型。
表1 圖書館用戶畫像模型
圖書館服務平臺中的用戶畫像的建模,主要通過獲取并將這些信息進行模型化表示,從而提取出用戶需求偏好和趨向。
用戶的性別、年齡、單位、學歷、職稱等靜態(tài)數(shù)據(jù),構成了讀者的基本信息。用戶的學科專業(yè)背景、學術研究領域、知識資源使用情況、借書記錄等構成了讀者的學術行為屬性集。讀者閱覽電子圖書、檢索數(shù)據(jù)庫、瀏覽論文、下載論文、收藏論文、咨詢等行為軌跡,構成了讀者網(wǎng)上行為歷史。讀者的學術合作網(wǎng)絡、社交網(wǎng)絡、微信QQ中的朋友圈構成了社會網(wǎng)絡屬性集。學術行業(yè)、網(wǎng)上行為、社會網(wǎng)絡這些都是動態(tài)屬性,這些靜態(tài)數(shù)據(jù)和動態(tài)數(shù)據(jù)共同構成了圖書館用戶畫像層次模型。
在這4類模型標簽的基礎上進一步確定預測標簽,可歸納為:讀者屬性、讀者所在的領域、讀者關注的領域、讀者所活躍的領域,這4種預測標簽為用戶的特征標簽集,并按照讀者的標簽集分別推送典型的信息資源。
4 圖書館用戶畫像應用
4.1 信息主動推送
圖書館實施用戶畫像的目的是為讀者進行精準推薦。以讀者在圖書館借還書記錄、學術信息、網(wǎng)上行為記錄等大量數(shù)據(jù)為依托,對數(shù)據(jù)進行分析和整理,借助標簽化、信息化、可視化的手段,獲取用戶的基本特征,構建出完善的讀者畫像模型,通過關聯(lián)規(guī)則計算,精準實時地獲取符合讀者興趣和需求的信息,主動地為用戶提供個性化知識推送服務,進而提升圖書館知識服務能力。
4.2 個性化交互服務
通過分析用戶在圖書館各業(yè)務系統(tǒng)中的頁面瀏覽行為、檢索歷史、下載記錄、社交記錄、關注記錄等各種數(shù)據(jù)分析,形成興趣標簽與用戶上網(wǎng)行為數(shù)據(jù)的關聯(lián),構建數(shù)字圖書館智能檢索系統(tǒng)。借助用戶畫像所提供的用戶信息需求、檢索行為、瀏覽習慣、瀏覽主題等數(shù)據(jù),通過大數(shù)據(jù)挖掘和分析為用戶量身定制檢索方式,為用戶提供個性化檢索服務[4]。
4.3 決策支持
用戶畫像通過對用戶建設的標簽化模型進行可視化展示,為用戶進行自我認知提供了依據(jù),同時也為用戶在學習研究、興趣培養(yǎng)等方面提供決策參考。對圖書館而言,圖書館可以對用戶畫像進行聚類分析,能迅速定位具有共同特征的服務群體,評估某一群體的整體興趣和需求走向,提升服務的準確度和滿意度;同時通過精準的定位目標讀者,為圖書館資源采購、空間布局、知識服務、營銷推廣等提供參考,為規(guī)劃圖書館的未來發(fā)展提供建設思路。
5 結語
在大數(shù)據(jù)環(huán)境下,用戶畫像技術是各服務行業(yè)提升服務準確度的一種主要途徑,圖書館領域也不例外。數(shù)字圖書館如何挖掘用戶數(shù)據(jù),全面了解用戶需求,發(fā)揮數(shù)據(jù)價值,是實現(xiàn)圖書館精準服務的關鍵點。圖書館積極引入用戶畫像技術,為知識服務創(chuàng)新,實現(xiàn)用戶需求與服務內(nèi)容的匹配,全面提高主動服務質(zhì)量提供了有效途徑。
【參考文獻】
[1]劉海鷗,黃文娜,謝姝琳.面向情境化推薦服務的圖書館用戶畫像研究[J].圖書館學研究,2018(20):62-68.
[2]姚遠,張惠,郝群.基于本體的用戶畫像構建方法[J].計算機科學,2018(10):226-231.
[3]陳臣,馬曉亭.基于小數(shù)據(jù)的圖書館用戶精準畫像研究[J].情報資料工作,2018(05):57-61.
[4]許鵬程,畢強,張晗等.數(shù)據(jù)驅動下數(shù)字圖書館用戶畫像模型構建[J].圖書情報工作,2019,63(03):30-37.