王東亮?羅雨舟?楊友清?楊勇?陳玉平
摘 要 大數(shù)據(jù)時(shí)代推動(dòng)了圖書館服務(wù)的變革,將用戶畫像引入圖書館領(lǐng)域,可實(shí)現(xiàn)精準(zhǔn)服務(wù)與推薦。本文以CNKI為文獻(xiàn)統(tǒng)計(jì)來源,對(duì)國內(nèi)關(guān)于圖書館用戶畫像的學(xué)術(shù)論文進(jìn)行統(tǒng)計(jì)分析與現(xiàn)狀分析,從圖書館用戶畫像構(gòu)建過程、精準(zhǔn)服務(wù)、精準(zhǔn)推薦、實(shí)踐應(yīng)用等4個(gè)方面進(jìn)行詳細(xì)闡述,并提出幾點(diǎn)國內(nèi)圖書館用戶畫像研究發(fā)展趨勢(shì)及建議。
關(guān)鍵詞 用戶畫像 圖書館 精準(zhǔn)服務(wù) 精準(zhǔn)推薦 實(shí)踐應(yīng)用
分類號(hào) G250
DOI 10.16810/j.cnki.1672-514X.2020.02.015
A Review on the User Profile of Library at Home
Wang Dongliang, Luo Yuzhou, Yang Youqing, Yang Yong,Chen Yuping
Abstract The era of big data has promoted the transformation of library services, user profile is a good tool to realize precision service and recommendation for libraries. The article statistical analyzes the scientific literature about user profile in domestic library field through the data from CNKI, and discusses the research status. The research status includes user profile construction process, precision service, precision recommendation and practical application in library field. Finally, the article proposes some research trends and suggestions of the application of user profile in domestic libraries.
Keywords User profile. Library. Precision service. Precision recommendation. Practical application.
1999年,Alan Cooper首次提出“用戶畫像”(Persona)的概念,即用戶畫像是現(xiàn)實(shí)生活中真實(shí)用戶的虛擬代表[1]。2010年,國內(nèi)學(xué)者正式使用“用戶畫像”一詞[2]。目前,用戶畫像技術(shù)已廣泛應(yīng)用于計(jì)算機(jī)領(lǐng)域和電子商務(wù)領(lǐng)域,但直至2014年國內(nèi)圖書館領(lǐng)域才首次出現(xiàn)對(duì)“用戶畫像”的應(yīng)用研究[3]。大數(shù)據(jù)時(shí)代引發(fā)了圖書館的變革,用戶畫像的引入可以為圖書館實(shí)現(xiàn)精準(zhǔn)服務(wù)提供思路和方向?;诖耍疚牟捎梦墨I(xiàn)計(jì)量法對(duì)國內(nèi)關(guān)于圖書館用戶畫像的研究情況進(jìn)行統(tǒng)計(jì)分析,進(jìn)一步了解圖書館用戶畫像的發(fā)展現(xiàn)狀,希望能為圖書館用戶畫像的研究與發(fā)展提供參考和借鑒意義。
1 文獻(xiàn)統(tǒng)計(jì)分析
本文利用CNKI中國知網(wǎng)學(xué)術(shù)資源庫,以“用戶畫像”作為關(guān)鍵詞進(jìn)行主題檢索,檢索領(lǐng)域限定為圖書情報(bào)與數(shù)字圖書館領(lǐng)域,共檢索出110篇文獻(xiàn),根據(jù)內(nèi)容篩選,共有37篇文獻(xiàn)符合主題。
1.1 年度分布
科學(xué)文獻(xiàn)的數(shù)量變化是衡量科學(xué)知識(shí)量的重要尺度之一。國內(nèi)圖書館用戶畫像研究領(lǐng)域發(fā)文數(shù)量如表1所示,用戶畫像在圖書館領(lǐng)域的應(yīng)用始于2014年在《圖書館學(xué)刊》上發(fā)表的《基于大數(shù)據(jù)的圖書館信息營銷策略》[3],文章認(rèn)為大數(shù)據(jù)時(shí)代下,圖書館可以借助用戶畫像技術(shù)實(shí)現(xiàn)館藏資源與用戶信息需求的精確匹配,提升營銷效率。由科學(xué)文獻(xiàn)的年度分布情況可見,國內(nèi)用戶畫像在圖書館領(lǐng)域的研究文獻(xiàn)才剛起步不久,用戶畫像技術(shù)在圖書館的應(yīng)用處于踴躍探索期。
1.2 期刊分布
對(duì)文獻(xiàn)信息的來源期刊進(jìn)行統(tǒng)計(jì),結(jié)果顯示論文共來自于21種期刊,其中有2篇及以上論文的期刊共8種,分別是《圖書館學(xué)研究》 《現(xiàn)代情報(bào)》《情報(bào)理論與實(shí)踐》 《圖書館情報(bào)工作》《圖書館學(xué)刊》《圖書館論壇》 《圖書館理論與實(shí)踐》《數(shù)字圖書館論壇》,其中刊文量最多的期刊為《圖書館學(xué)研究》,其次是《現(xiàn)代情報(bào)》 《情報(bào)理論與實(shí)踐》。
1.3 機(jī)構(gòu)分布
對(duì)文獻(xiàn)信息的作者機(jī)構(gòu)(第一單位) 進(jìn)行統(tǒng)計(jì),結(jié)果顯示文獻(xiàn)作者共來自35個(gè)機(jī)構(gòu),其中南京大學(xué)有3篇文獻(xiàn),其他機(jī)構(gòu)均只有1篇文獻(xiàn)。按發(fā)文機(jī)構(gòu)的性質(zhì)進(jìn)行統(tǒng)計(jì),高等院校為圖書館用戶畫像領(lǐng)域的研究主力,其次是各研究院(所) 和公共圖書館,最后為省委黨校圖書館。
1.4 關(guān)鍵詞分布
統(tǒng)計(jì)文獻(xiàn)信息中的關(guān)鍵詞,共有包含關(guān)鍵詞106個(gè),關(guān)鍵詞頻數(shù)為1至27不等,其中頻數(shù)大于或等于2的關(guān)鍵詞共15個(gè),頻數(shù)為2及以上的關(guān)鍵詞頻數(shù)及其中心度統(tǒng)計(jì)結(jié)果如表2所示。
本文以文獻(xiàn)關(guān)鍵詞為節(jié)點(diǎn),以共現(xiàn)次數(shù)為邊權(quán)重,構(gòu)建關(guān)鍵詞共現(xiàn)網(wǎng)絡(luò),結(jié)果如圖1所示,節(jié)點(diǎn)大小顯示其中心度,連線的粗細(xì)反映了共現(xiàn)頻次的大小。在頻數(shù)為2及以上的關(guān)鍵詞中,除關(guān)鍵詞“用戶畫像”“圖書館”具有強(qiáng)自我指向性外,具有明顯中心度的關(guān)鍵詞還包括“大數(shù)據(jù)”“精準(zhǔn)服務(wù)”“用戶需求”“數(shù)據(jù)挖掘”“個(gè)性化服務(wù)”等,這些關(guān)鍵詞反映了圖書館用戶畫像應(yīng)用研究的3個(gè)重點(diǎn)方向,即用戶需求推薦、圖書館精準(zhǔn)服務(wù)、圖書館個(gè)性化服務(wù)?!案咝D書館”“智慧圖書館”“數(shù)字圖書館”等描述了用戶畫像在圖書館的實(shí)踐應(yīng)用領(lǐng)域?!按髷?shù)據(jù)”“用戶行為分析”“數(shù)據(jù)挖掘”“知識(shí)發(fā)現(xiàn)”等揭示了圖書館用戶畫像的主要技術(shù)手段或途徑。
1.5 主題分布
根據(jù)對(duì)國內(nèi)37篇文獻(xiàn)的內(nèi)容進(jìn)行梳理、分析和總結(jié),發(fā)現(xiàn)相關(guān)文獻(xiàn)研究主題比較集中,如表3所示,研究主題主要集中于用戶畫像構(gòu)建方法、精準(zhǔn)/個(gè)性化服務(wù)、精準(zhǔn)/個(gè)性化推薦、實(shí)踐應(yīng)用、研究綜述等,分別為20篇、9篇、8篇、9篇、5篇。其中,5篇研究綜述分別為《國內(nèi)外用戶畫像研究綜述》 《國外圖書館領(lǐng)域用戶畫像的研究現(xiàn)狀及啟示》 《基于數(shù)據(jù)密集型的用戶畫像研究進(jìn)展》 《圖書館精準(zhǔn)服務(wù)研究現(xiàn)狀及發(fā)展策略》 《我國用戶畫像研究的知識(shí)網(wǎng)絡(luò)與熱點(diǎn)領(lǐng)域分析》,雖對(duì)圖書館領(lǐng)域用戶畫像有所涉及,但是主要側(cè)重于對(duì)用戶畫像的綜述,尚無將國內(nèi)用戶畫像研究與圖書館直接緊密聯(lián)系的綜述性文獻(xiàn)。
對(duì)相關(guān)文獻(xiàn)中用戶畫像的主要應(yīng)用領(lǐng)域進(jìn)行統(tǒng)計(jì),結(jié)果如表3所示,其中23篇文獻(xiàn)將用戶畫像應(yīng)用于廣義上的圖書館,應(yīng)用于高校圖書館、數(shù)字圖書館、知識(shí)社區(qū)、智慧圖書館、移動(dòng)圖書館的文獻(xiàn)分別為6篇、4篇、4篇、2篇、1篇。隨著大數(shù)據(jù)和人工智能的發(fā)展,圖書館的服務(wù)和功能得到延伸與拓展,用戶畫像在圖書館的應(yīng)用逐漸從傳統(tǒng)圖書館拓展到數(shù)字化、智慧化、移動(dòng)化圖書館。
2 國內(nèi)研究主題分析
通過對(duì)相關(guān)文獻(xiàn)的梳理與總結(jié),可以看出我國圖書館用戶畫像的研究主要集中在構(gòu)建過程、精準(zhǔn)服務(wù)、精準(zhǔn)推薦和實(shí)踐應(yīng)用4個(gè)方面。
2.1 對(duì)圖書館用戶畫像構(gòu)建過程的研究
對(duì)相關(guān)文獻(xiàn)中的圖書館用戶畫像構(gòu)建過程進(jìn)行內(nèi)容梳理,得到結(jié)果如表4所示,綜合可見,圖書館用戶畫像的一般構(gòu)建過程為:數(shù)據(jù)來源→數(shù)據(jù)采集→數(shù)據(jù)分析與處理→用戶標(biāo)簽體系構(gòu)建→用戶畫像模型構(gòu)建。此外,薛歡雪[4]提出在創(chuàng)建學(xué)科服務(wù)用戶畫像之前,首先要確定被畫像的用戶類型、設(shè)計(jì)切實(shí)可行的研究方案和調(diào)研綱要;崔超和羅歐[5]、楊燕[6]提出在建立圖書館用戶畫像時(shí),首先要明確圖書館用戶畫像的戰(zhàn)略意義。除此以外,韋良珍[7]、曾建勛[11]、朱白[12]、程金[14]、尹相權(quán)[15]、張均[16]、吳智勤[17]、陳源源[19]、何娟[22]等學(xué)者也針對(duì)用戶畫像創(chuàng)建流程提出了自己的建設(shè)。
2.1.1 數(shù)據(jù)來源
國內(nèi)學(xué)者主要將圖書館用戶畫像數(shù)據(jù)來源分為靜態(tài)數(shù)據(jù)和動(dòng)態(tài)數(shù)據(jù)[6-13]。靜態(tài)數(shù)據(jù),即用戶屬性數(shù)據(jù),包括性別、年齡、學(xué)歷、職業(yè)、職稱(職務(wù))、住址、身份證號(hào)、工作單位等。動(dòng)態(tài)數(shù)據(jù),即用戶行為數(shù)據(jù),主要通過網(wǎng)站系統(tǒng)、數(shù)字資源平臺(tái)及移動(dòng)終端產(chǎn)生,包括注冊(cè)、登錄、訪問、點(diǎn)擊、跳轉(zhuǎn)、評(píng)價(jià)、搜索、瀏覽、咨詢、閱讀、下載、訂閱、收藏、預(yù)約、續(xù)借、互動(dòng)等。
也有學(xué)者對(duì)用戶數(shù)據(jù)進(jìn)行了細(xì)分,如崔超等[5]將用戶數(shù)據(jù)細(xì)分為基礎(chǔ)數(shù)據(jù)(即自然屬性數(shù)據(jù))、社交行為數(shù)據(jù)、興趣偏好數(shù)據(jù)、能力特長數(shù)據(jù);程全[14]將用戶數(shù)據(jù)細(xì)分為用戶基本信息、用戶內(nèi)容偏好數(shù)據(jù)、用戶互動(dòng)數(shù)據(jù)、用戶會(huì)話數(shù)據(jù)、用戶其他數(shù)據(jù)五大類;尹相權(quán)等[15]則將用戶數(shù)據(jù)劃分為用戶預(yù)約數(shù)據(jù)、用戶違規(guī)數(shù)據(jù)、用戶基礎(chǔ)數(shù)據(jù)和用戶績效數(shù)據(jù);張鈞[16]將用戶行為數(shù)據(jù)細(xì)分為網(wǎng)絡(luò)行為數(shù)據(jù)、服務(wù)行為數(shù)據(jù)、用戶內(nèi)容偏好數(shù)據(jù)。
此外,吳智勤等[17]認(rèn)為宏觀上用戶畫像數(shù)據(jù)應(yīng)涵蓋用戶屬性/行為數(shù)據(jù)、社交網(wǎng)絡(luò)大數(shù)據(jù)和互聯(lián)網(wǎng)知識(shí)庫等;裘惠麟等[18]則從數(shù)據(jù)類型角度將用戶畫像數(shù)據(jù)分為結(jié)構(gòu)化數(shù)據(jù)(如紙質(zhì)、光盤資源)、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)(如用戶瀏覽借閱記錄、視頻音頻數(shù)據(jù)流)。
2.1.2 數(shù)據(jù)采集
確定數(shù)據(jù)來源后,則開始進(jìn)行數(shù)據(jù)采集工作。用戶畫像數(shù)據(jù)包含了結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù),對(duì)不同類型數(shù)據(jù)的采集需采取不同的技術(shù)手段。對(duì)于靜態(tài)的用戶屬性數(shù)據(jù),如性別、年齡等,通常根據(jù)圖書館管理系統(tǒng)中的注冊(cè)信息獲取。對(duì)于動(dòng)態(tài)的用戶行為數(shù)據(jù),可以利用網(wǎng)絡(luò)爬蟲、文本挖掘、網(wǎng)站日志獲取等技術(shù)從網(wǎng)站系統(tǒng)、數(shù)字資源平臺(tái)或移動(dòng)終端進(jìn)行采集,如尹相權(quán)等[15]利用北師大圖書館研究間系統(tǒng)預(yù)約日志數(shù)據(jù)來構(gòu)建和分析用戶畫像。此外,動(dòng)態(tài)數(shù)據(jù)也可通過設(shè)置問卷進(jìn)行調(diào)研,如薛歡雪[4]從用戶的基本屬性、行為特征、反饋與評(píng)價(jià)、歷史數(shù)據(jù)4個(gè)維度設(shè)計(jì)問卷調(diào)研提綱以采集用戶畫像數(shù)據(jù);陳添源[19]在通過問卷調(diào)查方式獲取用戶畫像數(shù)據(jù)時(shí)構(gòu)建了涵蓋人口統(tǒng)計(jì)屬性、使用行為屬性、用戶心理偏好標(biāo)簽等方面的29個(gè)調(diào)查變量。
2.1.3 數(shù)據(jù)分析與處理
一方面,獲取的原始數(shù)據(jù)通常不全是結(jié)構(gòu)化數(shù)據(jù),且存在一些噪聲信息、重復(fù)信息、缺失值、不一致數(shù)據(jù)等,不能直接應(yīng)用于用戶畫像構(gòu)建,因而需要對(duì)其進(jìn)行數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)規(guī)約、數(shù)據(jù)變換等數(shù)據(jù)預(yù)處理操作,以保證數(shù)據(jù)質(zhì)量。
另一方面,獲取的原始數(shù)據(jù)通常包含與用戶特征無關(guān)的冗余信息,因此有必要采用數(shù)據(jù)挖掘技術(shù)進(jìn)行信息過濾、分類、聚類、關(guān)聯(lián)、序列等分析與處理工作,從而提取出有效數(shù)據(jù),確保用戶畫像與用戶之間的有效性和真實(shí)性。
2.1.4 用戶標(biāo)簽體系構(gòu)建
用戶標(biāo)簽是用戶屬性特征和用戶行為特征的高度精煉,用戶標(biāo)簽的綜合即“用戶畫像”[20]。構(gòu)建用戶標(biāo)簽體系的一般做法是,利用自然語言處理、文本挖掘、K-means聚類、關(guān)聯(lián)規(guī)則、機(jī)器學(xué)習(xí)等技術(shù)提取出用戶基本特征標(biāo)簽和用戶行為特征標(biāo)簽,然后對(duì)標(biāo)簽進(jìn)行相似度計(jì)算、歸類、聚類、關(guān)聯(lián)等,逐步構(gòu)建分類標(biāo)簽、多級(jí)標(biāo)簽,從而形成用戶標(biāo)簽體系,將模糊的用戶類型立體化、形象化。
用戶標(biāo)簽類型的設(shè)置通常根據(jù)業(yè)務(wù)需要,且對(duì)應(yīng)于用戶畫像數(shù)據(jù)源,如曾建勛[11]將用戶標(biāo)簽分為用戶基礎(chǔ)屬性標(biāo)簽、角色屬性標(biāo)簽和行為屬性標(biāo)簽等;潘宇光[8]、胡媛等[10]則從讀者基本信息、用戶興趣愛好、用戶活躍度等多角度構(gòu)建用戶標(biāo)簽?zāi)P?,胡媛在此基礎(chǔ)上進(jìn)一步確定讀者屬性、近期需求、流失概率三類預(yù)測(cè)標(biāo)簽。
針對(duì)不同領(lǐng)域的不同類型用戶標(biāo)簽對(duì)主體的行為影響強(qiáng)度不同,薛歡雪[4]提出要對(duì)用戶標(biāo)簽確定優(yōu)先排序或賦予不同的權(quán)重值,陳添源[19]采取統(tǒng)計(jì)各個(gè)心理偏好變量在每個(gè)分群的均值作為標(biāo)簽權(quán)重,人口統(tǒng)計(jì)和使用行為兩個(gè)維度采用屬性值的頻率排序,以此共同定義用戶畫像的3類標(biāo)簽權(quán)值。