朱白
(商洛學(xué)院圖書(shū)館,陜西商洛 726000)
圖書(shū)館讀者用戶“臉譜”繪制研究
朱白
(商洛學(xué)院圖書(shū)館,陜西商洛 726000)
大數(shù)據(jù)時(shí)代如何將圖書(shū)館海量數(shù)據(jù)進(jìn)行整合、挖掘,還原讀者的真實(shí)面目是圖書(shū)館精準(zhǔn)服務(wù)內(nèi)容之一,提出通過(guò)分析讀者用戶數(shù)據(jù)并建立模型,結(jié)合讀者用戶的基本信息和行為信息為用戶打上標(biāo)簽的思路來(lái)繪制讀者的“臉譜”,從而實(shí)現(xiàn)讀者需求喜好的精準(zhǔn)定位,對(duì)進(jìn)一步實(shí)現(xiàn)圖書(shū)館大數(shù)據(jù)應(yīng)用有一定的借鑒意義。
圖書(shū)館;臉譜;標(biāo)簽;用戶畫(huà)像
隨著互聯(lián)網(wǎng)的不斷發(fā)展,如何利用大數(shù)據(jù)挖掘、分析讀者用戶的潛在價(jià)值,已經(jīng)成為各大數(shù)字圖書(shū)館研究的重要課題。與傳統(tǒng)的線下讀者用戶管理相比,大數(shù)據(jù)技術(shù)的應(yīng)用能夠快速地分析讀者用戶的行為習(xí)慣、閱讀習(xí)慣等重要信息,從而更加精準(zhǔn)地定位讀者的喜好,提升圖書(shū)館服務(wù)水平。為了進(jìn)一步深入地了解用戶,提出為讀者用戶繪制“臉譜”概念,通過(guò)用戶畫(huà)像[1],完美地呈現(xiàn)出讀者用戶的信息全貌,對(duì)圖書(shū)館更好地為用戶服務(wù)以及數(shù)字圖書(shū)館大數(shù)據(jù)應(yīng)用研究等有著重要意義。
用戶畫(huà)像作為大數(shù)據(jù)應(yīng)用的基礎(chǔ),是數(shù)字圖書(shū)館推動(dòng)讀者精準(zhǔn)服務(wù)作用的最直接體現(xiàn),在用戶畫(huà)像方面,不同的學(xué)者從不同的角度進(jìn)行了研究,如曾鴻等[2]對(duì)微博大數(shù)據(jù)用戶畫(huà)像與精準(zhǔn)營(yíng)銷進(jìn)行研究,認(rèn)為在品牌的傳播與建設(shè)中,用戶畫(huà)像是一個(gè)不錯(cuò)的選擇。何雪海等[3]提出一種大數(shù)據(jù)網(wǎng)絡(luò)安全用戶行為畫(huà)像,能應(yīng)用于異常檢測(cè)、日志審計(jì)、網(wǎng)絡(luò)安全評(píng)估等。黃文彬等[4]采用頻繁模式挖掘、構(gòu)建概率矩陣、計(jì)算熵等方法,從用戶基站日志中所包含的地理位置信息入手,對(duì)構(gòu)建移動(dòng)用戶行為畫(huà)像進(jìn)行了研究。吳明禮等[5]利用Spark的并行計(jì)算能力,并結(jié)合時(shí)間和空間兩個(gè)維度,對(duì)用戶精細(xì)化畫(huà)像處理大量數(shù)據(jù)計(jì)算的速度進(jìn)行了研究,取得了不錯(cuò)效果。但這些研究都沒(méi)有從用戶畫(huà)像具體流程角度分析,本文則主要通過(guò)研究用戶基礎(chǔ)數(shù)據(jù)、行為建模等方面入手,對(duì)圖書(shū)館讀者用戶畫(huà)像的流程進(jìn)行闡述,為圖書(shū)館用戶“臉譜”的進(jìn)一步應(yīng)用打下基礎(chǔ)。
用戶“臉譜”繪制,即根據(jù)用戶社會(huì)屬性、生活習(xí)慣和消費(fèi)行為等信息而抽象出的一個(gè)標(biāo)簽化的用戶模型[6],又稱用戶角色(Persona)。Alan Cooper(交互設(shè)計(jì)之父)最早提出了persona的概念:“Personas are a concrete representation of target users.”P(pán)ersona是真實(shí)用戶的虛擬代表,是基于一系列真實(shí)數(shù)據(jù)(Marketing data,Usability data)之上的目標(biāo)用戶模型[7-8]。該模型可調(diào)研了解用戶,然后根據(jù)用戶的行為、偏好和目標(biāo)之間的差異,進(jìn)行聚類分群,再?gòu)拿糠N類型中通過(guò)典型特征分析,并對(duì)這些特征賦予一些人口統(tǒng)計(jì)學(xué)要素和一些場(chǎng)景描述,如姓名、性別、年齡、照片等,就形成了一個(gè)人物原型(personas)。
用戶畫(huà)像是通過(guò)分析用戶盡可能多的數(shù)據(jù)信息得到的,源于數(shù)據(jù)但高于數(shù)據(jù),它是繪制目標(biāo)用戶“臉譜”設(shè)計(jì)方向、聯(lián)系用戶訴求的有效工具,因此在各領(lǐng)域被廣泛應(yīng)用。構(gòu)建用戶畫(huà)像的核心工作是給用戶貼“標(biāo)簽”,通過(guò)數(shù)據(jù)加分析,用若干標(biāo)簽來(lái)描述一個(gè)模糊用戶的過(guò)程,標(biāo)簽是通過(guò)對(duì)用戶信息分析而來(lái)的高度精煉的特征標(biāo)識(shí)。
圖書(shū)館用戶畫(huà)像是對(duì)符合特定業(yè)務(wù)需求的的讀者用戶的形式化的數(shù)據(jù)描述。讀者用戶畫(huà)像在具體操作的過(guò)程中,通常以貼近生活、淺顯易懂的話語(yǔ)把用戶屬性和行為數(shù)據(jù)聯(lián)結(jié)起來(lái),形成實(shí)際用戶角色的虛擬代表。
為了讓整個(gè)用戶“臉譜”繪制的工作有秩序,有節(jié)奏的進(jìn)行,可以將用戶畫(huà)像分為以下三個(gè)步驟:基礎(chǔ)數(shù)據(jù)采集,用戶行為建模,構(gòu)建用戶畫(huà)像。如圖1所示。
基礎(chǔ)數(shù)據(jù)大致可分為用戶屬性數(shù)據(jù)和用戶行為數(shù)據(jù)兩大類。
用戶屬性數(shù)據(jù):主要為用戶相對(duì)穩(wěn)定的靜態(tài)信息數(shù)據(jù),如人口屬性:性別、年齡、學(xué)歷、教育程度、年齡層次、家庭情況、職業(yè)/行業(yè)、國(guó)籍、籍貫、職務(wù)、收入水平等。
圖1 用戶臉譜繪制流程圖
用戶行為數(shù)據(jù)大致包括三類:服務(wù)內(nèi)行為數(shù)據(jù),如網(wǎng)站、APP的訪問(wèn)來(lái)源、瀏覽路徑、頁(yè)面停留時(shí)間、訪問(wèn)深度、唯一頁(yè)面瀏覽次數(shù)等;網(wǎng)絡(luò)行為數(shù)據(jù),如讀者的活躍人數(shù)、頁(yè)面瀏覽量、訪問(wèn)時(shí)長(zhǎng)、激活率、外部觸點(diǎn)、社交數(shù)據(jù)等;用戶交互數(shù)據(jù),如交互場(chǎng)景、貢獻(xiàn)率、客單價(jià)、連帶率、回頭率、流失率、點(diǎn)擊率、收藏率、購(gòu)買(mǎi)率等。
在完成跨系統(tǒng)基礎(chǔ)數(shù)據(jù)整合、分類采集的基礎(chǔ)上,需要進(jìn)一步進(jìn)行搭建用戶“臉譜”繪制框架模型。如圖2所示,數(shù)字圖書(shū)館用戶“臉譜”繪制的實(shí)現(xiàn)模型可分為三層,即資源層、數(shù)據(jù)采集層和數(shù)據(jù)挖掘?qū)?。資源層是用戶“臉譜”繪制的基礎(chǔ)平臺(tái),也是數(shù)據(jù)源的有效組織、整合,信息來(lái)源包括用戶屬性信息的靜態(tài)數(shù)據(jù)信息和包括用戶行為屬性的動(dòng)態(tài)數(shù)據(jù)信息。數(shù)據(jù)采集層是用戶“臉譜”繪制的基礎(chǔ),通過(guò)多種方式采集用戶的靜態(tài)屬性信息和動(dòng)態(tài)行為數(shù)據(jù),并存儲(chǔ)到原始數(shù)據(jù)庫(kù)中,同時(shí)將用戶交互界面的反饋信息補(bǔ)充到數(shù)據(jù)庫(kù)中,以便豐富采集層數(shù)據(jù)的維度。數(shù)據(jù)挖掘?qū)邮怯脩簟澳樧V”繪制的核心,需要用計(jì)算機(jī)算法不斷地對(duì)數(shù)據(jù)進(jìn)行清洗、集成、變換、歸約等預(yù)處理,并初步完成用戶識(shí)別和給用戶打標(biāo)簽,從而建立用戶個(gè)體畫(huà)像,用戶個(gè)體畫(huà)像完成后再通過(guò)數(shù)據(jù)挖掘算法進(jìn)一步完善標(biāo)簽?zāi)P汀?gòu)造用戶群體畫(huà)像和關(guān)系圖譜,最終輸出分析結(jié)果,并將可視化結(jié)果展示給用戶。
通過(guò)用戶畫(huà)像構(gòu)建模型經(jīng)過(guò)分析得到最終數(shù)據(jù)后,需要對(duì)讀者用戶“臉譜”進(jìn)行繪制,通常用一組標(biāo)簽的集合來(lái)描述一個(gè)用戶,將一個(gè)用戶復(fù)雜的特征通過(guò)若干個(gè)角度來(lái)進(jìn)行衡量和刻畫(huà),每個(gè)標(biāo)簽就是其中的一個(gè)角度,這些角度之間彼此聯(lián)系,共同形成這個(gè)用戶整體特征。通常用來(lái)描述用戶信息的標(biāo)簽具有“語(yǔ)義化”和“短文本”兩個(gè)重要特征。所謂語(yǔ)義化,指能夠較好滿足業(yè)務(wù)場(chǎng)景需求,讓人能夠理解每個(gè)標(biāo)簽含義,使用戶畫(huà)像的構(gòu)建模型具備實(shí)際意義。所謂短文本,是指標(biāo)簽本身不需要再做過(guò)多文本分析和預(yù)處理工作,通常每個(gè)標(biāo)簽就只有一種含義,計(jì)算機(jī)能夠根據(jù)事先制定好的標(biāo)簽規(guī)則,讀取標(biāo)簽信息,通過(guò)算法計(jì)算來(lái)做聚合分析,從而為機(jī)器學(xué)習(xí)、利用算法提取標(biāo)準(zhǔn)化信息提供了一定的便利。所以,用戶“臉譜”繪制的結(jié)果就是通過(guò)為用戶打標(biāo)簽的方式來(lái)描述用戶信息。如以下描述:男,生于1980年,出生于上海市徐匯區(qū),已婚,祖籍蘇州吳江,中國(guó)職業(yè)籃球運(yùn)動(dòng)員,NBA全明星,小巨人。這樣一串描述就是用戶信息標(biāo)簽化,也是用戶畫(huà)像的典型案例,如圖3所示。
圖2 用戶畫(huà)像構(gòu)建模型圖
用戶標(biāo)簽繪制可分為數(shù)據(jù)源分析、目標(biāo)分析、形成用戶標(biāo)簽等三個(gè)步驟。
數(shù)據(jù)源分析,指通過(guò)聚類分析所有用戶相關(guān)的數(shù)據(jù),將分析結(jié)果劃分為多個(gè)子類,以便后期枚舉、迭代擴(kuò)展信息緯度時(shí)方便機(jī)器學(xué)習(xí)、打標(biāo)簽等。根據(jù)業(yè)務(wù)場(chǎng)景和業(yè)務(wù)需求,在做數(shù)據(jù)源分析時(shí)將用戶數(shù)據(jù)分為兩大類,如將相對(duì)穩(wěn)定的一些靜態(tài)數(shù)據(jù)劃分為用戶屬性類數(shù)據(jù),將不斷變化的動(dòng)態(tài)數(shù)據(jù)劃分為用戶行為類數(shù)據(jù)。用戶屬性類數(shù)據(jù)主要指用戶的人口屬性信息,如:性別、年齡、學(xué)歷、教育程度、年齡層次、家庭情況、職業(yè)/行業(yè)、國(guó)籍、籍貫、職務(wù)、收入水平等等。這類信息作為自然標(biāo)簽,不需要進(jìn)行過(guò)多建模預(yù)測(cè),只需要做好數(shù)據(jù)清洗工作即可。用戶行為類的動(dòng)態(tài)信息數(shù)據(jù),主要指不斷變化的用戶行為信息,在互聯(lián)網(wǎng)上,用戶行為,可以看作用戶動(dòng)態(tài)信息的唯一數(shù)據(jù)來(lái)源。如個(gè)人興趣偏好(影視、音樂(lè)、旅游、攝影、游戲、體育等)、休閑方式、情感取向、生活態(tài)度、工作區(qū)域、居住區(qū)域、休閑區(qū)域、出行方式、是否車主、是否自購(gòu)住房、社交圈、消費(fèi)心理、服務(wù)偏好、閱讀偏好、推廣接受度等。
目標(biāo)分析,指在用戶聚類分析結(jié)果的基礎(chǔ)上,對(duì)用戶的行為數(shù)據(jù)進(jìn)一步分析并為用戶打上標(biāo)簽、賦予權(quán)重值。用戶標(biāo)簽信息可以反映出用戶對(duì)某類圖書(shū)有興趣、有需求等,而權(quán)重值則表明了用戶對(duì)該類圖書(shū)的偏好指數(shù)、興趣度、需求度等的概率指數(shù)。
形成用戶標(biāo)簽,用戶標(biāo)簽統(tǒng)一視圖分四個(gè)層次,基本屬性、分析屬性、標(biāo)簽屬性、營(yíng)銷屬性等,如圖4所示。
圖3 用戶信息標(biāo)簽化
圖5 四層次的用戶標(biāo)簽統(tǒng)一視圖
基本屬性層次通過(guò)整合各個(gè)系統(tǒng)的基本數(shù)據(jù),如用戶屬性數(shù)據(jù)和用戶行為數(shù)據(jù)等;分析屬性層次基于基本數(shù)據(jù)之上的統(tǒng)計(jì)、分析,如總體關(guān)聯(lián)分析、用戶價(jià)值分析、用戶行為分析、用戶分群信息等;標(biāo)簽屬性層次為刻畫(huà)用戶特征生成的標(biāo)簽,如規(guī)則類標(biāo)簽、行為類標(biāo)簽等;營(yíng)銷屬性層次針對(duì)特定的營(yíng)銷活動(dòng)場(chǎng)景分析的屬性,如圖書(shū)潛在用戶屬性、接觸時(shí)間屬性、接觸渠道屬性等。最終通過(guò)原始信息、統(tǒng)計(jì)匯總得到事實(shí)信息、各類預(yù)測(cè)分析信息、結(jié)合業(yè)務(wù)場(chǎng)景應(yīng)用形成應(yīng)用類標(biāo)簽四個(gè)要素來(lái)完成用戶進(jìn)行“臉譜”標(biāo)簽的繪制,如圖5所示。
構(gòu)建用戶“臉譜”為用戶畫(huà)像的目的是為了充分了解用戶,使圖書(shū)館進(jìn)而為讀者用戶提供更精準(zhǔn)的服務(wù)和更好的用戶體驗(yàn),為讀者用戶進(jìn)行“臉譜”繪制,有著廣泛的應(yīng)用前景,可以應(yīng)用在用戶統(tǒng)計(jì),如閱讀排行,最受歡迎的圖書(shū)TOP10、人群分布等情況;在數(shù)據(jù)挖掘方面,可以分析潛在用戶,開(kāi)展個(gè)性化推薦系統(tǒng)的研究,快速高效地從海量的數(shù)據(jù)和信息中獲取有關(guān)知識(shí),提高資源檢索和推薦的智能水平,滿足各類用戶不同的個(gè)性化需求[9-10];也可以對(duì)圖書(shū)館應(yīng)用系統(tǒng)進(jìn)行效果評(píng)估、完善圖書(shū)管理系統(tǒng)、提升服務(wù)質(zhì)量、提高服務(wù)水平,還可以進(jìn)行業(yè)務(wù)經(jīng)營(yíng)分析,通過(guò)對(duì)讀者用戶畫(huà)像進(jìn)行分析,制定圖書(shū)館發(fā)展戰(zhàn)略等。
在“互聯(lián)網(wǎng)+”、虛擬化、云計(jì)算和大數(shù)據(jù)技術(shù)時(shí)代背景下,個(gè)性化的用戶“臉譜”繪制是圖書(shū)館未來(lái)通過(guò)推薦系統(tǒng)實(shí)施精準(zhǔn)化服務(wù)的突破口,特別是圖書(shū)館不斷完善數(shù)據(jù)基礎(chǔ)平臺(tái)、以讀者用戶為中心,了解用戶、體察用戶、懂得用戶、服務(wù)用戶,提升用戶體驗(yàn)方面起著重要作用。本文提出了圖書(shū)館讀者用戶“臉譜”的繪制方法的思路、并對(duì)“臉譜”的實(shí)際應(yīng)用進(jìn)行了概述,在具體構(gòu)建智能推薦系統(tǒng)應(yīng)用方面還需要進(jìn)一步深入研究,在推薦算法方面還需要在更多的數(shù)據(jù)集和大數(shù)據(jù)集上進(jìn)一步測(cè)試驗(yàn)證。
[1]郝勝宇,陳靜仁.大數(shù)據(jù)時(shí)代用戶畫(huà)像助力企業(yè)實(shí)現(xiàn)精準(zhǔn)化營(yíng)銷[J].中國(guó)集體經(jīng)濟(jì),2016(4):61-62.
[2]曾鴻,吳蘇倪.基于微博的大數(shù)據(jù)用戶畫(huà)像與精準(zhǔn)營(yíng)銷[J].現(xiàn)代經(jīng)濟(jì)信息,2016(16):306-308.
[3]何雪海,黃明浩,宋飛.網(wǎng)絡(luò)安全用戶行為畫(huà)像方案設(shè)計(jì)[J].通訊技術(shù),2017,50(4):789-794.
[4]黃文彬,徐山川,吳家輝,等.移動(dòng)用戶畫(huà)像構(gòu)建研究[J].現(xiàn)代情報(bào),2016,36(10):54-61.
[5]吳明禮,楊雙亮.用戶畫(huà)像在內(nèi)容推送中的研究與應(yīng)用[J].電腦知識(shí)與技術(shù),2016,12(32):255-259.
[6]王慶福.貝葉斯網(wǎng)絡(luò)在用戶興趣模型構(gòu)建中的研究[J].無(wú)線互聯(lián)科技,2016(12):101-102.
[7]尤駿杰.大數(shù)據(jù)營(yíng)銷理論及其在游戲運(yùn)營(yíng)中的應(yīng)用[D].蘇州:蘇州大學(xué),2016:27.
[8]劉鵬.基于Spark的數(shù)據(jù)管理平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[D].杭州:浙江大學(xué),2016:17-34.
[9]朱白.數(shù)字圖書(shū)館推薦系統(tǒng)協(xié)同過(guò)濾算法改進(jìn)及實(shí)證分析[J].圖書(shū)情報(bào)工作,2017,61(9):130-134.
[10]王敏,嵇紹春.基于模糊聚類和模糊模式識(shí)別的數(shù)字圖書(shū)館個(gè)性化推薦研究[J].現(xiàn)代情報(bào),2016,36(4):52-56.
(責(zé)任編輯:彭治民)
The Research on Plotting the"Facebook"of Library Readers
ZHU Bai
(Library of Shangluo University,Shangluo 726000,Shaanxi)
How to integrate and mine the massive data in order to restore the original visage of one reader in the big data era is a component of the accurate library services.An idea that is labelling the users to plot their real"facebooks"is proposed through analyzing the data of the library readers,establishing the model and combining the basic information and the behavior information of the library readers,so as to realize the accurate portrait of the needs and likes which the readers actually have and help to realize the application in the big data of the library.
library;facebook;label;userportrait
G252
A
1674-0033(2017)05-0087-04
10.13440/j.slxy.1674-0033.2017.05.018
2017-07-20
朱白,女,陜西商州人,館員