尹婷婷,曾憲玉(西北工業(yè)大學圖書館)
用戶畫像作為大數(shù)據(jù)背景下信息資源服務的有效算法,針對用戶相關數(shù)據(jù)信息及其在網(wǎng)絡使用過程中的行為數(shù)據(jù)信息進行提取與挖掘,從而能夠針對目標用戶預測并獲取完成滿足用戶需求的資源數(shù)據(jù)[1]。基于此,本文在深入分析信息資源與高校數(shù)字圖書館用戶需求之間內(nèi)在聯(lián)系的基礎上,采用目前已在人工智能、信息處理等領域取得廣泛實踐應用的用戶畫像技術,充分挖掘高校數(shù)字圖書館信息服務中具體信息資源與師生讀者用戶資源需求之間的關聯(lián)性,建立基于用戶畫像技術的高校數(shù)字圖書館信息服務理論模型,并探討與之相關的數(shù)字圖書館信息服務的具體應用模式。
“用戶畫像”由交互設計之父Alan Cooper提出:“用戶畫像是構(gòu)建能夠反映出目標用戶真實數(shù)據(jù)信息情況的虛擬模型”[2],包括用戶的基本信息及行為信息等用戶特征屬性數(shù)據(jù),在用戶畫像模型建立過程中主要利用數(shù)據(jù)挖掘技術完成對用戶及用戶群組貼“標簽”的處理工作,并將由此獲取的各種類型的“標簽”數(shù)據(jù)利用具體的組合規(guī)則歸納、匯聚完成后,形成建立用戶畫像模型的全過程[3]。因此,基于用戶畫像的建模過程主要是通過對描述用戶的屬性信息進行挖掘,提取出能夠描繪用戶特征的標簽信息,從而達到能夠識別不同用戶的目的[4]。在圖書情報領域,王順箐在分析總結(jié)用戶的個人愛好以及資源需求數(shù)據(jù)的基礎上,在用戶畫像背景下構(gòu)建了讀者閱讀推薦系統(tǒng)模型[5];單軫等基于文獻分析法,對國內(nèi)圖書領域用戶畫像技術的發(fā)展現(xiàn)狀及未來發(fā)展方向進行詳細歸納與總結(jié)[6];趙巖通過分析讀者用戶對館藏資源的需求信息,利用用戶畫像技術構(gòu)建館藏資源個性化推薦服務模型[7];胡媛等利用聚類、關聯(lián)規(guī)則完成對知識社區(qū)用戶畫像可視化模型的構(gòu)建[8];陳冬玲等基于用戶興趣的描述文件,提出用戶畫像背景下用戶個性化搜索的建模流程[9]。因此,通過總結(jié)信息領域、圖書情報領域關于用戶畫像技術的已有研究成果,發(fā)現(xiàn)其研究的側(cè)重點主要集中在用戶模型的詳細構(gòu)建方法以及數(shù)據(jù)資源的推薦與推送等具體方面,而用戶畫像在高校數(shù)字圖書館信息服務中的研究與實踐仍需重點關注與深入探討。
在“互聯(lián)網(wǎng)+”的信息時代背景下,依據(jù)用戶的個性化資源需求,數(shù)字圖書館通過對所需相關信息資源進行收集、整理、歸納和分類之后,向圖書館用戶推送其所需的資源數(shù)據(jù),為其提供信息服務。具體而言,續(xù)遠鳳從文獻年代、文獻出處、關鍵詞等角度,在對近年來圖書館信息服務發(fā)展現(xiàn)狀進行分析總結(jié)的基礎上,提出數(shù)字圖書館信息服務是高校圖書館發(fā)展的重要方向,且需要利用先進的信息技術提高高校數(shù)字圖書館信息服務質(zhì)量的論述[10];Wong以加州圣瑪麗學院在校學者興趣領域的科研產(chǎn)出成果為研究對象,構(gòu)建了基于學者畫像的科研資源管理模型[11];楊帆利用Hadoop MapReduce數(shù)據(jù)管理手段構(gòu)建基于讀者畫像和資源畫像技術的圖書館數(shù)據(jù)分析模型[12];劉素清在分析新媒體時代用戶對決策信息個性化需求的基礎上提出新媒體背景下高校數(shù)字圖書館信息服務的發(fā)展方向[13];尹婷婷等從優(yōu)化館藏資源推送、提供個性化學習路徑導航服務等層面提出高校數(shù)字圖書館個性化信息服務的具體應用模式[14]??v覽圖情領域內(nèi)高校數(shù)字圖書館信息服務的研究成果,發(fā)現(xiàn)主要集中于用戶對高校圖書館個性化信息服務的具體需求分析及相應的館藏資源推送實現(xiàn)等內(nèi)容,包括針對資源信息的各類數(shù)學處理分析方法、高校圖書館信息服務中數(shù)字資源利用率等問題的分析探討。但是缺乏針對高校圖書館信息服務中關于用戶個體屬性特征及用戶在使用高校數(shù)字圖書館網(wǎng)絡系統(tǒng)、高校圖書館網(wǎng)站、相關移動網(wǎng)絡數(shù)據(jù)平臺等的瀏覽行為數(shù)據(jù)的考慮與研究,從而導致對高校數(shù)字圖書館信息服務對象的個人特征信息分析不夠深入,對讀者用戶個人興趣偏好研究不夠全面等問題的存在,而利用高校圖書館信息服務獲取的推薦信息資源內(nèi)容也不夠精準及時。在這一研究背景下,本文將用戶畫像技術引入高校數(shù)字圖書館信息服務領域,利用用戶畫像技術的獨特優(yōu)勢構(gòu)建針對高校數(shù)字圖書館信息服務的研究模型。
基于用戶畫像技術的高校數(shù)字圖書館信息服務應用的建模過程主要包括以下步驟:①通過在高校數(shù)字圖書館服務場景中抽取、完成用戶信息的標簽描繪體系;②將描繪體系標簽抽取與映射,組合完成用戶數(shù)據(jù)集;③應用用戶畫像技術完成用戶數(shù)據(jù)挖掘與建模,并完成對用戶所需信息服務的描述及可視化呈現(xiàn)[15]。其中,應用用戶畫像技術完成用戶數(shù)據(jù)挖掘的過程,即利用大數(shù)據(jù)信息處理等數(shù)學計算方法,在高校數(shù)字圖書館相關網(wǎng)絡系統(tǒng)中完成發(fā)現(xiàn)、提取并歸納收集有效數(shù)據(jù)信息的處理步驟,包括對描述目標用戶個體屬性特征,及目標用戶在使用高校數(shù)字圖書館相關網(wǎng)絡系統(tǒng)等行為痕跡數(shù)據(jù)信息的收集、處理等具體操作過程,以及完成對用戶個體的標記步驟及標簽信息處理等具體工作[16]。
針對用戶數(shù)據(jù)信息的提取過程是建立用戶畫像模型的前提條件和基礎步驟,主要的核心思想是針對用戶貼“標簽”的過程,隨后將某一用戶所擁有的各類標簽綜合歸納起來,就可以勾勒出該用戶的畫像框架,標簽映射的具體步驟如圖1所示。高校數(shù)字圖書館網(wǎng)絡系統(tǒng)中累計著大量的體現(xiàn)用戶個體屬性特征及用戶網(wǎng)絡痕跡的數(shù)據(jù)信息,這些數(shù)據(jù)可以作為構(gòu)建用戶畫像模型的數(shù)據(jù)來源與基礎信息。但是因各類數(shù)據(jù)庫保存方式的不同,這些不同種類的來源數(shù)據(jù)信息存儲于不同的數(shù)據(jù)庫系統(tǒng)內(nèi),因此描述用戶信息的各類數(shù)據(jù)資源之間沒有直接的相關性,甚至沒有任何的關聯(lián)特性。本文依據(jù)標簽信息的具體內(nèi)容,將針對用戶的標簽信息大致劃分為固定數(shù)據(jù)、動態(tài)數(shù)據(jù)兩類。其中,固定數(shù)據(jù)主要指的是用戶個體屬性特征,包括用戶性別、年齡、所屬學院、就讀專業(yè)、聯(lián)系方式等相對固定的信息數(shù)據(jù);動態(tài)數(shù)據(jù)則主要包括用戶在使用高校數(shù)字圖書館網(wǎng)絡系統(tǒng)、高校圖書館網(wǎng)站、相關移動網(wǎng)絡數(shù)據(jù)平臺時的瀏覽行為數(shù)據(jù)等信息。當大量的與某一目標用戶相似的標簽數(shù)據(jù)信息被分析、歸納、集合后,即形成了包括單個目標用戶在內(nèi)的用戶群組標簽信息,那么群組之間的關聯(lián)屬性就能夠建立起來,將獲取的標簽信息梳理、綜合、聚類、歸納分析后,形成處理后的一系列標簽族,從而建立能夠用于用戶畫像的標簽體系,進一步描繪用戶以及用戶群組的畫像過程,為用戶畫像模型的構(gòu)建提供指引和數(shù)據(jù)基礎。
圖1 標簽映射管理流程
作為用戶畫像技術的數(shù)據(jù)來源,高校數(shù)字圖書館獲取到的目標用戶數(shù)據(jù)信息具有結(jié)構(gòu)不一、數(shù)量龐雜、存儲格式復雜等特點,根據(jù)具體存儲格式的不同,獲取的數(shù)據(jù)信息可以具體劃分為結(jié)構(gòu)化和非結(jié)構(gòu)化兩種類型[17]??傮w而言,結(jié)構(gòu)化數(shù)據(jù)信息主要包括用戶個體屬性特征信息,結(jié)構(gòu)化數(shù)據(jù)具有相對的標準性和規(guī)范性,同時信息形式相對單一、數(shù)據(jù)信息易分析、易存儲;非結(jié)構(gòu)化數(shù)據(jù)的獲取多來源于目標用戶在使用高校數(shù)字圖書館網(wǎng)絡系統(tǒng)、高校圖書館網(wǎng)站等的瀏覽行為數(shù)據(jù)??傮w而言,因數(shù)據(jù)存儲格式的差異性,與結(jié)構(gòu)化數(shù)據(jù)相比,非結(jié)構(gòu)化數(shù)據(jù)信息的處理過程更具復雜性。然而,對于這兩類具有不同存儲結(jié)構(gòu)的數(shù)據(jù)而言,均可以通過統(tǒng)一的數(shù)據(jù)處理過程(包括將數(shù)據(jù)分解為元數(shù)據(jù)單元,數(shù)據(jù)分類,數(shù)據(jù)清洗等)后,獲得能夠用于用戶畫像建模過程的可用數(shù)據(jù)信息。在這一處理過程中,需要運用精確的數(shù)學分析技術剔除無用數(shù)據(jù)信息,包括重復數(shù)據(jù)、干擾數(shù)據(jù)等信息,進一步提高用戶畫像模型預測結(jié)果的精確性和科學性。
基于用戶畫像的數(shù)據(jù)挖掘與建模過程主要以用戶對高校數(shù)字圖書館信息服務需求為研究基礎,構(gòu)建與用戶資源需求相符的數(shù)據(jù)挖掘模型,從各類目標用戶數(shù)據(jù)集中查找、提取并歸納某一用戶對應的標簽值[16],建立完整的標簽信息管理體系,實現(xiàn)各類標簽信息的挖掘、標引及無用標簽信息的剔除等具體實現(xiàn)步驟,實現(xiàn)數(shù)字圖書館信息服務對各類標簽信息的靈活調(diào)取。在模型構(gòu)建數(shù)據(jù)處理分析過程中,利用知識檢索、信息過濾等人工智能處理技術,完成目標用戶對所需資源數(shù)據(jù)信息的提取與歸納操作。同時隨著目標用戶個體屬性特征及用戶在使用高校數(shù)字圖書館網(wǎng)絡系統(tǒng)、高校圖書館網(wǎng)站、相關移動網(wǎng)絡數(shù)據(jù)平臺等瀏覽行為數(shù)據(jù)的不斷更新,構(gòu)建用戶畫像模型的過程也需要實時更新完善,這有益于更加科學、合理地進行數(shù)據(jù)信息的挖掘與處理工作。
基于以上思路,按照用戶所需資源數(shù)據(jù)信息的具體處理步驟[14-15],構(gòu)建由數(shù)據(jù)來源層、數(shù)據(jù)整合層、數(shù)據(jù)挖掘?qū)蛹皵?shù)據(jù)顯示層構(gòu)成的基于用戶畫像的四層數(shù)字圖書館信息服務模型(見圖2)。
圖2 基于用戶畫像的四層數(shù)字圖書館信息服務模型
(1)用戶個體屬性特征及其在使用高校數(shù)字圖書館網(wǎng)絡系統(tǒng)、高校圖書館網(wǎng)站、相關移動網(wǎng)絡數(shù)據(jù)平臺的瀏覽行為數(shù)據(jù)構(gòu)成了數(shù)據(jù)基礎層的數(shù)據(jù)來源,依據(jù)數(shù)據(jù)來源層數(shù)據(jù)信息具體內(nèi)容的特征,將數(shù)據(jù)來源層數(shù)據(jù)分為目標用戶屬性特征、目標用戶興趣愛好及目標用戶網(wǎng)絡互動三類。這三類數(shù)據(jù)依照各自的數(shù)據(jù)格式存儲于不同的數(shù)據(jù)存儲系統(tǒng)中,其中目標用戶網(wǎng)絡互動數(shù)據(jù)主要包括目標用戶在使用高校數(shù)字圖書館網(wǎng)絡系統(tǒng)、高校圖書館網(wǎng)站、相關移動網(wǎng)絡數(shù)據(jù)平臺等的留言、評論、轉(zhuǎn)發(fā)等互動數(shù)據(jù)信息。
(2)數(shù)據(jù)處理層是實現(xiàn)目標用戶個體屬性特征及用戶在使用高校數(shù)字圖書館網(wǎng)絡系統(tǒng)、高校圖書館網(wǎng)站、相關移動網(wǎng)絡數(shù)據(jù)平臺等瀏覽行為數(shù)據(jù)信息獲取、整合的關鍵層,其主要利用數(shù)據(jù)處理技術對獲取到的數(shù)據(jù)信息進行處理、分析、歸納、總結(jié)等操作,包括利用ETL工具實現(xiàn)用戶標簽值信息提取等操作,從而得到能夠用于后續(xù)用戶畫像技術處理流程的有效數(shù)據(jù)集合。在數(shù)據(jù)處理層處理數(shù)據(jù)信息時,需要著重考慮關于有效信息的映射、無效信息的剔除等一系列自動處理過程,獲得能夠用于用戶畫像模型的可用、有序、規(guī)范的數(shù)據(jù)集合。
(3)數(shù)據(jù)挖掘?qū)邮怯脩舢嬒衲P蜆?gòu)建過程中的核心,主要通過利用前三層處理得到的數(shù)據(jù)信息集合,結(jié)合用戶群體針對資源信息的搜索、利用、社會屬性等偏好以及資源信息基本特征、讀者用戶對資源信息的已有評價等數(shù)據(jù),基于已構(gòu)建完成的標簽模型庫,利用數(shù)據(jù)挖掘技術對目標用戶及目標用戶群體進行聚類、關聯(lián)分析,從而建立單個目標讀者用戶畫像庫及群體讀者畫像庫,完成讀者用戶畫像的構(gòu)建。隨后,針對建立的讀者用戶及群體讀者用戶畫像模型,分別將讀者用戶畫像庫及群體讀者畫像庫信息數(shù)據(jù)與讀者用戶及讀者用戶群體所需的資源、信息服務進行多層次、多角度、全方位數(shù)據(jù)分析匹配,獲取針對特定讀者用戶及特定讀者用戶群體的用戶畫像模型數(shù)據(jù)信息。
(4)數(shù)據(jù)展示層的主要作用是依據(jù)用戶的需求,將經(jīng)過前三個步驟獲取的標準化存儲數(shù)據(jù)信息以可視化方式呈現(xiàn)在教育資源交互平臺上(包括已有資源介紹、知識發(fā)現(xiàn)系統(tǒng)、知識搜索系統(tǒng)、資源查找路徑、針對讀者的個性化信息服務等具體內(nèi)容),進一步增強所需信息資源顯示的直觀性,方便用戶的查找,提高信息資源的利用率,為讀者用戶及讀者用戶群體提供科學、高效的信息服務。
西北工業(yè)大學數(shù)字圖書館于2000年開始建設數(shù)字圖書館信息資源共享網(wǎng)絡平臺,建設的內(nèi)容主要以校內(nèi)共享的知識檢索、知識獲取為主,為全校師生提供包括已有館藏資源、各類高校聯(lián)盟團體在內(nèi)的知識資源發(fā)現(xiàn)等相關信息資源的輔助性教學服務。本文以西北工業(yè)大學圖書館信息資源共享網(wǎng)絡平臺以及西北工業(yè)大學師生用戶群體為研究對象,依照構(gòu)建的用戶畫像模型,完成關于西北工業(yè)大學全校師生用戶行為數(shù)據(jù)信息的收集與分析工作。同時基于用戶畫像完成針對師生用戶數(shù)據(jù)信息的挖掘與處理工作,實現(xiàn)對師生用戶所需信息資源的推送服務等具體流程,完成用戶畫像在數(shù)字圖書館信息服務中的實踐研究。
構(gòu)建用戶畫像模型,首先需要確定用于用戶畫像模型構(gòu)建所需的數(shù)據(jù)信息,包括用戶的基本屬性、用戶興趣愛好及用戶互動數(shù)據(jù)等一系列數(shù)據(jù)信息。具體而言,用戶基本屬性為靜態(tài)信息,可以從用戶的校內(nèi)一卡通及學籍信息中獲??;用戶興趣愛好及用戶互動數(shù)據(jù)等屬于非靜態(tài)的信息,可以使用各類數(shù)據(jù)信息標記方式實現(xiàn)對動態(tài)變化信息的跟蹤與獲?。?5],其中高校數(shù)字圖書館信息服務用戶數(shù)據(jù)體系的組成情況如圖3所示。在滿足以上各種異構(gòu)數(shù)據(jù)信息具體存儲格式的基礎上,設立數(shù)據(jù)信息解析規(guī)則,構(gòu)建完成針對讀者用戶的靜態(tài)信息及動態(tài)信息的描述與聚類分析。
圖3 高校數(shù)字圖書館信息服務用戶數(shù)據(jù)體系
通過西北工業(yè)大學圖書館信息資源共享網(wǎng)絡平臺獲取用戶行為的靜態(tài)信息和動態(tài)信息為基礎數(shù)據(jù)集合,結(jié)合用戶的已有搜索信息和針對資源信息的下載量、瀏覽時間等多層面信息,依照具體的標簽提取規(guī)則,完成關于用戶的固定屬性、訪問環(huán)境、忠誠度和研究興趣等各類標簽體系屬性值的抽取及標注工作。隨后將已建立的目標用戶對于資源需求的標簽集合與已有資源數(shù)據(jù)集合進行匹配[14],并依次完成:對已有資源數(shù)據(jù)內(nèi)容的提取、歸納、分類;針對目標用戶信息的梳理、提煉、聚類形成處理后的標簽族,并聚合生成單個用戶所在的用戶群組標簽信息;通過標簽組的增刪功能完成對標簽體系的集中管理流程;將獲取的用戶標簽信息映射到相關的資源數(shù)據(jù)集合中[15](見圖4)。最后,為實現(xiàn)對數(shù)字圖書館用戶畫像的可視化管理,以Solr為代表的索引管理工具設計了索引的存儲規(guī)范,以下拉列表的形式實現(xiàn)對歷史搜索關鍵詞語的顯示與呈現(xiàn),為用戶及用戶群體提供科學、高效的信息服務。
圖4 基于用戶畫像技術的高校數(shù)字圖書館信息服務流程
基于用戶畫像的高校數(shù)字圖書館信息服務模型的實踐應用能夠精確描述用戶的各類屬性特征,將這些屬性特征進行標簽化處理后能夠科學、深層次地挖掘目標用戶對數(shù)據(jù)資源的需求信息,并可為數(shù)字圖書館電子資源的采購以及知識服務設計等個性化知識服務提供有力支持。但就目前用戶畫像技術在高校數(shù)字圖書館信息服務領域的發(fā)展現(xiàn)狀而言,仍面臨諸多難題與困難。如,提高有效信息資源的利用率及實現(xiàn)標簽實時標引等存在難題,仍需高校數(shù)字圖書館進一步針對存在的諸多挑戰(zhàn)進行深入研究,以切實提高用戶及用戶群組標簽信息轉(zhuǎn)化為有效信息的比例,并精準預測潛在用戶的行為趨勢,為高校數(shù)字圖書館信息服務的精準實現(xiàn)提供更有力的支持。