国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)字圖書館用戶畫像建模與應(yīng)用實(shí)踐*

2020-04-07 04:09:02張潔仲躋亮岳怡然寇遠(yuǎn)濤
數(shù)字圖書館論壇 2020年3期
關(guān)鍵詞:畫像標(biāo)簽數(shù)字

張潔 仲躋亮 岳怡然 寇遠(yuǎn)濤,3

用戶與服務(wù)

數(shù)字圖書館用戶畫像建模與應(yīng)用實(shí)踐*

張潔1仲躋亮1岳怡然2寇遠(yuǎn)濤1,3

(1. 中國農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所,北京 100081;2. 中國農(nóng)業(yè)科學(xué)院研究生院,北京 100081;3. 農(nóng)業(yè)農(nóng)村部大數(shù)據(jù)重點(diǎn)實(shí)驗(yàn)室,北京 100081)

本文將用戶畫像引入數(shù)字圖書館各項(xiàng)服務(wù)的用戶興趣模型構(gòu)建過程中,在對(duì)比國內(nèi)外用戶畫像概念基礎(chǔ)上引申出數(shù)字圖書館領(lǐng)域用戶畫像概念,通過國內(nèi)外圖書館用戶畫像研究現(xiàn)狀歸納出數(shù)字圖書館用戶畫像建設(shè)思路。從理論層面詳細(xì)闡述模型設(shè)計(jì)、數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘與標(biāo)簽映射3項(xiàng)關(guān)鍵步驟,之后遵循以上建設(shè)步驟以國家農(nóng)業(yè)圖書館知識(shí)服務(wù)用戶為研究對(duì)象開展用戶畫像建模及管理實(shí)踐,以期為后續(xù)的研究探索提供參考。

數(shù)字圖書館;用戶畫像;數(shù)據(jù)建模

Edwards等[1]通過研究發(fā)現(xiàn),1945年以后,科研產(chǎn)出量每九年可翻一番,此外計(jì)算機(jī)、通信、網(wǎng)絡(luò)及存儲(chǔ)技術(shù)的高速發(fā)展,催生了科研產(chǎn)出數(shù)字出版的新業(yè)態(tài)。數(shù)字圖書館容納的電子資源數(shù)量、類型和知識(shí)內(nèi)容空前增長。海量資源衍生出知識(shí)冗余及知識(shí)迷航問題,知識(shí)消費(fèi)者的獲得感低。新形勢(shì)下,通過對(duì)科研用戶精細(xì)刻畫,實(shí)現(xiàn)用戶需求與館藏資源的精準(zhǔn)匹配,優(yōu)化數(shù)字圖書館知識(shí)服務(wù)形式成為突出問題。用戶畫像作為數(shù)字化、虛擬化描述真實(shí)用戶的技術(shù)手段,可整合用戶資源,從動(dòng)態(tài)增長的用戶行為日志中挖掘用戶的場(chǎng)景域、資源域及服務(wù)域需求。將其應(yīng)用于數(shù)字圖書館領(lǐng)域用戶建模,一方面可充分釋放館藏資源價(jià)值,促進(jìn)圖書館各項(xiàng)服務(wù)增值;另一方面,可準(zhǔn)確把握用戶脈搏,提升圖書館智能化、個(gè)性化服務(wù)水平。同時(shí),近年來用戶畫像在電商、智慧出行等智能信息服務(wù)領(lǐng)域的成功應(yīng)用,也為數(shù)字圖書館領(lǐng)域提供了相對(duì)成熟的技術(shù)應(yīng)用經(jīng)驗(yàn)及成功案例[2]。

1 圖書館用戶畫像概述

1.1 概念界定

圖書館及信息學(xué)界對(duì)用戶畫像的概念界定目前尚不統(tǒng)一。用戶畫像這一概念最早源于交互設(shè)計(jì)/產(chǎn)品設(shè)計(jì)領(lǐng)域,交互設(shè)計(jì)之父Cooper[3]于2004年提出了用戶畫像概念,并指出用戶畫像是真實(shí)用戶的虛擬代表,是建立在真實(shí)數(shù)據(jù)之上的目標(biāo)用戶模型。陳慧香等[4]認(rèn)為用戶畫像是建立在一系列真實(shí)數(shù)據(jù)之前的描述用戶需求和偏好的目標(biāo)用戶模型,該模型可全方位、立體化地反映用戶特征。胡媛等[5]認(rèn)為數(shù)字圖書館將知識(shí)社區(qū)用戶信息抽象化并運(yùn)用聚類、關(guān)聯(lián)規(guī)則及分類等數(shù)據(jù)挖掘方法匯制所得的用戶可視化畫像即為用戶畫像。陳冬玲等[6]將用戶畫像稱為“user profile”,認(rèn)為其是用戶興趣的描述文件,是用戶個(gè)性化需求的體現(xiàn),是個(gè)性化搜索的基礎(chǔ)設(shè)施??傊?,由于總體設(shè)計(jì)思路及實(shí)現(xiàn)技術(shù)的不同,不同學(xué)者對(duì)用戶畫像的理解各有側(cè)重。

筆者引入互聯(lián)網(wǎng)用戶行為分析領(lǐng)域用戶畫像概念,擬通過用戶行為信息標(biāo)簽化以實(shí)現(xiàn)數(shù)字圖書館用戶畫像的構(gòu)建。筆者認(rèn)為數(shù)字圖書館用戶畫像主要指面向真實(shí)讀者用戶,以用戶的靜態(tài)屬性(人口統(tǒng)計(jì)特征、科研屬性特征、空間和地理特征等)和動(dòng)態(tài)屬性(訪問行為、資源檢索及獲取行為、學(xué)術(shù)社交行為、學(xué)術(shù)成果發(fā)表行為等)數(shù)據(jù)為基礎(chǔ),綜合應(yīng)用文本挖掘、機(jī)器學(xué)習(xí)等方法提煉出的具有顯著特征的用戶標(biāo)簽集合,該標(biāo)簽集合應(yīng)該是關(guān)聯(lián)、無歧義并且富含語義的。

1.2 國內(nèi)外研究現(xiàn)狀

以“圖書館用戶畫像”作為檢索詞搜索谷歌學(xué)術(shù)相關(guān)主題中文文獻(xiàn),得到800余條檢索結(jié)果,發(fā)文時(shí)間在2010年之后。以“l(fā)ibrary user profile”作為檢索詞搜索谷歌學(xué)術(shù)外文文獻(xiàn),檢索結(jié)果數(shù)達(dá)百萬余條,最早文獻(xiàn)發(fā)表時(shí)間可追溯至20世紀(jì)50年代。由此可見,國外相關(guān)研究起步較早,在理論及實(shí)踐探索層面已相對(duì)成熟和完善,國內(nèi)用戶畫像的研究在互聯(lián)網(wǎng)產(chǎn)業(yè)的帶動(dòng)下開始成為熱點(diǎn),目前國內(nèi)發(fā)文主要處于理論研究和前期探索階段,實(shí)踐層面研究成果相對(duì)較少。按照建模的數(shù)據(jù)對(duì)象來劃分,用戶畫像包含基于用戶行為及基于科研產(chǎn)出兩類方法。

基于用戶行為的畫像構(gòu)建方面,Leung等[7]通過搜集搜索引擎日志中的正向與反向反饋為目標(biāo)用戶畫像并完成聚類分析。國家圖書館在其大數(shù)據(jù)項(xiàng)目中通過匯總讀者的注冊(cè)、到館、搜索、借閱等系列行為數(shù)據(jù),搭建HadoopMap Reduce大數(shù)據(jù)管理與計(jì)算框架,構(gòu)建了包括三級(jí)標(biāo)簽的讀者畫像[8]。

基于科研產(chǎn)出的畫像構(gòu)建方面,美國加州圣瑪麗學(xué)院圖書館研究并設(shè)計(jì)了PlumX管理工具,該工具以學(xué)者興趣領(lǐng)域的科研產(chǎn)出為對(duì)象,構(gòu)建可視化學(xué)者畫像以響應(yīng)本??蒲泄芾響?zhàn)略[9]。Gu等[10]以學(xué)者的研究成果為分析對(duì)象,設(shè)計(jì)MagicFG算法,以出版成果數(shù)據(jù)為對(duì)象從中抽取學(xué)者基本信息,挖掘?qū)W者研究興趣,并構(gòu)建了Aminer研究者學(xué)術(shù)搜索網(wǎng)站。

綜上可知,基于用戶行為的建模方法受限于用戶行為數(shù)據(jù)的離散性;基于科研產(chǎn)出的建模方法則更聚焦于學(xué)術(shù)興趣,無法兼顧行為模式研究。筆者以國家農(nóng)業(yè)圖書館各項(xiàng)知識(shí)資源內(nèi)容及應(yīng)用服務(wù)用戶群體為研究對(duì)象,綜合使用基于用戶行為及興趣偏好的方法開展學(xué)術(shù)用戶的畫像建模,以期從行為模式、使用場(chǎng)景及學(xué)術(shù)興趣多維度刻畫目標(biāo)用戶。

2 數(shù)字圖書館用戶畫像建模

數(shù)字圖書館用戶畫像建模是指面向各類數(shù)字圖書館服務(wù)場(chǎng)景,抽象用戶描述標(biāo)簽體系,此外綜合使用多種渠道獲取可信用戶數(shù)據(jù)集,選取數(shù)據(jù)挖掘模型及算法實(shí)現(xiàn)標(biāo)簽抽取與映射,支撐對(duì)各類用戶的精準(zhǔn)描述與可視化呈現(xiàn)。整體技術(shù)路線如圖1所示,主要包括模型設(shè)計(jì)、數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘與標(biāo)簽映射3部分工作,用戶畫像可為開展畫像可視化、資源評(píng)價(jià)、個(gè)性化推薦及精準(zhǔn)推送等系列個(gè)性化服務(wù)提供支持。

2.1 用戶畫像模型設(shè)計(jì)

信息識(shí)別是用戶畫像構(gòu)建的重要內(nèi)容,其核心工作就是給用戶貼“標(biāo)簽”,標(biāo)簽通常是高度凝練的用戶特征標(biāo)識(shí),將所有的標(biāo)簽綜合起來,就可以勾勒出該用戶的畫像。

根據(jù)數(shù)字圖書館業(yè)務(wù)特點(diǎn),筆者將畫像標(biāo)簽分為固定屬性、訪問環(huán)境、忠誠度及研究興趣4類,共計(jì)16個(gè)維度,具體標(biāo)簽體系如表1所示。其中,固定屬性是對(duì)用戶基礎(chǔ)特征的描述,該類標(biāo)簽主要用于識(shí)別用戶身份,標(biāo)簽值可直接從用戶注冊(cè)信息或其成果署名信息中獲??;訪問環(huán)境類是對(duì)用戶訪問場(chǎng)景的描述,主要記錄時(shí)間、地點(diǎn)、硬件設(shè)備及軟件環(huán)境4個(gè)要素,這類標(biāo)簽一般需要以多值字段形式來描述;忠誠度類描述科研用戶對(duì)數(shù)字圖書館服務(wù)的黏性及認(rèn)可度,通過訪問頻率、訪問深度及距離上次訪問時(shí)間3個(gè)標(biāo)簽值來體現(xiàn);研究興趣類是數(shù)字圖書館與其他領(lǐng)域建模不同之處的體現(xiàn),該類標(biāo)簽描述用戶的學(xué)術(shù)屬性,從關(guān)注學(xué)科主題、資源類型、作者及機(jī)構(gòu)多維度表征用戶對(duì)科技知識(shí)資源的偏好。

2.2 用戶數(shù)據(jù)準(zhǔn)備

圍繞用戶畫像標(biāo)簽體系的設(shè)計(jì)框架,搜集圖書館自身業(yè)務(wù)系統(tǒng)、三方業(yè)務(wù)系統(tǒng)等多種渠道的可信數(shù)據(jù),以此數(shù)據(jù)集作為下一步數(shù)據(jù)標(biāo)簽與標(biāo)簽映射的對(duì)象語料。具體來說,用戶數(shù)據(jù)準(zhǔn)備主要包括數(shù)據(jù)獲取及入庫存儲(chǔ)兩部分工作。

用戶畫像基礎(chǔ)數(shù)據(jù)集由用戶靜態(tài)基本屬性、動(dòng)態(tài)行為數(shù)據(jù)和科研成果數(shù)據(jù)3部分組成,以上3類數(shù)據(jù)均以結(jié)構(gòu)化數(shù)據(jù)為主。其中,用戶靜態(tài)基本屬性主要包括用戶標(biāo)識(shí)、姓名、電子郵箱、性別和工作機(jī)構(gòu)等信息,這些信息相對(duì)較好采集,通常采用系統(tǒng)直接導(dǎo)入的方式。動(dòng)態(tài)行為數(shù)據(jù)主要包括用戶紙質(zhì)與電子資源的查找、檢索及借閱行為,項(xiàng)目立項(xiàng)的查新查引需求、學(xué)術(shù)社交網(wǎng)站的互動(dòng)行為等數(shù)據(jù),這類數(shù)據(jù)較為分散,主要通過鎖定信息來源后應(yīng)用網(wǎng)絡(luò)爬蟲和日志記錄技術(shù)進(jìn)行提取。其中用戶日志記錄的采集主要包括WEB日志、JavaScript標(biāo)記(代碼埋點(diǎn)方式)和包嗅探器3種方式。相比而言,JavaScript標(biāo)記方式收集數(shù)據(jù)靈活,可定制性強(qiáng);可以記錄緩存、代理服務(wù)器訪問;對(duì)訪問者行為追蹤更為準(zhǔn)確[11]??蒲谐晒麛?shù)據(jù)主要包括用戶作為科技創(chuàng)新主體的科研項(xiàng)目、論文、專利及獲獎(jiǎng)成果等各類成果描述信息,該類數(shù)據(jù)可從機(jī)構(gòu)知識(shí)庫及成果數(shù)據(jù)庫中對(duì)應(yīng)抽取。

對(duì)應(yīng)數(shù)據(jù)類型特點(diǎn)及標(biāo)簽描述需要,預(yù)先為上述3類信息設(shè)計(jì)元數(shù)據(jù)描述與存儲(chǔ)規(guī)范。圖2展示了包括以上3類數(shù)據(jù)的數(shù)據(jù)關(guān)聯(lián)描述模型[12],該模型設(shè)計(jì)了通用容器和用戶描述容器兩類數(shù)據(jù)描述集合,通用容器類主要包括管理通用、主題、學(xué)科、責(zé)任機(jī)構(gòu)、責(zé)任者5類公共描述元素,用戶描述容器類主要包括用戶基本屬性、用戶行為、用戶行為情景及用戶成果4類用戶描述元素。后者將在描述目標(biāo)對(duì)象時(shí)直接引用通用容器中各類描述元素。遵循上述各類元數(shù)據(jù)描述規(guī)范,綜合考慮數(shù)據(jù)管理工具的安全性及穩(wěn)定性,選取合適的數(shù)據(jù)庫管理工具并設(shè)計(jì)定時(shí)冷備份機(jī)制來完成原始數(shù)據(jù)從關(guān)系型數(shù)據(jù)庫到大數(shù)據(jù)存儲(chǔ)工具的備份。

2.3 數(shù)據(jù)挖掘與標(biāo)簽映射

數(shù)據(jù)挖掘與標(biāo)簽映射階段主要以用戶描述模型為依據(jù),設(shè)計(jì)標(biāo)簽挖掘計(jì)算模型及規(guī)則,從各類用戶數(shù)據(jù)集中對(duì)應(yīng)挖掘并抽取用戶標(biāo)簽值,設(shè)計(jì)標(biāo)簽管理流程,實(shí)現(xiàn)標(biāo)簽值提取、規(guī)范化、標(biāo)引及存儲(chǔ)等系列操作,并支持個(gè)性化服務(wù)對(duì)各類畫像標(biāo)簽的靈活調(diào)用。該管理流程主要包括標(biāo)簽值提取、自動(dòng)映射及標(biāo)準(zhǔn)化存儲(chǔ)3個(gè)關(guān)鍵步驟,見圖3。具體來說,標(biāo)簽抽取是指按照標(biāo)簽值是否直接可見將用戶描述標(biāo)簽分為兩類,遵循對(duì)應(yīng)數(shù)據(jù)模型并基于ETL工具實(shí)現(xiàn)標(biāo)簽值抽取。自動(dòng)映射是指完成標(biāo)簽值的去重、合并、消歧歸一等系列規(guī)范化處理并生成最終標(biāo)簽值,以實(shí)現(xiàn)自動(dòng)化批量標(biāo)引的過程。需要去重及合并處理的主要為訪問瀏覽器、設(shè)備、訪問時(shí)段、訪問地點(diǎn)等多值類標(biāo)簽;需要消歧歸一的主要為研究領(lǐng)域、興趣作者及興趣機(jī)構(gòu)等可能存在同義詞、中外文對(duì)照詞及別名等多值類標(biāo)簽。標(biāo)準(zhǔn)化存儲(chǔ)規(guī)范是為了兼顧單值標(biāo)簽與多值標(biāo)簽的存儲(chǔ)要求同時(shí)滿足前端多項(xiàng)個(gè)性化服務(wù)模式對(duì)畫像數(shù)據(jù)的靈活調(diào)用,設(shè)計(jì)了索引的存儲(chǔ)規(guī)范,并選擇以Solr、ES為代表的索引管理工具實(shí)現(xiàn)用戶畫像標(biāo)簽庫的索引構(gòu)建及調(diào)用響應(yīng)。

4類標(biāo)簽中,固定屬性類、訪問環(huán)境類及忠誠度類標(biāo)簽大都屬于顯性標(biāo)簽,隱性標(biāo)簽則主要包括跨渠道用戶標(biāo)識(shí)、研究興趣及興趣實(shí)體的標(biāo)簽值確定,下面詳細(xì)介紹以上3項(xiàng)隱性標(biāo)簽挖掘的實(shí)現(xiàn)思路。

(1)跨渠道用戶標(biāo)識(shí)打通。數(shù)字圖書館用戶在科技創(chuàng)新的全生命周期中會(huì)用到包括聯(lián)合檢索、參考咨詢、館際互借、查新查引及成果認(rèn)證等多個(gè)圖書館服務(wù)平臺(tái),此外,這些用戶也會(huì)使用包括Research Gate、LinkedIn等在內(nèi)的第三方學(xué)術(shù)社交平臺(tái)來跟蹤國內(nèi)外同行的最新研究和成果,因此用戶畫像的數(shù)據(jù)來源包括來自數(shù)字圖書館本地及第三方的多個(gè)平臺(tái),為實(shí)現(xiàn)對(duì)目標(biāo)用戶的數(shù)據(jù)化建模,需要集合多渠道用戶行為數(shù)據(jù),完成標(biāo)識(shí)間的打通串聯(lián),實(shí)現(xiàn)單用戶跨系統(tǒng)用戶行為的關(guān)聯(lián)。目前跨渠道用戶標(biāo)識(shí)打通主要基于id-mapping算法,以包括MAC(Media Access Control)、Android ID、IDFA、手機(jī)號(hào)碼及電子郵箱等終端訪問及信息標(biāo)識(shí)為關(guān)聯(lián)依據(jù),為不同訪問途徑下記錄下了不同ID?;贗D間的共現(xiàn)關(guān)系,該算法將不同ID進(jìn)行路徑鏈接,這些相連路徑則可被認(rèn)定為同一位用戶。

(2)研究領(lǐng)域識(shí)別。研究領(lǐng)域識(shí)別是指綜合行為模式及科研成果,識(shí)別圖書館用戶所關(guān)注的研究主題。因此,該過程可轉(zhuǎn)化為對(duì)用戶歷史互動(dòng)數(shù)據(jù)的文本集合進(jìn)行主題挖掘,其中歷史互動(dòng)數(shù)據(jù)包括檢索詞、借閱書目及文獻(xiàn)等。目前文本主題挖掘的實(shí)現(xiàn)方法按照是否需要先驗(yàn)知識(shí)可以分為文獻(xiàn)計(jì)量及概率主題模型兩類方法,前者以基于關(guān)鍵詞的詞頻分析方法和共詞分析方法為代表,后者以LDA、DMM、BTM、CTM等潛在主題信息挖掘方法為代表,此外隨著詞向量模型的應(yīng)用優(yōu)勢(shì),結(jié)合深度學(xué)習(xí)思想的概率主題模型也在近幾年嶄露頭角[13]。

(3)興趣實(shí)體識(shí)別。同領(lǐng)域?qū)<覍W(xué)者和專業(yè)機(jī)構(gòu)也是用戶在使用數(shù)字圖書館各項(xiàng)信息與知識(shí)服務(wù)過程中重點(diǎn)關(guān)注的命名實(shí)體類型。對(duì)于數(shù)字圖書館各項(xiàng)服務(wù)來說,用戶具有多角色屬性,一方面是各類科技信息資源的消費(fèi)者,另一方面作為專家學(xué)者也是各類科技信息資源的供應(yīng)者。故此,可以從用戶資源使用行為及成果發(fā)表行為兩類數(shù)據(jù)中識(shí)別用戶興趣專家及機(jī)構(gòu)標(biāo)識(shí)。用戶資源使用行為中,根據(jù)用戶資源檢索、查閱各類資源的描述文本,抽取責(zé)任作者、責(zé)任機(jī)構(gòu)等信息,根據(jù)不同操作行為的質(zhì)量權(quán)重,進(jìn)行加權(quán)求和。根據(jù)求和結(jié)果降序排列,抽取規(guī)定閾值數(shù)目的作者及機(jī)構(gòu)名單作為目標(biāo)用戶興趣專家及機(jī)構(gòu)標(biāo)簽值。用戶成果發(fā)表行為中,抽取目標(biāo)用戶的合作發(fā)文作者及機(jī)構(gòu)網(wǎng)絡(luò),將閾值范圍內(nèi)的合作專家及機(jī)構(gòu)補(bǔ)充作為該用戶的興趣作者和興趣機(jī)構(gòu)標(biāo)簽值。

3 國家農(nóng)業(yè)圖書館用戶畫像實(shí)踐探索

國家農(nóng)業(yè)圖書館研建了農(nóng)業(yè)科技信息資源共建共享平臺(tái),該平臺(tái)以整合知識(shí)檢索及獲取為核心,為農(nóng)業(yè)及相關(guān)學(xué)科的科研主體提供知識(shí)資源發(fā)現(xiàn)及多渠道全文供給。筆者以該系統(tǒng)及其用戶群體為對(duì)象,遵循第2章所述用戶畫像模型,完成用戶行為數(shù)據(jù)準(zhǔn)備工作,研發(fā)用戶畫像管理工具,該工具支持對(duì)用戶畫像的可視化展示及標(biāo)簽化維護(hù)。

3.1 用戶數(shù)據(jù)準(zhǔn)備

通過對(duì)系統(tǒng)用戶使用邏輯的分析梳理,筆者確定了該系統(tǒng)用戶畫像所需的基礎(chǔ)數(shù)據(jù)體系,主要包括用戶基本屬性、科研屬性、訪問行為、知識(shí)資源檢索行為、知識(shí)資源獲取行為及知識(shí)資源瀏覽行為6類信息,具體記錄字段如圖4所示。其中,右側(cè)2類屬于靜態(tài)信息,可直接從用戶注冊(cè)信息表中獲得;左側(cè)4類屬于動(dòng)態(tài)信息,使用JavaScript標(biāo)記方式實(shí)現(xiàn)對(duì)4類動(dòng)態(tài)信息的記錄及實(shí)時(shí)入庫。

適應(yīng)上述各類數(shù)據(jù)的來源及數(shù)據(jù)規(guī)范,設(shè)計(jì)數(shù)據(jù)實(shí)時(shí)傳輸、解析及入庫規(guī)則,以結(jié)構(gòu)化形式存儲(chǔ)在數(shù)據(jù)表中,構(gòu)建完成的用戶行為數(shù)據(jù)集主要包括用戶屬性表、訪問場(chǎng)景表、關(guān)鍵行為表,其中關(guān)鍵行為表又包含資源檢索、資源瀏覽及資源獲取3類子表。以資源檢索為例,圖5展示了資源檢索行為中檢索時(shí)間、檢索詞及資源類型等關(guān)鍵字段的記錄代碼及已記錄數(shù)據(jù)示例。

3.2 畫像管理實(shí)踐

以農(nóng)業(yè)科技信息資源共建共享平臺(tái)用戶行為數(shù)據(jù)集為基礎(chǔ)語料,對(duì)應(yīng)固定屬性、訪問環(huán)境、忠誠度和研究興趣4類標(biāo)簽體系,完成對(duì)應(yīng)屬性值抽取及標(biāo)注。為實(shí)現(xiàn)對(duì)數(shù)字圖書館用戶畫像的可視化及標(biāo)簽體系管理,筆者構(gòu)建了用戶畫像管理工具,該工具為數(shù)字圖書館的用戶運(yùn)營管理提供綜合看板、標(biāo)簽管理及用戶畫像呈現(xiàn)等系列功能。

綜合看板以雷達(dá)圖標(biāo)形式集中展示所有用戶的農(nóng)業(yè)知識(shí)服務(wù)訪問情況,并支持從PV、UV、搜索量、停留時(shí)間、下載量、注冊(cè)時(shí)間等多個(gè)維度自定義排序篩選用戶訪問情況,頁面示例如圖6。

標(biāo)簽管理是通過標(biāo)簽組定義、標(biāo)簽增刪改等功能提供對(duì)用戶畫像標(biāo)簽體系的維護(hù)及集中式管理。使用該管理功能,按照標(biāo)簽組添加、標(biāo)簽名添加、標(biāo)簽值管理的流程,實(shí)現(xiàn)農(nóng)業(yè)科技信息資源共建共享平臺(tái)用戶的畫像標(biāo)簽體系自定義維護(hù)與管理。

用戶畫像呈現(xiàn)是基于數(shù)據(jù)建模及可視化技術(shù),實(shí)現(xiàn)對(duì)包括用戶基本情況、綜合訪問表現(xiàn)、用戶標(biāo)簽及歷史搜索關(guān)鍵詞的整合顯示,以真實(shí)用戶為例,使用畫像管理工具對(duì)其畫像數(shù)據(jù)進(jìn)行可視化展示,頁面效果見圖7。

4 結(jié)語

用戶畫像為數(shù)字圖書館科研用戶的數(shù)字化建模提供了有效解決途徑,可有力支持?jǐn)?shù)字圖書館各項(xiàng)知識(shí)資源的采購、編目及組織工作從粗放型運(yùn)營逐漸過渡到精細(xì)化運(yùn)營,并在此基礎(chǔ)上為包括信息過濾、知識(shí)服務(wù)設(shè)計(jì)等系列個(gè)性化知識(shí)服務(wù)模式提供基礎(chǔ)數(shù)據(jù)及決策支撐。

國家農(nóng)業(yè)圖書館引入用戶畫像思想,結(jié)合業(yè)務(wù)需求構(gòu)建了用戶畫像理論模型,基于已有用戶基礎(chǔ)初步實(shí)踐了用戶標(biāo)簽化建模,構(gòu)建了用戶畫像管理工具,支持對(duì)標(biāo)簽體系的維護(hù)及畫像的可視化呈現(xiàn),為數(shù)字圖書館用戶精細(xì)化管理提供抓手。然而標(biāo)簽批量標(biāo)引及隱性標(biāo)簽挖掘?qū)崿F(xiàn)等方面的研究相對(duì)薄弱,下一步應(yīng)針對(duì)性地開展相應(yīng)工作,一方面提升用戶描述標(biāo)簽的準(zhǔn)確性,另一方面提升用戶畫像管理工具的易用性。

[1] EDWARDS M A,ROY S. Academic research in the 21st century:Maintaining scientific integrity in a climate of perverse incentives and hypercompetition[J]. Environmental engineering science,2017,34(1):51-61.

[2] 張銳. 基于動(dòng)態(tài)精準(zhǔn)畫像的圖書館個(gè)性化推薦服務(wù)研究[J]. 情報(bào)探索,2019,256(2):102-105.

[3] COOPER A. The Inmates are Running the Asylum:Why High-Tech Products Drive Us Crazy and How to Restore the Sanity[M].Indianapolis:Sams Publishing,2004.

[4] 陳慧香,邵波. 國外圖書館領(lǐng)域用戶畫像的研究現(xiàn)狀及啟示[J]. 圖書館學(xué)研究,2017(20):16-20.

[5] 胡媛,毛寧. 基于用戶畫像的數(shù)字圖書館知識(shí)社區(qū)用戶模型構(gòu)建[J]. 圖書館理論與實(shí)踐,2017(4):82-85.

[6] 陳冬玲,王大玲,于戈. 支持個(gè)性化檢索的User Profile研究綜述[J]. 小型微型計(jì)算機(jī)系統(tǒng),2008,29(10):1903-1907.

[7] LEUNG K W,LEE D L. Deriving concept-based user profiles from search engine logs[J]. IEEE Transactions on Knowledge and Data Engineering,2010,22(7):969-982.

[8] 楊帆. 畫像分析為基礎(chǔ)的圖書館大數(shù)據(jù)實(shí)踐——以國家圖書館大數(shù)據(jù)項(xiàng)目為例[J]. 圖書館論壇,2019,39(2):58-64.

[9] WONG E Y,VITAL S M. PLUMX:a tool to showcase academic profile and distinction[J]. Oclc Systems & Services,2017,33(4):305-313.

[10] GU X T,YANG H,TANG J,et al. Profiling web users using big data[J]. Social Network Analysis and Mining,2018,8(1):24.

[11] zolalad. 網(wǎng)站分析數(shù)據(jù)(即用戶行為數(shù)據(jù))的三種收集方式詳解[EB/OL].[2019-07-15]. https://blog.csdn.net/zolalad/article/details/37809165.

[12] 趙瑞雪,鮮國建,羅婷婷,等. 中國工程科技知識(shí)中心元數(shù)據(jù)規(guī)范(Ⅰ)[M]. 北京:中國農(nóng)業(yè)科學(xué)技術(shù)出版社,2017:16.

[13] 黃佳佳,李鵬偉,彭敏,等. 基于深度學(xué)習(xí)的主題模型研究[J/OL]. 計(jì)算機(jī)學(xué)報(bào):1-30[2019-11-29]. http://kns.cnki.net/kcms/detail/11.1826.TP.20191030.1633.004.html.

Digital Library User Profile Modeling and Application

ZHANG Jie1ZHONG JiLiang1YUE YiRan2KOU YuanTao1,3

( 1. Agricultural Information Institute of Chinese Academy of Agricultural Sciences, Beijing 100081, China; 2. Graduate School of Chinese Academy of Agricultural Sciences, Beijing 100081, China; 3. Key Laboratory of Big Agri-data of Ministry of Agriculture and Rural Areas, Beijing 100081, China )

This paper introduces user profile into the digital library user interests modeling. Based on the comparison of domestic and foreign user profile concepts, it gives out the concept of user porfile in the field of digital library. Through the analysis of application status at home and abroad, it summarizes construction route of digital library user profile. The three key steps of model design, data preparation, data mining and label mapping are elaborated theoretically. Then taking the National Agricultural Library knowledge service user as an example, this paper carries out profile modeling and management practices in order to provide reference ideas for subsequent research and exploration.

Digital Library; User Profile; Data Modeling

G252

10.3772/j.issn.1673-2286.2020.03.007

(2020-03-13)

*本研究得到中國農(nóng)業(yè)科學(xué)院科技創(chuàng)新工程項(xiàng)目(編號(hào):CAAS-ASTIP-2016-AII)、中國工程科技知識(shí)中心建設(shè)子項(xiàng)目(編號(hào):CKCEST-2019-1-1)和中國農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所基本科研業(yè)務(wù)費(fèi)青年探索項(xiàng)目(編號(hào):JBYW-AII-2019-21)資助。

張潔,女,1991年生,碩士,館員,并列第一作者,研究方向:數(shù)字圖書館構(gòu)建關(guān)鍵技術(shù)研究。

仲躋亮,男,1980年生,碩士,助理研究員,并列第一作者,研究方向:信息系統(tǒng)和數(shù)字圖書館關(guān)鍵技術(shù)研究。

岳怡然,女,1996年生,碩士研究生,研究方向:用戶畫像體系及其應(yīng)用場(chǎng)景構(gòu)建研究。

通信作者,研究方向:信息系統(tǒng)和數(shù)字圖書館關(guān)鍵技術(shù)研究,E-mail:kouyuantao@caas.cn。

猜你喜歡
畫像標(biāo)簽數(shù)字
威猛的畫像
“00后”畫像
畫像
無懼標(biāo)簽 Alfa Romeo Giulia 200HP
車迷(2018年11期)2018-08-30 03:20:32
不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
海峽姐妹(2018年3期)2018-05-09 08:21:02
答數(shù)字
數(shù)字看G20
標(biāo)簽化傷害了誰
基于多進(jìn)制查詢樹的多標(biāo)簽識(shí)別方法
成雙成對(duì)
安泽县| 巫溪县| 涟源市| 梓潼县| 兰考县| 阿图什市| 简阳市| 乌审旗| 红河县| 襄垣县| 寿阳县| 许昌县| 宝鸡市| 贵南县| 甘谷县| 乌鲁木齐市| 长子县| 赤峰市| 南安市| 睢宁县| 和硕县| 彭阳县| 宜兰县| 永顺县| 枣庄市| 藁城市| 东安县| 馆陶县| 河南省| 兴义市| 曲麻莱县| 霍州市| 保康县| 阿克苏市| 诸城市| 孝感市| 许昌县| 翁源县| 淮滨县| 岳西县| 保德县|