国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

多源數(shù)據(jù)融合視角下的閱讀推廣用戶畫(huà)像構(gòu)建研究

2021-02-24 05:18:08朱東妹安徽師范大學(xué)圖書(shū)館
圖書(shū)館理論與實(shí)踐 2021年6期
關(guān)鍵詞:主題詞分詞畫(huà)像

朱東妹(安徽師范大學(xué)圖書(shū)館)

隨著云計(jì)算、大數(shù)據(jù)及移動(dòng)互聯(lián)網(wǎng)等技術(shù)在圖書(shū)館的應(yīng)用,圖書(shū)館能夠捕捉讀者全過(guò)程、全范圍的閱讀行為數(shù)據(jù)。但是多年來(lái)分散引進(jìn)或開(kāi)發(fā)的圖書(shū)館各應(yīng)用系統(tǒng),由于沒(méi)有統(tǒng)一的數(shù)據(jù)接口、標(biāo)準(zhǔn)和規(guī)范,導(dǎo)致原始數(shù)據(jù)是異構(gòu)的、復(fù)雜的、不完善的。多源數(shù)據(jù)融合方法為解決新時(shí)代圖書(shū)館大數(shù)據(jù)的集成共享提供了一種新的解決思路,并為在此基礎(chǔ)上構(gòu)建閱讀推廣用戶畫(huà)像模型提供了可行的實(shí)踐視角。用戶畫(huà)像作為大數(shù)據(jù)環(huán)境下的用戶描述工具,在用戶描述與建模上具有優(yōu)勢(shì),在此基礎(chǔ)上構(gòu)建針對(duì)讀者個(gè)人、讀者群體的閱讀行為及需求偏好的讀者畫(huà)像及圖書(shū)館所提供資源的資源畫(huà)像,從而實(shí)現(xiàn)精準(zhǔn)閱讀推廣的目的。

1 相關(guān)研究

1.1 數(shù)據(jù)融合

數(shù)據(jù)融合是處理異構(gòu)的、復(fù)雜的及不完善的原始數(shù)據(jù)以獲取可靠、有價(jià)值和準(zhǔn)確信息的一種廣泛應(yīng)用的方法[1]。國(guó)內(nèi)外學(xué)者在數(shù)據(jù)融合方面進(jìn)行了有效的探索,并取得了一定的研究進(jìn)展。目前各種數(shù)據(jù)融合方法在不同的領(lǐng)域進(jìn)行應(yīng)用,如應(yīng)用于軍事中的目標(biāo)識(shí)別、醫(yī)療中的醫(yī)療診斷以及工業(yè)工程中的復(fù)雜機(jī)械監(jiān)控等[2]。數(shù)據(jù)融合技術(shù)方面,常用的有多數(shù)據(jù)庫(kù)融合方法、中間件融合方法、基于本體的方法、數(shù)據(jù)倉(cāng)庫(kù)融合方法及基于機(jī)器學(xué)習(xí)的數(shù)據(jù)融合方法等。

1.2 用戶畫(huà)像

用戶畫(huà)像被定義為一組屬性(獨(dú)立的或不獨(dú)立的),用來(lái)描述一個(gè)用戶并將其與其他用戶區(qū)分開(kāi)來(lái)[3]。其研究的數(shù)據(jù)主要來(lái)自網(wǎng)頁(yè)訪問(wèn)日志、搜索引擎日志、交易記錄歷史、商業(yè)公司日志及用戶反饋數(shù)據(jù)等,在過(guò)去十多年間已被深入研究并廣泛應(yīng)用于各個(gè)領(lǐng)域。國(guó)外學(xué)者已涉足用戶畫(huà)像在閱讀方面的實(shí)踐應(yīng)用研究,其研究方法大體概括為以下三種。①訪談法。Mohammad KAl等對(duì)26位人文學(xué)者進(jìn)行訪談研究,構(gòu)建出人文學(xué)者的網(wǎng)絡(luò)信息搜尋行為模式用戶畫(huà)像[4]。②實(shí)驗(yàn)測(cè)試法。如,Josefine K等對(duì)9—11歲兒童在閱讀敘事文和說(shuō)明文兩種不同文體時(shí)的閱讀行為特征進(jìn)行研究,總結(jié)得出字面讀者、復(fù)述讀者、闡述讀者三類(lèi)讀者特征畫(huà)像[5]。③問(wèn)卷調(diào)查法。Amelie R等以15歲中學(xué)生為研究對(duì)象,結(jié)合問(wèn)卷調(diào)查的方法,從學(xué)生的性別、教育經(jīng)歷、社會(huì)經(jīng)濟(jì)地位和語(yǔ)言背景等變量研究閱讀樂(lè)趣度和閱讀理解能力之間的特征畫(huà)像[6]。④基于機(jī)器學(xué)習(xí)算法的畫(huà)像方法。如,Daniel LD等運(yùn)用機(jī)器學(xué)習(xí)算法中的層次聚類(lèi)算法、貝葉斯聚類(lèi)算法構(gòu)建三、五年級(jí)學(xué)生閱讀畫(huà)像,并對(duì)兩種方法聚類(lèi)結(jié)果進(jìn)行比較,從而發(fā)現(xiàn)讀者的閱讀表現(xiàn)及讀者行為的差異[7]。

國(guó)內(nèi)學(xué)者對(duì)用戶畫(huà)像在圖書(shū)館閱讀推廣工作方面也進(jìn)行了研究。如,陳臣等建立了基于小數(shù)據(jù)的讀者閱讀畫(huà)像的個(gè)體標(biāo)簽體系,并對(duì)讀者畫(huà)像的流程進(jìn)行了研究[8]。王順箐對(duì)智慧型個(gè)性化閱讀推薦系統(tǒng)的構(gòu)建提出以讀者需求分析為核心模塊,同時(shí)在數(shù)據(jù)采集的基礎(chǔ)上構(gòu)建用戶畫(huà)像[9];何娟利用圖書(shū)館讀者借閱數(shù)據(jù),通過(guò)構(gòu)建讀者個(gè)人與群體用戶畫(huà)像,實(shí)現(xiàn)圖書(shū)個(gè)性化推薦[10];都藍(lán)將用戶畫(huà)像技術(shù)應(yīng)用到高校圖書(shū)館年度閱讀報(bào)告中,便于了解讀者閱讀傾向,開(kāi)展精準(zhǔn)化閱讀推廣服務(wù)[11]。

綜上可知,數(shù)據(jù)融合技術(shù)已在不同領(lǐng)域被廣泛研究,而數(shù)據(jù)融合是構(gòu)建讀者閱讀畫(huà)像的基礎(chǔ),這為圖書(shū)館進(jìn)行讀者閱讀行為數(shù)據(jù)集成提供了技術(shù)參考。關(guān)于用戶畫(huà)像技術(shù)在圖書(shū)館領(lǐng)域的研究,國(guó)外針對(duì)不同類(lèi)別讀者閱讀行為、搜索行為等方面已有相關(guān)研究成果,我國(guó)近年來(lái)也有一定的理論研究,然而在應(yīng)用畫(huà)像技術(shù)開(kāi)展精準(zhǔn)的閱讀推廣工作方面的實(shí)證研究還比較缺乏。閱讀推廣精準(zhǔn)化可以有效降低成本,幫助圖書(shū)館更好地滿足讀者個(gè)性化需求,贏得更多的讀者,提升閱讀推廣效果。

2 研究設(shè)計(jì)

2.1 總體框架

文章從讀者和資源兩個(gè)維度構(gòu)建畫(huà)像模型。讀者維度包括讀者的人口屬性、行為屬性及習(xí)慣偏好等;資源維度包括圖書(shū)和文章的關(guān)鍵詞、主題詞,以及資源被利用情況?;陉P(guān)系型數(shù)據(jù)庫(kù)和大數(shù)據(jù)分析平臺(tái),構(gòu)建的圖書(shū)館讀者精準(zhǔn)閱讀畫(huà)像系統(tǒng)總體框架包括底層數(shù)據(jù)源集成融合、畫(huà)像標(biāo)簽建設(shè)、畫(huà)像模型構(gòu)建及畫(huà)像模型應(yīng)用四個(gè)層級(jí)。

2.2 異構(gòu)數(shù)據(jù)源

圖書(shū)館讀者閱讀行為數(shù)據(jù)主要來(lái)源于兩方面:各業(yè)務(wù)系統(tǒng)結(jié)構(gòu)化數(shù)據(jù)和Web端的非結(jié)構(gòu)化數(shù)據(jù)。各業(yè)務(wù)系統(tǒng)主要包括圖書(shū)管理系統(tǒng)、門(mén)禁系統(tǒng)、座位管理系統(tǒng)及電子閱覽室管理系統(tǒng)等業(yè)務(wù)系統(tǒng),其數(shù)據(jù)一般存于關(guān)系數(shù)據(jù)庫(kù)中。這些系統(tǒng)由于是不同企業(yè)開(kāi)發(fā),數(shù)據(jù)保存在Oracle、SQL Server及MySQL等不同的關(guān)系型數(shù)據(jù)庫(kù)中。

Web端的非結(jié)構(gòu)化數(shù)據(jù)主要包括圖書(shū)館門(mén)戶網(wǎng)站、數(shù)字資源網(wǎng)站以及圖書(shū)館各應(yīng)用App數(shù)據(jù)等,這些線上平臺(tái)有讀者的搜索、瀏覽及下載等行為信息,還有讀者的終端機(jī)型、操作系統(tǒng)、網(wǎng)絡(luò)類(lèi)型及IP地址等基本信息,由系統(tǒng)前臺(tái)獲取發(fā)送給后臺(tái)Web服務(wù)器記錄下來(lái)。由于Web應(yīng)用由不同企業(yè)及數(shù)據(jù)商提供,日志產(chǎn)生的來(lái)源較分散,存儲(chǔ)的目的地也很不一致,有文件、文件夾及Socket數(shù)據(jù)包等各種形式源數(shù)據(jù)。

2.3 多源異構(gòu)數(shù)據(jù)集成

由于業(yè)務(wù)系統(tǒng)數(shù)據(jù)和Web端數(shù)據(jù),在數(shù)據(jù)類(lèi)型、數(shù)據(jù)存儲(chǔ)格式及數(shù)據(jù)獲取方法方面存在較大差異,因此需要對(duì)多源異構(gòu)數(shù)據(jù)進(jìn)行集成。其中Web端日志生成階段需要根據(jù)用戶畫(huà)像主題事先設(shè)計(jì)埋點(diǎn)參數(shù),統(tǒng)計(jì)用戶的關(guān)鍵行為。數(shù)據(jù)埋點(diǎn)方式有自己搭建相應(yīng)數(shù)據(jù)體系或集成第三方SDK等,埋點(diǎn)數(shù)據(jù)是構(gòu)建讀者畫(huà)像的基礎(chǔ),數(shù)據(jù)統(tǒng)計(jì)和模型訓(xùn)練都基于埋點(diǎn)數(shù)據(jù),需保證埋點(diǎn)數(shù)據(jù)的正確無(wú)誤。同時(shí)為了分布式處理、避免直接連接操作業(yè)務(wù)數(shù)據(jù),需要將各終端的數(shù)據(jù)同步到統(tǒng)一數(shù)據(jù)分析平臺(tái)。結(jié)合本研究實(shí)際分布式統(tǒng)一數(shù)據(jù)平臺(tái)采用Hadoop[12]的MapReduce架構(gòu),分別利用其架構(gòu)上的Hive分布式數(shù)據(jù)倉(cāng)庫(kù)進(jìn)行離線畫(huà)像的數(shù)據(jù)處理與分析,Hbase分布式數(shù)據(jù)庫(kù)進(jìn)行實(shí)時(shí)畫(huà)像的分析與查詢(xún)[13]。

針對(duì)不同結(jié)構(gòu)的數(shù)據(jù),采用不同的工具進(jìn)行數(shù)據(jù)集成。在對(duì)結(jié)構(gòu)化的數(shù)據(jù)集成中采用開(kāi)源工具Sqoop[14]進(jìn)行數(shù)據(jù)抽取、清洗及數(shù)據(jù)同步,在非結(jié)構(gòu)化的數(shù)據(jù)集成中采用Flume[15]將業(yè)務(wù)數(shù)據(jù)服務(wù)器中埋點(diǎn)日志收集到統(tǒng)一分析平臺(tái)中。

2.4 標(biāo)簽體系構(gòu)建

畫(huà)像的標(biāo)簽?zāi)軌驅(qū)⑷嘶蛭镞M(jìn)行全方位“數(shù)據(jù)化”描述,從而使每個(gè)人或物變得更加立體且獨(dú)一無(wú)二。

2.4.1 讀者畫(huà)像標(biāo)簽體系

(1)相關(guān)理論。①RFM理論。RFM理論起初主要用于直效營(yíng)銷(xiāo)(Direct Marketing)領(lǐng)域,是衡量客戶價(jià)值和客戶創(chuàng)利能力的重要工具和手段[16],其包含三個(gè)指標(biāo):最近一次消費(fèi)(Recency),消費(fèi)頻率(Frequency)及消費(fèi)金額(Monetary)。②MECE原則。MECE(Mutually Exclusive Collectively Exhaustive)原則,其意為相互獨(dú)立,完全窮盡。拆解分類(lèi)必須不重復(fù)、不遺漏,使用該方法后,各個(gè)觀點(diǎn)將不會(huì)相互重疊、抵觸,對(duì)問(wèn)題的檢視也不至于有疏漏[17]。

(2)構(gòu)建標(biāo)簽。從給用戶構(gòu)建標(biāo)簽的方式來(lái)看,一般分為四種類(lèi)型:事實(shí)類(lèi)標(biāo)簽、統(tǒng)計(jì)類(lèi)標(biāo)簽、規(guī)則類(lèi)標(biāo)簽及模型類(lèi)標(biāo)簽。事實(shí)類(lèi)標(biāo)簽,該類(lèi)型標(biāo)簽是既定事實(shí),是從原始數(shù)據(jù)中獲知或提取,如讀者性別、年齡等;統(tǒng)計(jì)類(lèi)標(biāo)簽,該類(lèi)型標(biāo)簽需要統(tǒng)計(jì)計(jì)算(計(jì)數(shù)、求和等)得到,如基于RFM模型的最近一次借閱圖書(shū)距離今天天數(shù)、最近30天訪問(wèn)圖書(shū)館次數(shù)以及最近30天搜索(瀏覽、下載)文章總數(shù)等;規(guī)則類(lèi)標(biāo)簽,基于讀者行為及確定的規(guī)則產(chǎn)生,需要工作人員結(jié)合圖書(shū)館業(yè)務(wù)確定高頻活躍時(shí)間段、高借閱人群、高下載人群、高登錄人群、長(zhǎng)時(shí)間瀏覽人群及資源最受歡迎等;模型類(lèi)標(biāo)簽,該類(lèi)型標(biāo)簽在原始數(shù)據(jù)中沒(méi)有,需要建立模型或進(jìn)行機(jī)器學(xué)習(xí)并結(jié)合業(yè)務(wù)類(lèi)型計(jì)算讀者相應(yīng)屬性匹配度,對(duì)讀者的行為及需求進(jìn)行預(yù)測(cè),如預(yù)測(cè)讀者閱讀內(nèi)容主題詞、閱讀習(xí)慣偏好及潛在需求等。梳理標(biāo)簽分類(lèi)時(shí),盡可能相互獨(dú)立且完全窮盡,每一層下級(jí)標(biāo)簽的組合都能覆蓋到上一層級(jí)標(biāo)簽的所有數(shù)據(jù)。

2.4.2 資源畫(huà)像標(biāo)簽體系

圖書(shū)、文章是閱讀推廣的基礎(chǔ)資源,讀者對(duì)圖書(shū)的借閱,對(duì)文章的搜索、瀏覽及下載均代表了讀者對(duì)這本圖書(shū)或這篇文章內(nèi)容的喜好程度。因此根據(jù)圖書(shū)、文章的自身屬性及讀者相對(duì)圖書(shū)、文章的行為制定一系列標(biāo)簽,包括:基于圖書(shū)及文章自身屬性的資源類(lèi)型、分類(lèi)、題名、摘要/內(nèi)容及入檔日期等事實(shí)類(lèi)標(biāo)簽;有基于讀者行為的圖書(shū)借閱、文章搜索、瀏覽及下載等行為事實(shí)類(lèi)標(biāo)簽;以及基于模型計(jì)算提取的圖書(shū)與文章關(guān)鍵詞、主題詞等模型類(lèi)標(biāo)簽。

2.5 畫(huà)像計(jì)算

設(shè)計(jì)好標(biāo)簽體系后,進(jìn)入標(biāo)簽開(kāi)發(fā)環(huán)節(jié),即進(jìn)行畫(huà)像計(jì)算。具體步驟是首先要在存放標(biāo)簽的存儲(chǔ)庫(kù)中建立存放標(biāo)簽的寬表,建立表的過(guò)程中,可以多建立幾個(gè)預(yù)留字段用于存放中間計(jì)算結(jié)果,其次就是存儲(chǔ)各類(lèi)經(jīng)過(guò)計(jì)算的標(biāo)簽值。

2.5.1 資源畫(huà)像主題詞標(biāo)簽計(jì)算

(1)相關(guān)理論。Jieba中文分詞。Jieba中文分詞是目前主流的中文分詞工具,該分詞詞庫(kù)提供了常用詞組以及詞組出現(xiàn)的頻率和詞性。詞庫(kù)支持四種分詞模式:精確模式、全模式、搜索引擎模式以及Paddle模式。Jieba中文分詞提供TF-IDF、TextRank兩種算法從文本中提取關(guān)鍵詞[18]。①TF-IDF算法。TF-IDF(Term Frequency-Inverse Document Frequency)是由Salton在1988年提出的,主要是指一個(gè)詞語(yǔ)在一篇文章中出現(xiàn)次數(shù)越多,即TF(詞頻)高,同時(shí)在所有文檔中出現(xiàn)次數(shù)越少,即IDF(逆文本頻度)越大,越能夠代表該文章[19]。TF-IDF算法是以TF和IDF的乘積作為取值測(cè)度,TF-IDF值越大,則這個(gè)詞成為一個(gè)關(guān)鍵詞的概率就越大。②TextRank算法。TextRank算法其基本思想來(lái)源于谷歌的PageRank算法,是一種用于文本的基于圖的排序算法。通過(guò)把文本分割成若干組單詞或句子并建立加權(quán)文本圖模型[20],利用局部詞匯之間關(guān)系(共現(xiàn)窗口,默認(rèn)為5)對(duì)后續(xù)關(guān)鍵詞進(jìn)行排序后直接從文本抽取。

(2)主題詞標(biāo)簽計(jì)算。由于相同題名的書(shū)或者相同題名的文章并非只代表是同一本書(shū)或同一篇文章,因此圖書(shū)、文章分別結(jié)合圖書(shū)的摘要、文章的內(nèi)容,將每種圖書(shū)以“題名+摘要+分類(lèi)名稱(chēng)”三列合并一列、每篇文章以“題名+文章內(nèi)容+分類(lèi)名稱(chēng)”三列合并一列,構(gòu)建新字段內(nèi)容,用于計(jì)算圖書(shū)與文章的主題詞標(biāo)簽。該類(lèi)型標(biāo)簽計(jì)算分兩步進(jìn)行。①分詞處理。分詞就是將文本中每個(gè)連續(xù)的字序列按照一定的規(guī)范重新組合成詞序列的過(guò)程。通過(guò)分詞我們可以得到讀者利用過(guò)的圖書(shū)和文章的龐大詞庫(kù)。如對(duì)題名為“中國(guó)繪畫(huà)美學(xué)史”圖書(shū),進(jìn)行“題名+摘要+分類(lèi)名稱(chēng)”三列合并后,用Jieba中文分詞中全模式進(jìn)行分詞(見(jiàn)表1)。分詞處理時(shí)句子中出現(xiàn)的詞語(yǔ)都會(huì)被切分,而有些副詞、連詞、介詞、數(shù)字及標(biāo)點(diǎn)符號(hào)等,是沒(méi)有實(shí)際意思的,如結(jié)果中的“/的/,/對(duì)/,/等/,/與/,/和/”等但由于對(duì)后續(xù)的關(guān)鍵詞提取且可能提取的關(guān)鍵詞是無(wú)效的,所以在分詞處理以后,需用停用詞文本庫(kù)對(duì)分詞后的詞語(yǔ)進(jìn)行過(guò)濾,去掉停用詞,才能使后面取得的關(guān)鍵詞更加具有意義。②主題詞計(jì)算。停用詞過(guò)濾后,對(duì)分詞結(jié)果進(jìn)一步基于語(yǔ)料庫(kù)分別進(jìn)行TF-IDF、TextRank權(quán)重計(jì)算,篩選出權(quán)重最高的20個(gè)詞作為關(guān)鍵詞,將TF-IDF與TextRank進(jìn)行乘積運(yùn)算,最后對(duì)權(quán)重值排序,將共現(xiàn)的詞作為主題詞。計(jì)算結(jié)果見(jiàn)圖1。

表1 Jieba中文分詞全模式分詞結(jié)果

圖1 主題詞計(jì)算結(jié)果

2.5.2 讀者畫(huà)像標(biāo)簽計(jì)算

讀者畫(huà)像標(biāo)簽內(nèi)容比較豐富,下面分別以統(tǒng)計(jì)類(lèi)標(biāo)簽中基于RFM模型構(gòu)建的標(biāo)簽、模型類(lèi)標(biāo)簽中讀者利用資源的內(nèi)容標(biāo)簽為例進(jìn)行計(jì)算。

(1)統(tǒng)計(jì)類(lèi)標(biāo)簽,基于RFM模型構(gòu)建的標(biāo)簽。該類(lèi)型標(biāo)簽值需要進(jìn)行多表關(guān)聯(lián)聚合運(yùn)算,其中日期參數(shù)是關(guān)鍵,日期參數(shù)便于回溯歷史數(shù)據(jù),貫穿標(biāo)簽計(jì)算始終。如30天累計(jì)進(jìn)入圖書(shū)館次數(shù)、累計(jì)借閱冊(cè)數(shù)、累計(jì)下載文章數(shù)標(biāo)簽,以讀者的ID字段為單位對(duì)歷史記錄分組做求和運(yùn)算;30天累計(jì)借閱次數(shù)、累計(jì)下載文章次數(shù)標(biāo)簽,以讀者ID字段為單位對(duì)歷史記錄去重做計(jì)數(shù)運(yùn)算;最近一次訪問(wèn)圖書(shū)館、借閱圖書(shū)、下載文章距離今天天數(shù),以讀者ID字段為單位按時(shí)間排序,選取最近借閱日期與當(dāng)前系統(tǒng)時(shí)間做減法運(yùn)算。

(2)讀者利用資源的內(nèi)容標(biāo)簽。該類(lèi)型標(biāo)簽計(jì)算分兩步進(jìn)行。一是主題詞拆分。文章根據(jù)讀者對(duì)哪些圖書(shū)和文章發(fā)生了借閱、搜索、瀏覽及下載行為以及與之對(duì)應(yīng)的圖書(shū)和文章主題詞表,將每本圖書(shū)或每篇文章的主題詞表按詞拆分對(duì)應(yīng)到讀者作為一條記錄。以前面資源畫(huà)像中計(jì)算好的主題詞為例,進(jìn)行主題詞拆分(見(jiàn)圖2)。

圖2 主題詞拆分

二是標(biāo)簽權(quán)重計(jì)算。主題詞經(jīng)過(guò)拆分處理后就可以根據(jù)讀者對(duì)主題詞的行為來(lái)計(jì)算主題詞對(duì)讀者的權(quán)重,并且將這些主題詞作為讀者的標(biāo)簽。由于讀者歷史行為所蘊(yùn)含的作用總是隨著時(shí)間的推移而不斷變化,近期的行為所蘊(yùn)含的作用一般要比歷史行為的作用有價(jià)值得多。如某位學(xué)生在大學(xué)一年級(jí)閱讀內(nèi)容與他(她)在大學(xué)四年級(jí)閱讀內(nèi)容涉及的主題內(nèi)容有差異,因此這里我們結(jié)合時(shí)間衰減模型TDM(Time Decay Model)計(jì)算主題詞標(biāo)簽權(quán)重,時(shí)間衰減系數(shù)=1/(log(t)+1),公式中t為發(fā)生行為的時(shí)間距離當(dāng)前時(shí)間的大小。標(biāo)簽權(quán)重=(讀者行為分值之和)×?xí)r間衰減系數(shù),公式中的每種行為對(duì)應(yīng)分值可以根據(jù)閱讀推廣工作實(shí)踐由專(zhuān)業(yè)人員確定。如圖2中:讀者_(dá)ID號(hào)為“2377130917”的讀者在“2019—10—09”當(dāng)天“繪畫(huà)”主題詞對(duì)該讀者的權(quán)重為3,而100天后該主題詞對(duì)該讀者的權(quán)重為1。根據(jù)主題詞權(quán)重值排序作為用戶標(biāo)簽,隨著時(shí)間的推移用戶標(biāo)簽是動(dòng)態(tài)變化的。

3 畫(huà)像用于閱讀推廣場(chǎng)景

3.1 讀者個(gè)人畫(huà)像

個(gè)人畫(huà)像查詢(xún)是千人千面信息的一種表現(xiàn)形式。前臺(tái)通過(guò)代碼實(shí)現(xiàn)SQL聚合函數(shù)以及多表關(guān)聯(lián)Join進(jìn)行讀者數(shù)目的計(jì)算,后臺(tái)通過(guò)JDBC的方式連接Spark集群進(jìn)行HDFS上的標(biāo)簽寬表的運(yùn)算。工作人員輸入讀者ID后,查看并了解每一位讀者的畫(huà)像,如查看某位讀者的屬性信息、行為信息及文章內(nèi)容偏好信息等,如圖3所示,讀者專(zhuān)業(yè):生物科學(xué),年齡:24,性別:男,學(xué)歷:研究生;近30天的借閱圖書(shū)、檢索文章、瀏覽文章及下載文章等情況;主題詞顏色由紅色漸變?yōu)槌壬?、形狀由大變小表示主題詞重要程度及頻率的變化;星期與時(shí)間點(diǎn)氣泡顏色由紅漸變?yōu)榫G色、形狀由大變小表示讀者訪問(wèn)時(shí)間的變化規(guī)律;中圖法類(lèi)別表示讀者檢索、瀏覽及下載的文章類(lèi)別。

圖3 讀者個(gè)人畫(huà)像

3.2 讀者群畫(huà)像

前面?zhèn)€人畫(huà)像查詢(xún)是單獨(dú)查看讀者個(gè)人的相關(guān)特征。圖書(shū)館讀者群體來(lái)自不同身份、專(zhuān)業(yè)及學(xué)歷層次,對(duì)信息服務(wù)的需求也是多樣化的。要想滿足不同類(lèi)型讀者的需求,就需要基于畫(huà)像標(biāo)簽做好讀者分組分類(lèi)工作,發(fā)現(xiàn)不同類(lèi)型讀者的潛在需求。讀者群畫(huà)像中主要通過(guò)多個(gè)維度透視分析實(shí)現(xiàn)根據(jù)現(xiàn)有用戶標(biāo)簽圈定用戶群的功能。如工作人員根據(jù)業(yè)務(wù)邏輯篩選進(jìn)行相應(yīng)的讀者定位,從而實(shí)現(xiàn)不同類(lèi)別讀者群特征的探索。如圖4所示,可以根據(jù)年份、讀者下載文章數(shù)量、訪問(wèn)頻次及最近下載文章距離天數(shù)等標(biāo)簽維度篩選特定人群;也可以通過(guò)對(duì)多個(gè)維度標(biāo)簽組合,篩選人群,實(shí)現(xiàn)對(duì)讀者群的動(dòng)態(tài)分析。對(duì)于閱讀推廣工作及回訪等行為中,為了實(shí)行不同的閱讀推薦策略并且避免重復(fù)打擾讀者,可以將每階段待推廣的讀者群減去近期已經(jīng)推廣過(guò)的讀者群,從而為精準(zhǔn)化閱讀推廣工作提供支持。

圖4 讀者群動(dòng)態(tài)畫(huà)像

3.3 個(gè)人閱讀主題推薦畫(huà)像

(1)個(gè)性化資源推薦。個(gè)性化資源推薦解決從海量(萬(wàn)、百萬(wàn))的文獻(xiàn)資源中,挑選出讀者感興趣的內(nèi)容,推薦給讀者(百、十的輸出)。文章通過(guò)在前面讀者及資源畫(huà)像的基礎(chǔ)上構(gòu)建主題詞共現(xiàn)矩陣,計(jì)算資源之間的相似性,進(jìn)行閱讀推薦。以圖3中的讀者為例,構(gòu)建“營(yíng)養(yǎng)素”主題詞共現(xiàn)矩陣,利用度中心度、接近中心度、中介中心度及PageRank等算法對(duì)主題詞排序與聚類(lèi),構(gòu)建個(gè)人閱讀主題畫(huà)像,如圖5所示,圖中節(jié)點(diǎn)不同顏色表示不同的類(lèi),各類(lèi)之間涇渭分明;節(jié)點(diǎn)的大小越大,表明主題詞詞頻越高;連線表明主題詞之間有共現(xiàn)關(guān)系,連線粗細(xì)表明主題詞之間共現(xiàn)的程度;將每類(lèi)中具有最高中心度的主題詞標(biāo)簽作為推薦結(jié)果。

圖5 讀者個(gè)人閱讀主題推薦畫(huà)像

(2)非個(gè)性化推薦。為解決新讀者、新文章一開(kāi)始沒(méi)有太多數(shù)據(jù)和特征來(lái)訓(xùn)練模型的問(wèn)題,即如何給新讀者做個(gè)性化推薦閱讀,如何將新的資源推薦給可能對(duì)它感興趣的讀者,我們可以采用非個(gè)性化推薦策略。策略一是熱門(mén)召回。自定義熱門(mén)規(guī)則,根據(jù)當(dāng)前時(shí)間段熱點(diǎn)定期更新維護(hù)資源庫(kù)。策略二是新資源召回。為了提高新資源的利用率,建立新資源庫(kù),進(jìn)行推薦。這里非個(gè)性化推薦是對(duì)前期個(gè)性化推薦的補(bǔ)充。

4 結(jié)語(yǔ)

文章從高校圖書(shū)館讀者基本屬性特征、閱讀資源特征及讀者閱讀行為特征數(shù)據(jù)出發(fā),研究構(gòu)建閱讀推廣用戶畫(huà)像的技術(shù)與方法。運(yùn)用Sqoop遷移業(yè)務(wù)系統(tǒng)數(shù)據(jù)庫(kù),F(xiàn)lume采集Web應(yīng)用日志數(shù)據(jù),進(jìn)行各類(lèi)異構(gòu)數(shù)據(jù)融合構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)。分別從讀者和資源兩個(gè)維度進(jìn)行閱讀推廣用戶畫(huà)像標(biāo)簽體系設(shè)計(jì),并對(duì)畫(huà)像計(jì)算以及畫(huà)像在閱讀推廣工作中的應(yīng)用場(chǎng)景進(jìn)行了研究。在倡導(dǎo)以用戶需求為中心的時(shí)代背景下,圖書(shū)館作為信息服務(wù)機(jī)構(gòu),充分借助用戶畫(huà)像發(fā)掘潛在需求,提高了信息推送的精準(zhǔn)度。下一步在資源畫(huà)像設(shè)計(jì)中,將加入全文內(nèi)容進(jìn)行分詞處理,計(jì)算資源之間的相似性,構(gòu)建更精準(zhǔn)的畫(huà)像。

猜你喜歡
主題詞分詞畫(huà)像
威猛的畫(huà)像
“00后”畫(huà)像
畫(huà)像
結(jié)巴分詞在詞云中的應(yīng)用
值得重視的分詞的特殊用法
我校學(xué)報(bào)第32卷第5期(2014年10月)平均每篇有3.04個(gè)21世紀(jì)的Ei主題詞
我校學(xué)報(bào)第32卷第6期(2014年12月)平均每篇有3.00個(gè)21世紀(jì)的Ei主題詞
2014年第16卷第1~4期主題詞索引
《疑難病雜志》2014年第13卷主題詞索引
潛行與畫(huà)像
虎林市| 罗甸县| 怀柔区| 河西区| 盐边县| 太仆寺旗| 汉沽区| 潜江市| 汽车| 霍林郭勒市| 凤山市| 沈阳市| 鹰潭市| 蒙阴县| 莱西市| 尖扎县| 布尔津县| 卢氏县| 定南县| 安阳市| 夏邑县| 绥宁县| 克什克腾旗| 桦甸市| 四子王旗| 宁强县| 夏津县| 昌江| 沙坪坝区| 庆安县| 宜君县| 铜山县| 老河口市| 宜兴市| 洪湖市| 达日县| 顺平县| 崇明县| 阿拉善左旗| 天柱县| 麻江县|