常盛
?
新媒體環(huán)境下基于用戶(hù)畫(huà)像的智慧圖書(shū)館建設(shè)*
常盛
(長(zhǎng)春市圖書(shū)館,吉林 長(zhǎng)春 130021)
分析了當(dāng)前圖書(shū)館數(shù)字化服務(wù)形勢(shì),指明了建立讀者標(biāo)簽庫(kù)的意義,闡述了現(xiàn)代圖書(shū)館基于用戶(hù)畫(huà)像的構(gòu)架、關(guān)鍵算法、標(biāo)簽庫(kù)建立、高維向量相似度計(jì)算、實(shí)現(xiàn)路徑等內(nèi)容。
用戶(hù)畫(huà)像;智慧圖書(shū)館;新媒體;智能化水平
面對(duì)信息化時(shí)代向大數(shù)據(jù)時(shí)代的轉(zhuǎn)型期,傳統(tǒng)圖書(shū)館基于簡(jiǎn)單供給方式的粗獷服務(wù)方式難以滿(mǎn)足公眾的閱讀需求,由于用戶(hù)數(shù)據(jù)缺乏有效分析與訓(xùn)練,形成用戶(hù)習(xí)慣及喜好盲區(qū),個(gè)體閱讀的差異性成為精準(zhǔn)化服務(wù)的難點(diǎn)。建設(shè)以數(shù)字化、網(wǎng)絡(luò)化、智能化的現(xiàn)代信息技術(shù)為基礎(chǔ),以互聯(lián)、高效、便利為主要特征,將綠色發(fā)展和數(shù)字惠民作為本質(zhì)追求的現(xiàn)代化圖書(shū)館[1]成為時(shí)代的必然要求,民眾對(duì)圖書(shū)館服務(wù)的智能化水平要求日益提高。在海量數(shù)據(jù)中及時(shí)、有效地推送用戶(hù)所需的內(nèi)容,成為智慧圖書(shū)館的基礎(chǔ)功能,而了解用戶(hù)的個(gè)性化需求成為首要任務(wù)。
相比于傳統(tǒng)行業(yè)經(jīng)驗(yàn)進(jìn)行的簡(jiǎn)單用戶(hù)特點(diǎn)描述,現(xiàn)代化的用戶(hù)畫(huà)像建立在數(shù)據(jù)挖掘的基礎(chǔ)之上,通過(guò)分析用戶(hù)社會(huì)屬性、生活習(xí)慣、消費(fèi)行為等信息抽象出用戶(hù)偏好的標(biāo)簽[2]。基于OOA(面向?qū)ο蠓治觯┑乃枷?,用?hù)畫(huà)像模型的建立過(guò)程是建立在數(shù)以十萬(wàn)普通讀者閱讀習(xí)慣、行為等屬性的抽象過(guò)程。以O(shè)O(面向?qū)ο螅榛A(chǔ)的用戶(hù)畫(huà)像類(lèi)具有較好數(shù)據(jù)結(jié)構(gòu)和實(shí)現(xiàn)性,同時(shí),具備繼承、多態(tài)、封裝等屬性。
唯一標(biāo)識(shí)是準(zhǔn)確識(shí)別用戶(hù)的基礎(chǔ)。隨著新媒體技術(shù)的發(fā)展,在缺乏頂端設(shè)計(jì)的情況下,各類(lèi)系統(tǒng)被引入圖書(shū)館應(yīng)用,用戶(hù)唯一標(biāo)識(shí)使用變得混亂。發(fā)展初期的身份證號(hào)、讀者證號(hào)、電子郵箱、電話(huà)號(hào)碼,逐漸轉(zhuǎn)變?yōu)槲⑿盘?hào)、淘寶號(hào)、QQ號(hào)等第三方登陸標(biāo)識(shí)。混亂的唯一標(biāo)識(shí)雖然讓數(shù)據(jù)記錄缺乏唯一性、處理變得復(fù)雜,但在信息獲取維度上獲得了更多的擴(kuò)展。圖書(shū)館可通過(guò)以下3種方式實(shí)現(xiàn)唯一標(biāo)識(shí)的統(tǒng)一,進(jìn)而實(shí)現(xiàn)用戶(hù)畫(huà)像數(shù)據(jù)庫(kù)中記錄的唯一性和完備性:①激勵(lì)用戶(hù)完善信息的方式(成本高,難以大規(guī)模開(kāi)展);②跨平臺(tái)檢索ID強(qiáng)打通(基于平臺(tái)差異性,難于實(shí)現(xiàn));③提取特征向量通過(guò)機(jī)器學(xué)習(xí)模糊拉通(適合大規(guī)模數(shù)據(jù))。
根據(jù)描繪用戶(hù)特征的信息分類(lèi)可分為靜態(tài)數(shù)據(jù)和動(dòng)態(tài)數(shù)據(jù)。靜態(tài)數(shù)據(jù)是指基本屬性、家庭、單位等穩(wěn)定性較好的信息;動(dòng)態(tài)數(shù)據(jù)是指瀏覽行為、查詢(xún)、下載等變化性較大的信息。人的描述屬性是極為復(fù)雜的,畫(huà)像屬性也必然伴隨著高維度和高復(fù)雜性而變化,龐大的屬性標(biāo)簽也將提高數(shù)據(jù)挖掘運(yùn)算的復(fù)雜度,因此,按照目標(biāo)進(jìn)行適當(dāng)?shù)膶傩栽O(shè)計(jì)是一種擇優(yōu)策略。
一般情況下靜態(tài)信息主要包含人口屬性、行業(yè)屬性、閱讀偏好、社交數(shù)據(jù)等;動(dòng)態(tài)信息一般包括訪(fǎng)問(wèn)行為、興趣特征、場(chǎng)景、消費(fèi)特征等。具體如圖1所示。
圖1 主要信息示意圖
表1 文獻(xiàn)分類(lèi)標(biāo)簽表(單位:次)
分類(lèi)A分類(lèi)B分類(lèi)C分類(lèi)D 讀者A5320 讀者B2141 讀者C0420
計(jì)算可得,讀者A標(biāo)簽1的=0.5,=1.22,-=0.61,對(duì)應(yīng)填入文獻(xiàn)分類(lèi)-權(quán)重表如表2所示。
表2 文獻(xiàn)分類(lèi)權(quán)重表
分類(lèi)A分類(lèi)B分類(lèi)C分類(lèi)D 讀者A0.610.330.220 讀者B0310.140.550.39 讀者C00.730.360
其次,相對(duì)于文獻(xiàn)分類(lèi)之外,讀者關(guān)于訪(fǎng)問(wèn)行為、訪(fǎng)問(wèn)觸點(diǎn)、返回次數(shù)等標(biāo)簽對(duì)于預(yù)測(cè)讀者獲取文獻(xiàn)內(nèi)容具有較大價(jià)值,以訪(fǎng)問(wèn)時(shí)長(zhǎng)為例,讀者對(duì)于某類(lèi)文獻(xiàn)瀏覽時(shí)間占據(jù)其訪(fǎng)問(wèn)時(shí)間總長(zhǎng)比例越大,說(shuō)明該讀者對(duì)該類(lèi)文獻(xiàn)的需求越高,因此建立權(quán)重計(jì)算方式為:
式(1)中:s—end?s—start為某類(lèi)文獻(xiàn)的駐留時(shí)間;end?start為訪(fǎng)問(wèn)平臺(tái)總長(zhǎng)。
由于文獻(xiàn)的分類(lèi)多元化,其訪(fǎng)問(wèn)時(shí)長(zhǎng)的標(biāo)簽也絕非單一數(shù)值,而是一個(gè)差異化增長(zhǎng)的一組數(shù)值,隨機(jī)選取一個(gè)讀者的訪(fǎng)問(wèn)時(shí)長(zhǎng)記錄制作其標(biāo)簽表如表3所示。
表3 訪(fǎng)問(wèn)時(shí)長(zhǎng)標(biāo)簽表(單位:s)
分類(lèi)A分類(lèi)B分類(lèi)C分類(lèi)D分類(lèi)E 讀者A03020080
計(jì)算繪制其權(quán)重表如表4所示。
表4 訪(fǎng)問(wèn)時(shí)長(zhǎng)權(quán)重表
分類(lèi)A分類(lèi)B分類(lèi)C分類(lèi)D分類(lèi)E 讀者A00.230.1500.61
為提高內(nèi)容預(yù)測(cè)的精準(zhǔn)性,發(fā)掘讀者閱讀行為的潛在關(guān)聯(lián)和規(guī)律,用戶(hù)畫(huà)像標(biāo)簽庫(kù)的建立將是動(dòng)態(tài)的過(guò)程,但過(guò)于精確的用戶(hù)畫(huà)像預(yù)測(cè)降低了投入產(chǎn)出比。因此,將用戶(hù)畫(huà)像標(biāo)簽進(jìn)行聚類(lèi),進(jìn)而形成群體畫(huà)像,一方面提升了整體服務(wù)效能;另一方面,將具有相似閱讀偏好的讀者聚集,易于組織專(zhuān)題性閱讀推廣活動(dòng)。聚類(lèi)技術(shù)屬于無(wú)監(jiān)督學(xué)習(xí),實(shí)現(xiàn)算法較多劃分法、層次法、密度算法等,但在文獻(xiàn)分類(lèi)標(biāo)簽每個(gè)讀者的閱讀偏好呈現(xiàn)為向量形式,即可將讀者偏好的聚類(lèi)轉(zhuǎn)化為向量相似度的檢索。
cos()的取值范圍為[-1,1],值越大表明夾角越小,相反夾角越大。使用MATLAB:=1-pdist(,'cosine')可以計(jì)算其夾角余弦。
但在實(shí)際應(yīng)用中,面對(duì)龐大的讀者群體,該方法的遍歷比較過(guò)程時(shí)間復(fù)雜度極高(^2),無(wú)法在實(shí)際中大規(guī)模應(yīng)用。高維向量相似度可采用LSH(Location Sensitive Hash)位置敏感哈希函數(shù)進(jìn)行算法實(shí)現(xiàn)。原數(shù)據(jù)樣本空間臨近的數(shù)據(jù)點(diǎn)經(jīng)過(guò)映射和變形后,在新的數(shù)據(jù)空間仍有較大概率相鄰。
對(duì)于任意,屬于,如果從集合到的函數(shù)族={1,2,…,n}對(duì)距離函數(shù),滿(mǎn)足條件[4]:(,)≤,且滿(mǎn)足[()=()] ≥1;(,)>+,[()=()]≤2這些條件,則稱(chēng)是敏感位置。原始數(shù)值落入不同數(shù)值桶,進(jìn)而完成的讀者閱讀文獻(xiàn)的喜好分類(lèi)實(shí)現(xiàn)聚類(lèi)。
用戶(hù)畫(huà)像技術(shù)的應(yīng)用是現(xiàn)代圖書(shū)館數(shù)據(jù)挖掘和人工智能技術(shù)應(yīng)用的典型應(yīng)用,要求圖書(shū)館在用戶(hù)數(shù)據(jù)采集、存儲(chǔ)、使用上要有科學(xué)的規(guī)劃和系統(tǒng)的建設(shè),絕非一朝一夕之功,可以按照快速原型或是迭代式的發(fā)展模式,按照一般圖書(shū)館的建設(shè)方式可以總結(jié)成以下形式:接觸點(diǎn)數(shù)據(jù)采集→形成標(biāo)簽層→讀者數(shù)據(jù)特征化→形成用戶(hù)畫(huà)像數(shù)據(jù)庫(kù)。
[1]王世偉.論智慧圖書(shū)館的三大特點(diǎn)[J].中國(guó)圖書(shū)館學(xué)報(bào),2012(06):22-28.
[2]王慶.基于“用戶(hù)畫(huà)像“的圖書(shū)館資源推薦模式設(shè)計(jì)與分析[J].現(xiàn)代情報(bào),2018(03):105-109.
[3]宗成慶.統(tǒng)計(jì)自然語(yǔ)言處理[M].北京:清華大學(xué)出版社,2008.
[4]Piotr Indyk.data-dependent LSH algorithms[EB/OL].http://people.csail.mit.edu/indyk,2015.
中國(guó)圖書(shū)館學(xué)會(huì)閱讀推廣課題(編號(hào):YD2016B39);吉林省圖書(shū)館學(xué)、情報(bào)與文獻(xiàn)學(xué)科研課題(編號(hào):WK2018C140);長(zhǎng)春市文廣新局調(diào)查研究項(xiàng)目“圖書(shū)館推動(dòng)全民閱讀戰(zhàn)略的對(duì)策與研究”
2095-6835(2018)18-0138-02
G250.7
A
10.15913/j.cnki.kjycx.2018.18.138
〔編輯:張思楠〕