楊斌
(浙江經(jīng)濟(jì)職業(yè)技術(shù)學(xué)院,浙江 杭州 310018)
當(dāng)今高校面臨數(shù)字化改革的需求,高校圖書館也面臨著從傳統(tǒng)服務(wù)向個(gè)性化、信息化服務(wù)轉(zhuǎn)型的問題。圖書館對(duì)自身數(shù)據(jù)進(jìn)行有效分析,通過量化指標(biāo)指導(dǎo)各類服務(wù)調(diào)整,是現(xiàn)今高校圖書館轉(zhuǎn)型的必由之路,使用社會(huì)網(wǎng)絡(luò)分析法(Social Network Analysis,SNA)分析書籍借閱數(shù)據(jù),不僅可以獲得大量量化的測度指標(biāo),也可以繪制可視化的社群圖,具體以浙江院圖書館數(shù)據(jù)為例,討論多向需求書籍、潛在需求書籍、打包套餐類書籍等書籍推薦工作的啟示,為高校圖書館數(shù)字化改革提供了一種方案。
在互聯(lián)網(wǎng)+背景下,師生獲取知識(shí)的途徑越來越多元化,高校圖書館也必須從傳統(tǒng)的知識(shí)提供者,開館坐等師生上門轉(zhuǎn)變?yōu)橹R(shí)的引領(lǐng)者,走出圖書館為師生提供專業(yè)的、全方位的書籍、文獻(xiàn)推薦,為高校專業(yè)打造專業(yè)書籍群落,精準(zhǔn)定位每一本書籍的作用。
隨著大數(shù)據(jù)技術(shù)的發(fā)展,信息時(shí)代轉(zhuǎn)向了數(shù)據(jù)時(shí)代,數(shù)據(jù)將是最重要的生產(chǎn)資料之一。高校圖書館擁有豐富的圖書數(shù)據(jù)及借閱數(shù)據(jù),同時(shí)這些數(shù)據(jù)是借閱者依據(jù)自身需求,切實(shí)產(chǎn)生的行為數(shù)據(jù),可以真實(shí)反映每一本藏書的價(jià)值。對(duì)書籍借閱數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,計(jì)算測度指標(biāo),乃至將分析結(jié)果可視化呈現(xiàn),有助于圖書館優(yōu)化館藏書籍結(jié)構(gòu),為師生精準(zhǔn)推薦書籍,發(fā)掘師生的潛在興趣。同時(shí)對(duì)高校師生各類數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,也是高校數(shù)字化改革的一個(gè)重要組成部分。
當(dāng)今國內(nèi)外較為成熟的推薦算法是協(xié)同過濾算法[1-2],此算法已經(jīng)在電子商務(wù)上有了成熟的運(yùn)用,如淘寶、京東等,但是協(xié)同過濾算法有冷啟動(dòng)、矩陣稀疏性等問題,針對(duì)這些問題有很多學(xué)者從圖書標(biāo)簽信息和用戶背景信息兩方面為突破點(diǎn)對(duì)協(xié)同過濾算法進(jìn)行了補(bǔ)充和改進(jìn)[3-4],一般是在系統(tǒng)初始化時(shí)依據(jù)用戶背景信息推薦相關(guān)專業(yè)書籍,但是高校圖書館圖書推薦與傳統(tǒng)的電子商務(wù)商品推薦有著明顯不同的環(huán)境特征,一是借閱者和書籍的專業(yè)傾向較為明顯,數(shù)據(jù)在同專業(yè)書籍中相對(duì)集中,而跨專業(yè)書籍中相對(duì)稀疏;二是在推薦借閱者同類型書籍的同時(shí)更需要為借閱者挖掘新的興趣點(diǎn)[3]。
在圖書館數(shù)據(jù)分析中引入其他分析法將是一種必然趨勢,而社會(huì)網(wǎng)絡(luò)分析法也早已廣泛的運(yùn)用到了各行各業(yè)中,包括圖書情報(bào)學(xué)中[5],其主要運(yùn)用方向分為兩個(gè):一是通過文獻(xiàn)的引用、作者、課題等信息對(duì)文獻(xiàn)進(jìn)行社群分析,得到文獻(xiàn)的社群圖,研究文獻(xiàn)之間的關(guān)聯(lián)及分布關(guān)系;二是在圖書系統(tǒng)中附加了社交評(píng)論模塊,然后對(duì)社交模塊數(shù)據(jù)進(jìn)行分析[7-8]。本文嘗試單純從書籍借閱數(shù)據(jù)入手,對(duì)書籍社群進(jìn)行分析。社會(huì)網(wǎng)絡(luò)分析法能被廣泛關(guān)注且運(yùn)用,主要有兩個(gè)顯著的優(yōu)點(diǎn):可視化及定量的測度指標(biāo),這兩個(gè)特點(diǎn)都是協(xié)同過濾算法所不具備的,也同時(shí)是被廣大學(xué)者重視所在??梢暬梢宰寱慕栝喺?、圖書館的管理者更直觀形象的了解圖書館的書籍借閱信息,并從全局出發(fā)得到啟示;定量的測度指標(biāo)可以為圖書館工作的科學(xué)化、高效化提供數(shù)據(jù)支撐,做到有依據(jù)可追溯。
運(yùn)用社會(huì)網(wǎng)絡(luò)分析法對(duì)高校圖書館書籍借閱數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析,以同書號(hào)書籍為單個(gè)實(shí)體對(duì)象,輔以書籍、借閱者背景數(shù)據(jù)進(jìn)行數(shù)據(jù)過濾,計(jì)算各種書籍量化測度指標(biāo),繪制書籍社群圖,最后形成基于社會(huì)網(wǎng)絡(luò)分析法的高校圖書館書籍?dāng)?shù)據(jù)分析報(bào)告,為書籍推薦、入庫、剔舊等圖書工作提供量化的數(shù)據(jù)支撐。
運(yùn)用社會(huì)網(wǎng)絡(luò)分析法對(duì)高校圖書館書籍借閱數(shù)據(jù)進(jìn)行分析,整體流程如圖1所示,主要分為四步:①從圖書管理借閱系統(tǒng)中導(dǎo)出借閱數(shù)據(jù),并進(jìn)行清洗;②依據(jù)書籍、借閱者的背景數(shù)據(jù)將借閱書籍進(jìn)行簡單歸類,形成不同的書籍社群,得到鄰接矩陣;③運(yùn)用社會(huì)網(wǎng)絡(luò)分析法,計(jì)算測度指標(biāo);④繪制書籍社群圖,撰寫分析報(bào)告。
圖1 基于SNA高校書籍借閱數(shù)據(jù)分析概念圖
圖書借閱是圖書館核心服務(wù)之一,其產(chǎn)生的數(shù)據(jù)同樣是圖書館的核心數(shù)據(jù),能從側(cè)面反映一個(gè)高校的學(xué)習(xí)氛圍乃至辦學(xué)質(zhì)量。圖書管理借閱系統(tǒng)中存儲(chǔ)的借閱數(shù)據(jù)仍然有較大的冗余,不能直接用于分析,需要經(jīng)過清洗轉(zhuǎn)換為可用數(shù)據(jù)。
本文對(duì)于原始的借閱數(shù)據(jù)清洗遵從以下四條原則:
①以書號(hào)為書籍實(shí)體單位判別的界限,同書號(hào)不同版次的書籍?dāng)?shù)據(jù)歸總為一個(gè)實(shí)體的數(shù)據(jù),不同書號(hào)即使同名、同版次的書籍?dāng)?shù)據(jù)也區(qū)分統(tǒng)計(jì);
②不同書籍實(shí)體間的書本數(shù)量存在差距,其必然對(duì)借閱數(shù)據(jù)產(chǎn)生影響,在此研究中此影響不作考慮,以待后期研究補(bǔ)充;
③同借閱者同書籍的反復(fù)借閱行為,其數(shù)據(jù)進(jìn)行歸總合并,單純認(rèn)為是借閱者與書籍實(shí)體間存在屬性關(guān)聯(lián),此屬性不做強(qiáng)度處理;
④剔除與被研究無關(guān)數(shù)據(jù)標(biāo)簽,只保留借閱者信息、書籍信息、借閱信息三部分。
明確數(shù)據(jù)清洗原則后,將數(shù)據(jù)從圖書管理借閱系統(tǒng)中導(dǎo)出、清洗、整理并以書籍類型歸類,選取相應(yīng)類型書籍形成所需分析的底層數(shù)據(jù)。
使用社會(huì)網(wǎng)絡(luò)分析法分析書籍借閱數(shù)據(jù)的首要任務(wù)是:明確分析的實(shí)體對(duì)象以及量化實(shí)體對(duì)象之間的聯(lián)系,從而形成書籍借閱數(shù)據(jù)鄰接矩陣,作為社會(huì)網(wǎng)絡(luò)分析法的數(shù)據(jù)基礎(chǔ)。本研究以書籍為實(shí)體對(duì)象,以借閱數(shù)據(jù)中書籍的一個(gè)重要屬性——“借閱者”為其聯(lián)系,以擁有相同借閱者的數(shù)量量化兩個(gè)實(shí)體對(duì)象書籍的聯(lián)系強(qiáng)度,如書籍a(chǎn)擁有41次借閱數(shù)據(jù),書籍b擁有32 次借閱數(shù)據(jù),其中兩者擁有17 位相同的借閱者,那么認(rèn)為a 與b 之間為17 的聯(lián)系強(qiáng)度。將書籍類型確立之后,依照此方法可以得到該書籍群落中所有書籍相互間的聯(lián)系強(qiáng)度,形成社會(huì)網(wǎng)絡(luò)分析法分析的數(shù)據(jù)基礎(chǔ)——鄰接矩陣。
以上述鄰接矩陣為基礎(chǔ),可計(jì)算書籍的出入度、密度、整體中心度、中心勢、凝聚子群等量化的測度指標(biāo)。
出入度為書籍實(shí)體對(duì)象所有聯(lián)系強(qiáng)度之和,出入度越大,代表此數(shù)據(jù)的局部影響力越大,與周邊書籍實(shí)體對(duì)象擁有越多的相同借閱人數(shù)。而將聯(lián)系強(qiáng)度指標(biāo)進(jìn)行升高,剔除弱連接,比如兩本書籍間連接強(qiáng)度平均在20,那么10以下的我們認(rèn)為是弱連接剔除,而過濾后的每本書籍出入度又發(fā)生了變化。過濾前出入度最大的書籍是較為熱門,影響面較廣的書籍,過濾后出入度最大的書籍是此類型書籍中地位較高,具有較高長期保存價(jià)值的書籍。
密度較高代表該類型書籍整體性越高,特別是剔除弱連接過濾后,密度仍然較高,那么意味著借閱者對(duì)該類型的書籍整體需求度較高,需要依據(jù)書籍內(nèi)容做進(jìn)一步分析,確定是書籍內(nèi)容相似度高還是關(guān)聯(lián)度高,我們認(rèn)為同一類型書籍的關(guān)聯(lián)度較高是館藏書籍的合理結(jié)構(gòu)。如果密度較低,則代表書籍內(nèi)容相近性較低或該類型書籍對(duì)相關(guān)專業(yè)關(guān)聯(lián)度較低,無法形成較高的整體性價(jià)值。
整體中心度代表書籍實(shí)體對(duì)象在該類型書籍中的位置,計(jì)算公式為:
即書籍實(shí)體對(duì)象到達(dá)其他所有書籍實(shí)體對(duì)象的距離和,整體中心度越高代表此書籍實(shí)體對(duì)象在該類型書籍中的位置越偏遠(yuǎn),即該書從借閱者的角度來說較為獨(dú)立。而整體中心度較低代表該書籍實(shí)體對(duì)象在該類型書籍中處于核心位置,即使借閱量不高,也可以重點(diǎn)推薦。
凝聚子群即對(duì)數(shù)據(jù)進(jìn)行聚類分析,常用的是“k-核”的概念,及連接強(qiáng)度在k時(shí),該類型數(shù)據(jù)分成了哪幾個(gè)子群體,可以精準(zhǔn)定位借閱者需求的重疊性或者稱為延續(xù)性,同一凝聚子群中的書籍實(shí)體對(duì)象明顯有較高的相互推薦性,但是如果處在不同凝聚子群,并且該書籍實(shí)體對(duì)象整體中心度和出入度又較高則認(rèn)為能夠開拓學(xué)生的潛在興趣點(diǎn),同樣具有推薦價(jià)值。
這些指標(biāo)不止在書籍推薦中具有參考意義,在圖書剔舊工作、書籍上架排列工作、甚至是書籍采購工作中同樣具有指導(dǎo)意義。
以浙江經(jīng)濟(jì)職業(yè)技術(shù)學(xué)院圖書館2020 年9 月至2021年6月的書籍借閱數(shù)據(jù)為例,具體闡述基于社會(huì)網(wǎng)絡(luò)分析法的高校書籍借閱數(shù)據(jù)分析,對(duì)于指導(dǎo)高校圖書館書籍推薦工作的四點(diǎn)啟示。
首先依據(jù)上述分析流程獲取數(shù)據(jù),清洗后,本文選取了考試參考類書籍作為書籍社群,得到該書籍社群的數(shù)據(jù)鄰接矩陣。具體如圖2所示。
圖2 考試考證參考書籍?dāng)?shù)據(jù)鄰接矩陣
圖3 書籍社群圖
獲取數(shù)據(jù)鄰接矩陣后,可以根據(jù)各個(gè)公式計(jì)算各項(xiàng)測度指標(biāo),包括節(jié)點(diǎn)出入度、節(jié)點(diǎn)中心度、社群密度、社群中心勢等等,同時(shí)可以繪制出可視化的社群圖直觀的展現(xiàn)社群結(jié)構(gòu)及關(guān)系。
在傳統(tǒng)圖書館書籍借閱數(shù)據(jù)分析中,大多以單本書籍借閱量衡量書籍的重要性,通常將借閱量大的書籍作為推薦書籍,方便讀者查閱。而通過社會(huì)網(wǎng)絡(luò)分析法分析借閱數(shù)據(jù),可以進(jìn)一步得到專向需求書籍和多向需求書籍的分類。
如《報(bào)關(guān)員資格全國統(tǒng)一考試教材》一書,共借閱19 次,通過社會(huì)網(wǎng)絡(luò)分析法分析,發(fā)現(xiàn)其僅和其他3本考試類用書產(chǎn)生借閱聯(lián)系,即大部分的讀者都單獨(dú)的借閱了這一本考試類書籍,這是一本面向一些特定讀者的用書,具有針對(duì)性較強(qiáng),需求量大且專向的特點(diǎn)。因此可以推斷出大量讀者是定向借閱該書,而不是在書架的瀏覽過程中借閱該書。
如《大學(xué)英語四級(jí)綜合特訓(xùn)》一書,共借閱21次,同樣通過社會(huì)網(wǎng)絡(luò)分析法分析,發(fā)現(xiàn)其擁有18的出入度度數(shù),即代表與該書產(chǎn)生過共同借閱者的書籍有18本,證明大量讀者借閱此書時(shí)會(huì)同時(shí)或前后借閱其他考試書籍,通過查驗(yàn)借閱數(shù)據(jù)得到與其有借閱聯(lián)系的18 本書籍中有12 本英語類考試用書,可以判斷它是一本考試用途中可替代書籍或者是知識(shí)點(diǎn)互補(bǔ)書籍,需求量大且多向,較高的借閱量也證明了此書本身的價(jià)值。因此可以推斷出在推薦英語類考試用書時(shí),此書會(huì)引起更多的關(guān)注。
同理通過社會(huì)網(wǎng)絡(luò)分析法分析在理論上還可以得到一類書籍,借閱量不高但與其他書籍有較密集的借閱聯(lián)系,但此次數(shù)據(jù)分析中并未出現(xiàn)該類型書籍。
通過社會(huì)網(wǎng)絡(luò)分析法分析借閱數(shù)據(jù),可以得到讀者更多的潛在需求書籍。
如《大學(xué)英語四級(jí)綜合特訓(xùn)》一書,通過書籍整理得到該書兩年內(nèi)總計(jì)借出21次,借閱次數(shù)本身較高,同時(shí)其擁有最高的絕對(duì)中心度18,即與該書擁有相同借閱者的書籍有18本,意味著未來有借閱者在借閱這18本書籍中的任意一本時(shí)也有較大的可能會(huì)借閱《大學(xué)英語綜合特訓(xùn)》一書。進(jìn)一步分析該書距離長度為2 的網(wǎng)絡(luò),可以得到一些潛在同需求的書籍,如《外貿(mào)單證操作實(shí)例》一書,雖然沒有讀者同時(shí)借閱《外貿(mào)單證操作實(shí)例》和《大學(xué)英語四級(jí)綜合特訓(xùn)》,但其通過《四級(jí)聽力強(qiáng)化訓(xùn)練》和《初級(jí)會(huì)計(jì)》兩本書籍作為中間書籍形成兩條長度為2的路徑,此數(shù)據(jù)分析表明多位讀者分別借閱了其他書籍與這兩本書籍之一,因此可以推斷此兩本書籍間也有同需求潛質(zhì),可以在讀者借閱《外貿(mào)單證操作實(shí)例》時(shí)同時(shí)推薦《大學(xué)英語綜合特訓(xùn)》,做到有效挖掘讀者的潛在閱讀需求。
同時(shí)通過整體中心度計(jì)算,得到書籍在整個(gè)社群中的位置,本文發(fā)現(xiàn)其中最大的凝聚子群為7本計(jì)算機(jī)類用書組成,證明計(jì)算機(jī)考試用書在借閱者中擁有更多的共同需求??梢钥紤]做一期計(jì)算機(jī)類考試用書的推薦集合,使讀者更好的了解圖書館該類書籍的館藏情況及各自特點(diǎn)。
圖書館一般都有推薦書籍書架,現(xiàn)多數(shù)按照時(shí)事信息將最受關(guān)注的書籍放置在顯眼位置,剩余則按照作者、書本類型進(jìn)行擺放供讀者選閱。通過社會(huì)網(wǎng)絡(luò)分析法中的聚類分析,可以到書籍間的凝聚子群,得到以讀者借閱需求組合的書籍套餐,將同一個(gè)凝聚子群的書籍?dāng)[放在附近,更方便讀者快速查閱。
發(fā)現(xiàn)計(jì)算機(jī)類考試書籍與英語類考試書籍組成了一個(gè)凝聚子群,說明有一定量的讀者同時(shí)需求或者潛在需求這9本書籍,可將其擺放在一個(gè)區(qū)域做一期推薦。
依據(jù)中心度高低繪制出書籍借閱社群圖,可以直觀清晰的看到各書籍實(shí)體對(duì)象間的聯(lián)系,如圖5所示為考試類用書的借閱社群圖,中心度較高的書籍呈現(xiàn)在社群圖的中間區(qū)域,代表它們擁有更多的同類讀者需求或者同類讀者的潛在需求。
同時(shí)讀者可以清晰地從自己借閱的書籍為起點(diǎn),找到與之有聯(lián)系的書籍及距離為2為3的書籍。并且讀者通過自己的借閱行為,可以實(shí)時(shí)地改變社群圖,做到借閱更有趣味性。
高校圖書借閱系統(tǒng)中的借閱數(shù)據(jù)由讀者依據(jù)自身需求所產(chǎn)生,可以正確反映書籍被需求的情況,被哪些類型借閱者需求、需求強(qiáng)度、需求時(shí)期等,是圖書館最重要的無形資產(chǎn)之一。靈活應(yīng)用書籍借閱數(shù)據(jù),進(jìn)行統(tǒng)計(jì)分析,可視化呈現(xiàn),是高校圖書館數(shù)字化改革的突破口之一。
基于社會(huì)網(wǎng)絡(luò)分析法對(duì)高校圖書館書籍借閱數(shù)據(jù)進(jìn)行分析,可以從另一個(gè)的角度重新認(rèn)識(shí)館藏書籍,認(rèn)識(shí)館藏書籍在讀者需求中的關(guān)系結(jié)構(gòu),這不僅對(duì)書籍推薦服務(wù)的開展提供了可量化的、可追溯的工作依據(jù),也為館藏圖書的管理工作提供了數(shù)據(jù)參考。同時(shí)大數(shù)據(jù)時(shí)代下,為數(shù)字圖書館的個(gè)性化服務(wù)提供了一種可能,也為未來人工智能在高校圖書館中的運(yùn)用提供數(shù)據(jù)基礎(chǔ)。