劉璐璐?陳志飚?黃勇?熊章遠(yuǎn)
摘? 要:以某高校圖書館信息管理系統(tǒng)用戶數(shù)據(jù)為研究對象,對圖書館用戶借閱行為進(jìn)行研究。充分利用業(yè)務(wù)系統(tǒng)海量數(shù)據(jù)優(yōu)勢,使用K-means算法對用戶數(shù)據(jù)進(jìn)行聚簇,將用戶群體細(xì)分形成相似群,然后構(gòu)造用戶行為指標(biāo)體系,再選用Apriori關(guān)聯(lián)規(guī)則算法,根據(jù)借閱行為數(shù)據(jù)特點構(gòu)造用戶行為分析模型,同時在聚類群體數(shù)據(jù)的基礎(chǔ)上進(jìn)一步深入挖掘,最后得到用戶行為規(guī)則和模式。研究結(jié)論可為圖書館合理豐富館藏、圖書采編、書架擺放、業(yè)務(wù)系統(tǒng)流程優(yōu)化等提供參考。
關(guān)鍵詞:圖書館;用戶行為;關(guān)聯(lián)規(guī)則;數(shù)據(jù)挖掘;Apriori算法
中圖法分類號:TP391;G252? ? ? ? ? ?文獻(xiàn)標(biāo)識碼:A文章編號:2096-4706(2022)02-0009-04
Abstract: Taking the user data of the information management system of a university library as the research object, this paper studies the borrowing behavior of library users. Make full use of the massive data advantages of the business system, cluster the user data by using the K-means algorithm, subdivide the user group into similar groups, and then construct the user behavior index system, and then select the Apriori association rule algorithm to construct the user behavior analysis model according to the characteristics of borrowing behavior data. At the same time, further mining is carried out on the basis of clustering group data, Finally, the user behavior rules and patterns are obtained. The research conclusion can provide reference for the library to reasonably enrich the collection, book collection and editing, bookshelf placement, business system process optimization and so on.
Keywords: library; user behavior; association rule; data mining; Apriori algorithm
0? 引? 言
大數(shù)據(jù)技術(shù)的不斷成熟,掀起了新時代信息化發(fā)展又一波高潮,高校圖書館數(shù)字化智能化發(fā)展與研究也逐漸成為時下研究熱點。隨著高校圖書信息管理系統(tǒng)的用戶數(shù)據(jù)的不斷積累,如用戶的專業(yè)、課程、學(xué)科、年級、查詢關(guān)鍵詞等信息,為圖書館用戶行為的研究提供了難得的一手實驗數(shù)據(jù)。目前,這些海量的數(shù)據(jù)除了用于記錄圖書的借閱信息之外,大多僅用于統(tǒng)計日常業(yè)務(wù)數(shù)據(jù),而數(shù)據(jù)的真正價值往往被圖書管理者忽略。
圖書館用戶在專業(yè)課程學(xué)習(xí)或進(jìn)行科研活動過程中,往往需要到圖書館借閱圖書、期刊等書籍,跨學(xué)科或?qū)I(yè)等交叉式學(xué)習(xí)研究已成為常態(tài),用戶的這些借閱行為往往會存在一定的行為特征,用戶群體之間存在共性,借閱書目之間存在關(guān)聯(lián)[1]。一般來說,圖書建設(shè)管理方可以根據(jù)用戶的專業(yè)或者研究方向等信息,利用自身圖書管理經(jīng)驗來判定用戶借閱圖書類別需求[2]。但客觀來說,很多用戶行為之中隱藏的關(guān)聯(lián)性很難憑借圖書管理人員的常識或經(jīng)驗去獲取。本文利用圖書館信息系統(tǒng)產(chǎn)生的借閱數(shù)據(jù),通過數(shù)據(jù)挖掘技術(shù)來進(jìn)行深度挖掘,借此發(fā)現(xiàn)這種“隱藏的關(guān)聯(lián)性”,以推動高校圖書館的服務(wù)工作向智能化方向邁進(jìn)。
如何根據(jù)用戶的個人信息(如專業(yè)、課程、年級等)、借閱記錄(如借閱時間、頻度、學(xué)科等)、查詢關(guān)鍵詞記錄等數(shù)據(jù),發(fā)現(xiàn)不同用戶的借閱行為是否有關(guān)聯(lián)?不同的專業(yè)與書目之間是否存在關(guān)聯(lián)?用戶的借閱圖書種類會出現(xiàn)什么樣的趨勢?用戶的借閱習(xí)慣存在什么樣的規(guī)律?挖掘出這些數(shù)據(jù)之間規(guī)律,有利于合理配置圖書資源和提高資源利用率,合理分布圖書館館藏書籍,為師生用戶主動提供個性化的服務(wù)。
1? 總體思路
傳統(tǒng)的圖書館用戶數(shù)據(jù)分析是基于數(shù)據(jù)統(tǒng)計的基礎(chǔ)上,實現(xiàn)數(shù)據(jù)的檢索、分類等功能[3]。圖書館數(shù)據(jù)庫中大量借閱數(shù)據(jù),通過數(shù)據(jù)挖掘可以很好地反映出用戶的需求,找出用戶借閱圖書之間存在的關(guān)聯(lián)規(guī)則、不同學(xué)科圖書之間存在的關(guān)聯(lián)規(guī)則、不同專業(yè)用戶借閱圖書的規(guī)律等等[4,5]。
如圖1所示。本文通過利用高校圖書館信息管理系統(tǒng),對從用戶查詢、采編、流通、借閱、圖書訂購、用戶信息數(shù)據(jù)中抽取學(xué)生、教師等用戶信息建立用戶行為數(shù)據(jù)庫。通過數(shù)據(jù)清洗、轉(zhuǎn)換、集約化處理等預(yù)處理過程,建立用戶借閱記錄、興趣和習(xí)慣等維度的數(shù)據(jù)標(biāo)準(zhǔn)體系。通過聚類分析將用戶標(biāo)記分類,使用Apriori關(guān)聯(lián)規(guī)則分析用戶行為關(guān)聯(lián)規(guī)則和規(guī)律,識別分析出發(fā)現(xiàn)用戶特征與他們借閱行為的規(guī)律性,最后論述用戶的隱形需求、行為習(xí)慣以及未來的借閱趨勢,最終從真正意義上實現(xiàn)個性化信息服務(wù)的目的,為高校圖書館用戶服務(wù)、科學(xué)豐富館藏,圖書采編行為,書架擺放設(shè)置,圖書信息系統(tǒng)業(yè)務(wù)流程優(yōu)化等提供實踐參考。E5787314-7492-4389-B566-4A8809DEA7D0
2? 用戶行為分析模型
圖書館用戶借閱行為模式研究主要包括四大過程數(shù)據(jù)抽取、數(shù)據(jù)預(yù)處理、聚類分析、關(guān)聯(lián)規(guī)則分析,最后形成用戶行為規(guī)則集,如圖2所示。
2.1? 收集用戶基礎(chǔ)數(shù)據(jù)
本文通過某高校圖書館信息管理系統(tǒng)數(shù)據(jù)庫抽取2019年到2020年為期一學(xué)年的數(shù)據(jù),主要包括用戶基本信息(學(xué)號、年級、專業(yè)、學(xué)科課程等字段)和借閱圖書信息(題名、索書號、中國圖書館分類號、作者、出版等字段),通過這些數(shù)據(jù)來描述用戶的借閱行為。本文研究獲得的未經(jīng)處理的原始數(shù)據(jù)有用戶基礎(chǔ)信息18 565條記錄,借閱圖書信息595 153條記錄。
2.2? 數(shù)據(jù)預(yù)處理
清洗收集到的數(shù)據(jù)中既有噪聲數(shù)據(jù)、空缺數(shù)據(jù)、分散數(shù)據(jù)[6];整合歸并不同數(shù)據(jù)源的數(shù)據(jù)文件;使用如采用分箱、聚類和回歸等方法對數(shù)據(jù)進(jìn)行規(guī)格化處理。
我們將數(shù)據(jù)表中每一行記錄定義為一個事務(wù),包含一個唯一的標(biāo)識TID(學(xué)號或教師號)和用戶的基礎(chǔ)信息(用戶類型、學(xué)院、專業(yè)、圖書名稱、圖書分類等)和借閱圖書信息,其中為了分析用戶基礎(chǔ)信息和圖書借閱信息之間的關(guān)聯(lián),為更好地開展實驗,本文根據(jù)中圖法對所借閱圖書進(jìn)行分類,以此來整合歸并用戶借閱圖書信息。實驗中,取到第四類,如分類號為TP3的圖書,按照中圖法分類,就是計算技術(shù)、計算機技術(shù)類圖書。然后將每一用戶借閱的書目放在同一個項集中,若該用戶借閱了該類書目,則通過借閱數(shù)量來進(jìn)行標(biāo)記。其處理結(jié)果如表1所示(部分代表數(shù)據(jù)),每條借閱記錄中包含著諸如以下幾個信息:用戶號(TID)、用戶類型(type)、用戶所在院系(dep)、用戶專業(yè)(major)、用戶借閱圖書名稱(title)及用戶對每本書的借閱情況(books)。
2.3? 用戶群體聚類分析
利用用戶借閱事務(wù)數(shù)據(jù)表,使用K-means聚類算法用戶進(jìn)行細(xì)分生成用戶相似群。本文對用戶借閱各類書目的次數(shù)聚類,將用戶分成行為具備共性聚簇,在各簇之間用戶借閱書目的類型和數(shù)量構(gòu)成比較接近,表現(xiàn)為對用戶借閱數(shù)量上不同,以及用戶借閱頻率的高低。在實際K-means聚類過程中,通過對K值的不斷調(diào)整,最終將K值確定為5,即將用戶細(xì)分為5個大類。用戶群體聚類分析結(jié)果如圖3所示。
在本次聚類分析中,用戶群體總計為11 305個用戶。從圖中聚類結(jié)果可以看出,用戶最多的為類1,占比52.5%,有5 935個用戶,該年度借閱圖書數(shù)量4.7本;聚類2中用戶數(shù)為3 742,占比33.10%,該年度借閱數(shù)量為12.3本;聚類3中用戶數(shù)為1 587,占比14.04%,該年度借閱數(shù)量為22.4本,聚類4中用戶數(shù)為36,占比0.32%,該年度借閱數(shù)量為42.6本??梢缘骄垲?、聚類2、聚類3、聚類4包括絕大分用戶,占比99.9%,表現(xiàn)為絕大部用戶年度借閱書目在4.7~42.6本,該校圖書總體利用率較低。聚類5中用戶數(shù)為5,屬于極個別情況,實際上由于方差太大,為52.04%,說明該類用戶的借閱行為在數(shù)據(jù)上體現(xiàn)為比較離散,不具備普適性。
2.4? 用戶行為模式分析
傳統(tǒng)的用戶行為屬性研究都是將全部信息作為產(chǎn)生規(guī)則的數(shù)據(jù)源或是主觀性的根據(jù)用戶的自身屬性特征(用戶所在院系,性別等因素)對用戶進(jìn)行分類,以每個類中的借閱信息作為產(chǎn)生規(guī)則的數(shù)據(jù)源,然后對每位用戶實行關(guān)聯(lián)[7]。本文利用Apriori關(guān)聯(lián)規(guī)則算法,根據(jù)借閱行為數(shù)據(jù)特點構(gòu)造用戶行為分析模型,同時在聚類群體數(shù)據(jù)的基礎(chǔ)上用戶類型、專業(yè)、學(xué)科等基礎(chǔ)信息等與書目之間進(jìn)一步深入挖掘,最后得到用戶行為規(guī)則和模式。如在數(shù)據(jù)挖掘過程中,發(fā)現(xiàn)大部分用戶借閱了“人工智能”的同時也借閱“統(tǒng)計學(xué)”這本書,我們認(rèn)為這兩本書存在一定關(guān)聯(lián),可以作為用戶借閱行為模式。圖4是本文構(gòu)建的用戶借閱行為模式關(guān)聯(lián)規(guī)則挖掘的模型。在此基礎(chǔ)找出有效的借閱規(guī)則,然后根據(jù)用戶的借閱興趣,向用戶推薦可能會感興趣的圖書。
本文進(jìn)行的用戶行為模式分析,主要包括兩個部分,一是利用用戶借閱圖書信息進(jìn)行關(guān)聯(lián)規(guī)則分析,二是在上文聚類出的5類相似群內(nèi)容進(jìn)一步進(jìn)行關(guān)聯(lián)規(guī)則挖掘。
2.5? 結(jié)果分析
在用戶行為模式反復(fù)挖掘過程中,我們調(diào)試試驗參數(shù),最后將最小支持度設(shè)置為52%,最小的置信度設(shè)置為60%,最后共生成126條關(guān)聯(lián)規(guī)則,部分結(jié)果如表2所示。如首條關(guān)聯(lián)規(guī)則顯示,借閱H和B類書目的用戶去借閱I類書目的概率為99.361%,借閱H、B、I類書目的事項的概率為65.199,其他關(guān)聯(lián)規(guī)則可類比解釋。在聚類出的5類相似群內(nèi)容進(jìn)一步進(jìn)行關(guān)聯(lián)規(guī)則挖掘,去掉一部分無效的關(guān)聯(lián)規(guī)則,我們發(fā)現(xiàn)了24條關(guān)聯(lián)規(guī)則。這些關(guān)聯(lián)規(guī)則可以作為用戶的行為規(guī)律和模式,可為圖書館合理豐富館藏、圖書采編、書架擺放、業(yè)務(wù)系統(tǒng)流程優(yōu)化等提供參考。
3? 結(jié)? 論
本文利用用戶圖書借閱行為數(shù)據(jù),使用K-means算法對用戶進(jìn)行聚簇形成相似群,然后選用Apriori關(guān)聯(lián)規(guī)則算法,并根據(jù)借閱行為數(shù)據(jù)特點構(gòu)造用戶行為分析模型,同時在聚類數(shù)據(jù)的基礎(chǔ)上進(jìn)一步深入挖掘,最后得到用戶行為規(guī)則和模式。目前的圖書館管理系統(tǒng)大多缺乏數(shù)據(jù)挖掘功能,本文研究有利于圖書館建設(shè)管理方全面掌握用戶的閱讀習(xí)慣和行為模式,通過對用戶的閱讀規(guī)律進(jìn)行分析,可為圖書館合理豐富館藏、圖書采編、書架擺放、業(yè)務(wù)系統(tǒng)流程優(yōu)化等提供參考,積極向用戶提供更加個性化的服務(wù)。
參考文獻(xiàn):
[1] 李寶.基于用戶畫像的高校圖書館個性化資源推薦服務(wù)設(shè)計 [J].新世紀(jì)圖書館,2021(4):68-75.
[2] 陳東華.計算機技術(shù)進(jìn)行圖書分類的問題探討 [J].中外企業(yè)家,2019(29):124.
[3] 喬鑫鑫.信息化技術(shù)在圖書管理中的應(yīng)用 [J].電子技術(shù)與軟件工程,2021(2):235-236.
[4] 張媛玲.互聯(lián)網(wǎng)時代的圖書管理信息化建設(shè)探索 [J].漢字文化,2018(17):119-120.
[5] MAURI M,ELLI T,CAVIGLIA G,et al. Rawgraphs:a visualisation platform to create open outputs [C]//CHItaly17:Proceedings of the 12th Biannual Conference on Italian SIGCHI Chapter.Cagliari:Association for Computing Machinery,2017:1-5.
[6] 姜云龍.基于數(shù)據(jù)挖掘的高校大學(xué)生讀者閱讀趨向研究 [D].東北師范大學(xué),2016.
[7] 李文華.基于Apriori關(guān)聯(lián)分析與協(xié)同過濾的圖書推薦算法 [J].電腦知識與技術(shù),2017,13(33):32-33+35.
作者簡介:劉璐璐(1991—)女,漢族,安徽宿州人,館員,碩士研究生,研究方向:計算機。E5787314-7492-4389-B566-4A8809DEA7D0