国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于改進(jìn)K-Means算法的圖書(shū)館讀者閱讀需求實(shí)證研究

2020-07-14 09:25孫衛(wèi)忠張楠李亞函
新世紀(jì)圖書(shū)館 2020年5期
關(guān)鍵詞:實(shí)證研究圖書(shū)館

孫衛(wèi)忠 張楠 李亞函

摘 要 論文對(duì)圖書(shū)館讀者的需求偏好進(jìn)行數(shù)據(jù)挖掘,能夠?yàn)閳D書(shū)館開(kāi)展個(gè)性化主動(dòng)服務(wù)提供有效參考。由于傳統(tǒng)K-Means算法存在對(duì)初始中心敏感的問(wèn)題,文章從數(shù)據(jù)內(nèi)部分布特征出發(fā),提出改進(jìn)K-Means的算法,對(duì)圖書(shū)館讀者閱讀需求進(jìn)行了實(shí)證研究。結(jié)果顯示,讀者的閱讀需求存在差異性,從而針對(duì)讀者閱讀需求提出提升高校圖書(shū)館個(gè)性化服務(wù)的對(duì)策建議。

關(guān)鍵詞 圖書(shū)館? 讀者閱讀需求? 改進(jìn)K-Means算法? 實(shí)證研究

分類(lèi)號(hào) G252

DOI 10.16810/j.cnki.1672-514X.2020.05.011

Abstract Data mining of library readers demand preferences can provide an effective reference for libraries to carry out personalized and active services and rationally allocate collection resources. Because the traditional K-Means algorithm is sensitive to the initial center, this paper proposes an improved K-Means algorithm based on the internal distribution of data, and makes an empirical study on the reading needs of library readers. The results show that there are differences in the reading needs of readers, so the countermeasures and suggestions to improve the personalized service of university library are put forward.

.Keywords Library. Readers reading needs. Improved K-Means algorithm. Empirical research.

0 引言

大數(shù)據(jù)時(shí)代,隨著信息技術(shù)的迅猛發(fā)展,高校圖書(shū)館的服務(wù)模式正由“以資源建設(shè)為中心”向“以讀者服務(wù)為中心”進(jìn)行轉(zhuǎn)變,個(gè)性化主動(dòng)服務(wù)得到發(fā)展[1]。個(gè)性化服務(wù)要求圖書(shū)館能夠依據(jù)用戶(hù)的信息行為特征和興趣愛(ài)好等,提供以讀者需求為導(dǎo)向的圖書(shū)服務(wù)和知識(shí)服務(wù)[2]。因此,跟蹤讀者的興趣和閱讀行為成為圖書(shū)館開(kāi)展個(gè)性化服務(wù)的重要前提。而在高校圖書(shū)館管理系統(tǒng)中,存儲(chǔ)著大量的讀者借閱行為數(shù)據(jù),這些數(shù)據(jù)中蘊(yùn)含著讀者的借閱特征和需求偏好,對(duì)圖書(shū)館個(gè)性化主動(dòng)服務(wù)的開(kāi)展具有重要指導(dǎo)價(jià)值。面對(duì)大量且繁雜的數(shù)據(jù)信息,如何從中提取有價(jià)值且便于圖書(shū)館滿(mǎn)足讀者閱讀個(gè)性化需求的信息是目前最迫切需要解決的問(wèn)題。聚類(lèi)分析作為數(shù)據(jù)挖掘的一項(xiàng)重要技術(shù),能夠發(fā)現(xiàn)蘊(yùn)含于海量數(shù)據(jù)中的隱藏模式和有價(jià)值信息。因此,本文基于聚類(lèi)算法對(duì)高校圖書(shū)館讀者的借閱行為進(jìn)行數(shù)據(jù)挖掘,可以為圖書(shū)館個(gè)性化服務(wù)的開(kāi)展提供有益參考。

1 文獻(xiàn)綜述

讀者閱讀需求問(wèn)題一直以來(lái)都被專(zhuān)家學(xué)者視為研究重點(diǎn),學(xué)界也很早就認(rèn)識(shí)到研究讀者閱讀需求的重要性[3]。著名圖書(shū)館學(xué)家阮岡納贊所提出的“圖書(shū)館學(xué)五定律”便是對(duì)圖書(shū)館讀者需求重要性的典型詮釋。隨著圖書(shū)館外部環(huán)境的深刻變革,以讀者為中心、以需求為導(dǎo)向的服務(wù)理念逐漸成為圖書(shū)館界共識(shí),并在相關(guān)研究領(lǐng)域發(fā)揮著引領(lǐng)作用[4]。

國(guó)外學(xué)者Schulman(1998年)[5]指出,圖書(shū)館讀者數(shù)據(jù)增量迅速、總量巨大,若單純依靠人工分析具有很大難度,因此需要借助數(shù)據(jù)挖掘,技術(shù)建構(gòu)決策支持庫(kù)系統(tǒng)等來(lái)對(duì)讀者閱讀行為開(kāi)展分析,從而依據(jù)讀者借閱特點(diǎn)來(lái)確定圖書(shū)館的發(fā)展方向和政策制定。加州大學(xué)Michael Coope(2001年)[6]利用時(shí)間序列、聚類(lèi)等方法設(shè)計(jì)了相關(guān)模型,對(duì)加州大學(xué)數(shù)字圖書(shū)館的流通數(shù)據(jù)進(jìn)行挖掘分析,發(fā)現(xiàn)不同讀者在查詢(xún)時(shí)間、次數(shù)等方面特點(diǎn),從中分析出讀者閱讀興趣,預(yù)測(cè)讀者行為。Papatheodorou(2003年) 等人[7]運(yùn)用CLIQUE聚類(lèi)算法分析了圖書(shū)館數(shù)字化數(shù)據(jù),找出讀者共同的興趣后,將讀者劃分到不同群組中構(gòu)建讀者群,提供個(gè)性化服務(wù)。Kovacevic(2010年) 等人[8]通過(guò)對(duì)用戶(hù)基本信息和搜索歷史數(shù)據(jù)進(jìn)行分析挖掘,實(shí)現(xiàn)數(shù)字圖書(shū)館推薦服務(wù)。

隨著信息技術(shù)的發(fā)展和大數(shù)據(jù)時(shí)代的來(lái)臨,數(shù)據(jù)挖掘在圖書(shū)館個(gè)性化服務(wù)中發(fā)揮著愈加重要的作用。國(guó)內(nèi)學(xué)者李文闊(2012年)[9]對(duì)數(shù)據(jù)挖掘在數(shù)字圖書(shū)館資源建設(shè)、讀者分析、個(gè)性化服務(wù)等方面的研究和應(yīng)用進(jìn)行了述評(píng),提出數(shù)據(jù)挖掘技術(shù)在圖書(shū)館應(yīng)用中的重要性。吳志強(qiáng)(2011年)[10]、趙彥輝(2012年)[11]分別基于K-Means算法,以讀者的歷史借閱行為記錄數(shù)據(jù)作為研究對(duì)象進(jìn)行了實(shí)踐探索,對(duì)讀者借閱活躍度或興趣特征等進(jìn)行群體劃分,獲取讀者差異化的閱讀需求。王偉(2012年)[12]利用聚類(lèi)、關(guān)聯(lián)等數(shù)據(jù)挖掘技術(shù)構(gòu)建了圖書(shū)館用戶(hù)行為模型,并進(jìn)行了理論探討,指出通過(guò)這些模型可以有效地提高圖書(shū)館面向用戶(hù)的個(gè)性化服務(wù)水平。馬芳(2014年)[13]也認(rèn)為采用數(shù)據(jù)挖掘技術(shù)中的聚類(lèi)算法,對(duì)圖書(shū)館中的流通數(shù)據(jù)進(jìn)行聚類(lèi)分析,將讀者劃分為不同閱讀興趣的群體,分析不同讀者群的信息需求,對(duì)提高圖書(shū)館的服務(wù)質(zhì)量非常有益。

隨著相關(guān)研究的不斷深入,國(guó)內(nèi)外學(xué)者針對(duì)K-Means存在的缺陷也提出了不同的改進(jìn)方案。Arthur和Vassilvitskii(2007年)[14]設(shè)計(jì)了K-Means++算法,Tzortzis和Likas (2011年)[15]提出了MinMax K-Means算法,但是單純以最遠(yuǎn)距離為原則容易使算法初始聚類(lèi)中心相互分隔,選到離群點(diǎn)[16]。宋楚平(2014年)[17]、陳小雪(2018年)[18]分別結(jié)合螢火蟲(chóng)算法、遺傳算法等智能算法的全局最優(yōu)收斂特性對(duì)K-Means進(jìn)行了改進(jìn),取得了理想的聚類(lèi)效果,不過(guò)在實(shí)踐中這些方法還沒(méi)有被廣泛接受[19]。何云斌(2016年)[20]、蔣麗(2018年)[21]等人則提出了結(jié)合密度與距離因素的改進(jìn)方案,選出有代表性的初始中心點(diǎn)。但這些算法在度量點(diǎn)密度時(shí),籠統(tǒng)地采用某一鄰域范圍內(nèi)樣本點(diǎn)的數(shù)量統(tǒng)計(jì),并不能很好地體現(xiàn)數(shù)據(jù)分布的疏密程度。而且在確定鄰域范圍時(shí),需要確定相應(yīng)的參數(shù),這些都不同程度地依賴(lài)于算法執(zhí)行者的領(lǐng)域知識(shí)或相關(guān)經(jīng)驗(yàn),缺乏客觀性。

通過(guò)文獻(xiàn)梳理可以看出,目前對(duì)圖書(shū)館讀者借閱行為數(shù)據(jù)的數(shù)據(jù)挖掘,大多停留在理論探討階段,實(shí)踐操作不足,缺乏相關(guān)數(shù)據(jù)特征下算法的具體應(yīng)用,所得結(jié)果的精確性和實(shí)用性有待提升。本文在前人研究的基礎(chǔ)上,結(jié)合圖書(shū)館讀者借閱數(shù)據(jù)的特點(diǎn),從數(shù)據(jù)內(nèi)部分布特征出發(fā),提出改進(jìn)的K-Means算法,并運(yùn)用該算法對(duì)圖書(shū)館讀者需求進(jìn)行實(shí)證研究,挖掘讀者需求偏好,為高校圖書(shū)館個(gè)性化服務(wù)的開(kāi)展提供依據(jù)。

2 傳統(tǒng)K均值聚類(lèi)方法局限及改進(jìn)設(shè)想

2.1 傳統(tǒng)K-Means聚類(lèi)方法局限性

傳統(tǒng)K-Means聚類(lèi)方法的核心思想是基于相似度函數(shù)把給定的數(shù)據(jù)集劃分為k個(gè)類(lèi)簇,經(jīng)過(guò)不斷地迭代使得聚類(lèi)的目標(biāo)函數(shù)值,即每個(gè)類(lèi)別中的對(duì)象到其所屬簇中心的平方誤差和(sum of the squared error, SSE) 最小。

雖然K-Means算法由于簡(jiǎn)單高效等優(yōu)勢(shì)而備受關(guān)注,但其仍存在一定的局限性。

(1) 聚類(lèi)結(jié)果過(guò)度依賴(lài)于初始值的選取,聚類(lèi)結(jié)果準(zhǔn)確性和穩(wěn)定性欠佳。K-Means算法在運(yùn)行前需要預(yù)先指定初始聚類(lèi)中心,而傳統(tǒng)K-Means算法的初始中心是從數(shù)據(jù)集中隨機(jī)產(chǎn)生的,從不同的初始聚類(lèi)中心出發(fā)迭代后可能會(huì)得到不同的結(jié)果。隨機(jī)選取初始中心,不僅會(huì)使聚類(lèi)結(jié)果不穩(wěn)定,進(jìn)而增加用戶(hù)負(fù)擔(dān),還會(huì)造成算法過(guò)早收斂于局部最優(yōu),使得聚類(lèi)質(zhì)量欠佳,如圖1所示。

如果選出的初始中心比較接近實(shí)際,則所得結(jié)果較為真實(shí)準(zhǔn)確,如圖1(a)所示;若隨機(jī)選取初始中心,則會(huì)出現(xiàn)如圖1(b)所示的選到邊緣點(diǎn)的情況,聚類(lèi)結(jié)果就會(huì)出現(xiàn)較大誤差。

(2)算法對(duì)離群點(diǎn)非常敏感,聚類(lèi)結(jié)果存在較大誤差。從K-Means算法步驟可以看出,K-Means算法在一次迭代完成后,需要重新計(jì)算聚類(lèi)中心,噪聲點(diǎn)和孤立點(diǎn)的存在勢(shì)必會(huì)對(duì)數(shù)據(jù)平均值產(chǎn)生極大的影響,從而造成更新后的類(lèi)簇中心偏離數(shù)據(jù)密集區(qū),使最終的聚類(lèi)結(jié)果存在較大的誤差。

2.2 改進(jìn)K-Means算法

針對(duì)以上問(wèn)題,本文提出了一種基于自然最近鄰密度和最大最小距離原則優(yōu)化選取初始聚類(lèi)中心的改進(jìn)K-Means算法,該算法從數(shù)據(jù)內(nèi)部分布特征出發(fā),能夠自適應(yīng)地確定數(shù)據(jù)密度,避免人為參數(shù)設(shè)置問(wèn)題,客觀真實(shí)的反應(yīng)數(shù)據(jù)分布特征,找到較高質(zhì)量的初始中心,以解決傳統(tǒng)算法隨機(jī)選取初始中心點(diǎn)不具有代表性的缺點(diǎn),同時(shí)可摒除離群點(diǎn)對(duì)聚類(lèi)結(jié)果的影響,以期能夠在對(duì)圖書(shū)館讀者聚類(lèi)分群時(shí),提升分析結(jié)果的準(zhǔn)確性和有效性。改進(jìn)算法流程如下。

Step1:對(duì)于數(shù)據(jù)集按照自然最近鄰搜索算法找出每個(gè)樣本點(diǎn)的自然最近鄰,確定各點(diǎn)的密度函數(shù),公式為:

其中,nb(i)表示數(shù)據(jù)樣本點(diǎn)在其余樣本對(duì)象的r鄰域中出現(xiàn)的次數(shù),即樣本i的自然最近鄰居數(shù),表示各點(diǎn)的自然最近鄰集合,則為點(diǎn)xi、yj間的歐式距離。

Step2:刪去滿(mǎn)足條件的稀疏樣本點(diǎn),得到密集樣本點(diǎn)集合。

Step3:選取中密度最大者即的x作為第一個(gè)初始聚類(lèi)中心點(diǎn)c1;以上文所述最遠(yuǎn)距離為標(biāo)準(zhǔn),尋找第二個(gè)中心點(diǎn)c2;以此類(lèi)推,直到得到k個(gè)初始聚類(lèi)中心。

Step4:計(jì)算數(shù)據(jù)集屬性權(quán)重(其中),相應(yīng)的相似度判別函數(shù)改為,其中,i=1,2,…,m,h=1,2,…,k。

Step5:計(jì)算中所有樣本點(diǎn)與step3中所得k個(gè)初始聚類(lèi)中心的加權(quán)歐式距離wdist(x,c),其中,將每個(gè)點(diǎn)指派到最近的中心,形成k個(gè)類(lèi)簇,每個(gè)類(lèi)簇以其聚類(lèi)中心表示。

Step6:根據(jù)Step5的聚類(lèi)結(jié)果重新計(jì)算聚類(lèi)中心,其中表示聚類(lèi)中的樣本總個(gè)數(shù)。

Step7:將Step6中結(jié)果作為輸入重復(fù)Step5,直到聚類(lèi)簇中心不再發(fā)生改變或者聚類(lèi)達(dá)到最大迭代次數(shù)。

Step8:輸出k個(gè)類(lèi)簇。

為檢驗(yàn)改進(jìn)后K-Means算法的聚類(lèi)性能,釆用UCI(University of California,Irvine)提供的機(jī)器學(xué)習(xí)數(shù)據(jù)庫(kù)中的兩個(gè)常用數(shù)據(jù)集Iris和Wine作為標(biāo)準(zhǔn)測(cè)試數(shù)據(jù)集來(lái)對(duì)算法進(jìn)行測(cè)試。實(shí)驗(yàn)系統(tǒng)為windows8.1,采用Python2.7在PyCharm編程環(huán)境下進(jìn)行試驗(yàn)。主要性能評(píng)價(jià)指標(biāo)有:對(duì)初始聚類(lèi)中心選取的合理性、聚類(lèi)準(zhǔn)確率和迭代次數(shù)。

為了驗(yàn)證算法選取的初始值的合理性,實(shí)驗(yàn)采用選定初始中心第一次聚類(lèi)后的目標(biāo)函數(shù)值J1對(duì)算法進(jìn)行判定;若目標(biāo)值J1越小,說(shuō)明選定的初始值越接近真實(shí)的聚類(lèi)中心,即選定的初始值越合理。另外,若同時(shí)算法的結(jié)果準(zhǔn)確率越高、迭代次數(shù)越少,則證明改進(jìn)后算法性也能更高效。

分別將本文算法與傳統(tǒng)算法及David和Sergei(2007年)提出的基于最大距離原則選取初始值的K-Means++進(jìn)行對(duì)比實(shí)驗(yàn),算法的聚類(lèi)性能對(duì)比結(jié)果如表1所示。為了便于描述,本文算法記作TNKM。

從表1數(shù)據(jù)可知,本文算法的J1值要明顯低于傳統(tǒng)算法和K-Means++算法,說(shuō)明經(jīng)本文改進(jìn)后的算法,在選取初始中心上是更為合理的。同時(shí),本文方法得到的聚類(lèi)結(jié)果準(zhǔn)確率更高,算法的迭代次數(shù)也明顯減少,由此證明本文優(yōu)化選取初始聚類(lèi)中心的方法能夠提高算法聚類(lèi)性能。此外,根據(jù)圖2、圖3中折線的波動(dòng)情況,說(shuō)明本文算法相對(duì)來(lái)說(shuō)更為穩(wěn)定。

3 實(shí)證分析

3.1 數(shù)據(jù)來(lái)源

讀者借閱量是讀者對(duì)閱讀喜愛(ài)程度的重要體現(xiàn),而讀者所借閱的圖書(shū)類(lèi)型是讀者閱讀趨向和興趣愛(ài)好的體現(xiàn),因此本文選取河北工業(yè)大學(xué)圖書(shū)館2017年的讀者歷史借閱行為數(shù)據(jù),共計(jì)121 144條,從中整理出讀者的借閱量和借閱類(lèi)型,利用聚類(lèi)算法進(jìn)行實(shí)證分析。

3.2 數(shù)據(jù)預(yù)處理

在進(jìn)行數(shù)據(jù)挖掘時(shí),確保待分析數(shù)據(jù)的質(zhì)量對(duì)挖掘結(jié)果起著決定性的作用,缺失的數(shù)據(jù)或不正確、不一致的數(shù)據(jù)都可能會(huì)導(dǎo)致分析結(jié)果產(chǎn)生錯(cuò)誤或較大誤差,因此首先對(duì)數(shù)據(jù)進(jìn)行預(yù)處理是十分必要的。數(shù)據(jù)預(yù)處理包括數(shù)據(jù)的清理、轉(zhuǎn)換、規(guī)約和集成等過(guò)程,它是數(shù)據(jù)挖掘過(guò)程中最耗費(fèi)時(shí)間和精力的部分,其工作量幾乎占到全過(guò)程的60%甚至更高[22]。由于圖書(shū)館原始借閱數(shù)據(jù)中往往含有噪聲、冗余和不完整信息,同時(shí)數(shù)據(jù)格式也需要根據(jù)不同挖掘目的進(jìn)行處理,因此我們首先需要對(duì)采集到的數(shù)據(jù)進(jìn)行預(yù)處理。

根據(jù)不同的分析目的,對(duì)數(shù)據(jù)做出不同處理。數(shù)據(jù)的清洗、合并等主要預(yù)處理過(guò)程,通過(guò)調(diào)用python中第三方庫(kù)pandas來(lái)實(shí)現(xiàn),首先將excel文件數(shù)據(jù)轉(zhuǎn)為Dataframe,之后調(diào)用pandas的相關(guān)方法實(shí)現(xiàn)相應(yīng)的處理要求。

3.3 聚類(lèi)分析框架

基于上述改進(jìn)K-Means算法構(gòu)建圖書(shū)館讀者需求聚類(lèi)分析框架,如圖4所示。

3.4 實(shí)證分析結(jié)果

3.4.1 讀者借閱喜好程度聚類(lèi)分析

通過(guò)聚類(lèi)分析,根據(jù)讀者借閱圖書(shū)的積極性可以將讀者分為不同層次,幫助圖書(shū)館定位讀者群體在閱讀需求上的差異性,制定個(gè)性化的服務(wù)策略。應(yīng)用改進(jìn)K-Means算法對(duì)讀者借閱喜好程度進(jìn)行聚類(lèi)分析,得到結(jié)果如表2和圖5所示。

群組一:借閱量少,借閱類(lèi)型少,借閱時(shí)長(zhǎng)一般,屬于惰性用戶(hù)。該類(lèi)用戶(hù)占所有分析用戶(hù)的78.00%,該群體借閱記錄數(shù)和借閱類(lèi)型數(shù)均不高,借閱時(shí)長(zhǎng)一般。特征:讀書(shū)時(shí)間較少,主要花時(shí)間關(guān)注個(gè)別圖書(shū),對(duì)其他書(shū)目發(fā)掘度較低,對(duì)圖書(shū)館利用不充分。

群組二:借閱量和借閱時(shí)長(zhǎng)均較高,借閱類(lèi)型也多,興趣廣泛,屬于活躍用戶(hù),約占所有分析用戶(hù)的2.38%。該群體借閱量高,借閱種類(lèi)較多,借閱時(shí)長(zhǎng)也很高。特征:該類(lèi)用戶(hù)熱愛(ài)讀書(shū),且有比較鐘愛(ài)的圖書(shū)類(lèi)型,但也喜好去發(fā)現(xiàn)新書(shū)目,涉獵廣泛。

群組三:借閱量、借閱類(lèi)型和借閱時(shí)長(zhǎng)都在群組一與群組二之間,愛(ài)好廣泛,約占所有分析用戶(hù)的32.46%。該群體用戶(hù)各屬性值處于中等位置,屬于一般用戶(hù)。特征:愛(ài)好廣泛,借閱量一般。

3.4.2 讀者興趣聚類(lèi)分析

以讀者借閱圖書(shū)類(lèi)別為屬性對(duì)讀者聚類(lèi),得到讀者閱讀興趣“同好”群,輸入改進(jìn)的K-Means算法模型,進(jìn)行挖掘分析。本文以中圖分類(lèi)號(hào)為I的文學(xué)類(lèi)圖書(shū)借閱記錄為例進(jìn)行實(shí)例分析。

(1) 確定值。

在利用K-Means算法進(jìn)行聚類(lèi)時(shí),k值的確定有時(shí)可根據(jù)具體應(yīng)用目的進(jìn)行確定,如根據(jù)衣服尺寸相關(guān)數(shù)據(jù)聚類(lèi)時(shí),k通常取3,對(duì)應(yīng)衣服S、M、L三個(gè)尺寸。而此時(shí)我們?cè)趯?duì)讀者興趣聚類(lèi)時(shí),并不明確在這些數(shù)據(jù)中隱藏著多少興趣類(lèi)別,所以通過(guò)分析聚類(lèi)結(jié)果的相關(guān)指標(biāo)來(lái)確定值。繪制不同值下,其輪廓系數(shù)(SH)與目標(biāo)函數(shù)值(SSE)走勢(shì)圖,如圖6所示。

在得到讀者的興趣群體劃分結(jié)果之后,則可以通過(guò)分析興趣群中“同好”用戶(hù)的借閱記錄數(shù)據(jù),作為下一步開(kāi)展推薦工作的部分參考依據(jù),如針對(duì)某一喜歡日本文學(xué)的目標(biāo)用戶(hù)14在興趣群2中找出與其最為相似的幾個(gè)用戶(hù),并將這些用戶(hù)的相關(guān)借閱推薦給該用戶(hù)。

3.4.3 圖書(shū)借閱量聚類(lèi)分析

按讀者的借閱情況對(duì)圖書(shū)進(jìn)行聚類(lèi),可以細(xì)分圖書(shū)需求層次,發(fā)掘讀者偏愛(ài)的書(shū)目類(lèi)別,揭示讀者的閱讀趨向。按照改進(jìn)的K-Means聚類(lèi)模型,取k=3,即將圖書(shū)分為高、中、低三個(gè)不同需求層次。聚類(lèi)結(jié)果如表5、表6所示。

群組一:高頻被借閱圖書(shū)。借閱次數(shù)多,借閱時(shí)間長(zhǎng),續(xù)借次數(shù)高,使用價(jià)值很高。

該群組包括6個(gè)圖書(shū)類(lèi)別,占所有被借閱圖書(shū)的0.36%。該群組圖書(shū)滿(mǎn)足了讀者14.10%的需求,其在三個(gè)方面都保持在較高的水平,借閱時(shí)間較長(zhǎng)說(shuō)明用戶(hù)借閱之后使用的時(shí)間很長(zhǎng),利用的比較充分,加上較高的借閱次數(shù)和續(xù)借次數(shù),表明用戶(hù)對(duì)該群組的圖書(shū)是極為依賴(lài)的。因此,應(yīng)尤其注意該群組中相關(guān)圖書(shū)的維護(hù)與建設(shè)。

群組二:中頻被借閱圖書(shū)。借閱次數(shù)、借閱時(shí)間長(zhǎng)和續(xù)借次數(shù)居中,使用價(jià)值高。

該群組包括51個(gè)圖書(shū)類(lèi)別,占所有被借閱圖書(shū)的3.11%。該群組中的51類(lèi)圖書(shū)構(gòu)成了將近6成的需求,屬于普遍流行性圖書(shū)。因此可參考二八法則,保持與提升群組一、二類(lèi)圖書(shū)的建設(shè),這可幫助圖書(shū)館達(dá)到滿(mǎn)足絕大多數(shù)讀者需求的目的。

群組三:低頻被借閱圖書(shū)。借閱次數(shù)、借閱時(shí)間長(zhǎng)和續(xù)借次數(shù)均比較偏低,使用價(jià)值低。

該群組包括1584個(gè)圖書(shū)類(lèi)別,卻僅滿(mǎn)足了不足三成的需求。該群體中讀者借閱記錄不多,卻涵蓋了千種圖書(shū)小類(lèi),因此應(yīng)考慮適度減少配置。

從表6可以看出,讀者的借閱傾向集中于TP312(程序語(yǔ)言、算法語(yǔ)言)、TQ02(化工過(guò)程)、H319.4(英語(yǔ)讀物)、I267(現(xiàn)代散文)、TH122(機(jī)械設(shè)計(jì))、TM1(電工基礎(chǔ)理論)、TN911.73(圖像信號(hào)處理)、O61和O62(無(wú)機(jī)化學(xué)和有機(jī)化學(xué))、TP273(自動(dòng)控制系統(tǒng))等等。其中,計(jì)算機(jī)技術(shù)和自動(dòng)化技術(shù)類(lèi)、數(shù)學(xué)類(lèi)、機(jī)械設(shè)計(jì)類(lèi)、化學(xué)化工類(lèi)、電工類(lèi)等需求比較大,這在實(shí)際上也與河北工業(yè)大學(xué)作為理工類(lèi)院校的性質(zhì)及其優(yōu)勢(shì)專(zhuān)業(yè)相一致。

4 針對(duì)讀者閱讀需求提升高校圖書(shū)館個(gè)性化服務(wù)的對(duì)策建議

4.1 根據(jù)讀者群活躍度,制定個(gè)性化服務(wù)政策

通過(guò)讀者借閱喜好程度聚類(lèi)分析結(jié)果可知,不同讀者群的活躍度呈現(xiàn)出明顯差別,隨著借閱量的增加,每一類(lèi)包含的讀者數(shù)隨之減少,可見(jiàn)大部分讀者對(duì)圖書(shū)館的利用率并不高,且活躍讀者和惰性讀者的年均借閱量差異相當(dāng)大,因此“因人而異”制定個(gè)性化服務(wù)政策很有必要。例如,針對(duì)借書(shū)量較高的讀者,可以基于其豐富的借閱數(shù)據(jù)獲取其閱讀興趣,提供進(jìn)一步的個(gè)性化圖書(shū)推薦服務(wù);同時(shí),也可以考慮放寬最大借書(shū)冊(cè)數(shù)和歸還日期等限制,提供更為人性化的服務(wù)。而對(duì)于中低頻率閱讀者應(yīng)制定相關(guān)服務(wù)方案,適時(shí)開(kāi)展引導(dǎo)式閱讀推廣活動(dòng),培養(yǎng)其閱讀習(xí)慣、增強(qiáng)其閱讀粘性。

4.2 把握讀者的借閱趨向,優(yōu)化館藏資源建設(shè)

從讀者興趣聚類(lèi)分析可知,對(duì)具有相同閱讀興趣的讀者進(jìn)行分群劃分,實(shí)現(xiàn)“同好”歸類(lèi),可以讓圖書(shū)館準(zhǔn)確把握讀者的興趣需求,這有助于圖書(shū)館為不同讀者興趣群提供個(gè)性化的信息推送服務(wù)。從圖書(shū)借閱量的聚類(lèi)分析結(jié)果上來(lái)看,高、低頻被借閱圖書(shū)的平均借閱量差距相當(dāng)懸殊。高、中頻使用層次圖書(shū)體現(xiàn)著讀者的借閱熱點(diǎn)和主要傾向,對(duì)此類(lèi)圖書(shū)圖書(shū)館應(yīng)該加強(qiáng)其資源建設(shè),可以通過(guò)調(diào)整高中頻被借閱圖書(shū)復(fù)本量來(lái)滿(mǎn)足讀者需求。低頻借閱層次圖書(shū),資源總量大但需求卻比較小,因此圖書(shū)館應(yīng)該采取措施進(jìn)行推廣,如定期邀請(qǐng)嘉賓分享閱讀體會(huì)、舉辦讀書(shū)會(huì)等活動(dòng),提高其利用率,并且適當(dāng)縮減低頻圖書(shū)的采購(gòu)規(guī)模,動(dòng)態(tài)調(diào)整館藏結(jié)構(gòu)和布局,以滿(mǎn)足讀者的閱讀需求。

4.3 加強(qiáng)館員素質(zhì)建設(shè),為個(gè)性化服務(wù)提供保障

館員作為圖書(shū)館服務(wù)的創(chuàng)造者和實(shí)踐者,其綜合素質(zhì)對(duì)圖書(shū)館個(gè)性化服務(wù)的開(kāi)展起著關(guān)鍵作用。一方面,在信息時(shí)代的大背景下,圖書(shū)館要積極引進(jìn)人工智能、計(jì)算機(jī)等科技人才,為圖書(shū)館個(gè)性化服務(wù)提供穩(wěn)定的人力資源支持和技術(shù)支撐。另一方面,圖書(shū)館還應(yīng)該建立行之有效的館員培訓(xùn)機(jī)制,加強(qiáng)館員素質(zhì)建設(shè),保證館內(nèi)擁有一批具有較強(qiáng)實(shí)驗(yàn)?zāi)芰?、操作能力、良好?chuàng)造性及與讀者溝通能力的人員,為圖書(shū)館個(gè)性化服務(wù)提供保障。

參考文獻(xiàn):

陳祖琴.基于語(yǔ)義路徑的個(gè)性化知識(shí)服務(wù)[J].圖書(shū)情報(bào)工作,2011,55(15):106-109.

曹樹(shù)金,羅春榮,馬利霞.論圖書(shū)館個(gè)性化服務(wù)的幾個(gè)基本問(wèn)題[J].大學(xué)圖書(shū)館學(xué)報(bào),2005(6):33-39.

王春曉. 以需求為導(dǎo)向的用戶(hù)信息行為研究[D].長(zhǎng)春: 東北師范大學(xué),2012:23-28

李賀,毛剛,李琳.我國(guó)圖書(shū)館用戶(hù)需求研究綜述[J]. 圖書(shū)館學(xué)研究, 2013(10): 5-15.

SCHULMAN S. Data mining: life after report generators libraries use decision-support techniqueto chart a future course[J].Information Today, 1998,15(3):52.

MICHJAEL C. Usage pattern of a web based library catalog[J].Journal of the American Society for Information Science & Technology, 2001,52(2):137-148.

PAPATHEODOROU C, KAPIDAKIS S, SFAKAKIS M, et al. Mining user communities in digital libraries[J]. Information Technology and Libraries, 2003,22(4): 152-157.

KOVACEVIC A, DEVEDZIC V, POCAJT V. Using data mining to improve digital library services[J]. Electronic Library, 2010,28(6):829-843.

李文闊,李永先.數(shù)據(jù)挖掘在數(shù)字圖書(shū)館中的應(yīng)用研究綜述[J].新世紀(jì)圖書(shū)館,2012(2):30-33.

吳志強(qiáng).基于聚類(lèi)分析的讀者閱讀傾向研究[J].圖書(shū)情報(bào)工作,2011,55(15):82-84,135.

趙彥輝.基于流通數(shù)據(jù)挖掘的讀者閱讀興趣本體模型構(gòu)建[J].圖書(shū)情報(bào)工作,2012,56(3):121-124.

王偉.基于數(shù)據(jù)挖掘的圖書(shū)館用戶(hù)行為分析與偏好研究[J].情報(bào)科學(xué),2012,30(3):391-394,418.

馬芳.SOM聚類(lèi)技術(shù)在讀者行為分析中的應(yīng)用[J].數(shù)字圖書(shū)館論壇,2014(6): 63-67.

ARTHUR D, VASSILVITSKII S. K-means++: the advantages of careful seeding[J]. Proc of 18th annual ACM-SIAM symposium on Discrete algorithms.New Orleans.2007(1):1027-1035.

TZORTZIS G,LIKAS A. The minmax k-meansclustering algorithm[J].Pattern Recognition,2011,44(4):866-876.

楊賢,王豐華,段若晨,等.基于優(yōu)化K-Means的變壓器繞組機(jī)械狀態(tài)檢測(cè)[J].高電壓技術(shù),2018,44(6):2027-2032.

宋楚平,李少芹.一種K-Means改進(jìn)算法在圖書(shū)館主題挖掘中的應(yīng)用研究[J].情報(bào)理論與實(shí)踐, 2014,37(11):120-123.

陳小雪,尉永清,任敏,等.基于螢火蟲(chóng)優(yōu)化的加權(quán)K-means算法[J].計(jì)算機(jī)應(yīng)用研究,2018,35(2):466-470.

周本金,陶以政,紀(jì)斌,等.最小化誤差平方和K-Means

初始聚類(lèi)中心優(yōu)化方法[J].計(jì)算機(jī)工程與應(yīng)用,2018,54(15):48-52.

何云斌,劉雪嬌,王知強(qiáng),等.基于全局中心的高密度不唯一的K-means算法研究[J].計(jì)算機(jī)工程與應(yīng)用,2016,52(1):48-54.

蔣麗,薛善良.優(yōu)化初始聚類(lèi)中心及確定K值的K-means算法[J].計(jì)算機(jī)與數(shù)字工程, 2018,46(1):21-24,113.

周煒奔,石躍祥.基于密度的K-Means聚類(lèi)中心選取的優(yōu)化算法[J].計(jì)算機(jī)應(yīng)用研究,2012,29(5):1726-1728.

猜你喜歡
實(shí)證研究圖書(shū)館
圖書(shū)館
氣味圖書(shū)館
歡迎到圖書(shū)館做客
中國(guó)在新農(nóng)村建設(shè)中金融支持的實(shí)證研究
簡(jiǎn)述翻譯研究中實(shí)證研究法的應(yīng)用
玉雕專(zhuān)業(yè)學(xué)生專(zhuān)業(yè)認(rèn)同的實(shí)證研究
溫州小微企業(yè)融資環(huán)境及能力分析
認(rèn)知語(yǔ)言視角下英語(yǔ)詞匯多義習(xí)得的實(shí)證研究
實(shí)證分析會(huì)計(jì)信息對(duì)股價(jià)的影響
去圖書(shū)館
蒙阴县| 肇州县| 潞城市| 虹口区| 乌兰察布市| 临邑县| 河曲县| 巴彦淖尔市| 常州市| 玛沁县| 东安县| 陇南市| 宝坻区| 光山县| 墨竹工卡县| 慈利县| 札达县| 乌什县| 连南| 中超| 青龙| 福安市| 榕江县| 巴南区| 南平市| 永吉县| 内丘县| 若羌县| 佛坪县| 中卫市| 溆浦县| 阿合奇县| 新安县| 读书| 新昌县| 麻栗坡县| 阿城市| 黄大仙区| 西藏| 昔阳县| 宁安市|