盛銓 方嵩松
摘要:以OPAC后臺日志數(shù)據為基礎,從中提取相關的有效字段,運用K-means法與Aprior算法等大數(shù)據分析方法,對高職院校圖書館用戶行為與需求進行聚類與挖掘,揭示出高職院校的用戶行為特征、規(guī)律及其關聯(lián)性,這對于高職院校改進服務有重要的借鑒意義。
關鍵詞:大數(shù)據;高職院校;圖書館;用戶行為;K-means;Aprior算法
中圖分類號:G434? ? ? ? 文獻標識碼:A
文章編號:1009-3044(2019)18-0001-03
隨著移動電話、平板電腦等移動設備以及在此基礎上產生的移動社交平臺等新媒體發(fā)展速度十分迅速,由此也使得高職院校圖書館服務面臨著新的機遇與挑戰(zhàn),新媒體為所帶來的移動圖書館、圖書館微信公眾號以及桌面端網站,都極大地豐富了用戶使用圖書館資源與服務的手段,而用戶在借助于新媒體與圖書館進行交互的過程中又產生了海量的行為日志數(shù)據,對這些海量數(shù)據進行挖掘與分析,能夠有效揭示用戶的行為規(guī)律及其需求,進而有針對性地為用戶提供更具個性化的資源與服務,以實現(xiàn)高職院校圖書館服務方式的創(chuàng)新。
1 數(shù)據獲取與數(shù)據處理
本研究于2018年4月和5月期間,收集了浙江省某高職院校圖書館在該年在4月1日至5月31日的OPAC后臺日志數(shù)據,所獲取的數(shù)據跨越61天,數(shù)據總量共達到了3.67GB。該OPAC日志數(shù)據詳細記錄了用戶利用圖書館OPAC從事相關活動的信息,如用戶每次點擊行為起始與終止時間、用戶自身設備信息及其接入網絡的IP地址、用戶向OPAC系統(tǒng)提交的訪問請求內容信息、用戶訪問請求內容以及其他相關信息等。
由于OPAC原始的日志數(shù)據包含了很多個維度,本研究在對OPAC原始的日志數(shù)據進行分析的基礎上,根據研究目標確定了對數(shù)據挖掘有用的相關日志數(shù)據字段,包括:用戶每次點擊行為起始與終止時間、用戶自身設備信息及其接入網絡的IP地址、用戶向OPAC系統(tǒng)提交的訪問請求內容信息、用戶訪問請求內容以及其他相關信息等。我們對所獲取的數(shù)據進行了更進一步的篩選和清洗,相關工作包括數(shù)據噪聲的去除(包括數(shù)據中的空缺值和異常值等),去除了數(shù)據中許多字段不完整或者沒有意義的數(shù)據[1],最終形成了本研究的數(shù)據基礎,保留下來的數(shù)據比重占原數(shù)據的64.8%。基于這些數(shù)據,我們應用K-means算法對高職院校圖書館用戶行為與需求進行了挖掘。
為進一步明確高職院校圖書館用戶行為與其對圖書館資源與服務的需求,我們從中篩選了部分登陸過OPAC系統(tǒng)中“我的圖書館”的用戶,對其利用圖書館服務的相關數(shù)據信息進行了獲取與挖掘。通過對用戶登陸“我的圖書館”的行為數(shù)據與其IP地址和其預留在圖書館中的個人信息進行匹配,我們獲得了用戶個人信息、用戶點擊OPAC系統(tǒng)的信息均具備的用戶數(shù)據,這些數(shù)據約占到了總記錄數(shù)的42.75%。用戶通過OPAC檢索系統(tǒng)和“我的圖書館”服務系統(tǒng)所能夠獲得的圖書館服務主要有查詢服務、查看信息、借閱服務、信息修改、圖書預約、圖書續(xù)借、參考咨詢、新書推薦、借閱排行、圖書薦購等服務。
2 基于K-means方法的高職院校圖書館用戶行為與需求挖掘
2.1 數(shù)據分析流程
對高職院校圖書館用戶行為與需求進行挖掘和分析所采取的方法為大數(shù)據分析中常用的K-means算法,在具體執(zhí)行該算法的過程中,通常需要先確定將數(shù)據聚類成多少個目標簇,聚類的簇數(shù)并沒有明確的規(guī)定,數(shù)據分析要人員可以根據自身已有的知識結構以及該算法在數(shù)據挖掘過程中的具體結果進行相應的嘗試[2]。但在很多情況下,K-means算法所設置的聚類簇數(shù)仍然有一個相對固定的范圍,通常該數(shù)量為10個左右。考慮到高職院校圖書館的用戶對象主要以本校的師生為主,用戶具有比較高的同質性,因此所設置的聚類簇數(shù)不宜過多,否則會導致聚類效果較差[3]。我們根據高職院校圖書館用戶的大致分類情況,將擬采用的K-means算法所獲得的聚類簇數(shù)設置為6個,其具體分析過程包含原始數(shù)據獲取、數(shù)據篩選、圖書館服務使用類別數(shù)量、點擊次數(shù)比較、檢索行為比重、系統(tǒng)服務操作行為比重、數(shù)據類型設置、數(shù)據過濾、K-means聚類等環(huán)節(jié)(見圖1)。
2.2 聚類分析結果
本研究通過K-means聚類分析算法所得出的聚類分析結果如表1所示。由于將K-means聚類簇數(shù)設置為6個,我們可以因此獲得六個聚類結果。在這六個類中,聚類3僅包含兩個記錄,且該聚類下的檢索行為點擊次數(shù)、系統(tǒng)服務操作行為點擊次數(shù)、點擊行為次數(shù)、持續(xù)時間、利用圖書館服務數(shù)量的值均要遠大于其他五個類,說明聚類3所包含的兩個記錄存在異常的情況,因此我們不需要對該類的相關信息進行更進一步的分析。
聚類1所包含了記錄數(shù)最多,記錄數(shù)占所有數(shù)據總量的18.57%,該類下聚集了大量用戶,共有827個用戶,是包含用戶數(shù)最多的類。該類下的用戶使用智能終端(如智能手機、平板電腦等)在OPAC上進行相關操作的比重最高,達到了75%。該類用戶在數(shù)據采集期間向圖書館OPAC系統(tǒng)所發(fā)起的會話數(shù)量平均值為3.025個,發(fā)起對話所包含的點擊行為數(shù)量平均有55.764個,在所有類中處于中等水平,說明該類用戶使用圖書館OPAC系統(tǒng)相關服務的行為比較正常。該類用戶訪問OPAC系統(tǒng)所實施的系統(tǒng)服務操作行為比重相對較低,所進行的檢索行為點擊次數(shù)和系統(tǒng)服務操作行為點擊次數(shù)分別為4.578次和2.226次,也都處于比較中間的水平,用戶點擊行為的持續(xù)時間大約為44.357秒。在該類中,用戶發(fā)起的會話包含的點擊行為次數(shù)也并不多,只有25.764次,所利用的圖書館服務數(shù)量為1.542個,說明這類用戶利用圖書館OPAC的目的比較統(tǒng)一和集中,主要利用的是圖書館某一個服務??傮w來看,該類用戶對圖書館OPAC的利用處于中午水平,其目的主要以檢索為主,利用OPAC進行其他相關系統(tǒng)操作的次數(shù)并不高,因此圖書館可重點關注這類用戶在系統(tǒng)中到底檢索了什么信息,根據其檢索記錄,有針對性地為這些讀者推薦一些圖書信息,以使?jié)M足這類讀者的文獻信息需求。
聚類2所包含的記錄數(shù)其次多,記錄數(shù)占到了所有數(shù)據總量的12.42%,該類下包含的用戶數(shù)量為443個,是用戶數(shù)量其次多的類。在該類下使用智能設備的用戶數(shù)量比較并不算高,只有26%,說明該類用戶大多使用的是桌面端的設備訪問圖書館OPAC。該類用戶發(fā)起的會話次數(shù)平均值為2.049個,比聚類1的用戶會話數(shù)量相對要少,該類用戶檢索行為的比重也比較高,達到了58%,該類用戶的系統(tǒng)服務操作行為比重也不算低,達到了24.6%,要高于聚類1,說明該類用戶在進行檢索的同時,也會發(fā)起比較多的系統(tǒng)服務操作??傮w來看,該類用戶發(fā)起的會話數(shù)及其點擊行為數(shù)量都相對較少,且系統(tǒng)服務操作行為所占的比重相對較高,其桌面端的用戶占多數(shù),這與本研究之前所得出的結論保持一致。針對這類用戶,圖書館在進行檢索結果精確推送的同時,還可在OPAC檢索頁面為其推薦更多的服務、資源供其選擇[4]。
聚類4和聚類5所包含的記錄數(shù)占所有數(shù)據記錄的比重分別為6.63%和4.27%,這兩類用戶屬于兩類行為相反的用戶群。其中,聚類4的用戶屬于以檢索為主要目的,主要利用桌面端設備進行操作,會在OPAC中反復修改檢索式,以獲取精確的檢索結果的用戶群,該類用戶進行其他的情況相對較少;聚類5的用戶屬于更愿意利用OPAC系統(tǒng)中其他服務的用戶,這類用戶以利用智能設備為主。另外,聚類6的用戶在檢索行為和系統(tǒng)服務操作行為的頻次上都不算多,但其點擊行為次數(shù)卻達到了117.54次,說明這類用戶喜歡比較喜歡漫無目的在OPAC系統(tǒng)進行相關無關操作,這類用戶利用圖書館的需求并不明確,需要圖書館為之提供必要的指導。
3 基于Apriori的高職院校圖書館用戶行為與需求挖掘
3.1 分析流程
Apriori算法的基本思想是以遞歸的方式反映從數(shù)據集中尋找出現(xiàn)頻次多的項集,進而產生選項集,對達到最小支持度要求的候選項集進行保留,而刪除那些不滿足要求的數(shù)據。在該算法執(zhí)行的過程中,通常將最大前項數(shù)據的閾值設置為1,而小最置信度數(shù)據設置為10%,其具體流程如圖2所示。
3.2 關聯(lián)規(guī)則分析結果
表2顯示了基于Apriori算法的高職院校圖書館用戶數(shù)據聚類結果??梢钥闯鐾ㄟ^數(shù)據聚類,OPAC系統(tǒng)各項服務之間的關聯(lián)規(guī)則被揭示出來。新書推薦和借閱服務兩項服務之間的關聯(lián)性最強,其次是借閱排行和查詢服務兩項服務,說明圖書館的新書推薦和借閱排行兩項服務還是起到了相應的作用,但這兩項結果的置信度并不算高。置信度最高的關聯(lián)規(guī)則是查詢服務與借閱服務之間關聯(lián)規(guī)則,說明高職院校的大部分用戶在OPAC系統(tǒng)進行相關查詢操作后,主要還是會選擇將該書從圖書館借出來。此外,我們還發(fā)出了查詢服務、查看信息服務與圖書預約、信息修改、參考咨詢、圖書薦購和圖書續(xù)借等服務之間關聯(lián)性,這些關聯(lián)規(guī)則的揭示,都有利于高職院校圖書館對當前的OPAC系統(tǒng)進行改進,更好地提升用戶對圖書館服務與資源的利用率。
4 討論
本研究運用K-means算法和Apriori算法,對高職院校圖書館用戶行為與需求進行了挖掘。通過K-means算法進行聚類分析,我們得出了六個類:第1類用戶對圖書館OPAC的利用處于中午水平,其目的主要以檢索為主,利用OPAC進行其他相關系統(tǒng)操作的次數(shù)并不高,因此圖書館可重點關注這類用戶在系統(tǒng)中到底檢索了什么信息,根據其檢索記錄,有針對性地為這些讀者推薦一些圖書信息,以使?jié)M足這類讀者的文獻信息需求;第2類用戶發(fā)起的會話數(shù)及其點擊行為數(shù)量都相對較少,且系統(tǒng)服務操作行為所占的比重相對較高,其桌面端的用戶占多數(shù),這與本研究之前所得出的結論保持一致。針對這類用戶,圖書館在進行檢索結果精確推送的同時,還可在OPAC檢索頁面為其推薦更多的服務、資源供其選擇;第3類僅包含兩個記錄,且該聚類下的檢索行為點擊次數(shù)、系統(tǒng)服務操作行為點擊次數(shù)、點擊行為次數(shù)、持續(xù)時間、利用圖書館服務數(shù)量的值均要遠大于其他五個類,該類存在異常的情況,故而舍去;第4類和第5類用戶屬于兩類行為相反的用戶群,第4類的用戶屬于以檢索為主要目的,主要利用桌面端設備進行操作,會在OPAC中反復修改檢索式,以獲取精確的檢索結果的用戶群,該類用戶進行其他的情況相對較少,而第5類的用戶屬于更愿意利用OPAC系統(tǒng)中其他服務的用戶,這類用戶以利用智能設備為主;第6類用戶在檢索行為和系統(tǒng)服務操作行為的頻次上都不算,但其點擊行為次數(shù)卻達到了117.54次,說明這類用戶喜歡比較喜歡漫無目的在OPAC系統(tǒng)進行相關無關操作,這類用戶利用圖書館的需求并不明確,需要圖書館為之提供必要的指導。
另外,從基于Apriori算法的高職院校圖書館用戶數(shù)據聚類結果揭示的各項服務之間的關聯(lián)規(guī)則來看,新書推薦和借閱服務兩項服務之間的關聯(lián)性最強,其次是借閱排行和查詢服務兩項服務,說明圖書館的新書推薦和借閱排行兩項服務還是起到了相應的作用,但這兩項結果的置信度并不算高。置信度最高的關聯(lián)規(guī)則是查詢服務與借閱服務之間關聯(lián)規(guī)則,說明高職院校的大部分用戶在OPAC系統(tǒng)進行相關查詢操作后,主要還是會選擇將該書從圖書館借出來。高職院校圖書館可基于這些關聯(lián)規(guī)則,對現(xiàn)有的圖書館OPAC系統(tǒng)及其相關服務進行改進,以提升圖書館資源與服務的利用率。
參考文獻:
[1] 劉魯川, 王菲. 移動瀏覽器用戶的感知匹配與持續(xù)使用意向研究[J]. 情報科學, 2014(2):106-111.
[2] 陳臣. 基于大數(shù)據的圖書館個性化服務用戶行為分析研究[J]. 圖書館工作與研究, 2015, 1(2):28-31.
[3] 何勝, 馮新翎, 武群輝,等. 基于用戶行為建模和大數(shù)據挖掘的圖書館個性化服務研究[J]. 圖書情報工作, 2017(1):40-46.
[4] 陳廉芳. 大數(shù)據環(huán)境下圖書館用戶小數(shù)據的采集、分析與應用[J]. 國家圖書館學刊, 2016, 25(3):069-074.
【通聯(lián)編輯:王力】