武漢大學(xué)圖書館 奚志紅
大數(shù)據(jù)時代,在計算機、網(wǎng)絡(luò)和生活中充斥著大量數(shù)據(jù),政府機關(guān)、科研機構(gòu)和企業(yè)的計算機和服務(wù)器中保存的文件及數(shù)據(jù)量成倍增長,用戶其實是非常希望從自己擁有的這些數(shù)據(jù)信息中得到他們想要的有價值的信息。雖然每個企業(yè)、商業(yè)公司和高等院校等部門都積累了海量數(shù)據(jù),實際上,只有很少一部分?jǐn)?shù)據(jù)被利用來進(jìn)行統(tǒng)計分析,也只是為了應(yīng)付年度將相關(guān)數(shù)據(jù)上報到學(xué)?;蛘邆€人工作述職需要做得最基本統(tǒng)計工作。因此在很多情況下,數(shù)據(jù)量過于龐大,難于管理,或者數(shù)據(jù)結(jié)構(gòu)本身太復(fù)雜了,不能進(jìn)行有效的分析,因而信息用戶面臨數(shù)據(jù)豐富而知識缺乏的問題,迫切需要能自動高效率地從海量數(shù)據(jù)中提取有價值的信息數(shù)據(jù)處理新技術(shù)。
對于大量的、多樣化的、快速化的豐富數(shù)據(jù)集的理解是幾乎所有商業(yè)、科學(xué)、工程領(lǐng)域的共同需求,在這樣的需求背景下,提取并利用隱藏在這些數(shù)據(jù)中的有用知識的能力變得越來越重要,數(shù)據(jù)挖掘技術(shù)就此應(yīng)運而生。因此可以在原來傳統(tǒng)的數(shù)據(jù)分析方法和技術(shù)基礎(chǔ)上,利用現(xiàn)階段比較成熟的處理大量數(shù)據(jù)信息的優(yōu)秀算法和技術(shù),兩者結(jié)合起來處理數(shù)據(jù)信息,從數(shù)據(jù)中獲得并發(fā)現(xiàn)有用的知識的整個過程,就稱之為數(shù)據(jù)挖掘。
數(shù)據(jù)挖掘理論和技術(shù)是目前比較熱門的、新穎的一個交叉性學(xué)科,它主要涉及統(tǒng)計學(xué)、人工智能、模式識別、機器學(xué)習(xí)以及數(shù)據(jù)庫理論與技術(shù)等多門學(xué)科,數(shù)據(jù)挖掘自從它的概念誕生以來,在各大小研究學(xué)術(shù)機構(gòu)和電子商務(wù)領(lǐng)域迅速掀起了數(shù)據(jù)挖掘的研究和應(yīng)用的浪潮,其地位變得越來越重要,其應(yīng)用也日益廣泛。20世紀(jì)90年代初期開始,我國很多高校圖書館開始引進(jìn)圖書館自動化管理系統(tǒng),隨著網(wǎng)絡(luò)技術(shù)的成熟發(fā)展及技術(shù)推廣,數(shù)字圖書館迅速發(fā)展,圖書館的各項服務(wù)在功能有了新的需求變化,圖書館在館藏資源的查詢借閱的服務(wù)中,每天會有大量的讀者行為數(shù)據(jù)生成,例如圖書館網(wǎng)站的點擊查詢、商業(yè)數(shù)據(jù)庫檢索及下載、讀者入館門禁系統(tǒng)、座位系統(tǒng)預(yù)約、圖書資料的借閱及預(yù)約、OPAC檢索等數(shù)據(jù)、工作人員的圖書資料的采訪、編目、流通,以及日常的參考咨詢數(shù)據(jù)等。這些數(shù)據(jù)雖然從表面上看不出有什么內(nèi)在聯(lián)系,其實這些數(shù)據(jù)蘊含著豐富的有價值的信息,例如圖書館哪些網(wǎng)站頁面讀者的點擊利用率最高,哪些商業(yè)數(shù)據(jù)最受歡迎,哪些圖書被頻繁的借閱,讀者個體的行為特點,讀者與文獻(xiàn)資源的內(nèi)在關(guān)聯(lián)、不同學(xué)科之間的內(nèi)在聯(lián)系等等,這些關(guān)聯(lián)的信息是目前圖書館很多應(yīng)用系統(tǒng)所不能解決的,因此有必要引進(jìn)新的技術(shù)和方法,挖掘和發(fā)現(xiàn)隱藏在這些數(shù)據(jù)后面的信息則顯得尤為重要,有了數(shù)據(jù)挖掘技術(shù),數(shù)據(jù)之間隱含的關(guān)聯(lián)問題就會有途徑和辦法進(jìn)行解決。數(shù)據(jù)挖掘技術(shù)在圖書館的應(yīng)用,必然能提升圖書館的服務(wù)水平,對圖書館各項業(yè)務(wù)全面的發(fā)展起到了很大的促進(jìn)作用。
在圖書館的業(yè)務(wù)研究工作中引入數(shù)據(jù)挖掘技術(shù)是十分有必要的,應(yīng)用這一項技術(shù),對圖書館館藏借閱服務(wù)中生成的讀者借閱行為歷史數(shù)據(jù)進(jìn)行有效的挖掘,總結(jié)歸納出圖書資源的借閱情況、讀者對館藏資源需求的規(guī)律,為合理布局文獻(xiàn)資源,提高文獻(xiàn)資源的利用率,完善和提高圖書館的管理和服務(wù)質(zhì)量提供數(shù)據(jù)支持和決策參考。
(1)有利于優(yōu)化館藏。文獻(xiàn)資源采購是圖書館非常重要的工作,也是圖書館決策者最為關(guān)心的問題,一方面由于涉及年度采購經(jīng)費的配置問題,另一方面是如何利用僅有的資金采購到讀者需要的文獻(xiàn)資源,提升圖書館的服務(wù)水準(zhǔn)。一般來說,圖書館的文獻(xiàn)采購中心是圍繞學(xué)校的學(xué)科建設(shè)來進(jìn)行的,然而受到傳統(tǒng)文獻(xiàn)資源的采購慣性影響,文獻(xiàn)資源的采購權(quán)只掌握在少數(shù)幾個采訪人員的手上,他們一般不太了解讀者的迫切需求,針對性不是很強,常常憑著以往的經(jīng)驗進(jìn)行文獻(xiàn)采購,導(dǎo)致采購到的文獻(xiàn)資源不是十分準(zhǔn)確反映讀者的訴求,不太符合學(xué)校學(xué)科建設(shè)需要和發(fā)展規(guī)劃目標(biāo)。因此提取圖書館文獻(xiàn)資源的借閱記錄、資源檢索和預(yù)約請求、館藏資源的借閱頻率等信息,利用數(shù)據(jù)挖掘技術(shù)的聚類分析以及關(guān)聯(lián)規(guī)則進(jìn)行相關(guān)數(shù)據(jù)的挖掘,歸納總結(jié)出文獻(xiàn)借閱的借閱頻率,文獻(xiàn)的利用情況,從而有針對性地進(jìn)行文獻(xiàn)采購,豐富館藏資源。同時也能發(fā)掘出很長時間沒有被借閱過的館藏文獻(xiàn),將他們進(jìn)行剔除或者減少該文獻(xiàn)的副本量,優(yōu)化館藏資源配置,實現(xiàn)館藏文獻(xiàn)架位的合理布局,使得圖書館文獻(xiàn)資源采購工作更科學(xué)更合理,讓有限的文獻(xiàn)資源采購經(jīng)費和有限的館舍資源配置效率得到提高。
(2)有利于讀者服務(wù)。目前圖書館的服務(wù)實現(xiàn)了從收藏文獻(xiàn)為主,發(fā)展到現(xiàn)在以利用文獻(xiàn)為主的功能轉(zhuǎn)變,用戶在圖書館日常工作中的地位越來越高和顯得十分重要。個性化服務(wù)是數(shù)字圖書館發(fā)展的主方向,開展個性化服務(wù)就是要從讀者的個性化需求出發(fā),了解讀者,主動為讀者提供方便快捷準(zhǔn)確的知識服務(wù)。數(shù)據(jù)挖掘技術(shù)主要是通過對圖書館系統(tǒng)中的讀者借閱數(shù)據(jù)進(jìn)行收集、加工和處理,發(fā)掘讀者群體的借閱行為,根據(jù)挖掘出來的信息,進(jìn)行歸納總結(jié)相應(yīng)群體的需求信息,為讀者提供個性化的服務(wù)。
(3)促進(jìn)服務(wù)管理水平的提升。圖書館是高校重要的服務(wù)型機構(gòu)之一,為廣大師生提供資源服務(wù),是為教學(xué)和科研服務(wù)的關(guān)鍵部門。高校圖書館不同于其他公共服務(wù)性質(zhì)的圖書館,服務(wù)的對象具有專業(yè)性、層次性和規(guī)律性的服務(wù)特征。不同院系不同專業(yè)的學(xué)生,他們對信息服務(wù)的需求也不同;不同類型層次的讀者對圖書館信息的需求差別也很大;同一類型的讀者利用資源的規(guī)律在每一個年度也有可能有變化,但也具有一定的周期性規(guī)律。因此,利用數(shù)據(jù)挖掘技術(shù)對圖書館集成系統(tǒng)中的讀者流通歷史數(shù)據(jù)進(jìn)行挖掘,發(fā)掘讀者與文獻(xiàn)資源之間存在的規(guī)律以及隱含的關(guān)聯(lián)性,為優(yōu)化圖書館文獻(xiàn)館藏資源、調(diào)整文獻(xiàn)資源的布局、合理地安排圖書館的人員和服務(wù)時間提供數(shù)據(jù)上的決策參考,提高圖書館的服務(wù)管理水平。
(4)完善圖書館的服務(wù)層次。通過數(shù)據(jù)挖掘,完善和改進(jìn)圖書館的服務(wù)方式和服務(wù)手段,使人性化服務(wù)更加完美,圖書館服務(wù)模式得到改變,提高了讀者服務(wù)的滿意度。因此進(jìn)行深層次的知識服務(wù)揭示,可以在很大程度上提升高校圖書館的服務(wù)層次。
數(shù)據(jù)預(yù)處理的初衷是為了提高數(shù)據(jù)質(zhì)量,使數(shù)據(jù)挖掘的過程更加容易、更加有效,同時也是為了提高數(shù)據(jù)挖掘的質(zhì)量。數(shù)據(jù)預(yù)處理的作用是處理數(shù)據(jù)源中含有的噪聲數(shù)據(jù)、錯誤數(shù)據(jù)、數(shù)據(jù)值是空的和數(shù)據(jù)結(jié)構(gòu)不完整的數(shù)據(jù)。數(shù)據(jù)預(yù)處理工作是在數(shù)據(jù)挖掘之前不可缺少的一個環(huán)節(jié)。數(shù)據(jù)預(yù)處理主要包含以下兩個方面的工作:
(1)數(shù)據(jù)清洗:數(shù)據(jù)挖掘的結(jié)論取決于數(shù)據(jù)質(zhì)量,數(shù)據(jù)清理過程主要是通過填寫缺失數(shù)據(jù)值、識別或者刪除離群點、光滑這些數(shù)據(jù),并根據(jù)不一致性來清理數(shù)據(jù),以求達(dá)到這樣幾個目標(biāo)(格式標(biāo)準(zhǔn)化處理、糾正錯誤的數(shù)據(jù)、異常數(shù)據(jù)清理、重復(fù)數(shù)據(jù)的清理),對于來自多個系統(tǒng)或者數(shù)據(jù)源的數(shù)據(jù),在生產(chǎn)數(shù)據(jù)倉庫的數(shù)據(jù)清理過程中,重要的一個步驟是解決不正確拼寫、沖突的數(shù)據(jù)和多個系統(tǒng)間拼寫規(guī)則之類的錯誤。在數(shù)據(jù)中出現(xiàn)的錄入錯誤,或者是編碼錯誤會直接影響到數(shù)據(jù)挖掘的效果。數(shù)據(jù)清理能解決數(shù)據(jù)中的人為錯誤,以及數(shù)據(jù)文件中對統(tǒng)計分析結(jié)果影響較大的有誤數(shù)值,提高數(shù)據(jù)挖掘的準(zhǔn)確性和有效性。
(2)數(shù)據(jù)轉(zhuǎn)換:數(shù)據(jù)轉(zhuǎn)換是根據(jù)數(shù)據(jù)對象不同可以分類為兩大類,一類是對于傳統(tǒng)的常規(guī)數(shù)據(jù)進(jìn)行轉(zhuǎn)換,另外一類是對非常規(guī)的數(shù)據(jù)進(jìn)行數(shù)據(jù)轉(zhuǎn)換。對于常規(guī)的數(shù)據(jù)轉(zhuǎn)換通常采用線性或者非線性的數(shù)學(xué)變化方法,將數(shù)據(jù)轉(zhuǎn)成適合當(dāng)前數(shù)據(jù)挖掘的數(shù)據(jù)形式。非常規(guī)數(shù)據(jù)的變換,一般根據(jù)數(shù)據(jù)的特性不同而又不同形式的轉(zhuǎn)換方式。可以說數(shù)據(jù)轉(zhuǎn)換是數(shù)據(jù)挖掘過程中很重要的一個環(huán)節(jié),是決定數(shù)據(jù)挖掘是否有效的一個關(guān)鍵。
數(shù)據(jù)集成是將來自不同數(shù)據(jù)源的數(shù)據(jù)根據(jù)一定的集成規(guī)則組織在一起,存放到事先準(zhǔn)備的數(shù)據(jù)存儲倉庫中的一個過程。做數(shù)據(jù)集成的目的是對數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行匯總、數(shù)據(jù)概念化等工作。由于來源于不同系統(tǒng)的數(shù)據(jù)集成涉及的問題有很多,比如理論依據(jù)和數(shù)據(jù)規(guī)則,而不同數(shù)據(jù)表中的定義也有所不同,因此,數(shù)據(jù)集成可以說是比較需要專業(yè)知識的一項工作,數(shù)據(jù)集成一般包括兩個部分:(1)數(shù)據(jù)集成:將來自不同數(shù)據(jù)源中的數(shù)據(jù)整合到一個數(shù)據(jù)倉庫中;(2)模式集成:整合不同數(shù)據(jù)庫中數(shù)據(jù)的元數(shù)據(jù)。
數(shù)據(jù)集成需要相關(guān)的行業(yè)知識,用這些知識來處理實體識別問題,以匹配不同數(shù)據(jù)源中的現(xiàn)實實體。另外在數(shù)據(jù)集成中,我們需要檢測并解決數(shù)據(jù)值的沖突問題。對現(xiàn)實世界中的數(shù)據(jù)同一實體,來自不同數(shù)據(jù)庫的屬性值可能不同。可能沖突的原因有各種各樣,比如不同數(shù)據(jù)表示和量度也會不相同。數(shù)據(jù)集成的目的非常明確,就是把數(shù)據(jù)從不同的信息源整合到同一個數(shù)據(jù)平臺之中,以便于數(shù)據(jù)挖掘。
經(jīng)過前期的數(shù)據(jù)預(yù)處理和數(shù)據(jù)集成,在進(jìn)行數(shù)據(jù)進(jìn)行挖掘前,首先要選擇合適的挖掘算法,讓挖掘的一切工作系統(tǒng)都能自動地完成。在算法的選擇上,應(yīng)該從下面兩個因素進(jìn)行考慮:第一是根據(jù)不同的數(shù)據(jù)有不同的特點,我們就需要用與它們相關(guān)的算法來進(jìn)行挖掘;第二是要根據(jù)系統(tǒng)實際運行的需求,調(diào)整挖掘技術(shù)策略。在此期間還要考慮數(shù)據(jù)特點和結(jié)果、以及知識描述方式方法,然后通過分析數(shù)據(jù),最終得到并且形成知識的模式模型。目前采用較多的挖掘技術(shù)有下面幾個:決策樹、分類、關(guān)聯(lián)規(guī)則、聚類、遺傳算法、粗糙集、神經(jīng)網(wǎng)絡(luò)等。
常用的數(shù)據(jù)挖掘技術(shù)應(yīng)該可以分為三大類:一是統(tǒng)計分析類型的有線性分析、時間序列分析、回歸分析、非線性分析、單變量分析、邏輯回歸分析、最近鄰算法、多變量分析和聚類分析等;二是知識發(fā)現(xiàn)類型術(shù)主要有人工神經(jīng)網(wǎng)絡(luò)、規(guī)則發(fā)現(xiàn)、遺傳算法、關(guān)聯(lián)順序和決策樹等;第三是其他類數(shù)據(jù)挖掘技術(shù)一般包含有文本數(shù)據(jù)挖掘、分布式數(shù)據(jù)挖掘、空間數(shù)據(jù)挖掘和Web數(shù)據(jù)挖掘等。
1.數(shù)據(jù)挖掘工具分類
市場上有很多比較成熟的數(shù)據(jù)挖掘工具,大概有以下幾 種:SAS Enterprise Miner、SGI MineSet、IBM Intelligent Miner、Partek、IBM Intelligent Miner、SQL Server BusinessIntelligence development studio、LEVEL5 Quest、SPSS Clementine、Oracle Darwin、KnowledgeSeeker、SAS Enterprise Miner、SE-Learn、Cognos Scenario、UnicaPRW等,常用的數(shù)據(jù)挖掘工具按照它們的適用范圍,大概可以分為基于神經(jīng)網(wǎng)絡(luò)、規(guī)則和決策樹、模糊邏輯和綜合多方法工具等幾大類。
2.數(shù)據(jù)挖掘工具的選擇
數(shù)據(jù)挖掘是一個逐步完善的過程,在實際的數(shù)據(jù)挖掘過程中,需要根據(jù)業(yè)務(wù)的邏輯需求和挖掘工具緊密結(jié)合,在實施過程中不斷地調(diào)整和磨合,使流程規(guī)范化,挖掘工作才能取得成功。在選擇數(shù)據(jù)挖掘工具開展業(yè)務(wù)工作時,需要結(jié)合目標(biāo)的實際情況,因此選擇數(shù)據(jù)挖掘工具時,要考慮的因素主要有:數(shù)據(jù)挖掘工具的模式種類是否能夠完成數(shù)據(jù)挖掘任務(wù);數(shù)據(jù)挖掘工具是否具備解決復(fù)雜數(shù)據(jù)和數(shù)據(jù)量大的挖掘能力;數(shù)據(jù)挖掘工具的運行性能,能否為用戶提供可視化的操作界面,以及挖掘結(jié)果是否具備圖形可視化工具展示,數(shù)據(jù)挖掘工具是否具備可視化,主要包括數(shù)據(jù)的可視化、數(shù)據(jù)挖掘模型的可視化、數(shù)據(jù)挖掘過程的可視化、數(shù)據(jù)挖掘后結(jié)果的可視化、可視化的展示深度和質(zhì)量等;還有一個是挖掘工具的開放性要好,具備和大部分?jǐn)?shù)據(jù)庫系統(tǒng)有良好的兼容性和集成性。
文獻(xiàn)的采購是豐富館藏資源的方式之一,有目的地豐富館藏資源,才能使讀者更加有興趣到圖書館來借閱圖書,從而提高館藏圖書的利用率。目前高校圖書館采購權(quán)限一般還是放在文獻(xiàn)采訪部門,由于采訪人員不是一線服務(wù)的工作人員,也不是專門研究讀者借閱行為分析的研究館員,因此在采購文獻(xiàn)時,只憑借以往的工作經(jīng)驗來采購哪類文獻(xiàn)以及采購數(shù)量的多少。因此可能會采購一些無人借閱的文獻(xiàn),而讀者迫切需要的文獻(xiàn)卻沒有購買。因此可以通過對讀者借閱數(shù)據(jù)的挖掘分析,可以幫助我們掌握讀者的借書需求和閱讀趨向,在今后的采購工作中有數(shù)據(jù)上的決策性依據(jù)??偟膩碚f采購文獻(xiàn)一方面要符合我校學(xué)科發(fā)展建設(shè)的需要,有豐富的館藏為廣大師生提供學(xué)習(xí)和科研方面的幫助,另一方面多采購一些熱門的文獻(xiàn),可以解決因圖書資源短缺無充足館藏可借局面,提高圖書采購經(jīng)費的利用率。
“以人為本,讀者至上”是圖書館的服務(wù)理念,這一服務(wù)理念應(yīng)該始終貫穿在圖書館的各項工作之中,因此館藏的布局應(yīng)該以讀者為中心,切實考慮讀者對圖書的借閱需求,讓讀者能方便快捷地找到需要的圖書資源。結(jié)合圖書館的實際情況,以及在數(shù)據(jù)挖掘分析的基礎(chǔ)上從兩個方面進(jìn)行館藏布局的創(chuàng)新。
(1)以讀者為中心的館藏布局。根據(jù)工作經(jīng)驗和數(shù)據(jù)挖掘的結(jié)果進(jìn)行對比,其實只有百分之二十的圖書是被讀者經(jīng)常借閱的,而剩下的百分之八十的圖書借閱量比較小,圖書館應(yīng)依據(jù)讀者對圖書借閱“二八”定理進(jìn)行館藏布局??梢岳萌€典藏的模式進(jìn)行館藏布局,提高館藏的布局合理性,方便讀者借閱,提高館舍的利用率。
(2)學(xué)科關(guān)聯(lián)一體化的館藏布局。在飛速發(fā)展的網(wǎng)絡(luò)時代,知識信息的傳播方式、服務(wù)手段、服務(wù)屬性都有所變化,傳動的按照館藏文獻(xiàn)的載體形式布局的模式應(yīng)該進(jìn)行優(yōu)化變革,圖書館應(yīng)根據(jù)對讀者的借閱數(shù)據(jù)進(jìn)行學(xué)科關(guān)聯(lián)挖掘分析,找出學(xué)科之間的隱含的關(guān)系,進(jìn)行歸納匯總,逐步形成一套按學(xué)科關(guān)聯(lián)進(jìn)行圖書資料的館藏布局方案,引導(dǎo)讀者的借閱行為,激發(fā)讀者的借閱興趣,提高相關(guān)聯(lián)學(xué)科圖書的利用率。
雖然圖書館實現(xiàn)了借閱一體化的服務(wù)模式,給了讀者寬松舒適的借閱氛圍,讀者可以暢通無阻的借閱各種類型的文獻(xiàn)資源。基本上做到了“以讀者為中心”的服務(wù)理念,但圖書館在借閱服務(wù)及政策方面還有待改進(jìn)的地方。圖書館應(yīng)該依據(jù)集成系統(tǒng)的借閱歷史、OPAC查詢、入館學(xué)習(xí)等行文數(shù)據(jù),深入挖掘分析讀者的借閱行為,了解和預(yù)測讀者的隱含的需求,為讀者制定靈活的文獻(xiàn)借閱政策和提供準(zhǔn)確及時的個性化知識服務(wù)。
隨著網(wǎng)絡(luò)和計算機技術(shù)的飛速發(fā)展,挖掘技術(shù)在圖書館的應(yīng)用越來越成熟,利用成熟的數(shù)據(jù)挖掘技術(shù)分析讀者的借閱行為規(guī)律,預(yù)判讀者對館藏借閱的真實需求,為優(yōu)化藏布局和開展個性化的知識服務(wù)提供數(shù)據(jù)依據(jù),盡一切可能提高圖書資源的利用率。