俞錦梅
(廣東中山市中等專業(yè)學校圖書館 廣東中山 528458)
隨著數(shù)據(jù)庫技術應用的快速普及,圖書館信息的種類和形式越來越豐富,需要存儲和傳播的信息資源數(shù)量日益龐大,數(shù)據(jù)量呈現(xiàn)“爆發(fā)式”增長的趨勢。然而,面對海量數(shù)據(jù)的處理,圖書館傳統(tǒng)的信息化管理模式和手段卻顯得無能為力,有些圖書館不由自主地陷入了“數(shù)據(jù)豐富,知識貧乏”的局面。在這種情況下,如果將數(shù)據(jù)挖掘技術應用于圖書館服務之中,就可從大量圖書館數(shù)據(jù)中篩選出隱藏的、有用的數(shù)據(jù),發(fā)掘表面上復雜無序信息的內(nèi)在聯(lián)系,找出有價值的信息知識,實現(xiàn)“數(shù)據(jù)→信息→知識→價值”的轉變。
目前,作為數(shù)據(jù)庫研究、應用與開發(fā)最活躍的分支之一,數(shù)據(jù)挖掘技術正在帶動學術研究進步,并推動產(chǎn)業(yè)界的不斷發(fā)展,數(shù)據(jù)挖掘也成為圖書館應用研究的一項重要課題,不斷地吸引著國內(nèi)外圖書館界的專家學者們的極大關注。筆者嘗試對檢索文獻進行整理歸納,綜述數(shù)據(jù)挖掘在國內(nèi)圖書館領域應用研究的現(xiàn)狀及熱點,分析當前研究存在的不足,以為進一步的研究應用指引方向。
國外最早以數(shù)據(jù)挖掘在圖書館中的應用為主題的論文出現(xiàn)在1997年,自此之后,國外許多專家學者開始關注數(shù)據(jù)挖掘在圖書館領域的應用。圍繞面向圖書館的數(shù)據(jù)挖掘技術,不少學者還提出了應用理論及實現(xiàn)方法。從發(fā)文量來看,據(jù)統(tǒng)計,SCI收錄數(shù)據(jù)挖掘技術方面的文章呈現(xiàn)出逐年遞增的趨勢,其目前收錄的圖書館領域有關數(shù)據(jù)挖掘技術應用的文獻將近30篇。尤其是近幾年來,歐洲和北美地區(qū)對數(shù)據(jù)挖掘技術在圖書館的理論與應用方面取得豐碩的成果。例如,美國加州大學Michael cooper教授利用數(shù)據(jù)挖掘對加州大學數(shù)字圖書館使用記錄進行分析,得出了不同類型用戶的逗留時間規(guī)律,他還構建了數(shù)學模型,應用時間序列以及聚類等分析方法研究圖書館用戶的行為規(guī)律,并對未來的趨向進行了科學預測。芝加哥大學圖書館的Swansan開發(fā)了Arrowsmith軟件系統(tǒng)。該系統(tǒng)可以對數(shù)據(jù)庫文獻信息進行深度挖掘,探索文獻中信息之間的內(nèi)在聯(lián)系,挖掘有價值的信息知識,這一成果吸引了該領域專家學者的廣泛關注。Papatheodorou等人提出數(shù)據(jù)挖掘技術可用于圖書館數(shù)字化數(shù)據(jù)分析,其結果可成為圖書館管理者制定科學館藏和管理策略的重要依據(jù)。
目前,數(shù)據(jù)挖掘技術主要應用于數(shù)字圖書館讀者分析研究、資源建設優(yōu)化,以及多媒體數(shù)字資源挖掘等幾個方面。關于讀者分析研究,大部分專家學者采用聚類分析方法對讀者類別進行劃分,而后再進一步進行關聯(lián)規(guī)則分析,以對每一類讀者的借閱特征進行深入挖掘,精確地掌握讀者信息,更好地實現(xiàn)為讀者提供服務;也有學者引入“讀者信息域的概念”,運用數(shù)據(jù)倉庫技術,對讀者信息進行全面挖掘,確保能對讀者特征進行準確的分析。還有學者將數(shù)據(jù)挖掘應用到讀者主觀感受的研究之中,例如,徐原青在數(shù)字圖書館總體規(guī)劃的早期就引入了數(shù)據(jù)挖掘技術,通過構建數(shù)據(jù)倉庫,利用Analysis Services 2000數(shù)據(jù)處理機制,對基于讀者滿意度的數(shù)據(jù)挖掘在數(shù)字圖書館中的應用進行了研究。在圖書館資源建設優(yōu)化方面,潘小楓從數(shù)據(jù)應用數(shù)字圖書館管理系統(tǒng)建設、館藏的深層次加工,以及網(wǎng)絡信息資源挖掘等方面提出了推進數(shù)字圖書館發(fā)展策略;有的學者提出了應用基于數(shù)據(jù)挖掘的數(shù)字圖書館館藏建設評價方法,通過評價為優(yōu)化館藏策略提供參考;還有學者立足于對數(shù)字圖書館借閱數(shù)據(jù)進行挖掘分析,對圖書館信息資源的利用情況進行評價等角度開展研究。對于多媒體數(shù)字資源挖掘研究,李默提出使用Web挖掘等技術構建多媒體資源用戶行為分析的原型系統(tǒng),采用頻繁模式樹算法對用戶信息進行分析的方法。
國內(nèi)圖書情報學的專家學者圍繞數(shù)據(jù)挖掘在高校圖書館的應用開展研究。比如,趙衛(wèi)軍就數(shù)據(jù)挖掘在高校圖書館資源優(yōu)化、智能化服務、信息自動化處理等方面的應用展開了討論;王慧敏等利用SPSS和MATLAB軟件作為數(shù)據(jù)挖掘工具,以西安工程大學圖書館自動化管理系統(tǒng)的館藏數(shù)據(jù)作為基本數(shù)據(jù)源,對西安工程大學圖書館的入庫比例以及各學院借閱量排名進行對比細分,探討數(shù)據(jù)挖掘技術在圖書館中的應用;孫健波在碩士論文中,利用k-means算法實現(xiàn)了對讀者和圖書的聚類分析,根據(jù)聚類結果指導圖書館管理和對讀者個性化服務;同時,他還對Apriori算法進行了改進,采用關聯(lián)規(guī)則挖掘對讀者數(shù)據(jù)和圖書數(shù)據(jù)進行挖掘,探索那些隱藏在數(shù)據(jù)中的潛在規(guī)律。金瑤對數(shù)據(jù)挖掘在高校圖書館的資源管理、信息服務,以及圖書館工作管理進行了探討;楊光和張學潮提出了利用數(shù)據(jù)挖掘技術,對圖書館信息系統(tǒng)中隱藏的用戶相關的知識進行發(fā)掘,并以山西大學為例,對圖書館用戶行為進行了分析。此外,有的學者提出了基于數(shù)據(jù)挖掘的高校圖書館圖書采購計劃輔助決策方法;有的學者提出利用數(shù)據(jù)挖掘構建web學科導航系統(tǒng),對圖書館信息資源系統(tǒng)進行豐富;還有學者提出了基于數(shù)據(jù)挖掘技術的圖書館信息系統(tǒng)建設策略。
除了將數(shù)據(jù)挖掘用于高校圖書館之外,不少專家針對數(shù)據(jù)挖掘在圖書館個性化服務方面進行了積極的探索。國內(nèi)對數(shù)據(jù)挖掘在圖書館個性化服務的應用研究包括以下幾個方面:個性化服務模型構建,個性化服務軟件開發(fā)。吳一平提出了基于智能聚合技術的圖書館個性化信息服務方法;史艷梅通過對CMPS系統(tǒng)模型的設計,實現(xiàn)對用戶興趣的獲??;柳炳祥等探討了粗糙集和模糊聚類算法應用到圖書館個性化服務中的方法;張英等提出了適合圖書館多媒體數(shù)據(jù)挖掘的系統(tǒng)框架,并且給出了對音頻、圖像以及視頻等多媒體進行挖掘的方法;在個性參考咨詢研究方面,楊亞華提出了把知識管理、知識挖掘和參考咨詢服務有機結合的參考咨詢服務結構;關于圖書館個性化服務軟件開發(fā),中國人民大學等高等學府率先開發(fā)了KBDL個性化服務系統(tǒng),沈陽東軟軟件股份有限公司推出的東軟Internet/Intranet應用構架平臺(Neusoft Web)等軟件系統(tǒng),為圖書館個性化服務提供了豐富的特色應用。
綜合數(shù)據(jù)挖掘在圖書館應用領域文獻,可以把圖書館數(shù)據(jù)挖掘方法歸納為概念描述、分類和預測、聚類分析、關聯(lián)規(guī)則和偏差檢測。從現(xiàn)有文獻進行分析,用于圖書館數(shù)據(jù)挖掘的技術主要包括人工神經(jīng)網(wǎng)絡和統(tǒng)計分析、模糊數(shù)學、歸納學習、仿生學、公式法、可視化手段等。而在圖書館應用軟件方面,數(shù)據(jù)挖掘包括通用型工具、綜合數(shù)據(jù)挖掘工具,以及面向特定應用工具。
2.4.1 通用型工具
通用型工具目前應用最為廣泛,其所占市場也最大,技術手段最成熟。通用的數(shù)據(jù)挖掘工具不區(qū)分具體數(shù)據(jù)的含義,所以一般采用通用的挖掘算法,處理常見的數(shù)據(jù)類型,其中包括的主要工具有IBM公司Almaden研究中心開發(fā)的QUEST系統(tǒng),SGI公司開發(fā)的MineSet系統(tǒng),加拿大Simon Fraser大學開發(fā)的DBMiner系統(tǒng)、SAS Enterprise Miner、IBM Intelligent Miner、Oracle Darwin、SPSS Clementine、Unica PRW等軟件。
2.4.2 綜合數(shù)據(jù)挖掘工具
綜合數(shù)據(jù)挖掘工具反映了商業(yè)對具有多功能的決策支持工具的真實和迫切的需求。商業(yè)要求該工具能提供管理報告、在線分析處理和普通結構中的數(shù)據(jù)挖掘能力。這些綜合工具包括Cognos Scenario和Business Objects等。
2.4.3 面向特定應用工具
這一部分工具正在快速發(fā)展,在這一領域的廠商設法通過提供商業(yè)方案而不是尋求方案的一種技術來區(qū)分自己和別的領域的廠商。這些工具是縱向的、貫穿這一領域的方方面面,其常用工具有重點應用在零售業(yè)的KD1、主要應用在保險業(yè)的Option&Choices和針對欺詐行為探查開發(fā)的HNC軟件。
自20世紀90年代后期以來,國外圖書情報學的專家學者們就開始致力于圖書館數(shù)據(jù)挖掘相關理論研究,就圖書館的數(shù)據(jù)挖掘技術、應用理論及方法而言,不少學者具有自己獨到的見解。較為典型的有:Nicholson提出了書目挖掘(Biblio mining)的概念;May Chau構建了圖書館數(shù)據(jù)挖掘理論模型,并研發(fā)了圖書館網(wǎng)上信息數(shù)據(jù)挖掘系統(tǒng);Kyle Baner-jee對數(shù)據(jù)挖掘技術應于圖書館的各種方式進行了理論探討??梢哉f,關于數(shù)據(jù)挖掘理論與算法研究,國外圖書館領域已形成較為成熟的理論體系。相比之下,國內(nèi)圖書館界對于數(shù)據(jù)挖掘的理論研究起步較晚,從現(xiàn)有的研究文獻來看,大約76%的文獻只是介紹數(shù)據(jù)挖掘的方法,以及該方法在圖書館實踐的應用,有的作者甚至只對其它學科文獻的理論研究成果進行簡單的移植,對數(shù)據(jù)挖掘在圖書館領域的理論基礎及運用實踐缺乏個人分析研究。總體來看,這些文章偏重于對數(shù)據(jù)挖掘技術在圖書館領域應用的定性分析,對于數(shù)據(jù)挖掘在圖書館方面的應用缺乏必要的理論研究,文章作者也并未應用計算機仿真等定量研究手段對方法使用的可行性進行分析,并且,國內(nèi)圖書館界目前還沒有提出具有影響力的數(shù)據(jù)挖掘模型。中國知網(wǎng)中僅一篇《數(shù)字圖書館數(shù)據(jù)挖掘的基礎研究》對數(shù)據(jù)挖掘技術在圖書館應用的理論基礎進行了簡要的分析??傊?,數(shù)據(jù)挖掘技術在圖書館的應用尚屬于起步階段,迄今為止,還沒有形成較為系統(tǒng)、成熟的理論體系,國內(nèi)尚未正式出版一本有關圖書館數(shù)據(jù)挖掘方面的專著,因而,對數(shù)據(jù)挖掘理論在圖書館應用方面的探討將是長期而艱巨的任務。
數(shù)據(jù)挖掘是計算機、統(tǒng)計學、可視化、人工智能和機器學習等多學科相結合的產(chǎn)物,并已成功應用于金融、醫(yī)療、互聯(lián)網(wǎng)、學校教育和遙感等領域。對圖書館而言,數(shù)據(jù)挖掘主要應用于圖書館個性服務、圖書館知識發(fā)現(xiàn)、圖書館文獻資源建設、數(shù)字圖書館建設、圖書館內(nèi)部工作流程優(yōu)化、圖書館用戶挖掘、圖書館用戶行為分析等方方面面。
縱觀國內(nèi)數(shù)據(jù)挖掘在圖書館領域的應用研究,從發(fā)文量上看,盡管在2007年之后,國內(nèi)相關文獻的總量達到一個高潮,然而,發(fā)表在圖書情報學中文核心期刊的比例不高,質量較高的論文并不多見;從發(fā)文作者的分布來看,論文研究作者大都來自高校圖書館系統(tǒng),來自公共圖書館和高職院校圖書館的作者為數(shù)不多;從作者發(fā)文數(shù)量來看,發(fā)表論文數(shù)量3篇以上的作者只有6人,發(fā)表論文數(shù)量2篇的作者33人,由此可見,高產(chǎn)作者數(shù)量不多;從論文主題進行分析,關于數(shù)據(jù)挖掘在高職院校圖書館應用的文獻不到10篇,大約有98%的研究文獻是以大學圖書館為背景,很難看到有科學圖書館和公共圖書館的作者的研究成果。所有這些現(xiàn)象都說明國內(nèi)目前對公共圖書館和高職院校圖書館的數(shù)據(jù)挖掘研究并未引起足夠廣泛的重視。從方法應用來看,現(xiàn)有文獻在方法應用研究方面缺乏針對性,研究者們通常局限于將常用的貝葉斯分析、聚類分析和關聯(lián)分析應用到圖書館借閱、采訪等業(yè)務之中,而沒有著眼于圖書館的實際業(yè)務進行針對性的分析,有的放矢,目前尚未發(fā)現(xiàn)粗糙集與關聯(lián)規(guī)則聯(lián)合數(shù)據(jù)挖掘、時空數(shù)據(jù)挖掘,以及粗糙集理論和神經(jīng)網(wǎng)絡結合的數(shù)據(jù)挖掘等方法應用于圖書館領域的研究,現(xiàn)有的方法在原理上缺乏創(chuàng)新性;另一方面,隨著“云計算”和移動互聯(lián)網(wǎng)技術的發(fā)展成熟,人類迎來了大數(shù)據(jù)時代,然而,從研究選題情況進行分析,雖然在2011年就有專家學者提出了數(shù)據(jù)挖掘技術在移動圖書館和云圖書館中應用是未來的發(fā)展趨勢,但當前只有周艷在《現(xiàn)代情報》發(fā)表的《基于云平臺的圖書館數(shù)據(jù)挖掘技術研究》一文對數(shù)據(jù)挖掘技術在“云圖書館”的應用進行了探討;針對手機讀者的需求,重慶大學圖書館與國家圖書館等率先推出手機圖書館WAP網(wǎng)站,滿足移動用戶需要,但是,從中國知網(wǎng)現(xiàn)有的數(shù)據(jù)來看,只有聶飛霞在《基于數(shù)據(jù)挖掘的移動圖書館個性化圖書推薦服務》一文中提出了應用數(shù)據(jù)挖掘技術的移動圖書館個性化圖書推薦服務模式。關于大數(shù)據(jù)和云計算相結合的數(shù)據(jù)挖掘在圖書館領域的應用研究,目前國內(nèi)尚未見到相關的文獻報道。
在所有檢索的文獻中,明確標注有支持項目和支持經(jīng)費的只有14篇。其中,國家863計劃資助項目資助的只有一篇,國家自然科學基金和國家社會科學基金資助的論文6篇,總體來看,論文基金資助率僅為3.47%,明顯低于其它領域的資助水平。相對其它研究領域,此類項目支持經(jīng)費不高。而科學研究與推進需要經(jīng)費的支持,尤其是數(shù)據(jù)挖掘技術門檻較高,既需要具有人工智能數(shù)理統(tǒng)計學、計算機、數(shù)據(jù)庫等專業(yè)知識和技能,同時也需要更多的經(jīng)費支持,為它進一步的研究創(chuàng)造條件。
圖外圖書館將數(shù)據(jù)挖掘的研究結合到圖書館信息系統(tǒng)建設之中,目前已開發(fā)出具有數(shù)據(jù)挖掘功能的圖書館管理信息系統(tǒng),如新西蘭克萊斯特徹奇教育學院圖書館的MyLibrary-Christ church College of Education,華盛頓大學圖書館的My Gateway-University of Washington Libraries,以及康奈爾大學的圖書館My Library Cornell University Library等等,這些系統(tǒng)的構建都是基于數(shù)據(jù)挖掘的思想,并且在實踐中發(fā)揮了巨大的作用。相比而言,由國內(nèi)圖書館開發(fā)的真正可操作性強、易于實現(xiàn)、能夠指導實際業(yè)務的成熟產(chǎn)品卻為數(shù)不多,僅有包括中國人民大學在內(nèi)的少數(shù)幾所大學圖書館自行研發(fā)了圖書館個性化服務系統(tǒng)——KBDL系統(tǒng)?,F(xiàn)有的文獻中,大多偏重于數(shù)據(jù)挖掘理論的研究,對數(shù)據(jù)挖掘應用于圖書館信息系統(tǒng)及算法測試的研究較少,大部分的研究僅是局限于聚類分析、關聯(lián)規(guī)則等方法,對圖書館采訪數(shù)據(jù)進行相應的研究,極個別的研究者將研究的成果應用于該館實際運作管理。從圖書館數(shù)據(jù)挖掘軟件開發(fā)來看,大部分圖書館還 是 通 過 使 用 Intelligent Miner、SPSS Clementine、SAS Enterprise Miner、Orange、KNIME、Weka 等數(shù)據(jù)挖掘軟件對圖書館的數(shù)據(jù)進行分析、處理和挖掘,很少用于圖書館領域的專用的數(shù)據(jù)挖掘軟件,現(xiàn)有的成果并不能有效地指導圖書館信息系統(tǒng)開發(fā)建設的實踐,圖書館復雜數(shù)據(jù)類型挖掘(Web,Text,音頻、圖形圖像、視頻等)軟件的研究在國內(nèi)尚屬空白。
圖書館數(shù)據(jù)挖掘綜合了可視化技術、智能圖書館系統(tǒng)和數(shù)據(jù)挖掘等方面的知識和技術,它是一個新興的研究領域。本文通過對數(shù)據(jù)挖掘在圖書館中應用研究的回顧,從高校圖書館、數(shù)字圖書館、圖書館個性化服務,及數(shù)字挖掘的主要方法及軟件研究等多個方面歸納總結了國內(nèi)數(shù)據(jù)挖掘在圖書館領域應用的研究現(xiàn)狀??梢钥闯?,國內(nèi)圖書情報學的專家學者為數(shù)據(jù)挖掘在圖書館領域的應用做了大量的研究工作,取得了豐碩的成果。但同時也應看到:目前在該領域的研究,仍存在理論研究不夠深入、應用研究不全面、研究成果與圖書館管理信息系統(tǒng)開發(fā)聯(lián)系不緊密等問題。因此,為了能使數(shù)據(jù)挖掘更好地應用到圖書館和各項實踐,將來應在理論研究上下功夫,在實踐研究上求突破,同時,還要加速“一專多能”的人才培養(yǎng),加大科研經(jīng)費的投入力度,進一步推動研究成果向實踐應用的轉化。
[1] 奉國和,奉永桃.近十年國內(nèi)圖書館數(shù)據(jù)挖掘研究文獻計量分析[J].圖書館論壇,2011(1):46-49.
[2] 唐吉深.圖書館數(shù)據(jù)挖掘技術研究現(xiàn)狀述評[J].圖書館界,2011(l):42-64.
[3] Michael C.Patterns of a web based library catalog[J].Journal of the American Society for Information Science&Technology,2001,52(2):137-148.
[4] R.Cooley.Web Usage Mining:Discovery and Application of Interesting Patterns from the Web Data[M].phD thesis.Dept of Computer Science.University of Minnesota.2000.
[5] Fu Kai-Yan,LiuYan,Zhang Qin,etc.Data mining services in the university library in the application [J],Medical Information.2011,24(1):262-264.
[6] UTHURUSAMY R.From Data Mining to Knowledge Discovery:Current Challenges and Future Directions[C].FAYGAD U.Advances in Knowledge Discovery and Data Mining.The MIT Press,1996:561-569.
[7] HANJ,KAMBER M,TUNGAK H.SpatialClustering Methods in Data Mining[J].A Survey Geographie Data Mining and Knowledge Diseovery,2008,8(10).
[8] 習慧丹.數(shù)據(jù)挖掘研究綜述[J].電腦與信息技術,2012(2):43-45.
[9] Nicholson S.Bibliomining for automated collection development in a digital library setting:Using data mining to discover Web-based scholarly research works [J].Journal of the American Society for Information Science and Technology,2003,54(12):1081-1090.
[10] 高巨山.數(shù)字圖書館構建中的數(shù)據(jù)挖掘應用研究[J].圖書館工作與研究,2009,158(4):20-21.
[11] 潘慶超.網(wǎng)格數(shù)據(jù)挖掘在信息服務質量評價中的應用[J].現(xiàn)代情報,2009(7):141-143.
[12] 徐原青.基于讀者滿意度的數(shù)據(jù)挖掘在數(shù)字圖書館中的應用[J].圖書館學刊,2009(7):107-109.
[13] 潘小楓.數(shù)據(jù)挖掘技術及其在數(shù)字圖書館建設中的運用[J].圖書館理論與實踐,2006(4):105-106.
[14] 李默.基于web數(shù)據(jù)挖掘技術在數(shù)字圖書館建設中的應用[J].大學圖書情報學刊,2007(4):105-106.
[15] 田瑞雪.國內(nèi)圖書館數(shù)據(jù)挖掘技術應用研究述評[J].科技信息,2014,(1):167-232.
[16] 趙衛(wèi)軍.數(shù)據(jù)挖掘技術在高校圖書館中的應用[J].圖書館論壇,2007(4):126-128.
[17] 王慧敏,賀興時,牛四強.數(shù)據(jù)挖掘在高校圖書館中的應用[J].西安工程大學學報,2014(2):241-245.
[18] 唐杰,梅俏竹數(shù)據(jù)發(fā)掘學科發(fā)展報告[EB/OL].[2013-10-17].http://www.pinggu.org/jingji/987.html.
[19] 金瑤.數(shù)據(jù)挖掘技術在高校圖書館管理系統(tǒng)中的應用[D].上海:華東師范大學信息學院,2010.
[20] 楊光,張學潮.數(shù)據(jù)挖掘在高校圖書館用戶行為分析中的應用——以山西大學圖書館為例[J].晉圖學刊,2011(2):19-27.
[21] 吳一平.智能聚合技術在圖書館個性化信息服務中的應用[J].圖書館工作與研究,2008(11):58-61.
[22] 楊傳明.基于移動代理的數(shù)據(jù)挖掘在數(shù)字圖書館中的應用研究[J].情報理論與實踐,2008(3):436-439.
[23] 周艷,李萍,吳雷.基于云平臺的圖書館數(shù)據(jù)挖掘技術研究[J].現(xiàn)代情報,2012(7):46-49.
[24] 聶飛霞.基于數(shù)據(jù)挖掘的移動圖書館個性化推薦服務[J].圖書館學刊,2014(5):46-49.
[25] 韓麗.Agent技術在數(shù)字圖書館個性化信息服務中的應用[J].現(xiàn)代情報,2008(4):104-105.