田 紅
〔摘 要〕本文以國內權威的CNKI系列全文數(shù)據(jù)庫1995-2007年間登載的相關文獻數(shù)據(jù)為基礎,利用基于關鍵詞詞頻統(tǒng)計的內容分析方法,對數(shù)據(jù)挖掘技術在我國圖書情報領域中的應用研究狀況進行了比較全面的分析,揭示了研究的重點主題,分析了研究中存在的問題,以期為相關研究工作的深化發(fā)展提供參考。
〔關鍵詞〕數(shù)據(jù)挖掘;圖書情報學;應用研究;內容分析
〔中圖分類號〕TP39;G250 〔文獻標識碼〕A 〔文章編號〕1008-0821(2009)09-0038-04
On Application of Data Mining to Library and Information Science
——An Content Analysis Based on CNKI DatabasesTian Hong
(Library,Guizhou University,Guiyang 550003,China)
〔Abstract〕Based on literatures of authoritative CNKI databases during 1995-2007,the author explored academic research of applying data mining to library and information science by the method of keywords-based content analysis,and discussed its core subjects and the problems.
〔Key words〕data mining;library and information science;applied research;content analysis
作為一門技術性較強的應用社會科學,圖書情報學的每一次大發(fā)展都離不開信息技術的發(fā)展和應用,以至有人認為,圖書情報學是對信息技術最敏感、應用最成熟的社會科學之一。數(shù)據(jù)挖掘作為信息科學技術的重要新興領域之一,近年來受到圖書情報工作者與研究者的 重視和關注。然而,數(shù)據(jù)挖掘技術在我國圖書情報領域中的應用研究狀況如何?有哪些重要 的進展和成果?還存在哪些方面的不足和薄弱環(huán)節(jié)?都是當前需要解答的重要問題,對深化 數(shù)據(jù)挖掘技術在我國圖書情報領域中的應用、促進圖書情報學術研究與實踐的發(fā)展都具有重 要的現(xiàn)實意義。
1 研究方法與數(shù)據(jù)收集
1.1 基于詞頻統(tǒng)計的內容分析法
內容分析法是一種對研究對象的內容進行深入分析,透過現(xiàn)象看本質的科學方法。應用這一方法,對文獻的特定主題內容進行定性和定量剖析,可以揭示該主題內容的實質,系統(tǒng)、客觀地把握其研究動態(tài)和趨勢[1]。關鍵詞是指出現(xiàn)在文獻的篇名、摘要和正文中,用以表達文獻主題概念的、有實際意義的自然語言詞匯。對于某學科專業(yè)學術論文而言,由于科研人員對同一課題或概念的掌握較為準確,因而所使用的關鍵詞也趨向一致[2]。對各學科、各專業(yè)的前沿領域而言,由于其科研人員長期從事各學科、各專業(yè)前沿領域的課題研究,對新理論、新技術、新成果有較深刻的理解,并能及時轉化為公認的關鍵詞,這些新興關鍵詞的多寡也代表著學科發(fā)展的方向與成熟度。因此,該學科相關文獻的關鍵詞的分布頻次與特征,能顯示該學科的總體內容特征、研究內容之間的內在聯(lián)系、學術研究的發(fā)展脈絡與發(fā)展方向、學術研究的重點與熱點等[3]。
鑒于這些研究方法的科學性、客觀性、準確性和實用性,近年來已經得到一定范圍的運用,并取得一系列有意義的研究成果:如加拿大蒙特利爾大學的D.Robert教授等人曾于1997年完成了一份關于世界納米科技研究狀況的計量分析報告,該報告以加拿大NRC確定的79個納米科技關鍵詞為依據(jù),采用詞頻分析的方法,分析了全球范圍內納米科技論文的產出和分布[3];2003年,河南師范大學的梁立明教授等人運用詞頻分析法作了一項關于中國納米科技發(fā)展狀況的補充性研究[4];同年,武漢大學的邱均平教授等人也運用詞頻分析法,分析了2002年國內外情報學研究的重點主題和發(fā)展動向[5];2006年,武漢大學的馬費成教授等人用詞頻分析的方法對比分析了國內外知識管理研究的熱點、方法、學科分布和應用領域[6]。我們完全可以將內容分析法和以關鍵詞為基礎的詞頻分析法相結合,即基于詞頻統(tǒng)計的內容分析法,研究數(shù)據(jù)挖掘技術在圖書情報領域中的應用研究的基本狀況。
1.2 相關數(shù)據(jù)的收集整理
文獻計量的數(shù)據(jù)來源隨著時代的變化也有所變化,本文的數(shù)據(jù)來源以中國知網CNKI系列全文數(shù)據(jù)庫為主,統(tǒng)計相關文獻的特征信息。CNKI系列數(shù)據(jù)庫是目前世界上最大的綜合性中文數(shù)據(jù)庫,收錄了國內多種類型的科技文獻全文,且收錄率很高,通常都在90%以上,以此作為統(tǒng)計分析對象,可保證研究結果的權威性和可靠性。文獻檢索年限定為1995-2007年,檢索方法為“分類=圖書情報與數(shù)字圖書館”AND“篇名=數(shù)據(jù)挖掘”(匹配方式=“模糊”),檢索結果如表1所示。
可以看出,數(shù)據(jù)挖掘技術在圖書情報領域中的應用研究已經有一定的成果和文獻積累。而從這些文獻的時間分布看,自1999年以來基本呈現(xiàn)出較高的增長態(tài)勢,說明此方面的研究規(guī)模不斷擴大,正處于快速發(fā)展的時期(見圖1)。
2 詞頻分布及重點研究主題分析
2.1 詞頻統(tǒng)計結果及分布特征
246篇有關數(shù)據(jù)挖掘技術在圖書情報領域中的應用研究的文獻共有關鍵詞近900個。在對這些關鍵詞作同義詞的處理后,選擇詞頻高達5次以上的關鍵詞進入關鍵詞表,從而確定了共有18個關鍵詞的高頻詞表,其詞頻分布情況見表2。
可以看出,這些關鍵詞表現(xiàn)出較為明顯的類別特征:一類是具有技術屬性的關鍵詞,如數(shù)據(jù)挖掘、Web數(shù)據(jù)挖掘、知識庫、數(shù)據(jù)庫、數(shù)據(jù)倉庫、文本挖掘、信息挖掘、知識發(fā)現(xiàn)、關聯(lián)規(guī)則、可擴展標記語言等關鍵詞,具有較為明顯的技術特征,主要反映了被應用的數(shù)據(jù)挖掘的具體技術、工具和方法;另一類是具有圖書情報學學科屬性的關鍵詞,這些關鍵詞中,少數(shù)表明了數(shù)據(jù)挖掘技術的應用領域,如圖書館、高校圖書館、數(shù)字圖書館,多數(shù)則表征了圖書情報學科的研究主題和方向(見表2)。
2.2 重點研究主題分析
從以上關鍵詞的特征分析可以看出,具有圖書情報學學科屬性的關鍵詞不僅表征了數(shù)據(jù)挖掘技術在圖書情報中的應用領域,而且高頻次表征研究研究方向的關鍵詞還體現(xiàn)了數(shù)據(jù)挖掘技術在圖書情報領域中應用研究的重點主題和方向。這些關鍵詞表征的重點研究主題包括:信息服務(包括“個性化信息服務”、“信息服務”兩個關鍵詞)、信息檢索、知識管理、參考咨詢、競爭情報、決策支持。下面以這些關鍵詞對應的文獻為基礎,對這些重點研究主題的研究狀況作簡要分析概述。
2.2.1 信息服務
信息服務是圖書情報領域研究的重要內容,而圖書情報部門信息服務的發(fā)展離不開信息技術方法的支持。此方面的研究主要包括基于數(shù)據(jù)挖掘技術的圖書館信息服務系統(tǒng)模型設計[7],Web數(shù)據(jù)挖掘實現(xiàn)個性化信息服務的主要途徑[8],基于Web數(shù)據(jù)挖掘技術的用戶社區(qū)聚類方法和相關量化技術[9],Web日志數(shù)據(jù)和OPAC信息庫圖書借閱數(shù)據(jù)關聯(lián)挖掘分析與應用[10],利用數(shù)據(jù)挖掘技術構建數(shù)字圖書館個性化服務系統(tǒng)的方法[11],基于WEB信息空間或自動化管理系統(tǒng)的知識服務[12],基于數(shù)據(jù)挖掘及數(shù)據(jù)倉庫技術的網絡信息服務模式[13]。
2.2.2 信息檢索
現(xiàn)代信息檢索研究與信息技術有較緊密的聯(lián)系,數(shù)據(jù)挖掘在信息檢索中的應用研究主要關注網上信息進行自動提取及網上信息分類的實現(xiàn)途徑[14],利用詞頻矩陣和模糊相似矩陣的文本間相關性的計算方法[15],用戶訪問記錄、網絡數(shù)據(jù)流背后的知識關聯(lián)和知識發(fā)現(xiàn)[16],從網絡信息內容的關聯(lián)智能檢索中的網絡數(shù)據(jù)挖掘技術[17],基于知識規(guī)則挖掘的分類方法及其應用[18]等。
2.2.3 知識管理
知識管理是近年來圖書情報學術研究的熱點之一,數(shù)據(jù)挖掘應用于圖書情報知識管理的研究主要涉及到數(shù)字特藏數(shù)據(jù)挖掘支持專題數(shù)據(jù)庫資源的知識管理[19],數(shù)據(jù)挖掘技術在數(shù)字圖書館知識管理系統(tǒng)建設中的應用[20],分布式數(shù)據(jù)挖掘解決元數(shù)據(jù)集中管理與對象數(shù)據(jù)分散的存取機制構建[21],基于WEB信息空間或自動化管理系統(tǒng)的知識服務[22],通過數(shù)據(jù)挖掘實現(xiàn)圖書館信息價值最大化、保持圖書館競爭力和可持續(xù)發(fā)展的措施[23],智能信息處理中文本知識的發(fā)現(xiàn)[24]等方面。
2.2.4 參考咨詢
此方面的研究主要與近年來興起的數(shù)字參考咨詢相關,內容主要涉及基于挖掘技術的數(shù)字參考咨詢系統(tǒng)設計框及數(shù)據(jù)庫結構設計[25],數(shù)據(jù)挖掘技術在基于呼叫中心的數(shù)字參考服務中的應用[26],圖書的流通數(shù)據(jù)應用關聯(lián)規(guī)則的挖掘分析方法[27],E-mail文本挖掘的具體過程及其在用戶參考咨詢需求定位中的應用[28]。
2.2.5 競爭情報
主要研究基于數(shù)據(jù)挖掘的企業(yè)競爭情報智能采集模型構建[29],集成環(huán)境中面向競爭情報系統(tǒng)的數(shù)據(jù)倉庫和數(shù)據(jù)挖掘技術的應用[30]等。
2.2.6 決策支持
主要包括讀者關系管理中應用數(shù)據(jù)挖掘的條件和數(shù)據(jù)處理、構建模型及模型評價等基本流程[31],分類、回歸分析、聚類、關聯(lián)規(guī)則、特征、變化和偏差分析、Web頁挖掘等數(shù)據(jù)挖掘技術在圖書館館藏管理、讀者管理及決策支持等方面的應用[32]等。
3 結 語
綜上分析不難看出,以上主題的研究都與圖書情報學原有的研究領域或研究內容有較大的相關性。但在對已有文獻的分析梳理的過程中筆者也發(fā)現(xiàn),目前圖書情報學術界對數(shù)據(jù)挖掘的應用研究還存在以下兩方面的問題:一是研究內容不夠深入。在已有的研究中,很大一部分都是普泛地介紹數(shù)據(jù)挖掘的相關技術,并簡要分析其在圖書情報工作中應用的意義和范圍等等,內容比較膚淺,重復雷同嚴重;即便是一些專題性的研究,主要也是用數(shù)據(jù)挖掘的各種技術方法對圖書情報工作中的相關記錄數(shù)據(jù)和信息進行簡單的套用和計算分析,還缺乏應有的研究深度。二是研究力量比較分散。從筆者對檢出文獻的作者的考察結果看,絕大多數(shù)作者只發(fā)表過1篇相關文獻,最多的也只發(fā)表過4篇相關文獻,這說明目前對數(shù)據(jù)挖掘在圖書情報工作中的應用研究還沒有形成穩(wěn)定的研究隊伍,研究工作還缺乏應有的組織和引導,絕大多數(shù)研究人員只是“偶然”地進行此方面的研究,影響了研究的水平和深度。圖書情報學界應針對這些問題,采取有效的對策措施,推動研究工作走向深入。
參考文獻
[1]邱均平,鄒菲.關于內容分析法的研究[J].中國圖書館學報,2004,(2):1-4.
[2]王思哲.我國學術期刊關鍵詞標引質量探析[J].延安大學學報:社會科學版,2001,(3):27-29.
[3]邱均平,蘇金燕.國內信息資源管理研究綜述[J].圖書館論壇,2007,(6):56-60.
[4]梁立明,謝彩霞.詞頻分析法用于我國納米科技研究動向分析[J].科學學研究,2003,(3):5-11.
[5]邱均平,趙蓉英,侯經川.2002年國內外情報學發(fā)展動向研究[J].情報學報,2003,(5):512-516.
[6]馬費成,張勤.國內外知識管理研究熱點——基于詞頻的統(tǒng)計分析[J].情報學報,2006,(2):146-151.
[7]李璐璐.基于數(shù)據(jù)挖掘技術的信息服務研究及系統(tǒng)模型設計[J].大學圖書情報學刊,2008,(4):46-48.
[8]歐陽烽.Web數(shù)據(jù)挖掘與高校數(shù)字圖書館個性化服務[J].現(xiàn)代情報,2008,(1):301-303.
[9]郝小花,鄧小昭.基于數(shù)據(jù)挖掘的可視化數(shù)字圖書館用戶社區(qū)聚類與特征分析[J].情報科學,2008,(3):396-399.
[10]溫嶸生,邱春蘭.基于OPAC信息庫圖書借閱數(shù)據(jù)關聯(lián)挖掘分析與應用[J].情報雜志,2007,(7):26-28.
[11]周軍.基于數(shù)據(jù)挖掘的數(shù)字圖書館個性化服務系統(tǒng)的構建[J].圖書館學研究,2007,(3):15-17.
[12]黃蘭.數(shù)據(jù)挖掘技術在圖書館工作中的應用[J].圖書館學研究,2005,(7):15-17.
[13]張艷英,朱婕.數(shù)據(jù)倉庫、數(shù)據(jù)挖掘及網絡信息服務[J].現(xiàn)代情報,2003,(12):2-3.
[14]朱理達.圖書館信息管理與數(shù)據(jù)挖掘技術[J].河南圖書館學刊,2002,(3):60-61.
[15]武勝良.數(shù)據(jù)挖掘中模糊聚類方法在信息檢索中的應用[J].當代經理人,2006,(15):244-245.
[16]金燕,張玉峰.網絡數(shù)據(jù)挖掘及其在面向Web的知識檢索中的應用[J].現(xiàn)代圖書情報技術,2003,(6):55-57.
[17]晏創(chuàng)業(yè),張玉峰.智能檢索中的網絡數(shù)據(jù)挖掘技術探索[J].中國圖書館學報,2002,(3):13-16.
[18]石冰,鄭燕峰.信息檢索中的數(shù)據(jù)挖掘技術[J].情報學報,1999(S1):400-403.
[19]都平平,李明.專題數(shù)據(jù)庫的數(shù)據(jù)挖掘與知識管理——以《中國煤礦事故數(shù)據(jù)庫》為例[J].圖書館雜志,2006,(2):14-16.
[20]潘小楓.數(shù)據(jù)挖掘技術及其在數(shù)字圖書館建設中的運用[J].圖書館理論與實踐,2006,(4):105-106.
[21]胡譽耀.數(shù)字圖書館的分布式數(shù)據(jù)挖掘[J].情報理論與實踐,2006,(3):853-855.
[22]黃蘭.數(shù)據(jù)挖掘技術在圖書館工作中的應用[J].圖書館學研究,2005,(7):15-17.
[23]金中仁,陳振宇.知識管理與文獻信息數(shù)據(jù)挖掘[J].情報雜志,2004,(12):89-90.
[24]韓客松,王永成.文本挖掘、數(shù)據(jù)挖掘和知識管理——21世紀的智能信息處理[J].情報學報,2001,(1):100-104.
[25]張軍麗.基于數(shù)據(jù)挖掘技術的圖書館參考咨詢[J].科技情報開發(fā)與經,2008,(20):50-51.
[26]劉秋梅,鄭耿忠.呼叫中心數(shù)據(jù)挖掘在數(shù)字參考服務中的應用研究[J].情報雜志,2006,(5):68-70.
[27]魏育輝,潘潔.圖書流通數(shù)據(jù)的關聯(lián)挖掘量化分析方法[J].現(xiàn)代情報,2005,(11):108-110.
[28]晁成春.參考咨詢服務中的E-mail文本數(shù)據(jù)挖掘[J].農業(yè)圖書情報學刊,2005,(12):41-43.
[29]唐濤,張玉峰.基于數(shù)據(jù)挖掘的企業(yè)競爭情報智能采集模型研究[J].情報科學,2007,(10):6750-6754.
[30]苗杰,倪波.面向集成競爭情報系統(tǒng)的數(shù)據(jù)挖掘應用研究[J].情報學報,2001,(4):443-450.
[31]楊春,劉樹新,樓康華.論數(shù)據(jù)挖掘在讀者關系管理中的應用[J].河北建筑科技學院學報:社會科學版,2006,(3):125-127.
[32]葉新友,晁成春.數(shù)據(jù)挖掘技術在高校圖書館中的應用[J].新世紀圖書館,2005,(1):50-51.