方婷
安徽省蕪湖市圖書館,安徽 蕪湖 241000
海量學(xué)術(shù)文獻(xiàn)資源的知識(shí)挖掘技術(shù)與模式
方婷
安徽省蕪湖市圖書館,安徽 蕪湖 241000
知識(shí)挖掘技術(shù)是采集檢索海量學(xué)術(shù)文獻(xiàn)資源所必需具備的。文章分析了知識(shí)挖掘的四大關(guān)鍵技術(shù):聯(lián)機(jī)分析挖掘技術(shù)、Web挖掘技術(shù)、數(shù)據(jù)倉庫技術(shù)和信息可視化技術(shù),重點(diǎn)研究了海量學(xué)術(shù)文獻(xiàn)資源的用戶知識(shí)挖掘和學(xué)科知識(shí)挖掘模式,詳細(xì)探討了海量學(xué)術(shù)文獻(xiàn)資源知識(shí)挖掘創(chuàng)新模式:知識(shí)服務(wù)、Lotus知識(shí)發(fā)現(xiàn)、綜合知識(shí)挖掘。
海量學(xué)術(shù)文獻(xiàn)資源;知識(shí)挖掘;知識(shí)發(fā)現(xiàn)
圖書館海量學(xué)術(shù)文獻(xiàn)資源知識(shí)管理已經(jīng)從手工管理、計(jì)算機(jī)管理向網(wǎng)絡(luò)化管理改進(jìn),目前圖書館領(lǐng)域的研究熱點(diǎn)就是智能化、個(gè)性化管理。通過對(duì)讀者的查找計(jì)劃,比如想要做什么、對(duì)什么感興趣等進(jìn)行推理,為讀者提供所需的知識(shí)。海量學(xué)術(shù)文獻(xiàn)資源數(shù)據(jù)庫中的知識(shí)挖掘主要是用一些復(fù)雜的統(tǒng)計(jì)分析及模型技術(shù),在大量的數(shù)據(jù)和信息中篩選出不清楚、不被人們理解的信息,最終轉(zhuǎn)化為可利用的信息。通過挖掘技術(shù)對(duì)數(shù)據(jù)庫中的數(shù)據(jù)進(jìn)行處理,重新獲得有價(jià)值的信息資源[1]。
知識(shí)挖掘是通過數(shù)據(jù)挖掘完成的,即新知識(shí)=數(shù)據(jù)+已有知識(shí)+目標(biāo)。在知道讀者的需求后,通過數(shù)據(jù)分析,加上原來已有的知識(shí)進(jìn)行計(jì)算,幫助讀者得到他們之前不知道的知識(shí)。知識(shí)挖掘使人們找尋知識(shí)不再困難?,F(xiàn)代圖書館可以根據(jù)人們對(duì)知識(shí)的需求程度,對(duì)原理、知識(shí)信息等進(jìn)行重新整理、規(guī)劃,提取出最主要的、對(duì)人們有用的且容易識(shí)別的信息。本文的研究目的在于通過圖書館館藏的海量學(xué)術(shù)文獻(xiàn)資源進(jìn)行知識(shí)挖掘,從而提高館藏資源的開發(fā)與利用效率。
1.1 采集海量學(xué)術(shù)文獻(xiàn)資源信息所必需
現(xiàn)在人們對(duì)圖書的需求量越來越多,知識(shí)面越來越廣,對(duì)知識(shí)以及閱讀的需求量更加多樣化。圖書館購買圖書的費(fèi)用降低,加大了采購的難度[2]。圖書館自動(dòng)化功能可以產(chǎn)生很多對(duì)采購有用的數(shù)據(jù),但是只有那些數(shù)據(jù)還是不能直接進(jìn)行采購,需要應(yīng)用知識(shí)挖掘技術(shù),統(tǒng)計(jì)各種數(shù)據(jù),比如尋找專家、查找光盤、調(diào)查書籍借還速度等[3]。知識(shí)挖掘技術(shù)幫助采購人員得到很多有價(jià)值的信息,是采購工作不可缺少的環(huán)節(jié)。知識(shí)挖掘技術(shù)在網(wǎng)絡(luò)上的圖書館智能化系統(tǒng)可以幫助采購人員通過網(wǎng)上合作采購書刊,起到預(yù)測信息以及決策分析的作用。
1.2 檢索海量學(xué)術(shù)文獻(xiàn)資源信息所必需
信息檢索方式從索引檢索、打孔穿卡片檢索已經(jīng)發(fā)展到現(xiàn)在的計(jì)算機(jī)信息檢索[4]。在大數(shù)據(jù)時(shí)代,人們需要信息檢索更加完整、正確并且快速,而智能檢索技術(shù)可以通過預(yù)測讀者需求,快速提供檢索結(jié)果[5]。知識(shí)挖掘技術(shù)通過復(fù)雜的數(shù)據(jù)分析,從海量信息中統(tǒng)計(jì)出對(duì)人們有用的信息,經(jīng)過數(shù)據(jù)庫進(jìn)一步的處理,用機(jī)器學(xué)習(xí)的方法從其中得到有用信息。通過知識(shí)挖掘,特別是知識(shí)挖掘的分支——文本挖掘及Web挖掘技術(shù)得到文本中的有用信息,再把這些信息通過動(dòng)態(tài)方式展現(xiàn)給讀者,滿足讀者要求。同時(shí),它還可以與計(jì)算機(jī)存儲(chǔ)、組織、管理、使用的領(lǐng)域的本關(guān)理論、知識(shí)事實(shí)數(shù)據(jù)進(jìn)行交換、聯(lián)系、集合,這用戶提供個(gè)性化服務(wù)。
2.1 聯(lián)機(jī)分析挖掘技術(shù)
聯(lián)機(jī)分析挖掘技術(shù)(OLAM)由聯(lián)機(jī)分析處理(online analytical processing, OLAP)及數(shù)據(jù)挖掘(data mining, DM)組成,OLAP和DM是通過數(shù)據(jù)倉庫技術(shù)發(fā)展而來的信息分析和挖掘工具[6],二者相輔相成。OLAP通過多維數(shù)據(jù)進(jìn)行分析,和數(shù)據(jù)倉庫原有的數(shù)據(jù)取長補(bǔ)短。OLAP分析主要是通過數(shù)據(jù)庫對(duì)模型進(jìn)行剖析、旋轉(zhuǎn)等方式來得到有用的信息,給決策者提供幫助。多維結(jié)構(gòu)是OLAP的重要組成部分,多維結(jié)構(gòu)里面的維不僅僅指的是三維,還可以是超立方體和多立方體的一些結(jié)構(gòu)。OLAP有2個(gè)顯著特征:一方面是在線性,就是能很快感應(yīng)到讀者的需求;另一方面是多維性,對(duì)統(tǒng)計(jì)分析、整理后的數(shù)據(jù)再進(jìn)行多維分析。DM數(shù)據(jù)挖掘分為2個(gè)步驟:建立模型和預(yù)測結(jié)果,通過對(duì)各種信息源尤其是最原始的數(shù)據(jù)進(jìn)行挖掘。
2.2 Web挖掘技術(shù)
現(xiàn)在網(wǎng)絡(luò)在技術(shù)應(yīng)用、規(guī)模復(fù)雜程度等方面都有突飛猛進(jìn)的發(fā)展,包括多行業(yè)的內(nèi)容信息、廣泛的超鏈接信息還有Web自身頁面的訪問及使用信息。Web挖掘指的是通過數(shù)據(jù)挖掘技術(shù)從Web文檔以及Web活動(dòng)中抽取出人們感興趣的、對(duì)人們有幫助的信息。
Web挖掘分為3種類型[7]:⑴Web內(nèi)容的挖掘。對(duì)Web自身頁面的內(nèi)容進(jìn)行挖掘,主要通過對(duì)非結(jié)構(gòu)化的數(shù)據(jù),像文本、音頻、視頻以及圖形圖像等多種數(shù)據(jù)結(jié)合的信息進(jìn)行挖掘。⑵Web結(jié)構(gòu)的挖掘。通過對(duì)Web頁面之間的結(jié)構(gòu)來進(jìn)行挖掘,通過對(duì)WWW之間的組織結(jié)構(gòu)以及連接間的關(guān)系來推理知識(shí),例如HITS算法即屬于對(duì)Web結(jié)構(gòu)的挖掘。⑶Web使用信息的挖掘。通過Web日志文件及相關(guān)數(shù)據(jù),對(duì)用戶查看Web時(shí)留下的記錄進(jìn)行挖掘,從而發(fā)現(xiàn)人們查找Web頁面的規(guī)律及模式。
2.3 數(shù)據(jù)倉庫技術(shù)
數(shù)據(jù)倉庫是由面向主題的、集成的、穩(wěn)定的、并且隨時(shí)間變化而變化的數(shù)據(jù)組成的,對(duì)經(jīng)營管理起決策性作用。一方面,數(shù)據(jù)倉庫用來支持決策,對(duì)分析型數(shù)據(jù)進(jìn)行處理,與現(xiàn)在數(shù)據(jù)庫的操作模式不一樣;另一方面,數(shù)據(jù)倉庫對(duì)不同主題、不同來源的數(shù)據(jù)庫進(jìn)行重新組合。
數(shù)據(jù)倉庫系統(tǒng)由4個(gè)方面組成:⑴數(shù)據(jù)源,是數(shù)據(jù)倉庫系統(tǒng)的基本組成部分。⑵數(shù)據(jù)的存儲(chǔ)與管理。是數(shù)據(jù)倉庫系統(tǒng)的主要組成部分,對(duì)數(shù)據(jù)庫的管理起到了關(guān)鍵性的作用。⑶OLAP服務(wù)器。通過對(duì)有用的數(shù)據(jù)進(jìn)行分析,按照多維模型結(jié)構(gòu)進(jìn)行重組,有利于朝更廣、更深層次的方向發(fā)展,從而發(fā)現(xiàn)未來的走向。⑷前端工具,是由各種報(bào)表工具、查詢工具、數(shù)據(jù)分析工具、數(shù)據(jù)挖掘工具等組成。其中數(shù)據(jù)分析工具主要是針對(duì)OLAP服務(wù)器的,報(bào)表工具、數(shù)據(jù)挖掘工具是在數(shù)據(jù)倉庫中使用。
2.4 信息可視化技術(shù)
信息可視化技術(shù)是信息科學(xué)非常重要的一部分,正向信息的知覺化、感知化方向發(fā)展。信息可視化應(yīng)用領(lǐng)域非常廣,由信息的抽取和描述、人工和機(jī)器的交換、數(shù)據(jù)的挖掘、制圖學(xué)和成像學(xué)等組成[8]。信息可視化能把抽象的數(shù)據(jù)以及文字信息通過二維或者多維模式體現(xiàn)出來。在對(duì)信息進(jìn)行可視化處理時(shí),能夠看出數(shù)據(jù)的屬性,那些不容易發(fā)現(xiàn)的數(shù)據(jù)之間的關(guān)系也能清晰地體現(xiàn)出來,用戶可獲得更豐富的信息資源。
知識(shí)挖掘是從海量學(xué)術(shù)文獻(xiàn)資源中挖掘出有用的信息,再對(duì)相同類型的數(shù)據(jù)元進(jìn)行比較、處理及分類等,得出他們之間的某些關(guān)系,從而生成、獲得更多的知識(shí)信息。
3.1 用戶知識(shí)挖掘
因?yàn)樽x者有需求才有個(gè)性化的服務(wù),只有足夠了解讀者的需求,才可能設(shè)計(jì)、構(gòu)思出能夠滿足讀者要求的更高層次的知識(shí)信息。
用戶知識(shí)可以分為3類:可以滿足用戶需要的知識(shí)、本身出自用戶的知識(shí)和與用戶相關(guān)的知識(shí),每種知識(shí)都有各自的特征。能滿足人們要求的知識(shí)是指圖書館能夠給用戶提供的知識(shí);本身出自用戶的知識(shí)是指用戶表達(dá)的知識(shí)信息,是在利用圖書館時(shí)向工作人員所反饋的信息;與用戶相關(guān)的知識(shí)是指用戶在圖書館時(shí)需要的信息。用戶知識(shí)挖掘?yàn)閳D書館的發(fā)展打下良好的基礎(chǔ),充分了解用戶,把圖書館的管理水平和人們的知識(shí)需求相結(jié)合,就會(huì)形成滿足人們需要的個(gè)性化服務(wù)。
知識(shí)挖掘非常顯著的特征就是它能把一些人們沒有表達(dá)清楚的信息挖掘出來,再通過這些信息點(diǎn)預(yù)測未來的發(fā)展走向。
知識(shí)挖掘通過對(duì)用戶需要什么知識(shí)、曾經(jīng)訪問過的記錄和某種行為,將這些知識(shí)再重新整理、分類、規(guī)劃,形成一個(gè)用戶知識(shí)的海洋,利用反饋出來的信息,來推測人們以后對(duì)知識(shí)的需求會(huì)往什么方向發(fā)展,根據(jù)這些推測,圖書館便能開發(fā)出符合人們要求的不同類型的知識(shí)。通過時(shí)間的不同、需要信息的種類不同,把知識(shí)種類進(jìn)行歸納整理、分類劃分,從而滿足人們的信息需求。
3.2 學(xué)科知識(shí)挖掘
和用戶知識(shí)挖掘相似,學(xué)科知識(shí)挖掘主要是通過挖掘技術(shù)對(duì)學(xué)科進(jìn)行某種分析,得到某些不容易發(fā)現(xiàn)的知識(shí),再形成面向?qū)W科的專業(yè)知識(shí)的海洋??梢杂^察不知道的那些知識(shí)他們之間的某種關(guān)系,從而進(jìn)行整理。
學(xué)科知識(shí)挖掘由5個(gè)部分組成:⑴信息采集。知識(shí)挖掘的主要目的是研究和學(xué)科有關(guān)的信息。資源信息的采集大部分都是從簡單到復(fù)雜,先整理出自身圖書館的信息資源,再慢慢向其他圖書館、網(wǎng)絡(luò)機(jī)構(gòu)等進(jìn)行擴(kuò)展。⑵信息過濾。指對(duì)這些信息進(jìn)行篩選,再通過各種信息之間的關(guān)系進(jìn)行歸類整理。⑶信息匯總。把相同類型的學(xué)科知識(shí)信息進(jìn)行整理,形成信息庫。⑷信息提供。針對(duì)不同用戶的不同需求提供信息。⑸反饋評(píng)價(jià)。知識(shí)挖掘非常重要的步驟。通過人們反饋的意見,對(duì)知識(shí)挖掘各方面進(jìn)行改進(jìn)。
4.1 知識(shí)服務(wù)
知識(shí)服務(wù)是通過把一些知識(shí)進(jìn)行重新整理、分類,組成新的知識(shí),以滿足不同用戶對(duì)知識(shí)的不同需求。高校數(shù)字圖書館利用查找、整理信息的能力,來實(shí)現(xiàn)自身的價(jià)值。
圖書館提供知識(shí)服務(wù),還需要有更加完善的管理機(jī)制,豐富館藏資源,加強(qiáng)館際合作,對(duì)各種信息整合、規(guī)范,提升完成知識(shí)服務(wù)的能力。
4.2 Lotus知識(shí)發(fā)現(xiàn)
Lotus是一種新的知識(shí)挖掘方式,主要通過知識(shí)倉庫完成。前端的 Lotus知識(shí)工作站是最基礎(chǔ)的關(guān)于Web的知識(shí)信息解決,它融合了Lotus先進(jìn)的門戶技術(shù)、實(shí)時(shí)協(xié)作平臺(tái)以及群組共同協(xié)作完成方案等核心的協(xié)作工具與服務(wù),把應(yīng)用、團(tuán)隊(duì)協(xié)作服務(wù)和個(gè)人服務(wù)融合在一起,通過把“人物、地點(diǎn)和事件”這三個(gè)不同的知識(shí)信息相融合,群組之間的相互協(xié)作,讓工作人員通過 LotusNotes客戶端或?yàn)g覽器進(jìn)行訪問,從而發(fā)現(xiàn)、使用和實(shí)現(xiàn)知識(shí)間的相互傳遞。后臺(tái)的 LotusNotes服務(wù)器可總結(jié)出“人物、地點(diǎn)和事件”三者的關(guān)系,從存儲(chǔ)在企業(yè)的文檔、數(shù)據(jù)庫、電子郵件、Web和 ERP(企業(yè)資源計(jì)劃)等業(yè)務(wù)系統(tǒng)的信息庫中得到自己想要的知識(shí)。
4.3 綜合知識(shí)挖掘
雙庫協(xié)同知識(shí)發(fā)現(xiàn)(KDD&K)是數(shù)據(jù)庫和知識(shí)庫的綜合知識(shí)挖掘系統(tǒng),使知識(shí)之間相互組合以及知識(shí)增加,系統(tǒng)深度知識(shí)也是通過它來完成和實(shí)現(xiàn)深化。KDD&K系統(tǒng)主要是將原來數(shù)據(jù)間的關(guān)系,再通過分析、歸納、整理,從而發(fā)現(xiàn)更深層次的知識(shí),即具有無窮盡的知識(shí)。KDD&K系統(tǒng)使用很多種推理方法,發(fā)現(xiàn)的知識(shí)是有價(jià)值的并且人們能夠理解的。因?yàn)閿?shù)據(jù)和知識(shí)本來就是截然不同的 2個(gè)概念,KDD&K過程非常復(fù)雜并且會(huì)有很多方法和途徑的,它和數(shù)據(jù)庫、數(shù)據(jù)倉庫、知識(shí)庫的組織、以及人們對(duì)最終想要的知識(shí)類型息息相關(guān),需要KDD&K必須具備很強(qiáng)的知識(shí)挖掘能力。
知識(shí)挖掘的目的是通過最新的智能型工具找到隱藏在海量學(xué)術(shù)文獻(xiàn)資源中的隱性知識(shí),再形成專業(yè)的知識(shí)庫和知識(shí)倉庫。對(duì)圖書館館藏的海量學(xué)術(shù)文獻(xiàn)資源進(jìn)行知識(shí)挖掘研究,有利于促進(jìn)館藏學(xué)術(shù)資源的有效開發(fā)與利用,從而進(jìn)一步提升圖書館服務(wù)質(zhì)量。
[1] 鄭立新.論圖書館員工隱性知識(shí)挖掘[J].現(xiàn)代情報(bào),2010,30(3):29-31.
[2] 蔡皎潔,張玉峰.企業(yè)電子商務(wù)中客戶知識(shí)挖掘模型研究[J].江蘇商論,2012(8):52-55,83.
[3] 王峰,汪華方.數(shù)字圖書館信息檢索技術(shù)的智能化發(fā)展趨勢[J].現(xiàn)代情報(bào),2008,28(11):93-95,99.
[4] 蔡皎潔.Web環(huán)境下的語義挖掘模型研究[J].情報(bào)理論與實(shí)踐,2015,38(5):121-124,111.
[5] 張春燕,覃海生.數(shù)據(jù)挖掘在多媒體資源庫建設(shè)中的應(yīng)用[J].無線互聯(lián)科技,2015(14):138-139.
[6] 鐘文一.大數(shù)據(jù)時(shí)代下的圖書館數(shù)據(jù)挖掘和情報(bào)分析研究——以中文發(fā)現(xiàn)系統(tǒng)為例[J].教育觀察,2014,25(3):88-91.
[7] 龐觀松,張黎莎,蔣盛益.跨語言智能學(xué)術(shù)搜索系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].山東大學(xué)學(xué)報(bào)(工學(xué)版),2011,41(5):63-68.
[8] 凃寓,王志彥.淺談資源發(fā)現(xiàn)系統(tǒng)在圖書館服務(wù)中的現(xiàn)狀與趨勢[J].圖書情報(bào)論壇,2014(5):55-58.
Knowledge Mining Technology and Modes of Huge Amounts of Academic Literature Resources
FANG Ting
(Library of Wuhu City Anhui Province, Wuhu Anhui 241000, China)
In this thesis, the necessity of applying knowledge discovery techniques to collecting huge amounts of academic literature resources is analyzed at first. The four key knowledge discovery techniques are then introduced: online analytic mining (OLAM) technique,Web mining technique, data warehouse(DW)technique, and information visualization technique. User knowledge mining mode and subject knowledge mining mode of huge amounts of academic literature resources are further studied empirically. At last,innovative knowledge mining modes of huge amounts of academic literature resources are discussed in details:knowledge service mode, Lotus knowledge discovery mode, and comprehensive knowledge mining mode.
huge amounts of academic literature resource; knowledge mining; knowledge discovery
G250.7
:A
:2095-5707(2017)04-0007-04
2017-03-13)
(
2017-04-11;編輯:魏民)
方婷.海量學(xué)術(shù)文獻(xiàn)資源的知識(shí)挖掘技術(shù)與模式[J].中國中醫(yī)藥圖書情報(bào)雜志,2017,41(4):7-10.
10.3969/j.issn.2095-5707.2017.04.003
方婷,館員,研究方向?yàn)殚喿x推廣、少兒親子閱讀。E-mail: whtsgft@yeah.net