王芙蓉
(山西傳媒學(xué)院圖書館,山西 晉中 030619)
基于知識發(fā)現(xiàn)的高校圖書館機構(gòu)知識庫模型的建立
王芙蓉
(山西傳媒學(xué)院圖書館,山西 晉中 030619)
機構(gòu)知識庫是學(xué)術(shù)機構(gòu)將成員產(chǎn)生的學(xué)術(shù)資料進行收集、保存、管理,以開放和共享為目的,實現(xiàn)資源的永久保存和傳播。介紹了機構(gòu)知識庫的概念和高校圖書館建立機構(gòu)知識庫的必要性及原則。為了避免數(shù)據(jù)冗余,便于深層次數(shù)據(jù)挖掘,以題錄實體和機構(gòu)實體為元數(shù)據(jù),構(gòu)建了基于知識發(fā)現(xiàn)的三層架構(gòu)的機構(gòu)知識庫模型,并闡述了該模型的實現(xiàn)過程。
機構(gòu)知識庫 高校圖書館 數(shù)據(jù)挖掘 知識發(fā)現(xiàn) 題錄
機構(gòu)知識庫(IR,Institutional Repository)又稱為“機構(gòu)典藏庫”“機構(gòu)存儲庫”“機構(gòu)倉儲庫”等,美國網(wǎng)絡(luò)信息聯(lián)盟(Coalition of Networked Information)執(zhí)行總監(jiān)Clifford Lynch[1]定義機構(gòu)知識庫為“高校的機構(gòu)知識庫是高校為其成員提供的一套服務(wù)系統(tǒng),用于管理和傳播高校各個部門及其成員創(chuàng)作的數(shù)字化資料”。因此機構(gòu)知識庫就是學(xué)術(shù)機構(gòu)利用計算機技術(shù),將成員產(chǎn)生的學(xué)術(shù)資源進行收集、規(guī)范、組織、存儲,形成可以運用計算機保存、管理、檢索的數(shù)字資源,以開放和共享為目的,實現(xiàn)資源的永久保存和傳播。國外機構(gòu)知識庫的建設(shè)已成為學(xué)術(shù)機構(gòu)的一項基礎(chǔ)教育設(shè)施,而在我國機構(gòu)知識庫建設(shè)比較落后,具有代表性的是廈門大學(xué)建設(shè)的學(xué)術(shù)典藏庫以及香港大學(xué)的機構(gòu)知識庫。
機構(gòu)知識庫中收納的學(xué)術(shù)資料包括公開發(fā)表和未公開發(fā)表的各種形式的學(xué)術(shù)成果,這些學(xué)術(shù)資料包括論文、專著、專利、研究報告、課件、實驗報告等,以及所有格式的圖像、視頻資料、音頻資料、文本、藝術(shù)作品等。學(xué)術(shù)資料的收集是機構(gòu)知識庫建設(shè)中一項繁重的任務(wù),建立合理的征收制度,提高機構(gòu)知識庫的文獻資源服務(wù)質(zhì)量,吸引更多的教師使用機構(gòu)知識庫,從而激發(fā)教師主動提交學(xué)術(shù)成果,擴大收錄范圍和形式。對公開發(fā)表的學(xué)術(shù)資料可以運用轉(zhuǎn)換工具直接將現(xiàn)有數(shù)據(jù)庫導(dǎo)入機構(gòu)知識庫中,未公開發(fā)表的灰色文獻可以運用個人自主提交的方法導(dǎo)入機構(gòu)知識庫。
機構(gòu)知識庫收錄各種內(nèi)容、不同格式的文獻資源,尤其收錄諸如實驗報告、預(yù)印本文獻、測試數(shù)據(jù)等灰色文獻,這些資源也具有很高的學(xué)術(shù)價值。機構(gòu)知識庫可以存儲成員產(chǎn)生的學(xué)術(shù)資料,以便得到很好的保存利用,同時成員可以通過機構(gòu)知識庫進行學(xué)術(shù)交流,拓展視野,提升科研能力。機構(gòu)知識庫也成為高校與高校之間進行學(xué)術(shù)交流的橋梁。
圖書館重要功能之一是對文獻資料進行收集、加工、保存并傳播文化資源。因此,圖書館在文獻資源收集整理方面具有豐富的工作經(jīng)驗、完善的工作流程以及相關(guān)技術(shù)人員。另一方面,數(shù)字圖書館與機構(gòu)知識庫在服務(wù)目的上是統(tǒng)一的,在信息技術(shù)平臺上是相似的,例如元數(shù)據(jù)倉庫的建設(shè)、中間件技術(shù)、信息交換協(xié)議、RSS技術(shù)、智能代理等,運用這些技術(shù)可以建立相關(guān)的數(shù)據(jù)資源系統(tǒng)以及對分布式系統(tǒng)進行集成,從而實現(xiàn)對文獻資源的有效整合以及跨庫、跨平臺的精確檢索。
3.1 數(shù)據(jù)資源應(yīng)不斷更新、完善
機構(gòu)知識庫中收集的數(shù)據(jù)資源應(yīng)充分體現(xiàn)學(xué)校教學(xué)科研的方向、特色以及水平,對學(xué)校成員產(chǎn)生的學(xué)術(shù)成果進行收集、過濾、整理、評價、入庫,從而不斷更新知識庫,同時,要對知識庫中的數(shù)據(jù)進行備份。機構(gòu)知識庫建設(shè)是一個長期、可持續(xù)、不斷完善的過程,應(yīng)堅持“開放存取”(Open Access)的服務(wù)理念。
3.2 具有統(tǒng)一標準的元數(shù)據(jù)
元數(shù)據(jù)的存儲是機構(gòu)知識庫建設(shè)的基礎(chǔ),良好的元數(shù)據(jù)格式為機構(gòu)知識庫的二次開發(fā)與數(shù)據(jù)挖掘打下了堅實的基礎(chǔ)。目前,我國大多數(shù)高校是使用軟件工具(NoteExpress、DSpace)將數(shù)據(jù)管理系統(tǒng)(高校自建數(shù)據(jù)庫、商業(yè)數(shù)據(jù)庫)批量導(dǎo)入到機構(gòu)知識庫中,知識庫中的數(shù)據(jù)標準不一、關(guān)聯(lián)準確性差,不利于對機構(gòu)知識庫進行深層數(shù)據(jù)挖掘,這是機構(gòu)知識庫發(fā)展過程中面臨的一個重要問題。因此,具有統(tǒng)一標準的元數(shù)據(jù)格式是機構(gòu)知識庫底層資源整合中至關(guān)重要的問題。
3.3 保護版權(quán),合法使用文獻資源
機構(gòu)知識庫中的文獻資源按照所有權(quán)可以分為3類:機構(gòu)所有、提交者所有、其他權(quán)利人所有[2]。所有權(quán)屬于學(xué)術(shù)機構(gòu)的文獻資源一般不會產(chǎn)生版權(quán)糾紛問題。對于提交者具有所有權(quán)的文獻資源,高校應(yīng)與提交者達成協(xié)議,獲得使用權(quán)利。對于其他個人或組織具有所有權(quán)的文獻,高校應(yīng)依據(jù)相關(guān)法律規(guī)定,制定合理的收繳與使用制度。
知識發(fā)現(xiàn)(Knowledge Discovery in Database,KDD)是指從數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他資源庫中運用數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)數(shù)據(jù)之間潛在的關(guān)聯(lián)、規(guī)則、趨勢等,并將數(shù)據(jù)及其關(guān)系轉(zhuǎn)換為知識模式,通過對模式進行評價,得到對用戶有用的知識,并通過可視化界面展示出來。
知識發(fā)現(xiàn)過程可分為:搜集數(shù)據(jù)、數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘、知識評價與表示4個步驟。①搜集數(shù)據(jù):根據(jù)目標搜集有關(guān)數(shù)據(jù)建立數(shù)據(jù)庫,筆者所討論的數(shù)據(jù)搜集對象是數(shù)據(jù)資源系統(tǒng)和個人灰色資源,此時建立的數(shù)據(jù)庫沒有統(tǒng)一標準的元數(shù)據(jù)模型。②數(shù)據(jù)預(yù)處理:由于上一階段所建立的數(shù)據(jù)庫沒有統(tǒng)一標準格式、關(guān)聯(lián)不精準、存在冗余數(shù)據(jù),因此需要對數(shù)據(jù)進行加工、轉(zhuǎn)換。本文設(shè)計的機構(gòu)實體模型,能夠消除冗余數(shù)據(jù),并保證數(shù)據(jù)完整性與一致性,建立有利于挖掘算法的數(shù)據(jù)庫。③數(shù)據(jù)挖掘:采用挖掘算法對數(shù)據(jù)庫進行挖掘。④知識評價與表示:對上一階段數(shù)據(jù)挖掘產(chǎn)生的數(shù)據(jù)集合運用可視化的方法表示出來,并運用可信度與興趣度對知識模式進行分析,去除冗余模式,更新或修改知識庫內(nèi)容,使知識庫處于不斷更新狀態(tài),決策支持達到最優(yōu)。
圖1 基于知識發(fā)現(xiàn)的機構(gòu)知識庫模型流程
機構(gòu)知識庫的建設(shè)在技術(shù)上是以現(xiàn)有的數(shù)字圖書館信息平臺為基礎(chǔ),在管理上是以圖書館文獻資源管理模式為基礎(chǔ)。用戶可以通過機構(gòu)知識庫提交、獲取、共享學(xué)術(shù)資源,為用戶提供一個面向不同知識服務(wù)、開放的人性化平臺。筆者設(shè)計的機構(gòu)知識庫模型總體架構(gòu)分為3層:數(shù)據(jù)處理層、知識發(fā)現(xiàn)層、知識表示層,這3層是相互聯(lián)系、相輔相成的整體,其流程如圖1所示。
4.1 數(shù)據(jù)處理層
數(shù)據(jù)處理層是將原始數(shù)據(jù)經(jīng)過數(shù)據(jù)預(yù)處理得到可以進行數(shù)據(jù)挖掘的具有統(tǒng)一標準的數(shù)據(jù)庫,可以對該數(shù)據(jù)庫進行數(shù)據(jù)挖掘。機構(gòu)知識庫中的源數(shù)據(jù)包括兩個部分:數(shù)據(jù)資源系統(tǒng)和個人灰色資源。數(shù)據(jù)資源系統(tǒng)按照內(nèi)容主要包括高??蒲邢到y(tǒng)數(shù)據(jù)庫、學(xué)位論文數(shù)據(jù)庫、外購數(shù)據(jù)庫、學(xué)生作品庫等。個人灰色資源是指學(xué)者自己保存,未經(jīng)發(fā)表的文獻資料。數(shù)據(jù)管理系統(tǒng)通過NoteExpress工具將數(shù)據(jù)完整無損地導(dǎo)入到數(shù)據(jù)庫中,個人灰色資源通過自主存檔技術(shù)將數(shù)據(jù)導(dǎo)入到數(shù)據(jù)庫中。
由于從不同數(shù)據(jù)管理系統(tǒng)中導(dǎo)出的題錄數(shù)據(jù)的表達、格式、分類體系不同,表達各異的同一個體會被識別成不同的個體,從而產(chǎn)生冗余數(shù)據(jù)和不完整數(shù)據(jù)。例如:學(xué)者、機構(gòu)、主題等實體在不同數(shù)據(jù)庫管理系統(tǒng)中有不同的名稱和寫法,這樣的實體導(dǎo)入到數(shù)據(jù)庫中會被識別為不同的實體;不同的數(shù)據(jù)管理系統(tǒng)依據(jù)不同的學(xué)科分類體系,例如中文數(shù)據(jù)庫普遍使用《中國圖書館分類法》《中國科學(xué)院圖書館圖書分類法》[3],外文數(shù)據(jù)庫普遍采用《杜威十進分類法》《國際十進分類法》,因此筆者設(shè)計了機構(gòu)實體關(guān)系模型,用戶看到和使用的是機構(gòu)實體的數(shù)據(jù)。該模型與題錄實體一并作為元數(shù)據(jù)來存儲機構(gòu)知識庫文獻資源,支持數(shù)據(jù)挖掘與知識發(fā)現(xiàn)。題錄實體如圖2所示,機構(gòu)實體如圖3所示。
圖2 題錄實體
圖3 機構(gòu)實體
題錄實體具有主題詞、標引詞、作者、文獻來源等屬性,題錄實體數(shù)據(jù)來源于對題錄數(shù)據(jù)的預(yù)處理,即對不同來源題錄數(shù)據(jù)的抽取。機構(gòu)實體具有機構(gòu)名稱、地址、學(xué)者、主題、學(xué)科等屬性,機構(gòu)實體數(shù)據(jù)來源于與學(xué)校信息中心的對接,同時由教學(xué)秘書或?qū)W科館員人工關(guān)聯(lián)題錄實體與機構(gòu)實體的對應(yīng)關(guān)系。
該模型可以將半結(jié)構(gòu)化的文本信息轉(zhuǎn)換為具有統(tǒng)一標準的結(jié)構(gòu)化關(guān)系數(shù)據(jù)模型,才能進行更深層次的數(shù)據(jù)挖掘來支持用戶的個性化需求和決策。該模型的另一個優(yōu)點是易擴充,增加了系統(tǒng)的穩(wěn)定性和可移植性,減少開發(fā)人員工作量。例如:學(xué)者變換了所在單位機構(gòu),只需在機構(gòu)實體中做修改,題錄實體不需變動。又如:題錄實體中若有眾多表達不同的數(shù)據(jù),不會對機構(gòu)實體產(chǎn)生影響。
4.2 知識發(fā)現(xiàn)層
知識發(fā)現(xiàn)層是機構(gòu)知識庫平臺的核心,采用數(shù)據(jù)挖掘算法,并通過知識表示與評價得到面向不同專題的知識庫。運用關(guān)聯(lián)分析、分類分析、聚類分析、回歸分析、序列模式、特征分析等挖掘算法從數(shù)據(jù)庫中挖掘出數(shù)據(jù)之間潛在的關(guān)聯(lián)、規(guī)則、趨勢等關(guān)系,并結(jié)合智能代理、中間件技術(shù)、數(shù)據(jù)庫技術(shù)等,將文獻資源進行選擇、重組、整理、開發(fā),從數(shù)據(jù)庫中發(fā)現(xiàn)新的模式、知識和規(guī)則,并用可視化的方法將新知識表示出來。
經(jīng)過數(shù)據(jù)挖掘得到的新知識很可能與常識或某一領(lǐng)域的知識不相容、重復(fù),通過知識評價模塊,根據(jù)興趣度值去掉重復(fù)和矛盾的知識,同時根據(jù)知識的可信度修改或更新已有的知識,最終實現(xiàn)文獻資源的整合化、專題化,構(gòu)建出具有不同學(xué)術(shù)特征的知識庫。依據(jù)前面的步驟不斷提取新知識并進行測試,從而更新、擴充知識庫,使知識庫的學(xué)術(shù)價值達到最優(yōu)。本文在知識發(fā)現(xiàn)層中通過數(shù)據(jù)挖掘與知識評價最終構(gòu)建的知識庫有:特色知識庫、學(xué)科知識庫、學(xué)科導(dǎo)航庫、專家知識庫,這4個知識庫構(gòu)成了機構(gòu)知識庫在知識體系層面的數(shù)據(jù)基礎(chǔ),運用JSP、XML、HTML等信息網(wǎng)絡(luò)技術(shù),同時以上述4個知識庫為數(shù)據(jù)基礎(chǔ),設(shè)計知識表示層。
特色知識庫的內(nèi)容代表學(xué)校學(xué)術(shù)研究的發(fā)展方向,重點、特色專業(yè)的學(xué)術(shù)成果,在一定程度上反應(yīng)出學(xué)校的科研實力。學(xué)科知識庫是按照學(xué)科類別組織文獻資源,能夠為用戶更加快捷、準確地提供所需學(xué)科專業(yè)的知識服務(wù)。學(xué)科導(dǎo)航庫是將文獻資源按照學(xué)科類別建立分類目錄式資源體系,通過導(dǎo)航可以提高文獻資源的查準率與查全率。專家知識庫是專家學(xué)者長年所積累的學(xué)術(shù)經(jīng)驗、成果、智能的集合,是學(xué)科知識的精華,專家知識庫的內(nèi)容應(yīng)擴展到全體教師,通過數(shù)據(jù)挖掘?qū)⒏弋a(chǎn)和活躍學(xué)者的學(xué)術(shù)成果組織起來,從而擴大專家知識庫的覆蓋范圍以及學(xué)術(shù)影響力,為學(xué)??蒲刑峁└尤?、權(quán)威的決策支持。
4.3 知識表示層
知識表示層是用戶與機構(gòu)知識庫系統(tǒng)交流的平臺。根據(jù)用戶的不同需求,經(jīng)過知識發(fā)現(xiàn)產(chǎn)生不同的新知識模式,用戶的參與在知識庫內(nèi)容的擴充和更新方面起著至關(guān)重要的作用。本文從邏輯結(jié)構(gòu)上將知識表示層分為4個模塊:個性化服務(wù)模塊、參考咨詢模塊、知識交流與服務(wù)模塊、知識檢索模塊。
個性化服務(wù)模塊是讓用戶感覺在“自己的機構(gòu)知識庫”中查閱文獻資源,一方面對于用戶新提交的論文,根據(jù)高頻主題詞、投稿刊物等信息,通過知識發(fā)現(xiàn)得到用戶感興趣的最新學(xué)術(shù)動態(tài);另一方面,根據(jù)用戶經(jīng)常檢索的關(guān)鍵詞,通過知識發(fā)現(xiàn)技術(shù)得到用戶所需的相關(guān)信息,通過郵件、微信等方式主動推送給用戶。同時,該模塊能向用戶提供個性化定制服務(wù),包括信息資源定制和網(wǎng)頁版面設(shè)計定制,根據(jù)不同需求生成定制的動態(tài)網(wǎng)頁。
參考咨詢模塊是圖書館員與用戶交流的平臺,圖書館員根據(jù)用戶在利用文獻資源、尋找知識、情報等方面中遇到的問題提供幫助。用戶可以在個人學(xué)術(shù)資源上傳方法、文獻要求、文獻資源檢索、機構(gòu)知識庫使用方法等方面進行咨詢。圖書館應(yīng)配備專業(yè)學(xué)科館員進行實時與非實時解答。
知識交流與服務(wù)模塊是用戶提交論文并參與知識交流的渠道。用戶通過身份認證后登陸該模塊并提交學(xué)術(shù)資源,經(jīng)學(xué)科館員審核后方可提交到數(shù)據(jù)處理層,采用系統(tǒng)設(shè)定的元數(shù)據(jù)格式存儲和管理資源,在知識發(fā)現(xiàn)層運用數(shù)據(jù)挖掘技術(shù)發(fā)現(xiàn)新的知識模式,從而將用戶的學(xué)術(shù)成果以知識模式的形式存儲到知識庫,使得隱形知識顯性化,便于用戶進行學(xué)術(shù)資源的交流。另一方面,通過用戶提交學(xué)術(shù)資源,增加了知識庫的內(nèi)容,提高了知識庫的服務(wù)能力。
知識檢索模塊提供用戶檢索所需信息的窗口,在該模塊中可以設(shè)定按照文獻類型、文獻來源、學(xué)科、機構(gòu)、語種、年份、學(xué)者、主題等檢索條件進行基本信息檢索。同時也可以在該檢索頁面中根據(jù)主題、關(guān)鍵詞、篇名、發(fā)表時間、文獻來源、作者、跨庫檢索等具體的檢索條件進行高級檢索。該模塊運用本體理念從語義、概念層面上進行檢索,避免字面的機械匹配,提高計算機理解用戶查詢需求的能力,實現(xiàn)更好的人機交互。
通過設(shè)計機構(gòu)實體,消除不同數(shù)據(jù)管理系統(tǒng)中題錄數(shù)據(jù)產(chǎn)生的冗余與不完整信息,從而建立有利于數(shù)據(jù)挖掘的具有統(tǒng)一標準的關(guān)系數(shù)據(jù)庫。筆者設(shè)計了基于知識發(fā)現(xiàn)的3層架構(gòu)的機構(gòu)知識庫模型:數(shù)據(jù)處理層、知識發(fā)現(xiàn)層、知識表示層,并闡述了機構(gòu)知識庫模型的實現(xiàn)技術(shù)以及功能模塊。該機構(gòu)知識庫模型以用戶需求為中心,讓用戶感覺在“自己的機構(gòu)知識庫”中查找所需資料。通過用戶的需求指導(dǎo)知識發(fā)現(xiàn)過程,創(chuàng)建新的知識模式,更新機構(gòu)知識庫內(nèi)容。隨著用戶需求的變化,在知識表示層可以增加新的功能模塊。機構(gòu)知識庫包含文獻資源種類、數(shù)量繁多,如何在已有知識庫基礎(chǔ)上進行基于知識庫的知識發(fā)現(xiàn),建立多維度知識元,能夠在現(xiàn)有機構(gòu)知識庫基礎(chǔ)上進行更深層次的知識發(fā)現(xiàn),建立更加科學(xué)化、人性化的機構(gòu)知識庫,這是今后努力研究的方向。
[1] Lynch C A.Institutional repositories:essential infrastruc?ture for scholarship in the digitalage ARL,no.226,pp.1-7 [EB/OL].[2008-10-27].http://www arl.org/newsltr/226/ir. htm l.
[2]于佳亮,吳新年,賈彥龍.機構(gòu)知識庫資源建設(shè)中的產(chǎn)權(quán)策略研究[J].情報理論與實踐,2008(3):353-355.
[3]周婕,等.基于文獻數(shù)據(jù)規(guī)律的機構(gòu)知識庫關(guān)鍵技術(shù)研究[J].情報資料工作,2015(1):68-69.
[4]馮研,王馨.國內(nèi)圖書館數(shù)據(jù)挖掘技術(shù)實踐應(yīng)用進展分析[J].圖書館學(xué)研究,2011(10):3-4.
[5]陳學(xué)進.Web結(jié)構(gòu)挖掘研究[D].合肥:合肥工業(yè)大學(xué),2006.
王芙蓉 女,1984年生。碩士,館員。
G258.6
2016-05-11;責(zé)編:王天泥。)