孟玲
(徐州市工人文化宮,江蘇 徐州 221000)
基于本體的數(shù)字圖書館語義知識庫構(gòu)建研究
孟玲
(徐州市工人文化宮,江蘇 徐州 221000)
基于本體這種較為完整的知識表示方式,對數(shù)字圖書館傳統(tǒng)知識模式的不足進(jìn)行分析,闡述了本體的概念、實現(xiàn)原理以及建模優(yōu)勢,分析基于本體的數(shù)字圖書館語義知識庫構(gòu)建模式。
數(shù)字圖書館本體語義知識知識服務(wù)模式
計算機技術(shù)不斷發(fā)展以及信息技術(shù)的不斷升級,更高層次地提升了數(shù)字圖書館。面對圖書館中的知識與對知識的利用特點不同,簡單的排列知識的處理方式不再適用[1]。在檢索過程中,作為知識的組織方式,本體不僅能有效地解決信息檢索的準(zhǔn)確率和全面率,還能解決共享和重復(fù)利用知識的問題,在數(shù)字圖書館中,本體已經(jīng)成為一種管理的工具。
1.1內(nèi)涵及原則
數(shù)字圖書館知識組織的目的就是序化繁雜的數(shù)字化信息為知識庫,信息的數(shù)字化過程中要遵循一定的結(jié)構(gòu),這樣提供給用戶的系統(tǒng)性知識才能具有可操作性強的特點[2]。該知識庫是一個循環(huán)系統(tǒng),組成因素包括知識庫、數(shù)字化信息資源以及用戶,其內(nèi)部機制的完善程度決定了其能否高質(zhì)量運行系統(tǒng)并提供優(yōu)質(zhì)知識服務(wù),其組織過程如圖1所示。其內(nèi)涵具體描述如下:知識組織的前提是篩選;對每個知識片段進(jìn)行本質(zhì)含義的分析挖掘出其語義和語用層次;對各知識因子間的關(guān)系進(jìn)行準(zhǔn)確的揭示,對知識單元的有機結(jié)構(gòu)進(jìn)行考察;關(guān)聯(lián)知識因子的分析結(jié)果,組織形成知識庫,供用戶選擇。
圖1 數(shù)字圖書館知識組織過程
在對數(shù)字圖書館進(jìn)行知識組織時,要遵循以下幾種原則:網(wǎng)絡(luò)化原則、系統(tǒng)性原則、標(biāo)準(zhǔn)化原則、共享性原則以及特色型原則。
1.2組織模式
目前在數(shù)字圖書館知識組織時,主要有分類法和主題法兩種組織模式[3]。前者是從本質(zhì)上把事物之間的區(qū)別與聯(lián)系進(jìn)行提示和把握。經(jīng)過分類與組織后的知識,其全貌及內(nèi)在聯(lián)系得以揭示,且還有篩選的作用,分類法有一個比較顯著的特點,即在對文獻(xiàn)進(jìn)行整理時其分類是按照學(xué)科和專業(yè)進(jìn)行的,在揭示文獻(xiàn)內(nèi)容的區(qū)別和聯(lián)系時多從知識分類的角度出發(fā),并且從該角度提供檢索文獻(xiàn)途徑,把事物和學(xué)科的概念充分融入知識分類體系中去。主題法則是從知識組織原則來看,在這種組織模式中,主題詞表示知識因子,其組織的基本方式多采用語詞標(biāo)識系統(tǒng)[4],另外還引入了參照系統(tǒng)進(jìn)行知識關(guān)聯(lián)的表達(dá)。目前在組織數(shù)字圖書館知識時,比較常用的形式有兩種,采用現(xiàn)有的詞表主題和采用關(guān)鍵詞法。
1.3存在的問題及不足
首先,知識導(dǎo)航不能實現(xiàn)知識共享。在數(shù)字圖書館中,開發(fā)知識系統(tǒng)既費時又費力,但目前在開發(fā)中只注重檢索知識,而忽略了共享知識,或在知識共享時只是在特定的領(lǐng)域進(jìn)行。因為范圍較小,所以其導(dǎo)航功效體現(xiàn)得并不明顯。一般來說,數(shù)字圖書館用戶背景不同,其對術(shù)語和概念的理解也有所不同,所以在建立新的數(shù)據(jù)庫時很難起作用,無法實現(xiàn)知識的共享。其次,在檢索知識時關(guān)鍵詞的語義涵義被忽略。圖書館中傳統(tǒng)的知識服務(wù)模式在進(jìn)行知識的檢索時常借助檢索目錄和關(guān)鍵詞的方法,關(guān)鍵詞的語義被忽略,在知識檢索結(jié)果中跟關(guān)鍵詞詞義相同的內(nèi)容無法顯示,會導(dǎo)致檢索結(jié)果與用戶需要偏離,出現(xiàn)檢索結(jié)果沒有使用意義的現(xiàn)象,知識檢索的正確性和全面性有所降低。最后,無法進(jìn)行知識資源的完全詮釋。知識組織有主題法和分類法兩種方法,但這兩種方法本身也存在一定不足,比如很難完成知識的自動更新,容易導(dǎo)致各類知識資源的滯后現(xiàn)象,無法充分滿足數(shù)字圖書館的需求。而且這兩種方法有非常復(fù)雜的結(jié)構(gòu)體系,操作不方便,圖書館資源的動態(tài)很難實現(xiàn),不能系統(tǒng)地組織全部知識資源。
2.1本體概述
就學(xué)科范疇而言,本體最早出現(xiàn)在哲學(xué)領(lǐng)域,后來研究學(xué)者們從人工智能方面賦予了本體新的含義,并且本體本身的涵義還在不斷變化中發(fā)展。目前而言,本體的代表性涵義比較多,從其多樣化的定義表述中我們可以總結(jié)出其基本內(nèi)涵。從本質(zhì)上說,本體是一個概念模型,是特定領(lǐng)域知識的抽象化表達(dá),內(nèi)容包括對概念的定義、概念屬性值及其限制、概念類的層次體系及其邏輯相互關(guān)系。不同于本體本身的是,概念體系的定義是明確的,在兩個方面都有所體現(xiàn):在對概念的內(nèi)涵和外延進(jìn)行表述時語言要盡量規(guī)范和明確;在對概念間的邏輯關(guān)系進(jìn)行表述時要盡量規(guī)范化,在對特定公理性知識進(jìn)行表述時語言要明確。概念體系也可以形式化描述,方便計算機對本體概念及關(guān)系的識別和處理,采用的知識表示語言包括OIL、DAML以及OWL等,經(jīng)過知識表示語言對概念體系進(jìn)行編碼之后信息就處理成為顯性知識,便于計算機的理解及對知識的語義處理。另外概念體系還可以反映領(lǐng)域知識的共享,其中反映的是概念集,共享是指那部分經(jīng)過共同認(rèn)可的知識,即本體針對的是團(tuán)體的公式,而不是個人的認(rèn)識,共享性才是本體概念交換和映射的基礎(chǔ)。
2.2實現(xiàn)原理
本體思想實際上就是映射現(xiàn)實世界中的實體為本體中的概念[5],映射實體間的關(guān)系為本體中的關(guān)系,映射真理性知識為本體中的公理,把整個世界映射為概念世界,也就是本體。本體是依附于現(xiàn)實世界并用概念體系對實體相關(guān)知識進(jìn)行管理。知識組織的基本思想可以利用本體來實現(xiàn),其原理如圖2所示。
圖2 本體對知識組織的原理[6]
在數(shù)字圖書館中,首先要加工各種類別和形式的信息提取出知識,其載體仍是信息。在該知識層上添加本體層可以實現(xiàn)對知識的組織,而且領(lǐng)域公理的存在可以實現(xiàn)基于本體的推理。本體層的引入,解決了查準(zhǔn)率和查全率低的問題。
2.3建模優(yōu)勢
利用本體進(jìn)行數(shù)字圖書館語義知識庫的構(gòu)建有以下優(yōu)勢,首先,可以規(guī)范描述知識間的語義關(guān)系。本體方法的運用,有效減少了術(shù)語和概念上的歧義,使得在進(jìn)行概念間關(guān)系的描述時可以更加廣泛、詳細(xì)和全面,在概念中添加屬性值,添加映射關(guān)系到屬性與屬性之間,可以清晰地表述出在正規(guī)詞表中不能描述的語義關(guān)系。在數(shù)字圖書館中本體描述提供了一個規(guī)范模型,可以保持語義上的一致性,使不同觀點、不同目的、來自不同背景的人們之間都可以理解和交流。其次,可以實現(xiàn)知識重用和分享[7]。本體是共同認(rèn)可知識的體現(xiàn),是一種公約,是相關(guān)領(lǐng)域公認(rèn)概念的反映,所以通過本體數(shù)字圖書館可以把相關(guān)知識領(lǐng)域的知識在描述和識別時盡量規(guī)范化,達(dá)成概念、知識以及概念之間關(guān)系的共識,實現(xiàn)共享和重用各學(xué)科領(lǐng)域本體。第三,可以實現(xiàn)知識檢索,是知識組織的逆過程。基于概念語義對知識檢索進(jìn)行研究時,對領(lǐng)域知識的組織必須以本體作為語義模型,語義標(biāo)注資源,形成語義元數(shù)據(jù),才能對領(lǐng)域知識進(jìn)行標(biāo)識,最終實現(xiàn)檢索領(lǐng)域知識的目的。最后,可以實現(xiàn)語義的互操作。針對異構(gòu)系統(tǒng)之間互操作的問題我們采用的是元數(shù)據(jù)的方法,但是元數(shù)據(jù)只是基礎(chǔ),元數(shù)據(jù)之間互操作的實現(xiàn)還需要高層互操作協(xié)議來支撐,包括相關(guān)本體協(xié)議和元數(shù)據(jù)交換協(xié)議,后者也要采用本體技術(shù)才能真正實現(xiàn)異構(gòu)系統(tǒng)之間的語義互操作。
3.1構(gòu)建規(guī)則
在構(gòu)建本體的研究中已經(jīng)有不少方法,也有一部分學(xué)者致力于本體構(gòu)建的評估研究,但在研究時,其標(biāo)準(zhǔn)還不統(tǒng)一[8]。在進(jìn)行本體構(gòu)建時比較有影響力的規(guī)則有以下5種:首先要清晰,在進(jìn)行術(shù)語定義時,本體要對其進(jìn)行有效的說明,應(yīng)進(jìn)行與背景獨立的、客觀的定義。在用邏輯公理進(jìn)行定義表達(dá)時,要以形式化的內(nèi)容出現(xiàn)并且盡可能完整。在本體構(gòu)建時要用自然語言對定義進(jìn)行說明。其次要滿足一致的規(guī)則,也就是說,面對與定義相一致的推理,本體應(yīng)該支持。用本體對公理進(jìn)行定義要與自然語言說明的定義有一致性。第三要符合可擴展性的規(guī)則。面對任務(wù),本體不僅要進(jìn)行概念基礎(chǔ)的提供,為了滿足特殊需求,還要基于原有的概念對新的術(shù)語進(jìn)行定義。值得注意的是,定義新術(shù)語時原有的定義是無需修改的。第四,要滿足編碼偏好程度最小的規(guī)則。在構(gòu)建本體時,在實際的系統(tǒng)中通常采用不同的知識表示方法,所以在對概念進(jìn)行描述時,不能依賴每一種特殊的符號層。最后,要符合本體約定最小的規(guī)則。也就是說,在對本體進(jìn)行構(gòu)建時,只要約束定義最弱公理以及對通訊所需詞匯進(jìn)行定義,使得特定的知識共享需求得到滿足即可。
3.2本體描述語言
對模型進(jìn)行概念描述形式化并達(dá)到編寫清晰的標(biāo)準(zhǔn),還要滿足以下要求:要有良好的語法和語義,有效的推理支持,表達(dá)的方便性以及充分的表達(dá)能力。目前本體的描述有很多仍處在不斷發(fā)展演變過程中,具體包括CML、OWL、RDF、OIL等。其中XML是一種可擴展的標(biāo)記語言,結(jié)合了SGML的靈活性和HTML的簡單性,但缺乏完備的語義表達(dá)能力。OWL語言吸收了OIL和DAML語言的經(jīng)驗,能夠把詞匯表中詞條以及詞條之間的語義關(guān)系較為清晰地表達(dá)出來。
3.3構(gòu)建方法
建立本體的方式目前還多依賴于手工,由于共同認(rèn)可的開發(fā)方法的缺失,對不同的本體開發(fā)組而言,其設(shè)計標(biāo)準(zhǔn)和原則等都有所不同,但綜合前期的研究結(jié)果來看,本體開發(fā)方法有以下幾種類型:①由Fox和Gruninger等人提出的TOVE法,該構(gòu)建過程包括5個階段。②“骨架”法,該方法首先確定應(yīng)用范圍和目的,然后構(gòu)造本體,最后是本體的評價。③KACTUS工程方法,該方法的描述語言是CML語言,這種語言是非形式化的,不能被程序執(zhí)行。在開發(fā)時首先對應(yīng)用進(jìn)行說明,然后初步設(shè)計相關(guān)本體范疇,最后進(jìn)行本體的構(gòu)造。④Methontology方法,該方法與軟件工程開發(fā)方法更為接近。除了以上幾種方法,還有基于SENSUS的方法、IDEF5法以及斯坦福七步法。
3.4構(gòu)建工具
根據(jù)本體描述語言,本體的構(gòu)建工具可以劃分為兩大類,分別是基于Web和基于AI。其中前者包括OntoEdit、OilEd、WebODE等,這類工具有一個明顯的特點就是獨立于特定的語言,利用這種本體構(gòu)建工具可以把處理好的本體描述格式自由地導(dǎo)入/導(dǎo)出,而且該種本體構(gòu)建工具的開發(fā)環(huán)境是經(jīng)過整合的,對大多數(shù)構(gòu)建活動都提供了支持,新模塊的添加步驟也很容易實現(xiàn),可擴展性較好,能為本體提供更多的組件功能。后者包括Ontolingua、WebOnto以及OntoSau?rus等工具。這三種工具都是基于某種特定語言的,并且這三種工具都在不同程度上對基于AI的多種本體描述語言有支持作用。
3.5構(gòu)建流程
筆者吸取本體建模方法的優(yōu)點,充分結(jié)合了數(shù)字圖書館語義知識庫的要求,對基于本體的數(shù)字圖書館語義知識庫進(jìn)行設(shè)計。首先是領(lǐng)域知識模塊的建立,該步驟是構(gòu)建領(lǐng)域知識本體的基礎(chǔ)。其次要面對領(lǐng)域知識本體,要確定其目的和范圍。在該階段不僅要分析領(lǐng)域知識本體的需求,還要對領(lǐng)域知識本體的計劃進(jìn)行制定。在建設(shè)領(lǐng)域知識本體過程中制定計劃是必不可少的,但其經(jīng)常被無意地忽略,導(dǎo)致在開發(fā)時難以控制開發(fā)過程。再次要對可用本體進(jìn)行考察。第四步是設(shè)計領(lǐng)域知識本體,包括收集和獲取領(lǐng)域知識、重要概念和術(shù)語的羅列、知識的概念化、定義類及其等級、定義類的屬性、創(chuàng)建實例。最后進(jìn)入本體評價階段,評價指標(biāo)包括本體的幾大特性,若評價指標(biāo)符合要求,則最終以文檔形式建立本體,若評價指標(biāo)不符合規(guī)則,則要重新進(jìn)行本體的設(shè)計,直至構(gòu)建出符合要求的本體。
在數(shù)字圖書館中,作為一種重要的技術(shù)和方法,知識組織領(lǐng)域本體的應(yīng)用前景十分廣闊,基于本體構(gòu)建知識庫在有效提高人們工作質(zhì)量的同時,還提高了人們的工作效率。截至目前,在數(shù)字圖書館中本體的優(yōu)點還未得到完全的發(fā)揮,還沒能完全地開發(fā)數(shù)字圖書館的作用,但我們相信,在科技飛速發(fā)展的今天,通過圖書館工作人員的不懈努力,在本體技術(shù)的強有力支撐下,數(shù)字圖書館的知識服務(wù)模式會愈加完善。
[1]王芹.圖書館傳統(tǒng)知識與現(xiàn)代知識服務(wù)模式比較分析[J].農(nóng)業(yè)圖書情報學(xué)刊,2009(4):137-140.
[2]李昕騫,饒若楠.一個基于本體的數(shù)據(jù)服務(wù)平臺[J].微型電腦應(yīng)用,2010(2):21-22.
[3]劉成山,趙捧未,劉懷亮.基于本體的數(shù)字圖書館語義互操作模型[J].現(xiàn)代情報,2009(10):56-60.
[4]莊善潔.基于知識管理的圖書館知識地圖的繪制[J].圖書館學(xué)研究,2012(10):5-7.
[5]譚玉紅,吳巖.關(guān)于學(xué)校知識管理中的“知識地圖”研究[J].電化教育研究,2010(3):17-19.
[6]李星星.館藏資源深度聚合及應(yīng)用研究[D].武漢:華中師范大學(xué),2013.
[7]劉衛(wèi)寧.語義網(wǎng)環(huán)境下數(shù)字圖書館信息資源集成模型研究[J].圖書館理論與實踐,2014(1):84-88.
孟玲女,1963年生,館員。研究方向:圖書館信息化。
G250.73
2015-03-17;責(zé)編:楊新寬。)