劉振峰
【摘要】本體是信息領域近年來受到普遍關注的一個研究方向。針對教育資源管理現狀,本文闡述了本體的基本理論,提出了一種本體構建模型和檢索模型。
【關鍵詞】本體 教育領域 本體構建 本體檢索
【課題項目】本文為山東省高等學??萍加媱濏椖俊盎诒倔w的教育資源表示與集成研究”的成果之一,項目編號:J13LN03。
【中圖分類號】G64 【文獻標識碼】A 【文章編號】2095-3089(2016)31-0002-02
隨信息技術的不斷發(fā)展,教育信息資源數量隨各教育部門信息化建設的進程不斷增加,層出不窮的學習資源在給學習者提供便利的同時,也讓學習者面臨難于選擇合適資源、資源內容不符合自身要求等問題。近年來本體(Ontology)在信息領域引起大家的重視。作為一種有效表示知識層次和語義的概念模型,本體論已被廣泛應用于圖書情報處理、知識管理、網絡搜索、數據集成、語義Web服務等領域之中。
一、本體理論
在哲學概念中,本體是指對事物自身的抽象,描述的是事物的性質或其根源。在計算機界,普遍認為“Ontology是共享概念模型的明確的形式化規(guī)范說明”[1]。這個定義主要包括四個主要方面:概念模型(conceptualization)、明確(explicit)、形式化(formal)、共享(share)。
本體的目標是獲取、描述和表示相關領域的知識,提供對該領域知識的共同理解,確定領域內共同認可的詞匯,并從不同層次的形式化模式上給出了這些詞匯(術語)和詞匯間相互關系的明確定義[2]。構造本體對實現知識共享和重用、提高系統(tǒng)通訊和互操作、提高系統(tǒng)可靠性都有重要意義。
在計算機領域,本體論包含類(class)、關系(relations)、函數(functions)、公理(axioms) 和實例(instances)5個基本的建模元素。
本體的實現要通過本體語言進行。本體語言種類繁多,既有專用的本體語言,也用基于某種標準的本體語言。在網絡資源處理中,OWL(Web Ontology Language)是W3C組織推出的標準網絡本體語言。
二、本體的構建原則
本體的構建是一個復雜的系統(tǒng)化過程,目前沒有一個標準的本體構建方法。本體構建原則最有影響的是Gruber(Toward Principles for the Design of Ontologies Used for Knowledge Sharing)在1995年提出的5條規(guī)則[3]。
1.清晰(Clarity)
本體必須明確的定義相關術語的含義。該定義必須是客觀的,與其周邊因素相互獨立。
2.一致(Coherence)
本體所定義的公理及使用自然語言進行描述的文檔應當一致,并支持延展的、與定義相一致的推理。
3.可拓展性(Extendibility)
本體應是可拓展的,以已有的定義為概念基礎,可以不需對已有定義進行修改就對拓展出的新術語進行定義。
4.編碼偏好程度最?。∕inimal encoding bias)
構建本體時,對概念的描述盡可能采用通用的方法,不要依賴某一種特殊方法。
5.本體約定最?。∕inimal ontological Commitment)
本體構建時只需考慮最基本的共享知識即可,這樣可以盡可能的減少約束。
這5條規(guī)則對本體的構建提出了基本的原則和思路,但并沒有提供明確的易于操作的手段。在本體的構建中,我們要根據實際應用的需求,靈活使用這些規(guī)則,構建出高質量的符合我們要求的本體。
三、教育領域本體構建
本體的建設應當面向用戶的需求,根據教育資源信息處理的特點,教育領域本體應該能夠清晰地表示教育領域主要的概念術語、屬性以及相互關系,對教育領域活動所具有的屬性規(guī)律進行形式化的描述[4]。用戶的學習程度、知識的更新、技術的發(fā)展等,都是本體構建時需考慮的因素。
本文結合教育資源建設中的課程資源建設,提出一種本體構建方法,流程圖如下(圖1)。
1.需求分析
該階段的任務是明確整項工作的目標、用途、知識范圍。主要包括:本體構建的目的是什么,要針對何種應用、達到何種目標?本體針對什么樣的目標人群,構建過程中涉及哪些知識領域?本體構建要采用哪種本體語言?對于課程資源建設來講,就需考慮課程建設的最終目標、針對的學習者情況、涉及的知識點及其衍生的知識點等。
2.確立目標任務
該階段對本體構建的過程進行詳細規(guī)劃。要根據本體構建的最終目標,結合具體的需求和資源情況,制訂出詳細的實施計劃。需明確的內容包括本體構建的方法、參加任務的人員情況、人員的分工、任務的時間節(jié)點、各階段需達到的目標等。
3.本體信息采集
該階段需對領域相關信息進行充分的分析,相關的專業(yè)文獻、書籍、網絡信息、其它的本體等,都是該階段需關注的內容。中國圖書館分類法編委會教育專業(yè)分類表編輯組編輯的《教育主題詞表》是信息采集中一個重要的參考和依據。對于課程資源,需要采集各知識點,明確知識點所針對的資源及知識點的前導后繼、相互關系等。
4.確定重點概念,形成概念體系
在信息采集的基礎上,通過對知識的分析和征集專家的意見,確定該領域中的重點概念,并用精準的術語進行描述。對于課程資源中的重點知識,應按照一定的規(guī)則對它們進行劃分,形成不同的知識范圍,在同一范圍內,在考慮前導后繼、整體和部分的基礎上,去除重復的和不相關的知識。
5.利用本體語言和工具,進行可視化編碼
選擇合適的本體語言工具,進行可視化編碼,建立可實現檢索和擴展的本體庫。本體的表示語言很多,其中OWL(Web ontology Language)是語義表達能力最強的描述語言。[5]
6.本體確認與評價
對本體進行編碼描述后,還需通過測試進行本體確認和評價,包括是否滿足本體構建需求、本體描述是否清晰、關系的完整性等。
7.存儲
按照本體存儲介質的不同,本體的存儲方法大致分為基于內存的存儲方式、純文本存儲方式、基于數據庫的存儲方式和專門的管理工具方式四種,其中研究最多、應用最廣的就是基于數據庫的存儲方式。[6]課程資源建設一般采用以數據庫存儲為主,其它手段為輔的存儲方式。
本體構建完成后,還應按照構建需求和學科的發(fā)展,對資源庫進行進一步的優(yōu)化完善和后續(xù)建設。
四、教育領域本體檢索
傳統(tǒng)的信息檢索模式是使用搜索引擎,利用關鍵詞進行查詢,檢索結果的準確性不是太高。利用本體技術檢索能加強用戶與資源之間的語義溝通,大幅提高檢索結果的準確性。
在教育資源本體構建模型的基礎上,建立教育領域本體語義信息檢索模型,如圖2所示。
該模型包括用戶接口、語義處理模塊、數據存儲模塊等幾項內容。
用戶接口負責實現同用戶的交流,主要包括用戶界面、語義查詢接口、語義標注接口、服務調用接口、資源采集接口等,負責將用戶的輸入轉換成本體相應格式,并調用語義處理模塊進行處理。
語義處理模塊主要包括資源預處理、概念提取、索引、查詢等,負責完成信息的收集與檢索功能。該部分的效率決定了整個系統(tǒng)的效率。
數據存儲模塊包括教育領域本體庫、索引數據庫、資源庫,分別完成對領域知識、資源元數據和資源的存儲。
五、總結
針對目前教育信息化建設中存在的問題,本文研究了利用本體在教育資源集成中的應用,提出了構建教育資源本體庫和本體檢索的模型。本體的構建是一個長期復雜的過程,不可能一蹴而就。本體技術及相關研究正在快速發(fā)展,相信隨著相關技術的進步和成熟,各種基于本體的教育資源管理平臺會大量出現,推動我國教育事業(yè)進一步發(fā)展。
參考文獻:
[1]Paolo Ciancarini,A bibliograpghy on coordination.1997.
[2]廖軍. 基于領域本體的信息檢索研究[D].長沙:中南大學,2007.
[3]Gruber T. Towards Principles for the Design of Ontologies Used for Knowledge Sharing. International Journal of Human?鄄Computer Studies,1995;43(5~6).
[4]馬捷.教育領域本體構建研究[J].情報理論與實踐,2012(7):104-108.
[5]Muller H M,Kenny E E,Sternberg P W.Textpresso:An ontology?鄄based information retrieval and extraction.
[6]傅柱.本體存儲技術研究綜述[J].情報理論與實踐,2013(9):118-123.