馬旭明 王海榮
摘 要 針對(duì)寧夏地區(qū)回漢混居而引發(fā)的多節(jié)日問(wèn)題,以及現(xiàn)有事件本體模型不能充分表達(dá)和節(jié)日相關(guān)的人、事、物等之間豐富的語(yǔ)義關(guān)系等問(wèn)題。本文提出了FEOM(Festival-oriented Event Ontology Model,面向節(jié)日的事件本體模型)和寧夏地區(qū)回族傳統(tǒng)節(jié)日領(lǐng)域本體的構(gòu)建方法-六步法,在此基礎(chǔ)之上,構(gòu)建了寧夏地區(qū)回族傳統(tǒng)節(jié)日領(lǐng)域本體。該領(lǐng)域本體的構(gòu)建不僅證實(shí)了FEOM的合理性和六步法的可行性,也體現(xiàn)了本體技術(shù)廣泛的應(yīng)用前景。
【關(guān)鍵詞】本體的構(gòu)建 面向節(jié)日的事件本體模型 推理機(jī) 語(yǔ)義 Web本體語(yǔ)言
1 概述
回族是我國(guó)人口較多的一個(gè)少數(shù)民族,主要集居在寧夏回族自治區(qū)。目前有關(guān)回族傳統(tǒng)節(jié)日的記載更多的來(lái)源于一些傳統(tǒng)的存儲(chǔ)介質(zhì),利用本體論的思想將這些分散的、非結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行整合,且以一種友好的方式展現(xiàn)給互聯(lián)網(wǎng)用戶,從而幫助用戶了解回族傳統(tǒng)節(jié)日,進(jìn)而了解回族文化,這對(duì)于中國(guó)這個(gè)多民族國(guó)家來(lái)講顯得尤為重要。
事件本體是一種面向事件的知識(shí)表達(dá)方法,是一種領(lǐng)域本體,用來(lái)描述事件的本體模型有很多,國(guó)外有EO(Event Ontology)、SEM(Simple Event Ontology)、LODE(Linking Open Descriptions of Events)、F-Model(F)、CIDOC-CRM、ABC,國(guó)內(nèi)主要有劉宗田教授的面向事件的本體模型LEO、基于本體的新聞事件模型NOEM。節(jié)日是由節(jié)日當(dāng)天以人為中心的各個(gè)子事件構(gòu)成,由于其具有領(lǐng)域特殊性,一方面子事件種類繁多,另一方面每個(gè)子事件之間還具有一定的語(yǔ)義關(guān)系。本文在SEM的基礎(chǔ)之上提出了FEOM(Festival-oriented Event Ontology Model),該模型更適合用來(lái)表示回族傳統(tǒng)節(jié)日知識(shí)。
一般來(lái)講,有兩種常見(jiàn)的本體構(gòu)建方式:一種是依靠本體專家手工構(gòu)建,另一種則是在一些機(jī)器學(xué)習(xí)方法的幫助下采用自動(dòng)或半自動(dòng)的方法進(jìn)行構(gòu)建。目前采用人工構(gòu)建的方法中,具有代表性的有骨架法、TOVE法、IDEF5法、METHONEOLOGY法,而采用半自動(dòng)構(gòu)建的方法有七步法、五步循環(huán)法、循環(huán)獲取法。本文在七步法的基礎(chǔ)之上提出了適合回族傳統(tǒng)節(jié)日領(lǐng)域本體構(gòu)建的六步法,再借助Protégé本體開(kāi)發(fā)工具來(lái)完成回族傳統(tǒng)節(jié)日本體的構(gòu)建。
2 相關(guān)概念與術(shù)語(yǔ)定義
2.1 基本概念與術(shù)語(yǔ)定義
本體是共享概念模型的明確的形式化規(guī)范說(shuō)明。本體的形式化定義為一個(gè)五元組{C,R,HR,Rel,A},其中C為本體中概念的集合,R為關(guān)系的集合,HR表示概念間的層次關(guān)系,Rel表示概念間的非層次關(guān)系,A為公理。
為了形成對(duì)寧夏地區(qū)回族傳統(tǒng)節(jié)日領(lǐng)域知識(shí)的統(tǒng)一認(rèn)識(shí),下面對(duì)和事件相關(guān)的幾個(gè)核心類進(jìn)行了明確的定義。
定義1 事件(Event):指所有發(fā)生了的事情,大到歷史事件,小到神話傳說(shuō)。
定義2 參與者(Actor):指主動(dòng)或者被動(dòng)參與事件的實(shí)體,可以是有生命或無(wú)生命的,也可以是物質(zhì)或非物質(zhì)的。
定義3 地點(diǎn)(Place):指事件發(fā)生的場(chǎng)所,不一定非得是現(xiàn)實(shí)存在的地方。
定義4 時(shí)間(Time):是事件所發(fā)生事件的一種表示符號(hào),不一定需要確切的時(shí)間戳。
2.2 寧夏地區(qū)回族傳統(tǒng)節(jié)日領(lǐng)域本體構(gòu)建方法
在眾多本體構(gòu)建方法中具有代表性的有骨架法、TOVE法、IDEF5法、METHONEOLOGY法、七步法、五步循環(huán)法、循環(huán)獲取法。本文在七步法的基礎(chǔ)之上提出了一種適合寧夏地區(qū)回族傳統(tǒng)節(jié)日領(lǐng)域本體構(gòu)建的方法,即六步法:
(1)確定本體描述的領(lǐng)域并設(shè)置“能力問(wèn)題”。文中本體所要描述的是和寧夏地區(qū)回族傳統(tǒng)節(jié)日相關(guān)的知識(shí)。而“能力問(wèn)題”是指該本體所能夠回答的問(wèn)題。
(2)列舉寧夏地區(qū)回族傳統(tǒng)節(jié)日領(lǐng)域內(nèi)重要的概念。文中主要借助百度百科、《中國(guó)穆斯林的禮儀禮俗文化》等來(lái)獲取和規(guī)范相應(yīng)的概念,并對(duì)列出的概念進(jìn)行分析獲取它們之間的語(yǔ)義關(guān)系。
(3)定義類和類之間的層次結(jié)構(gòu)。從列出的概念中選出那些具有一般性的且表示一類術(shù)語(yǔ)的集合的概念作為本體的類,并建立類之間的層次關(guān)系。
(4)定義屬性。包括表示實(shí)例和實(shí)例之間關(guān)系的對(duì)象屬性以及描述實(shí)例取值的數(shù)據(jù)屬性。
(5)創(chuàng)建實(shí)例。將回族傳統(tǒng)節(jié)日領(lǐng)域內(nèi)具有不可再分性的對(duì)象作為實(shí)例添加給相應(yīng)的類,再結(jié)合步驟
(4)完善實(shí)例間的語(yǔ)義關(guān)系。
(6)本體的檢測(cè)。利用推理機(jī)和推理規(guī)則在該本體上獲取新的知識(shí),試圖回答步驟(1)中所設(shè)置的“能力問(wèn)題”。
3 寧夏地區(qū)回族傳統(tǒng)節(jié)日領(lǐng)域知識(shí)分析
3.1 寧夏地區(qū)回族傳統(tǒng)節(jié)日知識(shí)分類體系
構(gòu)建寧夏地區(qū)回族傳統(tǒng)節(jié)日領(lǐng)域本體的前提是根據(jù)該領(lǐng)域的知識(shí)特征對(duì)其分類,這是一項(xiàng)復(fù)雜的科學(xué)認(rèn)識(shí)活動(dòng),旨在通過(guò)領(lǐng)域細(xì)分建立知識(shí)的分類體系。根據(jù)寧夏地區(qū)回族傳統(tǒng)節(jié)日領(lǐng)域知識(shí)的特征,再結(jié)合FEOM模型將該領(lǐng)域內(nèi)的知識(shí)按照事件(Event)、參與者(Actor)、地點(diǎn)(Place)、時(shí)間(Time)進(jìn)行分類,圖1為古爾邦節(jié)知識(shí)分類層次結(jié)構(gòu)圖。
3.2 基于FEOM的寧夏地區(qū)回族傳統(tǒng)節(jié)日領(lǐng)域本體類和屬性的定義
寧夏地區(qū)回族傳統(tǒng)節(jié)日的知識(shí)分類從各個(gè)角度分別表示了和節(jié)日相關(guān)的各個(gè)事件、參與者、地點(diǎn)以及時(shí)間,但是,知識(shí)分類僅僅是將回族傳統(tǒng)節(jié)日相關(guān)的知識(shí)進(jìn)行了選取和歸類,還不能表現(xiàn)出各個(gè)概念之間的關(guān)系。而本體是對(duì)傳統(tǒng)節(jié)日領(lǐng)域知識(shí)的共享概念模型進(jìn)行明確的形式化規(guī)范說(shuō)明,它描述了領(lǐng)域中重要的概念以及它們之間的關(guān)系。
SEM是一個(gè)以事件為中心的本體模型,該模型適用于多個(gè)領(lǐng)域,像文化遺產(chǎn)、地理和多媒體等。主要描述了和事件相關(guān)的人、物、地點(diǎn)以及時(shí)間之間復(fù)雜的關(guān)系,共有17個(gè)類和24個(gè)屬性。而節(jié)日也是由節(jié)日當(dāng)天的一系列事件構(gòu)成,但節(jié)日除了有事件的特性之外還有其自己的特性,比如節(jié)日當(dāng)天的美食、著裝等。故將SEM的部分類和屬性進(jìn)行了取舍和添加,如圖2所示。屬性方面也做了較大的調(diào)整,如圖2所示。
4 寧夏地區(qū)回族傳統(tǒng)節(jié)日領(lǐng)域本體構(gòu)建
4.1 本體表示語(yǔ)言
目前國(guó)際上主要的本體描述語(yǔ)言有RDF、RDFS、DAML+OIL、OWL等,它們都是基于RDF發(fā)展起來(lái)的,其中OWL是W3C的推薦標(biāo)準(zhǔn),目前最新的版本是OWL2。OWL提供了三種表達(dá)能力遞增的子語(yǔ)言:OWL Lite、OWL DL、OWL Full,分別用于特定的實(shí)現(xiàn)者和用戶團(tuán)體??紤]到語(yǔ)言的表達(dá)能力和推理能力,選用OWL Lite作為回族傳統(tǒng)節(jié)日領(lǐng)域本體的描述語(yǔ)言。本文截取以下代碼來(lái)簡(jiǎn)要說(shuō)明OWL Lite的語(yǔ)義描述與表達(dá)。
[6]Lagoze C,Hunter J.The ABC Ontology and Model[C].International Conference on Dublin Core and Metadata Applications.National Institute of Informatics,Tokyo,Japan,2001:160-176.
[7]劉宗田,黃美麗,周文等.面向事件的本體研究[J].計(jì)算機(jī)科學(xué),2009,36(11):189-192.
[8]王偉,趙東巖.中文新聞事件本體建模與自動(dòng)擴(kuò)充[J].計(jì)算機(jī)工程與科學(xué),2012,34(04):171-176.
[9]余凡.領(lǐng)域本體構(gòu)建方法及實(shí)證研究[M].武漢大學(xué)出版社,2015.
[10]胡兆芹.本體與知識(shí)組織[M].中國(guó)文史出版社,2014.
[11]Ye Y,Yang D,Jiang Z,et al. Ontology-based semantic models for supply chain management[J].International Journal of Advanced Manufacturing Technology,2008,37(11-12):1250-1260.
[12]李恒杰,李軍權(quán),李明.領(lǐng)域本體建模方法研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2008,29(02):381-384.
[13]Noy N F,Mcguiness D L.A Guide to Creating Your First Ontology[J]. Stanford University,2001(02):14.
[14]Maedche A,Staab S.Ontology Learning for the Semantic Web[M].Ontology learning for the semantic Web.Kluwer Academic Publishers,2002:72-79.
[15]Volz R,Maedche A.Extracting a domain-specific ontology from a corporate intranet[C].The Workshop on Learning Language in Logic and the,Conference on Computational Natural Language Learning. Association for Computational Linguistics,2000:167-175.
[16]Studer R,Benjamins V R,F(xiàn)ensel D. Knowledge engineering:principles and methods.Data Knowl Eng 25(1-2):161-197[J].Data & Knowledge Engineering, 1998,25(1-2):161-197.
作者簡(jiǎn)介
馬旭明(1986-),男,寧夏回族自治區(qū)石嘴山市人。碩士研究生在讀,工程師+講師。研究方向?yàn)檎Z(yǔ)義Web數(shù)據(jù)模糊查詢。
王海榮(1976-),女,寧夏回族自治區(qū)銀川市人。博士研究生,副教授。研究方向?yàn)榇髷?shù)據(jù)與知識(shí)工程。
作者單位
北方民族大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院 寧夏回族自治區(qū)銀川市 750000