張乃靜,蔣 嫻,侯瑞霞
(中國(guó)林業(yè)科學(xué)研究院資源信息研究所,北京 100091)
隨著林業(yè)相關(guān)研究的不斷發(fā)展,林業(yè)工作者在實(shí)際研究和應(yīng)用中積累了大量的科學(xué)數(shù)據(jù),并呈迅速增長(zhǎng)趨勢(shì)。面對(duì)海量的林業(yè)科學(xué)數(shù)據(jù),共享數(shù)據(jù)給相關(guān)的科學(xué)研究和應(yīng)用帶來(lái)了便利,同時(shí)由于林業(yè)科學(xué)數(shù)據(jù)具有多源異構(gòu)、復(fù)雜度高的特點(diǎn),在共享中以元數(shù)據(jù)形式存儲(chǔ),在這些數(shù)據(jù)內(nèi)部或與外部其他數(shù)據(jù)沒(méi)有建立相互聯(lián)系,無(wú)法表達(dá)這些數(shù)據(jù)的時(shí)空特征,同時(shí)缺少語(yǔ)義特征,造成數(shù)據(jù)的孤立與碎片,形成信息 “孤島”,只能通過(guò)全文索引、關(guān)鍵詞匹配等傳統(tǒng)方法實(shí)現(xiàn)數(shù)據(jù)檢索,忽略了林業(yè)科學(xué)數(shù)據(jù)之間的語(yǔ)義聯(lián)系。如何在數(shù)據(jù)共享中準(zhǔn)確、快速的定位發(fā)現(xiàn)目標(biāo)數(shù)據(jù)成為亟待解決的問(wèn)題。
為解決以上問(wèn)題,需要在林業(yè)科學(xué)數(shù)據(jù)之間建立語(yǔ)義關(guān)聯(lián),表達(dá)數(shù)據(jù)之間的語(yǔ)義特征。本體是共享概念模型明確的形式化規(guī)范說(shuō)明,可以發(fā)現(xiàn)并建立某一領(lǐng)域內(nèi)概念及其屬性之間的聯(lián)系,解決知識(shí)共享中存在的隱藏知識(shí)和“語(yǔ)義鴻溝”等問(wèn)題[1]。本文以青藏高原動(dòng)物資源數(shù)據(jù)為基礎(chǔ),分析其數(shù)據(jù)語(yǔ)義特征,抽取相關(guān)概念、屬性及聯(lián)系,結(jié)合青藏高原動(dòng)物資源的地理分布空間特征,構(gòu)建基于青藏高原動(dòng)物資源數(shù)據(jù)空間本體,以期發(fā)現(xiàn)并建立數(shù)據(jù)之間的語(yǔ)義關(guān)系網(wǎng)絡(luò),實(shí)現(xiàn)高效的數(shù)據(jù)發(fā)現(xiàn)。
本體在不同的領(lǐng)域有著不同的含義,本體源于哲學(xué),含義是“客觀事物的系統(tǒng)化描述”。本體最初由Gruber[2]引入到人工智能領(lǐng)域,表示為“概念化的明確的規(guī)范說(shuō)明”;Uschol等[3]作了更進(jìn)一步的解釋,本體有必要通過(guò)給定領(lǐng)域內(nèi)的概念、以及其定義內(nèi)部的聯(lián)系去描述和具體化某一世界觀,將事物進(jìn)行概念化,本體是明確的描述和概念化的表達(dá)。在實(shí)際應(yīng)用中,本體可以定義為4元組O{C,P,I,A},C是概念(Concepts)或類(Classes)的集合,表示實(shí)體(Entities)或?qū)ο?Objects);P是屬性(Properties)的集合,表示類自身的屬性(Attributes)或類之間的聯(lián)系(Relations);I是概念或類的個(gè)體(Individuals)或?qū)嵗?Instances)的集合;A是公理(Axioms)的集合,用于約束類和屬性的聯(lián)系。本體中概念和屬性具有一定的層次結(jié)構(gòu)[4]。本體的描述語(yǔ)言比較豐富,包括函數(shù)式語(yǔ)法(Functional-Style Syntax)[5],RDF/XML[6],Turtle[7]和OWL2/XML[8]等,這些本體描述語(yǔ)言提供了概念、屬性和約束等基本建模元素,也提供了本體語(yǔ)義推理的支持,為方便閱讀和理解本體構(gòu)建方法,本文采用函數(shù)式表達(dá)語(yǔ)言構(gòu)建本體。本體的建模過(guò)程非常復(fù)雜,需要眾多資料和領(lǐng)域?qū)<业闹С?在以往本體建模研究中,研究者們開發(fā)了一些本體建模工具,其中以開源軟件Protégé最為常用,本文也使用該軟件進(jìn)行本體建模,其最新版本為5.5.0。
本文使用的青藏高原動(dòng)物資源數(shù)據(jù)來(lái)源于國(guó)家林業(yè)和草原科學(xué)數(shù)據(jù)中心(http://www.forestdata.cn),數(shù)據(jù)類型為文本半結(jié)構(gòu)化數(shù)據(jù),具體數(shù)據(jù)描述如表1所示??傆?jì)包含2 044條青藏高原動(dòng)物的分類、形態(tài)特征、地理分布及采集信息等數(shù)據(jù),其中“屬分布”、“采集地”和“地理分布”等數(shù)據(jù)包含地理空間特征信息,這些數(shù)據(jù)是構(gòu)建空間本體的基礎(chǔ)。
概念是對(duì)象集合的抽象體現(xiàn),本體中概念一般與領(lǐng)域知識(shí)庫(kù)中的專業(yè)術(shù)語(yǔ)相對(duì)應(yīng),所以從數(shù)據(jù)中抽取并構(gòu)建核心概念集的過(guò)程可以理解為從已有數(shù)據(jù)中提取專業(yè)術(shù)語(yǔ),并加以歸納概況的過(guò)程。本文將核心概念集分為非地理空間概念集和地理空間概念集,并分別研究不同數(shù)據(jù)類型核心概念集的構(gòu)建方法。
研究數(shù)據(jù)的主題是青藏高原動(dòng)物資源,結(jié)合數(shù)據(jù)主題和數(shù)據(jù)內(nèi)容,提取數(shù)據(jù)中領(lǐng)域術(shù)語(yǔ)詞匯進(jìn)行分層次逐級(jí)歸類,并抽象為概念,例如表1中“鬣蜥科”、“牛科”和“雉科”都是動(dòng)物分類學(xué)中的“科”,“科”是所有動(dòng)物“科”的抽象概念,“科”的上級(jí)概念有“目”,下級(jí)概念有“屬”,在數(shù)據(jù)中均有相關(guān)術(shù)語(yǔ)與之對(duì)應(yīng),按此方法可以將這些動(dòng)物分類學(xué)術(shù)語(yǔ)詞匯納入到本體概念集中。此外數(shù)據(jù)中還包含“采集人”、“采集人單位”和“資料來(lái)源”等實(shí)體,因?yàn)檫@些詞匯不是領(lǐng)域內(nèi)的專業(yè)術(shù)語(yǔ),根據(jù)需求以最小概念層次單元作為青藏高原動(dòng)物資源本體的概念元素。構(gòu)建的部分非地理空間概念集舉例如表2所示。
表1 青藏高原動(dòng)物資源數(shù)據(jù)舉例
表2 非地理空間概念集
通過(guò)對(duì)青藏高原動(dòng)物資源數(shù)據(jù)中涉及地理空間特征的原始數(shù)據(jù)進(jìn)行歸納,分析并抽取構(gòu)建本體所需的地理空間術(shù)語(yǔ),發(fā)現(xiàn)這些數(shù)據(jù)均為非結(jié)構(gòu)化文本數(shù)據(jù),因?yàn)閿?shù)據(jù)量較大,考慮到工作效率,首先使用NLPIR分詞工具進(jìn)行預(yù)處理,根據(jù)分詞結(jié)果和詞性標(biāo)注抽取部分名詞作為空間實(shí)體對(duì)象術(shù)語(yǔ)集,然后將這些術(shù)語(yǔ)進(jìn)行歸納分類,具有相同屬性的對(duì)象抽象為類名,作為概念集;抽取部分名詞和動(dòng)詞作為屬性集,但分詞結(jié)果無(wú)法達(dá)到100%準(zhǔn)確率,所以抽取過(guò)程需要人工參與。如表3所示,根據(jù)地理特征,概念集可分為兩類:1)省市等行政區(qū)劃概念,例如西藏、四川和江達(dá)等;2)地理地貌概念,例如高原、湖泊和河流等。
不管是在學(xué)術(shù)研究中,還是實(shí)際應(yīng)用中,地理空間分類多種多樣,比如按地理位置劃分東北、華北地區(qū)等,按照地理地形分為北方、南方、西北和青藏地區(qū)等,按地貌分為高原、平原等。為了保證本體的客觀性及可擴(kuò)展性,本文地理空間實(shí)體概念分類體系參考了中國(guó)國(guó)家標(biāo)準(zhǔn)《GB/T 18521-2001地名分類與類別代碼編制規(guī)則》[9],最終確定了本體地理空間概念的2個(gè)父類:自然地理空間實(shí)體和人文地理空間實(shí)體,并結(jié)合實(shí)際需求,確定了抽取概念所涉及的子類及其上下級(jí)關(guān)系,構(gòu)建本體空間概念層次模型,結(jié)果如表4所示。
表3 地理空間概念及屬性抽取方法
表4 地理空間概念集
屬性描述了概念或類的相互關(guān)系,本體中一般包含2種屬性:對(duì)象屬性(Object Property)和數(shù)據(jù)屬性(Data Property)。對(duì)象屬性用于描述概念等實(shí)體之間的聯(lián)系,例如“異色樹鶯”屬于“樹鶯屬”;數(shù)據(jù)屬性用于描述概念自身特有的屬性,例如“異色樹鶯”有拉丁名“Cettiaflavolivacea(Blyth)”。在定義屬性時(shí),常使用定義域(Domain)、值域(Range)、逆屬性約束(Inverse Properties)、不相交約束(Disjoint Properties)、基數(shù)約束(Cardinality Restrictions)等來(lái)約束屬性的使用和取值范圍,具體參考相關(guān)文獻(xiàn)[10]。
結(jié)合表1和表2,枚舉概念的對(duì)象屬性和數(shù)據(jù)屬性,最終從青藏高原動(dòng)物資源數(shù)據(jù)數(shù)據(jù)獲取的非地理空間屬性集如表5所示。按OWL本體規(guī)則,本體描述的屬性一般體現(xiàn)為主謂賓三元組中的謂語(yǔ)動(dòng)詞,所以本體屬性一般為動(dòng)詞格式。在獲取屬性過(guò)程中,需要考慮對(duì)屬性進(jìn)行約束,例如在原始數(shù)據(jù)中詞條數(shù)據(jù)中均包含唯一的“編號(hào)”,在本體屬性中,需要使用“owl:hasKey”來(lái)約束“有編號(hào)”屬性,以保證“編號(hào)”在本體的唯一性;上文描述“異色樹鶯”這種動(dòng)物屬于“樹鶯屬”,相反,“樹鶯屬”包含“異色樹鶯”這種動(dòng)物,即“屬于”和“包含”可逆性屬性;“樹鶯屬”又屬于“鹟科”,所以“異色樹鶯”也屬于“鹟科”,即“屬于”為傳遞性屬性;“樹鶯屬”只能屬于一個(gè)“鹟科”,而不能同時(shí)屬于一個(gè)以上的科,即“屬于”需要使用最大基數(shù)約束。對(duì)象屬性的定義域和值域一般為概念或?qū)嵗?數(shù)據(jù)屬性的定義域一般為概念或?qū)嵗?而值域?yàn)閿?shù)據(jù),本體數(shù)據(jù)類型使用XML的XSD數(shù)據(jù)類型表示,同時(shí)可以使用相應(yīng)的XSD約束規(guī)則進(jìn)行約束。
表5 非地理空間屬性集
在構(gòu)建地理空間概念集的同時(shí),獲取了部分具有地理空間特征術(shù)語(yǔ)詞匯,例如“北坡”、“源頭”和“上游”等,通過(guò)將這些詞匯進(jìn)行歸類分析,確定這些術(shù)語(yǔ)詞匯作用對(duì)象的空間關(guān)系,并進(jìn)行分層次總結(jié)出研究相關(guān)的6類地理空間關(guān)系:拓?fù)潢P(guān)系、從屬關(guān)系、方位關(guān)系、舉例關(guān)系、位置關(guān)系和地理數(shù)據(jù)屬性,具體屬性如表6所示。
空間屬性與普通的語(yǔ)義屬性表達(dá)不同,例如“平原”和“高原”在定義概念時(shí)可以添加“owl:disjointWith”不相交約束,說(shuō)明一個(gè)實(shí)例不能既是“平原”,又是“高原”,表達(dá)兩個(gè)概念在語(yǔ)義上不相交;在創(chuàng)建空間屬性時(shí),也可以將“平原”和“高原”之間的屬性定義為“geo:disjoint”不相交,說(shuō)明某一“平原”和某一“高原”在地理空間上不相交,沒(méi)有交集。
表6 地理空間屬性集
在構(gòu)建本體所有資源時(shí),必須添加國(guó)際化資源標(biāo)識(shí)符(IRI),保證本體內(nèi)每個(gè)元素的唯一性,IRI一般由WWW的統(tǒng)一資源定位標(biāo)志(URL)表示。本文涉及到的自定義IRI如下:http://www.forestdata.cn/animaldata縮寫為fd;http://www.forestdata.cn/geodata縮寫為geo。其他IRI為OWL本體或其他復(fù)用本體默認(rèn)值,例如“owl”和“foaf”等,本文不作詳細(xì)解釋。
本體中“owl:Thing”表示萬(wàn)事萬(wàn)物,所有的概念和關(guān)系都是“owl:Thing”的子類。由上文構(gòu)建的核心概念集確定了繼承“owl:Thing”的5個(gè)子類:“fd:Animal”,“fd:AnimalTaxonomy”,“fd:Reference”,“foaf:Person”,“fd:Data”和“geo:GeographicEntity”,為了符合本體方便共享復(fù)用原則,本體中概念集和屬性集采用了英文命名,然后采用“rdfs:label”屬性添加中文標(biāo)簽進(jìn)行標(biāo)注。本體的復(fù)用可以減少部分工作量,研究中復(fù)用了FOAF本體[11],用來(lái)表達(dá)青藏高原動(dòng)物資源數(shù)據(jù)采集人(foaf:Person)及其工作單位(foaf:Organization),復(fù)用了QUDT本體[12],用來(lái)描述某些數(shù)值型數(shù)據(jù)屬性的單位。
按表2和表4概念集上下級(jí)層次結(jié)構(gòu)構(gòu)建青藏高原動(dòng)物資源空間本體框架,添加本體子類屬性(owl:subClassOf)將子類和父類建立語(yǔ)義聯(lián)系,然后根據(jù)實(shí)際需求,對(duì)本體中的概念進(jìn)行實(shí)例化。青藏高原動(dòng)物資源空間本體的實(shí)例化以原始數(shù)據(jù)中每一動(dòng)物種為基礎(chǔ),逐一進(jìn)行實(shí)例化,同時(shí)按表5和表6屬性集添加相關(guān)屬性,建立實(shí)例之間的聯(lián)系。為了保證構(gòu)建的本體語(yǔ)義與原始詞條數(shù)據(jù)(數(shù)據(jù)共享網(wǎng)址:http://www.forestdata.cn/search-data.html?id=1004)相對(duì)應(yīng),以便更好地共享數(shù)據(jù),在“數(shù)據(jù)”下創(chuàng)建了“青藏高原動(dòng)物資源數(shù)據(jù)”子類,然后以每種動(dòng)物的“編號(hào)”(ID)+字符“數(shù)據(jù)”創(chuàng)建實(shí)例,使用“fd:isDataOf”屬性使“種”與“數(shù)據(jù)”建立聯(lián)系,例如“Animal092數(shù)據(jù)”是描述“中國(guó)林蛙”的數(shù)據(jù)。為保證本體的客觀性,其中自然地理空間實(shí)體中“河流”、“湖泊”和“山峰”分布參考水利標(biāo)準(zhǔn)《SL 249-2012中國(guó)河流代碼》[13]、《SL 261-2017 湖泊代碼》[14]和國(guó)家標(biāo)準(zhǔn)《GB/T 22483-2008中國(guó)山脈山峰名稱代碼》[15],人文地理空間中行政區(qū)劃參考國(guó)家統(tǒng)計(jì)局[16]和民政部[17]相關(guān)數(shù)據(jù)。進(jìn)行實(shí)例化后本體結(jié)構(gòu)如圖1所示。
圖1 青藏高原動(dòng)物資源空間本體片段結(jié)構(gòu)圖
利用W3C推薦的OWL2本體語(yǔ)言對(duì)青藏高原動(dòng)物資源空間本體進(jìn)行形式化、序列化編碼,將構(gòu)建的本體處理機(jī)器可讀可用的表達(dá)形式。為了便于后期閱讀和維護(hù)構(gòu)建的本體,構(gòu)建的本體采用了OWL2函數(shù)語(yǔ)法表達(dá)方式。
本體需要在構(gòu)建和應(yīng)用過(guò)程中不斷迭代完善和進(jìn)化,所以本體的評(píng)價(jià)十分重要。本體評(píng)價(jià)包含本體的正確性、一致性、可擴(kuò)展性和有效性等方面的評(píng)價(jià)。青藏高原動(dòng)物資源空間本體是基于國(guó)家林業(yè)和草原科學(xué)數(shù)據(jù)中心共享數(shù)據(jù)構(gòu)建的,抽取的概念集和屬性集參考了國(guó)家及行業(yè)相關(guān)標(biāo)準(zhǔn),保證了本體語(yǔ)義表達(dá)的正確性;屬性約束的正確與否決定了本體的語(yǔ)義一致性,本文本體屬性集構(gòu)建章節(jié)中敘述了構(gòu)建本體的屬性約束,根據(jù)多年本體建模經(jīng)驗(yàn),結(jié)合領(lǐng)域?qū)<抑笇?dǎo),保證了本體的一致性;青藏高原動(dòng)物資源空間本體中“動(dòng)物分類學(xué)”和“地理實(shí)體”的子類概念及其實(shí)例已經(jīng)達(dá)到最小粒度,具有較大的可擴(kuò)展性和復(fù)用性,但仍然有像“資料”、“書籍”等領(lǐng)域外的概念無(wú)法專業(yè)的確定本體結(jié)構(gòu),且未找到可復(fù)用的本體,這些概念僅在該本體或作者其他研究使用,可擴(kuò)展性較?。谎芯坎?gòu)建該本體的目的是建立原有數(shù)據(jù)中概念或元素之間的語(yǔ)義聯(lián)系,與傳統(tǒng)關(guān)鍵詞匹配檢索方式相比,語(yǔ)義檢索在數(shù)據(jù)共享中可以實(shí)現(xiàn)更高效的數(shù)據(jù)發(fā)現(xiàn),例如利用本體的語(yǔ)義支持,給定某一省份或某一河流,即可準(zhǔn)確地檢索出哪些動(dòng)物分布在該地區(qū),這些動(dòng)物的其他屬性或關(guān)聯(lián)信息也都可清晰地展示出來(lái),體現(xiàn)出本體具有一定的有效性,但本體有效性的量化一般采用檢索的查全率和查準(zhǔn)率表示,由于語(yǔ)義檢索系統(tǒng)正在開發(fā)過(guò)程中,具體有效性的數(shù)據(jù)無(wú)法給出。
基于國(guó)家林業(yè)和草原科學(xué)數(shù)據(jù)中心,用戶以關(guān)鍵詞檢索數(shù)據(jù)時(shí),常會(huì)出現(xiàn)關(guān)鍵詞與檢索結(jié)果不匹配的情況,無(wú)法提供高效的檢索服務(wù)。針對(duì)數(shù)據(jù)共享中信息檢索不全面的問(wèn)題,本文以青藏高原動(dòng)物資源數(shù)據(jù)為基礎(chǔ),對(duì)領(lǐng)域術(shù)語(yǔ)詞匯進(jìn)行歸納分類,抽取概念集和屬性集,并分析了地理空間相關(guān)數(shù)據(jù)的概念和屬性特征,闡述了本體的構(gòu)建流程,最終構(gòu)建了青藏高原動(dòng)物資源空間本體,為數(shù)據(jù)共享提供一定的語(yǔ)義支持。隨著林業(yè)和草原科學(xué)數(shù)據(jù)的逐年增加,涉及到的領(lǐng)域本體越來(lái)越復(fù)雜,目前大部分本體一般采用手工方式構(gòu)建,距離全面實(shí)現(xiàn)林業(yè)和草原科學(xué)數(shù)據(jù)語(yǔ)義共享還需要一段時(shí)間,所以自動(dòng)或半自動(dòng)本體構(gòu)建技術(shù)是下一步的重點(diǎn)研究?jī)?nèi)容。此外,國(guó)內(nèi)外本體研究較多,如何實(shí)現(xiàn)領(lǐng)域內(nèi)本體的共享與復(fù)用也是有意義的一項(xiàng)工作。