王藝茹,史東輝
安徽建筑大學(xué) 電子與信息工程學(xué)院,合肥 230601
非物質(zhì)文化遺產(chǎn)作為優(yōu)秀的傳統(tǒng)文化需要人們共同保護(hù)和傳承,而中國是擁有非物質(zhì)文化遺產(chǎn)數(shù)量最多的國家,利用現(xiàn)代計(jì)算機(jī)技術(shù)實(shí)現(xiàn)非遺的保護(hù)、管理和利用,是廣大學(xué)者學(xué)習(xí)和研究的方向。知識(shí)本體技術(shù)的出現(xiàn)為實(shí)現(xiàn)非遺的數(shù)字化管理提供了條件。
本體(ontology)是對某一領(lǐng)域內(nèi)概念類及其類之間關(guān)系的形式化表示[1]。“本體”一詞最早起源于哲學(xué)?,F(xiàn)在,本體已經(jīng)在人工智能、軟件工程、語義網(wǎng)等領(lǐng)域廣泛應(yīng)用。將本體技術(shù)應(yīng)用于非遺知識(shí)的構(gòu)建,使非遺數(shù)據(jù)由單一線性組織轉(zhuǎn)變?yōu)槎嘣卣鞯闹R(shí)組織形式[2],可以解決非遺領(lǐng)域知識(shí)半結(jié)構(gòu)化、碎片化的問題,促進(jìn)對非遺文化的研究和傳承,也促進(jìn)非遺知識(shí)的傳播。
本項(xiàng)目的目標(biāo)是構(gòu)建一個(gè)非遺知識(shí)領(lǐng)域本體,實(shí)現(xiàn)對我國非物質(zhì)文化遺產(chǎn)的基本信息以及知識(shí)關(guān)聯(lián)的描述。考慮到非遺知識(shí)的特殊性,本文采用CIDOC概念參考模型(CIDOC conceptual reference model,CIDOC CRM)對該領(lǐng)域本體的核心概念類和關(guān)系進(jìn)行定義,并以中國傳統(tǒng)木結(jié)構(gòu)建筑營造技藝這一非遺領(lǐng)域?yàn)槔M(jìn)行本體構(gòu)建。最后,對所建立的本體數(shù)據(jù)進(jìn)行存儲(chǔ),以知識(shí)圖譜的形式做出可視化展示。
CIDOC CRM模型是國際博物館理事會(huì)(ICOM)國際文獻(xiàn)委員會(huì)(CIDOC)開發(fā)的一套應(yīng)用于文化遺產(chǎn)的信息集成概念參考模型[3]。CRM模型的開發(fā)工作始于1996年[4]。經(jīng)過20多年的開發(fā)和維護(hù),模型的最新版本Version 7.2于2021年9月發(fā)布。該模型共聲明了81個(gè)類和160個(gè)屬性。CRM模型的主要作用是實(shí)現(xiàn)不同來源文化遺產(chǎn)信息之間的信息交換和整合,其目的是提供必要的語義定義,將不同的、本地化的信息源轉(zhuǎn)換為一致的知識(shí)資源。在CIDOC CRM模型與文化遺產(chǎn)領(lǐng)域本體結(jié)合的應(yīng)用中,可以根據(jù)所研究的特定文化遺產(chǎn)領(lǐng)域,在該模型中選取部分結(jié)構(gòu),而非照搬所有結(jié)構(gòu),并且可以在模型原有結(jié)構(gòu)上進(jìn)行擴(kuò)展和簡化。擴(kuò)展可以獲取更豐富的文化遺產(chǎn)信息,簡化可以去除部分不需要的結(jié)構(gòu)。截至目前,國內(nèi)外已有很多專家和學(xué)者成功應(yīng)用CIDOC CRM模型構(gòu)建文化遺產(chǎn)領(lǐng)域本體。在國內(nèi),劉宏哲等利用CIDOC CRM概念模型及Web Services技術(shù)構(gòu)建了虛擬博物館的語義網(wǎng)絡(luò)架構(gòu),在不改變原有文物數(shù)據(jù)的基礎(chǔ)上,最大程度地實(shí)現(xiàn)了數(shù)據(jù)共享與交換[5]。戴畋在博物館影像數(shù)字化管理方面,提出了一個(gè)以CIDOC CRM模型為框架的文物影像集成方案,在智慧博物館標(biāo)準(zhǔn)化體系研究中做出了有益嘗試[6]。吳瓊等考慮到不可移動(dòng)文物描述的局限性,提出CIDOC CRM模型與地理本體融合的方法,針對不可移動(dòng)文物提供了保護(hù)管理的思路[7]。何琳等以CIDOC CRM模型為框架,結(jié)合自然語言處理技術(shù)構(gòu)建了先秦典籍《左傳》的知識(shí)本體,對古文文本進(jìn)行研究并挖掘隱性知識(shí)[8]。在國外,Kouis等針對文化遺產(chǎn)文物保護(hù)記錄存在的碎片化、不完整等缺陷,使用CIDOC CRM構(gòu)建本體數(shù)據(jù)文件,用于保存文物無損檢測產(chǎn)生的大量數(shù)據(jù)[9]。Davide等在EPIA項(xiàng)目中開發(fā)了一種可視化工具,旨在利用CIDOC CRM表示葡萄牙國家檔案記錄信息,最終實(shí)現(xiàn)用戶瀏覽歸檔文件[10]。
以上是國內(nèi)外的專家學(xué)者將CIDOC CRM與文物、博物館等有形文化遺產(chǎn)結(jié)合的研究,而對于無形的文化遺產(chǎn),即非物質(zhì)文化遺產(chǎn)也有相應(yīng)的研究。Carboni等使用CIDOC CRM模型開發(fā)了一個(gè)用于保存塞浦路斯教堂中的材料、空間和符號(hào)等信息的本體,用于記錄遺產(chǎn)的有形和無形要素[11]。Hu等以廣東瑤族龐旺節(jié)為例,運(yùn)用CIDOC概念參考模型構(gòu)建了龐旺節(jié)知識(shí)本體。該知識(shí)本體有利于非物質(zhì)文化遺產(chǎn)的數(shù)字化存儲(chǔ)和管理[12]。何春雨等以赫哲族非遺資源為例,利用CIDOC概念參考模型構(gòu)建本體概念類、屬性及其關(guān)系,為非遺資源的有序組織提供參考[13]。肖希明等提出以CIDOC CRM為框架,將本體應(yīng)用于元數(shù)據(jù)系統(tǒng),構(gòu)建公共數(shù)字文化資源模型,為其語義互操作提供解決思路[14]。從現(xiàn)有研究成果來看,專家學(xué)者將CIDOC CRM與某地區(qū)或民族領(lǐng)域的非遺資源相結(jié)合的研究較多,而對于建筑領(lǐng)域的非遺資源還未曾發(fā)掘,再加上該領(lǐng)域非遺數(shù)據(jù)分布廣泛,存在數(shù)據(jù)龐大且零碎的問題,本項(xiàng)目以中國傳統(tǒng)木結(jié)構(gòu)建筑營造技藝資源為例,提出了構(gòu)建建筑領(lǐng)域非物質(zhì)文化遺產(chǎn)知識(shí)本體來輔助知識(shí)管理,并為公眾提供可視化服務(wù)。
表1列出了各種非遺知識(shí)表述方法的優(yōu)、缺點(diǎn)和案例。從中可以看出,使用CIDOC CRM構(gòu)建某特定領(lǐng)域的非遺本體能將各種碎片知識(shí)相聯(lián)接,有較為明顯的優(yōu)勢。非物質(zhì)文化遺產(chǎn)有著悠久的文化底蘊(yùn)和鮮明的地域特色,而建筑領(lǐng)域的非遺資源更有其獨(dú)特的制作技藝和時(shí)代傳承,包含了大量有形和無形的元素。目前,我國對建筑非遺資源的記錄大多以網(wǎng)站和數(shù)據(jù)庫的形式收集,存在知識(shí)關(guān)聯(lián)性不強(qiáng),多源異構(gòu)以及知識(shí)記錄不完整等問題。本項(xiàng)目通過引入本體和知識(shí)圖譜技術(shù),并充分利用CIDOC CRM模型的可擴(kuò)展性,將建筑領(lǐng)域特性與模型結(jié)合,使非遺資源形成結(jié)構(gòu)化的語義知識(shí)單元,最終實(shí)現(xiàn)非遺資源的檢索、可視化與知識(shí)共享。
表1 各種非遺知識(shí)表現(xiàn)形式的優(yōu)、缺點(diǎn)和案例Table 1 Advantages,disadvantages and cases of various forms of intangible cultural heritage knowledge representation
非物質(zhì)文化遺產(chǎn)是國家的寶貴資源,它的保護(hù)與傳承對弘揚(yáng)民族文化和精神具有重要意義。非遺知識(shí)涉及人、物、時(shí)、地和非遺項(xiàng)目本身等方面[15]。非遺項(xiàng)目是指包含在國家非遺保護(hù)名錄的每個(gè)具體項(xiàng)目。項(xiàng)目所涉及的人指非遺的傳承人、相關(guān)活動(dòng)的主辦方、參與者等,項(xiàng)目所涉及的物指非遺文化的相關(guān)資訊、研究成果及代表作品等,項(xiàng)目所涉及的時(shí)間指其公布時(shí)間,文化發(fā)展中重要活動(dòng)時(shí)間等,項(xiàng)目所涉及的地點(diǎn)指其申報(bào)地區(qū)/單位、分布地區(qū)等。非遺知識(shí)要素如圖1所示。
圖1 非遺知識(shí)要素Fig.1 Intangible cultural heritage knowledge elements
非物質(zhì)文化遺產(chǎn)擁有龐大而復(fù)雜的信息量,隨著時(shí)間推移也會(huì)產(chǎn)生相應(yīng)變化[16]。基于非物質(zhì)文化遺產(chǎn)本體的特殊性,本文采用人工方式來構(gòu)建非物質(zhì)文化遺產(chǎn)本體。七步法是經(jīng)典的本體構(gòu)建方法,其主要思想是將本體主要術(shù)語抽象為類別,然后定義類別的屬性并構(gòu)造實(shí)例,通過七個(gè)步驟對領(lǐng)域本體進(jìn)行構(gòu)建。本文將運(yùn)用七步法結(jié)合CIDOC CRM元數(shù)據(jù)參考模型進(jìn)行非遺本體構(gòu)建,在實(shí)例化構(gòu)建中使用TextRank算法進(jìn)行本體擴(kuò)充,使得本體內(nèi)容更加豐富。
基于1.1節(jié)對非遺本體構(gòu)建方法的確定,本文選擇成熟本體方案CIDOC CRM作為基本框架。在CIDOC CRM中,每個(gè)實(shí)體都有自己的屬性,實(shí)體之間的關(guān)系通過屬性顯示。其中實(shí)體以“E”開頭,屬性以“P”開頭作為表示。模型規(guī)定每一個(gè)實(shí)體和屬性都有其固定的編號(hào),例如:“E52 Time-Span”表示“時(shí)間”實(shí)體,“E55 Type”表示“類型”實(shí)體,“P2 has type”表示“屬于……類型”屬性“,P4 has time-span”表示“發(fā)生時(shí)段”屬性等。
基于非遺知識(shí)要素的分析,圖2展示了以“E2 Temporal Entity”即“非遺項(xiàng)目”實(shí)體為中心,使用CIDOC CRM構(gòu)建的實(shí)體-屬性關(guān)系,例如:“非遺項(xiàng)目”與“地點(diǎn)”實(shí)體通過“P59 is located on(位于)”和“P105 right held by(申報(bào)關(guān)系)”連接,“非遺項(xiàng)目”與“參與者”通過“P128 carries(傳承)”和“P147 curated(保護(hù)關(guān)系)”連接。這樣的模型結(jié)構(gòu)不僅可以表示本體概念類,還可以表示概念類之間的關(guān)系。
圖2 CIDOC CRM“非遺項(xiàng)目”實(shí)體-屬性關(guān)系Fig.2 Entity-attribute relationship of“intangible cultural heritage project”based on CIDOC CRM
在本體實(shí)例化創(chuàng)建過程中,本文選用TextRank算法,對收集到的非遺項(xiàng)目文本語料進(jìn)行關(guān)鍵信息的抽取,并從中選取相關(guān)實(shí)例進(jìn)行本體擴(kuò)充。TextRank算法是一種基于圖的關(guān)鍵詞抽取和文檔摘要的排序算法,它的實(shí)質(zhì)是將文本數(shù)據(jù)轉(zhuǎn)換為以詞為節(jié)點(diǎn),語義關(guān)系為邊的網(wǎng)絡(luò)圖結(jié)構(gòu),通過投票機(jī)制,選取文本數(shù)據(jù)的關(guān)鍵詞/詞組及摘要。算法公式為:
式(1)為算法對文本關(guān)鍵詞的提取公式,其中,S(Vi)表示詞語i的重要性,In(Vi)表示節(jié)點(diǎn)Vj的前驅(qū)節(jié)點(diǎn)集合,Out(Vj)表示節(jié)點(diǎn)Vj的后繼節(jié)點(diǎn)集合,|Out(Vj)|表示集合中元素的個(gè)數(shù)。d為阻尼因子,通常取0.85。
對于文本摘要的提取,算法也有如下公式:
式(2)中節(jié)點(diǎn)V所代表的不再是詞語,而是文本中的句子。其中,WS(Vi)為句子i的權(quán)重,求和表示與句子i相鄰的句子對句子i的貢獻(xiàn)程度,wji表示句子j與句子i的相似度。In(Vi)、Out(Vi)及d與式(1)意義相同。
對于句與句之間相似度的計(jì)算,公式如下:
式(3)左側(cè)是句子i和j的相似度,即式(2)中的wji,右側(cè)分子是同時(shí)屬于兩個(gè)句子的詞語數(shù)量,分母表示兩個(gè)句子所含詞語的數(shù)量分別取對數(shù)再求和。
該算法將收集的文本語料整合成文本數(shù)據(jù),通過句子分割、分詞、向量表示,構(gòu)成相似度矩陣,并轉(zhuǎn)換為以詞/句子為節(jié)點(diǎn)、相似度為邊的圖結(jié)構(gòu),用于計(jì)算TextRank值,最后通過排序?qū)⒌梅衷谇皫孜坏脑~/句子輸出。本文使用TextRank算法選取排名前6的關(guān)鍵詞,出現(xiàn)頻率超過3次的詞組和排名前3的關(guān)鍵句子作為算法的輸出。通過算法處理后,實(shí)現(xiàn)長篇文本數(shù)據(jù)的關(guān)鍵詞/詞組以及文本摘要的提取,簡化本體實(shí)例的選取。算法具體流程如圖3所示。
圖3 TextRank算法Fig.3 TextRank algorithm
本體構(gòu)建流程如圖4所示,分為7個(gè)步驟:(1)確定本體領(lǐng)域和構(gòu)建目標(biāo)。由于非物質(zhì)文化遺產(chǎn)種類多、數(shù)量多、知識(shí)繁雜,直接構(gòu)建非物質(zhì)文化遺產(chǎn)知識(shí)的完整本體是困難的,所以本文選擇中國傳統(tǒng)木結(jié)構(gòu)建筑營造技藝這一建筑營造類的非遺項(xiàng)目,構(gòu)建非遺知識(shí)本體。(2)嘗試復(fù)用現(xiàn)有知識(shí)本體。目前,在文化遺產(chǎn)領(lǐng)域已經(jīng)出現(xiàn)了一些有影響力的本體模型,例如CIDOC CRM、ATT(the art & architecture thesaurus,藝術(shù)和建筑敘詞表)等。根據(jù)非遺知識(shí)的特點(diǎn),本文基于CIDOC CRM部分結(jié)構(gòu)構(gòu)建非遺領(lǐng)域本體。(3)列出領(lǐng)域重要術(shù)語。本體構(gòu)建之前,要收集相關(guān)的領(lǐng)域知識(shí),從多個(gè)數(shù)據(jù)源提取中國傳統(tǒng)木結(jié)構(gòu)建筑營造技藝這一非遺領(lǐng)域的重要信息和術(shù)語。主要數(shù)據(jù)來源為中國非物質(zhì)文化遺產(chǎn)網(wǎng)站,如國家或各個(gè)省份的非物質(zhì)文化遺產(chǎn)網(wǎng)站,其他數(shù)據(jù)源來自百度、官網(wǎng)相關(guān)文獻(xiàn)和資訊等[17]。(4)定義類及其層次體系。CIDOC CRM具有一定的靈活性,對文化遺產(chǎn)具有強(qiáng)大的描述能力。通過對CIDOC CRM定義的實(shí)體概念類的研究,選取與非遺領(lǐng)域相符的概念類作為本文所構(gòu)建本體的核心概念類,以保證本體框架的規(guī)范性,再將概念類進(jìn)行層次劃分和擴(kuò)充。(5)定義類屬性。本體概念類屬性包含對象屬性和數(shù)據(jù)屬性[18]。對象屬性描述類與實(shí)例之間的關(guān)系,其定義域和值域都是概念類或?qū)嵗?;?shù)據(jù)屬性描述類或?qū)嵗c數(shù)值之間的關(guān)系,其定義域是概念類或?qū)嵗涤蚴遣煌臄?shù)據(jù)類型。本體通過屬性的定義實(shí)現(xiàn)概念類的語義化描述。(6)定義屬性約束條件。例如,定義函數(shù)型特性(functional properties)、反向函數(shù)型特性(inverse functional properties)和傳遞型特性(transitive properties)等。(7)創(chuàng)建實(shí)例。
圖4 本體構(gòu)建流程Fig.4 Ontology construction process
在定義了本體的概念類及其屬性后,使用TextRank算法在大量的語料庫中提取與領(lǐng)域本體相關(guān)的實(shí)例,擴(kuò)展本體內(nèi)容。
基于1.3節(jié)的思路和方法,結(jié)合非遺資源本身特點(diǎn),項(xiàng)目采用Protégé本體編輯工具構(gòu)建非遺知識(shí)本體。該軟件是基于Java語言開發(fā)的本體編輯軟件,它可以創(chuàng)建概念類、關(guān)系、屬性和實(shí)例,對領(lǐng)域本體進(jìn)行構(gòu)建。在構(gòu)建工作完成后,通過可視化插件OntoGraf查看本體所生成的語義關(guān)系圖,并將已構(gòu)建的非遺本體數(shù)據(jù)經(jīng)過數(shù)據(jù)映射保存為RDF格式。標(biāo)準(zhǔn)資源描述框架(resource description framework,RDF)是機(jī)器可讀的數(shù)據(jù)模型,用于描述Web資源特性以及各資源之間的關(guān)系。RDF是知識(shí)圖譜的基礎(chǔ),它由節(jié)點(diǎn)和邊組成。節(jié)點(diǎn)表示實(shí)體/屬性,邊則表示實(shí)體與實(shí)體及實(shí)體與屬性之間的關(guān)系。之后將RDF本體數(shù)據(jù)存入Neo4j圖數(shù)據(jù)庫中,以知識(shí)圖譜的形式做出可視化展示[19]。圖5為知識(shí)圖譜構(gòu)建流程。使用Protégé完成本體概念、對象屬性、數(shù)據(jù)屬性和實(shí)例等的建立,本體創(chuàng)建完成后,將本體導(dǎo)入Neo4j圖數(shù)據(jù)庫中。RDF的存儲(chǔ)使用N-Triples格式。
圖5 知識(shí)圖譜構(gòu)建流程圖Fig.5 Knowledge graph construction process
非遺項(xiàng)目中國傳統(tǒng)木結(jié)構(gòu)建筑營造技藝由徽派傳統(tǒng)民居營造技藝與香山幫傳統(tǒng)建筑營造技藝、北京四合院傳統(tǒng)營造技藝和閩南民居營造技藝組成[20]。這種營造技藝延承了七千年,遍及中國全境,并傳播到日本、韓國等東亞各國,是東方古代建筑技術(shù)的代表。因此,構(gòu)建中國傳統(tǒng)木結(jié)構(gòu)建筑營造技藝本體,將資源進(jìn)行有序整合,對非遺資源的保護(hù)和共享具有重要意義。
本文在構(gòu)建中國傳統(tǒng)木結(jié)構(gòu)建筑營造技藝本體時(shí),借鑒成熟的CIDOC CRM模型,選用其部分概念類結(jié)構(gòu)作為本文所建本體的核心概念類,并根據(jù)非遺領(lǐng)域特性對概念類進(jìn)行擴(kuò)充和分層管理。表2為本體核心概念類及子類的選取和描述。
表2 中國傳統(tǒng)木結(jié)構(gòu)建筑營造技藝本體概念類及描述Table 2 Ontological concept and description of building construction techniques for Chinese traditional wooded structure architecture
利用表3所描述的本體概念類信息,使用Protégé本體創(chuàng)建工具將頂層概念類命名為中國傳統(tǒng)木結(jié)構(gòu)建筑營造技藝,并建立其子類非遺項(xiàng)目類。非遺項(xiàng)目類含有從CIDOC CRM中選取的參與者、時(shí)間、地點(diǎn)、類型和事物5個(gè)子類。其中,參與者包含傳承人和項(xiàng)目保護(hù)單位兩個(gè)子類,時(shí)間為項(xiàng)目的公布時(shí)間,地點(diǎn)包含技藝分布地區(qū)和申報(bào)地區(qū)或單位兩個(gè)子類,類型包含非遺類別、級別、題材、技法、材質(zhì)5個(gè)子類。本體的概念類及其層次關(guān)系如圖6所示。
表3 中國傳統(tǒng)木結(jié)構(gòu)建筑營造技藝本體對象屬性(部分)Table 3 Ontological object attribute of building construction techniques for Chinese traditional wooded structure architecture(parts)
圖6 本體概念類及其層次結(jié)構(gòu)Fig.6 Ontological concept class and hierarchy
在確定了本體的概念后,需要確定本體的概念屬性。概念屬性包括對象屬性和數(shù)據(jù)屬性。對象屬性描述概念與概念或者實(shí)例與實(shí)例之間的關(guān)系,將原本獨(dú)立的概念或?qū)嵗Z義化地聯(lián)系起來。本文所構(gòu)建的本體對象屬性一部分來源于CIDOC CRM本體模型,另一部分根據(jù)傳統(tǒng)木結(jié)構(gòu)建筑營造技藝的特殊性進(jìn)行擴(kuò)充。表3展示了從CIDOC CRM中選取的部分屬性。表中第一列為從CIDOC CRM模型中選取的對象屬性名稱,如“P2 has type”描述非遺項(xiàng)目的類別,“P4 has timespan”描述非遺項(xiàng)目所公布的時(shí)間,“P5 consists of”描述非遺項(xiàng)目及其所含子項(xiàng)等;表中第二列是本項(xiàng)目中用于構(gòu)建本體的對象屬性;表中第三列、第四列分別是對屬性定義域和值域的描述,用于添加屬性約束,組成如“非遺項(xiàng)目-屬于……類型-項(xiàng)目類別”“非遺項(xiàng)目-公布-公布時(shí)間”“非遺項(xiàng)目-包含-非遺子項(xiàng)”等三元組。圖6為本體概念類及其層次結(jié)構(gòu)。圖7(a)為使用Protégé本體編輯工具創(chuàng)建的本體的對象屬性及其層次結(jié)構(gòu)。使用對象屬性分別表示非遺項(xiàng)目與事物、參與者、地點(diǎn)、時(shí)間、類型之間的關(guān)系。一方面使本體概念類與對象屬性的關(guān)系對應(yīng)起來,另一方面對本體屬性的擴(kuò)充和完善提供了分組式的管理。
圖7 本體概念屬性及其層次結(jié)構(gòu)Fig.7 Ontological concept attributes and hierarchy
數(shù)據(jù)屬性描述概念類或者實(shí)例與數(shù)據(jù)之間的關(guān)系。根據(jù)傳統(tǒng)木結(jié)構(gòu)建筑營造技藝特點(diǎn),結(jié)合相關(guān)資料定義的本體數(shù)據(jù)屬性如圖7(b)所示。其中,數(shù)據(jù)屬性采用了與本體概念類相類似的分組方式,主要包括事物屬性、參與者屬性以及項(xiàng)目屬性。事物屬性包含對項(xiàng)目代表作品和文獻(xiàn)/資訊的描述,其中,代表作品又包含名稱、所屬地區(qū)及所屬時(shí)代;文獻(xiàn)/資訊包含創(chuàng)建時(shí)間、來源等信息。參與者屬性包含非遺項(xiàng)目傳承人信息和保護(hù)單位信息。項(xiàng)目屬性包含非遺項(xiàng)目編號(hào)、類別、申報(bào)地區(qū)等記錄項(xiàng)目的基本信息。至此,本體的概念類及屬性都已經(jīng)確定。根據(jù)表2屬性的定義域和值域的約束條件,在Protégé軟件中添加約束,以實(shí)現(xiàn)語義關(guān)聯(lián),將原本獨(dú)立的概念類聯(lián)系起來。圖8(a)為本體所建立的概念類及對象屬性的關(guān)聯(lián)關(guān)系,其連線對應(yīng)圖7(a)所建立的對象屬性,圖8(b)對(a)圖中不同顏色的線對應(yīng)的關(guān)系做出說明。
圖8 本體概念類及關(guān)系模型Fig.8 Ontological concept class and relational model
在定義了本體的概念類和屬性之后,需要對傳統(tǒng)木結(jié)構(gòu)建筑營造技藝這一非遺項(xiàng)目的實(shí)例進(jìn)行添加。通過中國非遺網(wǎng)獲取非遺項(xiàng)目的基本信息,再使用TextRank算法從官網(wǎng)相關(guān)文獻(xiàn)和資訊、百度詞條等文本語料中,獲取文本語料的關(guān)鍵詞、關(guān)鍵詞組及關(guān)鍵句子,擴(kuò)充本體實(shí)例,通過對象屬性構(gòu)建實(shí)例之間的聯(lián)系,最終實(shí)現(xiàn)項(xiàng)目實(shí)例的語義化描述。
下面以中國傳統(tǒng)木結(jié)構(gòu)建筑營造技藝名錄下的“徽州三雕(婺源三雕)”這一非遺項(xiàng)目為例,對本體進(jìn)行實(shí)例化構(gòu)建。圖9為從中國非遺網(wǎng)中提取的項(xiàng)目基本信息。
圖9 徽州三雕(婺源三雕)基本信息Fig.9 Basic information of Huizhou three carvings(Wuyuan three carvings)
本體實(shí)例除了包含非遺項(xiàng)目的基本信息,還應(yīng)包含在文本語料中提取的詳細(xì)信息。圖10為使用TextRank算法之前有關(guān)徽州三雕的文本語料。相比之下,圖11為使用TextRank算法之后提取的有關(guān)徽州三雕文本語料的關(guān)鍵詞、關(guān)鍵詞組和關(guān)鍵句子。
對比圖10與圖11可知,運(yùn)用TextRank算法可以將大篇幅的文本語料進(jìn)行縮減。算法從文本中抽取關(guān)鍵詞、關(guān)鍵短語和關(guān)鍵句子,并通過使用關(guān)鍵詞、關(guān)鍵短語和關(guān)鍵句子對本體進(jìn)行實(shí)例擴(kuò)充。在獲得了實(shí)例信息后,使用Protégé軟件創(chuàng)建實(shí)例,并添加其相應(yīng)的數(shù)據(jù)屬性和對象屬性。
圖10 徽州三雕(婺源三雕)文本原始語料(部分)Fig.10 Original corpus of Huizhou three carvings(Wuyuan three carvings)tex(tpart)
圖11 TextRank算法處理后的語料Fig.11 Corpus processed by TextRank algorithm
圖12是“徽州三雕(婺源三雕)”實(shí)例化界面。圖中紅色邊框內(nèi)是建立的與本體概念類相關(guān)的實(shí)例。所建立的實(shí)例通過對象屬性(圖12藍(lán)色邊框)和數(shù)據(jù)屬性(圖12綠色邊框)實(shí)現(xiàn)非遺項(xiàng)目與本體概念類之間的關(guān)聯(lián)。圖13為利用Protégé軟件中OntoGraf插件對“徽州三雕(婺源三雕)”實(shí)例進(jìn)行可視化的展示。
圖12 徽州三雕(婺源三雕)實(shí)例化界面Fig.12 Instantiation interface of Huizhou three carvings(Wuyuan three carvings)
圖13 徽州三雕(婺源三雕)實(shí)例可視化Fig.13 Visualization example of Huizhou three sculptures(Wuyuan three sculptures)
使用上述方法完成了中國傳統(tǒng)木結(jié)構(gòu)建筑營造技藝知識(shí)本體的構(gòu)建,并在領(lǐng)域內(nèi)形成了結(jié)構(gòu)化的數(shù)據(jù)。在此基礎(chǔ)上,利用本體模型進(jìn)行數(shù)據(jù)映射,將本體結(jié)構(gòu)數(shù)據(jù)轉(zhuǎn)換為RDF數(shù)據(jù)格式,存入Neo4j圖數(shù)據(jù)庫中,實(shí)現(xiàn)關(guān)聯(lián)關(guān)系的可視化展示。圖14展示了中國傳統(tǒng)木結(jié)構(gòu)建筑營造技藝名錄下“徽州三雕(婺源三雕)”和“建筑彩繪(傳統(tǒng)地仗彩畫)”兩個(gè)非遺實(shí)例的知識(shí)圖譜。
圖14 中國傳統(tǒng)木結(jié)構(gòu)建筑營造技藝本體知識(shí)圖譜(節(jié)選)Fig.14 Ontological knowledge graph of building construction techniques for Chinese traditional wooden structure architecture(parts)
非物質(zhì)文化遺產(chǎn)作為傳承傳統(tǒng)文化和民族風(fēng)俗的動(dòng)態(tài)載體,在幾千年的歷史長河中發(fā)揮著重要的紐帶作用。對加強(qiáng)非物質(zhì)文化遺產(chǎn)的保護(hù)、開發(fā)和利用,傳承民族文化,弘揚(yáng)民族精神,增強(qiáng)文化交流具有重要意義。中國古建筑有著自身獨(dú)有的特征,如:屋頂造型、臺(tái)基、屋身、裝飾部件、木裝修,構(gòu)件、色彩、自由多變的樣式、布局模式、立柱和橫梁等。由于地域、年代變化,形成了大量各種形式的非遺信息。因此,建筑領(lǐng)域非遺知識(shí)本體的構(gòu)建有其特殊性。本文首先介紹了CIDOC概念參考模型應(yīng)用于文化領(lǐng)域、非物質(zhì)文化領(lǐng)域的國內(nèi)外研究現(xiàn)狀,就此提出創(chuàng)建非遺領(lǐng)域本體,實(shí)現(xiàn)非遺知識(shí)的數(shù)字化存儲(chǔ),解決我國傳統(tǒng)建筑非遺領(lǐng)域知識(shí)半結(jié)構(gòu)化、碎片化的問題,并以中國傳統(tǒng)木結(jié)構(gòu)建筑營造技藝這一類非遺項(xiàng)目為例,使用CIDOC CRM模型,構(gòu)建非遺核心本體,引入該領(lǐng)域的相關(guān)概念和關(guān)系。添加相關(guān)實(shí)例,擴(kuò)展現(xiàn)有本體。通過TextRank算法實(shí)現(xiàn)建筑領(lǐng)域非遺知識(shí)本體實(shí)例的擴(kuò)充,使得所建本體與建筑領(lǐng)域密切融合。隨著研究的不斷深入,未來將對該領(lǐng)域本體繼續(xù)進(jìn)行擴(kuò)充,并通過自然語言處理、深度學(xué)習(xí)等知識(shí)抽取方法,對非遺項(xiàng)目文本語料進(jìn)行信息提取,為非遺保護(hù)方法的信息化提供有效途徑。所提出的方法對于傳統(tǒng)舞蹈、戲劇、民間文學(xué)、民俗等非遺項(xiàng)目的結(jié)構(gòu)化數(shù)據(jù)資源的建立和共享具有參考意義。