国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向書畫著錄的文獻(xiàn)循證與時空關(guān)聯(lián)構(gòu)建研究*

2022-10-10 03:52高勁松付家煒
大學(xué)圖書館學(xué)報 2022年5期
關(guān)鍵詞:石渠寶著錄書畫

□高勁松 付家煒

1 引言

書畫著錄(Catalogue Literature of Calligraphy and Painting)是對中國古代書法、繪畫作品進(jìn)行目錄性著述的專門文獻(xiàn),在書畫研究中具有述流傳、記傳記、分派別、辨真?zhèn)蔚榷喾N功能[1]。在古代書畫作品大量散佚、真?zhèn)蜗嚯s的今日,歷代書畫著錄對于研究古代書畫藝術(shù)特征和鑒別傳世作品真?zhèn)尉哂兄匾獏⒖純r值。近年來,云計算、大數(shù)據(jù)、物聯(lián)網(wǎng)等技術(shù)的發(fā)展催生了數(shù)字人文浪潮,為人文學(xué)科引入了新的思維模式和研究范式。數(shù)字人文的“大帳篷效應(yīng)”促進(jìn)了歷史、文學(xué)、藝術(shù)等人文研究領(lǐng)域的交叉融合,書畫著錄研究作為涉及多個學(xué)科的交叉領(lǐng)域,在數(shù)字人文興起的背景下有必要引入跨學(xué)科的研究視角,通過對人文研究方法與數(shù)字分析技術(shù)的有機(jī)整合,進(jìn)一步開發(fā)書畫著錄潛在的隱性知識價值,從而更好地滿足專業(yè)人士與社會公眾對書畫著錄知識的利用需求。

文獻(xiàn)循證是圖情學(xué)科對數(shù)字人文研究的重要方法論貢獻(xiàn)。循證研究即“基于證據(jù)的研究”,強(qiáng)調(diào)任何結(jié)論都需要從客觀證據(jù)中得出,通過建立體系化的原則、流程和方法以保障研究結(jié)論的客觀性和科學(xué)性。文獻(xiàn)循證是“基于文獻(xiàn)的循證研究”,其實質(zhì)是以文獻(xiàn)材料中的客觀事實和結(jié)論為證據(jù),圍繞研究問題形成一定的證據(jù)鏈,進(jìn)而通過關(guān)系推導(dǎo)尋找可靠結(jié)論的過程[2]。傳統(tǒng)目錄學(xué)、版本學(xué)、校勘學(xué)中的文獻(xiàn)考據(jù)活動對于研究者的經(jīng)驗和能力具有較高要求[3],而在數(shù)字技術(shù)的支持下,文獻(xiàn)循證的證據(jù)來源不再局限于需要人工鑒別、翻閱的實體文獻(xiàn),還可擴(kuò)展至文獻(xiàn)資料中可被機(jī)器處理的各種事實知識,循證實踐的應(yīng)用場景大大擴(kuò)展。在數(shù)字人文興起的背景下,相關(guān)研究者依托人文數(shù)據(jù)基礎(chǔ)設(shè)施,對面向文獻(xiàn)事實知識的證據(jù)鏈構(gòu)建和循證分析實踐進(jìn)行了探索[4]。例如在南海歷史文獻(xiàn)研究中探索文獻(xiàn)循證方法的數(shù)字化應(yīng)用[5-6];在分析古籍文獻(xiàn)循證需求基礎(chǔ)上提出基于文本可視化的古籍循證流程框架[7];在歷史人物研究中應(yīng)用文獻(xiàn)循證思想,通過量化分析和關(guān)聯(lián)挖掘構(gòu)建人物關(guān)系網(wǎng)絡(luò)圖譜[8];在古籍資源建模研究中圍繞文獻(xiàn)循證的具體需求,構(gòu)建面向異構(gòu)資源融合的中文古籍?dāng)?shù)據(jù)模型[9]。

時空分析是利用地理編碼方法將原始信息在一定地理空間中進(jìn)行時空關(guān)聯(lián)和可視化表達(dá)的研究方法[10]。時空分析將多種地理信息技術(shù)引入人文社會科學(xué)領(lǐng)域,運(yùn)用定量、比較、計量等方法研究歷史、社會、自然等多要素關(guān)聯(lián),現(xiàn)已成為數(shù)字人文的基本研究范式之一[11]。隨著時空分析在數(shù)字人文中應(yīng)用的深入,如何實現(xiàn)時空關(guān)聯(lián)構(gòu)建的范式化、流程化,成為相關(guān)領(lǐng)域研究者需要關(guān)注的問題。時空關(guān)聯(lián)構(gòu)建是利用語義本體、自然語言處理、知識圖譜等技術(shù)在同一時空基準(zhǔn)上對不同尺度的地理數(shù)據(jù)進(jìn)行相互關(guān)聯(lián),將不同的地理要素構(gòu)成一個整體以實現(xiàn)更全面的關(guān)系表達(dá)的過程[12-14],其在數(shù)字人文研究中的價值在于能夠厘清各種時間、空間表述的定義、格式及關(guān)系,揭示各類要素及其屬性在時空變化中所呈現(xiàn)的規(guī)律[15-16]。目前,人文研究領(lǐng)域已在時空關(guān)聯(lián)構(gòu)建方面進(jìn)行了一定探索,例如通過對文化記憶載體時空屬性和關(guān)聯(lián)的形式化編碼以實現(xiàn)面向文化記憶領(lǐng)域的時空數(shù)據(jù)建模[17];通過整合社會網(wǎng)絡(luò)分析、文本結(jié)構(gòu)分析、古地名提取等方法以滿足古地圖知識組織研究中的時空關(guān)聯(lián)分析需求[18];通過定義包含屬性、事件、過程、狀態(tài)的非物質(zhì)文化遺產(chǎn)(以下簡稱非遺)時空關(guān)聯(lián)描述模型,以開展非遺時空演化的量化分析研究[19]。

伴隨著數(shù)字人文研究范式的日益成熟,相關(guān)研究呈現(xiàn)層次更深、領(lǐng)域更專、粒度更細(xì)的發(fā)展趨勢,不僅在供給側(cè)對人文數(shù)據(jù)基礎(chǔ)設(shè)施的建設(shè)水平提出了更高要求,也在需求側(cè)呼喚新技術(shù)條件下人文研究方法的遷移迭代。在時空分析成為數(shù)字人文基本研究范式之一的背景下,將文獻(xiàn)循證方法應(yīng)用于書畫著錄的時空關(guān)聯(lián)構(gòu)建研究,能夠更好地滿足相關(guān)領(lǐng)域?qū)嬜髌窔v史傳承知識的需求。

2 書畫著錄的時空語義描述與概念分層注釋

2.1 書畫著錄時空語義描述模型

書畫著錄真實地反映了歷代書畫作品的面貌,對揭示作品的歷史傳承具有重要價值。但是由于書畫著錄結(jié)構(gòu)、內(nèi)容的特殊性,將現(xiàn)有的古籍元數(shù)據(jù)標(biāo)準(zhǔn)應(yīng)用于其時空關(guān)聯(lián)構(gòu)建時,存在時空屬性揭示不足、領(lǐng)域描述需求難以適配等問題。因此在開展書畫著錄文獻(xiàn)循證時,須針對其結(jié)構(gòu)和內(nèi)容特征構(gòu)建專門的時空語義描述模型。本文以圖1所示《江帆山市圖》著錄為例,對書畫著錄的結(jié)構(gòu)和內(nèi)容進(jìn)行分析。在文獻(xiàn)結(jié)構(gòu)上,書畫著錄涉及后世記錄的作品題名、創(chuàng)作年代、保管地點等外部要素,裝幀、用紙、技法、尺寸等物理要素,以及題跋、印鑒等反映作品歷史傳承過程的時空要素。在文獻(xiàn)內(nèi)容上,書畫著錄可以理解為著錄者基于自身認(rèn)知和著錄體例,對書畫作品內(nèi)容、形制所進(jìn)行的半結(jié)構(gòu)化描述,這一過程與現(xiàn)代圖像學(xué)中對視覺藝術(shù)作品進(jìn)行內(nèi)、外部詮釋的圖像志研究具有相似性[20-21]。換言之,書畫著錄中的著錄條目亦可被理解為一種“文本態(tài)圖像”,因此在書畫著錄時空語義描述模型構(gòu)建中,有必要引入面向人文藝術(shù)圖像的語義描述方法。

圖1 書畫著錄的結(jié)構(gòu)與內(nèi)容示例

目前,將視覺藝術(shù)領(lǐng)域的圖像學(xué)理論應(yīng)用于人文圖像語義描述的研究已有先例,例如王曉光(Wang X)等參考?xì)W文·潘諾夫斯基(Panofsky E)的圖像學(xué)理論構(gòu)建了面向敦煌壁畫數(shù)字圖像的深度語義描述框架[22-23];曾子明等針對數(shù)字人文領(lǐng)域的用戶認(rèn)知需求,在借鑒薩拉·沙特福德(Shatford S)的圖像分層描述理論基礎(chǔ)上提出了面向歷史照片的語義描述模型[24-25];朱學(xué)芳等基于對非遺圖像用戶的認(rèn)知層次分析,應(yīng)用Panofsky-Shatford模型構(gòu)建了面向非遺領(lǐng)域的數(shù)字圖像描述框架[26]。Panofsky-Shatford模型是圖像學(xué)領(lǐng)域的重要理論,Panofsky模型主要通過前圖像志(Pre-iconography)、圖像志(Iconography)、圖像學(xué)(Iconology)的三層模型實現(xiàn)圖像內(nèi)容描述,Panofsky-Shatford模型在前者基礎(chǔ)上進(jìn)行擴(kuò)展,將圖像內(nèi)容劃分為通用概念、具體概念和抽象概念3個層次,每個層次又與人物、事物、時間、地點4個維度分別對應(yīng)。本文在Panofsky-Shatford模型基礎(chǔ)上結(jié)合書畫著錄的結(jié)構(gòu)與內(nèi)容特征,提出如表1所示的時空語義描述模型。

表1 書畫著錄時空語義描述模型

表1的模型包含3個概念層次和4個語義維度,其中Who維度、What維度分別用于表示書畫著錄中的各類人物、事物,When維度用于描述書畫著錄中各種時間表述,并在通用時間概念基礎(chǔ)上擴(kuò)展了朝代、年號、干支等中國古代特有紀(jì)年方式,Where維度用于描述書畫著錄中各類空間表述。模型中,G類字段表示通用或泛指性概念,S類字段表示具體或?qū)V感愿拍?,A類字段用于表示書畫作品的題材、用紙、技法、裝幀、尺寸等抽象概念信息。

2.2 書畫著錄概念分層注釋模型

古代書畫作品是承載文化記憶的媒介資料,其衍生的圖文聲像數(shù)據(jù)則是以數(shù)字形式重組和傳播的文化記憶資源[27]。媒介資料作為文化記憶的載體,具有整體性、延續(xù)性和系統(tǒng)性的普遍特征。在書畫領(lǐng)域,媒介資料的整體性體現(xiàn)在書畫作品自身蘊(yùn)含的直接信息、書畫著錄記載的間接信息以及古今書畫賞評鑒定活動所產(chǎn)生的他者信息之間存在對照、引述、印證等多維關(guān)聯(lián);其連續(xù)性體現(xiàn)在書畫作品在內(nèi)容表達(dá)、作品創(chuàng)作、題跋鈐印、修復(fù)裝裱的過程中形成了“三度時空”的層次分野[28];其系統(tǒng)性則體現(xiàn)在書畫作品及其相關(guān)文獻(xiàn)著述所承載的主、客觀知識間存在廣泛的事理邏輯關(guān)聯(lián),且這種內(nèi)容載體關(guān)聯(lián)在歷史文化變遷中不斷固化和豐富。

基于上述分析,本文沿用Panofsky-Shatford模型的概念分層描述思想,引入媒介關(guān)聯(lián)性和時空連續(xù)性作為分層依據(jù),面向書畫著錄的內(nèi)容與載體關(guān)聯(lián),定義書畫內(nèi)容(Content)、書畫創(chuàng)作(Produce)、書畫流轉(zhuǎn)(Transfer)三個概念層次,提出如表2所示的二維分層注釋模型。模型遵循表1的語義劃分維度,定義人物、事物、時間、空間4種概念類型,在此基礎(chǔ)上對書畫著錄的概念層次進(jìn)行注釋,以實現(xiàn)對同一類型下不同文本的分層處理。例如《江帆山市圖》著錄中,將“素箋本”注釋為“Thing.Produce”,將“項元汴印”注釋為“Thing.Transfer”,由此可在時空層次上對兩個事物概念(Thing)進(jìn)行區(qū)分。

表2 書畫著錄概念分層注釋模型

3 面向書畫著錄的文獻(xiàn)循證與時空關(guān)聯(lián)構(gòu)建過程

事實知識是文獻(xiàn)循證的基礎(chǔ),文獻(xiàn)循證實踐需要對大量事實知識進(jìn)行結(jié)構(gòu)化存儲,并通過推理和一致性檢驗以構(gòu)建“事實證據(jù)鏈”。在新技術(shù)條件下,面向書畫著錄的文獻(xiàn)循證與時空關(guān)聯(lián)構(gòu)建可歸納為如圖2所示的過程模型:首先,利用數(shù)字化文本標(biāo)注工具從書畫著錄中抽取實體并通過本體建模實現(xiàn)其關(guān)系組織;其次,引入歷史人物傳記、歷史紀(jì)年表、歷史地名表等可以互相佐證的數(shù)據(jù)源(以下簡稱互證數(shù)據(jù)源)對標(biāo)注實體進(jìn)行語義對齊和一致性檢驗,并通過多輪實體匹配過程揭示標(biāo)注實體的時空語義關(guān)聯(lián);再次,利用語義知識庫進(jìn)行書畫著錄時空關(guān)聯(lián)證據(jù)鏈的持久化保存,實現(xiàn)文獻(xiàn)循證數(shù)據(jù)存儲和文獻(xiàn)循證過程揭示。

圖2 面向書畫著錄的文獻(xiàn)循證與時空關(guān)聯(lián)構(gòu)建過程

3.1 基于文本標(biāo)注的書畫著錄事實抽取

書畫著錄事實抽取是對著錄文本中的語義實體進(jìn)行識別、標(biāo)記并生成結(jié)構(gòu)化數(shù)據(jù)集的過程。傳統(tǒng)文獻(xiàn)循證實踐中主要通過“細(xì)讀”實現(xiàn)文獻(xiàn)事實抽取,即運(yùn)用不同字形、字體、顏色、形狀的標(biāo)記對紙質(zhì)文獻(xiàn)中的人物、事物、時間、地點等實體進(jìn)行標(biāo)注[29]。在新技術(shù)條件下,面向數(shù)字人文的文本標(biāo)注工具在實現(xiàn)數(shù)字化細(xì)讀的同時可兼顧標(biāo)注數(shù)據(jù)的管理組織,降低了文本標(biāo)注的專業(yè)技術(shù)門檻,提升了相關(guān)方法在人文研究中的適用性[30-31]。本文在引入數(shù)字化文本標(biāo)注工具的基礎(chǔ)上,提出面向書畫著錄的事實抽取流程,包含實體標(biāo)注和本體建模兩個關(guān)鍵環(huán)節(jié),如圖3所示。

圖3 基于文本標(biāo)注的書畫著錄事實抽取流程

首先,遵循書畫著錄時空語義描述模型定義語義標(biāo)簽,并完成標(biāo)簽集構(gòu)建。語義標(biāo)簽主要來源于模型中的通用概念和抽象概念,由字段類型和標(biāo)簽名稱組合構(gòu)成,例如“G1.創(chuàng)作者”。其次,將書畫著錄中的語義實體與時空語義描述模型中的概念定義進(jìn)行匹配,并通過標(biāo)注工具將著錄文本轉(zhuǎn)換為對應(yīng)標(biāo)簽下的標(biāo)注實體。再次,面向標(biāo)注數(shù)據(jù)進(jìn)行書畫著錄本體建模,在復(fù)用已有術(shù)語詞表或標(biāo)準(zhǔn)規(guī)范的基礎(chǔ)上,依據(jù)時空語義描述模型對本體類和本體屬性進(jìn)行定義,并通過屬性約束實現(xiàn)標(biāo)注實體的概念界定和關(guān)系揭示。其中本體類、層次關(guān)系、屬性關(guān)系主要來源于時空語義描述模型中的通用概念和抽象概念,本體實例則主要來源于書畫著錄的標(biāo)注實體。在此基礎(chǔ)上,為了反映著錄文本的概念層次,在創(chuàng)建本體實例時中需復(fù)用RDFS詞表的rdfs:comment屬性,以存儲其概念層次注釋信息,例如“Thing.Content”“Person.Produce”等。

3.2 基于實體匹配的書畫著錄事實推理

書畫著錄事實推理是將標(biāo)注實體與各種互證數(shù)據(jù)源進(jìn)行對齊,再通過實體匹配揭示各型實體的時空屬性和語義關(guān)系,進(jìn)而建立時空關(guān)聯(lián)的過程。在數(shù)字人文實踐中,相關(guān)研究者主要通過面向特定領(lǐng)域的時空數(shù)據(jù)建模,以實現(xiàn)實體的時空屬性定義和時空關(guān)系揭示。而在書畫著錄領(lǐng)域,受制于書畫著錄的文種體裁特性和歷史文本的措辭用語特征,直接反映時空語義的實體關(guān)系往往相對稀疏,僅依賴時空數(shù)據(jù)建模難以有效揭示書畫著錄中人物、題跋、鑒藏印等非時空實體所隱含的潛在時空語義。因此,本文引入基于實體匹配的書畫著錄事實推理過程,如圖4所示。

圖4 基于實體匹配的書畫著錄事實推理流程

首先,依據(jù)書畫著錄標(biāo)注實體所屬維度與其他互證數(shù)據(jù)源進(jìn)行語義對齊。分別針對人物、事物、時間、空間維度選取歷史人物詞表、書畫名詞表、歷史紀(jì)年表、歷史地名表等作為互證數(shù)據(jù)源;通過標(biāo)注實體與互證資料的語義對齊實現(xiàn)概念消歧、缺省屬性補(bǔ)全和關(guān)系修正。其次,在事物類實體與人物類實體間進(jìn)行實體匹配,通過工具書查閱、數(shù)據(jù)庫檢索等途徑將題跋、鑒藏印等事物實體與書畫創(chuàng)作者、題跋者、鑒藏者等特定的人物實體建立關(guān)聯(lián),形成“事物→人物”的關(guān)聯(lián)關(guān)系,作為進(jìn)一步揭示其時空關(guān)聯(lián)的中介。再次,在非時空類實體與時空類實體間進(jìn)行實體匹配,其核心是以人物為線索,通過揭示歷史人物的籍貫、生卒年限、生平軌跡等時空信息以構(gòu)建“事物→人物→時空”的時空關(guān)聯(lián)鏈條。此外,在標(biāo)注實體與互證數(shù)據(jù)源的對齊、匹配過程中,需通過文獻(xiàn)考證和邏輯推斷將標(biāo)注實體與外部開放數(shù)據(jù)集或知識庫中的實體建立映射,通過引入外部實體以對書畫著錄時空關(guān)聯(lián)證據(jù)鏈進(jìn)行補(bǔ)全,同時提升證據(jù)鏈與外部數(shù)據(jù)網(wǎng)絡(luò)的互操作性。

3.3 基于圖數(shù)據(jù)庫的書畫著錄事實存儲

書畫著錄事實存儲是通過構(gòu)建語義知識庫對文獻(xiàn)循證的事實數(shù)據(jù)、互證數(shù)據(jù)和推理過程進(jìn)行表示和存儲并形成“事實證據(jù)鏈”的過程。在書畫著錄時空關(guān)聯(lián)構(gòu)建中,事實存儲不僅要實現(xiàn)對原始數(shù)據(jù)、互證數(shù)據(jù)的有序組織,還需對書畫著錄的文獻(xiàn)循證過程進(jìn)行描述和揭示,從而適應(yīng)知識利用過程中的多場景需求。圖數(shù)據(jù)庫是領(lǐng)域知識圖譜構(gòu)建的重要支撐技術(shù),與傳統(tǒng)關(guān)系型數(shù)據(jù)庫相比,圖數(shù)據(jù)庫通過相互連接的節(jié)點和邊實現(xiàn)知識表示,在存儲文獻(xiàn)循證數(shù)據(jù)、反映文獻(xiàn)循證過程時具有顯著優(yōu)勢。本文基于圖數(shù)據(jù)庫技術(shù)構(gòu)建書畫著錄文獻(xiàn)循證數(shù)據(jù)的事實存儲框架,如圖5所示。

圖5 基于圖數(shù)據(jù)庫的書畫著錄事實存儲框架

首先,定義圖數(shù)據(jù)庫模型G=〈Vi,Ei〉,其中Vi為圖數(shù)據(jù)庫的節(jié)點(vertex)集合,Ei為反映節(jié)間關(guān)系的邊(edge)集合。Vi=〈Li,Pi〉,其中Li即節(jié)點標(biāo)簽(label),用于表示節(jié)點的類型;Pi即屬性(property),用于表示一類節(jié)點所具有的性質(zhì)。Ei=〈Li,subject,object〉,其中Li表示邊所描述的關(guān)系類型,subject和object分別表示邊所連接的頭尾節(jié)點。其次,將文獻(xiàn)循證過程中生成的標(biāo)注實體(V1)、本體類(V2)、互證實體(V3)分別通過圖數(shù)據(jù)庫的節(jié)點(Vi)進(jìn)行表示,并利用節(jié)點標(biāo)簽(Li)對實體類型進(jìn)行區(qū)分。再次,將本體模型的層級關(guān)系(E1)、屬性關(guān)系(E2),語義對齊生成的實體互證映射(E3)以及“事物→人物→時空”的實體匹配記錄(E4,E5)作為圖數(shù)據(jù)庫的邊(Ei)進(jìn)行存儲。最后,通過定義圖數(shù)據(jù)庫的節(jié)點屬性(Pi),完成對概念層次注釋(P1)、復(fù)用術(shù)語標(biāo)準(zhǔn)(P2)、互證數(shù)據(jù)源(P3)以及互證實體URI(P4)等文本型數(shù)據(jù)的表示和存儲。

4 案例實驗:以《石渠寶笈》書畫著錄為例

《石渠寶笈·初編》(以下簡稱為石渠寶笈)是清代官修的內(nèi)府書畫集成,被視為中國古代書畫著錄的集大成者。該書共四十四卷,對清故宮收藏的書畫作品進(jìn)行了全面著錄,詳細(xì)記載了書畫作品的形制、題跋、款識等細(xì)節(jié),在書畫研究領(lǐng)域頗具史料價值。石渠寶笈原書體量巨大、領(lǐng)域背景復(fù)雜,本文以故宮博物院編著的工具書《故宮博物院藏石渠寶笈精粹》為依據(jù)[32],借鑒其作品收錄列表確定實驗數(shù)據(jù)采集范圍;并以殆知閣古代文獻(xiàn)數(shù)字化項目為數(shù)據(jù)源[33],對實驗所需著錄條目進(jìn)行查詢、獲取,形成總計9865字的原始語料。

4.1 《石渠寶笈》書畫著錄的事實抽取

(1)著錄文本的語義標(biāo)簽集構(gòu)建。本實驗依據(jù)書畫著錄時空語義描述模型分析石渠寶笈原始語料的內(nèi)容、文種結(jié)構(gòu),構(gòu)建如表3所示的語義標(biāo)簽集,并以《洛神賦圖卷》著錄為例對各標(biāo)簽定義進(jìn)行說明,表中“「」”內(nèi)為石渠寶笈的著錄原文片段,“【】”內(nèi)為語義標(biāo)簽所對應(yīng)的標(biāo)注對象。

表3 《石渠寶笈》書畫著錄語義標(biāo)簽集

(2)著錄文本的實體標(biāo)注。本實驗選取“碼庫斯(MARKUS)古籍標(biāo)注平臺[34]”進(jìn)行著錄文本的實體標(biāo)注,其界面如圖6所示。首先依據(jù)語義標(biāo)簽集定義,在MARKUS中對標(biāo)簽的顏色、格式、編碼進(jìn)行設(shè)置。其次利用MARKUS的實體關(guān)系標(biāo)注功能,對著錄文本中人物、事物、時空等實體關(guān)系進(jìn)行初步組織,為本體建模提供依據(jù)。再次將實體標(biāo)注數(shù)據(jù)以結(jié)構(gòu)化格式(CSV)導(dǎo)出,共包含492個標(biāo)注實體,其中人物類實體(G1字段)99個、事物類實體(G2字段)226個、時間類實體(G3字段)50個、空間類實體(G4字段)19個、抽象類實體(A字段)98個。

圖6 MARKUS文本標(biāo)注界面

(3)著錄文本的本體建模。本實驗以表3的語義標(biāo)簽集為基礎(chǔ),在復(fù)用已有術(shù)語詞表和標(biāo)準(zhǔn)規(guī)范的基礎(chǔ)上,構(gòu)建石渠寶笈著錄本體概念模型,如圖7所示。由圖7可知,該本體復(fù)用了FOAF、CIDOC-CRM、Dublin Core Terms、OWL-Time等術(shù)語標(biāo)準(zhǔn),使用“zhulu”前綴表示本體命名空間,通過定義子類關(guān)系以揭示各個本體類之間的概念層級,通過定義對象屬性以表示本體類之間的語義關(guān)系。對象屬性中,“hasRecord”用于表示著錄條目類與其他標(biāo)注實體之間的對應(yīng)關(guān)系,“EntityMatch_1”用于表示事物類實體和人物類實體之間的推理關(guān)系,“EntityMatch_2”用于表示人物類實體與時空實體間的推理關(guān)系。對于標(biāo)注數(shù)據(jù)中反映著錄文本概念層次的注釋信息,以及反映用紙、技法等抽象概念的標(biāo)注實體,則作為各個本體類的數(shù)據(jù)屬性以文本形式存儲。

圖7 《石渠寶笈》著錄本體概念模型

4.2 石渠寶笈標(biāo)注實體的事實推理

(1)標(biāo)注實體的語義對齊。本實驗分別從人物、事物、時間、空間維度選取標(biāo)注實體的互證資料來源,具體包括:中國歷代人物傳記資料庫(CBDB)[35]、中國歷史地理信息系統(tǒng)(CHGIS)[36]、浙江圖書館歷代印鑒數(shù)據(jù)庫[37]以及上海圖書館發(fā)布的歷史人名規(guī)范庫、中國歷史紀(jì)年表、地理名詞表[38]?;谏鲜龌プC數(shù)據(jù)源對492個標(biāo)注實體進(jìn)行語義對齊,引入外部互證實體128個,建立對齊關(guān)系134條。語義對齊過程如下:人物類實體分別通過歷史人名規(guī)范庫和CBDB資料庫進(jìn)行檢索,獲取對應(yīng)的互證實體和URI標(biāo)識,并實現(xiàn)同名消歧。事物類實體主要與歷代印鑒數(shù)據(jù)庫進(jìn)行對齊,通過印章釋文檢索鑒藏印主人身份和ID標(biāo)識。時間類實體按朝代、年號、干支等紀(jì)年方式分別計算其對應(yīng)的公元紀(jì)年,并在中國歷史紀(jì)年表中獲取對應(yīng)的互證實體和URI標(biāo)識??臻g類實體中,地名實體通過CHGIS TGAZ API檢索歷史地名[39],再通過地理名詞表獲取對應(yīng)的規(guī)范地名實體和URI標(biāo)識。場所實體在考證其所在地名稱后,參照地名實體進(jìn)行語義對齊。

(2)標(biāo)注實體的時空關(guān)聯(lián)構(gòu)建。本實驗遵循圖4所示的實體匹配流程,在從外部數(shù)據(jù)源中引入人物實體19個、時間實體62個、空間實體33個進(jìn)行補(bǔ)全的基礎(chǔ)上,建立“事物→人物”關(guān)聯(lián)143組,“人物→時間”關(guān)聯(lián)110組,“人物→空間”關(guān)聯(lián)100組。表4以《洛神賦圖卷》著錄中部分實體為例,闡述基于實體匹配的時空關(guān)聯(lián)構(gòu)建過程,其中“【 】”表示標(biāo)注實體,“[ ]”表示經(jīng)語義對齊或知識庫匹配引入的外部實體,“=>”表示語義對齊,“→”表示推理關(guān)系。在“事物→人物”匹配中,依據(jù)鑒藏印實體的印章主人ID在印鑒數(shù)據(jù)庫中檢索相關(guān)人物資料,并與人物實體進(jìn)行匹配,據(jù)此在事物實體和人物實體間建立推理關(guān)聯(lián)。在“人物→時空”匹配中,首先進(jìn)行基于上下文的實體匹配,將人物實體與著錄上下文中的時空實體建立關(guān)聯(lián);其次進(jìn)行基于人物數(shù)據(jù)庫的實體匹配,通過互證數(shù)據(jù)源獲取人物實體的生卒、籍貫等時空信息,以生卒年取均值作為關(guān)聯(lián)時間實體,以籍貫地名作為關(guān)聯(lián)空間實體。

表4 基于實體匹配的石渠寶笈時空關(guān)聯(lián)構(gòu)建

4.3 石渠寶笈時空關(guān)聯(lián)的事實存儲

(1)石渠寶笈文獻(xiàn)循證數(shù)據(jù)的存儲。本實驗基于Neo4j圖數(shù)據(jù)庫搭建石渠寶笈文獻(xiàn)循證數(shù)據(jù)的存儲環(huán)境,定義包含3類節(jié)點和7類節(jié)點關(guān)系的圖數(shù)據(jù)庫模型,如表5、表6所示。遵循該模型將石渠寶笈書畫著錄的文本標(biāo)注、本體建模、語義對齊、實體匹配數(shù)據(jù)分別導(dǎo)入圖數(shù)據(jù)庫管理系統(tǒng),構(gòu)建包含636個節(jié)點、1410條節(jié)點關(guān)系、1893項節(jié)點屬性的石渠寶笈時空關(guān)聯(lián)圖數(shù)據(jù)庫。

表5 圖數(shù)據(jù)庫的節(jié)點定義

表6 圖數(shù)據(jù)庫的節(jié)點關(guān)系定義

(2)石渠寶笈時空關(guān)聯(lián)的查詢與呈現(xiàn)。本實驗在構(gòu)建石渠寶笈時空關(guān)聯(lián)圖數(shù)據(jù)庫的基礎(chǔ)上,通過Cypher查詢工具進(jìn)行時空關(guān)聯(lián)的可視化呈現(xiàn)。圖8以《洛神賦圖卷》為例,通過Cypher語言構(gòu)建查詢式,輸出該作品的時空傳承概況,查詢式為:“match (m:AnnoEntity{Name:"洛神賦圖卷"})-[:hasRecord]->(n),(n)-[:sameAs]->(o),(o)-[:EntityMatch_2]->(x) with m,n,o,x match (p:AnnoEntity{Name:"洛神賦圖卷"})-[:hasRecord]->(q),(q)-[:EntityMatch_1]->(r),(r)-[:EntityMatch_2]->(y) return m,n,o,x,q,r,y”。由圖8可知,《洛神賦圖卷》時空關(guān)聯(lián)證據(jù)鏈?zhǔn)且詷?biāo)注實體“洛神賦圖卷”為核心的多層環(huán)狀結(jié)構(gòu),自內(nèi)向外分別是反映著錄文本的標(biāo)注實體層,通過“事物→人物”匹配(EntityMatch_1)形成的人物關(guān)聯(lián)層以及通過“人物→時空”匹配(EntityMatch_2)形成的時空關(guān)聯(lián)層。在圖數(shù)據(jù)庫框架下,證據(jù)鏈中的時空節(jié)點分別與公元紀(jì)年和現(xiàn)代規(guī)范地名進(jìn)行對齊,反映了特定書畫作品的歷史傳承軌跡;同時,人物、時間、空間節(jié)點均通過節(jié)點屬性建立了與CBDB或歷史人名規(guī)范庫、歷史紀(jì)年表、地理名詞表的URI映射,可通過訪問外部開放知識庫中對應(yīng)的互證實體獲取更多相關(guān)資料。

圖8 《洛神賦圖卷》時空關(guān)聯(lián)證據(jù)鏈圖譜

圖9是對圖數(shù)據(jù)庫中存儲的文獻(xiàn)循證記錄進(jìn)行遍歷查詢所生成的石渠寶笈時空關(guān)聯(lián)證據(jù)鏈圖譜,包含457個節(jié)點和438條節(jié)點關(guān)系,查詢式為:“match (m)-[:EntityMatch_1]->(n),(n)-[:EntityMatch_2]->(o) with m,n,o match (p)-[:sameAs]->(q),(q)-[:EntityMatch_2]->(x) return m,n,o,p,q,x”。圖9中,時空關(guān)聯(lián)證據(jù)鏈圖譜的各個節(jié)點形成了規(guī)模各異的多個團(tuán)簇(Cluster):其中規(guī)模最小的團(tuán)簇至少包含4個節(jié)點,并通過節(jié)點關(guān)系形成“事物→人物→時空”的基本證據(jù)鏈,例如“寄傲→項元汴→〈公元1557年,嘉興〉”;而虛線范圍中以“蘇州”為中心節(jié)點,以“公元1481年”“杭州”“愛新覺羅弘歷”等為中介節(jié)點的節(jié)點群落構(gòu)成了圖譜中規(guī)模最大的團(tuán)簇(包含212個節(jié)點)。由圖9可知,通過對書畫著錄時空關(guān)聯(lián)進(jìn)行可視化呈現(xiàn),能夠?qū)嬛浿幸灾洍l目為基本單位的知識結(jié)構(gòu)進(jìn)行重組與再現(xiàn),進(jìn)而直觀揭示書畫著錄中時間、空間及人物實體的多維度關(guān)聯(lián),為揭示古代書畫作品傳承軌跡提供了新的分析視角。

圖9 《石渠寶笈》時空關(guān)聯(lián)證據(jù)鏈圖譜

4.4 實驗結(jié)果分析與討論

上述實驗以石渠寶笈書畫著錄為案例,對基于文獻(xiàn)循證方法構(gòu)建書畫著錄時空關(guān)聯(lián)的有效性進(jìn)行檢驗。在數(shù)據(jù)獲取方面,實驗以石渠寶笈書畫研究領(lǐng)域的權(quán)威工具書為依據(jù),合理確定書畫著錄調(diào)研范圍,在書畫形制、創(chuàng)作年代、題跋鈐印、流傳地域等方面涵蓋了中國傳世書畫作品的基本分布特征,具有一定的典型性和代表性。實驗在完成石渠寶笈書畫著錄的事實抽取、推理和存儲基礎(chǔ)上,利用圖數(shù)據(jù)庫可視化工具輸出了石渠寶笈時空證據(jù)鏈圖譜,論證了以“事物→人物→時空”為基本單元的事實推理鏈條能夠滿足書畫著錄時空關(guān)聯(lián)證據(jù)鏈的構(gòu)建需求。

基于對實驗過程與結(jié)果的分析,現(xiàn)階段通過文獻(xiàn)循證方法構(gòu)建書畫著錄時空關(guān)聯(lián)仍面臨以下不利條件:首先,文獻(xiàn)循證過程中文本標(biāo)注、語義對齊的自動化程度有待進(jìn)一步提升。其次,需在圖數(shù)據(jù)庫框架下引入更加高效的數(shù)據(jù)查詢與分析技術(shù)。再次,需以更加直觀、易用的方式對書畫著錄時空關(guān)聯(lián)進(jìn)行可視化、交互式呈現(xiàn)。因此,在未來研究中,一方面需要引入人機(jī)結(jié)合的文本標(biāo)注與資料比對機(jī)制,以提升事實抽取與推理階段的效率;另一方面需將整體網(wǎng)分析、圖計算、GIS分析等方法引入時空關(guān)聯(lián)查詢和呈現(xiàn)過程,以豐富時空關(guān)聯(lián)揭示維度,提升隱性知識挖掘深度。

5 結(jié)語

本文重點研究了新技術(shù)條件下文獻(xiàn)循證方法在書畫著錄時空關(guān)聯(lián)構(gòu)建中的應(yīng)用模式。圍繞研究目標(biāo),首先研究書畫著錄的時空語義描述和概念分層注釋方法,提出面向書畫著錄的文獻(xiàn)循證與時空關(guān)聯(lián)構(gòu)建過程,在此基礎(chǔ)上以石渠寶笈書畫著錄為例開展案例實驗。實驗結(jié)果表明,本文提出的事實抽取、事實推理與事實存儲相結(jié)合的文獻(xiàn)循證過程模型能夠滿足書畫著錄時空關(guān)聯(lián)證據(jù)鏈的構(gòu)建需求,并支持在時空語義揭示的基礎(chǔ)上匹配多種書畫著錄知識利用場景。在未來研究中,還需進(jìn)一步提升文獻(xiàn)循證過程的自動化程度,在文本標(biāo)注、資料比對、圖譜查詢、時空可視化等環(huán)節(jié)不斷引入技術(shù)驅(qū)動、人機(jī)結(jié)合的數(shù)據(jù)處理機(jī)制,為書畫著錄時空關(guān)聯(lián)數(shù)據(jù)集的大規(guī)模自動構(gòu)建提供理論和實踐參照。

猜你喜歡
石渠寶著錄書畫
常用參考文獻(xiàn)著錄要求
常用參考文獻(xiàn)著錄要求
常用參考文獻(xiàn)著錄要求
《石渠寶笈》藏品專題
吉林省博物院藏《石渠寶笈》著錄書畫述略
《石渠寶笈初編》“附錄”完稿時間與成因考論
錄附:《石渠寶笈》著錄的圓明園舊藏書畫目錄
小小書畫廓
本刊參考文獻(xiàn)著錄要求
書畫
漾濞| 徐水县| 沐川县| 甘泉县| 开江县| 漳州市| 迁安市| 崇义县| 黎平县| 大港区| 泰宁县| 鹤山市| 揭阳市| 武功县| 新源县| 互助| 黑山县| 磐安县| 邢台县| 维西| 泾川县| 芦山县| 湖南省| 武夷山市| 利津县| 磴口县| 峨眉山市| 竹山县| 鸡泽县| 琼海市| 朔州市| 安化县| 高雄县| 芜湖市| 安龙县| 新平| 诸暨市| 松阳县| 靖西县| 中山市| 沛县|