摘? 要:提取明清兩代雄安縣志中物產(chǎn)節(jié)的諸要素,構(gòu)建作物領(lǐng)域本體,實現(xiàn)作物物產(chǎn)知識單元語義層面上的描述和組織,將結(jié)果以可視化、立體化的方式呈現(xiàn),展現(xiàn)其背后的地方歷史更迭與文化傳承。以明《嘉靖雄乘》及清《雄縣鄉(xiāng)土志》為檔案素材,以protege為工具,基于本體理論利用技術(shù)構(gòu)建作物物產(chǎn)類本體,實現(xiàn)對縣志檔案作物資源的動態(tài)可視化展示。以作物物產(chǎn)為例證明本體能夠很好地對方志檔案中的資源進行數(shù)字化組織與可視化展示,并能挖掘方志檔案中蘊含的豐富史料,考察其所表現(xiàn)出的不同特征及變遷情況,為我國傳統(tǒng)方志檔案資源的相關(guān)研究提供方法論層次的啟發(fā)與思考,具有一定的實踐意義。
關(guān)鍵詞:方志檔案;數(shù)字人文;本體;可視化
中圖分類號:TP39? ? ? ? ?文獻標(biāo)識碼:A文章編號:2096-4706(2022)06-0122-03
Research on the Digital Organization and Construction of Chronicle Archive Resources from the Perspective of Digital Humanities
—Take Crop Materials as an Example
REN Changqing
(School of Management, Hebei University, Baoding? 071002, China)
Abstract: Extract the elements of the material festival in the annals of Xiongan County in the Ming and Qing Dynasties, construct the crop domain ontology, realize the description and organization of the semantic level of the crop material knowledge unit, present the results in a visual and three-dimensional way, and show the local historical change and cultural inheritance behind it. Taking Jiajing Xiongcheng in Ming Dynasty and Xiongxian Local Chronicles in Qing Dynasty as archival materials, protege as a tool, based on ontology theory and technology, this paper constructs crop material ontology to realize the dynamic visual display of crop resources in County chronicles archives. Taking crop materials as an example, it is proved that ontology can well digitally organize and visually display the resources in local chronicle archives, excavate the rich historical materials contained in local chronicle archives, investigate their different characteristics and changes, and provide methodological enlightenment and thinking for the relevant research of traditional local chronicle archives resources in China, which has a certain practical significance.
Keywords: local chronicle archive; digital humanities; ontology; visualization
0? 引? 言
信息資源的語義化,已成為當(dāng)前互聯(lián)網(wǎng)發(fā)展的一個重要趨勢。語義網(wǎng)日漸成為互聯(lián)網(wǎng)發(fā)展的新方向與研究熱點,旨在解決互聯(lián)網(wǎng)松散的異構(gòu)數(shù)據(jù)問題,從而使互聯(lián)網(wǎng)上的信息能夠為機器所理解,實現(xiàn)人與機器的交互操作[1]。正是在這一背景下,作為語義網(wǎng)框架中重要組成部分的本體,越來越受到關(guān)注。本體對概念及概念之間的關(guān)系進行嚴(yán)格的定義,從而確定概念的訪問和搜索,能夠很好地解決互聯(lián)網(wǎng)信息復(fù)雜的語義關(guān)系[2]。目前,本體在各領(lǐng)域已有廣泛的應(yīng)用,但卻鮮有作者將本體技術(shù)引入傳統(tǒng)方志檔案資源的研究中。姜贏等將本體引入家譜研究,建立了基于本體的家譜知識圖譜模型,實現(xiàn)了關(guān)于家譜的常見檢索功能[3]。司莉等探究了多語言本體的構(gòu)建流程,分析了多語言本體的映射方法,基于語義編碼的多語言本體映射構(gòu)建多語言本體,并選取了珞珈山植物為特定領(lǐng)域進行研究,驗證了本體在語義研究中的可行性與前景[4]。劉乾凝以都市農(nóng)業(yè)作為資料來源,建立了北京地區(qū)面向數(shù)字人文的都市農(nóng)業(yè)資源本體體系,從而為都市農(nóng)業(yè)文化知識的組織、傳承、保護和共享提供了可能[5]??v觀上述研究可以發(fā)現(xiàn),雖然他們都將本體技術(shù)引入數(shù)字人文的研究中,并取得了一定的成果,然而以方志檔案為語料來源,建立相應(yīng)的本體,對我國傳統(tǒng)文化寶庫中具有獨特史料價值的方志檔案資源進行深度挖掘的研究還相對較少,僅有的一些研究包括知識庫構(gòu)建、地名自動識別模型構(gòu)建[6]、物產(chǎn)名與別名的可視化[7]等方面,相關(guān)領(lǐng)域尚有待進一步探索。5A8DB4EB-735A-4A72-BE36-985E6BA3DD25
本研究正是在此大背景下,以雄安方志檔案為語料,以作物物產(chǎn)節(jié)為研究對象,采用本體的理論與方法,基于現(xiàn)有成熟的本體構(gòu)建規(guī)范,研究構(gòu)建了一個開放的、語義表達良好的作物物產(chǎn)領(lǐng)域本體,在本體的基礎(chǔ)上予以可視化展示,將傳統(tǒng)紙質(zhì)平面資源轉(zhuǎn)化為立體化、多維化的數(shù)字資源,并提供一定的查詢檢索功能,以便進一步比較明清兩代作物物產(chǎn)的基本信息、分布區(qū)域以及它們在習(xí)性、資源類型上的差異,探究其背后的成因,為方志檔案資源的數(shù)字化整理與挖掘提供了新的思路。
1? 方志及特征分析
2017年4月1日,中共中央決定在河北設(shè)置雄安新區(qū),這是促進國家整體發(fā)展的重要戰(zhàn)略選擇,是國家的千年大計[8]。雄安新區(qū)的設(shè)置預(yù)示了我國區(qū)域發(fā)展戰(zhàn)略的新方向,并對我國未來社會的經(jīng)濟發(fā)展具有重要的指導(dǎo)意義。雄安新區(qū)地處燕趙腹地,歷史悠久,有著豐富的文化底蘊,對其背后的歷史資源進行深入挖掘,必然會對新區(qū)建設(shè)規(guī)劃等諸多方面大有裨益??h志檔案作為歷史資料,具有原始性與真實性,通過對其進行開發(fā)利用,有助于把握那一歷史時期的時代脈搏。筆者所獲得的雄安縣志包括明《嘉靖雄乘》與清《雄縣鄉(xiāng)土志》兩個底本內(nèi)容?!都尉感鄢恕肥切劭h歷史上的第一部縣志,始撰于嘉靖十一年(1532),歷經(jīng)3個月,始粗成,該志分上下兩卷,設(shè)十綱,六十五目,此志對雄安方志史的流傳有著深遠的影響,涵蓋風(fēng)土、田賦、山河、物產(chǎn)、禮制、選舉等內(nèi)容?!缎劭h鄉(xiāng)土志》是劉崇本在光緒三十一年(1905)編修的一部雄縣方志??h志歷時半年,初具規(guī)模,共有十五綱,綱下沒有明確的細目,多依年代排列,把許多以前志書的內(nèi)容摻雜在了一起,整體上顯得更為豐富。其內(nèi)容涵蓋歷史、地理、道路、戶口、宗教、物產(chǎn)等方面的詳細說明。二書可說互為表里,可互相比較參閱,利用這些極具地方特色的史料開展研究,具有極強的個案研究價值。雄安縣志中的物產(chǎn)一節(jié),內(nèi)容包括作物、動物、貨物三大類別,以物產(chǎn)的品種資源與屬性描述為主,對農(nóng)業(yè)史和區(qū)域史的研究亦有很高的價值。本研究正是選取該志中的作物物產(chǎn)一節(jié),從中抽取所需數(shù)據(jù),進行本體構(gòu)建,為比較明清兩代雄安地區(qū)作物屬性上存在的差異提供了可能,有助于還原、再現(xiàn)該地區(qū)當(dāng)年的歷史面貌。
雄安縣志本為繁體字體的無序文本,因而本文對其進行數(shù)字化后的首要工作便是化繁為簡,并對通篇文本進行格式化處理。經(jīng)過數(shù)據(jù)預(yù)處理,可以發(fā)現(xiàn)雄安縣志對于作物物產(chǎn)一節(jié)的行文描述是相對規(guī)律且結(jié)構(gòu)化的,其將作物進行分段處理,即對每一個作物物產(chǎn)實體的信息描述單獨占一段,內(nèi)容基本由作物名稱和屬性信息兩部分構(gòu)成。前者為縣志官方記載的該作物的正稱,后者則是對該物產(chǎn)別名、生長環(huán)境、用途等的詳細說明。此處以白菜為例,具體的行文結(jié)構(gòu)及段落格式為:
“白菜,古謂葵,晉以來謂之菘。“秋末晚菘”,即白菜也。味淡而美,消食下氣,止熱避瘴。最宜合姜食,以姜能制其冷氣也。其花受蔓菁之花粉,則變?yōu)椤凹砂撞恕?,纖維多而味減,如粱之有稂、谷之有莠、稻之有稗也。白菜美在葉,蔓菁美在根,與芥及蕓苔皆十字科也?!?/p>
2? 作物物產(chǎn)領(lǐng)域本體的構(gòu)建與實現(xiàn)
建立作物本體,首先要構(gòu)建好作物領(lǐng)域的知識組織體系,主要由兩方面的內(nèi)容構(gòu)成,分別為作物物產(chǎn)概念體系的構(gòu)建以及作物物產(chǎn)概念間關(guān)系的建立。
2.1? 作物物產(chǎn)的概念體系構(gòu)建
通過深入分析雄安兩本縣志中對作物描述的文本特點,以及調(diào)查研究國內(nèi)外已有的成熟作物領(lǐng)域本體,本文將作物物產(chǎn)領(lǐng)域類劃分為五個部分,具體如表1所示。
2.2? 作物物產(chǎn)本體概念間關(guān)系的建立
本體的概念間關(guān)系,指的是實體間和實體內(nèi)的屬性。據(jù)此,本體中的屬性可分為兩種類型:一種是對象屬性,用來描述實體與實體之間的關(guān)系,也是連接兩個實體的紐帶;另一種是數(shù)據(jù)屬性,用來描述實體與其基本數(shù)據(jù)類型之間的關(guān)系。本文構(gòu)建的作物物產(chǎn)本體主要包括8種對象屬性(如“有習(xí)性”“分布區(qū)域”)和7種數(shù)據(jù)屬性(如“種類”“顏色”)。用OWL語句表達如表2所示,數(shù)據(jù)屬性如表3所示。本體構(gòu)建過程中涉及的部分代碼為:
// Data properties
//
-->
<!-- http://www.semanticweb.org/原文描述 -->
<!-- http://www.semanticweb.org/記載朝代 -->
<!-- http://www.semanticweb.org/once/ontologies/2021/1/untitled-ontology-9/葉 -->
<!-- http://www.semanticweb.org/once/ontologies/2021/1/untitled-ontology-9/名稱 -->5A8DB4EB-735A-4A72-BE36-985E6BA3DD25
<!-- http://www.semanticweb.org/once/ontologies/2021/1/untitled-ontology-9/味道 -->
3? 作物物產(chǎn)本體的可視化呈現(xiàn)
本文選擇記載于明《嘉靖雄乘》棕櫚科蒲葵屬下的菰蔣作為可視化實例。通過明清兩代作物物產(chǎn)在諸多特征上的對比,由小見大,把握屬于那個年代的歷史脈搏,發(fā)現(xiàn)變遷規(guī)律,再現(xiàn)當(dāng)年的風(fēng)土及物產(chǎn)盛況。
其中,《嘉靖雄乘》對菰蔣的描述為”菰蔣,似蒲,葉肥大而松。莖深綠色,可飼馬。葉可編席鋪屋頂,又可為扇及包,以包果餌,俗呼蒲扇、蒲包,實非蒲也...”。由此可知,“菰蔣”是棕櫚科蒲葵屬下的實例,其記載年代為明代,與“蔬類”下的“銀條菜”同屬相同的類群,根據(jù)它的用途可知,其屬于“工業(yè)用作物資源、牧草及飼用作物資源”,具有“喜溫、不耐干旱”等習(xí)性,將其實例可視化后的效果,如圖1所示。
4? 結(jié)? 論
實踐證明,采用本體及知識圖譜的方式對傳統(tǒng)方志檔案進行數(shù)字化組織與建設(shè)的研究具有重要價值,能夠為傳統(tǒng)地方志的數(shù)字化、數(shù)據(jù)化、智能化奠定基礎(chǔ),促進更深層次和更高級別的知識發(fā)現(xiàn)。在未來的研究中,可以引入更多的信息作為補充信息源,采用更多的關(guān)系來豐富實體之間的語義聯(lián)系,利用深度學(xué)習(xí)及自然語言處理的技術(shù)實現(xiàn)對知識單元的自動化抽取,促進方志檔案資源的數(shù)字化深度開發(fā)與全面利用,突出研究成果的實際應(yīng)用意義。
參考文獻:
[1] 張元好,曾珍香.城市信息化文獻綜述——從信息港、數(shù)字城市到智慧城市 [J].情報科學(xué),2015,33(6):131-137.
[2] 臧根林,王亞強,吳慶蓉,等.智慧城市知識圖譜模型與本體構(gòu)建方法 [J].大數(shù)據(jù),2020,6(2):96-106.
[3] 姜贏,張婧,朱玲萱.基于本體的家譜知識圖譜模型及檢索系統(tǒng) [J].電子設(shè)計工程,2017,25(12):161-165.
[4] 司莉,辛娟娟.多語言領(lǐng)域本體構(gòu)建研究——以珞珈山植物本體為例 [J].圖書館論壇,2016,36(2):22-26.
[5] 劉乾凝.面向數(shù)字人文的都市農(nóng)業(yè)本體的構(gòu)建 [J].圖書館雜志,2019,38(8):53-58.
[6] 朱鎖玲,包平.方志類古籍地名識別及系統(tǒng)構(gòu)建 [J].中國圖書館學(xué)報,2011,37(3):118-124.
[7] 李娜,包平.方志類古籍中物產(chǎn)名與別名關(guān)系的可視化——基于社會網(wǎng)絡(luò)分析技術(shù)視角 [J].圖書館論壇,2017,37(12):108-114.
[8] 中國雄安網(wǎng).河北雄安新區(qū)規(guī)劃綱要 [EB/OL].[2022-02-02].http://www. Xiongan.gov.cn/2018-04/21/c_129855813.htm.
作者簡介:任常青(1998—),男,漢族,山東濟寧人,碩士研究生在讀,研究方向:數(shù)字人文、知識圖譜。5A8DB4EB-735A-4A72-BE36-985E6BA3DD25