国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

銅鼓資源組織中的史料文獻(xiàn)細(xì)粒度知識(shí)元研究

2024-07-11 08:08:04覃熙
四川圖書館學(xué)報(bào) 2024年4期
關(guān)鍵詞:細(xì)粒度銅鼓史料

本文系廣西民族文化保護(hù)與傳承研究中心開放課題“數(shù)字人文背景下的銅鼓數(shù)字資源組織構(gòu)建研究”(2021KFYB01)研究成果之一。

收稿日期:2024-03-20

摘? 要:

銅鼓作為古代文化遺產(chǎn)的重要組成部分,其資源的語(yǔ)義表達(dá)形式需要向知識(shí)細(xì)粒度化、知識(shí)集成、知識(shí)可視化方向拓展,并充分利用強(qiáng)大的文獻(xiàn)資源作為其知識(shí)體系的重要支撐。本研究以銅鼓史料文獻(xiàn)為研究對(duì)象,利用知識(shí)元提取和可視化圖譜技術(shù),探索表層視覺元素與內(nèi)在知識(shí)的關(guān)聯(lián)、銅鼓文獻(xiàn)知識(shí)元組織模型的構(gòu)建,以及時(shí)空屬性向量可視化等問題,提出數(shù)據(jù)融合的銅鼓知識(shí)平臺(tái)應(yīng)由至少4個(gè)基礎(chǔ)數(shù)據(jù)庫(kù)組合而成,并展望其下一步探索路徑。

關(guān)鍵詞:

銅鼓;知識(shí)元;細(xì)粒度;時(shí)空向量;數(shù)據(jù)融合

中圖分類號(hào):G250.7??? 文獻(xiàn)標(biāo)識(shí)碼:A??? 文章編號(hào):1003-7136(2024)04-0023-09

Research on the Fine-grained Knowledge Elements of Historical Documents in the Organizing of Timbal Resources

QIN Xi

Abstract:

Timbal, as an important component of ancient cultural heritage, needs to expand its semantic expression into knowledge fine-grained, knowledge integration and knowledge visualization, and fully utilize the powerful document resources to support its knowledge hierarchy.This paper takes the historical documents of timbal as the research object, uses technologies of knowledge element extraction and visualized map, and explores the correlation between surface visual elements and internal knowledge, the construction of knowledge element organization model of timbal documents, and the visualization of vectors with spatio-temporal attributes.It is proposed that the timbal knowledge platform of data fusion should consist of four fundamental databases at least, and prospecting its next pathway of exploration.

Keywords:

timbal; knowledge element; fine-grained; spatio-temporal vector; data fusion

0? 引言

銅鼓是我國(guó)古代西南地區(qū)具有少數(shù)民族代表性的歷史遺物,也是我國(guó)古代文化遺產(chǎn)的重要組成部分,為少數(shù)民族文化研究提供重要的信息價(jià)值。銅鼓資源組織建設(shè)目前常見的形式是以銅鼓類型、代表性實(shí)物圖片、實(shí)物屬性、現(xiàn)代研究文獻(xiàn)為數(shù)據(jù)元的數(shù)據(jù)庫(kù)為主?!白屛奈锘钇饋?lái)”,并不是簡(jiǎn)單地在器物展示上由平面變立體、靜態(tài)變動(dòng)態(tài),其背后應(yīng)該有一個(gè)知識(shí)體系[1]。作為考古和歷史研究的對(duì)象,銅鼓的史料文獻(xiàn)應(yīng)作為參考文獻(xiàn)及研究對(duì)象進(jìn)入資源組織建設(shè)范疇,但由于其具備古籍特殊的語(yǔ)法結(jié)構(gòu)和語(yǔ)言特點(diǎn)、特定的時(shí)間空間屬性、人物及事件屬性等方面的處理特征,現(xiàn)代文獻(xiàn)的知識(shí)元提取技術(shù)很難直接運(yùn)用于史料研究,銅鼓資源組織將古文獻(xiàn)納入建設(shè)體系就顯得尤為困難。

隨著可視化技術(shù)在資源揭示與挖掘方面的廣泛運(yùn)用,學(xué)者和大眾對(duì)銅鼓資源的需求向知識(shí)細(xì)粒度化、知識(shí)集成、知識(shí)可視化方向拓展,對(duì)史料文獻(xiàn)的需求表現(xiàn)為更豐富的語(yǔ)義描述與知識(shí)關(guān)聯(lián)。他們關(guān)注的不僅是銅鼓本身的特征和屬性,還強(qiáng)調(diào)圍繞文物資源的領(lǐng)域背景知識(shí)展開,關(guān)注與其相關(guān)的空間、地理、事件、人物等信息以及隨著時(shí)間變化的發(fā)展規(guī)律[2]。因此,建立合理的時(shí)空數(shù)據(jù)可視化的史料文獻(xiàn)細(xì)粒度知識(shí)組織模型,提供數(shù)字信息閱讀方案,是推動(dòng)銅鼓研究和知識(shí)管理的有效路徑。

1? 相關(guān)研究

1.1? 銅鼓信息資源相關(guān)研究

銅鼓資源建設(shè)方面,廣西民族博物館構(gòu)建了目前最齊全的銅鼓數(shù)據(jù)庫(kù)[3],以圖片和文字為知識(shí)元作儲(chǔ)存和展示,以關(guān)鍵詞方法對(duì)器物進(jìn)行描述。為了構(gòu)建世界上最完備的銅鼓專業(yè)數(shù)據(jù)平臺(tái),廣西民族博物館還對(duì)館藏銅鼓進(jìn)行數(shù)據(jù)采集和數(shù)字化保護(hù),獲取高精度幾何信息、紋理信息、色彩信息,實(shí)現(xiàn)文物本體客觀、完整的信息數(shù)字化存檔,并制作銅鼓高精度三維模型、高精度影像、線劃圖、展開圖等。

在信息組織方面,單獨(dú)面向銅鼓的知識(shí)組織體系相對(duì)缺乏,但文物知識(shí)組織方法是相通的。學(xué)者們研究構(gòu)建不同類型的館藏文物知識(shí)體系,主要從文物作為知識(shí)本體方面展開。如從中、細(xì)粒度層面設(shè)計(jì)文物知識(shí)組織方法,對(duì)“后母戊”青銅方鼎進(jìn)行實(shí)例研究[4];針對(duì)文物圖像資源建立基于知識(shí)元構(gòu)造的細(xì)粒度知識(shí)表示模型[5],以及基于關(guān)聯(lián)數(shù)據(jù)的文物資源知識(shí)關(guān)聯(lián)模型[6];對(duì)比不同元數(shù)據(jù)架構(gòu)的特征,選擇出最佳的架構(gòu)方式,并提出文物信息資源元數(shù)據(jù)應(yīng)用策略[7];結(jié)合國(guó)際上數(shù)字博物館領(lǐng)域成熟的元數(shù)據(jù),對(duì)“文物館藏信息指標(biāo)體系規(guī)范”進(jìn)行修改完善[8]。在國(guó)外,斯里蘭卡4個(gè)博物館2600多個(gè)資源記錄,通過(guò)映射到蓋蒂《藝術(shù)與建筑敘詞表》(AAT),實(shí)現(xiàn)了博物館詞匯之間的資源元數(shù)據(jù)交叉描述[9]。

1.2? 史料文獻(xiàn)細(xì)粒度知識(shí)元相關(guān)研究

數(shù)字人文作為人文學(xué)科的一種研究新范式正在古籍研究領(lǐng)域蓬勃發(fā)展,由此催生出的文本遠(yuǎn)讀、統(tǒng)計(jì)、分析等數(shù)字人文工具也層出不窮。史料的文本標(biāo)注方法上,有基于古籍半自動(dòng)標(biāo)記平臺(tái)MARKUS的文本標(biāo)注模型[10];文本分類摘要方面有SikuBERT和SikuRoBERTa預(yù)訓(xùn)練模型[11-12]。

古籍文獻(xiàn)的標(biāo)引和知識(shí)元提取在中醫(yī)研究領(lǐng)域的運(yùn)用相對(duì)廣泛,有學(xué)者基于病名、病因、辨證、療法、方劑、預(yù)后等30多個(gè)知識(shí)元進(jìn)行標(biāo)引,為中醫(yī)知識(shí)可視化提供了大量的史料基礎(chǔ)[13],多數(shù)采用元數(shù)據(jù)或是本體方法[14]。史料元數(shù)據(jù)知識(shí)組織的研究主要集中在三個(gè)方面:提取時(shí)空數(shù)據(jù)和特定屬性數(shù)據(jù)、建設(shè)開放性的時(shí)間詞表和地名詞表及其轉(zhuǎn)換工具、設(shè)計(jì)時(shí)空數(shù)據(jù)模型[15]。

2024年第4期總第260期

覃熙:銅鼓資源組織中的史料文獻(xiàn)細(xì)粒度知識(shí)元研究

從史料中提取出描述知識(shí)的元數(shù)據(jù)之后,我們發(fā)現(xiàn)仍然難以描述知識(shí)之間的復(fù)雜關(guān)系。知識(shí)本體可以描述信息之間的概念關(guān)系,但無(wú)法建立知識(shí)與資源實(shí)體間的關(guān)聯(lián),并且大多數(shù)研究仍在理論階段,尚未運(yùn)用于實(shí)際的知識(shí)服務(wù)。

1.3? 數(shù)據(jù)融合的知識(shí)組織相關(guān)研究

知識(shí)組織強(qiáng)調(diào)大規(guī)模、多種類、跨學(xué)科、粒度不一、結(jié)構(gòu)不同的知識(shí)互支持、互操作,強(qiáng)調(diào)知識(shí)建模和表示方式的統(tǒng)一。以用戶需求為導(dǎo)向,數(shù)字圖書館多粒度集成知識(shí)服務(wù)模式已展開,基于顯性、隱性知識(shí)鏈接的多粒度知識(shí)集合集成方法,通過(guò)知識(shí)元抽取、標(biāo)引和鏈接的方法,滿足用戶的知識(shí)需求,構(gòu)建“需求—知識(shí)—資源”映射[16]。數(shù)據(jù)標(biāo)準(zhǔn)方面,國(guó)際文獻(xiàn)工作委員會(huì)(CIDOC)開發(fā)的基于本體的數(shù)據(jù)模型CIDOC CRM成為國(guó)際標(biāo)準(zhǔn)化組織(ISO)的推薦標(biāo)準(zhǔn)[17],它提供了一個(gè)通用并且可以擴(kuò)展的語(yǔ)義框架,適用于任何文化遺產(chǎn)的信息描述,并定義了各類實(shí)體、屬性,形成通用的屬性詞表[18]。國(guó)際圖聯(lián)發(fā)布的業(yè)內(nèi)標(biāo)準(zhǔn)《圖書館參考模型》,是一個(gè)元數(shù)據(jù)高層框架,集合了書目記錄功能需求模型FRBR、規(guī)范數(shù)據(jù)功能需求模型FRAD、主題規(guī)范數(shù)據(jù)功能需求模型FRSAD,旨在應(yīng)用關(guān)聯(lián)數(shù)據(jù)環(huán)境[19]。知識(shí)組織方面,本體匹配技術(shù)被廣泛運(yùn)用,通過(guò)融合規(guī)則與算法得到新知識(shí)的關(guān)聯(lián)數(shù)據(jù)知識(shí)融合模型[20]。美術(shù)館、圖書館、檔案館、博物館等文化記憶機(jī)構(gòu)(以下簡(jiǎn)稱:GLAM)領(lǐng)域都經(jīng)歷了知識(shí)組織方法發(fā)展的三個(gè)階段:分類主題法、元數(shù)據(jù)方法、本體方法[21]。概念與規(guī)則方面,趙蓉英等論述了館藏資源聚合的四個(gè)層次:實(shí)體文獻(xiàn)整理、數(shù)據(jù)集成、信息整合和知識(shí)聚合[22]。李亞婷對(duì)知識(shí)聚合、融合、整合作了概念辨析,并將不同粒度的聚合對(duì)象(文獻(xiàn)、數(shù)據(jù)、信息、知識(shí)本體)囊括為知識(shí)聚合[23]。

綜合以上現(xiàn)狀,現(xiàn)有的銅鼓資源平臺(tái)構(gòu)建方式普遍采用空間表述的策略,側(cè)重于資源表層視覺特征的知識(shí)表示,缺少資源內(nèi)部特征的語(yǔ)義描述,以及銅鼓研究背后整個(gè)知識(shí)體系的深度結(jié)合;細(xì)粒度知識(shí)元提取以及數(shù)據(jù)融合的知識(shí)組織研究雖已有理論體系,但未能進(jìn)入到具體的銅鼓資源建設(shè)實(shí)戰(zhàn)中。因此,有必要解決表層視覺元素與內(nèi)在知識(shí)體系之間的“語(yǔ)義鴻溝”現(xiàn)象,通過(guò)在史料文獻(xiàn)與銅鼓實(shí)物之間建立一致性的細(xì)粒度數(shù)據(jù)融合,實(shí)現(xiàn)表層視覺特征與知識(shí)體系的有效關(guān)聯(lián)和映射,為銅鼓資源引入具有知識(shí)背景的時(shí)空結(jié)合的表述策略,從而進(jìn)一步完善銅鼓資源組織的建設(shè)。

2? 基于文獻(xiàn)細(xì)粒度知識(shí)元的銅鼓資源組織表示過(guò)程

2.1? 銅鼓文獻(xiàn)數(shù)據(jù)源及知識(shí)組織模型

關(guān)于少數(shù)民族鑄造和使用銅鼓的文獻(xiàn)記載,自漢以來(lái),史不絕書[24]。曾任廣西壯族自治區(qū)博物館館長(zhǎng)、中國(guó)古代銅鼓研究會(huì)理事長(zhǎng)的蔣廷瑜先生編著了《廣西銅鼓文獻(xiàn)匯編及銅鼓聞見記》[25]、《古代銅鼓通論》[26]兩部著作。前者搜集了自漢代以來(lái)的廣西銅鼓文獻(xiàn),分為綜合文獻(xiàn)輯錄、地方志輯錄、銅鼓專論輯錄、銅鼓詩(shī)詞;后者包含了銅鼓的記載、收藏、起源、分布、類型、年代、族屬、用途、鑄造工藝、裝飾工藝及其反映的音樂、舞蹈等內(nèi)容,囊括了銅鼓研究的各方面知識(shí),是非常齊全的銅鼓史料文獻(xiàn),也是銅鼓資源平臺(tái)組織中應(yīng)當(dāng)包含的隱性知識(shí)體系,可為銅鼓文化知識(shí)組織提供重要支撐。本研究以此兩部書為研究對(duì)象,并采用文獻(xiàn)細(xì)粒度標(biāo)引平臺(tái)作為框架工具,基于數(shù)據(jù)標(biāo)引聚合結(jié)構(gòu)化拆分方法進(jìn)行知識(shí)元組織,從語(yǔ)料庫(kù)中抽取建模元數(shù)據(jù),并緊密適配“數(shù)據(jù)倉(cāng)儲(chǔ)”模塊,通過(guò)知識(shí)圖譜推理、語(yǔ)義搜索核心技術(shù),實(shí)現(xiàn)在自主學(xué)習(xí)、智能文本信息讀取、知識(shí)圖譜、文本摘要、內(nèi)容生成等場(chǎng)景上的應(yīng)用,提供一種新的信息檢索模式。

銅鼓文獻(xiàn)知識(shí)組織模型是其資源平臺(tái)構(gòu)建的邏輯基礎(chǔ),體現(xiàn)從數(shù)據(jù)源中提取知識(shí)元并建設(shè)成數(shù)據(jù)庫(kù)的過(guò)程,包括概念定義、技術(shù)手段和組織方式等,如圖1所示。首先,確定數(shù)據(jù)源,即史料文獻(xiàn)與文物實(shí)體,兩者之間存在表層視覺元素與內(nèi)在知識(shí)體系的初步關(guān)聯(lián)。其次,針對(duì)史料文獻(xiàn)的文本知識(shí)特征和實(shí)物表層元素屬性等特征分別選取適合的知識(shí)元抽取方法,完成實(shí)體抽取和屬性關(guān)聯(lián),并通過(guò)模型訓(xùn)練實(shí)現(xiàn)知識(shí)推理、知識(shí)關(guān)聯(lián),建立銅鼓實(shí)物的表層視覺元素與內(nèi)在知識(shí)體系的一致性和細(xì)粒度的元描述。然后,在知識(shí)表示層的基礎(chǔ)上通過(guò)關(guān)系抽取和知識(shí)融合,實(shí)現(xiàn)多種實(shí)體匹配,聯(lián)系知識(shí)元與命名實(shí)體之間的語(yǔ)義映射,實(shí)現(xiàn)實(shí)體統(tǒng)一、實(shí)體消歧、指代消解。最后在知識(shí)推理和本體抽取的基礎(chǔ)上,對(duì)實(shí)體匹配層的數(shù)據(jù)進(jìn)行質(zhì)量評(píng)估。最終,銅鼓文獻(xiàn)和相關(guān)實(shí)物的知識(shí)以細(xì)粒度形態(tài)提供給用戶檢索,以知識(shí)圖譜的形式組織和發(fā)布。

2.2? 文獻(xiàn)知識(shí)元細(xì)粒度化及提取

2.2.1? 知識(shí)細(xì)粒度化及其運(yùn)用優(yōu)勢(shì)

文獻(xiàn)知識(shí)細(xì)粒度化是對(duì)學(xué)術(shù)文獻(xiàn)內(nèi)容的深入解析,將文獻(xiàn)中的復(fù)合信息拆解為基本的、離散的且具有明確意義的知識(shí)單元,包括但不限于數(shù)據(jù)、概念、人名、地名、術(shù)語(yǔ)等,它們共同構(gòu)成了知識(shí)的微觀基礎(chǔ),為知識(shí)聚合研究提供更多視角。聚合粒度越小,知識(shí)單元語(yǔ)義越豐富,因此,作為不能進(jìn)一步細(xì)化、分割的最小的知識(shí)單元,細(xì)粒度知識(shí)元被廣泛運(yùn)用于GLAM領(lǐng)域,并呈現(xiàn)出兩大優(yōu)勢(shì):①知識(shí)元以足夠細(xì)微的描述粒度,與表層視覺元素構(gòu)建相對(duì)吻合的描述關(guān)系;②知識(shí)元能夠?qū)崿F(xiàn)知識(shí)本體內(nèi)部與外部復(fù)雜語(yǔ)義的組配、關(guān)聯(lián)和聚合。細(xì)粒度知識(shí)元能夠在知識(shí)本體的表層視覺特征與內(nèi)在知識(shí)體系之間建立多維度、精細(xì)、動(dòng)態(tài)的關(guān)聯(lián),減少知識(shí)表示中的“語(yǔ)義鴻溝”現(xiàn)象[5]。

2.2.2? 銅鼓文獻(xiàn)細(xì)粒度知識(shí)元提取過(guò)程

分詞和標(biāo)注。數(shù)字資源精細(xì)化標(biāo)引一般以文獻(xiàn)結(jié)構(gòu)的最小單元為加工單位,首先開展文獻(xiàn)信息著錄,進(jìn)而進(jìn)行知識(shí)內(nèi)容標(biāo)引。針對(duì)史料資源,應(yīng)將書衣、封面(內(nèi)封)、牌記、序、凡例、目錄、正文卷目、插圖、跋、簽條、夾紙、???、附錄、封底等每個(gè)獨(dú)立結(jié)構(gòu)作為著錄單元,將文獻(xiàn)中的人物、機(jī)構(gòu)、地理名稱、事件或其他具有標(biāo)目意義的關(guān)鍵詞作為標(biāo)引單元。這些都是銅鼓文獻(xiàn)的細(xì)粒度知識(shí)元,每個(gè)標(biāo)引單元生成一條數(shù)據(jù)。因古漢語(yǔ)表達(dá)的特殊性和語(yǔ)料庫(kù)的不完全性,在現(xiàn)代分詞工具進(jìn)行簡(jiǎn)單分詞后,還需要人工進(jìn)行精準(zhǔn)校對(duì)。古今地名轉(zhuǎn)換是本研究的重要工作之一。一千多年以來(lái)的社會(huì)與政治變遷使得今天的地名與文獻(xiàn)中的大不相同,目前的中國(guó)古今地名轉(zhuǎn)換系統(tǒng)能夠?qū)崿F(xiàn)歷史行政區(qū)劃地名的轉(zhuǎn)換[27],卻難以運(yùn)用在《廣西銅鼓文獻(xiàn)匯編及銅鼓聞見記》中所用的通俗地名轉(zhuǎn)化,例如俚僚、夷僚、交阯、駱越等非行政區(qū)名稱的片區(qū)地域名。因此,本研究需要運(yùn)用多種資料的檢索匹配,用人工方式實(shí)現(xiàn)古今地名的轉(zhuǎn)換和地理信息的配準(zhǔn),以完成現(xiàn)代地名的標(biāo)注。

主題詞提取。利用protégé軟件將本體概念體系可視化并建立知識(shí)抽取模型,如圖2。

以《廣西銅鼓文獻(xiàn)匯編及銅鼓聞見記》為例,核心類目有作者、相關(guān)事件、古籍名錄、銅鼓描述四大類,擴(kuò)展元數(shù)據(jù)則有:作者簡(jiǎn)介、生卒年(公歷年/朝代年)、相關(guān)其他文獻(xiàn)、古籍原文、注引、卷名、注釋、相關(guān)事件時(shí)間(公歷年/朝代年)、地名(古地名/今地名)、地理位置標(biāo)注(地理可視化數(shù)據(jù))、事件人物簡(jiǎn)介(官職/功名)、簡(jiǎn)介文本、相關(guān)歷史時(shí)間、銅鼓的用途、大小、類型、族屬、鑄造年份、鑄造工藝、裝飾工藝、反映的內(nèi)容、出土地點(diǎn)、分布特點(diǎn)、出土年份、收藏館、符合描述的實(shí)物圖片等30個(gè)知識(shí)元類目。遵循模型,開展知識(shí)標(biāo)引工作,以形成基于文獻(xiàn)知識(shí)內(nèi)容的語(yǔ)料庫(kù)。每個(gè)從文獻(xiàn)中抽取出來(lái)的知識(shí)條目生成一條知識(shí)抽取數(shù)據(jù)。從同一基礎(chǔ)文獻(xiàn)、不同內(nèi)容位置抽取的同一個(gè)人物、職務(wù)、地理名稱、事件、專題等信息,原則上應(yīng)合并為一條數(shù)據(jù)。

實(shí)體關(guān)系抽取。主要任務(wù)是識(shí)別文本中的本體短語(yǔ)以及這些本體之間的語(yǔ)義關(guān)系(例如從屬、發(fā)生、影響等)并加以歸類[28],涉及模式識(shí)別和邏輯推理。實(shí)體及關(guān)系作為知識(shí)圖譜的基本元素,其抽取的準(zhǔn)確率和召回率直接關(guān)系到后續(xù)知識(shí)組織的質(zhì)量。古籍史料屬于詞法分析中未登錄詞數(shù)量最多的文獻(xiàn)類別之一,無(wú)站點(diǎn)、詞典、開放域的參考。本文采用基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法進(jìn)行實(shí)體抽取,對(duì)文本語(yǔ)料進(jìn)行訓(xùn)練,分析各文獻(xiàn)中的收錄信息、銅鼓屬性信息、時(shí)空數(shù)據(jù),并利用訓(xùn)練好的模型去識(shí)別實(shí)體,構(gòu)建核心屬性語(yǔ)義場(chǎng),如表1。

《十道志》,全稱為《十道四蕃志》,乃是唐代武周時(shí)梁載言所撰,共計(jì)十六卷,為后世研究唐代地貌和疆域等提供了寶貴的重要史料,是唐代全國(guó)地理總志。

《太平寰宇記》是古代中國(guó)地理志史,記述了宋朝的疆域版圖。廣泛引用歷代史書、地志、文集、碑刻、詩(shī)賦、仙佛雜記等,計(jì)約二百種,且多注明出處,保留了大量珍貴的史料……

2.3? 銅鼓文獻(xiàn)知識(shí)關(guān)聯(lián)構(gòu)建

知識(shí)關(guān)聯(lián)構(gòu)建的最終目標(biāo)是通過(guò)發(fā)布知識(shí)圖譜,構(gòu)建高質(zhì)量的銅鼓資源分析服務(wù)平臺(tái),實(shí)現(xiàn)表層視覺特征與內(nèi)在知識(shí)的關(guān)聯(lián),即對(duì)銅鼓文獻(xiàn)知識(shí)庫(kù)實(shí)體、事件或者概念以及它們之間的相關(guān)性進(jìn)行描述。本研究采用一種成熟的基于三元組的表示方式,知識(shí)以一個(gè)資源描述框架結(jié)構(gòu)的三元組方式進(jìn)行表示[29]。首先對(duì)文獻(xiàn)實(shí)體抽取得到的一系列離散的命名實(shí)體,例如以“title”為“嶺表錄異”的text中,抽取到命名實(shí)體如下:

“鼓大小”:“鼓面圓二尺許,通體均勻,厚二分以外”;

“鼓形式”:“形如腰鼓,而一頭有面。鼓面圓二尺許,面與身連,全用銅鑄。其身遍有蟲魚花草之狀,通體均勻,厚二分以外”;

“用途”:“樂器”;

“相關(guān)人名”:“張直方、鄭綱”;

“相關(guān)古地名”:“1國(guó),2龔州-賽漢-延慶,3番禺-高州”。

結(jié)合時(shí)空地理信息對(duì)照,再抽取出“相關(guān)現(xiàn)代地名”:“1緬甸(伊洛瓦底江流域),2廣西壯族自治區(qū)貴港市平南縣-湖北省襄陽(yáng)市-河北省唐山市灤南縣,3廣東省廣州市番禺區(qū)-廣東省茂名市高州市”。

抽取出的實(shí)體和關(guān)系需要與本體對(duì)齊,并將數(shù)據(jù)融合到一起,構(gòu)建起一個(gè)有關(guān)聯(lián)的數(shù)據(jù)網(wǎng)絡(luò)。這個(gè)過(guò)程需要對(duì)其中存在的指向歧義進(jìn)行消解,對(duì)知識(shí)庫(kù)中已有的其他實(shí)體關(guān)系數(shù)據(jù),包括文獻(xiàn)知識(shí)元的屬性、本體概念層次關(guān)系等,進(jìn)行計(jì)算機(jī)知識(shí)推理,建立新的實(shí)體關(guān)聯(lián),豐富和拓展知識(shí)網(wǎng)絡(luò),初步完成知識(shí)建模。

模型訓(xùn)練步驟中,我們使用基于Transformer的一種深度雙向語(yǔ)言表征模型——BERT預(yù)訓(xùn)練語(yǔ)言模型,對(duì)初步完成的知識(shí)建模進(jìn)行優(yōu)化,將BERT的兩步關(guān)系抽取過(guò)程(識(shí)別subject的位置和識(shí)別 predicate和object的位置)修改為多任務(wù)類型,同時(shí)預(yù)測(cè)suject、predicate、object 三部分,最終形成文獻(xiàn)屬性知識(shí)關(guān)聯(lián)可視化圖譜。

3? 文獻(xiàn)時(shí)空向量屬性庫(kù)建設(shè)

時(shí)空向量是指將在分詞、標(biāo)引環(huán)節(jié)中獲取的年代數(shù)據(jù)轉(zhuǎn)換為公元年,形成時(shí)間向量;將獲取的地名數(shù)據(jù)轉(zhuǎn)換為現(xiàn)代地名或區(qū)域,形成空間向量。為保證建成高質(zhì)量的知識(shí)圖譜,對(duì)存疑的地名需加強(qiáng)人工干預(yù)識(shí)別。如《林邑記》記載的“浦通銅鼓,外越安定、黃岡、心口”,此處“銅鼓”在機(jī)器語(yǔ)言中無(wú)法識(shí)別為地名,經(jīng)聯(lián)系下文的地名,判斷應(yīng)為廣西壯族自治區(qū)桂平市銅鼓灘,因此,該文本對(duì)應(yīng)地名增加一標(biāo)注為“桂平”。再如,《歐陽(yáng)頠傳》中記載“欽南征夷僚,擒陳文徹,所獲不可勝計(jì),大獻(xiàn)銅鼓,累代所無(wú)”,在標(biāo)引環(huán)節(jié)中對(duì)“夷僚”一詞賦予的空間定義較寬泛,涉及云南、貴州、湖南、廣東、廣西等地的僚族,因此,該文本可從人名進(jìn)行考證?!赌鲜贰贩Q,陳文徹是西江俚帥,西江即今廣東肇慶一帶,陳文徹便是那里俚人的首領(lǐng)。因擒獲他而得到大量的銅鼓,于是此文本應(yīng)增加一地理標(biāo)注為“肇慶”。經(jīng)過(guò)大量的人工識(shí)別和討論考證,進(jìn)一步精確向量屬性,采用規(guī)則和監(jiān)督學(xué)習(xí)相結(jié)合的方法實(shí)現(xiàn)古文獻(xiàn)與時(shí)間地圖向量界面。

從本體構(gòu)建、實(shí)體關(guān)系抽取、數(shù)據(jù)融合、圖數(shù)據(jù)庫(kù)存儲(chǔ)到檢索與可視化,整個(gè)銅鼓文獻(xiàn)知識(shí)構(gòu)建的數(shù)據(jù)流中,需要確保不同模塊之間的數(shù)據(jù)格式和接口是兼容的,例如,實(shí)體關(guān)系抽取模塊的輸出(實(shí)體和關(guān)系)需要能夠被圖數(shù)據(jù)庫(kù)識(shí)別和存儲(chǔ),同時(shí),圖數(shù)據(jù)庫(kù)的查詢結(jié)果應(yīng)該能夠被可視化工具所展示。一些平臺(tái)能提供從知識(shí)獲取到知識(shí)應(yīng)用的端到端解決方案,包括實(shí)時(shí)動(dòng)態(tài)時(shí)序知識(shí)圖譜和AI平臺(tái)的構(gòu)建。在實(shí)現(xiàn)不同技術(shù)模塊之間的數(shù)據(jù)轉(zhuǎn)換與銜接時(shí),還需要考慮到系統(tǒng)的可維護(hù)性、擴(kuò)展性以及性能要求,確保知識(shí)數(shù)據(jù)庫(kù)能夠適應(yīng)不斷變化的數(shù)據(jù)和查詢需求。

4? 探索:數(shù)據(jù)融合的銅鼓知識(shí)平臺(tái)建設(shè)

銅鼓具有樂器和社會(huì)文化象征的雙重角色,其豐富的史料文獻(xiàn),以及在藝術(shù)、工藝、歷史價(jià)值和學(xué)術(shù)研究中展現(xiàn)的跨文化特性,使它成為連接不同民族和時(shí)代的文化橋梁,而且為研究中國(guó)南方及東南亞地區(qū)的古代民族歷史提供了珍貴視角,因此,銅鼓知識(shí)平臺(tái)的建立具有重要的學(xué)術(shù)和文化價(jià)值。本文以部分銅鼓史料文獻(xiàn),漢晉南北朝至民國(guó)的331條古代文獻(xiàn)記載文本、125幅圖片、1383具銅鼓實(shí)測(cè)記錄資料,作為細(xì)粒度知識(shí)表示的研究對(duì)象,通過(guò)知識(shí)元的處理理論,建立起史料文獻(xiàn)高層語(yǔ)義特征與知識(shí)圖譜表層視覺特征的映射,為銅鼓研究提供新的文獻(xiàn)知識(shí)表示思路。

然而,為徹底解決銅鼓內(nèi)部知識(shí)、外部特征以及語(yǔ)義特征等眾多資源的“語(yǔ)義鴻溝”現(xiàn)象,更多的銅鼓史料文獻(xiàn)以及現(xiàn)代屬性需要加入到完整的銅鼓資源組織中來(lái),如現(xiàn)存世銅鼓圖片/視頻/音頻、館藏地點(diǎn)、出土記錄。完整的銅鼓知識(shí)平臺(tái)應(yīng)至少由史料文獻(xiàn)庫(kù)、現(xiàn)存世器物庫(kù)、時(shí)空向量庫(kù)、基礎(chǔ)知識(shí)及研究成果庫(kù)四個(gè)數(shù)據(jù)庫(kù)組成的龐大知識(shí)庫(kù)提供支撐,并規(guī)范術(shù)語(yǔ),統(tǒng)一數(shù)據(jù)結(jié)構(gòu),建立本體辭典。通過(guò)數(shù)據(jù)映射技術(shù)對(duì)不同數(shù)據(jù)源中抽取詞匯的映射關(guān)系建立數(shù)據(jù)融合,在模型訓(xùn)練過(guò)程中對(duì)不同源數(shù)據(jù)指向同一現(xiàn)實(shí)客體的數(shù)據(jù)進(jìn)行融合,對(duì)不同術(shù)語(yǔ)描述的同一客體數(shù)據(jù)進(jìn)行融合。現(xiàn)存世器物庫(kù)中的銅鼓特征,依然需要提取細(xì)粒度知識(shí)元,進(jìn)行精確的語(yǔ)義描述,才能與其他庫(kù)相關(guān)的知識(shí)元進(jìn)行關(guān)聯(lián),實(shí)現(xiàn)史料文獻(xiàn)與銅鼓實(shí)體器物的匹配。通過(guò)構(gòu)建數(shù)據(jù)中臺(tái),實(shí)現(xiàn)結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的接入和異構(gòu)數(shù)據(jù)源儲(chǔ)存管理,建立起銅鼓資源“自上而下”的知識(shí)表示方式,不斷豐富知識(shí)存量和提升知識(shí)圖譜的質(zhì)量。在未來(lái)的研究中,還需要在銅鼓資源組織中對(duì)Spark或者Hadoop等數(shù)據(jù)平臺(tái)的融合功能作進(jìn)一步實(shí)踐探索。

參考文獻(xiàn):

[1]李峰.文物知識(shí)聚合與傳播的初步研究:以上海博物館“宋徽宗與他的時(shí)代數(shù)字人文專題”為例[J].東南文化,2022(3):169-177,191-192,197-199.

[2]高勁松,楊慧娟,付家煒,等.數(shù)字人文視域下可移動(dòng)文物時(shí)空數(shù)據(jù)模型構(gòu)建研究[J].數(shù)字圖書館論壇,2022(1):37-46.

[3]廣西民族博物館.銅鼓[EB/OL].[2024-02-26].http://www.amgx.org/Collection/Treasure/tonggu?name=%E9%9 3%9C%E9%BC%93&typecode=tonggu.

[4]李迎迎,孫玉琦.文化傳承視角下館藏文物多粒度知識(shí)組織研究[J].數(shù)字圖書館論壇,2022(8):65-72.

[5]高勁松,付家煒.基于知識(shí)元的文物圖像資源細(xì)粒度知識(shí)表示方法研究[J].情報(bào)科學(xué),2022,40(1):16-24.

[6]劉思洋.基于關(guān)聯(lián)數(shù)據(jù)的館藏文物資源知識(shí)關(guān)聯(lián)模型研究[D].武漢:華中師范大學(xué),2019.

[7]龔花萍,孫曉,劉春年.文物信息資源元數(shù)據(jù)模型、實(shí)施標(biāo)準(zhǔn)與應(yīng)用策略[J].情報(bào)科學(xué),2015,33(2):80-84.

[8]賈君枝,史璇.數(shù)字博物館元數(shù)據(jù)標(biāo)準(zhǔn)構(gòu)建研究[J].山西大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2015,38(1):114-119.

[9]WIJESUNDARA C,SUGIMOTO S,NARAYAN B,et al. Bringing cultural heritage information from developing regions to the global information space as linked open data:an exploratory metadata aggregation model for Sri Lankan heritage and its extension [C]//The 7th Asia-Pacific Conference on Library and Information Education and Practice (A-LIEP),November 3-4,2016,Nanjing University,Nanjing:117-132.

[10]于亞秀,李欣.數(shù)字人文視域中的古籍文本標(biāo)注方法研究:以MARKUS為例[J].大數(shù)據(jù),2022,8(6):15-25.

[11]徐潤(rùn)華,王東波,劉歡,等.面向古籍?dāng)?shù)字人文的《資治通鑒》自動(dòng)摘要研究:以SikuBERT預(yù)訓(xùn)練模型為例[J].圖書館論壇,2022,42(12):129-137.

[12]胡昊天,張逸勤,鄧三鴻,等.面向數(shù)字人文的《四庫(kù)全書》子部自動(dòng)分類研究:以SikuBERT和SikuRoBERTa預(yù)訓(xùn)練模型為例[J].圖書館論壇,2022,42(12):138-148.

[13]黃俊偉,劉金濤,史延昊,等.基于知識(shí)元標(biāo)引的中醫(yī)古籍研究回顧與反思[J].北京中醫(yī)藥大學(xué)學(xué)報(bào),2021,44(8):694-699.

[14]DUTTA B,GIUNCHIGLIA F,MALTESE V.From knowledge organization to knowledge representation[J].Knowledge organization,2014,41(1):44-56.

[15]夏翠娟,婁秀明,潘威,等.數(shù)智時(shí)代的知識(shí)組織方法在歷史地理信息化中的應(yīng)用初探:兼論圖情領(lǐng)域與人文研究的跨學(xué)科融合范式[J].圖書情報(bào)知識(shí),2021,38(3):37-49.

[16]畢崇武,王忠義,宋紅文.基于知識(shí)元的數(shù)字圖書館多粒度集成知識(shí)服務(wù)研究[J].圖書情報(bào)工作,2017,61(4):115-122.

[17]What is the CIDOC CRM?[EB/OL].[2024-02-28].https://www.cidoc-crm.org/.

[18]王紹平.FRBR與面向?qū)ο竽P停跩].新世紀(jì)圖書館,2007(2):11-14.

[19]胡小菁.國(guó)際圖聯(lián)圖書館參考模型及其應(yīng)用[J].上海高校圖書情報(bào)工作研究,2018,28(3):38-39.

[20]高勁松,梁艷琪.關(guān)聯(lián)數(shù)據(jù)環(huán)境下知識(shí)融合模型研究[J].情報(bào)科學(xué),2016,34(2):50-54.

[21]夏翠娟.文化記憶資源的知識(shí)融通:從異構(gòu)資源元數(shù)據(jù)應(yīng)用綱要到一體化本體設(shè)計(jì)[J].圖書情報(bào)知識(shí),2021(1):53-65.

[22]趙蓉英,王嵩,董克.國(guó)內(nèi)館藏資源聚合模式研究綜述[J].圖書情報(bào)工作,2014,58(18):138-143.

[23]李亞婷.知識(shí)聚合研究述評(píng)[J].圖書情報(bào)工作,2016,60(21):128-136.

[24]洪聲.廣西古代銅鼓研究[J].考古學(xué)報(bào),1974(1):45-90,188-191.

[25]蔣廷瑜.廣西銅鼓文獻(xiàn)匯編及銅鼓聞見記[M].桂林:廣西師范大學(xué)出版社,2014.

[26]蔣廷瑜.古代銅鼓通論[M].北京:紫禁城出版社,1999.

[27]中國(guó)歷史地名查詢系統(tǒng)[EB/OL].[2024-02-28].http://archive.ihp.sinica.edu.tw/hplname/.

[28]

CHINCHOR N, MARSH E.Muc-7 information extraction task definition[C]//Proceedings of Seventh Message Understanding Conference(MUC-7),April 29-May 1,1998,F(xiàn)airfax, Virginia:359-367.

[29]杜悅,常志軍,董美,等.一種面向海量科技文獻(xiàn)數(shù)據(jù)的大規(guī)模知識(shí)圖譜構(gòu)建方法[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2023,7(2):141-150.

作者簡(jiǎn)介:

覃熙(1980— ),女,碩士,副研究館員,任職于廣西民族大學(xué)圖書館。研究方向:知識(shí)組織、數(shù)字人文。

猜你喜歡
細(xì)粒度銅鼓史料
融合判別性與細(xì)粒度特征的抗遮擋紅外目標(biāo)跟蹤算法
五代墓志所見遼代史料考
細(xì)粒度的流計(jì)算執(zhí)行效率優(yōu)化方法
史料二則
基于雙線性卷積網(wǎng)絡(luò)的細(xì)粒度圖像定位
一件被切割的漢代銅鼓是否應(yīng)該焊接復(fù)原?
大眾考古(2017年6期)2017-11-09 00:42:47
例談數(shù)據(jù)史料的辨?zhèn)闻c解讀
快樂的小銅鼓
黃河之聲(2016年15期)2016-12-17 14:59:54
支持細(xì)粒度權(quán)限控制且可搜索的PHR云服務(wù)系統(tǒng)
史料教學(xué),史從何來(lái)
玉林市| 贺兰县| 黄梅县| 留坝县| 深圳市| 枣庄市| 辽宁省| 克拉玛依市| 重庆市| 香港 | 铜鼓县| 象山县| 花垣县| 府谷县| 吴旗县| 雷波县| 渑池县| 张家界市| 上饶县| 锡林郭勒盟| 新巴尔虎右旗| 陈巴尔虎旗| 紫云| 湖南省| 大洼县| 博罗县| 玛多县| 东阿县| 安康市| 乾安县| 义马市| 西昌市| 武清区| 灯塔市| 濉溪县| 双牌县| 阿瓦提县| 肃南| 平武县| 广饶县| 望奎县|