国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

方志書目提要語(yǔ)義化知識(shí)組織與知識(shí)發(fā)現(xiàn)研究

2024-02-07 00:00:00徐晨飛唐佳林
數(shù)字圖書館論壇 2024年11期
關(guān)鍵詞:知識(shí)圖譜本體

摘要:方志書目提要具有豐富的內(nèi)涵價(jià)值,可幫助用戶更好地理解和利用方志資源。在深入分析方志書目提要內(nèi)外部特征的基礎(chǔ)上,提出方志書目提要語(yǔ)義化知識(shí)組織框架,以《江蘇舊方志提要》為例,通過(guò)知識(shí)本體設(shè)計(jì)、關(guān)聯(lián)數(shù)據(jù)生成、知識(shí)圖譜構(gòu)建等環(huán)節(jié)展開實(shí)證研究。通過(guò)對(duì)方志書目提要進(jìn)行深度語(yǔ)義化知識(shí)組織,可進(jìn)一步將蘊(yùn)含其中的各類知識(shí)進(jìn)行關(guān)聯(lián),發(fā)現(xiàn)更多隱含知識(shí),將其“考鏡源流,辨章學(xué)術(shù)”的重要作用揭示出來(lái)。研究旨在激活蘊(yùn)藏在方志書目提要中的多維度知識(shí),也為其他類型書目提要資料語(yǔ)義化知識(shí)組織提供借鑒,同時(shí)也豐富了我國(guó)數(shù)字人文研究的應(yīng)用場(chǎng)景。

關(guān)鍵詞:方志書目提要;語(yǔ)義化知識(shí)組織;知識(shí)發(fā)現(xiàn);本體;關(guān)聯(lián)數(shù)據(jù);知識(shí)圖譜

中圖分類號(hào):G254 DOI:10.3772/j.issn.1673-2286.2024.11.004

引文格式:徐晨飛,唐佳林. 方志書目提要語(yǔ)義化知識(shí)組織與知識(shí)發(fā)現(xiàn)研究[J]. 數(shù)字圖書館論壇,2024,20(11):30-42.

*本研究得到江蘇省社科基金一般項(xiàng)目“基于關(guān)聯(lián)數(shù)據(jù)的江蘇古籍方志書目知識(shí)組織與應(yīng)用研究”(編號(hào):22TQB008)資助。

提要,也稱解題、敘錄、書錄等,意為提取一書之要義[1]。撰寫書目提要在我國(guó)有悠久的歷史,漢劉向、劉歆父子開啟先河,后逐漸成為古代目錄學(xué)的優(yōu)良傳統(tǒng)。書目提要是揭示文獻(xiàn)內(nèi)容的重要方法,包括總結(jié)圖書內(nèi)容、介紹著者生平事跡、評(píng)價(jià)學(xué)術(shù)得失、比較版本情況等,能發(fā)揮讀書治學(xué)之效。地方志是研究地方歷史、文化及社會(huì)發(fā)展的重要資料,尤其是針對(duì)現(xiàn)存8 000余種舊方志的整理與利用工作至今未輟,編纂方志書目提要也是其中重要的環(huán)節(jié)。方志書目提要專門揭示方志內(nèi)容體例、編纂原委、特色價(jià)值、版本流傳等,其內(nèi)容極具學(xué)術(shù)價(jià)值。1930年瞿宣穎編《方志考稿(甲集)》[2]被公認(rèn)為方志書目提要的開端,其后各類機(jī)構(gòu)基于舊志、新志陸續(xù)出版了百余種方志書目提要,較有影響力的包括《中國(guó)地方志總目提要》[3]、《稀見地方志提要》[4]、《中國(guó)新編地方志總目提要》[5]、《中國(guó)新方志10 000種書目提要》[6]、《北京方志提要》[7]、《江蘇舊方志提要》[8]等。對(duì)于編寫方志書目提要的重要性,學(xué)界認(rèn)識(shí)是一致的,但還缺乏完整性、系統(tǒng)性、規(guī)范性、學(xué)術(shù)性的深層次研究[9]。

伴隨著信息技術(shù)日新月異的發(fā)展,數(shù)字人文研究近年來(lái)呈現(xiàn)爆炸式增長(zhǎng),也深刻改變了傳統(tǒng)人文研究的范式體系,其中針對(duì)各種典籍資料的知識(shí)組織研究成為學(xué)界關(guān)注的熱點(diǎn)。方志書目提要中含有大量隱性的關(guān)聯(lián)性知識(shí),如纂修人物、版本等,借助技術(shù)手段可深入發(fā)掘方志書目提要中的內(nèi)在知識(shí)聯(lián)系,發(fā)現(xiàn)相關(guān)脈絡(luò)及規(guī)律,從而實(shí)現(xiàn)“考鏡源流,辨章學(xué)術(shù)”“提要鉤玄、治學(xué)涉徑”的學(xué)術(shù)功用。江蘇是中國(guó)古代吳越文化、長(zhǎng)江文化的發(fā)祥地,歷史悠久、文化繁榮,歷來(lái)重視挖掘保留地方歷史,擁有著2 000多年的文化傳承,是著名的方志之鄉(xiāng)。江蘇舊方志以數(shù)量之巨、品種之多而著稱,僅現(xiàn)存地志、專門志等各類志書就有近800種。本研究選擇徐復(fù)、季文通主編的《江蘇舊方志提要》[8]作為基礎(chǔ)文獻(xiàn),對(duì)相關(guān)知識(shí)特征進(jìn)行提取與表示,以BIBFRAME 2.0模型為基礎(chǔ)構(gòu)建領(lǐng)域知識(shí)本體,在此基礎(chǔ)上利用Virtuoso數(shù)據(jù)庫(kù)進(jìn)行關(guān)聯(lián)數(shù)據(jù)生成發(fā)布,并基于Neo4j圖數(shù)據(jù)庫(kù)構(gòu)建知識(shí)圖譜,展開知識(shí)發(fā)現(xiàn)研究。本研究不僅可豐富數(shù)字人文研究的應(yīng)用場(chǎng)景,為其他文獻(xiàn)書目提要的語(yǔ)義化知識(shí)組織提供參考,也為方志資料的深度開發(fā)與利用提供新思路,以期進(jìn)一步推動(dòng)中華優(yōu)秀傳統(tǒng)文化創(chuàng)造性轉(zhuǎn)化和創(chuàng)新性發(fā)展。

1 相關(guān)研究

早期研究主要將方志書目提要看作方志目錄的一種類型,認(rèn)為其是解決志書內(nèi)容揭示與讀者需求之間矛盾的最佳途徑之一[10],或認(rèn)為其與簡(jiǎn)目、考錄一樣,均是一種方志著錄形式[11],主要聚焦于其歷史源流發(fā)展[12-13]、建構(gòu)特征[14-15]、編撰形式[16]以及方法論[17]等方面,也有學(xué)者對(duì)新中國(guó)成立以后新編方志書目提要著述進(jìn)行了梳理與介紹[9]。

隨著數(shù)智技術(shù)的興起,越來(lái)越多的學(xué)者開始運(yùn)用新方法對(duì)書目提要進(jìn)行數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn)研究。李惠等[18]以《四庫(kù)全書總目》為例構(gòu)建了古籍目錄智能分析工具,可挖掘提要中蘊(yùn)含的特有信息,實(shí)現(xiàn)提要的智能推薦;鄭翔等[19]運(yùn)用深度學(xué)習(xí)算法對(duì)古代書目提要展開結(jié)構(gòu)功能識(shí)別研究,較為準(zhǔn)確地識(shí)別了提要中的書名、責(zé)任者、版本源流、文獻(xiàn)內(nèi)容、價(jià)值評(píng)述等模塊,為讀者快速把握內(nèi)容提供參考;李文琦等[20]利用人機(jī)交互技術(shù)構(gòu)建了歷代古籍目錄可視化分析系統(tǒng),可進(jìn)行書目統(tǒng)計(jì)以及分類演化分析,為學(xué)者識(shí)別、發(fā)現(xiàn)和解決問(wèn)題提供新視角與手段。上述研究從不同角度對(duì)古代書目提要進(jìn)行數(shù)據(jù)化處理及分析,但還未對(duì)其相關(guān)內(nèi)容特征展開語(yǔ)義化知識(shí)組織。在數(shù)字人文浪潮之下,元數(shù)據(jù)、本體、語(yǔ)義標(biāo)注、關(guān)聯(lián)數(shù)據(jù)等知識(shí)組織方法與語(yǔ)義技術(shù)成為主流[21],在文化遺產(chǎn)[22-23]、各類典籍[24-25]、歷史檔案[26-27]等領(lǐng)域均有大量?jī)?yōu)秀案例。在地方志領(lǐng)域,相關(guān)研究主要關(guān)注傳統(tǒng)官修志書[28]、個(gè)人編修志書如山水志[29]以及方志物產(chǎn)資料匯編[30]等。方志書目提要作為一種特殊的文獻(xiàn)載體形式,主要體現(xiàn)后人對(duì)前人編修志書的概括與評(píng)價(jià),圍繞其展開語(yǔ)義化知識(shí)組織的研究尚不多見。因此,本文提出一個(gè)方志書目提要語(yǔ)義化知識(shí)組織框架,對(duì)方志書目提要各種顯性及隱性的細(xì)粒度知識(shí)進(jìn)行表示與組織,并通過(guò)實(shí)證研究展現(xiàn)如何有效地對(duì)這些知識(shí)進(jìn)行關(guān)聯(lián)、共享及可視化分析。

2 方志書目提要語(yǔ)義化知識(shí)組織框架設(shè)計(jì)

要將方志書目提要中的各類知識(shí)進(jìn)行提取、組織與應(yīng)用,并形成一個(gè)可檢索、可拓展、可關(guān)聯(lián)、可共享的方志書目提要領(lǐng)域知識(shí)庫(kù),需著重考慮采用何種方法、技術(shù)及工具加以實(shí)現(xiàn)。結(jié)合已有相關(guān)研究案例,提出包括數(shù)據(jù)層、知識(shí)層及應(yīng)用層的方志書目提要語(yǔ)義化知識(shí)組織框架,如圖1所示。

數(shù)據(jù)層為知識(shí)組織框架中重要的“基石”,主要完成從原始紙質(zhì)文獻(xiàn)資料以及電子版資料到結(jié)構(gòu)化數(shù)據(jù)入庫(kù)的過(guò)程。目前,有相當(dāng)一部分方志書目提要還未進(jìn)行數(shù)字化,因此需先對(duì)紙質(zhì)書進(jìn)行數(shù)字化,再對(duì)數(shù)字化的圖像進(jìn)行識(shí)別、校對(duì),在此基礎(chǔ)上制定格式整理規(guī)則以及元數(shù)據(jù)著錄標(biāo)準(zhǔn),最后將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),存儲(chǔ)在關(guān)系型數(shù)據(jù)庫(kù)中,形成基本素材庫(kù)。

知識(shí)層是框架的“核心”,在這一層中要完成知識(shí)表示、知識(shí)建模、知識(shí)映射以及知識(shí)存儲(chǔ)等相關(guān)工作。首先,對(duì)方志書目提要外部特征及內(nèi)容特征展開分析。方志書目提要中包含方志提要、人物、地點(diǎn)等實(shí)體知識(shí),相關(guān)知識(shí)實(shí)體中還有較為豐富的屬性,如方志提要實(shí)體中包含方志題名、方志價(jià)值、方志版本等屬性,此外知識(shí)實(shí)體之間還存在大量的關(guān)系。運(yùn)用人工標(biāo)注與深度學(xué)習(xí)算法模型對(duì)這些實(shí)體、屬性、關(guān)系進(jìn)行抽取,為后續(xù)知識(shí)映射作數(shù)據(jù)準(zhǔn)備。其次,在對(duì)相關(guān)知識(shí)特征進(jìn)行規(guī)范化描述表示的基礎(chǔ)上,運(yùn)用本體構(gòu)建方法及相關(guān)工具進(jìn)行知識(shí)建模,在此過(guò)程中特別要考慮復(fù)用國(guó)內(nèi)外已有的成熟本體規(guī)范詞表,避免重復(fù)建設(shè),進(jìn)而得到方志書目提要知識(shí)本體模型。再次,基于本體模型完成關(guān)聯(lián)、消歧[31]等步驟,實(shí)現(xiàn)相關(guān)實(shí)體、屬性及關(guān)系的語(yǔ)義化轉(zhuǎn)換。最后,分別采用RDF三元組數(shù)據(jù)庫(kù)Virtuoso以及圖數(shù)據(jù)庫(kù)Neo4j實(shí)現(xiàn)知識(shí)的存儲(chǔ),前者更側(cè)重知識(shí)發(fā)現(xiàn)與鏈接,后者著重于知識(shí)挖掘與計(jì)算,因此也有學(xué)者將二者分別稱為語(yǔ)義的知識(shí)圖譜與廣義的知識(shí)圖譜[32]。

應(yīng)用層主要起到“窗口”的作用。關(guān)聯(lián)數(shù)據(jù)為標(biāo)準(zhǔn)的語(yǔ)義網(wǎng)通用數(shù)據(jù)結(jié)構(gòu),機(jī)器可讀可理解,其本身的“主-謂-賓”結(jié)構(gòu)便于展開知識(shí)推理,發(fā)現(xiàn)更多未知知識(shí),此外通過(guò)關(guān)聯(lián)數(shù)據(jù)技術(shù)還可將本地?cái)?shù)據(jù)與網(wǎng)絡(luò)其他第三方開放數(shù)據(jù)進(jìn)行知識(shí)聚合,進(jìn)而將本地領(lǐng)域知識(shí)擴(kuò)展,得到更為廣闊多元的知識(shí)世界。在圖數(shù)據(jù)庫(kù)中,數(shù)據(jù)也以三元組的形式進(jìn)行映射存儲(chǔ),以此為基礎(chǔ)構(gòu)建知識(shí)圖譜可更加清晰地展示領(lǐng)域知識(shí)的形態(tài),也可以通過(guò)Cypher語(yǔ)言進(jìn)行知識(shí)檢索與知識(shí)推理,以不同視角觀察和掌握領(lǐng)域知識(shí)。

3 實(shí)證研究——以《江蘇舊方志提要》為例

《江蘇舊方志提要》共收錄江蘇現(xiàn)轄區(qū)域內(nèi)1949年以前的省、府、州、縣、廳等志書1 170種,其中今存志714種,佚志372種,存目84種。該書突出對(duì)志書本身內(nèi)容的評(píng)價(jià),較為全面、系統(tǒng)、真實(shí)地反映了江蘇歷代舊志的基本面貌。本研究基于該書的數(shù)字化掃描版本,采用專業(yè)識(shí)別軟件與人工校對(duì)結(jié)合的方法完成全書的文本化工作,在此基礎(chǔ)上進(jìn)行格式預(yù)處理,結(jié)合著錄元數(shù)據(jù)構(gòu)建基本素材庫(kù),去除沒(méi)有提要信息的佚志、存目數(shù)據(jù)后,共計(jì)存儲(chǔ)具有提要內(nèi)容的方志數(shù)據(jù)1 042條,為后續(xù)實(shí)證研究提供數(shù)據(jù)支撐。

3.1 方志書目提要語(yǔ)義化知識(shí)特征分析

對(duì)方志書目提要內(nèi)外部知識(shí)特征進(jìn)行分析是知識(shí)組織的前提,本研究以《江蘇舊方志提要》為基礎(chǔ)素材,同時(shí)參考了其他若干方志書目提要如《中國(guó)地方志總目提要》《珍貴方志提要》等,盡可能提取、分析及總結(jié)各類方志書目提要共性的內(nèi)外部特征。方志書目提要外部特征與其他書目特征類似,主要由3個(gè)部分構(gòu)成:①圖書編排結(jié)構(gòu),如書目編號(hào)、題名、著者、出版社、出版時(shí)間、ISBN等;②來(lái)源與館藏信息,如網(wǎng)上資源或線下各類收藏機(jī)構(gòu)等;③出版形態(tài),如紙質(zhì)圖書或電子資源等。方志書目提要的內(nèi)容特征則相對(duì)復(fù)雜,其整體一般采用目錄式結(jié)構(gòu),按地域進(jìn)行分類組織,在相同地域中又按照時(shí)序編排呈現(xiàn)。對(duì)于具體的提要內(nèi)容,其特征可細(xì)分為方志簡(jiǎn)介、版本源流、相關(guān)人物、基本篇目、體例特點(diǎn)、社會(huì)影響、人物簡(jiǎn)介、修纂沿革、引書、附注等多個(gè)方面。以《江蘇舊方志提要》為例,相關(guān)內(nèi)容特征及實(shí)例如表1所示。

3.2 方志書目提要知識(shí)單元抽取

對(duì)文獻(xiàn)資源中的人、時(shí)、地、物、事等關(guān)鍵知識(shí)進(jìn)行抽取是數(shù)字人文研究中一項(xiàng)重要的基礎(chǔ)性任務(wù),為了實(shí)現(xiàn)對(duì)方志書目提要中各類知識(shí)的深層次挖掘,需從非結(jié)構(gòu)化的方志提要文本中抽取出結(jié)構(gòu)化的知識(shí)單元??紤]到深度學(xué)習(xí)模型具備較好的文本表示和理解能力,在人工標(biāo)注的訓(xùn)練與測(cè)試語(yǔ)料基礎(chǔ)上,本研究采用BERT-BiLSTM-CRF模型對(duì)《江蘇舊方志提要》語(yǔ)料文本展開知識(shí)抽取。BERT模型能夠增強(qiáng)句子的語(yǔ)義表示,BiLSTM網(wǎng)絡(luò)能夠有效地解決依賴領(lǐng)域知識(shí)和特征的問(wèn)題,而CRF與其他模型相比能夠?qū)W⒂谏舷挛淖⑨屝畔?,三者結(jié)合能有效提升識(shí)別效果[33]。

首先,對(duì)輸入的方志書目提要文本進(jìn)行預(yù)處理,包括分詞、去停用詞、詞性標(biāo)注等。然后,將處理后的文本轉(zhuǎn)換為BERT模型可接受的輸入格式,利用預(yù)訓(xùn)練的 BERT模型對(duì)輸入文本進(jìn)行編碼,得到文本的向量表示,這些向量表示富含文本的語(yǔ)義信息,為后續(xù)的知識(shí)單元抽取提供了基礎(chǔ)。再次,將BERT輸出的向量序列輸入BiLSTM模型,以捕捉文本中的長(zhǎng)期依賴關(guān)系;在BiLSTM的輸出上應(yīng)用CRF層,對(duì)文本進(jìn)行序列標(biāo)注,識(shí)別出命名實(shí)體(如方志題名、方志作者等)和它們之間的關(guān)系(如編纂關(guān)系)。最后,根據(jù)識(shí)別出的命名實(shí)體和關(guān)系,結(jié)合規(guī)則匹配或額外的解析步驟,提取出實(shí)體的屬性及其屬性值(如編纂時(shí)間、地域范圍等)。知識(shí)單元的抽取為接下來(lái)的領(lǐng)域知識(shí)本體構(gòu)建任務(wù)奠定了基礎(chǔ)。

3.3 方志書目提要知識(shí)本體構(gòu)建

本體模型設(shè)計(jì)是目前相關(guān)領(lǐng)域資源語(yǔ)義化知識(shí)組織的主流方法,借助本體可完成領(lǐng)域知識(shí)的規(guī)范化描述。本研究參考借鑒國(guó)內(nèi)外成熟的本體模型詞表如BIBFRAME 2.0[34]、FOAF[35]、DC[36]以及上海圖書館相關(guān)本體[37],復(fù)用其中的相關(guān)類及屬性,同時(shí)自建詞表(FZSMTY)來(lái)描述一些方志書目提要領(lǐng)域的特殊知識(shí)。在這一過(guò)程中,要保障自定義類和屬性的科學(xué)性,盡量遵循繼承原則,例如繼承BIBFRAME 2.0中上位類已定義好的屬性。

BIBFRAME 2.0詞表主要包含3個(gè)核心類別:作品(bf:Work)、實(shí)例(bf:Instance)、單件(bf:Item)[38]。作品描述的是不同題名、不同語(yǔ)種或不同表現(xiàn)形態(tài)的同一作品,有主題(subject)、代理(agent)、事件(event)等屬性;實(shí)例是作品的具體化表現(xiàn),一個(gè)作品可能存在多個(gè)實(shí)例,有格式(format)、出版者(publisher)等屬性;而單件通常是館藏信息的描述,可幫助用戶獲取相關(guān)資源,有條形碼(barcode)、持有者(held by)等屬性?;贐IBFRAME 2.0的模型結(jié)構(gòu),本研究設(shè)計(jì)的方志書目提要知識(shí)本體主要包含三大核心類:方志書目提要作品(bf:Work)、方志書目提要實(shí)例(bf:Instance)、方志書目提要單件(bf:Item)。同時(shí)還包括4個(gè)子類,分別為方志類(fzsmty:FangZhi)、方志書目提要類(fzsmty:Synopsis)、版本類(fzsmty: Version)、人物類(fzsmty:Person),每一個(gè)類都有其具體的數(shù)據(jù)屬性,實(shí)體與實(shí)體之間的關(guān)系則通過(guò)對(duì)象屬性進(jìn)行描述,最終設(shè)計(jì)的本體模型如圖2所示,其中橢圓表示實(shí)體類,箭頭表示類與類之間、類與數(shù)據(jù)屬性之間的連接關(guān)系。

方志書目提要作品(bf:Work)是指所有類型的方志書目提要的總稱,是一個(gè)抽象的集合概念;方志書目提要實(shí)例(bf:Instance)是指具體的某一種方志書目提要;而方志書目提要單件(bf:Item)則表示實(shí)例中的某一條提要。除了這三大核心類,其他類都是這些類的子類。人物類(fzsmty:Person)特指方志書目提要涉及的各種人物,該類繼承bf:Agent下位類foaf:Person。方志書目提要作品類下自建方志類(fzsmty:FangZhi)、方志書目提要類(fzsmty:Synopsis)、人物類(fzsmty: Person)和版本類(fzsmty:Version)4個(gè)類,而作品類和方志類等實(shí)體之間存在著語(yǔ)義關(guān)聯(lián)關(guān)系,具體核心對(duì)象屬性詞表如表2所示。

方志書目提要中最關(guān)鍵的內(nèi)容就是后人對(duì)各種方志內(nèi)容的介紹與評(píng)點(diǎn),因此方志類也是最為重要的,其數(shù)據(jù)屬性包括方志題名、題名編號(hào)、方志類型、卷次、基本篇目、體例特點(diǎn)、社會(huì)影響、引書、修纂沿革、附注、地名、中國(guó)歷史紀(jì)年等,對(duì)象屬性有版本、人物,方志類詳細(xì)詞表如表3所示。

方志書目提要類主要存儲(chǔ)文獻(xiàn)載體的外部特征,如書目編號(hào)、書目名稱、ISBN、登記證字號(hào)、編輯者、出版地、印刷地、出版日期以及URL等。方志書目提要類與方志書目提要作品類、方志書目提要實(shí)例類、方志類、人物類均有關(guān)聯(lián)關(guān)系,方志書目提要類詳細(xì)詞表如表4所示。

方志提要較為重要的功能是通過(guò)挖掘版本源流發(fā)揮“考鏡源流,辨章學(xué)術(shù)”的作用,因此本研究自建版本類(fzsmty:Version),將來(lái)源志書的不同版本實(shí)例作為特殊的知識(shí)實(shí)體歸入其中,相關(guān)數(shù)據(jù)屬性包括卷數(shù)、版本類型、中國(guó)歷史紀(jì)年、西歷紀(jì)年、館藏地等,版本類型又分為稿本、刻本、活字本、鉛印本、石印本、抄本、叢書本、油印本、影抄本、影印本等,版本類詳細(xì)詞表如表5所示。

此外,人物類描述方志書目提要中出現(xiàn)的各種人物,如來(lái)源方志的編纂者(包括主纂、主修、原纂、原修、增纂、增修等)、方志提要的撰寫者(評(píng)價(jià)者)、方志提要的責(zé)任者等,其數(shù)據(jù)屬性包括姓名、字、號(hào)、人物類型、人物小傳、所屬朝代等,人物類詳細(xì)詞表如表6所示。

本研究基于BIBFRAME 2.0模型,復(fù)用相關(guān)本體詞表與自定義擴(kuò)展,最終設(shè)計(jì)得到的方志書目提要知識(shí)本體模型包括14個(gè)類、34個(gè)數(shù)據(jù)屬性、13個(gè)對(duì)象屬性。接下來(lái)運(yùn)用Protégé軟件工具進(jìn)行本體建模,并將《江蘇舊方志提要》中《(乾?。┙贤ㄖ尽泛汀叮ê胫危┲匦逕o(wú)錫縣志》實(shí)例代入其中,對(duì)本體的內(nèi)在邏輯進(jìn)行檢測(cè),局部如圖3所示,從中可看出部分方志版本源流變化以及提要撰寫人物等情況。

3.4 方志書目提要關(guān)聯(lián)數(shù)據(jù)生成與發(fā)布

關(guān)聯(lián)數(shù)據(jù)技術(shù)作為語(yǔ)義網(wǎng)的輕量級(jí)解決方案,可將《江蘇舊方志提要》資料的各類知識(shí)激活,并與其他開放數(shù)據(jù)集進(jìn)行知識(shí)聚合,提升方志書目提要資料的重用價(jià)值。首先,以領(lǐng)域知識(shí)本體模型為基礎(chǔ),對(duì)資料中的各類實(shí)體及實(shí)體之間的關(guān)系進(jìn)行描述,同時(shí)賦予相關(guān)知識(shí)實(shí)體HTTP URI。其次,將前期基本素材庫(kù)中的數(shù)據(jù)通過(guò)RDB2RDF映射方法[39]轉(zhuǎn)換為RDF三元組格式,并存儲(chǔ)在三元組數(shù)據(jù)庫(kù)Virtuoso中,得到方志實(shí)體1 042個(gè)、人物實(shí)體1 602個(gè)、版本實(shí)體1 056個(gè)。以《(道光)重修寶應(yīng)縣志》為例,其關(guān)聯(lián)數(shù)據(jù)格式如圖4所示。最后,基于Virtuoso數(shù)據(jù)庫(kù),遵循關(guān)聯(lián)數(shù)據(jù)發(fā)布四原則[40]配置服務(wù)器,對(duì)外界進(jìn)行方志書目提要關(guān)聯(lián)數(shù)據(jù)發(fā)布。

3.5 方志書目提要知識(shí)圖譜構(gòu)建

知識(shí)圖譜的概念最早由谷歌公司提出,是將所有不同類型、語(yǔ)言的信息連在一起所組成的網(wǎng)絡(luò)結(jié)構(gòu),由“實(shí)體-關(guān)系-實(shí)體”三元組組成,可對(duì)大規(guī)模知識(shí)進(jìn)行存儲(chǔ)、管理、檢索與挖掘。本研究采用圖數(shù)據(jù)庫(kù)Neo4j來(lái)實(shí)現(xiàn)方志書目提要知識(shí)圖譜的構(gòu)建。Neo4j是當(dāng)今主流的原生圖數(shù)據(jù)庫(kù),專注存儲(chǔ)和管理圖形數(shù)據(jù),常用于復(fù)雜數(shù)據(jù)關(guān)系和圖形分析。Neo4j支持從領(lǐng)域知識(shí)本體到圖數(shù)據(jù)庫(kù)的結(jié)構(gòu)映射,本體中的概念類與圖數(shù)據(jù)庫(kù)中的節(jié)點(diǎn)標(biāo)簽對(duì)應(yīng),數(shù)據(jù)屬性與節(jié)點(diǎn)屬性相對(duì)應(yīng),對(duì)象數(shù)據(jù)與關(guān)系類型相對(duì)應(yīng),借助插件Neosemantics(n10s)即可實(shí)現(xiàn)RDF數(shù)據(jù)導(dǎo)入和存儲(chǔ)。圖5為導(dǎo)入 Neo4j的方志書目提要本體知識(shí)圖譜,有實(shí)體節(jié)點(diǎn)14個(gè),去除重復(fù)后有實(shí)例節(jié)點(diǎn)3 701個(gè)。

3.6 方志書目提要知識(shí)發(fā)現(xiàn)

(1)版本源流知識(shí)發(fā)現(xiàn)。將RDF格式的本體知識(shí)庫(kù)導(dǎo)入Neo4j后,可進(jìn)一步使用Cypher語(yǔ)言進(jìn)行知識(shí)檢索,有助于發(fā)現(xiàn)方志書目提要中來(lái)源方志與人物、版本之間的多維度的關(guān)聯(lián)關(guān)系。例如,輸入“MATCH(n:Resource)-[r]->(m:Resource)//WHERE n.ns0__方志題名=‘(弘治)重修無(wú)錫縣志’//RETURN m,n”可顯示《(弘治)重修無(wú)錫縣志》的人物及相關(guān)版本節(jié)點(diǎn)。與該方志相關(guān)的人物為吳翀、李庶與錢建中,其中吳、李二人是志書的編纂者,錢建中為該志書提要的撰寫者(評(píng)價(jià)者)。該方志版本包括“明弘治7年刻本(1494)”“抄本(1494—1950)”“無(wú)錫泰伯文獻(xiàn)館籌備處油印本(1950)”“油印本(1954)”。此外,由于清乾隆時(shí)期編修的《四庫(kù)全書》中也收錄了大量江蘇方志,《江蘇舊方志提要》也將《四庫(kù)全書》作為方志版本來(lái)源,因此可以通過(guò)Cypher檢索語(yǔ)言“MATCH(n:Resource)-[r]->(m:Resource)//WHERE m.ns0__版本名稱=‘清乾隆間《四庫(kù)全書》本(1773—1787)’// RETURN m,n”將收錄于《四庫(kù)全書》的所有江蘇方志檢索出來(lái),包括《(至正)金陵新志》《(至正)無(wú)錫志》《(紹定)吳郡志》《(嘉定)鎮(zhèn)江志》《(乾?。┙贤ㄖ尽?,也可以說(shuō)這些方志具有相同來(lái)源。

(2)人物與志書關(guān)系知識(shí)發(fā)現(xiàn)。方志書目提要中包含了大量人物信息,如志書的編纂者、提要的撰寫者等,通過(guò)相關(guān)檢索語(yǔ)句也可以深度挖掘人物與相關(guān)方志的關(guān)系。例如輸入Cypher語(yǔ)言“MATCH(n:Resource)-[r]->(m:Resource)//WHERE m.ns0__姓名=‘繆荃孫’//RETURN m,n”可以查找中國(guó)近代圖書館之父繆荃孫參與纂修的方志,包括《(民國(guó))秦淮廣記》《(民國(guó))江陰縣續(xù)志》以及《(民國(guó))江蘇省通志稿》。

方志提要撰寫者與相關(guān)方志的關(guān)系也很容易通過(guò)圖譜呈現(xiàn)出來(lái),如錢建中撰寫的方志提要如圖6所示。

此外,提要的撰寫者們?cè)谧珜懴嚓P(guān)方志提要內(nèi)容時(shí),一般選取自己較為熟悉的特定行政區(qū)劃的來(lái)源方志,這不僅有利于作者對(duì)相關(guān)地域的方志進(jìn)行全方位多維度的比較,進(jìn)而提升提要的編寫質(zhì)量,也能從整體上提高方志書目提要的編纂效率。例如,輸入Cypher語(yǔ)言“MATCH(n:Resource)-[:ns0__有人物]->(s:Resource)//WHERE s.ns0__姓名=‘何曉寧’AND n.ns0__地名 IS NOT NULL//RETURN s.ns0__姓名AS姓名,n.ns0__方志題名AS方志題名,n.ns0__地名AS地名”,可以查找到何曉寧撰寫的來(lái)源于南通地區(qū)的舊方志提要共7部:《(民國(guó))南通縣鄉(xiāng)土志》《州乘資》《(乾?。┲彪`通州志》《(道光)白蒲鎮(zhèn)志》《(民國(guó))二十年來(lái)之南通》《(康熙)通州志》《(同治)兩淮通州金沙場(chǎng)志》。

(3)方志書目提要內(nèi)容知識(shí)發(fā)現(xiàn)。方志書目提要內(nèi)容中除去方志簡(jiǎn)介、版本源流、相關(guān)人物、基本篇目等相關(guān)信息外,對(duì)志書的評(píng)價(jià)類信息如體例特點(diǎn)、社會(huì)影響等也是非常有價(jià)值的。本研究在對(duì)《江蘇舊方志提要》進(jìn)行數(shù)字化及數(shù)據(jù)化過(guò)程中,特地將體例特點(diǎn)、社會(huì)影響作為重要節(jié)點(diǎn)屬性,將提要中的該類內(nèi)容進(jìn)行了智能提取并存儲(chǔ)。因此,通過(guò)Cypher檢索語(yǔ)言,也可以很方便地將相關(guān)方志的體例特點(diǎn)與社會(huì)影響挖掘出來(lái),例如輸入“MATCH(p:ns0__方志)// WHERE p.ns0__方志題名IS NOT NULL AND p.ns0__體例特點(diǎn)IS NOT NULL//RETURN p.ns0__方志題名AS方志,p.ns0__體例特點(diǎn)AS體例特點(diǎn)”可獲得相關(guān)方志體例特點(diǎn)的表格,如表7所示。再如,輸入“MATCH(p:ns0__方志)//WHERE p.ns0__方志題名IS NOT NULL AND p.ns0__社會(huì)影響IS NOT NULL// RETURN p.ns0__方志題名AS方志,p.ns0__社會(huì)影響AS社會(huì)影響”可獲得方志的社會(huì)影響,如表8所示。

另外,從提要的內(nèi)容中還可以看出不同作者的提要撰寫風(fēng)格,對(duì)其進(jìn)行挖掘分析,有助于進(jìn)一步對(duì)方志書目提要質(zhì)量進(jìn)行評(píng)價(jià)。例如,輸入Cypher語(yǔ)言“MATCH(n:Resource)-[:ns0__有人物]->(s:Resource)//WHERE s.ns0__姓名=‘時(shí)覺非’AND n.ns0__體例特點(diǎn)IS NOT NULL//RETURN s.ns0__姓名AS姓名,n.ns0__方志題名AS方志題名,n.ns0__體例特點(diǎn)AS體例特點(diǎn)”以及“MATCH(n:Resource)-[:ns0__有人物]->(s:Resource)//WHERE s.ns0__姓名=‘何曉寧’AND n.ns0__體例特點(diǎn)IS NOT NULL// RETURN s.ns0__姓名AS姓名,n.ns0__方志題名AS方志題名,n.ns0__體例特點(diǎn)AS體例特點(diǎn)”可以分別得到時(shí)覺非和何曉寧所撰寫的相關(guān)方志提要的體例特點(diǎn),如表9與表10所示。

從檢索結(jié)果可以看出,相較而言,時(shí)覺非在撰寫提要時(shí)更注重旁征博引,如引用《四庫(kù)全書總目》《續(xù)修四庫(kù)全書提要》等典籍的內(nèi)容,還與前人所纂相關(guān)志書進(jìn)行了比較。

4 結(jié)語(yǔ)

書目提要作為我國(guó)古典文獻(xiàn)學(xué)的重要方法論之一,揭示了圖書主旨、內(nèi)容得失、學(xué)術(shù)源流、版本情況、社會(huì)價(jià)值及作者生平事跡等,可起到指引讀書門徑、幫助學(xué)人治學(xué)等知識(shí)服務(wù)之功效。地方志是我國(guó)特有的“一地之百科全書”,其書目提要的編纂也將有助于后世之人讀志、用志、修志,因此相關(guān)工作一直不輟。邁入數(shù)智時(shí)代,信息技術(shù)的跨越式發(fā)展大大改進(jìn)了人們獲取、占有及使用資料的方式,也催生出數(shù)字人文這一新興學(xué)科領(lǐng)域。在此背景下,知識(shí)組織理論及方法也廣泛應(yīng)用于各類古籍文獻(xiàn),成為“古籍活化”的重要先期工作。借助本體、關(guān)聯(lián)數(shù)據(jù)以及知識(shí)圖譜技術(shù),對(duì)方志書目提要這一特殊文獻(xiàn)類型展開語(yǔ)義化知識(shí)組織及知識(shí)發(fā)現(xiàn)的探索性研究,提出的知識(shí)組織框架不僅可深度揭示并激活方志書目提要中的各種顯性及隱性的語(yǔ)義知識(shí)要素,還可與其他開放網(wǎng)絡(luò)資源進(jìn)行知識(shí)關(guān)聯(lián)與知識(shí)聚合,實(shí)現(xiàn)方志書目提要數(shù)據(jù)的共享重用。同時(shí),以《江蘇舊方志提要》為例展開實(shí)證研究,一方面從技術(shù)層面展現(xiàn)方志書目提要“考鏡源流,辨章學(xué)術(shù)”的學(xué)術(shù)功能,為方志學(xué)研究人員及志書編修者提供精準(zhǔn)的輔助資料以及嶄新的研究視角;另一方面數(shù)字化內(nèi)容與可視化圖譜也為大眾科普方志知識(shí)、了解地方歷史文化提供了平臺(tái)。

囿于研究條件,本研究也有一些不足之處,例如實(shí)證案例選取的是單一省份的方志書目提要,數(shù)據(jù)量稍顯不足,且其知識(shí)特征與其他尤其是全國(guó)性的方志書目提要相比或有偏差,后續(xù)將進(jìn)一步擴(kuò)大研究范疇,對(duì)各種類型方志書目提要進(jìn)行數(shù)據(jù)化采集與知識(shí)化表示,以期實(shí)現(xiàn)不同方志書目提要之間的知識(shí)關(guān)聯(lián)、知識(shí)融合以及知識(shí)發(fā)現(xiàn)。此外,在人工智能技術(shù)不斷爆發(fā)式發(fā)展的今天,知識(shí)組織也面臨智能化應(yīng)用[41],通過(guò)大語(yǔ)言模型、GraphRAG等新技術(shù)來(lái)重塑、優(yōu)化方志書目提要的語(yǔ)義化知識(shí)組織過(guò)程將是下一階段研究工作的重點(diǎn)。

參考文獻(xiàn)

[1] 楊軍昌. 中國(guó)方志學(xué)概論[M]. 貴陽(yáng):貴州人民出版社,1999:310.

[2] 瞿宣穎. 方志考稿:甲集[M]. 北京:中國(guó)人民大學(xué)圖書館,1930.

[3] 金恩輝. 中國(guó)地方志總目提要[M]. 北京:漢美圖書有限公司,1996.

[4] 陳光貽. 稀見地方志提要[M]. 濟(jì)南:齊魯書社,1987.

[5] 《中國(guó)新編地方志總目提要》編纂委員會(huì). 中國(guó)新編地方志總目提要[M]. 北京:方志出版社,2006.

[6] 朱敏彥,上海通志館. 中國(guó)新方志10000種書目提要:上海通志館藏[M]. 上海:上海辭書出版社,2016.

[7] 譚烈飛,張明明. 北京方志提要[M]. 北京:中國(guó)書店出版社,2006.

[8] 徐復(fù),季文通. 中國(guó)地方志集成:江蘇舊方志提要[M]. 南京:江蘇古籍出版社,1993.

[9] 呂志偉. 新編地方志書目提要著述概述[J]. 上海地方志,2022(3):30-37,94.

[10] 巴兆祥. 論方志目錄學(xué)[J]. 新世紀(jì)圖書館,2003(3):31-36.

[11] 衡中青. 中國(guó)地方志目錄學(xué)整理述論[J]. 佛山科學(xué)技術(shù)學(xué)院學(xué)報(bào)(社會(huì)科學(xué)版),2011,29(6):57-62.

[12] 吳圣波. 論古代書目提要[J]. 圖書館論壇,1995(4):13-15,72.

[13] 王進(jìn),王振國(guó),宋詠梅. 古籍文獻(xiàn)視域下“提要”的文脈源流與時(shí)代詮釋[J]. 圖書館理論與實(shí)踐,2020(3):35-38.

[14] 楊薇. 論傳統(tǒng)書目提要的建構(gòu)與特征[J]. 江漢論壇,1999(10):18-21,27.

[15] 張婷凱. 中國(guó)古代書目提要的特征研究[J]. 圖書館研究與工作,2021(12):12-18.

[16] 彭清深. 文獻(xiàn)提要的嬗變及其編撰形式結(jié)構(gòu)分析[J]. 青海民族學(xué)院學(xué)報(bào),2005(3):148-151.

[17] 張瑜禎,劉旭青,柯平. 中國(guó)目錄學(xué)的提要方法論[J]. 圖書情報(bào)研究,2023,16(1):20-28.

[18] 李惠,陳濤,侯君明,等. 鉤玄提要:古籍目錄智能分析工具構(gòu)建[J]. 中國(guó)圖書館學(xué)報(bào),2021,47(4):97-112.

[19] 鄭翔,李明杰. 中國(guó)古代書目提要結(jié)構(gòu)功能識(shí)別研究:以《四庫(kù)全書總目》著錄的古代科技文獻(xiàn)為例[J]. 圖書館雜志,2022,41(12):96-103.

[20] 李文琦,王鳳翔,孫顯斌,等. 歷代史志目錄的數(shù)據(jù)集成與可視化[J]. 中國(guó)圖書館學(xué)報(bào),2023,49(1):82-98.

[21] 司莉,郭財(cái)強(qiáng). 基于內(nèi)容分析的數(shù)字人文領(lǐng)域中知識(shí)組織價(jià)值體現(xiàn)研究綜述[J]. 圖書情報(bào)工作,2022,66(13):127-137.

[22] 侯西龍,談國(guó)新,莊文杰,等. 基于關(guān)聯(lián)數(shù)據(jù)的非物質(zhì)文化遺產(chǎn)知識(shí)管理研究[J]. 中國(guó)圖書館學(xué)報(bào),2019,45(2):88-108.

[23] 曾子明,周知,蔣琳. 基于關(guān)聯(lián)數(shù)據(jù)的數(shù)字人文視覺資源知識(shí)組織研究[J]. 情報(bào)資料工作,2018(6):5-12.

[24] 張衛(wèi)東,張曉曉. 中醫(yī)古籍?dāng)?shù)字資源知識(shí)組織與可視化研究:以《金匱要略》為例[J]. 情報(bào)科學(xué),2022,40(8):107-117.

[25] 張志美,陳濤,錢智勇,等. 面向數(shù)字人文的辭書關(guān)聯(lián)數(shù)據(jù)知識(shí)組織[J]. 圖書館論壇,2021,41(12):124-134.

[26] 鄧君,王阮. 口述歷史檔案資源知識(shí)組織與關(guān)聯(lián)分析[J]. 情報(bào)資料工作,2021,42(5):58-67.

[27] 趙雪芹,李天娥. 面向數(shù)字人文的檔案領(lǐng)域本體構(gòu)建研究:以萬(wàn)里茶道檔案資料為例[J]. 情報(bào)理論與實(shí)踐,2022,45(8):154-161.

[28] 陳濤,張靖,趙宇翔,等. 數(shù)字人文實(shí)踐中特藏資源的關(guān)聯(lián)數(shù)據(jù)實(shí)現(xiàn)機(jī)制探索:以方志資源為例[J]. 情報(bào)理論與實(shí)踐,2022,45(7):180-187,147.

[29] 高勁松,周樹斌,高穎,等. 山水志史料資源語(yǔ)義知識(shí)關(guān)聯(lián)與多維知識(shí)發(fā)現(xiàn)研究[J]. 情報(bào)資料工作,2023,44(5):82-92.

[30] 徐晨飛. 數(shù)字人文視域下方志物產(chǎn)知識(shí)庫(kù)構(gòu)建研究[D]. 南京:南京農(nóng)業(yè)大學(xué),2020.

[31] 牛翊童. 基于知識(shí)圖譜的命名實(shí)體消歧方法研究[J]. 計(jì)算機(jī)產(chǎn)品與流通,2020(8):249-255.

[32] 陳濤,劉煒,單蓉蓉,等. 知識(shí)圖譜在數(shù)字人文中的應(yīng)用研究[J].中國(guó)圖書館學(xué)報(bào),2019,45(6):34-49.

[33] 翟羽佳,田靜文,趙玥. 基于BERT-BiLSTM-CRF模型的算法術(shù)語(yǔ)抽取與創(chuàng)新演化路徑構(gòu)建研究[J]. 情報(bào)科學(xué),2022,40(4):71-78.

[34] The Library of Congress. Bibliographic framework initiative[EB/OL]. [2024-12-29]. https://www.loc.gov/bibframe/ docs/bibframe2-model.html.

[35] BRICKLEY D,MILLER L. FOAF vocabulary specification 0.99[EB/OL]. [2024-12-29]. http://xmlns.com/foaf/spec/.

[36] DCMI Usage Board. DCMI metadata terms[EB/OL]. [2024-12-29]. https://www.dublincore.org/specifications/dublin-core/ dcmi-terms/.

[37] 上海圖書館. 本體服務(wù)中心[EB/OL]. [2024-12-29]. https://data. library.sh.cn/ont/ontology/search.

[38] 楊靜,楊崢,蔣蓓蓓. BIBFRAME2.0的模型特點(diǎn)及其未來(lái)應(yīng)用場(chǎng)景展望[J]. 圖書館研究與工作,2022(8):41-46.

[39] W3C. A direct mapping of relational data to RDF[EB/OL].[2024-08-12]. https://www.w3.org/TR/rdb-direct-mapping/.

[40] BERNERS-LEE T. Linked data [EB/OL]. [2024-09-21]. http:// www.w3.org/DesignIssues/LinkedData.html.

[41] 蘇新寧. 傳統(tǒng)知識(shí)組織方法的智能力[J]. 科技情報(bào)研究,2024,6(1):1-9.

作者簡(jiǎn)介

徐晨飛,博士,副教授,碩士生導(dǎo)師,研究方向:知識(shí)組織、數(shù)字人文,E-mail:zidane5@ntu.edu.cn。唐佳林,碩士研究生,研究方向:數(shù)據(jù)挖掘、知識(shí)組織。

Semantic Knowledge Organization and Knowledge Discovery of Bibliographic Summary of Local Chronicles

XU ChenFei1 TANG JiaLin2

(1. Management School, Nantong University, Nantong 226019, P. R. China; 2. Business School, Hohai University, Changzhou 213000, P. R. China)

Abstract: The bibliographic summary of local chronicles possesses rich intrinsic value, aiding users in better understanding and utilizing local chronicle resources. Based on an in-depth analysis of the internal and external characteristics of these summaries, this research proposes a semantic knowledge organization framework for bibliographic summary of local chronicles. Taking The Summary of Old Local Chronicles of Jiangsu as an example, empirical research is conducted through processes such as knowledge ontology design, linked data generation, and knowledge graph construction. By deeply organizing the semantic knowledge of bibliographic summary of local chronicles, various types of knowledge contained within can be interconnected, revealing more implicit knowledge and their significant role in “examining origins and distinguishing academic traditions”. This research activates the multidimensional knowledge embedded in the bibliographic summary of local chronicles, provides a reference for the semantic knowledge organization of other types of bibliographic materials, and enriches the application scenarios of digital humanities research in China.

Keywords: Bibliographic Summary of Local Chronicles; Semantic Knowledge Organization; Knowledge Discovery; Ontology; Linked Data; Knowledge Graph

(責(zé)任編輯:王瑋)

猜你喜歡
知識(shí)圖譜本體
Abstracts and Key Words
對(duì)姜夔自度曲音樂(lè)本體的現(xiàn)代解讀
國(guó)內(nèi)圖書館嵌入式服務(wù)研究主題分析
國(guó)內(nèi)外政府信息公開研究的脈絡(luò)、流派與趨勢(shì)
近十五年我國(guó)小學(xué)英語(yǔ)教學(xué)研究的熱點(diǎn)、問(wèn)題及對(duì)策
基于知識(shí)圖譜的產(chǎn)業(yè)集群創(chuàng)新績(jī)效可視化分析
基于知識(shí)圖譜的智慧教育研究熱點(diǎn)與趨勢(shì)分析
從《ET&S》與《電化教育研究》對(duì)比分析中管窺教育技術(shù)發(fā)展
《我應(yīng)該感到自豪才對(duì)》的本體性教學(xué)內(nèi)容及啟示
專題
曲麻莱县| 龙井市| 阳信县| 普兰县| 宁阳县| 开封市| 大港区| 谷城县| 石泉县| 镇赉县| 常德市| 都安| 洪泽县| 阳新县| 陇南市| 府谷县| 镇远县| 太仆寺旗| 洪泽县| 南通市| 阜宁县| 大连市| 河东区| 丰原市| 禄丰县| 临清市| 安阳市| 张家川| 山丹县| 长岛县| 雷山县| 金秀| 泰兴市| 台湾省| 吉林省| 长泰县| 通道| 大港区| 花莲市| 桐梓县| 区。|