国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)字人文領(lǐng)域的知識圖譜:研究進(jìn)展與未來趨勢

2022-03-21 04:06朱麗雅張洪亮羅紹輝蘭度
知識管理論壇 2022年1期
關(guān)鍵詞:數(shù)字人文知識圖譜

朱麗雅 張洪亮 羅紹輝 蘭度

關(guān)鍵詞:數(shù)字人文 ? ?知識圖譜 ? ?智慧數(shù)據(jù) ? ?數(shù)據(jù)資源建設(shè) ? ?語義挖掘

分類號:G252.8

引用格式:朱麗雅, 張珺, 洪亮, 等. 數(shù)字人文領(lǐng)域的知識圖譜:研究進(jìn)展與未來趨勢[J/OL]. 知識管理論壇, 2022, 7(1): 87-100[引用日期]. http://www.kmf.ac.cn/p/277/.

1 ?引言

數(shù)字人文(Digital Humanities, DH)起源于20世紀(jì)40年代末的人文計算。人文計算側(cè)重于對計算與人文學(xué)科之間的交叉領(lǐng)域進(jìn)行研究、學(xué)習(xí)與創(chuàng)新[1]。隨著時代的信息化程度不斷加深,以及數(shù)字資源的不斷增加,僅憑人文計算難以完成更高層次的學(xué)術(shù)發(fā)現(xiàn)。因此,數(shù)字人文的概念應(yīng)運(yùn)而生,它是在計算機(jī)技術(shù)、網(wǎng)絡(luò)技術(shù)、多媒體技術(shù)等新興技術(shù)支撐下開展人文研究而形成的新型跨學(xué)科研究領(lǐng)域[2]。在我國,如何通過數(shù)字化激發(fā)創(chuàng)新創(chuàng)造活力,推動文化產(chǎn)業(yè)邁向高質(zhì)量發(fā)展,從而更好地滿足人民群眾日益增長的精神文化需求,成為一項(xiàng)重要課題。例如,2019年中華人民共和國文化部發(fā)布的《文化部“十三五”時期文化產(chǎn)業(yè)發(fā)展規(guī)劃》中強(qiáng)調(diào)要促進(jìn)數(shù)字文化產(chǎn)業(yè)創(chuàng)新發(fā)展,包括推進(jìn)“文化+”和“互聯(lián)網(wǎng)+”戰(zhàn)略,促進(jìn)互聯(lián)網(wǎng)等高新科技在文化產(chǎn)業(yè)各環(huán)節(jié)的應(yīng)用。2020年,國家“十四五”規(guī)劃提出實(shí)施文化產(chǎn)業(yè)數(shù)字化戰(zhàn)略。隨著“數(shù)智時代”的到來和數(shù)字人文的興起,數(shù)字人文研究中的數(shù)據(jù)基礎(chǔ)設(shè)施和數(shù)字學(xué)術(shù)環(huán)境已經(jīng)成為數(shù)字人文資源開發(fā)利用的重要方面。

在研究數(shù)字人文的過程中,結(jié)合知識圖譜能為其帶來新的方法與新的思考。一方面,知識圖譜作為人工智能時代一種先進(jìn)的知識組織方式,能夠?yàn)閿?shù)字人文研究提供優(yōu)良的技術(shù)支持,去發(fā)掘那些以往在文本資源中看不見的模式和聯(lián)系。另一方面,知識圖譜作為智慧數(shù)據(jù)的表現(xiàn)形式,為數(shù)字資源的挖掘分析提供了基礎(chǔ),進(jìn)行大規(guī)模的知識圖譜構(gòu)建能夠提高建設(shè)智慧化數(shù)字人文系統(tǒng)的效率,并為該領(lǐng)域研究者以及其他想要了解人文學(xué)科的人員提供專業(yè)的、智能的知識服務(wù)。然而,數(shù)字人文領(lǐng)域知識圖譜的研究成果雖然多,但比較分散,缺少一個系統(tǒng)的體系。因此,本文將深入開展數(shù)字人文領(lǐng)域知識圖譜研究,并整合相關(guān)研究成果。

2 數(shù)字人文領(lǐng)域知識圖譜概念辨析與文獻(xiàn)收集

2.1 ?概念辨析

在圖書館和數(shù)字人文領(lǐng)域,知識圖譜的概念深深植根于知識組織系統(tǒng)[3]。數(shù)字人文領(lǐng)域知識圖譜旨在利用知識圖譜這一先進(jìn)的知識組織方式,對原本分散的、異構(gòu)的海量數(shù)據(jù)進(jìn)行整合,從而滿足領(lǐng)域?qū)W者的研究需求,并實(shí)現(xiàn)智能知識服務(wù)。與通用知識圖譜相比,數(shù)字人文領(lǐng)域的知識圖譜具有以下特點(diǎn):

首先,在數(shù)據(jù)方面,研究者已經(jīng)認(rèn)識到了傳統(tǒng)資源利用與開發(fā)模式的局限性,開始有意識地將數(shù)字人文領(lǐng)域普通的數(shù)字化資源轉(zhuǎn)為智慧化資源。從以往只具有檢索功能的數(shù)據(jù)庫形式逐漸轉(zhuǎn)變?yōu)榫哂型评矸治龉δ艿闹悄芷脚_形式,充分利用新的信息技術(shù)來深入挖掘知識。

其次,數(shù)字人文領(lǐng)域知識圖譜立足于學(xué)者導(dǎo)向的研究需求,其目的和通用知識圖譜不同,不是要求涵蓋各范圍廣泛的知識以實(shí)現(xiàn)全方面的知識檢索,而是在實(shí)現(xiàn)大范圍的知識覆蓋的基礎(chǔ)上,構(gòu)建更為全面的知識體系,來搭建支持智慧化的領(lǐng)域知識服務(wù)平臺。

最后,數(shù)字人文知識圖譜所涉及的領(lǐng)域較為廣泛,在構(gòu)建知識圖譜的過程中,需要充分考慮不同研究領(lǐng)域的影響。例如,周莉娜等[4]在構(gòu)建唐詩知識圖譜時提出,由于唐詩知識涉及到詩學(xué)、文獻(xiàn)學(xué)、史學(xué)這三大領(lǐng)域,通過分析三大領(lǐng)域現(xiàn)存的未決問題,就能夠較為全面地發(fā)掘出唐詩知識圖譜的構(gòu)建需求。因此,數(shù)字人文領(lǐng)域知識圖譜與通用知識圖譜在構(gòu)建方法上也存在諸多不同,尤其體現(xiàn)在本體構(gòu)建、知識抽取、知識推理等構(gòu)建技術(shù)中。

2.2 ?文獻(xiàn)收集

2.2.1 ?文獻(xiàn)來源

(1)檢索范圍。本文的研究文獻(xiàn)主要通過國內(nèi)外數(shù)據(jù)庫獲取??紤]到研究的新穎性,選取了2010年至2021年的文獻(xiàn)。國內(nèi)文獻(xiàn)來源于中國知網(wǎng),選擇圖書情報類的學(xué)術(shù)核心期刊,如《中國圖書館學(xué)報》《情報學(xué)報》《數(shù)據(jù)分析與知識發(fā)現(xiàn)》等期刊;國外文獻(xiàn)來源于WOS、Elsevier、EBSCO及Springer 等數(shù)據(jù)庫,選擇Information Science & Library Science領(lǐng)域的學(xué)術(shù)核心期刊,如MIS Quarterly、Journal of Information Technology、International Journal of Information Management等期刊。

(2)檢索關(guān)鍵詞。國內(nèi)數(shù)據(jù)庫以“數(shù)字人文”“知識圖譜”為檢索詞,國外數(shù)據(jù)庫以“digital humanities”“knowledge graph”為檢索詞,分別采用標(biāo)題、主題途徑進(jìn)行檢索,并對檢索結(jié)果進(jìn)行篩選、去重、勘誤,去除了與主題關(guān)聯(lián)度較低的文獻(xiàn)??紤]到僅采用以上兩個關(guān)鍵詞進(jìn)行檢索具有局限性,無法深入反映知識圖譜在數(shù)字人文領(lǐng)域中的具體研究內(nèi)容,又選取“智慧數(shù)據(jù)”(smart data)、“本體”(ontology)、“知識抽取”(knowledge extraction)、“關(guān)聯(lián)數(shù)據(jù)”(linked data)”等作為檢索詞來挖掘知識圖譜在數(shù)字人文研究中的具體應(yīng)用,保證檢索結(jié)果可以較為全面地覆蓋數(shù)字人文領(lǐng)域的代表性研究成果,并再次對檢索結(jié)果進(jìn)行篩選、去重、勘誤。最終得到國內(nèi)文獻(xiàn)131篇、國外文獻(xiàn)187篇作為初始樣本。

2.2.2 ? 研究熱點(diǎn)簡述

整體而言,數(shù)字人文領(lǐng)域知識圖譜的研究呈現(xiàn)出多學(xué)科、文理交融的特點(diǎn),涵蓋了歷史學(xué)、文獻(xiàn)學(xué)、計算機(jī)科學(xué)、管理學(xué)、圖書館學(xué)等多種學(xué)科。它將過去研究中容易割裂的技術(shù)與文化進(jìn)行了有機(jī)融合,利用其他學(xué)科豐富的數(shù)據(jù)資源與成熟的實(shí)踐體系,為數(shù)字人文領(lǐng)域知識圖譜研究帶來有力的基礎(chǔ)支撐,極大地豐富了該領(lǐng)域的研究內(nèi)容,對推進(jìn)數(shù)字人文智慧化研究體系具有重大意義。研究的主要熱點(diǎn)集中在以下3個方面:

(1)數(shù)字人文領(lǐng)域數(shù)據(jù)資源建設(shè)。此類研究是國內(nèi)外數(shù)字人文領(lǐng)域知識圖譜的研究起點(diǎn),主要探索與數(shù)字人文領(lǐng)域相關(guān)的各類數(shù)據(jù)資源建設(shè),包括古籍文獻(xiàn)、圖像、視頻、音頻等各類結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù)源。F. Kaplan[5]將數(shù)字人文的大數(shù)據(jù)研究作為一個結(jié)構(gòu)化的研究領(lǐng)域,提出了三個同心研究領(lǐng)域的劃分。在其基礎(chǔ)上,國內(nèi)外學(xué)者就數(shù)字人文領(lǐng)域數(shù)據(jù)資源分類、特色、數(shù)字化方法等問題進(jìn)行了深入研究,如董政娥等[6]針對數(shù)字人文特點(diǎn),對數(shù)字人文文獻(xiàn)資源進(jìn)行了調(diào)查。數(shù)據(jù)資源建設(shè)作為數(shù)字人文知識圖譜構(gòu)建的基礎(chǔ)步驟,能夠?yàn)槠涮峁?shù)據(jù)源支持。

(2)數(shù)字人文知識圖譜構(gòu)建技術(shù)。此類研究是數(shù)字人文領(lǐng)域知識圖譜研究中的重點(diǎn),利用各類數(shù)字人文領(lǐng)域數(shù)據(jù)源,面向數(shù)字人文領(lǐng)域數(shù)據(jù)的特點(diǎn),研究本體構(gòu)建、知識抽取、消歧等問題,解決不同知識圖譜的融合和跨語言實(shí)體的對齊問題。在這類文獻(xiàn)中,國內(nèi)的起步雖然較晚,但是針對我國的文化特色開創(chuàng)了不少針對性研究,如陳濤等[7]構(gòu)建的SinoPedia平臺,采用RDF三元組對目前公共領(lǐng)域的百科概念術(shù)語賦予唯一的URI進(jìn)行資源的持久化,有助于中文知識圖譜和中文領(lǐng)域本體的標(biāo)準(zhǔn)化和推廣應(yīng)用。

(3)數(shù)字人文知識圖譜平臺智能應(yīng)用。此類研究是數(shù)字人文領(lǐng)域知識圖譜研究發(fā)展的必然路徑,主要著重于數(shù)字人文中的關(guān)聯(lián)數(shù)據(jù)技術(shù)運(yùn)用,以支持大規(guī)模、可重用的數(shù)字人文研究,如R. Hoekstra等[8]介紹了數(shù)字人文數(shù)據(jù)管理項(xiàng)目的生態(tài)周期,在數(shù)字人文領(lǐng)域使用關(guān)聯(lián)數(shù)據(jù)技術(shù)能使研究人員以靈活的方式發(fā)布和使用數(shù)據(jù)。此外,也著重于通過對數(shù)據(jù)的重新組織構(gòu)建,將其轉(zhuǎn)化為能夠支持領(lǐng)域研究的“智慧數(shù)據(jù)”,并形成全局知識網(wǎng)絡(luò),為社會公眾、科研人員、科研機(jī)構(gòu)等提供開源共享的智能知識服務(wù)[9]。

根據(jù)以上文獻(xiàn)收集后整理出的研究熱點(diǎn),下文將從數(shù)字人文領(lǐng)域數(shù)據(jù)資源建設(shè)、數(shù)字人文知識圖譜構(gòu)建技術(shù)、數(shù)字人文知識圖譜平臺智能應(yīng)用三個方面進(jìn)行詳細(xì)討論。

3 ?數(shù)字人文領(lǐng)域數(shù)據(jù)資源建設(shè)

數(shù)字人文領(lǐng)域資源建設(shè)需經(jīng)過3個階段,如圖1所示。

第一階段是進(jìn)行數(shù)據(jù)集的構(gòu)建,目的是實(shí)現(xiàn)資料的電子化,并以數(shù)據(jù)庫等形式儲存[10];第二個階段是將結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)以及非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化成RDF結(jié)構(gòu)化數(shù)據(jù),實(shí)現(xiàn)語法層面的統(tǒng)一;最后一步則是通過本體融合和資源關(guān)聯(lián)來實(shí)現(xiàn)關(guān)聯(lián)不同數(shù)據(jù)源的資源,實(shí)現(xiàn)資源的分布式融合,進(jìn)而實(shí)現(xiàn)語義層面的統(tǒng)一。

3.1 ?實(shí)現(xiàn)領(lǐng)域資源數(shù)字化

數(shù)據(jù)集的構(gòu)建位于數(shù)字人文應(yīng)用流程的基礎(chǔ)階段,GLAMs(Galleries, Libraries, Archives and Museums,藝術(shù)館、圖書館、檔案館和博物館)在數(shù)據(jù)積累方面有較大的優(yōu)勢,因此他們一般是數(shù)據(jù)集構(gòu)建的主體機(jī)構(gòu),將紙質(zhì)材料信息進(jìn)行數(shù)字化并對其進(jìn)行組織。數(shù)字人文數(shù)據(jù)主要是文本形式,同時還有一些多源數(shù)據(jù)形式,例如圖片、音頻、視頻、3D等數(shù)據(jù)。針對不同的數(shù)據(jù)資源形式,也存在著不同的構(gòu)建技術(shù),下文將對不同的領(lǐng)域資源數(shù)字化過程進(jìn)行分析。

(1)文本資料。文本資料包括地方古典文本資料、圖書、筆跡、家譜資料等,這些文本資料需通過圖像技術(shù)記錄和保存原始文檔的外觀結(jié)構(gòu)和內(nèi)容,這一過程主要利用圖像感光技術(shù)(Charge-Coupled Device,CCD)、圖像傳感技術(shù)(Complementary Metal Oxide Semiconductor,CMOS)等技術(shù)來對資源進(jìn)行采集,這一過程需要與圖像光學(xué)字符識別(ORC)結(jié)合使用,使圖像轉(zhuǎn)化為計算機(jī)可識別的ASCII碼,再轉(zhuǎn)化為文本資源,同時需要機(jī)器學(xué)習(xí)來實(shí)現(xiàn)識別任務(wù)。例如M. Kestemont等[11]著重研究中世紀(jì)拉丁手稿,通過卷積神經(jīng)網(wǎng)絡(luò)對手稿進(jìn)行識別,并對自動分類的可行性進(jìn)行了闡釋。

(2)圖片。圖片包括地圖、畫作、壁畫等,其電子化方法與文本資料類似,主要使用OCR與機(jī)器學(xué)習(xí)技術(shù)進(jìn)行掃描與識別任務(wù)。如S. A. Oliveira等[12]著眼于19世紀(jì)初威尼托地區(qū)的拿破侖卡德斯地圖,提出了第一個可以自動分割和解釋19世紀(jì)初威尼托地區(qū)的拿破侖卡德斯地圖的全自動系統(tǒng),該系統(tǒng)使用機(jī)器視覺算法來提取出每個碎片的幾何圖形,并進(jìn)一步對手寫的標(biāo)簽進(jìn)行分類、讀取和解釋。

(3)3D數(shù)據(jù)。3D數(shù)據(jù)有文物、器皿、雕塑等。3D數(shù)據(jù)數(shù)字化是利用攝影、數(shù)字化掃描及編輯等最新的技術(shù)手段對信息進(jìn)行數(shù)字化存儲或重新構(gòu)建三維數(shù)字模型,最后使用相關(guān)軟件進(jìn)行數(shù)字化還原[13]。三維掃描技術(shù),可以根據(jù)需求,記錄文物最真實(shí)、最全面的形態(tài)特征。如今,3D掃描技術(shù)越來越多地應(yīng)用于文物保護(hù)領(lǐng)域。這種方法使文物的展示和檢索更加數(shù)字化。同時,該技術(shù)的應(yīng)用也更有利于文物研究、文物共享和文物傳播。這一方面國外起步較早,有影響力的項(xiàng)目多,國內(nèi)盡管起步晚,但也取得了不少有效的成果。比較著名的項(xiàng)目是斯坦福大學(xué)曾經(jīng)開展的“米開朗基羅項(xiàng)目”,該項(xiàng)目針對世界著名的雕塑進(jìn)行三維掃描,對其進(jìn)行數(shù)字化保護(hù)。

(4)音視頻。音視頻數(shù)據(jù)包括訪談、紀(jì)錄片等多媒體數(shù)據(jù)。對音視頻進(jìn)行數(shù)字化即是利用技術(shù)對其進(jìn)行掃描、翻拍、轉(zhuǎn)錄,進(jìn)而實(shí)現(xiàn)數(shù)字化。近年來,聲像檔案搶救性保護(hù)逐漸成為重點(diǎn)研究方向之一,與此同時,結(jié)合數(shù)字技術(shù)也逐漸成為一種必然趨勢[14]。要使音頻檔案與視頻檔案得到長久保存并被更多人利用,數(shù)字化是一種較為可行的方法[15]。因此,在音視頻數(shù)字化的過程中,對其進(jìn)行修復(fù)是其中非常重要的一個環(huán)節(jié),例如內(nèi)蒙古自治區(qū)檔案館通過COOL EDIT PRO2.1與ADOBE AUDITION CC等修復(fù)軟件對音頻文件進(jìn)行數(shù)字化修復(fù),首先將音量標(biāo)準(zhǔn)化提高,其次進(jìn)行音量降噪處理,最后手工干預(yù)殘存噪點(diǎn);至于視頻修復(fù),則要堅(jiān)持“最小干預(yù)”的修復(fù)原則,在“聽清楚、看清楚”的基礎(chǔ)之上,最大化保留音視頻檔案的原始憑證作用[16]。

3.2 ?實(shí)現(xiàn)資源語法層面的統(tǒng)一

隨著科技發(fā)展,人工智能、智慧數(shù)據(jù)等不斷進(jìn)入人們的視野,各行各業(yè)對其研究也不斷加深,正推動著數(shù)字人文發(fā)展從“互聯(lián)”走向“智聯(lián)”。人文學(xué)科的數(shù)據(jù)資源類型多樣、來源多源、數(shù)據(jù)海量、環(huán)境異構(gòu),因此在該領(lǐng)域進(jìn)行數(shù)據(jù)資源建設(shè)需要實(shí)現(xiàn)語法和語義層面的統(tǒng)一,由此來有效解決存在的諸如數(shù)據(jù)異構(gòu)、實(shí)體消歧、關(guān)聯(lián)共享等問題,實(shí)現(xiàn)數(shù)據(jù)的語義增強(qiáng)和價值提升。

對于結(jié)構(gòu)化數(shù)據(jù),通常采用RDB2RDF的方法進(jìn)行轉(zhuǎn)換,如使用D2R工具、R2RML映射語言[17]等。EXCEL和CSV文件也具有結(jié)構(gòu)化數(shù)據(jù)的特點(diǎn),可以使用OpenRefine來進(jìn)行數(shù)據(jù)轉(zhuǎn)換。半結(jié)構(gòu)化數(shù)據(jù)是介于結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)之間的一種數(shù)據(jù),可以被看成是結(jié)構(gòu)化數(shù)據(jù)的一種形式,并不符合關(guān)系型數(shù)據(jù)庫的數(shù)據(jù)模型結(jié)構(gòu),但包含相關(guān)標(biāo)記,可以用來分隔語義元素以及對記錄和字段進(jìn)行分層,因此它也被稱為自描述的結(jié)構(gòu)。我們可以使用XML2RDF或JSON2RDF等工具來實(shí)現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)向RDF結(jié)構(gòu)數(shù)據(jù)的轉(zhuǎn)換,這一過程被稱為RDFizer實(shí)現(xiàn)。非結(jié)構(gòu)化的文本數(shù)據(jù)需要結(jié)合自然語言處理(NLP)和命名實(shí)體識別(NER)技術(shù),抽取出結(jié)構(gòu)化數(shù)據(jù),再進(jìn)行RDF轉(zhuǎn)換。而對于圖像和音頻視頻文件的結(jié)構(gòu)提取,主要先通過目標(biāo)檢測識別出資源實(shí)體,再進(jìn)行轉(zhuǎn)換。

3.3 ?實(shí)現(xiàn)資源語義層面的統(tǒng)一

結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)資源統(tǒng)一轉(zhuǎn)化成 RDF結(jié)構(gòu)的數(shù)據(jù)后,只是達(dá)成了語法層面的統(tǒng)一,為實(shí)現(xiàn)語義層面的統(tǒng)一,為實(shí)現(xiàn)資源的分布式融合,還需要將本地RDF數(shù)據(jù)集與對外開放的關(guān)聯(lián)數(shù)據(jù)資源進(jìn)行關(guān)聯(lián)。

不同數(shù)據(jù)源資源之間的語義關(guān)聯(lián),通常通過本體融合和資源關(guān)聯(lián)兩步來完成:

(1)本體融合。目前本體融合的研究主要集中于尋找本體之間的映射,隨著本體技術(shù)的發(fā)展,通過本體概念、實(shí)例及屬性之間的語義匹配機(jī)制和映射方法,實(shí)現(xiàn)本體最小元素之間的相似對應(yīng)關(guān)系,從而實(shí)現(xiàn)本體的最終融合[18]。目前國內(nèi)外對本體融合的研究越來越多, 也有許多成熟的本體融合系統(tǒng),如PROMPT、GLUE等。AnchorPROMPT[19]是由斯坦福大學(xué)開發(fā)的用來尋找本體之間映射的工具,該工具首先進(jìn)行概念比較,然后利用本體結(jié)構(gòu)判斷可能相似的本體成分,但是對于復(fù)雜概念和關(guān)系的本體映射,AchorPROMPT則無法處理。GLUE[20]是基于實(shí)例的本體映射生成系統(tǒng)之一,利用機(jī)器學(xué)習(xí)技術(shù),根據(jù)分類本體尋找本體間1:1的映射。M. Lamé等[21]提出一種新的本體對齊框架,能夠使文化遺產(chǎn)數(shù)據(jù)提供者生成定義良好且形式化良好的術(shù)語。

(2)資源關(guān)聯(lián)。不同機(jī)構(gòu)在將實(shí)體數(shù)據(jù)進(jìn)行RDF結(jié)構(gòu)化的過程中,往往會用各自機(jī)構(gòu)的域名來定義資源的URL地址,這些資源之間需要進(jìn)行關(guān)聯(lián)操作??梢允褂肔IMES、SILK、LDIF等工具和框架來進(jìn)行不同資源之間的自動化關(guān)聯(lián),主要原理是通過機(jī)器學(xué)習(xí)和字符相似度的一些算法來進(jìn)行資源屬性值的對比。

4 ?數(shù)字人文領(lǐng)域知識圖譜關(guān)鍵構(gòu)建技術(shù)

4.1 ?數(shù)字人文領(lǐng)域知識圖譜構(gòu)建框架

關(guān)聯(lián)數(shù)據(jù)和廣義知識圖譜都是用節(jié)點(diǎn)和邊來表示實(shí)體和關(guān)系,本文主要探討如何用關(guān)聯(lián)數(shù)據(jù)來解釋廣義知識圖譜中的技術(shù)。關(guān)聯(lián)數(shù)據(jù)表示的語義知識圖譜中的實(shí)體必須以RDF命名,不同圖譜之間具有標(biāo)準(zhǔn)的SPQRQL查詢語言,因此可以解決知識表示和網(wǎng)絡(luò)服務(wù)問題。數(shù)字人文領(lǐng)域知識圖譜與通用知識圖譜的構(gòu)建方法存在諸多不同,尤其體現(xiàn)在本體構(gòu)建、知識抽取、知識融合等構(gòu)建技術(shù)中。本節(jié)將知識圖譜的構(gòu)建技術(shù)和數(shù)字人文領(lǐng)域的知識特點(diǎn)相結(jié)合,在通用知識圖譜的結(jié)構(gòu)框架基礎(chǔ)上,對數(shù)字人文領(lǐng)域的知識圖譜構(gòu)建框架進(jìn)行歸納,如圖2所示:

4.2 ?關(guān)鍵構(gòu)建技術(shù)分析

4.2.1 ?本體構(gòu)建

本體根據(jù)其描述的目標(biāo)范圍,可分為通用本體和領(lǐng)域本體。前者旨在建立可廣泛應(yīng)用于不同場景的本體知識,是對通用類知識的一種規(guī)范描述;后者則是對具體領(lǐng)域建立相對應(yīng)的知識規(guī)范描述[22]。

目前主流的本體構(gòu)建方法分為人工構(gòu)建和基于機(jī)器學(xué)習(xí)的自動化或半自動化構(gòu)建兩種。前者依靠領(lǐng)域?qū)<业闹R及經(jīng)驗(yàn),因此成本高且效率低下,與此同時,不同專家對同一事物的理解也不盡相同,因此人工構(gòu)建的可拓展性較差。后者是指在已建立的本體語義框架下,結(jié)合自然語言處理、機(jī)器學(xué)習(xí)等技術(shù)從語料中自動抽取相關(guān)術(shù)語及屬性關(guān)系,目前這種構(gòu)建方法已經(jīng)逐漸成為主流。

國外在領(lǐng)域本體的構(gòu)建方法上的系統(tǒng)分析研究已經(jīng)較為成熟,通過文獻(xiàn)分析可知,國外典型的本體構(gòu)建方法有8種,分別為:IDEF5法、骨架法、TOVE法、METHONTOLOGY法、KACTUS工程法、SENSUS法、七步法以及循環(huán)獲得法[23]。相較之下,國內(nèi)起步較晚,技術(shù)相對落后,因此需要借鑒國外的構(gòu)建方法,同時結(jié)合新的內(nèi)容,形成新的觀點(diǎn)方法。目前國內(nèi)比較有代表性的本體構(gòu)建方法主要有兩種,分別是基于敘詞表的構(gòu)建方法和基于本體論工程法的半自動化與自動化構(gòu)建方法[24]。

近年來,一些學(xué)者構(gòu)建了一些大型通用本體,如DBPedia Ontology、YAGO等。自然科學(xué)領(lǐng)域中大型實(shí)用化的領(lǐng)域本體發(fā)展迅速,因?yàn)槠涓拍铋g的關(guān)系比較明確。目前比較有影響力的領(lǐng)域本體有GeoNames Ontology、The Drug Ontology、UMLS SemNet、Gene Ontology及SNOMED等[25]。與自然科學(xué)領(lǐng)域不同,在頂層語義框架難以界定、概念關(guān)系較為靈活的人文社會科學(xué)領(lǐng)域中,大規(guī)模的實(shí)用化本體則較為少見[26]。部分學(xué)者嘗試開展對歷史哲學(xué)等相關(guān)領(lǐng)域的本體構(gòu)建研究,如國史本體、二十四史本體、哲學(xué)本體等 [27-28];鄧君等[29]針對檔案領(lǐng)域構(gòu)建了口述歷史檔案資源領(lǐng)域本體模型,有助于檔案領(lǐng)域?qū)W者展開深層次研究;與此同時,在戲劇、民俗等領(lǐng)域,一些學(xué)者利用元數(shù)據(jù)、本體技術(shù)等進(jìn)行信息資源描述和組織[30]。

在語義環(huán)境下,領(lǐng)域本體的應(yīng)用已成為一種必然,雖然國內(nèi)目前的構(gòu)建方法還不夠完善,但自動化及半自動化的構(gòu)建方法必將是未來的發(fā)展趨勢。領(lǐng)域本體構(gòu)建的進(jìn)一步優(yōu)化將著眼于以下幾個方面:建立完善的評價機(jī)制,提高本體的重用性以及注重本體的共享性。同時,構(gòu)建數(shù)字人文學(xué)科領(lǐng)域的大規(guī)模的實(shí)用化本體也將成為日后學(xué)者研究的重要方向之一。

4.2.2 ?知識抽取

隨著自然語言處理技術(shù)的不斷發(fā)展,數(shù)字人文領(lǐng)域內(nèi)知識抽取的方法已經(jīng)趨向于成熟,主要可以分為兩個角度:基于規(guī)則的方法和基于統(tǒng)計學(xué)習(xí)的方法。

基于規(guī)則進(jìn)行知識抽取的核心要點(diǎn),就是關(guān)系規(guī)則的定義和規(guī)則兩邊的實(shí)體抽取,規(guī)則的精確度直接影響著所抽取知識的質(zhì)量。在數(shù)字人文領(lǐng)域,基于規(guī)則的方法需要考慮詞語之間的搭配關(guān)系和上下文語境。該方法具有準(zhǔn)確率高、構(gòu)建方法簡單的優(yōu)點(diǎn)。例如,劉悠然等[31]提出了一種基于規(guī)則的古漢語句型統(tǒng)計方法,該方法在標(biāo)注高頻字后,便能依據(jù)設(shè)定的約束規(guī)則對未標(biāo)注字詞進(jìn)行標(biāo)注并統(tǒng)計句型,從而簡化古漢語研究過程中的人工統(tǒng)計工作。該統(tǒng)計方法在約束規(guī)則設(shè)置合理的情況下,對句型統(tǒng)計的正確率能夠高于95%。但是,該方法也同時具有諸多局限性。尤其是對于數(shù)字人文領(lǐng)域內(nèi)的文本,規(guī)則的針對性比較強(qiáng),也就代表著其泛化能力較弱。例如,謝明鴻等[32]提出了通過固定句式搭配規(guī)則來識別人物關(guān)系,但由于中文文本的表達(dá)方式十分多樣,會出現(xiàn)預(yù)測結(jié)果和實(shí)際不一致的情況。如果需要獲得更好的抽取效果,就要重新制定新的規(guī)則。因此,數(shù)字人文領(lǐng)域的研究者更傾向于采用基于統(tǒng)計機(jī)器學(xué)習(xí)的方法。

基于統(tǒng)計機(jī)器學(xué)習(xí)的方法在數(shù)字人文領(lǐng)域得到了越來越廣泛的應(yīng)用,相比于基于規(guī)則的方法,基于統(tǒng)計學(xué)習(xí)的方法不需要構(gòu)建規(guī)則,一般都是自動地從訓(xùn)練語料中學(xué)習(xí)參數(shù)。例如,L. L. Liu等[33]采用基于條件隨機(jī)場的方法對用于歷史研究的文學(xué)漢語命名實(shí)體的算法識別進(jìn)行了研究。該方法在測試中的表現(xiàn)良好,從《地方志》中抽取出了大量人名和地名,用于豐富中國傳記數(shù)據(jù)庫(CBDB)。秦賀然等[34]利用TextRank模型對古漢語文本進(jìn)行關(guān)鍵詞抽取。通過實(shí)驗(yàn),利用TextRank模型抽取了《春秋經(jīng)傳》中的關(guān)鍵詞,準(zhǔn)確度能達(dá)到84%,這些關(guān)鍵詞能夠讓數(shù)字人文領(lǐng)域的學(xué)者快速地了解到春秋時期的歷史事件和春秋的時代面貌。并且,該模型的應(yīng)用空間也十分廣泛,不但能用于古漢語文本,而且也能應(yīng)用于現(xiàn)代漢語,例如構(gòu)建自動摘要系統(tǒng)。

綜合來看,為了獲取更豐富的數(shù)據(jù)以支持?jǐn)?shù)字人文領(lǐng)域內(nèi)知識圖譜的構(gòu)建,可以在抽取之前進(jìn)行數(shù)據(jù)預(yù)處理,減少抽取時間,提高準(zhǔn)確率。也可以將基于規(guī)則和基于統(tǒng)計的方法相結(jié)合,由于數(shù)字人文領(lǐng)域的實(shí)體和關(guān)系具有一定的特征,可以通過人工少量標(biāo)注之后,自動生成規(guī)則,同樣也有利于提高領(lǐng)域內(nèi)知識抽取的精度和效率。

4.2.3 ?知識融合

傳統(tǒng)的知識融合問題主要涉及三方面,分別為知識融合框架、知識融合算法以及知識融合應(yīng)用。知識融合算法可分為兩類,分別是基于信息融合技術(shù)的知識融合算法和基于融合規(guī)則的知識融合算法,其中,大部分知識融合框架都是基于本體來構(gòu)建的[35]。知識融合算法基于信息融合技術(shù)和基于規(guī)則的知識融合算法。針對前者,很多研究都是借鑒信息融合算法, 將其移植到知識融合中, 構(gòu)造針對知識融合的全新算法?;贐ayes方法、D-S理論、蟻群優(yōu)化算法的3種知識融合方法是融合決策處理的流行方法。周芳等[36]在知識管理領(lǐng)域中, 通過融合處理, 提高了結(jié)果可信度,并提升實(shí)現(xiàn)系統(tǒng)任務(wù)目標(biāo)的能力。后者則是通過找尋信息之間的關(guān)聯(lián),用規(guī)則來進(jìn)行知識表示。

而在數(shù)字人文領(lǐng)域,針對其特點(diǎn),知識融合主要用于在不同來源實(shí)體間建立關(guān)聯(lián)關(guān)系,將從多個分布式異構(gòu)信息來源中發(fā)現(xiàn)的數(shù)據(jù)進(jìn)行整合,同時進(jìn)行識別和判斷,消除可能存在的歧義、數(shù)據(jù)冗余和不確定性等問題,最終形成新的知識[37]。知識融合可以有效解決在數(shù)字人文領(lǐng)域所存在的數(shù)據(jù)異構(gòu)、實(shí)體消歧、關(guān)聯(lián)共享等問題,實(shí)現(xiàn)數(shù)據(jù)的語義增強(qiáng)和價值提升。如陳濤等[38]在構(gòu)建CBDBLD(CBDB關(guān)聯(lián)數(shù)據(jù)平臺)時,將轉(zhuǎn)換的RDF數(shù)據(jù)與上海圖書館人名規(guī)范庫、VIAF、DBPedia等數(shù)據(jù)集進(jìn)行關(guān)聯(lián),采用SILK或者LIMES框架進(jìn)行關(guān)聯(lián);F. Frontini等[39]提出了一種算法,來自動消除法國文學(xué)批評語料庫中所被提及的歧義,其成功地將通用知識庫(如DBpedia)與特定領(lǐng)域的知識庫結(jié)合在一起。

4.2.4 ?知識推理

知識推理是針對知識圖譜中已有事實(shí)或關(guān)系的不完備性,挖掘或推斷出未知或隱含的語義關(guān)系。一般而言,知識推理的對象可以為實(shí)體、關(guān)系和知識圖譜的結(jié)構(gòu)等。目前主要有基于邏輯規(guī)則的知識推理、基于嵌入表示的知識推理以及基于神經(jīng)網(wǎng)絡(luò)的知識推理三類方法。作為知識圖譜的核心功能之一,知識推理為解決數(shù)字人文歷史性所帶來的知識的不完備和不確定提供了思路,但在當(dāng)前的數(shù)字人文項(xiàng)目中還少有成熟應(yīng)用。

基于路徑規(guī)則的知識推理通過隨機(jī)采樣提取到的關(guān)系路徑特征來提高計算效率,但是降低了知識圖譜中信息的利用率;同時利用監(jiān)督學(xué)習(xí)方法建立的關(guān)系推力模型很大程度上會受到訓(xùn)練數(shù)據(jù)的影響。對此,劉嶠等[40]提出雙向語義假設(shè),對全局關(guān)系進(jìn)行推理,結(jié)合局部模塊進(jìn)行加權(quán)合并,最終得到完整的邏輯規(guī)則推理算法。周莉娜[41]提出了面向本體構(gòu)建的領(lǐng)域知識推理框架,通過TPO4DK模型,構(gòu)造形式化的推理規(guī)則,對唐代詩人之間以及詩歌—詩人本體中的詩人流派屬性、詩歌題材與主題屬性進(jìn)行知識推理,實(shí)現(xiàn)對唐詩文獻(xiàn)學(xué)的版本證偽的應(yīng)用。陸泉等[42]提出一種基于OWL語言的模糊本體表現(xiàn)模型,通過SWRL語言表示精確規(guī)則和模糊規(guī)則,構(gòu)建面向知識發(fā)現(xiàn)的推理模型。該模型可以同時描述精確知識和模糊知識,簡化了對模糊知識的表示和處理;同時,數(shù)字人文資源所蘊(yùn)含的多源異構(gòu)數(shù)據(jù),特別是圖像數(shù)據(jù)資源之間的語義關(guān)系和概念層次結(jié)構(gòu)也推動領(lǐng)域內(nèi)的知識推理,如周知等[43]參考Eakins圖像語義層次模型和王曉光等人提出的數(shù)字圖像語義描述層次模型[44],對圖像資源的語義進(jìn)行了多層描述,實(shí)現(xiàn)實(shí)體之間、概念之間的深度關(guān)聯(lián),滿足知識推理的需要。

基于嵌入表示的知識推理技術(shù)優(yōu)勢同樣明顯。通過將圖結(jié)構(gòu)中隱含的關(guān)聯(lián)信息映射到歐氏空間,使得原本難以發(fā)現(xiàn)的關(guān)聯(lián)關(guān)系變得顯而易見。因此,基于嵌入表示的推理是知識圖譜推理技術(shù)的重要組成部分?;谏窠?jīng)網(wǎng)絡(luò)的知識圖譜推理,充分利用了神經(jīng)網(wǎng)絡(luò)對非線性復(fù)雜關(guān)系的建模能力,能夠深入學(xué)習(xí)圖譜結(jié)構(gòu)特征和語義特征,實(shí)現(xiàn)對圖譜缺失關(guān)系的有效預(yù)測。一般地,應(yīng)用于知識圖譜推理的神經(jīng)網(wǎng)絡(luò)方法主要包括CNN方法、RNN方法、圖神經(jīng)網(wǎng)絡(luò)(Graph Neural Networks,GNN)方法、DRL方法等[45]。

5 ?數(shù)字人文領(lǐng)域知識圖譜平臺智能應(yīng)用

5.1 ?相關(guān)平臺項(xiàng)目概述

在信息技術(shù)飛速發(fā)展的背景下,信息獲取、存儲和傳播的方式都產(chǎn)生了巨大變革,數(shù)據(jù)成為數(shù)字人文研究的基礎(chǔ)與核心之一,因此,數(shù)字人文學(xué)者對于領(lǐng)域內(nèi)研究資料的處理方式也產(chǎn)生了翻天覆地的變化。在傳統(tǒng)的人文研究中,學(xué)者往往注重數(shù)據(jù)的收集與整理。但由于數(shù)字化技術(shù)的欠缺以及原始資料本身的質(zhì)量問題,學(xué)者整理出來的數(shù)據(jù)經(jīng)常是不完整、碎片化的。在數(shù)字化技術(shù)得到深入發(fā)展之后,人文領(lǐng)域的數(shù)據(jù)雖有了較為快捷與全面的收集,但仍然是雜亂的,并不利于領(lǐng)域內(nèi)學(xué)者的研究。隨著數(shù)字人文領(lǐng)域知識圖譜規(guī)模的逐漸擴(kuò)大,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫無法有效管理其中的數(shù)據(jù)。該領(lǐng)域?qū)W者的研究往往需要多個數(shù)據(jù)集的交叉查詢,例如圖像、文字、音頻等數(shù)據(jù)之間都存在一定的關(guān)聯(lián),發(fā)掘這些聯(lián)系有助于人文研究的推進(jìn)。因此,目前的研究一般采取關(guān)聯(lián)數(shù)據(jù)技術(shù)(即語義知識圖譜)來實(shí)現(xiàn)數(shù)字人文領(lǐng)域的數(shù)據(jù)管理。陳濤等[46]將關(guān)聯(lián)數(shù)據(jù)技術(shù)與廣義知識圖譜進(jìn)行了對比后指出,關(guān)聯(lián)數(shù)據(jù)側(cè)重于知識的發(fā)布與鏈接,與注重“挖掘”的廣義知識圖譜不同,關(guān)聯(lián)數(shù)據(jù)技術(shù)更側(cè)重于“推理”,即展示資源之間的關(guān)聯(lián)關(guān)系。利用關(guān)聯(lián)數(shù)據(jù)技術(shù)能夠支持大規(guī)模、可重用的數(shù)字人文研究[47],通過對數(shù)據(jù)的重新組織構(gòu)建,將其轉(zhuǎn)化為能夠支持領(lǐng)域研究的“智慧數(shù)據(jù)”,并形成全局知識網(wǎng)絡(luò)。表1列舉出了國內(nèi)外數(shù)字人文領(lǐng)域平臺建設(shè)的幾個典型代表。

從中可以看出,數(shù)字人文關(guān)聯(lián)數(shù)據(jù)平臺所橫跨的領(lǐng)域十分豐富,主要有歷史學(xué)、檔案學(xué)、藝術(shù)、文學(xué)等。其中,歷史學(xué)是數(shù)字人文平臺實(shí)踐最多的領(lǐng)域之一,而其他相關(guān)領(lǐng)域也與歷史學(xué)有著千絲萬縷的聯(lián)系,能夠體現(xiàn)出當(dāng)今世界各國對于歷史文化資源保存與利用的重視程度。

5.2 ?平臺特點(diǎn)分析

5.2.1 ?跨界合作突出

國內(nèi)外先進(jìn)的數(shù)字人文關(guān)聯(lián)數(shù)據(jù)平臺一個突出的特點(diǎn)就是跨界合作,這是數(shù)字人文的跨學(xué)科屬性所要求的。合作方式主要可以分為以下兩種:

一方面是國內(nèi)外機(jī)構(gòu)的廣泛合作。S. Wong[48]指出,數(shù)字人文學(xué)科的合作性是該領(lǐng)域的核心價值之一,采用合作的方法可以利用各種機(jī)構(gòu)的優(yōu)勢和專業(yè)知識,從而產(chǎn)生深遠(yuǎn)影響。比如歐洲數(shù)字圖書館Europeana,有超過15個國家的200多個文化機(jī)構(gòu)為該數(shù)字圖書館的開放數(shù)據(jù)集提供了貢獻(xiàn),包括倫敦的大英圖書館、阿姆斯特丹的里杰克斯博物館和巴黎的盧浮宮等著名機(jī)構(gòu)以及歐洲其他地方較小的文化遺產(chǎn)組織和圖書館[49]。此外,由北京大學(xué)中國古代史研究中心與哈佛大學(xué)費(fèi)正清東亞研究中心合作開發(fā)的中國歷代人物傳記資料庫項(xiàng)目(CBDB),同樣是國內(nèi)外研究中心合作建立資料庫的經(jīng)典實(shí)踐,該平臺能夠展現(xiàn)歷史人物之間的各類關(guān)系,并形成特有的社會關(guān)系網(wǎng)絡(luò),實(shí)現(xiàn)人物之間隱性關(guān)系的挖掘與呈現(xiàn)[50],在研究中國歷史的同時,能夠促進(jìn)西方國家對中國傳統(tǒng)文化的理解。

另一方面是校外機(jī)構(gòu)與高校的合作。大多數(shù)字人文機(jī)構(gòu)隸屬于大學(xué),以高校圖書館依托進(jìn)行平臺建設(shè),由高校圖書館、檔案館提供數(shù)據(jù)資源和人才,企業(yè)、基金會提供資金等。比如伊利諾伊大學(xué)香檳分校人文、藝術(shù)和社會科學(xué)計算所與亞伯拉罕·林肯博物館合作開發(fā)的林肯著作數(shù)據(jù)庫,該數(shù)據(jù)庫由伊利伊諾大學(xué)香檳分校主導(dǎo)開發(fā),投入人才資源支持與后續(xù)平臺管理和服務(wù),亞伯拉罕·林肯博物館提供相關(guān)歷史資源,形成人才資源與歷史資源的相互支撐[51]。學(xué)術(shù)機(jī)構(gòu)、圖書館、檔案館、博物館以及企業(yè)、基金會等之間建立廣泛的聯(lián)系,再加上人文、社科、理工等多學(xué)科參與,有利于資源的整合與創(chuàng)新利用。

5.2.2 ?實(shí)踐導(dǎo)向性強(qiáng)

首先,較多數(shù)字人文關(guān)聯(lián)數(shù)據(jù)平臺為包括人文學(xué)科在內(nèi)的一系列學(xué)科提供服務(wù),例如提供數(shù)字化成像、數(shù)字保存、元數(shù)據(jù)創(chuàng)建、數(shù)據(jù)策展與管理、GIS和數(shù)字映射、數(shù)字出版等多種數(shù)字學(xué)術(shù)功能。例如,由德國的柏林洪堡大學(xué)圖書館信息學(xué)院、曼海姆大學(xué)、開放知識基金會等多個機(jī)構(gòu)合作研發(fā)的歐洲數(shù)字手稿項(xiàng)目,該項(xiàng)目構(gòu)建了DM2E數(shù)據(jù)集,提供元數(shù)據(jù)和鏈接以及展示、處理、整合數(shù)據(jù)的相關(guān)工具,以便數(shù)字人文研究者和想要了解歐洲歷史文化的群眾直接訪問歐洲各地各種文化遺產(chǎn)機(jī)構(gòu)的數(shù)字化內(nèi)容[52]。這也體現(xiàn)了數(shù)字人文關(guān)聯(lián)數(shù)據(jù)平臺服務(wù)于實(shí)踐,服務(wù)于解決實(shí)際問題的特點(diǎn)。

其次,這些平臺都較為注重成果對大眾的呈現(xiàn)與宣傳。例如敦煌壁畫敘詞表關(guān)聯(lián)數(shù)據(jù)服務(wù)平臺通過敘詞表可視化,降低了敘詞表的認(rèn)知難度,實(shí)現(xiàn)了專業(yè)化敘詞表向適用于大眾利用的過渡[53]。上海圖書館研發(fā)的中國家譜知識服務(wù)平臺[54],基于大量數(shù)據(jù),采用時空結(jié)合對姓氏、人物及人物間的相互關(guān)系進(jìn)行全景式的可視化展示和統(tǒng)計分析。由此可知,數(shù)字人文關(guān)聯(lián)數(shù)據(jù)平臺進(jìn)行成果呈現(xiàn)一方面有助于數(shù)字人文研究的推廣,提升數(shù)字人文學(xué)科影響力,另一方面有助于促進(jìn)文化從現(xiàn)實(shí)世界向數(shù)字空間延伸拓展,豐富人類的數(shù)字文明內(nèi)涵。

5.2.3 ?數(shù)據(jù)孤島現(xiàn)象突出

數(shù)字人文關(guān)聯(lián)數(shù)據(jù)平臺數(shù)據(jù)資源的智慧性主要體現(xiàn)在及時性、可獲取性以及可利用性3個方面。因此需要形成動態(tài)的、開放關(guān)聯(lián)的數(shù)據(jù)資源,不斷豐富其內(nèi)容與形式。近年來,國內(nèi)外對于數(shù)字人文關(guān)聯(lián)數(shù)據(jù)平臺建設(shè)越來越重視。但與此同時,新的隱患也在形成。王曉光提出了數(shù)字人文研究中的數(shù)據(jù)失秩現(xiàn)象,尤其在中國大陸,這種現(xiàn)象更為嚴(yán)重,他指出:數(shù)字資源建設(shè)的主體走向多元化,圖書館、博物館、檔案館等相關(guān)研究機(jī)構(gòu)都投入了相當(dāng)多的資金與人力支持,卻導(dǎo)致了無數(shù)個更大的“數(shù)據(jù)孤島”出現(xiàn),比紙質(zhì)文獻(xiàn)時代更嚴(yán)重[55]。這種現(xiàn)象淡化了領(lǐng)域?qū)W者為平臺建設(shè)所付出的相關(guān)努力,甚至可能給人留下一種數(shù)字人文研究的生命周期很短暫的印象。

縱觀形成數(shù)據(jù)孤島現(xiàn)象的原因,首先是隨著研究的開展,資源數(shù)據(jù)量與研究資料的范圍也在拓展。除了傳統(tǒng)的文獻(xiàn)資源以外,其他實(shí)物、圖像、音視頻等資料都會被列入數(shù)字人文學(xué)者的研究范圍內(nèi)。數(shù)字人文領(lǐng)域基礎(chǔ)資料種類的繁雜容易造成相關(guān)研究的彼此孤立。其次,較多平臺管理者傾向于將重點(diǎn)放在規(guī)劃和啟動新項(xiàng)目上,從而容易忽略對舊項(xiàng)目的后續(xù)管理、維護(hù)[56]。隨著時間的推移,原有的數(shù)據(jù)資源格式可能會與現(xiàn)有的技術(shù)存在不相兼容的情況,舊的數(shù)據(jù)資源將無法與新的目標(biāo)用戶需求匹配。若不能及時更新現(xiàn)有的技術(shù)方法及操作環(huán)境,反而一味開展新項(xiàng)目,平臺資源便很難保持鮮活。如何改善數(shù)據(jù)孤島現(xiàn)象,實(shí)現(xiàn)對數(shù)字人文智慧數(shù)據(jù)資源的統(tǒng)一表示,已經(jīng)成為數(shù)字人文智慧化知識服務(wù)平臺發(fā)展道路上的重要議題。

6 ?數(shù)字人文領(lǐng)域知識圖譜研究的未來趨勢

綜合近年來的數(shù)字人文領(lǐng)域知識圖譜的研究成果,結(jié)合目前數(shù)字化技術(shù)的智慧化趨勢,我們可以觀察到如下發(fā)展趨勢:

(1)多元數(shù)據(jù)集成。數(shù)據(jù)的長期保存是數(shù)字人文領(lǐng)域知識圖譜平臺非常重要的基礎(chǔ)職能之一。與其他領(lǐng)域相比,數(shù)字人文領(lǐng)域中的數(shù)據(jù)相對來說比較特殊,包含了語言、文獻(xiàn)、繪畫、音樂等多種形式,它們的維度超越了可被物理上測量的范圍,更加依賴于語義和語法[57]。對數(shù)字人文領(lǐng)域的研究離不開人文文獻(xiàn)資料的數(shù)字化,龐大的數(shù)據(jù)資源在數(shù)字人文領(lǐng)域具有非凡的價值,而如何處理好這些數(shù)據(jù),將其轉(zhuǎn)換為機(jī)器可理解、可處理的資源至關(guān)重要。而數(shù)字人文研究只使用以往的數(shù)據(jù)資源是遠(yuǎn)遠(yuǎn)不夠的,還需要大量鮮活的、正在被創(chuàng)造出來的數(shù)據(jù)。因此,可以利用社會性網(wǎng)絡(luò)和開放存取的信息作為信息來源,將跨地域、跨學(xué)科、跨國別的聯(lián)系變得更加緊密,在經(jīng)過深度語義標(biāo)注、結(jié)構(gòu)化、形式化和可視化處理后,將數(shù)據(jù)轉(zhuǎn)變?yōu)楦呒壭问降闹腔蹟?shù)據(jù),并推進(jìn)到更細(xì)化的分支領(lǐng)域。

(2)多模態(tài)知識融合。早期數(shù)字人文領(lǐng)域的多模態(tài)知識融合更多地針對不同知識源的各類知識,強(qiáng)調(diào)知識來源的多樣性。未來,多模態(tài)知識融合將進(jìn)一步突破傳統(tǒng)的時間和空間限制,對于不同知識源的多樣化特征進(jìn)行涵蓋與擴(kuò)展,依托知識圖譜智能平臺的數(shù)據(jù)整合能力,打通文本、影像、實(shí)體(人物、地點(diǎn)、年代、地域、事件)等多維度語義資源,為體系化、語義化、系統(tǒng)化的數(shù)字人文資源整理、研究提供能力支撐。此外,對于同一知識源的不同解讀也構(gòu)成了數(shù)字人文資源的不同維度與層次,從而能夠更好地滿足數(shù)字人文領(lǐng)域研究中深層次的信息需求,并實(shí)現(xiàn)大數(shù)據(jù)環(huán)境下智能知識服務(wù)的不斷創(chuàng)新。

(3)多學(xué)科交叉應(yīng)用。數(shù)字人文領(lǐng)域關(guān)聯(lián)數(shù)據(jù)平臺構(gòu)建的創(chuàng)新性研究應(yīng)用于多種學(xué)科領(lǐng)域,有助于形成相互補(bǔ)充、相互驗(yàn)證的有機(jī)整體成果,能夠?qū)⒉煌瑢W(xué)科之間的距離縮小,促進(jìn)學(xué)科的融合。一方面,學(xué)科的專業(yè)化程度不斷提高,內(nèi)部發(fā)展逐漸精細(xì)化,能夠更具體、更深入地涵蓋數(shù)字人文領(lǐng)域內(nèi)容;另一方面,學(xué)科交融產(chǎn)生新的學(xué)科,如數(shù)字藝術(shù)、數(shù)字史學(xué)等。梁晨等[58]指出,數(shù)字技術(shù)或數(shù)據(jù)庫平臺還可以是微觀信息的加速器或?qū)ψ矙C(jī),并在數(shù)據(jù)的交叉和對撞過程中呈現(xiàn)出各種特征、趨勢和規(guī)律。這些變化都在逐漸要求領(lǐng)域內(nèi)研究人員不斷突破不同專業(yè)之間的界限,為數(shù)字人文研究帶來新的獨(dú)有的研究范式,進(jìn)一步推動交叉學(xué)科的穩(wěn)固發(fā)展。

7 ?結(jié)論

從構(gòu)建到為數(shù)字人文研究提供基礎(chǔ)設(shè)施支持,數(shù)字人文領(lǐng)域的知識圖譜研究經(jīng)歷了不斷的發(fā)展與變革,以適應(yīng)“數(shù)智時代”傳統(tǒng)文獻(xiàn)資源向智慧數(shù)據(jù)資源的轉(zhuǎn)型。目前,數(shù)字人文領(lǐng)域知識圖譜已經(jīng)能夠較好地提供知識發(fā)現(xiàn)和推理功能,支持多種類型的數(shù)字人文資源描述與融合,并能夠滿足文化的長期保存和共建共享的需求。本文以數(shù)字人文領(lǐng)域國內(nèi)外會議、期刊發(fā)表的相關(guān)文獻(xiàn)為研究對象,對數(shù)字人文領(lǐng)域的數(shù)據(jù)資源建設(shè)、知識圖譜構(gòu)建、智能服務(wù)平臺3個方面進(jìn)行調(diào)研,認(rèn)識到數(shù)字人文領(lǐng)域知識圖譜研究能夠?yàn)樵擃I(lǐng)域資源的數(shù)字化建設(shè)制定統(tǒng)一規(guī)范的方法參考,并為數(shù)字人文研究提供基礎(chǔ)設(shè)施,更好地實(shí)現(xiàn)智慧數(shù)據(jù)資源的轉(zhuǎn)型與升級。在這個過程中,新的機(jī)遇、新的挑戰(zhàn)都在不斷發(fā)生,而知識圖譜作為人工智能時代一種先進(jìn)的知識組織方式,能夠充分發(fā)揮其知識融合中介的作用,為“數(shù)智時代”的發(fā)展提供源源不斷的動力,并為我國未來的數(shù)字人文發(fā)展道路提供指引與方向。

參考文獻(xiàn):

李啟虎, 尹力, 張全.信息時代的人文計算[J].科學(xué), 2015, 67(1):35-39, 4.

劉煒, 葉鷹.數(shù)字人文的技術(shù)體系與理論結(jié)構(gòu)探討[J].中國圖書館學(xué)報, 2017, 43(5):32-41.

HASLHOFER B, ISAAC A, SIMON R. Knowledge graphs in the libraries and digital humanities domain[J]. arXiv preprint, 2018, arXiv:1803.03198.

周莉娜, 洪亮, 高子陽.唐詩知識圖譜的構(gòu)建及其智能知識服務(wù)設(shè)計[J].圖書情報工作, 2019, 63(2):24-33.

KAPLAN F. A map for big data research in digital humanities[J]. Frontiers in digital humanities, 2015, 2(1): 1-7.

董政娥, 陳惠蘭.數(shù)字人文資源調(diào)查與發(fā)展對策探討[J].情報資料工作, 2015(5):103-109.

陳濤, 劉煒, 朱慶華.中文百科概念術(shù)語服務(wù)平臺SinoPedia的構(gòu)建研究[J].中國圖書館學(xué)報, 2018, 44(4):4-18.

HOEKSTRA R, MERO?O-PE?UELA A, DENTLER K, et al. An ecosystem for linked humanities data[C]//European semantic Web conference. Cham: Springer, 2016: 425-440.

Zeng M L. Smart data for digital humanities[J]. Journal of data and information science, 2017, 2(1): 1-12.

王軍, 張力元.國際數(shù)字人文進(jìn)展研究[J].數(shù)字人文, 2020(1):1-23.

KESTEMONT M, STUTZMANN D. Script identification in medieval Latin manuscripts using convolutional neural networks[C]// Premiere annual conference of the International Alliance of Digital Humanities Organizations. Montreal: McGill University, 2017.

OLIVEIRA S A, KAPLAN F, DI LENARDO I. Machine vision algorithms on cadaster plans[C]// Premiere annual conference of the International Alliance of Digital Humanities Organizations. Montreal: McGill University, 2017.

張輝, 王冬梅.基于三維掃描技術(shù)的唐陵雕塑數(shù)字化保護(hù)研究[J].藝術(shù)與設(shè)計(理論), 2016, 2(4):91-93.

劉江霞.模擬音視頻檔案數(shù)字化質(zhì)量控制研究[J].檔案學(xué)研究, 2018(1):101-106.

錢萬里.傳統(tǒng)聲像檔案的數(shù)字化處理[J].檔案與建設(shè), 2007(8):22-24.

羅永俊, 畢曉然, 郝陽.內(nèi)蒙古民族文化珍貴音像檔案搶救技術(shù)研究[J].黑龍江檔案, 2020(5):43-45.

R2RML: RDB to RDF Mapping Language [EB/OL]. [2021-07-23]. https: //www.w3.org/2001/sw/rdb2rdf/r2rml/.

熊順, 劉平芝, 蘇宗義, 等. 基于語義匹配映射的地理信息本體融合方法研究[J]. 測繪科學(xué)與工程, 2017 (1): 51-58.

NOY N F, MUSEN M A. The PROMPT suite: interactive tools for ontology merging and mapping[J]. International journal of human-computer studies, 2003, 59(6): 983-1024.

DOAN A H, MADHAVAN J, DHAMANKAR R, et al. Learning to match ontologies on the semantic Web[J]. The VLDB journal, 2003, 12(4): 303-319.

LAMé M, PITTET P, PONCHIO F, et al. Heterotoki: non-structured and heterogeneous terminology alignment for digital humanities data producers[C]//Open data and ontologies for cultural heritage. Rome: Antonella Poggi, 2019.

任飛亮, 沈繼坤, 孫賓賓, 等.從文本中構(gòu)建領(lǐng)域本體技術(shù)綜述[J].計算機(jī)學(xué)報, 2019, 42(3):654-676.

尚新麗.國外本體構(gòu)建方法比較分析[J].圖書情報工作, 2012, 56(4):116-119.

岳麗欣, 劉文云.國內(nèi)外領(lǐng)域本體構(gòu)建方法的比較研究[J].情報理論與實(shí)踐, 2016, 39(8):119-125.

WIMALASURIYA D C, DOU D. Ontology-based information extraction: an introduction and a survey of current approaches[J]. Journal of information science, 2010, 36(3): 306-323.

何琳, 陳雅玲, 孫珂迪.面向先秦典籍的知識本體構(gòu)建技術(shù)研究[J].圖書情報工作, 2020, 64(7):13-19.

王穎, 張智雄, 孫輝, 等.國史知識的語義揭示與組織方法研究[J].中國圖書館學(xué)報, 2015, 41(4):55-64.

THAKKER D, KARANASIOS S, BLANCHARD E, et al. Ontology for cultural variations in interpersonal communication: building on theoretical models and crowdsourced knowledge[J]. Journal of the Association for Information Science and Technology, 2017, 68(6): 1411-1428.

鄧君, 王阮.口述歷史檔案資源知識組織與關(guān)聯(lián)分析[J].情報資料工作, 2021, 42(5):58-67.

周耀林, 趙躍, 孫晶瓊.非物質(zhì)文化遺產(chǎn)信息資源組織與檢索研究路徑——基于本體方法的考察與設(shè)計[J].情報雜志, 2017, 36(8):166-174.

劉悠然, 龍丹. 一種基于規(guī)則的上古漢語句型統(tǒng)計方法的設(shè)計與實(shí)現(xiàn)[C]//澳門大學(xué)人文學(xué)院、中國中文信息學(xué)會、澳門語言學(xué)會.第十五屆漢語詞匯語義學(xué)國際研討會論文集.北京: 外語教學(xué)與研究出版社, 2014:428-433.

謝明鴻, 冉強(qiáng), 王紅斌.基于同義詞林和規(guī)則的中文人物關(guān)系抽取方法[J/OL].計算機(jī)工程與科學(xué), 2021, 43(9):1660-1667.

LIU C L, HUANG C K, WANG H, et al. Mining local gazetteers of literary Chinese with CRF and pattern based methods for biographical information in Chinese history[C]//Proceedings of 2015 IEEE international conference on big data (Big Data), Santa Clark, 2015: 1629-1638.

秦賀然, 王東波.數(shù)字人文下的先秦古漢語關(guān)鍵詞抽取應(yīng)用——以《春秋經(jīng)傳》為例[J].圖書館雜志, 2020, 39(11):97-105.

唐曉波, 朱娟.大數(shù)據(jù)環(huán)境下知識融合的關(guān)鍵問題研究綜述[J].圖書館雜志, 2017, 36(7):10-16.

周芳, 劉玉戰(zhàn), 韓立巖.基于模糊集理論的知識融合方法研究[J].北京理工大學(xué)學(xué)報(社會科學(xué)版), 2013, 15(3):67-73.

高勁松, 梁艷琪.關(guān)聯(lián)數(shù)據(jù)環(huán)境下知識融合模型研究[J].情報科學(xué), 2016, 34(2):50-54.

陳濤, 劉煒, 單蓉蓉, 等.知識圖譜在數(shù)字人文中的應(yīng)用研究[J].中國圖書館學(xué)報, 2019, 45(6):34-49.

FRONTINI F, BRANDO C, GANASCIA J G. Semantic Web based named entity linking for digital humanities and heritage texts[C]// Proceedings of first international workshop semantic Web for scientific heritage at the 12th ESWC 2015 Conference. Portoro?: Fabien Gandon, 2015:77-88.

劉嶠, 韓明皓, 江瀏祎, 等.基于雙層隨機(jī)游走的關(guān)系推理算法[J].計算機(jī)學(xué)報, 2017, 40(6):1275-1290.

周莉娜. 面向領(lǐng)域知識服務(wù)的唐詩本體構(gòu)建與智能應(yīng)用研究[D].武漢:武漢大學(xué), 2020.

陸泉, 劉婷, 張良韜, 等.面向知識發(fā)現(xiàn)的模糊本體融合與推理模型研究[J].情報學(xué)報, 2021, 40(4):333-344.

周知, 蔣琳.數(shù)字人文圖像資源知識組織模型構(gòu)建研究[J].圖書館學(xué)研究, 2021(8):66-72, 65.

王曉光, 江彥彧, 張璐.敦煌壁畫圖像語義描述層次模型實(shí)證研究[J].圖書情報工作, 2015, 59(19):122-129.

田玲, 張謹(jǐn)川, 張晉豪, 等.知識圖譜綜述——表示、構(gòu)建、推理與知識超圖理論[J].計算機(jī)應(yīng)用, 2021, 41(8):2161-2186.

陳濤, 劉煒, 單蓉蓉, 等.知識圖譜在數(shù)字人文中的應(yīng)用研究[J].中國圖書館學(xué)報, 2019, 45(6):34-49.

HOEKSTRA R, MERONO-PENUELA A, DENTLER K, et al. An ecosystem for linked humanities data[C]// Proceedings of European semantic Web conference. Cham: Springer, 2016: 425-440.

SHUN HAN REBEKAH W. Digital humanities: what can libraries offer?[J]. Libraries and the academy, 2016, 16(4):669- 690.

ISAAC A, HASLHOFER B. Europeana linked open data–data.europeana.eu[J]. Semantic Web, 2013, 4(3): 291-297.

TSUI L H, WANG H. Harvesting big biographical data for Chinese history: the China Biographical Database (CBDB)[J]. Journal of Chinese history, 2020, 4(2): 505-511.

Institute for Computing in Humanities, Arts, and Social Sciences[EB/OL].[2021-12-15].http://chass.illinois.edu/.

BAIERER K, DR?GE E, ECKERT K, et al. DM2E: a linked data source of digitised manuscripts for the digital humanities[J]. Semantic Web, 2017, 8(5): 733-745.

王曉光, 侯西龍, 程航航, 等.敦煌壁畫敘詞表構(gòu)建與關(guān)聯(lián)數(shù)據(jù)發(fā)布[J].中國圖書館學(xué)報, 2020, 46(4):69-84.

夏翠娟, 劉煒, 陳濤, 等.家譜關(guān)聯(lián)數(shù)據(jù)服務(wù)平臺的開發(fā)實(shí)踐[J].中國圖書館學(xué)報, 2016, 42(3):27-38.

王曉光.數(shù)字人文與智慧數(shù)據(jù)[J].上海高校圖書情報工作研究, 2018, 28(2):25, 24.

REED A. Managing an established digital humanities project: principles and practices from the twentieth year of the William Blake archive[J]. Virginia Tech, 2014, 8(1):1-17.

SCH?CH C. Big? smart? clean? messy? data in the humanities[J]. Journal of digital humanities, 2013, 2(3): 2-13.

梁晨, 李中清.從微觀數(shù)據(jù)到宏觀歷史:作為橋梁的數(shù)字史學(xué)[J].中國社會科學(xué)評價, 2021(2):84-92, 159.

作者貢獻(xiàn)說明:

朱麗雅:參與框架制定,收集整理資料,撰寫并修改論文;

張 ?珺:收集整理資料,撰寫并修改論文;

洪 ?亮:提出論文主題和研究框架,指導(dǎo)論文寫作;

羅紹輝:提出論文部分章節(jié)的寫作思路;

蘭 ?度:提出論文部分章節(jié)的寫作思路。

Abstract: [Purpose/significance] This paper conducts a systematic review of the knowledge graph research in the field of digital humanities, aiming to provide possible future research directions and open research topics. [Method/process] By taking relevant paper published in domestic and foreign conferences and journals as the research objects and using the comprehensive induction method, the theoretical and practical development of the knowledge graph in the field of digital humanities was systematically combed. Then it explained the related concepts of the knowledge graph in the field of digital humanities. And according to the current research hot spots, this paper revealed its research trends from three aspects of the data resource construction, key construction technologies and intelligent application platforms. Finally, it showed the prospects for future research trends. [Result/conclusion] This paper summarized the future trends of the knowledge graph research in the field of digital humanities. In the future, it will show the development trends of multi-source data integration, multi-modal knowledge fusion and multi-disciplinary cross-application.

Keywords: digital humanities ? ?knowledge graph ? ?smart data; data resource construction ? ?semantic mining

3144500589268

猜你喜歡
數(shù)字人文知識圖譜
數(shù)字人文時代公共圖書館經(jīng)典閱讀推廣研究
數(shù)字人文目標(biāo)下圖書館信息服務(wù)模式研究
數(shù)字學(xué)術(shù)與公眾科學(xué):數(shù)字圖書館新生態(tài)
跨界與融合:全球視野下的數(shù)字人文
跨界與融合:全球視野下的數(shù)字人文
大規(guī)模古籍文本在中國史定量研究中的應(yīng)用探索
國內(nèi)圖書館嵌入式服務(wù)研究主題分析
國內(nèi)外政府信息公開研究的脈絡(luò)、流派與趨勢
基于知識圖譜的產(chǎn)業(yè)集群創(chuàng)新績效可視化分析
基于知識圖譜的產(chǎn)業(yè)集群創(chuàng)新績效可視化分析
赞皇县| 黄石市| 雅江县| 凤翔县| 中牟县| 轮台县| 安乡县| 赣榆县| 曲水县| 长兴县| 湘阴县| 白水县| 边坝县| 秦皇岛市| 成武县| 郯城县| 长沙市| 大埔县| 青川县| 揭东县| 建宁县| 东阳市| 搜索| 伊宁县| 谷城县| 青浦区| 博乐市| 洪湖市| 房山区| 嵩明县| 武川县| 宣汉县| 建湖县| 尉氏县| 清涧县| 商城县| 铁岭县| 蓝田县| 千阳县| 神木县| 波密县|