国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

近三年檔案資源語義化開發(fā)研究熱點與前沿探測

2023-09-04 01:25宋雪雁張祥青張偉民
檔案管理 2023年4期
關(guān)鍵詞:本體圖譜關(guān)聯(lián)

宋雪雁 張祥青 張偉民

摘? 要:本文對近三年國內(nèi)外檔案資源語義化開發(fā)研究熱點與前沿進行了探測,通過高頻關(guān)鍵詞共現(xiàn)分析總結(jié)了國內(nèi)外近三年檔案資源語義化開發(fā)研究的相關(guān)主題,其中國內(nèi)總結(jié)為檔案保管與智慧建設(shè)、檔案社會記憶建構(gòu)與知識服務(wù)、檔案語義轉(zhuǎn)換與語義重組等6個研究主題,國外總結(jié)為基于本體的語義化開發(fā)等3個研究主題,同時基于高頻關(guān)鍵詞主題加權(quán)演進分析探測了研究熱點與前沿。此外,本文對該領(lǐng)域相關(guān)平臺項目實踐研究進行了梳理,并基于以上研究,對國內(nèi)外檔案資源語義化開發(fā)的對象、目標(biāo)、技術(shù)方法等內(nèi)容進行了歸納總結(jié)。

關(guān)鍵詞:檔案資源;語義;本體;知識圖譜;知識組織

Abstract: This article explores the hot spots and frontiers of research on the semantic development of archival resources both at home and abroad in the past three years. Through high-frequency keyword co-occurrence analysis, it summarizes the relevant topics of research on the semantic development of archival resources both at home and abroad in the past three years, including six research topics summarized domestically, including archival custody and intelligence construction, archival social memory construction and knowledge services, archival semantic transformation and semantic reorganization. There are three research topics summarized abroad, including ontology based semantic development. And through weighted evolution analysis based on high-frequency keyword topics this paper also studies research hotspots and frontiers. In addition, this article reviews the practical research on relevant platform projects in this field, and based on the above research, summarizes the objects, objectives, technical methods, and other contents of semantic development of archive resources at home and abroad.

Keywords:? Archival resource; Semantic; Ontology; Knowledge map; Knowledge organization

要對檔案資源語義化開發(fā)研究有整體的理解與掌握,首先需要理解檔案語義的含義與概念。馮惠玲等[1]指出檔案語義是指所有檔案本身的數(shù)據(jù)和描述檔案的數(shù)據(jù)含義,包括檔案內(nèi)容數(shù)據(jù)、背景數(shù)據(jù)以及結(jié)構(gòu)數(shù)據(jù)的含義,與傳統(tǒng)文本內(nèi)容以及元數(shù)據(jù)的含義不同,檔案的語義使用形式化的語言表達(dá),含義明確且機器可理解。伴隨技術(shù)的快速發(fā)展與更迭,大數(shù)據(jù)、深度學(xué)習(xí)等技術(shù)被廣泛應(yīng)用于檔案資源語義化開發(fā)研究中,這促進了學(xué)者對該領(lǐng)域研究的逐漸深化。為發(fā)現(xiàn)與總結(jié)檔案資源語義化開發(fā)中熱點與前沿性內(nèi)容,本文對近三年國內(nèi)外檔案資源語義化開發(fā)研究成果進行梳理,對該領(lǐng)域主要研究主題進行總結(jié)分析,發(fā)現(xiàn)該領(lǐng)域重點研究內(nèi)容,以期為相關(guān)研究提供參考。

1 國內(nèi)相關(guān)研究梳理

本研究以主題=“檔案 AND 語義”或者篇關(guān)摘=“檔案 AND 語義”為檢索方式在中國知網(wǎng)、萬方、維普數(shù)據(jù)庫進行檢索,檢索時間限制在2019年8月31日—2022年8月31日,共獲得近三年相關(guān)文獻(xiàn)201篇。經(jīng)過人工校對清理,將與主題不相符合的文獻(xiàn)加以剔除,最終保留114篇相關(guān)文獻(xiàn)進行分析。

1.1 中文文獻(xiàn)關(guān)鍵詞數(shù)據(jù)分析。中文文獻(xiàn)關(guān)鍵詞數(shù)據(jù)分析將從關(guān)鍵詞詞頻統(tǒng)計、時間分布、高頻關(guān)鍵詞共現(xiàn)分析方面進行總結(jié)。

(1)中文關(guān)鍵詞詞頻統(tǒng)計。對相關(guān)文獻(xiàn)進行詞頻分析,其中出現(xiàn)頻次≥2的關(guān)鍵詞有52個,出現(xiàn)頻次≥3的關(guān)鍵詞有23個,現(xiàn)對部分關(guān)鍵詞詞頻進行表格整理(表1),除了表1整理的數(shù)據(jù),關(guān)鍵詞清代在相關(guān)文獻(xiàn)中出現(xiàn)的頻次也為3。繪制的關(guān)鍵詞詞云圖如圖1所示。

由表1和圖1可以看出,在檔案資源語義化開發(fā)研究中,相較于其他關(guān)鍵詞,知識圖譜、數(shù)字人文、關(guān)聯(lián)數(shù)據(jù)、本體、語義關(guān)聯(lián)、檔案數(shù)據(jù)化在文獻(xiàn)中出現(xiàn)次數(shù)較多,說明知識圖譜、關(guān)聯(lián)數(shù)據(jù)以及本體等技術(shù)在檔案資源語義化開發(fā)中得到了較多應(yīng)用,并且學(xué)者對數(shù)字人文視域下檔案資源語義化開發(fā)進行了較多研究,實現(xiàn)了檔案資源的語義挖掘、關(guān)聯(lián)與發(fā)現(xiàn),推動了檔案資源的智慧建設(shè)。

(2)中文關(guān)鍵詞時間分布。本文對關(guān)鍵詞進行分時段統(tǒng)計,每時段擬選取10個有代表性的關(guān)鍵詞進行分析,選取依據(jù)首先為選取頻次高的關(guān)鍵詞,在頻次相同的情況下,選擇與該時段高頻關(guān)鍵詞密切相關(guān)聯(lián)的關(guān)鍵詞,以期對檔案資源語義化開發(fā)研究有一個整體的了解與分析,統(tǒng)計如圖2所示。

由圖2可以看出,在2019年8月31日—2019年12月31日這一時段間,元數(shù)據(jù)、關(guān)聯(lián)數(shù)據(jù)為高頻關(guān)鍵詞,頻次為2,其余關(guān)鍵詞頻次皆為1。數(shù)字檔案資源、檔案信息資源等檔案資源的語義化開發(fā)需要運用元數(shù)據(jù)、關(guān)聯(lián)數(shù)據(jù)技術(shù),實現(xiàn)檔案資源的關(guān)聯(lián)與共享,推動檔案信息化進程,編碼檔案信息描述需要建構(gòu)檔案元數(shù)據(jù)體系。

此外,本體與元數(shù)據(jù)、關(guān)聯(lián)數(shù)據(jù)緊密關(guān)聯(lián),運用這些技術(shù)方法可助力檔案資源的語義轉(zhuǎn)換,實現(xiàn)語義互操作,除了圖譜顯示的關(guān)鍵詞,在該時段內(nèi),本文認(rèn)為語義網(wǎng)也是與高頻關(guān)鍵詞關(guān)聯(lián)數(shù)據(jù)相關(guān)聯(lián)的關(guān)鍵詞,語義網(wǎng)的構(gòu)建需要以關(guān)聯(lián)數(shù)據(jù)技術(shù)為基礎(chǔ),實現(xiàn)檔案資源的語義互聯(lián)。通過展示的關(guān)鍵詞,可以看出學(xué)者在這一時段的研究有運用元數(shù)據(jù)、關(guān)聯(lián)數(shù)據(jù)等技術(shù)方法對數(shù)字檔案資源語義關(guān)聯(lián)、語義轉(zhuǎn)換探索,元數(shù)據(jù)、關(guān)聯(lián)數(shù)據(jù)等技術(shù)方法的應(yīng)用是這個時期的關(guān)注點。

在2020年相關(guān)文獻(xiàn)中,知識圖譜、檔案管理、數(shù)字人文等8個關(guān)鍵詞出現(xiàn)頻次≥2,其余關(guān)鍵詞出現(xiàn)1次。機器學(xué)習(xí)、大數(shù)據(jù)等技術(shù)方法可助力實現(xiàn)檔案資源的智能管理。此外,在數(shù)字人文研究背景下,國內(nèi)外部分高校開展了以檔案為中心的數(shù)字人文項目研究,這推動了檔案資源的語義化開發(fā)研究。因此,除了高頻關(guān)鍵詞,本文在剩余頻次為1的關(guān)鍵詞中選擇“智能管理”“數(shù)字人文項目”作為這一時段的代表性關(guān)鍵詞,如圖2所示,可以看出這一年的研究成果中關(guān)于檔案知識圖譜的研究最多。知識圖譜以圖結(jié)構(gòu)揭示語義信息,[2]以知識圖譜的方式揭示檔案語義信息是較為可行的方法。

另外,語義化開發(fā)視角下的檔案管理、檔案組織、電子文件管理研究也較多,學(xué)者基于數(shù)字人文理念,將機器學(xué)習(xí)、本體以及大數(shù)據(jù)等技術(shù)方法運用到檔案領(lǐng)域語義知識挖掘與知識發(fā)現(xiàn)中。在2021年相關(guān)文獻(xiàn)中,關(guān)聯(lián)數(shù)據(jù)、數(shù)字人文、知識圖譜、知識服務(wù)、本體、語義關(guān)聯(lián)、知識組織7個關(guān)鍵詞出現(xiàn)頻次≥4,檔案、數(shù)字檔案、檔案資源3個關(guān)鍵詞出現(xiàn)3次,其余關(guān)鍵詞頻次小于3。通過圖譜可以看出,前兩個階段的相關(guān)研究在這一年得到了延續(xù)和加強,學(xué)者的關(guān)注點也為基于數(shù)字人文視角,運用知識圖譜、關(guān)聯(lián)數(shù)據(jù)、本體等技術(shù)方法對檔案知識組織進行研究,以期為用戶提供更好的知識服務(wù)。

在2022年1月1日—2022年8月31日期間,知識圖譜、數(shù)字人文關(guān)鍵詞頻次為4,口述歷史檔案、數(shù)字管護、檔案數(shù)據(jù)化、清代、可視化、本體、檔案資源、知識發(fā)現(xiàn)8個關(guān)鍵詞出現(xiàn)2次,其余關(guān)鍵詞頻次為1。通過圖譜可以看出,這一時段學(xué)者運用知識圖譜、本體、可視化等技術(shù)方法對數(shù)字人文視域下的檔案資源語義挖掘、揭示與知識發(fā)現(xiàn)進行了相關(guān)研究。

基于以上每時段關(guān)鍵詞條形圖可以看出,“本體”在統(tǒng)計的各個時段都有出現(xiàn),體現(xiàn)了本體知識建模是檔案資源語義化開發(fā)研究中必要且基礎(chǔ)的技術(shù),是檔案學(xué)者掌握且能夠成熟運用到檔案資源語義化開發(fā)中的技術(shù)方法;“數(shù)字人文”“知識圖譜”從2020年開始至統(tǒng)計時段結(jié)束都有出現(xiàn),其中知識圖譜技術(shù)受到學(xué)界較多關(guān)注與使用;元數(shù)據(jù)、關(guān)聯(lián)數(shù)據(jù)也是學(xué)界較為關(guān)注的檔案資源語義挖掘與組織技術(shù),這呈現(xiàn)出檔案學(xué)與計算機科學(xué)、信息哲學(xué)、歷史學(xué)、語義學(xué)等多學(xué)科的交叉融合態(tài)勢。

(3)中文關(guān)鍵詞共現(xiàn)矩陣。由以上分析可知頻次≥2的關(guān)鍵詞有49個,頻次≥3的關(guān)鍵詞有23個,現(xiàn)對頻次≥2的關(guān)鍵詞進行了共現(xiàn)矩陣計算,并對頻次≥3的23個關(guān)鍵詞繪制了共現(xiàn)矩陣圖(圖3)。

其中,本體與關(guān)聯(lián)數(shù)據(jù)共現(xiàn)3次,數(shù)字人文2次。關(guān)聯(lián)數(shù)據(jù)與檔案、知識組織、元數(shù)據(jù)、語義網(wǎng)共現(xiàn)2次。共現(xiàn)頻次越高,說明關(guān)鍵詞之間關(guān)聯(lián)關(guān)系越突出,便于發(fā)現(xiàn)檔案資源語義化開發(fā)相關(guān)研究文獻(xiàn)中檔案領(lǐng)域與其他理論、技術(shù)方法等內(nèi)容具有交叉價值的知識點。除了以上列舉的關(guān)鍵詞數(shù)字人文、知識圖譜、本體、關(guān)聯(lián)數(shù)據(jù)與其他關(guān)鍵詞的共現(xiàn)關(guān)系,其他關(guān)鍵詞之間也有共現(xiàn)關(guān)系。

1.2 基于高頻關(guān)鍵詞共現(xiàn)的中文文獻(xiàn)主題聚類分析。經(jīng)過對頻次≥2的49個關(guān)鍵詞共現(xiàn)矩陣計算,可以發(fā)現(xiàn)關(guān)鍵詞之間的共現(xiàn)關(guān)系。將共現(xiàn)矩陣導(dǎo)入VOSviewer軟件,布局格式設(shè)置為Fractionalization,吸引力(Attraction)設(shè)置為5,排斥力(Repulsion)設(shè)置為0,最小聚類中關(guān)鍵詞個數(shù)(Min. cluster size)設(shè)置為5,共得到7個聚類結(jié)果。根據(jù)關(guān)鍵詞的共現(xiàn)關(guān)系回顧文獻(xiàn),發(fā)現(xiàn)聚類6下的關(guān)鍵詞檔案數(shù)據(jù)化、資源描述框架,聚類7下的記錄因子、數(shù)據(jù)化、檔案數(shù)據(jù)與檔案數(shù)據(jù)化研究主題相關(guān),聚類6下的關(guān)鍵詞本體工程、電子文件管理、人工智能與聚類7下的領(lǐng)域本體、視頻檔案與檔案領(lǐng)域本體構(gòu)建研究主題相關(guān),因此,根據(jù)關(guān)鍵詞表達(dá)的主題與語義含義,本文將聚類6與聚類7合并為一個聚類進行主題概括與分析,最終聚類結(jié)果整理如表2所示。

基于表2的聚類結(jié)果,可以歸納近三年國內(nèi)檔案資源語義化開發(fā)研究中的主題方向。

(1)檔案保管與智慧建設(shè)研究。聚類結(jié)果1包含智慧數(shù)據(jù)、檔案保護、資源建設(shè)、語義增強、數(shù)字人文等10個關(guān)鍵詞。對于檔案保管方面,錢毅[3]總結(jié)了檔案保護、保存、管護的目標(biāo)分別為維系延續(xù)實體老化的物理空間、構(gòu)建防范技術(shù)老化的數(shù)字空間、營造適應(yīng)文化老化的語義空間,基于學(xué)者對檔案保管體系理念演變的討論與分析,可以幫助人們應(yīng)對未知的檔案管護問題。

牛力等[4]指出,在檔案工作新形勢下,構(gòu)建從保管導(dǎo)向到價值導(dǎo)向的智慧檔案2.0體系會成為未來趨勢,由此可以發(fā)現(xiàn),檔案保管是推動檔案智慧建設(shè)的重要基礎(chǔ)。在檔案智慧建設(shè)方面,郝偉斌等[5]指出應(yīng)用語義網(wǎng)技術(shù)進行檔案文化數(shù)據(jù)資源語義組織能構(gòu)建知識本體之間的語義關(guān)系,實現(xiàn)檔案資源智慧數(shù)據(jù)建設(shè)。曾蕾等[6]也認(rèn)為語義技術(shù)使圖博檔數(shù)據(jù)納入到智慧數(shù)據(jù)中,語義增強是一種使數(shù)據(jù)形成語義網(wǎng)的顯著有效方法。

在檔案資源知識語義開發(fā)中,本體作為一種語義技術(shù)得到了廣泛應(yīng)用,趙雪芹等[7]以芭蕉茶廠1973年第三件檔案為例,使用Protégé軟件進行了可視化的構(gòu)建,揭示類與類之間錯綜復(fù)雜的語義關(guān)聯(lián),此研究在一定程度上促進了數(shù)字人文領(lǐng)域下萬里茶道檔案資源智慧建設(shè)的研究。

(2)檔案社會記憶建構(gòu)與知識服務(wù)研究。聚類結(jié)果2包含語義分析、檔案著錄、口述歷史檔案、社會記憶建構(gòu)、知識服務(wù)、知識發(fā)現(xiàn)等9個關(guān)鍵詞。

對于檔案社會記憶構(gòu)建相關(guān)研究,房小可從檔案編研和檔案著錄兩個視角切入進行了相關(guān)論述。在檔案編研方面,房小可[8]對檔案學(xué)科視角下社會記憶構(gòu)建框架進行了研究,指出語義分析、機器學(xué)習(xí)等技術(shù)能夠提取擬訂編研主題的子主題,幫助實現(xiàn)檔案資源主題挖掘。在檔案著錄方面,房小可[9]指出在著錄工具基礎(chǔ)上加入語義分析等技術(shù),能夠獲取檔案社會記憶邏輯要素及其語義關(guān)系,實現(xiàn)記憶重構(gòu)及再現(xiàn)。牛力等[10]對名人檔案價值挖掘的理論及技術(shù)支持進行了研究,指出知識服務(wù)層次的實現(xiàn)為名人檔案數(shù)據(jù)的記憶呈現(xiàn)。從已有研究可以發(fā)現(xiàn),檔案社會記憶建構(gòu)能幫助實現(xiàn)更好的檔案知識服務(wù),幫助人文學(xué)者深入利用檔案資源,挖掘檔案資源中的記憶價值。對于檔案知識服務(wù)相關(guān)的研究,周娟娟等[11]指出運用語義分析、知識圖譜等技術(shù),能夠增強數(shù)據(jù)之間關(guān)聯(lián),促進人事檔案知識服務(wù)研究發(fā)展。檔案知識服務(wù)的發(fā)展與檔案資源開發(fā)與利用、檔案資源知識發(fā)現(xiàn)研究緊密關(guān)聯(lián)。高淞等[12]指出利用RDF框架、語義網(wǎng)等數(shù)字技術(shù)進行資源開發(fā),能夠構(gòu)建新的數(shù)字人文視域下的口述歷史檔案資源開發(fā)模式。鄧君等[13]對口述歷史檔案資源知識圖譜與多維知識發(fā)現(xiàn)進行了研究,實現(xiàn)了資源細(xì)粒度關(guān)聯(lián)、語義化查詢、個性化服務(wù)。

(3)檔案語義轉(zhuǎn)換與語義重組研究。聚類結(jié)果3包含關(guān)聯(lián)數(shù)據(jù)、本體、互操作、大數(shù)據(jù)、知識組織、語義網(wǎng)、元數(shù)據(jù)7個關(guān)鍵詞。通過關(guān)鍵詞之間的共現(xiàn)關(guān)系回顧文獻(xiàn),發(fā)現(xiàn)學(xué)者在語義轉(zhuǎn)換和語義重組方面進行了相關(guān)研究。在檔案語義轉(zhuǎn)換方面郭學(xué)敏等[14]指出關(guān)聯(lián)數(shù)據(jù)在檔案知識組織中發(fā)揮了重要作用,元數(shù)據(jù)元素集、值詞匯表、數(shù)據(jù)集是語義轉(zhuǎn)換的源數(shù)據(jù),語義轉(zhuǎn)換能加強語義融合與不同語義工具間的互操作,通過本體構(gòu)建和語義匹配,檔案數(shù)據(jù)可轉(zhuǎn)換為關(guān)聯(lián)數(shù)據(jù)。在檔案語義重組方面,夏天等[15]認(rèn)為面向知識服務(wù)進行檔案語義化重組具有重要意義,指出語義網(wǎng)與關(guān)聯(lián)數(shù)據(jù)在檔案組織與檔案數(shù)據(jù)語義重組方面的應(yīng)用需要深化研究。從已有相關(guān)研究可以發(fā)現(xiàn)檔案語義轉(zhuǎn)換、檔案數(shù)據(jù)關(guān)聯(lián)、檔案語義重組與檔案知識服務(wù)之間存在著緊密的邏輯關(guān)聯(lián),其中檔案語義轉(zhuǎn)換將檔案數(shù)據(jù)轉(zhuǎn)換成關(guān)聯(lián)數(shù)據(jù),檔案關(guān)聯(lián)數(shù)據(jù)的應(yīng)用實現(xiàn)了檔案數(shù)據(jù)語義重組,檔案語義重組有助于檔案資源實現(xiàn)更優(yōu)的知識服務(wù)。

(4)檔案知識圖譜構(gòu)建與智慧轉(zhuǎn)型研究。聚類結(jié)果4包含知識圖譜、智慧化、檔案服務(wù)、檔案資源、機器學(xué)習(xí)、科研檔案本體、清代7個關(guān)鍵詞,其中知識圖譜與檔案服務(wù)、檔案資源、機器學(xué)習(xí)、科研檔案本體都有共現(xiàn),將這些關(guān)鍵詞的研究歸納為檔案知識圖譜構(gòu)建研究,檔案資源與智慧化共現(xiàn),回顧文獻(xiàn),發(fā)現(xiàn)學(xué)者在檔案智慧轉(zhuǎn)型方面進行了相關(guān)研究。在檔案知識圖譜相關(guān)研究方面,宋雪雁等[16]基于《欽定大清會典圖》和《皇朝禮器圖式》構(gòu)建清代祭祀禮器知識圖譜,此研究在一定程度上促進了清代檔案文獻(xiàn)的數(shù)字化進程。向夢宇[17]探索了基于知識圖譜的軍工研究所檔案知識服務(wù)實現(xiàn)方式和流程,通過信息抽取、知識融合、知識加工及知識更新,實現(xiàn)了檔案資源結(jié)構(gòu)化、網(wǎng)絡(luò)化知識體系的構(gòu)建。雷潔等[18]構(gòu)建了計算機可識別、具有較強操作以及富含語義關(guān)系的科研檔案知識圖譜模型,實現(xiàn)了科研檔案資源的揭示、組織和關(guān)聯(lián),促進了科研檔案資源的集成、共享與利用。雷潔等[19]指出利用知識圖譜、機器學(xué)習(xí)等語義技術(shù)對科研檔案資源進行知識組織和表示,能夠推動科研檔案智能管理。在檔案智慧轉(zhuǎn)型研究方面,祁天嬌等[20]指出檔案資源的智慧化轉(zhuǎn)型基本路徑為“數(shù)字化—數(shù)據(jù)化—語義化—智慧化”,數(shù)字化過程包括掃描加工、案卷著錄等工作,數(shù)據(jù)化過程包括OCR識別、內(nèi)容級標(biāo)簽等工作,語義化過程包括語義識別、揭示、表達(dá)等工作,智慧化過程包括檢索與可視化等。鄧君等[21]指出知識圖譜技術(shù)實現(xiàn)了口述歷史檔案資源關(guān)聯(lián)聚合,完成了“數(shù)字化—數(shù)據(jù)化—智慧化”過渡。基于已有研究可以發(fā)現(xiàn),檔案知識圖譜構(gòu)建是檔案智慧化轉(zhuǎn)型的重要環(huán)節(jié),幫助實現(xiàn)檔案資源的可視化呈現(xiàn)與語義檢索。

(5)檔案語義關(guān)聯(lián)與語義發(fā)現(xiàn)研究。聚類結(jié)果5包含檔案、語義、語義組織、語義關(guān)聯(lián)、檔案館、檔案信息6個關(guān)鍵詞。通過回顧文獻(xiàn),其中關(guān)鍵詞檔案、檔案信息、語義、語義組織表示基于檔案語義組織的檔案發(fā)現(xiàn)研究,語義關(guān)聯(lián)、檔案館共現(xiàn),表示檔案語義關(guān)聯(lián)研究。檔案語義關(guān)聯(lián)與語義發(fā)現(xiàn)與檔案組織密切相關(guān)。在檔案語義組織方面,馮惠玲等[22]指出檔案語義組織旨在從檔案資源的內(nèi)容、背景與結(jié)構(gòu)數(shù)據(jù)中實現(xiàn)語義關(guān)聯(lián)與語義發(fā)現(xiàn)。張斌等[23]指出以本體、關(guān)聯(lián)數(shù)據(jù)和知識圖譜為代表的知識組織與推理技術(shù)能夠?qū)崿F(xiàn)檔案知識對象間的語義關(guān)聯(lián)。周媛媛[24]構(gòu)建了檔案語義關(guān)聯(lián)模型,指出語義關(guān)聯(lián)可推動檔案館構(gòu)建異構(gòu)分散的館藏資源語義關(guān)聯(lián)關(guān)系,構(gòu)建的語義關(guān)聯(lián)模塊主要功能是語義分析與提取、語義關(guān)聯(lián)挖掘、跨媒體本體構(gòu)建及跨媒體檢索技術(shù)。

(6)檔案數(shù)據(jù)化與領(lǐng)域本體相關(guān)研究。經(jīng)過合并,聚類結(jié)果6包含檔案數(shù)據(jù)化、本體工程、電子文件管理等10個關(guān)鍵詞。檔案數(shù)據(jù)化、數(shù)據(jù)化、檔案數(shù)據(jù)都表示檔案領(lǐng)域數(shù)據(jù)化研究,記錄因子是檔案數(shù)據(jù)研究中提出的概念。本體工程、領(lǐng)域本體表示檔案領(lǐng)域本體研究,視頻檔案共現(xiàn)領(lǐng)域本體表示視頻檔案本體相關(guān)研究,檔案領(lǐng)域本體的構(gòu)建也有利于電子文件管理。在檔案數(shù)據(jù)化、記錄因子方面,趙生輝等學(xué)者研究較多。趙生輝等[25]提出了體現(xiàn)檔案學(xué)特色的記錄因子理論,指出記錄因子可以劃分為時間類、空間類、人物類等類型,“檔案數(shù)據(jù)化”意味著檔案管理的基本單元由粗粒度的文檔轉(zhuǎn)變?yōu)榧?xì)粒度的記錄因子,并指出檔案數(shù)據(jù)化的主線實踐模式是“檔案領(lǐng)域本體建模”。趙生輝等[26]指出數(shù)據(jù)本質(zhì)上是記錄因子的結(jié)構(gòu)化集合,記錄因子是描述社會系統(tǒng)實體、屬性、關(guān)系的通用框架,開展記錄因子攻關(guān),對推動國家層面檔案數(shù)據(jù)資源中心協(xié)作網(wǎng)絡(luò)規(guī)劃建設(shè)具有建設(shè)性意義。在檔案領(lǐng)域本體相關(guān)研究方面,呂元智[27]指出視頻檔案語義標(biāo)準(zhǔn)的任務(wù)是將各類視頻檔案知識資源在語義標(biāo)注領(lǐng)域本體的作用下,轉(zhuǎn)化為含有語義信息的、規(guī)范化的視頻檔案知識資源進行存儲。趙生輝等[28]在分析電子文件管理中“文檔態(tài)電子文件”管理技術(shù)瓶頸的基礎(chǔ)上,提出了“檔案領(lǐng)域數(shù)據(jù)本體”概念,是用來模擬和反映社會歷史領(lǐng)域各類實體屬性之間的語義關(guān)系及其運動變化過程的大規(guī)模關(guān)聯(lián)數(shù)據(jù)集,這推動了人工智能時代檔案信息服務(wù)智能化發(fā)展。

以上通過高頻關(guān)鍵詞聚類與關(guān)鍵詞共現(xiàn)關(guān)系回顧文獻(xiàn)發(fā)現(xiàn)學(xué)者對檔案保管與智慧建設(shè)、檔案社會記憶建構(gòu)與知識服務(wù)等主題進行了相關(guān)研究,每個主題內(nèi)部有著其內(nèi)在的邏輯關(guān)聯(lián)。以上主題是近三年檔案語義化開發(fā)領(lǐng)域關(guān)注的重點與熱點內(nèi)容,檔案保管是檔案資源語義化開發(fā)的基礎(chǔ),語義化開發(fā)從最小粒度的知識單元——記錄因子著手,學(xué)者通過知識圖譜、領(lǐng)域本體的構(gòu)建以及相關(guān)語義轉(zhuǎn)換技術(shù),對檔案資源進行語義重組、語義關(guān)聯(lián)與語義發(fā)現(xiàn),重構(gòu)檔案社會記憶,最終實現(xiàn)檔案資源的智慧建設(shè)、智慧轉(zhuǎn)型,更好地為用戶提供知識服務(wù)。

通過以上主題的梳理與分析,可以發(fā)現(xiàn)學(xué)者在該領(lǐng)域的研究呈現(xiàn)出技術(shù)牽引、具體對象實踐、理論升華特征。對于技術(shù)環(huán)境的牽引與指導(dǎo),可以發(fā)現(xiàn)在以上的主題研究中本體、關(guān)聯(lián)數(shù)據(jù)、語義網(wǎng)等語義技術(shù)在實現(xiàn)檔案資源的智慧建設(shè)、社會記憶建構(gòu)、知識服務(wù)、語義關(guān)聯(lián)、語義發(fā)現(xiàn)、語義重組中發(fā)揮著重要作用。在具體對象實踐方面,學(xué)者們以萬里茶道檔案資源、清代祭祀禮器、口述歷史檔案資源、科研檔案為研究對象,進行了可視化、知識圖譜構(gòu)建相關(guān)研究,這種對具體對象的實踐研究證明了語義技術(shù)的應(yīng)用可實現(xiàn)檔案資源語義的關(guān)聯(lián)、揭示、發(fā)現(xiàn)、組織與表示,助力檔案智能化管理,實現(xiàn)檔案資源的智慧化應(yīng)用和服務(wù)。在理論升華方面,該領(lǐng)域?qū)W者對檔案保管體系理念的演變進行了探討與分析,提出了檔案知識組織的、記錄因子“檔案領(lǐng)域數(shù)據(jù)本體”的概念,進行檔案智慧轉(zhuǎn)型路徑的探索,這些概念的提出,理念的探討以及路徑的探索會助力當(dāng)下學(xué)者反思檔案資源語義化開發(fā)的內(nèi)涵與外延,實現(xiàn)多維度、結(jié)構(gòu)化、空間化的檔案資源語義化開發(fā)。

1.3 檔案資源語義化開發(fā)平臺與項目實踐研究

在平臺開發(fā)、項目實踐的相關(guān)研究中,夏翠娟老師團隊以紅色文獻(xiàn)資源為例,展開了較多研究。劉倩倩、夏翠娟等[29]指出,上圖紅色文獻(xiàn)平臺建設(shè)采用基于知識本體的方法,將多種紅色文獻(xiàn)資源和語義知識圖譜融合,應(yīng)用關(guān)聯(lián)數(shù)據(jù)、GIS、數(shù)據(jù)可視化等多種技術(shù)進行了相關(guān)平臺建設(shè),已經(jīng)建成的一系列相關(guān)聯(lián)的知識服務(wù)平臺有中國家譜知識服務(wù)平臺、中文古籍聯(lián)合目錄及循證平臺、人名規(guī)范庫等,這些平臺取得了較好的服務(wù)效果。鐵鐘、夏翠娟等[30]指出,“上海記憶——紅色旅游”項目利用語義網(wǎng)、關(guān)聯(lián)數(shù)據(jù)、知識圖譜等技術(shù)將不可移動的歷史文化建筑與文化記憶資源深度整合,形成多角度、多層次、可操控、便于傳輸和展示的數(shù)據(jù),直觀再現(xiàn)了上海的歷史變遷與人文建筑信息。張春景、夏翠娟[31]指出,開放數(shù)據(jù)競賽啟發(fā)并驗證了基于語義網(wǎng)和知識圖譜技術(shù)的多源數(shù)據(jù)融合以及利用微信小程序、GIS、3D建模、VR等技術(shù)的文旅融合服務(wù),為紅色文化信息資源的開發(fā)和利用提供了新的模式和路徑。

1.4 中文研究熱點與前沿發(fā)現(xiàn)——高頻關(guān)鍵詞主題加權(quán)演進分析。對國內(nèi)檔案資源語義化開發(fā)研究進行研究熱點與前沿探測,為使繪制的主題加權(quán)演進圖譜表達(dá)清晰,易于直觀發(fā)現(xiàn)研究熱點與前沿,綜合考慮關(guān)鍵詞數(shù)量及其頻次,選擇對頻次≥3的23個高頻關(guān)鍵詞進行主題加權(quán)演進分析,經(jīng)過計算,基于關(guān)鍵詞的主題加權(quán)結(jié)果如圖4所示。橫軸表示關(guān)鍵詞平均出現(xiàn)的年份,縱軸表示關(guān)鍵詞在相應(yīng)年份出現(xiàn)的頻次。對于橫軸而言,關(guān)鍵詞出現(xiàn)的年份越靠近2022年,說明其與該領(lǐng)域最新研究相關(guān),代表檔案資源語義化開發(fā)研究的前沿;對于縱軸而言,關(guān)鍵詞出現(xiàn)的頻次越高,說明近三年一直受到學(xué)者關(guān)注,代表檔案資源語義化開發(fā)研究的熱點。

可以看出,在檔案資源語義化開發(fā)中,知識圖譜、數(shù)字人文、關(guān)聯(lián)數(shù)據(jù)、本體在近三年時間內(nèi)出現(xiàn)的次數(shù)較多,時間較為平均,體現(xiàn)了檔案知識圖譜構(gòu)建、檔案數(shù)字人文、檔案關(guān)聯(lián)數(shù)據(jù)、檔案本體構(gòu)建一直是該領(lǐng)域的研究熱點。檔案數(shù)據(jù)化、知識發(fā)現(xiàn)、語義組織、人工智能出現(xiàn)的頻次相對較低,但相比其他關(guān)鍵詞時間接近2022年,說明檔案數(shù)據(jù)化、檔案知識發(fā)現(xiàn)、檔案語義組織以及人工智能技術(shù)是檔案資源語義化開發(fā)研究的前沿內(nèi)容。

2 國外文獻(xiàn)梳理

本文以所有字段=“Archival semantics” 或者 所有字段=“File semantics”為檢索方式在Web of Science、ScienceDirect 等數(shù)據(jù)庫中進行檢索,時間限定在2019年8月31日—2022年8月31日,共檢索到論文192篇。依據(jù)中文文獻(xiàn)梳理可知,檔案資源語義化開發(fā)研究中涉及具體對象除檔案外,還有文件、文本以及記錄等與檔案息息相關(guān)的內(nèi)容,因此對英文文獻(xiàn)篇名、摘要進行梳理與篩查,篩查方式為篇名或摘要部分含有“Archives、Semantic”或者“File、Semantic” 或者 “Record、Semantic” 或者“Documents、Semantic”或者“Text、Semantic”等特征詞,經(jīng)過整理與校對,最終保留與研究主題相符合的外文文獻(xiàn)31篇。

2.1 外文文獻(xiàn)關(guān)鍵詞數(shù)據(jù)分析。外文文獻(xiàn)關(guān)鍵詞數(shù)據(jù)分析將從關(guān)鍵詞詞頻統(tǒng)計、每年關(guān)鍵詞分布分析、高頻關(guān)鍵詞共現(xiàn)矩陣分析方面進行總結(jié)。

(1)外文關(guān)鍵詞詞頻統(tǒng)計。本研究對外文關(guān)鍵詞進行了頻次統(tǒng)計,頻次≥2的關(guān)鍵詞共有7個,其余關(guān)鍵詞在31篇文獻(xiàn)中出現(xiàn)頻次只有1次,說明外文文獻(xiàn)研究的主題關(guān)鍵詞相對中文而言較為分散,因為此領(lǐng)域研究外文成果相對較少,高頻關(guān)鍵詞以及其共現(xiàn)相對應(yīng)也較少。經(jīng)過以上統(tǒng)計,本研究繪制了外文文獻(xiàn)檔案資源語義化開發(fā)研究關(guān)鍵詞詞云圖(圖5),并將頻次≥2的關(guān)鍵詞進行了表格統(tǒng)計(表3)。

可以看出,在外文文獻(xiàn)中,頻次≥2的關(guān)鍵詞為Semantics(語義)、Ontologies(本體)、Semantic Web(語義網(wǎng))、Metadata(元數(shù)據(jù))、Deep Learning(深度學(xué)習(xí))、Linked Data(關(guān)聯(lián)數(shù)據(jù))、Feature Extraction(特征抽?。R陨详P(guān)鍵詞表示語義描述、語義抽取、語義組織、語義關(guān)聯(lián)的技術(shù)支撐。除以上高頻關(guān)鍵詞外,剩余技術(shù)相關(guān)關(guān)鍵詞有Image Segmentation(圖像分割)、Character Recognition(字符識別)、Deep Semantic Feature(深層語義特征)、Convolutional Neural Network(卷積神經(jīng)網(wǎng)絡(luò))、Deep Neural Network(深層神經(jīng)網(wǎng)絡(luò))、Machine Learning(機器學(xué)習(xí))等。本體、元數(shù)據(jù)、語義網(wǎng)、關(guān)聯(lián)數(shù)據(jù)、深度學(xué)習(xí)、機器學(xué)習(xí)等技術(shù)方法的應(yīng)用實現(xiàn)了語義關(guān)聯(lián)、特征抽取,圖像分割以及深層語義特征分析,技術(shù)方法的創(chuàng)新與更迭推進了檔案資源語義化深度開發(fā)。

(2)外文關(guān)鍵詞時間分布。本文按2019年8月31日—12月31日、2020年、2021年、2022年1月1日—8月31日四個時段對外文文獻(xiàn)關(guān)鍵詞進行了部分統(tǒng)計,如圖6所示。

在2019年8月31日—12月31日時段內(nèi),文獻(xiàn)中出現(xiàn)的關(guān)鍵詞有Web Ontology Language(網(wǎng)絡(luò)本體語言)、Unified Modelling Language(統(tǒng)一建模語言)、Information Model(信息模型)、Geographic Information Systems(地理信息系統(tǒng))、Big Data(大數(shù)據(jù))等,說明在這個時段學(xué)者對本體語言、模型構(gòu)建、地理信息系統(tǒng)應(yīng)用、大數(shù)據(jù)分析在檔案資源語義化開發(fā)中的應(yīng)用進行了相關(guān)研究。本體、信息模型的研究實現(xiàn)了該領(lǐng)域相關(guān)概念及語義關(guān)系的規(guī)范化、統(tǒng)一化表述,地理信息系統(tǒng)的應(yīng)用對檔案資源中的空間信息進行了精準(zhǔn)、可視化的呈現(xiàn),大數(shù)據(jù)思維與技術(shù)的應(yīng)用實現(xiàn)了海量檔案數(shù)據(jù)的語義挖掘與分析。在2020年時段內(nèi),文獻(xiàn)中出現(xiàn)的關(guān)鍵詞有Semantics(語義)、Feature Extraction(特征抽?。eep Learning(深度學(xué)習(xí))、Resource Description Framework(RDF資源描述框架)、Linked Data(關(guān)聯(lián)數(shù)據(jù))、Semantic Web(語義網(wǎng))等,在這個時段內(nèi)學(xué)者對深度學(xué)習(xí)、RDF資源描述框架、關(guān)聯(lián)數(shù)據(jù)等對語義深度挖掘的技術(shù)方法應(yīng)用進行了相關(guān)研究,深度學(xué)習(xí)技術(shù)在檔案資源實體識別、關(guān)系抽取方面得到了應(yīng)用并取得較好結(jié)果,關(guān)聯(lián)數(shù)據(jù)的應(yīng)用可助力檔案資源的集成與共享,RDF三元組描述框架對檔案資源的統(tǒng)一形式化表示具有重要意義,便利學(xué)者標(biāo)注、抽取與獲得檔案資源中的實體語義關(guān)系。在2021年時段內(nèi),文獻(xiàn)中出現(xiàn)的關(guān)鍵詞有Semantics(語義)、Ontologies(本體)、Document Analysis And Recognition(文檔分析和識別)、Character Recognition(特征識別)、Text Recognition(文本識別)、Text Analysis(文本分析)等,這個時段內(nèi)研究包括對檔案資源內(nèi)容進行語義方面的特征識別、文本分析等,文本分析是檔案資源文本挖掘的主要手段,基于計算機對檔案資源文本理解與分析的基礎(chǔ)上,從檔案資源文本數(shù)據(jù)中抽取文本的特征與信息。檔案資源的特征識別與生物特征識別緊密關(guān)聯(lián),智能機器通過獲取和分析人臉、聲紋、筆跡等生物特征,可助力檔案資源中聲像檔案資源的語義化開發(fā)。在2022年1月1日—8月31日時段內(nèi),文獻(xiàn)中出現(xiàn)的關(guān)鍵詞有Convolutional Neural Network(卷積神經(jīng)網(wǎng)絡(luò))、Deep Semantic Feature(深度語義特征)、Computational Semantics(計算語義學(xué))、Data Curation(數(shù)據(jù)保管)、RDF Triples(RDF三元組)等,在這個時段學(xué)者對卷積神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)處理、深度語義特征抽取、計算語義學(xué)等進行了相關(guān)研究,卷積神經(jīng)網(wǎng)絡(luò)技術(shù)的進步與發(fā)展實現(xiàn)了檔案資源深度語義特征抽取,在計算語義學(xué)理論的指導(dǎo)下,學(xué)者可對檔案資源詞匯、句子、文本所蘊含的意義進行形式化描述,設(shè)計一套計算機可理解的語義語言,對檔案資源進行語義解釋,可以揭示檔案資源不同詞匯、句子及文本間的各類語義關(guān)聯(lián)。

(3)基于高頻關(guān)鍵詞的外文文獻(xiàn)共現(xiàn)分析。在相關(guān)外文文獻(xiàn)中,頻次≥2的關(guān)鍵詞共有7個,本文對這7個關(guān)鍵詞進行了共現(xiàn)分析(圖7)。

其中,Semantics(語義)與Ontologies(本體)共現(xiàn)1次,與Metadata(元數(shù)據(jù))共現(xiàn)2次,與Deep Learning(深度學(xué)習(xí))共現(xiàn)1次,與Feature Extraction(特征抽?。┕铂F(xiàn)2次;Ontologies(本體)與Semantic Web(語義網(wǎng))共現(xiàn)1次,與Linked Data(關(guān)聯(lián)數(shù)據(jù))共現(xiàn)1次;Semantic Web(語義網(wǎng))與Linked Data(關(guān)聯(lián)數(shù)據(jù))共現(xiàn)1次;Deep Learning(深度學(xué)習(xí))與Feature Extraction(特征抽?。┕铂F(xiàn)1次?;诠铂F(xiàn)結(jié)果,可以發(fā)現(xiàn)Semantics(語義)與其他關(guān)鍵詞共現(xiàn)較多,語義、本體、語義網(wǎng)、關(guān)聯(lián)數(shù)據(jù)之間的共現(xiàn)形成了閉環(huán),說明學(xué)者以本體構(gòu)建為基礎(chǔ),結(jié)合語義網(wǎng)、關(guān)聯(lián)數(shù)據(jù)等技術(shù)實現(xiàn)檔案資源的語義化開發(fā)研究。語義、深度學(xué)習(xí)、特征抽取之間的共現(xiàn)體現(xiàn)了學(xué)者在對檔案資源語義化開發(fā)研究中,將深度學(xué)習(xí)等技術(shù)應(yīng)用于資源內(nèi)容的特征抽取,實現(xiàn)了檔案資源的特征識別與分析。此外,語義與元數(shù)據(jù)共現(xiàn)2次,說明檔案資源的語義化開發(fā)需要構(gòu)建規(guī)范化的元數(shù)據(jù)體系,這對實現(xiàn)檔案資源的語義發(fā)現(xiàn)和語義分析具有重要意義。

2.2 基于高頻關(guān)鍵詞共現(xiàn)的外文文獻(xiàn)主題聚類分析。本文將國外檔案資源語義化開發(fā)研究主題歸納為3個方面,分別是基于本體的語義化開發(fā)研究、基于元數(shù)據(jù)的語義化開發(fā)研究和基于深度學(xué)習(xí)與特征抽取的語義化開發(fā)研究,現(xiàn)將每個主題進行相關(guān)文獻(xiàn)的梳理與總結(jié)。

(1)基于本體構(gòu)建的語義化開發(fā)研究。Wang等[32]基于語義網(wǎng)和語義本體,總結(jié)了政府檔案相關(guān)領(lǐng)域知識,構(gòu)建了中國政府檔案本體模型,進一步推動了檔案學(xué)在數(shù)字化領(lǐng)域的研究和實踐。Viry 等[33]提出一種基于語義Web技術(shù)從應(yīng)用程序數(shù)據(jù)模型中展示地理可視化的方法,實現(xiàn)了以本體論推導(dǎo)知識自動創(chuàng)建地理可視化的目標(biāo)。Stork等[34]提出了一個自然歷史集合本體論NHC-Ontology(Natural History Collection Ontology)語義模型,用于構(gòu)建自然歷史檔案館藏中的命名實體,并且設(shè)計了一個注釋工具,對1820年至1850年間自然歷史委員會收集的8 000頁書籍頁面的圖像進行了專家語義注釋,實現(xiàn)了NHC-Ontology語義模型與語義注釋數(shù)據(jù)的結(jié)合,此研究解釋了本體在語義建模方面的價值。

(2)基于元數(shù)據(jù)規(guī)范化的語義化開發(fā)研究。Neal等[35]在生物網(wǎng)絡(luò)計算建模(COMBINE)共識指導(dǎo)下,開發(fā)了一個規(guī)范、用于開放建模和交換(OMEX)格式的檔案編碼注釋,OMEX元數(shù)據(jù)有助于注釋檔案中各種模型和數(shù)據(jù)表示格式的規(guī)范化。Gennari等[36]詳細(xì)介紹了規(guī)范的 OMEX 元數(shù)據(jù)1.2 版本,其是支持語義模型注釋的軟件工具的技術(shù)指南,在模型重用、語義發(fā)現(xiàn)和語義分析方面具有重要意義。

(3)基于深度學(xué)習(xí)與特征抽取的語義化開發(fā)研究。Ren等[37]提出了基于深度學(xué)習(xí)框架——動態(tài)卷積神經(jīng)網(wǎng)絡(luò)(DCNN)的電子設(shè)備配置數(shù)據(jù)集的自動映射方法,使用Word2vec詞模型對詞及其語義關(guān)系進行向量化,實現(xiàn)了語義規(guī)律挖掘和智能記錄儀的數(shù)據(jù)集自動映射,此研究對語義映射、語義特征提取具有重要意義。Wang等[38]指出深度信念網(wǎng)絡(luò)模型使用多級神經(jīng)網(wǎng)絡(luò)從訓(xùn)練數(shù)據(jù)中學(xué)習(xí)表示,該表示可以重建訓(xùn)練數(shù)據(jù)的語義和內(nèi)容,使用深度信念網(wǎng)絡(luò)從源代碼中提取的標(biāo)記向量中自動學(xué)習(xí)語義特征,并利用這些特征來構(gòu)建和訓(xùn)練缺陷預(yù)測模型,對文件級預(yù)測具有顯著作用。

通過上述國外相關(guān)主題梳理可以發(fā)現(xiàn),本體幫助實現(xiàn)檔案領(lǐng)域知識總結(jié),借助本體可以對檔案資源內(nèi)容進行知識表示和知識推理,幫助構(gòu)建命名實體識別,對檔案資源語義建模具有較大價值。元數(shù)據(jù)有助于規(guī)范檔案資源中的模型和數(shù)據(jù)表示格式,實現(xiàn)檔案資源的語義發(fā)現(xiàn)和語義分析。深度學(xué)習(xí)實現(xiàn)檔案資源語義特征的提取,對文件級缺陷預(yù)測具有顯著作用。以上技術(shù)方法的綜合應(yīng)用能夠?qū)崿F(xiàn)多層次、空間化的檔案資源語義化開發(fā),有助于檔案資源智慧價值的挖掘,輔助人文學(xué)者構(gòu)筑以語義發(fā)現(xiàn)與語義關(guān)聯(lián)為紐帶的檔案資源知識記憶體系。

2.3 國外檔案資源語義化開發(fā)平臺與項目實踐研究。在國外檔案資源語義化開發(fā)實踐研究中,Bartalesi等[39]芬蘭文化遺產(chǎn)開發(fā)項目中的遺產(chǎn)資源來自22個博物館、檔案館和圖書館,包含繪畫、雕塑、漫畫、人物傳記等不同類型對象,其中關(guān)于傳記桑波開發(fā)的系統(tǒng)使用CIDOC CRM模型對傳記詞典進行敘事概念表示,基于該系統(tǒng)構(gòu)建了數(shù)字圖書館,包含13 000多位歷史人物傳記,通過使用知識提取技術(shù)將文本傳記轉(zhuǎn)換為關(guān)聯(lián)開放數(shù)據(jù),通過內(nèi)部與外部數(shù)據(jù)源鏈接進行推理來豐富數(shù)據(jù),并且豐富了數(shù)據(jù)分析和數(shù)據(jù)可視化的工具,助力學(xué)者進行數(shù)字人文研究。Koho等[40]指出基于桑波傳記的另一個項目是關(guān)于手稿研究的數(shù)字圖書館開發(fā),旨在將不同數(shù)據(jù)庫來源的手稿數(shù)據(jù)集集成到共享平臺中進行研究和發(fā)現(xiàn),此項目統(tǒng)一并發(fā)布了手稿元數(shù)據(jù)作為開放關(guān)聯(lián)數(shù)據(jù),創(chuàng)建了語義門戶和開放關(guān)聯(lián)數(shù)據(jù)服務(wù),便于進行搜索和發(fā)現(xiàn),支持使用推理引擎進行知識發(fā)現(xiàn),為用戶提供更好的知識服務(wù)。Felipe等,[41]指出拉丁美洲漫畫檔案館(LACA)對拉丁美洲漫畫進行了數(shù)字化和編碼,在漫畫檔案上為學(xué)者和學(xué)生提供了助力人文學(xué)科研究的數(shù)字標(biāo)記和注釋等數(shù)字技術(shù)工具,方便學(xué)生和研究人員能夠合作定義要注釋的關(guān)鍵術(shù)語語義,幫助學(xué)者和學(xué)生進行語義主題研究等學(xué)術(shù)探索。

2.4 外文研究熱點與前沿發(fā)現(xiàn)——主題加權(quán)演進分析。與基于中文關(guān)鍵詞進行主題加權(quán)演進來發(fā)現(xiàn)研究熱點和前沿相同,對頻次≥2的外文關(guān)鍵詞進行主題加權(quán)演,以2020年為時間間隔點,可以發(fā)現(xiàn)在外文文獻(xiàn)高頻關(guān)鍵詞中,特征抽取、深度學(xué)習(xí)、本體、元數(shù)據(jù)是近3年檔案語義領(lǐng)域相關(guān)研究的熱點,語義網(wǎng)關(guān)鍵詞時間相比最靠前,說明其在外文文獻(xiàn)檔案語義相關(guān)研究中既是熱點也是前沿。

3 國內(nèi)外檔案資源語義化開發(fā)研究總結(jié)分析

本文利用Co-Occurrence13.2(COOC13.2)軟件,[42]對國內(nèi)外檔案資源語義化開發(fā)研究進行了關(guān)鍵詞詞頻統(tǒng)計、條形圖繪制、共現(xiàn)矩陣計算、主題聚類分析以及主題加權(quán)演進分析,通過以上分析,可以發(fā)現(xiàn)國內(nèi)外學(xué)者對檔案資源語義化開發(fā)在一些方面也達(dá)成一致意見:(1)檔案資源語義化開發(fā)的對象是多源多構(gòu)的,檔案資源來源于檔案館、檔案網(wǎng)站、檔案數(shù)據(jù)庫、檔案微信公眾號以及包含檔案資源的圖書館、博物館等組織或平臺,數(shù)數(shù)據(jù)結(jié)構(gòu)包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù);(2)檔案資源語義化開發(fā)的主要目標(biāo)是通過方法與技術(shù)實現(xiàn)檔案資源語義內(nèi)容的揭示與互聯(lián),以求解檔案資源語義知識挖掘與關(guān)聯(lián)問題或者滿足知識服務(wù)需求,國內(nèi)外都對檔案資源語義化開發(fā)的技術(shù)應(yīng)用較為重視,文獻(xiàn)中提到包括本體、元數(shù)據(jù)、關(guān)聯(lián)數(shù)據(jù)、語義網(wǎng)、知識圖譜、GIS、機器學(xué)習(xí)、深度學(xué)習(xí)等主要語義開發(fā)技術(shù)與方法;(3)檔案資源語義化開發(fā)涉及了多學(xué)科的理論與方法,主要涉及檔案學(xué)、圖書情報學(xué)、計算機科學(xué)、語義學(xué)、數(shù)學(xué)等不同學(xué)科的理論和方法,這映射了檔案學(xué)與其他學(xué)科的合作共生關(guān)系,檔案資源語義化開發(fā)也是多學(xué)科交叉融合的關(guān)鍵體現(xiàn);(4)檔案資源語義化開發(fā)的結(jié)果是提供用戶所需的知識,或?qū)τ诂F(xiàn)有知識體系而言的新知識,助力學(xué)者與學(xué)生進行數(shù)字人文研究,實現(xiàn)檔案資源智慧價值的挖掘。

通過對檔案文獻(xiàn)資源語義化開發(fā)平臺與項目的相關(guān)實踐研究分析,可以發(fā)現(xiàn)國內(nèi)外學(xué)者大多基于輔助學(xué)者進行數(shù)字人文研究視角,構(gòu)建相關(guān)的數(shù)據(jù)庫、語義門戶、數(shù)字圖書館等服務(wù)平臺以實現(xiàn)檔案資源的語義化開發(fā),國內(nèi)涉及的實踐項目有上海圖書館發(fā)布的中國家譜知識服務(wù)平臺、中國古籍聯(lián)合目錄及循證平臺、人名規(guī)范庫等,國外涉及的實踐實現(xiàn)包括基于桑波傳記開發(fā)的數(shù)字圖書館、關(guān)于手稿研究的語義門戶以及拉丁美洲漫畫檔案館項目等。這些實踐研究應(yīng)用了本體、元數(shù)據(jù)、關(guān)聯(lián)數(shù)據(jù)、語義網(wǎng)、知識圖譜、GIS等技術(shù),實現(xiàn)了檔案資源語義的深度挖掘與關(guān)聯(lián),為學(xué)者和學(xué)生進行數(shù)字人文研究提供了助力。

4 結(jié)語

本文對近三年國內(nèi)外檔案資源語義化開發(fā)研究進行了系統(tǒng)梳理,重點內(nèi)容為通過高頻關(guān)鍵詞的共現(xiàn)分析與回顧文獻(xiàn)總結(jié)了國內(nèi)外檔案資源語義化開發(fā)中的研究主題,剖析了各主題之間的邏輯關(guān)聯(lián)以及各主題與檔案資源語義化開發(fā)的關(guān)系。同時,對高頻關(guān)鍵詞進行主題加權(quán)統(tǒng)計分析,進而發(fā)現(xiàn)在高頻關(guān)鍵詞中近三年國內(nèi)外檔案資源語義化開發(fā)研究熱點與前沿,助力學(xué)者快速掌握此領(lǐng)域的熱點與前沿。此外,本文對國內(nèi)外檔案資源語義化開發(fā)平臺、項目實踐進行了梳理概括,通過梳理可以發(fā)現(xiàn),相關(guān)檔案資源服務(wù)平臺為學(xué)者和用戶提供了良好的知識服務(wù),助力學(xué)者進行數(shù)字人文視域下檔案資源語義化開發(fā)研究。最后,本文對國內(nèi)外該領(lǐng)域研究進行了分析,發(fā)現(xiàn)了國內(nèi)外檔案資源語義化開發(fā)之間的共性,基于此,總結(jié)了檔案資源語義化開發(fā)的對象、目標(biāo)、多學(xué)科視角、結(jié)果實現(xiàn)以及相關(guān)應(yīng)用技術(shù)等內(nèi)容。

基于本文的梳理與總結(jié)可以發(fā)現(xiàn),技術(shù)的更新、多學(xué)科的交叉融合創(chuàng)新了檔案資源語義化開發(fā)模式,推動了檔案資源從數(shù)據(jù)價值到信息價值到知識價值再到智慧價值的凝練與挖掘,隨著用戶對檔案資源語義知識服務(wù)的需求不斷變化,這種需求反過來也會推動檔案資源語義化開發(fā)技術(shù)及理論層面的研究深度拓展。在未來,計算機科學(xué)、信息哲學(xué)、數(shù)字人文學(xué)、語義學(xué)將與檔案學(xué)深度交融,在檔案資源語義化開發(fā)中發(fā)揮更大的作用,而關(guān)于檔案資源多模態(tài)語義融合與語義發(fā)現(xiàn)將是未來一段時間內(nèi)檔案資源語義化開發(fā)研究的重點內(nèi)容。

*本文系國家社會科學(xué)基金項目“數(shù)據(jù)驅(qū)動的檔案文獻(xiàn)資源知識構(gòu)建與知識服務(wù)研究”(項目號:21BTQ109)的研究成果之一。

參考文獻(xiàn):

[1][22]祁天嬌,馮惠玲.檔案數(shù)據(jù)化過程中語義組織的內(nèi)涵、特點與原理解析[J].圖書情報工作,2021,65(09):3-15.DOI:10.

[2][13][21]鄧君,王阮.口述歷史檔案資源知識圖譜與多維知識發(fā)現(xiàn)研究[J].圖書情報工作,2022,66(07):4-16.

[3]錢毅.從保護到管護:對象變遷視角下的檔案保管思想演變[J].檔案學(xué)通訊,2022(02):82-88.

[4]牛力,黎安潤澤,劉慧琳,等.從物理到數(shù)據(jù):智慧檔案2.0體系構(gòu)建研究[J].檔案學(xué)研究,2022(03):84-90.

[5]郝偉斌,王君儀,段燕鴿.檔案文化智慧數(shù)據(jù)資源建設(shè)——河南省檔案館館藏中福公司檔案整理開發(fā)研究之二[J].檔案管理,2022(01):114-116.

[6]曾蕾,譚旭.數(shù)據(jù)的語義增強——解讀圖檔博支持?jǐn)?shù)字人文的新動向[J].數(shù)字人文研究,2021,1(01):65-86.

[7]趙雪芹,李天娥.面向數(shù)字人文的檔案領(lǐng)域本體構(gòu)建研究——以萬里茶道檔案資料為例[J].情報理論與實踐,2022,45(08):154-161.

[8]房小可.檔案學(xué)科視角下社會記憶構(gòu)建框架研究[J].檔案學(xué)研究,2021(03):18-23.

[9]房小可,王巧玲.檔案著錄?知識關(guān)聯(lián)與社會記憶重構(gòu)[J].檔案學(xué)通訊,2021(03):27-33.

[10]牛力,高晨翔,劉力超,等.層次與空間:數(shù)字記憶視角下名人檔案的價值挖掘研究[J].檔案學(xué)研究,2021(05):138-144.

[11]周娟娟,李澤鋒,劉竟一.基于知識圖譜的干部人事檔案知識化服務(wù)研究[J].檔案管理,2021(06):87-89.

[12]高淞,王向女.數(shù)字人文視域下口述歷史檔案資源開發(fā)利用研究[J].山西檔案,2021(03):61-70.

[14]郭學(xué)敏,Ryan Shaw.基于關(guān)聯(lián)數(shù)據(jù)的檔案語義轉(zhuǎn)換實踐分析[J].檔案學(xué)通訊,2019(05):50-57.

[15]夏天,錢毅.面向知識服務(wù)的檔案數(shù)據(jù)語義化重組[J].檔案學(xué)研究,2021(02):36-44.

[16]宋雪雁,張偉民,張祥青.基于檔案文獻(xiàn)的清代祭祀禮器知識圖譜構(gòu)建研究[J].圖書情報工作,2022,66(03):140-151.

[17]向夢宇.基于知識圖譜的軍工研究所檔案知識服務(wù)模式研究[J].機電兵船檔案,2022(01):21-23.

[18]雷潔,趙瑞雪,李思經(jīng),等.科研檔案管理知識圖譜構(gòu)建研究[J].科技管理研究,2020,40(11):162-169.

[19]雷潔,趙瑞雪,李思經(jīng),等.知識圖譜驅(qū)動的科研檔案大數(shù)據(jù)管理系統(tǒng)構(gòu)建研究[J].數(shù)字圖書館論壇,2020(02):19-27.

[20]祁天嬌,曹宇,傅曉丹,等.“十四五”時期檔案資源智慧化轉(zhuǎn)型研究[J].檔案學(xué)通訊,2021(06):96-98.

[23]張斌,高晨翔,牛力.對象?結(jié)構(gòu)與價值:檔案知識工程的基礎(chǔ)問題探究[J].檔案學(xué)通訊,2021(03):18-26.

[24]周媛媛.綜合性檔案館基于特征提取與數(shù)據(jù)分析的檔案語義關(guān)聯(lián)模型應(yīng)用研究與實踐[J].蘭臺世界,2022(06):59-61.

[25]趙生輝,胡瑩.“檔案數(shù)據(jù)化”底層邏輯的解析與啟示[J].檔案學(xué)通訊,2021(04):20-27.

[26]趙生輝,胡瑩,黃依涵.數(shù)據(jù)?檔案及其共生演化的微觀機理解析[J].檔案學(xué)通訊,2022(02):4-12.

[27]呂元智.視頻檔案資源多層級語義標(biāo)注框架構(gòu)建研究[J].數(shù)字圖書館論壇,2021(11):13-20.

[28]趙生輝,胡瑩.擁有整體性記憶:檔案領(lǐng)域數(shù)據(jù)本體管理論綱[J].山西檔案,2020(06):17-27.

[29]劉倩倩,夏翠娟,朱武信.紅色文化傳承視域下的紅色文獻(xiàn)服務(wù)平臺建設(shè)實踐與思考[J].信息資源管理學(xué)報,2021,11(04):17-24+32+16.

[30]鐵鐘,夏翠娟,黃薇.文旅融合視域下紅色文化信息資源數(shù)據(jù)化創(chuàng)新設(shè)計與實踐[J].信息資源管理學(xué)報,2021,11(04):33-39+59.

[31]張春景,夏翠娟.開放數(shù)據(jù)競賽在紅色文化信息資源開發(fā)利用中的價值貢獻(xiàn)研究——以上海圖書館開放數(shù)據(jù)競賽為例[J].信息資源管理學(xué)報,2021,11(04):25-32.

[32]Wang Z Y,Song Z P,Yu G,et al.An Ontology for Chinese Government Archives Knowledge Representation and Reasoning[J].IEEE Access,2021,9:130199-130211.

[33]Viry M,Villanova-Oliver M.How to Derive a Geovisualization from an Application Data Model:An Approach Based on Semantic Web Technologie[J].International Journal of Digital Earth,2021,14(07):874-898.

[34]Stork L,Weber A,Miracle E G,et al.Semantic annotation of natural history collections[J].Journal of Web Semantics,2019,59:100462.

[35]Neal M L,Gennari J H,Waltemath D,et al.Open modeling and exchange(OMEX) metadata specification version 1.0[J].Journal of Integrative Bioinformatics,2020,17(2-3):20200020.

[36]Gennari J H,K?nig M,Misirli G,et al.OMEX metadata specification(version 1.2)[J].Journal of Integrative Bioinformatics,2021,18(03):20210020.

[37]Ren J B,Li T C,Gen S B,et al.An Automatic Mapping Method of Intelligent Recorder Configuration Datasets Based on Chinese Semantic Deep Learning[J].IEEE Access,2020,8:168186-168195.

[38]Wang S,Liu T Y,Jaechang N,et al.Deep Semantic Feature Learning for Software Defect Prediction[J].IEEE Transactions on Software Engineering,2020,46(12):1267-1293.

[39]Bartalesi V,Pratelli N,Lenzi P.linking different scientific digital libraries in Digital Humanities:the IMAGO case study[J].International Journal on Digital Libraries:2022,23:303-317.

[40]Koho M,Burrows K,Hyv?nen E,et al.Harmonizing and publishing heterogeneous premodern manuscript metadata as Linked Open Data[J].JASIST,2022,73(02):240-257.

[41]Felipe G ,Scott W ,Rikk M ,et al.The Latin American Comics Archive(LACA)an online platform housing digitized Spanish-language comics as a tool to enhance literacy,research,and teaching through scholar/ student collaboration[J].Cuadernos del Centro de Estudios en Dise?o y Comunicación.Ensayos,2020,89:47-67.

[42]學(xué)術(shù)點滴,文獻(xiàn)計量. COOC一款用于文獻(xiàn)計量和知識圖譜繪制的軟件[CP/OL].[2022-10-13].https://gitee.com/academic_2088904822/academic-drip.

(作者單位:吉林大學(xué)商學(xué)與管理學(xué)院 宋雪雁,教授,博士生導(dǎo)師;張祥青,博士研究生;張偉民,博士研究生 來稿日期:2023-04-19)

猜你喜歡
本體圖譜關(guān)聯(lián)
Abstracts and Key Words
不懼于新,不困于形——一道函數(shù)“關(guān)聯(lián)”題的剖析與拓展
繪一張成長圖譜
對姜夔自度曲音樂本體的現(xiàn)代解讀
“一帶一路”遞進,關(guān)聯(lián)民生更緊
奇趣搭配
補腎強身片UPLC指紋圖譜
智趣
《我應(yīng)該感到自豪才對》的本體性教學(xué)內(nèi)容及啟示
Care about the virtue moral education