国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)字人文視域下口述記憶資源知識圖譜構(gòu)建研究

2022-02-11 20:52王阮鄧君
現(xiàn)代情報 2022年2期
關(guān)鍵詞:數(shù)字人文知識圖譜

王阮 鄧君

摘 要:[目的/意義]傳統(tǒng)資源開發(fā)方式已無法適應(yīng)數(shù)字人文時代的發(fā)展需要。伴隨數(shù)字與人文研究的碰撞不斷深入,以知識圖譜為代表的數(shù)字人文技術(shù)方法能為口述記憶資源深度挖掘提供新視角。[方法/過程]構(gòu)建口述記憶資源知識圖譜模型,以國家圖書館中國記憶項目東北抗日聯(lián)軍專題老戰(zhàn)士口述記憶資源為數(shù)據(jù)源進行實例可視化展示與多維語義查詢。[結(jié)果/結(jié)論]本文驗證了知識圖譜技術(shù)方法在知識挖掘、知識發(fā)現(xiàn)與知識服務(wù)等方面的適用性與實用性,有效創(chuàng)新了數(shù)字人文環(huán)境下口述記憶資源開發(fā)路徑。

關(guān)鍵詞:數(shù)字人文;口述記憶資源;知識圖譜

DOI:10.3969/j.issn.1008-0821.2022.02.003

〔中圖分類號〕G250 〔文獻標(biāo)識碼〕A 〔文章編號〕1008-0821(2022)02-0022-12

Research on the Construction of Knowledge Graph of Oral Memory

Resources from the Perspective of Digital Humanities

Wang Ruan Deng Jun*

(School of Business and Management,Jilin University,Changchun 130022,China)

Abstract:[Purpose/Significance]The traditional development mode of resources can not meet the development needs of the digital humanistic era.With the deepening of the collision between digital and humanistic research,the digital humanistic technology method represented by knowledge graph can provide a new perspective for the in-depth mining of oral memory resources.[Method/Process]The knowledge graph model of oral memory resources was constructed,and oral memory resources of special veterans of the Northeast Anti Japanese coalition army of China Memory Project of the national library were used as the data source for example visual display and multi-dimensional semantic query.[Result/Conclusion]The study verifies the applicability and practicability of knowledge graph technology in resources knowledge mining,knowledge discovery and knowledge service,and effectively innovates the development path of oral memory resources in the digital humanistic environment.

Key words:digital humanities;oral memory resources;knowledge graph

近年來,數(shù)字技術(shù)的迅速崛起、升溫,極大改變了人文學(xué)科的研究范式、教學(xué)手段與成果呈現(xiàn)方式。云計算、大數(shù)據(jù)、物聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)、區(qū)塊鏈等技術(shù)的發(fā)展和應(yīng)用推動了“數(shù)智時代”的到來,助推了人文領(lǐng)域的數(shù)字人文浪潮,也成為圖情領(lǐng)域發(fā)展的新生長點[1]。作為實踐性和操作性很強的研究領(lǐng)域,口述記憶資源受數(shù)字時代形態(tài)變化的影響,呈現(xiàn)出不斷修正、更新、螺旋式推進的趨勢與規(guī)律[2]。

早在2002年,文化部、財政部便依托全國各級公共圖書館、文化館,多形式、多渠道開展數(shù)字文化資源服務(wù),提出要加強信息基礎(chǔ)建設(shè),以群眾基本文化需求為導(dǎo)向,創(chuàng)新信息技術(shù)服務(wù)手段[3]。2019年,《公共數(shù)字文化工程融合創(chuàng)新發(fā)展實施方案》的發(fā)布,進一步推動了公共數(shù)字文化融合發(fā)展,以把握導(dǎo)向、統(tǒng)籌規(guī)劃、創(chuàng)新驅(qū)動、開放共享為發(fā)展原則,實現(xiàn)服務(wù)業(yè)態(tài)創(chuàng)新、服務(wù)效能提升,建立能夠?qū)崿F(xiàn)共建共享、管理規(guī)范、服務(wù)高效的服務(wù)體系[4]。我國作為中華文化的守護者和傳承者,擁有相當(dāng)豐富且數(shù)量龐大的人文資源亟待挖掘,如何檢索、利用浩瀚繁雜的口述記憶資源,將其蘊含的豐富內(nèi)部事實、數(shù)據(jù)和知識展現(xiàn)出來,實現(xiàn)口述記憶資源深度開發(fā)與知識發(fā)現(xiàn)具有迫切性和必要性。

基于此,本文以口述記憶資源為研究對象,以知識圖譜可視化技術(shù)重現(xiàn)珍貴歷史記憶,展示從理念基礎(chǔ)到技術(shù)方法再到實踐操作的口述記憶資源知識圖譜架構(gòu)過程,引入東北抗日聯(lián)軍專題老戰(zhàn)士口述記憶資源進行圖譜可視化展示,以深化助益研究的深度與廣度,試圖在“數(shù)字”與“人文”的碰撞中創(chuàng)啟新篇章。

1 文獻綜述

1.1 口述記憶資源

《荷馬史詩》《馬可波羅游記》通過口頭傳說與敘述編纂記錄了西方國家的口述研究本源。我國口述傳統(tǒng)可追溯到3 000多年前,以《禮記》中“動則左史書之,言則右史書之”記載周朝史官記錄人們的口述言談為起點[5]。口述記憶資源的形成是對個人進行有計劃采訪的結(jié)果,其成果通常為采訪或采訪的逐字記錄[6]。從文化意義上來說,口述資源是對被遺忘內(nèi)容的重新提及,是對傳統(tǒng)的重構(gòu)和被壓抑內(nèi)容的回歸,具有文化記憶資源的重要特征[7],也因此成為當(dāng)代文化工作開展的重要組成部分。

1948年,哥倫比亞大學(xué)口述研究室[8]的建立旨在收集和整理個人傳記回憶錄和群體訪談錄等重要口述資料。1979年,新加坡口述小組逐步規(guī)范化口述資料收集與整理工作,著力保存新加坡早期歷史集體回憶[9]。隨后,國內(nèi)口述記憶資源建設(shè)實踐項目掀起研究熱潮,聚焦資源建設(shè)體系[10-12]、國內(nèi)外研究進展[13-14]。數(shù)字時代背景下,數(shù)字技術(shù)極大改變了口述記憶資源的信息獲取方式,使其具有資源異構(gòu)性、資源交互性、開放式建構(gòu)的不同特征[15],因此出現(xiàn)了以元數(shù)據(jù)方案制定[16]、口述資源管理系統(tǒng)開發(fā)[17]等為代表的數(shù)字資源實踐成果。

1.2 知識圖譜

在人工智能視角下,知識圖譜是一種用圖模型來描述知識和建模世界萬物之間關(guān)聯(lián)關(guān)系的技術(shù)方法[18]。目前,知識圖譜可劃分為科學(xué)知識圖譜和領(lǐng)域知識圖譜??茖W(xué)知識圖譜是一種信息計量的方法,是基于Citespace、Histcite等工具技術(shù)實現(xiàn)的對于科學(xué)知識結(jié)構(gòu)、關(guān)系及演化過程的一種可視化呈現(xiàn)。在圖情領(lǐng)域,科學(xué)知識圖譜多應(yīng)用于文獻分析和熱點梳理,如圖書館微信服務(wù)研究現(xiàn)狀分析[19],創(chuàng)新政策領(lǐng)域發(fā)展研究[20]等;而領(lǐng)域知識圖譜則是結(jié)構(gòu)化的語義知識庫,用于描述概念及其相互關(guān)系,構(gòu)成網(wǎng)狀的知識結(jié)構(gòu)[21]。如探索構(gòu)建中國歷代存世典籍知識圖譜,為研究者挖掘海量古籍書目數(shù)據(jù)背后隱藏的知識提供一站式平臺[22];分析網(wǎng)絡(luò)輿情管理活動的知識需求,闡述網(wǎng)絡(luò)輿情知識圖譜的構(gòu)建方法[23];立足大數(shù)據(jù)環(huán)境唐詩知識服務(wù)需求,以大規(guī)模唐詩數(shù)據(jù)為基礎(chǔ)構(gòu)建唐詩知識圖譜并提供智能知識服務(wù)[24]。

綜上所述,數(shù)字人文正以寬視野、廣維度、集成化方式重塑和改造人文知識形態(tài),數(shù)據(jù)研究范式的創(chuàng)新思維也正在促進數(shù)字技術(shù)與人文研究深度融合。以知識圖譜為代表的技術(shù)方法實現(xiàn)了傳統(tǒng)“敘事·記憶”范式到數(shù)字“數(shù)據(jù)·驅(qū)動”范式轉(zhuǎn)變,有效解決了資源零散碎片化問題,拓寬了學(xué)科邊界,助力多學(xué)科交叉融合,有利于完善資源體系結(jié)構(gòu)。作為信息資源建設(shè)的有機組成部分,數(shù)字人文環(huán)境下,于口述記憶資源而言,無論是對傳統(tǒng)資源的印證補充,亦或是搶救和傳承社會記憶,從收集、加工、存儲乃至利用,創(chuàng)新資源開發(fā)路徑,打造全新數(shù)智數(shù)據(jù)生態(tài)已成大勢所趨。以數(shù)字技術(shù)賦能口述記憶資源開發(fā),必將加速推動口述記憶資源由簡約敘事型、記錄型研究向深度廣度數(shù)字化、智慧化縱深發(fā)展遷移。

2 需求分析

2.1 數(shù)字人文時代必然要求

數(shù)字人文的核心是以數(shù)字化的研究對象為基礎(chǔ),保障和創(chuàng)新人文研究的內(nèi)容、方法和模式[25],為學(xué)者提供規(guī)律性、趨勢性、差異化、宏觀性研究的知識和線索,通過設(shè)計、計算、分析以及可視化表達的方式擴展學(xué)術(shù)疆域和潛力,推動人文領(lǐng)域知識研究[26]。近年來,數(shù)字技術(shù)的“加持”使數(shù)字人文超越了早期的方法論和工具論的認(rèn)識,更加強調(diào)跨學(xué)科性、動態(tài)性、混雜性與兼容性,人文知識脈絡(luò)和內(nèi)容得以重構(gòu),數(shù)智時代知識系統(tǒng)與認(rèn)知方式的創(chuàng)新構(gòu)建成為可能,這一理念與研究范式的變革為資源開發(fā)理論與實踐帶來了新契機。數(shù)字人文概念的提出和數(shù)字化館際的逐步建構(gòu),以及由此帶來的變革之路,創(chuàng)新之維,使得傳統(tǒng)資源開發(fā)方式已不再適應(yīng)現(xiàn)階段開放、融合、發(fā)展的信息化社會。數(shù)字人文視域下,口述記憶資源開發(fā)不僅需要內(nèi)容層面的知識提取,實現(xiàn)不同資源互聯(lián),更需要以資源重組調(diào)整為手段,以數(shù)字技術(shù)驅(qū)動為工具,深入發(fā)掘隱性知識,助力資源開發(fā)更為智慧、高效,為人文研究者提供規(guī)律性、趨勢性、全局性的知識脈絡(luò)。

2.2 口述記憶資源開發(fā)需求

口述記憶資源作為社會記憶之本源,其打破了傳統(tǒng)歷史記錄的構(gòu)建方式,在內(nèi)容上具有平民性與生動性,形式上更具多樣性和異構(gòu)性,是完善社會記憶、集體記憶的寶貴原始記錄,對于史實溯源、風(fēng)貌再現(xiàn)、文化承載、情感傳遞等方面具有重要作用。隨著記憶工程的不斷推進以及受國際研究和實踐發(fā)展的影響,口述記憶資源呈“指數(shù)級”增長,文化傳承與記憶功能備受關(guān)注,我國形成了部分以歷史事件、人物事跡、館藏特色等為主題的口述記憶資源數(shù)據(jù)庫,如表1所示。這些數(shù)據(jù)庫的存在是口述記憶資源開發(fā)工作的豐碩成果,但僅以公開訪問和簡單檢索為利用途徑的手段已難以適應(yīng)并應(yīng)對數(shù)字人文時代帶來的變革。資源采集進程緩慢、完整系統(tǒng)的資源整理知識框架缺失、存儲豐富度與資源描述細(xì)粒度匱乏等開發(fā)弊端,使口述記憶資源開發(fā)利用愈加受阻。一方面,以館藏或數(shù)據(jù)庫為存儲介質(zhì)的口述記憶資源難以快速挖掘資源潛在信息,用戶需手動查閱或頻繁點擊搜索才能提取出與研究問題相關(guān)的信息;另一方面,用戶難以實現(xiàn)資源重組與互聯(lián),易造成完整知識鏈缺失,導(dǎo)致資源整合困難。因此,口述記憶資源亟需一種能夠?qū)崿F(xiàn)資源深度描述和知識語義鏈接的新方式。

數(shù)字人文背景下,人文研究者應(yīng)沖破傳統(tǒng)資源開發(fā)理念的束縛,積極主動參與記憶構(gòu)建[27],注入數(shù)字技術(shù)方法,維護、傳承并拓展口述記憶資源服務(wù)空間,促進資源整合、優(yōu)化并開拓領(lǐng)域發(fā)展新局面?;诖耍P者提出口述記憶資源知識圖譜框架構(gòu)想并輔以實例填充,旨在創(chuàng)新口述記憶資源開發(fā)路徑,為實現(xiàn)資源深度關(guān)聯(lián)、聚合與發(fā)現(xiàn)提供新思路。

3 數(shù)字人文視域下口述記憶資源知識圖譜構(gòu)建

口述記憶資源知識圖譜構(gòu)建是口述記憶資源開發(fā)的新嘗試,如圖1所示,涵蓋模式層和數(shù)據(jù)層。其中,模式層定義口述記憶資源的類、屬性、關(guān)系要素;數(shù)據(jù)層則引入實驗數(shù)據(jù)源,將數(shù)據(jù)格式轉(zhuǎn)換→數(shù)據(jù)導(dǎo)入→數(shù)據(jù)存儲過程予以揭示。最終通過可視化操作完成對口述記憶資源知識圖譜的實例檢驗,表明該流程具有較好的可操作性。

3.1 模式層組織

模式層是類及其屬性和各種關(guān)系的組織模型,包含對口述記憶資源相關(guān)概念及層級關(guān)系的形式化、立體化表達。

為確??谑鲇洃涃Y源模式層組織的完整性與系統(tǒng)性,本文從口述記憶資源外部特征、內(nèi)容特征、形式特征入手,梳理總結(jié)相關(guān)概念及層次關(guān)系。外部特征即描述口述記憶資源外在信息,如項目版權(quán)所有者、項目收集時間等。對外部特征的抽取整合有助于了解口述記憶資源形成過程,對深入探究口述記憶資源價值和內(nèi)容具有重要啟示意義;內(nèi)容特征旨在從人物、事件、地點等維度抽取相關(guān)信息,如口述者提及的戰(zhàn)爭及其發(fā)生時間、地點等。對內(nèi)容信息的挖掘是實現(xiàn)后續(xù)知識關(guān)聯(lián)的重要前提;形式特征囊括采訪時長、格式、文件類型、資源大小等附加信息,對形式特征的分析概括有助于了解口述記憶資源存在形式、存儲方式。

1)定義類及屬性

類是具有共同特征或?qū)傩缘膶嶓w集合的抽象表達?!叭宋铩鳖惏彰?、語言、國籍、性別、政治面貌等多個屬性;“地點”類主要描述資源內(nèi)容或資源本身地域空間;“時間”類則存儲口述記憶資源涉及的所有時間點或時間段;“項目”類指口述項目,包含項目名稱、采訪時長、資源文件大小、資源格式、資源類型、來源等屬性;“事件”類主要涵蓋口述訪談中口述者提及的或與之相關(guān)的其他人物涉及的事件,且存在事件名稱這一屬性信息;“版權(quán)”類是項目權(quán)限信息的抽象集合,包括版權(quán)所有者屬性;“身份”類則包含口述過程涉及的所有人物身份信息。

2)定義關(guān)系

常見的關(guān)系類型可分為分類關(guān)系和非分類關(guān)系。分類關(guān)系即上下位關(guān)系(is_a),非分類關(guān)系則反映了語義關(guān)系,包含整體與部分關(guān)系(is_part_of)、同義關(guān)系(same_to)、屬性關(guān)系(is_attribute_of)等。本文多為自定義關(guān)系,如“人物”類與“項目”類之間的參與關(guān)系(participate_in),連接“項目”類和“事件”類的包含關(guān)系(involve)等,如圖2所示。

3.2 數(shù)據(jù)層組織

數(shù)據(jù)層組織旨在描述數(shù)據(jù)源與已定義實體及其屬性、關(guān)系,同時根據(jù)研究需要及時補充調(diào)整,全方位展現(xiàn)口述記憶資源。

1)數(shù)據(jù)獲取

本文擇取國家圖書館中國記憶項目東北抗日聯(lián)軍專題老戰(zhàn)士口述史[28]板塊,采用網(wǎng)絡(luò)爬蟲技術(shù)從目標(biāo)網(wǎng)站爬取實驗數(shù)據(jù)源,包含35個東北抗聯(lián)老戰(zhàn)士口述資料、珍貴文字資料10 186條,希冀藉由東北抗聯(lián)老戰(zhàn)士口述資料回溯并再現(xiàn)抗戰(zhàn)史實。

2)知識抽取

知識抽取包含實體抽取、屬性抽取、關(guān)系抽取3個部分,其中實體抽取是屬性、關(guān)系抽取的前提,旨在提取口述記憶資源關(guān)聯(lián)數(shù)據(jù),實現(xiàn)模式層組織所定義的口述記憶資源類及屬性和關(guān)系映射。

實體抽取的關(guān)鍵在于提取與口述記憶資源關(guān)聯(lián)的數(shù)據(jù)實例??紤]到本文數(shù)據(jù)量少且結(jié)構(gòu)化較強,因此,實體提取采用自動分詞與人工匹配相結(jié)合的方法。首先通過ROST內(nèi)容挖掘工具對數(shù)據(jù)源進行分詞處理,分詞結(jié)果示例如圖3所示。隨后,在此基礎(chǔ)上,將符合模式層定義層級劃入相應(yīng)實體類別。若數(shù)據(jù)源與模式層定義的概念層級存在沖突、缺失的部分,可進一步補充和完善模式層。本研究實體抽取過程中,包含人物、地點、時間、項目、事件、版權(quán)、身份7類實體。

屬性是對實體做進一步語義描述的重要信息,可以實現(xiàn)對實體的完整勾畫,其構(gòu)成要素一般包含屬性名和屬性值兩個部分。屬性抽取即參照數(shù)據(jù)模型構(gòu)建的實體類型及其屬性,從目標(biāo)網(wǎng)站中提取對應(yīng)屬性和屬性值的數(shù)據(jù)操作。依據(jù)數(shù)據(jù)源,屬性抽取包含16項,對應(yīng)7類實體中的5類,如表2所示。

關(guān)系是知識圖譜的重要組成部分,是實體與實體相互關(guān)聯(lián)的通道,也是形成網(wǎng)狀知識結(jié)構(gòu)的前提和必備要素。早期的關(guān)系抽取研究主要是通過人工構(gòu)造語法和語義規(guī)則采用模式匹配的方法進行識別。發(fā)展至今,出現(xiàn)了大量基于特征向量或核函數(shù)的監(jiān)督學(xué)習(xí)方法[29]。由于本文涉及實體關(guān)系數(shù)量較少,且關(guān)系類型已在圖2呈現(xiàn),即按照模型定義的關(guān)系類型及關(guān)聯(lián)實體進行信息提取,此處不再贅述。

3)知識融合

經(jīng)過知識抽取形成的實體及其屬性、關(guān)系集可能包含大量冗余和錯誤信息,知識融合主要解決實體和屬性的“校對”問題。一方面,需要對分詞產(chǎn)生的錯誤信息進行矯正修改,例如,通過工具獲得“東北”“小”“部隊活動”錯誤分詞結(jié)果時,需要將其整合為“東北小部隊活動”這一事件實體;另一方面,同一屬性和實體往往會有不同稱呼,因此需要在知識抽取后進行屬性或?qū)嶓w的映射與鏈接,例如本文中“東北抗聯(lián)”“抗聯(lián)”“抗日聯(lián)軍”等均可視為同一實體。

3.3 知識圖譜繪制及存儲

抽取、融合完畢的數(shù)據(jù)需要存儲才能實現(xiàn)知識圖譜可視化及知識查詢等操作,通常包括關(guān)系型數(shù)據(jù)庫和非關(guān)系型數(shù)據(jù)庫兩種存儲方式。為方便后續(xù)的關(guān)聯(lián)挖掘,本文使用最為廣泛、效率更高的非關(guān)系型數(shù)據(jù)庫(Neo4j)作為知識圖譜可視化工具,同時采用LOAD CSV命令進行數(shù)據(jù)源批量導(dǎo)入,囊括實體245個,實體關(guān)聯(lián)關(guān)系556條。最終,東北抗日聯(lián)軍老戰(zhàn)士專題口述記憶資源知識圖譜如圖4所示。

該圖譜以網(wǎng)狀結(jié)構(gòu)展示了項目全貌,囊括了與項目本身關(guān)聯(lián)的事件、時間、地點、人物等要素。通過整合35位抗戰(zhàn)老兵或其親屬提供的口述資料,揭示了人物及人物身份、出生時間、籍貫、參與項目概況,事件及事件發(fā)生地點、發(fā)生時間、所屬項目等內(nèi)容。

圖4中的圓圈表示實體,以顏色區(qū)分實體類型,其中,紅色標(biāo)簽代表整個東北抗日聯(lián)軍老戰(zhàn)士口述史專題項目,藍色標(biāo)簽標(biāo)識時間與地點實體,淺綠色標(biāo)簽顯示人物身份,深綠色標(biāo)簽則展示單個老戰(zhàn)士口述信息。實體與實體通過“邊”建立聯(lián)系,例如,深綠色標(biāo)簽與粉色標(biāo)簽相連顯示的即為項目與事件的“包含”關(guān)系,與紫色標(biāo)簽的鏈接則表示相關(guān)人物項目“參與”情況。

4 口述記憶資源知識圖譜可視化

作為圖形優(yōu)化的查詢語言,Cypher可實現(xiàn)隱性知識挖掘,相較于結(jié)構(gòu)化查詢語言(如SQL)更為快捷方便,為進一步探索口述記憶資源單維、二維、多維知識發(fā)現(xiàn)分析提供可能途徑。

4.1 宏觀層面的項目單一維度知識發(fā)現(xiàn)

調(diào)取項目圖譜如圖5所示,該項目采集時間為2012年,采集地點以北京市、遼寧省、黑龍江省、湖北省、新疆維吾爾族自治區(qū)為主,包含陸保平、吳玉清、王鐵環(huán)等35名東北抗聯(lián)老兵口述者。

進一步點擊單個實體,還能夠得到更多與該實體關(guān)聯(lián)的數(shù)據(jù)屬性,例如“潘兆會口述史”,如圖6所示,由此發(fā)現(xiàn)其訪談總時長為“11分38秒”,設(shè)備錄制時間為“2012年5月27日”,資源文件大小為“73.62MB”,資源格式及類型分別為“wmv”和“vedio”。故而,實體屬性和關(guān)系的細(xì)粒度描繪使得對單個實體維度的認(rèn)知更加全面。

4.2 簡單關(guān)系的人物—身份關(guān)系二維知識發(fā)現(xiàn)

圖7展示了通過身份相連的人物潛在關(guān)系圖譜,其中粉色代表人物實體,淺綠色則為人物身份信息,人物實體與身份實體的鏈接描述了享有相同身份的人物信息。

不難發(fā)現(xiàn),該項目涉及的軍隊編制信息包括第一軍、第二軍、第三軍、第五軍、第六軍、教導(dǎo)旅、東北游擊區(qū)等。例如,王明、吳玉清、胡真一、馮萬祥等人為第五軍戰(zhàn)士,孟憲德、陸保平、張正恩、江子華等屬于教導(dǎo)旅,而李在德、于桂珍、周淑玲等都曾所屬于第三軍。進一步查詢李在德實體,可以獲得詳細(xì)信息(性別“男”,語言“中文”,國籍“中國”,政治面貌“中國共產(chǎn)黨黨員”)。

值得關(guān)注的是,在該實例中還存在同一人物享有多個身份的情況。例如,柴世榮戰(zhàn)士曾服役于第五軍以及教導(dǎo)旅,馮仲云戰(zhàn)士在第三軍、第六軍均有任職經(jīng)歷等,由此說明人物在軍隊中存在潛在調(diào)動關(guān)系,通過簡單知識推理可以為后續(xù)厘清人物任職經(jīng)歷提供研究方向和思路指導(dǎo)。

4.3 復(fù)雜關(guān)系的多維知識發(fā)現(xiàn)

4.3.1 基于事件—項目—時空關(guān)系的知識發(fā)現(xiàn)

提取與事件關(guān)聯(lián)的知識圖譜如圖8所示,該圖譜展示了不同項目包含的歷史事件及其發(fā)生時間與地點信息。綠色表示項目實體,粉色代表事件實體,藍色則表示事件地理位置及事件發(fā)生時間。

總體而言,本文數(shù)據(jù)源以抗日戰(zhàn)爭和蘇聯(lián)整訓(xùn)為事件主體,事件發(fā)生地聚焦東北地區(qū),跨越包含華北地區(qū)以及重慶、蘇聯(lián)、朝鮮等在內(nèi)的廣大區(qū)域,通過口述方式記述反映了東北抗日聯(lián)軍最為漫長、最為悲壯的14年抗日斗爭,回溯了重要珍貴的紅色記憶。其中,涉及抗日戰(zhàn)爭的口述項目占比65%,涉及蘇聯(lián)整訓(xùn)的口述項目占比35%。此外,關(guān)聯(lián)事件還涉及九一八事變、抗美援朝、平津戰(zhàn)役、遼沈戰(zhàn)役、重慶談判等,時間跨度為1931—1966年。通過對歷史事件的歸類聚合,如圖9所示,有利于進一步發(fā)掘更多關(guān)聯(lián)歷史事件,充實該時期歷史活動,并在時間線的梳理下更好地理順事件發(fā)生節(jié)點。

4.3.2 基于身份—人物—項目—地點關(guān)系的知識發(fā)現(xiàn)

通過Cypher語句“MATCH(p:Person)-[r]-(pr:Project)WITH p,r,pr MATCH(p:Person)-[r2]-(pl:Place),(p:Person)-[r3]->(i:Identity)return p,r,pr,r2,pl,r3,i LIMIT 50”調(diào)取身份—人物—項目—地點關(guān)系信息如圖10所示,該圖譜涉及不同項目人物籍貫信息,呈現(xiàn)出多維復(fù)雜關(guān)系。

聚焦于人物與地點間的籍貫關(guān)系可以發(fā)現(xiàn),該項目涉及的人物籍貫集中于黑龍江省、吉林省、遼寧省,體現(xiàn)了東北抗日聯(lián)軍老戰(zhàn)士活動區(qū)域的地理位置特色。與此同時,在身份信息的輔助下進一步發(fā)現(xiàn),同一項目所包含的人物及其親屬還存在籍貫不同的情況。例如在柴國華口述史中,教導(dǎo)旅戰(zhàn)士柴國華籍貫為俄羅斯,而其親屬柴世榮籍貫為山東省。在馮憶羅口述史中,馮憶羅及其親屬馮仲云籍貫分別為黑龍江省和江蘇省?;诖?,可以根據(jù)馮憶羅籍貫為黑龍江省且加入新四軍等信息,推理馮仲云可能存在從江蘇省遷移至黑龍江省參與東北抗日戰(zhàn)爭后定居黑龍江省的遷移軌跡。當(dāng)然,這一軌跡僅為推斷,尚不構(gòu)成事實,可以通過進一步查閱相關(guān)史實資料確定其準(zhǔn)確的時空遷移軌跡。故而,從知識圖譜呈現(xiàn)出來的項目—人物—地點潛在地理位置信息可以為后續(xù)深入研究提供一定思路導(dǎo)引,這也是知識圖譜相較于其他知識展示和表達方式的優(yōu)勢所在。

4.3.3 基于人物—項目—事件—時空—身份關(guān)系的知識發(fā)現(xiàn)

調(diào)用以人物實體為中心的項目—事件—時空—身份關(guān)系知識圖譜,如圖11所示。深綠色代表項目,深紅色為歷史事件,粉色代表人物,淺綠色表示人物身份信息,藍色則為時間、地點信息。

在圖11中,人物通過參與關(guān)系與項目實體產(chǎn)生聯(lián)系,單個項目通過包含關(guān)系與事件實體及其發(fā)生時間、發(fā)生地點相連,因此,人物可以通過項目這一中間實體實現(xiàn)與歷史事件及其發(fā)生時間、地點的關(guān)聯(lián)呈現(xiàn),同時在身份信息的輔助下厘清項目涉及的關(guān)聯(lián)人物參與歷史事件的時空軌跡。

由于圖譜連線過于龐雜,此部分僅以吳玉清口述史項目為例進行展示。如圖12所示,吳玉清作為第五軍戰(zhàn)士曾于1931年在東北地區(qū)參與過抗日戰(zhàn)爭,并于1940年赴蘇聯(lián)參加蘇聯(lián)整訓(xùn)活動。基于此,通過多維圖譜對應(yīng)關(guān)系可以分析出相關(guān)人物在一定時期內(nèi)的任職經(jīng)歷,對人物事跡、身份信息、時空軌跡以及歷史事件深入研究具有重要現(xiàn)實意義。

5 結(jié) 語

本文依托中國記憶項目東北抗日聯(lián)軍老戰(zhàn)士口述史專題數(shù)據(jù)源構(gòu)建口述記憶資源知識圖譜,驗證了以知識圖譜為代表的數(shù)字人文技術(shù)方法在口述記憶資源研究領(lǐng)域的可操作性。一方面,知識圖譜作為一種新興可視化工具,以靈活的網(wǎng)系結(jié)構(gòu)實現(xiàn)了繁雜的口述記憶資源知識聚合,能輔助用戶快速捕獲領(lǐng)域知識,提取相關(guān)知識,方便用戶從宏觀層面進行知識概覽,有助于人文學(xué)者進行知識分析與服務(wù);另一方面,用戶可借助知識圖譜Cypher語句查詢功能提取與之關(guān)聯(lián)的項目、人物、事件、時間、地點等信息及其相互關(guān)系,推理發(fā)現(xiàn)潛藏信息,從多維語義關(guān)聯(lián)視角聚類并揭示口述記憶資源內(nèi)部事實。

綜上所述,數(shù)字技術(shù)為人文研究指明了新的發(fā)展方向,特別是以知識圖譜為代表的數(shù)字人文技術(shù)方法為口述記憶資源開發(fā)提供了新視角、新路徑、新方法,切實實現(xiàn)了技術(shù)與人文并舉。未來,“數(shù)字”與“人文”的碰撞必將為人文研究注入源源不斷的活力。

參考文獻

[1]夏翠娟,婁秀明,潘威,等.數(shù)智時代的知識組織方法在歷史地理信息化中的應(yīng)用初探——兼論圖情領(lǐng)域與人文研究的跨學(xué)科融合范式[J].圖書情報知識,2021,38(3):37-49.

[2]王玉龍.不同的記錄不同的過去:口述歷史檔案的興起及其理論影響[J].檔案學(xué)研究,2016,(5):40-44.

[3]倪劼.化“繁”為“簡”:公共數(shù)字文化資源傳遞方式創(chuàng)新[J].圖書館,2021,(5):44-50.

[4]中華人民共和國文化和旅游部.文化和旅游部辦公廳關(guān)于印發(fā)《公共數(shù)字文化工程融合創(chuàng)新發(fā)展實施方案》的通知[EB/OL].http://zwgk.mct.gov.cn/auto255/201904/t20190422_843023.html,2021-06-10.

[5]李星玥.以《長征》為例分析口述歷史檔案重構(gòu)戰(zhàn)爭記憶[J].檔案與建設(shè),2017,(10):38-41.

[6]龐喜哲.我國口述歷史檔案平臺建設(shè)研究[D].武漢:武漢大學(xué),2017.

[7]馮惠玲.數(shù)字記憶:文化記憶的數(shù)字宮殿[J].中國圖書館學(xué)報,2020,46(3):4-16.

[8]王鵬,范智新.美國口述歷史工作的特點及啟示[J].中國檔案,2019,(6):76-77.

[9]張惠萍.新加坡口述檔案及對中國的啟示[J].蘭臺世界,2010,(15):9-10.

[10]嚴(yán)春子.口述資源的建設(shè)利用探析——以吉林省圖書館口述資源建設(shè)實踐為例[J].圖書館學(xué)研究,2018,(8):33-35.

[11]全根先.口述史、影像史與中國記憶資源建設(shè)[J].國家圖書館學(xué)刊,2015,24(1):10-16.

[12]宋本蓉,田苗.中國記憶學(xué)者口述資源庫建設(shè)的實踐——以馮其庸先生為個案[J].圖書館,2015,(12):23-26,50.

[13]高冕.中美英國家圖書館記憶工程中的口述歷史資源建設(shè)比較研究[J].圖書館學(xué)研究,2020,(23):14-22.

[14]李竟彤.中美高校圖書館口述資源建設(shè)比較分析[J].圖書館學(xué)研究,2019,(23):9-16.

[15]馮云.口述歷史資源數(shù)字化管理與利用探討[J].圖書館工作與研究,2021,(9):62-68,83.

[16]聶勇浩,李若欣.基于都柏林核心元素集的口述檔案元數(shù)據(jù)方案[J].檔案學(xué)研究,2020,(3):129-136.

[17]可新方,王雨辰.美國肯塔基大學(xué)口述歷史檔案管理系統(tǒng)的開發(fā)與應(yīng)用[J].中國檔案,2020,(3):82-83.

[18]Amit S.Introducing the Knowledge Graph:Things,Not Strings[EB/OL].https://blog.google/products/search/introducing-knowledge-graph-things-not/,2020-11-01.

[19]孫學(xué)軍,曹祺.基于知識圖譜的圖書館微信服務(wù)研究現(xiàn)狀分析[J].情報科學(xué),2019,37(9):164-169.

[20]欒靜靜,劉大偉,楊亮.基于文獻計量和知識圖譜的創(chuàng)新政策領(lǐng)域發(fā)展研究[J].情報探索,2020,(3):91-102.

[21]徐增林,盛泳潘,賀麗榮,等.知識圖譜技術(shù)綜述[J].電子科技大學(xué)學(xué)報.2016,45(4):589-606.

[22]歐陽劍,梁珠芳,任樹懷.大規(guī)模中國歷代存世典籍知識圖譜構(gòu)建研究[J].圖書情報工作,2021,65(5):126-135.

[23]婁國哲,王蘭成.基于知識圖譜的網(wǎng)絡(luò)輿情知識組織方法研究[J].情報理論與實踐,2019,42(1):58-64.

[24]周莉娜,洪亮,高子陽.唐詩知識圖譜的構(gòu)建及其智能知識服務(wù)設(shè)計[J].圖書情報工作,2019,63(2):24-33.

[25]郭金龍,許鑫.數(shù)字人文中的文本挖掘研究[J].大學(xué)圖書館學(xué)報,2012,30(3):11-18.

[26](美)安妮·伯迪克,約翰娜·德魯克,彼得·倫恩費爾德,等.數(shù)字人文:改變知識創(chuàng)新與分享的游戲規(guī)則[M].馬林青,韓若畫,譯.北京:中國人民大學(xué)出版社,2018:3-4,42-45.

[27]馮惠玲.檔案記憶觀、資源觀與“中國記憶”數(shù)字資源建設(shè)[J].檔案學(xué)通訊,2012,(3):4-8.

[28]中國國家圖書館.中國記憶項目東北抗日聯(lián)軍專題[EB/OL].http://www.nlc.cn/dsb_zt/xzzt/dbkrlj/lzsks/,2021-04-17.

[29]劉嶠,李楊,段宏,等.知識圖譜構(gòu)建技術(shù)綜述[J].計算機研究與發(fā)展,2016,53(3):582-600.

(責(zé)任編輯:郭沫含)

收稿日期:2021-10-30

基金項目:國家社會科學(xué)基金項目“數(shù)字人文視角下歷史檔案資源知識聚合與知識發(fā)現(xiàn)研究”(項目編號:19BTQ102)。

作者簡介:王阮(1992-),女,助理研究員,博士后,研究方向:數(shù)字信息資源開發(fā)、數(shù)字人文與知識服務(wù)。

通訊作者:鄧君(1977-),女,吉林大學(xué)教授,博士生導(dǎo)師,中國人民大學(xué)檔案事業(yè)發(fā)展研究中心研究員,研究方向:數(shù)字信息資源管理、數(shù)字人文與知識服務(wù)、用戶信息行為、檔案管理與應(yīng)用。

猜你喜歡
數(shù)字人文知識圖譜
數(shù)字人文時代公共圖書館經(jīng)典閱讀推廣研究
數(shù)字人文目標(biāo)下圖書館信息服務(wù)模式研究
國內(nèi)圖書館嵌入式服務(wù)研究主題分析
國內(nèi)外政府信息公開研究的脈絡(luò)、流派與趨勢
基于知識圖譜的產(chǎn)業(yè)集群創(chuàng)新績效可視化分析
基于知識圖譜的產(chǎn)業(yè)集群創(chuàng)新績效可視化分析
從《ET&S》與《電化教育研究》對比分析中管窺教育技術(shù)發(fā)展
平阴县| 若尔盖县| 米泉市| 安图县| 苗栗县| 黔西县| 利辛县| 定兴县| 赤峰市| 呈贡县| 新建县| 宁陕县| 景谷| 津市市| 秭归县| 永清县| 涟水县| 广汉市| 渝北区| 耒阳市| 邓州市| 麻城市| 赞皇县| 边坝县| 宁远县| 合山市| 宝应县| 丰台区| 织金县| 绥棱县| 江川县| 卢湾区| 堆龙德庆县| 沁阳市| 腾冲县| 龙胜| 都昌县| 资中县| 饶平县| 远安县| 宜黄县|