摘 要:清乾隆年間,土爾扈特部回歸祖國事件留下了大量檔案,這些檔案是清代民族交往交流交融的真實(shí)記錄。引入數(shù)字人文的本體理論、知識圖譜技術(shù),探討檔案知識化挖掘問題,可創(chuàng)新檔案整理方式,助力于中華民族共同體歷史的研究。文章以現(xiàn)有土爾扈特檔案整理成果為基礎(chǔ),立足民族檔案服務(wù)中華民族共同體的現(xiàn)實(shí)需求,依托歷史大數(shù)據(jù)理論提出研究問題,從檔案數(shù)據(jù)整合、本體模型構(gòu)建與數(shù)據(jù)資源組織三個層次構(gòu)建土爾扈特檔案知識圖譜,開展基于檔案記載主題、土爾扈特回歸事件、核心人物關(guān)系與行文互動情況的多維度知識挖掘。文章意在以數(shù)字?jǐn)⑹逻€原歷史發(fā)生場域,應(yīng)用數(shù)字人文驅(qū)動土爾扈特檔案價值的當(dāng)代轉(zhuǎn)化與智慧化利用,為中華民族共同體建設(shè)提供檔案知識服務(wù)。
關(guān)鍵詞:中華民族共同體;土爾扈特檔案;本體;知識圖譜;可視化;檔案服務(wù)
分類號:G273
Forming of Turhute’s Archives Knowledge Map During the Qing Dynasty from the Perspective of the Community for the Chinese Nation
Hua Lin, Zhang Fuqiu, Li Ruiyi, Wu Jiaoyu
( History and Archives Institute, Yunnan University, Kunming,Yunnan 650091 )
Abstract: During the Qing Dynasty, the return of the Turhute tribe to China left behind a wealth of archives, which are a true record of ethnic interactions and integration in the Qing Dynasty. By introducing the ontological theory of digital humanities and knowledge graph technology to explore the problem of archival knowledge mining, it can innovate archival sorting methods and contribute to the study of the history of the community for the Chinese nation. Based on the existing archival sorting results of the Turhute, with a focus on the practical needs of ethnic archives serving the Chinese nation as a community, and relying on the theory of historical big data, this study proposes research questions, constructs a knowledge graph of the Turhute archives from the perspectives of data integration, ontological model development, and data resource organization, and conducts multi-dimensional knowledge mining based on the themes of archival records, the return of the Turhute tribe, key figures, and document interaction. The aim is to restore the historical context through digital narratives and drive the contemporary transformation and intelligent utilization of the Turhute archives with digital humanities, providing archival knowledge services for the development of the Community for the Chinese nation.
Keywords: The Community for the Chinese Nation; Turhute Archives; Ontology; Knowledge Graph; Visualization; Archival Services
1 中華民族共同體與少數(shù)民族檔案的時代思考
黨的二十大以來,鑄牢中華民族共同體意識上升到黨和國家治國理政的空前高度,以習(xí)近平同志為核心的黨中央強(qiáng)調(diào)“必須以鑄牢中華民族共同體意識為黨的民族工作主線”[1]。鑄牢中華民族共同體意識的核心意涵在于,推動各民族堅定對偉大祖國、中華民族、中華文化、中國共產(chǎn)黨、中國特色社會主義的高度認(rèn)同。[2]民族檔案是鑄牢中華民族共同體意識的文化“基底”。立足中華民族共同體構(gòu)建時代背景,學(xué)界相繼提出“中華民族檔案”[3]“中華民族共同體專題檔案資源庫”[4]等新概念,并呼吁深入挖掘各民族交往交流交融檔案史料[5],對民族檔案服務(wù)中華民族共同體建設(shè)問題做出積極回應(yīng)。從研究現(xiàn)狀看,已有研究多著眼于宏觀層面,對于微觀視角下的民族檔案代表性個案挖掘尚顯不足。
土爾扈特檔案是中華民族共同體形成歷史軌跡的檔案縮影,挖掘其中關(guān)于土爾扈特國家認(rèn)同、中華文化認(rèn)同與中華民族認(rèn)同的記載,可為當(dāng)下鑄牢中華民族共同體意識提供歷史助力。梳理已有研究可知,對土爾扈特檔案的研究主要集中在對檔案的公布解讀[6-7]、述評[8]以及史料價值挖掘[9-10]等層面,鮮見從數(shù)字人文視角開展其檔案研究的成果。據(jù)此,本研究立足中華民族共同體建設(shè)的政治高度,融合數(shù)字人文技術(shù),探討土爾扈特檔案知識圖譜構(gòu)建理論與方法,為應(yīng)用數(shù)字人文驅(qū)動民族檔案價值深入挖掘提供有益嘗試。在學(xué)術(shù)上,可促進(jìn)民族檔案研究思維創(chuàng)新、題域拓展與范式轉(zhuǎn)變;實(shí)踐上,有助于為相關(guān)檔案館深入挖掘“三交”歷史檔案、創(chuàng)新民族檔案編研方式、服務(wù)中心大局工作提供方案借鑒。
2 土爾扈特檔案知識圖譜構(gòu)建的邏輯起點(diǎn)
2.1 歷史邏輯:土爾扈特檔案是中華民族共同體構(gòu)建的敘事文本
清乾隆年間,土爾扈特部自沙俄東返祖國,圍繞著這一歷史事件形成的大量檔案記載了土爾扈特部族世系源流、遷徙歷史、文化信仰,在回歸前同清政府進(jìn)行政治、經(jīng)濟(jì)、宗教往來,回歸過程中受到清政府重視保護(hù)、接濟(jì)安置,回歸后朝覲封賞、赴藏熬茶、耕牧戍邊、奉調(diào)出征、抵御外侮,以及同新疆各民族交往交流交融的歷史事實(shí),是中華民族多元一體格局形成的檔案佐證。土爾扈特檔案數(shù)量豐富、語種多元、體系完整,僅中國第一歷史檔案館(以下簡稱“一史館”)滿文土爾扈特專檔全文檢索數(shù)據(jù)庫便保存有檔案25冊,共計4300余畫幅,28.5萬余個滿文單詞[11],此外還涉及部分碑刻檔案、印章檔案,如《土爾扈特全部歸順記》《優(yōu)恤土爾扈特部眾記》兩通碑刻是土爾扈特回歸所形成的代表性檔案,其記載亦可與文書檔案實(shí)現(xiàn)文獻(xiàn)互證。就其檔案文本內(nèi)容而言,涵蓋滿、漢、蒙、藏、托忒等多語種,部分檔案存在合璧書寫現(xiàn)象,對研究土爾扈特東歸史、清代民族交往交流交融、邊疆治理體系以及推動鑄牢中華民族共同體意識具有重要學(xué)術(shù)價值與現(xiàn)實(shí)意義。其文本敘事價值如下:
其一,講述了土爾扈特始終心向中國的國家認(rèn)同情懷。梳理土爾扈特回歸前同清朝往來的歷史可知,從順治朝的表貢、乞市,到康熙年間五千余人赴藏朝拜達(dá)賴?yán)?、圖里琛使團(tuán)探望,再到雍正時滿泰使團(tuán)出使,最后至乾隆年間吹扎布入京覲見等系列事件,奠定了土爾扈特回歸的歷史基礎(chǔ)。[12]這些事件詳見于《領(lǐng)侍衛(wèi)內(nèi)大臣福隆安奏乾隆二十一年土部遣吹札布進(jìn)京至京師事折》《滿泰等奏奉派前往土爾扈特經(jīng)過情形折》《宴土爾扈特使臣》等檔案中,是土爾扈特回歸前國家認(rèn)同的真實(shí)記載。從回歸后的檔案看,《伊犁將軍舒赫德等奏將土部各游牧地劃歸各大臣管轄折》《諭伊犁將軍舒赫德等輪班前往督促渥巴錫重農(nóng)事》《平回方略》等都記述了土爾扈特被納入清政府邊疆治理體系,同各民族一道開發(fā)建設(shè)邊疆、維護(hù)國家統(tǒng)一的歷史事實(shí)。其二,記載了土爾扈特信仰藏傳佛教的中華文化認(rèn)同。文化認(rèn)同是最深層次的認(rèn)同,是民族團(tuán)結(jié)之根、民族和睦之魂。[13]藏傳佛教在清代多民族文化共同體中居于重要地位,土爾扈特部回歸前赴藏熬茶禮佛,體現(xiàn)其對清政府的自發(fā)性文化認(rèn)同?;貧w后清政府通過政治鼓勵、舉行宗教活動、修建寺廟等方式支持土爾扈特信仰藏傳佛教,進(jìn)一步增強(qiáng)了土爾扈特對中央政府的國家認(rèn)同。例如乾隆三十二年(1767),乾隆帝敕賜于伊犁將軍駐地惠遠(yuǎn)城修建普化寺,后普化寺成為伊犁衛(wèi)拉特蒙古和察哈爾蒙古的總廟,促進(jìn)了蒙古部族間的交往與交融。[14]其三,記述了土爾扈特同各民族交流互動的歷史。如在同新疆各民族開展經(jīng)濟(jì)貿(mào)易方面,《斐德等奏和碩特噶扎爾奇等赴哈密貿(mào)易折》記載了乾隆三十七年(1772),和碩特部噶扎爾奇等人赴哈密以十二峰駝?chuàng)Q取綿羊二百五十只,山羊一百零八只,另將一峰駝賣與商賈,得白銀二十五兩[15]的經(jīng)貿(mào)互市史實(shí)。在同衛(wèi)拉特蒙古族群血緣情感親近方面,據(jù)《福隆安奏渥巴錫等講述土部歷史折》記載,土爾扈特族屬于衛(wèi)拉特蒙古四部之一,因四部不甚和睦,而后西遷入俄。[16]另據(jù)《阿玉奇后世之系譜》記載,渥巴錫為阿玉奇汗長子沙克都爾扎布之孫。[17]上述記載反映了土爾扈特部認(rèn)祖于衛(wèi)拉特蒙古的民族溯源立場,亦是中華民族共同體形成過程中的民族情感所向。
2.2 現(xiàn)實(shí)邏輯:少數(shù)民族檔案服務(wù)中華民族共同體的現(xiàn)實(shí)需求
習(xí)近平總書記指出,“一部中國史,就是一部各民族交融匯聚成多元一體中華民族的歷史,就是各民族共同締造、發(fā)展、鞏固統(tǒng)一的偉大祖國的歷史”[18]。歷史上各時期的民族交往交流交融,既包括不同民族間的交往、交流和交融,也包括同一民族內(nèi)部在不同歷史時期、不同地域之間在其發(fā)展歷程中的交往、交流和融合。[19]民族檔案記載了各民族交往交流交融的歷史敘事,應(yīng)用數(shù)字人文技術(shù)挖掘民族檔案中反映民族交往交流交融的史實(shí),有助于推動“三交”史研究的深入,亦有助于創(chuàng)新民族檔案編研方式,凸顯民族檔案開發(fā)的時代性、創(chuàng)新性與服務(wù)性。
基于“三交”史研究的多向度考察,現(xiàn)有成果更傾向于關(guān)注記載漢族同少數(shù)民族交往交流交融的檔案,而對諸如土爾扈特檔案這類記載少數(shù)民族內(nèi)部及少數(shù)民族間交往交流交融的檔案關(guān)注不多,這就要求今后民族檔案研究要在研究思路、視角、方法等方面進(jìn)行調(diào)整與創(chuàng)新。一是思維轉(zhuǎn)變??尚纬捎删植俊w—局部的研究思路,緊扣漢族同少數(shù)民族、少數(shù)民族內(nèi)部、少數(shù)民族間交往交流交融的思路,深挖民族檔案中關(guān)于各民族在政治、經(jīng)濟(jì)、文化、社會等方面開展交往交流交融的代表性史實(shí),從局部視角升華至宏觀視野,將民族檔案的產(chǎn)生形成置身于各民族“三交”的宏大歷史敘事中考量,在深刻把握民族檔案時代內(nèi)涵的基礎(chǔ)上,再次回歸到局部檔案的深入挖掘,促進(jìn)民族檔案價值的當(dāng)代轉(zhuǎn)化。二是視角拓展。傳統(tǒng)的以族裔民族的認(rèn)知和觀念對個體民族檔案開展的相關(guān)研究已取得豐碩成果[20],但個體民族檔案研究中卻忽視了對于中華各民族在歷史上交往交流交融的闡釋,同時也易造成研究思維的固化。由此,立足現(xiàn)實(shí),應(yīng)跳出既有框架,實(shí)現(xiàn)從個體民族文化傳承、記憶構(gòu)建到中華民族文化共同體文化傳承、記憶構(gòu)建的轉(zhuǎn)變,將民族檔案的研究推升至其應(yīng)有的時代高度,推動民族檔案研究的理論創(chuàng)新。三是方法創(chuàng)新。既有民族檔案研究多歸屬于定性研究范疇,數(shù)字人文理念、技術(shù)與方法的融合賦予了民族檔案研究新機(jī)遇,將多元化數(shù)字人文工具應(yīng)用于卷帙浩繁的民族檔案文本的整理、組織、挖掘中,有助于促進(jìn)民族檔案研究方法從單一的定性研究向定性與定量相結(jié)合的方向轉(zhuǎn)變,并以方法創(chuàng)新推動研究題域拓展,催生民族檔案學(xué)術(shù)研究的新增長點(diǎn)。
2.3 理論邏輯:從歷史檔案到歷史大數(shù)據(jù)的研究范式轉(zhuǎn)變
隨著歷史檔案征集工作與相關(guān)領(lǐng)域研究的深入,大量塵封的歷史檔案被發(fā)現(xiàn),并收藏在各文化機(jī)構(gòu)與學(xué)者個人手中,在實(shí)現(xiàn)館藏檔案擴(kuò)容與研究資料積累的同時,也面臨著傳統(tǒng)方法難以對數(shù)量浩瀚的歷史檔案進(jìn)行遍歷式與全景式的整理、釋讀與研究的問題。
歷史大數(shù)據(jù)(Big Data of the Past)這一概念由“威尼斯時光機(jī)”項(xiàng)目組在2017年提出,是指將形成于過去的歷史記錄,以當(dāng)代敘事邏輯重新匯聚、組合,所形成的具有來源廣泛、開放共享與結(jié)構(gòu)化等特征的數(shù)據(jù)集合,本質(zhì)是經(jīng)過數(shù)據(jù)化的海量歷史資料,外在表征多為數(shù)字人文導(dǎo)向下的史料數(shù)據(jù)庫。[21]相較于歷史檔案,歷史大數(shù)據(jù)的價值創(chuàng)新在于:一是對歷史檔案本身而言,實(shí)現(xiàn)了基于檔案文本內(nèi)容的知識再生產(chǎn)。歷史大數(shù)據(jù)可視為一種“生成性”的方法,既可以證實(shí)過去的歷史,又能夠生成新知識、新觀點(diǎn),為我們提供新的工具優(yōu)勢。[22]在充分關(guān)聯(lián)歷史檔案文本中的各知識單元基礎(chǔ)上,原有歷史檔案被轉(zhuǎn)化為巨大的歷史大數(shù)據(jù)網(wǎng)絡(luò),在為研究者提供宏觀、整體研究視角的同時,也為研究者探索此前未曾關(guān)注、發(fā)現(xiàn)的知識提供思路。二是對歷史檔案整理而言,創(chuàng)新了既有整理范式。面向歷史大數(shù)據(jù)的歷史檔案整理,是對傳統(tǒng)兩步整理理論的繼承、延展與深化,對歷史檔案文本結(jié)構(gòu)、內(nèi)容的數(shù)據(jù)化、語義化、知識化處理,是對傳統(tǒng)檔案整理流程的重構(gòu)與深度不足的超越。三是對于歷史檔案參與文化建設(shè)而言,順應(yīng)了國家文化數(shù)字化的戰(zhàn)略導(dǎo)向。館藏歷史檔案的數(shù)據(jù)化轉(zhuǎn)化可實(shí)現(xiàn)數(shù)智驅(qū)動下檔案文化價值的當(dāng)代詮釋,更好地融入國家文化大數(shù)據(jù)體系、參與中華文化數(shù)據(jù)庫建設(shè)。
歷史大數(shù)據(jù)理論在土爾扈特檔案知識圖譜構(gòu)建方面的應(yīng)用價值為:其一,文本數(shù)據(jù)化。將現(xiàn)有土爾扈特數(shù)字檔案資源運(yùn)用OCR等技術(shù)進(jìn)行全文識別,并基于NER、機(jī)器學(xué)習(xí)等技術(shù)手段對文本中實(shí)體進(jìn)行有效識別提取。在此基礎(chǔ)上,一方面要對已提取的實(shí)體數(shù)據(jù)進(jìn)行結(jié)構(gòu)化處理;另一方面要賦予土爾扈特檔案文本識別數(shù)據(jù)、元數(shù)據(jù)等以形式語言編碼,使其具備計算機(jī)可計算的條件。[23]其二,知識語義化。一方面,可基于關(guān)聯(lián)數(shù)據(jù)技術(shù)建立起相同或不同概念間語義關(guān)系,構(gòu)建土爾扈特檔案語義體系,關(guān)聯(lián)形成本體模型;另一方面,要對各概念標(biāo)注以時空屬性,豐富其內(nèi)涵,拓寬關(guān)聯(lián)路徑[24]。其三,圖譜關(guān)聯(lián)化。一方面,在土爾扈特檔案本體架構(gòu)下,依托語義體系關(guān)聯(lián)各全宗、案卷、文本中的知識元,形成局部知識圖譜;另一方面,可將土爾扈特檔案知識圖譜同其他相關(guān)清代檔案、方志、史料量化數(shù)據(jù)網(wǎng)絡(luò)建立關(guān)聯(lián),形成復(fù)合型知識圖譜。并由此將其形成背景置于清代北方民族交往交流交融與整體歷史發(fā)展走向中考量,有助于實(shí)現(xiàn)文獻(xiàn)互證、歷史情境完整構(gòu)建與開展“宏觀+微觀”數(shù)字?jǐn)⑹拢苿用褡鍣n案研究范式的轉(zhuǎn)化與創(chuàng)新。
3 土爾扈特檔案知識圖譜構(gòu)建的理論框架
構(gòu)建土爾扈特檔案知識圖譜,是數(shù)字人文環(huán)境下探索民族檔案文獻(xiàn)“數(shù)字整理”新方法的應(yīng)有之義,對于貫徹落實(shí)習(xí)近平總書記關(guān)于加快形成中國自主的中華民族共同體史料體系指示精神,整理挖掘民族團(tuán)結(jié)檔案史料,創(chuàng)新檔案史料“三交”價值挖掘解讀方式,從歷史的維度梳理中華民族共同體形成演進(jìn)的歷史邏輯,推動鑄牢中華民族共同體意識具有重要價值。知識圖譜以圖結(jié)構(gòu)的形式描述不同領(lǐng)域概念、實(shí)體及其語義關(guān)系,將其應(yīng)用于土爾扈特檔案內(nèi)容的組織、關(guān)聯(lián)、挖掘,可實(shí)現(xiàn)檔案“三交”價值數(shù)字化深度挖掘。[25]本研究以現(xiàn)有土爾扈特檔案匯編出版物、一史館開放檔案目錄作為主要數(shù)據(jù)源,結(jié)合相關(guān)詞典、論文、著作進(jìn)行補(bǔ)充,采用自上而下的方法構(gòu)建土爾扈特檔案知識圖譜。首先,進(jìn)行數(shù)據(jù)收集整合、清洗,確保數(shù)據(jù)質(zhì)量。其次,運(yùn)用Protégé工具構(gòu)建土爾扈特檔案本體模型。再次,在本體模型架構(gòu)下進(jìn)行數(shù)據(jù)組織。最后,將經(jīng)過組織的數(shù)據(jù)導(dǎo)入Neo4j圖數(shù)據(jù)庫,生成可視化知識圖譜。
3.1 數(shù)據(jù)基礎(chǔ)層:整合匯聚土爾扈特檔案文本
數(shù)據(jù)資源的整合匯集是構(gòu)建土爾扈特檔案知識圖譜的基礎(chǔ),這一階段的工作主要是將離散數(shù)據(jù)整合為數(shù)據(jù)集,對其進(jìn)行全文化處理、校對與修訂。其一,主要以《土爾扈特檔案譯編》《清代東歸和布克賽爾土爾扈特滿文檔案全譯》等,以及一史館藏土爾扈特檔案開放目錄、相關(guān)網(wǎng)站資源作為主要數(shù)據(jù)源。其二,利用OCR、NLP等技術(shù)對檔案文本進(jìn)行數(shù)據(jù)化轉(zhuǎn)化,并進(jìn)行適當(dāng)?shù)臄?shù)據(jù)預(yù)處理、清洗(人工+機(jī)器剔除)[26],以此提升數(shù)據(jù)質(zhì)量。
3.2 概念模式層:構(gòu)建土爾扈特檔案本體模型
模式即數(shù)據(jù)組織、聚合的框架,其核心在于本體構(gòu)建。出于所構(gòu)建的本體模型完整性考慮,筆者對土爾扈特檔案內(nèi)部特征、外部特征與形成過程特征進(jìn)行綜合考量,力圖實(shí)現(xiàn)檔案外部元數(shù)據(jù)層面、內(nèi)容語義層面的雙重聚合。在復(fù)用FOAF、EVENT、DCMI、CBDB等本體、詞表與自建的基礎(chǔ)上,設(shè)有面向檔案外部元數(shù)據(jù)的全宗(def:general archive)、案卷(def:dossier)、檔案(def:archive),面向檔案內(nèi)容的人物(foaf:Agent)、時間(shl:Temporal)、地點(diǎn)(shl:place)、職官(shl:Official Position)、主題(dc:subject)、事件(ecrm:Event)等9個大類,并于其下設(shè)置相關(guān)子類。如檔案類,按清朝官方文書種類劃分,共涉及上諭、奏折、呈文等17個子類。又如主題類,共歸納有封爵授官、年班朝覲、赴藏熬茶等23個記載主題,涉及土爾扈特回歸前、回歸過程中與回歸后的完整歷史。
屬性是定義和描述類本身及類間關(guān)系的重要元素,主要由屬性名稱、定義域、值域三部分組成。[27]其中對象屬性(Object Properties)相當(dāng)于RDF三元組中的Predicate(謂語動詞),定義域與值域都是本體中的類;數(shù)據(jù)屬性(Data Properties)是對類本身的揭示與描述,其定義域是本體中的類,值域是字符串,通常用string表示[28]。本研究共設(shè)計數(shù)據(jù)屬性54個,對象屬性39個。具體而言,對象屬性中既有指向同類的,如def:placed,即清政府接濟(jì)安置土爾扈特;亦有指向其他類的,如def:recorded event is、def:the recorded person is等,意為檔案中記載的事件、人物。數(shù)據(jù)屬性中,如人物類既包括個體的民族、籍貫、職官、生平、任職經(jīng)歷等,又涉及機(jī)構(gòu)的沿革、性質(zhì)、執(zhí)掌等,是對人物類本身屬性與特征的揭示。
將上述類、屬性導(dǎo)入Protégé工具,可實(shí)現(xiàn)土爾扈特檔案本體建模。同時以RDF格式存儲,可更好地對接Neo4j圖數(shù)據(jù)庫,為后續(xù)生成知識圖譜做好準(zhǔn)備。Protégé工具具有檢索查詢功能,圖1即經(jīng)由Protégé工具OntoGraf界面進(jìn)行可視化展示的土爾扈特檔案本體模型。
3.3 數(shù)據(jù)組織層:生成土爾扈特檔案知識圖譜
(1)知識抽取
經(jīng)過整合、預(yù)處理后的土爾扈特檔案數(shù)據(jù)集尚處于非結(jié)構(gòu)化或半結(jié)構(gòu)化狀態(tài),為將其粒度由數(shù)據(jù)級細(xì)化到知識級,需對土爾扈特檔案數(shù)據(jù)中的知識元、語義關(guān)系以及屬性進(jìn)行抽取,統(tǒng)一成RDF形式的知識描述模型,即S-P-O(主語/Subject,謂詞/Predicate,賓語/Object)語法結(jié)構(gòu)的結(jié)構(gòu)化文本,可稱其為“實(shí)體—關(guān)系—實(shí)體”[29]。具體而言,知識抽取包括:一是實(shí)體抽取,即通過模式匹配的方法對檔案文本與本體模型中類所對應(yīng)的實(shí)體進(jìn)行抽??;二是關(guān)系抽取,是通過對不同實(shí)體間語義關(guān)系進(jìn)行識別建立三元組的過程,即對象屬性的抽?。蝗菍傩猿槿?,即對各實(shí)體屬性名、屬性值進(jìn)行抽取,以此構(gòu)建完整的屬性列表,實(shí)現(xiàn)知識圖譜對實(shí)體的立體刻畫[30]。在人物數(shù)據(jù)屬性抽取時,由于同一人物在不同任職期間,不同時期的職官、別號等不盡相同,因而需注意屬性的對比與整合問題。
(2)知識融合
知識抽取后的土爾扈特檔案數(shù)據(jù)中仍存在數(shù)據(jù)冗余、語義重復(fù)等問題,由此須通過實(shí)體消歧、關(guān)系對齊等方式再次對其進(jìn)行精細(xì)化處理,消除異源、共指問題,從而提升知識圖譜質(zhì)量。其一,在記載時間的數(shù)據(jù)格式方面,如“乾隆三十六年十二月二十七日”“乾隆三十七年正月二十三日”“乾隆四十年閏十月二十四日”等,其中正月即農(nóng)歷一月,與十二月等表述不統(tǒng)一,易造成識讀困難。于是將本研究中時間數(shù)據(jù)格式規(guī)范為公元紀(jì)年的“年—月—日”格式。其二,在數(shù)據(jù)內(nèi)容方面,如“準(zhǔn)噶爾”“綽羅斯”在檔案中的記載均指向“綽羅斯”,又如厄魯特蒙古又稱“衛(wèi)拉特”“額魯特”等,由此須對此類人物實(shí)體命名統(tǒng)一規(guī)范化,避免造成認(rèn)知混亂。
(3)圖譜可視化
Neo4j圖數(shù)據(jù)庫是一款集成數(shù)據(jù)存儲、知識生成及挖掘等功能的高性能NoSQL圖形數(shù)據(jù)庫,在相關(guān)領(lǐng)域具有較好的通用性與擴(kuò)展性,其所具有的靈活可伸縮的圖結(jié)構(gòu)是構(gòu)建知識圖譜的有效工具。[31]因此,本研究選取其作為土爾扈特檔案知識圖譜的構(gòu)建工具,并將經(jīng)過抽取、融合與組織后的數(shù)據(jù)批量導(dǎo)入Neo4j圖數(shù)據(jù)庫中,借助Browser工具所生成的部分土爾扈特檔案知識圖譜如圖2所示。
4 基于知識圖譜的土爾扈特檔案“三交”價值多維可視化挖掘
知識圖譜強(qiáng)大的語義功能,可實(shí)現(xiàn)零散數(shù)據(jù)的關(guān)聯(lián)重組,充分展現(xiàn)數(shù)據(jù)資源間的關(guān)聯(lián)關(guān)系,為進(jìn)一步開展面向土爾扈特檔案內(nèi)容的知識挖掘、計算與可視化展現(xiàn)奠定基礎(chǔ)。土爾扈特檔案知識圖譜的構(gòu)建,首先可推動土爾扈特檔案由數(shù)字化—數(shù)據(jù)化—知識化的躍升,順應(yīng)館藏資源數(shù)據(jù)化建設(shè)的趨勢,實(shí)現(xiàn)土爾扈特記憶的數(shù)字重構(gòu)。其次,將多源異構(gòu)的土爾扈特檔案數(shù)據(jù)轉(zhuǎn)化為以主題、事件、人物與時間等維度進(jìn)行聚類展示的知識圖譜,可實(shí)現(xiàn)深入檔案文本內(nèi)容的數(shù)字化整理,提高研究效率。[32]再次,借助知識圖譜這一數(shù)字工具,研究者可將檔案史料的“近讀”與“遠(yuǎn)讀”相結(jié)合[33],從而在既有研究基礎(chǔ)上挖掘隱性知識,催生新的學(xué)術(shù)增長點(diǎn),并推動“觀察”成為一種新的研究方法,助力相關(guān)研究。由此,為深入挖掘土爾扈特檔案的“三交”價值,可從記載主題、回歸事件、核心人物與行文情況四個維度開展知識挖掘,為中華民族共同體建設(shè)提供歷史依據(jù)。
4.1 基于記載主題的可視化挖掘
土爾扈特檔案的“三交”價值著重反映在內(nèi)容記載方面。從政治層面的交往互動來看,通過對相關(guān)檔案記載主題進(jìn)行檢索查詢,可關(guān)聯(lián)出全部反映土爾扈特在政治層面對清政府認(rèn)同歸屬的事件與檔案史料,具體如圖3所示。
從整體上看,土爾扈特對清政府的政治認(rèn)同主要表現(xiàn)在前期的政治往來、請安獻(xiàn)物、服從管理、赴藏熬茶等方面,貫穿于土爾扈特回歸前后,體現(xiàn)了土爾扈特始終認(rèn)同祖國的歷史事實(shí)。從局部來看,相關(guān)記載主題所關(guān)聯(lián)的檔案史料,可為深入開展歷史細(xì)節(jié)研究、洞見歷史事實(shí)提供支持。借助知識圖譜的語義關(guān)聯(lián)功能,一方面節(jié)省了檔案搜集、查找的時間,另一方面提升了檔案搜集的全面性。如土爾扈特回歸前的檔案數(shù)量少、保存分散、不易搜集,而知識圖譜Cypher語句的運(yùn)用則有效地克服了這一問題。
從文化層面的交往交流交融來看,藏傳佛教在土爾扈特部回歸中起到了重要的文化紐帶作用,赴藏熬茶、禮佛、朝圣是土爾扈特開展宗教活動的重要形式,亦是其對中華文化認(rèn)同的直接體現(xiàn)。通過對圖3所展現(xiàn)的熬茶檔進(jìn)行深入挖掘可知,乾隆皇帝通過準(zhǔn)許土爾扈特按官例入藏熬茶、興修寺廟等方式支持其開展宗教活動,以文化治理的手段增強(qiáng)了其政治認(rèn)同,可見知識節(jié)點(diǎn)的關(guān)聯(lián)起到了知識發(fā)現(xiàn)的效果,并與既有研究相互印證。
從血緣層面的認(rèn)同歸屬來看,經(jīng)由語義關(guān)系調(diào)取土爾扈特部族歷代汗王譜系(如圖4所示),可知渥巴錫是阿玉奇汗兒子、沙克都爾扎布的孫子,他與回歸事件中的另一位重要首領(lǐng)策伯克多爾濟(jì)為叔侄關(guān)系。由此上溯至阿玉奇汗,其曾祖為和鄂爾勒克,作為首任汗王,其族源歸屬于土爾扈特部。據(jù)史料記載,清代準(zhǔn)噶爾、和碩特、土爾扈特、杜爾伯特四部族共同組成了厄魯特蒙古,厄魯特蒙古在元代時稱斡亦剌惕,明代稱瓦剌[34],是中華民族共同體形成演進(jìn)譜系中的重要構(gòu)成部分。
4.2 基于回歸事件的可視化挖掘
如圖5所示,土爾扈特回歸可劃分為三個階段,即回歸前的民族血緣紐帶、同清政府的往來促成回歸,回歸過程中的消息打探、對外交涉與準(zhǔn)備迎接,回歸后的接濟(jì)安置、覲見封賞、治理管轄等,共同構(gòu)成了土爾扈特的歷史記憶?;谥R圖譜的土爾扈特檔案數(shù)字?jǐn)⑹?,賦予研究者以宏觀視角,通過解構(gòu)事理圖譜剖析歷史發(fā)展的脈絡(luò),以知識要素重構(gòu)再現(xiàn)歷史發(fā)生場域,為研究者深入研究提供新思路。
由記載事件進(jìn)行二次檢索,可進(jìn)一步探明圍繞該事件形成的相關(guān)檔案及其記載,形成關(guān)聯(lián)多份檔案的局部結(jié)構(gòu)化圖譜。以《諭伊犁將軍舒赫德允準(zhǔn)渥巴錫按官辦之例遣入進(jìn)藏熬茶》檔案為例,檔案形成者為弘歷,形成時間是乾隆三十七年七月二十五日(1772年8月23日),記載人物是舒赫德與渥巴錫等,事件是赴藏熬茶,地點(diǎn)是西藏。這種檔案知識要素拆解的呈現(xiàn)方式,賦予研究者一種結(jié)構(gòu)化思維,引導(dǎo)研究者從“關(guān)系—時空—事件—人物”的角度去開展研究,可改善以往重閱讀內(nèi)容而輕邏輯關(guān)系的不足。
4.3 基于人物關(guān)系的可視化挖掘
人物關(guān)系的社會網(wǎng)絡(luò)是一種基于點(diǎn)和邊的揭示社會個體成員之間因社會活動互動而形成的相對穩(wěn)定的關(guān)系體系。[35]明晰土爾扈特檔案記載的核心人物及其社會關(guān)系,有助于厘清研究線索,以核心人物所涉及的事件串聯(lián)起歷史發(fā)展變化的原貌。
經(jīng)過對知識庫中人物進(jìn)行檢索發(fā)現(xiàn),土爾扈特檔案所記載的核心人物可分為清政府(弘歷、伊勒圖、舒赫德)與土爾扈特部(渥巴錫、舍楞、策伯克多爾濟(jì))兩類。如圖6所示,此六人分別是清政府、土爾扈特部的最高領(lǐng)導(dǎo)者與伊犁地方最高軍政長官,其所關(guān)聯(lián)的檔案亦是土爾扈特檔案中的核心主體部分。同時發(fā)現(xiàn),涉及上述關(guān)于迎接、接濟(jì)土爾扈特部記載的檔案數(shù)量明顯更多,且文種多為上諭,從側(cè)面反映出清政府對于土爾扈特回歸的重視程度。此外,伊勒圖所關(guān)聯(lián)的官職有伊犁將軍、烏什辦事參贊大臣,考釋其生平可知,其于乾隆三十五年(1770)二月任伊犁將軍,同年七月遭革職留任,后于乾隆三十六年(1771)七月任烏什參贊大臣,在土爾扈特部回歸事件中也發(fā)揮了重要作用。
4.4 基于行文情況的可視化挖掘
土爾扈特檔案的數(shù)量、形成時間、行文頻率、記載內(nèi)容等共同構(gòu)成了其特點(diǎn)屬性,亦可反映出清政府對土爾扈特回歸相關(guān)事務(wù)的重視程度。
如圖7所示,從行文時間來看,土爾扈特檔案較為集中形成于乾隆三十六年(1771)、乾隆三十七年(1772),這一知識發(fā)現(xiàn)結(jié)果契合土爾扈特回歸關(guān)鍵時間節(jié)點(diǎn),亦反映出其檔案具有較好的集中性、關(guān)聯(lián)性等特點(diǎn)。此外,現(xiàn)有檔案又在一定程度上關(guān)涉土爾扈特回歸后的前期,究其緣由,應(yīng)是回歸前期土爾扈特仍處于“適應(yīng)期”,事務(wù)繁多所致。
通過對局部檔案進(jìn)行二次關(guān)聯(lián)可形成圖8。經(jīng)“觀察”發(fā)現(xiàn),土爾扈特檔案的往來行文頻率較高,少則一日形成兩份文書,多則一日往來行文達(dá)四份、六份文書,且多為君臣之間的往來上諭、奏折,從行文頻率、文種層面展現(xiàn)了清政府對處理土爾扈特回歸事務(wù)的重視。
再以《降旨分封渥巴錫、策伯克多爾濟(jì)、舍楞等人》為例,該檔案形成于乾隆三十六年九月十七日(1771年10月24日),是乾隆帝于避暑山莊頒布給土爾扈特部首領(lǐng)渥巴錫等人的上諭。經(jīng)統(tǒng)計發(fā)現(xiàn),檔案記載的受封者共有汗王1人、親王1人、郡王2人、貝勒2人、貝子5人、輔國公1人、一等臺吉12人(含閑散臺吉10人)、二等臺吉6人、三等臺吉3人、四等臺吉11人,具體如圖9所示。封爵人數(shù)之多、爵位之高,從檔案內(nèi)容層面展現(xiàn)了清政府對土爾扈特回歸的重視。
5 結(jié) 語
從服務(wù)中華民族共同體建設(shè)的政治高度,開展館藏“三交”歷史檔案的知識化發(fā)掘,是新時代民族檔案工作的應(yīng)有之義。在國家文化數(shù)字化建設(shè)背景下,檔案館應(yīng)深度融入數(shù)字人文環(huán)境,緊扣推動鑄牢中華民族共同體意識的民族工作主線,深入挖掘以土爾扈特檔案等為代表的“三交”歷史檔案,促進(jìn)其價值的當(dāng)代轉(zhuǎn)化。概言之,其一,要抓住機(jī)遇,積極開展館藏“三交”歷史檔案數(shù)據(jù)化建設(shè)工作,克服現(xiàn)階段歷史檔案“數(shù)字典藏”的局限,破解其價值實(shí)現(xiàn)的實(shí)然困境。其二,探索構(gòu)建適配于民族檔案、“三交”歷史檔案的本體模型、語義模型、知識圖譜,制定并推廣相關(guān)數(shù)據(jù)標(biāo)準(zhǔn)。其三,建設(shè)中華民族交往交流交融檔案史料專題知識庫,形成民族檔案研究的數(shù)字人文基礎(chǔ)設(shè)施,更好地發(fā)掘利用這一珍貴歷史檔案遺產(chǎn),為開展歷史維度的中華民族共同體研究提供精準(zhǔn)化檔案知識服務(wù)。
*本文系教育部重大招標(biāo)項(xiàng)目“元明清時期中國邊疆治理文獻(xiàn)整理與數(shù)據(jù)庫建設(shè)研究”(項(xiàng)目編號:21JZD042)、教育部規(guī)劃基金項(xiàng)目“面向中國自主知識體系構(gòu)建的民族檔案學(xué)理論創(chuàng)新研究”(項(xiàng)目編號:24YJA870004)階段性研究成果。
作者貢獻(xiàn)說明
華林:提出選題、修訂論文;張富秋:提出選題、撰寫修改論文、制圖制表;李睿繹:制圖制表、查檢論文;吳皎鈺:查檢論文。
注釋及參考文獻(xiàn)
[1]習(xí)近平:高舉中國特色社會主義偉大旗幟為全面建設(shè)社會主義現(xiàn)代化國家而團(tuán)結(jié)奮斗——在中國共產(chǎn)黨第二十次全國代表大會上的報告[EB/ OL].[2024-08-25]. http://jhsjk.people.cn/ article/32551583 isindex=1.
[2]習(xí)近平在中央民族工作會議上強(qiáng)調(diào)以鑄牢中華民族共同體意識為主線 推動新時代黨的民族工作高質(zhì)量發(fā)展[EB/OL].[2024-08-25].http://news. cctv.com/special/xjpxlzyjhsjk/.
[3]楊毅,何瓦特.中華民族檔案:民族檔案的時代內(nèi)涵[J].檔案學(xué)通訊,2019(5):13-19.
[4]趙生輝,胡瑩.中華民族共同體專題檔案資源庫的建設(shè)構(gòu)想[J].山西檔案,2021(3):5-14.
[5]陳海玉,陳雨,范澤龍,等.“十四五”背景下少數(shù)民族檔案的創(chuàng)新研究:理論邏輯與方向建構(gòu)[J].北京檔案,2023(5):19-23.
[6]李剛.乾隆御制《土爾扈特全部歸順記》滿漢碑文辨析[J].歷史檔案,2023(3):134-144.
[7]阿迪力·阿布力孜,郭家翔.義無反顧回歸祖國的歷史見證 出土土爾扈特銀印背后的故事[J].中國民族,2023(5):105.
[8][11]李剛.軍機(jī)處滿文土爾扈特專檔評述[J].民族翻譯,2023(2):58-64.
[9][14]許建英.土爾扈特部東歸是鑄牢中華民族共同體意識的豐厚歷史遺產(chǎn)[J].西部蒙古論壇,2023(3):3-11,125.
[10]李剛.土爾扈特東歸與紀(jì)曉嵐復(fù)職[J].中國檔案,2023(3):82-83.
[12][15][16][17][34]中國社會科學(xué)院民族研究所民族史研究室,中國第一歷史檔案館滿文部.滿文土爾扈特檔案譯編[M].北京:民族出版社,1988:3-5,220,165-167,113,3.
[13]習(xí)近平:完整準(zhǔn)確全面貫徹新發(fā)展理念 鑄牢中華民族共同體意識[EB/OL].[2024-08-25]. http://jhsjk.people.cn/article/32044119.
[18]習(xí)近平:堅持共同團(tuán)結(jié)奮斗共同繁榮發(fā)展各民族共建美好家園共創(chuàng)美好未來[EB/OL].[2024-08-25].http://jhsjk.people.cn/article/31378008.
[19]彭勇.試論中華民族交往交流交融史研究的路徑和方法[J].中華民族共同體研究,2023(4):61-76,171.
[20]楊毅.中華民族檔案的歷史形成軌跡探析[J].檔案學(xué)通訊,2020(4):4-11.
[21][23]祁天嬌.從歷史檔案到歷史大數(shù)據(jù):基于威尼斯時光機(jī)十年路徑的探索[J].中國圖書館學(xué)報,2022(5):116-129.
[22]格雷厄姆,米利根,魏因加特梁.探索歷史大數(shù)據(jù):歷史學(xué)家的宏觀視角[M].梁君英,劉益光,黃星源,譯.浙江:浙江大學(xué)出版社,2019:4.
[24]蔣杰.數(shù)字人文與史學(xué)研究[M].上海:上海三聯(lián)書店,2023:152-153.
[25][29]任明.數(shù)字人文領(lǐng)域知識圖譜構(gòu)建方法與實(shí)踐[M].北京:中國人民大學(xué)出版社,2022:34-35,19.
[26]鄧君,王阮.數(shù)字人文視域下口述歷史檔案資源知識發(fā)現(xiàn)模型構(gòu)建[J].檔案學(xué)研究,2022(1):110-116.
[27][28][35]鄧君,王阮.口述歷史檔案資源知識圖譜與多維知識發(fā)現(xiàn)研究[J].圖書情報工作,2022(7):4-16.
[30]田玲,張謹(jǐn)川,張晉豪,等.知識圖譜綜述——表示、構(gòu)建、推理與知識超圖理論[J]. 計算機(jī)應(yīng)用,2021(8):2161-2186.
[31]趙雪芹,李天娥,曾剛.基于Neo4j的萬里茶道數(shù)字資源知識圖譜構(gòu)建研究[J].情報資料工作,2022(5):89-97.
[32]徐孝娟,孫愛華,史如菊,等.數(shù)字人文視角下皖西紅色文獻(xiàn)知識本體及其應(yīng)用[J].圖書館論壇,2023(10):139-151.
[33]嚴(yán)承希,李少建,胡恒.面向知識服務(wù)的清代檔案文獻(xiàn)知識聚合[J].檔案學(xué)通訊,2023(3):54-62.
(責(zé)任編輯:孫 潔 陳 騫)