摘 要 針對新興數(shù)字人文領(lǐng)域歷史社會網(wǎng)絡(luò)的構(gòu)建與分析需求,提出了一個融合顯式與隱式表示的社會網(wǎng)絡(luò)分析框架。論文通過數(shù)據(jù)抽取腳本將異構(gòu)數(shù)據(jù)匯總為具有統(tǒng)一視圖的人物關(guān)系數(shù)據(jù)集,支持關(guān)系網(wǎng)絡(luò)的自定義構(gòu)建和多維分析;通過融合人物影響力的網(wǎng)絡(luò)表示學(xué)習(xí)算法,將人物轉(zhuǎn)換為數(shù)學(xué)向量形式,為語義計算和實證分析提供基礎(chǔ)數(shù)據(jù)?;谠摽蚣軜?gòu)建了可視化知識發(fā)現(xiàn)平臺,輔助研究者根據(jù)特定學(xué)術(shù)問題對歷史人物的社會關(guān)系進(jìn)行探索。
關(guān)鍵詞 歷史社會網(wǎng)絡(luò)分析;網(wǎng)絡(luò)表示學(xué)習(xí);知識發(fā)現(xiàn);數(shù)字人文
分類號 G250
DOI 10.16810/j.cnki.1672-514X.2024.11.010
Research on the Construction and Knowledge Discovery of Historical Social Network: a Digital Humanities Perspective
Pan Jun
Abstract Historical social network analysis has gained significant academic attention in the emerging field of digital humanities. This study introduces a framework that utilizes a combination of explicit and implicit network representations to mine knowledge from historical figure relationships. It integrates heterogeneous data through data extraction to create a unified historical figure relationship dataset, enabling multidimensional analysis of historical networks. A network representation learning algorithm is used to generate figure vectors for se5L1liDp1jBknj+QJIFRsnQ==mantic computing tasks and empirical analysis. A knowledge service platform is then developed to help humanities scholars in exploring the social connections and activities of historical figures related to their academic interests.
Keywords Social network analysis. Network representation learning. Knowledge discovery. Digital humanities.
0 引言
傳統(tǒng)社會的結(jié)構(gòu)問題是費孝通關(guān)于中國歷史社會學(xué)提出的一個重要問題?!安钚蚋窬帧边@一經(jīng)典概念的提出,極大地拓寬了歷史社會學(xué)研究的論域[1]。社會關(guān)系滲透于社會生活的各個方面。歷史社會的發(fā)展,也是各類關(guān)系不斷締結(jié)、維系并相互影響的過程。因此,重建和分析歷史人物的社會網(wǎng)絡(luò),有助于豐富我們對當(dāng)時社會政治、制度、文化等諸多方面問題的認(rèn)識,發(fā)現(xiàn)隱藏在歷史事件背后的邏輯和動力。傳統(tǒng)的歷史人物社會關(guān)系研究,主要依賴于對古籍文獻(xiàn)和歷史檔案的搜集、遴選與梳理,通過對人物生平和交游情況的考證,獲得歷史事實的“近真與頭緒”。例如鄧廣銘先生對辛棄疾交游的考證[2],就屬于這方面研究的開創(chuàng)性工作。之后的一些研究則聚焦群體人物的社會關(guān)系,如黃云鶴對唐宋時期落第士人社會交往的研究[3],梁建國對北宋東京士人交游的研究[4],平田茂樹對宋代科舉社會人際網(wǎng)絡(luò)的研究[5],蕭啟慶對元代多族士人網(wǎng)絡(luò)中師生關(guān)系的研究[6],以及徐林對明代江南士人群體交往的研究[7]等,對古代社會多個時期都頗有涉及。綜括而言,這些研究在對象上側(cè)重于個體或小范圍群體的社會關(guān)系,在方法上依賴于研究者長期訓(xùn)練和工作中積累的專業(yè)知識,注重對文獻(xiàn)資料的辨析和對史實的把握,數(shù)據(jù)規(guī)模與分析方法相對有限。近年來,隨著數(shù)字人文理念的興起,國內(nèi)外數(shù)字人文平臺的建設(shè)蓬勃發(fā)展,各學(xué)科數(shù)據(jù)的規(guī)模持續(xù)擴(kuò)大,獲取方式更為便捷,有力促進(jìn)了數(shù)據(jù)驅(qū)動研究范式的發(fā)展,相關(guān)工作呈現(xiàn)出多學(xué)科交叉融合的鮮明特點[8]。在此背景下,在更廣闊的時空維度上進(jìn)行歷史社會網(wǎng)絡(luò)研究的基本條件初步具備,并取得了一些較有代表性的成果[9-10]。
稍顯遺憾的是,現(xiàn)有的數(shù)據(jù)驅(qū)動的歷史社會網(wǎng)絡(luò)研究,多局限于對單一主題的定量分析,所構(gòu)建的社會網(wǎng)絡(luò)規(guī)模亦有限,且往往要依賴于專門的分析工具,缺乏一個系統(tǒng)性的歷史社會網(wǎng)絡(luò)分析框架,這些都限制了社會網(wǎng)絡(luò)分析方法在人文歷史領(lǐng)域的進(jìn)一步應(yīng)用。本研究為此提出一種面向數(shù)字人文的,結(jié)合顯式與隱式表示的歷史社會網(wǎng)絡(luò)分析通用框架。該框架利用數(shù)據(jù)抽取和清洗腳本將多源數(shù)據(jù)歸納為具有統(tǒng)一視圖的歷史人物關(guān)系數(shù)據(jù)集,支持顯式社會網(wǎng)絡(luò)的自定義構(gòu)建和多維分析;通過網(wǎng)絡(luò)表示學(xué)習(xí)算法生成歷史人物的語義化向量表示,為相關(guān)度計算、聚類分析等人文計算任務(wù)提供基礎(chǔ)服務(wù)。同時,本研究給出了該框架的一個具體實現(xiàn),以輔助人文學(xué)者根據(jù)所關(guān)注的研究主題對歷史人物的社會關(guān)系進(jìn)行挖掘研究,進(jìn)而建立起立體的跨時空歷史社會圖景。
1 數(shù)字人文中的社會網(wǎng)絡(luò)分析方法與應(yīng)用
數(shù)字人文是一個橫跨信息技術(shù)與人文科學(xué)的新興研究方向。當(dāng)前,越來越多的人文社科學(xué)者開始關(guān)注信息技術(shù),并將其作為解決一些具體問題的手段。地理信息系統(tǒng)、知識圖譜、復(fù)雜網(wǎng)絡(luò)、大語言模型等技術(shù)與傳統(tǒng)人文社會科學(xué)研究的結(jié)合,正有力推動著跨學(xué)科交叉和跨界融合研究的發(fā)展。數(shù)據(jù)是數(shù)字人文研究的基石,人文計算結(jié)果的可信度和可驗證性主要取決于數(shù)據(jù)的質(zhì)量、規(guī)模和粒度等因素。近年來,一批重要的數(shù)字人文數(shù)據(jù)庫和平臺陸續(xù)建成,如中國歷代人物資料庫(CBDB)、中國歷史地理數(shù)據(jù)庫(CHGIS),中國多代人口系列數(shù)據(jù)庫(CMGPD),數(shù)字人文關(guān)聯(lián)開放平臺等。這些歷史人文數(shù)據(jù)庫的建立和完善,為研究者開展數(shù)據(jù)驅(qū)動研究提供了有效資源,極大拓展了人文社科研究的范圍和深度[11-13]。
社會網(wǎng)絡(luò)分析是人文社科研究的常用方法。它將獨立的社會個體抽象為節(jié)點,將個體之間的聯(lián)系表示為連邊,信息通過這些節(jié)點和連邊傳遞,從而構(gòu)成復(fù)雜的關(guān)系網(wǎng)絡(luò)。傳統(tǒng)的社會學(xué)定量分析比較關(guān)注節(jié)點的屬性(如年齡、職業(yè)、籍貫等),而社會網(wǎng)絡(luò)分析則更側(cè)重于節(jié)點之間的關(guān)系(如親屬關(guān)系、社會角色、行為和共現(xiàn)等),進(jìn)而探索社會現(xiàn)象的深層結(jié)構(gòu)和動態(tài)變化。社會網(wǎng)絡(luò)分析方法在歷史社會學(xué)領(lǐng)域的應(yīng)用,可以追溯到Wetherell在1998年發(fā)表的論文,其中系統(tǒng)論述了歷史社會網(wǎng)絡(luò)分析的基本概念和方法[14]。近年來,隨著數(shù)字人文研究的興起,社會網(wǎng)絡(luò)分析方法愈加受到人文社科領(lǐng)域?qū)W者的重視,并取得了豐碩成果。例如,Moretti將社會網(wǎng)絡(luò)理論應(yīng)用于敘事性文學(xué)的情節(jié)分析,把情節(jié)表示為由人物及行為構(gòu)成的社會網(wǎng)絡(luò),以討論情節(jié)模式的長時段演進(jìn)[15]。魏會洋等人運用社會網(wǎng)絡(luò)分析法,對小說《白鹿原》中人物關(guān)系的結(jié)構(gòu)和特征進(jìn)行了“遠(yuǎn)讀”與分析[16]。范文潔等人將《左傳》記錄的春秋時期諸侯國之間的合作與對抗轉(zhuǎn)化為關(guān)系網(wǎng)絡(luò),進(jìn)而探討諸侯國之間的互動模式和戰(zhàn)爭格局的變化[17]。社會網(wǎng)絡(luò)分析方法結(jié)合書信往來,亦能呈現(xiàn)歷史時空中的人物關(guān)系網(wǎng)絡(luò)。斯坦福大學(xué)的“Mapping the Republic of Letters”項目,將西方啟蒙思想家之間通過書信交流形成的網(wǎng)絡(luò)進(jìn)行可視化呈現(xiàn),被視為信息科技應(yīng)用于歷史檔案分析的典范。李惠等人構(gòu)建了古人書信網(wǎng)絡(luò)模型,并以曾國藩為例探索人際關(guān)系中蘊含的線索[18]。值得指出的是,以群體傳記為理論基礎(chǔ)的中國歷代人物傳記資料庫(CBDB),收錄了大量的歷史人物關(guān)系數(shù)據(jù),其中不僅包括支持、合作、朋友等正面關(guān)系,還包括反對、陷害等負(fù)面關(guān)系,為歷史社會網(wǎng)絡(luò)分析實踐研究提供了堅實的數(shù)據(jù)基礎(chǔ),相關(guān)工作涵蓋家族網(wǎng)絡(luò)[19]、政治網(wǎng)絡(luò)[9]、進(jìn)士網(wǎng)絡(luò)[20]等多個研究主題。
綜上所述,既有研究開始關(guān)注到數(shù)字人文視野下歷史社會網(wǎng)絡(luò)的構(gòu)建與分析,但仍然存在一些局限性:首先,既有研究構(gòu)建的社會網(wǎng)絡(luò)往往針對特定主題,覆蓋范圍有限。其次,既有研究多借助社會網(wǎng)絡(luò)分析理論對顯式網(wǎng)絡(luò)進(jìn)行討論,較少關(guān)注社會網(wǎng)絡(luò)的隱式表示。最后,既有研究多使用Pajek、Gephi、Ucinet等專用工具來完成數(shù)據(jù)處理和可視化,缺少通用的歷史社會網(wǎng)絡(luò)分析框架及平臺。在此背景下,借助文本挖掘、數(shù)據(jù)分析、機(jī)器學(xué)習(xí)等技術(shù),構(gòu)建具有統(tǒng)一視圖的歷史人物社會關(guān)系數(shù)據(jù)集,開發(fā)相應(yīng)的支撐工具和可視化人文計算平臺以輔助實證研究,就具有一定的現(xiàn)實意義。
2 研究方法
2.1 社會網(wǎng)絡(luò)分析理論與網(wǎng)絡(luò)表示學(xué)習(xí)方法
現(xiàn)實社會中的許多復(fù)雜系統(tǒng),如社交網(wǎng)絡(luò)、引文網(wǎng)絡(luò)、網(wǎng)頁鏈接網(wǎng)絡(luò)等, 都可以借助關(guān)系網(wǎng)絡(luò)來描述。在社會網(wǎng)絡(luò)分析中,如何有效地表示節(jié)點間的關(guān)系是一個核心問題。一種常用的表示方法是使用鄰接矩陣,即使用一個的矩陣來表示具有個節(jié)點的網(wǎng)絡(luò):若兩個節(jié)點存在邊,則為相應(yīng)的矩陣元素賦值1或邊的權(quán)重,否則賦值0。在鄰接矩陣中,每一行都表示一個節(jié)點與其他節(jié)點之間是否存在邊,因此可以將每一行視作對應(yīng)節(jié)點的一種向量表示。鄰接矩陣雖然簡單直觀,但存在高維稀疏等問題,不適用于大規(guī)模網(wǎng)絡(luò)的表示和計算,也難以支持各種高效的機(jī)器學(xué)習(xí)模型[21]。
一種解決方案是將高維稀疏表示的鄰接矩陣嵌入到低維稠密的向量空間中,使得越相關(guān)的節(jié)點在新空間中對應(yīng)的距離越小,從而獲得每個節(jié)點的低維表示,如圖1所示。
傳統(tǒng)的網(wǎng)絡(luò)表示學(xué)習(xí)方法可分為兩類:基于矩陣特征向量的譜聚類方法和基于矩陣分解的方法。這兩類方法都依賴于關(guān)聯(lián)矩陣的定義與構(gòu)建,時間和空間復(fù)雜度較高。隨著深度學(xué)習(xí)技術(shù)的發(fā)展,基于神經(jīng)網(wǎng)絡(luò)的表示學(xué)習(xí)成為研究重點,其核心思想是利用神經(jīng)網(wǎng)絡(luò)模型來學(xué)習(xí)網(wǎng)絡(luò)節(jié)點的分布式表示,代表性方法主要有DeepWalk、LINE、Node2Vec和SDNE等。這些算法的共同點是對節(jié)點的鄰居信息進(jìn)行建模,并借助深度學(xué)習(xí)框架進(jìn)行特征提取和表示學(xué)習(xí),從而得到節(jié)點的低維連續(xù)表示。這種分布式表示能有效捕捉節(jié)點間的語義關(guān)系,而低維語義空間又緩解了鄰接矩陣所固有的高維性和稀疏性問題,因此逐漸成為處理大規(guī)模網(wǎng)絡(luò)表示學(xué)習(xí)的重要方法。
2.2 系統(tǒng)框架
為了實現(xiàn)對歷史人物關(guān)系的知識挖掘,本文構(gòu)建了一個融合顯式與隱式表示的歷史社會網(wǎng)絡(luò)構(gòu)建與分析框架,如圖2所示。該框架包含四個主要組成部分,其處理過程簡述如下。
(1)數(shù)據(jù)集成。歷史人物關(guān)系網(wǎng)絡(luò)本質(zhì)上是基于關(guān)系數(shù)據(jù)重建的人工網(wǎng)絡(luò)。數(shù)據(jù)來源可以包括知識圖譜、結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化文本等。根據(jù)人文計算的需求,設(shè)計統(tǒng)一的人物關(guān)系數(shù)據(jù)模型,并通過數(shù)據(jù)抽取腳本將多源異構(gòu)數(shù)據(jù)歸納整理為多維數(shù)據(jù)集,最終存儲到數(shù)據(jù)集市中。
(2)網(wǎng)絡(luò)建模。根據(jù)人文計算的研究對象及具體問題,在數(shù)據(jù)集市中選取相應(yīng)主題的數(shù)據(jù)集,以人物為節(jié)點,人物交互關(guān)系為邊構(gòu)建網(wǎng)絡(luò)。網(wǎng)絡(luò)的類型和特征可以自定義,例如,可以使用專家評分方式為各類關(guān)系分配權(quán)重,使用特征向量中心性或其他網(wǎng)絡(luò)指標(biāo)計算人物的影響力等。
(3)表示學(xué)習(xí)?;跇?gòu)建好的人物關(guān)系網(wǎng)絡(luò),運用網(wǎng)絡(luò)表示學(xué)習(xí)算法來生成人物節(jié)點的向量表示。根據(jù)具體需求選擇適當(dāng)?shù)木W(wǎng)絡(luò)表示學(xué)習(xí)算法,并通過參數(shù)調(diào)優(yōu)等來獲取精確的人物語義向量。
(4)語義計算。以人物的低維實值向量作為輸入,進(jìn)行相關(guān)度計算、人物聚類、關(guān)系預(yù)測等人文計算任務(wù)。依據(jù)計算結(jié)果及對關(guān)聯(lián)史料文獻(xiàn)的循證分析,對某些新線索或新觀點進(jìn)行探討論證。
圖2的框架具有良好的可擴(kuò)展性。研究者可以根據(jù)自己的專業(yè)特長和研究興趣創(chuàng)建面向不同學(xué)術(shù)主題的數(shù)據(jù)集,并通過腳本調(diào)度定期從多個數(shù)據(jù)源中抽取數(shù)據(jù),增量更新到數(shù)據(jù)集市中。對于選定的數(shù)據(jù)集,可根據(jù)具體的研究情境生成特定類型的關(guān)系網(wǎng)絡(luò),再用網(wǎng)絡(luò)表示學(xué)習(xí)方法獲取人物節(jié)點的向量表示。在將節(jié)點向量與節(jié)點特征相關(guān)聯(lián)后,可通過維度下鉆或上卷等范式進(jìn)行各項專題研究。此外,通過關(guān)聯(lián)數(shù)據(jù)提供的文獻(xiàn)出處,可按圖索驥進(jìn)行回溯考訂,以論證所得結(jié)論。
3 歷史社會網(wǎng)絡(luò)分析與可視化平臺的構(gòu)建
3.1 數(shù)據(jù)模型與數(shù)據(jù)處理
高質(zhì)量、大規(guī)模的人物數(shù)據(jù)是構(gòu)建歷史社會網(wǎng)絡(luò)知識服務(wù)平臺的基礎(chǔ)。本研究選用中國歷代人物資料庫(CBDB)[22]中收錄的人物社會關(guān)系和親屬關(guān)系作為主要數(shù)據(jù)來源,CBDB已經(jīng)系統(tǒng)收錄了約52萬筆歷史人物的傳記資料。本研究主要關(guān)注特定時空下歷史人物的社會關(guān)系網(wǎng)絡(luò),為此在CBDB原有表結(jié)構(gòu)的基礎(chǔ)上,重構(gòu)了以人物關(guān)系為中心的時空數(shù)據(jù)模型,如圖3所示。
在現(xiàn)有關(guān)系數(shù)據(jù)的基礎(chǔ)上還可以進(jìn)一步推導(dǎo)出其他人物關(guān)系。例如由“Z的弟子為X”,及“Z的弟子為Y”,可推斷X與Y為同門關(guān)系。此外,通過五服親屬關(guān)系推理,可以補(bǔ)充缺失的親屬關(guān)系。本文據(jù)此對部分關(guān)系數(shù)據(jù)進(jìn)行了擴(kuò)充。最后,編寫腳本對數(shù)據(jù)進(jìn)行集成、清洗和校驗,構(gòu)建了一個具有統(tǒng)一視圖的中國歷史人物關(guān)系數(shù)據(jù)集,包含從唐宋到元明清的歷史人物18 947位,人物關(guān)系數(shù)據(jù)100 894條。
3.2 人物關(guān)系時空挖掘可視化
大規(guī)模歷史社會網(wǎng)絡(luò)的構(gòu)建,為拓展歷史社會學(xué)研究提供了堅實的數(shù)據(jù)基礎(chǔ)。數(shù)據(jù)驅(qū)動的研究范式正是通過對這些數(shù)據(jù)的量化分析和可視化呈現(xiàn),改進(jìn)了解答問題的方式。盡管一些學(xué)者對這一研究范式仍持有保留態(tài)度[23],但史料的數(shù)字化工作契合傅斯年先生“史料即史學(xué)”的觀點,本身就具有重要的研究價值[24],關(guān)鍵在于需要有問題意識作指引,即基于這些結(jié)構(gòu)化數(shù)據(jù)來提出新問題,解釋問題或者豐富我們對問題的認(rèn)知。
例如,以往對宋代溫州士大夫群體的研究[25],往往聚焦個案人物作具體而微的考證分析,缺乏鳥瞰式的全局概覽?;诒疚臉?gòu)建的歷史人物關(guān)系數(shù)據(jù)集,我們可以根據(jù)研究對象提取相應(yīng)的社會關(guān)系,并從多個維度對其篩選后進(jìn)行可視化呈現(xiàn)。圖4展示了從時間、空間維度對宋代進(jìn)士數(shù)據(jù)集篩選后,基于力導(dǎo)圖算法生成的南宋溫州進(jìn)士的社會關(guān)系網(wǎng)絡(luò)圖。
從圖4中可以看出,永嘉學(xué)派的代表人物陳傅良和葉適對南宋溫州科場有著較大的影響力。其實從文獻(xiàn)分析可知,首先,陳、葉二人是南宋中期政壇的佼佼者。陳傅良在乾道八年(1172年)試禮部第二,其弟子蔡幼學(xué)為省元,該科進(jìn)士“皆公鄉(xiāng)郡人,非公之友,則其徒也”;葉適在淳熙五年(1178年)中進(jìn)士第二,其門人錢易直和周端朝隨后皆中省元。以陳傅良和葉適為中心,形成了永嘉學(xué)派士人相互扶持的關(guān)系網(wǎng)絡(luò)。其次,陳傅良的科舉時文集《待遇集》、葉適的《進(jìn)卷》是當(dāng)時最流行的時文教材,永嘉文體因而成為引領(lǐng)科場文章風(fēng)氣的先鋒。第三,陳傅良在城南茶院講學(xué),從者數(shù)百人;葉適晚年退居永嘉水心,求問場屋之學(xué)的士子絡(luò)繹不絕。可見,宋代溫州科舉的興盛,與永嘉學(xué)派的形成與發(fā)展有著千絲萬縷的聯(lián)系。包弼德認(rèn)為,理學(xué)更容易在重視教育的地區(qū)傳播和發(fā)展[26],而基于較完備數(shù)據(jù)的社會網(wǎng)絡(luò)多維分析,強(qiáng)化了相關(guān)結(jié)論的可靠性和說服力,并可進(jìn)一步為科舉地理等相關(guān)研究提供新的視角和數(shù)據(jù)支撐。例如,研究者可對福建路、兩浙路、江南東、西路的士人關(guān)系網(wǎng)絡(luò)進(jìn)行對比觀察,以進(jìn)一步討論分析閩學(xué)、婺學(xué)、永康學(xué)、永嘉學(xué)、象山學(xué)等理學(xué)諸學(xué)派之間的相互融合又相互角力的現(xiàn)象。
3.3 隱式網(wǎng)絡(luò)構(gòu)建與分析
傳統(tǒng)的社會網(wǎng)絡(luò)一般采用鄰接矩陣或鄰接表的顯式表示方法,在處理大規(guī)模網(wǎng)絡(luò)時會面臨計算復(fù)雜度過高的問題。本文為此利用網(wǎng)絡(luò)表示學(xué)習(xí)方法將顯式網(wǎng)絡(luò)中的人物節(jié)點映射到低維稠密的實空間中,在提升計算效率的同時,可支持人物聚類、相關(guān)度計算等任務(wù)。
3.3.1 改進(jìn)的網(wǎng)絡(luò)表示學(xué)習(xí)方法
DeepWalk是一種經(jīng)典的基于神經(jīng)網(wǎng)絡(luò)的網(wǎng)絡(luò)表示學(xué)習(xí)方法,其思想是利用隨機(jī)游走生成長度固定的節(jié)點序列,然后將這些序列視作句子,輸入到神經(jīng)網(wǎng)絡(luò)語言模型中進(jìn)行訓(xùn)練,最終得到每個節(jié)點的低維向量表示。Node2Vec改進(jìn)了隨機(jī)游走策略,引入兩個參數(shù)來控制游走的深度和廣度,兼顧了網(wǎng)絡(luò)的局部和整體結(jié)構(gòu)。這兩種算法的理論前提都是計算語言學(xué)的分布式假設(shè),即認(rèn)為相關(guān)的詞的上下文也是相關(guān)的。在關(guān)系網(wǎng)絡(luò)中,相連的節(jié)點或不相連但具有共同鄰居的節(jié)點,在隨機(jī)游走過程中往往具有較高的共現(xiàn)概率,因而相關(guān)度也就較高。
在真實的社會網(wǎng)絡(luò)中,還應(yīng)考慮人物的影響力,若相鄰節(jié)點在網(wǎng)絡(luò)中的影響力差異較大,則應(yīng)降低相關(guān)度。以CBDB數(shù)據(jù)庫中收錄的王安石的社會關(guān)系為例,其中有王安石為他人撰寫墓志或祭文的數(shù)據(jù)168條,涉及對象包括曾公亮、盛京、丁元珍等對其有知遇之恩的前輩名臣,以及呂公綽、高若訥、程琳、蕭定基、丁寶臣等同僚朝臣,這些具有較高影響力的歷史名人在生前與王安石都有密切的聯(lián)系。然而,也有一些普通墓主在生前并未與王安石有過交集,是因他們的家人仰慕王安石的地位而通過各種途徑向他請銘而作,應(yīng)在隨機(jī)游走過程中降低共現(xiàn)概率。本研究為此改進(jìn)了Node2Vec的游走策略,以更準(zhǔn)確地刻畫網(wǎng)絡(luò)中人物間的關(guān)系分布。
3.3.2 人物向量t-sne可視化
為了獲得歷史人物的語義向量,可根據(jù)學(xué)術(shù)主題從歷史人物關(guān)系數(shù)據(jù)集中抽取子集,構(gòu)建相應(yīng)的專題數(shù)據(jù)集,并使用融合影響力的網(wǎng)絡(luò)表示學(xué)習(xí)方法獲取人物的向量表示,以計算任意人物間的相關(guān)度,或通過對向量降維后進(jìn)行可視化呈現(xiàn),進(jìn)而觀察人物關(guān)系的疏近分布。
宋代理學(xué)在中國古代思想文化史上具有重要地位,對理學(xué)人物及其思想的個案研究成果頗豐。這些研究通常考證精密詳實,但往往缺乏宏觀視角。如果能結(jié)合更廣闊時空背景下人物的分布情況,將有助于我們?nèi)鎸徱曀未韺W(xué)各個流派的人物分布和地域的關(guān)系。為此,本文選取宋代理學(xué)人物之間的學(xué)術(shù)關(guān)系來構(gòu)建數(shù)據(jù)集,并建立關(guān)系網(wǎng)絡(luò),進(jìn)而利用網(wǎng)絡(luò)表示學(xué)習(xí)方法獲得人物的向量表示。所選取的具體學(xué)術(shù)關(guān)系如表1所示。
在選取上述關(guān)系為人物節(jié)點建立連邊后,采用改進(jìn)的Node2Vec算法,訓(xùn)練得到維度為256的人物向量,隨后利用t-sne算法進(jìn)行降維和可視化呈現(xiàn),結(jié)果如圖5所示。
通過對選定范圍內(nèi)人物向量進(jìn)行降維處理,可顯示不同時空范圍內(nèi)人物的分布情況。從圖5中人物的距離和分布,關(guān)聯(lián)人物的個人信息和循證文獻(xiàn),可以較直觀地審視南宋理學(xué)各個流派的分布情況。首先,南宋時期的學(xué)術(shù)團(tuán)體較為集中,圍繞朱熹、呂祖謙、陸九淵等理學(xué)大師形成了若干大型學(xué)術(shù)團(tuán)體。其次,這些學(xué)術(shù)團(tuán)體的核心成員中不乏一些著名的政治人物,如永嘉學(xué)派的葉適、許及之、戴溪、蔡幼學(xué)等,都曾仕至尚書、宰執(zhí),這與永嘉學(xué)派的功利主義政治觀以及實現(xiàn)內(nèi)圣外王的理想是契合的。第三,關(guān)聯(lián)人物的地理信息,可以發(fā)現(xiàn)人物的聚集現(xiàn)象與理學(xué)流派的區(qū)域分布緊密相關(guān),主要包括朱熹的閩學(xué),呂祖謙的婺學(xué),陸九淵的象山學(xué),陳傅良、葉適的永嘉學(xué),陳亮的永康學(xué),張栻的湖湘學(xué)等,以各流派理學(xué)大師所在地域為中心,形成一個個并立的學(xué)術(shù)團(tuán)體。在提取人物籍貫信息后可以進(jìn)一步觀察到,南宋理學(xué)人物主要分布在兩浙路的溫州、婺州、處州、衢州,福建路的建寧府、邵武軍,江南東路的信州、饒州,江南西路的撫州、建昌軍等地,體現(xiàn)了各學(xué)派的地域分布特征。
3.3.3 人物畫像與親屬網(wǎng)絡(luò)
通過歷史人物的語義向量,結(jié)合人物的個人信息和標(biāo)簽,可以對具體人物進(jìn)行關(guān)系挖掘,并利用可視化手段來揭示一些具體而微的歷史細(xì)節(jié)。例如,科舉制度在明代臻于完備,明代士人通過同年、同鄉(xiāng)、同學(xué)、同道、以及座師門生等關(guān)系,形成了錯綜復(fù)雜的社會網(wǎng)絡(luò)。通過挖掘明代士大夫近鄰人物的身份和具體關(guān)系,可以觀察到明代科舉社會的某些特質(zhì)。圖6以明代中期著名的政治人物和文學(xué)家李東陽為例,展示了其近鄰人物及其親屬。
揆諸史實,李東陽于天順八年舉二甲進(jìn)士第一,歷仕天順、成化、弘治、正德四朝,從政五十年,柄國十八載,且文采優(yōu)長,是茶陵派的領(lǐng)袖,在政治和文學(xué)上均具有重要影響。通過對李東陽近鄰人物的分析,可以將其大致分為四類。第一類為其師長,包括業(yè)師展毓、黎淳、陳俊、劭玉等,以及鄉(xiāng)試座師陳鑒,會試座師彭時、錢溥,庶吉士館師劉定之、柯潛等。第二類為其學(xué)生,包括他任翰林院庶吉士館師時的學(xué)生顧清,以及門生劭寶、何孟春、石珤等。第三類為其同年好友,包括倪岳、謝鐸、陳音等。第四類是其同僚,如內(nèi)閣同僚徐溥、丘浚、劉健、謝遷、焦芳等。李東陽與這些人物有著不同程度的交往,其交游形式主要包括序跋文字、宴飲、結(jié)社、悼亡祭奠、舉薦延譽等,這也是明代士大夫之間常見的來往方式。圖6這種基于關(guān)系數(shù)據(jù)的人物畫像與親屬網(wǎng)絡(luò)查詢,能夠較全面地呈現(xiàn)人物概貌,并為快速獲得歷史人物的相關(guān)信息提供支持。
4 結(jié)語
歷史人物的社會活動是多種因素相互作用的結(jié)果,既受到當(dāng)時社會制度的制約,也反映了政治、經(jīng)濟(jì)和文化等多方面的變化和發(fā)展。以歷史社會網(wǎng)絡(luò)為中心,聯(lián)系人物社會活動所依存的歷史背景,可以更好地觀察人際關(guān)系與社會文化、政治制度之間的互動。本文為此提出了一個結(jié)合顯式與隱式表示的歷史社會網(wǎng)絡(luò)分析框架,并以CBDB數(shù)據(jù)庫和科舉文獻(xiàn)資料為基礎(chǔ),構(gòu)建了面向主題的歷史人物社會關(guān)系數(shù)據(jù)集市,實現(xiàn)了可視化的知識發(fā)現(xiàn)平臺,通過計算目標(biāo)人物的近鄰人物,可以揭示出一些隱藏的關(guān)系模式和線索,通過對不同人物群體近鄰分布的分析,可以揭示社會現(xiàn)象的內(nèi)在邏輯和動態(tài)變化。實證研究表明了本文框架具有較好的可擴(kuò)展性。
然而限于水平和學(xué)識,文章對于具體的史實考證論述尚顯粗糙,今后將加強(qiáng)與其他領(lǐng)域?qū)W者進(jìn)行合作,考索細(xì)節(jié),探索關(guān)聯(lián),為數(shù)字人文實踐研究提供新視角。
*本文系浙江省高校重大人文社科攻關(guān)計劃項目“江南士人群體社會關(guān)系網(wǎng)絡(luò)與地域文化演進(jìn)研究”(項目編號:2023QN088)、國家社會科學(xué)基金項目“古代科技文獻(xiàn)名物知識圖譜構(gòu)建與人文計算研究”(項目編號:23BTQ019)的研究成果。
Pan Jun : Research on the Construction and Knowledge Discovery of Historical Social Network: a Digital Humanities Perspective
潘 ?。簲?shù)字人文視野下歷史社會網(wǎng)絡(luò)構(gòu)建與知識發(fā)現(xiàn)
Pan Jun : Research on the Construction and Knowledge Discovery of Historical Social Network: a Digital Humanities Perspective
潘 ?。簲?shù)字人文視野下歷史社會網(wǎng)絡(luò)構(gòu)建與知識發(fā)現(xiàn)
Pan Jun : Research on the Construction and Knowledge Discovery of Historical Social Network: a Digital Humanities Perspective
潘 俊:數(shù)字人文視野下歷史社會網(wǎng)絡(luò)構(gòu)建與知識發(fā)現(xiàn)
參考文獻(xiàn):
Pan Jun : Research on the Construction and Knowledge Discovery of Historical Social Network: a Digital Humanities Perspective
潘 ?。簲?shù)字人文視野下歷史社會網(wǎng)絡(luò)構(gòu)建與知識發(fā)現(xiàn)
費孝通.鄉(xiāng)土中國[M].北京:三聯(lián)書店出版社,
1985.
鄧廣銘.辛稼軒交游考[J].復(fù)旦學(xué)報, 1944(1):
87-144.
黃云鶴.唐宋時期落第士人群體研究[J].古籍整理研究學(xué)刊, 2016(2):108-109.
梁建國.朝堂之外:北宋東京士人走訪與雅集:以蘇軾為中心[J].歷史研究, 2009(2):21-37.
平田茂樹.宋代政治史研究的新視野:以科舉社會的“人際網(wǎng)絡(luò)”為線索[J].史學(xué)月刊,2014
(3):22-27.
蕭啟慶.元代多族士人網(wǎng)絡(luò)中的師生關(guān)系[J].歷史研究, 2005(1):119-141.
徐林.宴飲與明中后期江南士人社會交往生活[J].社會科學(xué)戰(zhàn)線, 2005(2):152-156.
哈歡歡.圖書館在數(shù)字人文研究服務(wù)中的實踐與策略[J].新世紀(jì)圖書館, 2021(9):46-51.
嚴(yán)承希,王軍.數(shù)字人文視角:基于符號分析法的宋代政治網(wǎng)絡(luò)可視化研究[J].中國圖書館學(xué)報, 2018,44(5):87-103.
宋雪雁,楊芳芳,羅慧.知識重組視域下《全唐詩》戰(zhàn)爭詩詩人社會網(wǎng)絡(luò)關(guān)系研究[J].圖書情報工作, 2023,67(20):34-44.
劉瀏,齊月,劉雛菲,等.計算人文下的古籍引書
研究及全文本知識庫的構(gòu)建[J].情報學(xué)報,2023,
42(12):1498-1512.
位通,桑宇辰,史睿.基于知識重構(gòu)的年譜時空
可視化呈現(xiàn):以《朱熹年譜長編》為例[J].中國圖書館學(xué)報, 2022,48(2): 62-75.
夏翠娟,賀晨芝,劉倩倩,等.數(shù)字人文環(huán)境下歷史文獻(xiàn)資源共建共享模式新探[J].圖書與情報,2021,(1):53-61.
WETHERELL C.Historical social network analysis
[J].International Review of School History, 1998, 43(5):16-21.
MORETTI F.Network theory, plot analysis[J]. New LeftS6Eml39RTdjO9f/IH8p+zg== Review, 2011(68):80-102.
魏會洋,袁曦臨.社會網(wǎng)絡(luò)分析在文學(xué)閱讀研
究中的適用性問題:以數(shù)字人文視角下的《白
鹿原》人物關(guān)系闡釋為例[J].新世紀(jì)圖書館,
2019(3):30-34.
范文潔,李忠凱,黃水清.基于社會網(wǎng)絡(luò)分析的
《左傳》戰(zhàn)爭計量及可視化研究[J].圖書情報工作,2020,64(6):90-99.
李惠,侯君明,陳濤,等.星漢窈渺:書信網(wǎng)絡(luò)
中蘊藏的人際關(guān)系挖掘[J].圖書館雜志, 2020,
39(5):86-92.
錢超峰,杜德斌.北宋官僚家族網(wǎng)絡(luò)的空間結(jié)構(gòu)及其演化:基于CBDB和CHGIS的考察[J].歷史地理研究,2019,39(2):83-94.
潘俊.探微知著:從知識庫和科舉文獻(xiàn)中構(gòu)建歷史社會網(wǎng)絡(luò):以明代進(jìn)士群體為中心[J].圖書館論壇,2021(5):1-12.
涂存超,楊成,劉知遠(yuǎn),等.網(wǎng)絡(luò)表示學(xué)習(xí)綜述[J].中國科學(xué):信息科學(xué), 2017, 47(8): 980-996.
TSUI L H,WANG H.Harvesting big biographical data for Chinese history: the China Biographical Database(CBDB)[J].Journal of Chinese History, 2020,4(2):505-511.
成一農(nóng).拋棄人性的歷史學(xué)沒有存在價值: “大數(shù)據(jù)”“數(shù)字人文”以及歷史地理信息系統(tǒng)在歷史研究中的價值[J].清華大學(xué)學(xué)報(哲學(xué)社會科學(xué)版), 2021,36(1):181-190.
陳加晉,盧勇.發(fā)現(xiàn)更真的歷史:中國計算史學(xué)
的百年之路與時代使命[J].圖書與情報, 2023
(1):21-30.
岡元司.南宋期科舉試官的地域性:以浙東出身士大夫為中心[C]//宋代史研究會.宋代社會的網(wǎng)絡(luò).東京:東京創(chuàng)文社, 2002:251-252.
包弼德.群體、地理與中國歷史:基于CBDB和CHGIS[J].量化歷史研究, 2017(Z1):213-246.
潘 俊 浙江科技大學(xué)理學(xué)院數(shù)據(jù)科學(xué)系副教授。 浙江杭州,310023。
(收稿日期:2024-03-03 編校:左靜遠(yuǎn),曹曉文)