[摘 要]數(shù)字人文能夠活化中國(guó)文化,向世界更好地展示中國(guó)聲音,講好中國(guó)故事。從數(shù)字人文領(lǐng)域研究成果中識(shí)別文獻(xiàn)主題,能夠客觀地幫助該領(lǐng)域?qū)W者快速了解與掌握國(guó)內(nèi)數(shù)字人文研究?jī)?nèi)容和動(dòng)向,并形成國(guó)內(nèi)該領(lǐng)域基于文獻(xiàn)研究的框架,為相關(guān)研究提供理論支撐。以CNKI中數(shù)字人文領(lǐng)域的1886篇文獻(xiàn)為樣本,綜合使用LDA、Word2Vec及共現(xiàn)分析等文本計(jì)算方法抽取主題,形成以信息技術(shù)為驅(qū)動(dòng),以數(shù)字藝術(shù)、文化遺產(chǎn)、歷史檔案等主要研究領(lǐng)域?yàn)閷W(xué)科建設(shè)突破口,以人才培養(yǎng)為最終目標(biāo)的國(guó)內(nèi)數(shù)字人文領(lǐng)域研究框架。
[關(guān)鍵詞]數(shù)字人文 文本計(jì)算 主題識(shí)別 研究框架 LDA
[分類號(hào)]G250.7
2020年11月,教育部在全國(guó)新文科建設(shè)工作會(huì)議上發(fā)布了《新文科建設(shè)宣言》,明確指出要積極推動(dòng)人工智能、大數(shù)據(jù)等現(xiàn)代信息技術(shù)與文科專業(yè)深入融合[1]。數(shù)字人文作為人文學(xué)科、計(jì)算機(jī)科學(xué)交叉研究的新型領(lǐng)域,逐漸超越作為工具或提供服務(wù)的功能性角色定位,被賦予新的人文學(xué)科身份,成為新文科建設(shè)的重點(diǎn)內(nèi)容,推動(dòng)數(shù)字人文領(lǐng)域研究蓬勃發(fā)展,吸引傳統(tǒng)的人文領(lǐng)域、計(jì)算機(jī)科學(xué)技術(shù)領(lǐng)域以及數(shù)據(jù)分析領(lǐng)域等學(xué)者參與到數(shù)字人文的建設(shè)中來(lái)。隨著越來(lái)越多的學(xué)科融入其中,如何幫助研究人員從宏觀層面快速了解和把握研究重點(diǎn)和發(fā)展趨勢(shì),探索具有創(chuàng)新性和可持續(xù)發(fā)展的研究課題,提高研究的科學(xué)性和穩(wěn)健性是當(dāng)下亟待解決的問(wèn)題。在新文科建設(shè)和文化強(qiáng)國(guó)戰(zhàn)略等建設(shè)推動(dòng)下,通過(guò)主題挖掘的方式形成研究框架能夠描述當(dāng)前學(xué)界研究范圍和研究焦點(diǎn),從而對(duì)我國(guó)數(shù)字人文領(lǐng)域研究提供理論支撐。
1 相關(guān)研究
1.1 數(shù)字人文主題研究
數(shù)字人文起源于人文計(jì)算,是以人文數(shù)據(jù)為基礎(chǔ),以數(shù)據(jù)挖掘、知識(shí)圖譜等計(jì)算機(jī)技術(shù)和多媒體技術(shù)為支撐,輔助研究者開(kāi)展人文研究而形成的新型跨學(xué)科研究領(lǐng)域[2],國(guó)內(nèi)外學(xué)者從定性和定量視角不斷完善數(shù)字人文理論與方法,針對(duì)不同領(lǐng)域開(kāi)展數(shù)字人文研究,形成了一系列研究成果。劉煒等[3]從技術(shù)體系與理論結(jié)構(gòu)對(duì)數(shù)字人文的整體性發(fā)展進(jìn)行探討。蔡迎春等[4]以“共享場(chǎng)景”理念分析了圖書(shū)館創(chuàng)建數(shù)字人文實(shí)驗(yàn)室的時(shí)空呈現(xiàn)、基礎(chǔ)設(shè)施、參與人員、交互體驗(yàn)4個(gè)構(gòu)成要素和空間、平臺(tái)、培訓(xùn)、管理4個(gè)關(guān)鍵環(huán)節(jié)。這些研究成果為開(kāi)展數(shù)字人文演化路徑與熱點(diǎn)主題識(shí)別、人文與信息技術(shù)關(guān)系的探索等量化研究提供了有意義的數(shù)據(jù)支持??缕降萚5]運(yùn)用文獻(xiàn)計(jì)量方法對(duì)WOS核心集中數(shù)字人文研究文獻(xiàn)進(jìn)行統(tǒng)計(jì)分析和內(nèi)容挖掘,得出數(shù)字人文研究的前沿和熱點(diǎn)領(lǐng)域。李晚蓮等[6]提出一種基于Word2Vec詞嵌入和LDA主題建模技術(shù)的科學(xué)研究前沿識(shí)別方法,對(duì)國(guó)際數(shù)字人文領(lǐng)域的前沿主題進(jìn)行探測(cè)。魯國(guó)軒等[7]提出一種基于機(jī)器學(xué)習(xí)的數(shù)字人文文獻(xiàn)主題識(shí)別分類模型,實(shí)現(xiàn)了不同領(lǐng)域數(shù)字人文文獻(xiàn)的多種分類。Fangli S等[8]使用Pajek和VOSviewer對(duì)1900—2020年期間的WOS核心集中數(shù)字人文研究文獻(xiàn)進(jìn)行分析,識(shí)別出館藏內(nèi)容、技術(shù)驅(qū)動(dòng)、跨學(xué)科合作及數(shù)字人文演進(jìn)4個(gè)研究主題。Soohung J等[9]收集2010—2020年Scopus等多個(gè)數(shù)據(jù)庫(kù)的數(shù)字人文研究文獻(xiàn),采用LDA主題建模的方式,分析數(shù)字人文研究領(lǐng)域課題及其發(fā)展趨勢(shì)。
1.2 數(shù)字人文研究框架
研究框架能從宏觀層面描述數(shù)字人文領(lǐng)域研究的大致范圍和焦點(diǎn),目前針對(duì)數(shù)字人文領(lǐng)域框架的研究并不多。王麗華等[10]辨析了數(shù)字人文相關(guān)的人文學(xué)科、人文科學(xué)、人文主義等概念,從數(shù)字人文基礎(chǔ)、方法論、具體工作內(nèi)容及研究領(lǐng)域4個(gè)方面構(gòu)建了數(shù)字人文理論框架。唐江浩等[11]采用扎根理論等方法從數(shù)字信息獲取能力、數(shù)字技術(shù)運(yùn)用能力、數(shù)字學(xué)術(shù)交流能力3個(gè)方面構(gòu)建了人文學(xué)者數(shù)字學(xué)術(shù)能力理論框架。左娜等[12]基于共生理論從共生單元、共生模式與共生環(huán)境3個(gè)方面構(gòu)建了數(shù)字人文多主體共生的分析框架。饒梓欣等[13]運(yùn)用扎根理論方法對(duì)8所國(guó)外高校數(shù)字人文中心的項(xiàng)目管理數(shù)據(jù)進(jìn)行分析,從項(xiàng)目界定、項(xiàng)目規(guī)劃、項(xiàng)目實(shí)施、項(xiàng)目結(jié)束4個(gè)方面構(gòu)建出數(shù)字人文項(xiàng)目管理框架。
學(xué)者們圍繞數(shù)字人文領(lǐng)域的理論、技術(shù)、資源等方面進(jìn)行了深入的探討,為形成數(shù)字人文領(lǐng)域研究框架提供了理論基礎(chǔ)。在主題研究方面,現(xiàn)有研究多是使用文獻(xiàn)計(jì)量方法,少量文獻(xiàn)采用主題概率模型進(jìn)行數(shù)字人文領(lǐng)域演化路徑與熱點(diǎn)主題識(shí)別研究。在框架研究方面,現(xiàn)有研究主要以定性的研究方法圍繞數(shù)字人文領(lǐng)域研究機(jī)制進(jìn)行初步探索,缺少以定量研究方法從宏觀層面形成國(guó)內(nèi)數(shù)字人文領(lǐng)域研究框架的成果。因此,筆者基于LDA主題模型[14-15]、Word2Vec模型[16]及共現(xiàn)分析法提出一種用于數(shù)字人文領(lǐng)域文獻(xiàn)主題識(shí)別的方法,為研究人員提供了一種更加符合數(shù)字人文科學(xué)規(guī)律的新視角。通過(guò)量化研究方法形成的框架具有可調(diào)性,以可視化的方式呈現(xiàn),可以動(dòng)態(tài)性地幫助數(shù)字人文領(lǐng)域研究學(xué)者,特別是交叉學(xué)科領(lǐng)域?qū)W者準(zhǔn)確把握數(shù)字人文研究的重點(diǎn)和整體發(fā)展趨勢(shì)。
2 研究過(guò)程
通過(guò)文本計(jì)算方法識(shí)別出主題的組成要素,形成國(guó)內(nèi)數(shù)字人文領(lǐng)域研究框架。主要包括數(shù)據(jù)獲取與預(yù)處理、最優(yōu)主題數(shù)目確定、LDA主題聚類、主題圖譜構(gòu)建4個(gè)步驟。首先,從CNKI數(shù)據(jù)庫(kù)中獲取文獻(xiàn)數(shù)據(jù),構(gòu)造特征詞表和無(wú)效詞表,進(jìn)行數(shù)據(jù)預(yù)處理;其次,使用困惑度評(píng)價(jià)法確定文獻(xiàn)的最優(yōu)主題數(shù)目,使用LDA聚類出主題-詞分布,進(jìn)行主題識(shí)別;再次,通過(guò)引入Word2Vec詞向量模型進(jìn)行文本向量化表示,計(jì)算主題與文本間相似度,并設(shè)置閾值過(guò)濾無(wú)效主題;最后,利用主題聚類結(jié)果進(jìn)行共現(xiàn)分析,并通過(guò)VOSviewer可視化的方式形成數(shù)字人文領(lǐng)域文獻(xiàn)主題聚類。研究過(guò)程如圖1所示。
2.1 LDA主題模型
LDA主題模型可以從語(yǔ)義層面識(shí)別數(shù)字人文領(lǐng)域文獻(xiàn)主題,主要體現(xiàn)文檔與主題、主題與主題詞的關(guān)系,其中主題詞服從狄利克雷分布,概率值越大,表示主題與主題詞的關(guān)系越強(qiáng),越能表示主題。LDA模型的聯(lián)合概率如公式(1)所示[15]。
[p(θ,z,w|α,β)=p(θ|α)n=1Np(zn|θ)p(wn|zn,β)] (1)
2.2 無(wú)效主題過(guò)濾
相似度平均值能夠從全局視角判斷主題與文本之間是否具有協(xié)同性[17],解決通過(guò)困惑度確定最優(yōu)主題數(shù)目可能導(dǎo)致無(wú)效主題出現(xiàn)的問(wèn)題?;诖?,使用Word2Vec的Skip-gram模型訓(xùn)練詞向量,計(jì)算主題與所有文本的相似度,生成相似度矩陣,然后計(jì)算主題與文本間相似度平均值,設(shè)定閾值,過(guò)濾相似度平均值低于閾值的主題,如公式(2)所示。
[AvgSim=1n(i=1nsim(tj,di))] (2)
其中,[AvgSim]是指主題與文本間的相似度平均值;[tj]是指第j個(gè)主題;[di]是指第i個(gè)文本;[sim(tj,di)]是指主題與文本間的相似度。
2.3 核心主題抽取
通過(guò)LDA提取的主題詞能夠概括對(duì)應(yīng)的主題,但由于LDA聚類出的主題對(duì)應(yīng)的詞簇具有泛化性的特點(diǎn),依靠人工從詞簇中提煉主題存在主觀性。因此,提出使用共現(xiàn)分析的方法識(shí)別關(guān)聯(lián)度和影響較大的主題詞,進(jìn)而發(fā)現(xiàn)最能準(zhǔn)確描述和概括數(shù)字人文的研究主題。其中主題詞共現(xiàn)強(qiáng)度如公式(3)所示[18]。
[Eij=S2ijSiSj] (3)
其中,[Eij]是指主題詞共現(xiàn)強(qiáng)度;[Si]與[Sj]是指主題詞在主題語(yǔ)句中出現(xiàn)的頻次;[Sij]是指兩個(gè)主題詞共現(xiàn)在主題語(yǔ)句中的數(shù)量。
3 數(shù)字人文領(lǐng)域文獻(xiàn)主題識(shí)別
3.1 數(shù)據(jù)獲取與預(yù)處理
首先,以“數(shù)字人文”為檢索詞對(duì)CNKI數(shù)據(jù)庫(kù)進(jìn)行檢索,截至2022年12月共檢索出文獻(xiàn)1938篇,剔除無(wú)效文獻(xiàn)后共計(jì)1886篇,從數(shù)據(jù)庫(kù)中導(dǎo)出文獻(xiàn)的篇名、摘要和關(guān)鍵詞;其次,對(duì)數(shù)據(jù)進(jìn)行清洗,提取3154個(gè)文獻(xiàn)關(guān)鍵詞作為特征詞表;最后,為進(jìn)一步提高主題識(shí)別的準(zhǔn)確度,防止研究、分析、目的等學(xué)術(shù)類無(wú)效詞的干擾,構(gòu)建面向數(shù)字人文領(lǐng)域的無(wú)效詞表。
3.2 最優(yōu)主題數(shù)目確定
基于分詞結(jié)果,計(jì)算主題的困惑度值[19],生成困惑度曲線。為防止過(guò)擬合,選取困惑度下降不明顯或處于拐點(diǎn)的值,確定最優(yōu)主題數(shù)目為28,如圖2所示。
3.3 LDA主題聚類
首先,使用LDA主題模型進(jìn)行主題聚類,生成主題-詞的分布;其次,使用文獻(xiàn)的篇名、摘要及關(guān)鍵詞來(lái)訓(xùn)練詞向量模型,基于公式(2)計(jì)算主題與每篇文本的相似度平均值,閾值設(shè)定為0.2,并進(jìn)行人工判讀,過(guò)濾無(wú)效主題[20],最終確定有效主題數(shù)目為20,LDA主題識(shí)別結(jié)果如表1所示。
3.4 核心主題抽取
首先,在主題-詞過(guò)濾的基礎(chǔ)上,基于公式(3)使用Python生成主題詞共現(xiàn)矩陣;其次,對(duì)“數(shù)字人文”等干擾詞進(jìn)行過(guò)濾及同義詞合并,最終得到大小為157*157的共現(xiàn)矩陣;最后,使用Ucinet軟件將共現(xiàn)矩陣轉(zhuǎn)成Pajek格式,導(dǎo)入VOSviewer分析軟件繪制出數(shù)字人文主題詞共現(xiàn)圖譜(見(jiàn)圖3),圓圈大小表示主題重要度,連線表示主題詞之間的交互關(guān)系。其中較大的圓圈諸如“數(shù)字人文項(xiàng)目”“人才培養(yǎng)”“信息技術(shù)”“學(xué)科”“歷史”“圖書(shū)館”“人工智能”等,表示這些主題詞被共現(xiàn)多次,同時(shí)這些主題詞也反映出國(guó)內(nèi)數(shù)字人文研究關(guān)注的熱點(diǎn)方向。
4 數(shù)字人文領(lǐng)域研究框架
通過(guò)對(duì)國(guó)內(nèi)數(shù)字人文領(lǐng)域文獻(xiàn)核心主題的識(shí)別,筆者抽取信息技術(shù)、數(shù)字藝術(shù)、文化遺產(chǎn)、歷史檔案、學(xué)科建設(shè)、人才培養(yǎng)6個(gè)主題,各主題之間相互支撐,并存在層次關(guān)系,形成了以信息技術(shù)為驅(qū)動(dòng),以數(shù)字藝術(shù)、文化遺產(chǎn)、歷史檔案等主要研究領(lǐng)域?yàn)閷W(xué)科建設(shè)突破口,以人才培養(yǎng)為最終目標(biāo)的國(guó)內(nèi)數(shù)字人文領(lǐng)域研究框架(見(jiàn)圖4),為我國(guó)數(shù)字人文領(lǐng)域研究提供了理論支撐。
4.1 信息技術(shù)
數(shù)字人文是人文探索與信息技術(shù)之間動(dòng)態(tài)對(duì)話的結(jié)果,因此信息技術(shù)是數(shù)字人文重要的驅(qū)動(dòng)[21]。如圖3所示,信息技術(shù)所涉及的核心主題包括圖書(shū)館、學(xué)術(shù)、特征、挑戰(zhàn)等,這些內(nèi)容在一定程度上解釋了數(shù)字人文如何從數(shù)字到意義,如何從量化的證據(jù)和對(duì)象轉(zhuǎn)變?yōu)殛P(guān)于人文學(xué)科的文化、文學(xué)、藝術(shù)的研究,并解決了當(dāng)下數(shù)字人文學(xué)科中激增的可視化需求等難題。(1)圖書(shū)館。以圖書(shū)館等機(jī)構(gòu)為代表,將數(shù)字人文作為實(shí)踐的新方向,圖書(shū)館憑借其獨(dú)特的優(yōu)勢(shì)融合信息技術(shù),能更好地為數(shù)字人文學(xué)科提供數(shù)字人文服務(wù)[22],如可以在數(shù)字人文專題信息服務(wù)、數(shù)字人文網(wǎng)絡(luò)基礎(chǔ)設(shè)施建設(shè)、跨學(xué)科橋梁建設(shè)、數(shù)字人文項(xiàng)目孵化器建設(shè)等方面展開(kāi)實(shí)踐[23]。(2)學(xué)術(shù)研究。數(shù)字人文研究本質(zhì)上是讓信息技術(shù)以一種更好的數(shù)字化方式重塑人文社科數(shù)據(jù)的意義價(jià)值。主要包括兩類:一類是基于統(tǒng)計(jì)的計(jì)量方法搭建數(shù)字人文通用平臺(tái)[24];另一類是利用機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、知識(shí)圖譜等方法針對(duì)各領(lǐng)域、各專業(yè)構(gòu)建合適的神經(jīng)網(wǎng)絡(luò)模型、圖解模型等,以挖掘人文資料語(yǔ)義信息、形成專業(yè)領(lǐng)域知識(shí)圖譜等,豐富了人文研究的內(nèi)容和工具,如人工智能技術(shù)在古籍整理領(lǐng)域廣泛應(yīng)用于開(kāi)展自動(dòng)標(biāo)注、自動(dòng)校勘、自動(dòng)注釋等工作[25]。(3)特征與挑戰(zhàn)。大數(shù)據(jù)、人工智能等信息技術(shù)有利于活化圖書(shū)館館藏資源,促進(jìn)圖書(shū)館提供更加智慧化的服務(wù),并輔助人文學(xué)科開(kāi)展研究。通常數(shù)字人文研究中會(huì)出現(xiàn)具有歷史一致性但缺乏語(yǔ)義連貫性的詞組,或者是具有語(yǔ)義連貫性但具有非歷史關(guān)系的語(yǔ)義場(chǎng)的情況。因此,數(shù)字人文研究在注重研究范式的同時(shí),需要警惕不能忽視人文專業(yè)知識(shí),應(yīng)平衡好研究問(wèn)題與信息技術(shù)之間的關(guān)系。
4.2 數(shù)字藝術(shù)
數(shù)字藝術(shù)是指依托數(shù)據(jù)挖掘和計(jì)算方法對(duì)原始的藝術(shù)歷史文物等資源展開(kāi)研究,以期用全新的方式揭示其特征,并促使從事藝術(shù)學(xué)研究的學(xué)者對(duì)數(shù)字化藝術(shù)呈現(xiàn)方式的重新定位、思索和發(fā)現(xiàn)。通過(guò)圖3可以看出,數(shù)字藝術(shù)所涉及的核心主題包括藝術(shù)、知識(shí)、人工智能等,反映出藝術(shù)學(xué)作為八大學(xué)科門類之一,隨著新文科政策的推動(dòng)及以人工智能技術(shù)為代表的數(shù)字技術(shù)發(fā)展,所衍生的數(shù)字藝術(shù)成為其與計(jì)算機(jī)科學(xué)類學(xué)科交叉研究的熱點(diǎn)。以圖像藝術(shù)分析和計(jì)算機(jī)生成藝術(shù)為例,圖像藝術(shù)分析是指將數(shù)據(jù)挖掘和可視化技術(shù)引入傳統(tǒng)的藝術(shù)分析領(lǐng)域,從而借助數(shù)字技術(shù)實(shí)現(xiàn)新的藝術(shù)價(jià)值,如構(gòu)建特定領(lǐng)域藝術(shù)數(shù)據(jù)庫(kù);計(jì)算機(jī)生成藝術(shù)是指以藝術(shù)數(shù)據(jù)為驅(qū)動(dòng),從事藝術(shù)學(xué)研究的學(xué)者借助人工智能等數(shù)字技術(shù)實(shí)現(xiàn)藝術(shù)創(chuàng)作[26]。可見(jiàn)數(shù)字藝術(shù)實(shí)現(xiàn)了人工智能技術(shù)與藝術(shù)的深度融合,搭建了藝術(shù)學(xué)家和計(jì)算機(jī)科學(xué)家之間的橋梁,進(jìn)而豐富了數(shù)字人文研究?jī)?nèi)容。此外,數(shù)字技術(shù)的使用還需以尊重藝術(shù)為前提,重視藝術(shù)學(xué)研究的理論和范式。如,隨著元宇宙的興起,各類數(shù)字藏品程序?yàn)槿藗儌鞒形幕洃涀髌泛蛣?chuàng)作人文藝術(shù)提供方便,但同時(shí)僅依托技術(shù)呈現(xiàn)的作品藝術(shù)價(jià)值參差不齊,嚴(yán)重影響人們的審美取向。因此,數(shù)字藝術(shù)研究應(yīng)以藝術(shù)學(xué)研究為導(dǎo)向,以藝術(shù)學(xué)和計(jì)算機(jī)科學(xué)資源為依托,在進(jìn)行知識(shí)重構(gòu)和增強(qiáng)藝術(shù)的同時(shí)確保藝術(shù)價(jià)值。
4.3 文化遺產(chǎn)
《“十四五”規(guī)劃和2035年遠(yuǎn)景目標(biāo)綱要》明確指出要推動(dòng)中華優(yōu)秀傳統(tǒng)文化創(chuàng)造性轉(zhuǎn)化、創(chuàng)新性發(fā)展。文化遺產(chǎn)是中華優(yōu)秀傳統(tǒng)文化的重要組成,開(kāi)展文化遺產(chǎn)數(shù)字人文研究為弘揚(yáng)優(yōu)秀傳統(tǒng)文化提供了契機(jī)。從圖3可以看出,文化遺產(chǎn)所涉及的核心主題包括數(shù)字人文項(xiàng)目、強(qiáng)化、閱讀等,反映出文化遺產(chǎn)數(shù)字人文研究主要以數(shù)字人文項(xiàng)目為成果導(dǎo)向,由文化遺產(chǎn)專家主導(dǎo),以文化遺產(chǎn)為特定研究對(duì)象,運(yùn)用數(shù)字人文技術(shù)、方法與理論的綜合性、跨學(xué)科研究活動(dòng)[27],以實(shí)現(xiàn)從傳統(tǒng)的單人模式向協(xié)作生產(chǎn)項(xiàng)目的數(shù)字化轉(zhuǎn)型[16]。數(shù)字人文項(xiàng)目是開(kāi)展數(shù)字人文服務(wù)最重要的實(shí)現(xiàn)途徑之一,也是數(shù)字人文領(lǐng)域?qū)W者開(kāi)展研究的重要組成部分[28]。文化遺產(chǎn)作為數(shù)字人文項(xiàng)目的重要組成部分,對(duì)文化傳播和文化傳承起到助推作用。如馮惠玲[29]以“北京記憶·雙奧之城”數(shù)字展廳的建設(shè)為例,探討“雙奧”遺產(chǎn)數(shù)字化保存與傳播的應(yīng)用落地,以實(shí)現(xiàn)把燦爛悠久的中華文化呈現(xiàn)給世界,也把偉大的奧林匹克精神映照給中國(guó)。從整體上看,國(guó)內(nèi)文化遺產(chǎn)數(shù)字人文項(xiàng)目發(fā)展迅速,并且具備跨學(xué)科、跨機(jī)構(gòu)、跨區(qū)域特征的合作性項(xiàng)目開(kāi)始顯現(xiàn)[30],但國(guó)內(nèi)數(shù)字人文項(xiàng)目的開(kāi)展主要以高校、圖書(shū)館、美術(shù)館、博物館等為中心。為更好地促進(jìn)文化遺產(chǎn)知識(shí)整合與資源建設(shè),未來(lái)應(yīng)由文化遺產(chǎn)專業(yè)學(xué)者牽頭,廣泛聯(lián)合企業(yè)及相關(guān)領(lǐng)域團(tuán)體共同開(kāi)展文化遺產(chǎn)數(shù)字人文項(xiàng)目,吸引更多的國(guó)內(nèi)外資源注入數(shù)字人文建設(shè)中,同時(shí)依托人文社科各個(gè)專業(yè)領(lǐng)域資源,以響應(yīng)國(guó)家文化強(qiáng)國(guó)戰(zhàn)略為目標(biāo),探索更多可持續(xù)發(fā)展的文化遺產(chǎn)數(shù)字人文項(xiàng)目。
4.4 歷史檔案
歷史檔案資源是我國(guó)歷史文化遺產(chǎn)的重要組成部分,也是我國(guó)珍貴的歷史憑證,具有重要的史料價(jià)值和情報(bào)價(jià)值,因此成為數(shù)字人文研究重要的對(duì)象和資源[31]。如圖3所示,歷史檔案所涉及的核心主題包括歷史、檔案館、回顧、視野、保護(hù)、路徑等,反映了在數(shù)字人文背景下檔案館成為開(kāi)展數(shù)字人文研究的重要平臺(tái),數(shù)字人文的信息技術(shù)賦能傳統(tǒng)檔案館的數(shù)字化建設(shè):歷史檔案資源整理與開(kāi)發(fā)逐漸多元化[32],拓展了歷史檔案資源對(duì)象范圍[33],為歷史檔案資源知識(shí)聚合與知識(shí)發(fā)現(xiàn)研究提供有力地工具支撐,能夠更加真實(shí)地還原歷史、回顧歷史及擴(kuò)大視野,同時(shí)也為歷史檔案資源提供了新的保護(hù)路徑。當(dāng)下數(shù)字人文背景下歷史檔案研究主要圍繞歷史檔案資源庫(kù)建設(shè)[34]、歷史檔案資源的數(shù)字化整理[35]、口述歷史檔案資源知識(shí)圖譜構(gòu)建[36]等展開(kāi),隨著歷史檔案資源的多元、異構(gòu)及其知識(shí)化服務(wù)需求不斷提高,元數(shù)據(jù)標(biāo)記與注釋等數(shù)據(jù)的結(jié)構(gòu)化整理與開(kāi)發(fā)工作的難度也在不斷增加。因此,未來(lái)應(yīng)以服務(wù)需求為導(dǎo)向,優(yōu)化數(shù)字化技術(shù)體系,提高歷史檔案資源整理與開(kāi)發(fā)的深度;以元宇宙虛擬空間為代表,形成多元化、多場(chǎng)景的歷史檔案資源數(shù)字化成果展示,促進(jìn)歷史檔案資源的開(kāi)發(fā)與利用。
4.5 學(xué)科建設(shè)
國(guó)內(nèi)高校以信息資源管理學(xué)科為發(fā)展基礎(chǔ),通過(guò)設(shè)立數(shù)字人文學(xué)位或開(kāi)展數(shù)字人文課程確定數(shù)字人文的學(xué)科屬性。中國(guó)人民大學(xué)率先在信息資源管理一級(jí)學(xué)科下設(shè)置了我國(guó)第一個(gè)數(shù)字人文二級(jí)學(xué)科學(xué)術(shù)型博士點(diǎn),旨在促進(jìn)雙一流建設(shè),立足學(xué)科前沿,助力學(xué)科轉(zhuǎn)型,引領(lǐng)國(guó)內(nèi)數(shù)字人文新興學(xué)科建設(shè),創(chuàng)新人才培養(yǎng),提升學(xué)生綜合素質(zhì)。國(guó)內(nèi)很多開(kāi)展數(shù)字人文二級(jí)學(xué)科建設(shè)的院校以數(shù)字藝術(shù)、文化遺產(chǎn)、歷史檔案等主要研究領(lǐng)域?yàn)榫唧w研究方向,而開(kāi)展數(shù)字人文學(xué)科建設(shè)還需要充分考慮其學(xué)科特征。通過(guò)圖3可以看出,數(shù)字人文學(xué)科特征所涉及的核心主題包括學(xué)科、協(xié)同、全球、核心、變化、超越、轉(zhuǎn)型等,反映出數(shù)字人文跨學(xué)科的典型特征。具體體現(xiàn)在:(1)協(xié)同性。一方面指學(xué)科間的協(xié)同性,數(shù)字人文研究的內(nèi)容以尊重各學(xué)科基礎(chǔ)的屬性為前提和核心,將數(shù)字人文學(xué)科發(fā)展的根本問(wèn)題聚焦于人文學(xué)科本身的學(xué)科身份,對(duì)數(shù)字人文學(xué)科從理解逐漸上升到解釋的水平[6],同時(shí)注重學(xué)科之間相互協(xié)同、共同參與。有學(xué)者對(duì)數(shù)字人文類國(guó)家社科重大項(xiàng)目進(jìn)行分析,結(jié)果呈現(xiàn)出明顯的跨學(xué)科特征,涵蓋人文社會(huì)科學(xué)領(lǐng)域和自然科學(xué)領(lǐng)域相關(guān)學(xué)科[37]。另一方面指人文與技術(shù)的協(xié)同性。北京大學(xué)圖書(shū)館開(kāi)設(shè)“數(shù)字人文工作坊”,就人文和技術(shù)的某些專題進(jìn)行交流和討論,旨在豐富人文社會(huì)科學(xué)領(lǐng)域師生的相關(guān)知識(shí)、擴(kuò)展人文社會(huì)科學(xué)領(lǐng)域和信息科學(xué)領(lǐng)域師生對(duì)彼此研究領(lǐng)域的興趣,并促進(jìn)二者的互動(dòng)與跨界融合。(2)跨區(qū)域性。全球化視野是數(shù)字人文學(xué)科的典型特征,一方面,是活化傳統(tǒng)文化資源、講好中國(guó)故事、弘揚(yáng)中華優(yōu)秀傳統(tǒng)文化的需要;另一方面,對(duì)接國(guó)際數(shù)字人文交流有利于培養(yǎng)具備互聯(lián)網(wǎng)思維、數(shù)據(jù)分析能力、跨學(xué)科知識(shí)背景的研究和教學(xué)的復(fù)合型人才[38]。
4.6 人才培養(yǎng)
人才培養(yǎng)是數(shù)字人文發(fā)展與建設(shè)的最終目標(biāo),同時(shí)數(shù)字人文人才培養(yǎng)符合新文科建設(shè)的人才需求定位,是對(duì)新文科人才建設(shè)方針的具體落實(shí)[39]。通過(guò)圖3可以看出,數(shù)字人文人才培養(yǎng)所涉及的核心主題包括高校、整合、深化等,表明數(shù)字人文人才培養(yǎng)主要以高校學(xué)科資源為依托,強(qiáng)調(diào)在人文學(xué)科專業(yè)性的基礎(chǔ)上培養(yǎng)具有較高人文素養(yǎng)、數(shù)據(jù)分析能力、信息技術(shù)能力及信息資源管理能力的復(fù)合型創(chuàng)新人才。具體體現(xiàn)在:(1)教育創(chuàng)新與實(shí)踐。2021年11月,教育部辦公廳發(fā)布《關(guān)于公布首批新文科研究與改革實(shí)踐項(xiàng)目的通知》,來(lái)自全國(guó)高校的1011個(gè)項(xiàng)目入選首批新文科研究與實(shí)踐項(xiàng)目,包括政產(chǎn)學(xué)研協(xié)同育人機(jī)制創(chuàng)新與實(shí)踐、文科復(fù)合型人才培養(yǎng)創(chuàng)新與實(shí)踐等,旨在培養(yǎng)運(yùn)用數(shù)字人文研究范式思考并解決人文社科研究問(wèn)題的跨學(xué)科人才,標(biāo)志著我國(guó)高校新文科建設(shè)和數(shù)字人文建設(shè)進(jìn)入了實(shí)施階段[40]。由南京大學(xué)與中國(guó)索引學(xué)會(huì)主辦的“時(shí)代經(jīng)緯:邁向新文科的數(shù)字人文”學(xué)術(shù)研討會(huì)中,除了開(kāi)展學(xué)術(shù)交流外,開(kāi)創(chuàng)性地設(shè)置了“數(shù)字人文開(kāi)放數(shù)據(jù)創(chuàng)新研究大賽”[41]。(2)學(xué)術(shù)平臺(tái)搭建。高校依托校內(nèi)圖書(shū)館、計(jì)算機(jī)學(xué)科、人文學(xué)科等資源,并融合業(yè)界資源陸續(xù)成立了數(shù)字人文研究中心,形成培養(yǎng)數(shù)字人文人才的重要趨勢(shì)。繼2011年武漢大學(xué)成立國(guó)內(nèi)第一個(gè)數(shù)字人文研究中心之后,北京大學(xué)、清華大學(xué)、南京大學(xué)、中國(guó)人民大學(xué)等高校也陸續(xù)成立數(shù)字人文研究中心,這些研究中心的創(chuàng)建與應(yīng)用是促進(jìn)我國(guó)數(shù)字人文人才培養(yǎng)的組織保障。上述舉措,為培養(yǎng)數(shù)字人文人才起到了引領(lǐng)和示范作用,同時(shí)揭示了當(dāng)下數(shù)字人文發(fā)展面對(duì)的挑戰(zhàn)和亟須解決的問(wèn)題——培養(yǎng)技術(shù)與學(xué)術(shù)能力兼?zhèn)涞膶W(xué)科專業(yè)人才、構(gòu)建多學(xué)科交叉的課程體系、打造學(xué)科交叉的學(xué)術(shù)團(tuán)體等。
筆者以CNKI數(shù)據(jù)庫(kù)為數(shù)據(jù)源,綜合使用LDA主題模型、Word2Vec及共現(xiàn)分析方法對(duì)數(shù)字人文研究文獻(xiàn)的篇名、摘要和關(guān)鍵詞進(jìn)行抽取,得到6個(gè)主題,形成以信息技術(shù)為驅(qū)動(dòng),以數(shù)字藝術(shù)、文化遺產(chǎn)、歷史檔案等主要研究領(lǐng)域?yàn)閷W(xué)科建設(shè)突破口,以人才培養(yǎng)為最終目標(biāo)的國(guó)內(nèi)數(shù)字人文領(lǐng)域研究框架,旨在為國(guó)內(nèi)數(shù)字人文領(lǐng)域研究提供理論支撐。該研究框架是面向數(shù)字人文動(dòng)態(tài)發(fā)展過(guò)程研究的參考框架,具有可調(diào)節(jié)性。隨著數(shù)字人文研究的不斷推進(jìn),可逐步完善數(shù)字人文領(lǐng)域研究框架,以服務(wù)國(guó)家數(shù)字人文建設(shè)。因此,筆者的貢獻(xiàn)有兩點(diǎn):一是創(chuàng)建了一種用于數(shù)字人文領(lǐng)域文獻(xiàn)主題識(shí)別的方法,通過(guò)LDA主題聚類和共現(xiàn)分析能夠有效提取國(guó)內(nèi)數(shù)字人文研究的重點(diǎn)主題;二是形成了國(guó)內(nèi)數(shù)字人文領(lǐng)域基于文獻(xiàn)研究的框架,為我國(guó)數(shù)字人文領(lǐng)域研究提供理論支撐。
參考文獻(xiàn):
[1] 教育部新文科建設(shè)工作組.《新文科建設(shè)宣言》[EB/OL].[2023-04-20].http://www.moe.gov.cn/jyb_xwfb/gzdt_gzd
t/s5987/202011/t20201103_498067.html.
[2] 蔡迎春.數(shù)字人文評(píng)價(jià):學(xué)科性、專業(yè)性、技術(shù)性[J].中國(guó)圖書(shū)館學(xué)報(bào),2021(4):86-96.
[3] 劉煒,葉鷹.數(shù)字人文的技術(shù)體系與理論結(jié)構(gòu)探討[J].中國(guó)圖書(shū)館學(xué)報(bào),2017(5):32-41.
[4] 蔡迎春,嚴(yán)丹,王健.基于“共享場(chǎng)景”的數(shù)字人文實(shí)驗(yàn)室建設(shè)[J].圖書(shū)館雜志,2022(11):94-103,113.
[5] 柯平,宮平.數(shù)字人文研究演化路徑與熱點(diǎn)領(lǐng)域分析[J].中國(guó)圖書(shū)館學(xué)報(bào),2016(6):13-30.
[6] 李晚蓮,田俊欽.國(guó)際數(shù)字人文領(lǐng)域研究前沿探測(cè)與發(fā)展趨勢(shì)分析:基于詞嵌入和主題建模技術(shù)[J].高校圖書(shū)館工作,2021(3):22-28.
[7] 魯國(guó)軒,楊冠燦,宋欣.圖情領(lǐng)域數(shù)字人文文獻(xiàn)識(shí)別與分類方法研究[J].情報(bào)科學(xué),2022(9):154-158,192.
[8] Fangli S,Yin Z. Research output, intellectual structures and contributors of digital humanities research: a longitudinal analysis 2005—2020[J].Journal of Documentation, 2022(3):673-695.
[9] Soohyung J,Jennifer H,Marie K. Exploring the digital humanities research agenda: a text mining approach[J]. Journal of Documentation, 2022(4): 853-870.
[10] 王麗華,劉煒,劉圣嬰.數(shù)字人文的理論化趨勢(shì)前瞻[J].中國(guó)圖書(shū)館學(xué)報(bào),2020(3):17-23.
[11] 唐江浩,盧章平,蘇文成.人文學(xué)者數(shù)字學(xué)術(shù)能力理論框架構(gòu)建研究——基于數(shù)字人文視角[J].圖書(shū)館,2020(11):47-55.
[12] 左娜,張衛(wèi)東.數(shù)字人文多主體共生分析框架及其關(guān)鍵問(wèn)題[J].情報(bào)理論與實(shí)踐,2021(1):96-101.
[13] 饒梓欣,許鑫.數(shù)字人文項(xiàng)目管理框架構(gòu)建研究[J].圖書(shū)館論壇,2022(11):122-131.
[14] Blei, M.D. Probabilistic topic models[J]. Communications of the ACM, 2012(4):77-84.
[15] Blei, M.D, Ng, YA,Jordan I M. Latent Dirichlet allocation[J].Journal of Machine Learning Research,2003(3):993-1022.
[16] Mikolov T, et al. Distributed representations of words and phrases and their compositionality[J].CORR,2013,abs/1310.4546.
[17] 張濤,馬海群.我國(guó)大數(shù)據(jù)政策主題分析及發(fā)展動(dòng)向研判[J].情報(bào)理論與實(shí)踐,2022(3):72-80.
[18] 張濤,馬海群.基于政策文本計(jì)算的開(kāi)放數(shù)據(jù)與數(shù)據(jù)安全政策協(xié)同研究[J].情報(bào)理論與實(shí)踐,2020(6):149-155,141.
[19] LTG,Mark S. Finding scientific topics[J].Proceedings of the National Academy of Sciences of the United States of American,2004(6):5228-5235.
[20] Jiang L,Zhang T,Huang T.Empirical Research of Hot Topic Recognition and its Evolution Path Method for Scientific and Technological Literature[J].Journal of Advanced Computational Intelligence and Intelligent Informatics, 2022(3):299-308.
[21] Wang Q. Distribution features and intellectual structures of digital humanities A bibliometric analysis[J]. Journal of Documentation, 2018(1): 223-246.
[22] Wong S H R. Digital Humanities: What Can Libraries Offer?[J].Portal:Libraries and the Academy,2016(4):669-690.
[23] 朱本軍,聶華.數(shù)字人文:圖書(shū)館實(shí)踐的新方向[J].大學(xué)圖書(shū)館學(xué)報(bào),2017(4):23-29.
[24] 王麗華,劉煒.助力與借力:數(shù)字人文與新文科建設(shè)[J].南京社會(huì)科學(xué),2021(7):130-138.
[25] 韓業(yè)庭.當(dāng)古籍修復(fù)遇上人工智能[N].光明日?qǐng)?bào),2022-04-11(009).
[26] 金家琴,夏翠娟.數(shù)字人文在視覺(jué)化藝術(shù)領(lǐng)域的應(yīng)用前沿——圖像藝術(shù)分析與計(jì)算機(jī)生成藝術(shù)[J].圖書(shū)館雜志,2021(6):101-109,132.
[27] 胡娟,柯平.我國(guó)文化遺產(chǎn)數(shù)字人文研究的推進(jìn)策略分析[J].圖書(shū)館雜志,2023(4):78-87,140-145.
[28] 歐陽(yáng)劍,蔡迎春,王健.數(shù)字人文項(xiàng)目可持續(xù)性研究[J].圖書(shū)館雜志,2021(11):90-98,116.
[29] 馮惠玲,任瑾,陳怡.北京“雙奧”遺產(chǎn)的數(shù)字化保存與傳播[J].圖書(shū)情報(bào)知識(shí),2022(3):22-31.
[30] 沈立力,等.漢語(yǔ)語(yǔ)境下數(shù)字人文項(xiàng)目分析與啟示——2020年數(shù)字人文年會(huì)(DH2020)項(xiàng)目評(píng)選綜述[J].圖書(shū)情報(bào)工作,20215(24):4-17.
[31] 李子林,王玉鈺,龍家慶.數(shù)字人文與檔案工作的關(guān)系探討[J].浙江檔案,2018(7):13-16.
[32] 楊茜茜.數(shù)字人文視野下的歷史檔案資源整理與開(kāi)發(fā)路徑探析——兼論檔案管理中的歷史主義與邏輯主義思想[J].檔案學(xué)通訊,2019(2):17-22.
[33] 加小雙,姚靜.數(shù)字人文賦能檔案資源體系建設(shè):機(jī)制與路徑[J].山西檔案,2022(3):19-27.
[34] 陳宇.古籍?dāng)?shù)字人文平臺(tái)對(duì)民國(guó)檔案開(kāi)放利用的借鑒意義[J].檔案管理,2021(3):88-89,91.
[35] 梁繼紅.走向文本的歷史檔案數(shù)字整理:歷史追溯與時(shí)代轉(zhuǎn)型(上)[J].檔案學(xué)通訊,2021(5):95-103.
[36] 鄧君,王阮.口述歷史檔案資源知識(shí)圖譜與多維知識(shí)發(fā)現(xiàn)研究[J].圖書(shū)情報(bào)工作,2022(7):4-16.
[37] 趙宇翔,練靖雯.數(shù)字人文類國(guó)家社科基金重大項(xiàng)目的學(xué)科屬性與合作特征[J].圖書(shū)館論壇,2022(1):102-116.
[38] 南京大學(xué)高研院數(shù)字人文創(chuàng)研中心.“數(shù)字人文”國(guó)際合作聯(lián)盟計(jì)劃[EB/OL].[2023-04-20].https://digitalhumanities.nju.edu.cn.
[39] 王濤.從人才培養(yǎng)看數(shù)字人文對(duì)新文科的引領(lǐng)[EB/OL].[2023-04-20].https://baijiahao.baidu.com/s?id=167623
3971652957778amp;wfr=spideramp;for=pc.
[40] 中華人民共和國(guó)教育部.教育部辦公廳關(guān)于公布首批新文科研究與改革實(shí)踐項(xiàng)目的通知[EB/OL]. [2023-04-20].http://www.moe.gov.cn/srcsite/A08/moe_741/202111/t20211110_578852.html.
[41] 彭韻筑,王潤(rùn)琦.邁向新文科的數(shù)字人文——第三屆中國(guó)數(shù)字人文大會(huì)綜述[J].數(shù)字人文研究,2022(1):3-12.
冷雪卓 女,1982年生。碩士研究生在讀,副研究館員。研究方向:數(shù)字圖書(shū)館與圖書(shū)館管理。
張 濤 男,1981年生。博士,教授,碩士生導(dǎo)師。研究方向:政策文本計(jì)算與數(shù)據(jù)分析。系本文通訊作者。
崔文波 男,1998年生。碩士研究生在讀。研究方向:文本分析與知識(shí)發(fā)現(xiàn)。
(收稿日期:2023-04-23;責(zé)編:劉曉霞。)