黃水清 劉瀏 王東波
摘? ?要:計算人文經歷了半個多世紀的發(fā)展,在名詞、定義、指代方面亟需明確形成規(guī)范,并使這一交叉領域在當前發(fā)展階段更加凸顯計算的價值和重要性。文章對計算人文相關表述進行了再討論,明確了“計算人文”這一表述的優(yōu)勢,闡明了計算人文的研究對象、研究問題和研究方法,厘清了計算人文的學科內涵,分析了計算人文在國家戰(zhàn)略、信息資源管理學科更名以及新文科建設中面臨的機遇和使命,并以計算語言學、計算史學、計算文獻學、計算文學等學科為例闡述了計算人文學科體系的構成。計算人文學科由眾多形如“計算X”的子學科組成,各個“X”可分別對應于某個具體的人文學科。
關鍵詞:計算人文;數字人文;信息資源管理;新文科;知識庫
中圖分類號:G252? ?文獻標識碼:A? ?DOI:10.11968/tsyqb.1003-6938.2023001
Abstract Computational humanities has experienced more than half a century of development, and it is urgent to gradually clarify and form norms in terms of nouns, definitions, and references, and to highlight the value and importance of computing in this interdisciplinary at the current stage of development. This article discussed several related expressions including digital humanities and computational humanities, and clarified the advantages of computational humanities as an expression. Focusing on the objects, issues and methods, with clarification on the subject connotation, this study analyzes the opportunities of computational humanities in national strategy, subject renaming of IRM, and new liberal arts construction. Taking computational linguistics, computational history, computational philology, and computational literature as examples, this article explained and formed a system of computational humanities as a discipline which is composed of many sub-disciplines in the form of "computational X", and each "X" can correspond to a specific disciplines in humanities.
Key words computational humanities; digital humanities; information resource management; new liberal arts; knowledge base
計算人文的產生源于“計算”與“人文”的碰撞與交叉。布薩的經典研究——阿奎那語詞索引證實了開展“計算”與“人文”交叉研究的可行性,也提示了計算人文的研究對象及研究問題。計算人文產生之初未必以“計算人文”一詞示人,還有若干與“計算人文”指代相近的術語見之于學術文獻,它們均揭示了計算方法、信息技術與人文研究的關聯(lián)及潛在價值。計算方法、信息技術起初僅是作為新的研究視角與方法被引入人文學科的研究,但在發(fā)展過程中既受到不斷涌現的新技術的促進與推動,也不可避免地接受了人文學科理念、思潮的浸潤與影響,逐漸積累起穩(wěn)定的對象領域、常用的技術方法、共同的研究目標等學科屬性。與其他新興學科領域的發(fā)展過程類似,正是在自我革新與持續(xù)演進過程中,計算人文夯實了發(fā)展基礎、增強了學科屬性。經過半個多世紀的發(fā)展,如今作為學科的計算人文已初見雛形。
值此學科變革之際,新方法引入、多學科交叉、新領域拓展已成為學科發(fā)展常態(tài)。在人文社科領域,以文理交叉為主要內容,以自然科學方法尤其是信息技術、定量分析等研究方法的引入為主要特征的新文科建設方興未艾。計算人文學科體系的發(fā)展與完善恰逢其時。2022年9月,醞釀已久的新版學科目錄正式公布,“圖書情報與檔案管理”一級學科正式更名為“信息資源管理”。在學科更名過程中,學界也多次討論了信息資源管理學科的內涵與外延拓展,計算人文或將以數字人文的表達方式成為信息資源管理下的二級學科,躋身于新增學科之列。同時,爭論、搖擺甚至偏差也一直伴隨著計算人文的發(fā)展歷程。為此,本文將回顧計算人文及相關表述的沿革與變遷,探討計算人文的對象領域、學科問題與研究方法,分析計算人文的時代機遇與責任,勾勒計算人文的學科體系,拋磚引玉,求教方家,以期促進計算人文以及信息資源管理學科的建設發(fā)展。
1? ?計算人文及相關概念
2004年,布薩提出了“人類表達”(Human Expression)[1]的概念,并認為廣義上人文計算是對人類表達的各種可能的分析方法的自動化。但是布薩并未對人類表達給出明確的定義,只是認為人類表達是一種“精致的人文活動”,并列舉了音樂、戲劇、設計、繪圖四種人類表達形式。
要明確計算人文的定義與指代,首先需要對“人類表達”這一關鍵性概念給出明確的定義。對“人類表達”可以這樣定義:所謂“人類表達”,就是以符號系統(tǒng)記錄和呈現的人類人文活動。而計算人文,則以人類表達為對象,將計算方法及信息技術應用于諸如文學、史學、哲學、語言學、文獻學、音樂藝術等傳統(tǒng)的人文學科領域,融合數據、計算與人文,拓展人文學科知識生產、知識呈現、知識傳播方式,目的為促進人文學科的發(fā)展。計算人文通過對人文學科領域相關數據的計算與挖掘,發(fā)現采用傳統(tǒng)方法或無法得出或較難得出或難于呈現的觀點與線索,彌補了傳統(tǒng)人文學科在研究方法、研究對象等方面存在的不足,并使得人文學科的相關研究具有過程可重復、數據可驗證、方法可復用、結論可推廣等自然科學方面的特性,有利于人文學科的教學、研究及成果的推廣普及,同時也促進了人文精神對技術方法的批判與滲透[2-3]。計算人文是技術與人文融合而產生的新興學科,既能幫助相關人士掌握人文學科領域傳統(tǒng)文獻閱讀、田野調查等途徑無法獲得的數據與知識(即回答“是什么”),也能分析挖掘并呈現數據與數據、知識與知識之間隱含的聯(lián)系與規(guī)律(即回答“為什么”)。
實際上,用于表述計算與人文交叉融合研究的術語十分繁雜,在相關研究論文能檢索到的術語不下10個,其中部分術語在學術界使用較為頻繁、具有較大的影響力。除了近年來火爆的“數字人文”一詞外,“人文計算”[4-6]、“計算機與人文”、“文學和語言計算”[7]等術語都曾成為一時之選,其他如“人文中的計算機”[8-9]、“人文中的計算”[10]、“量子人文”[11-12]、“人文中的計算機輔助解釋”[13]等也具備了一定的代表性,本文列舉了較為重要的5個相關表述的出現時間及應用情況(見表1)。從流傳度的角度來看,這些表述雖然各領風騷十數年,但其變遷與沿革并不是簡單的替代關系[14]。
從表1可知,各個術語表達形式上雖然存在不同,其實際含義卻多有重合或基本類似。不論如何變化,計算人文及相關術語的指代本質上始終不變,即計算與人文的交叉融合、具有人文學科屬性的交叉研究,其目標均為搭建“計算”“數據”與“人文”之間的橋梁,其關注的研究對象、采用的研究方法基本一致。其中,計算人文、人文計算、數字人文的詞形與字面意思最為接近,區(qū)別僅在于側重點有所不同。詞匯使用的區(qū)別既反映了研究者對這一交叉領域概念理解的細微差別,也在一定程度上折射出計算機技術發(fā)展的時代特點,同時也體現了各時代的研究者對于該交叉領域的理解和對其發(fā)展的追求。
“計算人文”一詞最早見諸于國內學術文獻是2021年[3,15],遠比“數字人文”晚,但出現在國外文獻中實際上反而早于“數字人文”[16]。國外學術文獻中與“計算人文”類似的概念出現的場景比較復雜,涵義也不是非常明確,術語呈現具有不一性,不過基本上都是在討論計算機技術與人文研究交叉的問題[17-18]?!坝嬎闳宋摹钡挠⑽谋硎龀酥苯訉腃omputational Humanities、Computing Humanities兩種形式外,還有許多其他表述。McCarty撰文分析相關概念時所提及的Computing the Humanities[19]、Computing Humanists[20]和Computing in the Humanities[4]等表述,實際上都指向計算人文。其實,如果僅僅站在語義的角度Computing in the Humanities表意更準確,只是作為一個詞組若是用作學科名詞會影響傳播。
從術語的流行度來看,“數字人文”近20年來無論在學界或大眾傳播領域的使用頻度都遠高于“計算人文”,這可能源于“數字人文”一詞通俗易懂,且在數字時代具有天然的傳播效應。但“數字”一詞存在語義含混的問題,實際使用時必須明確其指代以免產生歧義,同時“數字人文”對當下計算機前沿技術的表達也明顯不足。理想的術語應符合概念、語符和交際三個維度的綜合要求,即概念明晰,具備系統(tǒng)性,語符簡明,具備規(guī)范性,交際有效,具備理解性。選用更準確的表述有利于學科發(fā)展,“計算人文”在當下無疑更能滿足以上對術語的基本要求。在直觀的淺語義層面,“計算人文”準確地表達了“人文為對象和問題,計算為方法”的內涵,與“人類表達為對象,融合數據、計算與人文”的深層語義不會產生偏差,作為學術和學科名稱也更為貼切。“數字人文”因其傳播效應與大眾接受度也可以使用,但須明了其準確的語義,避免理解方面的歧義。未來有必要從術語內譯和外譯的角度對“計算人文”術語的內涵、外延及演化展開更深入地討論。
2? ?計算人文的對象、問題與方法
計算人文蘊含了“人類表達為對象,融合數據、計算與人文”的深層語義和內涵。理解這一概念的關鍵在于正確把握計算與人文兩者的關聯(lián)和地位,界定計算人文的對象、問題和方法,明確其與傳統(tǒng)人文研究的實質區(qū)別,在此基礎上才能準確清晰地定義計算人文的目標與框架。
2.1? ? 以人類表達為對象
以符號系統(tǒng)記錄和呈現的人文活動只是人文活動兩個組成部分的其中之一,人類人文活動的另外一個組成部分是無法以符號系統(tǒng)記錄和呈現的人文活動,如展示、演出、田野調查以及未被記錄的個體理解、體驗、感悟、審美等。作為計算人文對象的人類表達,僅指以符號系統(tǒng)記錄和呈現的人類人文活動。布薩還認為,文本是人類表達的主要形態(tài)[1]。
以人類表達為對象,就是以呈現為符號形態(tài)的人類人文活動為對象。在以符號系統(tǒng)記錄和呈現的人類表達的各種形態(tài)中,以人類自然語言書寫的文本是人類表達最主要的形態(tài),除此之外還有圖像、音頻、視頻、數值等形態(tài)。為方便起見,在不引起歧義的前提下,以人類表達為對象也可簡便稱之為以人文為對象。即,雖然計算人文的對象僅為以符號形態(tài)記錄并呈現的人類人文活動,實際上并不包括人類人文活動中未以符號形態(tài)記錄并呈現的部分,但為簡捷起見,可粗略地稱之為以人文為對象。
以文本形態(tài)的人類表達作為計算人文的主要對象,與人文研究的對象形態(tài)分布是一致的。人文研究的對象多為文本形態(tài),如文本語言、歷史典籍、文藝作品等。實際上,人文研究所關注的文本語言、歷史典籍和文藝作品等對象,其載體形式在歷史上也經歷了多次變化,從甲骨、金石到竹簡、絹帛,再到印刷術發(fā)明后的紙張、書籍,進而發(fā)展到當前的數字形態(tài),人文研究對象的載體形態(tài)演進伴隨著整個人類文明發(fā)展的過程。當前,人文對象的載體形態(tài)已發(fā)展到以數字方式存儲的文本,針對人文的計算成為可能。技術的進步改變了人文對象的外部特征,雖然當代的人文對象多以數字化或數據化的方式呈現,但載體的變化并未改變其人文特性,計算人文關注的仍然是符號化表達的人文活動,特別是人文活動中主要以文本形態(tài)呈現的部分。
計算人文彌補了傳統(tǒng)人文研究及推廣普及等的不足,使其煥發(fā)出新的面貌。計算人文可以從微觀的字詞句段、到中觀的篇章書籍、再到宏觀的大規(guī)模語料庫,從而跨越維度限制觀察文本語言對象;計算人文可以將靜態(tài)平面的文字繪制成動態(tài)立體的圖形,更加生動、鮮活地呈現人物和故事,從而穿越時空限制探索歷史典籍;計算人文可以采用量化、客觀、可驗證的評價鑒賞方式,獲得對經典的新體驗,從而跳出個體主觀感受賞析文藝作品。計算人文為人文對象的分析、挖掘、評價、教學、普及、傳播開辟了新的途徑,也為人文研究打開了新的維度。計算人文從新的視角審視和解讀傳統(tǒng)人文對象,從新的維度擴展人文對象,并利用新的方法普及和傳播人文的內涵和價值。
2.2? ? 以人文學科的問題為研究問題
以人文為對象的計算人文研究,其關注的問題仍然是人文學科的問題。人文學科研究的問題聚焦于“發(fā)生了什么”(基于對象內容對事實進行判斷)、“表達了什么”(圍繞對象內容進行描述和解讀)、“如何去評價”(關注對象內容的人文內涵和價值)。計算方法和信息技術的應用,為人文研究帶來了新方法、新工具,并促使新的研究范式逐漸形成,新興領域與學科也隨之逐漸確立。但是,在這一過程中,所研究問題的人文本質始終沒有發(fā)生改變。正如布薩編纂《托馬斯·阿奎那索引》的過程那樣,雖然阿奎那著作的載體從書本、磁帶更新至數字文本,索引形式也從卡片更新至網絡數據庫,但其中的核心問題卻依然是語詞索引[19-20]。又如《紅樓夢》前八十回與后四十回的作者身份[21-22],不論采用基于詞頻統(tǒng)計的語言風格分析方法,還是采用機器學習模型下的文本分類方法,其核心研究問題仍然是圍繞著《紅樓夢》作者為誰這個困擾了紅學家百余年的未解之迷而展開。
計算人文的數據與計算思維視角打破了人文研究的某些傳統(tǒng),研究過程也與自然科學的技術路線更接近,過程中的某些發(fā)現及解決的問題似乎與傳統(tǒng)人文問題不甚相似,如計算人文的研究往往涉及數據庫、語料庫、知識庫的建設以及模型和算法設計與應用。其實,這些庫的建設以及模型、算法設計只是計算人文研究的中間環(huán)節(jié)和過程性問題,計算人文終極目的仍是發(fā)現和解決人文學科的問題,計算人文最終還應回歸到人文[15]。計算人文借助計算和信息技術探索與解決的一定是人文學科的問題。除了人文學科的研究問題,計算人文并不存在自己的研究問題。所謂計算人文的研究問題,或者是人文學科本身的問題,或者是為解決人文學科的問題而產生的問題。不論計算與信息技術如何發(fā)展,計算人文都不能偏離以人文為目標,正如夜空中的北斗,計算人文的追求務必以人文學科為旨歸。
2.3? ? 以數據基礎之上的計算為方法
計算人文的爆發(fā)式發(fā)展得益于自然語言處理等領域的突破性進展,這使得計算人文有能力實現真正意義的計算,而非簡單的統(tǒng)計或計量。其實,將統(tǒng)計手段應用于人文學科早于計算人文出現很多年,如以詞匯計量和語言風格分析為代表的研究已有百年左右的歷史,其產生與當代信息技術并無多少關聯(lián)。但是,計算的規(guī)模和效率在當代以令人難以置信的速度提升,使得這類即使可追溯至百年前的研究在計算人文時代也呈現了嶄新的面貌[23]。
計算人文的計算方法,是建立在數據基礎上的,沒有數據無以言計算。計算時代同時也是數據時代,計算人文就是數據、計算與人文的融合、匯通。計算人文的數據,不再是個體或有限的樣本數據,而是近似于全樣本的全局性海量數據。計算的規(guī)模和效率方面的突破,使得面向全局性數據的計算人文既能開展統(tǒng)計、歸納等方面的研究探索,也能進行量化分析、關聯(lián)性挖掘,進而在數據的基礎上得到人文學科方面的結論。基于數據的分析結果與研究結論方便采用表格和圖形呈現,而隨著可視化技術的不斷進步,采用可視化方式直觀呈現的分析結論更易于理解和傳播,便于人文思想與理念的普及與推廣。
計算人文的計算方法,使其較之于傳統(tǒng)人文研究在對象、問題、結論等具體方面產生了很多的不同。針對同樣的研究對象,計算人文基于不同類型的數據可以從不同的維度去考察從而可能提出不同的研究問題;針對同樣的研究問題,計算人文通過對數據的統(tǒng)計、分析、挖掘可能得到不同的研究結論;針對于同樣的研究結論,計算方法可以發(fā)揮數據的優(yōu)勢為原有結論提供不同視角的解讀和分析,增強原有結論的可靠性。計算人文為人文研究在方法論方面作了補充與完善,但并不是要替代原有的人文研究。不論是發(fā)現新的問題、提出新的結論、還是闡釋的新視角,計算的研究方法能夠與人文的研究內涵相得益彰,發(fā)揮出“一加一大于二”的效果。計算方法與傳統(tǒng)人文方法相較,計算方法更接近自然科學的研究規(guī)范,更具客觀性,具有可重復、可驗證、可復用、可推廣的特點。
為實現計算,計算人文的海量數據須組織、構建成為方便計算機存儲與處理的數據集合,多以數據庫、語料庫、知識庫等方式保存在計算機中。顧名思義,數據庫、語料庫、知識庫分別用于組織、存儲和管理數據、語料、知識。計算人文以人類表達為對象,在各種人類表達形態(tài)中,文本是主要形態(tài),故常常采用語料庫和知識庫方式組織、存儲、管理文本語料和知識。數據庫、語料庫、知識庫支持建立在其上的、以數據為基礎的計算。人們熟知的是數據庫,對語料庫、知識庫的了解相對較少。
語料庫是由人工或機器標注好的真實語言材料組成的數據集[24]。語料庫收錄經過標注的自然語言素材,須有一定規(guī)模。發(fā)展到現在,語料庫已經全部是數字形態(tài),既可以以數據庫方式存儲,也可以以文本文件等非數據庫方式存儲。
如果說語料庫是語料的集合,知識庫則是知識的集合。由于知識多以自然語言表述,知識庫的收錄對象主要為自然語言文本。知識庫一詞雖然在文獻中經常出現,但并沒有清晰、嚴格的定義。知識庫必須能夠支持包括智能計算在內的各種類型的計算才有價值,為此知識庫可以定義為:知識庫是在對語義特別是自然語言語義進行形式化描述和有序組織的基礎上形成的知識集合,由詞匯、關系、規(guī)則、模型和語料庫等構成,目的為實現知識表示與知識存儲并支持知識獲取與知識運算。
語料庫與知識庫既有區(qū)別也有聯(lián)系。語料庫只包含單一形式的語言單元和標注信息,知識庫則包含對多種語言單元及其類屬、同義、關聯(lián)等關系的揭示和序化。語料庫只是知識庫的一個子集,知識庫包含語料庫但不是僅有語料庫,知識庫還涵蓋語詞知識、規(guī)則知識、關聯(lián)關系、知識模型、推理模型等內容。而且,知識庫可能包含一種以上形式的語料庫。
3? ?計算人文的機遇與使命
經歷了70多年交叉融合的實踐,計算人文正逐漸成為成熟穩(wěn)定的研究領域乃至學科。并且,由于踏上了人工智能的技術浪潮,其發(fā)展已成為備受矚目的焦點。計算人文所具備的人文內涵和技術特點使其在當下的學科體系、學術體系、話語體系建設過程中迎來了重要的發(fā)展機遇,也肩負起重要的發(fā)展使命。
3.1? ? 國家戰(zhàn)略與使命
十八大以來,習近平總書記和中央持續(xù)關注哲學社會科學的繁榮與發(fā)展。2016年5月17日,習近平總書記親自主持召開了哲學社會科學工作座談會并發(fā)表重要講話,要求“構建具有自身特質的學科體系、學術體系、話語體系”,“要加快發(fā)展具有重要現實意義的新興學科和交叉學科”。同時,總書記還特別強調,“要運用互聯(lián)網和大數據技術,加強哲學社會科學圖書文獻、網絡、數據庫等基礎設施和信息化建設”,“要加強對中華優(yōu)秀傳統(tǒng)文化的挖掘和闡發(fā)”。在十九大報告中,總書記明確提出了“兩創(chuàng)”方針,即“推動中華優(yōu)秀傳統(tǒng)文化創(chuàng)造性轉化、創(chuàng)新性發(fā)展”,并寫入十九大黨章。圍繞“兩創(chuàng)”方針,國家近期接連頒布了《關于推進新時代古籍工作的意見》《關于推進實施國家文化數字化戰(zhàn)略的意見》《2021-2035年國家古籍工作規(guī)范》等重要文件,形成了關于古籍和傳統(tǒng)文化數字化工作的重要研究方向和目標。在黨的二十大報告中,總書記重申了“兩創(chuàng)”方針和“實施國家文化數字化戰(zhàn)略”。
計算人文的建設發(fā)展順應了中央精神及國家發(fā)展戰(zhàn)略的內在要求,與總書記構建中國哲學社會科學的學科體系、學術體系、話語體系,發(fā)展新興學科、交叉學科,將新技術應用于哲學社會科學研究的指示精神一致。計算人文的核心內涵與“兩創(chuàng)”方針的要求相契合。對推動新時代古籍整理工作而言,計算人文可以成為古籍整理與研究重要的學科方法[25]。
計算人文有助于區(qū)分傳統(tǒng)文化中的精華與糟粕?!皟蓜?chuàng)”的對象是中華優(yōu)秀文化,計算人文能夠發(fā)揮內容標注的技術優(yōu)勢,利用自然語言處理模型從大規(guī)模的古籍文本中自動標注和發(fā)現相關的內容和知識,實現精華和糟粕的區(qū)分。計算人文有助于中華優(yōu)秀文化表現形式的轉換。中華優(yōu)秀文化的主要內容誕生于傳統(tǒng)農業(yè)社會,其表現形式和話語體系與現代社會存在明顯的隔膜,有著巨大的時空距離。結合大規(guī)模數字資源和知識組織方法,計算人文可采用形式重造的方式對中華傳統(tǒng)文化的表現方式進行創(chuàng)造性轉化,把古代話語轉換成當代的大眾話語,以利于中華優(yōu)秀文化的繼承與傳播。計算人文有助于促進中華優(yōu)秀傳統(tǒng)文化的繁榮與普及?!皟蓜?chuàng)”旨在用中華優(yōu)秀傳統(tǒng)文化和當代先進價值觀引領大眾,并為中華優(yōu)秀傳統(tǒng)文化在當代找到生活載體和文化載體,而計算人文可以通過可視化的直觀呈現方式,助力相關內容的普及和傳播。
在學術體系、學科體系、話語體系的構建過程中,計算人文與傳統(tǒng)人文學科的關系可類比考古學與歷史學的關系。習近平總書記在主持十九屆中央政治局第二十三次集體學習時曾指出,“建設中國特色、中國風格、中國氣派的考古學,增強中國考古學在國際考古學界的影響力、話語權”。而中國考古學也用成果證明了自身的價值,“向世界展示了中國文明的燦爛輝煌,證明中國人對人類發(fā)展作出了重大的創(chuàng)造性貢獻”[26]。在這一過程中,考古學與歷史學既保持密切聯(lián)系但又不同于歷史研究,“中國考古學一開始便同歷史學聯(lián)系,并不意味考古學不是獨立的學科?!保?6]考古學最大的特點就是它是一門具有自己獨特的理論與方法的多學科交叉。成為“一門有自己理論及方法的科學,越來越廣泛地與有關學科融合接觸”,成為了“人文社會科學同自然科學的重要結合點。”[26]
3.2? ? 學科更名的機遇
學科發(fā)展既遵循科學自身的規(guī)律,也需要順應社會、時代的需求。計算人文的學科發(fā)展內在動力已然充沛,具備了學科發(fā)展的內因,但還需要抓住各種外部機遇。
教育部最新公布的學科目錄中,“圖書情報與檔案管理”一級學科已正式更名為“信息資源管理”。學科名稱的變更對于學科的未來將產生深遠的影響[27],學科的內涵與外延、意義與價值、范疇與邊界等均需充分討論以形成共識和理解。可以肯定的是,“圖書情報與檔案管理”更名為“信息資源管理”將帶來學科內涵外延與范疇邊界的拓展,而不是相反。具體來說,若干新的二級學科將躋身于信息資源管理一級學科。數據、計算等方面的新興學科也迎來了至關重要的機遇,將成為未來學科增長的方向,它們既與計算人文密切相關,又與信息資源管理的需求和目標同步。作為一級學科的信息資源管理內涵外延與范疇邊界的拓展必將帶來二級學科增設的需求,在原有圖書館學、情報學、檔案學之外增設與學科發(fā)展緊密相連的二級學科,是保持新學科生命力和發(fā)展前景的關鍵。與此同時,體現數據、計算等新興方向的計算人文(或以“數字人文”之名)在原學科目錄體系中沒有自己的位置,現實中迫切需要尋找學科關系密切的一級學科棲身。考慮到計算人文(或數字人文)的相關特點與屬性,以及信息資源管理學科的發(fā)展歷程和現狀,選擇信息資源管理是最佳方案。
首先,無論是以“計算人文”還是以“數字人文”為學科名稱,其對象是一致的,即包括全體文史哲等學科在內的人文學科的研究對象、研究問題都有可能成為計算人文的研究對象與研究問題。也即在學科歸屬方面計算人文歸入文史哲的任何學科都有理由同時卻又都不合適;其次,圖書情報與檔案管理或信息資源管理學科在數據尤其是文本數據加工與處理方面具有傳統(tǒng)優(yōu)勢,近幾十年以文本數據為對象的加工、整序、計算與應用方面更是發(fā)展成為圖書情報學科的通用學科方法,計算人文歸屬信息資源管理學科在學科方法論方面與一級學科下的其他二級學科具有共性,可相互借鑒。
計算人文或數字人文歸屬信息資源管理學科的爭議主要在于計算人文雖具有交叉屬性,但人文特點鮮明,歸屬管理類的信息資源管理學科沖淡了其人文屬性。事實上,正如本文所言,計算人文的交叉屬性決定了其歸屬任何人文學科門類都有不足,信息資源管理從研究方法、研究內容、現有研究隊伍的相關程度等方面考慮都是計算人文或數字人文學科的最佳棲身之所。此外,信息資源管理原有二級學科的圖書館學、檔案學本身的人文學科屬性也很鮮明,目前擬議的新增二級學科中還有古籍保護這樣的更具人文學科屬性的學科,計算人文或數字人文若與它們并列,人文學科屬性并沒有削弱,卻更能體現信息資源視角的學科研究特點。同時,位列信息資源管理學科之下的計算人文或數字人文與其他人文學科可以根據需要實現任意交叉,產生若干研究方向或三級學科,如計算語言學、計算史學、計算文學、計算文獻學、計算法學等,完全不受文史哲等具體學科在學科目錄中所屬類別的約束。
需要指出的是,計算人文作為信息資源管理學科下的二級學科,不但不妨礙而且有助于推動在相關人文學科設置形如“‘計算+‘人文學科”的對應學科方向并開展研究,如語言學類別下的計算語言學、歷史學類別下的計算史學、文學類別下的計算文學、文獻學類別下的計算文獻學、法學類別下的計算法學、檔案學類別下的計算檔案學等。
概而言之,計算人文或數字人文作為信息資源管理的二級學科是完全可行且值得期待的。人民大學數字人文二級學科博士點的成功實踐也為這一領域建設獨立學科提供了寶貴的經驗和方案。
3.3? ? 新文科建設的契機
2020年,教育部召開了“新文科建設工作會議”,新文科建設從概念邁向正式實施。計算人文融合數據、計算與人文,將計算方法、信息技術應用于人文學科問題的研究,搭建起計算、數據與人文三者之間的橋梁,典型地體現了新文科文理交叉的特征,與新文科的發(fā)展理念高度契合。
計算人文在以人類表達為對象的前提下關注數據、計算與人文三者之間的關系,與新文科強調的信息技術具有天然的聯(lián)結。計算人文自產生之初就既具有信息與計算的特質,又具有人文學科的屬性,可以說計算人文是天然的新文科。另外,計算人文中的“人文”理論上可以是任意人文學科。計算人文可以與任意人文學科相結合,產生計算語言學、計算史學、計算文學、計算文獻學、計算法學等下位類學科,天然具有跨學科、多學科的特征。同時,語言學、史學、文學、文獻學等傳統(tǒng)人文學科的理論、方法、觀念也浸潤了計算人文的方方面面。計算人文借鑒和吸收傳統(tǒng)人文學科的理論、方法和觀念,促進自身的發(fā)展。
計算人文需充分發(fā)揮在新文科方面的優(yōu)勢,抓住新文科建設的契機,構建起計算人文的新文科體系。此外,計算人文在新文科建設過程中除了探索與示范自身的新文科建設、完善自身的學科發(fā)展之外,還有義務助力相關傳統(tǒng)人文學科和專業(yè)邁向新文科。計算人文有能力也有義務為其他學科的新文科建設之途提供有效的發(fā)展經驗和借鑒思路。計算人文的學科發(fā)展和建設既需要“長期堅持,落地生根”,也需要“堅守傳統(tǒng),交叉創(chuàng)新”。
4? ?計算人文的學科體系
實踐先于理論,是當前計算人文發(fā)展的一個顯著特點,也是計算人文學科體系形成的重要方式。在技術交叉和項目驅動下,計算人文衍生出特有的“大帳篷”發(fā)展模式[28]。在“大帳篷”模式下,影響力較大的研究項目往往可能催生出一個研究方向乃至子學科,典型的如早期布薩的《托馬斯·阿奎那索引》編制和《聯(lián)邦黨人文集》作者判定研究。前者基于數字化存儲、詞頻統(tǒng)計、倒排索引等技術,在當下發(fā)展出文本和人文對象多媒介載體融合的索引與統(tǒng)計,以及基于大規(guī)模詞頻自動統(tǒng)計的語詞研究。后者基于文本分類模型,影響了計量語言學、文體語言風格計算以及計算語言學相關的詞法分析、句法分析、語義分析、機器翻譯等研究?!按髱づ瘛蹦J绞沟糜嬎闳宋男纬闪藚^(qū)別于傳統(tǒng)人文學科研究的一個重要特征,即能夠容納更多的研究項目、研究主題與研究成果?!按髱づ瘛蹦J降奶卣鲗嵸|上是各領域、各地區(qū)出現各種類型的獨立項目,名目繁多的項目匯聚了多樣化的研究主題、研究成果,共同促進研究方向與子學科的產生與形成。
計算人文的理論體系尚未成熟,隨著研究主題、研究項目、研究成果的逐漸積累,研究實踐將促進理論的升華。在當前的發(fā)展模式下,計算人文學科體系下將產生并容納眾多的“計算X”形式的“計算”與“人文學科”的組合?!坝嬎鉞”可以勾勒計算人文學科體系的大致框架,為后續(xù)的理論升華提供實踐基礎。
4.1? ? 計算語言學
計算語言學以真實語言為材料研究自然語言的自動化處理,學科層面的計算語言學在技術與實踐層面體現為自然語言處理,是計算人文發(fā)展最為突出又極為特殊的子領域或子學科。計算語言學的特殊之處在于,由于計算人文的研究對象一般為自然語言書寫的文本,故而計算語言學或自然語言處理往往成為計算人文研究的技術方法。語言資源建設方面的語料庫、知識庫構建為計算語言學的典型項目,如現代漢語的北京大學人民日報語料庫、南京農業(yè)大學新時代人民日報語料庫[29-31],古代漢語的南京農業(yè)大學的古漢語平行語料庫[32],俞士汶先生的北京大學綜合型語言知識庫[33],南京農業(yè)大學基于《漢學引得叢刊》構建的中國古代典籍文本知識庫等。文本處理技術方面的語言生成、語義理解為計算語言學的代表性應用,如詞頻統(tǒng)計、詞典編纂、語義分析等。
4.2? ? 計算史學
經歷了從統(tǒng)計歷史學、計量史學到計算史學的發(fā)展過程,計算史學近年來成為計算人文研究的重要分支[34]。計算史學結合史籍文本挖掘、地理信息系統(tǒng)以及數據可視化等技術,重點圍繞事件、時間、地點和人物等多維歷史對象,從計算的視角提出新解讀、新問題和結論,為傳統(tǒng)的史學領域開辟了新的研究陣地。國內外計算史學均以文本知識挖掘為主流,通過對文本知識的自動抽取和計量分析,得到計算視角的史學研究結論。值得注意的是,國外多關注近現代歷史[35],而國內則更偏向上古史和中古史[36-38]。此外,基于地理信息系統(tǒng)(GIS)的計算史學研究在知識呈現方式上更顯著更直觀,因而更具備推廣和傳播效應[39-40]。
4.3? ? 計算文獻學
計算文獻學是計算人文與歷史文獻學和古典文獻學相結合的研究方向。傳統(tǒng)文獻學研究面臨數字化轉型,需要對文獻本身進行了數字化拆解和重構,并以數字化手段輔助傳統(tǒng)文獻學的研究[41]。計算文獻學融合了文本知識挖掘、知識庫構建、預訓練模型構建等計算機技術,以及文獻計量、知識組織、本體構建、文本檢索等圖書情報學方法,在古籍文獻研究、古籍引書研究、古籍目錄學研究等具體應用方面已形成新視角。已有研究在古籍引書計量分析[42-43]、古籍目錄別裁分析[44]、古籍預訓練模型構建[45]等方面進行了初步探索,相關研究的價值和潛力值得進一步深研。
4.4? ? 計算文學
計算文學重點關注文本內容的理解和分析,其提出和發(fā)展以“遠讀”為代表[46]。以量化文學批評為目的“遠讀”雖然飽受爭議[47],但其在文本內容和分析中的視角和方法至今仍具有啟發(fā)性。隨著深度學習下文本知識挖掘技術的突破,計算文學在文本內容理解和計算方面展現出廣闊的研究前景,如主題分析、分類聚類、風格計算、情感分析等[48-49];另一方面,基于文本內容生成技術開展的計算機文學創(chuàng)作已成為研究熱點[50],如小說詩歌生成、文本自動摘要、文字冒險游戲等。隨著以ChatGPT[51]為典型代表的生成式大語言模型取得巨大成功,流暢語言文本生成似乎不再是人類獨有的能力,而AI生成的文本能否看作文學創(chuàng)作[52]的爭論將會再次引起關注,未來將成為計算文學不可忽視的主題。
4.5? ? “計算X”體系下的其他學科
在數據與計算的推動下,除上述學科領域外,眾多的其他人文學科領域也已形成或正在形成較為鮮明獨特的計算人文子學科,如計算法學、計算藝術、計算檔案學等。
法學既有人文科學屬性也有社會科學屬性,因此計算法學一定意義上也可以納入計算人文的學科體系,如針對法哲學、法律史等的計算人文研究。這也是計算人文與計算社會科學學科相關性的具體體現。不過,計算法學[53]目前主要面向法律文檔的分析與計量等目標,逐漸形成了包括海量判決書分析、自動化法律推理、裁判文書推薦等獨具特色的研究方向[54-55]。
計算藝術的獨特之處在于所研究的對象可能是非文本形態(tài)的“人類表達”。計算藝術對傳統(tǒng)藝術對象進行計算視角的分析和解讀,具體如傳統(tǒng)繪畫的相似性和聚類分析[56],音樂樂譜的計量和統(tǒng)計[57]等。值得注意的是,基于深度學習擴散模型(diffusion model)的圖像生成算法在近期取得了突破性進展,以DALLE-2[58]為代表的AI作畫技術為計算藝術應用于藝術作品自動生成打開了大門。
計算人文在傳統(tǒng)檔案學領域也得到了初步的嘗試,圍繞計算檔案學的學理性探究、檔案人文服務理念以及檔案研究的路徑與方法,計算檔案學開辟了數據驅動下的檔案學研究新范式[59-61]。
在計算人文的體系下,這些已形成或將要形成的計算人文子學科可以統(tǒng)一稱之為“計算X”。
5? ?總結和展望
走過了大半個世紀發(fā)展歷程的計算人文,雖然在不同的發(fā)展階段研究重心有所不同、采用的主要技術方法有所不同、用于表述的名詞術語有所不同,總而言之,側重點有所不同,但以人類表達為對象的初衷沒有變,以研究和解決人文學科問題努力的方向沒有變。在不同的發(fā)展階段,統(tǒng)計、計量、數字化、數據化以及數據基礎之上的計算曾分別擔綱計算人文的主要研究方法與研究手段,計算人文各類研究項目的研究內容、成果產出、成果呈現也相應地有所不同,用于表達計算人文含義的名詞也經過了多樣的變化。
在計算的規(guī)模和效率得到飛速提升的當下,憑借人工智能技術的支撐,數據加工處理和計算等技術的推動與人文學科自身發(fā)展的需要共同促使計算人文真正進入了計算時代。以人類表達特別是文本形態(tài)的人類表達為研究對象,以人文學科的問題為研究問題,以數據基礎之上的計算為主要研究方法,計算人文在“大帳篷”模式下的多樣研究實踐促進了學科體系的形成,也將催生學科理論的升華與完善。當前,計算人文在國內還迎來了國家戰(zhàn)略需求、一級學科更名以及新文科建設的重大機遇,計算人文應充分發(fā)揮兼具人文內涵與技術引領的優(yōu)勢,承擔起將新技術應用于哲學社會科學研究、發(fā)展新興學科和交叉學科的使命,為構建中國特色哲學社會科學學科體系、學術體系、話語體系貢獻力量的同時也發(fā)展壯大自身。
致謝:本文寫作過程中教育部語言文字應用研究所馮志偉教授、南京大學魏向清教授、清華大學劉石教授提供了諸多寶貴建議與幫助,謹致謝意!
參考文獻:
[1]? BUSA R A.Foreword:Perspectives on the Digital Humanities[J].A Companion to Digital Humanities,Hoboken,2004:xvi-xxi.
[2]? 黃水清.人文計算與數字人文:概念、問題、范式及關鍵環(huán)節(jié)[J].圖書館建設,2019(5):68-78.
[3]? 黃水清,劉瀏,王東波.計算人文的發(fā)展及展望[J].科技情報研究,2021,3(4):1-12.
[4]? MCCARTY W.Humanities Computing[M].Basingstoke:Palgrave Macmillan,2005.
[5]? SVENSSON P.Humanities Computing as Digital Humanities[M].Defining Digital Humanities.Routledge,2016:175-202.
[6]? SCHOLES R,WULFMAN C.Humanities Computing and Digital Humanities[J].South Atlantic Review,2008,73(4):50-66.
[7]? SULA C A,HILL H V.The early history of digital humanities:An analysis of Computers and the Humanities(1966-2004)and Literary and Linguistic Computing(1986-2004)[J].Digital Scholarship in the Humanities,2019,34(S1):i190-i206.
[8]? CORNS T N.Computers in the Humanities:Methods and Applications in the Study of English Literature[J].Literary and Linguistic Computing,1991,6(2):127-130.
[9]? KATZEN M.The application of computers in the humanities:A view from Britain[J].Information Processing & Management,1986,22(3):259-267.
[10]? NYHAN J,FLINN A,WELSH A.Oral History and the Hidden Histories project:towards histories of computing in the humanities[J].Digital Scholarship in the Humanities,2015,30(1):71-85.
[11]? BARZEN J,LEYMANN F.Quantum humanities:a vision for quantum computing in digital humanities[J].SICS Software-Intensive Cyber-Physical Systems,2020,35(1):153-158.
[12]? BARZEN J.From Digital Humanities to Quantum Humanities:Potentials and Applications[M].Quantum Computing in the Arts and Humanities:An Introduction to Core Concepts,Theory and Applications.Cham:Springer International Publishing,2022:1-52.
[13]? ROCKWELL G,SINCLAIR S.Hermeneutica:Computer-Assisted Interpretation in the Humanities[M].MIT Press,2022.
[14]? 黃水清,劉瀏,王東波.國內外數字人文研究進展[J].情報學進展,2022,14(1):50-84.
[15]? 黃水清.回歸人文:從人文計算到計算人文[N].社會科學報,2021-09-09(5).
[16]? WULF Wm A.Look in the spaces for tomorrows innovations[J].Communications of the ACM,1997,40(2):109-111.
[17]? BIEMANN C,CRANE G R,FELLBAUM C D,et al.Computational Humanities-bridging the gap between Computer Science and Digital Humanities(Dagstuhl Seminar 14301)[J].Dagstuhl Reports,2014,4(7):80-111.
[18]? From digital to computational humanities:The VAST project vision[EB/OL].[2023-01-22].https://air.unimi.it/handle/2434/891349.
[19]? BUSA R.The annals of humanities computing:The index Thomisticus[J].Computers and the Humanities,1980,14(2):83-90.
[20]? BUSA R.INDEX THOMISTICUS[EB/OL].[2022-10-10].https://www.corpusthomisticum.org/it/index.age.
[21]? 陳炳藻.從詞匯上的統(tǒng)計論《紅樓夢》 作者的問題[A].首屆國際《紅樓夢》 研討會[C].美國威斯康星大學,1980:16-20.
[22]? 施建軍.基于支持向量機技術的《紅樓夢》作者研究[J].紅樓夢學刊,2011(5):35-52.
[23]? HOCKEY S.The History of Humanities Computing[M].SCHREIBMAN S,SIEMENS R,UNSWORTH J.A Companion to Digital Humanities.Malden,MA,USA:Blackwell Publishing Ltd,2004:1-19.
[24]? 黃水清,王東波.國內語料庫研究綜述[J].信息資源管理學報,2021,11(3):4-17,87.
[25]? 黃水清,王曉光,夏翠娟,等.推進新時代古籍工作,加快創(chuàng)新智能化發(fā)展[J].農業(yè)圖書情報學報,2022,34(5):4-20.
[26]? 李學勤.寫在“二十世紀中國考古”之前[J].文史知識,1999(6):38-39.
[27]? 初景利,黃水清.從“圖書情報與檔案管理”到“信息資源管理”——一級學科更名的解析與思考[J].圖書情報工作,2022,66(14):1-7.
[28]? 6th Annual International Conference of the Alliance of Digital Humanities Organizations,DH 2011,Stanford,CA,USA,June 19-22,2011,Conference Abstracts[C].Stanford University Library,2011.
[29]? 黃水清,王東波.新時代人民日報分詞語料庫構建、性能及應用(一)——語料庫構建及測評[J].圖書情報工作,2019,63(22):5-12.
[30]? 黃水清,王東波.新時代人民日報分詞語料庫構建、性能及應用(二)——深度學習自動分詞模型構建[J].圖書情報工作,2019,63(23):5-12.
[31]? 黃水清,王東波.新時代人民日報分詞語料庫構建、性能及應用(三)——句長與詞的分析比較[J].圖書情報工作,2019,63(24):5-15.
[32]? 王東波.面向知識挖掘的平行句法語料庫構建研究:數字人文視角下的史部典籍信息組織[M].南京:南京大學出版社,2019.
[33]? 俞士汶.建設綜合型語言知識庫的理念與成果的價值[J].中文信息學報,2007(6):3-12.
[34]? 馬建強.計算歷史學:大數據時代的歷史研究[J].學術論壇,2015,38(12):99-105.
[35]? AU YEUNG C man,JATOWT A.Studying How the Past is Remembered:Towards Computational History through Large Scale Text Mining[A].Proceedings of the 20th ACM International Conference on Information and Knowledge Management[C].New York,NY,USA:Association for Computing Machinery,2011:1231-1240.
[36]? 劉瀏,黃水清,孟凱,等.《春秋》三傳女性人物的人文計算研究[J].圖書情報工作,2020,64(23):109-123.
[37]? 何琳,喬粵,孟凱.基于典籍的春秋社會時間序列演變分析方法初探[J].情報理論與實踐,2021,44(2):33-40.
[38]? 嚴承希,王軍.數字人文視角:基于符號分析法的宋代政治網絡可視化研究[J].中國圖書館學報,2018,44(5):87-103.
[39]? KNOWLES A K,HILLIER A.Placing History:How Maps,Spatial Data,and GIS are Changing Historical Scholarship[M].ESRI,Inc,2008.
[40]? 包弼德.群體、地理與中國歷史:基于CBDB和CHGIS[J].量化歷史研究,2017(Z1):213-246.
[41]? 劉石.文獻學的數字化轉向[J].文學遺產,2022(6):10-13.
[42]? 黃水清,周好,彭秋茹,等.引書的自動識別及文獻計量學分析[J].情報學報,2021,40(12):1325-1337.
[43]? 孫燕,劉瀏,王東波.《春秋左傳正義》引書計算人文研究[J].圖書情報工作,2023,67(2):119-130.
[44]? 張力元,王軍.基于機器學習的古籍目錄互著與別裁探析[J].中國圖書館學報,2022,48(2):47-61.
[45]? 王東波,劉暢,朱子赫,等.SikuBERT與SikuRoBERTa:面向數字人文的《四庫全書》預訓練模型構建及應用研究[J].圖書館論壇,2022,42(6):31-43.
[46]? MORETTI F.Distant Reading[M].Verso Books,2013.
[47]? 笪章難,汪蘅.以計算的方法反對計算文學研究[J].山東社會科學,2019(8):24-39.
[48]? 張逸勤,鄧三鴻,胡昊天,等.預訓練模型視角下的跨語言典籍風格計算研究[C].第十二屆全國情報學博士生學術論壇,2022.
[49]? STURGEON D.Unsupervised identification of text reuse in early Chinese literature[J].Digital Scholarship in the Humanities,2018,33(3):670-684.
[50]? BROWN T,MANN B,RYDER N,et al.Language Models are Few-Shot Learners[A].Advances in Neural Information Processing Systems:卷 33[C].Curran Associates,Inc,2020:1877-1901.
[51]? ChatGPT:Optimizing Language Models for Dialogue[EB/OL].[2023-01-20].https://openai.com/blog/chatgpt/.
[52]? THORP H H.ChatGPT is fun,but not an author[J].Science,2023,379(6630):313-313.
[53]? 鄧矜婷,張建悅.計算法學:作為一種新的法學研究方法[J].法學,2019(4):104-122.
[54]? 申衛(wèi)星,劉云.法學研究新范式:計算法學的內涵、范疇與方法[J].法學研究,2020,42(5):3-23.
[55]? 梁柱,沈思,葉文豪,等.基于結構內容特征的裁判文書自動推薦研究[J].情報學報,2022,41(2):167-175.
[56]? WEINSTEIN M,VOSS E,SOLL D.Dendrography and Art History:a computer-assisted analysis of Cézannes Bathers[J].HQ:Digital Humanities Quarterly,2019,13(3).
[57]? LUPKER J A T,TURKEL W J.Music Theory,the Missing Link Between Music-Related Big Data and Artificial Intelligence[J].HQ:Digital Humanities Quarterly,2021,15(1).
[58]? RAMESH A,DHARIWAL P,NICHOL A,et al.Hierarchical Text-Conditional Image Generation with CLIP Latents[M].arXiv,2022.
[59]? 趙躍,張佳欣.計算檔案學在中國的發(fā)展前景探析——基于中國圖情檔界的計算檔案學認知調查[J].檔案學通訊,2021(5):32-39.
[60]? 張斌,李子林.數字人文背景下檔案館發(fā)展的新思考[J].圖書情報知識,2019(6):68-76.
[61]? 牛力,高晨翔,張宇鋒,等.發(fā)現、重構與故事化:數字人文視角下檔案研究的路徑與方法[J].中國圖書館學報,2021,47(1):88-107.
作者簡介:黃水清,男,南京農業(yè)大學信息管理學院教授,博士生導師;劉瀏,男,南京農業(yè)大學信息管理學院副教授;王東波,男,南京農業(yè)大學信息管理學院教授,博士生導師。