人文大數(shù)據(jù)及其在數(shù)字人文領域中的應用

2022-02-17 20:22陳靜

大數(shù)據(jù) 2022年6期

陳靜

南京大學藝術學院，江蘇南京 210031

0 引言

長期以來，人文學者習慣稱呼其研究對象為文本、圖像，或是音樂、電影，而非數(shù)據(jù)。他們主要通過書籍、圖書館、檔案館、博物館，甚至是手工記錄和拍攝等途徑獲取材料，再通過經(jīng)驗性閱讀、主觀分析和語言解釋的方式加以研究。盡管人文研究中也會涉及一定的信息采集和基于數(shù)據(jù)分析的定量研究，但人文學者習慣處理基于印刷（print-based）或者實物的材料，并將之視為唯一可信且權威的依據(jù)，再以經(jīng)多年訓練和研究獲得的學識為基礎，展開具有強烈經(jīng)驗色彩的個人研究。這種傳統(tǒng)研究除了強調(diào)人文研究需要長時間知識生產(chǎn)的積累、承襲外，還高度依賴學者作為個體對材料的占有和處理能力，以及材料本身的原真性和有效性。甚至在一定意義上，材料的質(zhì)量、真假以及豐富性對于一項研究具有決定性的意義。然而，從20世紀中葉以來，信息通信技術（information and communications technology，ICT）及相關基礎設施已經(jīng)深刻地改變了人文學者獲取材料、分析內(nèi)容、書寫文本、組織學術交流的方式，重塑了當前的學術生態(tài)環(huán)境。數(shù)字技術及數(shù)字化使印刷物、手寫書稿、非正式出版檔案、繪畫、照片、視頻、聲音文件、建筑、雕塑、壁畫、紡織物、器物等多種材質(zhì)、多種類型的人造物從物質(zhì)實體變成了虛擬數(shù)字，與大量數(shù)字生成（digital-born）的內(nèi)容一起成為人文學者的新研究對象。數(shù)字檔案庫、文本和圖像數(shù)據(jù)庫的出現(xiàn)使人文學者可以不用親自到訪千里之外的圖書館、博物館、檔案館就可以獲取所需要的信息；搜索和下載功能使研究者可以在成千上萬的資料中快速地瀏覽和找到有效信息并“據(jù)為己有”；文本處理和管理軟件改變了研究者組織材料、撰寫文章的方式，使研究過程更多地成了“界面操作”；甚至研究者的思考方式也受網(wǎng)絡化知識組織方式的影響而變得超文本化，使研究者更多地關注到不同議題和材料之間的關聯(lián)性[1]。這樣的新一輪知識生產(chǎn)方式的變革最集中的體現(xiàn)就是“數(shù)字人文”（digital humanities）作為一種跨學科研究領域的出現(xiàn)。數(shù)字人文強調(diào)將數(shù)字科技與人文研究進行結合以推動人文研究轉(zhuǎn)型，“其面對的是未來的知識體系及方法的構建，其回應的是大數(shù)據(jù)時代基于學者導向（research oriented）的研究需求與基于資源共享的網(wǎng)絡基礎設施建設（cyberinfrastructure），其建設的是面向數(shù)字出生（born-digital）新生代人類的認知方式系統(tǒng)與路徑”[2]。盡管作為一個新興的研究領域，“數(shù)字人文”諸多議題尚在討論之中，但從其發(fā)展歷程來看，數(shù)據(jù)的獲取和數(shù)據(jù)本身都對相關研究的開展及研究方法的提出起到了至關重要的作用。特別是大數(shù)據(jù)和人文數(shù)據(jù)的關系，以及大數(shù)據(jù)研究方法在數(shù)字人文研究領域中的應用，也是近年來數(shù)字人文研究中的焦點問題。本文將聚焦“人文大數(shù)據(jù)”這一具體對象，將之放置于“數(shù)字人文”的研究框架與范圍內(nèi)，對其來源及產(chǎn)生方式進行描述，并通過與自然科學和社會科學數(shù)據(jù)進行比較，對其特點進行說明，進而對數(shù)字人文因人文大數(shù)據(jù)及其方法的特殊性而呈現(xiàn)出的多樣性問題進行探討。

1 人文大數(shù)據(jù)

大數(shù)據(jù)指的是超出了常用軟件工具在可容忍的時間內(nèi)捕獲、管理和處理數(shù)據(jù)能力的數(shù)據(jù)集。自21世紀中葉以來，數(shù)據(jù)的收集和處理已經(jīng)成為計算機、生物醫(yī)學、信息科學、經(jīng)濟金融等學科的基本研究手段。甚至有學者指出，大數(shù)據(jù)帶來的是一次新的認識論和范式轉(zhuǎn)型，從知識驅(qū)動（knowledge-driven）轉(zhuǎn)向數(shù)據(jù)驅(qū)動（data-driven）。而數(shù)據(jù)驅(qū)動的主要特征就是數(shù)據(jù)密集（data-intensive）、統(tǒng)計探索（statistical exploration）和數(shù)據(jù)挖掘（data mining）[3]。套用“大數(shù)據(jù)”的通用定義，即“超出了常用軟件工具在可容忍的時間內(nèi)捕獲、管理和處理數(shù)據(jù)能力的數(shù)據(jù)集”，人文大數(shù)據(jù)可以被定義為“基于數(shù)字化或者數(shù)字生成的，被認為是人文藝術范疇的大規(guī)模數(shù)據(jù)集”。人文領域中的大數(shù)據(jù)可以分為兩類：一類是通過對人文對象數(shù)字化（數(shù)據(jù)采集）的方式獲取的各類數(shù)據(jù)，這類數(shù)據(jù)以美術館、圖書館、檔案館和博物館等文化機構的文化遺產(chǎn)數(shù)據(jù)為代表，規(guī)模龐大且類型多樣，在被數(shù)字化之前就已經(jīng)具備了體量大、數(shù)據(jù)類型多樣且價值高等特點，這些數(shù)據(jù)主要來自手抄或印刷文獻、器物、建筑、繪畫、模擬方式記錄的聲音、視頻等人造物，代表人類物質(zhì)與精神文明的歷史成就；另一類則是數(shù)字技術出現(xiàn)以后不斷生成的數(shù)字文本、圖像、視頻、音頻以及3D模型等基于各類數(shù)字軟件的多媒體數(shù)據(jù)，這類數(shù)據(jù)以博客、Facebook、Instagram這類網(wǎng)絡社交媒體的文本和圖像為代表，體現(xiàn)了更寬泛意義上的“數(shù)字文化”（digital culture），是數(shù)字化時代對人類文化藝術活動的記錄。此外，還有一些數(shù)據(jù)，在傳統(tǒng)意義上被認為是非人文社會科學領域的數(shù)據(jù)，但其被應用到了人文研究之中，因此也開始被研究者認為是人文大數(shù)據(jù)，如地理及空間信息數(shù)據(jù)。歷史地理信息系統(tǒng)早在20世紀90年代已經(jīng)出現(xiàn)，其旨在運用地理信息系統(tǒng)（geographic information system，GIS）來研究歷史問題。近年來歷史地理信息系統(tǒng)得到了進一步發(fā)展，從社會史向其他人文科學領域拓展，形成“人文GIS”，與“空間人文”形成了共謀。后者主要的特征之一就是向人文內(nèi)容進行滲透，更深一步地對人文材料內(nèi)部進行挖掘（如對文學作品中蘊含的地理及空間特征進行的研究）。而在人文研究領域，也有學者開始將地理系統(tǒng)或者空間作為研究方法，開展“文學地圖”或“在地研究”。這些都是人文研究在數(shù)字技術時代，尤其是大數(shù)據(jù)時代出現(xiàn)的新現(xiàn)象。

2 人文大數(shù)據(jù)的“大”與“小”

人文數(shù)據(jù)可以很大。若將人文藝術領域跨越千年的各種類型的材料都加以數(shù)字化，那所形成的數(shù)據(jù)集將相當可觀。以世界上最大的圖書館——美國國會圖書館為例，截至2021年，該館館藏超過17.3億件，其中2 200萬件藏品在“美國記憶”（American memory）項目的資助下被數(shù)字化，按照估算大概是9 PB，包括從公元10世紀至今的、來自66個國家的印刷書籍、期刊、照片、錄音、報紙、地圖、電影、手稿、法律文書、個人敘述、軟件、網(wǎng)頁、網(wǎng)絡檔案庫和3D對象等多種格式的文件。盡管這個數(shù)字化數(shù)量已經(jīng)相當驚人，但尚不能代表人類文明的總量。類似“美國記憶”的數(shù)字化項目在過去幾十年間一直在進行中，積累了大量的人文大數(shù)據(jù)，也為相關研究者開展進一步的數(shù)據(jù)分析提供了基礎條件。另一個人文大數(shù)據(jù)的例子是谷歌的N-gram項目，以讓·巴蒂斯特·米歇爾為首的研究團隊與谷歌圖書合作開展的“基于百萬數(shù)字圖書的文化量化分析”基于谷歌大規(guī)模數(shù)字化書籍的語料庫開展計算分析，并以可視化方式呈現(xiàn)人類文化的發(fā)展趨勢。研究團隊使用自然語言處理中較常用的N-gram模型，以單個詞或多個詞為單位，對來自全世界的大學圖書館的1 500萬本數(shù)字化圖書中的，從1800年到2000年的500萬本，共計7種語言500億字的文本進行了統(tǒng)計分析，對英語詞匯量變化、英語語法的變遷、集體記憶與健忘、大眾聲望、審查檢測等文化議題進行解讀。由于該項目是基于200年間的詞頻波動進行觀察的，因此得出的一些結果是非常具有啟發(fā)性的。例如英語書籍中最常使用的詞匯實際上比權威字典的要多，而且常用詞中大約63%的英文詞匯在齊夫定律（Zipf’s law）的測量下是低頻使用詞，更有52%的詞匯是沒有被收錄到詞典中的。這種通過對大數(shù)據(jù)集進行定量分析，從而學習人類文化的方式被命名為“文化測量”（cultural analytics）模式，相關成果于2011年在Science上發(fā)表[4]。此后，不少學者也將此模式用于不同的文化數(shù)據(jù)集[5-6]。例如卡萊弗·李塔魯（Kalev Leetaru）對30年間全球的本地新聞進行了調(diào)性和地理分析，并成功預測了2011年在阿拉伯半島發(fā)生的重大政治事件及該事件發(fā)生的地點[7]。這種規(guī)模的數(shù)據(jù)集使從大規(guī)模尺度上對文化事件、趨勢、變化進行計算測量成為可能，實現(xiàn)了傳統(tǒng)人文學科無法企及的效果。

“我也要親一下那個白大褂衣襟上總愛插一朵花的護士！”恭建兵一蹦三尺高，將隨身攜帶的軍用水壺敲得當當作響，“我都想了好長時間！”

但對于人文數(shù)據(jù)而言，大數(shù)據(jù)的5個V（volume、variety、veracity、value、velocity）中的“volume”（體量大）是一個相對的概念。對于很多人文研究來說，數(shù)據(jù)集不會很大（如文本數(shù)據(jù)），幾十萬字甚至上百萬字的文本也不過以KB為單位，相比生物數(shù)據(jù)之類的大數(shù)據(jù)而言，算得上小。但是，這些文本包含的內(nèi)容及其可供研究的問題，并不能用體量來衡量?；仡檾?shù)字人文的發(fā)展歷史，很多“小”文本語料扮演了非常重要的角色。

“數(shù)字人文”在西方一般被認為有兩個源頭：人文計算（humanities computing）與文本批評（textual critics）。而文本批評以電子編輯（electronic editing）為代表[8]。人文計算的開創(chuàng)往往會追溯到意大利神父羅伯托·布薩（Roberto Busa）在1949年開啟的、與國際商業(yè)機器公司（International Business Machines Corporation，IBM）合作的The Index Thomisticus項目。這個項目主要是利用IBM當時基于穿孔卡和磁帶存儲的計算機對中世紀神學家托馬斯·阿奎納（Thomas Aquinas）寫作的及與其相關的179部、1 000多萬字古典文本進行處理，半自動地生成中世紀拉丁文字詞的索引[9]。該項目在20世紀70年代出版了56卷7萬多頁的印刷物，其中包括10卷索引（index）、31卷托馬斯·阿奎納作品索引大全（concordances）、8卷相關作者的索引大全以及7卷原初文本的重印本。該項目在1989年以CD-ROM形式出版后，在2005年發(fā)布了在線版本，在2006年啟動了對全部語料庫的語義分析。整個項目持續(xù)多年，耗費巨大，除了成噸的卡片以外，還有長度達到1 500 km的磁帶、1萬小時的計算機工作時長和100萬小時的人工工作時長[10]。無論是從文本還是從技術上而言，這個項目都是具有開創(chuàng)性意義的，其塑造了一種新型的人文學者與科學家（工程師）合作模式的典范，也奠定了計算機處理人文文本的一些共性，如文本分析以語料分析為基礎、半自動化或者自動化程序處理、索引作為語料的基礎數(shù)據(jù)、多學科的跨學科性等。但倘若純粹地從數(shù)據(jù)量上來看，這個“不僅是第一個，也是有史以來最大的數(shù)字人文項目之一，盡管按照今天的標準，其結果可能被認為是‘小’”[9]——其光盤內(nèi)的數(shù)據(jù)不過1.4 GB。但可以確定的是，由此開啟的是人文研究，乃至知識生產(chǎn)歷史中的一個新時代。托馬斯·阿奎納項目的開啟和實施，不僅標志著人文計算作為一個新興領域的出現(xiàn)，更標志著人文研究中使用計算機運算的技術已經(jīng)形成一套理論化的思考，也開啟了一系列基于文本索引的語料庫和程序的計算語言學項目，其中包括倫敦大學學院（University College London）和擎天計算實驗室（The Atlas Computer Laboratory）開發(fā)的COCOA二代、牛津語匯索引程序OCP和希臘語庫TLG等。這些文本處理程序主要致力于語料庫的建設與對文本創(chuàng)建、維護和存儲方面的程序進行聯(lián)合開發(fā)與推廣。這種取向在1950—1960年影響了不少文學研究者利用計算機處理機器可讀文本的內(nèi)容，對大體量的作品做出分析，如關于聯(lián)邦黨人信件的作者研究堪稱經(jīng)典。

由另一個源頭即文本批評所延伸出來的數(shù)字人文脈絡則更關注從文獻學的角度利用信息技術對文本進行深度編輯與標注。最重要的成果是文本編碼倡議（Text Encoding Initiative，TEI）的《電子文本編碼和交換指南》（guidelines for electronic text encoding and interchange）。TEI是一個集體開發(fā)和維護數(shù)字形式的文本表示標準的聯(lián)盟，其主要成果是一套規(guī)定了機器可讀文本的編碼方法的準則。該準則主要被應用于人文學科、社會科學和語言學領域。對于數(shù)字人文領域而言，TEI提供了一種機器讀取人文文本的規(guī)范標準，因其靈活性、綜合性和可擴展性等特點，在很多圖博檔機構中得到了應用。此外，文本批評非常重視對文本的深度挖掘，因此尤其強調(diào)通過標注的方式對非結構化數(shù)據(jù)進行結構化，或生成元數(shù)據(jù)，在元數(shù)據(jù)的基礎上進行數(shù)字存檔和知識再生產(chǎn)。例如羅塞蒂檔案（the Rossetti Archire）或威廉姆·布萊克（William Blake）檔案這樣的項目就很好地踐行了這樣的路徑。特別是對于文本物質(zhì)性的重視，使這些檔案在數(shù)字化的過程中盡可能地考慮到了印刷文本的專有屬性，并通過數(shù)字標注的方式加以呈現(xiàn)[11]。在此類項目中，對象本身的數(shù)量并不多（如威廉姆·布萊克檔案中收錄的作品數(shù)量不過100多幅），但每一幅的元數(shù)據(jù)不僅包括了作品信息數(shù)據(jù)，還包括對圖像內(nèi)容的標注和文本內(nèi)容的轉(zhuǎn)錄。這種對小數(shù)據(jù)集展開的深度標引和研究，也形成了數(shù)字人文中的重要內(nèi)容。特別是隨著20世紀90年代中后期數(shù)字技術的更新迭代、數(shù)字化內(nèi)容的不斷增加，計算語言學逐漸從人文計算中獨立出去，這種研究趨勢得到了更廣泛的應用，影響遍及各個人文學科，也顯示著“數(shù)字人文”新階段不再延續(xù)早期的發(fā)展路徑。大約在2000年以后，“數(shù)字轉(zhuǎn)向”（digital turn）時代到來，個人計算機變得十分普遍，成為大多學者可以方便使用的設備，如OMEKA、Voyant這樣的專門面向人文學者的數(shù)據(jù)檔案化、文本分析可視化的工具也被開發(fā)了出來。

從西方形成的人文計算到數(shù)字人文這個脈絡來看，實際上我國在20世紀下半葉就開展了大量基于語料庫的計算語言學研究，如從1979年到1983年，就有4個大型的現(xiàn)代漢語語料庫項目在我國落地，即武漢大學的漢語現(xiàn)代文學作品語料庫（1979年，527萬字）、北京航空航天大學的現(xiàn)代漢語語料庫（1983年，2 000萬字）、北京師范大學的中學語文教材語料庫（1983年，106.8萬字）和北京語言學院（1996年更名為北京語言大學）的現(xiàn)代漢語詞頻統(tǒng)計語料庫（1983年，182萬字）[12]。這些數(shù)據(jù)庫和之后的國家級語料庫、大規(guī)模真實文本語料庫等專業(yè)數(shù)據(jù)庫主要針對語言學方面的研究。面向更多領域?qū)W者的中文學術數(shù)據(jù)庫多為圖博檔甚至是商業(yè)公司開發(fā)的基于典籍的文本圖像或者全文數(shù)據(jù)庫，如由香港迪志文化出版有限公司推出的文淵閣四庫全書的電子版、由北京大學等高校與北京愛如生數(shù)字化技術研究中心合作建立的“中國基本古籍庫”[13]。與此同時，還有一些人文學者從研究需求出發(fā)開發(fā)的數(shù)字項目，如北京大學中文系開發(fā)的全唐詩分析系統(tǒng)與全宋詩分析系統(tǒng)、先在香港中文大學后遷至臺灣政治大學的“中國近現(xiàn)代思想史研究專業(yè)數(shù)據(jù)庫（1830—1930）”等。在這些項目中，數(shù)據(jù)規(guī)模雖大，類型各有不同，但數(shù)據(jù)庫限定性比較強，往往只能進行檢索，無法下載或者進行更深入的研究。關于此類問題，在近年來關于文獻數(shù)字化的相關討論中已經(jīng)非常多了。尤其是研究者們已經(jīng)關注到了以往數(shù)字化工作中的一些問題，如傳統(tǒng)的古籍數(shù)字化大多是對原始紙質(zhì)文獻的圖片展示，僅可檢索編目數(shù)據(jù)，對內(nèi)容僅以瀏覽為主，缺少全文提供，用戶也無法按照自身的研究需求對數(shù)據(jù)進行深度挖掘和再利用等[14]。相較而言，“中國歷代人物傳記數(shù)據(jù)庫”（China biographical database，CBDB）和德龍（Donald Sturgeon）開發(fā)的“中國哲學書電子化計劃”（Chinese text，Ctext）則兼顧了大數(shù)據(jù)與人文研究的屬性。雖然CBDB的單機下載版總共不過幾十MB（SQlite格式），但其中收錄了超過52萬位歷史人物的傳記資料，每個人物條目都包含了人名、時間、地址、職官、入仕途徑、著作、社會區(qū)分、親屬關系、社會關系、財產(chǎn)、事件等數(shù)據(jù)，可供學者們開展統(tǒng)計分析、地理空間分析與社會網(wǎng)絡分析等[15]。值得一提的是，CBDB不僅涉及了中文文獻的數(shù)字化、數(shù)據(jù)化（datafication）、數(shù)據(jù)清洗、數(shù)據(jù)分析、數(shù)據(jù)庫搭建、軟件開發(fā)以及數(shù)據(jù)可視化等一系列的數(shù)據(jù)全流程工作，而且非常仔細、詳盡地記錄和說明了整個數(shù)據(jù)庫的發(fā)展歷史、技術開發(fā)和數(shù)據(jù)處理過程，對其他人文大數(shù)據(jù)項目的建設極具參考價值。

3 人文大數(shù)據(jù)的多樣性與語境化

葛劍雄教授曾經(jīng)在講座中提到，“運用現(xiàn)代科學技術，我有兩個衡量標準，那就是，首先它最后的精確度有沒有其他方法加以驗證，其次它的結果有沒有意義，能不能改變一個重大的學術論斷。我發(fā)現(xiàn)大數(shù)據(jù)在歷史研究中還是沒有太大必要，因為我們掌握的數(shù)據(jù)不夠，而且很多是二手甚至三手數(shù)據(jù)，盲目運用的結果就是可信度越來越低，誤差也會越來越大，到最后還是需要人來做出判斷和取舍，這是沒有必要的”[16]。這里他談到關于大數(shù)據(jù)應用于歷史研究的必要性，首先談到的是數(shù)據(jù)的量不足，其次是數(shù)據(jù)的可信度低。關于數(shù)據(jù)的量，這點前文已經(jīng)討論過，對于人文數(shù)據(jù)而言，量并不是最重要的，過度強調(diào)大，其實是對大數(shù)據(jù)的一種化約式（reductive）的誤讀。實際上，大數(shù)據(jù)的多樣性（variety）和真實性（veracity）往往發(fā)揮著更加重要的作用。

首先，人文大數(shù)據(jù)的來源決定了這些數(shù)據(jù)從一開始就會是多種多樣的。例如美國國會圖書館在線上發(fā)布時，不僅考慮到原真性，發(fā)布了文件數(shù)字化后的圖像文件，還考慮到了人文研究者的分析需要，提供了數(shù)字文件的元數(shù)據(jù)，以及包括了XML格式的標記數(shù)據(jù)和TXT格式的全文數(shù)據(jù)，這體現(xiàn)了人文數(shù)據(jù)的多樣性和特殊性。異質(zhì)的數(shù)據(jù)往往同時被應用于同一個人文研究項目中，而學者就是要利用這些異質(zhì)數(shù)據(jù)集之間的聯(lián)系和重疊進行各種推斷。對于人文大數(shù)據(jù)而言，多樣性還意味著這些數(shù)據(jù)集結構的多樣性。很多時候，這些不同的數(shù)據(jù)集無法被整合成一個統(tǒng)一的數(shù)據(jù)集，然后用一種方法來分析。甚至，同一種算法針對不同的數(shù)據(jù)集也可能需要訓練不同的模型。但人文數(shù)據(jù)的異質(zhì)性是人文大數(shù)據(jù)最明顯的優(yōu)勢，也是人文學科數(shù)據(jù)最大的挑戰(zhàn)。有了這些來源不同、格式不同的數(shù)據(jù)，研究者才能更加靈活地組合，以便從中獲取最大的研究效果。這也是人文大數(shù)據(jù)與社會科學大數(shù)據(jù)、科學大數(shù)據(jù)的區(qū)別之一。

其次，大數(shù)據(jù)的真實性和準確性需要一定的人工干預。雖然更大量、多樣的數(shù)據(jù)才可以彌補以往小樣本、抽樣數(shù)據(jù)的片面與偏差，但正如葛劍雄教授所言，對數(shù)據(jù)的盲目應用往往是導致數(shù)據(jù)誤差的重要原因。布薩神父在論及他為何在阿奎那項目開始后試圖引入計算機時回憶說，“我相信計算機的速度和準確度將對這項研究中涉及的數(shù)據(jù)匯編工作有很大幫助”，但他也關注到了任何關于語言學數(shù)據(jù)的解釋都是歸納式的，更多的是基于已有的經(jīng)驗證據(jù)及支持可靠結論的文獻的完整度，因此布薩非常關注源數(shù)據(jù)的質(zhì)量[9]。中國學者在處理大規(guī)模真實文本語料時也發(fā)現(xiàn)了類似的問題，如宋柔在統(tǒng)計語料庫中的詞語接續(xù)對時發(fā)現(xiàn)，隨著語料庫規(guī)模的增大，新增加的接續(xù)對中的垃圾逐漸會占大部分甚至絕大部分。垃圾主要分布在統(tǒng)計到的低頻度接續(xù)對中，主要來源是分詞中專名識別錯誤[12]。實際上數(shù)據(jù)一旦達到一定的規(guī)模，其中難免存在錯誤、冗余數(shù)據(jù)，對于傳統(tǒng)的統(tǒng)計學或者數(shù)據(jù)科學來說，合理范圍內(nèi)的偏差是可以接受的，但對于人文研究而言，會因為文本在光學字符識別（optical character recognition，OCR）過程中出現(xiàn)的亂碼而被批評。在這個問題上，如何在盡可能擴大數(shù)據(jù)規(guī)模的同時，兼顧數(shù)據(jù)的多樣性，并確保其真實性，就成為人文大數(shù)據(jù)處理中的關鍵。大部分的數(shù)字人文項目會特別關注數(shù)據(jù)準確性的問題。

再次，人文數(shù)據(jù)需要語境。這種語境一方面體現(xiàn)在人文數(shù)據(jù)不僅僅是被提取和計算的對象，也要被放回原初語境，如放回文本的上下文中進行觀察和解讀；另一方面則是因為人文研究談及的社會或歷史“語境”是非常大的范圍。在概念史研究學界曾經(jīng)有過一場爭論。金觀濤、劉青峰兩位老師在1997年啟動了一個名為“特定現(xiàn)代中文政治概念形式的量化研究”的項目，意圖對新文化運動期間最具代表性的12個中文期刊中的文章進行量化統(tǒng)計和分析。隨后，兩位老師意識到現(xiàn)代重要政治觀念的研究開展是可以通過對更大范圍內(nèi)的文本進行檢索和分析進行的，由此建立了“中國近現(xiàn)代思想史研究專業(yè)數(shù)據(jù)庫（1830—1930）”，并將基于該數(shù)據(jù)庫的相關研究以《觀念史研究：中國現(xiàn)代重要政治術語的形成》為名出版，其中包括了對近代思想史中多個（組）現(xiàn)代重要觀念進行的基于關鍵詞的研究。此后有學者提出，基于數(shù)據(jù)庫對歷史進行研究受到數(shù)據(jù)庫收錄資料的限制，其中很多資料沒有被收錄，會影響到研究的真實性。很多語境化的信息，如信息及觀念的傳播方式、物質(zhì)構成、商業(yè)運作、讀者獲得途徑、讀者的閱讀接受情況等，無法用精準的時間或數(shù)字來表現(xiàn)，企圖用數(shù)據(jù)多少或出現(xiàn)頻率來揭示，不但存在極大的難度，更存在致命的缺陷。兩位老師隨后在回應中明確回復，其所做的研究也都是在數(shù)據(jù)庫所收錄的文獻范圍內(nèi)開展的，因此如若認為更大規(guī)模資料的收錄會影響目前的研究結果，則需要進行實際的研究加以驗證。而且，以關鍵詞為中心的觀念史研究是典型的人文學科，只不過引進了數(shù)據(jù)庫方法：“數(shù)據(jù)庫在人文研究中只有輔助作用，它為研究者提供了極大的便利，也提出了更高的要求。它只是在對關鍵詞的使用情況和類型分析這一素材收集和整理環(huán)節(jié)上提供了工具，而研究者在此基礎上，要以人文學科的基本范式和自己的研究素養(yǎng)來分析這些資料”[17-18]。這場論辯中批評者的主要懷疑點在于一定數(shù)量的數(shù)據(jù)（哪怕是一億兩千字的數(shù)據(jù)量）及基于該數(shù)據(jù)集的一種統(tǒng)計分析能否體現(xiàn)歷史的真實？其實回到大數(shù)據(jù)本身，或許就能有更好的理解。不存在任何數(shù)據(jù)集是“全數(shù)據(jù)”，事實上，可能永遠都沒有辦法做到全數(shù)據(jù)。那么基于大數(shù)據(jù)的研究與所有以往的研究一樣，都是在一定的范圍內(nèi)基于一定的對象進行的研究，因此局限性是不可避免的。那么這里實際上要回答的是，基于部分數(shù)據(jù)，而且是相當大的數(shù)據(jù)集的研究是否有效？這個答案也是毋庸置疑的，實際上，哪怕是基于某一種單一來源的數(shù)據(jù)集，當體量大到一定程度時，從數(shù)據(jù)的角度而言，其與基于多個數(shù)據(jù)來源的小數(shù)據(jù)集的研究都一樣具有意義。衡量的標準不在于數(shù)據(jù)本身，而在于研究的結論本身。而驗證結論的方法是定量還是定性也是沒有唯一性的。但提出批評是需要一定的條件的，尤其是對定量分析的批評，最好是要建立在對同樣數(shù)據(jù)集的驗證實驗的基礎上，而這一點往往更多地體現(xiàn)在自然科學研究中，而非人文研究。同時，數(shù)據(jù)、文本的語境與歷史、社會的語境并非同一層面。正如批評者所言，并非所有的歷史、社會語境都可以文本化、數(shù)據(jù)化，因此，也并非所有的人文研究都需要依賴數(shù)據(jù)分析。在這個意義上，有學者在討論“什么不是數(shù)字人文”“什么是數(shù)字人文”以及“什么是好的數(shù)字人文”中都提到了，數(shù)字人文或者說基于人文大數(shù)據(jù)的人文研究，重要的并不是工具或者方法論本身，而是究竟用這樣的數(shù)據(jù)和工具解決什么樣的人文問題。人文性在數(shù)字人文研究中是第一位的。可以說，這樣的討論體現(xiàn)了人文學界對于大數(shù)據(jù)及大數(shù)據(jù)研究方法的一種內(nèi)省和警覺。正如葛劍雄教授提出的，要考量“它的結果有沒有意義，能不能改變一個重大的學術論斷”，人文研究的問題還是要回到人文的領域里進行檢驗。

4 深層數(shù)據(jù)與智慧數(shù)據(jù)

那么，理想的人文大數(shù)據(jù)是什么樣的？不妨從與社會科學的比較開始分析。通常社會學、經(jīng)濟學、政治學、傳播研究和營銷研究被認為更適合使用定量方法（即用于分析數(shù)據(jù)的統(tǒng)計、數(shù)學或計算技術），而人文學科，如文學研究、藝術史、電影研究和歷史，則傾向于使用詮釋學、參與觀察、厚重描述、符號學和細讀等方法。對于社會科學和人文研究而言，數(shù)字技術與大數(shù)據(jù)所帶來的學科影響則以計算社會學（computational social science）和數(shù)字人文為代表。盡管兩者在研究對象和研究方法上有相同與交叉，如皆以數(shù)字技術及數(shù)字文化為對象、都會涉及數(shù)據(jù)處理方法的應用，但兩者也存在區(qū)別，如數(shù)據(jù)獲取和處理的方式、研究問題的提出等。而從數(shù)據(jù)的層面來說，列夫·馬諾維奇（Lev Manovich）將前一類可以適用于定量分析的，與大群人或團體有關的數(shù)據(jù)稱為“表層數(shù)據(jù)”，將后一類與更為小眾的群體有關的數(shù)據(jù)稱為“深層數(shù)據(jù)”[19]。他指出盡管基于大規(guī)模數(shù)據(jù)的社會計算（social computing）研究往往能提供關于人類在數(shù)字文化時代的行為和表現(xiàn)得更廣泛的數(shù)字圖景（digital landscape），但計算機在理解文本、圖像、視頻和其他媒介意義與語境方面具有的局限性，使這些研究都只能是基于簡化維度的分析，甚至會受到錯誤數(shù)據(jù)的影響。而他所設想的理想狀態(tài)則是將人所具有而計算機所不具有的理解和解釋能力與計算機運用算法處理大規(guī)模數(shù)據(jù)的能力結合起來。這一點其實在有關“智慧數(shù)據(jù)”的討論中也有所體現(xiàn)。

曾蕾、王曉光、范煒與克里斯托弗·紹什（Christof Sch?ch）分別曾撰文討論過智慧數(shù)據(jù)。曾蕾等指出智慧數(shù)據(jù)是“實現(xiàn)大數(shù)據(jù)特征中最后一個‘V’——價值（value）的方法，即通過對任何規(guī)模的可信的、情境化的、相關切題的、可認知的、可預測的和可消費的數(shù)據(jù)的使用來獲得重大的見解和洞察力，揭示規(guī)律，給出結論和對策”。借此他們提出，“智慧數(shù)據(jù)通常帶有自描述機制，背后有領域本體作支撐，使這些數(shù)據(jù)符合特定的邏輯結構和形式規(guī)范，而且可以支持推理，由此形成智慧的基礎，產(chǎn)生可預測和可消費的數(shù)據(jù)”。同時，還因為“智慧數(shù)據(jù)較強的可解釋性，支持邏輯推理從而使之可以用于多種用途和支持多種互操作，并且具有很強的可追溯能力，能夠滿足人文研究范式的需要?！彼麄兺ㄟ^圖博檔中關于關聯(lián)數(shù)據(jù)、圖像深度標引和非物質(zhì)文化遺產(chǎn)數(shù)據(jù)的元數(shù)據(jù)等議題來說明智慧數(shù)據(jù)具有的特性。紹什關于智慧數(shù)據(jù)的定義則更加簡潔，即“我建議首先將大數(shù)據(jù)看作相對非結構化的、混亂的和隱含的、體積相對較大的、形式多樣的。相反地，我建議將智能數(shù)據(jù)看作半結構化或結構化的、干凈的和明確的，以及體積相對較小、異質(zhì)性有限的。”兩種定義從不同方面指向了智慧數(shù)據(jù)的價值和屬性，可以幫助人們理解為什么在人文研究中學者會強調(diào)智慧數(shù)據(jù)。這恰恰是因為人文研究對數(shù)據(jù)的要求更高、更加苛刻，而人文數(shù)據(jù)，尤其是第一類通過數(shù)字化生成的人文數(shù)據(jù)，其數(shù)據(jù)的結構化程度、清潔度和可量化效果都是由數(shù)據(jù)生成過程，甚至是投入人力的多少來決定的。

5 計算很重要，但不是全部

隨著大規(guī)模數(shù)據(jù)集的出現(xiàn)和數(shù)據(jù)分析方法的更新，計算的問題也越來越多地受到了學者的關注。在文學界，以佛朗哥·莫雷蒂（Franco Moretti）為代表的學者，包括馬修·喬克斯（Matthew Jockers）、馬修·威爾肯斯（Matthew Wilkens）和安德魯·派珀（Andrew Piper）等在內(nèi)，支持運用主題建模、網(wǎng)絡分析等從海量數(shù)字化文學資料庫中挑選出的語言與形式的宏觀模式。尤其是莫雷蒂基于對大量小說文本信息（如標題）的統(tǒng)計分析形成的“遠讀”（distant reading）理論及研究方法對數(shù)字人文乃至整個人文學界影響深遠。但從實際效果而言，莫雷蒂的“遠讀”方法也并沒有真正從根本上解決布薩1949年提出的問題：如何用計算機使學者們快速而準確地深入研究諸如真實性、文本批評、風格、年代和翻譯等一系列問題。在美國現(xiàn)代文學協(xié)會出版物（Publication of the Modern Language Association，PMLA）2017年組織的一次關于“遠讀”的討論中，莫雷蒂對此作出了回應。他部分地贊同了蘇真（Richard Jean So）教授對其的批評——“（莫雷蒂）所做的不過是對其語料的一個統(tǒng)計描述”，同時還指出安德魯·派珀所提出的實現(xiàn)一種“模型的模型”（model of a model）是未來必然的發(fā)展路徑。他指出，蘇真等人及芝加哥大學文學實驗室正在進行的“模式”的研究將完全改變理論所具有的可能性，將會改變歷史與文學研究的關系，尤其是改變文學研究的時間性框架，歷史將成為文學研究的前提[20]。而“模型的模型”或者說“模式”正是計算文學努力通過量化計算實現(xiàn)的方法論嘗試。趙薇指出，從莫雷蒂的概念模型到后來的文學實驗室的計算批評，“實證研究”與文學闡釋、文化批評被有機地融合在一起。量化文學研究的本質(zhì)是根據(jù)研究的需要，選取合適的測量尺度和有效的測量手段，只有這樣才能真正發(fā)現(xiàn)問題[21]。

然而，并非所有的學者都能接受對人文數(shù)據(jù)進行量化分析。一篇于2017年10月15日發(fā)表在美國《高等教育紀事報》網(wǎng)站上名為《數(shù)字人文搞砸了》（The digitalhumanities bust）的文章引發(fā)了廣泛爭論[22]。作者提摩太·布倫南是明尼蘇達大學雙城分校的文化研究、比較文學及英語系教授。在布倫南教授看來，英國劍橋分析公司Ada算法事件體現(xiàn)的是對“數(shù)據(jù)”和“算法”的盲目樂觀主義在現(xiàn)實社會中的受挫。布倫南指出，算法不僅是一系列失敗事件背后的推手，也是隱藏在數(shù)字人文研究及其20年蓬勃發(fā)展的邏輯，數(shù)字人文也在這種“非常公開和尷尬”的結果中面臨危機與反思。他在歷數(shù)了這些年來數(shù)字人文學者得到的諸多好處（如美國國家人文基金、梅隆基金會提供的大量資金資助，一流期刊文章的背書以及得到晉升終身教職崗位等）之后，提出質(zhì)疑：數(shù)字人文到底有什么成就？布倫南教授認為，數(shù)字人文研究對算法的依賴使數(shù)字人文學者在面對文本時只看到了通過算法所呈現(xiàn)出的文本的特點（如詞頻），卻無法觸及文本中有價值的內(nèi)容；也同時因為對算法的依賴，數(shù)字人文學者無法擺脫計算的局限性，而以此局限性為探尋研究問題的限定。尤其針對書籍內(nèi)容的量化分析、文學批評中的“遠讀”策略和“文學模式識別”等，布倫南認為數(shù)字人文學者只是看到了表層的數(shù)字和數(shù)據(jù)，但卻不能像使用大腦那樣使用計算機進行深入的思考：“由于其自身機制，數(shù)字‘閱讀’從根本上將大腦自然產(chǎn)生的智慧靈感，建立價值形式的建立，以及本能沖動都徹底排除在外?！闭撈湓颍皇且驗閷ⅰ案嘈畔⒒煜秊楦嘀R”，數(shù)字人文學者無法在其所施用的方法之外進行反思，認識到該方法在認識論上的意義和方法論上的價值；二是“對科學的迷戀，新自由主義的撤資”，占有少量資源或者長期處于學界邊緣的年輕學者通過新科技在已經(jīng)劃定格局的學術場域內(nèi)爭取更多的文化資本，獲取地位提升。因此，“與其說數(shù)字人文是一場革命，不如說數(shù)字人文是為了反對主流形式，從而強行將人文從其存在原因中剝離出來的那個楔子”。

文中提到的關于數(shù)字人文中的某些局限性也確實是數(shù)字人文學界普遍存在的問題，如部分研究還停留在詞頻的程度上，而且有些數(shù)據(jù)本身也是經(jīng)過預先加工的，因而有“作弊”嫌疑，同時很多數(shù)據(jù)處理的過程也是在人工監(jiān)督下完成的，因此結果也不那么令人驚喜等。但布倫南一文中的問題也是非常明顯的，如“數(shù)字人文”在文中被簡化為了關于數(shù)字的“量化”，而抹殺掉了數(shù)字人文中學科、研究問題和領域的多樣性；再如蘇真和霍伊特·朗（Hoyt Long）關于日本俳句的“文學模式識別”（literary pattern recognition）研究并非只是在檢驗一個已知結果的正確性，而是通過一種新的計算方式挑戰(zhàn)及改變以往對于俳句的認知及研究思考。對于這種誤讀或者攻擊，包括被批評對象特德·安德伍德（Ted Underwood）和霍伊特·朗在內(nèi)的3位學者在2017年11月1日的《“數(shù)字”與“人文”不對立》（“digital” is not the opposite of “humanities”）[23]中做出了回應：首先，量化研究在經(jīng)濟、社會學乃至人文研究中應用已久，數(shù)字人文因此“獲罪”實在是作者有意為之；其次，僅就量化或者說數(shù)字而言，數(shù)字人文中所說的“數(shù)字”也比作者所說的簡單計算詞頻要廣泛得多，例如之前提到的“文學模式識別”，“就已經(jīng)被用來探討虛構的本質(zhì)、文類的周期，以及塑造角色的性別假設等”。這些問題是文學史的核心問題，并且因數(shù)字人文得以從一個新的尺度進行討論。最后作者還指出，數(shù)字人文不僅僅意指新的研究手段，也影響到博物館、新聞、圖書館等機構面向公眾傳播的新形式。類似的討論還出現(xiàn)在了歷史研究、藝術史研究等領域。以大數(shù)據(jù)和計算的方式進行人文研究受到了普遍的爭議。但正如埃里克·威斯科特（Eric Weiskott）在對此的回應中提到的，數(shù)字技術正在重新創(chuàng)造歷史，這個過程和16世紀印刷技術在歐洲出現(xiàn)時發(fā)生的情況類似，也同樣引起了質(zhì)疑。而作為一種不可逆轉(zhuǎn)的過程的結果，數(shù)字技術改變的不僅僅是知識傳遞，更是一種新的知識形式的體制建構，并非僅僅是認識論的改變[24]。確實如此，對于數(shù)字人文而言，計算并非僅有的手段，但人文大數(shù)據(jù)卻是已經(jīng)存在且必須要面對的現(xiàn)象。如何更好地利用數(shù)字技術與方法對人文大數(shù)據(jù)開展多角度的研究是比爭論是否可以使用數(shù)字技術或方法更為實際和迫切的問題。

6 結束語

以上關于人文大數(shù)據(jù)的討論，多將人文大數(shù)據(jù)看作為達到某種研究目的所使用的材料，但事實上大數(shù)據(jù)本身及大數(shù)據(jù)分析過程中產(chǎn)生的一系列倫理問題，如ImgaeNet這樣的大規(guī)模圖像數(shù)據(jù)集中具有的性別、種族偏見問題以及這些問題引發(fā)的相關算法缺陷問題、數(shù)據(jù)收集及清理背后的數(shù)據(jù)勞動問題等，引發(fā)了人文學者的普遍關注。人文大數(shù)據(jù)帶來的問題不僅僅是研究范式的轉(zhuǎn)變，其更成為研究問題本身。但很遺憾的是，目前從事數(shù)據(jù)科學的研究者們卻較少與人文學者就人文大數(shù)據(jù)及大數(shù)據(jù)在人文研究中的價值展開直接而深入的討論，期待此次專題能開啟如此契機。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡