国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

北美與西歐的數(shù)字人文中國(guó)研究狀況論析

2018-01-29 05:32荷蘭李友仁宋迎春
山東社會(huì)科學(xué) 2018年7期
關(guān)鍵詞:學(xué)者人文數(shù)字

[荷蘭]李友仁 撰 宋迎春 譯

(萊頓大學(xué) 數(shù)字人文中心,荷蘭 萊頓 2311)

過(guò)去5—10年間,在西方的中國(guó)研究中,數(shù)字人文的應(yīng)用有了長(zhǎng)足的進(jìn)步。這一領(lǐng)域快速發(fā)展,從研究生到教授等各個(gè)層次的學(xué)者對(duì)之產(chǎn)生興趣。以人們所致力領(lǐng)域的不斷擴(kuò)張為標(biāo)志,數(shù)字人文中國(guó)研究(Digital Chinese Studies)經(jīng)歷了幾個(gè)分明的階段。早年間,大部分工作主要是基礎(chǔ)建設(shè)性的,集中于數(shù)據(jù)庫(kù)發(fā)展、平臺(tái)構(gòu)建和數(shù)字化等方面。近年來(lái),新的實(shí)踐群體已經(jīng)涌現(xiàn),學(xué)者們也開(kāi)始利用過(guò)去30年中建立起來(lái)的重要基礎(chǔ)。在中國(guó)歷史和中國(guó)文學(xué)研究中,研究者們已經(jīng)開(kāi)始取得真正的進(jìn)展。

關(guān)于研究中國(guó)的學(xué)者們運(yùn)用數(shù)字方法所開(kāi)展的工作,有眾多不同的分類方式。一部分人繼續(xù)構(gòu)造并完善大規(guī)模的基礎(chǔ)建設(shè)項(xiàng)目,而一些研究歷史、文學(xué)和藝術(shù)的個(gè)體學(xué)者如今則使用包括地理、網(wǎng)絡(luò)、文本和圖像分析在內(nèi)的各種方法。在這篇短文中,我將簡(jiǎn)單地介紹北美和歐洲的數(shù)字人文中國(guó)研究中的幾種主要潮流,還將介紹一些主要的研究者。要在這些眾多分類中劃出清晰的邊界是困難的(數(shù)據(jù)、基礎(chǔ)結(jié)構(gòu)和研究工作往往會(huì)相互生成),不過(guò)我仍會(huì)首先簡(jiǎn)要概述幾個(gè)主要的數(shù)字基礎(chǔ)建設(shè)項(xiàng)目(其中既有老的,也有新的),接下來(lái)我會(huì)討論當(dāng)下研究中的各種潮流,最后以對(duì)正在出現(xiàn)的數(shù)字人文中國(guó)研究新研究中心的討論作結(jié)。需要留意的是,這篇文章并非涵蓋一切,而只是意在描述我對(duì)這一領(lǐng)域當(dāng)下?tīng)顩r的看法。

一、數(shù)據(jù)挖掘與基礎(chǔ)結(jié)構(gòu)創(chuàng)建發(fā)展迅猛

西方的中國(guó)研究中最早的數(shù)字人文項(xiàng)目主要致力于數(shù)據(jù)庫(kù)建設(shè)與數(shù)字化。這些數(shù)據(jù)庫(kù)項(xiàng)目中,最為著名,使用者也最為廣泛的,也許是由郝若貝(Robert Hartwell)的工作所開(kāi)創(chuàng)的“中國(guó)傳記數(shù)據(jù)庫(kù)”(CBDB)。*“History of CBDB,” Harvard University, 2018年2月8日查閱,https://projects.iq.harvard.edu/cbdb/history-of-cbdb。Robert Hartwell (1932—1996) 是一位研究宋代中國(guó)的經(jīng)濟(jì)和社會(huì)歷史學(xué)家。CBDB是一個(gè)關(guān)系數(shù)據(jù)庫(kù),包含了眾多重要?dú)v史人物的傳記,其結(jié)構(gòu)方式則有助于大規(guī)模分析。CBDB可以被用作一種簡(jiǎn)單的參考文獻(xiàn)來(lái)源,也是一種查詢個(gè)體人物信息的快捷方式,但其真正價(jià)值在于它所支持的新的分析類型。例如,CBDB包含了庫(kù)中許多人物之間的互動(dòng)數(shù)據(jù),這讓學(xué)者們得以通過(guò)系統(tǒng)的方式展開(kāi)歷史社會(huì)結(jié)構(gòu)研究。

CBDB的設(shè)計(jì)用途是一個(gè)可下載數(shù)據(jù)庫(kù),使用微軟Access來(lái)支持其眾多特色。它也可以被當(dāng)作一個(gè)單純的在線服務(wù)來(lái)訪問(wèn),這也正是許多人利用它的方式。其最新迭代最初是由傅君勱(Michael Fuller)設(shè)計(jì)的,并由陳松加以擴(kuò)展。*“History of CBDB,” Harvard University.哈佛大學(xué)、臺(tái)灣“中研院”歷史語(yǔ)言研究所以及北京大學(xué)的一批學(xué)者至今仍在維護(hù)和擴(kuò)充這一數(shù)據(jù)庫(kù)。*Harvard University, Academia Sinica, and Peking University, “China Biographical Database,” 最后修訂于2018年1月1日,https://projects.iq.harvard.edu/cbdb.截至2017年4月發(fā)布的內(nèi)容,CBDB包含了有關(guān)約37萬(wàn)個(gè)歷史人物的大量群體傳記信息。*Harvard University, Academia Sinica, and Peking University, “China Biographical Database”.

與CBDB十分類似,中國(guó)歷史地理信息系統(tǒng)(CHGIS)是另一個(gè)由郝若貝創(chuàng)建的數(shù)據(jù)庫(kù)。*“Project History,” Harvard University,訪問(wèn)于2018年2月8日,http://sites.fas.harvard.edu/~chgis/pages/history.它一直位于哈佛大學(xué)(合作方為復(fù)旦大學(xué)),其維護(hù)受葛劍雄、包弼德(Peter Bol)和萊克斯·伯曼(Lex Berman)的指導(dǎo)。這一數(shù)據(jù)庫(kù)包含了有關(guān)中國(guó)歷史的詳盡圖形文件。

諸如CBDB和CHGIS等項(xiàng)目的主要推動(dòng)者是歷史學(xué)家們,而圖書(shū)館學(xué)家們同樣出現(xiàn)在數(shù)字研究發(fā)展浪潮的前沿,并在我們當(dāng)前的數(shù)字研究生態(tài)系統(tǒng)的建設(shè)中發(fā)揮了關(guān)鍵作用。令人遺憾的是,一個(gè)曾在這一領(lǐng)域有過(guò)卓越貢獻(xiàn)的重要早期項(xiàng)目在數(shù)年前就停止了運(yùn)行。至少在西方的大學(xué)里,這個(gè)項(xiàng)目是停止了。中文善本圖書(shū)項(xiàng)目(Chinese Rare Book Project)曾為善本中文圖書(shū)開(kāi)發(fā)了一套聯(lián)合目錄*“Chinese Rare Books in a Union Catalog,” OCLC,訪問(wèn)于2018年2月10日,https://www.oclc.org/research/activities/chineserarebooks.html.,該項(xiàng)目由普林斯頓大學(xué)的艾思仁(Soren Edgren)牽頭,盡管如今項(xiàng)目已經(jīng)結(jié)束,其數(shù)據(jù)卻并未流失。幸運(yùn)的是,大部分?jǐn)?shù)據(jù)被整合到了WorldCat在線目錄中,而項(xiàng)目本身也在2011年被轉(zhuǎn)移到了北京的中國(guó)國(guó)家圖書(shū)館。*“Soren Edgren,” Rare Book School,訪問(wèn)于2018年2月10日,http://rarebookschool.org/faculty/history/soren-edgren.在創(chuàng)建這一聯(lián)合目錄的過(guò)程中,莎拉·艾爾曼(Sarah Elman)、陳智華(音譯,Chi-wah Chan)和團(tuán)隊(duì)中的其他學(xué)者共同制訂并發(fā)表了一套準(zhǔn)則,用以指引一種能夠?qū)⑦@些書(shū)以機(jī)器可識(shí)別的格式進(jìn)行歸目,又能反映傳統(tǒng)文獻(xiàn)研究的系統(tǒng)性方法。這套準(zhǔn)則初次發(fā)表于2000年,并在2009年得到修訂。*Cataloging Guidelines for Creating Chinese Rare Book Records in Machine-Readable Form (Mountain View: Research Library Group, 2009),http://www.eastasianlib.org/ctp/webinars/ChineseRareBook/CRBP_guidelines.pdf.這份資料的制訂發(fā)揮了關(guān)鍵作用,讓更多人得以接觸這些善本圖書(shū)。不僅如此,它也為我本人關(guān)于中國(guó)印刷潮流的量化分析奠定了基礎(chǔ)。*Paul Vierthaler, “Analyzing Printing Trends in Late Imperial China Using Large Bibliometric Datasets,”Harvard Journal of Asiatic Studies 76 no. 1/2 (2016): 87-133.

盡管各有完全不同的目標(biāo),但以上各個(gè)項(xiàng)目都著眼于發(fā)展結(jié)構(gòu)化的數(shù)據(jù)集。對(duì)于我們中那些致力于文本挖掘的人而言,因中文語(yǔ)言文獻(xiàn)的數(shù)字化及其被納入語(yǔ)料庫(kù)的過(guò)程而誕生的未結(jié)構(gòu)化的數(shù)據(jù)集也同樣重要。在這一方面,亞洲學(xué)者們已經(jīng)取得了重大成果,西方的進(jìn)展也不遜色。截至2018年2月,這些項(xiàng)目中最大的一個(gè)是“中文文本項(xiàng)目”(Chinese Text Project,簡(jiǎn)稱CText),其創(chuàng)立者和負(fù)責(zé)人是唐納德·斯特金(Donald Sturgeon)。*Donald Sturgeon, Chinese Text Project,訪問(wèn)于2018年2月8日,http://www.ctext.org.這一項(xiàng)目從早期中文經(jīng)典著作開(kāi)始,已經(jīng)成長(zhǎng)為全球最大的開(kāi)源中文數(shù)字文本庫(kù)。*Sturgeon, “Introduction,” Chinese Text Project,訪問(wèn)于2018年2月8日,http://ctext.org/introduction.“中文文本項(xiàng)目”如今包含的經(jīng)過(guò)數(shù)字化轉(zhuǎn)錄的中文文本超過(guò)50億字,其中許多文本都經(jīng)由CText社區(qū)成員的細(xì)心編輯。2016年,CText開(kāi)始收錄哈佛-燕京圖書(shū)館所藏眾多中文善本圖書(shū)的掃描件(掃描圖片超過(guò)500萬(wàn)頁(yè))。*Sturgeon, “Latest Addition,” Chinese Text Project,訪問(wèn)于2018年2月8日,http://ctext.org.斯特金運(yùn)用光學(xué)字符識(shí)別技術(shù)(OCR),為這些圖片創(chuàng)建了可以完全由機(jī)器識(shí)別的版本。*Sturgeon, “Optical Character Recognition,” Chinese Text Project,訪問(wèn)于2018年2月8日,http://ctext.org/instructions/ocr.

CText沒(méi)有局限于其最初致力收錄的古代文本的范圍,而是納入了來(lái)自中國(guó)歷史上所有時(shí)期、種類極為廣泛的文獻(xiàn)。其他項(xiàng)目則更特別著眼于某些特定類別的文本。例如,馬克斯·普朗克科學(xué)史研究所(Max Planck Institute for the History of Science)的地方志數(shù)據(jù)庫(kù)項(xiàng)目就創(chuàng)建了一個(gè)數(shù)據(jù)庫(kù)和分析平臺(tái),旨在讓研究者能夠直接訪問(wèn)地方志的數(shù)字版本。這些文獻(xiàn)出自地方上的重要人物之手,往往包含著有關(guān)當(dāng)?shù)丨h(huán)境的廣泛信息(既有政治的,也有生態(tài)、語(yǔ)言及更多方面的)。項(xiàng)目的主要開(kāi)發(fā)者——薛鳳(Dagmar Sch?fer)教授和陳詩(shī)沛博士——希望他們提供的材料和分析工具能促進(jìn)對(duì)地方歷史的分析。這一項(xiàng)目“著眼于探索尺度的改變(地方記錄從個(gè)別的地方志轉(zhuǎn)入單一的全球數(shù)據(jù)庫(kù))會(huì)如何重塑中國(guó)歷史研究的面貌”*“Local Gazeteers,” Max Planck Institute for the History of Science,訪問(wèn)于2018年2月12日,https://www.mpiwg-berlin.mpg.de/research/projects/departmentSchaefer_SPC_MS_LocalGazetteers.。

在這種專為某個(gè)特定類別的寫(xiě)作創(chuàng)建文本庫(kù)的努力中,另一個(gè)例子是“明清女性寫(xiě)作”(Ming-Qing Women’s Writings)項(xiàng)目。該項(xiàng)目由麥吉爾大學(xué)的方秀潔(Grace Fong)教授負(fù)責(zé),始于2003年,至今仍在擴(kuò)充之中。如今,它收錄的明清時(shí)代女性著作的掃描版共有342個(gè)不同類別,納入了超過(guò)5000名女性作者的作品。*Grace Fong, “Introduction to the Digital Archive of Ming-Qing Women’s Writings,” McGill University,訪問(wèn)于2018年2月13日,http://digital.library.mcgill.ca/mingqing/english/introduction.php.

滿族研究領(lǐng)域的學(xué)者們同樣開(kāi)發(fā)了他們的平臺(tái)和文本庫(kù)。Manc.hu就是一個(gè)收錄了眾多滿語(yǔ)文獻(xiàn)的閱讀平臺(tái),由萊頓大學(xué)的京以宬(Fresco Sam-Sin)和利昂·羅登伯格(Léon Rodenburg)開(kāi)發(fā)。

在創(chuàng)建上述種種數(shù)據(jù)的過(guò)程中,一些項(xiàng)目還開(kāi)發(fā)了旨在讓學(xué)者們可以高效地瀏覽和分析數(shù)據(jù)的工具。CBDB的Access版本就包含了眾多能讓使用者查閱數(shù)據(jù)庫(kù)并迅速建立關(guān)系網(wǎng)絡(luò)的工具。CText也整合了各種工具(如詞典、索引工具,以及平行段落識(shí)別工具),能幫助使用者對(duì)CText文本庫(kù)所收錄的著作進(jìn)行細(xì)讀,并執(zhí)行基本文本挖掘任務(wù),而這些工具的數(shù)量還在不斷增長(zhǎng)。*Sturgeon, “Tools,” Chinese Text Project,訪問(wèn)于2018年2月8日,http://ctext.org/tools.“明清女性寫(xiě)作”項(xiàng)目所構(gòu)建的數(shù)據(jù)庫(kù)則包含了大量有關(guān)這些作品的元數(shù)據(jù)(從作者的姓名到個(gè)體詩(shī)歌的格律)。

在那些將大量精力投注于數(shù)據(jù)創(chuàng)建的項(xiàng)目之外,獨(dú)立于內(nèi)容擴(kuò)充的工具開(kāi)發(fā)也出現(xiàn)了。在過(guò)去大約5年時(shí)間里,眾多旨在幫助學(xué)者閱讀和標(biāo)記源文本的平臺(tái)得以問(wèn)世。由萊頓大學(xué)的魏希德(Hilde De Weerdt)和何浩洋(Brent Ho)創(chuàng)建的古籍半自動(dòng)標(biāo)示平臺(tái)MARKUS即為一例。它允許使用者上傳前現(xiàn)代的中文文本,并可以自動(dòng)為之加上人物、地點(diǎn)以及使用者定制概念等種種標(biāo)簽。MARKUS還擁有其他特點(diǎn),能讓使用者自動(dòng)創(chuàng)建“地理信息系統(tǒng)”(Geographic Information System,簡(jiǎn)稱GIS),視覺(jué)化數(shù)據(jù)(即地圖),并將標(biāo)記后的結(jié)果數(shù)據(jù)輸出,以便在其他平臺(tái)上進(jìn)行分析。*Brent Hou Ieong Ho and Hilde De Weerdt, MARKUS. Text Analysis and Reading Platform,訪問(wèn)于2018年2月14日,http://dh.chinese-empires.eu/markus.

近年出現(xiàn)的這種工具開(kāi)發(fā)的繁榮局面有賴于數(shù)字人文研究中一個(gè)重要的新潮流。這一潮流與數(shù)字人文領(lǐng)域?qū)﹂_(kāi)源精神的接受緊密相關(guān)(并且部分有賴于后者),而后者又表現(xiàn)為漢學(xué)研究數(shù)據(jù)庫(kù)及工具的主要開(kāi)發(fā)者們對(duì)應(yīng)用編程接口(APIs)的廣泛創(chuàng)建。應(yīng)用編程接口使得軟件開(kāi)發(fā)者可以直接從他人的服務(wù)器上提取信息(在某些情況下也可以整合某種特定工具的功能)。CText、CBDB以及其他項(xiàng)目全都包含了此類訪問(wèn)功能,這有助于創(chuàng)建一種項(xiàng)目之間彼此衍生、緊密關(guān)聯(lián)的生態(tài)系統(tǒng)。在這方面,MARKUS堪稱典范:使用者可以通過(guò)CText插件直接輸入文本,并使用CBDB、漢典ZDIC以及其他數(shù)據(jù)源的信息來(lái)自動(dòng)標(biāo)注文本。

讓MARKUS(以及其他類似項(xiàng)目)得以成為一種可變研究平臺(tái)的,是完全轉(zhuǎn)化為數(shù)字版本的文本數(shù)量的增加。學(xué)者們?nèi)缃衲軌蛞赃^(guò)去不可想象的方式來(lái)處理文本,以揭示陳舊的研究方法難以辨識(shí)的信息和傾向。然而,其他一些重要的努力則致力于利用互聯(lián)網(wǎng)的社區(qū)屬性,構(gòu)建起以技術(shù)方式對(duì)數(shù)千年來(lái)一直發(fā)揮重要作用的研究方法(諸如注釋和翻譯等)加以組織的平臺(tái)。耶魯大學(xué)的“廣廈千萬(wàn)間”項(xiàng)目(Ten Thousand Rooms Project)便是這種努力的典范之一。該項(xiàng)目由梅隆基金會(huì)(Andrew W. Mellon Foundation)資助,由呂立亭(Tina Lu)和米克·亨特(Mick Hunter)負(fù)責(zé),自我描述為“前現(xiàn)代文本研究協(xié)作空間”*“The Ten Thousand Rooms Project,” Yale University,訪問(wèn)于2018年2月10日,https://tenthousandrooms.yale.edu.。使用者可以通過(guò)斯坦福大學(xué)開(kāi)發(fā)的、符合國(guó)際圖像互操作框架(IIIF)的Mirador瀏覽器,向“廣廈千萬(wàn)間”平臺(tái)上傳文獻(xiàn)的掃描圖像,并圍繞它們來(lái)構(gòu)建研究項(xiàng)目。*“The Ten Thousand Rooms Project,” Yale University,訪問(wèn)于2018年2月10日,https://tenthousandrooms.yale.edu.任何感興趣的人都可以加入并創(chuàng)建項(xiàng)目?!皬V廈千萬(wàn)間”被設(shè)計(jì)為一個(gè)允許學(xué)者們就公版文獻(xiàn)展開(kāi)協(xié)作研究的平臺(tái),其核心創(chuàng)造性就在于這一平臺(tái)旨在支持的研究工作的眾包和協(xié)作屬性。這種做法具有研究和教學(xué)兩方面的意義。由于多人能夠?qū)ν晃谋具M(jìn)行研究,世界任何角落的學(xué)者群體都可以輕易地展開(kāi)協(xié)作,為某部唐詩(shī)集創(chuàng)建一個(gè)注釋版本。此外,大學(xué)里的課程也可以對(duì)某部明清小說(shuō)進(jìn)行轉(zhuǎn)錄、翻譯和評(píng)注。最重要的是,這些工作無(wú)須是文本性的。學(xué)者們也可以上傳藝術(shù)作品圖像,并直接注釋它們?!皬V廈千萬(wàn)間”項(xiàng)目的運(yùn)行基于“知識(shí)共享”(Creative Commons)的署名非商業(yè)用途許可,因此是對(duì)公眾開(kāi)放的,任何人都可以閱覽這些協(xié)作項(xiàng)目的成果。目前已經(jīng)有近50個(gè)研究和課程項(xiàng)目出現(xiàn)在這一平臺(tái)上。

歐洲和北美的中文數(shù)字人文研究的工具開(kāi)發(fā)領(lǐng)域正值繁榮期,許多新的項(xiàng)目在開(kāi)發(fā)之中。這些項(xiàng)目數(shù)量太多,我難以一一給予恰當(dāng)介紹。不過(guò),其中有幾個(gè)項(xiàng)目尤為重要,略過(guò)它們將是我的疏忽。以Intertext項(xiàng)目為例:有不少項(xiàng)目旨在開(kāi)發(fā)出某種軟件,用以識(shí)別不同文獻(xiàn)中出現(xiàn)的文本重復(fù),Intertext便是其中之一。*“Intertext (beta 0.8),” University of Chicago, 訪問(wèn)于2018年2月12日,http://edoc.uchicago.edu/textccr/textconcordancer.php。Intertext是芝加哥大學(xué)的一個(gè)項(xiàng)目,主要由Jeff Tharsen 開(kāi)發(fā)(我曾有限地參考過(guò)該項(xiàng)目)。在這一領(lǐng)域中努力的也有其他人,例如Donald Sturgeon, “Unsupervised identification of text reuse in early Chinese literature,” Digital Scholarship in the Humanities (November 2017),https://doi.org/10.1093/llc/fqx024.我也曾開(kāi)發(fā)一種類似的實(shí)驗(yàn)性算法,在文本庫(kù)水平執(zhí)行,對(duì)上千種文獻(xiàn)進(jìn)行比較。其目的在于幫助那些不會(huì)編程的人使用遠(yuǎn)程閱讀工具。另一個(gè)項(xiàng)目是“漢典古籍的主題模型化”(Topic Modeling the Handian Ancient Classics),其目標(biāo)與此類似。它使用主題模型方法,對(duì)早期中文文獻(xiàn)之間的關(guān)系加以視覺(jué)化。這一項(xiàng)目(由美國(guó)國(guó)家人文基金會(huì)提供資助)的設(shè)計(jì)者是美國(guó)印第安納大學(xué)的一個(gè)學(xué)者團(tuán)體,而他們的合作學(xué)者則來(lái)自中國(guó)西安交通大學(xué)。這個(gè)團(tuán)隊(duì)開(kāi)發(fā)了一種“主題瀏覽器”,以幫助學(xué)者視覺(jué)化他們得到的結(jié)果。*Colin Allen, et. al., “Topic Modeling the Handian Ancient Classics (漢典古籍)”, The Journal of Cultural Analytics (October 2017),https://doi.org/10.22148/16.016.

二、研究態(tài)勢(shì)日趨繁榮

此時(shí)應(yīng)當(dāng)已經(jīng)很明顯了:許多這樣的數(shù)字化項(xiàng)目、基礎(chǔ)建設(shè)項(xiàng)目與研究領(lǐng)域之間存在著一種共生關(guān)系(并且理當(dāng)如此)。研究生成數(shù)據(jù),數(shù)據(jù)生成基礎(chǔ)結(jié)構(gòu)。這一生成循環(huán)有時(shí)是一種自然的發(fā)展,其他時(shí)候則是出自設(shè)計(jì)(設(shè)計(jì)方案誕生于基金申請(qǐng)的寫(xiě)作階段)。由萊頓大學(xué)的佛教學(xué)者喬納森·斯科(Jonathan Silk)教授所主持、目前正處于初創(chuàng)之中的“開(kāi)放語(yǔ)文學(xué)”(Open Philology)項(xiàng)目就是這類項(xiàng)目的一個(gè)例子。這一項(xiàng)目由歐洲研究委員會(huì)資助,旨在設(shè)計(jì)一種平臺(tái),自動(dòng)將用中文與藏文書(shū)寫(xiě)的佛經(jīng)加以排列。*這個(gè)問(wèn)題在計(jì)算意義上相當(dāng)復(fù)雜。該團(tuán)隊(duì)聘請(qǐng)了一名博士后研究員,專門負(fù)責(zé)解決這一問(wèn)題。作為一名顧問(wèn),我也參與了這一項(xiàng)目。致力于這一項(xiàng)目的學(xué)者團(tuán)隊(duì)將為《大寶積經(jīng)》(MahāratnakūtaCollection)的文本創(chuàng)造出評(píng)注版本,而該團(tuán)隊(duì)將要開(kāi)發(fā)的平臺(tái)則可以讓學(xué)者們更有效率地探索某一給定文本的眾多校訂版本之間的文獻(xiàn)學(xué)聯(lián)系。

在諸多例子中,當(dāng)下歐洲和北美數(shù)字人文中國(guó)研究領(lǐng)域所開(kāi)展的研究都應(yīng)當(dāng)感謝這些從事數(shù)字基礎(chǔ)建設(shè)的先行者,他們?cè)趤喼藓臀鞣蕉歼M(jìn)行了數(shù)字化和開(kāi)發(fā)工作。數(shù)字人文中國(guó)研究領(lǐng)域的一些學(xué)者過(guò)去就曾為這些項(xiàng)目工作,陳松就是其中之一,他曾為哈佛大學(xué)的CBDB項(xiàng)目工作,并曾將GIS和基于CBDB信息的網(wǎng)絡(luò)分析結(jié)合起來(lái),以研究宋朝官員之間的網(wǎng)絡(luò)關(guān)系。*Song Chen, “Native Incumbency and Elite Networks in Song Dynasty Sichuan: Evidence of the Turn of the Mid-Eleventh Century from China Biographical Database (CBDB),” Song, Yuan, and Conquest Dynasties Studies, (2008),https://www.academia.edu/18396876/2008_conference_paper_Native_Incumbency_and_Elite_Networks_in_Song_Dynasty_Sichuan_Evidence_of_the_Turn_of_the_Mid-Eleventh_Century_from_China_Biographical_Database_CBDB_._Online_publication_via_online_via_the_Society_for_Song_Yuan_and_Conquest_Dynasties_Studies_2008.其他一些學(xué)者并沒(méi)有這種與某個(gè)基礎(chǔ)建設(shè)項(xiàng)目的歷史聯(lián)系,他們的研究工作大部分獨(dú)立于這些項(xiàng)目。有許多學(xué)者如今在數(shù)字空間中展開(kāi)研究,并利用這些開(kāi)發(fā)成果;此外,盡管GIS和社會(huì)網(wǎng)絡(luò)分析在數(shù)字人文中國(guó)研究中的歷史更長(zhǎng),但隨著學(xué)者們開(kāi)始學(xué)習(xí)編程或是開(kāi)始使用他人不斷開(kāi)發(fā)的新工具,文本挖掘正變得越發(fā)流行。幾乎所有涉及我此前提到的各個(gè)項(xiàng)目的學(xué)者都積極參與到數(shù)字研究中,然而也有許多其他學(xué)者并未與這些較大的項(xiàng)目發(fā)生直接聯(lián)系。與其他任何迅猛發(fā)展中的分支學(xué)科一樣,北美和歐洲有太多學(xué)者投身這一領(lǐng)域,多到我無(wú)法一一提及。不過(guò)我將在此聊舉幾例,以展示這一領(lǐng)域中的學(xué)者人物和研究主題的多樣性:陳威(Jack Chen,唐詩(shī)與《世說(shuō)新語(yǔ)》的文本挖掘)、馬瑞詩(shī)(Ruth Mostern,宋朝的GIS與地方志)、伊安·米勒(Ian M. Miller,對(duì)明朝歷史進(jìn)行文本挖掘以研究環(huán)境變化)、戴史翠(Maura Dykstra,明清法律文獻(xiàn)的文本挖掘)、包美歌(Margaret Wan,明朝小說(shuō)的文本挖掘與GIS研究)、詹森·普羅塔斯(Jason Protass,對(duì)宋朝佛教詩(shī)人的GIS/網(wǎng)絡(luò)分析)、康森杰(Jeff Tharsen,對(duì)早期中文文本的語(yǔ)音學(xué)分析/文本挖掘)、文欣(唐、宋及中亞歷史的文本挖掘/GIS)和韓瑞亞(Rania Huntington,志怪小說(shuō)中的社會(huì)網(wǎng)絡(luò));他們只是運(yùn)用數(shù)字工具來(lái)理解中國(guó)歷史和文學(xué)的學(xué)者群體中的一小部分。還有一些學(xué)者在西方接受訓(xùn)練,如今在亞洲工作,如劉晨(音譯,Chen Liu,宋朝書(shū)信的文本挖掘)。此外,全球各地的大學(xué)中還有眾多研究生使用數(shù)字方法,即將創(chuàng)造出優(yōu)秀的研究成果。

傳統(tǒng)學(xué)術(shù)領(lǐng)域中也出現(xiàn)了與此并行的發(fā)展,開(kāi)始發(fā)表基于數(shù)字方法的學(xué)術(shù)成果。因此,這些學(xué)者的研究成果并非僅僅出現(xiàn)在專注于數(shù)字人文的期刊上,如《文化分析期刊》(JournalofCulturalAnalytics)或《人文學(xué)科中的數(shù)字學(xué)術(shù)》(DigitalScholarshipintheHumanities),也出現(xiàn)在《早期近代中國(guó)》(EarlyMedievalChina)*例見(jiàn)Jack Chen, Zoe Borovsky, Yoh Kawano, and Ray Chen, “The Shishuo xinyu as Data Visualization,” Early Medieval China 20 (2014): 22-58.和《哈佛亞洲研究》(HarvardJournalofAsiaticStudies)*在其2016年刊中,HJAS 發(fā)表了該期刊第一篇數(shù)字研究領(lǐng)域的作品,即我關(guān)于大規(guī)模文獻(xiàn)分析的文章,參見(jiàn)David Howell, “Editorial Preface,” Harvard Journal of Asiatic Studies 76 no. 1/2 (2016), vii.等歷史悠久的中文研究期刊上。

三、團(tuán)體與會(huì)議層出不窮

隨著研究的繁榮,致力于數(shù)字人文的團(tuán)體也蓬勃發(fā)展起來(lái)。在過(guò)去幾年中,已經(jīng)有了一系列重要的組織發(fā)展,為西方漢學(xué)研究領(lǐng)域的數(shù)字研究提供了助力,其中一個(gè)重要組織便是Facebook上的數(shù)字漢學(xué)研究群。該群由阿琳娜(Elena Valussi)、邁克·以基維斯(Mikael Ikivesi)和維習(xí)安(Christian Wittern)于2015年5月創(chuàng)建,截至2018年2月6日,它已經(jīng)有了超過(guò)1000名成員,并成為中文數(shù)字人文討論的活躍站點(diǎn)。學(xué)者們?cè)谌褐蟹窒頃?huì)議消息、文章、職位列表,并征集文章。

此外,人們也在努力組織專為支持?jǐn)?shù)字人文中國(guó)研究的長(zhǎng)期計(jì)劃。斯坦福大學(xué)的穆蘭尼(Tom Mullaney)教授創(chuàng)建的DHAsia計(jì)劃就是此類努力的重要范例。盡管該計(jì)劃著眼于更廣泛意義上的亞洲研究,但有許多中國(guó)研究學(xué)者參與其中。這個(gè)計(jì)劃始于2016年,當(dāng)時(shí)正有一群演講者在斯坦福參加一次為期一周的短期駐校活動(dòng),期間他們發(fā)表演講,為學(xué)生提供咨詢,并為社區(qū)成員舉辦了一場(chǎng)研討會(huì)。2018年,將有來(lái)自世界各地的近40名學(xué)者向DHAsia主辦的一場(chǎng)會(huì)議提交論文(其中半數(shù)都是從事中國(guó)或中文材料研究的學(xué)者)。*“DHAsia 2018 Schedule Released,” DHAsia, 訪問(wèn)于2018年2月14日,http://dhasia.org/2018/01/dhasia-2018-schedule-released.

該領(lǐng)域還有一些更小規(guī)模的會(huì)議。美國(guó)霍普金斯大學(xué)的梅爾清(Tobie Meyer-Fong)教授在2017年10月組織了一場(chǎng)會(huì)議,名為“豐富的焦慮:數(shù)字時(shí)代清史研究的文獻(xiàn)與方法”,討論學(xué)者們?nèi)绾蚊鎸?duì)浩如煙海的清史材料這一問(wèn)題。*Late Imperial China的2017年12月刊上出現(xiàn)了一條關(guān)于此次會(huì)議的筆記:Emily Mokros, “Conference Note: Anxieties of Abundance: Sources and Methods for Qing Studies in the Digital Age,” Late Imperial China 38 no. 2 (December 2017): 153-156.加州大學(xué)圣芭芭拉分校的余泰明(Tom Mazanec)教授在2018年2月也組織了一次會(huì)議,名為“中國(guó)古典文學(xué)中的模式與網(wǎng)絡(luò):來(lái)自數(shù)字前沿的筆記”*“Conference: Patterns and Networks in Classical Chinese Literature: Notes From the Digital Frontier,” University of California, Santa Barbara, 訪問(wèn)于2018年2月13日,http://www.ihc.ucsb.edu/event/conference-patterns-networks-classical-chinese-literature-notes-digital-frontier.。然而,就在幾年之前,數(shù)字漢學(xué)研究會(huì)議的層出不窮在北美還是聞所未聞的事。

盡管西方中國(guó)研究領(lǐng)域中數(shù)字人文的發(fā)展勢(shì)頭迅猛,但它仍然落后于其他領(lǐng)域。主要障礙之一在于正規(guī)培訓(xùn)的缺乏。關(guān)于更廣泛的數(shù)字人文,已經(jīng)有了一些培訓(xùn)項(xiàng)目(例如倫敦的國(guó)王學(xué)院便設(shè)有數(shù)字人文的碩士學(xué)位項(xiàng)目)。但相對(duì)而言,中文研究者的選項(xiàng)仍然十分有限。2016年,萊頓大學(xué)舉辦了一次數(shù)字人文暑期班,提供數(shù)據(jù)庫(kù)設(shè)計(jì)、GIS、網(wǎng)絡(luò)分析和文本挖掘方面的培訓(xùn),吸引了來(lái)自全球的學(xué)生。哈佛大學(xué)也向研究生提供一些課程訓(xùn)練,斯特金就開(kāi)設(shè)了一門名為“中國(guó)研究之?dāng)?shù)字方法”的課,以數(shù)學(xué)家安東尼·羅齊(Anthony Ruozzi)和我在2015年開(kāi)設(shè)的實(shí)驗(yàn)性的“數(shù)字中國(guó)實(shí)驗(yàn)室”講座為基礎(chǔ)。*“Digital China,” Harvard University,訪問(wèn)于2018年2月13日,http://fairbank.fas.harvard.edu/projects/digital-china.然而此類課程的數(shù)量還遠(yuǎn)遠(yuǎn)不夠廣泛。除了這種非常設(shè)的項(xiàng)目,大部分?jǐn)?shù)字人文中國(guó)研究的學(xué)者仍然只能依靠自學(xué),或是從那些專長(zhǎng)不在中國(guó)研究的學(xué)者那里接受培訓(xùn)。這種情況意味著許多人需要經(jīng)歷一個(gè)復(fù)雜的過(guò)程,學(xué)會(huì)如何將那些為西方研究設(shè)計(jì)的工具和方法轉(zhuǎn)入一個(gè)新的文化與語(yǔ)言空間。

這一語(yǔ)言轉(zhuǎn)換正是西方的數(shù)字人文中國(guó)研究發(fā)展較慢的主要原因之一。大部分西方數(shù)字人文學(xué)者的研究對(duì)象都是西方,這意味著大量工具的設(shè)計(jì)工作語(yǔ)言都是英語(yǔ)、法語(yǔ)或其他歐洲語(yǔ)言,并非總能輕易地應(yīng)用于中文作品。最大的困難之一在于詞的分割,即在中文語(yǔ)境中如何將文本分割為詞語(yǔ)(我在與本文配合的那篇文章中深入討論了這一問(wèn)題)。就在不久之前,字符編碼還是一個(gè)主要問(wèn)題。盡管unicode編碼標(biāo)準(zhǔn)已經(jīng)存在了許多年,大量計(jì)算機(jī)工具仍未完全兼容它,或是兼容其他任何中文字符編碼標(biāo)準(zhǔn),如GB18030。幸運(yùn)的是,隨著計(jì)算機(jī)生態(tài)系統(tǒng)開(kāi)始原生支持unicode,這種情況已經(jīng)不再那么普遍了。編程語(yǔ)言Python的最新迭代Python 3已將unicode作為其默認(rèn)的字符串格式,與使用bytecode的前一迭代Python 2不同。要理解數(shù)字人文中國(guó)研究的當(dāng)前狀況,關(guān)鍵在于認(rèn)識(shí)到開(kāi)發(fā)數(shù)字工具的學(xué)者和機(jī)構(gòu)不斷增加的開(kāi)放性。這些工具越來(lái)越易于掌握,為學(xué)者們提供的結(jié)果也越來(lái)越令人鼓舞。隨著各大學(xué)開(kāi)始提供更廣泛的培訓(xùn),以及更多材料得以數(shù)字化,這一潮流還會(huì)加速。當(dāng)下,數(shù)字人文研究者在某種程度上仍然隔絕在自己的小天地里,但這些方法將會(huì)逐漸成為學(xué)者工具箱中的標(biāo)準(zhǔn)配置。當(dāng)然,并非所有學(xué)者都需要在工作中使用量化分析或文本挖掘,但他們需要熟悉這些方法,并能夠評(píng)價(jià)它們,正如他們面對(duì)那些更廣為接受的方法時(shí)一樣。中國(guó)研究正處于一個(gè)激動(dòng)人心的時(shí)刻,而我們將不斷從新的方法和模型中了解到更多中國(guó)歷史和文化中的有趣內(nèi)容。

四、結(jié)語(yǔ)

本文完全著眼于西方數(shù)字人文漢學(xué)研究中以20世紀(jì)20年代前的材料為對(duì)象的部分,主要原因之一在于我本人的專長(zhǎng)領(lǐng)域,但更迫切的理由是:數(shù)字方法有賴于使用數(shù)字化研究材料,而對(duì)那些研究更現(xiàn)代材料的學(xué)者來(lái)說(shuō),做到這一點(diǎn)要困難得多。這主要是因?yàn)榘鏅?quán)上的限制:公版材料的入手更加容易,而要取得1925年之后出現(xiàn)的材料的使用許可,難度遠(yuǎn)大于前者。盡管如此,數(shù)字人文現(xiàn)代中國(guó)研究領(lǐng)域中仍然出現(xiàn)了一些重要的成果,包括但不限于弗萊堡大學(xué)的毛澤東遺產(chǎn)項(xiàng)目正在開(kāi)展的工作(Daniel Leese、Wang Baigulahu、Amanda Schuman等)、戴安德(Anatoly Detwyler,關(guān)于20世紀(jì)20年代的科學(xué)與文學(xué)的研究)、蘇真(Richard Jean So,現(xiàn)代中國(guó)文學(xué))、郭旭光(Arunabh Ghosh,關(guān)于中華人民共和國(guó)初期的文獻(xiàn)計(jì)量分析/文本挖掘)以及其他許多人的研究。

猜你喜歡
學(xué)者人文數(shù)字
學(xué)者介紹
學(xué)者簡(jiǎn)介
學(xué)者介紹
答數(shù)字
人文紹興
學(xué)者介紹
數(shù)字看G20
人文社科
誰(shuí)來(lái)教“醫(yī)學(xué)人文”課
讓人文光輝照耀未來(lái)
吉林市| 监利县| 田东县| 确山县| 集安市| 南木林县| 灵山县| 西乌珠穆沁旗| 长子县| 炉霍县| 焦作市| 佛坪县| 伊金霍洛旗| 龙门县| 山丹县| 调兵山市| 南昌县| 婺源县| 建阳市| 信宜市| 甘孜县| 天全县| 阳朔县| 宜都市| 杭锦后旗| 深州市| 泸定县| 滨州市| 新绛县| 延津县| 兴海县| 太湖县| 玉龙| 葫芦岛市| 邵东县| 新晃| 绥芬河市| 吉隆县| 五指山市| 陕西省| 遵义市|