[美]霍伊特·朗 [美]蘇 真 撰 林 懿譯
(芝加哥大學(xué) 東亞語言與文化系,美國 芝加哥 60637;芝加哥大學(xué) 英文系,美國 芝加哥 60637)
?
文學(xué)模式識(shí)別:文本細(xì)讀與機(jī)器學(xué)習(xí)之間的現(xiàn)代主義①
[美]霍伊特·朗 [美]蘇 真 撰 林 懿譯
(芝加哥大學(xué) 東亞語言與文化系,美國 芝加哥 60637;芝加哥大學(xué) 英文系,美國 芝加哥 60637)
本文的標(biāo)題即宣告了它的核心目標(biāo):提出一種可以整合常見的人文主義手法和電腦計(jì)算手法的文學(xué)文本閱讀形式。近年來,運(yùn)用計(jì)算機(jī)來闡釋文學(xué)引發(fā)了激烈的爭(zhēng)論。一方面,弗朗科·莫瑞狄(Franco Moretti)、馬修·喬克斯(Matthew Jockers)、馬修·威爾肯斯(Matthew Wilkens)和安德魯·派博(Andrew Piper)等學(xué)者支持運(yùn)用主題建模、網(wǎng)絡(luò)分析等精密機(jī)器技術(shù)來揭示從海量數(shù)字化文學(xué)資料庫中挑選出的語言與形式的宏觀模式。*Franco Moretti, Distant Reading, London, 2013; Matthew L. Jockers, Macroanalysis: Digital Methods and Literary History, Urbana, Ill., 2013; Matthew Wilkens, “The Geographic Imagination of Civil War-Era American Fiction,” in American Literary History 25 (Winter 2013), pp. 803-40; and Andrew Piper and Mark Algee-Hewitt, “The Werther Effect I: Goethe, Objecthoods, and the Handling of Knowledge,” in Matt Erlin and Lynn Tatlock (eds), Distant Readings: Topologies of German Culture in the Long Nineteenth Century, Rochester, N.Y., 2014, pp. 155-84.另一方面,亞歷山大·加洛韋(Alexander Galloway)、大衛(wèi)·科倫比亞(David Golumbia)、塔拉·麥克弗森(Tara McPherson) 和艾倫·劉(Alan Liu)等新媒體研究領(lǐng)域的學(xué)者則批評(píng)機(jī)器技術(shù),認(rèn)為此類技術(shù)將文學(xué)文本的復(fù)雜性化約成純粹的“數(shù)據(jù)”,或它們與批評(píng)理論的目標(biāo)無法匹配。*有關(guān)加洛韋、科倫比亞與麥克弗森的近期批評(píng),參見期刊Differences關(guān)于“在數(shù)字人文的陰影下”主題的特別話題。他們的論文包括:Alexander Galloway, “The Cybernetic Hypothesis,” in Differences 25, No.1(2014), pp.107-31; David Golumbia, “Death of a Discipline,” in Differences 25, No. 1 (2014), pp.156-76; 與 Tara McPherson, “Designing for Difference,” in Differences 25, No. 1, 2014, pp.177-88.同時(shí)參見Alan Liu, “Where is Cultural Criticism in the Digital Humanities?” in Debates in the Digital Humanities, Matthew K. Gold (ed), Minneapolis, 2012, pp. 490-509.這里我們要通過創(chuàng)建一個(gè)不將一種閱讀模型與另一種模型對(duì)立,而是把人文主義方法和電腦計(jì)算方法整合進(jìn)一種我們稱為文學(xué)模式識(shí)別的文學(xué)分析方式,來超越這一僵局。
這一整合的動(dòng)機(jī)是雙重的。首先,當(dāng)下多數(shù)人文主義學(xué)者已經(jīng)參與了某些形式的電腦計(jì)算批評(píng)。正如泰德·安德伍德(Ted Underwood)指出的,任何計(jì)算機(jī)輔助的信息搜索,不管是通過谷歌還是更正式的諸如JSTOR這樣的學(xué)術(shù)數(shù)據(jù)庫,都是一種由機(jī)器學(xué)習(xí)算法所支持的“數(shù)據(jù)挖掘”。*Ted Underwood, “Theorizing Research Practices We Forgot to Theorize Twenty Years Ago,” in Representations 127 (Summer 2014), p.65.每次我們?cè)诠雀鑸D書或其他數(shù)字化資料庫中輸入一個(gè)搜索詞條,我們都在與這些算法互動(dòng)。安德伍德補(bǔ)充道,人文主義研究者們傾向于忽略這種互動(dòng)而不進(jìn)行理論研究,他們認(rèn)為搜索引擎僅僅是幫助我們通達(dá)真正闡釋工作的工具,同時(shí)還往往堅(jiān)稱這些工具背后的科學(xué)是非人性的、僵硬的、機(jī)械的。甚至在我們批評(píng)這些工具與我們作為人性讀者所參與的細(xì)致分析和批判性思考相比的“黑箱”性質(zhì)時(shí),我們還是在自己的研究中把這些工具黑箱化。*“黑箱”是理工類程序中的常見概念,指某程序的機(jī)制無法被人完全掌控或觀測(cè),只能知道輸入和輸出的結(jié)果?!g者注運(yùn)用更復(fù)雜數(shù)據(jù)挖掘工具的文學(xué)研究學(xué)者更是加倍地受到指責(zé),理由是他們通過冰冷而不知變通的機(jī)器邏輯來扭曲了文學(xué)文本。然而,隨著我們與文本(以及信息)的互動(dòng)越來越多地受到數(shù)字格式和大數(shù)據(jù)庫的影響,這一立場(chǎng)變得愈發(fā)站不住腳。我們無法在繼續(xù)忽視機(jī)器算法如何“閱讀”文學(xué)信息的同時(shí),又盲目地依賴它們來強(qiáng)化我們自身的閱讀與闡釋實(shí)踐。
與此同時(shí),主張批評(píng)家們必須學(xué)習(xí)這些計(jì)算程序如何操作并不表示這些程序是毫無問題的人力閱讀模式的替代品——也不意味著對(duì)機(jī)器技術(shù)正當(dāng)性的評(píng)判可以由更復(fù)雜的計(jì)算模型和更大容量的數(shù)據(jù)庫來滿足,盡管斯坦福文學(xué)實(shí)驗(yàn)室(Literary Lab)的莫瑞狄、馬克·阿爾及-休伊特(Mark Algee-Hewitt)與萊恩·霍伊澤爾(Ryan Heuser)已在這些方面作了杰出的工作。*參見這一團(tuán)隊(duì)在斯坦福文學(xué)實(shí)驗(yàn)室印發(fā)的一系列出色的手冊(cè),Pamphlets,
以上正是我們這里通過一個(gè)對(duì)文學(xué)現(xiàn)代主義、特別是英語俳句的案例分析所試圖達(dá)到的目標(biāo)。從什么定義了現(xiàn)代英語俳句這一基本問題開始,我們同時(shí)運(yùn)用常見批評(píng)模型(文本細(xì)讀與歷史主義批評(píng))和計(jì)算機(jī)手段(機(jī)器學(xué)習(xí))來給出三種相異的答案。也就是說,我們將通過三種文本分析模型來考察一個(gè)實(shí)質(zhì)為文體辨認(rèn)的問題。這種做法意在表明每一種模型都暗含了其自身的文本本體觀,且每種模型都揭示了與它的本體觀相連的對(duì)文學(xué)模式和文體學(xué)影響的理解。不過,我們并非要偏重某一模型而貶低另一模型,而是要主張通過這類人力閱讀與機(jī)器閱讀的交互作用,凸現(xiàn)出一種關(guān)于俳句這種文學(xué)事物的新的批評(píng)視角。通過將這些文學(xué)分析模型理解為按其自身視域具有理據(jù)、而在更廣闊的模式識(shí)別闡釋學(xué)中可相互對(duì)照,一種關(guān)于俳句——以及廣義地關(guān)于現(xiàn)代主義文本——的新的本體觀出現(xiàn)在人們視野中。
本論文由四部分組成。第一部分通過文本細(xì)讀來詳述俳句的特點(diǎn);第二部分將俳句作為社會(huì)歷史事物來閱讀;第三部分則通過機(jī)器學(xué)習(xí)的框架來闡釋俳句。在以上各部分中,我們將分析每一種批評(píng)手法提供的特有而自發(fā)的關(guān)于俳句的觀念,并且揭示這些觀念如何架構(gòu)起相應(yīng)手法辨別俳句——作為一種特殊且可重復(fù)的文體或文學(xué)模式——的能力。在最后一部分中,我們使各批評(píng)手法直接對(duì)話,以表明盡管它們遵循的對(duì)俳句的本體論認(rèn)識(shí)各不相同,不同的識(shí)別文學(xué)模式(pattern)的方式卻可以補(bǔ)充各自的不足。綜合起來考察,這些批評(píng)手法提供了作為社會(huì)與文化氛圍的英語俳句的更全面的圖景——它是更廣闊的流行于20世紀(jì)初的東方主義風(fēng)格的一部分。*結(jié)語部分將闡明我們運(yùn)用這一術(shù)語的準(zhǔn)確意義。由此,本論文最終通過展示我們?nèi)绾文軌虬衙绹F(xiàn)代主義時(shí)期的東方主義歷史重新理解為不同本體論范疇所表達(dá)的一套相互重疊的文本模式,為現(xiàn)代主義時(shí)期的東方主義研究作出貢獻(xiàn)。
作為現(xiàn)代主義文本的英語俳句
首先,什么決定了一首詩是否是英語俳句?一種判定詩歌屬于某種創(chuàng)作體裁的方法是將它當(dāng)作一個(gè)單獨(dú)的文本來研究,并仔細(xì)分析它的內(nèi)容與形式特點(diǎn)。這種方法就是我們認(rèn)為的典型的文本細(xì)讀。假設(shè)我們面對(duì)埃茲拉·龐德的《四月》這首詩,我們將怎樣決定它是否是英語俳句?
三個(gè)幽靈向我走來
撕裂我
引我走向橄欖樹枝
赤裸躺臥之地;
光亮霧靄下的蒼白尸體。*Ezra Pound, “April,” in Personae: Collected Shorter Poems of Ezra Pound, London, 1952, p. 101.
由于這首詩不具備日本俳句“五七五”的傳統(tǒng)音節(jié)模式,我們可以首先總結(jié)出,就最嚴(yán)格的形式定義而言,這首詩不是俳句。然而一些縱然天真卻是直覺性的觀察卻能夠支持該詩借用了日本俳句的其他文體特點(diǎn)這一看法。首先,這是首短詩,特別短。其次,這首詩不關(guān)注敘事而突出了一系列生動(dòng)的意象——詩里沒有故事,也沒有“人物”——并且這些意象取自自然。在這些方面,《四月》與淺表觀點(diǎn)中的俳句特點(diǎn)相吻合。更深刻更投入的讀法則可以把該文本視為某種哲學(xué)聲明來考察。在開頭兩行中,我們發(fā)現(xiàn)說話的自我或詩中的“我”實(shí)際上被文本撕裂且迅速被一個(gè)具體意象所取代:橄欖樹枝。主體性——該文本暗示道——是棲居于外部事物而非人的身體或心靈中。是“樹枝”赤裸躺臥在地,它替換了之前被撕裂的身體或意識(shí)。最后一行則通過與其他意象的重疊而強(qiáng)調(diào)了這一意象,樹枝被轉(zhuǎn)移為“光亮霧靄”下的“蒼白尸體”。主體性回歸了(與“樹枝”的純粹物性不同,“蒼白尸體”這一意象暗示了情緒與感情),但此時(shí)是經(jīng)由一個(gè)以并置方式運(yùn)作的生動(dòng)意象的中介。一半是取自自然的物質(zhì)(“霧靄”),另一半則蘊(yùn)含情緒(“蒼白尸體”),詩句成功地將主體與客體融合起來。
基于這樣的閱讀,我們可以認(rèn)為《四月》代表了一例英語俳句,因?yàn)樗鼭M足了我們賦予其他這一類型的詩歌的某些標(biāo)準(zhǔn)。我們又是怎樣獲得這些標(biāo)準(zhǔn)的呢?部分靠直覺。作為文學(xué)作品的讀者,我們繼承了關(guān)于用英文寫成的俳句是何模樣的普遍直感:它應(yīng)該是短的,包含自然意象,并在表達(dá)上是含蓄的。更嚴(yán)密地說,我們用以判斷一首詩是否是英語俳句的標(biāo)準(zhǔn)源自其他文學(xué)研究者的論著。例如,厄爾·邁納(Earl Miner)提出英語俳句通常具有以下特征:對(duì)精簡(jiǎn)與準(zhǔn)確的倚重、對(duì)常常將具體卻不相稱的意象并置的視覺語言的運(yùn)用,以及由這些意象的運(yùn)用產(chǎn)生的具有暗示性而非刻意或外顯的意義。*參見Earl Miner, The Japanese Tradition in British and American Literature, Princeton, N. J., 1958, p.125; 下文簡(jiǎn)稱JT.我們可以將這些特征視為英語俳句普遍遵循的一套規(guī)則。
運(yùn)用這些標(biāo)準(zhǔn),我們還可以開始通過判斷詩歌甲或詩歌乙是否具備與《四月》相似的美學(xué)特征來辨別出這一時(shí)期的其他英語俳句。試思考威廉·卡洛斯·威廉斯的《婚姻》:
如此不同,這男人
和這女人:
田里流動(dòng)的
一條小溪。*William Carlos William, “Marriage,” in The Collected Poems of William Carlos William, A. Walton Litz and Christopher MacGowan (eds), 2 vols. (New York, 1986-1988), 1:56.
直覺再一次暗示了這是一首受到俳句啟發(fā)的詩。這首詩簡(jiǎn)短、基于意象,并以取自自然的事物結(jié)尾。更為重要的是,它也滿足了邁納提出的基本標(biāo)準(zhǔn)。在內(nèi)容與排印兩個(gè)方面看,它都聚焦于呈現(xiàn)而非再現(xiàn),并且將男人、女人與自然景物相重疊,明顯地使用了并置法。然而,將它與《四月》對(duì)比時(shí)又出現(xiàn)一些區(qū)別。詩中確實(shí)有并置(或疊加)發(fā)生,但這一技巧卻沒有那般牢固地基于意象。詩歌雖然也有從主體性的到客體性的轉(zhuǎn)換和二者最終的相互融合,卻不似前詩那般專注于將這一現(xiàn)象凝結(jié)為視覺觀感。學(xué)術(shù)界也肯定了以上粗略的比較。查爾斯·阿爾提艾瑞(Charles Altieri)寫道,“總體而言,威廉斯拒絕龐德那種關(guān)于形式的抽象話語,并強(qiáng)調(diào)對(duì)地點(diǎn)與尋常話語的敏感性就已足夠使事實(shí)更加生動(dòng)。”*Charles Aliteri, The Art of Twentieth-Century American Poetry: Modernism and After, Malden Mass., 2006, p.41.如此一來,要把兩首詩都辨識(shí)為俳句,我們必須進(jìn)行妥協(xié),承認(rèn)二者雖都體現(xiàn)了俳句的風(fēng)格影響,但個(gè)體詩人的性情和身處環(huán)境各自不同。事實(shí)上,這正是當(dāng)我們?cè)噲D分析某一文體跨作家和跨語境的豐產(chǎn)性和流變過程時(shí),文本細(xì)讀常常使我們處于的分析立場(chǎng):探查不同藝術(shù)家如何不同程度地加入了這一文體。正如此處所演示的,這些分析步驟的實(shí)施預(yù)設(shè)了英語俳句具有某種理想模式,將某首詩與它進(jìn)行比對(duì)即可根據(jù)其近似或偏離的程度來評(píng)估該詩的“俳句性”。
這些分析步驟在現(xiàn)代主義詩歌研究中無疑是很常見的。阿爾提艾瑞、瑪喬瑞·帕洛夫(Marjorie Perloff) 與海倫·文德勒(Helen Vendler)等重要學(xué)者在描述某文體與某一特定詩人或詩人圈的關(guān)聯(lián)時(shí),常常運(yùn)用與形式有關(guān)的語言。例如,阿爾提艾瑞認(rèn)為意象主義詩人追求一種關(guān)于“感知”的“與眾不同的形式”*Charles Aliteri, The Art of Twentieth-Century American Poetry: Modernism and After, Malden Mass., 2006, p.23.,而文德勒則肯定了一種華萊士·史蒂文斯形式的存在,它運(yùn)作起來就像“一種代數(shù)式的陳述,每個(gè)讀者都能用自己的價(jià)值來取代其中的x或y”*Helen Vendler, Wallace Stevens: Words chosen out of Desire, Knoxville, Tenn., 1984, p. 8.。這類批評(píng)思路試圖辨明現(xiàn)代主義詩人是如何將語言的整個(gè)范疇改造成某種文體或?qū)懽餍问健谅宸蚍Q之為詩歌的“模式”(pattern),在她的理解中它與語義和印刷版式均有關(guān)。*參見Marjorie Perloff, The Dance of the Interllect: Studies in the Poetry of the Pound Tradition, Evanston, Ill., 1996.
然而,在其他案例中,現(xiàn)代主義學(xué)者們運(yùn)用對(duì)比性的文本細(xì)讀來達(dá)成相反的目標(biāo)。他們傾向于關(guān)注各文本“活生生的獨(dú)一性”而非它們共享的對(duì)某一“形式”或“模式”的繼承。*Peter Nicholls, “The Poetics of Modernism,” in The Cambridge Companion to Modernist Poetry, Alex Davis and Lee M. Jenkins (eds.), New York, 2007, p. 61.在這些例子中,學(xué)者們會(huì)關(guān)注一首詩通過它被寫就以及它通過語言獲得形式的過程所獲得的意義的深淺。意義產(chǎn)生于物質(zhì)性的語言和文本自身的顯現(xiàn)。不但詩歌表達(dá)的力量來自于它自身的語言,而且詩歌閱讀也關(guān)乎將詩歌本身視為一起正在發(fā)展的事件。這些觀點(diǎn)被處于龐德、威廉斯與史蒂文斯等作家的經(jīng)典闡釋領(lǐng)域中的權(quán)威學(xué)者們著重肯定。例如,彼得·尼科爾(Peter Nicoll)認(rèn)為每個(gè)現(xiàn)代主義文本都揭示了“某一語言的紋理內(nèi)的一個(gè)嶄新和‘別樣的現(xiàn)實(shí)’”,并“創(chuàng)建了它自己的世界”*Peter Nicholls, “The Poetics of Modernism,” in The Cambridge Companion to Modernist Poetry, Alex Davis and Lee M. Jenkins (eds.), New York, 2007,p.6,p.61.。在這些描述中,一首詩就是一個(gè)表達(dá)之獨(dú)一性的例子;它只屬于其被創(chuàng)造出來的那種語言。潛藏在此處的是這樣一種信仰,即每一個(gè)文本,它作為在讀者眼前展開的一個(gè)語言世界,只能是且只將其自身呈現(xiàn)為某一獨(dú)特類別的詩歌。
如果放在一起考察,這兩種文本細(xì)讀的闡釋傾向留給我們一種多少有些油滑的現(xiàn)代主義文本本體觀。一方面,文本被視為不同程度地隸屬于更普遍的文學(xué)風(fēng)格形式,如“史蒂文斯形式”。另一方面,文本又作為一個(gè)“活生生的獨(dú)一性”而存在,或是作為一個(gè)自我建構(gòu)的現(xiàn)實(shí),其美學(xué)價(jià)值取決于它對(duì)一切成規(guī)的背離。在現(xiàn)代主義詩歌研究中,第二種觀點(diǎn)往往獲得勝利。對(duì)個(gè)體文本進(jìn)行精深細(xì)讀并說明它們的獨(dú)特性質(zhì)在這些研究中成為主流,而將詩歌根據(jù)普遍化的風(fēng)格形式或模式來分類則受到較少關(guān)注。這自然與相關(guān)領(lǐng)域盛行的某些批評(píng)傾向有關(guān),不過,我們也可以將之部分歸因于文本細(xì)讀這一方法自身的限制。根據(jù)一個(gè)共享的風(fēng)格模式來不斷篩選詩歌的計(jì)劃在數(shù)十篇詩歌的層面似乎還可行,但到數(shù)百篇的層面該怎么辦呢?如果人們偏向于認(rèn)為每個(gè)閱讀行動(dòng)本質(zhì)都是主觀的,且文本的風(fēng)格也取決于僅對(duì)那一特定例子適用的一干因素,那么將文本細(xì)讀當(dāng)作一種模式辨認(rèn)的方式就變得十分難以操作了。詳述某文本的獨(dú)特方面或描述它如何偏離了預(yù)設(shè)的規(guī)范模型會(huì)比試圖界定該模型更有回報(bào)。如果某一形式在每次閱讀新文本時(shí)都需要進(jìn)行更改或調(diào)整,要設(shè)想它有任何可確證的一致性就變得更困難了,因此放棄形式或僅僅將之假定為一個(gè)模糊的概念會(huì)更容易些。
我們本來或可接受這種不穩(wěn)定的文學(xué)模式概念,然而英語俳句卻給我們呈現(xiàn)了一個(gè)特殊的例子。作為文本細(xì)讀的對(duì)象,英語俳句往往在學(xué)術(shù)批評(píng)中同時(shí)橫跨兩個(gè)方面。也就是說,它被一些人理解為遵循一個(gè)明顯可辨的模式,又被另一些人解讀為一個(gè)極度開放且模糊的美學(xué)形式。例如,杰弗瑞·約翰遜(Jeffrey Johnson)堅(jiān)持認(rèn)為存在一個(gè)明確的“俳句形式”,并同邁納一樣勾勒出一套規(guī)則來描述這一形式的特征。這些規(guī)則包括“以名詞為主宰的詩句”和“無評(píng)論的意象”等例,而一首英語俳句中總會(huì)呈現(xiàn)這些規(guī)則的某些組合。*Jeffrey Johnson, Haiku Poetics in Twentieth Century Avant-Garde Poetry, Lanham, Md., 2011, p. 69,p.68.但另一些學(xué)者卻認(rèn)為這些規(guī)則達(dá)成的是一個(gè)寬松得多的對(duì)形式與風(fēng)格的限定,甚至只是一個(gè)模糊的美學(xué)傾向。例如,當(dāng)文德勒提出“史蒂文斯形式”時(shí),她所想的是這些詩歌共有的一種普遍特質(zhì)或感覺,而不是一個(gè)形式準(zhǔn)則清單。*Vendler, Wallace Stevens, p. 57.英語俳句既像“五七五”格律一般易于辨認(rèn),又變幻不定得只是一種共有的感覺。
這種雙面特征在勞拉·賴丁(Laura Riding)和羅伯特·格雷夫斯(Robert Graves)的經(jīng)典專著《現(xiàn)代主義詩歌考察》(ASurveyofModernistPoetry, 1927)中被很好地體現(xiàn)出來。在兩位作者為創(chuàng)造性活動(dòng)的自足性辯護(hù)時(shí),用俳句作為反面例子來表達(dá)這種自足性。在他們看來,俳句在現(xiàn)代主義詩歌中到處泛濫寄生,已成為一種模仿性的、更像社會(huì)建制而非個(gè)體行動(dòng)的詩歌范例。身為杰出的文本細(xì)讀讀者,兩位作者用幾例代表性詩歌就診斷出問題所在(見圖1),并進(jìn)而“繪制一幅文學(xué)圖示”來追索英語俳句的起源和出問題之處:*Laura Riding and Robert Graves, A Survey of Modernist Poetry (London, 1927), p. 216,p. 217,p.218.
是誰發(fā)明了前兩首詩的文體,奧爾丁頓先生(Mr.Aldington)還是威廉斯先生?抑或H. D.或弗林特(F. S. Flint)?……在后兩首詩中誰為其形式負(fù)責(zé)?是誰首先想到模仿日本俳句的形式?或者應(yīng)該說是誰首先想到模仿法國人對(duì)俳句形式的模仿?是奧爾丁頓先生向史蒂文斯先生或龐德先生建議了短一些的詩歌,或是龐德先生向奧爾丁頓先生建議了長些的詩歌等等,或者是龐德先生、史蒂文斯先生和奧爾丁頓先生、威廉斯先生兩隊(duì)伙伴決定作為一個(gè)學(xué)派團(tuán)隊(duì)共同工作;又或者是威廉斯先生、史蒂文斯先生和奧爾丁頓先生、龐德先生兩相結(jié)合,鑒于從國別上這樣配對(duì)更合適?*Laura Riding and Robert Graves, A Survey of Modernist Poetry (London, 1927), p. 217.
圖1 以上賴丁和格雷夫斯引用的四首詩表現(xiàn)了俳句的寄生特性。這幾首詩也是引文中所指的詩
然而,在嘗試將俳句形式的興起和傳播獨(dú)立出來的問題上,賴丁和格雷夫斯就走到這兒。剩下的只能留待猜測(cè)。他們面對(duì)的僵局正是一個(gè)偏向于將詩歌視為自我實(shí)現(xiàn)的活生生的獨(dú)一體的研究手法所面臨的僵局。他們將俳句視為典型性的文學(xué)模式,認(rèn)為俳句激起了一種共有的感覺,它又形成了一種更廣泛的、被過度復(fù)制的風(fēng)格。但是誰首先開始的?誰是傳播它的罪魁禍?zhǔn)??這些詩歌是如何相像的?堅(jiān)決忠于一種閱讀模型和一種對(duì)詩文的看法,賴丁和格雷夫斯只能戲擬出一串文學(xué)批評(píng)問題,既不相信也不愿意找到令人信服的答案。對(duì)他們來說,英語俳句既是一種傳統(tǒng)文學(xué)模式的典型,同時(shí)又是一種他們樂于僅僅通過指認(rèn)就分辨出來的東西。
作為社會(huì)歷史事件的英語俳句
一種在更大數(shù)量的詩歌之中發(fā)現(xiàn)文體模式的辦法是選擇一種不同的英語俳句文本本體觀。這里我們可以求助于新現(xiàn)代主義研究(New Modernist Studies)。它以新歷史主義為指導(dǎo),為現(xiàn)代主義學(xué)者拓展了研究手法與材料。麗貝卡·沃克維奇(Rebecca Walkowitz)與道格拉斯·毛(Douglas Mao)提出,現(xiàn)代主義研究的對(duì)象一度只狹隘地聚焦于一小眾經(jīng)典的、精英的、大半為英語的文本,但現(xiàn)在正朝著新的“時(shí)間、空間和深度方向”發(fā)展。*Douglas Mao and Rebecca L. Walkowitz, “The New Modernist Studies,” PMLA 123 (May 2008), p.737.這意味著現(xiàn)代主義的時(shí)間范疇在向前向后都有擴(kuò)展;其空間范疇含括了表面上與英美地理中心相距遙遠(yuǎn)的地方;其文化范疇也伸向了小圈子精英創(chuàng)作之外的各種文本和體制環(huán)境。伴隨這些擴(kuò)展而來的是對(duì)現(xiàn)代主義文本的看法變化:它是體制與媒體環(huán)境的產(chǎn)物,并同樣根植于歷史話語體系。*如參見Lawrence Rainey, Institutions of Modernism: Literary Elites and Public Culture, New Haven, Conn., 1999, 以及Andrew Goldstone, Fictions of Autonomy: Modernism from Wilde to de Man, New York, 2013.關(guān)于體制環(huán)境,還可參見Mark Wollaeger, Modernism, Media, and Propaganda: British Narrative from 1900 to 1945, Princeton, N.J., 2008和Mark Goble, Beautiful Circuits: Modernism and the Mediated Life, New York, 2010中關(guān)于現(xiàn)代主義與現(xiàn)代媒體形式的關(guān)系。這些看法改變了我們閱讀文本的方式,并將文本視為更廣闊的美學(xué)與社會(huì)學(xué)模式的一部分。
根據(jù)這種看法,英語俳句開始看起來不那么像一個(gè)自足獨(dú)立的詩歌藝術(shù)品,而更像美國作家們借鑒外國詩歌體裁的集體嘗試。這里,俳句成了流行體裁和歷史事件——一個(gè)陷在特定社會(huì)物質(zhì)流通模式中的美學(xué)關(guān)注對(duì)象。很大一部分在現(xiàn)代主義和東方主義名義下的研究(如克里斯托弗·布什、羅伯特·科恩、埃里克·海奧、史蒂文·姚*上述學(xué)者英文名分別為Christopher Bush, Robert Kern, Eric Hayot, Steven Yao.——譯者注和錢兆明等學(xué)者的研究)已經(jīng)提供了一個(gè)以濃厚歷史主義為支持的框架,意在將亞洲美學(xué)文本在英語中的出現(xiàn)理解為20世紀(jì)早中期西方藝術(shù)家對(duì)東亞文化廣泛癡迷的一部分。*參見Christopher Bush, “Modernism, Orientalism, and East Asia,” in A Handbook of Modernism Studies, ed. Jean-Michel Rabaté, Malden, Mass., 2013, pp.193-208; Robert Kern, Orientalism, Modernism, and the American Poem, New York, 1996; Eric Hayot, Chinese Dreams: Pound, Brecht, Tel Quel, Ann Arbor, Mich., 2004; Steven G. Yao, Translation and the Languages of Modernism: Gender, Politics, Language, New York, 2002; and Zhaoming Qian, Orientalism and Modernism: The Legacy of China in Pound and Williams, Durham, N.C.,1995.這種癡迷已經(jīng)超出了純粹的美學(xué)興趣;受更大政治力量影響的異域情調(diào)和帝國主義等話題激起了西方世界對(duì)中國和日本藝術(shù)的興趣??贫骶瓦@一課題提出了精辟的總結(jié):“我們面臨的問題可被稱為‘囚禁于西方的中國詩歌’,以及翻譯實(shí)踐自身被某些具有優(yōu)先權(quán)的事物征用與引導(dǎo)的程度,這些事物試圖擾亂并改變中國詩歌接觸西方讀者的本來過程?!?Kern, Orientalism, Modernism, and the American Poem, p.175.
在新的現(xiàn)代主義框架內(nèi),關(guān)注焦點(diǎn)由之轉(zhuǎn)向決定俳句如何接觸到英語讀者的歷史要素,以及這些要素對(duì)俳句接受的影響。整個(gè)過程可分為三個(gè)階段來描述。第一階段稱為發(fā)現(xiàn)階段,開始于20世紀(jì)初并主要由收集行動(dòng)或樣本采集行動(dòng)所決定。這時(shí)的目標(biāo)是為了在東方文學(xué)的陳列柜里再添珍品。當(dāng)時(shí),隨著日本在地理政治舞臺(tái)的出場(chǎng)增多,東方文學(xué)的陳列品也在擴(kuò)大。威廉·喬治·阿斯頓(William George Aston)和巴茲爾·霍爾·張伯倫(Basil Hall Chamberlain)兩位日本研究學(xué)者在20世紀(jì)初搜集了部分最早的俳句學(xué)術(shù)翻譯。*當(dāng)時(shí)更常用“hokku”和“haikai”兩詞來指稱這一文體。兩個(gè)詞雖然與“haiku”同義,但嚴(yán)格說來它們?nèi)杂袇^(qū)別。“Hokku”指具有五七五音節(jié)的開放序列,在歷史上它是長得多的系列相連詩歌?!癏aikai”則專指這種相連詩歌的特定傳統(tǒng),它可以追溯到17世紀(jì)早期?!癏aiku”則是詩人正岡子規(guī)在19世紀(jì)90年代新造的詞,用以將這些詩歌分離出來作為各自獨(dú)立的詩歌單元。他們還提出了一些關(guān)于俳句音節(jié)結(jié)構(gòu)和文學(xué)譜系的最早的形式描述。然而,在努力把俳句介紹給英語讀者時(shí),兩位學(xué)者傾向于以典型東方主義話語的方式來對(duì)待俳句——把它作為異域的新奇事物和國家民族特點(diǎn)的標(biāo)志。如此一來,這許多“極小的情感迸發(fā)”*W. G. Aston, A History of Japanese Literature, New York, 1899, p. 294.和“微觀創(chuàng)作”*Basil Hall Chamberlain, “Bash and the Japanese Poetical Epigram,” in Transactions of the Asiatic Society of Japan 30, no. 2 (1902), p.243.——他們這樣稱呼俳句——就被歸統(tǒng)于類型學(xué)的描述,以便理解這一文類何以如此奇怪和特別。例如,阿斯頓就認(rèn)為他們珍藏的是“微小卻珍貴的真實(shí)情感與美麗幻想之珠”,它“最突出的品質(zhì)就是暗示性”*Aston, A History of Japanese Literature, p. 294.。與此相似,張伯倫也把俳句形容為“最微小的文本”,它在最好的情況下是“一個(gè)為自然中的小事和日常生活的偶然事件而開啟的孔洞”*Chamberlain, “Bash and the Japanese Poetical Epigram,” p. 245、p. 305.。拉芙卡迪奧·赫恩(Lafcadio Hearn)則以更流行的方法對(duì)待該形式,聲稱“短詩的創(chuàng)作者努力通過運(yùn)用一些精選的詞匯……來激發(fā)某個(gè)意象或某種情緒,”其造詣深淺“完全取決于暗示的能力”*Lafcadio Hearn, In Ghostly Japan, Boston, 1899, p.154.。
這批珍奇搜尋者雖急于搜集歸檔這一異國文學(xué)品種,最終卻對(duì)培養(yǎng)本土特點(diǎn)沒什么興趣。不過他們對(duì)俳句翻譯的選擇——以及這些譯作日后的流行——可以說為一套美學(xué)考慮要素和“精選詞匯”提供了示例,這些都在下一階段的俳句接受中繼續(xù)表達(dá)出來。*例如,有些人運(yùn)用俳句譯作的語言(尤其是像廟鐘、小花、盤旋的昆蟲等短語)來描述俳句帶給讀者的理想效果;參見同上,以及Chamberlain, “Bash and the Japanese Poetical Epigram,” p. 309. 與之類似,保羅-路易·庫蘇1906年在一篇有影響的文章中寫道,一首俳句的意義“像屏風(fēng)背后的豎琴之聲或穿過霧靄而來的梨花香氣那樣”向我們飄來。(Paul-Louis Couchoud, “The Lyric Epigrams of Japan,” in Japanese Impressions: With a Note on Confucius, Frances Rumsey (trans), London,1921, p.38.我們稱這下一階段為試驗(yàn)階段,此時(shí)詩人們變得更愿意激活運(yùn)用起上一代人積累下來的范例。這是現(xiàn)代主義學(xué)者們最為關(guān)注的階段,他們往往將其發(fā)源追溯到1913年前后一個(gè)文學(xué)家們組成的小圈子。不過誰和誰說話、在什么時(shí)候這樣的細(xì)節(jié)則較為模糊不清。實(shí)際上,把這一階段界定為一個(gè)高度活躍于早期接受者和“本土”信息提供者中的“議論”階段或許最為合適。參與其中的主要是英美兩國的與意象主義運(yùn)動(dòng)有關(guān)的詩人,他們?cè)谫骄渲邪l(fā)現(xiàn)了各種美學(xué)創(chuàng)新的可能性。正如其中一位詩人弗林特于1915年提到的,意象主義運(yùn)動(dòng)的起源可追溯到一批倫敦藝術(shù)家,他們對(duì)英語詩歌不滿,并“在不同時(shí)刻提倡用純粹的自由體詩(vers libre)來替換它,用日本的短歌(tanka)和俳諧(haikai);我們都寫了數(shù)十首日本俳諧以資娛樂”*F. S. Flint, “The History of Imagism,” in The Egoist 2 (May 1915), p. 71. 詩人把短歌和俳諧與自由體詩聯(lián)系在一起,體現(xiàn)出他并不知曉這些形式的音節(jié)結(jié)構(gòu)在創(chuàng)作實(shí)踐中有多么嚴(yán)苛。這也暗示了模糊二者區(qū)別的廣泛傾向,我們會(huì)在下個(gè)部分中考察這一論點(diǎn)。。某些人視為娛樂的東西對(duì)另一些人則是嚴(yán)肅的事,俳句在先鋒雜志與意象主義文選中激起了一陣改編為英語語言的熱潮。這些現(xiàn)象自然產(chǎn)生了一套關(guān)于什么使俳句如此與眾不同的新依據(jù)。
龐德與倫敦團(tuán)體意趣相投,他于1912年開始嘗試這一文體,并在1914年的論文《旋渦主義》中達(dá)到頂峰。他在該文中強(qiáng)調(diào)了日本詩歌的簡(jiǎn)潔、意象和疊加(“一個(gè)想法在另一想法之上”),認(rèn)為這些特征是造出他的名詩《在地鐵站》(1913)那樣的“形似俳句的句子”的根本。同年龐德協(xié)助結(jié)集了第一部意象主義文選,其中奧爾丁頓(Richard Aldington)、洛威爾(Amy Lowell)和之后的弗萊徹(Fletcher)都嘗試了受発句(hokku)啟發(fā)的詩歌。*一位批評(píng)家甚至聲稱“日本発句詩歌無疑就是組成首部意象主義文選的參照模本,尤其是其中龐德先生的貢獻(xiàn)”。(George Lane, “Some Imagist Poets,” in The Little Review 2, May, 1915, p. 27)值得注意的是,洛威爾和弗萊徹欣賞俳句的原因與第一階段批評(píng)家指出的某些俳句特征相吻合,即它的簡(jiǎn)潔性、暗示性,以及情感與自然世界的明確連接。*洛威爾力圖在她的改編詩歌中“保持発句的簡(jiǎn)潔與暗示,并將它維持在自然的空間中”(引自JT, p. 165)。弗萊徹欣賞俳句對(duì)“源自自然事物的普世情感”的運(yùn)用,以及它“用最少的詞語”來表達(dá)這種情感”(引自JT, p. 177)。事實(shí)上,暗示性已成為批評(píng)話語中的支柱,以至于到了1913年,日本詩人野口米次郎(Yone Noguchi)(他也是所有這些議論的關(guān)鍵貢獻(xiàn)者)宣稱:“沒有哪一個(gè)詞像暗示性那樣被西方批評(píng)者們這樣泛濫地使用,它造成的損害大于啟迪?!?Yone Noguchi, “What is a Hokku Poem?” in Rhythm 2, Jan.1913, p. 355.然而野口在把“內(nèi)在廣闊而外在模糊”的俳句語言比作“沾滿夏日露水的蛛絲,像空氣中的隱形幽靈一般在樹枝間搖擺,保持著完美平衡”*Noguchi, The Spirit of Japanese Poetry, London, 1914, pp. 42-43、p. 51. 關(guān)于野口對(duì)龐德等早期接受者的影響,參見Edward Marx, “A Slightly Open Door: Yone Noguchi and the Invention of English Haiku,” in Genre 39 (Fall 2006), pp. 107-26.時(shí),同樣渲染了這一批評(píng)話語中的東方主義意味。
雖然表面上對(duì)俳句的新穎之處已有共識(shí),但學(xué)者們也展示了龐德、威廉斯、野口以及其他詩人在俳句的運(yùn)用上如何各具不同。不過正如上文指出的,這些學(xué)者同樣堅(jiān)持認(rèn)為俳句有一套吸引詩人們的共同特征:“[俳句的]短小與簡(jiǎn)練:它的直接性,它的呈現(xiàn)模式,它的暗示,以及它對(duì)并置的具體細(xì)節(jié)的運(yùn)用?!?Johnson, Haiku Poetics in Twentieth Century Avant-Garde Poetry, p. 45.正是這些前后銜接的觀點(diǎn)推動(dòng)俳句進(jìn)入了第三個(gè)接受的階段:模仿的狂潮繞之興起,超出了原先意象主義詩人及其友人的小圈子。這一最為平民化的階段可由改編詩作的數(shù)量上升、俳句在詩歌領(lǐng)域的更廣泛分布和當(dāng)時(shí)的批評(píng)評(píng)論所印證。實(shí)際上,這后一點(diǎn)暗示了俳句到1920年已達(dá)到了一個(gè)飽和點(diǎn)。此時(shí)俳句無處不在。在某些人看來,這一現(xiàn)象值得慶祝,因?yàn)樗@示了東西方藝術(shù)“出人意料的緊密修好”,以及日本詩歌和美國詩歌前所未有的根本性融合。*Royall Snow, “Marriage with the East,” in The New Republic, 29 (June 1921), p.138. 另參閱Torao Taketomo, “American Imitations of Japanese Poetry,” in The Nation, 17 Jan. 1920, p. 70.但在其他人看來,現(xiàn)在有理由對(duì)這場(chǎng)狂熱叫停了。一位研究洛威爾和其他“用英語寫発句(hokku)”的詩人的評(píng)論家把俳句貶斥為一個(gè)“遠(yuǎn)遠(yuǎn)被高估的形式,它只適合于傳達(dá)情感的最微小面相”*Marjorie Allen Seiffert, “The Floating World,” review of Pictures of the Floating World by Amy Lowell, in Poetry 15 (Mar. 1920), p. 334.。哈佛的一位學(xué)者雖承認(rèn)発句的“靈敏和精確”是“詩歌珍貴價(jià)值的重要部分”,但也將它視為詩歌形式由長到短的普遍消極轉(zhuǎn)向的癥候?!叭藗儗?duì)某些人稱為‘水洼中的星星的迷你素描’會(huì)很快感到厭倦。”*John Livingston Lowes, Convention and Revolt in Poetry, Boston, 1919, p. 166、p. 309.中西部諷刺雜志《塞壬》則更不友善地戲仿起発句與高眉藝術(shù)的關(guān)聯(lián),并以如下“五七五”形式的嘲諷副歌結(jié)尾:“你覺得発句這玩意兒里有什么名堂嗎?/我也覺不出來?!?“Hoch der Hokku!” in Siren (Sept.1921), p. 10.英語俳句終于真正到來了。
隨著英語俳句的到來而出現(xiàn)的大批改編詩作,對(duì)我們來說比意象主義者的詩歌要更陌生。據(jù)邁納的說法,這些詩作給讀者呈現(xiàn)了一個(gè)“由混雜的形式、無意義的技巧模仿和異域風(fēng)情組成的雜亂叢林”(JT, p. 184)。不過,不論在個(gè)體詩歌層面擴(kuò)散得多廣,在將俳句當(dāng)作批評(píng)話語的研究對(duì)象方面則一直保持著令人吃驚的連貫性。日本批評(píng)家武友寅夫(Taketomo Torao)聲稱“発句的詩學(xué)優(yōu)點(diǎn)……完全取決于暗示性的力量”,并認(rèn)為美國的俳句詩人“傾向于使用最少的詞,偏好運(yùn)用意象與象征而非解釋來展示事物的本來面目”*Taketomo, “American Imitations of Japanese Poetry,” p. 71.。羅亞爾·斯諾(Royall Snow)在為《新共和》撰文時(shí)則更進(jìn)一步聲稱俳句讓“西方人的心靈”如此著迷的原因,在于“它能夠在有限空間內(nèi)創(chuàng)造出來的效果”。他指出“亞洲詩歌”兩個(gè)最主要且有影響力的特征是“集中,還有和它的客觀性神秘相連的暗示性特征”;斯諾只需援引意象主義者們自己的宣告,即可認(rèn)定這些特征與俳句具有如此根本的他異性和如此明確的東方感的原因是何等緊密相關(guān)。*Snow, “Marriage with the East,” p.138. 斯諾援引了龐德914年的一篇文章,其中寫道,“我們?cè)诮酉聛淼氖兰o(jì)里躲不開……東方思想的強(qiáng)烈敏銳感和凝練的東方文學(xué)形式給我們的既定標(biāo)準(zhǔn)造成的越來越大的改變?!卑住ぢ逋栆脖惶峒?,特別是她這句“暗示是我們從東方學(xué)到的重要的東西之一”(p. 138)。正是這類關(guān)于俳句美學(xué)影響的概括性說法決定了俳句接受第三階段的批評(píng)話語。*杰伊·哈貝爾和約翰·比蒂將俳句視為“亞洲詩歌對(duì)當(dāng)代詩歌產(chǎn)生的巨大且還在日益增大的影響”的一部分,“[這一影響]帶來了更大的簡(jiǎn)潔性和潤色度”(Jay Hubbell and John O. Beaty, An Introduction to Poetry, New York,1922, p. 360).然而,伴隨這些說法而來的是一個(gè)客體化模式,它像前期階段一樣,忽略俳句的具體細(xì)節(jié)而去關(guān)注一套與明顯東方主義話語相結(jié)合的模糊的美學(xué)理想。這一模式在一篇關(guān)于野口詩歌的評(píng)論文章中被最為簡(jiǎn)明地體現(xiàn)出來,該文評(píng)論道:“這首詩以発句形式寫成,三行詩里包含十七個(gè)音節(jié)。但形式并不構(gòu)成発句。一些最優(yōu)秀的発句并不以該形式寫成。那種決定発句本質(zhì)的、精細(xì)而夢(mèng)幻般的情感足以啟示宇宙的無限,它藏在哪兒呢?”*Jun Fujita, “A Japanese Cosmopolite,” review of Seen and Unseen: Or Monologues of a Hmeless Snail and Selected Poems of Yone Noguchi by Noguchi, Poetry 20, June 1922, p. 164.
在把俳句文本視為社會(huì)歷史事物來研究時(shí),我們發(fā)現(xiàn)一般體認(rèn)的俳句本質(zhì)特點(diǎn)——簡(jiǎn)短、暗示性和自然意象——不斷被眾多評(píng)論者積極肯定?,F(xiàn)在,我們可以把這些特點(diǎn)視為觀察判斷的歷史積累的一部分。不過我們也可以將其視為一套更廣闊的、如今被簡(jiǎn)單稱為東方主義的政治文化形態(tài)的一部分。如果說有關(guān)俳句的話語和創(chuàng)作嘗試在其第三階段在美國社會(huì)中逐漸形成了一個(gè)廣為流行的模式,那么應(yīng)該說這一模式是源自美國在眾多領(lǐng)域?qū)|亞進(jìn)行異域化處理這一更大的模式中。最后,此處的簡(jiǎn)史還揭示出一些對(duì)俳句的流行與繁盛十分關(guān)鍵的重要的社會(huì)偶然性。弗林特需與龐德交流,龐德又需與野口交流才使得他對(duì)俳句產(chǎn)生興趣,接著龐德又使其他人也產(chǎn)生了興趣。與貨幣類似,俳句在詩人、編輯和讀者組成的社會(huì)物質(zhì)網(wǎng)絡(luò)中流通,而其中的許多人對(duì)俳句價(jià)值何在的問題抱著同一套優(yōu)先考慮因素和同樣的認(rèn)識(shí)。這些力量——既有美國東方主義又有藝術(shù)網(wǎng)絡(luò)——結(jié)合起來,將俳句文本的現(xiàn)實(shí)標(biāo)記為一個(gè)社會(huì)歷史事件,它反映并也激活了藝術(shù)家群體中更廣闊的文化話語與社會(huì)行為模式。
不過,我們?cè)谠噲D辨明這些模式時(shí)又留下了一些新的問題。尤其是:這些模式與它們表面上幫助生成的“混雜形式的叢林”有什么樣的關(guān)系?如果將俳句文本視為更廣闊的社會(huì)活動(dòng)的一部分,那么在文本自身的層面又發(fā)生了什么?這些俳句文本經(jīng)過從外國譯作到先鋒試驗(yàn)作品到親民流行形式的轉(zhuǎn)變,它們是否體現(xiàn)出相似性?這里歷史文化的研究方法就沒有多少用處了,因?yàn)樗荒苷f明我們之所以能提出這些問題的背景。而文本細(xì)讀,就其獨(dú)重個(gè)體文本的“活生生的獨(dú)一性”而言,也無法滿足需求。我們希望找到一種比文化歷史批評(píng)更精細(xì)、但又開闊到能考慮一個(gè)比文本細(xì)讀所提供的文本模式定義更寬松的閱讀模型——一個(gè)不把文本當(dāng)作個(gè)體美學(xué)效應(yīng)的紐帶或者社會(huì)話語的產(chǎn)物,而是將其視為上百個(gè)例子共同分享的一套種屬特征。我們需要一個(gè)新的關(guān)于英語俳句的本體觀,以幫助我們將俳句視為大于某種意象類型和含蓄語言的編排、又小于松散連系在東方主義概念中的雜亂模仿性形式的東西。簡(jiǎn)潔與暗示性或許是比嚴(yán)格的形式模仿更微妙、同時(shí)又比印象主義的美學(xué)直覺更具體的文本模式帶來的效果。
作為統(tǒng)計(jì)模式的英語俳句
自上世紀(jì)90年代初,機(jī)器學(xué)習(xí)以及它在文本自動(dòng)分類中的應(yīng)用成為發(fā)現(xiàn)大量文本中的模式的一個(gè)流行方法。機(jī)器學(xué)習(xí)是指一套完整的統(tǒng)計(jì)算法,它們把每個(gè)文本視為一個(gè)特定的可量化特征的混合體,并認(rèn)為這些特征跨文本分布的方式有助于識(shí)別文本之間的差異。這些統(tǒng)計(jì)算法試圖“學(xué)習(xí)”這些特征,以便就某文本可能所屬的類別或組群進(jìn)行分類或預(yù)測(cè)。舉例說明,這樣的算法可以根據(jù)它們學(xué)到的與每個(gè)類型的信息相關(guān)聯(lián)的特征,來幫助決定一封電子郵件是否有可能是垃圾郵件。*這種篩選是機(jī)器學(xué)習(xí)自上世紀(jì)90年代初崛起后最常見的用途之一。它比舊的文本分類方法更為有效和高效,因?yàn)榕f的分類方法要依靠人類專家以人力來設(shè)定與他們分析的任何文本都密切聯(lián)系的分類規(guī)則。隨著機(jī)器學(xué)習(xí)的發(fā)展,專家們可以放手讓機(jī)器來推導(dǎo)出規(guī)則,他們則把關(guān)注點(diǎn)集中在識(shí)別類別本身。法布瑞爾·塞巴斯蒂阿尼(Fabrizio Sebastiani)在《文本自動(dòng)分類中的機(jī)器學(xué)習(xí)》一文里全面介紹了信息系統(tǒng)領(lǐng)域內(nèi)機(jī)器學(xué)習(xí)的歷史。見“Machine Learning in Automated Text Categorization,”in ACM Computing Surveys 34 (Mar. 2002), pp.1-47.在文學(xué)研究中,使用機(jī)器學(xué)習(xí)來完成類似的對(duì)文學(xué)或其他美學(xué)文本的信息篩選已有十年的歷史。學(xué)者們?cè)噲D用這種方法在戲劇敘事結(jié)構(gòu)、政治隱喻、劇場(chǎng)對(duì)話以及小說體裁中識(shí)別諸如詞匯的、語義的或其他文本差異上的模式。*參見Stephen Ramsay, “In Praise of Pattern,”in TEXT Technology 14, No. 2 (2005), pp. 177-90; Bradley Pasanek and D. Sculley, “Meaning and Mining:The Impact of Implicit Assumptions in Data Mining for the Humanities,” in Literary and Linguistic Computing 23 (Dec.2008),pp.409-24;Shlomo Argamon et al., “Gender, Race, and Nationality in Black Drama, 1950-2006: Mining Differences in Language Use in Authors and Their Characters,” in Digital Humanities Quarterly 3,No. 2 (2009); Matthew Jockers, Macroanalysis:Digital Methods and Literary History, Urbana, Ill., 2013, chap.6.近來,機(jī)器學(xué)習(xí)已經(jīng)在高度復(fù)雜的分類任務(wù),如小說體裁檢測(cè)和人物類型識(shí)別中發(fā)揮了不可或缺的作用。*Ted Underwood, et al., “Mapping Mutable Genres in Structurally Complex Volumes,”該文是2013年“IEEE大數(shù)據(jù)國際會(huì)議”發(fā)言論文(未發(fā)表)Santa Clara, Calif., 6-9 Oct. 2013; David Bamman, Underwood &Noah Smith, “A Bayesian Mixed Effects Model of Literary Character,”該文是第52屆計(jì)算機(jī)語言學(xué)年會(huì)提交論文,Baltimore, 22-27 June 2014,
機(jī)器學(xué)習(xí)作為一種方法由四項(xiàng)關(guān)鍵任務(wù)構(gòu)成,每項(xiàng)任務(wù)都促使俳句以迥異于其他閱讀方式的文本對(duì)象而存在。這些任務(wù)是分類(categorization)、表示(representation)、學(xué)習(xí)(learning)和歸類(classification)?!胺诸悺敝赴凑瘴谋舅鶜w屬的系列類別或綱目來給它們分配標(biāo)簽?!氨硎尽敝阜蛛x出文本的各具體特征,并采取機(jī)器學(xué)習(xí)算法可以解釋的方式來量化這些特征。緊隨其后的是“學(xué)習(xí)”,此處機(jī)器需要把關(guān)聯(lián)著每個(gè)文本的各種特征提取出來,并評(píng)估它們使該文本屬于它被分配的類別的區(qū)分程度。最后一步是“歸類”的任務(wù),即運(yùn)用學(xué)習(xí)階段獲得的信息,僅依靠某一文本的特征(也就是說,標(biāo)簽是未知的)來預(yù)測(cè)它的類別。接下來,我們將循序經(jīng)歷這些任務(wù),并突出每一個(gè)階段中的闡釋決策以及這些決策是如何最終塑造了過程中出現(xiàn)的俳句文本本體觀。
“分類”是根據(jù)不同的類別來為文本設(shè)定標(biāo)簽的看似簡(jiǎn)單的行為。這些類別在最常見的情況下都是二元制的(如垃圾郵件和非垃圾郵件),但也可以是多元的。*對(duì)多類型文本分類的解釋與示范,參見Jockers, Macroanalysis, chap. 6.更重要的是,類別“不能被確鑿無疑地決定”, 它們?nèi)Q于“專家的主觀判斷”,是專家在閱讀一批文獻(xiàn)后根據(jù)他/她所感興趣的特質(zhì)而進(jìn)行的分類。*Sebastiani, “Machine Learning in Automated Text Categorization,” p. 3.這就叫機(jī)器學(xué)習(xí)的“監(jiān)督學(xué)習(xí)方法”*與之相對(duì),“無監(jiān)督方法”允許機(jī)器首先根據(jù)某些特定的特點(diǎn)決定文件可以如何聚集;這些聚類是否能與有意義的類型相對(duì)應(yīng)則留待使用者決定。對(duì)此較有幫助的解釋見Jockers, Macroanalysis, pp.70-71.。這一步雖然聽起來簡(jiǎn)單,但它從根本上決定了分析的結(jié)果,并且要求一套內(nèi)在不同的文本需要在表面上被歸檔到有限數(shù)量的類別中去。對(duì)我們來說,這意味著要找到一大批符合20世紀(jì)初對(duì)英語俳句的期待的詩歌,以及一大批不符合期待的詩歌。在分別標(biāo)記它們?yōu)椤百骄洹焙汀胺琴骄洹焙螅覀兙涂梢詫深愇谋具M(jìn)行對(duì)照劃分。不過,這并不是要強(qiáng)化我們最初所做的區(qū)分,而是要檢驗(yàn)它的界限,并確定什么樣的文本模式才是每一組文本所特有的。也就是說,我們想要知道機(jī)器能否識(shí)別出俳句和非俳句文本,如果可以識(shí)別,它又是用什么樣的統(tǒng)計(jì)證據(jù)來得出結(jié)論的。
為了確定我們的兩個(gè)語料庫,我們首先使用原始檔案和次級(jí)資源來尋找符合以下基本條件的俳句詩歌:它們必須是來自發(fā)現(xiàn)階段的重要學(xué)術(shù)文獻(xiàn)中的譯作;或者在標(biāo)題中指認(rèn)自身為俳句;又或者是由詩人或評(píng)論家明確認(rèn)定受到日本短詩形式的影響。這樣就產(chǎn)生了一個(gè)包含400個(gè)文本的語料庫;我們又將其分為兩個(gè)類別,即翻譯作品和改編作品。翻譯作品代表了最初被英美讀者所接受的、更緊密地遵循“五七五”格律這樣嚴(yán)格形式限制的經(jīng)典俳句。改編作品則代表了一組更為多樣化的詩歌,它們雖偏離了這一形式慣例,但至少詩人和批評(píng)家們認(rèn)為它們?cè)趦?nèi)容或?qū)徝酪庀虻膶用嫒宰駨馁骄洹_@其中包括了對(duì)日本短歌(tanka)的明確改編作品——短歌是一個(gè)由31個(gè)音節(jié)組成的形式,批評(píng)家經(jīng)常把它與俳句放在一起,作為日本短詩這一更普遍的類型的一部分(見圖2)。*在日本,俳句和短歌天然與截然不同的審美取向、藝術(shù)譜系以及風(fēng)格和社會(huì)標(biāo)記相連。傳統(tǒng)上俳句專門描述自然世界或給出哲學(xué)與社會(huì)方面的評(píng)論;短歌則與情緒和感情表達(dá)相關(guān)。不過這些精細(xì)的區(qū)別通常被美國的詩人和評(píng)論家忽視,結(jié)果二者往往被混在一起,都作為一個(gè)單一的日本詩歌傳統(tǒng)的一部分。圖示中上世紀(jì)頭十年末期和20年代早期出現(xiàn)的高峰段包括了洛威爾、弗萊徹、野口等人受俳句啟發(fā)而創(chuàng)作的大批詩歌,以及一批與意象派無關(guān)的大小詩人的翻譯和改編作品。
圖2 所選俳句文本隨時(shí)間的分布圖
為了搜集一個(gè)非俳句語料庫,我們需要找到一大批不屬于英語俳句運(yùn)動(dòng)、卻又有可能從中發(fā)現(xiàn)該運(yùn)動(dòng)痕跡的詩歌。因此,我們?cè)谫骄浣邮艿诙A段和第三階段的詩集和其他重要雜志中收集了1900多首短詩;這些雜志包括諸如《詩歌雜志》、《小評(píng)論》和《他者們》之類的小雜志,諸如《哈潑斯雜志》、《Scribner出版社雜志》和《國家》這樣的綜合刊物,包括《危機(jī)報(bào)》和《機(jī)遇報(bào)》在內(nèi)的哈萊姆文藝復(fù)興的關(guān)鍵期刊,以及像俄亥俄州的《中部地區(qū)》和加利福尼亞的《抒情西部》這樣的地區(qū)雜志(見圖3)。*這些詩歌是從哈蒂信托基金數(shù)字圖書館(Hathi Trust Digital Library)和現(xiàn)代期刊項(xiàng)目中收集來的。由于這些資料集僅限于公共領(lǐng)域的作品,我們只能收集在時(shí)間限制上早于1923發(fā)表的詩歌。對(duì)于哈萊姆文藝復(fù)興的期刊,我們是根據(jù)原版的內(nèi)容手動(dòng)輸入詩歌。這里的“短”是指長度低于300個(gè)單詞的任何文字,略高于我們語料庫中俳句的平均長度。我們要嘗試對(duì)照著這些屬于其他文本類別的詩歌來分析兩組俳句之間的界限。
圖3 從當(dāng)代雜志匯編的短詩語料庫列表。這些短詩來自大約11,000首在給定的日期中從表中出處發(fā)表的詩
接下來,我們必須確定這些文本的“表示”(representation),以便它們可以被歸類算法讀取和解釋。在這一步驟中,文本的本體觀真正變?yōu)闄C(jī)器自身所有。由于歸類依賴于文本的統(tǒng)一索引,所以這些文本必須被看作某(幾)種較小單元(單詞、短語、話語片段)的集合體。文本一旦被選中,便被分解成這些單元的簡(jiǎn)單列表,以顯示單元的存在與否或相對(duì)頻率(即某一單元在文本中是否出現(xiàn)或出現(xiàn)的次數(shù))。每個(gè)單元都被看作是其所在文本的一個(gè)“特征”(feature)——一種辨識(shí)特點(diǎn)——而該文本則成為這些特點(diǎn)的向量(vector)。但是機(jī)器“表示”往往不考慮這些個(gè)體單元的結(jié)合規(guī)律,這也佐證了賈斯丁·格里默爾(Justin Grimmer)和布蘭登·斯圖爾特(Brandon steward)的觀察:“自動(dòng)化的內(nèi)容分析方法使用有見地的,但卻是錯(cuò)誤的……文本模型,來幫助研究者從他們的數(shù)據(jù)中做推論”*Justin Grimmer and Brandon Stewart, “Text as Data: The Promise and Pitfalls of Automated Content Analysis Methods for Political Texts,” in Political Analysis 21 (Summer 2013), p. 270.?!板e(cuò)誤”是因?yàn)樗鼈儧]有抓住文本如何通過語言而產(chǎn)生的復(fù)雜過程,但“有見地”是因?yàn)檫@些“不正確”的模型可以在大量豐富的數(shù)據(jù)庫之間探測(cè)出文本單元的模式。
機(jī)器學(xué)習(xí)中一個(gè)最常見、也最簡(jiǎn)單的表示法就是“詞包”(bag-of-words)模型,它將文本視為包含于其內(nèi)的單詞的集合。我們就以這一模型入手。上圖顯示了單獨(dú)一首俳句被轉(zhuǎn)化成詞包表示時(shí)的樣子(見圖4)。當(dāng)然,這一“表示”還可以進(jìn)一步細(xì)化,這取決于我們決定由什么來構(gòu)成一個(gè)有意義的區(qū)分特征。結(jié)果表明并不是每一個(gè)詞對(duì)檢測(cè)我們所感興趣的語義模式都是有用的。由此,我們刪除了譬如語法功能詞(或停頓詞),因?yàn)檫@些詞不適用于區(qū)分內(nèi)容層面上的模式。我們也沒有記錄詩歌中單詞的出現(xiàn)頻率,因?yàn)檫@對(duì)于小詞匯量的語料庫來說效果不大。*在一個(gè)二元制詞包方法中,單詞由它的存在或缺席來表示;關(guān)于它的優(yōu)點(diǎn),參見Pasanek and Sculley, “Meaning and Mining,” p. 413; 以及Bei Yu, “An Evaluation of Text Classification Methods for Literary Study,” in Literary and Linguistic Computing 23 (Sept. 2008), pp. 329-30. 二人都探討了何時(shí)應(yīng)該包括功能詞的問題。功能詞可能有助于識(shí)別作者風(fēng)格。另見Jockers, Macroanalysis, p. 64. 我們也沒有考慮字母大寫,并且去除了所有標(biāo)點(diǎn)符號(hào),僅保留俳句文本中經(jīng)常出現(xiàn)的感嘆號(hào)和長破折號(hào)。此外,我們把所有的名詞按屈折變化進(jìn)行合并,像“群山”和“山”這樣的詞被看作是同一個(gè)單元,又排除了在受分析文本中只出現(xiàn)一次的單詞。*后一種任務(wù)通常被稱為特征選擇(feature selection),它有助于減少由大量的低頻特征產(chǎn)生的統(tǒng)計(jì)噪音。我們還可以略去在兩種文本類別中都多次出現(xiàn)的詞,這樣也可以減少其他方向上的特征。最后,除詞匯層面的特征外,我們還可以把更復(fù)雜的形式特征囊括進(jìn)表示中,簡(jiǎn)單記錄這些特征在文本中存在還是不存在??紤]到在俳句早期接受中音節(jié)數(shù)對(duì)認(rèn)知俳句的重要性,我們把音節(jié)數(shù)這個(gè)特征也包括了進(jìn)去。*詩歌的音節(jié)數(shù)取自用戶輸入并參照卡耐基梅隆大學(xué)(CMU)美式英語發(fā)音詞典。隨后,我們查看了翻譯和改編兩種俳句語料庫音節(jié)數(shù)的分布,并使用該結(jié)果來創(chuàng)建截點(diǎn)。這樣在翻譯作品中我們使用18個(gè)音節(jié)作為閾值,每個(gè)文本被表示為或多于或少于這個(gè)數(shù)量。得出的結(jié)果是出現(xiàn)在圖4底部的文字:一個(gè)被標(biāo)記的特征向量,現(xiàn)在它就是所有文本的模板?,F(xiàn)在,我們作出的關(guān)于如何“表示”這兩類詩的選擇使我們能夠去測(cè)試這樣一個(gè)假設(shè),即俳句可以通過共有的措詞和音節(jié)數(shù)模式來區(qū)別于非俳句。
圖4 單一俳句文本的機(jī)器解讀的“表示”。注意在最后的“表示”中,每個(gè)特征被分配到“True”這一參數(shù)值(value),表示它在原文本中的存在?!癶aiku”(俳句)則是分配給該特征向量的標(biāo)簽
要做到這一點(diǎn),接下來我們就要選定一個(gè)歸類算法(也叫學(xué)習(xí)方法),它會(huì)根據(jù)向量的各特征對(duì)辨別向量標(biāo)簽(俳句或非俳句)的影響大小來對(duì)它們進(jìn)行衡量。有許多種這樣算法可以執(zhí)行該任務(wù),但是每個(gè)算法對(duì)于“影響”的理解各不相同,也往往不可通約。一些算法將特征看作高維直角坐標(biāo)空間的坐標(biāo),并嘗試畫出一條線來將某一類別的獨(dú)特特征最好地與另一類別的特征劃分開來。另一些算法則采取符號(hào)化的、非數(shù)字化的方法,將某一特征的出現(xiàn)或缺席看作是一套邏輯關(guān)聯(lián)結(jié)果(即這個(gè)特征的出現(xiàn)是由先于它出現(xiàn)的其他特征所造成的)。還有其他算法認(rèn)為有一個(gè)概率的過程來驅(qū)動(dòng)這些特征的出現(xiàn),并試圖確定某特征與某一特定類別相關(guān)聯(lián)的可能性。*該觀點(diǎn)見Pasanek and Sculley, “Meaning and Mining,” p. 412. 第一組方法包括支持向量機(jī)(SVM)和邏輯回歸等基于線性的模型;第二組方法包括樸素貝葉斯算法和隱馬爾科夫模型;最后一組方法包括決策樹分類器。對(duì)上述所有方法的詳細(xì)描述,參見Sebastiani, “Machine Learning in Automated Text Categorization.”
樸素貝葉斯分類器(the Na?ve Bayes classifier)是最后一組算法廣泛使用的基準(zhǔn)方法,也是我們要使用的方法。在給定一個(gè)俳句和非俳句向量的隨機(jī)樣本后,分類器就對(duì)其中的一個(gè)部分(訓(xùn)練集)進(jìn)行訓(xùn)練,并學(xué)習(xí)兩個(gè)類別間特征的分布情況。隨后,它會(huì)給每個(gè)特征分配一個(gè)概率評(píng)分,以顯示該特征分別屬于兩種類別的概率大小(見圖5)。一旦訓(xùn)練完成,分類器就利用計(jì)算出的概率評(píng)分對(duì)樣本中的其余向量(測(cè)試集)進(jìn)行分析,試圖根據(jù)它所看到的特征對(duì)每一個(gè)向量所屬的類別進(jìn)行預(yù)測(cè)。亦即,它得出每個(gè)特征屬于俳句或非俳句的概率大小后,將這些概率分別按這兩個(gè)類別相加,并根據(jù)哪一參數(shù)值更高來預(yù)測(cè)向量的類別。*對(duì)該分類器更全面的介紹,參見Grimmer and Stewart, “Text as Data,” p. 11. 它的“樸素”特征與其核心統(tǒng)計(jì)學(xué)假設(shè)有關(guān),即在一個(gè)特定類別的文本中,各單詞都是相互獨(dú)立地生成的。這顯然是錯(cuò)誤的,因?yàn)樵谝唤M類似的文本中,單詞的使用通常高度相關(guān)。但是,在某些種類的文本歸類中,這種簡(jiǎn)單的方法仍然被證明是非常有效的。根據(jù)樸素貝葉斯算法,一個(gè)“文本”是否是俳句只需看它分析出的特征有多大可能是屬于某一類文本而不是另一類。這些特征對(duì)于每個(gè)類別越是特有的,就越容易作出判斷。雖然有文學(xué)學(xué)者指出貝葉斯分類器不適用于在美學(xué)文本間作出某些區(qū)分,但它卻擅長識(shí)別那些獨(dú)特的、頻率較低的特征(和單詞),這些特征(和單詞)又標(biāo)記了類別間的差異。*參見Yu, “An Evaluation of Text Classification Methods for Literary Study,” p. 336. 在利用機(jī)器學(xué)習(xí)分析文學(xué)文本時(shí),樸素貝葉斯算法經(jīng)常被拿來與支持向量機(jī)(SVM)相對(duì)比。參見Argamon et al., “Gender, Race, and Nationality in Black Drama, 1950-2006”; Pasanek and Sculley, “Meaning and Mining”; Yu, “An Evaluation of Text Classification Methods for Literary Study.” 支持向量機(jī)往往分離出較高頻次的單詞隔離,將其作為有影響力的特征。這些長處使貝葉斯分類器在我們探索某些初始問題的時(shí)候特別有用,如翻譯和改編的俳句作品與這個(gè)期間的其他短詩有何不同、能否在其他這些詩歌中也檢測(cè)到體現(xiàn)在措詞和音節(jié)數(shù)上的“俳句性”模式等。
圖5 從單個(gè)歸類測(cè)試中產(chǎn)生的概率列表樣本。在這個(gè)例子中,單詞“天空”(sky)與非俳句(not-ha)相連的概率與是與俳句(haiku)相連的5.7倍。相反,單詞“雪”(snow)與俳句相連的概率是與非俳句相連的3.7倍
帶著這些問題,我們把俳句的翻譯和改編作品分別與來自每一種(或一套)期刊的短詩進(jìn)行對(duì)比歸類。同時(shí)我們還包括進(jìn)一個(gè)控制案例,以便驗(yàn)證樸素貝葉斯算法能識(shí)別出我們已知的文本差異。該控制組由長度為300單詞的片段組成。這些片段取自卡爾·桑德堡(Carl Sandburg)的詩,他早期的自由體詩歌描繪了芝加哥和周邊城鎮(zhèn)粗糲的街景以及居住在那里的人,包括工人階級(jí)的勞動(dòng)者、腐敗的政治家、貧窮的移民和妓女。與來自詩歌刊物里的短詩不同,我們事先已經(jīng)知道桑德堡的這些詩歌表現(xiàn)出的措詞和音節(jié)數(shù)模式完全不同于俳句。*所有詩歌片段都均取自Carl Sandburg, Chicago Poems, New York, 1916. 我們只選取那些明確表現(xiàn)城市主題或描寫城市居民的詩歌。我們從兩類文本中抽出相同大小的樣品并分為訓(xùn)練集和測(cè)試集,并為每個(gè)歸類測(cè)試(俳句譯作與《詩歌雜志》作品對(duì)比、俳句譯作與桑德堡作品對(duì)比等等)進(jìn)行了100次測(cè)試。這一過程被稱為交叉驗(yàn)證,是為確保得出的結(jié)果不偏向某一小個(gè)文本子集的特征。*具體說來,我們執(zhí)行了四重交叉驗(yàn)證,使用四分之三的組合樣本作為訓(xùn)練數(shù)據(jù),其余四分之一作為測(cè)試數(shù)據(jù)。最后,我們從這些測(cè)試中計(jì)算出平均準(zhǔn)確度得分, 該分?jǐn)?shù)顯示了機(jī)器按文本標(biāo)簽將文本正確歸類的次數(shù)比例(見圖6)。
圖6 一百次歸類測(cè)試后得出的平均準(zhǔn)確度分?jǐn)?shù)。圖表上半部分是對(duì)俳句改編作品與各短詩語料庫對(duì)比的歸類得分。下半部分是對(duì)俳句翻譯作品的歸類得分
這些準(zhǔn)確度分?jǐn)?shù)表明,樸素貝葉斯算法能夠特別精確地從各種短詩語料庫中區(qū)分出俳句來。平均而言,它猜對(duì)俳句翻譯作品的概率是91%,猜對(duì)俳句改編作品的概率是86%。與預(yù)期相同,桑德堡的詩歌在這兩種情況下都是最容易區(qū)分的。*所有這些準(zhǔn)確度得分基于對(duì)每組歸類做的隨機(jī)測(cè)試,具有高度統(tǒng)計(jì)學(xué)意義。得分范圍在54%到64%之間,而這種測(cè)試的理想分?jǐn)?shù)是50%,這意味著該機(jī)器正確猜測(cè)的能力與拋硬幣決定相差無幾。翻譯作品的得分稍高,這證明了它們作為一個(gè)依賴于更受限的詞匯量的類別,具有自身的特殊性。相比之下,改編作品的準(zhǔn)確度得分稍低則暗示了其特征所具有的多樣性。由于這些分?jǐn)?shù)可以反映出不同的潛在結(jié)果,所以有必要看看發(fā)生分類錯(cuò)誤的地方。對(duì)于一些期刊,尤其是《詩歌》和哈萊姆文藝復(fù)興的雜志,分類器不能準(zhǔn)確識(shí)別非俳句文本,出現(xiàn)了更多把它們誤判為俳句的情況。也就是說,它在更多的這些短詩中發(fā)現(xiàn)了與俳句相關(guān)聯(lián)的特征。對(duì)于其他的期刊,尤其是圖中那些頻譜低下的,分類器識(shí)別俳句的能力不敏感,把更多的俳句誤判為非俳句。這可能意味著俳句的特征具有更小的內(nèi)部統(tǒng)一性,或某些常見于兩個(gè)類別的特征,如“春天”(spring)、“寒冷”(cold)這些通用詞,使分類器偏向了某一類別。*在機(jī)器學(xué)習(xí)中,“查準(zhǔn)率”(precision)衡量的是分類器的準(zhǔn)確度,并顯示分類器正確分辨給定文本所屬類別的頻度。高查準(zhǔn)率意味著在某個(gè)文本類別中發(fā)現(xiàn)了高度獨(dú)特的特征。“查全率”(recall)衡量的是分類器的全面性或敏感性,并顯示分類器猜對(duì)某一特定類型的文本的數(shù)量。低查全率意味著該類別的文本更經(jīng)常地省略能辨識(shí)其所屬類型的特征。因此,舉例說明,如果“春天”出現(xiàn)在非俳句文本中的次數(shù)要多得多(這增加了它與這個(gè)類別的可能聯(lián)系),當(dāng)被發(fā)現(xiàn)在俳句中的時(shí)候,它對(duì)分類器決策的影響就可能要高過其他的詞。
這類歸類錯(cuò)誤揭示出樸素貝葉斯預(yù)測(cè)文本類別時(shí)所做的假設(shè)。特別是:文本的類別是由在每個(gè)類中按特定比例使用的特征所組成的,這個(gè)比例決定了某一特征與該文本的類別相關(guān)聯(lián)的可能性大小。在分析兩種具有非常獨(dú)特特征的類別、且這些特征在每個(gè)類別中的分布差異鮮明時(shí),這個(gè)假設(shè)是有用的。但是,如果類別之間重疊得越多,或類別表現(xiàn)出的內(nèi)部差異越大,該假設(shè)就可能導(dǎo)致問題。就是說,如果要斷言兩個(gè)類別間的絕對(duì)類別差異,可能會(huì)有問題。但如果是要像我們這樣尋找重疊點(diǎn)與融合點(diǎn),那么這些問題實(shí)際上是長處。事實(shí)上,我們希望看到更多類似的問題。若把音節(jié)數(shù)和僅僅出現(xiàn)最頻繁的單詞算入考慮范圍,這樣得出的文本差異模型就太過死板,遮蔽了有些詩人不考慮音節(jié)數(shù)、或某些低頻詞與“春天”和“冷”這些詞結(jié)合起來表現(xiàn)俳句美學(xué)(或更廣泛的東方主義美學(xué))的情況。要揭示這些潛在的重疊的情況,我們需要一個(gè)更為靈活的方式來表示文本。
因此,我們?cè)诓皇褂靡艄?jié)數(shù)作為特征的前提下重做了一遍測(cè)試,這一次還包括了除功能詞外的所有單詞(見圖7)。我們發(fā)現(xiàn)機(jī)器的準(zhǔn)確度得分大幅下降,翻譯作品的準(zhǔn)確度平均為73%,改編作品為65%。控制案例的得分雖然相比之下仍是高的,不過就連它也有明顯下跌,降至82%。一些期刊比其他期刊的獨(dú)特性稍高,例如《詩歌》《他者們》以及《小評(píng)論》,但總體來說對(duì)文本可兼性更高的表示顯示出極多的重疊。但是,與早先的測(cè)試一樣,如果不分析錯(cuò)誤發(fā)生在什么地方,準(zhǔn)確度得分會(huì)帶來誤導(dǎo)。分析結(jié)果發(fā)現(xiàn),對(duì)許多期刊來說,分?jǐn)?shù)下降的很大一部分原因是分類器把更多的短詩誤歸類為俳句了。*某些期刊出現(xiàn)了相反的情況,即準(zhǔn)確率下降是由于更多的俳句被誤判為非俳句了。雖然對(duì)這些錯(cuò)誤的分析不在本文范疇內(nèi),但是我們需要注意到,這些結(jié)果告訴我們一些關(guān)于這些期刊短詩的創(chuàng)作的重要信息。完全基于這些詩的發(fā)表出處,我們暫且把它們視為不同于俳句的一個(gè)統(tǒng)一類別,盡管事實(shí)上這些詩以各自獨(dú)特的方式具有內(nèi)在多樣性。通過擴(kuò)展樸素貝葉斯用以辨識(shí)文本模式的特征集,我們得到了更多的歸類錯(cuò)誤,也因此得到了更多有關(guān)俳句和非俳句語料庫重疊之處的證據(jù)。如果說以更為寬松的方式表示語料庫間的區(qū)別會(huì)讓機(jī)器產(chǎn)生混亂,它也為觀察機(jī)器概率邏輯下的文本模式創(chuàng)造了更多的機(jī)會(huì)。
圖7 使用定義更寬松的特征組進(jìn)行100次歸類測(cè)試得出的平均準(zhǔn)確率
東方主義氛圍
聽起來或許有些矛盾:通過迷惑機(jī)器,我們可以更好地評(píng)估它是如何作出決定的。這其中的含義在我們分析迷惑機(jī)器所導(dǎo)致的某些結(jié)果時(shí),會(huì)變得更加清晰。首先,簡(jiǎn)要回顧一下機(jī)器學(xué)習(xí)告訴我們的關(guān)于英語俳句的知識(shí)會(huì)有所幫助。對(duì)樸素貝葉斯分類器而言,俳句文本只是一些特征的組合,這些特征通常在某類文本中比在其他文本中出現(xiàn)得更多。如果一首詩包含了更多與分派為俳句的詩歌相關(guān)聯(lián)的特征,如包含“雪”(snow)或“寒冷”(cold)等詞,它就更可能被辨認(rèn)為俳句,反之亦然。在我們的初步測(cè)試中,樸素貝葉斯很擅長以強(qiáng)化我們自己標(biāo)記俳句或非俳句的方式來進(jìn)行辨認(rèn)。測(cè)試確認(rèn)了俳句在措詞和韻律上與同時(shí)期的其他短詩不同。機(jī)器學(xué)習(xí)告訴我們的本質(zhì)上就是,在把英語俳句中出現(xiàn)的特征視為一個(gè)整體時(shí),這些特征就組成了一個(gè)統(tǒng)計(jì)模式,它與流行于其他短詩中的統(tǒng)計(jì)模式區(qū)別開來,這一區(qū)別具有重要的意義。
不過,能否作出這樣清晰的區(qū)別,最終取決于我們指示樸素貝葉斯考察什么樣的具體特征。樸素貝葉斯之所以表現(xiàn)出色,是因?yàn)槲覀冎贿x擇最有可能把俳句從其他文本中區(qū)分出來的特征放入我們對(duì)文本的表示中。根據(jù)機(jī)器學(xué)習(xí)的傳統(tǒng)目標(biāo),這是一個(gè)完全合理的手段。在人們?cè)噲D從私人電郵帳戶中過濾垃圾郵件這樣的例子中,更高的準(zhǔn)確率是受期待的。如果一個(gè)機(jī)器學(xué)習(xí)算法老是把朋友的信息誤判為垃圾郵件,數(shù)據(jù)科學(xué)家就會(huì)把這種情況看作是個(gè)錯(cuò)誤,并且尋找方法來改進(jìn)他/她的模型,以提高該算法的準(zhǔn)確率。但是對(duì)于我們來說,錯(cuò)誤卻引發(fā)了一個(gè)闡釋性的問題:是什么讓朋友的郵件這么像垃圾郵件?如果我們不是去糾正錯(cuò)誤,而是思考該錯(cuò)誤如何挑戰(zhàn)了植入程序中的初始類型區(qū)別呢?或者更好的選擇是,如果我們嘗試去制造類似的錯(cuò)誤來模糊這種區(qū)別呢?這就是我們擴(kuò)大樸素貝葉斯用以從非俳句中辨識(shí)出俳句的特征集的目的。正是通過放松對(duì)英語俳句這一統(tǒng)計(jì)模式的限定,我們擴(kuò)大了該算法發(fā)現(xiàn)具有俳句風(fēng)格的詩歌的能力。
如此一來,被文學(xué)機(jī)器學(xué)習(xí)視為歸類錯(cuò)誤的地方,我們卻將其視為闡釋的契機(jī)。在這最后一部分中,我們就以兩種辦法進(jìn)行闡釋。首先,每首被錯(cuò)誤歸類的俳句(標(biāo)簽為非俳句、卻被分辨為可能是俳句的文本)對(duì)我們來說都是一個(gè)了解機(jī)器如何閱讀文本模式的窗口。它促使我們思考機(jī)器在該詩中發(fā)現(xiàn)了什么更能表示俳句而不是非俳句的特征,該特征是否又在多例錯(cuò)誤中出現(xiàn)。通過重視俳句作為統(tǒng)計(jì)模式的觀念,這些被誤判的文本證明了俳句在現(xiàn)代主義內(nèi)的影響分布得多么廣泛,也證明了俳句在構(gòu)成更廣泛的美國東方主義氛圍中的重要角色。不過,它們能作為證據(jù)的原因并不僅僅基于機(jī)器的本體觀,而是因?yàn)檫@些誤判的俳句為考察機(jī)器識(shí)別出的模式如何跟文本細(xì)讀和文化歷史識(shí)別出的模式相協(xié)調(diào)提供了二次機(jī)會(huì)。這些誤判不僅使我們得以解釋機(jī)器如何理解模式,還提示我們分析如何把機(jī)器的理解與人類閱讀模式中所固有的理解進(jìn)行對(duì)比。其結(jié)果就是一種新的文學(xué)模式識(shí)別方法,它因?yàn)榘U釋的多種本體視野間的匯聚點(diǎn)而格外充實(shí)。
在我們進(jìn)行的幾百個(gè)歸類測(cè)試中,有585首短詩(來自總計(jì)大約1900首詩)被誤判為俳句,其中一些測(cè)試的歸類錯(cuò)誤比別的測(cè)試要多得多。*相比之下,當(dāng)我們采用更精確的俳句模型時(shí),僅出現(xiàn)45首分類錯(cuò)誤的詩歌。在這個(gè)組群中,一首詩被誤判的平均次數(shù)為6次。如果僅考慮達(dá)到或超過這一閾值的詩歌,我們就會(huì)有202首額外的俳句添加到我們的語料庫中(見圖8)。這是一批相當(dāng)可觀的新材料,可以用于重新想象英語俳句的歷史;但遺留的問題是這些新材料如何(或是否)應(yīng)包含進(jìn)俳句的歷史中。我們可以簡(jiǎn)單地接受機(jī)器的判斷,但一個(gè)更能產(chǎn)生批評(píng)成果的方法,則是去調(diào)查機(jī)器識(shí)別的模式與人類識(shí)別的模式在何處相交或不相交。
圖8 歸類錯(cuò)誤的俳句分布與初始俳句語料庫分布的對(duì)照?qǐng)D大部分詩歌發(fā)表于1916至1918年間,1922之后的詩來自哈萊姆文藝復(fù)興期刊
這些誤判的文本分為三組。第一組我們稱為候補(bǔ)俳句。其中不但包括龐德和理查德·奧爾丁頓(Richard Aldington)等著名俳句承襲者的詩歌,還包括了通常不與意象派相聯(lián)系的人物,如路易絲·布萊恩特(Louise Bryant)、伊麗莎白·科茨沃斯(Elizabeth Coatsworth)和哈萊姆文藝復(fù)興詩人劉易斯·亞力山大(Lewis Alexander)等人的作品。這些詩之所以是候補(bǔ)俳句,是因?yàn)閺奈谋炯?xì)讀和文化史的角度來看,它們和被納入俳句語料庫的詩歌之間具有相似性。這些詩雖是被機(jī)器發(fā)現(xiàn)的,但若用更傳統(tǒng)的方式,它們也會(huì)很容易地被認(rèn)定為英語俳句。一個(gè)代表性的例子是奧爾丁頓的《雋語》,該詩發(fā)表于1916年的《小評(píng)論》:
雨鈴在池塘上摔破
蘆葦有白色的雨滴下
她顫抖著喃呢曲身;
風(fēng)搖蕩著紫藤掉落。
水鳥有紅色的喙
在百合的葉子下畏縮;
一只灰色蜜蜂,震驚于狂風(fēng)暴雨,
緊緊附著我的衣袖。*Richard Aldington, “Epigram,” in The Little Review 3 (Mar. 1916), p. 29.
這首詩既充滿恰當(dāng)?shù)淖匀灰庀?,又得益于一個(gè)動(dòng)靜并置的重疊技巧,客觀的凝視與淡淡的詩意內(nèi)省相結(jié)合。它的作者和發(fā)表出處也符合對(duì)俳句影響最為普遍之處的預(yù)期。機(jī)器在“滴水”“葉子”和“依附”等詞匯的索引下發(fā)現(xiàn)的模式,與文本細(xì)讀的讀者或文化歷史學(xué)家辨認(rèn)的俳句風(fēng)格相一致??梢钥隙?,機(jī)器是用不同的方式來辨認(rèn)風(fēng)格,但它暗示了僅靠措詞和簡(jiǎn)短性就可以同樣好地指示出人類讀者所闡明的、更加嚴(yán)格但也更加模糊的風(fēng)格定義。有時(shí)候,似乎一種難以言喻的對(duì)俳句性質(zhì)的感覺著實(shí)可以化約為詞語選擇的統(tǒng)計(jì)模式。在一些情況下,暗示性這個(gè)被眾多評(píng)論家吟誦的隱晦概念,只不過是選對(duì)正確詞匯的事。
第二組誤判的俳句文本則不那么符合文本細(xì)讀讀者或文化史家的批評(píng)直覺。我們把這些文本稱為機(jī)器俳句。其中的一個(gè)極端例子是喬治·布里格斯(George Briggs)的《伊芙林》(“Evelyn”)(1917):
當(dāng)她把頭轉(zhuǎn)向一邊;
她下巴和喉嚨的連線
延伸到頸肩之下
雅致如孔雀脖子起伏;
又如玫瑰花瓣的柔嫩。
而她的嗓音
聽來如漢子,
把鍋爐的鐵銹清除。*George Briggs, “Evelyn,” in The Smart Set 52 (Aug. 1917), p. 28.
這首詩發(fā)表在《聰明人》(TheSmartSet)上 ,與當(dāng)時(shí)人們對(duì)仿俳句詩的預(yù)期背道而馳。它不僅出現(xiàn)在不符合期待的地方——一個(gè)以小說和諷刺笑話聞名的紐約文學(xué)雜志,其材料本身也有所欠缺;沒有自然意象,也沒有任何指向更大的存在洞見的暗示性語言。結(jié)尾幽默的并置手法把詩人和讀者從他們空靈的幻夢(mèng)中搖醒,這在日本俳句傳統(tǒng)里絕不陌生,而人們也能夠在英語中找到戲仿的諷刺作品。機(jī)器只根據(jù)措詞就發(fā)現(xiàn)了戲仿作品,這肯定是巧合,不過它也促使我們?nèi)ミM(jìn)一步研究措詞是如何可能與更復(fù)雜的文體特征相關(guān)聯(lián)的。來自這份期刊的另一首誤判詩歌,題為《自然詩》(“Poem of Native”),1916年發(fā)表,就肯定了這種沖動(dòng):“一只松鼠順墻而跑。僅此而已?!?Sarsfield Young, “Poem of Nature,” in The Smart Set 50 (Dec.1916), p. 104.我們承認(rèn),樸素貝葉斯算法在俳句風(fēng)格的識(shí)別上比文本細(xì)讀或文化歷史所允許的要慷慨得多。在《伊芙林》中,“玫瑰”這類頻繁出現(xiàn)在俳句語料庫中的詞引導(dǎo)它把該詩也歸類為俳句,而“鍋爐”這類遠(yuǎn)為少見的詞卻被忽略了。*這是被施羅姆·阿加門和馬克·奧爾森稱為“最小公分母”的問題。分類算法往往會(huì)倚重所有特征里的一小部分,這樣既沒有足夠突出、也沒有在思辨上公正地對(duì)待文學(xué)作品的復(fù)雜性。(見Shlomo Argamon and Mark Olsen, “Words, Patterns and Documents: Experiments in Machine Learning and Text Analysis,” in Digital Humanities Quarterly 3, no. 2, 2009
最后一組誤判文本給文本細(xì)讀和文化歷史方法施加了更大的壓力,同時(shí)也指出了一個(gè)更普遍的東方主義氛圍。這些詩介于候補(bǔ)俳句和機(jī)器俳句之間。這里我們發(fā)現(xiàn)樸素貝葉斯也是一個(gè)風(fēng)格上的敏銳“讀者”,能揭示出不同語言模式相交叉的含糊地帶。我們來考察《山間刺柏》(“A Sierra Juniper”, 1921),這首詩由安娜·波特(Anna Porter)所作,刊于洛杉磯的《抒情西部》期刊:
我從花崗巖里奪取生命;
抗擊風(fēng)暴,我強(qiáng)煉肢體與根莖,
蹲伏,我抓握住危崖的邊緣,
一如我英勇搏斗幾千年。*Anna Porter, “A Sierra Juniper,” in Lyric West 1, No. 4 (1921), p. 18.
作為潛在的俳句,這首頌揚(yáng)一株嶙峋山木的詩兼具兩方面特征。它給出了一個(gè)高度集中的自然事物意象,但又讓人覺得受了韻律編排和重復(fù)動(dòng)詞(奪取、抗擊、蹲伏)的拖累;它融合了詩性主體和客體,但擬人的感覺又太過外顯。把它稱為一首嚴(yán)格受俳句影響的詩是走得太遠(yuǎn)了,但我們又完全可以說它加入了更大范圍的對(duì)東亞文化的熱衷,而英語俳句則是其中不可分割的一部分。正是在這兒,機(jī)器學(xué)習(xí)寬松的本體觀被證明極富價(jià)值,盡管它關(guān)于詩歌文本的概念相對(duì)貧乏。機(jī)器學(xué)習(xí)不僅將我們尋找文本模式的能力拓展到較低知名度以及邊緣詩人的作品,還涵蓋了原本在我們視野之外的文化歷史語境?!妒闱槲鞑俊?,一份立足于加利福尼亞、遠(yuǎn)離小雜志文化和意象主義的傳統(tǒng)中心(紐約和芝加哥)的期刊,過去從未成為那個(gè)故事的一部分。但機(jī)器學(xué)習(xí)卻表明它可以。這份期刊中的其他詩歌,如喬治·羅爾斯(George Rowles)受俳句啟發(fā)的短文或斯諾·蘭利(Snow Langley)對(duì)莊周夢(mèng)蝶的影射——這些同樣作為誤判俳句而被發(fā)現(xiàn)的詩歌——看來也參與了那個(gè)時(shí)代更普遍的東方主義爭(zhēng)鳴。*羅爾斯有好幾首詩被錯(cuò)誤歸類,其中包括《致武士》《日落》和《藝伎與古箏》,均發(fā)表于1922年。對(duì)莊子的指涉出自蘭利的《四月幻覺》,同樣發(fā)表于1922年。在調(diào)查了所有誤判詩歌后,我們發(fā)現(xiàn)大約20%屬于候補(bǔ)俳句,40%屬于機(jī)器俳句,剩下的40%屬于居中的俳句。
《山間刺柏》這首詩是一個(gè)令人信服的例子,它說明,一個(gè)多元化的文學(xué)模式識(shí)別模型有助于重繪文學(xué)影響的邊界。僅從文本細(xì)讀的角度,這首詩并未嚴(yán)格滿足邁納等學(xué)者給出的某些標(biāo)準(zhǔn),也沒有證據(jù)支持它受到俳句風(fēng)格的影響。作為文化歷史學(xué)家,我們很難將這首詩定位在現(xiàn)代主義學(xué)者所劃定的已知傳播范圍之中,特別是由于波特并不知名。文本細(xì)讀和歷史研究限定了一套文學(xué)以及社會(huì)模式,其中文本卻被輕易排除出來。另一方面,機(jī)器學(xué)習(xí)則表明在統(tǒng)計(jì)模式的層面存在著與俳句的某些關(guān)聯(lián)——一個(gè)微妙卻始終存在的關(guān)于單詞和單詞配置的模式。這里“影響”是作為一種統(tǒng)計(jì)上的可能性,其中詞匯和其他文體特征被認(rèn)為是各自獨(dú)特地分布在不同文本類型之間。這些潛在的、非顯明的影響痕跡正是機(jī)器最擅長檢測(cè)的,而個(gè)體讀者卻無法在一個(gè)大的規(guī)模中對(duì)其進(jìn)行識(shí)別。
在一些情況下,這些痕跡匯成一首符合對(duì)俳句文體的既定期望(基于自然意象、暗示性、簡(jiǎn)潔)的詩。在另一些情況下得出來的詩與俳句文體的關(guān)系卻似乎是完全任意的,或頂多是通過定義得更寬松的東方主義話語和俳句才勉強(qiáng)相關(guān)。但需要記住的是,即使機(jī)器關(guān)于影響上的看法與文本細(xì)讀或文化歷史告訴我們的有時(shí)不一致,在這些情況中,后兩種的方法也是從一開始就給機(jī)器的判斷提供了信息。畢竟,它們是我們一開始用來選定俳句語料庫的依據(jù)。機(jī)器揭示了存在于這些俳句和誤判文本之間明確的現(xiàn)實(shí)關(guān)系,雖然這一關(guān)系與我們作為文學(xué)批評(píng)者往往側(cè)重的那類關(guān)系在本體論上完全不同。在個(gè)別詩歌的層面這一關(guān)系看似偶然,但在散落于數(shù)十家期刊的上百首詩歌的層面,卻出現(xiàn)了一個(gè)共享著俳句文體特定要素的文本集合。俳句譯作和改編作中的文本模式似乎滲透進(jìn)一系列更廣泛的詩作之中,匯成了一個(gè)既與俳句文體相關(guān)、同時(shí)又屬于某些更廣泛的事物的東方主義氛圍。我們可以把這一氛圍想象為一種流傳中的文本模式,由于與其他模式不同,它可能與某些類型而非另一些類型的美學(xué)要更加親近。這樣一來,機(jī)器就有助于把俳句的接受歷史延長到其最直接和明顯的影響節(jié)點(diǎn)之外,使我們得以在一個(gè)更廣泛的詩學(xué)話語中考察它的影響和地位。
最后這部分僅指出我們可以如何開始追索這一東方主義氛圍的形成和發(fā)展,但我們要強(qiáng)調(diào)的是,這需要一個(gè)在人力解釋與機(jī)器解釋之間交替或連接二者的閱讀方法,其中的每一方在批評(píng)家從文本中提取意義的努力中都向另一方提供反饋。這樣一來,文學(xué)模式識(shí)別就把文本細(xì)讀、文化歷史和機(jī)器學(xué)習(xí)匯集在一起,使它們相互補(bǔ)充。我們對(duì)這些方法的記錄體現(xiàn)了每種方法不可避免的局限性,但也表明每種方法都具有一種模式發(fā)現(xiàn)的方式。模式(pattern)這一概念是在各種方法間進(jìn)行調(diào)節(jié)的控制條件,更重要的是,它還使各種關(guān)于文本(以及文本關(guān)系)的本體觀相對(duì)化。我們堅(jiān)持認(rèn)為,這種結(jié)合導(dǎo)致的碰撞可以產(chǎn)生關(guān)于英語俳句以及廣泛意義上的現(xiàn)代主義的新歷史。
必須承認(rèn),我們的方法得益于這樣一個(gè)事實(shí),即俳句以及現(xiàn)代主義詩歌本身的某些看法總是已經(jīng)有一些模式似的和計(jì)算式的東西。這正是19世紀(jì)后期日本文學(xué)評(píng)論家正岡子規(guī)(Masaoka Shiki)試圖給出的結(jié)論。他寫道:“從排列的理論來看,俳句明顯具有數(shù)值上的閾限……它被局限于僅20到30個(gè)音節(jié)。”*轉(zhuǎn)引自Janine Beichman, Masaoka Shiki: His Life and Works, Boston, 2002, p. 35. 正岡子規(guī)這里借自“‘一名精通數(shù)學(xué)的當(dāng)代學(xué)者’”來支持俳句即將走到盡頭的論點(diǎn)(p. 35)。達(dá)達(dá)主義者特里斯唐·查拉(Tristan Tzara)也間接提出了這一觀點(diǎn),他說詩人從新聞文章中精心地裁剪出單詞,“把它們都放在一個(gè)袋子里”,輕輕搖晃,然后將剪下的文字一張張地抽出來,這樣就寫成了詩。*Tristan Tzara, “To Make a Dadaist Poem” (1920); Seven Dada Manifestos, in “Seven Dada Manifestos” and “Lampisteries,” Barbara Wright (trans.), London, 1977, p. 39.還有馬里內(nèi)蒂(Marinetti),他認(rèn)為,“語言作為一個(gè)系統(tǒng),根本上是機(jī)械的,并能夠被分割成可再組合的元素?!?Johanna Drucker, The Visible Word: Experimental Typography and Modern Art:1909-1923, Chicago, 1994, p. 114.由此看來,提出人力與機(jī)器閱讀的融合是一次挑戰(zhàn),但不是對(duì)文學(xué)文本及我們作為文學(xué)評(píng)論家所做工作的異化或是倒退。這里是要使文學(xué)對(duì)象返回到曾經(jīng)屬于它自身、且目前也越發(fā)屬于它自身的本體觀——我們?nèi)缃裢ㄟ^數(shù)據(jù)和計(jì)算語言塑造這一本體觀,而前幾代人則通過頻率、公式和模仿的語言來塑造。我們一直知道有一些關(guān)系模式在文學(xué)體裁的創(chuàng)造和傳播之中運(yùn)作,但直到現(xiàn)在我們?nèi)允芟抻谧约旱淖R(shí)別能力。機(jī)器學(xué)習(xí)能夠幫助我們發(fā)現(xiàn)這些模式。
附錄:美國芝加哥大學(xué)霍伊特·朗副教授訪談*本文系欄目主持人戴安德、姜文濤對(duì)霍伊特·朗所作本刊獨(dú)家訪談,由清華大學(xué)人文社科學(xué)院中文系博士研究生趙薇翻譯。
提問:可以稍微談?wù)勀膶W(xué)術(shù)背景嗎?您是怎么進(jìn)入數(shù)字人文領(lǐng)域的呢?
回答:我原本的學(xué)術(shù)訓(xùn)練是在日本近現(xiàn)代文學(xué)領(lǐng)域,主要集中在20世紀(jì)早期這個(gè)歷史時(shí)段。盡管本科時(shí)我也拿到了一個(gè)計(jì)算機(jī)專業(yè)的副學(xué)位,但計(jì)算和量化的研究方法并非我研究生時(shí)期專業(yè)訓(xùn)練中的一部分,我博士論文中也沒有采取計(jì)算與量化的方法,后來我的博士論文成為我的第一部學(xué)術(shù)出版物,是關(guān)于詩人、作家宮澤賢治(Miyazawa Kenji,1896—1933)的。我第一次接觸到數(shù)字人文方法時(shí)還是一名助理教授,當(dāng)時(shí)參加了一個(gè)由國家人文基金會(huì)(NEH)組織的為期兩周的工作坊,內(nèi)容是關(guān)于網(wǎng)絡(luò)分析及其在人文領(lǐng)域中的應(yīng)用的。由于我的早期工作,我對(duì)探索藝術(shù)家工作網(wǎng)絡(luò)的形成與發(fā)展發(fā)生了興趣,特別是詩人與詩歌流傳的網(wǎng)絡(luò)。在這個(gè)工作坊期間,我學(xué)會(huì)了如何將這些網(wǎng)絡(luò)可視化和進(jìn)行分析,此后,我使用這些方法開始了一項(xiàng)關(guān)于二戰(zhàn)前日本現(xiàn)代主義詩歌期刊的研究。
最初吸引我轉(zhuǎn)向這項(xiàng)工作的是掌握大量信息的技能,這些信息是關(guān)于詩歌的出版時(shí)間和出版地的,以及在此基礎(chǔ)上去發(fā)現(xiàn)詩人間合作和社會(huì)區(qū)分的模式。涉及的規(guī)模之大,是我之前沒有想到的。一個(gè)擁有幾千名詩人和近十萬首詩歌的數(shù)據(jù)庫,可以讓我以全新的方式去探索這些檔案,開始以單個(gè)文本和作者的方式來提問。轉(zhuǎn)換了分析的單元和規(guī)模之后,潛藏在歷史材料中的模式浮現(xiàn)出來,這促進(jìn)了新的研究問題的產(chǎn)生,以及對(duì)藝術(shù)生產(chǎn)中社會(huì)過程的新理解。自從參加了2010年的工作坊后,我在學(xué)習(xí)計(jì)算機(jī)方法方面投入了越來越多的研究時(shí)間,尤其是那些用于發(fā)現(xiàn)和分析大體積文學(xué)文本模式的技能方面。我現(xiàn)在正寫的一本書就用到了這些方法,從量化的視角來考慮日本近現(xiàn)代文學(xué)史。
提問:您接受的訓(xùn)練是成為日本研究專家,曾對(duì)日文和中文文本做過數(shù)字人文方面的研究工作。和您相似的做亞洲研究的學(xué)者們?cè)谑褂脭?shù)字人文工具時(shí)會(huì)面臨哪些挑戰(zhàn)?或者說,您能談?wù)勱P(guān)于數(shù)字人文在北美、日本研究中的現(xiàn)狀嗎?或者它在日本本國的日本研究中的情形,以及這和它在北美及歐洲學(xué)界的情況有什么不同?
回答:在這方面,學(xué)者們面臨的最大挑戰(zhàn)是技術(shù)上的,這很大程度上和分析非字母腳本(non-alphabetic scripts)時(shí)遇到的困難相關(guān),在這些腳本中,詞與詞之間沒有界限。很多計(jì)算工具是以單詞為單元進(jìn)行分析處理的,你想分析的任何文本必須事先是切分(或標(biāo)記)好的。盡管現(xiàn)在有大量程序可以做這個(gè)切分的工作了,卻沒有一個(gè)程序可以達(dá)到百分百準(zhǔn)確,而且大部分工具都偏向于處理當(dāng)代語言。這意味著,能夠處理20世紀(jì)晚期日文文本的程序,在處理20世紀(jì)早期文本時(shí)可能就沒有那么準(zhǔn)確,而且肯定無法應(yīng)付任何日本書面白話文(written vernacular)定型之前的文本。鑒于這一情況,對(duì)中日語言由古典向現(xiàn)代白話轉(zhuǎn)變關(guān)鍵歷史時(shí)期的研究,如果以這種大型、量化的方法來進(jìn)行,就不可能了;或者這種情況至少使得采取大型量化的分析不那么容易了。而這種語言轉(zhuǎn)變的歷史時(shí)期正是界定日本和中國近現(xiàn)代文學(xué)的時(shí)間點(diǎn)。除了文本分割之外,一個(gè)更重要的挑戰(zhàn)來自于如何運(yùn)用光學(xué)字符識(shí)別軟件(optical character recognition ,即OCR)來將文本數(shù)字化。盡管這個(gè)領(lǐng)域的技術(shù)已經(jīng)取得了許多進(jìn)步,可是在識(shí)別亞洲文字中產(chǎn)生的困難情形,尤其是年代越久遠(yuǎn)的亞洲文字越難識(shí)別,這使得大型數(shù)字語料庫的建設(shè)速度減慢。這一情況正在有所改觀,大量的工作已經(jīng)做了起來,尤其是在處理前近代時(shí)期文本方面,但毫無疑問,與那些面對(duì)字母書寫文字(alphabetic scripts)的研究相比,我們慢了幾十年。需要更多的學(xué)者來做數(shù)字化的工作,更多的學(xué)者愿意去創(chuàng)建和分享數(shù)字語料庫,這樣才能趕上去。
就日本研究來說,這些技術(shù)障礙已經(jīng)減慢了北美和日本學(xué)者們采用數(shù)字方法的步伐。開始進(jìn)入數(shù)字研究的門檻看起來似乎太高了,特別是對(duì)于老一代的研究日本的學(xué)者來說。幾位北美日本研究學(xué)者,包括我自己在內(nèi),已經(jīng)開始組織工作坊,創(chuàng)造探索分析工具,藉此改變現(xiàn)狀,但這畢竟是少數(shù)。對(duì)于我們從事近現(xiàn)代文學(xué)的人來說,一個(gè)有利條件是“青空文庫(Aozora bunko)”,它收集了超過12000個(gè)無版權(quán)約束的20世紀(jì)初文本,這些都是以眾包的形式手動(dòng)輸入的。這便給予我們一個(gè)非常重要的起點(diǎn),來做大規(guī)模的現(xiàn)近代文學(xué)分析工作。然而,這個(gè)數(shù)據(jù)庫里存在著關(guān)鍵性的漏洞和一些不符合規(guī)范的地方,這使得它并不那么能代表近現(xiàn)代文學(xué)生產(chǎn)。而且這個(gè)數(shù)據(jù)庫覆蓋的范圍也非常小。相比之下,制作精良的數(shù)據(jù)庫,在英語文學(xué)研究者們手里,已經(jīng)用了一段時(shí)間了,它們涵蓋了18世紀(jì)晚期到今天的文學(xué)作品。日本文學(xué)研究者想要用上這樣長時(shí)段的數(shù)據(jù)庫,恐怕還要很多年。
有趣的是,正是前近代領(lǐng)域的學(xué)者們?cè)谝I(lǐng)人們開拓這方面的研究方法,這種情況在日本尤其如此。比如,早期的一些數(shù)字工作是由一些宗教學(xué)者們完成的,他們投入了大量的經(jīng)歷和時(shí)間來制作升級(jí)版的數(shù)字化佛經(jīng)。古典時(shí)期的學(xué)者也發(fā)現(xiàn),他們更易于采用數(shù)字方法,一部分原因是由于他們的語料庫更小也更易于數(shù)字化。早期近代視覺文化的數(shù)字化工作也取得了很大進(jìn)步。同時(shí),也是由于大部分的工作已經(jīng)做了幾十年了,人們也不會(huì)經(jīng)常同北美和歐洲最前沿的理論和計(jì)算技術(shù)對(duì)話交流。我認(rèn)為,這一溝壑阻礙了數(shù)字人文在日本近現(xiàn)代學(xué)者中的流行,因?yàn)樗麄兛床坏竭@項(xiàng)技術(shù)進(jìn)步可以帶來的知識(shí)上的幫助。我知道只有非常少數(shù)的學(xué)者在將計(jì)算方法運(yùn)用于近現(xiàn)代文本的研究,而且他們中的大多數(shù)還是語言學(xué)領(lǐng)域的。我希望,隨著越來越多的人可以使用相關(guān)工具,可以使用語料庫,會(huì)有更多的日本學(xué)者能看到這個(gè)領(lǐng)域可以帶來的效能。最近,弗朗科·莫瑞蒂《遠(yuǎn)讀》(DistantReading)一書被翻譯為日文,這很可能產(chǎn)生重要影響,也許會(huì)有助于復(fù)蘇日本文學(xué)批評(píng)中的量化思路,這一思路可以追溯到夏目漱石(1867—1916)。
提問:假設(shè)一名中國的文學(xué)研究者想要使用計(jì)算機(jī)去探索分析100個(gè)中文文本,為此,他愿意接受某種培訓(xùn)(例如,某種程序語言),如果可以拿出半年或兩三年的時(shí)間,那么他該做些什么呢?
回答:如果一個(gè)人只有六個(gè)月的時(shí)間,我會(huì)建議他首先閱讀一些該領(lǐng)域內(nèi)領(lǐng)先學(xué)者們的文章和書籍,這有助于他弄清哪些類別的分析可以(或不可以)采用計(jì)算機(jī)方法來進(jìn)行。這可能包括馬修·約克斯(Matthew Jockers)比較基礎(chǔ)性的著作《大分析》(Macroanalysis),杰弗里·洛克維爾(Geoffrey Rockwell)和斯蒂芬·辛克萊(Stephan Sinclair)的《詮釋學(xué)》(Hermeneutica),以及安德魯·派博(Andrew Piper)、泰德·安德伍德(Ted Underwood)、馬修·威爾肯斯(Matthew Wilkens)還有其他很多學(xué)者等的學(xué)術(shù)作品??催^這些后,他有可能想要閱讀一些關(guān)于統(tǒng)計(jì)學(xué)和自然語言處理方面的介紹性材料。就編程來說,這真的取決于他之前的經(jīng)驗(yàn)。但是如果之前完全沒有背景,我會(huì)建議從一種叫作“旅行者”(Voyant)的線上工具開始,它可以對(duì)單個(gè)文本做多種分析,也可以用于小批量文本的處理。*參見其網(wǎng)址:https://voyant-tools.org/如果有更大的雄心的話,我推薦去讀一下馬修·約克斯的《文學(xué)學(xué)者如何使用R語言進(jìn)行文本分析》(TextAnalysiswithRforStudentsofLiterature),這是一本非常簡(jiǎn)單易懂的書。人們?cè)谥匦聻橹形奈谋揪幋a時(shí)很可能會(huì)遇上一些難題,但我懷疑這些問題都可以參考R語言的編程書來解決,或者參考一些為中文使用者所寫的在線指導(dǎo)。我也建議去參加數(shù)字人文年會(huì),例如數(shù)字人文組織聯(lián)盟(ADHO)的年會(huì),或者其他會(huì)議中的相關(guān)專題研討及工作坊。這將便于你熟悉該領(lǐng)域業(yè)已存在的學(xué)術(shù)環(huán)境,也會(huì)讓你接觸到一些當(dāng)下的討論和問題。
如果可以投入兩至三年的時(shí)間,我建議參加一些編程的課程學(xué)習(xí)(甚至可以是在線課程),學(xué)習(xí)一些Python和(或者)R語言的基礎(chǔ)知識(shí),也可以通過一些指導(dǎo)性的教科書來自學(xué)。這樣的話,我推薦一些專門的教科書,諸如《使用Python的自然語言編程》(NaturalLanguageProcessingwithPython)。Python和R語言都是用途極為廣泛的編程語言,它們可以用于數(shù)字人文中的其他方面,包括社會(huì)網(wǎng)絡(luò)和空間分析。我也建議與老師和(或者)學(xué)生展開跨學(xué)科合作(例如語言學(xué)的、社會(huì)科學(xué)的),他們已經(jīng)對(duì)這些方法相當(dāng)熟悉了,可以更有效地為你提供資源。他們自己在使用工具時(shí)可能會(huì)有不同的目的,但是可以提供許多幫助,使你學(xué)到基礎(chǔ)知識(shí)。對(duì)于那些想要做網(wǎng)絡(luò)和空間分析的人來說,也有大量的指導(dǎo)資源。這取決于他們擁有什么樣的方法和工具,以及你在開始前對(duì)現(xiàn)存的文獻(xiàn)資料有多熟悉。
提問:我們對(duì)量化的文本分析如何能夠挑戰(zhàn)文學(xué)史的現(xiàn)有結(jié)論很感興趣。您能談?wù)剶?shù)字人文如何確認(rèn)或定義新的文學(xué)類型嗎,或者數(shù)字人文如何擴(kuò)張現(xiàn)有文學(xué)體裁的邊界?
回答:這是一個(gè)相當(dāng)寬泛的問題,我寧肯你去讀一些我發(fā)表的文章,里面描述了我認(rèn)為比較新的量化分析,以及它將會(huì)為文學(xué)史研究帶來什么。簡(jiǎn)單地說,我認(rèn)為與其說這種分析在界定新的文學(xué)類型方面作出了貢獻(xiàn),還不如說它更能夠促使我們?nèi)ヅu(píng)和重審現(xiàn)有的文學(xué)體裁定義。也就是說,這迫使我們?nèi)ニ伎迹覀內(nèi)缃竦亩x是如何被某種規(guī)模的分析,以及關(guān)于文學(xué)文本如何起作用的那些不太明顯的假設(shè)和模型所規(guī)定的。數(shù)字方法的關(guān)鍵并非是為了要使這些模型以及從中派生出來的解釋無效,而是要將這些模型放置在與不同模型和規(guī)模分析的比較中,這樣我們才有可能豐富我們的總體視野。數(shù)字人文最有前景的方面不在于它可以讓我們脫離文學(xué)基本問題,而在于讓我們能夠從新的有利角度回到這些問題,從而使這些概念的討論可以再度熱起來。它迫使我們重新認(rèn)識(shí)諸如文體、敘事、情節(jié)、人物以及話語等全部概念。但也刺激著我們?nèi)ブ貙彙凹?xì)讀”和其他解釋實(shí)踐,這些解釋實(shí)踐處于具體的歷史和意識(shí)形態(tài)中,充滿了偏見和未經(jīng)審視的假設(shè)。
提問:關(guān)于數(shù)字人文是如何轉(zhuǎn)變大學(xué)教育和研究使命的,我們想聽聽您的思考。簡(jiǎn)言之,有人指責(zé)數(shù)字人文的興起正是高校新自由主義化的表征,您對(duì)此作何感想?
回答:我當(dāng)然理解這一看法。向量化的靠攏、采取似乎科學(xué)的方法,給人一種感覺,似乎我們將很大地盤割讓給了侵蝕人文研究領(lǐng)域的經(jīng)濟(jì)和社會(huì)權(quán)力。這在日本是尤其現(xiàn)實(shí)的,那里的政府努力重建大學(xué)體系(以及取消人文科學(xué)的項(xiàng)目),為的是使這個(gè)體系更直接地與當(dāng)下的勞動(dòng)力市場(chǎng)匹配。所以人們對(duì)這種威脅的體會(huì)非常真實(shí),而且看上去數(shù)字人文不過是順其道行之的。但是,我認(rèn)為這種觀點(diǎn)是非常短視的,它忽視了數(shù)字人文領(lǐng)域的學(xué)者們實(shí)際上真正從事的工作。如果認(rèn)為只有人文學(xué)領(lǐng)域受到了大學(xué)新自由主義化的不利影響,進(jìn)而對(duì)此作出的反應(yīng)不過是對(duì)無論任何形式的數(shù)字人文研究都拒絕,且毫無旁顧地繼續(xù)做我們學(xué)術(shù)界一直做的那種類型的研究,那都是非常錯(cuò)誤的。對(duì)于我來說,這種心態(tài)既反智也誤入歧途,因?yàn)樗鼮槲覀儸F(xiàn)存體系之外設(shè)置了一個(gè)批評(píng)空間。但這從來未曾發(fā)生過。人文學(xué)者從來就是在大學(xué)的行政體系和經(jīng)濟(jì)結(jié)構(gòu)之內(nèi)工作的,而且在并不久遠(yuǎn)的過去,他們還十分愿意從事跨學(xué)科的工作呢。實(shí)際上,人文和文化研究與科學(xué)研究相悖的思想是相當(dāng)晚近的發(fā)明。在我們?yōu)楝F(xiàn)存的人文學(xué)科形式喪失而哀悼之前,我們應(yīng)該始終記住更長時(shí)段的人文學(xué)科史。
的確,人文科學(xué)和自然科學(xué)當(dāng)然蘊(yùn)含了不同的認(rèn)識(shí)論以及解釋學(xué)假設(shè),我們不能指望文化現(xiàn)象可以像生物或物理過程那樣被量化和抽象化。但是,認(rèn)為所有形式的量化研究都不適用于人文學(xué)科就不夠坦誠了,這忽略了藝術(shù)與科學(xué)之間長久的交流史。如果新自由主義化正在逼迫人文學(xué)者去與科學(xué)領(lǐng)域之中發(fā)生的研究進(jìn)行談話、與其他看待世界的模式之間再次溝通對(duì)話,那這便未必是一樁壞事 。如果對(duì)話是單邊的,那將帶來問題,但這也正是為什么人文學(xué)者應(yīng)該多去參與其他科學(xué)領(lǐng)域發(fā)展的原因。越是自絕于其他領(lǐng)域,我們將越是無法展開真正的對(duì)話,也無法為人文研究的獨(dú)特性做辯護(hù)。保存我們的相關(guān)性并不是要拒絕曾經(jīng)指引過我們研究的問題和對(duì)象,而是要在數(shù)字技術(shù)全面滲透的今天,重新思考這些問題和對(duì)象的處境。我們需要全面參與到這些技術(shù)中去,不僅為了幫我們把研究的問題和對(duì)象轉(zhuǎn)換到這新的數(shù)字時(shí)代,同時(shí)也讓我們以一種明智的、知情的方式去質(zhì)詢這轉(zhuǎn)變帶來的得失。我們,作為人文學(xué)者,應(yīng)積極為這種討論貢獻(xiàn)力量,但如果我們只是繼續(xù)自言自語下去,那終將無濟(jì)于事。
(責(zé)任編輯:陸曉芳)
2016-09-25
霍伊特·朗(Hoyt Long),美國芝加哥大學(xué)東亞語言與文化系副教授,主要研究方向?yàn)楝F(xiàn)代日本文學(xué)、媒體歷史、文學(xué)社會(huì)學(xué)與數(shù)字人文,著有OnUnevenGround:MiyazawaKenjiandtheMakingofPlaceinModernJapan(2012),與蘇真一起合作負(fù)責(zé)芝加哥文本實(shí)驗(yàn)室(Text Lab)。 蘇 真(Richard Jean So),美國芝加哥大學(xué)英文系副教授,主要研究方向?yàn)閿?shù)字人文等,著有TranspacificCommunity:America,ChinaandtheRiseandFallofaGlobalCulturalNetwork(2016)。
I0-05
A
1003-4145[2016]11-0034-20
譯者簡(jiǎn)介:林 懿,女,南京大學(xué)英語系博士研究生,美國杜克大學(xué)訪問學(xué)者,主要研究方向?yàn)楫?dāng)代英美文學(xué)與文學(xué)理論。
①Hoyt Long, and Richard Jean So, “Literary Pattern Recognition: Modernism between Close Reading and Machine Learning,” inCriticalInquiry, 42:2 (2016), pp.235-267. The University of Chicago Press. Translated and reprinted with permission of The University of Chicago Press.