摘 要:借助原文語(yǔ)料庫(kù)和計(jì)算機(jī)技術(shù)可以定量地分析日語(yǔ)的詞匯和句子,主要考察對(duì)象包括句子長(zhǎng)度、名詞比率、MVR和會(huì)話文比率等,通過(guò)對(duì)這些指標(biāo)的大規(guī)模數(shù)據(jù)統(tǒng)計(jì)和對(duì)比分析可以探究日語(yǔ)語(yǔ)言的文體特征。以此為基礎(chǔ)對(duì)宮澤賢治童話作品的各項(xiàng)指標(biāo)進(jìn)行了考察和對(duì)比分析,分別計(jì)算了其句子長(zhǎng)度和描寫(xiě)性語(yǔ)言的分布情況,得出了其個(gè)人的文體特征,驗(yàn)證了用計(jì)量方法探究日語(yǔ)語(yǔ)言文體特征的可操作性。
關(guān)鍵詞:日語(yǔ)語(yǔ)言 文體 計(jì)量方法 語(yǔ)料庫(kù)
一、相關(guān)研究回顧
隨著信息技術(shù)的發(fā)展和普及,進(jìn)入20世紀(jì)80年代后,研究者開(kāi)始借助語(yǔ)料庫(kù)來(lái)研究文本,并通過(guò)定量分析來(lái)探究文本的特征。人們通常用語(yǔ)料庫(kù)文體學(xué)、計(jì)量文體學(xué)等詞語(yǔ)來(lái)描述這一新興的研究方法。但無(wú)論哪種說(shuō)法,其根本均為基于語(yǔ)料庫(kù)對(duì)文本進(jìn)行定量分析。
近年來(lái),國(guó)內(nèi)對(duì)文本進(jìn)行定量分析的研究主要分為兩大類。分別為漢語(yǔ)言文學(xué)作品分析和英美文學(xué)作品分析。前者研究?jī)?nèi)容主要集中在唐宋詩(shī)詞等古代漢語(yǔ)言文學(xué)作品的詞匯語(yǔ)義、詩(shī)詞語(yǔ)言風(fēng)格評(píng)價(jià)等方面。[1]其用途之一在于通過(guò)字、詞、標(biāo)點(diǎn)等出現(xiàn)的頻度統(tǒng)計(jì)來(lái)分析文本的文體風(fēng)格。在此基礎(chǔ)上,還可用于通過(guò)字、詞、句的出現(xiàn)頻率來(lái)確定文學(xué)作品的創(chuàng)作者。如通過(guò)對(duì)《紅樓夢(mèng)》前80回和后40回的用詞統(tǒng)計(jì),確定后40回是否為曹雪芹所作。也就是說(shuō),通過(guò)文學(xué)作品的計(jì)量研究分析文本的語(yǔ)言風(fēng)格,可以確認(rèn)未知作者的文本或作者有疑義的文本的真實(shí)創(chuàng)作者。國(guó)內(nèi)對(duì)文學(xué)文本進(jìn)行定量分析研究的第二類為英美文學(xué)作品的量化研究。[2]
盡管人們認(rèn)為量化研究文學(xué)文本始于20世紀(jì)80年代,但事實(shí)上,以日本為例,早在1950年,波多野完治即有所涉及。他隨機(jī)抽取了500個(gè)小說(shuō)片段進(jìn)行字?jǐn)?shù)統(tǒng)計(jì),并與報(bào)紙、雜志中的文本進(jìn)行了比較。盡管這只是一個(gè)雛形,但可以說(shuō)開(kāi)創(chuàng)了日本定量分析文學(xué)文本的先河,為后來(lái)者提供了一個(gè)全新的研究視角。
二、定量分析日語(yǔ)文本的文體
目前文本的量化分析方法主要運(yùn)用于分析其文體特征。所謂文體即是文章“內(nèi)容的展開(kāi)方式”“作者的表現(xiàn)態(tài)度”和“所選取的表達(dá)方式”的結(jié)合(樺島忠夫,1968:76)。文體考察實(shí)際上是對(duì)某一語(yǔ)言特征的考察,即運(yùn)用語(yǔ)言學(xué)的方法將文本作為語(yǔ)言形式來(lái)進(jìn)行文體分析。這種文體分析具體來(lái)說(shuō)即分析、統(tǒng)計(jì)文章的音韻、文字和文的具體形態(tài)。例如,文章有無(wú)音韻規(guī)律,經(jīng)常使用的詞語(yǔ)類型,文的構(gòu)造和功能,多運(yùn)用短文還是長(zhǎng)文,等等。
在計(jì)算機(jī)技術(shù)發(fā)展之前的定量分析文體方法只適合于“詩(shī)歌或語(yǔ)篇片段的分析。對(duì)篇幅較大的小說(shuō)、劇本或一個(gè)作家的全部作品困難較大。”(劉世生、朱瑞清,2006:69)就目前的研究情況來(lái)看也確實(shí)如此。雖然現(xiàn)代文體研究通過(guò)抽取文章語(yǔ)言并進(jìn)行統(tǒng)計(jì),可以明晰某一類文學(xué)作品或是某一位作家的語(yǔ)言特征,但到目前為止,所研究的文學(xué)作品多為詩(shī)歌、短劇等篇幅短小、統(tǒng)計(jì)起來(lái)較為方便的文學(xué)類別,并且統(tǒng)計(jì)分析對(duì)象大多集中于英語(yǔ)圈作家的作品。國(guó)內(nèi)這類對(duì)文體進(jìn)行定量分析的研究也大多集中在唐宋詩(shī)詞等古漢語(yǔ)作品這類篇幅相對(duì)短小的作品上?!皩?duì)具體作家的文體風(fēng)格的研究,以國(guó)外居多。”(劉世生、朱瑞清,2006:65)目前國(guó)內(nèi)對(duì)日本文學(xué)作品和作家的文體研究現(xiàn)狀也是如此。但是隨著語(yǔ)料庫(kù)的發(fā)展,通過(guò)語(yǔ)料庫(kù)這一平臺(tái),分析長(zhǎng)篇的日語(yǔ)文本或某一作者的文體成為可能。
但從具體的分析考察內(nèi)容上來(lái)說(shuō),日語(yǔ)的語(yǔ)言特點(diǎn)決定了其文本與漢語(yǔ)及英語(yǔ)文本存在較大差異。在量化分析漢語(yǔ)及英語(yǔ)文本時(shí),大多采用統(tǒng)計(jì)詞頻的方式,即統(tǒng)計(jì)某字或詞語(yǔ)出現(xiàn)的頻率,進(jìn)而分析文體風(fēng)格。但是在日語(yǔ)文本分析中,統(tǒng)計(jì)詞頻較為困難。首先,日語(yǔ)的表記方法多樣,有漢字、平假名、片假名以及羅馬字等多種方式,有的詞語(yǔ)還有多種漢字寫(xiě)法,如「変える·替える·代える」,因此同一詞語(yǔ)可能會(huì)出現(xiàn)多種書(shū)寫(xiě)方式;而同樣的假名也可能有不同的含義,如「蟻(あり)·有り(あり)」,這無(wú)疑大大增加了詞頻統(tǒng)計(jì)的工作量。其次,日語(yǔ)詞匯中活用變化較多,同一含義的單詞根據(jù)上下文的不同可能會(huì)變化成五六種不同的活用形,這同樣給詞頻統(tǒng)計(jì)帶來(lái)不便。
因此,在試圖運(yùn)用語(yǔ)料庫(kù)量化分析日語(yǔ)文本時(shí),需要結(jié)合日語(yǔ)的表現(xiàn)特點(diǎn)重新確定考察對(duì)象。通過(guò)比較分析,可以從以下幾個(gè)方面著手:
1.句子長(zhǎng)度
這項(xiàng)指標(biāo)考察每一句中字?jǐn)?shù)或自立語(yǔ)數(shù)或文節(jié)的數(shù)量。由于日語(yǔ)中每一文節(jié)僅包含一個(gè)自立語(yǔ),因此該項(xiàng)指標(biāo)考察的自立語(yǔ)數(shù)量和文節(jié)數(shù)應(yīng)為一致。一篇文章中,若每句句子越長(zhǎng)(即包含的自立語(yǔ)數(shù)或文節(jié)數(shù)越多),則文章越難理解;相反則淺顯易懂。波多野完治曾對(duì)日本的小說(shuō)、報(bào)紙、雜志文章中的句子長(zhǎng)度進(jìn)行過(guò)統(tǒng)計(jì),結(jié)果如下:[3]
表1:
類別 小說(shuō) 報(bào)紙 雜志
句子長(zhǎng)度/字?jǐn)?shù) 34.5 98 61
也就是說(shuō)在日語(yǔ)文章中,與報(bào)紙、雜志報(bào)道相比,小說(shuō)的句子長(zhǎng)度是最短的,平均每句句子只有34.5個(gè)字。但是與日常對(duì)話相比,其結(jié)果又將如何?樺島忠夫曾對(duì)具體數(shù)值進(jìn)行過(guò)統(tǒng)計(jì),統(tǒng)計(jì)結(jié)果如下表所示:[4]
表2:
類別 日常對(duì)話 小說(shuō) 日本文學(xué)大辭典 新聞報(bào)道
句子長(zhǎng)度/自立語(yǔ)數(shù) 3.4 12.1 20.2 14.6
需要說(shuō)明的是,此處對(duì)小說(shuō)句子長(zhǎng)度的統(tǒng)計(jì)中不包括會(huì)話文。在這項(xiàng)統(tǒng)計(jì)中可以看出小說(shuō)的平均句子長(zhǎng)度大約是日常對(duì)話的3倍。以上兩組表格中,雖考察項(xiàng)目有所不同(前者統(tǒng)計(jì)的為句子字?jǐn)?shù),后者統(tǒng)計(jì)的是自立語(yǔ)數(shù)量),但所指向的內(nèi)容均為句子長(zhǎng)度。
2.名詞比率
名詞比率是指文本中名詞的數(shù)量在所有獨(dú)立詞中所占比例。根據(jù)樺島忠夫的統(tǒng)計(jì),各類型文章中名詞的平均使用率如下:
表3:
談話語(yǔ) 社說(shuō) 日本文學(xué)大辭典 俳句 新聞報(bào)道 標(biāo)題
43.2 51.1 59.6 62.7 68.3 74.0
可以看出,在標(biāo)題文本中名詞的使用率最高,談話語(yǔ)則最低。這表明了名詞較多地使用于歸納性、說(shuō)明性文本中,而在描寫(xiě)性文本中則使用較少。
3.MVR
MVR為Modifier and Verb Rate的縮寫(xiě),即修飾詞與動(dòng)詞的比率。Modifier包括形容詞、形容動(dòng)詞、副詞、連體詞等起修飾作用的詞語(yǔ),V即動(dòng)詞。在計(jì)算時(shí),通常會(huì)在M和V的比值下再乘以100以方便標(biāo)記。文本中,MVR的值越高,說(shuō)明該文本運(yùn)用了較多的描寫(xiě)性的修飾詞語(yǔ),閱讀起來(lái)容易理解,不晦澀。反之則表明文本的說(shuō)明性傾向越大。
4.會(huì)話文的比率
會(huì)話文的比率是指一部文學(xué)作品中引用的對(duì)話在全文中所占的比例。我們已知日常對(duì)話的平均句子長(zhǎng)度約為小說(shuō)平均句子長(zhǎng)度的三分之一。文學(xué)作品中,作者常常引用對(duì)話使讀者身臨其境地把握人物的心理、情緒和環(huán)境氛圍等。因此,文本中如果較多地引用對(duì)話的話,不僅通俗易懂,且能夠讓讀者直觀地感受到人物性格特征及場(chǎng)景氣氛等,因而更加引人入勝。
以上四項(xiàng)指標(biāo)中,第一項(xiàng)直接關(guān)系到文本閱讀時(shí)的難易度,即相對(duì)于長(zhǎng)句來(lái)說(shuō),短句更容易理解;第二、三、四項(xiàng)指標(biāo)直接關(guān)系到文本的描寫(xiě)性傾向。即名詞比率越低、MVR和會(huì)話文比率越高,則文本越傾向于描寫(xiě)性。而相對(duì)于說(shuō)明性文本,描寫(xiě)性傾向越高的文本閱讀難度越低。因此,對(duì)該四項(xiàng)指標(biāo)的考察除了能掌握文本(或作者)的文體特征之外,還均能從實(shí)證角度論證文本的閱讀難易度。
三、關(guān)于宮澤賢治童話作品的句子長(zhǎng)度分析
宮澤賢治的作品在日本廣受歡迎,并且其讀者群并不限于兒童。為了解這位作家的語(yǔ)言風(fēng)格,筆者將利用原文語(yǔ)料庫(kù)和日語(yǔ)解析軟件對(duì)其作品進(jìn)行大規(guī)模的數(shù)據(jù)提取和對(duì)比分析。
(一)數(shù)據(jù)采集
為使結(jié)論盡量客觀而全面,在數(shù)據(jù)采集上,筆者選取了宮澤賢治各個(gè)時(shí)期所創(chuàng)作的18篇童話作品。其中因?yàn)?921年為宮澤賢治創(chuàng)作的高峰期,本文選擇的該時(shí)期作品也略多一些。具體作品情況如表4所示(其中*為其生前未發(fā)表作品)。
表4:
作品 創(chuàng)作時(shí)間 作品 創(chuàng)作時(shí)間
1 雙子の星* 1918年 10 烏の北闘七星 1921年
2 蜘蛛となめくじと貍* 1918年 11 注文の多い料理店 1921年
3 土神ときつね* 1919年 12 水仙月の四日 1922年
4 グスコーブドリ伝記 1920年 13 やまなし 1923年
5 貝の火* 1920年 14 氷河鼠の毛皮 1923年
6 どんぐりと山貓 1921年 15 貓の事務(wù)所 1925年
7 ヨタカの星* 約1921年 16 銀河鉄道の夜* 1931年
8 月夜のでんしんばしら* 1921年 17 風(fēng)の又三郎* 1931~1933年
9 雪渡り 1921年 18 蛙のゴム靴* 不詳
前文已述,由于日文表記方法的多樣性,為避免在計(jì)算句子長(zhǎng)度時(shí)使用字?jǐn)?shù)統(tǒng)計(jì)造成不盡客觀的結(jié)果,筆者還將在字?jǐn)?shù)統(tǒng)計(jì)的基礎(chǔ)上采用解析軟件統(tǒng)計(jì)文節(jié)數(shù)量。由于每一個(gè)文節(jié)只包含一個(gè)自立語(yǔ)數(shù)量,因此句子的文節(jié)數(shù)也反映了自立語(yǔ)數(shù),即句子長(zhǎng)度。通過(guò)解析軟件可得出上述18篇童話作品的字?jǐn)?shù)、句子數(shù)以及文節(jié)數(shù),將這些數(shù)據(jù)進(jìn)行計(jì)算之后可以得出宮澤賢治該18篇童話作品的句子長(zhǎng)度數(shù)據(jù),結(jié)果如圖1所示(橫坐標(biāo)的數(shù)字為表4中各童話作品的編號(hào))。
圖1:
從上圖可以看出,在統(tǒng)計(jì)的宮澤賢治的18部童話作品中,除了第1、2、18號(hào)作品,其余15部作品每句平均文字?jǐn)?shù)幾乎都集中在25-35字之間。其中有一半的作品都是在30字左右。而每一句的平均文節(jié)數(shù)大體也呈現(xiàn)這一規(guī)律??傮w來(lái)說(shuō),這18篇作品的平均文節(jié)數(shù)都在5-10之間。其中第1、2、18篇作品的數(shù)據(jù)更低一些。具體來(lái)說(shuō),每一文的平均文節(jié)數(shù)為9或10的只有三部作品,其余作品大多為7個(gè)或8個(gè)文節(jié)。經(jīng)計(jì)算,所有18部童話作品的每句平均字?jǐn)?shù)為27.5,平均文節(jié)數(shù)為7.7。
(二)對(duì)比分析
定量分析文學(xué)作品的目的在于總結(jié)作家或作品的文體特征。而特征是相對(duì)的,因此在該例中,要想總結(jié)宮澤賢治童話句子長(zhǎng)度的特征,就必須有參照對(duì)象。樺島忠夫通過(guò)統(tǒng)計(jì)得出的結(jié)論為“口語(yǔ)中,平均每文使用的文節(jié)數(shù)為3.2-3.6,大約為小說(shuō)的三分之一?!庇纱?,我們可知,小說(shuō)中每文的平均文節(jié)數(shù)大約在9.6-10.8之間。但是,根據(jù)上文對(duì)宮澤賢治十八篇童話作品的統(tǒng)計(jì),其每文的平均文節(jié)數(shù)只有7.7,僅為小說(shuō)文節(jié)數(shù)的四分之三。在此基礎(chǔ)上筆者又進(jìn)行了對(duì)比研究。在比較對(duì)象的選擇上,考慮到要兼顧時(shí)代特點(diǎn)和作品特點(diǎn),因此選擇了同時(shí)代的島崎藤村的作品進(jìn)行對(duì)比分析。島崎藤村(1872-1943)和宮澤賢治的(1896-1933)生活年代大體相近,因此避免了因年代不同而造成的作品文體差異。表2為本文所要統(tǒng)計(jì)的島崎藤村的五篇作品及各作品字?jǐn)?shù)、句子數(shù)和文節(jié)數(shù)的相關(guān)數(shù)據(jù)。這五篇作品均為其代表作,創(chuàng)作時(shí)期也各有不同,時(shí)間跨度達(dá)二十余年。其中《ふるさと》為童話。
表5:
作品 創(chuàng)作時(shí)間 字?jǐn)?shù) 句子數(shù) 文節(jié)數(shù)
19 破戒 1906年 201286 6154 65425
20 家 1911年 266017 6931 80486
21 新生 1919年 332091 7464 95198
22 ふるさと 1920年 42622 1174 12990
23 夜明け前 1929年 801100 18932 209157
由表5數(shù)據(jù)經(jīng)過(guò)計(jì)算可以得出島崎藤村五部作品中每句平均字?jǐn)?shù)和每句平均文節(jié)數(shù)。數(shù)值分布如圖2所示。
圖2:
從圖2可以看出,島崎藤村的五篇作品中,除了《破戒》以外,每句平均字?jǐn)?shù)均在35-45之間。此外,五篇作品的每句平均文節(jié)數(shù)均為10-13左右。通過(guò)計(jì)算,這五篇作品的平均句長(zhǎng)為每句38.8字和11.4文節(jié)。這一數(shù)據(jù)與宮澤賢治的有相當(dāng)大的差距,圖3可以直觀反映出來(lái)(每組左邊的柱狀圖為宮澤賢治作品的數(shù)據(jù))。與島崎藤村的作品相比,宮澤賢治作品的每句平均字?jǐn)?shù)少十余字,每句平均文節(jié)少近4個(gè)。
圖3:
通過(guò)以上對(duì)數(shù)據(jù)的統(tǒng)計(jì)和對(duì)比,我們可以看出宮澤賢治的童話作品句子長(zhǎng)度特別短小,介于口語(yǔ)和小說(shuō)的長(zhǎng)度之間(口語(yǔ)為3-4文節(jié),小說(shuō)約為11文節(jié),宮澤賢治童話約為7.7)。但這一特征究竟是其個(gè)人寫(xiě)作特征還是作為童話的普遍特征,我們可以通過(guò)與同時(shí)代其他作家的童話作品進(jìn)行比較。以下將從雜志「赤い鳥(niǎo)」中選取四部童話作品作為參照進(jìn)行對(duì)比?!赋啶B(niǎo)」為鈴木三重吉于1918年創(chuàng)辦的童話雜志,于1935年??1?為從上述刊物中選取的作品的相關(guān)數(shù)據(jù)。
表6:
作品 作家 創(chuàng)作時(shí)間 字?jǐn)?shù) 文長(zhǎng) 文節(jié)數(shù)
24 蜘蛛の糸 芥川龍之介 1918年 2840 61 734
25 ぽっぽのお手帳 鈴木三重吉 1918年7月 5511 174 1583
26 一本足の兵隊(duì) 鈴木三重吉 1919年5月 5351 172 1623
27 ごん狐 新美南吉 1932年 4798 143 1272
由表6可以看出,用于對(duì)比分析的四部童話作品的創(chuàng)作年份與宮澤賢治童話作品的創(chuàng)作年代相符,因此可以排除由于年代差距而導(dǎo)致的文風(fēng)差異。比較結(jié)果可以直觀表現(xiàn)為圖4所示。兩道虛線分別為宮澤賢治童話作品每句話的平均字?jǐn)?shù)和文節(jié)數(shù)。顯然除了芥川龍之介的數(shù)據(jù)較大以外,其他三部作品表現(xiàn)相當(dāng),但均高于宮澤賢治的童話作品。事實(shí)上,芥川龍之介其他非童話的作品的句子長(zhǎng)度均較同時(shí)期小說(shuō)家的數(shù)據(jù)要高;此外,「赤い鳥(niǎo)」也曾經(jīng)收到過(guò)宮澤賢治的投稿,但并未采用。因此宮澤個(gè)人的寫(xiě)作風(fēng)格與雜志其他作品風(fēng)格的差異由此可見(jiàn)一斑。
圖4:
以上數(shù)據(jù)和分析都表明,無(wú)論是與一般小說(shuō)相比,還是與其他作家的童話作品相比,宮澤賢治童話作品的句子長(zhǎng)度均偏短,每句話的中心詞數(shù)量偏少。這一發(fā)現(xiàn)從實(shí)證的角度說(shuō)明宮澤賢治的作品淺顯易懂。筆者認(rèn)為,這也是其在日本廣受歡迎的原因之一。
四、關(guān)于宮澤賢治童話語(yǔ)言的描寫(xiě)性分析
所謂描寫(xiě)性語(yǔ)言,即能讓讀者在閱讀時(shí)產(chǎn)生種種關(guān)于樣態(tài)、方式方法等的聯(lián)想的語(yǔ)言表達(dá)。在一篇文章中,描寫(xiě)性語(yǔ)言成分越多,文章就越容易理解。通過(guò)上述關(guān)于句子長(zhǎng)度的分析,我們獲取相關(guān)數(shù)據(jù)并得出宮澤賢治童話作品淺顯易懂的結(jié)論。在該部分,我們將提取宮澤賢治作品中描寫(xiě)性語(yǔ)言的數(shù)據(jù),以對(duì)上述結(jié)論進(jìn)行補(bǔ)充或駁斥。數(shù)據(jù)來(lái)源仍然與上文相同,抽取宮澤賢治于不同年代創(chuàng)作的18部作品,分析對(duì)象將包括以下幾個(gè)方面:名詞比率、MVR和會(huì)話文比率。
(一)名詞比率
在說(shuō)明性的文本中,由于作者需要論述或推測(cè)機(jī)制、理由,又或者要判斷某事物的價(jià)值,因此我們可以認(rèn)為在說(shuō)明性的文章中名詞的比率較高。宮澤賢治的18部作品和島崎藤村的5部作品中的名詞比率如圖5所示。
圖5:
圖5中垂直虛線以左為宮澤賢治18部童話作品的相關(guān)數(shù)據(jù)。名詞使用率最低的為18號(hào)作品(32.68%),最高的為15號(hào)作品(44.06%),平均數(shù)值為39%。右邊島崎藤村5部作品的數(shù)據(jù),我們可以看出數(shù)值最低的20號(hào)作品(46.71%)都高于賢治的最高值,而最高值的23號(hào)作品更是高達(dá)54.49%,藤村作品的平均數(shù)值為50.2%。圖5中水平虛線為日本小說(shuō)中名詞比率的平均數(shù)值,可以看出該數(shù)據(jù)遠(yuǎn)遠(yuǎn)高于賢治的童話作品,整體上與島崎藤村的作品較為接近。通過(guò)圖6也可以看出,宮澤賢治童話作品的名詞比率也低于同時(shí)期其他童話作品。
圖6:
(二)MVR
MVR(Modifier and Verb Rate)為修飾詞與動(dòng)詞的比率,是判斷文章描寫(xiě)性特征的又一指標(biāo)。修飾詞包括形容詞、形容動(dòng)詞、副詞和連體詞。因此,動(dòng)詞較多的文本MVR值偏小,相反,修飾詞較多的文本MVR就偏大。也就是,越是詳細(xì)描述表現(xiàn)對(duì)象樣態(tài)的文本,MVR也就越大,這樣的文本自然屬于描寫(xiě)性文本。在統(tǒng)計(jì)并計(jì)算宮澤賢治的18部作品和島崎藤村的5部作品的MVR值之后,得出圖7。
圖7:
橫軸為名詞比率,縱軸為MVR值,虛線左右兩邊分別為賢治和藤村作品的數(shù)據(jù)。可以看出左邊宮澤賢治作品中MVR值在100以上的有6部,占全部作品的1/3,MVR值在70以下的作品僅兩部,其他作品大部分在80以上,所有18部作品的MVR平均值為89.32。而島崎藤村的5部作品中,MVR值最高的也僅僅為82.84,低于賢治作品的平均值。圖8為與「赤い鳥(niǎo)」中作品的對(duì)比圖。直線連接的四點(diǎn)為「赤い鳥(niǎo)」中四部童話作品的數(shù)據(jù)分布,MVR值最高的為24號(hào)作品(77.56),與賢治作品的平均值還存在較大差距??梢钥闯鲞@四部作品在圖中位置都位于虛線以下,虛線以上均為賢治的作品。
圖8:
(三)會(huì)話文比率
判斷文章的描寫(xiě)性傾向還可以通過(guò)會(huì)話文比率這一指標(biāo)。即文本中對(duì)話字?jǐn)?shù)與文本總字?jǐn)?shù)的比率。在文本中,通過(guò)引用對(duì)話,能夠創(chuàng)造出身臨其境的感受,直觀地向讀者傳達(dá)人物的感情、身份、環(huán)境特征等。
圖9:
圖9為本文考察的27部作品的會(huì)話文比率。其中前18部宮澤賢治作品的數(shù)值明顯高于其他9部,其平均數(shù)值為34.65%,幾乎全文的三分之一以上均為直接引用的會(huì)話文。相比之下,島崎藤村的作品數(shù)值最低,除22號(hào)童話作品以外,其他四部均低于4%。而有3部「赤い鳥(niǎo)」中童話以及藤村的童話(22號(hào))的會(huì)話文比率幾乎都在15%左右。此外,芥川龍之介的23號(hào)作品,雖然為童話,但數(shù)值卻僅為4.19%,再比較此前對(duì)比句子長(zhǎng)度時(shí)的數(shù)值,23號(hào)作品遠(yuǎn)高于其他「赤い鳥(niǎo)」中的童話,不得不說(shuō)這是芥川龍之介的個(gè)人寫(xiě)作特點(diǎn)。
圖10:
文本中的名詞比率、MVR和會(huì)話文比率均表現(xiàn)了作者行文時(shí)的描寫(xiě)性傾向。如圖10所示,通過(guò)這三項(xiàng)指標(biāo)的對(duì)比,我們可以看出宮澤賢治的作品具有較強(qiáng)的描寫(xiě)性特征。其作品的MVR和會(huì)話文比率遠(yuǎn)高于同時(shí)代其他作品(包括同時(shí)代童話作品),而名詞比率卻最低。再結(jié)合前文關(guān)于句子長(zhǎng)度的相關(guān)數(shù)據(jù),每一項(xiàng)指標(biāo)的數(shù)值均說(shuō)明宮澤賢治童話作品的通俗易懂,也解釋了其作為作家在日本人氣居高不下、其作品在日本廣為流傳的原因。
五、結(jié)語(yǔ)
隨著現(xiàn)代計(jì)算機(jī)技術(shù)和語(yǔ)料庫(kù)的不斷完善,已有越來(lái)越多的研究者開(kāi)始借助語(yǔ)料庫(kù),使用定量分析的方法分析文本,尤其是文學(xué)文本。但盡管如此,研究大多局限于漢語(yǔ)言文學(xué)和英美文學(xué)作品,鮮見(jiàn)對(duì)日語(yǔ)文本,尤其是長(zhǎng)篇文本進(jìn)行量化研究。究其原因,除了日語(yǔ)長(zhǎng)篇文本語(yǔ)料庫(kù)不夠充分之外,主要是先前計(jì)算機(jī)技術(shù)的局限性和日語(yǔ)自身的語(yǔ)言特點(diǎn)制約了日語(yǔ)語(yǔ)言的量化分析,導(dǎo)致大規(guī)模的詞頻統(tǒng)計(jì)無(wú)法完成。但是,計(jì)算機(jī)技術(shù)發(fā)展日新月異,目前已有相關(guān)軟件可以分析日語(yǔ)文本的文節(jié)特征,在此基礎(chǔ)上,在對(duì)日語(yǔ)文本進(jìn)行定量分析時(shí),可以跳出詞頻統(tǒng)計(jì)的束縛,通過(guò)句子長(zhǎng)度、名詞比率、MVR和會(huì)話文比率,來(lái)探究日語(yǔ)(文學(xué))文本的文體特征。本文利用語(yǔ)料庫(kù)和日語(yǔ)解析軟件,嘗試分析并對(duì)比了宮澤賢治童話作品的句子長(zhǎng)度特點(diǎn)和描寫(xiě)性傾向。筆者認(rèn)為,結(jié)合語(yǔ)料庫(kù)和日語(yǔ)解析軟件,可以深入探究文本和作者的文體風(fēng)格。
(基金項(xiàng)目:本文是2014年江蘇省教育廳項(xiàng)目“小松左京作品的日本文化意義”[項(xiàng)目編號(hào):2014SJB804]、2015年江蘇省教育廳項(xiàng)目“中日傳統(tǒng)‘家文化與百姓幸福觀問(wèn)題研究”[項(xiàng)目批準(zhǔn)號(hào):2015SJB838]、江蘇大學(xué)2015年高等教育教改研究課題“語(yǔ)料庫(kù)技術(shù)輔助高校日語(yǔ)專業(yè)詞匯搭配教學(xué)的研究與實(shí)踐”[課題編號(hào):2015JGYB024]的階段性研究成果。)
注釋:
[1]如試論古代文學(xué)中計(jì)量方法的應(yīng)用、倉(cāng)央嘉措情歌的用詞風(fēng)格統(tǒng)計(jì)研究。
[2]如任艷,陳建生,丁峻:《英國(guó)哥特式小說(shuō)中的詞叢——基于語(yǔ)料庫(kù)的文學(xué)文體學(xué)研究》,解放軍外國(guó)語(yǔ)學(xué)院學(xué)報(bào),2013年,第9期。
[3]數(shù)據(jù)來(lái)自波多野完治:《現(xiàn)代文章心理學(xué)》,新潮社,1950年版,第153頁(yè)。
[4]數(shù)據(jù)來(lái)自樺島忠夫:《日本語(yǔ)のスタイルブック》,大修館書(shū)店,1979年版,第214頁(yè)。
參考文獻(xiàn):
[1]樺島忠夫.表現(xiàn)の解剖——続文章工學(xué)[M].三省堂,昭和43年:27-94.
[2]波多野完治.現(xiàn)代文章心理學(xué)[M].新潮社,1950:153-164.
[3]樺島忠夫.日本語(yǔ)のスタイルブック [M].大修館書(shū)店,1979:211-216.
[4]橋本進(jìn)吉.國(guó)文法研究第二冊(cè)(橋本進(jìn)吉博士著作集)[M].巖波書(shū)店,1948:5-12.
[5]前川喜久雄.コーパスとは何か(國(guó)文學(xué)解釈と鑑賞 特集=日本語(yǔ)研究とコーパス)[J].至文堂,2009,(1).
[6]宮島達(dá)夫.図説日本語(yǔ)——グラフで見(jiàn)る言葉の姿[M].角川書(shū)店,1982:373-392.
[7]原子朗.真の文體論的批評(píng)への期待」[J].『日本語(yǔ)學(xué)』特集,1997,(9).
[8]劉世生,朱瑞青.文體學(xué)概論[M].北京:北京大學(xué)出版社,2006:61-69.
[9]李文中.語(yǔ)料庫(kù)語(yǔ)言學(xué)的研究視野[J].解放軍外國(guó)語(yǔ)學(xué)院學(xué)報(bào),2010,(3):37-40.
[10]李晉,郎建國(guó).語(yǔ)料庫(kù)語(yǔ)言學(xué)視野中的外國(guó)文學(xué)研究[J].外國(guó)語(yǔ),2010,(2):82-89.
[11]毛文偉.日語(yǔ)語(yǔ)料庫(kù)建設(shè)的現(xiàn)狀綜述[J].日語(yǔ)語(yǔ)言研究,2009,(6):42-47.
[12]唐磊.試論古代文學(xué)中計(jì)量方法的應(yīng)用[J].中國(guó)社會(huì)科學(xué)院研究生院學(xué)報(bào),2006,(2):126-132.
[13]陳晨,陳小瑩等.倉(cāng)央嘉措情歌的用詞風(fēng)格統(tǒng)計(jì)研究[J].西北民族大學(xué)學(xué)報(bào)(自然科學(xué)版),2009,(3):46-50.
[14]任艷,陳建生,丁峻.英國(guó)哥特式小說(shuō)中的詞叢——基于語(yǔ)料庫(kù)的文學(xué)文體學(xué)研究[J].解放軍外國(guó)語(yǔ)學(xué)院學(xué)報(bào),2013,(9):16-20.
(曹雅潔 江蘇大學(xué)文學(xué)院 212013)