鄭文
【摘 要】本文采用中文信息處理的方法,以莫言散文《賣白菜》《會唱歌的墻》中的文本內(nèi)容為研究對象,使用詞性標(biāo)注工具M(jìn)yTxtSegTag軟件對其文本進(jìn)行詞性切分標(biāo)注,并使用Python編寫程序?qū)η蟹趾玫拿總€詞進(jìn)行詞頻統(tǒng)計(jì),最終根據(jù)得出的數(shù)據(jù)進(jìn)行主題詞分析總結(jié)。
【關(guān)鍵詞】中文信息處理;莫言;賣白菜;會唱歌的墻;主題詞
莫言是第一位獲得諾貝爾文學(xué)獎的中國本土作家、第一位獲得諾貝爾文學(xué)獎的華人作家,是中國文學(xué)界迄今為止獲得的最高獎項(xiàng)。他自1980年代以一系列鄉(xiāng)土作品崛起,充滿著“懷鄉(xiāng)”以及“怨鄉(xiāng)”的復(fù)雜情感,被歸類為“尋根文學(xué)”作家。據(jù)不完全統(tǒng)計(jì),莫言的作品目前至少已經(jīng)被翻譯成40種語言。自莫言獲諾貝爾文學(xué)獎后,“莫言熱”成為大家茶余飯后紛紛討論的話題,對于莫言寫作方方面面的研究層出不窮,但從語言學(xué)角度,尤其是計(jì)算語言學(xué)角度研究的文章并不多見。
現(xiàn)在,很多研究者通過計(jì)算機(jī)輔助的方法對作家作品的語言風(fēng)格、文體特征、思想主旨等方面進(jìn)行研究,計(jì)算機(jī)技術(shù)與文學(xué)兩個領(lǐng)域的結(jié)合也成為當(dāng)今跨領(lǐng)域交叉學(xué)科研究的一個重要方向。通過計(jì)算機(jī)輔助的方法對文學(xué)作品的高頻詞與主題詞進(jìn)行研究對于把握文學(xué)相關(guān)方面的研究有重大幫助。研究語料內(nèi)容、語料風(fēng)格的重要手段之一就是主題詞研究。語料中語言規(guī)律能通過高頻詞與主題詞反映出來。我們通常認(rèn)為,文本的主題越明確或一致性越高,其詞語運(yùn)用趨勢就越集中,反之詞語的差異性就越強(qiáng)。文本分析軟件可以計(jì)算某詞或詞組在觀察文本中的頻數(shù)、觀察文本的總頻數(shù)、該詞或詞組在參照語料庫中的頻數(shù)、參照語料庫的總頻數(shù)等四方面數(shù)據(jù)來計(jì)算關(guān)鍵值。我們通常認(rèn)為高頻詞、主題詞與文本的主題相關(guān)性密不可分。如果該詞關(guān)鍵性高,則其與文本的主題就越相關(guān)。
本文以此為切入點(diǎn),選取莫言散文《賣白菜》《會唱歌的墻》為研究對象進(jìn)行處理。在具體的中文信息處理系統(tǒng)中,常把對詞匯的研究成果用復(fù)雜特征集的形式表示出來,從而提高系統(tǒng)的處理能力。詞匯的復(fù)雜特征表示,要求我們對每一個具體的詞的詞匯知識做詳盡的描述,由于本人能力有限,本文在此僅對兩篇文章中的主題詞進(jìn)行分析研究,并得出相關(guān)結(jié)論。
一、對文本進(jìn)行的處理
(一)使用詞性標(biāo)注工具M(jìn)yTxtSegTag軟件對其文本進(jìn)行詞性切分標(biāo)注,并大致上進(jìn)行了人工校對。雖然機(jī)器標(biāo)注存在一定錯誤,人工校對也不能完全解決,但基本可保證90%以上的正確率。當(dāng)然,本次詞性標(biāo)注雖然也處理了標(biāo)點(diǎn)符號,但本文只針對詞進(jìn)行探討。
(二)使用Python編寫程序?qū)η蟹趾玫拿總€詞遍歷,進(jìn)行詞頻統(tǒng)計(jì)。經(jīng)過詞頻統(tǒng)計(jì),本次最終確定文本分別為2597個詞與4641個詞,并得到每個詞重復(fù)出現(xiàn)的次數(shù)、詞性出現(xiàn)的次數(shù)等相關(guān)數(shù)據(jù)。
二、基本理據(jù)和文本分析
一般來說,文本或文本群的主題限制性越強(qiáng)或一致性越高,其詞語運(yùn)用就越呈現(xiàn)出集中趨勢,反之詞語的變異性就越強(qiáng)?!顿u白菜》與《會唱歌的墻》兩篇散文中名詞所占比重都最大,分別為20.18%與26.65%,在此以名詞為對象做以下分析:
(一)文章中詞匯運(yùn)用及分布與文章的主題密切相關(guān),某一主題具有獨(dú)特的詞匯群,這些詞在語料庫中具有超常的重復(fù)率,說明作者對某一主題的表達(dá)在詞匯選擇方面具有很高的一致性?!顿u白菜》文章主題較為明確,即母親帶我賣白菜的經(jīng)過。在語料的名詞中,“母親”一詞出現(xiàn)頻率最多,為55次,占總名詞詞頻的2.13%,“白菜”一詞次之,出現(xiàn)34次,占總名詞詞頻的1.32%,而其他名詞出現(xiàn)的頻率較低,因而基本可以確定文章的主題詞為“母親”或“白菜”。這兩詞恰好與文章主題相符。文章段落摘錄如下:
母親靠近我,掀起衣襟,擦去了我臉上的淚水。我把臉伏在母親的胸前,委屈地抽噎著。我感到母親用粗糙的大手撫摸著我的頭,我嗅到了她衣襟上那股揉爛了的白菜葉子的氣味。從夏到秋、從秋到冬,在一年的三個季節(jié)里,我和母親把這104棵白菜從嬌嫩的芽苗,侍弄成飽滿的大白菜,我們?nèi)龇N、間苗、除草、捉蟲、施肥、澆水、收獲、晾曬……每一片葉子上都留下了我們的手印……但母親卻把它們一棵棵地賣掉了……我不由得大哭起來,一邊哭著,還一邊表示著對母親的不滿。母親猛地把我從她胸前推開,聲音昂揚(yáng)起來,眼睛里閃爍著惱怒的光芒,說:“我還沒死呢,哭什么?”然后她掀起衣襟,擦擦自己的眼睛,大聲地說:“還不快去!”
從該段可以看出,“母親”“白菜”出現(xiàn)頻率居多。
(二)自由文章由于主題比較分散,詞匯選擇范圍大,自由度高,在語料的總體特征上比有明確主題的文章的詞匯量大,重復(fù)率低。 《會唱歌的墻》主題較不明確,作者寫了家鄉(xiāng)的很多事物,但沒有哪個事物是最主要的。從語料統(tǒng)計(jì)來看,語料詞匯量較大,出現(xiàn)最多的名詞為“池塘”,出現(xiàn)34次,占總名詞詞頻的0.73%,“人”次之,出現(xiàn)34次,占總名詞詞頻的0.54%。這兩個數(shù)據(jù)已經(jīng)很低了,其他名詞則更低。而主題詞應(yīng)在語料中具有超常頻率,這兩次顯然不符合條件。因而該散文主題詞不明確。文章段落摘錄如下:
沿著這條奇樹鑲邊的黃土大道東行三里,便出了村莊。向東南方向似乎是無限地延伸著的原野撲面而來。景觀的突變使人往往精神一振。黃土的大道已經(jīng)留在身后,腳下的道路不知何時(shí)已經(jīng)變成了黑色的土路,狹窄,彎曲,爬向東南,望不到盡頭。人至此總是禁不住回頭。回頭時(shí)你看到了村子中央那完全中國化了的天主教堂上那高高的十字架上蹲著的烏鴉變成了一個模糊的黑點(diǎn),融在夕陽的余暉或是清晨的乳白色炊煙里。也許你回頭時(shí)正巧是鐘聲蒼涼,從鐘樓上溢出,感動著你的心。
黃土大道上樹影婆娑,如果是秋天,也許能看到落葉的奇觀:沒有一絲風(fēng),無數(shù)金黃的葉片紛紛落地,葉片相撞,索索有聲,在街上穿行的雞犬,倉皇逃竄,仿佛怕被打破頭顱。
由該段可知,文章為散文,以描述性語言為主,主題不明確。
(三)文章主題對詞匯的選擇具有較大的限制性,主題越具體,限制越大,主題詞匯的重復(fù)率也就越高。通過這兩篇語料的數(shù)據(jù)對比,詞匯重復(fù)率高的文章主題也非常明確,而詞匯重復(fù)率很低的文章主題也是不明確的。
三、本次工作以后可以進(jìn)行的相關(guān)工作
本文只是選取莫言的兩篇散文一萬多字進(jìn)行分析,而要更進(jìn)一步地研究莫言寫作的語言特點(diǎn)或主題詞匯的話,需要拿一個具有同一主題的語料庫(該語料庫作為觀察語料庫)與另外一個較大的語料庫進(jìn)行比較,就能把觀察語料庫中的頻率超常的詞語群提取出來,生成一個主題詞表,這樣才能更充分地得到結(jié)論。
若要進(jìn)一步進(jìn)行研究,首先是計(jì)算出每個單獨(dú)文本的主題詞表,所謂主題詞就是在所研究的語料庫中頻率超常的詞語?;敬吮斫y(tǒng)計(jì)能夠提供一個語料庫文本的詞語頻率分布信息,卻難以說明詞語在語境中的用法和詞語之間的關(guān)系;索引分析能夠提供語境中的關(guān)鍵詞在短語和句子層面或同現(xiàn)語篇的用法和詞語關(guān)系;而主題詞統(tǒng)計(jì)能夠提供語篇層面詞語的分布與文本主題的關(guān)系以及詞語之間的關(guān)系。僅對某一單篇文本統(tǒng)計(jì)出的詞表,只能為觀察該文本中的詞語分布提供依據(jù),如能通過計(jì)算,提取該文本中圍繞為本主題所使用的詞語群,則可以進(jìn)一步觀察作者在表達(dá)某一主題時(shí)所使用的語匯。如果表達(dá)某一主題要求相應(yīng)的獨(dú)特的詞語群,那么在該文本中,這些詞語出現(xiàn)的頻率應(yīng)遠(yuǎn)遠(yuǎn)超出其他主題文本中的頻率。通過對比兩種不同的文本,應(yīng)能提取出某一文本中具有超常頻率的詞語群,而該詞語群即可被看做該文本的主題詞表。
參考文獻(xiàn):
[1]馮志偉.自然語言的計(jì)算機(jī)處理.上海外語教育出版社.1996
[2]林杏光.詞匯語義和計(jì)算語言學(xué).語文出版社1999.
[3]梁茂成,李文中,許家金.語料庫應(yīng)用教程.外語教學(xué)與研究出版社.2010
[4]衛(wèi)乃興,李文中,濮建忠.語料庫應(yīng)用研究.上海外語教育出版社.2005