国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

淺議統(tǒng)計語言學在作家語言風格研究中的實際應用

2018-05-08 09:28:32萬曉雯
現(xiàn)代語文 2018年2期
關鍵詞:實際應用

摘要:統(tǒng)計語言學是應用統(tǒng)計數(shù)學的方法來研究語言現(xiàn)象的語言學科,研究領域廣泛,學界常常運用統(tǒng)計語言學,通過分析語言單位的出現(xiàn)頻率及作家的用詞頻率、詞長分布和句長分布,確定作家的寫作風格。通過“判定《靜靜的頓河》作者”“證明《紅樓夢》是否出自一人之手”兩個案例可以看出,統(tǒng)計語言學的研究方法在進入文學研究領域后,取得了非常好的實用效果。但是,在實際應用中,除了各類詞匯等可控變量,還有其他潛在因素導致統(tǒng)計語言學的結論有時并非絕對精準。通過進行多方面、深層次地原因分析和推斷,我們發(fā)現(xiàn),要得到準確的研究結果,必須做好研究的前期準備,要選擇具有相似語言環(huán)境的語料,要注意避開文學語言的形象思維影響,不能濫用統(tǒng)計語言學研究方法,并在操作過程中嚴格控制各種變量,以科學的思想指導研究。

關鍵詞:統(tǒng)計語言學 語言風格研究 實際應用

作為大數(shù)據(jù)時代語言學研究的一個熱點領域,統(tǒng)計語言學(statistical linguistics)屬于數(shù)理語言學的一個分支,涉及語言學、計算機科學和數(shù)學等多個學科門類,是應用數(shù)理統(tǒng)計、概率論和信息論等統(tǒng)計數(shù)學的方法來研究語言現(xiàn)象的語言學科。

一、統(tǒng)計語言學的研究領域

相較于自然科學,人文科學的研究多涉及人(包括研究者本人)的大腦,因此很容易導致“自我中心性錯誤”和“內省性錯誤”。無論是過多地依賴本人的經(jīng)驗,還是過多地依賴自己的內省來做出判斷,都會導致研究缺乏客觀性與科學性,其價值是有限的。統(tǒng)計語言學則是倡導用科學的方法進行實驗,進而得出結論,“特別注重語言本身的系統(tǒng)性和動態(tài)性特點,強調語言描寫的真實性和精確性”。

從其研究內容看,統(tǒng)計語言學大致可分為語音統(tǒng)計學、詞匯統(tǒng)計學、語法統(tǒng)計學和語義統(tǒng)計學,分別研究語言的語音、詞匯、語法和語義的統(tǒng)計特征。從其功能看,統(tǒng)計語言學可分為描述統(tǒng)計與推斷統(tǒng)計:描述統(tǒng)計的作用是對數(shù)據(jù)進行整理、歸納和總結,壓縮數(shù)據(jù),把握其一般性的特征和全貌;推斷統(tǒng)計則是根據(jù)描述統(tǒng)計提供的結果,進一步對有關聯(lián)系加以推斷。

“統(tǒng)計語言學可用來發(fā)現(xiàn)語言學內在規(guī)律(詞頻與詞排序之間的關系)、常用詞和非常用詞、詞語搭配、短語獲取、語言習得、語域變異以及作品風格分析等領域。”可以看到,統(tǒng)計語言學的研究領域廣泛,但其中最主要、最熟稔的實際應用,當屬通過語言單位的出現(xiàn)頻率及作家的用詞頻率、詞長分布和句長分布,確定作家的寫作風格。統(tǒng)計語言學進入文學研究領域后,還催生出了另一個學科,即文藝風格學,一種應用現(xiàn)代語言學成果和技術來分析研究文學作品的邊緣學科。如蘇聯(lián)學者用該方法研究赫爾岑、屠格涅夫的語言風格,國內也有人用這種方法研究巴金、曹禺、老舍等人的語言風格。

二、統(tǒng)計語言學與語言風格研究

黎運漢在《漢語風格學》中指出:“語言表現(xiàn)風格是綜合運用風格手段的結果,從調音、遣詞、擇句到設格、謀篇等的風格手段,綜合地反映在一篇文章、一部作品,或一種語體,或一個作家的作品,或一個時代的作家的作品,或一個民族的作家的作品里,這就從成了他們各自的表現(xiàn)風格。”換言之,語言風格的差異,正是由于作者使用特定語言單位的頻率不同而造成的。于是,通過對語言結構特征的分析,我們可以比較直觀地感受到不同文體與不同作者的風格,得出不同作者語言風格的同一性或區(qū)別性特征,而不僅僅是通過一系列描述型的論述,闡述文體或者語言風格問的差異。統(tǒng)計語言學的誕生,使語言單位的出現(xiàn)頻率和分布數(shù)據(jù)變得重要,成為一種彰顯作家語言風格的數(shù)學特征。

運用統(tǒng)計語言學判定作家風格的數(shù)學特征,其具體過程是:選取兩位作家的公認代表作品作為語料樣本,首先對樣本進行分詞處理,以文本為基本單位計算各類語言要素在文本中所占的頻率和百分比,根據(jù)兩個樣本的平均值,比較語言要素分布是否具有差異。一般而言,為了測試數(shù)學統(tǒng)計特征是否能夠有效辨別不同作家語言風格,還可以選用一個作家的其他作品為語料樣本,計算該樣本與統(tǒng)計所用語料樣本的相關性。

鑒于其在判定作家風格方面的顯著功效,統(tǒng)計語言學也被成功地運用到“作者考證”這個充滿爭議的研究領域中。在通過分析匿名文章的寫作風格進而判定其真正作者方面,統(tǒng)計語言學也展現(xiàn)出了非常好的應用效果。以往,當某本名著的作者產(chǎn)生爭議時,我們只能夠憑借經(jīng)驗、歷史文獻和作家生平記錄來進行考證。如今有了統(tǒng)計語言學,我們可以通過嚴謹?shù)臄?shù)據(jù)分析,提出更有說服力的證據(jù)。

三、實際應用案例

(一)《靜靜的頓河》的作者糾紛案

統(tǒng)計語言學最著名的實際應用,就是成功破解了文學史上關于《靜靜的頓河》的作者糾紛案。

《靜靜的頓河》在蘇聯(lián)文學史上占有較高的地位。此書全景式地描寫了俄國內戰(zhàn)時期頓河流域的社會景觀,甚至有人將其與《戰(zhàn)爭與和平》等名著相提并論。然而自從《靜靜的頓河》第一冊出版,就飽受剽竊的質疑。原因是作者肖洛霍夫少年參軍,僅僅接受了幾年正規(guī)教育,青年時期就能寫出如此高水準的長篇小說,實在讓文學界人士難以信服。更令人疑惑的是,肖洛霍夫本人生前對于自己剽竊的指控一直未曾公開表態(tài)。直到1999年,《靜靜的頓河》手稿被找到,經(jīng)鑒定,有605頁手稿是肖霍洛夫的筆跡,還有285頁是肖洛霍夫的家人代為謄寫的。但隨即有人提出反對意見,聲稱該手稿其實是對克留柯夫原稿的抄寫,并不能消除肖霍洛夫剽竊的嫌疑。于是,《靜靜的頓河》一書真正作者的爭議,伴隨著各種各樣的謠言和似真似假的匿名誹謗,眾說紛紜,真相始終撲朔迷離。學者們做出的各種學術考證,也始終難以讓讀者們普遍接受,更不用說使學界信服。

挪威奧斯陸大學的前蘇聯(lián)文學教授蓋爾克其薩對肖洛霍夫、克留柯夫其他代表作品和《靜靜的頓河》分別采樣,對三部作品的平均句長、句長分檔、不同詞類及其在句中的順序、某些詞匯特點、詞頻等進行了統(tǒng)計和分析,整理、歸納總結這些數(shù)據(jù)后,得出了令人信服的結論。為了更好地對比,蓋爾克其薩把《靜靜的頓河》、肖洛霍夫的其他代表作品及克留柯夫的代表作品分成了三組,逐一研究統(tǒng)計:

首先研究的是一部作品中不同的詞匯量與總詞匯量的百分比,三組的數(shù)據(jù)分別為64.6%、65.5%和58.9%。其中克留科夫的作品的百分比明顯低于肖霍洛夫的作品和《靜靜的頓河》。因此可以推斷,克留柯夫的作品具有重復使用相同詞匯的特點。

其次研究的是詞匯分布頻率,選取20個俄文中常見的詞匯,比較這些詞匯占作品中的全部詞匯的百分比,三組的數(shù)據(jù)分別為23.3%、22.8%、26.2%,明顯可以看出肖霍洛夫的作品與《靜靜的頓河》更為接近。

最后研究的是作品中出現(xiàn)過一次的詞匯所占的百分比,三組的數(shù)據(jù)分別為81.9%、80.9%和76.9%??肆艨路虻淖髌啡匀慌c另外兩部表現(xiàn)出較大的差異

研究表明,所有參數(shù)都存在一致的趨勢,但克留柯夫作品的與《靜靜的頓河》之間,存在著顯著的統(tǒng)計差異?!鹅o靜的頓河》的語言風格與肖洛霍夫作品的語言風格幾乎完全一致,與克留柯夫的作品語言風格卻存在較大差異,這就令人信服地證明了《靜靜的頓河》的真正作者。由此可見,統(tǒng)計語言學的介入,使蘇聯(lián)文學界的這宗多年懸而未決的疑案真相得以明晰。

(二)《紅樓夢》后四十回作者歸屬案

在中國,作為四大名著之一的《紅樓夢》自問世以來就有很多懸而未決的問題,尤其是關于《紅樓夢》是否出于一人之手的爭論。從前,普遍的說法是:《紅樓夢》的前八十回是曹雪芹所作,后四十回系時代稍后的高鶚所作;或者認為前八十回與后四十回不是同一人所作;再者便是堅持認為前八十回、后四十回均為曹雪芹一人所作??梢钥吹?,問題的焦點聚集在后四十回的作者歸屬問題上。自清代以來,做“紅學”研究的學者們對這一問題雖歷經(jīng)多方考證,仍然是莫衷一是、眾說紛紜。

然而,在統(tǒng)計學進入文學研究領域,統(tǒng)計語言學的研究成果被引入紅學研究之后,這一結論又面臨著新的挑戰(zhàn)。1981年,美國威斯康星大學的講師陳炳藻發(fā)表的論文《從詞匯上的統(tǒng)計論<紅樓夢>的作者問題》中,通過對重要關鍵詞的詞頻統(tǒng)計與分析得出后四十回仍為曹雪芹所寫的結論。陳炳藻同時還另選了《兒女英雄傳》作為對照組進行比較研究,具體方法是從每組里任選八萬字作為樣本,從各樣本中挑出名詞、動詞、形容詞、副詞、虛詞共五類,運用統(tǒng)計學方法算出各組之間用詞的相關程度。陳炳藻的分析結果是:《紅樓夢》前八十回與后四十回所用詞匯的相關程度遠遠超過《紅樓夢》與《兒女英雄傳》所用詞匯的相關程度,根據(jù)上述描寫統(tǒng)計結果,推斷出前八十回與后四十回均為曹雪芹一人所作這一結論。

與陳炳藻的分析不同,1987年陳大康在《從數(shù)理語言學看后四十回的作者》一文中,同樣運用統(tǒng)計學相關原理,將《紅樓夢》一百二十回分成三組,每組四十回,并統(tǒng)計了其中所含字、詞、句等88個項目,“用斯米爾諾夫總體分布檢驗法得到前八十回與后四十回作者不同的結論”。陳大康發(fā)現(xiàn)前兩組在字詞選用、字詞特征及句式規(guī)律上都表現(xiàn)出了驚人的相似性,而后四十回則迥異,由此得出后四十回非曹雪芹所作的結論。

張衛(wèi)東、劉麗川通過統(tǒng)計《紅樓夢》中230個非常用字尤其是4個粗話臟詞和3個異體字的使用情況,以及每回結尾的差異,發(fā)現(xiàn)前八十回與后四十回有極大的差異,由此認為該小說并非由一人完成。

以上都是運用統(tǒng)計語言學的方法來解決語言學問題的實例。在語言陳述也無能為力的情況下,通過描述統(tǒng)計數(shù)據(jù)對數(shù)據(jù)進行歸納總結,有力地證明假設,或根據(jù)統(tǒng)計提供的結果推斷出科學的結論,這正是統(tǒng)計語言學的魅力所在。

四、實際應用中出現(xiàn)的差異及原因分析

在運用統(tǒng)計語言學解決問題時,要求必須針對實驗的性質特征選擇合適的檢驗方法,同時在檢驗開始前要盡量找出所有的變量,盡量控制除自變量外的其他影響因素,合理操作實驗,以避免檢驗結果不準確的情況發(fā)生。在這過程中,如果忽略了其中的任何一條,都可能引起操作結果的差異。

除了上述注意事項,一些其他的潛在因素也會影響推斷統(tǒng)計的精確度,甚至有時會得出迥異的結論。例如上述關于《紅樓夢》是否出于一人之手的爭論,歷次分析同樣是采用了統(tǒng)計學的方法,卻得出了截然相反的結論。結合兩書及作者情況的不同,筆者認為得出截然相反結論的原因如下:

1.文學作品中的語言雖然經(jīng)過作者的刻意經(jīng)營,是對自然語言的變形,但并不是無限度地扭曲,其用詞脫離不了作品內容?!秲号⑿蹅鳌纷鳛椤都t樓夢》文本的參照對象,其對比結果是否先天存在偏差,仍然有待商榷。《兒女英雄傳》主要表達女主人公的豪俠仗義并輔以愛情描述,《紅樓夢》以賈寶玉、林黛玉的愛情悲劇為主線并輔以封建社會的衰敗闡述。單純從故事內容來講,兩書表達的主題不同,在敘述描寫時選詞自然也應有所不同,其用詞造句的差異是不言而喻的?!秲号⑿蹅鳌分械娜宋镆允芯耖g人士為主,相應的市井俚語也會多一些。言談用語詼諧活潑、俏皮有趣?!都t樓夢》中的人物以貴族門第人士為主,言談用語規(guī)矩略刻板一些,對文言虛詞的使用也會相應多一些??梢酝茢啵瑑蓵迷~匯的相關程度存在較大差異,與其內容的不同有一定的關系。

2.《兒女英雄傳》全書采用評話形式,《紅樓夢》是白話文著作。龔千炎在《<兒女英雄傳>是<紅樓夢>通向現(xiàn)代北京話的中途站》中指出:“《兒女英雄傳》反映的基本是19世紀中葉的北京話,《紅樓夢》反映的基本是18世紀中葉的北京話,從北京話的近期歷史看,《兒女英雄傳》是《紅樓夢》通向現(xiàn)代北京話的中途站?!睗h語發(fā)展到近代,特別是白話文的進一步普及,對兩書的選詞用句有著必然的影響。正是因為《兒女英雄傳》的語法上承《紅樓夢》,下探現(xiàn)代北京話,具有許多過渡期的特點,從而導致了兩書的所用詞匯相關程度呈現(xiàn)較大差異。

3.《兒女英雄傳》的作者文康,與《紅樓夢》的作者曹雪芹并非同一人,語言風格自然不會相近。文康與曹雪芹同為“八旗子弟”,兩篇作品都不自覺流露出他們的滿族意識,比如尊崇女性、注重禮節(jié)以及對滿族興衰和滿族命運的關注等等。但是,他們的人生境況雖然相似,文康卻不具備曹雪芹那種人文關懷、審美情思和“舉世皆濁我獨清”的高潔性情,而更近似于一個屈服于封建“禮”的束縛之下的世俗之人,兩人的語言風格也必然存在較大不同。

綜上,由于《兒女英雄傳》與《紅樓夢》除了名詞、動詞、形容詞、副詞、虛詞等可控變量以外,還存在其他各種潛在的影響因素,導致在進行對比研究時得出了具有差異的結果?!皬哪壳皝砜矗瑢W界的研究多是從某些方面對《紅樓夢》尤其是后四十回的作者歸屬進行判定。”筆者認為,若要解決這一懸案,唯有系統(tǒng)深入地對《紅樓夢》整體的語言風格進行研究,再對前八十回與后四十回的進行比較,得出來的結果方能令人信服。

五、在實際應用中應注意的問題

統(tǒng)計語言學進入文學研究領域后如魚得水,特別是在作家語言風格的研究中大顯身手。但是基于科學研究的嚴謹性,我們也必須看到在統(tǒng)計語言學應用過程中必須注意的問題。

(一)選擇具有相似語言環(huán)境的語料

統(tǒng)計語言學的結論之所以被認為是科學的,正是由于其依賴于數(shù)據(jù)的橫向分析和縱向分析。但是,分析研究文學作品語言風格,不能只是單方面地從字、詞、詞類等層面進行,還應考慮句法、語義、語篇等層面的問題。特別是考慮到時代不同、地域不同等外部因素對語言的影響,極易導致語言學上的定性定量分析結果出現(xiàn)偏差,因此,必須注意的一點是,在選取語料時應注意選擇具有相似語言環(huán)境的語料。

(二)注意避開文學語言的形象思維影響

“語言具有奇妙的結構,數(shù)學具有邏輯之美?!毕噍^于人文科學容易導致的“自我中心性錯誤”和“內省性錯誤”,自然科學尤其是數(shù)理研究具有明顯的準確性、客觀性優(yōu)勢。統(tǒng)計語言學如同拆分機器一般,將文學作品中的語句逐一拆分為最小單位的零件,然后進行分類歸納整理,分析每個語言單位所發(fā)揮的作用,最終使整體研究結果無限接近于準確。

但是,數(shù)學統(tǒng)計方法還不能從根本上代替語言學原有的研究手段,畢竟文學作品有其不能忽視的特點。文學是用形象思維的方法創(chuàng)造的,而統(tǒng)計語言學講求的是邏輯思維,使兩者有著不可分割的聯(lián)系,卻也有著截然不同的性質。文學語言往往停留在理解的層次,其風格是看不見摸不著的,所以訴諸于語言。在統(tǒng)計語言學中,不管是詞類劃分、語音分類,還是語法公式的總結等等,都是在邏輯思維下的結果,最后得出的結論都是有形的、具體的語言材料。文學語言雖然能夠適用從自然語言角度來的分析方法,但這個過程也是容易因形象思維和邏輯思維的不同引起差異,這是我們必須要注意的。要得到準確的研究結果,必須做好研究的前期準備,并在操作過程中嚴格控制各種變量,以科學的思想指導研究。

(三)統(tǒng)計語言學的應用不能無的放矢

統(tǒng)計語言學的出現(xiàn),使我們文學研究的方法從定性走向定量,得以具體地描述作家語言風格。值得注意的是,統(tǒng)計語言學法在應用時一定要有個明確的目的,至少應該有一個基于理論的推斷或猜想,比如判定不同作者之間風格的不同,或者對未知作者的假設與猜想。有了假設和猜想,然后再用各式各樣的語言結構統(tǒng)計分析去證明。切忌為了統(tǒng)計而統(tǒng)計,導致統(tǒng)計語言學的濫用或者做了無用功。

六、結語

統(tǒng)計語言學在比較不同作者文學作品的風格特征,識別同一作者的不同寫作風格,推測文學作品的來源,判定匿名文學作品的作者,辨別文學作品真?zhèn)蔚榷鄠€方面都得到了廣泛而深入的運用。通過以上案例可以看到,基于語料庫和數(shù)理統(tǒng)計方法,通過分析作家的用詞頻率、詞長分布和句長分布等數(shù)據(jù),確定作家的語言結構分布特征(即統(tǒng)計語言學視角下的語言風格),已經(jīng)成為對語言風格進行描寫的重要方法。多年來,統(tǒng)計語言學用于作者判定的一系列實驗,破解了許多未知作者的疑案,充分證明了這種方法是可行可信的。更重要的是,基于統(tǒng)計語言學研究成果得出的對比分析結果,都可以從語言學的角度進行分析和解釋,而不是紙上談兵。

統(tǒng)計語言學的實際應用不止于此,有待于繼續(xù)深入研究?!皹俗Ⅲw系和工具對統(tǒng)計結果的影響,語言風格在字、詞、句等語言結構和語法、語義、語用層面的全面計量描寫等,都是今后值得繼續(xù)和深入研究的課題。”本文僅作管中窺豹之用,以期能夠讓統(tǒng)計語言學在文學領域的研究引起更多重視,并能引入更多的科學統(tǒng)計方法做這方面的研究,從而使未來統(tǒng)計語言學的方法與成果更加精準,甚至用途也能夠進一步拓展。

作者簡介:萬曉雯,女,濟南市歷下區(qū)燕山學校教師。

猜你喜歡
實際應用
航空氣象服務中多普勒雷達的應用
科技傳播(2016年19期)2016-12-27 15:16:56
探索式教學法在《聚合物加工原理》課程中的應用分析
亞太教育(2016年34期)2016-12-26 18:32:16
運用現(xiàn)代教育技術煥發(fā)數(shù)學課堂的活力
油田電力系統(tǒng)技術改造與應用
知識管理在工會管理應用中的創(chuàng)新探析
利用教材,培養(yǎng)學生的實際應用能力
略談小學生數(shù)學應用能力培養(yǎng)的基本途徑
低溫甲醇洗技術及其在煤化工中的應用
鄉(xiāng)鎮(zhèn)基層醫(yī)院住院患者抗生素應用情況分析
高中歷史教學中對歷史圖片的開發(fā)及實際應用
考試周刊(2016年85期)2016-11-11 01:57:37
泰安市| 崇文区| 交口县| 巨鹿县| 察隅县| 临朐县| 佛坪县| 海伦市| 子洲县| 巨鹿县| 巨野县| 龙里县| 西和县| 灵寿县| 响水县| 绥宁县| 崇阳县| 荆门市| 德州市| 蒙阴县| 万安县| 胶州市| 乐平市| 海门市| 玛曲县| 高密市| 子长县| 宿松县| 梁平县| 娄烦县| 赤壁市| 霸州市| 忻城县| 威海市| 遵化市| 名山县| 星子县| 西华县| 建阳市| 旌德县| 太谷县|