国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于依存樹庫的語言計量特征對比分析

2019-07-03 02:32:12王巧林李雯雯
關(guān)鍵詞:語料庫

王巧林 李雯雯

摘 要:基于語料庫研究方法,以依存語法為理論框架,分別從依存距離分布和主語、賓語、定語以及狀語的詞類構(gòu)成上,對美國首任總統(tǒng)喬治·華盛頓和現(xiàn)任總統(tǒng)唐納德·特朗普的就職演說進行了量化對比分析,發(fā)現(xiàn)唐納德·特朗普演講詞比喬治·華盛頓演講詞的依存距離更小,文本更容易理解;喬治·華盛頓演講詞中Wh-詞出現(xiàn)在主語中的頻率遠遠高于唐納德·特朗普頓演講詞;喬治·華盛頓傾向于使用形容詞作定語,而唐納德·特朗普傾向于使用形容詞性物主代詞作定語;此外,副詞在喬治·華盛頓和唐納德·特朗普演講詞中充當(dāng)狀語的功能上并不完全占優(yōu)勢。因此,對語言進行計量特征對比分析有助于對文本內(nèi)容的理解以及對文本復(fù)雜度的判斷。

關(guān)鍵詞:語料庫;依存語法;依存距離;詞類構(gòu)成;計量特征

中圖分類號:H313文獻標(biāo)識碼:A文章編號:1672-1101(2019)02-0058-05

Abstract: Based on corpus and the Dependency Grammar, this study makes a contrastive analysis on the distribution of dependency distance and the correspondence between dependency relation and word class (subject, object, attribute and adverbial) of the inauguration speech by George Washington and Donald Trump. It suggests that dependency distance of George Washingtons speech is much greater than Donald Trumps, which indicates that George Washingtons speech is more difficult to understand than Donald Trumps. Besides, the frequency of Wh-words as subject in George Washingtons speech is far higher than Donald Trumps. Whats more, George Washington tends to use adjectives as attribute, while Donald Trump tends to use possessive pronoun as attribute. This paper also finds adverbs as adverbials in George Washingtons and Donald Trumps speeches are not entirely overwhelming. Therefore, this paper points out comparative analysis of the quantitative features of language contributes to the understanding of the content and the judgment of the text complexity.

Key words:Corpus; Dependency Grammar; Dependency distance; Word-formation; Text complexity

美國自建國以來,總統(tǒng)就職演說成為歷史沿襲的重要標(biāo)志之一。歷屆總統(tǒng)的就職演說,可謂是“綺麗以艷說,藻飾以辯雕”,具有較高的文學(xué)和藝術(shù)審美價值[1]。歷屆總統(tǒng)借助就職演說這把利劍分析事實、評價歷史,并用精湛的言辭技巧向民眾傳達未來的施政綱領(lǐng),以獲得更多的民眾支持。目前,我國學(xué)者對美國總統(tǒng)就職演說的研究在數(shù)量、層次和深度等方面較為有限。在CNKI中國學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫中以“美國總統(tǒng)就職演說”為關(guān)鍵詞進行檢索,發(fā)現(xiàn)較多的研究是對個別總統(tǒng)演說詞的修辭隱喻、主題詞、文體風(fēng)格[2-6]等方面的研究與分析,從依存句法角度對美國總統(tǒng)就職演說的語言特征進行量化對比分析的尚有不足。

因此,本文基于語料庫研究方法,以依存語法為理論框架,從依存距離分布和主、賓、定、狀語的詞類構(gòu)成角度,對美國首任總統(tǒng)喬治·華盛頓和現(xiàn)任總統(tǒng)唐納德·特朗普的就職演說進行量化對比分析,旨在探索依存距離的長短能否反映文本復(fù)雜度,哪些詞類可以充當(dāng)主語、賓語、定語和狀語,哪些詞類在充當(dāng)主語、賓語、定語和狀語時有助于對文本內(nèi)容的理解。

一、語料與方法

語料庫是自然語言處理必不可少的工具,樹庫是經(jīng)過句法標(biāo)注的語料庫?;谝来鏄鋷煅芯糠椒梢栽诖笠?guī)模真實語料的基礎(chǔ)上,通過實證研究方法幫助我們更好地研究語言的結(jié)構(gòu)特征,發(fā)現(xiàn)人類語言的普遍規(guī)律。因此,本文運用定量與定性相結(jié)合的研究方法,基于依存樹庫對美國首任總統(tǒng)喬治·華盛頓和現(xiàn)任總統(tǒng)唐納德·特朗普就職演說的語言特征進行了量化的對比分析。

本文所選語料為:1.1789年4月30日美國首任總統(tǒng)喬治·華盛頓就職演說的英語版本(http://www.presidency.ucsb.edu/inaugurals_words.php.);2.2017年1月21日美國新任總統(tǒng)唐納·特朗普就職演說的英語版本(http://www.presidency.ucsb.edu/inaugurals_words.php.),分別以純文本形式建立語料庫1和語料庫2,其語料信息如表1所示:

二、數(shù)據(jù)與討論

工作記憶是限制人腦理解和語言處理的關(guān)鍵因素,Yngve用深度假說來闡釋句法復(fù)雜性即句子理解難度與人類認知機制之間的關(guān)系[7]。依存關(guān)系中依存距離是衡量語言復(fù)雜性的一個指標(biāo)。依存距離是指一個依存關(guān)系中的兩個詞之間的序號之差,在一定程度上可以反映出句子的理解難度。人類在分析和理解句子時,句中的詞被不斷地儲存進工作記憶中,只有當(dāng)一個詞的支配詞出現(xiàn)時,這個詞才能被從工作記憶中刪除[8]。這就表明,依存距離越小,人類在處理信息時認知負荷越小,句法復(fù)雜性越低;而依存距離越大,人們在處理信息時的認知成本或認知消耗越大,當(dāng)認知負荷超過人類短期工作記憶容量(7±2)時,就會造成句子理解困難。因此,本文通過計算語料庫1與語料庫2中每種關(guān)系的依存距離并畫出時序圖,以便我們更清楚的了解樹庫中整體依存距離分布狀況:

語料庫1和2的依存距離時序圖呈現(xiàn)了整個樹庫的依存距離分布,可以清楚地看到語料庫1波動幅度較大,一部分數(shù)值在0軸上下波動, 一部分數(shù)值在50-100之間波動,分布相對分散,依存距離正值最大值為147,負值最大值為-105;而語料庫2波動幅度相對較小,絕大部分數(shù)值圍繞0軸上下波動,大致在0-20之間密集分布,只有少部分數(shù)值起伏較大,依存距離正值最大值為70,負值最大值為-57。由此,可以得出語料庫1的文本難度要高于語料庫2。這是因為依存距離在0軸上下分布越密集,支配詞與從屬詞之間的線性距離越小,它們更傾向于相鄰地在句子中依次出現(xiàn),此時,句子更容易加工;而波動幅度越大,分布越分散,就表明支配詞與從屬詞在句子中的線性距離越大,即從屬詞與支配詞之間有更多的詞存在。隨著句長增大,依存關(guān)系之間的組配關(guān)系變得逐漸復(fù)雜,進而造成句子理解難度增大。這與Gibson的依存定位理論(Dependency Locality Theory, DLT)相契合,即:從屬詞和支配詞線性距離越大,整合難度就越高,對工作記憶容量的消耗越大[9]。在此基礎(chǔ)上本文也計算了語料庫1與語料庫2的平均依存距離,分別為4.25和3.24,表明喬治·華盛頓的就職演說詞比唐納德·特朗普就職演說詞的平均依存距離更大,理解難度更高。

除了對語料庫1和語料庫2的依存距離和平均依存距離統(tǒng)計之外,本文也對其絕對依存距離分布模式進行統(tǒng)計,發(fā)現(xiàn)語料庫1的絕對依存距離值為1的數(shù)量為755個,占整個樹庫的54.08%,略占優(yōu)勢,當(dāng)絕對依存距離值≦12時,數(shù)量為1 330個,達到整個樹庫的95.27%,占絕對優(yōu)勢;語料庫2的絕對依存距離值為1的數(shù)量為757個,占整個樹庫的55.87%,略占優(yōu)勢,當(dāng)絕對依存距離值≦8時,數(shù)量為1 297,達到整個樹庫的95.72%,占絕對優(yōu)勢。因此,通過計算語料庫1和語料庫2的絕對依存距離分布模式,本文得出唐納德·特朗普就職演說詞比喬治·華盛頓的就職演說詞具有更小的依存距離,理解難度更容易。近年來的一些研究揭示了人類句法機制偏愛依存距離傾向于最小化的線性語序[10]。齊普夫于1949年在《人類行為與省力原則—人類生態(tài)學(xué)引論》中提出“省力原則”,這一原則是人類進行言語行為和一切社會活動的根本準(zhǔn)則。人們在進行言語表達時越來越傾向于使用較小的依存距離,這種依存距離最小化的傾向是基于“省力原則”的。依存距離最小化是人類語言的普遍規(guī)律,已在幾十種語言中被證實[11]。可見,喬治·華盛頓和唐納德·特朗普的就職演說詞都遵循了依存距離最小化的規(guī)律。但是,當(dāng)絕對依存距離超過30時,語料庫1比語料庫2所占的百分比大大增加,語料庫1所占比例為1.43%,而語料庫2僅占0.15%,說明語料庫1中的平均依存距離要遠遠大于語料庫2,提升了句子結(jié)構(gòu)的復(fù)雜性和加工難度。

句子的平均依存距離和句長有關(guān)[12],句子的平均依存距離能夠預(yù)測句法難度[8,13]。通過整個樹庫依存距離的分布,可以得出句子越短,依存距離越小,句子信息更容易處理;反之,句子越長,依存距離越大,尤其當(dāng)依存距離超過100時,會造成嚴重的理解困難。喬治·華盛頓的演講詞中句式復(fù)雜,大量運用排比和復(fù)雜句式,使得依存距離長,理解難度大;唐納德·特朗普的演講詞中句式靈活多變,依存距離短,理解難度小,表明唐納德·特朗普的就職演說詞的難度比華盛頓的難度低,更傾向于使用簡化的語言。總統(tǒng)就職演說的聽眾涉及社會各個階層,語言過于復(fù)雜或口語化,都會影響其演講效果。因此,本文認為在政治演講語篇中,適當(dāng)減小依存距離符合省力原則和依存距離最小化規(guī)律,易引起聽眾的共鳴,能達到讓聽眾刻骨銘心的效果。

除此之外,本文還對主語、賓語、定語和狀語的詞類構(gòu)成進行統(tǒng)計與分析,如下表所示:

從表2可知,語料庫1與語料庫2中構(gòu)成主語的詞類大體一致,但其詞類的分布頻率卻相差較大。語料庫1中構(gòu)成主語的名詞和代詞出現(xiàn)的次數(shù)相同,為30次,占比均為34.48%。并且構(gòu)成主語的詞類,除了名詞和代詞所占比重較大之外,Wh-詞的地位也不容小覷,占22.99%的比重。而在語料庫2中,代詞出現(xiàn)70次,名詞出現(xiàn)52次。Wh-詞僅出現(xiàn)了3次,所占百分比分別為37.41%、50.36%和2.16%。在兩個語料庫中,Wh-詞出現(xiàn)的頻率相差較大,這是因為Wh-詞(which, that, what, who)越多,代表長難句越多,句式結(jié)構(gòu)越復(fù)雜。因此,Wh-詞所占的比例在一定程度上可以反映出文本的難易程度。

表3顯示,語料庫1與語料庫2中,賓語的主要詞類構(gòu)成是名詞,其次是代詞。但是通過表2可以發(fā)現(xiàn)語料庫1中Wh-詞(which, that)有較強的充當(dāng)賓語的能力,比重為25%;而語料庫2中,Wh-詞僅出現(xiàn)了一次,占比1.02%,可忽略不計。從Wh-詞構(gòu)成賓語所占比重,同樣可以得出語料庫1長難句多,人們在處理信息時的認知負荷大;語料庫2句式相對簡單,易于理解。

表4表明,語料庫1和語料庫2中,作定語的詞類構(gòu)成,包括形容詞、代詞和介詞短語(of結(jié)構(gòu)),三種詞類的比重都較大。但語料庫1中,形容詞作定語比語料庫2高出近10個百分點,語料庫2中形容詞性物主代詞的使用比語料庫1高出近16個百分點,而介詞短語在語料庫1中比語料庫2高出5個百分點,可見,喬治·華盛頓演講詞的限定語十分豐富,用詞嚴謹,理解難度相對較大;而唐納德·特朗普的演說詞,用詞相對簡單,通俗易懂。鄧耀臣與馮志偉]曾指出人類的惰性和大腦信息處理能力的有限性使說話者在言語交際過程中傾向于選用短小、簡單的詞匯表達特定意義以節(jié)省力量消耗,這種行為直接導(dǎo)致這些短小詞匯在語篇中的使用頻數(shù)增高[14]。

從表5狀語的詞類構(gòu)成來看,語料庫1與語料庫2介詞短語作狀語和副詞作狀語都有著舉足輕重的地位。語料庫1中,介詞短語作狀語的比重為56.05%,略占優(yōu)勢;副詞作狀語所占比重為27.39%,動詞僅占3.18%。而語料庫2中,副詞作狀語占51.37%,介詞短語作狀語的比重為40.41%,動詞占2.05%。從狀語的統(tǒng)計數(shù)據(jù)可以看出副詞在充當(dāng)狀語這一功能上并不完全占有優(yōu)勢,這一點在喬治·華盛頓和唐納德·特朗普的總統(tǒng)就職演說詞中存在較大的差異。在語料庫2總統(tǒng)就職演說中,副詞和介詞短語作狀語成分幾乎可以平分天下,而在語料庫1中,介詞短語作狀語比副詞作狀語出現(xiàn)的次數(shù)更為頻繁。副詞常限制修飾動詞、形容詞性詞語,表示程度、范圍、時間等意義;漢語介詞與英語介詞都是一種表達關(guān)系意義的虛詞,它們的作用都在于引出與動詞或形容詞、名詞、代詞等相關(guān)的對象(施事、受事、與事、工具)以及處所、時間等[15]。副詞和介詞短語都起到修飾限定和解釋說明的作用,但是副詞的概念相對模糊、籠統(tǒng)而介詞短語能較清楚的引出較具體的內(nèi)容。從這一點上,可以推斷出喬治·華盛頓的就職演說詞更為清晰明了,對演講的具體內(nèi)容交待地較為具體詳實。

因此,通過對構(gòu)成主語、賓語、定語和狀語的詞類統(tǒng)計與分析,就主語和賓語詞類構(gòu)成統(tǒng)計而言,可以推斷出喬治·華盛頓的就職演說詞難度高于唐納德·特朗普的就職演說詞;在定語的詞類構(gòu)成上,喬治·華盛頓的就職演說用詞嚴謹,唐納德·特朗普的就職演說用詞相對簡單、容易;在狀語的詞類構(gòu)成上,喬治·華盛頓的就職演說詞更為清晰明了,對演講的具體內(nèi)容交待地較為具體詳實。

三、結(jié)語

本文基于依存樹庫對美國首任總統(tǒng)喬治·華盛頓和現(xiàn)任總統(tǒng)唐納德·特朗普的就職演說從依存距離分布和主語、賓語、定語和狀語的詞類構(gòu)成上進行計量對比分析。得出以下結(jié)論:1.句子越短,依存距離越小,文本信息更容易處理;反之,句子越長,依存距離越大,文本信息處理難度越大。喬治.華盛頓的演講詞句子復(fù)雜,使得平均依存距離長,理解難度較大;唐納德.特朗普演講詞中句式靈活多變,平均依存距離短,理解難度較小。2.在構(gòu)成主語和賓語的詞類中,Wh-詞在一定程度上可以反映出語篇的難易程度,Wh-詞出現(xiàn)的頻率越低,語篇句式越簡單,信息越易加工;Wh-詞出現(xiàn)的頻率越高,語篇句式越復(fù)雜,信息越難加工。形容詞、代詞、介詞短語在作定語時所占比重都較大,但喬治.華盛頓的演講詞中形容詞作定語使用頻率高,而唐納德.特朗普的演講詞中形容詞性物主代詞使用頻率較高。從狀語的統(tǒng)計數(shù)據(jù),可以看出副詞在充當(dāng)狀語這一功能上并不完全占有優(yōu)勢。通過計量特征的對比分析,本文得出語言的計量特征對比分析有助于對文本內(nèi)容的理解以及對文本復(fù)雜度的判斷。

參考文獻:

[1] 劉媧路. 基于語料庫的美國總統(tǒng)就職演說之人際意義研究[J]. 保定學(xué)院學(xué)報,2013(3):93-97.

[2] 曹玉梅.美國總統(tǒng)就職演說辭的隱喻性研究[D]. 曲阜:曲阜師范大學(xué)碩士學(xué)位論文,2006.

[3] 曾慶敏.基于語料庫的美國總統(tǒng)就職演講主題詞研究[J].重慶教育學(xué)院報,2013,26(1):61-64.

[4] 羅建平.美國總統(tǒng)就職演講主題詞的語料庫分析[J].浙江外國語學(xué)院學(xué)報,2011(5):46-50.

[5] 黃青.特朗普就職演講的文體分析[J].外語教育與翻譯發(fā)展創(chuàng)新研究,2017(6): 381-384.

[6] 徐倩.從相似性原則看政治演講的文體效果——以特朗普在華盛頓演講為例[J].海外英語,2017(9):187-188.

[7] Yngve V H.A model and an hypothesis for language structure[J]. Proceedings of the American philosophical society, 1960, 17(5): 444-466.

[8] Liu H.Dependency distance as a metric of language comprehension difficulty[J].Journal of Cognitive Science, 2008, 9 ( 2) : 159-191.

[9] Gibson? E.Linguistic complexity: locality of syntactic dependencies[J].Cognition,1998,68(1): 1-76.

[10] Ferrer-i-Cancho R. Hubiness, length and crossings and their relationships in dependency trees[J]. Glottometrics,2013(25), 1-21.

[11] Liu H T.Dependency distance as a metric of language comprehension difficulty[J]. Journal of Cognitive Sci-ence,2008,9(2):159-191.

[12] Futrell R,Mahowald K, Gibson E. Large-scale evidence for dependency length minimization in 37 languages[J].Proc Natl Acad Sci USA, 2015,112(33): 10 336-10 341.

[13] Zipf G.Human behavior and the principle of least effort: An introduction to human ecology[M].New York: Hafner,1949.

[14] 鄧耀臣,馮志偉. 詞匯長度與詞頻數(shù)關(guān)系的計量語言學(xué)研究[J].外國語,2013,36(3):29-39.

[15] 夏瑞華,謝鎖良. 漢英介詞對譯中的不對應(yīng)現(xiàn)象舉隅[J].鎮(zhèn)江師專學(xué)報(社會科學(xué)版),1993(3):42-43.

[責(zé)任編輯:吳曉紅]

猜你喜歡
語料庫
《語料庫翻譯文體學(xué)》評介
基于語料庫的“はずだ”語義用法分析
基于語料庫“隱秘”的詞類標(biāo)注初步探究
把課文的優(yōu)美表達存進語料庫
基于COCA語料庫的近義詞辨析 ——以choose和select為例
口譯不宜“任性”:基于語料庫的外事翻譯等效探索
語言與翻譯(2015年3期)2015-07-18 11:11:04
基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現(xiàn)
語言與翻譯(2015年4期)2015-07-18 11:07:45
基于英漢雙語平行語料庫的無根回譯研究
基于語料庫的近義詞辨析研究——以suspect和doubt為例
低碳經(jīng)濟英語語料庫建設(shè)與應(yīng)用
龙海市| 辽阳县| 张掖市| 舒兰市| 宣武区| 南溪县| 西平县| 洮南市| 水城县| 莱芜市| 谢通门县| 都昌县| 星座| 新巴尔虎右旗| 滕州市| 乐业县| 泊头市| 梨树县| 新宁县| 景泰县| 搜索| 深泽县| 台前县| 莒南县| 平原县| 滁州市| 阿荣旗| 哈尔滨市| 凤阳县| 花莲县| 青海省| 巴塘县| 广昌县| 布拖县| 西华县| 蒲城县| 渝北区| 罗田县| 观塘区| 西丰县| 渑池县|