国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

名詞分布是人類語言的不變量嗎?
——以德語書面語中名詞分布為例

2019-03-27 11:36:36段庭輝劉海濤
關鍵詞:子類德語代詞

李 媛 段庭輝 劉海濤

(1.浙江大學 外國語言文化與國際交流學院, 浙江 杭州 310058;2.耶拿大學 日耳曼語言學系, 圖林根 耶拿 07745)

一、 引 言

詞類分布是語言的一個重要不變量,它不僅能表現(xiàn)語言的共性,也能反映語言的特點[1]。Hudson認為,隨機選取的詞屬于某一特定詞類的概率似乎是有規(guī)律的,但這一點我們卻完全沒有意識到[2]339。在任何一種語言中,名詞均數(shù)量龐大。名詞能夠表達自然界和人類社會各種事物的名稱,具有豐富的語法功能,在語言的基本單位之一句子中發(fā)揮著不可或缺的作用。此外,其他詞類的占比均與名詞占比相關[3]。因此,名詞分布研究的重要性不言而喻。

Hudson在對兩個大型英語語料庫研究的基礎上指出,名詞在英語書面語中的比例約為37%[2]。劉海濤對漢語的研究結果顯示,漢語中名詞占全部詞數(shù)的比例為39.29%[4]。Liang和Liu對比了包括德語在內(nèi)的七種語言中名詞的占比,發(fā)現(xiàn)在所有七種語言中,名詞所占比例均約為37%[5]。這項跨語言研究在一定程度上有助于我們理解名詞占比在人類語言中的穩(wěn)定性,但由于其語料、語體、統(tǒng)計方法的局限性,并沒有完全回答名詞分布的穩(wěn)定性問題。此外,研究雖引用了前人得出的名詞占比與文體有關的結論[3]2,但并未使用數(shù)據(jù)驗證,也未探討還有哪些因素可能會對名詞占比產(chǎn)生影響。

名詞分布是人類語言的不變量嗎?為了更好地回答這一問題,我們嘗試尋找與英語語料庫更具可比性的德語平衡語料庫,并采用相同的統(tǒng)計方法對其進行研究。之所以研究德語,是因為德語和英語雖同屬印歐語系西日耳曼語支,但兩種語言在構詞形式上不盡相同。就名詞而言,一方面,德語的復合名詞比例高,信息相對集中,可能導致名詞的總量小于其他語言;另一方面,德語尤其是科技德語中的名詞化結構多,名詞占比也許會因此高于其他語言。基于這些原因,我們認為采用德語語料庫對德語名詞分布進行研究,有助于理解名詞占比在人類語言中是否穩(wěn)定不變的問題。而為了準確回答這一問題,需要對以下三個方面進行深入研究:德語中名詞的占比是多少?這一比例的高低是否與文體相關?時間因素與名詞占比有關系嗎?

因此,本文基于德國柏林—勃蘭登堡科學院的大型語料庫DWDS-Kernkorpus、Deutsches Textarchiv(DTA)以及圖賓根大學計算機語言學研究所的依存樹庫TüBa-D/Z,對德語書面語中的名詞所占比例進行研究,并且針對不同文體和不同時期語料之間的差異進行探討。DWDS-Kernkorpus包含20世紀不同文體的德語書面語及口語語料。由于本文的研究重點是書面語,在進行統(tǒng)計時將口語語料的數(shù)據(jù)排除在外。該語料庫書面語部分的單詞總數(shù)超過1億,包含文學作品、應用文、學術論文和報刊文章四類不同文體[6]。DTA收錄了1473年到1969年間共3 527篇語料,包含與DWDS-Kernkorpus語料庫對應的四種文體,總詞數(shù)約1.5億[7]。TüBa-D/Z語料庫的語料來源為1989年到1999年間發(fā)表于德國主流媒體DieTageszeitung(《日報》)上的3 644篇文章,總詞數(shù)約為150萬[7]。

二、 德語中名詞的占比

Hudson[2]對名詞的統(tǒng)計基于Brown[8]和LOB[9]兩個英語語料庫。其中Brown語料庫收錄了1961年在美國出版和發(fā)行的500篇文章,共計約100萬個單詞,涵蓋了15類不同的文體;而LOB語料庫是對應Brown語料庫的英式英語語料庫,收錄了1961年在英國出版和發(fā)行的500篇文章,規(guī)模同樣在100萬個單詞左右,涵蓋了與Brown語料庫相對應的15類不同文體。Hudson對名詞占比的統(tǒng)計基于Francis等[8]和Johansson等[9]所提供的原始數(shù)據(jù),其統(tǒng)計結果如表1所示[2]332:

表1 Brown和LOB數(shù)據(jù)庫中的名詞占比

為了使我們的研究結果與Hudson[2]得出的結果具備可比性,我們在對德語中名詞的占比進行統(tǒng)計之前,首先考察了Hudson對名詞的界定。他在得出名詞占比約為37%的結論時,將普通名詞、專有名詞和代詞都算作名詞,而這三個詞類又各自包含多個子類,其中普通名詞包括詞類標記符號為“CD...”“NN...”“AP$”“APS...”的單詞,專有名詞包括詞類標記符號為“NP...”“NC”“NR...”的單詞,代詞包括詞類標記符號為“P...”“W...”“EX”的單詞。以上詞類標記符號的具體含義在Francis等[8]和Johansson等的研究[9]中有詳細說明。

此外,我們注意到,Hudson在其論述中沒有說明是否將標點符號算作單詞。為了澄清這一問題,我們基于Francis等[8]和Johansson等[9]的原始數(shù)據(jù)對Hudson的統(tǒng)計結果進行了重新驗證,結果如表2所示:

表2 Brown和LOB數(shù)據(jù)庫中的名詞占比(不含標點和含標點)

表2中,“占比1”一列中的數(shù)據(jù)由名詞的數(shù)量除以所有單詞(不含標點符號)的數(shù)量得出,根據(jù)這一標準,Brown語料庫和LOB語料庫的名詞占比分別為36.75%和35.85%;“占比2”一列中的數(shù)據(jù)由名詞的數(shù)量除以所有單詞(包含標點符號)的數(shù)量得出,根據(jù)這一標準,Brown語料庫和LOB語料庫的名詞占比分別為32.76%和31.40%??梢钥闯?,“占比1”中的數(shù)據(jù)與Hudson所統(tǒng)計出的數(shù)據(jù)(見表1)相符,說明Hudson在進行統(tǒng)計時沒有計入標點符號。

按照Hudson的統(tǒng)計方法和對名詞的界定標準,我們對DWDS-Kernkorpus(總單詞數(shù)102 698 905)以及TüBa-D/Z(總單詞數(shù)1 525 688)中的名詞占比進行了統(tǒng)計,并將統(tǒng)計結果同Brown和LOB語料庫進行比較,其結果如表3所示:

表3 四個語料庫中的名詞占比

由于兩個德語語料庫所采用的STTS標記集[9]與Brown和LOB語料庫所采用的標記集不同,我們在對STTS進行仔細分析的基礎上找出了對應Hudson劃分的三個名詞子類的各個詞類,其中普通名詞包括CARD、NN以及TRUNC,專有名詞包括NE,代詞包括PIAT、PIDAT、PIS、PPER、PPOSAT、PPOSS、PRELAT、PRELS、PRF、PWAT、PWAV、PWS。

基于上述分析,提出了一種復雜情境感知下用戶聚類協(xié)同推薦算法(Collaborative Filtering Recommendation Algorithm of User Clustering based on Complex Circumstance Awareness,UCCA-CF)。實驗結果表明,該算法在降低推薦計算量的同時,提升了推薦質量。

根據(jù)Hudson[2]的描述,他在統(tǒng)計名詞時沒有將this、that等指示代詞統(tǒng)計進去,其原因或許為Brown語料庫和LOB語料庫的詞類標記集中沒有對形容詞性的指示代詞和名詞性的指示代詞進行區(qū)分,二者都被標記為DT(Determiner[9]12)。如在句子“This apple is good.”中,this為形容詞性的DT,并不能算作嚴格意義上的代詞;而在句子“This is interesting.”中,this為名詞性的DT,是嚴格意義上的指示代詞。而在通行的德語詞類標記集STTS中,對形容詞性的指示代詞和名詞性的指示代詞進行了區(qū)分,分別被標記為PDAT(形容詞性指示代詞)和PDS(名詞性指示代詞)[10]。為了同Hudson的劃分標準保持一致,我們在統(tǒng)計德語的代詞時也沒有將二者計入。

表3顯示,四個語料庫中名詞所占比例基本相當:兩個德語語料庫中名詞所占比例分別為37.92%和38.02%,兩個英語語料庫中名詞所占比例分別為36.75%和35.85%。由此可見,從名詞占比來看,德語和英語具有相似的詞類分布特征,符合人類語言的普遍規(guī)律。

三、 名詞分布與文體的關系

在對表3進行細致觀察后我們發(fā)現(xiàn),TüBa-D/Z語料庫中各個名詞子類的占比與其他三個數(shù)據(jù)庫差異較大,其中普通名詞和專有名詞的比例都高于其他三個語料庫,而代詞的比例明顯低于其他三個語料庫。由于TüBa-D/Z所包含的文體單一,只收錄了報刊文章,我們猜測這是不同的文體特征所導致的差異。下面我們將對四個語料庫中的不同文體進行歸類,進一步研究它們對名詞所占比例的影響。

如上文所述,Brown語料庫和LOB語料庫都包含了15類不同的文體。其中報刊報道(Press: Reportage)、報刊社論(Press: Editorial)、報刊書評(Press: Reviews)、宗教類文章(Religion)、技能與愛好類文章(Skills and Hobbies)、民間傳說(Popular Lore)、嚴肅文學(Belles Lettres)、傳記(Biography)、紀念性文章(Memoirs etc.)、雜文(Miscellaneous)及知識類文章(Learned)被歸并為信息類文體(INFORMATIONAL),而其余的文體,如通俗小說(General Fiction)、神話與偵探小說(Mystery and Detective Fiction)、科幻小說(Science Fiction)、冒險與西部文學(Adventure and Western Fiction)、浪漫與愛情故事(Romance and Love Story)及幽默文章(Humor)被歸并為想象類文體(Imaginative)。Hudson[2]對這兩大類文體中詞類的分布情況進行了對比,結果顯示,無論在Brown語料庫還是LOB語料庫中,普通名詞在信息類文體中的平均比例都比其在想象類文體中的比例高出約7個百分點。與此同時,信息類文體中代詞的比例則比其在想象類文體中的比例約低8個百分點。而專有名詞在兩大類文體中的比例基本一致[2]332(見表4)。

表4 英語普通名詞、專有名詞和代詞在信息類文體和想象類文體中所占比例

為了考察上述差異是否在德語的不同文體中也存在,我們將DWDS-Kernkorpus所包含的四個不同文體的子語料庫也按信息類文體和想象類文體兩大類進行拆分合并,其中信息類文體包括應用文(Gebrauchsliteratur)、學術論文(Wissenschaft)和報刊文章(Zeitung),想象類文體包括文學作品(Belletristik)。經(jīng)統(tǒng)計,名詞各個子類在兩類文體中所占比例如表5所示。

表5顯示,在德語書面語中,普通名詞在信息類文體中的比例為25.30%,比其在想象類文體中的比例高出約7個百分點;而代詞在信息類文體中的比例則比其在想象類文體中的比例約低7個百分點,只有想象類文體的一半。這一差異與Hudson所得出的英語書面語中兩類文體之間的差異基本一致。信息類文本需要描述并傳輸信息,所以需要更多使用普通名詞,特別是普通名詞中多具抽象性的派生名詞[11]。而想象類文體,比如文學作品重在敘述情節(jié),由于情節(jié)的連貫性,會較多使用代詞指代前文提到的時間、地點和人物等,加強文本各部分的銜接。對于這一現(xiàn)象,F(xiàn)rancis等[8]、Biber[12]以及Tuldava[13]也做了類似的解釋,他們均指出,典型敘事性文章的文體特征之一是“較多地使用人稱代詞”。方夢之同樣發(fā)現(xiàn)代詞詞頻隨著文體正式程度的降低而增加,他比較了從美國商務出版局PB報告到短篇小說的11篇文體正式程度漸次降低的英語語料,發(fā)現(xiàn)后者的代詞分布數(shù)量是前者的10余倍,“小說中人稱代詞和物主代詞滿目皆是,在許多科技文獻中它們卻寥若星辰”[14]。

表5 DWDS-Kernkorpus語料庫中不同文體的名詞占比

此外,信息類文體,特別是應用文、學術論文有一定的專業(yè)性和目標指向,為了確保語義精確,需要較多使用概念等專有名詞。我們觀察到,專有名詞在德語不同文體中的比例差異確實較大:在信息類文體中是5.38%,而在想象類文體中是3.26%,與Hudson的結果(信息類文體5%,想象類文體4%)基本一致,支持了Biber等[15]的研究結論,即信息類文體特別是科學論文中專有名詞占有突出地位。

在本部分開頭我們曾提到,TüBa-D/Z語料庫中各個名詞子類的占比與其他三個語料庫中的占比差異較大,并猜測是不同的文體特征導致了這一差異。為了驗證這一猜測,我們對Brown語料庫、LOB語料庫以及DWDS-Kernkorpus語料庫中報刊文章中的名詞占比進行了單獨統(tǒng)計。如表6所示,TüBa-D/Z語料庫中各個名詞子類的比例與其他三個語料庫中的媒體類語料(報刊文章)相比不再有顯著差異。由此可以證實名詞子類占比的差異確實是由不同的文體特征所決定的。

表6 四個語料庫中媒體類語料的名詞占比

其實,報刊中專有名詞使用頻率高,是有其特殊原因的。正如魏欣欣和林大津對英語新聞用詞特點的研究所顯示的,報刊的讀者群較為寬泛,文化程度高低不一,這就要求記者盡量使用大多數(shù)人能理解而又生動形象的詞語。其中較有效的手段之一是“經(jīng)常在新聞報道中借用各國首都或大城市等地名、政府首腦名稱、標志性建筑物名稱,來指代該國或其政府及有關機構”[16]87。

綜上,與前人研究的結論一致[3]2,德語名詞的占比與文體相關。此外,本文基于大型語料庫的研究還發(fā)現(xiàn),普通名詞、專有名詞和代詞這三類詞在德語不同文體中的占比與在英語的相應文體中的占比基本相同,顯然,文體對名詞分布的影響也是自然語言的普遍規(guī)律。

四、 名詞分布與時間的關系

在表6中我們看到,在對媒體類文章中的名詞占比進行單獨統(tǒng)計時,各個語料庫之間的數(shù)據(jù)差異有所減小。盡管如此,差異仍然存在。由于各個語料庫所收錄文章的生成時間不同,我們無法排除語言歷時性發(fā)展對名詞所占比例的影響。為了進一步考察時間因素對這一問題的影響,我們專門提取出DWDS-Kernkorpus與TüBa-D/Z中同一時期即20世紀90年代的報刊文章,將其與DWDS-Kernkorpus語料庫所有時期報刊文章中的名詞占比進行對比,其結果如圖1所示。

圖1 德語名詞在20世紀90年代報刊文章(中、右)和20世紀所有報刊文章(左)中的占比

我們發(fā)現(xiàn),DWDS-Kernkorpus、TüBa-D/Z所收錄的20世紀90年代的報刊文章中名詞各個子類占比之和分別為38.68%、38.02%,均接近整個20世紀報刊文章的名詞占比38.3%。從這一方面來看,我們無法得出時間因素對名詞占比有影響的結論。另一方面,通過對普通名詞、專有名詞和代詞三個名詞子類占比的分布情況進行觀察可以得出,DWDS-Kernkorpus所收錄的20世紀90年代的報刊文章中普通名詞和專有名詞的比例25.46%、5.68%和整個20世紀報刊文章這兩個子類的比例25.78%、5.11%基本一致,而代詞的比例也較為接近,這一特征與TüBa-D/Z中的情況一致。由此,在對20世紀報刊語料研究的基礎上,可以得出名詞占比的歷時性變化沒有顯著性差異的結論。

這是否與20世紀90年代本身就是20世紀的一部分有關?我們的研究是否應該在更廣闊的歷史維度中進行?為了進一步研究名詞占比的歷時性變化,我們又考察了一個時間跨度為500年的大型語料庫,即DTA(1)http://www.deutschestextarchiv.de/, 2019-09-02.。DTA語料庫是歷史語料篇章語料庫,收錄了1473—1969年間共3 527篇語料,包含與DWDS-Kernkorpus語料庫對應的四種文體(文學作品、應用文、學術論文和報刊文章),總計詞數(shù)約1.5億(不含標點,156 446 847單詞)。我們在統(tǒng)計DTA語料庫的名詞占比時,排除了124篇沒有進行文體標記的語料和427篇外來詞比例過高(大于5%)的文章,最終用于統(tǒng)計的語料共2 976篇,單詞量約1.33億。按照50年一個時段,對1500—1949年共9個時間段的名詞占比進行了統(tǒng)計,結果如圖2所示。

圖2顯示,16—20世紀,名詞的總體比例基本保持不變,始終在35%到40%之間,但名詞各個子類的占比呈現(xiàn)出明顯的歷時性變化。具體來說,普通名詞的占比在過去的5個世紀中持續(xù)增長,從16世紀初的約14%增加到20世紀的約25%;與此同時,代詞的占比持續(xù)降低,從約17%下降到了約10%;而專有名詞的比例變化微小。

圖2 DTA語料庫16—20世紀名詞占比歷時變化

關于(德語)名詞內(nèi)部各子類間的這一動態(tài)歷時性變化,目前國內(nèi)外均尚未有文獻提及,是本文的新發(fā)現(xiàn)。這一變化應源于社會形態(tài)、科學技術和語言本身的發(fā)展。隨著社會關系日益復雜,新生事物增多,人們對客觀世界的認知不斷加深且更加精準,人們在運用語言進行交流時對普通名詞的需求也逐漸增加?!抖诺窃~典》1880年首次出版時有27 000個詞條,如今已增加到145 000個。2017年第27版與2013年第26版相比,新增從時事、科技、生活和口語中吸收的新鮮詞5 000個,其中絕大部分是名詞(2)https://www.duden.de/presse/5-000-Woerter-staerker-Der-neue-Duden-ist-da, 2019-09-05.。

與此同時,隨著政治、經(jīng)濟、科技、教育、文化等領域的發(fā)展,總體來說,德語呈現(xiàn)出簡單、經(jīng)濟與實用的發(fā)展趨勢[17]178-187。一方面,人們在語言使用上追求“語言經(jīng)濟性原則”;另一方面,德語書面語出現(xiàn)了越來越多的口語特征[18]377。德語本身出現(xiàn)了一些變化,比如:二格使用減少,二格由復合詞替代;復合詞增多,替代關系從句;分詞短語或名詞化結構替代從句表達增多[19]25;句子變短、從句減少[18]377;名詞化結構增多的趨勢明顯[20]212。這些變化均直接導致代詞的減少。或許這一變化不是德語的獨特發(fā)展規(guī)律,而是與名詞占比一樣,具有跨語言的普遍性。未來我們將通過對其他語言的歷史語料庫進行研究來驗證上述假設。

上述研究是基于DWDS-Kernkorpus和Tüba-D/Z語料庫收錄的20世紀報刊文章,從中并沒有得出名詞占比具有歷時性變化這一結論,因此,我們提取DTA語料庫中的報刊類文章進行專門研究。鑒于DTA語料庫中1700年前的報刊文章數(shù)量很小(僅5篇),可以忽略不計,我們只對18—20世紀的語料進行了研究,其名詞比例統(tǒng)計結果如圖3所示。

結果顯示,DTA語料庫中報刊文章中的名詞比例呈現(xiàn)出與整個語料庫類似的歷時性變化趨勢。同時,名詞各個子類的占比也體現(xiàn)出顯著的文體特征,即報刊文章中普通名詞和專有名詞相對于其他文體的比例較高,這與上文對DWDS-Kernkorpus進行研究得出的結論一致。由此可見,時間因素與文體類型均對名詞各個子類的占比有顯著影響,但名詞的總體比例并未受二者影響。換言之,跨越500年的數(shù)億真實語料告訴我們名詞分布可能真的就是人類語言的一個不變量,但與此同時,不變中也蘊含著變化。這種變與不變之間的交互作用恰好體現(xiàn)了人類語言作為一種人驅復雜適應系統(tǒng)的特質[21]。

圖3 DTA語料庫17—20世紀報刊文章中名詞占比歷時變化

五、 結 語

本文以Hudson對英語中名詞占比的研究、Liang和Liu對包括漢語在內(nèi)的多種語言中名詞占比的研究為出發(fā)點和研究范式,對德語書面語的名詞占比進行了計量研究。通過對德國柏林—勃蘭登堡科學院的大型語料庫DWDS-Kernkorpus、DTA以及圖賓根依存樹庫TüBa-D/Z進行分析,得出如下結論:首先,德語書面語中的名詞所占比約為38%,盡管德語復合名詞比例高、名詞化結構多,但其名詞占比同英語以及其他語言中的名詞占比大致相符,從而進一步證實了人類自然語言中名詞占比具有普遍規(guī)律這一結論;其次,不同文體中名詞及其各子類的占比有所差異,而這一差異由文體特征所決定,并且具有跨語言的相似性;最后,我們在對過去幾個世紀的語料進行研究的基礎上,得出了時間因素與文體類型均對名詞各個子類占比有顯著影響,但名詞總體比例未受二者影響的結論。綜上,我們可以認為,名詞分布是人類語言的不變量。名詞內(nèi)部普通名詞的比例不斷上升,而代詞比例逐漸下降這一新發(fā)現(xiàn),則有待深入研究。

猜你喜歡
子類德語代詞
復合不定代詞點撥
代詞(一)
卷入Hohlov算子的某解析雙單葉函數(shù)子類的系數(shù)估計
代詞(二)
Eva Luedi Kong: Journey to the East
文化交流(2019年1期)2019-01-11 01:34:26
這樣將代詞考分收入囊中
關于對稱共軛點的倒星象函數(shù)某些子類的系數(shù)估計
合作學習在大學德語閱讀課中的應用
哲學“專業(yè)德語”教學研究初探
外語學刊(2016年4期)2016-01-23 02:34:18
丹麥小店流行取“難聽的”德語名
天峻县| 五河县| 尤溪县| 潍坊市| 苏尼特左旗| 贵溪市| 眉山市| 南汇区| 合川市| 彰化县| 鸡东县| 康定县| 庆城县| 临猗县| 卢湾区| 桐柏县| 横峰县| 铅山县| 武川县| 平邑县| 宁波市| 八宿县| 三亚市| 萨迦县| 定陶县| 当涂县| 奉贤区| 青浦区| 定日县| 东宁县| 封开县| 吕梁市| 浦北县| 聂拉木县| 罗源县| 荥经县| 赤峰市| 西峡县| 阜阳市| 灵寿县| 武山县|