□ 劉 瀟
(武漢大學(xué) 外國語言文學(xué)學(xué)院,湖北 武漢510620)
通過詞表覆蓋率評測法語文本難度的方法
□ 劉 瀟
(武漢大學(xué) 外國語言文學(xué)學(xué)院,湖北 武漢510620)
在我國英語閱讀研究中,常采用量化方法測量文本。而法語相關(guān)研究則幾乎是空白。本研究將法語教學(xué)大綱的詞表與國外的常用法語詞表對比,測算這些詞表在不同語料庫中的文本覆蓋率和生詞率,從而估算掌握相應(yīng)單詞量的學(xué)生在閱讀不同類型文本時遇到的單詞難度。結(jié)果表明,可將5%的生詞率作為能否獨立讀懂文章的標準。在篩選難詞時,單個詞表易有疏漏,應(yīng)結(jié)合多個詞表綜合判斷。此外,為取得更好效果,應(yīng)以詞族為計量單詞的單位,兼顧不規(guī)則動詞的詞形。
詞表;覆蓋率;語料庫;文本難度
在外語閱讀中,讀者遇到的障礙通常是由生詞引起的。通過詞表中單詞在文本中所占比例,能判斷掌握相應(yīng)單詞的讀者閱讀時的單詞難度,從而更好地選擇有效的教學(xué)材料,促進學(xué)生閱讀技能的健康發(fā)展。而量化的語料庫方法在我國法語教學(xué)中鮮少得到應(yīng)用。因此,本文選用教學(xué)大綱詞表在內(nèi)的幾種常見的法語詞表,統(tǒng)計它們在教材及其他閱讀材料語料庫中的文本覆蓋率,以供教學(xué)參考。
在計量詞匯時,首先應(yīng)該明確統(tǒng)計單詞的單位和方法。一般有以下三個不同單位可供選擇:單詞(mot),即按詞匯的不同形態(tài)分別計算。詞目(lemme),即只計算單詞作為字典條目時的形態(tài),忽略其陰陽性、單復(fù)數(shù)、時態(tài)。詞族(famille de mots),即把通過不同構(gòu)詞法構(gòu)造的詞根相同的單詞計為一個詞族。如produit,produits和production,按以上單位應(yīng)計為3個單詞,或2個詞目,或1個詞族。
具備構(gòu)詞法知識的讀者容易根據(jù)詞綴和詞根推測出單詞的含義,尤其是在有上下文的理解過程中。因此,在英語詞匯量的研究中,通常采用詞族作為單位[1]。然而,大部分法語生詞表采用詞目作為統(tǒng)計單位。由于現(xiàn)實條件制約,本文采用詞目作為計量單位。
文本覆蓋率,指的是詞表中單詞在文本中所占比例。統(tǒng)計單詞比例時,常使用兩種計量方式:類符(type,即每個單詞無論出現(xiàn)多少次都只計一次)或形符(token,即每個單詞按實際出現(xiàn)次數(shù)計算)。在此與多數(shù)研究一致,選取形符作為統(tǒng)計方式。
讀者認識的單詞在文中達到多少比例,才能有效理解文本呢?內(nèi)申(Nation)和同事認為:讀者至少需要認識文中95%的單詞,才能獨立理解文本,并可從上下文中猜出生詞含義。為實現(xiàn)較流暢、愉悅的閱讀,不需上下文即可理解的單詞則需占文中98%[2]。他在統(tǒng)計時,將專有名詞、明顯的復(fù)合詞及感嘆詞計入覆蓋率,不算作生詞。
此外,內(nèi)申參與開發(fā)編寫了Range軟件,可用于分析文本的詞匯深度和廣度。Range軟件自帶3個基礎(chǔ)詞表:Basewrd1,含 998個詞族,共計 4119詞;Basewrd2,含 988 個詞族,共計 3708 詞;Basewrd3,含570個詞族,共計3107詞。前兩個詞表涵蓋英語文本約87%的詞匯,最后一個詞表為最常用的學(xué)術(shù)詞匯,在學(xué)術(shù)文本中的覆蓋率為8.5%。在分析文本時,Range生成的文件會顯示該文本中詞匯在這3個詞表中覆蓋的程度。其使用者還可自行編寫基礎(chǔ)詞表,滿足特殊研究需要。目前在我國的英語教學(xué)研究中,有著作介紹Range軟件,并舉例說明如何應(yīng)用該軟件分析應(yīng)用于教材的文章難度[3],也有使用易讀度軟件AntwordProfiler通過覆蓋率等方式分析文本難度的嘗試[4]。
而在法語教學(xué)研究中,少有研究者使用定量分析方法通過詞表和語料庫分析文本。關(guān)虹依據(jù)《高等學(xué)校法語專業(yè)基礎(chǔ)階段教學(xué)大綱》和《高等學(xué)校法語專業(yè)高年級法語教學(xué)大綱》,制定含4個層級共8500個單詞的新詞匯表,并據(jù)此分析學(xué)生在作文中體現(xiàn)的掌握和運用法語詞匯的能力[5]。但在教材和閱讀材料研究中,暫未看到類似語料庫方法的實踐。
在法語教學(xué)史上最早的重要詞表是古根內(nèi)姆等語言學(xué)家在1955年發(fā)布的《基礎(chǔ)法語》(可在http://www.lexique.org/telAutresBases.php下載)。該詞表包含兩級:第一級1475詞,第二級3500詞。第二版詞表在此基礎(chǔ)上擴充到8774個單詞。該詞表主要是根據(jù)詞頻和分布率制定的,語料為275個人訪談所得的口語語料庫,包含163篇文本,312 134個詞,7995個詞目。此外,編寫者還圍繞20個興趣中心補充了320個易聯(lián)想(disponibilité)單詞,剔除了 104 個粗俗用詞(如bouquin, foutre, formidable, vélo 等)[6]。
計算機開始廣泛使用后,對詞匯的計量變得更為方便,涌現(xiàn)出許多新詞表。
Lexique3詞表是一個收入詞條較全的開源詞表,包含 142 728 個單詞,對應(yīng) 47 342 個詞目[7](可在 http://www.lexique.org/telLexique.php下載)。其中單詞的詞頻有兩項。前者是書面文本統(tǒng)計得來,語料庫由法語分析與處理實驗室 (Analyse et Traitement Informatique de la Langue Fran aise,Atilf) 提供的從 1950 年到2000年間出版的218本小說構(gòu)成,1470萬詞匯量級。后者是口語資料統(tǒng)計得來,語料庫為9474部電影的字幕,5千萬詞匯量級。由于研究對象為文本,本文采用書面文本統(tǒng)計所得的詞頻。
塔克等人認為,基于法語在母語為法國人的使用環(huán)境中統(tǒng)計出的詞頻,與法語學(xué)習(xí)者在學(xué)習(xí)過程中接觸到這些詞語的順序和頻率存在差異,所以應(yīng)采用基于課本統(tǒng)計出的分級單詞詞表判斷法語學(xué)習(xí)者遇到的單詞難度[8]。
FLELex的編寫者統(tǒng)計了28本專為外國學(xué)生使用的法語教材和29本目標讀者為外國學(xué)生的簡寫法語讀本中的777 835個詞,并將語料按照《歐洲語言共同參考框架:學(xué)習(xí)、教學(xué)、評估》分為6個層級:A1(入門級),A2(初級),B1(中級),B2(中高級),C1(高級),C2(精通級)[9]。FLELex 中共有 14 053 個實詞詞目和 183個語法詞詞目 (可在 http://cental.uclouvain.be/flelex/#tab-download下載),對每個詞目,標注其詞性和在不同層級的教材或簡寫本中標準化計算后的詞頻。由于編寫者采用了兩個分詞器預(yù)處理語料,所以有TT和CRF兩個版本,本文采用TT版本。
我國法語專業(yè)的教學(xué)大綱詞表有兩種:《高等學(xué)校法語專業(yè)基礎(chǔ)階段教學(xué)大綱》(以下簡稱 《基礎(chǔ)大綱》)包括3800個單詞,其中需要熟練掌握的積極詞匯為2600個[10]。 《高等學(xué)校法語專業(yè)高年級教學(xué)大綱》(以下簡稱《高年級大綱》)包括8040個單詞。它是《基礎(chǔ)大綱》3800 詞匯表的擴大[11]。
以下選取Lexique3詞表前4000詞目 (以下簡稱Lexique3-4K),F(xiàn)lelex_TT詞表前4000詞目(以下簡稱Flelex-4K)與基礎(chǔ)大綱對比,Lexique3詞表前8000詞目 (以下簡稱Lexique3-8K)、Flelex_TT詞表前8000詞目(以下簡稱Flelex-8K)與高年級大綱、第二版古根內(nèi)姆詞表(以下簡稱Gougenheim)對比,測試不同詞表在各語料庫中辨別生詞的能力。
Lexique3詞表中,拼寫相同而詞性相異的詞被計為不同詞項。然而,在大綱詞表中,絕大多數(shù)具有多種詞性的詞計為一項。因此,在統(tǒng)計時,將Lexique3詞表中相同拼寫的詞目詞條合并,條目的頻率之和作為統(tǒng)一的詞目詞頻。同時,更正部分高頻詞的詞目標注錯誤,篩選有效的短語,最終得到的詞表含45 512個詞目,125 646個詞條,1117個短語。對 Flelex和Gougenheim詞表也作類似處理。
對教學(xué)大綱詞表進行如下預(yù)處理:更正了存在的拼寫錯誤;去除了重復(fù)收錄的單詞;將相同單詞的不同形式歸并為Lexique3中的詞目。因此得到的單詞數(shù)目與各大綱中標明的數(shù)目略有差異?!盎A(chǔ)大綱1”為第一學(xué)年應(yīng)掌握的積極詞匯,“基礎(chǔ)大綱1+2”為第一、二學(xué)年應(yīng)掌握的積極詞匯,“基礎(chǔ)大綱全”為基礎(chǔ)大綱中所有詞匯。
3.1 統(tǒng)計覆蓋率的方法
統(tǒng)計覆蓋率時,詞表中的詞組與自反動詞按照其中去除高頻虛詞之后的單詞計算。
表1是根據(jù)Lexique3詞表統(tǒng)計出的詞頻排名前15 000的詞目在每1000詞層級時,分別在Lexique3書面文本語料庫中的覆蓋率:
表1:排名前8000的詞目每1000詞層級在Lexique3書面文本語料庫中的覆蓋率
由表1可見,詞頻最高的1000個詞目的出現(xiàn)次數(shù)之和占語料庫所有單詞總數(shù)的80%以上。據(jù)博多(Baudot)在 22 000 詞條,1 040 150 詞次,800 份語料基礎(chǔ)上對法語詞匯的計量,使用頻率最高的不到3000詞在語料庫中占比為90%[12]。本次采用的Lexique3詞表得到的數(shù)據(jù)與之相符,較為可信。
詞表中詞目詞頻排名5000以外的詞匯的百萬詞詞頻均小于10,彼此數(shù)值差距較小,為中低頻詞,在不同詞表中排名可能會隨語料庫內(nèi)容不同而有較大變化。例如地名pékin在Lexique3中排名在14 000以外,但對于中國學(xué)生,這是較早接觸到的高頻詞。
表2:教學(xué)大綱詞表分別的詞目數(shù)及在Lexique3語料庫的覆蓋率
以上詞表在Lexique3詞庫中覆蓋率較低。一方面,是因為該語料庫中為原版法語小說,難度較高。另一方面,是因為Lexique3中部分高頻詞不在大綱詞表中,其中包括au,du等縮合冠詞。高年級大綱中缺少et,de,quoi等高頻詞,而僅et一個詞的百萬詞詞頻率就為20 879.73,覆蓋率為2.29%。
為提高由詞表所得生詞的準確性,按以下方法,在未覆蓋的詞中排除對讀者不造成或造成較小閱讀障礙的詞。首先,使用高頻虛詞作為停用詞表。其次,由于人名、地名等專有名詞容易結(jié)合上下文得知其所指對象為人物或地點。百以內(nèi)的數(shù)詞在第一學(xué)年就已習(xí)得,但詞表中易疏漏(如高年級大綱中缺少deux這個高頻數(shù)詞)。因此,將人名、地名、百以內(nèi)的數(shù)詞和序數(shù)詞作為專有名詞表。此外,其他在句首以外位置都以大寫字母開頭的單詞也視作專有名詞。再次,在Lexique3詞表中找出擬聲詞、感嘆詞。余下的單詞視為詞匯量與該詞表相符的學(xué)生的生詞,統(tǒng)計生詞率。
3.2 詞表在教材和分級閱讀材料等語料庫中的覆蓋率和生詞率
測試文本分為4類。第一類是教材,選取北京外國語大學(xué)1992年版《法語》1—4冊(以下簡稱北外法語)和《法語綜合教程》1—4冊(以下簡稱綜合教程);第二類是課外分級讀物,采用上海外語教育出版社法語分級注釋讀物叢書(以下稱分級讀物)中A1到B2的4個難度各1冊簡寫本:《美女與野獸》《小法岱特》《環(huán)游世界80天》和《巴黎圣母院》;第三類是高年級大綱中推薦的原版小說:《小王子》和《包法利夫人》;第四類是新聞,采用5個新聞網(wǎng)站各1篇不同主題的文章。
首先在教材語料庫中測試各詞表的覆蓋率和生詞率是否符合課本的難度級別順序(表3)。
根據(jù)表3可知,判斷文本難度時,用停用詞表和專有名詞等詞表修正后的生詞率的效果好于原始詞表的覆蓋率。如高年級大綱在兩套教材中的2冊、3冊覆蓋率都高于第1冊覆蓋率,而用所有詞表的生詞率判斷,兩套教材的難度都符合相應(yīng)編排的順序,且數(shù)值之間呈階梯狀差異,分界清晰。說明生詞率可作為衡量文本單詞難度的有力標準。
除Lexique3-8K和Gougenheim詞表顯示北外法語的3冊、4冊生詞率比綜合教程相應(yīng)冊數(shù)略高外,其他詞表都顯示,綜合教程每冊難度高于北外法語相應(yīng)冊數(shù)。而綜合教程1和2對應(yīng)法語專業(yè)一年級第一、二學(xué)期,3和4對應(yīng)二年級第一、二學(xué)期。綜合教材難度可能明顯高于目標讀者水平。這一現(xiàn)象還可歸因于北外法語編寫時間與教學(xué)大綱的年代相近 (基礎(chǔ)大綱參考的教材中雖沒有列出這一版本,但有1962年和1980年的北京外國語學(xué)院版《法語》),因此兩者的詞匯重合度高。
表3:教材語料庫的覆蓋率和生詞率
此外,根據(jù)以上結(jié)果,可沿用英語的相關(guān)研究成果,將5%的生詞率作為是否能理解文本的重要指標。掌握基礎(chǔ)大綱1的學(xué)生,閱讀北外法語1時生詞率小于5%,學(xué)會基礎(chǔ)大綱2后,閱讀北外法語2的生詞率也在5%以下,掌握全部基礎(chǔ)詞匯后,可獨立閱讀北外法語3的大部分課程(表中僅列出整冊書平均值,實際在16課中有6課生詞率超過5%)。這與教學(xué)經(jīng)驗較一致。
再以綜合教程4第一課Texte A的生詞為例,測試各詞表辨別生詞的能力(表4)。
其中,amoureux, attaque,échange, promesse 和royaume僅在Gougenheim中未出現(xiàn),cours和fois僅在Flelex的兩級詞表中未出現(xiàn),chasseur,enfer和pied僅在基礎(chǔ)大綱中未出現(xiàn),établir僅在高年級大綱中未出現(xiàn),corde和livrer僅在課后生詞表中被列為生詞。這些都是難度相對較低的單詞。
而 archet,caisse de résonance,montreur d’ours,se désaltérer,escopette 這樣在絕大多數(shù)甚至所有詞表中都未出現(xiàn)的生詞,確為文中最難的一批單詞。此外,rêveur和violoniste這樣的單詞盡管沒有出現(xiàn)在部分詞表中,但與它們相同詞族的rêve和violon卻在詞表,顯示出以詞目為單位選詞的局限性。
可見,靠單個詞表或?qū)<乙庖娺x出生詞,難免會出現(xiàn)疏漏和有爭議的情況。在選用的詞表中,Gougenheim詞表由于年代較早,效果明顯比其他詞表差。
接下來,再測試各個詞表在分級讀物、小說和新聞?wù)Z料庫中的覆蓋率和生詞率(表5)。
在使用基礎(chǔ)詞表和Gougenheim判斷分級讀物文本難度時,A1的生詞率略高于A2,而其他詞表的結(jié)果都符合該系列的分級順序。比較這兩篇文章不在基礎(chǔ)大綱而在高年級大綱的單詞,A1的690個類符中有40個,A2的704個類符中有44個,相差不大。但A1中fée出現(xiàn) 9 次,monstre出現(xiàn) 9 次,épouser出現(xiàn) 8 次,而A2中此類單詞僅sorcier出現(xiàn)4次,所以整體占比小于A1。對于單詞量與基礎(chǔ)詞表相一致的讀者而言,A1和A2這兩冊讀物中的生詞比例可能正如生詞率所顯示的,A1略高于A2。當單詞量擴展,識別A1中反復(fù)出現(xiàn)的與童話相關(guān)的單詞后,A1的實際單詞難度仍低于A2。
表4:綜合教程4第一課Texte A按不同詞表選出的生詞
表5:閱讀材料、小說和新聞?wù)Z料庫的覆蓋率和生詞率
所有詞表中,《小王子》的生詞率都在B1和B2級之間,《包法利夫人》則明顯難于B2等級,與教學(xué)經(jīng)驗相一致。
《包法利夫人》和新聞?wù)Z料庫的對比結(jié)果顯示,除Flelex-4K詞表中兩者生詞率相當,F(xiàn)lelex-8K中前者生詞率高于后者外,其他詞表均判定前者生詞率小于后者。這一結(jié)果可能說明,F(xiàn)lelex詞表中收錄的單詞更貼近時事,而其他詞表由于語料來源文學(xué)作品比例較高,對文學(xué)作品的覆蓋率更高。在查驗生詞時發(fā)現(xiàn),新聞?wù)Z料庫中在Flelex-8K而不在高年級大綱的詞有36個,其中包括 migration, législatif, gestion, logiciel等與政治、經(jīng)濟、科技相關(guān)的單詞?!栋ɡ蛉恕分性诟吣昙壌缶V而不在Flelex-8K的詞有646個,其中postscriptum,ligature,étymologie,laminoir 等單詞都專業(yè)性較強。證實了這一推斷。
詞匯是語言教學(xué)的基礎(chǔ)組成部分,對閱讀等技能的提高尤為重要。相關(guān)的語料庫建設(shè)和研究能極大促進詞匯教學(xué)的科學(xué)性和效率。在驗證多個詞表在不同語料庫中的覆蓋率和生詞后,證實了這種方法對評估文本難度的有效性,以及將5%的生詞率作為能否讀懂法語文本標準的可行性。
數(shù)據(jù)也顯示,無論是語料庫生成的詞表,還是綜合其他詞表成果由專家審閱制定的教學(xué)大綱詞表,都有不同程度遺漏高頻或較新單詞的情況,還不可避免地存在少量錯誤。
表6中的科技詞匯,在Lexique3詞表中由于語料庫來源為2000年之前的文本,所以排名靠后,而基礎(chǔ)大綱和高年級大綱的編寫年代較早,缺失其中的三個單詞。在較晚編寫的《大學(xué)法語教學(xué)大綱》第2版和《大學(xué)法語課程教學(xué)要求》中,則計入了internet。
表6:部分科技詞匯在英語和法語詞表中的對比①表中英語排名采用Paul Nation(2014)中使用的25個按詞頻排序的1000詞族表,該資源可在http://www.victoria.ac.nz/lals/staff/paul-nation.aspx下載。
為提高詞表的質(zhì)量和編寫時的效率,需不斷關(guān)注最新研究成果,結(jié)合多個來源,應(yīng)用軟件統(tǒng)計的優(yōu)勢,著重審閱來源中不一致的地方,并查漏補缺,才能得到更符合實際的結(jié)果。
在編寫詞表和統(tǒng)計生詞時,以詞目為單位判斷生詞難度存在兩個主要問題。一方面,忽略了不規(guī)則動詞等部分單詞的形態(tài)變化對讀者的難度。一年級學(xué)生認識être的直陳式動詞變位,但不認識其虛擬式形態(tài)。另一方面,會將與高頻詞詞根相同的低頻詞誤認為難詞。如productivité在Lexique3詞表中百萬詞詞頻僅為0.34,排名23 963,而與它同源的production詞頻則為14.59,排3988位,為常用詞。
對專有名詞的處理,也不應(yīng)一概而論。大多數(shù)情況下,人名、地名等信息不影響文章內(nèi)容。但在新聞等特殊情況下,如對相關(guān)背景沒有了解,則會讀不懂文章。在科研等文本中,特殊的專有名詞更是內(nèi)容的核心,不應(yīng)籠統(tǒng)地不計入生詞。
此外,詞匯計量中詞組的處理也是難點。在對文本分詞時,難以將詞組與其他同時出現(xiàn)的單詞區(qū)分。在通過語料庫統(tǒng)計得來的詞表中,既有parce que,d’accord等真詞組,也有l(wèi)a plupart des,la plupart du這樣的假詞組。
盡管詞匯計量已有較長歷史,在實際應(yīng)用中,由于語言本身存在大量不規(guī)則現(xiàn)象、語料本身的質(zhì)量參差不齊、開發(fā)語料庫有一定專業(yè)門檻、專家精力有限且主觀性強等條件局限,現(xiàn)存詞表仍需進一步改良和拓展,并應(yīng)當與語料庫方法和計算機輔助相結(jié)合,以適應(yīng)學(xué)生需通過互聯(lián)網(wǎng)等方式大量閱讀符合其知識水平的同時代真實語料的迫切需求。
參考資料:
[1]NATION.How much input do you need to learn the most frequent 9,000 words?[J].Reading in a Foreign Language,2014,26(2):1-16,2.
[2]HIRSH D, NATION.What vocabulary size is needed to read unsimplified texts for pleasure?[J].Reading in a Foreign Language,1992,8 (2):689-696,690.
[3]王立非.計算機輔助第二語言研究方法與應(yīng)用[M].北京:外語教學(xué)與研究出版社,2007:45.
[4]吳文彥,韓亞微.《經(jīng)濟學(xué)人》作為大學(xué)非英語專業(yè)學(xué)生閱讀材料的易讀性研究[J].北京印刷學(xué)院學(xué)報,2013,21(3):33-36.
[5]關(guān)虹.基于語料庫的法語語言能力評價[J].解放軍外國語學(xué)院學(xué)報,2004,27(6):55-58,56.
[6]程依榮.法語詞匯學(xué)導(dǎo)論[M].北京:外語教學(xué)與研究出版社,2002:190-192.
[7]NEW B,et al.Une base de données lexicales du franC,ais contemporain sur internet:LEXIQUE[J].L'Année Psychologique,2001(101):447-462,453.
[8]TACK A,et al.Modèles adaptatifs pour prédire automatiquement la compétence lexicale d’un apprenant de franC,ais langue étrangère In Actes de la 23e Conférence sur le Traitement Automatique des Langues Naturelles [C].Paris:TALN,2016:4-8.
[9]FRANCOIS T,et al. FLELex:a graded lexical resource for French foreign learners In the 9th International Conference on Language Resources and Evaluation[C].Reykjavik:LREC,2014:26-31.
[10]高等學(xué)校法語專業(yè)基礎(chǔ)階段教學(xué)大綱[M].北京:外語教學(xué)與研究出版社,1988.
[11]王文融.高等學(xué)校法語專業(yè)高年級法語教學(xué)大綱:試行[M].北京:外語教學(xué)與研究出版社,1997.
[12]SEGUIN H.Fréquences d’utilisation des mots en fran C,ais écrit contemporain.Jean Baudot,1992, Les Presses de l’Universitéde Montréal[J].Revue québécoise de linguistique,1993,22(2):179-181.
10.14180/j.cnki.1004-0544.2017.12.011
H32
A
]1004-0544(2017)12-0068-07
劉瀟(1985-),女,湖北武漢人,武漢大學(xué)外國語言文學(xué)學(xué)院法語系博士生。
責(zé)任編輯 李利克