游金干,何家寧
(1.福建農(nóng)林大學(xué) 金山學(xué)院,福建 福州 350002;2.廣東外語外貿(mào)大學(xué) 國際商務(wù)英語學(xué)院,廣東 廣州 510420)
通用學(xué)術(shù)詞表的對(duì)比研究
——選詞、評(píng)估和分級(jí)標(biāo)準(zhǔn)
游金干1,何家寧2
(1.福建農(nóng)林大學(xué) 金山學(xué)院,福建 福州 350002;2.廣東外語外貿(mào)大學(xué) 國際商務(wù)英語學(xué)院,廣東 廣州 510420)
本文對(duì)三個(gè)通用學(xué)術(shù)詞表進(jìn)行對(duì)比分析,探究其在選詞標(biāo)準(zhǔn)、評(píng)估標(biāo)準(zhǔn)和分級(jí)標(biāo)準(zhǔn)上的不足。研究發(fā)現(xiàn):1)以頻數(shù)、分布和離散度等為選詞標(biāo)準(zhǔn),仍存在統(tǒng)計(jì)指標(biāo)和閥值設(shè)定上的疏漏之處;2)以覆蓋率為評(píng)估標(biāo)準(zhǔn),無法揭示學(xué)術(shù)詞表遺漏學(xué)術(shù)詞匯,卻收錄專業(yè)詞匯和低頻詞匯等缺陷;3)以詞族頻數(shù)為分級(jí)標(biāo)準(zhǔn)存在信度和效度問題。學(xué)術(shù)詞表不但在共有詞族上的分級(jí)值并不一致,而且同族詞匯中含有不同頻數(shù)和分布特征的詞目。通過對(duì)詞匯分類、學(xué)術(shù)詞匯共核和詞頻概貌等理論的探討,本文擬構(gòu)建更合理的選詞、評(píng)估和分級(jí)標(biāo)準(zhǔn)。
通用學(xué)術(shù)詞表;選詞標(biāo)準(zhǔn);評(píng)估標(biāo)準(zhǔn);分級(jí)標(biāo)準(zhǔn);不足
通用學(xué)術(shù)詞表①是二語詞匯習(xí)得和學(xué)術(shù)英語教學(xué)領(lǐng)域的重要課題(Nation,2001;Schm itt,2010),其中最具代表性的有 University Word List(Xue&Nation,1984)、Academ ic Word List (Coxhead,2000)和 Academ ic Vocabulary List(Gardner&Davies,2014),以下分別簡稱為 UWL、AWL和 AVL。UWL是在前人編制的詞表基礎(chǔ)上整合而成,共有 836個(gè)詞族,應(yīng)用于早期的詞頻分析軟件 Range和詞匯水平測(cè)試中(Nation,2001)。AWL依托學(xué)術(shù)英語語料庫,采用嚴(yán)謹(jǐn)?shù)念l數(shù)、分布等選詞標(biāo)準(zhǔn),共有 570個(gè)詞族,廣泛應(yīng)用于學(xué)術(shù)英語教學(xué)、詞匯測(cè)試和詞典編纂等領(lǐng)域(Coxhead,2011;Lea et al.,2014)。AVL是在1.2億詞的 COCA學(xué)術(shù)子庫基礎(chǔ)上,采用細(xì)致的選詞標(biāo)準(zhǔn)編制而成,收錄約 2000個(gè)詞族(3000個(gè)詞目),目前應(yīng)用于在線學(xué)習(xí)工具(Gardner &Davies,2014)。
盡管學(xué)術(shù)詞表不斷更新,但學(xué)界對(duì)此類詞表的選詞標(biāo)準(zhǔn)、評(píng)估標(biāo)準(zhǔn)和分級(jí)標(biāo)準(zhǔn)卻鮮有系統(tǒng)化地探討。首先,當(dāng)前選詞標(biāo)準(zhǔn)的批判分析主要涉及 AWL設(shè)定的頻數(shù)閥值、剔除 GSL普通詞匯以及語料庫中各學(xué)科語料分布不均等問題(Hyland&Tse,2007;Eldridge,2008;Neufeld et al.,2011;Gardner&Davies,2014),而對(duì) UWL和 AVL選詞標(biāo)準(zhǔn)的討論很少,缺乏深入的對(duì)照分析。其次,學(xué)術(shù)詞表的評(píng)估標(biāo)準(zhǔn)主要是詞表的覆蓋率,即詞表的詞族頻數(shù)在語料庫中所占的比例。然而,覆蓋率只能粗略地揭示詞表的整體特征,未能證實(shí)個(gè)體詞語收錄的合理性(Durrant,2014)。最后,學(xué)術(shù)詞表常以頻數(shù)、分布等指標(biāo)進(jìn)行分級(jí)排序。分級(jí)子表不僅可作為學(xué)術(shù)詞匯教學(xué)的參考,還可應(yīng)用于詞匯測(cè)試和詞匯聯(lián)想等研究中(Fitzpatrick,2007;Webb&Sasao,2013)。但是,各個(gè)學(xué)術(shù)詞表對(duì)相同詞語的分級(jí)排序卻有較大出入。吳瑾、王同順(2007)研究表明,AWL詞匯的分級(jí)值與其在 JDEST語料庫②中的分級(jí)值存在明顯差異。鑒于此,本文從選詞、評(píng)估和分級(jí)標(biāo)準(zhǔn)對(duì) UWL、AWL和 AVL三個(gè)學(xué)術(shù)詞表進(jìn)行分析,探究主流學(xué)術(shù)詞表的不足之處,以構(gòu)建合理的選詞、評(píng)估和分級(jí)標(biāo)準(zhǔn)。
通用學(xué)術(shù)詞表是以詞匯分類、學(xué)術(shù)詞匯共核(Common Core of Academ ic Vocabulary)和詞頻概貌(Lexical Frequency Profile)等理論為基礎(chǔ),采用一系列的統(tǒng)計(jì)指標(biāo)為實(shí)踐方法,確定詞表的選詞、評(píng)估和分級(jí)標(biāo)準(zhǔn)。本文的分析框架見圖 1,下文將分別探討選詞、評(píng)估和分級(jí)標(biāo)準(zhǔn)的理論基礎(chǔ)和實(shí)踐方法。
圖1 分析框架
學(xué)術(shù)詞表的選詞標(biāo)準(zhǔn)是以詞匯分類為理論基礎(chǔ)。Nation(2001)將學(xué)術(shù)語篇中的詞匯分為四類:普通詞匯、專業(yè)詞匯、學(xué)術(shù)詞匯和低頻詞匯。普通詞匯是指在一般語篇中占有很大比重,實(shí)現(xiàn)基本交際功能的高頻詞匯。普通詞匯并無一致的界定,但詞表研究常將其與 GSL詞表(West,1953)相關(guān)聯(lián)。專業(yè)詞匯是具有較高辨識(shí)度的學(xué)科詞匯,與語篇的學(xué)科和主題緊密相關(guān),包括某些領(lǐng)域中特有的詞匯,或者帶有專業(yè)意義的普通詞匯。學(xué)術(shù)詞匯是廣泛分布于各科學(xué)術(shù)語篇,具有學(xué)術(shù)特征和功能的較高頻詞匯。低頻詞匯則是普通詞匯、專業(yè)詞匯和學(xué)術(shù)詞匯之外的,在語言交際中較少使用的詞匯。鑒于以上詞匯分類,UWL、AWL和 AVL學(xué)術(shù)詞表采用頻數(shù)、分布和離散度等選詞指標(biāo),用于篩除普通詞匯、專業(yè)詞匯和低頻詞匯。
學(xué)術(shù)詞表的評(píng)估標(biāo)準(zhǔn)是以學(xué)術(shù)詞匯共核為理論前提。學(xué)術(shù)詞匯共核的假設(shè)是:不同學(xué)科的學(xué)術(shù)語篇存在共同的核心詞匯,通用學(xué)術(shù)詞表是各個(gè)學(xué)科的學(xué)習(xí)者在構(gòu)建學(xué)術(shù)語篇時(shí)所需的基本詞匯資源(Coxhead,2000;Hyland&Tse,2007)。在此前提下,如果學(xué)術(shù)詞表在各個(gè)學(xué)科的學(xué)術(shù)語篇中都有較高的覆蓋率,而在其他語體中的覆蓋率較低,則可以驗(yàn)證學(xué)術(shù)詞表收錄了學(xué)術(shù)核心詞匯。因此,UWL、AWL和 AVL學(xué)術(shù)詞表均以詞表覆蓋率為評(píng)估標(biāo)準(zhǔn),以驗(yàn)證詞表的合理性和優(yōu)越性。
學(xué)術(shù)詞表的分級(jí)標(biāo)準(zhǔn)是以詞頻概貌為理論依據(jù)。詞頻概貌是指在大型的語料庫中提取詞匯頻數(shù),并按詞頻高低進(jìn)行頻段分級(jí)。詞頻概貌能用于區(qū)分不同水平的學(xué)習(xí)者,高階學(xué)習(xí)者比低階學(xué)習(xí)者使用更多的低頻詞匯(Laufer&Nation,1995;Laufer,2013)。因此,詞頻概貌是詞匯分級(jí)教學(xué)和詞匯水平測(cè)試的重要依據(jù)。學(xué)術(shù)詞表的分級(jí)標(biāo)準(zhǔn)大同小異,主要以詞族頻數(shù)為分級(jí)標(biāo)準(zhǔn),UWL和 AWL均分為十級(jí),而 AVL只按詞頻排序,未進(jìn)行分級(jí)。
3.1研究問題
本研究擬探討以下問題:1)通用學(xué)術(shù)詞表的選詞標(biāo)準(zhǔn)是什么、有何不足、如何改進(jìn)?2)通用學(xué)術(shù)詞表的評(píng)估標(biāo)準(zhǔn)是什么、有何不足、如何改進(jìn)?3)通用學(xué)術(shù)詞表的分級(jí)標(biāo)準(zhǔn)是什么、有何不足、如何改進(jìn)?
3.2研究步驟與工具
本文使用的詞表工具見表 1,研究步驟如下:
表1 詞表工具一覽表③
1)詞表處理:使用 BNC_COCA 25000詞族表對(duì)三個(gè)學(xué)術(shù)詞表中基礎(chǔ)詞(headword)不一致之處進(jìn)行統(tǒng)一。例如,compatible詞族在 UWL、AWL和 AVL中的基礎(chǔ)詞分別為 incompatible、incompatible和 compatible。由于 compatible和 incompatible同屬 compatible詞族,因而將三表的基礎(chǔ)詞統(tǒng)一為 compatible。
2)詞表選詞:以 COCA學(xué)術(shù)庫總表為主要數(shù)據(jù),分析三個(gè)學(xué)術(shù)詞表的選詞指標(biāo)和閥值設(shè)定,旨在探討學(xué)術(shù)詞表在選詞標(biāo)準(zhǔn)上的不足。
3)詞表評(píng)估:分析三個(gè)學(xué)術(shù)詞表的重疊情況,以及學(xué)術(shù)詞表中單表詞匯的詞類特征,旨在探討學(xué)術(shù)詞表在評(píng)估標(biāo)準(zhǔn)上的不足。首先,為了分析學(xué)術(shù)詞表的重疊情況,我們將三者所收的詞匯分類為單表、雙表和三表詞匯,并進(jìn)行顏色標(biāo)注和分類匯總。例如,able是 AVL獨(dú)有的詞族,標(biāo)記為單表詞匯;accompany只出現(xiàn)在 UWL和 AWL中,即為雙表詞匯;abandon是三者共有的詞匯,則為三表詞匯。
其次,我們確定專業(yè)詞匯、普通詞匯和低頻詞匯的參考標(biāo)準(zhǔn),用于分析單表詞匯的詞類特征。參考標(biāo)準(zhǔn)的選用主要考慮到三個(gè)學(xué)術(shù)詞表在選詞標(biāo)準(zhǔn)上的差異和不足。專業(yè)詞匯是參考COCA學(xué)術(shù)庫總表所列專業(yè)詞匯,并規(guī)定分布值應(yīng)低于 7;學(xué)術(shù)詞匯是采用調(diào)整后的 AVL指標(biāo),對(duì)頻數(shù)、比例、離散和分布的閥值分別設(shè)置為 1200、1.3、0.8和 7,并移除 AVL中的學(xué)科指標(biāo);普通詞匯則參考 GSL詞表④;低頻詞在 COCA學(xué)術(shù)庫中的閥值設(shè)為 1200(即標(biāo)準(zhǔn)頻數(shù)應(yīng)低于 10次/百萬詞)。
4)詞表分級(jí):分析三表在共有詞匯的分級(jí)值上的一致性,以及 AVL詞目表的頻數(shù)和分布值的聚類情況,旨在探討學(xué)術(shù)詞表在分級(jí)標(biāo)準(zhǔn)上的不足。UWL、AWL和 AVL的分級(jí)標(biāo)準(zhǔn)分別為詞族頻數(shù)和分布值,詞族頻數(shù)以及學(xué)術(shù)詞族頻數(shù)。為驗(yàn)證各學(xué)術(shù)詞表間分級(jí)值的一致性,我們匯總 AVL的詞族頻數(shù),借鑒 AWL分級(jí)方法,將 AVL詞族表按詞族頻數(shù)分為十個(gè)子表,作為各表分級(jí)值的參考點(diǎn)。這是因?yàn)?UWL和 AWL均以詞族頻數(shù)為分級(jí)標(biāo)準(zhǔn),而且 AVL詞族分級(jí)值是基于大型均衡的學(xué)術(shù)語料庫,數(shù)據(jù)較為可靠。此外,我們還使用 AVL詞目表,按詞頻和分布值進(jìn)行 K均值聚類分析,用于驗(yàn)證詞族分級(jí)排序的合理性。
為避免大量數(shù)據(jù)處理時(shí)的人工差錯(cuò),研究步驟中詞表的重疊情況標(biāo)注、數(shù)據(jù)提取和分類匯總均通過自編的 VBA代碼實(shí)現(xiàn),并進(jìn)行手工校對(duì)。
4.1 學(xué)術(shù)詞表的選詞標(biāo)準(zhǔn)分析
三個(gè)學(xué)術(shù)詞表的選詞思路都是通過量化指標(biāo)對(duì)普通詞匯、專業(yè)詞匯和低頻詞匯進(jìn)行篩除。三者采用的選詞標(biāo)準(zhǔn)及其不足見表2。
表2 學(xué)術(shù)詞表的選詞標(biāo)準(zhǔn)及其不足
為了剔除普通詞匯,UWL和 AWL將 GSL詞匯排除在外,而 AVL則采用比率指標(biāo),規(guī)定學(xué)術(shù)詞匯在學(xué)術(shù)子庫中的標(biāo)準(zhǔn)頻數(shù)應(yīng)超過總庫的 50%(即比率值為 1.5)。UWL和 AWL使用剔除 GSL的方法有欠妥當(dāng),因?yàn)?GSL較為陳舊,未必符合普通詞匯的使用現(xiàn)狀(Eldridge,2008)。更重要的是,剔除 GSL詞匯勢(shì)必造成大量的關(guān)聯(lián)派生詞也被排除在外,而且普通詞匯和學(xué)術(shù)詞匯并無天然的界限。比如,剔除 accept詞族直接影響到 acceptance、acceptable和 accepted等學(xué)術(shù)詞的收錄。又如,form不僅在學(xué)術(shù)語篇中的頻數(shù)比普通語篇要高,而且在學(xué)術(shù)語篇中可能有不同的詞義特征。AVL雖能避免以上不足,但其設(shè)定的 1.5閥值是值得推敲的。在 COCA學(xué)術(shù)庫總表中,不少指標(biāo)值低于1.5但高于1.3的詞匯可以作為學(xué)術(shù)詞匯,例如:accompany、investigate和 ultimate這些處于臨界值的詞匯未收錄于 AVL中。機(jī)械的閥值設(shè)定可能導(dǎo)致部分學(xué)術(shù)詞匯的遺漏,尤其是在普通語篇中高頻復(fù)現(xiàn)的學(xué)術(shù)詞匯。
為了篩除專業(yè)詞匯,UWL使用分布指標(biāo),但并未設(shè)定嚴(yán)格的閥值,甚至收錄分布很窄的詞匯,如 astronomy。AWL限定了分布閥值,但忽略了詞匯在不同學(xué)科中的離散程度,仍會(huì)收錄離散度較高的專業(yè)詞匯。比如,AWL收錄的 simulate在各學(xué)科中的頻數(shù)存在明顯差異。AVL則采用分布、離散和學(xué)科指標(biāo)將學(xué)術(shù)詞匯和專業(yè)詞匯加以區(qū)分,但其選取的指標(biāo)仍有不足。首先,其采用 Julliand&Chang-Rodriguez(1964)的 D值這一離散指標(biāo)存在敏感度問題。提取 COCA學(xué)術(shù)庫總表中 territory(各科頻數(shù)值:2682、58、1117、1272、520、485、1205、93、161)和 converse(各科頻數(shù)值:13、4、19、17、21、24、26、9、10)在九大學(xué)科中的頻數(shù)值,我們發(fā)現(xiàn)盡管兩者離散值均為 0.90,但前者的離散程度明顯高于后者。其次,學(xué)科指標(biāo)會(huì)導(dǎo)致在某些學(xué)科中頻數(shù)偏高的學(xué)術(shù)詞匯未能收錄于通用學(xué)術(shù)詞表,譬如:expectation的比率、離散度和分布值分別為1.85、0.92和9,除學(xué)科指標(biāo)外其他均達(dá)標(biāo),但 AVL將其列為教育學(xué)科的專業(yè)詞匯。
為了避免收錄低頻詞匯,AWL將頻數(shù)閥值設(shè)為 100,但 UWL和 AVL未設(shè)定嚴(yán)格的頻數(shù)閥值,這會(huì)導(dǎo)致詞表收錄低頻詞匯,如 atom和 amorphous。一方面,較低的詞頻可能影響到其他指標(biāo)的可靠性;另一方面,將低頻詞納入學(xué)術(shù)詞表毫無意義,學(xué)習(xí)者可以通過查閱詞典解決低頻詞問題。
4.2 學(xué)術(shù)詞表的詞匯評(píng)估分析
表 3顯示 UWL、AWL和 AVL所收詞匯的重疊情況,三表共有的詞匯達(dá) 310個(gè),而單表詞匯在各表中所占比重不一。單表詞匯分別占各表收詞數(shù)的 31.8%、10.5%和 69.3%。三者的收詞差異表明,三個(gè)學(xué)術(shù)詞表可能遺漏部分學(xué)術(shù)詞匯,卻收錄非學(xué)術(shù)詞匯。
表3 學(xué)術(shù)詞表所收詞匯的重疊情況
表4 學(xué)術(shù)詞表中單表詞匯的詞類特征
三個(gè)學(xué)術(shù)詞表中單表詞匯的類別構(gòu)成如表 4所示。UWL中存在大量的專業(yè)詞匯(如 cylinder)和低頻詞匯(如 incessant),分別占其單表詞匯的 23.7%和 36.5%。AWL中專業(yè)詞匯(如 automate)和低頻詞(如 imm igrate)較少,且不收錄普通詞匯,而 AVL中普通詞匯(如 able)和低頻詞匯(如 insuperable)則占較大比重(30.2%和 40.3%)。三個(gè)詞表還存在遺漏學(xué)術(shù)詞匯的問題,分別有 43、25和 484個(gè)詞是未被另兩個(gè)詞表收錄,如 evoke、foundation和 measure。這不僅印證了學(xué)術(shù)詞表在選詞標(biāo)準(zhǔn)上的不足,也表明詞表覆蓋率并非有效的評(píng)估標(biāo)準(zhǔn)。
盡管上述數(shù)據(jù)能大致呈現(xiàn)學(xué)術(shù)詞表的缺陷,但有三個(gè)事項(xiàng)需要注意:其一,由于同一詞族的各個(gè)詞目存在特征差異,無法按詞族進(jìn)行分析,比如:provide和 provided作為學(xué)術(shù)詞匯,但provider卻是醫(yī)學(xué)領(lǐng)域的專業(yè)詞匯。表 4是基礎(chǔ)詞的分析數(shù)據(jù),而非整個(gè)詞族;其二,專業(yè)詞匯、學(xué)術(shù)詞匯、普通詞匯和低頻詞之間仍存在部分重疊之處。最后,三個(gè)詞表所遺漏的學(xué)術(shù)詞匯數(shù)量不止表 4所列的單表詞匯數(shù)據(jù)。對(duì) UWL和 AWL共有的雙表詞匯(未收錄于 AVL)進(jìn)行分析,發(fā)現(xiàn)仍有 35個(gè)詞達(dá)到調(diào)整后的 AVL學(xué)術(shù)詞匯標(biāo)準(zhǔn),如 accompany和 criteria等。
4.3 學(xué)術(shù)詞表的分級(jí)排序分析
表5顯示 UWL、AWL中詞族的分級(jí)值與 AVL的分級(jí)值差分析。由于三表均分為十級(jí),我們假定值差小于等于 1的為分級(jí)差距小的詞匯,而差值大于等于 3即為差距較大的詞匯⑤。顯然,UWL和 AWL只有將近一半的分級(jí)值與 AVL接近(50.5%和48.1%),而約有 30%的分級(jí)值相差較大。同時(shí),我們還發(fā)現(xiàn),UWL、AWL與 AVL分級(jí)值差較小的詞多有重疊且多為高頻學(xué)術(shù)詞匯,而分級(jí)值相差較大的詞多無重疊,通常是中低頻學(xué)術(shù)詞匯。譬如:UWL、AWL與AVL分級(jí)值差較小的詞匯都有 achieve和 affect,這些詞多為高頻詞;反之,兩者與 AVL分級(jí)值差較大的詞匯各有不同,UWL中有 allocate和 arbitrary,AWL中則有 analogy和 attain,這些詞多為中低頻學(xué)術(shù)詞匯。可見,三表的共有詞匯在分級(jí)值上一致性較差,尤其是是中低頻的學(xué)術(shù)詞匯。
表5 學(xué)術(shù)詞表中共有詞匯的分級(jí)值差⑥
為進(jìn)一步分析以詞族為單位的分級(jí)排序的合理性,我們對(duì) AVL詞目中的頻數(shù)和分布值進(jìn)行 K均值聚類分析。由于數(shù)據(jù)的量綱不同,頻數(shù)和分布數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。聚類分析的最終類別中心點(diǎn)以及各個(gè)類別的記錄數(shù)見表 6。各個(gè)聚類的特征描述如下:
表6 AVL詞目的頻數(shù)和分布值的聚類分析
第 1類:分布廣的高頻詞,此類別的特征是頻數(shù)值為各聚類中最高,分布值較高。在 AVL詞目表中,這類特征的詞目數(shù)最少,僅有 41個(gè)。第 2類:分布廣的中低頻詞,這類詞匯盡管頻數(shù)值較低,但分布值卻是各類中最高的。AVL詞目表中,共有 815個(gè)詞目屬于此類。第 3類:分布窄的中高頻詞,這類詞匯頻數(shù)值較高,但分布值卻較低,共有 213個(gè)。第 4類:分布窄的低頻詞,此類詞匯的特征是頻數(shù)值和分布值都是各類中最低的,但這類詞匯數(shù)量眾多,共 1946個(gè)。
通過聚類分析,發(fā)現(xiàn)學(xué)術(shù)詞匯的頻數(shù)值水平和分布值高低并不趨同。UWL采用分布和頻數(shù)為標(biāo)準(zhǔn)的子表分級(jí)方法,在某些情況下是存在矛盾的。進(jìn)一步分析同族學(xué)術(shù)詞目的聚類情況,結(jié)果發(fā)現(xiàn)同一詞族的詞目中有許多屬于不同聚類。例如,develop、developed和 underdeveloped是 develop詞族下的三個(gè)詞目,但三者分別屬于第1、2和 4類。這證實(shí)了以詞族為單位的分級(jí)子表忽略了不同詞目在頻數(shù)、分布特征上的差異。
5.1 選詞標(biāo)準(zhǔn)與詞匯分類
選詞標(biāo)準(zhǔn)分析顯示,UWL、AWL和 AVL的選詞指標(biāo)和閥值設(shè)定仍有不足。選詞指標(biāo)的主要缺陷在于篩除 GSL詞匯的指標(biāo)和離散度指標(biāo)。是否有更合適的選詞指標(biāo)還有待進(jìn)一步驗(yàn)證,如 Paquot(2010)采用的關(guān)鍵值指標(biāo)(Keyness)和 Gries(2008)提出的 DP離散指標(biāo)。閥值往往依靠研究者的試驗(yàn)和直覺確定,但機(jī)械的閥值設(shè)定可能影響詞語收錄的合理性。閥值設(shè)定應(yīng)相對(duì)寬泛,并結(jié)合手工甄選,確保收錄學(xué)習(xí)者亟需的學(xué)術(shù)詞匯。
學(xué)術(shù)詞表常以詞匯分類為理論基礎(chǔ),通過頻數(shù)、分布和離散度等統(tǒng)計(jì)指標(biāo),試圖劃定學(xué)術(shù)詞匯與其他詞匯的界限。事實(shí)上,專業(yè)詞表的選詞思路也是如出一撤。例如,Konstantakis (2007)和 Hsu(2011)在編制商務(wù)詞表時(shí),分別篩除 GSL詞匯和 BNC3000高頻詞匯,將商務(wù)詞匯和普通詞匯嚴(yán)加區(qū)分。但是,學(xué)術(shù)詞匯與普通詞匯、專業(yè)詞匯是一個(gè)連續(xù)體,并非涇渭分明(Paquot,2010)。普通詞匯在專業(yè)語篇中也能作為學(xué)術(shù)詞匯和專業(yè)詞匯,學(xué)習(xí)者未必掌握了普通詞匯在專業(yè)語篇中的特殊用法。因此,詞匯分類理論并非對(duì)詞類進(jìn)行嚴(yán)格的界定,選詞時(shí)不應(yīng)對(duì)詞類進(jìn)行機(jī)械的區(qū)分。
5.2 評(píng)估標(biāo)準(zhǔn)與學(xué)術(shù)詞匯共核
詞表評(píng)估分析顯示,UWL、AWL和 AVL存在遺漏學(xué)術(shù)詞匯,卻收錄普通詞匯、專業(yè)詞匯和低頻詞匯等問題。這不但證實(shí)了學(xué)術(shù)詞表在選詞標(biāo)準(zhǔn)上的不足,也表明了以詞表覆蓋率為評(píng)估標(biāo)準(zhǔn)的缺陷。正如 Durrant(2014)所言,覆蓋率只能反映詞表的粗略特征,無法揭示學(xué)術(shù)詞表中的個(gè)體詞語特征。比如,Gardner&Davies(2014)通過對(duì)比 AVL570個(gè)詞族和 AWL的覆蓋率,驗(yàn)證 AVL的優(yōu)越性。然而,AVL收錄了許多 AWL所剔除的 GSL高頻詞匯,這必然提高了 AVL的覆蓋率。另外,Hyland&Tse(2007)發(fā)現(xiàn)學(xué)術(shù)詞匯存在學(xué)科變體特征,在不同學(xué)科中的頻數(shù)和分布存在明顯的差異。因此,學(xué)術(shù)詞表的評(píng)估標(biāo)準(zhǔn)應(yīng)當(dāng)以個(gè)體詞語特征為基礎(chǔ),采用其他學(xué)術(shù)語料庫,驗(yàn)證學(xué)術(shù)詞表在收詞立目上的合理性(如 Kwary,2014)。
三個(gè)學(xué)術(shù)詞表的重疊情況在一定程度上可以驗(yàn)證學(xué)術(shù)詞匯共核的觀點(diǎn)。近年來,學(xué)術(shù)詞表研究一直存在通用學(xué)術(shù)詞表與專業(yè)學(xué)術(shù)詞表的分歧(詞匯共核和詞匯變體)。有學(xué)者斷定由于學(xué)科間的詞匯使用差異,根本無法提取所謂的通用學(xué)術(shù)詞表(Hyland& Tse,2007;Durrant,2014)。但事實(shí)上,通用學(xué)術(shù)詞表和專業(yè)學(xué)術(shù)詞表分別呈現(xiàn)了學(xué)科間的詞匯共性和個(gè)性,不能因?qū)W科間的詞匯差異性而否認(rèn)其詞匯相似性(Paquot,2010;Gardner&Davies,2014)。表 3數(shù)據(jù)顯示,三個(gè)學(xué)術(shù)詞表共有的詞匯是 310個(gè),兩表重疊詞匯均在 200個(gè)以上。三者采用不同的語料數(shù)據(jù)和選詞標(biāo)準(zhǔn),但所收詞匯仍有大量的重疊??梢?,詞匯共核在各學(xué)科之間是存在的,這也是學(xué)術(shù)詞表評(píng)估的理論前提。
5.3 分級(jí)標(biāo)準(zhǔn)與詞頻概貌
詞表分級(jí)分析顯示,學(xué)術(shù)詞表的分級(jí)排序仍存在信度和效度問題,UWL、AWL和 AVL在共有詞匯的分級(jí)值上有明顯的差異,且同族詞匯中含有不同頻數(shù)和分布特征的詞目。一方面,三者采用的語料數(shù)據(jù)各不相同,導(dǎo)致分級(jí)值有所差別。UWL主要依據(jù)前人所編詞表的數(shù)據(jù),AWL語料庫的學(xué)科類別較少,AVL依托的語料庫較為均衡。另一方面,同一詞族的各個(gè)詞目在學(xué)術(shù)語篇中的頻數(shù)、分布會(huì)有較大差異。同時(shí),許多學(xué)習(xí)者未必能掌握所有的同族詞語,詞綴分析能力在很大程度上依賴于學(xué)習(xí)者的詞匯知識(shí)水平(Schmitt&Zimmerman,2002;Gardner,2007)。例如,information、inform、informed和 informant同屬 inform詞族,但語義聯(lián)系較為松散,學(xué)習(xí)者可能無法憑借基礎(chǔ)詞的詞義,推斷其派生詞的含義。因此,合理的分級(jí)標(biāo)準(zhǔn)應(yīng)當(dāng)以均衡的學(xué)術(shù)語料庫中提取的詞目頻數(shù)為基礎(chǔ)。
詞匯研究通常假定詞頻概貌對(duì)中高頻詞匯而言具有穩(wěn)定性,不受語料庫的語體和學(xué)科變量影響(Meara,2005;Milton,2009)。但表5數(shù)據(jù)顯示,UWL、AWL和 AVL僅有將近一半(50.5%和48.1%)的共有詞匯的分級(jí)值較為接近,而且將近30%(29.2%和28.7%)的分級(jí)值相差懸殊??梢姡~頻概貌應(yīng)用于學(xué)術(shù)詞表研究中具有不穩(wěn)定性,會(huì)受學(xué)術(shù)詞表所收詞匯和學(xué)術(shù)語料庫的均衡性影響。其一,詞頻概貌通常是在大型語料庫的詞頻表基礎(chǔ)上按 1000詞為一個(gè)頻段進(jìn)行設(shè)定的(Laufer,2013)。但是,學(xué)術(shù)詞表收詞數(shù)量較少,如果分級(jí)過細(xì),則每個(gè)頻段所含詞數(shù)過少,可能影響詞頻概貌的穩(wěn)定性。其二,詞頻概貌的穩(wěn)定性受語料庫的語體和學(xué)科特征影響,三個(gè)學(xué)術(shù)詞表的語料差異可能直接影響到三者在共有詞匯的分級(jí)值上的差異。因此,涉及學(xué)術(shù)詞表分級(jí)排序的詞匯測(cè)試等研究還應(yīng)審慎考證。Nation(1983)和 Schmitt et al.(2001)分別將 UWL和 AWL作為詞匯水平測(cè)試中學(xué)術(shù)詞匯部分的參考詞表。Webb&Sasao(2013)認(rèn)為,學(xué)術(shù)詞匯測(cè)試不能僅以 AWL總表為依據(jù),應(yīng)使用 AWL的分級(jí)子表,編制細(xì)致的五級(jí)學(xué)術(shù)詞匯量表??紤]到 AWL分級(jí)排序的不足,學(xué)術(shù)詞匯的分級(jí)測(cè)試還有待更完善的學(xué)術(shù)子表。
本文從選詞標(biāo)準(zhǔn)、評(píng)估標(biāo)準(zhǔn)和分級(jí)標(biāo)準(zhǔn)入手對(duì)比分析三個(gè)通用學(xué)術(shù)詞表。研究顯示,通用學(xué)術(shù)詞表常采用客觀的統(tǒng)計(jì)數(shù)據(jù),選取具有教學(xué)價(jià)值的學(xué)術(shù)詞匯。盡管詞表不斷精細(xì)化,但仍存在以下不足:1)就選詞標(biāo)準(zhǔn)而言,UWL缺乏系統(tǒng)化的選詞標(biāo)準(zhǔn);AWL欠缺離散指標(biāo),而且片面地篩除 GSL詞匯;AVL的離散指標(biāo)和學(xué)科指標(biāo)尚有不足,頻數(shù)和比率等指標(biāo)的閥值設(shè)定不合理。2)UWL、AWL和 AVL均以覆蓋率為評(píng)估標(biāo)準(zhǔn),但覆蓋率無法顯示詞表所收詞語的具體特征與不足。三表各有遺漏部分學(xué)術(shù)詞匯,而且 UWL和 AWL收錄了專業(yè)詞匯和低頻詞匯,而 AVL則收錄大量的普通詞匯和低頻詞匯。3)以詞族頻數(shù)為分級(jí)標(biāo)準(zhǔn)存在信度和效度問題。三表在共有詞匯的分級(jí)值上有較大的差距,而且同族詞匯中含有不同頻數(shù)和分布特征的詞目。
本文結(jié)合詞匯分類、學(xué)術(shù)詞匯共核和詞頻概貌等理論探討,針對(duì)學(xué)術(shù)詞表的不足,提出更合理的選詞、評(píng)估和分級(jí)標(biāo)準(zhǔn):1)選詞標(biāo)準(zhǔn)既需采用系統(tǒng)化的選詞指標(biāo)和閥值設(shè)定,還應(yīng)以學(xué)習(xí)者的實(shí)際需求為導(dǎo)向;可結(jié)合學(xué)習(xí)者語料庫和問卷調(diào)查等方法,進(jìn)一步完善選詞標(biāo)準(zhǔn);2)評(píng)估標(biāo)準(zhǔn)應(yīng)以個(gè)體詞語的統(tǒng)計(jì)特征為基礎(chǔ),使用其他學(xué)術(shù)語料庫驗(yàn)證收詞的合理性;3)分級(jí)標(biāo)準(zhǔn)應(yīng)以大型均衡的學(xué)術(shù)語料庫中提取的詞目頻數(shù)為依據(jù)。
鑒于目前學(xué)術(shù)詞表的不足,以學(xué)術(shù)詞表為基礎(chǔ)的詞表編制、詞匯測(cè)試和詞典編纂等領(lǐng)域的部分研究還需重新考證。
注釋:
①為了行文簡潔,“通用學(xué)術(shù)詞表”常簡稱為“學(xué)術(shù)詞表”。
②JDEST是上海交大科技英語語料庫,語料分為文科、理科、工科和醫(yī)科,共33個(gè)細(xì)目學(xué)科,語體包括學(xué)術(shù)論文、研究報(bào)告、教材等。
③BNC/COCA 25000詞表見于新版 Range中配置的詞表;COCA學(xué)術(shù)庫總表和 AVL詞目表出自 Gardner &Davies(2014);GSL出自West(1953)。
④本文認(rèn)為篩除GSL詞匯的選詞標(biāo)準(zhǔn)是不合理的,但為了說明三個(gè)學(xué)術(shù)詞表的收詞差異,以及詞表覆蓋率作為評(píng)估標(biāo)準(zhǔn)的不足,普通詞匯的標(biāo)準(zhǔn)仍參考 GSL詞表。
⑤假定的理由:將學(xué)術(shù)詞表所收詞語分為高、中、低頻三類,那么原先十級(jí)制下的分級(jí)值相差大致為3,則表明分級(jí)值差距明顯(即高、中、低頻分類的差異)。
⑥三個(gè)學(xué)術(shù)詞表共有的詞匯達(dá)310個(gè),其中有33個(gè)在 UWL中無分級(jí)值,故 UWL共統(tǒng)計(jì)277個(gè)分級(jí)值。
[1]Coxhead,A.A new academic word list[J].TESOLQuarterly,2000,34(2):213-238.
[2]Coxhead,A.The academic word list 10 years on:Research and teaching implications[J].TESOLQuarterly,2011,45(2):355-362.
[3]Durrant,P.Discipline and level specificity in university students’written vocabulary[J].Applied Linguistics,2014,35(3):328-356.
[4]Eldridge,J.No,there isn’t an“academic vocabulary”,but...:A reader responds to K.Hyland and P.Tse’s“Is there an‘a(chǎn)cademic vocabulary’?”[J].TESOLQuarterly,2008,42(1):109-113.
[5]Fitzpatrick,T.Word association patterns:Unpacking the assumptions[J].International Journal of Applied Linguistics,2007,17(3):319-331.
[6]Gardner,D.Validating the construct of word in applied corpus-based vocabulary research:A critical survey [J].Applied Linguistics,2007,28(2):241-265.
[7]Gardner,D.&M.Davies.A new academic vocabulary list[J].Applied Linguistics,2014,35(3):305-327.
[8]Gries,S.T.Dispersions and adjusted frequencies in corpora[J].International Journal of Corpus Linguistics,2008,13(4):403-437.
[9]Hsu,W.A businessword list for prospective EFL business postgraduates[J].Asian ESP Journal,2011,7(4):63-99.
[10]Hyland,K.&P.Tse.Is there an“academic vocabulary”?[J].TESOLQuarterly,2007,41(2):235-253.
[11]Julliand,A.&E.Chang-Rodriguez.Frequency Dictionary of Spanish Words[Z].The Hague:Mouton de Gruyter,1964.
[12]Konstantakis,N.Creating a business word list for teaching business English[J].ELIA,2007,7:79-102.
[13]Kwary,D.A.Oxford Learner’s Dictionary of Academic English.2014[J].Lexicography:Journal of ASIALEX,2014,1(2):189-192.
[14]Laufer,B.Lexical frequency profiles[A].In C.A.Chapelle(ed.).The Encyclopedia of Applied Linguistics [C].Oxford:Wiley-Blackwell,2013.
[15]Laufer,B.&P.Nation.Vocabulary size and use:Lexical richness in L2 written production[J].Applied Linguistics,1995,16(3):307-322.
[16]Lea,D.,V.Bull,S.Holloway&R.Duncan.Oxford Learner’s Dictionary of Academic English[Z].Oxford:Oxford University Press,2014.
[17]Meara,P.Lexical frequency profiles:A Monte Carlo analysis[J].Applied Linguistics,2005,26(1):32-47.
[18]Milton,J.Measuring Second Language Vocabulary Acquisition[M].Bristol:Multilingual Matters,2009.
[19]Nation,I.S.P.Testing and teaching vocabulary[J].Guidelines,1983,5:12-25.
[20]Nation,I.S.P.Learning Vocabulary in Another Language[M].New York:Cambridge University Press,2001.
[21]Neufeld,S.,N.Hancio?glu&J.Eldridge.Beware the range in RANGE,and the academic in AWL[J].System,2011,39(4):533-538.
[22]Paquot,M.Academic Vocabulary in Learner Writing:From Extraction to Analysis[M].London:Continuum,2010.
[23]Schmitt,N.Researching Vocabulary:A Vocabulary Research Manual[M].Hampshire:Palgrave Macmillan,2010.
[24]Schmitt,N.&C.B.Zimmerman.Derivative word forms:What do learners know?[J].TESOLQuarterly,2002,36(2):145-171.
[25]Schmitt,N.,D.Schmitt&C.Clapham.Developing and exploring the behaviour of two new versions of the Vocabulary Levels Test[J].Language Testing,2001,18(1):55-88.
[26]Webb,S.A.&Y.Sasao.New directions in vocabulary testing[J].RELC Journal,2013,44(3):263-277.
[27]West,M.AGeneral Service List of English Words[Z].London:Longman,1953.
[28]Xue,G.&I.S.P.Nation.A university word list[J].Language Learning and Communication,1984,3(2):215-229.
[29]吳瑾,王同順.Coxhead“學(xué)術(shù)詞匯表”的適用性研究[J].國外外語教學(xué),2007,(2):28-33.
A Comparative Study of General Academ ic Word Lists:Criteria ofWord Selection,List Evaluation and Rank Ordering
YOU Jin-gan,HE Jia-ning
(1.Jinshan College,F(xiàn)ujian Agriculture and Forestry University,F(xiàn)uzhou 350002,China;2.Schoolof English for International Business,Guangdong University of Foreign Studies,Guangzhou 510420,China)
This paper com pares three genera l academ ic word lists(GAWLs)to discover their de fects in the criteria of word selection,listevaluation and rank ordering.The findings are that1)the criteria ofword selection involve the frequency,range and dispersion of vocabulary,but there is room for im provement in the statisticalmeasures and threshold settings;2)coverage is commonly used as the criteria of listevaluation,which,however,fails to reveal the fact thatGAWLs om it some academ ic words,and include technicalwords and low-frequency words;3)word fam ilies in GAWLs are rank-ordered by frequency,but this practice is flawed in that the ranks are inconsistentamong GAWLs,and members of the same word fam ily may differ considerably in the distribution pattern.Meanwhile,we discuss theoretical issues such as vocabulary classification,Common Core of Academ ic Vocabulary and Lexical Frequency Profile,in order to develop more reasonable criteria ofword selection,list evaluation and rank ordering.
generalacadem ic word list;criteria ofword selection;criteria of listevaluation;criteria of rank ordering;lim itations
H319
A
1002-2643(2016)06-0050-09
10.16482/j.sdwy37-1026.2016-06-007
2016-05-31
本文為國家社會(huì)科學(xué)基金項(xiàng)目“商務(wù)英語學(xué)習(xí)詞典研編”(11BYY055)、福建省中青年教師教育科研社科項(xiàng)目“基于語料庫的商務(wù)英語詞表研制”(JAS150836)的部分成果。
1.游金干(1986-),男,福建福清人,講師。研究方向:語料庫語言學(xué)、二語詞匯習(xí)得。
2.何家寧(1965-),男,廣西崇左人,教授。研究方向:詞典學(xué)。