趙 瑋
(北京語(yǔ)言大學(xué)對(duì)外漢語(yǔ)研究中心,北京100083)
中介語(yǔ)語(yǔ)料庫(kù)詞匯錯(cuò)誤的標(biāo)注問(wèn)題及改進(jìn)建議
——以“HSK動(dòng)態(tài)作文語(yǔ)料庫(kù)”為例*
趙 瑋
(北京語(yǔ)言大學(xué)對(duì)外漢語(yǔ)研究中心,北京100083)
文章以“HSK動(dòng)態(tài)作文語(yǔ)料庫(kù)”為例,從錯(cuò)誤識(shí)別和錯(cuò)誤修改兩個(gè)角度,考察了中介語(yǔ)語(yǔ)料庫(kù)詞匯錯(cuò)誤標(biāo)注中的問(wèn)題,發(fā)現(xiàn)詞匯錯(cuò)誤識(shí)別存在漏標(biāo)、多標(biāo)和誤標(biāo)問(wèn)題。詞匯錯(cuò)誤修改存在修改后表達(dá)仍不正確、修改不符合作者的原意、改動(dòng)過(guò)大和語(yǔ)言單位層級(jí)標(biāo)注不當(dāng)?shù)葐?wèn)題,經(jīng)量化統(tǒng)計(jì)發(fā)現(xiàn),各類問(wèn)題中,以漏標(biāo)問(wèn)題最為嚴(yán)重。在此基礎(chǔ)上,文章分析了詞匯錯(cuò)誤標(biāo)注問(wèn)題出現(xiàn)的原因,并提出了4點(diǎn)建議。
詞匯錯(cuò)誤標(biāo)注;中介語(yǔ)語(yǔ)料庫(kù);HSK動(dòng)態(tài)作文語(yǔ)料庫(kù)
中介語(yǔ)語(yǔ)料庫(kù)是“以二語(yǔ)習(xí)得和外語(yǔ)教學(xué)研究為目的,按照明確的設(shè)計(jì)標(biāo)準(zhǔn),收集起來(lái)的二語(yǔ)和外語(yǔ)學(xué)習(xí)者真實(shí)語(yǔ)篇材料的集合”①筆者譯,下引英文文獻(xiàn)同。(Granger,2002:7)②Granger,S.A bird’s-eye view of learner corpus research[A].Computer Learner corpora,Second Language Acquisition and Foreign Language Teaching(S.Granger,J.Hung and S.Petch-Tyson)[C].Amsterdam:John Benjamins,2002.。語(yǔ)料的真實(shí)性,語(yǔ)篇材料所提供語(yǔ)境的完備性,以及計(jì)算機(jī)語(yǔ)料庫(kù)特有的極大的文本容量和便捷的檢索工具,使中介語(yǔ)語(yǔ)料庫(kù)成為語(yǔ)言習(xí)得與教學(xué)研究的重要資源,而標(biāo)注則賦予了這一資源更大的價(jià)值。標(biāo)注是“為口頭和(或)書面電子語(yǔ)料庫(kù)添加解釋性語(yǔ)言信息的活動(dòng)”,同時(shí),也可以指稱“這一過(guò)程的最終產(chǎn)品”(Leech 1997:2)①Leech,G.Introducing corpus annotation[A].Corpus annotation:Linguistic information from computer text corpora(R.Garaside,L.Geoffrey and T.Mc Enery)[C].London:Longman,1997.,而旨在反映“學(xué)習(xí)者語(yǔ)言異常性(Granger,2002:18)②Granger,S.A bird’s-eye view of learner corpus research[A].Computer Learner corpora,Second Language Acquisition and Foreign Language Teaching(S.Granger,J.Hung and S.Petch-Tyson)[C].Amsterdam:John Benjamins,2002.”的錯(cuò)誤標(biāo)注(error annotation)不僅是中介語(yǔ)語(yǔ)料庫(kù)特有的標(biāo)注類型,也是其最重要的標(biāo)注類型之一(Wible等,2001)③Wible,D.,Kuo,C-H.,Chien,F(xiàn)-Y.,Liu,A.,and Tsao,N-L.A web-based EFL writing environment:Integrating information for learners,teachers,and researchers[J].Computers and education,2001,(37)。一旦錯(cuò)誤被完全標(biāo)注,憑借檢索工具,研究者不僅可以大大提升誤例提取和錯(cuò)誤頻次統(tǒng)計(jì)的速度,還可以更全面更系統(tǒng)地觀察錯(cuò)誤分布規(guī)律。正如周文華、肖奚強(qiáng)(2011:2)④周文華,肖奚強(qiáng).首屆漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)建設(shè)與應(yīng)用國(guó)際學(xué)術(shù)討論會(huì)綜述[A].首屆漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)建設(shè)與應(yīng)用國(guó)際學(xué)術(shù)討論會(huì)論文選集(肖奚強(qiáng),張旺熹主編)[C].北京:世界圖書出版公司北京公司,2011.所指出的“中介語(yǔ)語(yǔ)料庫(kù)必須進(jìn)行錯(cuò)誤標(biāo)注,這是由中介語(yǔ)的特點(diǎn)決定的,也是學(xué)者們研究的需要”。
錯(cuò)誤標(biāo)注雖對(duì)中介語(yǔ)研究有諸多益處,但若是標(biāo)注質(zhì)量不過(guò)關(guān),語(yǔ)料庫(kù)的功能與使用價(jià)值也會(huì)受到影響(張寶林,2013)⑤張寶林.關(guān)于通用型漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)標(biāo)注模式的再認(rèn)識(shí)[J].世界漢語(yǔ)教學(xué),2013,(1).,標(biāo)注中的錯(cuò)誤會(huì)降低檢索結(jié)果的準(zhǔn)確性,進(jìn)而對(duì)研究結(jié)論的可靠性產(chǎn)生影響。以往研究已注意到了漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)中錯(cuò)誤標(biāo)注的一些問(wèn)題,王潔、宋柔(2008)⑥王潔,宋柔.HSK動(dòng)態(tài)作文語(yǔ)料庫(kù)錯(cuò)誤標(biāo)注方法研究[A].第四屆全國(guó)學(xué)生計(jì)算語(yǔ)言學(xué)研討會(huì)會(huì)議論文集[C]. 2008.探討錯(cuò)誤標(biāo)注方法時(shí),提出“HSK動(dòng)態(tài)作文語(yǔ)料庫(kù)”的人工標(biāo)注方法存在標(biāo)注結(jié)果缺乏一致性、誤歸類和遺漏、標(biāo)記不合規(guī)范和標(biāo)記不合理等問(wèn)題。張寶林(2010)⑦張寶林.漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)建設(shè)的現(xiàn)狀與對(duì)策[J].語(yǔ)言文字應(yīng)用,2010,(3).、任海波(2010)⑧任海波.關(guān)于中介語(yǔ)語(yǔ)料庫(kù)建設(shè)的幾點(diǎn)思考[J].語(yǔ)言教學(xué)與研究,2010,(6).、崔希亮、張寶林(2011)⑨崔希亮,張寶林.全球漢語(yǔ)學(xué)習(xí)者語(yǔ)料庫(kù)建設(shè)方案[J].語(yǔ)言文字應(yīng)用,2011,(2).探討現(xiàn)有中介語(yǔ)語(yǔ)料庫(kù)存在的不足時(shí),提到了錯(cuò)誤標(biāo)注缺乏一致性、標(biāo)注質(zhì)量有待提高等問(wèn)題。張寶林(2013)○10張寶林.關(guān)于通用型漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)標(biāo)注模式的再認(rèn)識(shí)[J].世界漢語(yǔ)教學(xué),2013,(1).專門探討了通用型中介語(yǔ)語(yǔ)料庫(kù)的標(biāo)注模式,詳細(xì)論述了錯(cuò)誤標(biāo)注的歸類問(wèn)題。肖奚強(qiáng)、周文華(2014)○11肖奚強(qiáng),周文華.漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)標(biāo)注的全面性及類別問(wèn)題[J].世界漢語(yǔ)教學(xué),2014,(3).指出標(biāo)注的準(zhǔn)確度涉及標(biāo)注集的準(zhǔn)確度,以及標(biāo)注操作時(shí)的準(zhǔn)確度兩方面問(wèn)題。以上研究均是針對(duì)錯(cuò)誤標(biāo)注的共通性問(wèn)題進(jìn)行的討論,但錯(cuò)誤標(biāo)注涉及字、詞、句、篇等多個(gè)層級(jí)。不同層級(jí)的錯(cuò)誤標(biāo)注存在哪些具體問(wèn)題,哪類問(wèn)題更嚴(yán)重,出現(xiàn)這些問(wèn)題的原因是什么,如何更有效地解決?這些問(wèn)題還有待我們進(jìn)一步的研究。
由于詞匯錯(cuò)誤也是最常見(jiàn)的錯(cuò)誤類型(Gass&Selinker,2008/2011:397)○12Gass,S.and Selinker,L.2008.Second Language Acquisition:An Introductory Course(3rd Edition)(《第二語(yǔ)言習(xí)得》(第3版))(趙楊譯)[M].北京:北京大學(xué)出版社,2011.,涉及的錯(cuò)誤數(shù)量更多,且與其他錯(cuò)誤類型相比,詞匯錯(cuò)誤的識(shí)別與修改更缺少規(guī)律性,標(biāo)注質(zhì)量更多地取決于標(biāo)注者的語(yǔ)感和語(yǔ)文水平,更需要進(jìn)行系統(tǒng)研究,以制定更細(xì)致的標(biāo)注規(guī)則,將標(biāo)注者主觀判定對(duì)語(yǔ)料庫(kù)客觀性的影響最小化,因此本文將從詞匯錯(cuò)誤標(biāo)注入手,考察漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)中的標(biāo)注問(wèn)題。
本文以“HSK動(dòng)態(tài)作文語(yǔ)料庫(kù)”中的詞匯錯(cuò)誤標(biāo)注為觀察對(duì)象,因?yàn)椤癏SK動(dòng)態(tài)作文語(yǔ)料庫(kù)”是首個(gè)也是唯一一個(gè)對(duì)字、詞、句、篇等各類錯(cuò)誤現(xiàn)象進(jìn)行窮盡性標(biāo)注并向公眾開(kāi)放的漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù),該語(yǔ)料庫(kù)不僅是學(xué)者進(jìn)行漢語(yǔ)作為第二語(yǔ)言習(xí)得與教學(xué)研究的重要資源,其制定的標(biāo)注規(guī)則也對(duì)其他漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)的標(biāo)注產(chǎn)生了較大影響(周文華、肖奚強(qiáng),2011:2)①周文華,肖奚強(qiáng).首屆漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)建設(shè)與應(yīng)用國(guó)際學(xué)術(shù)討論會(huì)綜述[A].首屆漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)建設(shè)與應(yīng)用國(guó)際學(xué)術(shù)討論會(huì)論文選集(肖奚強(qiáng),張旺熹主編)[C].北京:世界圖書出版公司北京公司,2011.,標(biāo)注規(guī)則具有代表性。
為了更深入地觀察“HSK動(dòng)態(tài)作文語(yǔ)料庫(kù)”詞匯錯(cuò)誤的標(biāo)注情況,本文從材料出發(fā),采用分層隨機(jī)抽樣的方法提取一定數(shù)量的作文,通過(guò)對(duì)這些作文中詞匯錯(cuò)誤標(biāo)注的分析,歸納標(biāo)注中存在的問(wèn)題。具體操作分三步進(jìn)行:
1.按照國(guó)別為作文分組,確定各組擬提取的作文數(shù)量。除中國(guó)大陸和香港地區(qū)外,“HSK動(dòng)態(tài)作文語(yǔ)料庫(kù)”共收錄了99個(gè)國(guó)家的學(xué)生作文,但作文數(shù)量超過(guò)100篇的國(guó)家僅有11個(gè),這11國(guó)的作文數(shù)量占語(yǔ)料庫(kù)作文總數(shù)的91%,基本可以代表語(yǔ)料庫(kù)的錯(cuò)誤標(biāo)注情況。我們依據(jù)每1個(gè)百分點(diǎn)提取1篇作文的數(shù)量標(biāo)準(zhǔn),按照11國(guó)作文篇數(shù)在語(yǔ)料庫(kù)作文總篇數(shù)中所占比重②作文數(shù)量超過(guò)100篇的國(guó)家的作文篇數(shù)及其所占比重分別為:韓國(guó),4171篇,36.1%;日本,3211篇,27.8%;新加坡,843篇,7.3%;印度尼西亞,739篇,6.4%;馬來(lái)西亞,422篇,3.6%;泰國(guó),374篇,3.2%;越南,221篇,2.0%;緬甸,202篇,1.7%;澳大利亞,123篇,1.0%;美國(guó),118篇,1.0%;英國(guó),108篇,0.9%。11個(gè)國(guó)家作文數(shù)量總計(jì)10523篇,占語(yǔ)料庫(kù)作文總數(shù)的91%。,確定了各組擬提取的作文數(shù)量,分別為韓國(guó)36篇,日本28篇,新加坡7篇,印度尼西亞6篇,馬來(lái)西亞4篇,泰國(guó)3篇,越南2篇,緬甸2篇,澳大利亞、美國(guó)、英國(guó)各1篇,總計(jì)91篇作文。
2.按照各組不同題目下作文篇數(shù)在該組作文總篇數(shù)中所占比重,及各題目下作文分?jǐn)?shù)的分布情況,提取出作為考察對(duì)象的91篇作文。例如,題目為《我看流行歌曲》的韓國(guó)學(xué)生作文共計(jì)500篇,占韓國(guó)學(xué)生作文總數(shù)的12%,按照這一比重,在本研究擬提取的36篇韓國(guó)學(xué)生作文中,該題目的作文占4篇。該題目下,分?jǐn)?shù)為65分、70分、60分和55分的作文篇數(shù)最多,我們?cè)谶@4個(gè)分?jǐn)?shù)下分別隨機(jī)提取1篇作文,最終得到作為考察對(duì)象的4篇作文。
3.按照網(wǎng)上公布的《“HSK動(dòng)態(tài)作文語(yǔ)料庫(kù)”語(yǔ)料標(biāo)注及代碼說(shuō)明》③“HSK動(dòng)態(tài)作文語(yǔ)料庫(kù)”語(yǔ)料標(biāo)注及代碼說(shuō)明[OL].http://202.112.195.192:8060/hsk/help2.asp.(以下簡(jiǎn)稱《標(biāo)注說(shuō)明》)對(duì)91篇作文的詞匯錯(cuò)誤進(jìn)行重新標(biāo)注,并與原版標(biāo)注進(jìn)行對(duì)比,集中觀察詞匯錯(cuò)誤標(biāo)注中的問(wèn)題。
“HSK動(dòng)態(tài)作文語(yǔ)料庫(kù)”標(biāo)注的詞匯錯(cuò)誤分為五類,分別為:錯(cuò)詞(標(biāo)注代碼為{CC})、多詞(標(biāo)注代碼為{CD})、缺詞(標(biāo)注代碼為{CQ})、離合詞錯(cuò)誤(標(biāo)注代碼為{CLH})及使用外文詞(標(biāo)注代碼為{W})④依據(jù)《標(biāo)注說(shuō)明》,“錯(cuò)詞標(biāo)記{CC}”用于標(biāo)注學(xué)習(xí)者用錯(cuò)了的詞和成語(yǔ);“多詞標(biāo)記{CD}”用于標(biāo)注作文中不應(yīng)有而有的詞;“缺詞標(biāo)記{CQ}”用于標(biāo)注作文中應(yīng)有而沒(méi)有的詞;“離合詞錯(cuò)誤標(biāo)記{CLH}”用于標(biāo)注和離合詞相關(guān)的錯(cuò)誤;“外文詞標(biāo)記{W}”用于標(biāo)注以外文詞代替漢語(yǔ)詞的錯(cuò)誤。。其中,離合詞錯(cuò)誤和使用外文詞類錯(cuò)誤在語(yǔ)料庫(kù)中分布較少⑤“HSK動(dòng)態(tài)作文語(yǔ)料庫(kù)”中,離合詞錯(cuò)誤共計(jì)86例,使用外文詞類錯(cuò)誤共計(jì)16例。,本文所考察的作文中也未出現(xiàn),因此,本文主要統(tǒng)計(jì)和分析了語(yǔ)料庫(kù)中的錯(cuò)詞、多詞、缺詞類標(biāo)注。
通過(guò)對(duì)語(yǔ)料的分析,我們發(fā)現(xiàn)語(yǔ)料庫(kù)的詞匯錯(cuò)誤標(biāo)注問(wèn)題集中在錯(cuò)誤識(shí)別和錯(cuò)誤修改兩個(gè)方面,下文將從這兩個(gè)角度出發(fā),描寫詞匯錯(cuò)誤標(biāo)注問(wèn)題的主要表現(xiàn),總結(jié)各類問(wèn)題的分布范圍,分析問(wèn)題出現(xiàn)的原因,并在此基礎(chǔ)上提出改進(jìn)建議,希望能夠?yàn)闈h語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)的標(biāo)注工作提供些許參考。
(一)詞匯錯(cuò)誤識(shí)別方面的問(wèn)題
識(shí)別錯(cuò)誤即判斷語(yǔ)料中是否存在錯(cuò)誤,若是存在錯(cuò)誤,還需辨別它屬于哪類詞匯錯(cuò)誤。詞匯錯(cuò)誤識(shí)別方面的問(wèn)題分為3類:
第一,多標(biāo)
語(yǔ)料中的詞語(yǔ)使用是正確的,但標(biāo)注者認(rèn)為學(xué)習(xí)者誤用了該詞語(yǔ),在標(biāo)注上表現(xiàn)為在正確用例上附加錯(cuò)誤標(biāo)記,本文稱之為“多標(biāo)”,如:
1)但也要為{CC1為了}環(huán)境著想,所以現(xiàn)在科學(xué)家{CD們}正在找不損壞環(huán)境又可以提高生產(chǎn)量的藥物。①文中例句均取自“HSK動(dòng)態(tài)作文語(yǔ)料庫(kù)”。為了更清楚地展示詞匯錯(cuò)誤標(biāo)注情況,文中僅保留了語(yǔ)例中詞匯錯(cuò)誤的標(biāo)記符號(hào),刪去了其中的語(yǔ)篇、句子、漢字和標(biāo)點(diǎn)錯(cuò)誤標(biāo)記符號(hào)。本文使用“_”標(biāo)記語(yǔ)例中存在標(biāo)注問(wèn)題的部分。有的誤例包含不止一個(gè)標(biāo)注問(wèn)題,如例1)中,“找”和“損壞”的使用存在錯(cuò)誤,應(yīng)分別改為“尋找”和“破壞”,標(biāo)注者都未標(biāo)注,但為了凸顯當(dāng)前的論述主題,僅用下劃線標(biāo)示了誤例中與論述主題相關(guān)的標(biāo)注問(wèn)題,下同。
該例中,標(biāo)注者認(rèn)為“們”是多余的詞,但這里使用“科學(xué)家們”是可以接受的,不應(yīng)當(dāng)算作錯(cuò)誤。有時(shí),標(biāo)注者還會(huì)將原本正確的詞語(yǔ)改成接受度較低的詞語(yǔ),甚至將原本正確的句子改為無(wú)法接受的句子,如:
2)并且,吸煙者的肺癌發(fā)生機(jī)率{CC2率}比非吸煙者高得多。3)所以抽煙{CD是}給別人也添了麻煩的事情。
例2)中,標(biāo)注者認(rèn)為“率”應(yīng)改為“機(jī)率”,但事實(shí)上“發(fā)生率”的接受程度更高,北京大學(xué)CCL語(yǔ)料庫(kù)中,“發(fā)生率”共出現(xiàn)269次,而“發(fā)生機(jī)率”僅出現(xiàn)5次,顯然學(xué)習(xí)者的詞語(yǔ)使用應(yīng)判定為正確。例3)中,標(biāo)注者認(rèn)為“是”是多余的詞,將正確的句子改成了錯(cuò)句。
第二,漏標(biāo)
語(yǔ)料中存在詞匯錯(cuò)誤,但標(biāo)注者未能識(shí)別出來(lái),在標(biāo)注上表現(xiàn)為未在詞匯錯(cuò)誤處附加錯(cuò)誤標(biāo)記,本文稱之為“漏標(biāo)”。漏標(biāo)問(wèn)題分布廣泛,“HSK動(dòng)態(tài)作文語(yǔ)料庫(kù)”用錯(cuò)詞標(biāo)記標(biāo)注了4類錯(cuò)誤,分別為:把詞的構(gòu)成成分寫錯(cuò)順序,該用甲詞而用乙詞,生造詞以及詞語(yǔ)搭配錯(cuò)誤。這4類錯(cuò)誤均存在漏標(biāo),如:
4)我認(rèn)為應(yīng)該除消饑餓的人民的生命危機(jī),然后談這個(gè)綠色食品的問(wèn)題。(消除)
5)比如說(shuō),制造一些無(wú)毒性的化肥來(lái)灌溉農(nóng)田,養(yǎng)一些動(dòng)物來(lái)防止害蟲的侵犯等等。(侵害)
6)聽(tīng)說(shuō)古代有一塊石頭上發(fā)現(xiàn)了這樣的句子“現(xiàn)在的年輕人真沒(méi)有理禮。”(禮貌)
7)通過(guò)困難以后,你就能得到人生的快樂(lè)。(克服)
此外,“多詞”、“缺詞”類錯(cuò)誤也存在漏標(biāo)現(xiàn)象,如:
8)所以在全世界的人們一定要多吃“綠色食品”。(“在”多余)
9)可能對(duì)不用挨餓的人來(lái)說(shuō),只活沒(méi)什么用的。(缺少“著”)
第三,誤標(biāo)
標(biāo)注者發(fā)現(xiàn)了詞語(yǔ)使用錯(cuò)誤,但對(duì)錯(cuò)誤的類屬判斷不準(zhǔn)確,即不清楚學(xué)習(xí)者的錯(cuò)誤到底是什么,在標(biāo)注上表現(xiàn)為將甲類詞匯錯(cuò)誤標(biāo)注為乙類詞匯錯(cuò)誤,如例10)、11),或是將兩類詞匯錯(cuò)誤合標(biāo)在一起,如例12)、13)。本文將該類錯(cuò)誤標(biāo)注問(wèn)題稱為“誤標(biāo)”。
10)那個(gè)孩子是個(gè)弱智{CD者}。
11)這個(gè)成功不是得了名譽(yù)而收到很多錢,是成為{CC當(dāng)為}一個(gè)好人{(lán)CD家}。
例10)、11)均是將詞語(yǔ)替換錯(cuò)誤標(biāo)注為了詞語(yǔ)多余。例10)中,“弱智者”是學(xué)習(xí)者類推漢語(yǔ)表人名詞的構(gòu)詞規(guī)則自造出來(lái)的詞語(yǔ),按照《標(biāo)注說(shuō)明》的規(guī)定,自造詞應(yīng)標(biāo)注為錯(cuò)詞,因此,學(xué)習(xí)者的錯(cuò)誤并不是“者”的多余,而是“弱智者”的錯(cuò)用。例11)出自韓國(guó)學(xué)生的作文,標(biāo)注者認(rèn)為學(xué)習(xí)者的錯(cuò)誤在于多用了“家”這個(gè)詞,事實(shí)上,“人家”和“人”是韓語(yǔ)背景學(xué)習(xí)者極易混淆的一組詞語(yǔ)(申旼京,2011:17)②申旼京.韓語(yǔ)背景學(xué)習(xí)者漢語(yǔ)詞語(yǔ)混淆的母語(yǔ)影響因素研究[D].北京語(yǔ)言大學(xué)博士學(xué)位論文,2011.,學(xué)習(xí)者當(dāng)用“人”時(shí),誤用了“人家”的可能性更大。
12)那時(shí)候發(fā)生一件事{CC一事件}。
13)孩子們都是{CC從}上帝賜{CC借}給我們的。
例12)涉及兩個(gè)錯(cuò)誤,一是誤用“事件”,二是缺少量詞,但現(xiàn)有標(biāo)注直接將“一事件”替換為“一件事”。
例(13)中,“是”與“從”之間毫無(wú)關(guān)聯(lián),將之判定為詞語(yǔ)替換錯(cuò)誤并不妥當(dāng),實(shí)際上該處包含兩類錯(cuò)誤:“是……的”句錯(cuò)誤和介詞“從”的多余。
(二)詞匯錯(cuò)誤修改方面的問(wèn)題
修改錯(cuò)誤,就是將學(xué)習(xí)者用錯(cuò)的詞語(yǔ)改成正確的。詞匯錯(cuò)誤修改方面的問(wèn)題主要集中在4個(gè)方面:
1.修改后表達(dá)仍不正確
有些詞語(yǔ)使用錯(cuò)誤,經(jīng)過(guò)標(biāo)注者的修改,仍是錯(cuò)的,如:
14)所以可說(shuō)是因?yàn)橐呀?jīng)達(dá)到了信息{CC信訊}的時(shí)代,他自己覺(jué)得年紀(jì)大的人,一定需要適合{CC合適}新媒體{CC道具}。
15)隨著經(jīng)濟(jì)迅速發(fā)展{CC發(fā)達(dá)},而且生活條件越來(lái)越高{CC1提高},人們漸漸地重視綠色食品。
“合適”和“適合”是學(xué)習(xí)者經(jīng)?;煊玫囊唤M詞語(yǔ),例14)中,標(biāo)注者見(jiàn)到“合適”的誤用,可能習(xí)慣性地將之改為“適合”,但“適合”用在這里并不恰當(dāng),作者想要表達(dá)的不是年紀(jì)大的人是否符合新媒體的要求,而是建議老年人主動(dòng)去接觸新媒體,應(yīng)當(dāng)改為“適應(yīng)”。例15)中,標(biāo)注者僅注意到“越來(lái)越”不能與補(bǔ)充式動(dòng)詞搭配,卻沒(méi)有注意到“生活條件”不能與“高”搭配,應(yīng)當(dāng)將“提高”改為“好”。
2.標(biāo)注者的修改不符合作者的原意
有些誤例,雖然修改后句子通順了,但標(biāo)注者的修改不符合作者的表達(dá)意圖,如:
16)我就想起了我們家里人{(lán)CC家屬人}第一次去中國(guó)的時(shí)候了。
17)據(jù)統(tǒng)計(jì)數(shù)據(jù)來(lái)看,每年在世界{CQ上}生產(chǎn)的農(nóng)作物和其它的食品(包括海產(chǎn)品)的總量大大滿足和解決{CQ了}世界總?cè)丝诘某燥枂?wèn)題。
例16)中,聯(lián)系后文內(nèi)容,可以看出作者和他的父母一起到的中國(guó),而說(shuō)“家里人”時(shí),是不包含說(shuō)話人自己的,應(yīng)當(dāng)將“家屬人”改為“一家人”;例17)中,作者后文談到由于分配不均,很多人還在挨餓,這說(shuō)明作者想要表達(dá)的是世界上的食物總量客觀上“能夠”解決饑餓問(wèn)題,并不是該問(wèn)題已經(jīng)得到了解決,所以添加助詞“了”不符合作者的原意。
3.改動(dòng)過(guò)大
胡曉清、許小星、毛嘉賓(2011)①胡曉清,許小星,毛嘉賓.韓國(guó)留學(xué)生漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)的標(biāo)注研究[A].首屆漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)建設(shè)與應(yīng)用國(guó)際學(xué)術(shù)討論會(huì)論文選集(肖奚強(qiáng),張旺熹主編)[C].北京:世界圖書出版公司北京公司,2011.提出糾正錯(cuò)誤應(yīng)遵循最簡(jiǎn)化原則,即“在不違背原句作者意愿的前提下,盡量不改變或少改動(dòng)原句結(jié)構(gòu)”,我們非常贊同這一觀點(diǎn)。本文所考察的作文中,一些標(biāo)注就存在改動(dòng)過(guò)大的問(wèn)題,如:
18)這{CQ個(gè)}問(wèn)題{CD真實(shí)}還是人們一直在爭(zhēng)論著的話題。
19)我沒(méi)考上{CC考不上}{CD了}我想上{CC愿意}的大學(xué)。
修改學(xué)習(xí)者的錯(cuò)誤時(shí),應(yīng)盡量避免刪除詞語(yǔ)、改變結(jié)構(gòu),例18)可以將“真實(shí)”改為“事實(shí)上”,例19)標(biāo)注者將“愿意”改成了短語(yǔ),如果將之改為“理想”,改動(dòng)更小。
4.語(yǔ)言單位層級(jí)標(biāo)注不當(dāng)
語(yǔ)言單位層級(jí)標(biāo)注不當(dāng)指標(biāo)注者修改詞語(yǔ)錯(cuò)誤時(shí)沒(méi)有以詞為單位進(jìn)行修改,該類問(wèn)題均出現(xiàn)在錯(cuò)詞標(biāo)注中,有些標(biāo)注以語(yǔ)素為單位,僅針對(duì)詞中不能獨(dú)立使用的語(yǔ)言成分進(jìn)行修改,如例20),有些標(biāo)注以短語(yǔ)為單位進(jìn)行修改,將使用正確的詞也納入了修改范圍,如例21):
20)為了我考{CQ上}好{CQ的}大學(xué),為了我的健康,爸爸、媽媽給我{CD的}那么多{CC大}的愛(ài)護(hù){CC情}和關(guān)心,我永遠(yuǎn)不會(huì)忘記的。
21)我們應(yīng)當(dāng)解決這兩個(gè){CC兩種}問(wèn)題,這樣一來(lái)世界會(huì)變得更幸福、更充滿活力。
語(yǔ)言單位層級(jí)標(biāo)注不當(dāng),就不能如實(shí)反映詞語(yǔ)的誤用情況。例20)中,學(xué)習(xí)者實(shí)際上混用了“愛(ài)護(hù)”和“愛(ài)情”,但現(xiàn)有標(biāo)注將之處理成了“護(hù)”和“情”的混用;例21)則是將量詞的混用處理為了數(shù)量短語(yǔ)的混用。
(三)詞匯錯(cuò)誤標(biāo)注問(wèn)題的分布情況
本文考察的91篇作文中的詞匯錯(cuò)誤標(biāo)注問(wèn)題的分布情況如表1所示:
表1 各類詞匯錯(cuò)誤標(biāo)注問(wèn)題分布情況表
注:ⅰ漏標(biāo)比重指漏標(biāo)的錯(cuò)誤數(shù)量在詞匯錯(cuò)誤總量中所占比例,
表1顯示,91篇作文中,多標(biāo)、誤標(biāo)及修改方面存在問(wèn)題的語(yǔ)例數(shù)量?jī)H占語(yǔ)料庫(kù)原有詞匯錯(cuò)誤標(biāo)注總量的8.6%①根據(jù)表1,多標(biāo)、誤標(biāo)、修改后表達(dá)仍不正確、標(biāo)注者的修改不符合作者的原意、改動(dòng)過(guò)大、語(yǔ)言單位層級(jí)標(biāo)注不當(dāng)幾類問(wèn)題在語(yǔ)料庫(kù)詞匯錯(cuò)誤標(biāo)注中所占比重分別為1.4%、1.4%、1.4%、0.6%、1.4%和2.4%,合計(jì)8.6%。,即標(biāo)注者標(biāo)注的絕大多數(shù)錯(cuò)誤都是可信的。但同時(shí),還有近40%的詞匯錯(cuò)誤存在漏標(biāo)問(wèn)題,其中,錯(cuò)詞現(xiàn)象的漏標(biāo)情況尤其嚴(yán)重,45%②語(yǔ)料庫(kù)標(biāo)注的錯(cuò)詞類錯(cuò)誤共計(jì)424例,漏標(biāo)345例,多標(biāo)2例,漏標(biāo)比重為45%。的替代錯(cuò)誤都沒(méi)有標(biāo)注出來(lái)。這一統(tǒng)計(jì)結(jié)果與李華(2013:65~73)③李華.計(jì)算機(jī)輔助下的漢語(yǔ)中介語(yǔ)混淆詞研究[D].北京語(yǔ)言大學(xué)博士學(xué)位論文,2013.進(jìn)行的誤用詞標(biāo)注可信性的統(tǒng)計(jì)結(jié)果相一致,該文提取了“HSK動(dòng)態(tài)作文語(yǔ)料庫(kù)”中“產(chǎn)生”、“經(jīng)驗(yàn)”、“深刻”、“把”4個(gè)詞語(yǔ)的全部語(yǔ)料,對(duì)目標(biāo)詞的不當(dāng)替代錯(cuò)誤進(jìn)行了重新標(biāo)注,發(fā)現(xiàn)四詞多標(biāo)數(shù)0—4例不等,錯(cuò)標(biāo)數(shù)④錯(cuò)標(biāo)數(shù)指“語(yǔ)料庫(kù)中該詞語(yǔ)用錯(cuò)了而且也標(biāo)注為誤用詞但當(dāng)用詞填錯(cuò)了的次數(shù)”(李華,2013:66),本文提到的“修改后表達(dá)仍不正確”、“標(biāo)注者的修改不符合作者的原意”等問(wèn)題涉及詞語(yǔ)的錯(cuò)標(biāo)。0~9例不等,漏標(biāo)數(shù)則遠(yuǎn)遠(yuǎn)高于多標(biāo)數(shù)、錯(cuò)標(biāo)數(shù),四詞漏標(biāo)比例⑤四詞的漏標(biāo)比例是筆者利用李華(2013)的數(shù)據(jù),按照本文的漏標(biāo)比例計(jì)算公式計(jì)算得出的。分別為:22.6%、32.9%、43.1%和59.6%,文章認(rèn)為“標(biāo)注者對(duì)誤用詞的實(shí)際找出率比較低”。盡管本文與李華(2013)的研究方法不同,本文采用的是隨機(jī)抽取作文進(jìn)行全篇標(biāo)注的方法,李華(2013)則是提取包含特定目標(biāo)詞的全部語(yǔ)例進(jìn)行有針對(duì)性的標(biāo)注,但兩項(xiàng)研究都顯示出:語(yǔ)料庫(kù)已有標(biāo)注的正確率較高,但漏標(biāo)問(wèn)題較為嚴(yán)重。
“目前語(yǔ)料庫(kù)研究都是以頻率或概率統(tǒng)計(jì)為導(dǎo)向的”(施春宏、張瑞朋,2013)⑥施春宏,張瑞朋.論中介語(yǔ)語(yǔ)料庫(kù)的平衡性問(wèn)題[J].語(yǔ)言文字應(yīng)用,2013,(2).,基于學(xué)習(xí)者語(yǔ)料庫(kù)的研究亦是如此,廣泛使用頻率數(shù)據(jù)是該類研究的顯著特點(diǎn)(Barlow,2012:335)⑦Barlow,M.2005.Computer-based Analyses of Learner Language[A].Analysing Learner Language(《分析學(xué)習(xí)者的語(yǔ)言》)(Ellis,R and Barkhuizen,G)[C].上海:上海外語(yǔ)教育出版社,2012.。如此之高的漏標(biāo)比例,必然會(huì)大大降低統(tǒng)計(jì)結(jié)果的準(zhǔn)確性,進(jìn)而影響研究者對(duì)錯(cuò)誤嚴(yán)重程度的判斷,因此,語(yǔ)料庫(kù)標(biāo)注必須對(duì)漏標(biāo)問(wèn)題加以重視。此外,多標(biāo)、誤標(biāo)及修改方面的4類問(wèn)題雖較少出現(xiàn),但也會(huì)在一定程度上影響到相關(guān)誤例的檢索和統(tǒng)計(jì),也應(yīng)盡量避免。
現(xiàn)階段,中介語(yǔ)語(yǔ)料庫(kù)的錯(cuò)誤標(biāo)注主要靠人工完成,這使得錯(cuò)誤標(biāo)注不可避免地帶有主觀性,標(biāo)注準(zhǔn)確與否也更多取決于標(biāo)注者的“語(yǔ)言文字水平、工作態(tài)度、精神狀態(tài)”(張寶林,2013)⑧張寶林.關(guān)于通用型漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)標(biāo)注模式的再認(rèn)識(shí)[J].世界漢語(yǔ)教學(xué),2013,(1).,可以說(shuō),詞匯錯(cuò)誤識(shí)別和修改中的諸多問(wèn)題很大程度上來(lái)源于此。具體來(lái)看,詞匯錯(cuò)誤識(shí)別和修改方面幾個(gè)問(wèn)題出現(xiàn)的原因主要有4個(gè):
(一)標(biāo)注者的詞匯學(xué)知識(shí)不夠扎實(shí)
標(biāo)注者的詞匯學(xué)知識(shí)不足,會(huì)影響詞匯錯(cuò)誤標(biāo)注的準(zhǔn)確性。以漏標(biāo)為例,一些誤例中的誤用詞和當(dāng)用詞是近義詞,這類錯(cuò)誤有時(shí)難以單憑直覺(jué)判斷對(duì)錯(cuò),且由于標(biāo)注者長(zhǎng)期面對(duì)學(xué)習(xí)者語(yǔ)料,已經(jīng)習(xí)慣了學(xué)習(xí)者的一些表達(dá)。這種情況下,可能會(huì)對(duì)某些錯(cuò)誤習(xí)焉不察,如果標(biāo)注者缺乏相應(yīng)的詞匯學(xué)知識(shí),對(duì)近義詞之間的細(xì)微差別不甚了解,不確定學(xué)習(xí)者的表達(dá)是否真的偏離了目的語(yǔ)時(shí),猶豫之下,可能會(huì)認(rèn)為學(xué)習(xí)者誤用的詞語(yǔ)也可以接受,從而產(chǎn)生誤判。如:
22)從書箱里拿出這本書之后{CC前}看了一下,沒(méi)發(fā)覺(jué)這本書有什么特別,只不過(guò)是一本普通的書籍……(書)
23)社會(huì)發(fā)展改變得太快的影響下,那問(wèn)題產(chǎn)生{CC惹[C]起}。(變化)
例22)中,“書籍”是集合名詞,不可與數(shù)量短語(yǔ)搭配,例(23)強(qiáng)調(diào)的是社會(huì)自身的變化,而“改變”強(qiáng)調(diào)外物致使事物發(fā)生變化,應(yīng)改為“變化”,標(biāo)注者都未標(biāo)出。我們還在語(yǔ)料中發(fā)現(xiàn),一些學(xué)習(xí)者混用“表示”和“表達(dá)”、“了解”和“理解”、“歡樂(lè)”和“快樂(lè)”、“互相”和“彼此”、“再”和“又”等近義詞的誤例也出現(xiàn)了漏標(biāo)現(xiàn)象,這都與標(biāo)注者的詞匯學(xué)知識(shí)不夠扎實(shí)有關(guān)。
此外,一些標(biāo)注存在的“語(yǔ)言單位層級(jí)標(biāo)注不當(dāng)”問(wèn)題,也是標(biāo)注者詞匯學(xué)知識(shí)不足,不能正確分辨詞匯單位造成的,下例中,標(biāo)注者就是誤將詞語(yǔ)“真是”和“真正”的混用標(biāo)注為了構(gòu)詞語(yǔ)素“是”和“正”的混用:
24)真是{CC正}豈有此理!
(二)標(biāo)注者對(duì)詞語(yǔ)出現(xiàn)的語(yǔ)境缺乏整體把握
標(biāo)注者識(shí)別詞匯錯(cuò)誤時(shí),有時(shí)不太關(guān)注詞語(yǔ)出現(xiàn)的語(yǔ)境,導(dǎo)致一些聯(lián)系上下文才能夠分辨出來(lái)的詞義不合錯(cuò)誤,以及需要對(duì)句子進(jìn)行整體觀察才能夠發(fā)現(xiàn)的搭配不當(dāng)①②張博(2008)提出詞語(yǔ)誤用分為兩種性質(zhì):詞義不合與搭配不當(dāng),詞義不合指誤用詞在意義上與語(yǔ)境不合,不符合說(shuō)話者實(shí)際所要表達(dá)的意思;搭配不當(dāng)指誤用詞在組合關(guān)系上不能與其前后的詞語(yǔ)搭配共現(xiàn)。問(wèn)題,出現(xiàn)了漏標(biāo),如:
25)不過(guò),這些禁煙條例始終是“頭病醫(yī)頭,腳痛醫(yī)腳”的做法,雖能治標(biāo)但不能治本。為了達(dá)到事半功倍的目標(biāo),政府的禁煙努力應(yīng)由教育做起。(效果)
26)“代溝”這個(gè)問(wèn)題,凡是有子女的家庭,都會(huì)發(fā)生,不論中外都是一樣的。(存在)
例25)中,單看“為了達(dá)到事半功倍的目標(biāo)”這個(gè)小句沒(méi)有任何問(wèn)題,但結(jié)合上下文,可以看出政府的目標(biāo)是“禁煙”,而不是“事半功倍”,這里的“目標(biāo)”應(yīng)當(dāng)改為“效果”。例26)則存在搭配錯(cuò)誤,“問(wèn)題”應(yīng)與“存在”搭配。
詞匯錯(cuò)誤修改方面的一些問(wèn)題,也源于標(biāo)注者沒(méi)有對(duì)詞語(yǔ)出現(xiàn)的語(yǔ)境進(jìn)行充分的分析。如上文中提到的例16)、17),標(biāo)注者修改時(shí)沒(méi)有關(guān)照上下文,所做改動(dòng)亦不符合作者的原意。
(三)標(biāo)注者對(duì)錯(cuò)誤根源不了解
標(biāo)注者不了解錯(cuò)誤根源,就有可能出現(xiàn)誤標(biāo)或改動(dòng)過(guò)大的問(wèn)題,如:
27)但有些人不喜歡流行歌曲,還有反對(duì)歌迷{CD人}的行為。
28)又為了報(bào)答{CC報(bào)}你們對(duì)我的恩情{CC恩慧},{CD愛(ài)情}我也盡力而為地{CC的}學(xué)習(xí)了。
例27)中的“歌迷人”是自造詞,應(yīng)標(biāo)注為錯(cuò)詞,標(biāo)注者可能不太清楚錯(cuò)誤原因,將之標(biāo)注為了“人”的多余。例(28)出自韓國(guó)學(xué)習(xí)者的作文,據(jù)付娜、申旼京、李華(2011)③付娜,申旼京,李華.韓語(yǔ)背景學(xué)習(xí)者“愛(ài)”類同素易混淆詞研究[J].云南師范大學(xué)學(xué)報(bào)(對(duì)外漢語(yǔ)教學(xué)與研究版),2011,(6).考察,由于韓語(yǔ)漢字詞“(愛(ài)情)”的意義大致對(duì)應(yīng)于漢語(yǔ)“愛(ài)情”和“愛(ài)”兩個(gè)詞,韓語(yǔ)背景學(xué)習(xí)者極易混淆兩詞,此例應(yīng)當(dāng)也是如此,作者想要表達(dá)的是父母對(duì)自己的“愛(ài)”,卻錯(cuò)用了“愛(ài)情”,標(biāo)注者不了解錯(cuò)誤根源,直接去掉“愛(ài)情”,改動(dòng)過(guò)大。
(四)標(biāo)注者的疏忽
一些標(biāo)注問(wèn)題是標(biāo)注者的疏忽所致,以漏標(biāo)為例:
29)所以,大部分的青少年為了解決自己的壓力,喜歡聽(tīng)流行歌曲。(緩解)
30)人在生活和工作中,絕對(duì)會(huì)碰到許多困難或挫折或失敗,這都是免不了的。(“或”多余)
31)……引起了一個(gè)非常嚴(yán)重問(wèn)題是:忽視了家庭,忽視了丈夫,孩子,養(yǎng)父母及親戚之間感情與精神的需要……(缺少“的”)
以上誤例中漏標(biāo)的詞語(yǔ)替代或贅余、遺漏錯(cuò)誤,有的單看誤用詞就能察覺(jué)出來(lái),有的對(duì)誤用詞前后的詞語(yǔ)稍加注意就能發(fā)現(xiàn),都是較易識(shí)別的詞匯錯(cuò)誤,顯然是標(biāo)注者的疏忽造成的漏標(biāo)。
提高錯(cuò)誤標(biāo)注質(zhì)量,需要盡可能地克服人工標(biāo)注的不利之處。對(duì)此,張寶林(2010)①?gòu)垖毩?漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)建設(shè)的現(xiàn)狀與對(duì)策[J].語(yǔ)言文字應(yīng)用,2010,(3).提出了4項(xiàng)措施,分別為:設(shè)計(jì)完善的、便于操作的標(biāo)注規(guī)范;實(shí)施有效的培訓(xùn);標(biāo)注后的審核修改以及程序的一致性檢驗(yàn)。這些措施是針對(duì)語(yǔ)料庫(kù)所有類型的錯(cuò)誤標(biāo)注提出的,也同樣適用于詞匯錯(cuò)誤標(biāo)注,對(duì)于解決詞匯錯(cuò)誤識(shí)別與修改中的各類問(wèn)題有很大幫助。此外,針對(duì)本文提到的幾個(gè)問(wèn)題,我們還有以下建議:
(一)邀請(qǐng)專家學(xué)者從不同領(lǐng)域進(jìn)行專項(xiàng)審核
在審核階段,可邀請(qǐng)不同領(lǐng)域的研究者對(duì)各類錯(cuò)誤進(jìn)行專項(xiàng)審核,如邀請(qǐng)語(yǔ)法研究者審核語(yǔ)法錯(cuò)誤的標(biāo)注,詞匯研究者審核詞匯錯(cuò)誤的標(biāo)注。不同領(lǐng)域的研究者對(duì)本領(lǐng)域的知識(shí)掌握得更為系統(tǒng),對(duì)相關(guān)錯(cuò)誤的錯(cuò)誤類型和致誤原因也更為熟悉,例如,接受過(guò)詞匯學(xué)專業(yè)訓(xùn)練的研究者一般會(huì)對(duì)詞語(yǔ)的不當(dāng)使用更為敏感,也更善于把握詞語(yǔ)之間的細(xì)微差別,這有利于審核者及時(shí)發(fā)現(xiàn)漏標(biāo)問(wèn)題,面對(duì)不當(dāng)修改,也更易于想到更恰當(dāng)?shù)漠?dāng)用詞,或是更妥當(dāng)?shù)男薷姆绞?。同時(shí),基于詞匯學(xué)專業(yè)知識(shí)的理性判斷還可以減少標(biāo)注者主觀性的影響,增強(qiáng)標(biāo)注的客觀性。因此,邀請(qǐng)?jiān)~匯學(xué)領(lǐng)域研究者對(duì)詞匯錯(cuò)誤的標(biāo)注進(jìn)行專項(xiàng)審核十分必要。
(二)適當(dāng)吸收雙語(yǔ)專家參與審核
Dagneaux等人發(fā)現(xiàn),本族語(yǔ)者與非本族語(yǔ)者合作標(biāo)注時(shí),標(biāo)注質(zhì)量和效率都有很大提高(Dagneaux,1998)②Dagneaux,E.,Denness,S.,Granger,S.Computer-aided error analysis[J].SYSTEM,1998,(26).,不過(guò),對(duì)于文本量極大的大中型中介語(yǔ)語(yǔ)料庫(kù)來(lái)說(shuō),不太可能要求所有語(yǔ)料都由中外研究者共同標(biāo)注完成。但是,語(yǔ)料庫(kù)建設(shè)者可以在審核階段,根據(jù)學(xué)習(xí)者的母語(yǔ)背景,適當(dāng)邀請(qǐng)一些精通漢語(yǔ)的非漢語(yǔ)本族語(yǔ)者,或精通外語(yǔ)的漢語(yǔ)者參與審核。由于很多詞語(yǔ)誤用都是由母語(yǔ)負(fù)遷移引起的,雙語(yǔ)者更清楚學(xué)習(xí)者為何會(huì)出現(xiàn)這些誤用,明白學(xué)習(xí)者原本想表達(dá)的是什么,這有利于他們給出更能反映錯(cuò)誤原因、更符合學(xué)習(xí)者原意的修改意見(jiàn)。
(三)針對(duì)標(biāo)注問(wèn)題細(xì)化標(biāo)注規(guī)范
De Cock、Granger(2005)③De Cock,S.and Granger,S.Computer Learner Corpora and Monolingual Learners'Dictionaries:the Perfect Match [J].Lexicographica,2005,(20).指出:“為了最小化標(biāo)注者的主觀性,增強(qiáng)標(biāo)注者之間的信度,必須要有連貫的錯(cuò)誤標(biāo)注系統(tǒng)和詳細(xì)的錯(cuò)誤標(biāo)注手冊(cè)。”張寶林(2010)④張寶林.漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)建設(shè)的現(xiàn)狀與對(duì)策[J].語(yǔ)言文字應(yīng)用,2010,(3).也提出,提高標(biāo)注質(zhì)量,需設(shè)計(jì)完善的標(biāo)注規(guī)范。但如何讓標(biāo)注規(guī)范更為完善?我們認(rèn)為,可以從已有的中介語(yǔ)語(yǔ)料庫(kù)錯(cuò)誤標(biāo)注入手,尋找標(biāo)注問(wèn)題,針對(duì)具體問(wèn)題細(xì)化標(biāo)注規(guī)范,避免類似問(wèn)題的再次出現(xiàn)。例如,針對(duì)詞匯錯(cuò)誤修改的第2、3類問(wèn)題,可以提出盡量符合作者原意和避免改動(dòng)過(guò)大的修改原則;針對(duì)語(yǔ)言單位層級(jí)標(biāo)注不當(dāng)?shù)膯?wèn)題,可以明確說(shuō)明修改詞匯錯(cuò)誤時(shí),絕不能僅修改詞的構(gòu)成成分,至于標(biāo)注者以短語(yǔ)為單位進(jìn)行修改的問(wèn)題,盡管按照《標(biāo)注說(shuō)明》的規(guī)定,標(biāo)注的范圍大于詞有時(shí)是可以允許的⑤《標(biāo)注說(shuō)明》規(guī)定:“錯(cuò)詞、多詞、成分贅余的一個(gè)標(biāo)注符號(hào)中可以包括兩個(gè)或兩個(gè)以上的詞”。,但根據(jù)《標(biāo)注說(shuō)明》的舉例“沒(méi)有{CC2重視做未經(jīng)}污染的食品就是綠色食品。(重視/做/未/經(jīng))”,可以看出,這種情況下,標(biāo)注符號(hào)的左側(cè)是單個(gè)詞語(yǔ),即需要將多個(gè)詞語(yǔ)替換為一個(gè)詞語(yǔ)時(shí),標(biāo)注符號(hào)內(nèi)才可以存在兩個(gè)以上的詞,標(biāo)注規(guī)范應(yīng)補(bǔ)充這一修改條件;此外,針對(duì)誤標(biāo)中用一個(gè)標(biāo)注符號(hào)標(biāo)注兩類錯(cuò)誤的問(wèn)題,標(biāo)注規(guī)范應(yīng)明確一錯(cuò)一標(biāo)的標(biāo)注原則。
(四)在確保準(zhǔn)確的前提下逐步擴(kuò)大標(biāo)注規(guī)模
錯(cuò)誤標(biāo)注本身就是一項(xiàng)費(fèi)時(shí)費(fèi)力的工作,中介語(yǔ)語(yǔ)料庫(kù)的錯(cuò)誤標(biāo)注需要標(biāo)注者以極大的細(xì)心和耐心,付出長(zhǎng)時(shí)間的努力才能完成,在這一過(guò)程中,如果過(guò)于追求速度,貪大貪多,必然會(huì)影響到標(biāo)注的準(zhǔn)確性,而標(biāo)注準(zhǔn)確性的下降,又會(huì)影響到錯(cuò)誤統(tǒng)計(jì)結(jié)果的可靠性,研究者可能由此對(duì)語(yǔ)料庫(kù)的錯(cuò)誤標(biāo)注產(chǎn)生不信任感,提取到相關(guān)語(yǔ)料后,還要根據(jù)自己的研究目的對(duì)語(yǔ)料進(jìn)行重新標(biāo)注,這樣一來(lái),錯(cuò)誤標(biāo)注的意義就會(huì)大打折扣。因此,我們認(rèn)為,錯(cuò)誤標(biāo)注應(yīng)以準(zhǔn)確為第一要?jiǎng)?wù),當(dāng)然,保證了準(zhǔn)確性,標(biāo)注的量就有可能受到影響,對(duì)此問(wèn)題,我們同意施春宏、張瑞朋(2013)①施春宏,張瑞朋.論中介語(yǔ)語(yǔ)料庫(kù)的平衡性問(wèn)題[J].語(yǔ)言文字應(yīng)用,2013,(2).提出的“急用先建”的主張,即“以需要為出發(fā)點(diǎn),一時(shí)間不必貪大求全”,具體到語(yǔ)料庫(kù)標(biāo)注問(wèn)題,可“先建無(wú)標(biāo)記文本”?!霸僦鸩酵晟茦?biāo)記文本”,這樣既可以滿足研究者的需求,又可以給標(biāo)注工作留出足夠的時(shí)間,以提高錯(cuò)誤標(biāo)注的準(zhǔn)確性和科學(xué)性,確保標(biāo)注出來(lái)的語(yǔ)料能夠直接為研究者所用。
“HSK動(dòng)態(tài)作文語(yǔ)料庫(kù)”開(kāi)漢語(yǔ)中介語(yǔ)語(yǔ)料庫(kù)錯(cuò)誤標(biāo)注之先河,全面的錯(cuò)誤標(biāo)注為研究者的研究工作提供了極大的便利,系統(tǒng)的標(biāo)注規(guī)范也為其他中介語(yǔ)語(yǔ)料庫(kù)的標(biāo)注提供了諸多可資借鑒的經(jīng)驗(yàn)。然而,由于錯(cuò)誤標(biāo)注主要靠人工完成,加之參與人員眾多,難免會(huì)存在一些問(wèn)題。為了使錯(cuò)誤標(biāo)注更為完善,本文以“HSK動(dòng)態(tài)作文語(yǔ)料庫(kù)”為例,對(duì)詞匯錯(cuò)誤標(biāo)注問(wèn)題進(jìn)行了初步探討,重點(diǎn)分析了詞匯錯(cuò)誤識(shí)別和修改中的問(wèn)題,對(duì)各類問(wèn)題進(jìn)行了量化統(tǒng)計(jì),并針對(duì)這些問(wèn)題提出了一些建議,希望能夠?qū)υ~匯錯(cuò)誤標(biāo)注的進(jìn)一步完善有所幫助。
The problems of lexical-error annotations in the interlanguage corpus and some suggestions:A case study of the dynamic corpus of HSK compositions
ZHAO Wei
(Center for Studies of Chinese as a Second Language,Beijing Language&Culture University,Beijing 100083,China)
This paper examines the lexical-error annotations of HSK compositions in the interlanguage corpus from the perspective of error identification and error correction.It concludes that there are three kinds of problems concerning error identification:missing annotations,redundant annotations and false annotations.Besides,there are four kinds of problems concerning error correction:incorrect corrections,the corrections differing from the author's original intention,redundant corrections and improper annotations at the level of the linguistic unit.The quantitative analysis reveals that the missing annotation is the most serious.It finally traces the causes of such lexical-error annotations and proposes some suggestions.
lexical-error annotation;interlanguage corpus;dynamic corpus of HSK compositions
H195
: A
: 1672-1306(2015)02-0001-09
[責(zé)任編輯:趙昆艷]
教育部人文社會(huì)科學(xué)重點(diǎn)研究基地重大項(xiàng)目(2009JJD740005);北京語(yǔ)言大學(xué)研究生創(chuàng)新基金項(xiàng)目(中央高?;究蒲袠I(yè)務(wù)費(fèi)專項(xiàng)資金)(14YCX152)
趙 瑋,女,河北保定人,北京語(yǔ)言大學(xué)在讀博士研究生,研究方向?yàn)楝F(xiàn)代漢語(yǔ)詞匯、對(duì)外漢語(yǔ)詞匯教學(xué)。