李桂梅
(北京語言大學(xué)語言科學(xué)院,北京,100083)
“全球漢語中介語語料庫”的平衡性考慮
李桂梅
(北京語言大學(xué)語言科學(xué)院,北京,100083)
漢語中介語語料庫;平衡性;原則;措施
從影響漢語中介語語料庫平衡性的關(guān)鍵因素出發(fā),討論了“全球漢語中介語語料庫”在追求語料庫平衡性方面的基本原則和采取的措施。平衡性的基本原則是以漢語國際教育的現(xiàn)實(shí)情況為主要參照,兼顧代表性和覆蓋范圍。“全球漢語中介語語料庫”建設(shè)者在語料采集、語料屬性標(biāo)注、確定入庫語料、語料庫檢索系統(tǒng)的設(shè)計(jì)等每個階段都采取措施努力實(shí)現(xiàn)語料庫的平衡性,并為實(shí)現(xiàn)語料庫的動態(tài)平衡、使用者的平衡創(chuàng)造條件。
漢語中介語語料庫的建設(shè)自上世紀(jì)90年代始,在建庫實(shí)踐中歷來重視語料庫的平衡性。第一個漢語中介語語料庫“漢語中介語語料庫檢索系統(tǒng)”,其100萬字的入庫語料是從約350萬字的原始語料中,“綜合考慮各種屬性背景因素和話題內(nèi)容的選擇情況,合理計(jì)算不同屬性和話題的語料的入庫比例”(儲誠志、陳小荷,1993),“基于各種屬性的語料分布均勻的理念抽樣所得”(陳小荷,1997:450-458)。這種理念和操作實(shí)踐為后期的漢語中介語語料庫建設(shè)奠定了良好的基礎(chǔ)。
此后,漢語中介語語料庫建設(shè)進(jìn)入了一個相對蓬勃發(fā)展的時期。不過由于主客觀條件的限制,所建成的幾個語料庫在理論和實(shí)踐方面都沒有很好地解決平衡性問題。例如“HSK動態(tài)作文語料庫”由于語料來源于參加HSK考試的作文試卷,在水平層次和學(xué)習(xí)者國別方面分布過于集中(任海波,2010;施春宏、張瑞朋,2013)。中山大學(xué)“漢字偏誤中介語語料庫”,其中韓國學(xué)生的語料約占40%,談不上國別的平衡;水平層次方面按自然班劃分有17個等級,這么細(xì)致的分類只有在所有語料來源于同一個教學(xué)單位的情況下才有可能,對于大規(guī)模的語料庫來說是不可能實(shí)現(xiàn)的。另外幾個通用型的漢語中介語語料庫,或規(guī)模不大,或建成后對外公布的相關(guān)信息較少,因此我們對它們在平衡性方面的考慮也無從知曉;專門的語料庫由于涉及的平衡性因素較少,自然也沒有更多的理論探討和實(shí)踐經(jīng)驗(yàn)。
平衡性是大規(guī)模、通用型漢語中介語語料庫建設(shè)中的關(guān)鍵性問題,是在語料庫建設(shè)過程中必須要處理好的問題?!叭驖h語中介語語料庫建設(shè)和研究”作為教育部哲學(xué)社會科學(xué)研究重大課題攻關(guān)項(xiàng)目,擬建設(shè)“最大最好的漢語中介語語料庫,為全球漢語教師、研究人員的教學(xué)與研究工作提供優(yōu)質(zhì)資源”(張寶林、崔希亮,2013),非常有必要將我們對這一問題的認(rèn)識闡述清楚,并且落實(shí)到實(shí)踐操作層面。本文將在充分認(rèn)識影響大規(guī)模、通用型中介語語料庫平衡性的關(guān)鍵因素的基礎(chǔ)上,闡述“全球漢語中介語語料庫”建設(shè)課題組為實(shí)現(xiàn)語料庫的平衡性所采取的多方面措施,并且在漢語中介語語料庫規(guī)模增大、持續(xù)更新補(bǔ)充的情況下,重視靜態(tài)的平衡和動態(tài)的平衡、建庫的平衡和使用的平衡之間的分別。
影響漢語中介語語料庫平衡性的關(guān)鍵因素主要有語料采集、語料類型的確定、語料比例的安排三個方面。大規(guī)模中介語語料庫建設(shè)需要在一定時間內(nèi)獲得符合預(yù)期建庫規(guī)模和要求的語料,同時獲得實(shí)現(xiàn)平衡性所必備的各種背景信息。在此基礎(chǔ)上按照特定的角度對語料進(jìn)行分類,確定語料的屬性標(biāo)簽,并且安排不同類型語料的比例。
2.1語料采集
與母語語料庫相比,中介語語料庫的語料并不是隨處可見,語料采集受到很大的限制。漢語中介語的語料需要滿足兩個基本條件。首先是真實(shí)性,必須是漢語作為第二語言的學(xué)習(xí)者在學(xué)習(xí)過程中產(chǎn)出的成段表達(dá)的語料;其次必須附帶有語料作者和語料本身的一些關(guān)鍵性的背景信息。第二個條件常常會把很多語料排斥在外,因?yàn)橐恍┍尘靶畔⒃趯W(xué)習(xí)者不在場的情況下無法得到。就通常的做法來說,語料收集都是委托漢語教師在繁重的教學(xué)任務(wù)之外進(jìn)行,受時間、精力及重視程度等因素的影響,教師常常將獲得語料放在首位,不重視甚至忽略語料背景信息的獲得,而語料的背景信息是實(shí)現(xiàn)語料庫平衡性的必要前提。同時受制于各種客觀條件,中介語語料收集的過程會比較長。另一方面,要滿足事先設(shè)定的語料庫平衡性的要求必然要舍棄某些類型數(shù)量過多的語料。如果語料庫規(guī)模比較小,就比較容易收集到較多的富余語料供抽樣;而如果是幾千萬字規(guī)模的大型中介語語料庫,又希望在一定的時間內(nèi)盡快完成語料的收集,那獲得的可供抽樣的富余語料就會比較有限??梢哉f,滿足要求的語料的收集是大規(guī)模漢語中介語語料庫實(shí)現(xiàn)平衡性追求的瓶頸。
2.2語料類型
劃分語料類型的前提是確定語料分類的角度。建設(shè)漢語中介語語料庫的最終目的是為漢語教學(xué)和習(xí)得的研究服務(wù),因此確定語料分類角度的依據(jù)也是影響漢語教學(xué)和習(xí)得的方式、效果的一些關(guān)鍵因素。這就需要我們依據(jù)漢語教學(xué)和習(xí)得研究領(lǐng)域的基本共識來給語料分類,劃分語料類型。目前來看主要的語料分類角度主要來自兩個方面:學(xué)習(xí)者自身的特征和語料的文本特征。從學(xué)習(xí)者特征來說有國別、語別、族別、學(xué)習(xí)動機(jī)、學(xué)習(xí)方式、學(xué)習(xí)時間、學(xué)習(xí)階段、個性特征等;從語料的文本特征來說,有語料的產(chǎn)出方式、產(chǎn)出時間、話題類別、文體類別、語體特征、字?jǐn)?shù)等,這些都是劃分語料類型的角度。這些分類角度中,有些內(nèi)部類別清楚,如國別、語別、族別;有些則要依賴建庫者的主觀判斷,如學(xué)習(xí)階段分為幾個,粗分還是細(xì)分;至于文體類別、話題類別更是如此。此外,一些尚未進(jìn)入普遍研究視野或未被注意到的影響因素就無法進(jìn)入分類角度。
2.3比例組合
語料庫中各類型的語料在數(shù)量和比例上怎樣安排算是“比例適當(dāng)”?這里有兩個取向:絕對取向和現(xiàn)實(shí)取向。絕對取向是希望每個分類角度上劃分出來的語料類別在數(shù)量和比例上相當(dāng),現(xiàn)實(shí)取向是不同類別的語料數(shù)量和比例照應(yīng)現(xiàn)實(shí)的情況。以最常被提及的語料作者國別為例,任海波(2010)認(rèn)為最理想的狀態(tài)是所收錄語料的國別類型能夠包括世界各國,并認(rèn)為“HSK動態(tài)作文語料庫”中歐美國家學(xué)生的語料太少,東南亞學(xué)生語料太多,這是希望達(dá)到數(shù)量和比例上的絕對平衡。張寶林、崔希亮(2013)認(rèn)為漢語學(xué)習(xí)者國籍分布的現(xiàn)實(shí)情況就是韓、日等東南亞國家漢語學(xué)習(xí)者多,歐美漢語學(xué)習(xí)者少,應(yīng)該考慮“漢語學(xué)習(xí)者國籍分布的現(xiàn)實(shí)情況”,“以各種國籍背景的漢語學(xué)習(xí)者的實(shí)際人數(shù)作為分層的依據(jù),確定各國漢語中介語語料的抽樣比例”,這是追求現(xiàn)實(shí)的平衡。從建庫的實(shí)際和語料庫的應(yīng)用來看,現(xiàn)實(shí)的取向更可取,也更可行。學(xué)習(xí)者較多的國別和語別的教學(xué)和習(xí)得情況自然應(yīng)該在研究中受到更多的關(guān)注。
從結(jié)構(gòu)上來說,“語料類型”屬于橫向的維度,“數(shù)量和比例”屬于縱向的維度。橫向維度上每個分類角度劃分出來的語料類別都要匹配一定的數(shù)量和比例,整個語料庫要綜合考慮各項(xiàng)屬性之間的配合,理論上說這種組配的可能性是無限的。
在充分認(rèn)識影響漢語中介語語料庫平衡性因素的基礎(chǔ)上,“全球漢語中介語語料庫”建設(shè)課題組確定了語料庫平衡性的基本原則,以及為實(shí)現(xiàn)平衡性所采取的措施。
3.1平衡性原則
建設(shè)漢語中介語語料庫的目的是為漢語作為第二語言的教學(xué)研究和習(xí)得研究服務(wù)。從這個目的出發(fā),“全球漢語中介語語料庫”建設(shè)的總體平衡性原則是以漢語國際教育的現(xiàn)實(shí)情況為主要參照,兼顧代表性和覆蓋范圍。
以語料的國別來源和語別來源(指語料作者的母語)屬性為例,當(dāng)前漢語國際教育的現(xiàn)狀是以韓國為首的亞洲學(xué)習(xí)者居多,同時學(xué)界對這些學(xué)習(xí)者的研究需求也相對較多。因此語料庫中收入的這些學(xué)習(xí)者的語料會相對較多。同時,我們也要兼顧代表性和覆蓋范圍。歐美學(xué)習(xí)者、母語為阿拉伯語的學(xué)習(xí)者、來自非洲國家的漢語學(xué)習(xí)者等也都是漢語國際教育的對象,并且有的人數(shù)還在呈上升的趨勢。因此語料庫中也要盡量多地收入這些學(xué)習(xí)者的語料,爭取最大程度地覆蓋所有漢語學(xué)習(xí)者的國別和語別。
再以語料所代表的學(xué)習(xí)者的學(xué)習(xí)層次屬性為例,當(dāng)前漢語國際教育的現(xiàn)實(shí)情況是初級水平和中級水平的學(xué)習(xí)者較多,高級水平的學(xué)習(xí)者相對較少。因此語料庫中初級水平和中級水平學(xué)習(xí)者的語料也會較多。然而,高級水平漢語學(xué)習(xí)者產(chǎn)出的語料也有很高的研究價值,尤其是在一些高級表達(dá)手段和語篇研究方面。因此語料庫中也會盡量多地收集高級水平漢語學(xué)習(xí)者產(chǎn)出的語料,努力實(shí)現(xiàn)對學(xué)習(xí)者水平層次的全部覆蓋。
3.2平衡性措施
“全球漢語中介語語料庫”從語料采集、語料屬性標(biāo)注、確定入庫語料三個方面采取措施來實(shí)現(xiàn)整體語料庫的平衡,并在語料庫檢索系統(tǒng)的設(shè)計(jì)上提供條件以滿足不同研究者在使用中對平衡性的不同要求。
3.2.1語料采集方面
語料采集是語料庫建設(shè)的一個重要環(huán)節(jié),對于大型漢語中介語語料庫來說尤其如此?!叭驖h語中介語語料庫”的主要特點(diǎn)之一就是語料規(guī)模大,預(yù)計(jì)書面的生語料4500萬字,精加工的熟語料2000萬字(崔希亮、張寶林,2011)。語料庫規(guī)模增大給語料采集帶來很大的挑戰(zhàn),既要滿足語料的數(shù)量要求,又要保證語料附帶必要的背景信息。為做到這點(diǎn),“全球漢語中介語語料庫”建設(shè)在語料采集的范圍和方式上都有很大的創(chuàng)新。
“全球漢語中介語語料庫建設(shè)和研究”課題組與國內(nèi)外十幾所高校的漢語國際教育部門建立了合作關(guān)系,簽訂子課題協(xié)議書。子課題的主要任務(wù)就是采集語料(有的涉及標(biāo)注)。較之簡單地委托漢語教師業(yè)余收集,子課題的形式具有以下幾個優(yōu)勢。
首先,以子課題的形式收集語料更能引起參與語料收集工作的教學(xué)部門和教師的重視,在語料真實(shí)性和語料背景信息的獲得方面更有保證。其次,課題組在簽訂子課題的時候考慮到了地區(qū)分布,比如東部地區(qū)的高校如魯東大學(xué)、同濟(jì)大學(xué)等日韓學(xué)習(xí)者較多,西部地區(qū)如西北師大中亞學(xué)習(xí)者較多,南方地區(qū)如廣西師大南亞學(xué)習(xí)者較多,南京大學(xué)歐美學(xué)習(xí)者較多等事實(shí),這樣在語料收集階段就為語料庫的國別及語別的平衡創(chuàng)造了很好的條件。課題組也收到諸多海外教學(xué)機(jī)構(gòu)提供的語料,為實(shí)現(xiàn)教學(xué)和學(xué)習(xí)環(huán)境的平衡創(chuàng)造條件。再次,由于不同地區(qū)不同教學(xué)單位的生源不同、教學(xué)層次不同、教學(xué)優(yōu)勢不同,來自多個教學(xué)單位的語料客觀上也使獲得的語料在水平層次、文體特征和話題類型上多種多樣,粗略來說整合在一起將實(shí)現(xiàn)語料層次、語料類型覆蓋全面的預(yù)期。最后,多個高校和教學(xué)單位參與的全球共建模式大大提高了效率,縮短了語料收集的過程。
同時,“全球漢語中介語語料庫建設(shè)和研究”課題組有嚴(yán)格的語料驗(yàn)收環(huán)節(jié),不合要求或語料背景信息嚴(yán)重缺乏的語料將不能通過驗(yàn)收。
此外,課題組還將探索通過網(wǎng)絡(luò)收集語料的形式。在信息網(wǎng)絡(luò)高度發(fā)展的今天,學(xué)習(xí)者自己上傳語料是個很好的嘗試?!叭驖h語中介語語料庫”擬建立一個網(wǎng)站,提供一定的物質(zhì)或其他形式的獎勵,鼓勵全球的漢語學(xué)習(xí)者將自己的文本語料、音頻語料或視頻語料上傳到該網(wǎng)站,并填寫與語料和作者相關(guān)的各項(xiàng)信息。
3.2.2語料屬性標(biāo)注方面
語料屬性概括來說有兩大類,一是語料作者的背景信息,二是語料自身的背景信息?!叭驖h語中介語語料庫建設(shè)和研究”課題組制定了《語料作者背景信息表》和《語料背景信息表》,每收集一份語料都要填寫表格中要求的信息。語料作者的背景屬性有17項(xiàng),語料背景信息有10項(xiàng),合計(jì)27項(xiàng)。(見附錄)
大部分的語料信息標(biāo)注都必須由語料采集者在語料采集的同時完成,但是“漢語水平層次、文體類別、話題類別”這三項(xiàng)信息需要由課題組集中填寫。就“漢語水平層次”來說,因?yàn)檎Z料來自不同國家、不同地區(qū)的不同學(xué)校,教學(xué)系統(tǒng)與教學(xué)內(nèi)容都有很大不同,此學(xué)校的二年級和彼學(xué)校的二年級學(xué)生水平可能相差很大,而語料庫中的全部語料必須有一個統(tǒng)一的水平量表,這樣才能方便語料庫使用者進(jìn)行檢索。因此課題組將根據(jù)語料的語言面貌,參考語料作者目前的漢語學(xué)習(xí)情況和以前的漢語學(xué)習(xí)經(jīng)歷統(tǒng)一為每篇語料標(biāo)注水平等級。為了避免判別的誤差,水平等級宜粗不宜細(xì),按照學(xué)界的基本共識,分為初級、中級和高級三類。同時,語料庫的使用者可以參考作者的學(xué)習(xí)背景,如寫作語料時所在的學(xué)校和年級、學(xué)習(xí)經(jīng)歷等綜合使用這一信息。
語料背景信息中的“文體類別”和“話題類別”也由課題組統(tǒng)一標(biāo)注,以做到體系和分類角度的統(tǒng)一。參照學(xué)界的基本共識,并考慮收集到的大部分漢語語料的實(shí)際情況,將“文體類別”分為敘述、議論、說明,其中敘述和議論占大部分?!霸掝}類別”分為學(xué)習(xí)生活、工作情況、個人愛好、生活經(jīng)歷、旅游地理、人物介紹、戀愛婚姻家庭、氣候天氣、社會文化、教育、交通等。這兩項(xiàng)信息的劃分比較粗疏,主要是根據(jù)所得語料的實(shí)際情況而定,不一定符合文章學(xué)對體裁和題材分類的嚴(yán)密邏輯。同時,這兩項(xiàng)信息的判定不可避免地會帶有一定的主觀性,但根本目的是為語料庫使用者選取語料提供一個大致的框架,并體現(xiàn)語料庫的語料在體裁和題材上的基本構(gòu)成。根據(jù)需要,語料庫使用者也可在此基礎(chǔ)上進(jìn)行更細(xì)致的甄別。
最理想的情況是每篇語料都附帶這27項(xiàng)信息,但囿于現(xiàn)實(shí)條件,常常收集不全。有的信息本身就沒有,比如有的學(xué)習(xí)者沒有參加過HSK考試。其他一些與學(xué)習(xí)者有關(guān)的個人信息在作者不在場的情況下再去追及也比較困難。針對這一情況,課題組除在語料收集之初強(qiáng)調(diào)背景信息的收集外,還將在確定入庫語料時優(yōu)先選擇背景信息豐富的語料。
3.2.3確定入庫語料方面
收集到附帶多項(xiàng)背景信息的原始語料后,小規(guī)模的中介語語料庫會按照一定的原則進(jìn)行抽樣,之后確定入庫語料。例如早前的“漢語中介語語料庫檢索系統(tǒng)”其主要做法是“損有余而補(bǔ)不足”,兼顧不同種類學(xué)生人數(shù)和語料來源差別的實(shí)際情況,主要考慮因素有作者、第一語言、年齡、話題類別、學(xué)時、語料類型等(陳小荷,1997:450-458)。對于“全球漢語中介語語料庫”這樣的大型中介語語料庫來說,我們在考慮上述因素的同時,把工作重點(diǎn)放在“補(bǔ)不足”方面。在語料的收集工作進(jìn)行到一個階段后,我們將根據(jù)所得語料的情況,對于某些重要屬性如國別、語別、水平層次等數(shù)量和比例較少的語料進(jìn)行專門補(bǔ)充;對于數(shù)量和比例較多的,將優(yōu)先選擇那些各項(xiàng)背景信息較全的語料,放棄關(guān)鍵信息缺失的語料。而如果多出的語料各項(xiàng)背景信息都比較齊全,我們可以放在生語料中。對于當(dāng)今的計(jì)算機(jī)和網(wǎng)絡(luò)條件來說,容量已經(jīng)不是問題,背景信息齊全的語料總會有它可利用的研究價值。作為一個對學(xué)習(xí)者開放上傳語料的語料庫建設(shè)系統(tǒng)來說,只要語料符合要求、背景信息齊全,我們就沒有理由放棄。
3.2.4語料庫檢索系統(tǒng)設(shè)計(jì)方面
中介語語料庫的平衡是語料庫建設(shè)者根據(jù)自己的建設(shè)理念確定下來的一種固定狀態(tài)的平衡,能否滿足使用者的個體研究需求無疑具有一定的不確定性。正如黃昌寧、李涓子(2002:29)談母語語料庫時所言,“當(dāng)前解決語料庫平衡問題時大部分建設(shè)者采用的還是按題材和體裁等來進(jìn)行的,由于題材和體裁的分類有角度和層次的不同,因而這方面的平衡問題顯然依賴于建庫者對觀察角度的選擇、語料特征的鑒別和分類層次的分析”。這是針對母語語料庫而言的,而中介語語料庫平衡性涉及的屬性因素和屬性內(nèi)部類別的劃分更多更復(fù)雜,受建庫者主觀認(rèn)識的影響也更大。同時隨著研究領(lǐng)域的拓展和深入,語料庫使用者的關(guān)注點(diǎn)也是不斷發(fā)展變化的,這就勢必在建庫者的主觀認(rèn)識與使用者個體需求之間產(chǎn)生差異和矛盾。
“全球漢語中介語語料庫”將通過設(shè)計(jì)有利的檢索系統(tǒng)來降低這一差異?!叭驖h語中介語語料庫”的語料檢索系統(tǒng)除了可按單個背景信息檢索語料外,還將可以合并兩項(xiàng)或兩項(xiàng)以上的背景信息進(jìn)行檢索,例如可以檢索某個國別的語料,也可以檢索同時滿足某個國別、某個水平層次、某類話題條件的語料。這實(shí)際上是根據(jù)語料的屬性標(biāo)簽確定了多個不同的子語料庫,以及不同子語料庫的交集語料庫。這一措施在語料庫總體語料結(jié)構(gòu)的框架下滿足了使用者自己定義語料選取范圍的要求,是由使用者自己定義的平衡,為語料庫使用者進(jìn)行更精細(xì)的研究提供了條件,在一定程度上緩解了建庫者的主觀認(rèn)識與使用者的個體需求之間的差異問題。
以上這四個方面是“全球漢語中介語語料庫”建設(shè)過程中保證語料庫平衡的四個順序性的階段,每個階段都很重要,并且前一個階段為后一個階段以及語料庫的最終平衡奠定基礎(chǔ)。語料庫建成后,課題組還將在語料庫的使用說明中出具各類型語料的數(shù)量和比例的統(tǒng)計(jì)報(bào)告,以供使用者參考。
語料庫的平衡性是語料庫建設(shè)中一個全局性的問題,對于大型的中介語語料庫來說更是如此。要解決好這一問題,除了有正確的理念引導(dǎo)外,更重要的是在實(shí)踐操作中貫徹和落實(shí)。我們需要認(rèn)識到,中介語語料庫的平衡性追求不可能有一個完美的狀態(tài),囿于理論和現(xiàn)實(shí)多方面的制約因素,總會有這方面或那方面的缺憾,總會在某方面滿足了一部分的研究需要而沒有滿足另一部分的研究需要。正因?yàn)檫@樣,提供條件讓語料庫使用者自己選擇符合特定研究要求的平衡語料就更加重要。要實(shí)現(xiàn)這一目標(biāo),一是語料庫總量要大,各類語料充足,二是語料要附帶豐富的背景信息?!叭驖h語中介語語料庫”在建設(shè)過程中的各個環(huán)節(jié)都努力為實(shí)現(xiàn)這一目標(biāo)創(chuàng)造條件。
陳小荷1997“漢語中介語語料庫系統(tǒng)”介紹[A].載第五屆國際漢語教學(xué)討論會論文選[C].北京:北京大學(xué)出版社:450-458.//Chen Xiaohe1997An introduction to Chinese interlanguage corpus system[A]. In Proceedings of the 5thInternational Conference on Chinese Language Teaching[C].Beijing:Peking University Press:450-458.
儲誠志,陳小荷1993建立“漢語中介語語料庫系統(tǒng)”的基本設(shè)想[J].世界漢語教學(xué)(3).//Chu Chengzhi &Chen Xiaohe1993The basic idea of establishing the system of Chinese interlanguage corpus[J].Chinese Teaching in the World(3).
崔希亮,張寶林2001“全球漢語學(xué)習(xí)者語料庫”建設(shè)方案[J].語言文字應(yīng)用(2).//Cui Xiliang&Zhang Baolin2001The principles for building the“International Corpus of Learner Chinese”[J].Applied Linguistics(2).
黃昌寧,李涓子2002語料庫語言學(xué)[M].北京:商務(wù)印書館:29.//Huang Changning&Li Juanzi2002 Corpus Linguistics[M].Beijing:The Commercial Press:29.
任海波2010關(guān)于中介語語料庫建設(shè)的幾點(diǎn)思考——以“HSK動態(tài)作文語料庫”為例[J].語言教學(xué)與研究(6).//Ren Haibo2010Towards to the construction of the inter-language corpus of Chinese—Using the dynamic corpus of writing papers from HSK as an example[J].Language Teaching and Linguistic Studies(6).
施春宏,張瑞朋2013論中介語語料庫的平衡性問題[J].語言文字應(yīng)用(2).//Shi Chunhong&Zhang Ruipeng2013The balance of interlanguage corpora[J].Applied Linguistics(2).
張寶林,崔希亮2013“全球漢語中介語語料庫建設(shè)和研究”的設(shè)計(jì)理念[J].語言教學(xué)與研究(5).//Zhang Baolin&Cui Xiliang2013Design concepts of“the construction and research of the inter-language corpus of Chinese from global learners”[J].Language Teaching and Linguistic Studies(5).
Key words:inter-language corpus of Chinese;balance;principle;methods
Abstract:This paper starting from the key factors for balance of inter-language corpus,discusses the basic principle and multi-measures to achieve balance of“Inter-language Corpus of Chinese from Global Learners”.The basic principle of balance is based on the reality of Chinese international education,taking into account the representativeness and coverage.Measures have been taken to achieve the balance of the corpus at every stage of the data acquisition,the annotation of corpus attributes,the determination of the input data,the design of the corpus retrieval system,etc.with the purpose of realizing dynamic balance and users’balance of inter-language corpus.
附錄:
語料作者的背景信息:
(1)國籍
(2)年齡
(3)性別
(4)學(xué)歷
(5)性格類型(外向/內(nèi)向)
(6)是否華裔
(7)第一語言
(8)熟悉的其他外語
(9)學(xué)習(xí)漢語的動機(jī)
(10)語料寫作時的漢語學(xué)習(xí)學(xué)校
(11)進(jìn)入該校的時間
(12)語料寫作時的所屬年級
(13)語料寫作時使用的主要教材
(14)以前的漢語學(xué)習(xí)經(jīng)歷
(15)以前使用的主要教材
(16)參加過的HSK考試及最近一次的成績
(17)漢語水平層次(初級、中級、高級)
語料背景信息:
(1)語料產(chǎn)出的條件(考試/課堂練習(xí))
(2)語料產(chǎn)出的方式(命題作文/看圖寫話/讀后寫/聽后寫等)
(3)語料寫作時間
(4)語料寫作地點(diǎn)
(5)規(guī)定寫作時間
(6)規(guī)定字?jǐn)?shù)
(7)語料長度
(8)評卷老師所給得分
(9)文體類別
(10)話題類別
【責(zé)任編輯 蘇 政】
On the Balance about“Inter-language Corpus of Chinese from Global Learners”
Li Guimei
(Faculty of Linguistic Science,Beijing Language and Culture University,Beijing 100083,China)
H195.3[文獻(xiàn)標(biāo)識碼]A[文章編號]1674-8174(2017)02-0046-06
2016-10-10
李桂梅(1976-),女,河北邯鄲人,北京語言大學(xué)語言科學(xué)院副研究員,博士,研究方向?yàn)闈h語語法、中介語語料庫及語言規(guī)劃。電子郵箱:93809622@qq.com。
北京市社會科學(xué)基金項(xiàng)目“漢語中介語語料庫的語料質(zhì)量監(jiān)控研究”(15WYC073)//Beijing Social Science Fund:“The Research on Quality Monitoring in Chinese Interlanguage Corpora”(15WYC073);教育部哲學(xué)社會科學(xué)研究重大課題攻關(guān)項(xiàng)目“全球漢語中介語語料庫建設(shè)和研究”(12JZD018)//Ministry of Education Philosophy and Social Science Fund:“The Construction and Research of the Inter-language Corpus of Chinese from Global Learners”(12JZD018)