国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

高職學(xué)生英語口語語料庫建設(shè)研究

2012-08-15 00:45:11張成國
關(guān)鍵詞:賦碼語料語料庫

張成國

(江蘇城市職業(yè)學(xué)院外國語學(xué)院,江蘇南通226006)

一、建設(shè)高職學(xué)生英語口語語料庫的必要性

學(xué)習(xí)者語料庫是按照一定的原則和設(shè)計(jì)標(biāo)準(zhǔn),通過科學(xué)抽樣方法采集、編制而成的學(xué)習(xí)者語言(口語或書面語)電子文本庫[1]。通過它提供的客觀、真實(shí)和海量數(shù)據(jù),語言教學(xué)及研究人員可對學(xué)習(xí)者的語言水平進(jìn)行多維度、多層面的研究,從而為教學(xué)理論和實(shí)踐提供頗具價值的反饋與指導(dǎo)。

口語在語言交際中起著非常重要的作用,然而高職學(xué)生的英語口語能力卻不容樂觀,盡管我們的教師和學(xué)生在上面花了不少時間?;诖耍P者設(shè)想建設(shè)一個能全面反映高職學(xué)生英語口語能力現(xiàn)狀的語料庫,用以輔助語言‘直覺’和‘內(nèi)省’判斷,克服教學(xué)大綱制定、教學(xué)方法選取與教學(xué)研究選題的主觀性和片面性,從而最大限度地提高高職英語口語教學(xué)質(zhì)量與研究水平。

二、建設(shè)高職學(xué)生英語口語語料庫的可行性

第一,學(xué)習(xí)者英語口語語料庫經(jīng)過多年的建設(shè),已經(jīng)積累了比較豐富的實(shí)踐經(jīng)驗(yàn)。特別是中國大學(xué)學(xué)習(xí)者英語口語語料庫COLSEC(College Learners’Spoken English Corpus)的建成,為我們提供了一套可借鑒的學(xué)習(xí)者口語語料庫建庫原則、采樣方案和技術(shù)標(biāo)準(zhǔn)。

第二,建立大型語料庫,并基于大規(guī)模真實(shí)文本的定量與定性分析相結(jié)合的研究方法正在逐漸成為國內(nèi)外語言研究的主要方法之一。高職學(xué)生英語口語語料庫的建設(shè)符合研究方法的這種轉(zhuǎn)變與實(shí)際需要。

第三,計(jì)算機(jī)軟硬件及網(wǎng)絡(luò)技術(shù)的發(fā)展為口語語料庫的建設(shè)提供了必要的技術(shù)支持。采用計(jì)算機(jī)軟件進(jìn)行半自動化語料處理和人工干預(yù)校正的模式,使得創(chuàng)建一個適合某項(xiàng)專門研究需要的中型語料庫更加便捷,而個人電腦的普及及互聯(lián)網(wǎng)技術(shù)的發(fā)展也有利于語料庫資源實(shí)現(xiàn)最充分的共享。

三、建設(shè)高職學(xué)生英語口語語料庫的基本思路

(一)語料來源

盡管自由、即興話語能夠最為真實(shí)地反映語言使用者在給定場景中的語言運(yùn)用特征,但因外語學(xué)習(xí)語境的制約卻很難獲得,所以高職學(xué)生英語口語語料庫的語料來源可以是各年級高職學(xué)生學(xué)期英語口語考試亦或是他們參加全國英語等級考試(PETS)的實(shí)景音像資料。為盡可能反映學(xué)生在真實(shí)交際語境中的的實(shí)際口語能力,口語考試中增加適當(dāng)比重的即興話語,如學(xué)生與教師以及學(xué)生之間的晤談和自由討論等。話題內(nèi)容盡可能多樣化,可圍繞“個人生活與學(xué)習(xí)、社會關(guān)切問題、校園生活”等幾個方面展開。

(二)語料轉(zhuǎn)寫

參照COLSEC(College Learners’Spoken English Corpus)規(guī)范,采用不作任何主觀干預(yù)的自然描寫方法忠實(shí)轉(zhuǎn)寫考生的原始語句(包括非完整句、語法病句)以及有聲語料中的口誤、脫落、贅述、重復(fù)等現(xiàn)象,用統(tǒng)一符號完整、準(zhǔn)確地標(biāo)注會話中的話輪轉(zhuǎn)換、語音、語調(diào)、停頓、猶豫、打斷、非言語交際等[2]。示例如下:

1、單詞和單詞以上語言單位的重復(fù)部分之間用“#”表示。如:I couldn’t#I couldn’t#help you because I did not have enough money.

2、音節(jié)及其以下語言單位的重復(fù)可在代表所重復(fù)部分的字母或字母組合后加上“-”。如:fur-fur-further;im-im-impossible.

3、由話語不流利所導(dǎo)致的短暫停頓用三個圓點(diǎn)“...”表示,較長停頓用六個圓點(diǎn)“......”表示。

4、口語表達(dá)中不完整或未完成的句子可用“-”表示,未完成的單詞用“=”表示,符號后要加一空格。如:I think it is very important_the most important thing is that…;We will list=follow the teacher’s advice and read more excellent books.

5、會話中的非言語聲音根據(jù)語音的近似性,用mm,mn,erm,er,hm等符號表示。

6、無法辨別的語音用“?”表示,一個符號代表一個音節(jié),“????”表示一個四音節(jié)的詞。完全聽不清的內(nèi)容用“X”表示。辨別不清的語音部分的內(nèi)容如若能作出明確推斷,推斷內(nèi)容可放在<>內(nèi)。[3]如:Igraduated from <?name of a university>.

(三)語料標(biāo)注與賦碼

1、錯誤語音賦碼

學(xué)生口語中所有的語音錯誤碼均放在中括號“[]”之內(nèi),附加在語音出錯的單詞之后[4]。具體賦碼方案如下:

1)將單詞的正確讀音錯發(fā)為另一個與之相近或相似的錯音用W表示,在W之后標(biāo)注出被發(fā)錯音的字母或字母組合,然后用一定的代碼表示錯音本身。如:media[We-ai]表示學(xué)生將media一詞中的字母e的讀音錯發(fā)成[ai]。

2)在單詞的輔音或元音之后添加的多余的音用P表示,然后標(biāo)注出其后被加了音的字母,再加上間隔符“-”,最后用具體的代碼表示所加的音。如:class[Pa-r]表示class一詞中的字母a的讀音后加了一個卷舌音[r]。

3)發(fā)音過程中單詞某個吞掉不發(fā)的音用M表示,然后標(biāo)出被吞掉音的字母。如:magazine[M2a]表示magazine一詞中的第二個a的元音未發(fā)。

4)錯誤改變和移動的單詞重音用S表示,在S后用數(shù)字表示重音被錯移至的音節(jié)。如:psychological[S2]表示psychological一詞的重音被錯移到了第二個音節(jié)上。

2、詞性賦碼

由于基于概率的詞性賦碼器(probabilitybased POS taggers)更適用于為學(xué)習(xí)者口語語料進(jìn)行自動賦碼,賦碼準(zhǔn)確率較高且性能穩(wěn)定,其賦碼準(zhǔn)確率受學(xué)習(xí)者口語語言水平影響不大[5],所以本語料庫選擇CLAWS7作為詞性賦碼工具,賦碼格式為使用一個符號如“_”,然后連同詞類碼標(biāo)記到單詞后面。如:Mr_NNB Smith_NP1 said_VVD...-...that_DD1...-...he_PPHS1 was_VBDZ not_XX mind_VV0 about_II it_PPH1...。其中,NNB表示稱呼名詞之前的詞,NP1表示單數(shù)專有名詞,VVD表示動詞過去時,DD1表示單數(shù)限定詞,PPHS1表示第三人稱單數(shù)主格人稱代詞,VBDZ表示系動詞過去式,XX表示否定詞,VV0表示單個動詞原形,II表示普通介詞,PPH1表示第三人稱單數(shù)中性人稱代詞。

3、句法賦碼

句法賦碼就是對文本中的每一句話進(jìn)行句法標(biāo)注。為盡可能詳細(xì)地提供各種句子結(jié)構(gòu)信息,本語料庫可采用完全成分分析法進(jìn)行句法賦碼。如:[S[NPClaudia_NP1 NP][VP sat_VVD[PP on_II[NP a_AT1 stool_NN1 NP]PP]VP]S]。其中,S=句子,NP=名詞短語,VP=動詞短語,PP=介詞短語,N=名詞,V=動詞,P=介詞,AT=冠詞。

4、語義標(biāo)注

語義標(biāo)注主要包括語言單位的語義特征以及語言單位之間的語義關(guān)系[6]。鑒于目前人們對于語義標(biāo)注的內(nèi)容尚未形成一致看法,筆者建議可通過設(shè)計(jì)一些語義分析系統(tǒng)進(jìn)行語義標(biāo)注。如:You_Z8 gave_S1.1.2+me_Z8 a_Z5 new_T3-gift_M3._PUNC Thank_S1.2.4+you_Z8.其中,每個單詞_之后是語義標(biāo)注,Z8表示代詞,S1.1.2+表示指向,Z5表示語法倉(Grammatical bin),T3表示時間,M3表示特別準(zhǔn)備的物品,_PUNC表示停頓,S1.2.4+表示禮貌。

5、語篇標(biāo)注

語篇結(jié)構(gòu)的標(biāo)注可根據(jù)語言單位的語篇功能將其分為道歉(sorry,excuse me等)、留有余地(kind of,sort of等)、問候(hello,good morning等)、禮貌(please等)等類別,每一個類別又可根據(jù)表達(dá)這一語篇功能的語言單位中單詞的數(shù)量進(jìn)行分類。

(四)語料檢索

語料庫的價值與使用人數(shù)成正比例關(guān)系:使用者越多,則其價值越大;如果無人使用,那么也就毫無價值[7]。為充分發(fā)揮所建語料庫的價值,我們可將語料庫轉(zhuǎn)換為HTML或XML格式,使其適用于互聯(lián)網(wǎng)環(huán)境,并友好于用戶。屆時,教師可以通過網(wǎng)絡(luò)瀏覽器,直接訪問,提取所需數(shù)據(jù)。也可建成單機(jī)版語料庫,以光盤形式出版發(fā)行,供教師在網(wǎng)下使用。

(五)語料庫的后期建設(shè)與維護(hù)

基于開放性和動態(tài)性的建庫理念,高職學(xué)生英語口語語料庫初步建成后,也可按學(xué)期或?qū)W年不斷充實(shí)與更新,從而使數(shù)據(jù)的分布更加趨于理想狀態(tài)。

四、高職學(xué)生英語口語語料庫的應(yīng)用

(一)口語教學(xué)

通過本語料庫,教師能對學(xué)生口語表達(dá)能力有較為全面和客觀的了解,并從中發(fā)現(xiàn)學(xué)生英語口語表達(dá)中存在的共同錯誤和典型問題,以確定教學(xué)中的難點(diǎn)與重點(diǎn),使口語教學(xué)更有針對性,從而大大提高口語教學(xué)效果;學(xué)生可極其方便地對學(xué)習(xí)效果進(jìn)行自我檢驗(yàn),根據(jù)口語表達(dá)中的錯誤及不規(guī)范現(xiàn)象適時調(diào)整學(xué)習(xí)方法,從而促進(jìn)英語口語能力的提高。此外,該語料庫還能夠?yàn)榫帉懹⒄Z口語教材和制定英語口語教學(xué)大綱提供準(zhǔn)確和客觀的數(shù)據(jù)。

(二)口語研究

基于本語料庫開展高職英語學(xué)習(xí)者的口語研究是多方面的。例如可以對高職英語學(xué)習(xí)者在不同年級階段的英語口語現(xiàn)狀進(jìn)行橫向的斷面考察,也可以對他們從低年級到高年級的整個口語能力發(fā)展過程進(jìn)行全面研究,還可以考察高職英語口語能力發(fā)展的區(qū)域特點(diǎn)與規(guī)律。這樣就可以對高職學(xué)生的英語口語水平有一個全面、真實(shí)、具體、準(zhǔn)確的認(rèn)識,進(jìn)而全面揭示高職學(xué)生英語口語能力發(fā)展的規(guī)律與特點(diǎn)。

(三)口語測試

本語料庫的建立和開發(fā)將為各種標(biāo)準(zhǔn)化英語口語測試和口語評分提供堅(jiān)實(shí)的依據(jù),為題項(xiàng)的命題和題項(xiàng)測評提供客觀數(shù)據(jù),這將有助于提高題項(xiàng)的結(jié)構(gòu)效度和評分信度,便于更好地設(shè)計(jì)和調(diào)整口語測試的形式和內(nèi)容。

五、結(jié)語

高職學(xué)生英語口語語料庫的建成將為教師及研究人員提供強(qiáng)有力的工具和手段,以便對高職學(xué)生的英語口語從不同角度、不同層次進(jìn)行深入的研究和分析,提出改進(jìn)教學(xué)和提高教學(xué)質(zhì)量的建議,從而幫助學(xué)生掌握地道、自然的英語。然而,語料庫的建設(shè)是一項(xiàng)龐大、復(fù)雜和艱辛的工作,需要成立一個專門的口語語料庫建設(shè)委員會,負(fù)責(zé)領(lǐng)導(dǎo)、設(shè)計(jì)、安排語料庫建設(shè)的具體事宜。筆者相信,經(jīng)由建設(shè)委員會的周密策劃,再加上高職英語教學(xué)界同仁的支持與配合,一定可以實(shí)現(xiàn)既定目標(biāo),建成一個最理想的高職學(xué)生英語口語語料庫,實(shí)現(xiàn)最充分的資源共享,從而為更大范圍的高職英語口語教學(xué)與研究服務(wù)。

[1]秦旭.學(xué)習(xí)者語料庫及其在外語教學(xué)中的應(yīng)用價值[J].徐州工程學(xué)院學(xué)報(bào),2006(11):25.

[2]張超清.建立高校英語專業(yè)學(xué)生口語語料庫的設(shè)想[J].湖南民族職業(yè)學(xué)院學(xué)報(bào),2009(01):107.

[3]王芳,王曄等.COLSEC的轉(zhuǎn)寫與標(biāo)注對口語語料庫建設(shè)的啟示[J].天中學(xué)刊,2005(05):100.

[4]衛(wèi)乃興,李文中.COLSEC語料庫的設(shè)計(jì)原則與標(biāo)注方法[J].當(dāng)代語言學(xué),2007(03):235~246.

[5]王莉,梁茂成.學(xué)習(xí)者口語語料自動詞性賦碼的信度研究[J].外語教學(xué),2007(04):47~51.

[6]崔剛,盛永梅.語料庫中語料的標(biāo)注[J].清華大學(xué)學(xué)報(bào)(哲學(xué)社會科學(xué)版),2000(01):93.

[7]崔希亮,張寶林.全球漢語學(xué)習(xí)者語料庫建設(shè)方案[J].語言文字應(yīng)用,2011(02):102.

猜你喜歡
賦碼語料語料庫
基于實(shí)物“ID”的變電站整站賦碼管控系統(tǒng)及方法研究
吉林電力(2022年2期)2022-11-10 09:24:38
《語料庫翻譯文體學(xué)》評介
把課文的優(yōu)美表達(dá)存進(jìn)語料庫
基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
基于JAVAEE的維吾爾中介語語料庫開發(fā)與實(shí)現(xiàn)
語言與翻譯(2015年4期)2015-07-18 11:07:45
煙包二維碼賦碼離線還是凹印在線?
《苗防備覽》中的湘西語料
中短單,我們選擇小盒賦碼
國內(nèi)外語用學(xué)實(shí)證研究比較:語料類型與收集方法
南靖县| 夏津县| 麟游县| 高雄县| 华池县| 西林县| 平舆县| 汽车| 沂水县| 唐山市| 金沙县| 平安县| 厦门市| 隆安县| 思茅市| 鹿泉市| 临安市| 仁化县| 冷水江市| 汉源县| 托克托县| 沭阳县| 依兰县| 佛坪县| 庆阳市| 武隆县| 楚雄市| 纳雍县| 中牟县| 台中市| 桑日县| 开鲁县| 营山县| 通河县| 新丰县| 阿巴嘎旗| 呼图壁县| 永和县| 鄂伦春自治旗| 汝州市| 崇义县|