国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

英語專業(yè)四級詞匯自主學(xué)習(xí)語料庫的設(shè)計和技術(shù)實現(xiàn)

2010-10-10 00:30:12李文良付海辰
唐山學(xué)院學(xué)報 2010年5期
關(guān)鍵詞:語料語料庫英語專業(yè)

李文良,付海辰

(唐山學(xué)院a.外語系;b.計算機系,河北唐山 063000)

英語專業(yè)四級詞匯自主學(xué)習(xí)語料庫的設(shè)計和技術(shù)實現(xiàn)

李文良a,付海辰b

(唐山學(xué)院a.外語系;b.計算機系,河北唐山 063000)

主要從語料庫的建設(shè)前提、語料庫的設(shè)計和技術(shù)實現(xiàn)以及語料庫的檢索三個方面分析了英語專業(yè)四級詞匯自主學(xué)習(xí)語料庫的建設(shè)問題。

語料庫;設(shè)計;技術(shù)實現(xiàn);檢索

隨著計算機技術(shù)的發(fā)展,英語語料庫在中國也得到了迅速的發(fā)展。語料庫方法在詞典編纂、語言研究和語言教學(xué)等方面得到了越來越多的應(yīng)用。英語語料庫在英語語言教學(xué)和研究方面有著十分重要的作用。它可以提供真實語料,提供數(shù)據(jù)的統(tǒng)計,根據(jù)數(shù)據(jù)驗證現(xiàn)行的語言學(xué)習(xí)理論并能據(jù)此建立新的理論。英語專業(yè)四級詞匯自主學(xué)習(xí)語料庫通過語料庫和語料庫索引工具把語境共現(xiàn)、語料庫的文本展現(xiàn)和網(wǎng)絡(luò)互動進行有機結(jié)合,為外語學(xué)習(xí)者提供一種自然的語言學(xué)習(xí)環(huán)境,從而促進學(xué)習(xí)者對外語詞匯的自主學(xué)習(xí)。適合學(xué)習(xí)者多樣化的語料庫的建立,還能改變單純依靠教材進行外語學(xué)習(xí)的被動局面,解決了語言學(xué)習(xí)材料的真實性和多元化問題,適應(yīng)立體化、網(wǎng)絡(luò)化、個性化外語教學(xué)和學(xué)習(xí)的實際需要,使外語教學(xué)朝著個性化學(xué)習(xí)、不受時間和地點限制的學(xué)習(xí)、主動式學(xué)習(xí)的方向發(fā)展。利用語料庫對英語專業(yè)學(xué)生進行四級詞匯自主學(xué)習(xí)和研究,首先需要建立英語專業(yè)四級詞匯自主學(xué)習(xí)語料庫。本文主要針對語料庫技術(shù)的發(fā)展和語料庫建設(shè)問題中出現(xiàn)的關(guān)鍵問題進行逐一探討。

1 語料庫技術(shù)和語料庫研究的發(fā)展

語料庫技術(shù)的發(fā)展大致經(jīng)歷了四個階段。

第一階段:人工采集語料階段。語料靠人工閱讀采集而來。在當(dāng)時的技術(shù)條件下,研究者會花大量時間閱讀書籍、報刊,搜集語料。但此種方法費時、費力,效率低,而且資料的質(zhì)量無法保證。

第二階段:計算機語料庫的建立與 KW IC(上下文關(guān)鍵詞)檢索階段。計算機語料庫的建立和檢索工具的開發(fā),在語料庫的規(guī)模、覆蓋面、典型性上,都優(yōu)于人工搜集。人們可以把更多精力投入到更有意義的語料庫技術(shù)實現(xiàn)上。多種英語語料庫檢索工具得以開發(fā),如WordSmith,Sara,TACT等。這些檢索工具的一個共同特點是通過 KW IC形式,將被檢索詞置于上下文中,顯示其用法。但通過 KW IC檢索時,檢索得到的語料行數(shù)不能太多,否則就難以觀察。對語料的概括和小結(jié)仍存在一定缺陷。

第三階段:Word Sketch Engine(簡稱WSE,詞匯描述引擎)檢索階段。英國Brighton大學(xué)的 Kilgrarriff和 Tugwell等人開發(fā)的軟件“Wo rd Sketch Engine”可較直觀地顯示詞的常見搭配以及出現(xiàn)頻率和顯著度(salience)。用 WSE檢索結(jié)果分三欄排列:第一欄顯示被檢索詞的搭配或句法結(jié)構(gòu);第二欄為每一搭配或結(jié)構(gòu)在英國國家語料庫(British Na-tional Corpus)中的頻數(shù);第三欄則是搭配或結(jié)構(gòu)的顯著度。WSE檢索工具已經(jīng)商業(yè)化,進行詞典的編纂,還輔助開發(fā)了英語義類詞典。

第四階段:FrameNet(框架網(wǎng))檢索階段。此種檢索繼承了前兩代檢索工具的優(yōu)點,而且對詞義更敏感。

綜上所述,各個階段的語料庫技術(shù)都有自身的特點。就目前我們建立英語專業(yè)四級詞匯自主學(xué)習(xí)語料庫而言,主要還是使用第二階段的英語語料檢索工具。

英語語料庫研究的發(fā)展經(jīng)歷了三個階段。運用語料庫進行語言研究最早可以追溯到19世紀(jì)末,當(dāng)時的研究手段還只停留在卡片制作和人工檢索的階段,其成果也僅用作編纂語法書或詞典的參考;20世紀(jì)60年代至90年代是語料庫語言學(xué)發(fā)展的第二個階段,世界各地都開始建設(shè)自己的語料庫并且開始跨國聯(lián)合建立國際性的語料庫,20世紀(jì)90年代中期是語料庫語言學(xué)發(fā)展的第三個階段。語料庫語言學(xué)一般被認(rèn)為是20世紀(jì)60年代初期發(fā)展起來的一門新興的語言研究科學(xué)。我們目前是利用自己開發(fā)的英語專業(yè)四級詞匯學(xué)習(xí)語料庫進行四級詞匯自主學(xué)習(xí)的研究。

2 語料庫的設(shè)計和技術(shù)實現(xiàn)

2.1 語料庫的建設(shè)前提

研究學(xué)生利用英語專業(yè)四級詞匯學(xué)習(xí)語料庫進行學(xué)習(xí)的前提,便是要建立四級詞匯學(xué)習(xí)的語料庫。語料庫的建設(shè)主要包括兩大方面:一是語料庫文本,二是語料庫檢索軟件。在具體選擇語料庫文本和語料庫檢索軟件之前,需要明確幾個問題:

(1)語料庫研究的目的和設(shè)計。針對的主要是即將參加英語專業(yè)四級考試,需要通過大量語料來鞏固、完善詞匯學(xué)習(xí)的英語專業(yè)學(xué)生。在此基礎(chǔ)上,根據(jù)學(xué)生利用語料庫進行詞匯學(xué)習(xí)的過程和結(jié)果,對詞匯自主學(xué)習(xí)模式進行探討。

(2)語料庫的整體設(shè)計。英語專業(yè)四級是指英語專業(yè)的學(xué)生在大學(xué)階段英語專業(yè)學(xué)習(xí)第四個學(xué)期所應(yīng)達到的水平。所以語料庫中的文本包括現(xiàn)行英語專業(yè)前四個學(xué)期的教材和專業(yè)四級閱讀文章、網(wǎng)上相關(guān)四級詞匯內(nèi)容、各種英文電子期刊雜志等等。

(3)語料庫文本的整理。語料來源于課本、輔導(dǎo)材料和電子文本,但要把這些材料應(yīng)用到語料庫,還需要做相應(yīng)的加工和處理,我們把這個過程稱作清潔。文本不清潔會導(dǎo)致在日后的使用和分析上的不準(zhǔn)確。因此這一過程非常重要。

取樣的平衡、設(shè)計容量、語料來源等都會對日后的研究產(chǎn)生一定的影響。在建庫之后,我們可以借助語料庫進行學(xué)習(xí)或者帶著問題進行研究,并在此基礎(chǔ)上進行數(shù)據(jù)統(tǒng)計和分析。整個工作流程見圖1。

2.2 語料庫的設(shè)計和技術(shù)實現(xiàn)

(1)建庫所需工具和軟件。在語料庫建設(shè)前,要確保有一些好用的文本編輯器,如 EditPad、EditPlus等;建庫所需文本掃描得到的圖形文件,需要相應(yīng)的識別軟件,如 AB-BYYFineReader等;如果來源于網(wǎng)絡(luò),可能需要解壓縮軟件W in RAR,W inZIP,如果是CAJ或是PDF格式文件,則需要AdobeReader或是CAJViewer,還需要相應(yīng)的轉(zhuǎn)換軟件把格式改為文本格式。

圖1 流程圖

(2)語料庫的設(shè)計。語料庫的設(shè)計首先包括語料的類型問題,以及確定各種語料所占的比例:對于英語專業(yè)四級詞匯學(xué)習(xí)語料庫來說,語料類型豐富,包括人文、地理、歷史、科技、邏輯、新聞等多種類型。設(shè)計時可以大概有一比例,在語料庫建成后可以再進行詳細統(tǒng)計。對于語料的大小,由于此語料庫語料來源有課本、考試和網(wǎng)絡(luò),所以語料長短會有差別,但按照《英語專業(yè)四級考試大綱》的要求,一般語料長度都應(yīng)在500個單詞以上。

語料庫語料的獲取方法問題:此語料庫獲取語料的主要渠道為英語專業(yè)所用教材、專業(yè)四級考試材料和網(wǎng)絡(luò)。因為專業(yè)所用教材是按照《英語專業(yè)四級考試大綱》所要求的詞匯進行編寫,所以涉及到了大部分專業(yè)四級詞匯。而《英語專業(yè)四級考試大綱》按照《高等學(xué)校英語專業(yè)教學(xué)大綱》要求編寫而成,并且根據(jù)歷年考試實際情況進行微調(diào),所以試題存在代表性和平衡性。而從網(wǎng)絡(luò)獲取部分語料則是考慮到了英語的實時更新性和與時俱進性。語料是活的,是在不斷更新和進步的。但網(wǎng)絡(luò)獲取我們主要選取了一些權(quán)威網(wǎng)站的語料,這些網(wǎng)站均為英、美主要報刊和雜志,以確保語料的真實性和有效性。

文本的整理和清潔:整理清潔文本的原因是由于通過鍵盤錄入、掃描識別、網(wǎng)絡(luò)下載或是PDF文件等方式得到的文本,在單詞拼寫、文字符號、空格段落和標(biāo)點符號等方面都存在著一定的問題。如果文本不干凈,會導(dǎo)致后期分析結(jié)果不準(zhǔn)確。圖2和圖3通過文本片段說明這個問題。

圖2 問題文本

在圖2問題文本中,可以看到文本格式存在很多問題:單詞間空格多余、有空段、出現(xiàn)硬回車、出現(xiàn)全角符號等。這樣的文本在后期應(yīng)用中存在諸多問題,通過文本清潔后如圖3所示。

圖3 清潔文本

由于建庫需要大量文本,對于文本出現(xiàn)的格式問題,也可使用軟件“文本整理器”進行批量整理,清潔文本。文本處理器的功能如圖4所示。但仍有可能存在文本不清潔的問題。這時候則需要借助正則表達式進行進一步清理。

(1)在AntConc主界面File菜單中Open File中瀏覽并選定文本。如果需要選擇某一文件夾下所有文本,則在File菜單中選擇“Open Dir…”,瀏覽并選定文件夾。如圖 5所示。

圖5 操作頁面一

圖4 文本處理器的功能

文本的標(biāo)注。語料庫標(biāo)注的深度,取決于語料庫建設(shè)的設(shè)計目標(biāo)和研究需求。語料庫既可以不加任何標(biāo)注,也可以添加多層次標(biāo)注。標(biāo)注信息的復(fù)雜程度決定了技術(shù)要求和研發(fā)成本的提高。目前的標(biāo)注語言多采用Extensible Mark-up Language(簡稱XML)。此語言靈活度高、擴展性強、句法嚴(yán)謹(jǐn)。由于篇幅所限,標(biāo)注問題另行撰文。

2.3 語料庫的檢索

語料庫建設(shè)完成后。可以利用 AntConc進行簡單檢索。激活軟件后,按以下步驟操作:

(2)點擊AntConc主界面上方的Conco rdance選項,在檢索項中輸入需要檢索的四級詞匯。如圖6所示。在檢索項輸入框上方的檢索模式區(qū)域進行選擇。如只想了解選定詞的準(zhǔn)確形式,就選擇“wo rds”模式下檢索;如想檢索詞綴則在“Regex”模式下能得到較為理想的結(jié)果?;蛘?可以利用通配符來滿足多種檢索需要。如需進行復(fù)雜檢索,仍需使用正則表達式進行。

圖6 操作頁面二

3 結(jié)語

語料庫在外語教學(xué)和研究中發(fā)揮著越來越重要的作用。相應(yīng)的對于語料庫的設(shè)計、軟件開發(fā)和應(yīng)用也會得到促進和發(fā)展。這需要英語專業(yè)和計算機專業(yè)人員相結(jié)合,共同進行語料庫開發(fā)和建設(shè)。

(責(zé)任編校:李聰明)

The Design and Techn ical Realization of TEM 4 Vocabulary Corpus Based on Autonomous Learn ing

LIWen-lianga,FU Hai-chenb

(a.Department of Foreign Languages Tangshan College,Tangshan 063000,China;b.Department of Computer Sciences Tangshan College,Tangshan 063000,China)

The paper analyzes the construction of TEM 4 vocabulary corpus from the perspectives of the p recondition,the design and technical realization and the searching based on autonomic learning.

corpus;design;technical realization;searching

H319.3

A

1672-349X(2010)05-0090-02

2010-08-20

河北省教育廳立項課題(SZ091120)

李文良(1962-),男,教授,碩士,主要從事英語語言文學(xué)教學(xué)與研究。

猜你喜歡
語料語料庫英語專業(yè)
《語料庫翻譯文體學(xué)》評介
把課文的優(yōu)美表達存進語料庫
基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
“產(chǎn)出導(dǎo)向法”在英語專業(yè)寫作教學(xué)中的應(yīng)用
新時代下高職高專非英語專業(yè)寫作教學(xué)改革之探索
華語電影作為真實語料在翻譯教學(xué)中的應(yīng)用
基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現(xiàn)
語言與翻譯(2015年4期)2015-07-18 11:07:45
《苗防備覽》中的湘西語料
國內(nèi)外語用學(xué)實證研究比較:語料類型與收集方法
語料庫語言學(xué)未來發(fā)展趨勢
喀什市| 曲水县| 栾川县| 阳朔县| 江永县| 无棣县| 阿拉善盟| 肇州县| 德令哈市| 靖安县| 安宁市| 定襄县| 漠河县| 黄浦区| 宁国市| 岑溪市| 贵港市| 英山县| 南华县| 延寿县| 辉南县| 丰台区| 视频| 太保市| 新竹县| 隆德县| 兴义市| 华安县| 平罗县| 临清市| 温泉县| 措勤县| 永泰县| 仁布县| 荥阳市| 桃园市| 涡阳县| 景德镇市| 常德市| 田阳县| 平南县|