漢語二語教師評估工具建構(gòu)能力初探

2016-05-14 12:36李春琳

現(xiàn)代語文(教學(xué)研究) 2016年5期

前言

測試工具的建構(gòu)是教師評估能力的核心維度，而測試卷的設(shè)計(jì)是典型的測試工具構(gòu)建行為。本文通過對漢語二語綜合課的期末試卷進(jìn)行項(xiàng)目難度和區(qū)分度等的數(shù)據(jù)分析，發(fā)現(xiàn)測試卷的整體構(gòu)念和單項(xiàng)選擇題干擾項(xiàng)的設(shè)計(jì)等具有不同程度的問題，這表明教師的評估能力并不是與生俱來的，也不可能從教學(xué)中自動習(xí)得。而針對性強(qiáng)、注重實(shí)踐的教師評估能力課程是系統(tǒng)提高職前和在職教師評估能力的有效途徑。

Popham（2014）認(rèn)為教師應(yīng)該具備三種評估技能：構(gòu)建評估工具、懂得使用別人構(gòu)建的工具以及根據(jù)評估信息來備課。測試卷的設(shè)計(jì)是典型的測試工具構(gòu)建行為。在對外漢語教學(xué)中，教師需要構(gòu)建評估工具來衡量課程效度、了解學(xué)習(xí)者學(xué)業(yè)進(jìn)步情況和收集實(shí)證研究數(shù)據(jù)等，并為接下來的課程安排提供證據(jù)。評估工具的構(gòu)建要求教師清晰評估與測試的核心理論和基礎(chǔ)概念，并熟悉評估工具構(gòu)建的每個步驟的理論含義。這就說明評估工具建構(gòu)能力的形成會遇到理論與實(shí)踐結(jié)合帶來的挑戰(zhàn)。本文通過對廣東省某高校綜合漢語課的期末試卷進(jìn)行宏觀和微觀的項(xiàng)目分析，來管窺漢語二語教師評估工具構(gòu)建能力的現(xiàn)狀。

一、研究背景

Grabowski & Dakin（2014）提出的測試模型認(rèn)為編寫測試卷需要經(jīng)歷三個步驟（如圖一）：確定測試構(gòu)念、確定目標(biāo)語使用域和編寫測試規(guī)范整合測試細(xì)節(jié)。

首先是確定測試的構(gòu)念?！皹?gòu)念”（ construct）是指一種心理構(gòu)想，是對不能直接測量或觀察的人類行為的理論設(shè)想。構(gòu)念的例子有動機(jī)、焦慮、閱讀理解能力等（ Ebel & Frisbie 1991，轉(zhuǎn)引自Alderson 2000： 183）。構(gòu)念的確定是為了確保測試能夠獲取學(xué)習(xí)者語言能力和知識的準(zhǔn)確信息（Grabowski & Dakin 2014）。如果測試能夠有效測量所要了解的能力（ ability，or construct，or trait），那么該測試就與其構(gòu)念吻合，達(dá)到了預(yù)期目的，具有“構(gòu)念效度”?！皹?gòu)念效度”是指根據(jù)測試分?jǐn)?shù)對假設(shè)的能力做出推論的程度（肖維青 2012：109-112）。簡而言之，構(gòu)念效度主要從理論上回答，應(yīng)該測試哪些能力和是否測試了應(yīng)測的能力。

第二步為確定目標(biāo)語言最終使用的情境（TLU Domain），即學(xué)習(xí)者學(xué)得的語言最終會用到什么情境。例如對外漢語教學(xué)中，學(xué)習(xí)者學(xué)漢語是為了從事貿(mào)易，還是將來要進(jìn)行漢語的學(xué)術(shù)研究。這一點(diǎn)是為了確保測試任務(wù)的真實(shí)性，使得測試能夠達(dá)到評估和促學(xué)的功能。

第三步是對測試的格式和具體內(nèi)容的確定。一般是基于教學(xué)大綱或者教學(xué)情境中的其他關(guān)鍵特征，這一點(diǎn)旨在保證測試質(zhì)量，確保測試公正有效。（Alderson2000）考試規(guī)范（ test specification）的制定是命題教師在考試命題前所做的必要準(zhǔn)備，對考什么和如何考做出詳細(xì)描述，并書寫編輯成正式的文件。考試規(guī)范的制定包含以下內(nèi)容：測試目的、測試范疇、考試對象、考試內(nèi)容、考試方式、考試題型、試卷結(jié)構(gòu)及分值、評分標(biāo)準(zhǔn)等（Alderson 2000）。

在此模型中，測試構(gòu)念和目標(biāo)語使用域是編寫測試的基礎(chǔ)，唯有對二者有清晰地認(rèn)識和把握，測試卷才可能有效的測量目標(biāo)語言能力。本文以廣東省某大學(xué)漢語二語綜合課期末考試的試卷為分析材料，對其進(jìn)行項(xiàng)目分析（item analysis），反觀教師設(shè)計(jì)測試時對測試構(gòu)念、目標(biāo)語使用域的理解，以期發(fā)現(xiàn)漢語二語教師構(gòu)建評估工具時的特點(diǎn)。具體而言，本研究旨在回答兩個研究問題：

1.漢語二語綜合課試卷的構(gòu)念和目標(biāo)域是否能夠保證綜合漢語課的測試效度？

2.項(xiàng)目分析體現(xiàn)出漢語二語教師評估工具建構(gòu)能力的哪些問題？

二、漢語二語綜合課期末考試試卷數(shù)據(jù)分析結(jié)果

該期末考試的試卷是幾位任課教師合作編寫，完成初稿后，再進(jìn)行討論，最后對試卷的整體構(gòu)成進(jìn)行調(diào)整完成的。

該考試的測試對象是來自八個不同國家的16名留學(xué)生（見表一）。

從考試分?jǐn)?shù)分布可以看出，分?jǐn)?shù)基本處于正態(tài)分布，56%的學(xué)生八十分以上，初步發(fā)現(xiàn)試卷偏易。

通過進(jìn)一步的難度系數(shù)分析（正確項(xiàng)目數(shù)/項(xiàng)目總數(shù)），發(fā)現(xiàn)試題整體難度偏低（詳細(xì)數(shù)據(jù)見表三）。一般來說，難度系數(shù)高于0.8的屬于簡單；0.5難度適中；低于0.3屬于難。而本卷平均難度系數(shù)為0.75，偏易。

區(qū)分度是指試題能夠?qū)⒏叻謱W(xué)生和低分學(xué)生區(qū)別開的能力。0.3為臨界值，高于0.3都視為區(qū)分度良好，低于0.3高于0.2，可進(jìn)行修改測試項(xiàng)，改進(jìn)題目區(qū)分度；區(qū)分度低于0.2的測試項(xiàng)應(yīng)當(dāng)刪除。從數(shù)據(jù)可知本卷區(qū)分度良好。

三、討論

針對前文提出的兩個研究問題，討論部分將對試卷的底層構(gòu)念和任務(wù)類型進(jìn)行逐一分析。

（一）試卷的構(gòu)念和目的語使用域

根據(jù)Grabowski & Dakin（2014）的回顧，確定測試構(gòu)念的方法有以下兩種。第一種是以理論為基礎(chǔ)定義語言測試構(gòu)念，這種方法一般都運(yùn)用于編寫語言能力測試。這種情況下，語言能力被定義為不同的語言技能（聽說讀寫）或者語言成分（語法、詞匯和語音等），或者二者結(jié)合。另一種構(gòu)念界定是使用大綱、教材以及教學(xué)目標(biāo)等材料作為決定測試形式和內(nèi)容的基礎(chǔ)。這種情況下，測試的構(gòu)念是基于不同的教學(xué)標(biāo)準(zhǔn)或者學(xué)習(xí)標(biāo)準(zhǔn)的。理想試卷構(gòu)念來自于學(xué)習(xí)標(biāo)準(zhǔn)和某一個語言學(xué)習(xí)理論相結(jié)合。前文提到的構(gòu)念效度具體而言是指教師編寫測試時計(jì)劃達(dá)到的目的（構(gòu)念）與測試卷實(shí)際測試得出的結(jié)果必須是匹配的。如果不是，測試卷的效度就有問題。例如測試任務(wù)（要求學(xué)生寫出生詞的意思）和測試的目的（寫作能力測試）沒有呈現(xiàn)出必然的聯(lián)系，那么測試的效度就值得懷疑。

就目前漢語綜合課（中級）的構(gòu)念界定而言，編寫測試的教師應(yīng)該考慮以下問題：中級學(xué)生綜合語言技能應(yīng)該處于什么水平？這個學(xué)習(xí)水平階段綜合語言能力應(yīng)該包含哪些獨(dú)立的語言能力？學(xué)習(xí)者之間的差別有可能體現(xiàn)在什么方面？由于試卷測試的是綜合語言技能，理論上，測試卷應(yīng)涵蓋聽說讀寫技能的考察以及正確使用語法、詞匯、漢字和語音等能力的評估。另外，很重要的一方面是確定目標(biāo)與將來可能會用到的場景，設(shè)計(jì)相關(guān)的測試任務(wù)，測試學(xué)習(xí)者語言應(yīng)用能力，并反過來引導(dǎo)學(xué)習(xí)者在今后的學(xué)習(xí)中關(guān)注這些使用語言的場景和技巧。

從本試卷的測試構(gòu)念（見表四）來看，共有六道大題是針對學(xué)習(xí)者詞匯能力的，可見該測試的重心是“詞匯能力”。整個試卷并未出現(xiàn)單獨(dú)的聽力、口語和寫作能力的測試部分，也沒有專門針對學(xué)生的實(shí)際場景語言運(yùn)用能力的試題。后來通過郵件采訪教授此課的教師得知：“有專門的聽說課和寫作課，所以就沒有在綜合課里再單獨(dú)測試這幾項(xiàng)能力了”。實(shí)際上，綜合語言技能并非單個語言技能的簡單疊加，而是各個方面的有機(jī)合成（Lia 2013）。因此綜合課中聽說讀寫能力與分項(xiàng)技能課中的語言能力構(gòu)念是不同的，不可以簡單的等同和互換。

本測試卷未涉及交際能力或者語用能力，沒有考慮目標(biāo)語使用域，構(gòu)念效度未達(dá)到理想的狀態(tài)，對學(xué)習(xí)者的綜合語言能力預(yù)測價值有待商榷，對未來促學(xué)效應(yīng)不確定。

（二）試題任務(wù)類型

測試任務(wù)通常分為兩類：選擇題型（selected response）和建構(gòu)題型（constructed response）。選擇題型主要包含選擇題（填空和單項(xiàng)選擇等）、連線題和是非題。建構(gòu)題型可以進(jìn)一步的分為短建構(gòu)題和長建構(gòu)題。典型的短建構(gòu)題包含簡短問答、完形填空（用短句填空）和完成對話題。最常見的長建構(gòu)題是讀完文章之后完成寫作或者口語任務(wù)。由于兩類題型測試效度各不相同，一份高質(zhì)量的測試卷應(yīng)該包含不同的測試題型。

該卷的選擇題明顯偏多（見表五），占總數(shù)的81.25%，優(yōu)點(diǎn)是可以提高評卷效率，并且考試信度較高。但是，建構(gòu)題型效度更穩(wěn)定，也就是說，對于預(yù)測學(xué)習(xí)者語言能力方面，建構(gòu)題更好。因此，適量提高建構(gòu)題型的比例很有必要。

另外，測試任務(wù)的選擇要遵循兩個“一致”的原則（Grabowski & Dakin 2014）：和課堂任務(wù)一致、和真實(shí)生活中語言使用一致。其中，第二點(diǎn)強(qiáng)調(diào)任務(wù)的真實(shí)性，關(guān)注測試任務(wù)的目的語使用域。根據(jù)教師采訪得知，測試的題型與平時課堂訓(xùn)練相一致。但是，該卷測試項(xiàng)并未考慮與真實(shí)生活場景的語言場景的一致性。在目的語環(huán)境下，留學(xué)生應(yīng)該有大量實(shí)際使用漢語的機(jī)會，像是購物、郵寄和校園內(nèi)各類師生互動，因此也面臨對著實(shí)際交際中的挑戰(zhàn)，例如語用知識的有限和恰切語言形式的選擇等。如果該測試能夠適量添加和實(shí)際語言使用相關(guān)的建構(gòu)題型，如根據(jù)場景完成對話題（語用能力典型題型），將會提高學(xué)習(xí)者對目標(biāo)語法結(jié)構(gòu)及語用技能的關(guān)注，進(jìn)而提高學(xué)習(xí)者的交際能力和語用能力。

（三）完形填空題項(xiàng)目分析

為了對試卷的構(gòu)念和目的域有更深地了解，本文選擇該卷中唯一一道綜合技能測試題進(jìn)行細(xì)節(jié)的項(xiàng)目分析。該題為完形填空題，包含一篇短文和六道單項(xiàng)選擇題。

對本文目標(biāo)試卷的完形填空的項(xiàng)目分析結(jié)果（見表六）可見，題目難度為0.31～0.81不等，均在合理范圍內(nèi)，但是區(qū)分度（-0.25-0.75）卻不如人意。題目3和題目6的區(qū)分度出現(xiàn)負(fù)值，這表明高分組的學(xué)生選錯答案，而低分組的學(xué)生卻能做出正確選擇。而題目2和題目4沒有區(qū)分度，即高分組和低分組學(xué)生的對錯率是一樣的。進(jìn)而考察題目四個選項(xiàng)的選擇，發(fā)現(xiàn)題目3的四個選項(xiàng)都為轉(zhuǎn)折連詞，詞匯結(jié)構(gòu)一致，但是正確答案“但是”為高頻詞。語言水平較低的學(xué)習(xí)者會因?yàn)閷υ撛~更有把握做出正確的選擇，而語言水平略高的學(xué)習(xí)者會因?yàn)檫x項(xiàng)過于簡單和明確而產(chǎn)生懷疑，反而會選擇詞匯頻率等級略低的詞匯，比如“即使”和“只要”。如果，四個選項(xiàng)都是一個頻率等級的詞匯有可能可以避免這樣情況的發(fā)生。另外，題目6的四個選項(xiàng)詞性不同，干擾項(xiàng)不符合邏輯。

近年來，越來越多的學(xué)者提出“促進(jìn)學(xué)習(xí)的評估”（Airasian等 2007），呼吁教學(xué)與評估緊密結(jié)合，促進(jìn)學(xué)習(xí)者學(xué)習(xí)效果。評估作為教學(xué)決策的重要證據(jù)，必須和教學(xué)目標(biāo)和語言實(shí)際運(yùn)用緊密結(jié)合，并且評估的結(jié)果要真實(shí)有效?？墒牵瑥谋疚牡脑嚲砦谋痉治龊晚?xiàng)目分析發(fā)現(xiàn)，教師對測試的設(shè)計(jì)原則（測試構(gòu)念和目的語使用域）并未完全貫徹。不難推測，信度和真實(shí)性不高的測試目前并不鮮見，這樣的測試結(jié)果被用來作為下一步教學(xué)決策的證據(jù)，后果堪憂。最直接改善這種現(xiàn)象的方式就是提升教師對評估和測試這一核心概念和理論的學(xué)習(xí)和實(shí)踐。

四、啟示與結(jié)論

從該綜合課試卷項(xiàng)目分析結(jié)果來看，測試卷的編寫并非易事，直接遷移課堂教學(xué)的內(nèi)容很難達(dá)到理想的測試效度。究其原因，教師仍缺乏如何將測試與評估的基本理論概念應(yīng)用到實(shí)踐中的技能與知識。

自二十世紀(jì)九十年代以來，學(xué)者們不斷提出對外漢語教師應(yīng)當(dāng)具備的知識和能力，比如電腦能力（卞覺非 1997）、跨文化交際意識（周健 2004）以及學(xué)生意識、課型意識、目的意識等（李泉 2005），但是都沒有提出對外漢語教師應(yīng)該發(fā)展語言評估能力。

實(shí)際上，不僅對外漢語教學(xué)界對職前教師的評估能力發(fā)展重視不夠，全世界的評估能力培養(yǎng)普遍缺乏（Mertler2004）。主要原因是針對教師評估能力的培訓(xùn)課程的嚴(yán)重匱乏（Mertler 2003）。大部分在職教師都修過學(xué)校開設(shè)的語言測試與評估課程，但是教學(xué)內(nèi)容也大多是與心理測量學(xué)范疇下的語言測試的基本理論有關(guān)（ Jin 2010；Mertler 2003），和教師的實(shí)際需要相去甚遠(yuǎn)。而語言評估與測試領(lǐng)域的著作專業(yè)性太強(qiáng)，使得很多在職教師很難自學(xué)，因此對相關(guān)的評估知識與技能望而卻步（ Taylor 2009）。這使得職前教師的評估能力培訓(xùn)狀況和發(fā)展情況不容樂觀（ DeLuca & Klinger 2013）。

可見，目前提高漢語二語教師評估能力的關(guān)鍵是創(chuàng)造漢語二語教師測試與評估能力的培訓(xùn)機(jī)會。培訓(xùn)內(nèi)容不僅需要理論和其他外語語種的實(shí)踐經(jīng)驗(yàn)，更需要有針對漢語二語教師評估能力發(fā)展的切實(shí)需求，建構(gòu)實(shí)踐性和針對性強(qiáng)的培訓(xùn)，以期高效提高漢語二語教師評估工具編寫的能力。

參考文獻(xiàn)：

[1].Alderson，J.C.Clapham，C.& Dianna，W.Language Test Construction and Evaluation[M].Cambridge：Cambridge University Press，2000.

[2].Airasian，P.W.，Engemann，J.F.，Gallagher，T.L.Classroom assessment：Concept and applications[M].Toronto，ON： McGraw Hill，2007.

[3].Deluca，C.& Klinger，D.A.Assement literacy development：Identifying gaps in teacher candidateslearning[J]. Assessment in Education： Principles，Policy and Practice，2013.

[4].Jin，Y.The place of language testing and assessment in the professional preparation of foreign language teachers in China[J].Language Testing，2010，27（4）：555-584.

[5].Lia Plakans，Assessment of Integrated Skills[C].in Carol A.Chapelle（Ed.）The Encyclopedia of Applied Linguistics： 2013：1-8.

[6].Mertler C A.Preservice versus in-service teachers' assessment literacy：Does classroom experience make a difference？ [R].Paper presented at the annual meeting of the Mid-Western Educational Research Association，Columbus，OH，2003.

[7].Mertler C A. Secondary Teachers' Assessment Literacy：Does Classroom Experience Make A Difference？[J].American Secondary Education，2004，33（1）：49-64.

[8]Popham W J.Classroom Assessment：What Teachers Need to Know（7th ed）[M].Boston，MA：Allyn&Bacn，2014.

[9]卞覺非.中國語文現(xiàn)代化：目標(biāo)、現(xiàn)狀與對策[J].揚(yáng)州大學(xué)學(xué)報（人文社會科學(xué)版），1997，（6）.

[10]肖維青.多元素翻譯能力模式與翻譯測試的構(gòu)念[J].外語教學(xué)2012，（33）.

[1]周健.論漢語教學(xué)中的文化教學(xué)及教師的雙文化意識[J].語言與翻譯，2004，（04）.

[12]李泉.對外漢語教學(xué)理論思考[M].北京：教育科學(xué)出版社，2005.

（李春琳中山大學(xué)外國語學(xué)院在讀博士，廣東外語外貿(mào)大學(xué)英語教育學(xué)院 511495）

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

漢語二語教師評估工具建構(gòu)能力初探