国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

TEM-4測(cè)試信度實(shí)證研究
——以2006—2011年TEM-4試題為例

2014-03-23 03:17:54田文燕
關(guān)鍵詞:效度信度外語(yǔ)

田文燕

(五邑大學(xué) 外國(guó)語(yǔ)學(xué)院,廣東 江門 529020)

一、國(guó)內(nèi)語(yǔ)言測(cè)試信、效度研究現(xiàn)狀

評(píng)估語(yǔ)言測(cè)試的主要標(biāo)準(zhǔn)有:信度( reliability)、效度( validity)和可行性(包括難易度、區(qū)分度、可操作性、可重復(fù)性、有益的反撥性、分?jǐn)?shù)的可解釋性、經(jīng)濟(jì)上的可承受性等),其中信度與效度是極其重要的兩個(gè)標(biāo)準(zhǔn)。一個(gè)測(cè)試如果失去信度與效度,其他標(biāo)準(zhǔn)便無(wú)從談起。信度概念是從普通計(jì)量學(xué)引入語(yǔ)言測(cè)試的,稱測(cè)試的可靠性或一致性(consistency)。筆者選取2001—2011年國(guó)內(nèi)10種語(yǔ)言類CSSCI期刊《外語(yǔ)教學(xué)與研究》、《外國(guó)語(yǔ)》、《外語(yǔ)與外語(yǔ)教學(xué)》、《外語(yǔ)界》、《現(xiàn)代外語(yǔ)》、《外語(yǔ)教學(xué)》、《解放軍外國(guó)語(yǔ)學(xué)院學(xué)報(bào)》、《外語(yǔ)學(xué)刊》、《外語(yǔ)研究》、《中國(guó)外語(yǔ)》,其中有關(guān)信度和效度研究方面的文章共計(jì)36篇。從總體上看,其研究的數(shù)量呈上升趨勢(shì)(見(jiàn)圖1)。

圖1 2001—2011年國(guó)內(nèi)10種語(yǔ)言類CSSCI期刊有關(guān)信度和效度研究論文數(shù)量圖

筆者依據(jù)該領(lǐng)域研究的具體內(nèi)容,將該36篇文章分為3大類:語(yǔ)言測(cè)試效度研究的文章有22篇,占總數(shù)的61%;信度研究的文章僅有6篇,占總數(shù)的17%;信、效度均涉及的文章有8篇,占總數(shù)的22%。

36篇文章中, 對(duì)口語(yǔ)測(cè)試(機(jī)考口試)信度及效度研究是最受關(guān)注的。口語(yǔ)測(cè)試作為一種產(chǎn)出性試題, 能夠?qū)忌恼Z(yǔ)言能力進(jìn)行直接的測(cè)試,如果設(shè)計(jì)合理, 能對(duì)教學(xué)起到很好的反撥作用。但是用于大規(guī)模的考試時(shí), 很難保證評(píng)分的一致性和準(zhǔn)確性。因此, 長(zhǎng)期以來(lái), 口語(yǔ)測(cè)試常被排斥于大規(guī)模語(yǔ)言測(cè)試之外。隨著社會(huì)的發(fā)展, 對(duì)英語(yǔ)口語(yǔ)能力的要求以及對(duì)此能力進(jìn)行有效的測(cè)量的要求也越來(lái)越高,有更多專家如:金艷、郭杰克、蔡基剛、龐繼賢、陳嬋、黃永紅、呂長(zhǎng)竑、王海貞、鮑曉英、文秋芳等對(duì)其信、效度進(jìn)行了研究。在語(yǔ)言測(cè)試的主觀測(cè)試題的效度與信度的研究越來(lái)越受到重視的同時(shí),其客觀測(cè)試常用題型的效度研究也受到學(xué)者的關(guān)注,如何勇斌對(duì)聽(tīng)力測(cè)試的研究[1]、徐清平和張延續(xù)的“語(yǔ)法與詞匯” (Grammar and Vocabulary) 的研究[2]、郭麗的完型填空的研究[3]、鄒申、楊衛(wèi)健對(duì)閱讀理解的研究[4-5]等。隨著計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)的飛速發(fā)展,語(yǔ)言測(cè)試的介質(zhì)(medium)也在逐漸發(fā)生變化,出現(xiàn)了由基于計(jì)算機(jī)的語(yǔ)言測(cè)試(CBLT)取代傳統(tǒng)的基于紙筆的語(yǔ)言測(cè)試(PBLT)的趨勢(shì),對(duì)計(jì)算機(jī)化語(yǔ)言測(cè)試的信、效度的研究隨之引起研究者的關(guān)注。

綜上,近十幾年來(lái)有關(guān)語(yǔ)言測(cè)試效度的研究頗豐,但也存在一些不足:1.對(duì)該領(lǐng)域研究?jī)?nèi)容不夠均衡。口語(yǔ)測(cè)試由于受到主觀評(píng)分的影響,其信度較低,從而影響了效度。因此,口語(yǔ)測(cè)試的信度、效度受到了語(yǔ)言測(cè)試專家們的極大關(guān)注,有關(guān)該測(cè)試信度、效度研究的文章也是最多的,占了近三分之一。但筆者認(rèn)為,我們同樣不能忽略對(duì)其他測(cè)試部分信度、效度的研究,只有各個(gè)部分的信度、效度提高了,測(cè)試的整體信度、效度才會(huì)提高。2.對(duì)目前所關(guān)注的形成性評(píng)價(jià)以及教師自行設(shè)計(jì)的期末測(cè)試的信度、效度研究重視不足,所統(tǒng)計(jì)的文章中只有2篇。形成性評(píng)價(jià)以及教師自行編制的期末試題對(duì)教學(xué)會(huì)產(chǎn)生直接的反撥作用,因此,應(yīng)更多關(guān)注形成性評(píng)價(jià)以及教師自行設(shè)計(jì)的期末測(cè)試的信度、效度研究。3.從所發(fā)表的文章來(lái)看,對(duì)測(cè)試信度的研究明顯偏少,只有6篇。其中一篇是對(duì)信度計(jì)算模式的探討,另5篇均是從評(píng)分員角度對(duì)測(cè)試的信度的研究。筆者認(rèn)為,對(duì)于大規(guī)模、高風(fēng)險(xiǎn)測(cè)試有必要進(jìn)行試題的信度研究,以保證測(cè)試的公平性。

二、研究設(shè)計(jì)

(一)語(yǔ)言測(cè)試信度研究

信度研究的種類大致有二:一是試題的信度(test reliability)研究;二是評(píng)分員信度(scorer or rater reliability)研究。目前,國(guó)內(nèi)的語(yǔ)言測(cè)試信度研究基本上是從評(píng)分員角度所進(jìn)行的,研究發(fā)現(xiàn):考官的嚴(yán)厲度、任務(wù)難度、評(píng)分標(biāo)準(zhǔn)和量表等因素都可能產(chǎn)生一定的測(cè)量誤差,從而導(dǎo)致考生的成績(jī)差異[6-10]。筆者擬從受試角度研究TEM4試題所導(dǎo)致的受試成績(jī)的差異。

(二) 研究問(wèn)題

本研究試圖回答以下問(wèn)題:1.2006-2011年6年的TEM-4試題是否存在一致性和穩(wěn)定性?2.6年的TEM-4試卷主觀題部分和客觀題部分是否存在一致性?3.2006-2010年5年的TEM-4的學(xué)生成績(jī)與2011年TEM-4學(xué)生成績(jī)是否存在一致性和穩(wěn)定性?

(三)研究材料和研究對(duì)象

1. 研究材料:2006-2011年連續(xù)6年的TEM-4的試題。本考試除寫作及短文聽(tīng)寫部分為主觀試題外,其余都采取多項(xiàng)選擇題形式。

2.研究對(duì)象:從某校英語(yǔ)專業(yè)09級(jí)(二年級(jí)) 97名學(xué)生當(dāng)中抽取一個(gè)自然班(24名學(xué)生)作為樣本。該校新生分班時(shí)考慮到多種因素,如:性別、地域、高考總分及英語(yǔ)單科成績(jī)等因素,因此,選擇一個(gè)自然班作為研究對(duì)象可排除樣本的不均衡因素。選擇二年級(jí)學(xué)生為研究對(duì)象,主要考慮的是他們自身的特點(diǎn):二年級(jí)學(xué)生即將參加全國(guó)英語(yǔ)專業(yè)四級(jí)考試,對(duì)他們多次進(jìn)行四級(jí)模擬考試,從心理上他們不會(huì)有抵觸和反感;相反,在考試中他們會(huì)積極作答,以檢驗(yàn)自己的水平,積累自己的考場(chǎng)經(jīng)驗(yàn)。因此,在這一層次上抽樣,具有十分重要的意義。

(四)研究步驟

2011年英語(yǔ)專業(yè)四級(jí)考試是在4月16日進(jìn)行。模擬考試具體考試時(shí)間為每周周二(3月1日、3月15日、3月22日、3月29日、4月5日)下午2:30 — 4:45,共135分鐘。學(xué)生答題過(guò)程完全按照英語(yǔ)專業(yè)四級(jí)正式考試步驟進(jìn)行:每位學(xué)生都發(fā)有答題卡,考場(chǎng)放音設(shè)備均提前進(jìn)行檢查,短文聽(tīng)寫及聽(tīng)力部分學(xué)生戴耳機(jī)進(jìn)行??荚嚽案嬖V學(xué)生這五次模擬考試成績(jī)會(huì)計(jì)入平時(shí)成績(jī),要求學(xué)生認(rèn)真作答。為了提高測(cè)試的信度,考前并未告訴學(xué)生所用的是四級(jí)真題,而且所用的試題年份也都進(jìn)行刻意調(diào)整,所采用的順序是:2007年試題(3月1日)、2006年試題(3月15日)、2009年試題(3月22日)、2008年試題(3月29日)、2010年試題(4月5日)。同時(shí),為讓學(xué)生考有所獲,對(duì)考過(guò)的每套試題在同一周周五早上進(jìn)行統(tǒng)一講評(píng)。

(五) 研究數(shù)據(jù)收集

試卷回收后,客觀題部分用閱卷機(jī)統(tǒng)一批閱。為了降低評(píng)分偏差對(duì)測(cè)試信度的影響,主觀題部分(短文聽(tīng)寫和寫作部分)由各個(gè)自然班基礎(chǔ)英語(yǔ)課任課教師批閱,閱卷前閱卷教師認(rèn)真學(xué)習(xí)專業(yè)英語(yǔ)四級(jí)短文聽(tīng)寫和寫作部分的評(píng)分標(biāo)準(zhǔn)。具體收集數(shù)據(jù)見(jiàn)表1和表2,其中表2中24名學(xué)生2011年TEM4的成績(jī)來(lái)源于TEM4考試中心。

表1 24名學(xué)生2006—2010年TEM4 主觀題成績(jī)

表2 24名學(xué)生2006—2010年TEM4 客觀題成績(jī)、總分及2011年TEM4成績(jī)

三、數(shù)據(jù)分析與討論

(一) 2006—2011年6年的TEM-4測(cè)試成績(jī)

為了考察這六年的TEM4試題是否存在一致性和穩(wěn)定性,筆者運(yùn)用SAS(Statistic Analysis System)統(tǒng)計(jì)分析軟件,對(duì)24名學(xué)生2006—2011年的總成績(jī)進(jìn)行了統(tǒng)計(jì)分析,結(jié)果如圖2和表3所示。

圖2 2006—2011年TEM4學(xué)生成績(jī)顯示圖

表3 24名學(xué)生2006年—2011年TEM4成績(jī)名次表

從圖2中可以看出,6條曲線的波動(dòng)是一致的,這說(shuō)明學(xué)生6次整體成績(jī)表現(xiàn)出了一致性和穩(wěn)定性。從表3的統(tǒng)計(jì)結(jié)果上也可以看出,S1、S2、S13、S21、S22這幾名學(xué)生的幾次考試成績(jī)均居前列,S4、S7、S14、S19、S20這幾名學(xué)生的歷次成績(jī)名次幾乎沒(méi)有太大的波動(dòng);24名學(xué)生2006—2010年的幾次模擬考成績(jī)與2011年的TEM4成績(jī)基本上是一致的,幾次成績(jī)具也有極強(qiáng)的相關(guān)性。從以上分析可以看出,2006—2011年TEM4的試題具有較高的信度。

(二) 2006—2011年6年的TEM-4測(cè)試成績(jī)分析

從圖2上看,6條曲線雖然波動(dòng)一致,但最高的一條曲線與最低的一條曲線卻有較大的差距。從語(yǔ)言學(xué)習(xí)的理論和實(shí)踐上看,在一個(gè)多月的時(shí)間內(nèi)學(xué)生的成績(jī)不可能有大幅度的波動(dòng),因此,筆者做了如下統(tǒng)計(jì):

表4 2006年-2011年24名學(xué)生成績(jī)難度值、集中量數(shù)、離散量數(shù)統(tǒng)計(jì)表

從表4可看出,學(xué)生在一個(gè)多月內(nèi)TEM4的成績(jī)由2006年的平均分56.6到2011年的66.2,有接近10分的提升。從數(shù)據(jù)分析上有以下原因:1.2006年及2010年主觀題短文聽(tīng)寫難度較大,其中2006年難度值為0.40,2010年難度值為0.49,這是造成2006年、2010年短文聽(tīng)寫平均分過(guò)低的主要原因;2.從離散量數(shù)全距上看,2006年全距為27,2010年為30,全距過(guò)大也是2006年及2010年平均分較低的原因之一;3.從統(tǒng)計(jì)的標(biāo)準(zhǔn)差來(lái)看,2006年標(biāo)準(zhǔn)差為6.0729,它的離散程度也較大。綜上分析,2006年、2009年試題總體較難。為了避免抽取樣本過(guò)小,筆者調(diào)取該校歷年TEM4過(guò)關(guān)率的數(shù)據(jù),其中2006年為85.71%、2007年為97.85%、2008年為96.92%、2009年為84.38%、2010年為92.08%、2011年為81.63%。全國(guó)高校TEM4過(guò)關(guān)率的統(tǒng)計(jì)為:2006年為55.42%、2007年為59.07%、2008年為61.83%、2009年為58.62、2010年為56.01、2011年為53.63。無(wú)論是該校還是從全國(guó)的TEM4過(guò)關(guān)率的統(tǒng)計(jì)數(shù)據(jù),都與筆者對(duì)試題難易度分析結(jié)果相吻合。

四、結(jié)論

通過(guò)從受試角度對(duì)2006—2011年TEM4試題以及對(duì)所采集的數(shù)據(jù)分析、研究,本文對(duì)擬解決的三個(gè)問(wèn)題做出以下解答:

1.2006-2011年6年的TEM-4試題是否存在一致性和穩(wěn)定性? 研究表明,2006—2011年試題從整體上看具有一致性和穩(wěn)定性。從圖2和表3看,24名學(xué)生的成績(jī)出現(xiàn)高度一致,尤其是S1、S2、S13、S21、S22這幾名學(xué)生的幾次考試成績(jī)均居前列,S4、S7、S14、S19、S20這幾名學(xué)生的歷次成績(jī)名次幾乎沒(méi)有太大的波動(dòng),因此,可以說(shuō)2006—2011年TEM試題具有較高信度。

2.2006-2011年6年的TEM-4試卷主觀題部分和客觀題部分是否存在一致性?從表4看,2006年、2010年的短文聽(tīng)寫部分的難度明顯高于其他年份,難度值分別為0.40、0.49,這是造成這2年短文聽(tīng)寫平均分過(guò)低的主要原因;與其他年份相比,2006年寫作部分也較難,難度值為0.66。因此,從某種程度上說(shuō),TEM4主觀題部分的難度缺少穩(wěn)定性和一致性。而2006—2011年的客觀題部分,從最低客觀題平均數(shù)為32.5(2007年),到最高38.5(2010年),最高和最低之間只差6分,學(xué)生客觀題部分成績(jī)呈現(xiàn)出穩(wěn)定性和一致性,因而TEM4客觀題部分信度較高。

3.2006-2010年5年TEM-4的學(xué)生成績(jī)與2011年TEM-4學(xué)生成績(jī)是否存在一致性和穩(wěn)定性?從表3可以看出,24名學(xué)生2006—2010年的幾次模擬考成績(jī)與2011年的TEM4正式考成績(jī)基本上是一致的。從表4中也能看出,學(xué)生2006—2010年的幾次模擬考總分平均分除了與2006年有較大出入外(相差近10分),其他年份與2011年正式考的總分平均分并沒(méi)有太大的波動(dòng)(相差4.7分)。這說(shuō)明2006-2010年5年的TEM-4的學(xué)生成績(jī)與2011年TEM-4學(xué)生成績(jī)是否存在一致性和穩(wěn)定性,學(xué)生TEM4的考試成績(jī)具有較高信度。

根據(jù)以上研究結(jié)果,本研究對(duì)目前TEM4提出 3點(diǎn)建議:1.TEM4考試屬于尺度參照性標(biāo)準(zhǔn)化考試,而非選拔性考試,因此,為了保證考試的公平性,應(yīng)注意考試難度的一致性,忌難度忽高忽低。尤其是短文聽(tīng)寫和寫作部分,這兩部分分值較大,更應(yīng)有一定的穩(wěn)定性。2.TEM4考試的目的是全面檢查已學(xué)完英語(yǔ)專業(yè)四級(jí)課程的學(xué)生是否達(dá)到教學(xué)大綱所規(guī)定的各項(xiàng)要求,考核學(xué)生運(yùn)用各項(xiàng)基本技能的能力以及學(xué)生對(duì)語(yǔ)法結(jié)構(gòu)和詞語(yǔ)用法的掌握程度,既測(cè)試學(xué)生的綜合能力也應(yīng)測(cè)試學(xué)生的單項(xiàng)技能。筆者認(rèn)為對(duì)英語(yǔ)專業(yè)學(xué)生來(lái)說(shuō),“說(shuō)”的能力是很重要的一項(xiàng)技能,該項(xiàng)測(cè)試應(yīng)盡早納入所有參加TEM4所有考生考試范圍中,避免在教學(xué)中對(duì)學(xué)生各項(xiàng)技能的訓(xùn)練有所偏頗。3.為了使TEM4考試體現(xiàn)其權(quán)威性,真正起到評(píng)估教學(xué)質(zhì)量、推動(dòng)校際交流學(xué)習(xí)的作用,建議進(jìn)一步完善考試題型和方式。應(yīng)多考慮體現(xiàn)英語(yǔ)專業(yè)特色和應(yīng)用能力的測(cè)試題型,以對(duì)低年級(jí)學(xué)生的良好學(xué)風(fēng)和學(xué)習(xí)方法的培養(yǎng)以及對(duì)教學(xué)起到正確的引導(dǎo)和促進(jìn)作用。

參考文獻(xiàn):

[1]何勇斌.聽(tīng)力測(cè)試的構(gòu)想效度及其實(shí)現(xiàn)[J]. 外語(yǔ)教學(xué), 2005(3): 72-74.

[2]徐清平,張延續(xù). 英語(yǔ)專業(yè)四級(jí)考試“語(yǔ)法與詞匯”內(nèi)容效度分析[J]. 外語(yǔ)研究, 2004(2): 57-59.

[3]郭麗. 集庫(kù)式完型填空效度研究[J]. 中國(guó)外語(yǔ), 2010(4): 70-76.

[4]鄒申,張艷莉,周越美. 閱讀測(cè)試中題目類型、策略與分?jǐn)?shù)的關(guān)系——TEM4考試閱讀項(xiàng)目的答題效度研究[J]. 外語(yǔ)與外語(yǔ)教學(xué), 2002(5): 19-22.

[5]楊衛(wèi)健. 英語(yǔ)專業(yè)四級(jí)考試閱讀理解測(cè)試的答題效度驗(yàn)證[J]. 外語(yǔ)教學(xué), 2011(6): 53-56.

[6]何蓮珍,張潔. 多層面Rasch模型下大學(xué)英語(yǔ)四、六級(jí)考試口語(yǔ)考試(CET-SET)信度研究[J]. 現(xiàn)代外語(yǔ), 2008(4): 387-398.

[7]張森,于朋. 大學(xué)英語(yǔ)四級(jí)考試作文網(wǎng)上評(píng)閱信度保障研究[J]. 外語(yǔ)界, 2010(5): 79-86.

[8]劉建達(dá).評(píng)卷人效應(yīng)的多層面Rasch模型研究[J]. 現(xiàn)代外語(yǔ), 2010(2): 185-193.

[9]李航. 基于概化理論和多層面Rasch模型的CET-6作文評(píng)分信度研究[J]. 外語(yǔ)與外語(yǔ)教學(xué), 2011 (5): 51-56.

[10]肖維青. 翻譯測(cè)試的評(píng)分員信度研究——TEM8翻譯項(xiàng)目評(píng)分員問(wèn)卷調(diào)查記略[J]. 外語(yǔ)學(xué)刊,2011,(6): 115-119.

猜你喜歡
效度信度外語(yǔ)
《廣東地區(qū)兒童中醫(yī)體質(zhì)辨識(shí)量表》的信度和效度研究
慈善募捐規(guī)制中的國(guó)家與社會(huì):兼論《慈善法》的效度和限度
外語(yǔ)教育:“高大上”+“接地氣”
海峽姐妹(2018年3期)2018-05-09 08:20:43
大山教你學(xué)外語(yǔ)
大山教你學(xué)外語(yǔ)
科技成果評(píng)價(jià)的信度分析及模型優(yōu)化
體育社會(huì)調(diào)查問(wèn)卷信度檢驗(yàn)的方法學(xué)探索——基于中文核心體育期刊163篇文章分析
被看重感指數(shù)在中國(guó)大學(xué)生中的構(gòu)念效度
外語(yǔ)形成性評(píng)估的效度驗(yàn)證框架
中文版腦性癱瘓兒童生活質(zhì)量問(wèn)卷的信度
盐山县| 芜湖市| 桐乡市| 龙海市| 葵青区| 宁乡县| 京山县| 新干县| 隆尧县| 山东省| 和田县| 安溪县| 阳春市| 黄冈市| 文昌市| 富源县| 双辽市| 新蔡县| 青岛市| 郓城县| 池州市| 海宁市| 徐汇区| 天镇县| 凤翔县| 岑溪市| 桐乡市| 儋州市| 台湾省| 萍乡市| 绥德县| 临泉县| 井研县| 黎城县| 涡阳县| 应城市| 邻水| 名山县| 海淀区| 大埔区| 吴江市|