唐瑩瑩
(合肥工業(yè)大學(xué) 外語學(xué)院大外部,安徽合肥230009)
“校本”是教育領(lǐng)域常用的詞匯,意思是以學(xué)校為本,鄭金洲認(rèn)為它包含三個(gè)層次的含義:一是為了學(xué)校;二是在學(xué)校中;三是基于學(xué)校[1]。校本大學(xué)英語期末測試是一項(xiàng)標(biāo)準(zhǔn)參照的課程學(xué)業(yè)成績測試,由本校教師自主命題,考察學(xué)生英語語言能力,檢測學(xué)生是否掌握課程目標(biāo)規(guī)定的知識(shí)與技能,檢測教師教學(xué)是否達(dá)到教學(xué)目標(biāo)。校本考試是外語教學(xué)中必不可少的環(huán)節(jié),是評(píng)價(jià)教師教學(xué)效果的有效手段。合肥工業(yè)大學(xué)大學(xué)英語課程設(shè)置時(shí)長為兩年,學(xué)生共參加四次校本考試,每次參與人數(shù)近5 000人,在此數(shù)據(jù)基礎(chǔ)上進(jìn)行采樣分析,開展課程測試效度研究,真實(shí)呈現(xiàn)課程教與學(xué)的薄弱環(huán)節(jié),為校本教學(xué)改革提供數(shù)據(jù)支撐及理論依據(jù)。
語言測試的效度指的是“證據(jù)和理論支持考分解釋的程度”[2],雖然效度有多種分類,“但它首先意味著語言測試的效度可以從不同的方面去說明,去驗(yàn)證”[3],驗(yàn)證的過程就是尋找和收集各類效度證據(jù)的過程,如內(nèi)容效度、結(jié)構(gòu)效度、預(yù)測效度和表面效度,甚至信度都是效度證據(jù)的一部分。而測試內(nèi)容效度的分析、測試內(nèi)部結(jié)構(gòu)效度的因子分析和相關(guān)性分析、測試與其它測試之間外部關(guān)聯(lián)分析以及不同被試群體之間成績差異分析等都是收集效度證據(jù)的方法。
本研究采用定量分析的方法,運(yùn)用IBM SPSS 21.0統(tǒng)計(jì)分析工具,收集合肥工業(yè)大學(xué)2019年7月二級(jí)大學(xué)英語期末考試的數(shù)據(jù),分析考試信度、難度、考試各部分成績的相關(guān)性及不同被試群體成績差異,以此為基礎(chǔ),研究驗(yàn)證本次考試的效度。
本次測試對象為2018級(jí)大學(xué)英語二級(jí)學(xué)生,他們在入學(xué)分級(jí)考試后被編入一級(jí)班,現(xiàn)已進(jìn)行了一年的大學(xué)英語學(xué)習(xí)。測試時(shí)長為120分鐘,滿分100分,試卷命題由大外部和任課老師分工完成,聽力理解試題由大學(xué)外語教學(xué)部(簡稱“大外部”)確定,其他試題由任課老師擬定,均交由教研室主任審核后確定試卷內(nèi)容??陀^題由計(jì)算機(jī)批改,主觀題由兩位老師評(píng)閱,一人評(píng)分一人復(fù)核,對有異議的成績,由兩位老師審議核定最終分?jǐn)?shù),以確保成績的準(zhǔn)確性。測試試卷內(nèi)容構(gòu)成情況如表1所示。
本次測試客觀題占總分的65%,內(nèi)容主要包括五個(gè)方面:一是聽力理解,均為多項(xiàng)選擇題,未設(shè)置聽寫和回答等語言產(chǎn)出性題目。二是篇章匹配,將篇章文末的句子與篇章段落相匹配,考查學(xué)生的篇章理解能力。三是閱讀理解,這是傳統(tǒng)題型,測試內(nèi)容與社會(huì)生活密切相關(guān),考察學(xué)生閱讀信息的獲取能力。四是翻譯,題型為五個(gè)獨(dú)立互不相關(guān)的單句,考查學(xué)生掌握所學(xué)詞匯和句子結(jié)構(gòu)情況。五是寫作,寫作范式為提綱式三段文章,考查學(xué)生掌握英語寫作基本規(guī)則情況及主題句寫作能力。
參加本次考試的學(xué)生總數(shù)為3 611名,獲得有效數(shù)據(jù)考生數(shù)為3 024名。信度是效度驗(yàn)證的重要證據(jù),首先對3 024名考生的成績進(jìn)行信度計(jì)算,得出Cronbachα值為0.752,顯示本次考試信度較理想。單樣本Kolmogorov‐Smirnor正態(tài)檢驗(yàn)結(jié)果顯示本次考試各部分成績及總分為正態(tài)分布,各部分K‐S的檢驗(yàn)Z值分別為:聽力3.01,篇章匹配17.28,閱讀理解3.65,翻譯7.91,寫作8.27,總分3.45,P=0.000。為研究本次考試學(xué)生成績的分布情況,對考試數(shù)據(jù)進(jìn)行描述統(tǒng)計(jì),計(jì)算各部分的均值、標(biāo)準(zhǔn)差、峰態(tài)系數(shù)、偏態(tài)系數(shù),得到總分均值M=64.15,標(biāo)準(zhǔn)差SD=11.61,難度系數(shù)為0.67,顯示考試總體難度適中且稍偏易??荚嚦煽兎治鼋Y(jié)果如表2所示。
表1 2018級(jí)大學(xué)英語二級(jí)考試的內(nèi)容與形式
表2 考試成績描述性統(tǒng)計(jì)結(jié)果及難度分布(n=3 024)
從各部分成績的描述性統(tǒng)計(jì)結(jié)果來看,學(xué)生得分最高的為篇章匹配M=9.19,SD=1.37,難度系數(shù)0.92表明該題幾乎沒有難度,考生平均得分已超過該題總分90%以上,顯示這項(xiàng)測試未能有效測量學(xué)生的閱讀技能。學(xué)生得分最低的為閱讀理解M=15.18,SD=4.57,難度系數(shù)為0.50,平均得分為該題總分的50%。學(xué)生的聽力成績M=13.68,SD=4.13,平均得分為該題總分的55%,高于閱讀理解成績,這超出了我們的預(yù)期。一般情況下,我國學(xué)生英文閱讀理解能力強(qiáng)于聽力理解能力,出現(xiàn)這種情況應(yīng)該和題目難度有關(guān),但也說明現(xiàn)在學(xué)生很重視聽力技能的練習(xí),“聾子”英語的情況有所改善。翻譯和寫作的難度系數(shù)達(dá)到了0.71和0.77,說明題目略偏易,教師判分標(biāo)準(zhǔn)可能較寬,也可能學(xué)生對寫作話題比較熟悉,表達(dá)比較充分,而翻譯題部分來自課文內(nèi)容,學(xué)生對所學(xué)詞匯和結(jié)構(gòu)記憶清晰,也易得分。本次試卷五部分中,篇章匹配難度系數(shù)超過0.9,翻譯和寫作難度系數(shù)超過0.7,這兩部分著重考查學(xué)生語言運(yùn)用能力,偏易試題不能準(zhǔn)確有效地考查出學(xué)生能力。一份高質(zhì)量的試卷,難度系數(shù)高于0.7或低于0.3的試題不宜過多,否則難以考查學(xué)生實(shí)際語言能力。
“結(jié)構(gòu)效度是測試對所假定的語言能力理論模型的體現(xiàn)程度”[4],即考試的原則理論效度,是各種效度的根本,其核心是顯示分?jǐn)?shù)意義及能夠被解釋為語言能力的標(biāo)志。常用的實(shí)證方法是,通過計(jì)算組成測試各部分之間的相互關(guān)聯(lián)性檢驗(yàn)測試結(jié)構(gòu)效度的高低。楊惠中和Weir通過研究得出,在語言測試中試題各部分之間的相關(guān)系數(shù)在0.3和0.7之間是合適的,如果兩個(gè)部分之間的相關(guān)系數(shù)太低,則說明兩者考查的是完全不同的能力,而太高則說明這兩部分考查的是相同的能力[5]。
本次結(jié)構(gòu)效度的分析采用定量方法,即分析試卷各部分與總分及各部分相互之間的相關(guān)系數(shù)。分析結(jié)果顯示,考試各部分之間以及各部分和總分之間的相關(guān)都在0.01水平上顯著,其相關(guān)系數(shù)Pearson’sr計(jì)算結(jié)果如表3所示。
表3 各組成部分的相關(guān)矩陣(n=3 024)
從表3的相關(guān)系數(shù)可以看到考試各部分與總分的相關(guān)系數(shù)在0.47~0.78之間,根據(jù)經(jīng)典測試?yán)碚?,“各部分和總分的相關(guān)系數(shù)可能被期望達(dá)到0.7或更高,因?yàn)榭偡质菍φZ言能力的綜合測量”[6]。在各部分與總分的相關(guān)中,閱讀理解與總分的相關(guān)系數(shù)最大r=0.78,相關(guān)性最高。其次為聽力r=0.71,相關(guān)性顯著,但是篇章匹配、翻譯和寫作與總分的相關(guān)性雖然也在0.01的水平上顯著,但相關(guān)系數(shù)都低于0.7,表明這些測試部分對總分的解釋有貢獻(xiàn),但沒有達(dá)到經(jīng)典測試?yán)碚撍谕闹笜?biāo)。這表明,閱讀理解和聽力對總分的解釋力最強(qiáng),而篇章匹配的解釋力最弱。
Alderson等人認(rèn)為,不同題型所考核的語言能力不同,各部分的相關(guān)系數(shù)不應(yīng)太高,也不應(yīng)太低,在0.3~0.7之間是合適的,這與楊惠中和Weir的研究結(jié)論相一致。本次考試各部分之間的相關(guān)系數(shù)沒有超出r=+0.7,表明本次考試未出現(xiàn)相同能力測試,其中聽力和閱讀理解、閱讀理解和翻譯及寫作的相關(guān)系數(shù)達(dá)到+0.3,翻譯和寫作的相關(guān)性最高r=0.50,都在合適的范圍之內(nèi)。但是聽力與各部分以及篇章匹配與各部分之間的相關(guān)系數(shù)較低r=+0.2(只有聽力和閱讀理解的相關(guān)系數(shù)r=0.37),這種較低的相關(guān)性說明它們和其它各部分考查的語言能力有較大差異,而篇章匹配與所有各部分的相關(guān)系數(shù)都較低,與總分的相關(guān)性只有0.47,表明這部分試題的測試內(nèi)容沒有達(dá)到課程教學(xué)目標(biāo)的要求,有待修訂和提高。
為了解不同性別、不同專業(yè)背景的學(xué)生在考試分?jǐn)?shù)上是否存在顯著差異,我們采用SPSS中的方差分析。方差分析是用于檢驗(yàn)兩組或者兩組以上樣本的均值是否具備顯著性差異的一種數(shù)理統(tǒng)計(jì)方法。在進(jìn)行分析之前,先將考生按性別分成兩組,合肥工業(yè)大學(xué)是以工科見長的學(xué)校,3 024名考生中女生為475人。Levene’s Test對性別方差齊性檢驗(yàn)結(jié)果為P=0.141,表明方差為齊性,對男女生成績進(jìn)行單因素方差分析,結(jié)果顯示,男女生的總分差異顯著F(1,3023)=15.445,P=0.000,如圖1所示。
圖1 男女生總分差異圖
各部分得分上,男女生在聽力F(1,3023)=10.96,P=0.001、閱讀理解 F(1,3023)=6.774,P=0.009、篇章匹配F(1,3023)=5.571,P=0.018、翻譯F(1,3023)=5.900,P=0.015 和寫作 F(1,3023)=5.112,P=0.024的考試成績上存在顯著差異,通過對各部分成績均值的計(jì)算,女生成績每項(xiàng)皆高于男生成績。這一結(jié)果表明,傳統(tǒng)語言教學(xué)觀所認(rèn)為的女性具有語言學(xué)習(xí)的先天優(yōu)勢是不爭的事實(shí)。那么經(jīng)過兩年英語學(xué)習(xí),男生會(huì)有怎樣的提升值得我們做進(jìn)一步的跟蹤研究。
另外,抽選了儀器、機(jī)械、電子、管理和思政五個(gè)不同專業(yè)1 128名(男女生混合)考生成績,通過對數(shù)據(jù)的單因素方差分析,探討此變量是否造成不同專業(yè)考生成績顯著差異。選擇這五個(gè)專業(yè)是考慮到思政專業(yè)代表文科,管理專業(yè)包括工商管理、會(huì)計(jì)學(xué)、電子商務(wù)等,可以將其看作商科,在以工科為主的學(xué)校,這兩個(gè)專業(yè)比較有特點(diǎn),可使樣本具有多樣性。Levene’s Test檢驗(yàn)結(jié)果P=0.103,方差分析結(jié)果顯示五個(gè)不同專業(yè)的考生在總分F(4,1127)=4.808,P=0.001上成績差異顯著,如圖2所示。
圖2 不同專業(yè)方差分析圖
方差分析結(jié)果表明,五個(gè)不同專業(yè)的考生在聽力F(4,1127)=1.346,P=0.251、篇章匹配F(4,1127)=2.881,P=0.022、閱 讀 理解 F(4,1127)=1.946,P=0.101三個(gè)部分的考試成績上不存在顯著差異,但是翻譯F(4,1127)=15.227,P=0.000和寫作F(4,1127)=4.518,P=0.001這兩部分成績差異顯著。數(shù)據(jù)分析結(jié)果表明,不同專業(yè)學(xué)生在綜合語言運(yùn)用能力上差異較大。
從圖2的總分均值圖可看出,思政專業(yè)學(xué)生成績顯著高于其它四個(gè)專業(yè)學(xué)生,但商科(管理專業(yè))學(xué)生成績在五個(gè)專業(yè)中最低,這是沒有預(yù)料到的。在合肥工業(yè)大學(xué)英語教學(xué)中,管理專業(yè)學(xué)生外語學(xué)習(xí)表現(xiàn)一直良好,而機(jī)械專業(yè)學(xué)生英語基礎(chǔ)相對薄弱,成績不理想,但此次測試成績大幅提高,僅次于文科的思政專業(yè),測試結(jié)果與教師的一般認(rèn)識(shí)存在巨大反差。因而,堅(jiān)持收集全校規(guī)模的期末考試結(jié)果數(shù)據(jù)并加以分析,對不同專業(yè)學(xué)生英語學(xué)習(xí)狀態(tài)和變化情況形成全面認(rèn)知,有助于教師發(fā)現(xiàn)問題,有針對性地調(diào)整教學(xué)安排,提高教學(xué)質(zhì)量,從而更好地完成教學(xué)任務(wù)。
根據(jù)對合肥工業(yè)大學(xué)2018級(jí)大學(xué)英語二級(jí)期末考試學(xué)生成績的分析研究,筆者對校本英語教學(xué)及測試提出以下幾點(diǎn)思考及建議:
第一,測試試題難易程度應(yīng)適中。學(xué)業(yè)成績測試不是確定學(xué)生的水平層級(jí),而是了解學(xué)生語言知識(shí)與技能的掌握情況,檢查教學(xué)效果是否達(dá)到預(yù)期目標(biāo)。因而試題的難度應(yīng)適中,標(biāo)準(zhǔn)差值應(yīng)小一些,不能太大。本次測試試題整體標(biāo)準(zhǔn)差值是11.61,說明考生分?jǐn)?shù)分布范圍較廣,水平差異較大。這給予我們?nèi)缦聠⑹荆菏紫龋1究荚囋O(shè)計(jì)要契合學(xué)生語言能力實(shí)際狀況。依照課程內(nèi)容或教學(xué)大綱制定考試命題細(xì)則,確保試題難易適中,不偏離考生實(shí)際語言能力,使考試更好地為教學(xué)提供積極正面的反撥作用,以改進(jìn)教學(xué),提高教學(xué)質(zhì)量。其次,日常教學(xué)中閱讀理解與聽力訓(xùn)練需待加強(qiáng)。本次考試閱讀理解部分學(xué)生得分不理想,在以后教學(xué)中應(yīng)加強(qiáng)學(xué)生閱讀技能訓(xùn)練和批判性思維的培養(yǎng),同時(shí)多關(guān)注學(xué)生的聽力學(xué)習(xí)情況,掌握學(xué)生的實(shí)際聽力理解水平,觀察學(xué)生成績的變化情況,對教學(xué)作出進(jìn)一步調(diào)整。最后,命題教師理論素養(yǎng)有待提升。命題人(這里特指大學(xué)英語教師)是考試質(zhì)量控制環(huán)節(jié)中最重要的一環(huán),他們除了符合專業(yè)能力要求外,還應(yīng)具備測試科學(xué)知識(shí),學(xué)?;蛟合祽?yīng)對教師進(jìn)行專門培訓(xùn)和考核,使命題人在測試?yán)碚摰闹笇?dǎo)下,有組織地進(jìn)行考題的統(tǒng)一設(shè)計(jì)和生產(chǎn),使學(xué)業(yè)成績測試具有規(guī)范性和科學(xué)性。
第二,加強(qiáng)校本測試體系的建設(shè)。語言測試是科學(xué)研究的對象,我們應(yīng)重視校本測試體系的建設(shè),充分發(fā)揮測試指揮棒的作用,讓學(xué)生在考試中真正學(xué)會(huì)運(yùn)用各項(xiàng)語言技能,把考試設(shè)計(jì)成有積極反撥效度的考試,以外部因素激發(fā)學(xué)生內(nèi)在學(xué)習(xí)動(dòng)機(jī),培養(yǎng)學(xué)生英語自主學(xué)習(xí)和終身學(xué)習(xí)能力。作為教師應(yīng)該學(xué)習(xí)必要的語言測試知識(shí),掌握基本的測試研究方法,應(yīng)意識(shí)到每次考試不僅僅只是將分?jǐn)?shù)提交給學(xué)生,而應(yīng)該將考試的各類數(shù)據(jù)收集起來,對數(shù)據(jù)進(jìn)行整理、計(jì)算、分析和解釋,通過對考試的相關(guān)研究獲得新的發(fā)現(xiàn),獲取有價(jià)值的信息,不斷完善下一階段的教學(xué)與學(xué)業(yè)考試。
第三,根據(jù)方差分析結(jié)果開展分層教學(xué)。男女生和不同專業(yè)學(xué)生之間考試成績的差異不容忽視,本次參加測試的是分級(jí)后被編在同一級(jí)別的考生,且經(jīng)過一年大學(xué)英語課程學(xué)習(xí),但是他們各項(xiàng)語言能力差異仍然較大,成績離散度較高,這使得課堂教學(xué)難以很好地照顧到不同水平的學(xué)生。筆者建議在經(jīng)過一年的學(xué)習(xí)后,根據(jù)考試分?jǐn)?shù)將成績差異較大的學(xué)生重新劃分再組合,對基礎(chǔ)薄弱的學(xué)生著重補(bǔ)缺補(bǔ)差,加強(qiáng)語言知識(shí)的教學(xué)。對成績較好的學(xué)生,教學(xué)重點(diǎn)則應(yīng)調(diào)整為進(jìn)一步提高他們的語言水平,重視學(xué)生產(chǎn)出性語言能力的培養(yǎng),提高學(xué)生語言的綜合運(yùn)用能力。
本次針對合肥工業(yè)大學(xué)的一次期末測試數(shù)據(jù)進(jìn)行統(tǒng)計(jì)和分析,在一定程度上對考試的效度進(jìn)行了研究,大學(xué)英語測試和大學(xué)英語教學(xué)相互聯(lián)系、相互影響,對教學(xué)產(chǎn)生積極的反撥作用,是檢測教學(xué)質(zhì)量的一種有效手段。因此對校本英語測試進(jìn)行多角度多層次的全面研究是很有必要的。