梅冬琪
(黑龍江大學(xué)劍橋?qū)W院 外語(yǔ)系,黑龍江 哈爾濱 150069)
本文通過(guò)研究大學(xué)英語(yǔ)學(xué)考試大綱,旨在探討大學(xué)英語(yǔ)學(xué)業(yè)考試試卷設(shè)計(jì)效度問(wèn)題,并使考試的形式有利于實(shí)現(xiàn)測(cè)試的目的,使大學(xué)英語(yǔ)考試試卷設(shè)計(jì)盡可能準(zhǔn)確地反映學(xué)生的實(shí)際水平,充分發(fā)揮大學(xué)英語(yǔ)考試的鑒定和激勵(lì)功能。
效度表示一項(xiàng)研究的真實(shí)性和準(zhǔn)確性程度。又稱真確性。它與研究的目標(biāo)密切相關(guān),一項(xiàng)研究所得結(jié)果必須符合其目標(biāo)才是有效的,因而效度也就是達(dá)到目標(biāo)的程度。效度是相對(duì)的,僅針對(duì)特定目標(biāo)而言,因此只有程度上的差別。如用聽寫來(lái)測(cè)量學(xué)生的聽覺能力,其效度也是不理想的,因?yàn)闀嬗涗浻新曊Z(yǔ)言不僅涉及學(xué)生的聽覺能力,而且還與他們的書寫速度、拼寫能力、語(yǔ)法知識(shí)、記憶能力和對(duì)全文的理解能力等有關(guān)。
測(cè)試的效度一般可分為以下幾類:
表面效度(face validity)。指測(cè)試應(yīng)達(dá)到的卷面標(biāo)準(zhǔn),即一套測(cè)試題從表面看來(lái)是否是合適的。例如,若一次閱讀理解力的測(cè)試包括許多受試者沒(méi)有學(xué)過(guò)的方言詞匯,則可認(rèn)為這次測(cè)試缺乏表面效度。表面效度是測(cè)試出受試者正常水平的一種保證因素(Arthur Hughbes,2003,p.26)。
內(nèi)容效度(content validity)。指一套測(cè)試題是否測(cè)試了應(yīng)該測(cè)試的內(nèi)容或者說(shuō)所測(cè)試的內(nèi)容是否反映了測(cè)試的要求,即測(cè)試的代表性和覆蓋面的程度。例如,在成就測(cè)驗(yàn)中,測(cè)驗(yàn)題目是根據(jù)教學(xué)大綱和教材內(nèi)容適當(dāng)抽出的,內(nèi)容效度就是判斷測(cè)驗(yàn)題目(內(nèi)容)是否符合它欲測(cè)的目標(biāo)。由于這種衡量效度的方法必須針對(duì)課程的目標(biāo)和內(nèi)容,以系統(tǒng)的邏輯方法詳細(xì)分析題目的性能,故又稱課程效度或邏輯效度。確定內(nèi)容效度的方法主要有兩種:①專家判斷,即由有關(guān)專家對(duì)測(cè)驗(yàn)題目與原定內(nèi)容范圍的符合性作出判斷;②統(tǒng)計(jì)分析,即以一組被試在取自同樣內(nèi)容范圍的兩個(gè)獨(dú)立測(cè)驗(yàn)上得分的相關(guān)作出估計(jì)。內(nèi)容效度很容易與表面效度相混淆,實(shí)際上兩者意義不同。表面效度指從外表(如測(cè)驗(yàn)的材料及用語(yǔ)、試題的印刷等)直觀地看,測(cè)驗(yàn)題目與測(cè)量目標(biāo)的一致程度,它與內(nèi)容效度所指測(cè)驗(yàn)在實(shí)際測(cè)量上的有效程度不同。從技術(shù)意義上嚴(yán)格地說(shuō),表面效度不是效度,但為了取得被試的信任與合作,表面效度也不可忽視(Arthur Hughbes,2003,p.27)。
編制效度(construct validity)。指一套測(cè)試題的諸項(xiàng)目對(duì)編制該測(cè)試所依據(jù)的理論的各個(gè)基本方面的反映程度。例如,以結(jié)構(gòu)主義語(yǔ)言理論為基礎(chǔ),認(rèn)為系統(tǒng)的語(yǔ)言習(xí)慣是通過(guò)句型而獲得的,那么,強(qiáng)調(diào)詞匯和語(yǔ)法環(huán)境的測(cè)試題目就失去了編制效度(Tim McNamara,2003p.48)。
經(jīng)驗(yàn)效度(empirical validity)。經(jīng)驗(yàn)效度是一種衡量測(cè)試有效性的量度,通過(guò)把一次測(cè)試與一個(gè)或多個(gè)標(biāo)準(zhǔn)尺度相對(duì)照而得出。經(jīng)驗(yàn)效度可分為兩種:一是共時(shí)效度(concurrent validity),即將一次測(cè)試的結(jié)果同另一次時(shí)間相近的有效測(cè)試的結(jié)果相比較,或同教師的鑒定相比較而得出的系數(shù);二是預(yù)測(cè)效度(predictive validity),即將一次測(cè)試的結(jié)果同后來(lái)的語(yǔ)言能力相比較,或是同教師后來(lái)對(duì)學(xué)生的鑒定相比較而得出的系數(shù)。
測(cè)量的各種效度的區(qū)別在于各自強(qiáng)調(diào)的方面不同。一個(gè)測(cè)驗(yàn)可以有多種效度,每種效度視使用者的具體目的而定,因此,一般不存在測(cè)驗(yàn)的統(tǒng)一效度。但各種效度又是相互聯(lián)系和補(bǔ)充的。內(nèi)容效度和構(gòu)想效度既是效標(biāo)關(guān)聯(lián)效度的保證,又須得到它的支持??疾靸?nèi)容效度和效標(biāo)關(guān)聯(lián)效度又有助于確定構(gòu)想效度。一般來(lái)說(shuō),對(duì)某次測(cè)試的效度進(jìn)行檢驗(yàn)時(shí),除了要根據(jù)教學(xué)大綱的要求和觀念有效性的理論對(duì)試卷的內(nèi)容進(jìn)行考查以外,還須采用計(jì)算相關(guān)系數(shù)的定量方法,即計(jì)算出本次試卷與另一份已被確定能正確反映受試者水平的試卷之間的相關(guān)系數(shù)。系數(shù)高則有效性大。課堂測(cè)試的效度應(yīng)在0.4-0.7之間,規(guī)模較大的測(cè)試其效度應(yīng)在0.7以上(Tim Mc-Namara,2003)。
作為大學(xué)英語(yǔ)基礎(chǔ)階段的一種學(xué)業(yè)測(cè)試,大學(xué)英語(yǔ)學(xué)業(yè)測(cè)試應(yīng)在貫徹教學(xué)大綱的前提下,以教學(xué)內(nèi)容為基本依據(jù),適當(dāng)安排課外內(nèi)容。它以檢測(cè)學(xué)生、教師和課程安排能否較好地實(shí)現(xiàn)各自的預(yù)期目標(biāo)為主要目的。有效度的測(cè)試可以幫助學(xué)生了解自己的學(xué)習(xí)情況,幫助教師了解教學(xué)效果以及教材的選擇和課程的設(shè)置是否得當(dāng)。
大學(xué)英語(yǔ)教學(xué)改革的目標(biāo)是既要保證學(xué)生獲得扎實(shí)的語(yǔ)言知識(shí),又要把學(xué)生的語(yǔ)言運(yùn)用能力突出上去。每個(gè)院校都會(huì)根據(jù)本院校的實(shí)際情況來(lái)制定適合的考試大綱。大綱基本包括:考試目的、考試對(duì)象、考試性質(zhì)、試方式與內(nèi)容、試范圍。如考試內(nèi)容為:聽力理解、語(yǔ)法結(jié)構(gòu)、閱讀理解、翻譯(英譯漢)、寫作(或漢譯英)及口語(yǔ)等,并量細(xì)致量化考試內(nèi)容。多數(shù)學(xué)校大學(xué)英語(yǔ)學(xué)業(yè)考試的成績(jī)還包括平時(shí)課堂表現(xiàn)分?jǐn)?shù)。試卷設(shè)計(jì)達(dá)到效度標(biāo)準(zhǔn)是準(zhǔn)確地反映學(xué)生的實(shí)際水平,充分發(fā)揮大學(xué)英語(yǔ)學(xué)業(yè)考試的鑒定和激勵(lì)功能的前提。
要提高試卷的效度,應(yīng)從提高以下幾個(gè)效度著手:
內(nèi)容效度。是概念的整個(gè)內(nèi)容。實(shí)際上,任何一個(gè)試題都總是有關(guān)教學(xué)項(xiàng)目中全部題目中的一個(gè)樣本,這個(gè)試題的代表性的程度,就是這一試題對(duì)有關(guān)教學(xué)項(xiàng)目(連同目標(biāo))的內(nèi)容效度。通常來(lái)說(shuō),我們開展測(cè)驗(yàn)與評(píng)價(jià)的核心目的是考查學(xué)生實(shí)現(xiàn)預(yù)期學(xué)習(xí)目標(biāo)的程度。但是,學(xué)生的學(xué)習(xí)目標(biāo)涉及知識(shí)與技能、學(xué)科共通能力、情感態(tài)度與價(jià)值觀等多個(gè)領(lǐng)域,每個(gè)領(lǐng)域又包含十分廣泛的內(nèi)容,即便是一次學(xué)科專項(xiàng)測(cè)驗(yàn),要測(cè)量的任務(wù)也是一個(gè)相當(dāng)大的范圍。所以,我們通常無(wú)法對(duì)某一范圍或領(lǐng)域中的所有內(nèi)容和任務(wù)進(jìn)行考查,只能從中抽取一個(gè)有代表性的樣本去評(píng)價(jià)學(xué)生,然后依據(jù)學(xué)生在樣本上的表現(xiàn)推測(cè)其發(fā)展?fàn)顩r,做出有關(guān)解釋與決策。在測(cè)驗(yàn)中,題目樣本對(duì)所要評(píng)價(jià)內(nèi)容范圍的代表程度反映了內(nèi)容效度的高低。從測(cè)量學(xué)角度來(lái)說(shuō),內(nèi)容效度指的就是測(cè)驗(yàn)題目有效測(cè)量了特定目標(biāo)并從整體上反映了所要測(cè)量領(lǐng)域的程度。
題目樣本的代表性越好,內(nèi)容效度越高;反之,題目樣本的代表性越不充分,內(nèi)容效度則越低。我們可以結(jié)合大學(xué)英語(yǔ)測(cè)試大綱來(lái)做進(jìn)一步的分析。英語(yǔ)學(xué)習(xí)包括聽力、閱讀、寫作、口語(yǔ)交際和綜合性學(xué)習(xí)等方面,這幾個(gè)大的學(xué)習(xí)領(lǐng)域及其具體的學(xué)習(xí)要求就是英語(yǔ)評(píng)價(jià)的內(nèi)容范圍。作為一個(gè)完整的英語(yǔ)學(xué)業(yè)考試評(píng)價(jià),只有評(píng)價(jià)任務(wù)或測(cè)驗(yàn)題目均勻地取自整個(gè)內(nèi)容范圍,具有充分的代表性,才能真實(shí)、有效地反映學(xué)生學(xué)習(xí)的實(shí)際狀況。而如果題目?jī)H選自少數(shù)領(lǐng)域,或者有些題目根本沒(méi)有落在評(píng)價(jià)范圍之內(nèi),評(píng)價(jià)方案的內(nèi)容效度就不夠理想。
準(zhǔn)則效度。準(zhǔn)則效度是測(cè)試的分?jǐn)?shù)與有關(guān)的等第、標(biāo)準(zhǔn)之間的相關(guān)程度。準(zhǔn)則效度又可分為一致性效度與預(yù)測(cè)效度。例如每個(gè)學(xué)生英語(yǔ)的、學(xué)業(yè)考試分?jǐn)?shù)在大一和大二總的得分之間的相關(guān)程度就是一致性效度。好的學(xué)業(yè)考試試卷往往一致性效度高。同時(shí)好的學(xué)業(yè)考試試卷預(yù)測(cè)效度也高。還有其他的效度,但主要就是這兩種效度,這兩種效度互相是有聯(lián)系的,內(nèi)容效應(yīng)直接影響準(zhǔn)則效度。編制試卷不僅要有科學(xué)的組卷過(guò)程,而且要講究試題科學(xué)性。這種科學(xué)性不僅表現(xiàn)在試題的安排布局上,而且更表現(xiàn)在試題本身的科學(xué)性上??疾槟繕?biāo)功能時(shí),采用由低到高的“了解”、“理解”、“掌握”和“運(yùn)用”(或稱“應(yīng)用”)四個(gè)層次是適宜的.它既反映了普遍的認(rèn)知規(guī)律,又體現(xiàn)了英語(yǔ)的學(xué)科特點(diǎn)
[1]Arthur Hughbes,2003,Language Testing,上海:上海外語(yǔ)教育出版
[2]Arthur Hugbes,2003,Testing for Language Teachers,Cambridge University Press