王天劍
(貴州財(cái)經(jīng)大學(xué) 外國(guó)語(yǔ)學(xué)院,貴州 貴陽(yáng) 550004)
`
隨著四、六級(jí)英語(yǔ)機(jī)考的逐漸推廣,大學(xué)英語(yǔ)學(xué)期考試方式也開(kāi)始向無(wú)紙化方向轉(zhuǎn)變。機(jī)考或者無(wú)紙化考試可以節(jié)約資源,節(jié)省閱卷工作量。借助題庫(kù)和工具軟件,計(jì)算機(jī)系統(tǒng)能夠隨機(jī)生成大量不同內(nèi)容試卷,使學(xué)生難以在考場(chǎng)中抄襲他人答案。但機(jī)考也有潛在問(wèn)題。例如機(jī)房軟硬件的穩(wěn)定性、學(xué)生對(duì)鍵盤(pán)操作的熟練度,以及對(duì)機(jī)考的心理反應(yīng)(如焦慮、恐懼等),都可能影響考試結(jié)果[1]。更主要的問(wèn)題是試卷很難真正同質(zhì)。無(wú)論什么樣的題庫(kù),同類(lèi)試題之間所謂的“同質(zhì)”、“ 等值”僅是相對(duì)而言。據(jù)筆者調(diào)研,不少高校大學(xué)英語(yǔ)機(jī)考依托的是任課教師命題創(chuàng)建的題庫(kù)。由于缺乏嚴(yán)格質(zhì)量監(jiān)控,這些題庫(kù)在機(jī)考中隨機(jī)組合生成的試卷,同質(zhì)性尤其值得懷疑。試卷同質(zhì)性越小,測(cè)試信度越低??疾橥|(zhì)性和信度,離不開(kāi)現(xiàn)代高級(jí)測(cè)量理論。
概化理論是一種教育、心理和行為測(cè)量理論。它是在方差分析與經(jīng)典測(cè)量技術(shù)基礎(chǔ)上,逐步發(fā)展而來(lái)的理論體系[2]。按照經(jīng)典測(cè)量理論,測(cè)量結(jié)果包括真分?jǐn)?shù)與誤差。利用方差分析,概化理論進(jìn)一步將誤差區(qū)分為不同來(lái)源成分,計(jì)算各自比重,并估算概化系數(shù)和可靠性指數(shù)。兩種指標(biāo)類(lèi)似于經(jīng)典測(cè)量的信度,其中概化系數(shù)旨在衡量,測(cè)量結(jié)果用于跟據(jù)某種特質(zhì)將對(duì)象排序時(shí)的穩(wěn)定性(相對(duì)測(cè)量信度);可靠性指數(shù)旨在衡量,測(cè)量結(jié)果用于考查對(duì)象某種特質(zhì)絕對(duì)水平時(shí)的可靠性(絕對(duì)測(cè)量信度)[3]。
概化分析包括G研究(概化研究)和D研究(決策研究)兩部分。前者可在觀測(cè)全域上展示各種方差來(lái)源及其比重;后者可在概化全域上,借助G研究的方差比重,通過(guò)調(diào)整測(cè)量條件(如樣本、任務(wù)、評(píng)分員、側(cè)面關(guān)系、權(quán)重等),展示信度變化,從而提供優(yōu)化測(cè)量設(shè)計(jì)的信息[4-5]。因其在測(cè)量中的重要價(jià)值,概化理論被譽(yù)為三大高級(jí)測(cè)量理論之一(另外兩種是經(jīng)典測(cè)量理論及項(xiàng)目反應(yīng)理論)。概化分析可分為一元概化分析和多元概化分析。前者用于單變量(univariate)研究,后者用于多變量(multivariate)研究。
近年來(lái),國(guó)外和國(guó)內(nèi)有不少研究采用概化理論考查語(yǔ)言測(cè)試的質(zhì)量[6-7],但是以外語(yǔ)機(jī)考信度為對(duì)象的概化研究尚不多見(jiàn)。面對(duì)不斷推廣的機(jī)考,有必要對(duì)其進(jìn)行概化分析,及時(shí)發(fā)現(xiàn)問(wèn)題并予以解決。以下采用多元概化分析,考查大學(xué)英語(yǔ)機(jī)考的信度。
研究數(shù)據(jù)為某校120名學(xué)生的大學(xué)英語(yǔ)讀寫(xiě)機(jī)考成績(jī)。每名學(xué)生的成績(jī)包含兩篇寫(xiě)作分?jǐn)?shù)(每篇20分,共計(jì)40分)和三篇閱讀理解分?jǐn)?shù)(每篇20分,共計(jì)60分)。
由于試題包含寫(xiě)作和閱讀兩類(lèi)題型,寫(xiě)作可視為一個(gè)變量(“因子”),閱讀可視為另一個(gè)變量(“因子”)。研究宜采用二因子、單側(cè)面多元概化分析設(shè)計(jì):p˙×iO,其中p代表考生,i代表試題(字母p的上標(biāo)圓點(diǎn)表示每組數(shù)據(jù)中各個(gè)因子測(cè)量的對(duì)象相同,字母i的上標(biāo)圓圈表示不同因子包含的項(xiàng)目不同)。分析借助mGENOVA 軟件進(jìn)行,該軟件是Brennan開(kāi)發(fā)的多元概化分析專(zhuān)用工具[8]。
在進(jìn)行概化分析前,對(duì)120名學(xué)生的機(jī)考分?jǐn)?shù)進(jìn)行了描述統(tǒng)計(jì),以展示成績(jī)的分布特征(表1)。
多元概化分析主要在兩種試題變量(因子)上展開(kāi),分析包括G研究和D研究?jī)刹糠帧?/p>
1.G研究結(jié)果
借助G研究,可以獲得各個(gè)效應(yīng)(考生、試題、考生與試題的交互)在“寫(xiě)作”和“閱讀”兩個(gè)因子上的方差等指標(biāo),結(jié)果如表2所示。
注:各個(gè)效應(yīng)矩陣中,主對(duì)角線上的數(shù)據(jù)是效應(yīng)在對(duì)應(yīng)因子上的方差估計(jì),主對(duì)角線之下為因子間的協(xié)方差估計(jì),主對(duì)角線之上為因子間的相關(guān)系數(shù)。
交互效應(yīng)是指一個(gè)變量的不同水平對(duì)結(jié)果的影響趨勢(shì),在另一個(gè)變量的不同水平上呈現(xiàn)反差,在坐標(biāo)系中表現(xiàn)為交叉直線。例如,學(xué)生和試題可視為兩個(gè)變量,如有交互作用,會(huì)出現(xiàn)A生在第一題得分高、第二題得分低,而B(niǎo)生在第一題得分低、第二題得分高。在兩道題上,兩個(gè)學(xué)生的得分連線交叉。根據(jù)表2可知,交互效應(yīng)在“寫(xiě)作”和“閱讀”二因子上的方差,明顯高于考生在二因子上的對(duì)應(yīng)方差(6.16>3.10, 11.85> 4.23)。試題難度的方差也不容忽視(在閱讀上的方差為3.41,接近考生的方差4.23)。交互效應(yīng)和試題難度在“閱讀”上的方差,高于其在“寫(xiě)作”上的對(duì)應(yīng)方差(3.41>1.84, 11.85>6.16)。方差大小反映著一種效應(yīng)對(duì)成績(jī)影響的大小。交互效應(yīng)方差較大,意味著不同學(xué)生在不同試題上,得分或失分的傾向存在明顯反差(如A生在第一篇寫(xiě)作上得分很高,在第二篇上很低;B生在第一篇上很低,在第二篇上很高)。試題難度在“閱讀”上的方差,與考生的對(duì)應(yīng)方差相去不大,表明試題對(duì)“閱讀”絕對(duì)測(cè)量信度的影響不能忽略(會(huì)導(dǎo)致低估或高估學(xué)生的絕對(duì)閱讀水平)。考生對(duì)成績(jī)影響不占優(yōu)勢(shì),表明考試未能有效反映學(xué)生的寫(xiě)作和閱讀水平。
2. D研究結(jié)果
(1)不同因子測(cè)量的信度。針對(duì)不同因子測(cè)量信度的D研究結(jié)果顯示,“寫(xiě)作”因子的概化系數(shù)為0.50,可靠指數(shù)為0.44;“閱讀”因子的概化系數(shù)為0.52,可靠性指數(shù)為0.45。所有信度指標(biāo)都遠(yuǎn)遠(yuǎn)低于理想標(biāo)準(zhǔn)(0.80)。
(2)全域合成分測(cè)量信度。按照兩因子所占比重(“寫(xiě)作”分值比重為40%,“閱讀”為60%),設(shè)定權(quán)重系數(shù),對(duì)測(cè)量結(jié)果進(jìn)行整合,可得全域合成分測(cè)量信度估計(jì)值。分析顯示,全域合成分概化系數(shù)和可靠指數(shù)分別為0.63和0.56,與單個(gè)因子測(cè)量精確度相比有所提高。這表明,“寫(xiě)作”和“閱讀”兩個(gè)因子得分合并起來(lái)代表讀寫(xiě)水平,具有一定的合理性。但是兩個(gè)信度指標(biāo)仍顯著低于0.80。
(3)兩因子對(duì)全域合成分的貢獻(xiàn)。雖然兩因子的賦分顯示其權(quán)重分別為40%和60%,但兩者對(duì)全域合成分方差的實(shí)際貢獻(xiàn)如何仍需D研究檢驗(yàn)。根據(jù)分析,“寫(xiě)作”對(duì)全域合成分方差的貢獻(xiàn)(34%)明顯低于其賦分,而“閱讀”的貢獻(xiàn)(66%)明顯高于賦分。當(dāng)然“閱讀”的測(cè)量誤差所占比重也較大(相對(duì)和絕對(duì)誤差方差分別為74.25%和74.08%)。由此可見(jiàn),“寫(xiě)作”和“閱讀”的權(quán)重有待調(diào)整。
(4)權(quán)重優(yōu)化后的全域合成分信度。鑒于“寫(xiě)作”和“閱讀”賦分與實(shí)際貢獻(xiàn)的差別,調(diào)整兩因子權(quán)重,進(jìn)一步分析信度變化。結(jié)果顯示,在“寫(xiě)作”和“閱讀”權(quán)重調(diào)整為45%與55%時(shí),概化系數(shù)和可靠指數(shù)分別可提高到0.63與0.57;兩權(quán)重各占50%時(shí),兩系數(shù)可提高到0.64與0.57。所以在可操作范圍內(nèi),改變“寫(xiě)作”和“閱讀”的權(quán)重,概化系數(shù)和可靠指數(shù)雖有提升趨勢(shì),但變化很慢。由于兩個(gè)因子是讀寫(xiě)課程測(cè)試的兩個(gè)平行特質(zhì),不易進(jìn)一步改變權(quán)重。
(5)試題數(shù)量?jī)?yōu)化后的全域合成分信度。改變?cè)囶}數(shù)量是嘗試調(diào)整信度的常用手段。在“寫(xiě)作”和“閱讀”權(quán)重各保持50%的情況下,將“寫(xiě)作”變?yōu)?篇(或4篇),“閱讀”變?yōu)?篇(或5篇),概化系數(shù)與可靠指數(shù)分別可提高到0.71(或0.76)與0.65(或0.71)。由此可見(jiàn),在可操作范圍內(nèi),合理增加任務(wù)數(shù)量能夠提高信度,但是不能完全解決問(wèn)題(信度仍未達(dá)到0.80)。
本研究采用多元概化分析,考查了機(jī)考大學(xué)英語(yǔ)讀寫(xiě)成績(jī)的信度。結(jié)果表明,對(duì)于成績(jī)的影響,考生與試題的交互效應(yīng)遠(yuǎn)遠(yuǎn)高于考生效應(yīng),試題難度效應(yīng)也不容忽視。交互效應(yīng)和試題難度效應(yīng)的影響在“閱讀”方面尤為突出。無(wú)論是在“寫(xiě)作”和“閱讀”兩個(gè)因子層面,還是在整個(gè)測(cè)試層面,測(cè)試的信度都未達(dá)到理想水平。在可操作范圍內(nèi)調(diào)整試題權(quán)重和題量,僅能在一定程度上提高信度,但不能使信度達(dá)到理想水平。
本研究與其他相關(guān)概化分析出入較大。Bae等對(duì)雙語(yǔ)兒童不同語(yǔ)言、不同寫(xiě)作任務(wù)進(jìn)行的概化分析中發(fā)現(xiàn),考生是成績(jī)變異的主要來(lái)源[9]。在一項(xiàng)綜合研究中,In’nami等考查了17項(xiàng)寫(xiě)作概化研究(涉及22個(gè)數(shù)據(jù)集)。結(jié)果發(fā)現(xiàn),平均而言考生是成績(jī)變異的主要來(lái)源,其次是考生與試題的交互效應(yīng),試題效應(yīng)是比較微小的變異來(lái)源[10]。Huang在元分析中,綜合了9項(xiàng)外語(yǔ)測(cè)試,發(fā)現(xiàn)任務(wù)與考生的交互效應(yīng)方差比重平均為15.06%,試題效應(yīng)的方差比重平均為0.04%[11]。由此可見(jiàn),一般語(yǔ)言測(cè)試中,考生是成績(jī)的主要影響因素,交互效應(yīng)、試題等屬于次要影響因素。這是因?yàn)橐话銣y(cè)試具有效度信度,成績(jī)主要反映的是考生的相關(guān)特質(zhì)(知識(shí)、技能、能力)水平。
本研究發(fā)現(xiàn),交互效應(yīng)對(duì)于成績(jī)的影響遠(yuǎn)遠(yuǎn)高于考生效應(yīng),試題難度效應(yīng)不容忽視。其原因很可能在于機(jī)考時(shí)計(jì)算機(jī)系統(tǒng)隨機(jī)生成的試卷缺乏同質(zhì)性。在同一道試題中,不同考生遇到的具體任務(wù)難度忽高忽低,不同試卷難度波動(dòng)較大。
試題難度的影響,主要表現(xiàn)在絕對(duì)測(cè)量信度上;考生與試題交互效應(yīng)的影響,同時(shí)表現(xiàn)在相對(duì)測(cè)量和絕對(duì)測(cè)量信度上。當(dāng)成績(jī)不能較好地反映個(gè)人在特定方面的絕對(duì)水平和名次時(shí),不僅考試信度較低,而且效度也值得懷疑。
由于隨機(jī)組卷依托的是題庫(kù),本研究發(fā)現(xiàn)的機(jī)考問(wèn)題,其深層原因可能是題庫(kù)質(zhì)量不穩(wěn)定、各題的難度差異太大。在缺乏可操作的標(biāo)準(zhǔn)以及必要的技術(shù)條件下,任課教師集體構(gòu)建的題庫(kù)很容易出現(xiàn)同類(lèi)任務(wù)難度不同的情況。這樣的題庫(kù)未經(jīng)嚴(yán)格質(zhì)量鑒定和審核,直接用于機(jī)考組卷,導(dǎo)致異質(zhì)試卷及較低的考試信度和效度也就不足為奇了。
此外,本研究也發(fā)現(xiàn),試題難度、交互效應(yīng)對(duì)成績(jī)的影響在“閱讀”上較為突出,這可能是因?yàn)椋骸伴喿x”是客觀題,系統(tǒng)自動(dòng)評(píng)分,難度差別會(huì)不折不扣地反映在分?jǐn)?shù)上;“寫(xiě)作”是主觀題,教師在改卷時(shí)會(huì)根據(jù)經(jīng)驗(yàn),對(duì)難度較大的“寫(xiě)作”放寬標(biāo)準(zhǔn)評(píng)分,因此縮小了不同“寫(xiě)作”任務(wù)之間的分?jǐn)?shù)差別。此外,一個(gè)教師要對(duì)同一個(gè)學(xué)生兩篇作文評(píng)分,暈輪效應(yīng)(Halo effect)也會(huì)降低分?jǐn)?shù)的差別。由于試題難度、交互效應(yīng)對(duì)“寫(xiě)作”成績(jī)的影響相對(duì)較小,因此提升“寫(xiě)作”并降低“閱讀”賦分權(quán)重可以緩解信度危機(jī)。
考試信度不僅關(guān)系到結(jié)果的穩(wěn)定性,也涉及公平性問(wèn)題。提高機(jī)考信度,需要?jiǎng)?chuàng)建優(yōu)質(zhì)題庫(kù)。為了測(cè)量寫(xiě)作和閱讀,命題者應(yīng)查閱相關(guān)文獻(xiàn),全面理解兩者的發(fā)展規(guī)律。不少研究顯示,學(xué)生對(duì)不同體裁(genre)任務(wù)的寫(xiě)作能力發(fā)展是不平衡的,一種體裁的寫(xiě)作能力,不能預(yù)測(cè)另一種體裁的水平[12],因?yàn)椴煌w裁文章需要不同的修辭結(jié)構(gòu)、基本語(yǔ)言成分、甚至單詞類(lèi)型。一般學(xué)生會(huì)對(duì)某些體裁的寫(xiě)作擅長(zhǎng),對(duì)另一些則生疏[13]。全面衡量寫(xiě)作水平,需要多篇不同作文測(cè)試任務(wù)[14]。
對(duì)于閱讀,在命題時(shí)不僅應(yīng)考慮體裁問(wèn)題,也應(yīng)考慮文本的其他特征(如風(fēng)格、可讀性、篇長(zhǎng)、句長(zhǎng)、詞長(zhǎng)、詞匯級(jí)別、詞匯密度等)[15],并通過(guò)實(shí)測(cè)建立文本特征與難度級(jí)別之間的對(duì)應(yīng)關(guān)系,以便使同類(lèi)任務(wù)逼近同質(zhì)。
本研究考查了某高校大學(xué)英語(yǔ)讀寫(xiě)機(jī)考的信度,結(jié)論如下:在缺乏同質(zhì)題庫(kù)條件下,大學(xué)英語(yǔ)機(jī)考中采用隨機(jī)組卷會(huì)導(dǎo)致信度不足,甚至扭曲考試結(jié)果,無(wú)法真正客觀、公平地反映學(xué)生的真實(shí)英語(yǔ)水平;在缺乏同質(zhì)題庫(kù)條件下,調(diào)整試題數(shù)量和賦分權(quán)重、適當(dāng)增加主觀題分量,可以在一定程度上緩解信度危機(jī)。
為從根本上解決機(jī)考信度危機(jī)問(wèn)題,隨機(jī)組卷需要以同質(zhì)題庫(kù)為基礎(chǔ)。建議在建立大學(xué)英語(yǔ)讀寫(xiě)題庫(kù)時(shí),命題者要根據(jù)學(xué)生寫(xiě)作和閱讀發(fā)展規(guī)律,采用定性、定量、實(shí)證研究結(jié)合的方法,對(duì)試題進(jìn)行分析和研究,對(duì)難度進(jìn)行準(zhǔn)確評(píng)定。在無(wú)法保證試題同質(zhì)條件下,不宜采用隨機(jī)組卷,而應(yīng)采用相同試卷,這樣至少可以在一定程度上減少考生與試題交互作用的影響。