大學(xué)英語(yǔ)機(jī)考條件下隨機(jī)生成試卷的概化理論研究

2018-03-03 02:48王天劍

五邑大學(xué)學(xué)報(bào)（社會(huì)科學(xué)版） 2018年1期

王天劍

(貴州財(cái)經(jīng)大學(xué) 外國(guó)語(yǔ)學(xué)院，貴州貴陽(yáng) 550004)

一、引言

隨著四、六級(jí)英語(yǔ)機(jī)考的逐漸推廣，大學(xué)英語(yǔ)學(xué)期考試方式也開(kāi)始向無(wú)紙化方向轉(zhuǎn)變。機(jī)考或者無(wú)紙化考試可以節(jié)約資源，節(jié)省閱卷工作量。借助題庫(kù)和工具軟件，計(jì)算機(jī)系統(tǒng)能夠隨機(jī)生成大量不同內(nèi)容試卷，使學(xué)生難以在考場(chǎng)中抄襲他人答案。但機(jī)考也有潛在問(wèn)題。例如機(jī)房軟硬件的穩(wěn)定性、學(xué)生對(duì)鍵盤(pán)操作的熟練度，以及對(duì)機(jī)考的心理反應(yīng)(如焦慮、恐懼等)，都可能影響考試結(jié)果[1]。更主要的問(wèn)題是試卷很難真正同質(zhì)。無(wú)論什么樣的題庫(kù)，同類(lèi)試題之間所謂的“同質(zhì)”、“ 等值”僅是相對(duì)而言。據(jù)筆者調(diào)研，不少高校大學(xué)英語(yǔ)機(jī)考依托的是任課教師命題創(chuàng)建的題庫(kù)。由于缺乏嚴(yán)格質(zhì)量監(jiān)控，這些題庫(kù)在機(jī)考中隨機(jī)組合生成的試卷，同質(zhì)性尤其值得懷疑。試卷同質(zhì)性越小，測(cè)試信度越低?？疾橥|(zhì)性和信度，離不開(kāi)現(xiàn)代高級(jí)測(cè)量理論。

概化理論是一種教育、心理和行為測(cè)量理論。它是在方差分析與經(jīng)典測(cè)量技術(shù)基礎(chǔ)上，逐步發(fā)展而來(lái)的理論體系[2]。按照經(jīng)典測(cè)量理論，測(cè)量結(jié)果包括真分?jǐn)?shù)與誤差。利用方差分析，概化理論進(jìn)一步將誤差區(qū)分為不同來(lái)源成分，計(jì)算各自比重，并估算概化系數(shù)和可靠性指數(shù)。兩種指標(biāo)類(lèi)似于經(jīng)典測(cè)量的信度，其中概化系數(shù)旨在衡量，測(cè)量結(jié)果用于跟據(jù)某種特質(zhì)將對(duì)象排序時(shí)的穩(wěn)定性(相對(duì)測(cè)量信度)；可靠性指數(shù)旨在衡量，測(cè)量結(jié)果用于考查對(duì)象某種特質(zhì)絕對(duì)水平時(shí)的可靠性(絕對(duì)測(cè)量信度)[3]。

概化分析包括G研究(概化研究)和D研究(決策研究)兩部分。前者可在觀測(cè)全域上展示各種方差來(lái)源及其比重；后者可在概化全域上，借助G研究的方差比重，通過(guò)調(diào)整測(cè)量條件(如樣本、任務(wù)、評(píng)分員、側(cè)面關(guān)系、權(quán)重等)，展示信度變化，從而提供優(yōu)化測(cè)量設(shè)計(jì)的信息[4-5]。因其在測(cè)量中的重要價(jià)值，概化理論被譽(yù)為三大高級(jí)測(cè)量理論之一(另外兩種是經(jīng)典測(cè)量理論及項(xiàng)目反應(yīng)理論)。概化分析可分為一元概化分析和多元概化分析。前者用于單變量(univariate)研究，后者用于多變量(multivariate)研究。

近年來(lái)，國(guó)外和國(guó)內(nèi)有不少研究采用概化理論考查語(yǔ)言測(cè)試的質(zhì)量[6-7]，但是以外語(yǔ)機(jī)考信度為對(duì)象的概化研究尚不多見(jiàn)。面對(duì)不斷推廣的機(jī)考，有必要對(duì)其進(jìn)行概化分析，及時(shí)發(fā)現(xiàn)問(wèn)題并予以解決。以下采用多元概化分析，考查大學(xué)英語(yǔ)機(jī)考的信度。

二、研究方法

研究數(shù)據(jù)為某校120名學(xué)生的大學(xué)英語(yǔ)讀寫(xiě)機(jī)考成績(jī)。每名學(xué)生的成績(jī)包含兩篇寫(xiě)作分?jǐn)?shù)(每篇20分，共計(jì)40分)和三篇閱讀理解分?jǐn)?shù)(每篇20分，共計(jì)60分)。

由于試題包含寫(xiě)作和閱讀兩類(lèi)題型，寫(xiě)作可視為一個(gè)變量(“因子”)，閱讀可視為另一個(gè)變量(“因子”)。研究宜采用二因子、單側(cè)面多元概化分析設(shè)計(jì)：p˙×iO，其中p代表考生，i代表試題(字母p的上標(biāo)圓點(diǎn)表示每組數(shù)據(jù)中各個(gè)因子測(cè)量的對(duì)象相同，字母i的上標(biāo)圓圈表示不同因子包含的項(xiàng)目不同)。分析借助mGENOVA 軟件進(jìn)行，該軟件是Brennan開(kāi)發(fā)的多元概化分析專(zhuān)用工具[8]。

三、研究結(jié)果

(一)成績(jī)的分布特征

在進(jìn)行概化分析前，對(duì)120名學(xué)生的機(jī)考分?jǐn)?shù)進(jìn)行了描述統(tǒng)計(jì)，以展示成績(jī)的分布特征(表1)。

(二)多元概化分析結(jié)果

多元概化分析主要在兩種試題變量(因子)上展開(kāi)，分析包括G研究和D研究?jī)刹糠帧?/p>

1.G研究結(jié)果

借助G研究，可以獲得各個(gè)效應(yīng)(考生、試題、考生與試題的交互)在“寫(xiě)作”和“閱讀”兩個(gè)因子上的方差等指標(biāo)，結(jié)果如表2所示。

注：各個(gè)效應(yīng)矩陣中，主對(duì)角線上的數(shù)據(jù)是效應(yīng)在對(duì)應(yīng)因子上的方差估計(jì)，主對(duì)角線之下為因子間的協(xié)方差估計(jì)，主對(duì)角線之上為因子間的相關(guān)系數(shù)。

交互效應(yīng)是指一個(gè)變量的不同水平對(duì)結(jié)果的影響趨勢(shì)，在另一個(gè)變量的不同水平上呈現(xiàn)反差，在坐標(biāo)系中表現(xiàn)為交叉直線。例如，學(xué)生和試題可視為兩個(gè)變量，如有交互作用，會(huì)出現(xiàn)A生在第一題得分高、第二題得分低，而B(niǎo)生在第一題得分低、第二題得分高。在兩道題上，兩個(gè)學(xué)生的得分連線交叉。根據(jù)表2可知，交互效應(yīng)在“寫(xiě)作”和“閱讀”二因子上的方差，明顯高于考生在二因子上的對(duì)應(yīng)方差(6.16>3.10, 11.85> 4.23)。試題難度的方差也不容忽視(在閱讀上的方差為3.41，接近考生的方差4.23)。交互效應(yīng)和試題難度在“閱讀”上的方差，高于其在“寫(xiě)作”上的對(duì)應(yīng)方差(3.41>1.84, 11.85>6.16)。方差大小反映著一種效應(yīng)對(duì)成績(jī)影響的大小。交互效應(yīng)方差較大，意味著不同學(xué)生在不同試題上，得分或失分的傾向存在明顯反差(如A生在第一篇寫(xiě)作上得分很高，在第二篇上很低；B生在第一篇上很低，在第二篇上很高)。試題難度在“閱讀”上的方差，與考生的對(duì)應(yīng)方差相去不大，表明試題對(duì)“閱讀”絕對(duì)測(cè)量信度的影響不能忽略(會(huì)導(dǎo)致低估或高估學(xué)生的絕對(duì)閱讀水平)。考生對(duì)成績(jī)影響不占優(yōu)勢(shì)，表明考試未能有效反映學(xué)生的寫(xiě)作和閱讀水平。

2. D研究結(jié)果

(1)不同因子測(cè)量的信度。針對(duì)不同因子測(cè)量信度的D研究結(jié)果顯示，“寫(xiě)作”因子的概化系數(shù)為0.50，可靠指數(shù)為0.44；“閱讀”因子的概化系數(shù)為0.52，可靠性指數(shù)為0.45。所有信度指標(biāo)都遠(yuǎn)遠(yuǎn)低于理想標(biāo)準(zhǔn)(0.80)。

(2)全域合成分測(cè)量信度。按照兩因子所占比重(“寫(xiě)作”分值比重為40%，“閱讀”為60%)，設(shè)定權(quán)重系數(shù)，對(duì)測(cè)量結(jié)果進(jìn)行整合，可得全域合成分測(cè)量信度估計(jì)值。分析顯示，全域合成分概化系數(shù)和可靠指數(shù)分別為0.63和0.56，與單個(gè)因子測(cè)量精確度相比有所提高。這表明，“寫(xiě)作”和“閱讀”兩個(gè)因子得分合并起來(lái)代表讀寫(xiě)水平，具有一定的合理性。但是兩個(gè)信度指標(biāo)仍顯著低于0.80。

(3)兩因子對(duì)全域合成分的貢獻(xiàn)。雖然兩因子的賦分顯示其權(quán)重分別為40%和60%，但兩者對(duì)全域合成分方差的實(shí)際貢獻(xiàn)如何仍需D研究檢驗(yàn)。根據(jù)分析，“寫(xiě)作”對(duì)全域合成分方差的貢獻(xiàn)(34%)明顯低于其賦分，而“閱讀”的貢獻(xiàn)(66%)明顯高于賦分。當(dāng)然“閱讀”的測(cè)量誤差所占比重也較大(相對(duì)和絕對(duì)誤差方差分別為74.25%和74.08%)。由此可見(jiàn)，“寫(xiě)作”和“閱讀”的權(quán)重有待調(diào)整。

(4)權(quán)重優(yōu)化后的全域合成分信度。鑒于“寫(xiě)作”和“閱讀”賦分與實(shí)際貢獻(xiàn)的差別，調(diào)整兩因子權(quán)重，進(jìn)一步分析信度變化。結(jié)果顯示，在“寫(xiě)作”和“閱讀”權(quán)重調(diào)整為45%與55%時(shí)，概化系數(shù)和可靠指數(shù)分別可提高到0.63與0.57；兩權(quán)重各占50%時(shí)，兩系數(shù)可提高到0.64與0.57。所以在可操作范圍內(nèi)，改變“寫(xiě)作”和“閱讀”的權(quán)重，概化系數(shù)和可靠指數(shù)雖有提升趨勢(shì)，但變化很慢。由于兩個(gè)因子是讀寫(xiě)課程測(cè)試的兩個(gè)平行特質(zhì)，不易進(jìn)一步改變權(quán)重。

(5)試題數(shù)量?jī)?yōu)化后的全域合成分信度。改變?cè)囶}數(shù)量是嘗試調(diào)整信度的常用手段。在“寫(xiě)作”和“閱讀”權(quán)重各保持50%的情況下，將“寫(xiě)作”變?yōu)?篇(或4篇)，“閱讀”變?yōu)?篇(或5篇)，概化系數(shù)與可靠指數(shù)分別可提高到0.71(或0.76)與0.65(或0.71)。由此可見(jiàn)，在可操作范圍內(nèi)，合理增加任務(wù)數(shù)量能夠提高信度，但是不能完全解決問(wèn)題(信度仍未達(dá)到0.80)。

四、討論

本研究采用多元概化分析，考查了機(jī)考大學(xué)英語(yǔ)讀寫(xiě)成績(jī)的信度。結(jié)果表明，對(duì)于成績(jī)的影響，考生與試題的交互效應(yīng)遠(yuǎn)遠(yuǎn)高于考生效應(yīng)，試題難度效應(yīng)也不容忽視。交互效應(yīng)和試題難度效應(yīng)的影響在“閱讀”方面尤為突出。無(wú)論是在“寫(xiě)作”和“閱讀”兩個(gè)因子層面，還是在整個(gè)測(cè)試層面，測(cè)試的信度都未達(dá)到理想水平。在可操作范圍內(nèi)調(diào)整試題權(quán)重和題量，僅能在一定程度上提高信度，但不能使信度達(dá)到理想水平。

本研究與其他相關(guān)概化分析出入較大。Bae等對(duì)雙語(yǔ)兒童不同語(yǔ)言、不同寫(xiě)作任務(wù)進(jìn)行的概化分析中發(fā)現(xiàn)，考生是成績(jī)變異的主要來(lái)源[9]。在一項(xiàng)綜合研究中，In’nami等考查了17項(xiàng)寫(xiě)作概化研究(涉及22個(gè)數(shù)據(jù)集)。結(jié)果發(fā)現(xiàn)，平均而言考生是成績(jī)變異的主要來(lái)源，其次是考生與試題的交互效應(yīng)，試題效應(yīng)是比較微小的變異來(lái)源[10]。Huang在元分析中，綜合了9項(xiàng)外語(yǔ)測(cè)試，發(fā)現(xiàn)任務(wù)與考生的交互效應(yīng)方差比重平均為15.06%，試題效應(yīng)的方差比重平均為0.04%[11]。由此可見(jiàn)，一般語(yǔ)言測(cè)試中，考生是成績(jī)的主要影響因素，交互效應(yīng)、試題等屬于次要影響因素。這是因?yàn)橐话銣y(cè)試具有效度信度，成績(jī)主要反映的是考生的相關(guān)特質(zhì)(知識(shí)、技能、能力)水平。

本研究發(fā)現(xiàn)，交互效應(yīng)對(duì)于成績(jī)的影響遠(yuǎn)遠(yuǎn)高于考生效應(yīng)，試題難度效應(yīng)不容忽視。其原因很可能在于機(jī)考時(shí)計(jì)算機(jī)系統(tǒng)隨機(jī)生成的試卷缺乏同質(zhì)性。在同一道試題中，不同考生遇到的具體任務(wù)難度忽高忽低，不同試卷難度波動(dòng)較大。

試題難度的影響，主要表現(xiàn)在絕對(duì)測(cè)量信度上；考生與試題交互效應(yīng)的影響，同時(shí)表現(xiàn)在相對(duì)測(cè)量和絕對(duì)測(cè)量信度上。當(dāng)成績(jī)不能較好地反映個(gè)人在特定方面的絕對(duì)水平和名次時(shí)，不僅考試信度較低，而且效度也值得懷疑。

由于隨機(jī)組卷依托的是題庫(kù)，本研究發(fā)現(xiàn)的機(jī)考問(wèn)題，其深層原因可能是題庫(kù)質(zhì)量不穩(wěn)定、各題的難度差異太大。在缺乏可操作的標(biāo)準(zhǔn)以及必要的技術(shù)條件下，任課教師集體構(gòu)建的題庫(kù)很容易出現(xiàn)同類(lèi)任務(wù)難度不同的情況。這樣的題庫(kù)未經(jīng)嚴(yán)格質(zhì)量鑒定和審核，直接用于機(jī)考組卷，導(dǎo)致異質(zhì)試卷及較低的考試信度和效度也就不足為奇了。

此外，本研究也發(fā)現(xiàn)，試題難度、交互效應(yīng)對(duì)成績(jī)的影響在“閱讀”上較為突出，這可能是因?yàn)椋骸伴喿x”是客觀題，系統(tǒng)自動(dòng)評(píng)分，難度差別會(huì)不折不扣地反映在分?jǐn)?shù)上；“寫(xiě)作”是主觀題，教師在改卷時(shí)會(huì)根據(jù)經(jīng)驗(yàn)，對(duì)難度較大的“寫(xiě)作”放寬標(biāo)準(zhǔn)評(píng)分，因此縮小了不同“寫(xiě)作”任務(wù)之間的分?jǐn)?shù)差別。此外，一個(gè)教師要對(duì)同一個(gè)學(xué)生兩篇作文評(píng)分，暈輪效應(yīng)(Halo effect)也會(huì)降低分?jǐn)?shù)的差別。由于試題難度、交互效應(yīng)對(duì)“寫(xiě)作”成績(jī)的影響相對(duì)較小，因此提升“寫(xiě)作”并降低“閱讀”賦分權(quán)重可以緩解信度危機(jī)。

考試信度不僅關(guān)系到結(jié)果的穩(wěn)定性，也涉及公平性問(wèn)題。提高機(jī)考信度，需要?jiǎng)?chuàng)建優(yōu)質(zhì)題庫(kù)。為了測(cè)量寫(xiě)作和閱讀，命題者應(yīng)查閱相關(guān)文獻(xiàn)，全面理解兩者的發(fā)展規(guī)律。不少研究顯示，學(xué)生對(duì)不同體裁(genre)任務(wù)的寫(xiě)作能力發(fā)展是不平衡的，一種體裁的寫(xiě)作能力，不能預(yù)測(cè)另一種體裁的水平[12]，因?yàn)椴煌w裁文章需要不同的修辭結(jié)構(gòu)、基本語(yǔ)言成分、甚至單詞類(lèi)型。一般學(xué)生會(huì)對(duì)某些體裁的寫(xiě)作擅長(zhǎng)，對(duì)另一些則生疏[13]。全面衡量寫(xiě)作水平，需要多篇不同作文測(cè)試任務(wù)[14]。

對(duì)于閱讀，在命題時(shí)不僅應(yīng)考慮體裁問(wèn)題，也應(yīng)考慮文本的其他特征(如風(fēng)格、可讀性、篇長(zhǎng)、句長(zhǎng)、詞長(zhǎng)、詞匯級(jí)別、詞匯密度等)[15]，并通過(guò)實(shí)測(cè)建立文本特征與難度級(jí)別之間的對(duì)應(yīng)關(guān)系，以便使同類(lèi)任務(wù)逼近同質(zhì)。

五、結(jié) 論

本研究考查了某高校大學(xué)英語(yǔ)讀寫(xiě)機(jī)考的信度，結(jié)論如下：在缺乏同質(zhì)題庫(kù)條件下，大學(xué)英語(yǔ)機(jī)考中采用隨機(jī)組卷會(huì)導(dǎo)致信度不足，甚至扭曲考試結(jié)果，無(wú)法真正客觀、公平地反映學(xué)生的真實(shí)英語(yǔ)水平；在缺乏同質(zhì)題庫(kù)條件下，調(diào)整試題數(shù)量和賦分權(quán)重、適當(dāng)增加主觀題分量，可以在一定程度上緩解信度危機(jī)。

為從根本上解決機(jī)考信度危機(jī)問(wèn)題，隨機(jī)組卷需要以同質(zhì)題庫(kù)為基礎(chǔ)。建議在建立大學(xué)英語(yǔ)讀寫(xiě)題庫(kù)時(shí)，命題者要根據(jù)學(xué)生寫(xiě)作和閱讀發(fā)展規(guī)律，采用定性、定量、實(shí)證研究結(jié)合的方法，對(duì)試題進(jìn)行分析和研究，對(duì)難度進(jìn)行準(zhǔn)確評(píng)定。在無(wú)法保證試題同質(zhì)條件下，不宜采用隨機(jī)組卷，而應(yīng)采用相同試卷，這樣至少可以在一定程度上減少考生與試題交互作用的影響。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

大學(xué)英語(yǔ)機(jī)考條件下隨機(jī)生成試卷的概化理論研究

一、引 言

二、研究方法

三、研究結(jié)果