国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

在線考試與傳統(tǒng)考試成績等效性研究

2022-03-03 11:45:43竇營山
中國遠(yuǎn)程教育 2022年1期
關(guān)鍵詞:考試成績科目效應(yīng)

【摘 要】

在計(jì)算機(jī)科學(xué)與互聯(lián)網(wǎng)技術(shù)飛速發(fā)展的背景下,以計(jì)算機(jī)為輔助手段的在線考試已經(jīng)在學(xué)校得到深入應(yīng)用與推廣。過去幾十年,國外不少實(shí)證研究比較了在線考試與傳統(tǒng)考試成績等效性問題,然而研究結(jié)果不一。鑒于此,本研究采用元分析方法,以2000—2020年發(fā)表的37篇文獻(xiàn)中的55項(xiàng)研究為樣本,對在線考試與傳統(tǒng)考試成績等效性問題進(jìn)行了系統(tǒng)綜述。研究發(fā)現(xiàn):樣本合并效應(yīng)量為0.0657,表明在線考試成績與傳統(tǒng)考試相比無顯著差異,但兩者等效性受考試科目、考試場景、考生學(xué)段以及考生傾向等因素影響;從考試科目來看,在線考試最不利于數(shù)學(xué)科目;從考試場景來看,在固定場景進(jìn)行的在線考試成績與傳統(tǒng)考試更具等效性;從考生學(xué)段來看,在線考試最不適合于小學(xué)生;從考生傾向來看,對在線考試傾向高的考生其在線考試成績會(huì)更好?;诖?,文章最后提出若干條有針對性建議,以期為我國更有效地開展在線考試提供相關(guān)參考與借鑒。

【關(guān)鍵詞】? 在線考試;網(wǎng)絡(luò)考試;成績等效性;在線教育;互聯(lián)網(wǎng)+教育;人工智能+教育;教育評(píng)價(jià)改革;元分析

【中圖分類號(hào)】? ?G434? ? ? ? ?【文獻(xiàn)標(biāo)識(shí)碼】? A? ? ? ?【文章編號(hào)】? 1009-458x(2022)1-0073-12

一、引言

近年來,互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能等現(xiàn)代信息技術(shù)得到了快速發(fā)展,并對教育領(lǐng)域產(chǎn)生了深刻影響。在線教育作為現(xiàn)代信息技術(shù)與教育深度融合所產(chǎn)生的教育新形態(tài),受到黨和國家的高度重視。2019年9月,教育部等十一部門印發(fā)了《關(guān)于促進(jìn)在線教育健康發(fā)展的指導(dǎo)意見》,提出“到2022年,實(shí)現(xiàn)現(xiàn)代信息技術(shù)與教育的深度融合,在線教育質(zhì)量不斷提升,學(xué)習(xí)型社會(huì)建設(shè)取得重要進(jìn)展”的發(fā)展目標(biāo)(教育部, 2019)。2020年上半年,為應(yīng)對新冠肺炎疫情,教育部提出了“停課不停學(xué)”的要求,鼓勵(lì)廣大師生充分利用信息化教育資源和平臺(tái)合理開展線上教育。在線考試作為在線教育的重要組成部分,對促進(jìn)學(xué)生學(xué)習(xí)、評(píng)價(jià)學(xué)生學(xué)習(xí)效果具有重要作用。2020年10月,中共中央、國務(wù)院印發(fā)《深化新時(shí)代教育評(píng)價(jià)改革總體方案》,提到要“充分利用信息技術(shù),提高教育評(píng)價(jià)的科學(xué)性、專業(yè)性、客觀性”(國務(wù)院, 2020)。在線考試作為技術(shù)賦能教育所產(chǎn)生的一種新型評(píng)價(jià)方式,其評(píng)價(jià)結(jié)果與傳統(tǒng)考試相比是否具有等效性?在線考試能否測量出考生的真實(shí)水平?考生的在線考試成績會(huì)受到哪些因素影響?為回答以上問題,本研究采用元分析方法對2000—2020年國際上開展的有關(guān)在線考試與傳統(tǒng)考試成績等效性的實(shí)證研究進(jìn)行系統(tǒng)綜述,力圖為國內(nèi)關(guān)心這些問題的學(xué)生、家長、教師和相關(guān)教育研究人員提供一些參考與借鑒。

二、文獻(xiàn)綜述

基于已有文獻(xiàn),本研究從在線考試與傳統(tǒng)考試的特征比較、針對在線考試與傳統(tǒng)考試成績等效性問題已有的研究分歧以及產(chǎn)生結(jié)論分歧的可能性因素三方面進(jìn)行文獻(xiàn)梳理。

(一)在線考試與傳統(tǒng)考試的特征比較

在線考試(online examination)是指基于網(wǎng)絡(luò)教學(xué)平臺(tái)或智能考試系統(tǒng)在計(jì)算機(jī)或移動(dòng)終端進(jìn)行的遠(yuǎn)程網(wǎng)絡(luò)考試,也稱“線上考試”“網(wǎng)絡(luò)考試”“遠(yuǎn)程考試”等。在線考試的歷史可以追溯到20世紀(jì)70年代初的美國(Drasgow, 2002)。然而,當(dāng)時(shí)受有限的計(jì)算機(jī)數(shù)量和高昂成本的影響,在線考試形式并不多見。如今,隨著網(wǎng)絡(luò)技術(shù)不斷發(fā)展以及計(jì)算機(jī)、手機(jī)、平板電腦不斷普及,在線考試的應(yīng)用也日益廣泛和多元。例如,在美國高等教育中的研究生成績考試(GRE)、托??荚嚨染筒捎昧嗽诰€考試形式。在美國初等教育中,越來越多的州也開始將在線考試作為其K-12評(píng)估項(xiàng)目的一部分(Olson, 2003)。在我國,在線考試也被越來越多地用于學(xué)生心理測試、外語考試、計(jì)算機(jī)等級(jí)考試等場合中。

相較于基于紙筆的傳統(tǒng)考試方式,在線考試具有智能出題、智能組卷、智能考務(wù)、智能閱卷和智能反饋等特點(diǎn),以及降低成本、保障安全、自動(dòng)保存、隨時(shí)調(diào)閱等方面的優(yōu)勢(如表1所示)(Bayazit & Askar, 2012; Gvozdenko & Chambers, 2007)。

具體而言,在線考試對學(xué)生、教師和教學(xué)管理者均有不同層面的益處:對學(xué)生而言,首先在線考試可以使考生擺脫時(shí)間和空間限制,提高考試便利性;其次在線考試豐富、立體、快速的反饋有利于學(xué)生開展形成性評(píng)價(jià)與自我評(píng)價(jià),及時(shí)發(fā)現(xiàn)自己的優(yōu)勢與不足(Nguyen,et al., 2017; Smith & Caputi, 2007)。對教師而言,在線考試一方面可以提高工作效率、減少閱卷統(tǒng)計(jì)失誤、保證考試公平;另一方面,教師可以及時(shí)查看在線考試系統(tǒng)反饋的數(shù)據(jù)分析報(bào)告(如學(xué)生作答數(shù)據(jù)、成績數(shù)據(jù)、試卷知識(shí)點(diǎn)分析、難度分析等)用于教學(xué)改進(jìn)。對教學(xué)管理者而言,在線考試可以減少試題打印與保管、考場安排與監(jiān)考、試卷分發(fā)與收集等傳統(tǒng)環(huán)節(jié),提高組織效率和管理質(zhì)量。教學(xué)管理者還可利用在線考試系統(tǒng)快速分析考試數(shù)據(jù),查看不同班級(jí)、年級(jí),甚至不同學(xué)校、不同地區(qū)的考試分析報(bào)告,從而進(jìn)行確切的教學(xué)評(píng)估,有針對性地開展教學(xué)干預(yù)。

盡管在線考試有很多優(yōu)點(diǎn),但也存在一些缺點(diǎn)和限制:一、容易作弊。若在線考試在非固定的考試環(huán)境中進(jìn)行,并且在線考試系統(tǒng)缺少身份識(shí)別和作弊監(jiān)測等功能,在這種情況下在線考試在某種程度上等同于開卷考試。二、存在技術(shù)門檻。編制在線考試試題材料需要教師具備一定信息處理能力,實(shí)施在線考試也需要學(xué)生對操作考試系統(tǒng)較為熟練。三、易受外部條件影響。在線考試不僅需要具備良好的硬件設(shè)備、流暢的考試系統(tǒng)以及穩(wěn)定的網(wǎng)絡(luò)環(huán)境(楊寶山, 2010),而且對學(xué)生自身意志力也提出了更高要求。

(二)已有研究分歧

過去幾十年,關(guān)于在線考試與傳統(tǒng)考試成績等效性問題國外已有不少實(shí)證研究。所謂“等效性問題”是指在同等條件下學(xué)生參與在線考試取得的成績是否等同于參與傳統(tǒng)考試所取得的成績,即兩種不同考試方式是否會(huì)造成考生成績上的顯著差異。然而,這些研究結(jié)論尚未統(tǒng)一,一些研究報(bào)告兩者沒有顯著差異(Meade, et al., 2007; Mason, et al., 2001; Kim& Huynh, 2007; Hamhuis,et al., 2020; Choi,et al., 2003; Poggio, et al., 2005; Ebrahimi & Seyyed, 2019; Seo & Jong, 2015),另一些研究報(bào)告兩者存在顯著差異(Coniam, 2006; Marcos, et al., 2010; Pomplun, 2002; Nardi & Ranieri, 2019; Clariana & Wallace, 2002)。

1. 無差異

曼森等(Mason, et al., 2001)研究發(fā)現(xiàn),在線考試成績與傳統(tǒng)考試成績相當(dāng)。尤其是當(dāng)學(xué)生掌握基本的計(jì)算機(jī)技能,并且在線考試系統(tǒng)為學(xué)生提供題目速覽、跳躍作答、修改答案以及復(fù)習(xí)檢查的機(jī)會(huì)時(shí),學(xué)生在線考試成績等同于傳統(tǒng)考試成績。同樣,米爾薩普(Millsap, 2000)研究證實(shí),當(dāng)在線考試系統(tǒng)包含與傳統(tǒng)考試完全相同的考試題目、順序和布局時(shí),不同考試方式對考生成績沒有顯著影響。布拉西姆和塞耶德(Ebrahimi & Seyyed, 2019)同樣發(fā)現(xiàn),在兩種不同考試方式下所有受試者的考試分?jǐn)?shù)不但沒有表現(xiàn)出顯著差異,而且參加考試的男性和女性成績也未發(fā)現(xiàn)顯著差異。

在此基礎(chǔ)上,有研究者對兩種考試方式中的各個(gè)科目成績進(jìn)行比較,同樣沒有發(fā)現(xiàn)顯著差異。例如,金和黃(Kim & Huynh, 2007)對韓國不同學(xué)校學(xué)生的代數(shù)和生物科目期末在線考試與傳統(tǒng)考試進(jìn)行對比,發(fā)現(xiàn)不同考試方式對兩門科目的考試成績沒有顯著影響。同樣,漢姆等(Hamhuis, et al., 2020)對荷蘭532名四年級(jí)學(xué)生的數(shù)學(xué)和科學(xué)科目在線考試成績與傳統(tǒng)考試成績進(jìn)行對比,也未發(fā)現(xiàn)顯著差異?;魟P等(Horkay, et al., 2006)以八年級(jí)學(xué)生為研究對象探討在線寫作考試與傳統(tǒng)寫作考試成績的可比性,結(jié)果顯示兩者平均分沒有顯著差異?;艨死諆?nèi)特等(Hochlehnert, et al., 2011)讓98名大學(xué)醫(yī)學(xué)生自由選擇考試形式,也未發(fā)現(xiàn)兩者成績存在顯著差異。這些研究結(jié)果表明,在線考試成績與傳統(tǒng)考試成績具有等效性,考生在兩種考試方式上所取得的成績不存在顯著差異。

2. 有差異

然而,國外有實(shí)證研究同樣證實(shí),考生在兩種不同考試方式上取得的成績會(huì)存在顯著差異。其中一些研究者觀察到,與傳統(tǒng)考試相比,考生在線考試成績會(huì)更高。例如,邦德森等(Bunderson, et al., 1989)開展了三項(xiàng)實(shí)證研究,均發(fā)現(xiàn)學(xué)生在線考試成績會(huì)顯著優(yōu)于傳統(tǒng)考試成績。同樣,克拉麗安娜和華萊士(Clariana & Wallace, 2002)研究發(fā)現(xiàn),學(xué)生在線考試成績會(huì)顯著優(yōu)于傳統(tǒng)考試成績,并且優(yōu)等生尤為明顯。在此基礎(chǔ)上,一些研究者對不同學(xué)段學(xué)生的考試成績進(jìn)行對比研究,也得出同樣結(jié)論。例如,馬科斯等(Marcos, et al., 2010)將不同學(xué)校14~21歲的高中生和大學(xué)生分成3個(gè)實(shí)驗(yàn)組進(jìn)行對比分析,發(fā)現(xiàn)選擇在線考試的考生其考試成績顯著優(yōu)于選擇傳統(tǒng)考試的考生。

與此相反,也有研究者觀察到與傳統(tǒng)考試成績相比,考生在線考試成績會(huì)更低。例如,侯賽因等(Hosseini, et al., 2014)對伊朗大學(xué)一年級(jí)英語專業(yè)學(xué)生的兩種考試成績進(jìn)行對比研究,發(fā)現(xiàn)參加在線考試的學(xué)生其成績顯著低于參加傳統(tǒng)考試的學(xué)生。鄭(Jeong, 2014)對韓國六年級(jí)學(xué)生的韓國語和科學(xué)科目的兩種考試成績進(jìn)行對比,同樣發(fā)現(xiàn)所有參與者在傳統(tǒng)考試中的成績更好。以上研究結(jié)果表明,在線考試成績與傳統(tǒng)考試成績不具等效性,考生在兩種考試方式上取得的成績會(huì)存在顯著差異。

(三)產(chǎn)生分歧的可能原因

根據(jù)已有文獻(xiàn),導(dǎo)致研究結(jié)論不一的原因可能與考試的題型、考試科目、考試設(shè)備、考試場景、考生學(xué)段、考生傾向和文獻(xiàn)發(fā)表的年份等因素有關(guān)。

1. 考試題型

選擇題、填空題或者主觀題等不同考試題型可能是影響實(shí)驗(yàn)結(jié)果的一個(gè)重要因素(Ventouras, et al., 2011)。正如科尼亞姆(Coniam, 2006)所說,進(jìn)行在線考試時(shí),當(dāng)考試題型的作答要求較少時(shí)(例如選擇題只需點(diǎn)擊正確答案即可),考生對在線考試的態(tài)度是積極的。當(dāng)在線考試題型有較多的要求時(shí)(例如填空題、主觀題必須輸入單詞或短語),與傳統(tǒng)考試相比,考生對在線考試的態(tài)度和在考試中的表現(xiàn)則會(huì)差得多。羅素和海尼(Russell & Haney, 1997)對中學(xué)生在兩種考試方式下的多項(xiàng)選擇題和簡答題成績進(jìn)行了比較分析,發(fā)現(xiàn)考生在多項(xiàng)選擇題上的得分差異不顯著,但在開放式簡答題上的得分差異顯著,并且習(xí)慣于使用計(jì)算機(jī)寫作的學(xué)生其在線考試成績會(huì)更高。

2. 考試科目

考試科目的學(xué)科性質(zhì)差異也可能是造成實(shí)驗(yàn)結(jié)果存在差異的原因之一(Prisacari & Danielson, 2017)。例如,對于數(shù)學(xué)科目而言,有研究發(fā)現(xiàn)學(xué)生在傳統(tǒng)考試中表現(xiàn)會(huì)更好。因?yàn)樵趥鹘y(tǒng)考試時(shí),學(xué)生可以直接在試卷的空白處或草稿紙上進(jìn)行計(jì)算,而在參加在線考試時(shí),學(xué)生的注意力必須在計(jì)算機(jī)屏幕和草稿紙之間來回切換,這會(huì)造成更多的計(jì)算錯(cuò)誤(Kingston, 2008; Randy, et al., 2008)。此外,外語、語文等對閱讀要求較高的科目其考試成績也會(huì)受考試模式影響(Halamish & Elbaz, 2020)。例如,在對挪威小學(xué)生的研究中,曼根等(Mangen, et al., 2013)觀察到,參加傳統(tǒng)考試的學(xué)生其閱讀成績會(huì)顯著優(yōu)于參加在線考試的學(xué)生,其中在計(jì)算機(jī)屏幕上頻繁滾動(dòng)閱讀文本是造成在線考試表現(xiàn)較差的原因之一。桑切斯和韋利(Sanchez & Wiley, 2009)的研究也發(fā)現(xiàn),頻繁地屏幕滾動(dòng)閱讀會(huì)降低考生記憶容量,對考試成績具有負(fù)面影響。

3. 考試設(shè)備

計(jì)算機(jī)、平板電腦、手機(jī)等不同的在線考試設(shè)備也可能是影響考生在線考試表現(xiàn)的又一關(guān)鍵因素。例如,達(dá)迪等(Dadey, et al., 2018)發(fā)現(xiàn),跟臺(tái)式電腦相比,平板電腦和手機(jī)的虛擬鍵盤可能會(huì)增加在線考試的操作難度,導(dǎo)致更多的打字錯(cuò)誤。同時(shí),由于平板電腦或手機(jī)屏幕更小,考生所需的閱讀時(shí)間會(huì)比臺(tái)式或筆記本電腦更長,因而可能會(huì)造成更多的負(fù)面影響。此外,平板電腦或手機(jī)提供了許多額外的易使用功能(如內(nèi)置攝像頭),這也可能會(huì)分散學(xué)生對考試任務(wù)的注意力。

4. 考試場景

被試群體所在的考試場景也可能是導(dǎo)致研究結(jié)論不一致的關(guān)鍵因素。以往,學(xué)生的在線考試通常是在有專業(yè)人員監(jiān)督的固定場景中進(jìn)行(如學(xué)校的計(jì)算機(jī)教室)。如今,隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,以及便攜式電腦、平板、手機(jī)等移動(dòng)終端不斷普及,學(xué)生參與在線考試的場景也變得靈活多樣。同樣是在線考試,考生在彈性靈活的考試場景與有監(jiān)考人員監(jiān)督的正式場景中的表現(xiàn)可能會(huì)有所不同。例如,伊爾加茲和阿達(dá)尼爾(Ilgaz & Adan?r, 2020)發(fā)現(xiàn)在未經(jīng)監(jiān)考的在線考試場景中學(xué)生可能會(huì)使用額外的考試資源,導(dǎo)致在線成績更高。

5. 考生學(xué)段

小學(xué)生、中學(xué)生或大學(xué)生等被試群體的不同也可能是造成以往研究結(jié)果不一致的重要因素?;谛畔⑾到y(tǒng)的在線考試需要一定的技術(shù)門檻,由于不同學(xué)段的學(xué)生對計(jì)算機(jī)技術(shù)的掌握程度不同,因此可能會(huì)產(chǎn)生不同的研究結(jié)果。尤其是低學(xué)段學(xué)生相對缺乏在線學(xué)習(xí)和考試經(jīng)驗(yàn),在進(jìn)行在線考試時(shí)更容易出現(xiàn)注意力不集中、閱讀疲勞等問題(Pomplun,et al., 2006)。例如,有研究表明,小學(xué)生普遍認(rèn)為在電腦上考試會(huì)比紙上更難作答,而高年級(jí)段的學(xué)生特別是大學(xué)生對在線考試則更有經(jīng)驗(yàn)與信心,進(jìn)行在線考試時(shí)有更好的專注力和自控力(Karay, et al., 2015)。

6. 考生傾向

被試群體的考試傾向可能是導(dǎo)致以往研究結(jié)果不一致的另一個(gè)重要因素。在同等條件下,與隨機(jī)分配或被迫安排進(jìn)行在線考試的考生相比,那些對在線考試持更積極態(tài)度、自愿選擇在線方式進(jìn)行考試的考生往往能取得更好的成績。例如,納爾迪和拉涅利(Nardi & Ranieri, 2019)對學(xué)生在線期末考試的表現(xiàn)、感知和傾向進(jìn)行了調(diào)查,結(jié)果顯示,學(xué)生們的在線考試成績與個(gè)人對在線考試的傾向和自我效能感呈正相關(guān),其中自愿選擇在線考試的考生其成績會(huì)顯著優(yōu)于傳統(tǒng)考試組的考生。

7. 文獻(xiàn)發(fā)表年份

文獻(xiàn)發(fā)表年份大致體現(xiàn)了作者開展實(shí)驗(yàn)研究的年份,由于受當(dāng)時(shí)科技發(fā)展水平的影響,在不同時(shí)期進(jìn)行的研究實(shí)驗(yàn)可能會(huì)得出不同的研究結(jié)論。例如,齊菲勒(Ziefle, 1998)的綜述證明,考生在傳統(tǒng)考試中的成績會(huì)顯著優(yōu)于在線考試,因?yàn)橛?jì)算機(jī)顯示屏?xí)箍忌劬Ω灼凇H欢?,作者主要是基?0世紀(jì)八九十年代的研究進(jìn)行的綜述。進(jìn)入21世紀(jì)后,隨著計(jì)算機(jī)硬件和在線考試軟件等的不斷優(yōu)化升級(jí),實(shí)驗(yàn)結(jié)果可能也會(huì)隨之出現(xiàn)不同。

綜上所述,本研究將以上七個(gè)可能導(dǎo)致研究結(jié)論存在分歧的因素作為本次元分析的調(diào)節(jié)變量,分別檢驗(yàn)不同調(diào)節(jié)變量對分析結(jié)果的影響。

三、研究方法與過程

為更客觀地比較在線考試與傳統(tǒng)考試成績是否具有等效性,本研究使用國際教育技術(shù)研究中廣泛應(yīng)用的元分析(meta-analysis)方法。元分析是一種綜合了多個(gè)實(shí)驗(yàn)或準(zhǔn)實(shí)驗(yàn)研究結(jié)果并從中獲得實(shí)驗(yàn)平均效應(yīng)量的統(tǒng)計(jì)分析方法(Lipsey&Wilson, 2000)。每個(gè)實(shí)驗(yàn)結(jié)果均可呈現(xiàn)為一個(gè)或多個(gè)效應(yīng)量(effect size),即實(shí)驗(yàn)組與控制組之間的標(biāo)準(zhǔn)化均差(standardized mean dfference,SMD)。通過將不同實(shí)驗(yàn)的各個(gè)效應(yīng)量進(jìn)行合并,得出這些研究的整體結(jié)論。本研究使用R(3.6.3)軟件進(jìn)行數(shù)據(jù)統(tǒng)計(jì)分析,用到的程序包有“esc”“meta”“dmetar”。

(一)原始文獻(xiàn)檢索

本研究以Web of Science、EBSCO、SpringerLink、ERIC、Scopus等英文數(shù)據(jù)庫為數(shù)據(jù)來源,以在線考試和(與)傳統(tǒng)考試為關(guān)鍵詞進(jìn)行檢索,檢索時(shí)間范圍為2000—2020年。其中,“在線考試”關(guān)鍵詞包括online test、online exam、E-examination、E-assessment、electronic exam、computer-based assessment、Web-based assessments、digital assessment等。“傳統(tǒng)考試”關(guān)鍵詞包括traditional test、traditional examination、paper-based testing、paper-pencil test等。為避免遺漏,本研究通過Google Scholar補(bǔ)充檢索,同時(shí)借助相關(guān)文章的參考文獻(xiàn)進(jìn)行滾雪球式搜索,此次元分析的所有原始文獻(xiàn)均為英文文獻(xiàn)。

(二)文獻(xiàn)篩選標(biāo)準(zhǔn)

由于初步檢索的文獻(xiàn)并不完全符合元分析設(shè)定的條件,因而需要對初始文獻(xiàn)進(jìn)一步“過濾”。結(jié)合元分析方法和研究需要,本研究樣本篩選標(biāo)準(zhǔn)如下:

(1)原始文獻(xiàn)必須是比較在線考試與傳統(tǒng)考試成績差異的研究,如果只是探究在線考試的特征、應(yīng)用以及人們對在線考試的態(tài)度、偏好類的文獻(xiàn)需排除。

(2)原始文獻(xiàn)的研究必須是實(shí)驗(yàn)和準(zhǔn)實(shí)驗(yàn)類的實(shí)證研究,并且文獻(xiàn)中包含能夠計(jì)算出效應(yīng)量的完整數(shù)據(jù),如實(shí)驗(yàn)組和控制組的樣本量,各個(gè)組實(shí)驗(yàn)后結(jié)果的平均值、標(biāo)準(zhǔn)差,或者兩組結(jié)果差異的F值、t值等。非量化類的實(shí)證研究以及數(shù)據(jù)報(bào)告不完整的文獻(xiàn)需排除。

(3)原始研究的被試必須是在校學(xué)生,如小學(xué)生、中學(xué)生、大學(xué)生等,并且涉及具體的考試科目。被試群體為教師、職場人士或老年人群體的文獻(xiàn)需排除,研究方法為問卷調(diào)查、心理量表測試類的文獻(xiàn)需排除。

基于以上檢索及篩選,本研究最終獲得37篇有效原始文獻(xiàn),根據(jù)這些文獻(xiàn)可以得到適用于元分析的樣本55個(gè)(有些原始文獻(xiàn)包含多項(xiàng)實(shí)驗(yàn),可以計(jì)算出多個(gè)效應(yīng)量)。根據(jù)元分析統(tǒng)計(jì)理論,在樣本量不低于30的情況下進(jìn)行元分析更能確保結(jié)果的準(zhǔn)確性和可靠性(宋偉, 2013),因此本研究的樣本量滿足元分析標(biāo)準(zhǔn)。

(三)信息提取與編碼

為更好地了解原始文獻(xiàn)信息,找出潛在調(diào)節(jié)變量,作者對原始文獻(xiàn)進(jìn)行了系統(tǒng)梳理,從每篇文獻(xiàn)中提取出相應(yīng)的信息并進(jìn)行編碼,提取和編碼的信息包括文獻(xiàn)第一作者、發(fā)表年份、考試題型、科目、設(shè)備、環(huán)境以及考生的學(xué)段、傾向等(見表2)。

(四)效應(yīng)量計(jì)算

在納入的原始文獻(xiàn)中,由于不同研究實(shí)驗(yàn)或準(zhǔn)實(shí)驗(yàn)設(shè)計(jì)不同,測查工具不同,并且多數(shù)實(shí)驗(yàn)研究或準(zhǔn)實(shí)驗(yàn)研究的樣本量較小,因此選擇Hedges’s g作為效應(yīng)量更合適,發(fā)表偏倚更小一些。在具體的效應(yīng)量計(jì)算過程中,如果一篇文獻(xiàn)包含多項(xiàng)研究,不同研究之間相互獨(dú)立且能反映在線考試的效果,則將每項(xiàng)研究作為一個(gè)單獨(dú)的研究結(jié)果并計(jì)算其效應(yīng)量。若文章中出現(xiàn)兩個(gè)以上對照組,則將每個(gè)對照組和實(shí)驗(yàn)組的結(jié)果作為一個(gè)研究結(jié)果,并計(jì)算其效應(yīng)量。如果Hedges’s g為正數(shù),表明實(shí)驗(yàn)組平均得分高于控制組,在本研究中則為在線考試平均成績高于傳統(tǒng)考試平均成績;負(fù)數(shù)則相反。Hedges’s g絕對值越大,則表明兩者成績差異越大。本研究使用R軟件中的“esc”程序包對各項(xiàng)研究的效應(yīng)量進(jìn)行逐個(gè)計(jì)算。

四、結(jié)果檢驗(yàn)與分析

根據(jù)元分析統(tǒng)計(jì)要求,本研究首先對納入的原始研究樣本進(jìn)行發(fā)表偏倚檢驗(yàn)、異質(zhì)性檢驗(yàn)和敏感性分析。在確保元分析結(jié)果穩(wěn)健的前提下,選取適切的統(tǒng)計(jì)效應(yīng)模型,對55項(xiàng)研究樣本進(jìn)行效應(yīng)量合并計(jì)算,并依次對潛在調(diào)節(jié)變量進(jìn)行調(diào)節(jié)效應(yīng)檢驗(yàn)。

(一)發(fā)表偏倚與異質(zhì)性檢驗(yàn)

發(fā)表偏倚指相對于沒有統(tǒng)計(jì)顯著意義的陰性研究結(jié)果而言,有統(tǒng)計(jì)顯著意義的陽性研究結(jié)果更有機(jī)會(huì)或更快獲得發(fā)表。這會(huì)使檢索到的相關(guān)文獻(xiàn)不能全面、系統(tǒng)地代表該領(lǐng)域的總體應(yīng)用效果,進(jìn)而影響元分析結(jié)果的可靠性,因此有必要進(jìn)行發(fā)表偏倚檢測和分析(Rothstein, et al., 2005)。本研究采用定性漏斗圖法和定量Egger法檢測研究樣本的發(fā)表偏倚。如果研究樣本存在發(fā)表偏倚,則會(huì)出現(xiàn)不對稱的漏斗圖。漏斗圖的對稱程度直接體現(xiàn)了研究樣本發(fā)表偏倚的程度。

本研究首先使用R軟件“meta”程序包中的funnel()函數(shù),將55項(xiàng)研究樣本的效應(yīng)量和標(biāo)準(zhǔn)誤數(shù)據(jù)繪制出漏斗圖。如圖1所示,所有研究樣本的效應(yīng)量基本圍繞平均效應(yīng)量對稱散開,且大部分研究處于漏斗圖中上部,分布于底部的研究較少,說明研究樣本發(fā)表偏倚較小。為保證研究科學(xué)性,本研究進(jìn)一步采用R軟件“dmetar”程序包中的eggers.test()函數(shù),利用Egger法進(jìn)一步檢測發(fā)表偏倚,回歸檢測結(jié)果顯示t = -0.384,P=0.70>0.05,表明研究樣本間發(fā)表偏倚不顯著。因此,本研究得出的合并效應(yīng)量具有穩(wěn)健性。

進(jìn)一步參照Q統(tǒng)計(jì)量指標(biāo)進(jìn)行樣本異質(zhì)性檢驗(yàn),研究發(fā)現(xiàn)55個(gè)有效樣本的異質(zhì)性結(jié)果為Q=1027.85,P < 0.001,表明樣本間具有較大異質(zhì)性,因此合并效應(yīng)量時(shí)需利用隨機(jī)效應(yīng)模型(random effect model)消除異質(zhì)性差異,以避免出現(xiàn)系統(tǒng)誤差。

(二)敏感性分析

為檢驗(yàn)是否存在影響總體效應(yīng)量的異常值,本研究進(jìn)一步采用“逐一去除法”(leave-one-out-analyses)進(jìn)行敏感性分析,檢驗(yàn)所選研究樣本的極端效應(yīng)量對總體效應(yīng)量是否存在顯著影響。使用R軟件“dmetar”程序包中的InfluenceAnalysis()函數(shù)進(jìn)行檢驗(yàn)操作。如圖2所示,在隨機(jī)效應(yīng)模型下,將55項(xiàng)研究樣本的效應(yīng)量逐一去除后從小到大進(jìn)行排序,合并效應(yīng)量均在0.0~0.1,并且緊密圍繞平均效應(yīng)量,意味著刪除任何一項(xiàng)研究后都不會(huì)影響總體效應(yīng)量的估計(jì),表明本研究元分析的結(jié)果比較穩(wěn)健。

(三)在線考試與傳統(tǒng)考試成績之間的整體差異

為比較在線考試與傳統(tǒng)考試成績之間的整體差異,本研究使用R軟件“meta”程序包中的metagen()函數(shù)進(jìn)行隨機(jī)效應(yīng)模型下的效應(yīng)量合并,并使用forest()函數(shù)生成森林圖,如圖3所示。

在隨機(jī)效應(yīng)模型下,本研究的55個(gè)樣本合并效應(yīng)量Hedges’s g = 0.0657。依據(jù)科恩(Cohen, 1988)提出的效應(yīng)量分析理論,當(dāng)效應(yīng)量在0.2~0.5,可以認(rèn)為差異較小;當(dāng)效應(yīng)量在0.5~0.8時(shí),可以認(rèn)為有中等差異;當(dāng)效應(yīng)量大于0.8時(shí),則認(rèn)為差異很大。本研究的總體效應(yīng)量低于0.1,說明在線考試成績與傳統(tǒng)考試成績相比差異很小。并且合并效應(yīng)量的95%置信區(qū)間為[-0.0663;0.1977],預(yù)測區(qū)間為[-0.8774;1.0088],均包含零。這表明,從已有研究的元分析結(jié)果看,在線考試成績與傳統(tǒng)考試成績之間不存在顯著差異,兩者具有等效性。

(四)調(diào)節(jié)變量的調(diào)節(jié)效應(yīng)檢驗(yàn)

為檢驗(yàn)調(diào)節(jié)變量是否對研究結(jié)果產(chǎn)生調(diào)節(jié)作用,在隨機(jī)效應(yīng)模型下,本研究使用R軟件“meta”程序包中的update.meta()函數(shù)依次對考試題型、科目、設(shè)備、場景、考生學(xué)段、考生傾向、發(fā)表年份等分類變量進(jìn)行亞組分析。

1. 考試題型

本研究將原始研究樣本按照考試題型分為兩類:客觀題(K=48),包括選擇題、判斷題和匹配題等;混合題(K=7),既包括客觀題也有主觀題。具體結(jié)果如表3所示。

從組間效應(yīng)來看,差異比較結(jié)果為Qbet=0.170,P=0.679>0.05。這表明,題型不存在調(diào)節(jié)效應(yīng),即客觀題、混合題兩種題型對在線考試與傳統(tǒng)考試成績等效性無顯著影響。具體來看,兩種題型的效應(yīng)量均為正值,其中客觀題的效應(yīng)量為SMD=0.073(P=0.323>0.05),稍微大于混合題的效應(yīng)量SMD=0.017(P=0.878>0.05),表明學(xué)生在線考試中客觀題和混合題的成績都稍微優(yōu)于傳統(tǒng)考試,其中客觀題成績稍微優(yōu)于混合題,但兩者差異都不顯著。

2. 考試科目

本研究將原始研究樣本按照考試科目分為五類,即外語(K=16)、閱讀(K=6)、數(shù)學(xué)(K=8)、自然科學(xué)類(K=19)和社會(huì)科學(xué)類(K=6),具體結(jié)果如表4所示。

從組間效應(yīng)來看,差異比較結(jié)果為Qbet=11.381,P=0.022<0.05,達(dá)到顯著水平。這表明,考試科目對在線考試與傳統(tǒng)考試成績等效性具有顯著調(diào)節(jié)作用,即學(xué)生在線考試成績會(huì)受到考試科目的顯著影響。具體來看,數(shù)學(xué)科目的效應(yīng)量最低,達(dá)到小效應(yīng)(SMD=-0.329,絕對值大于0.2),并且顯著(P=0.011<0.05)。這表明在線考試對學(xué)生數(shù)學(xué)科目成績具有較小的顯著負(fù)向作用。其他考試科目的效應(yīng)量均為正值,其中社會(huì)科學(xué)類效應(yīng)量最高且達(dá)到小效應(yīng)(SMD=0.230>0.2),但不顯著(P=0.100>0.05)。

3. 考試設(shè)備

本研究將原始研究樣本按照考試設(shè)備分為三類,即電腦(K=50)、平板(K=3)和手機(jī)(K=2),具體結(jié)果如表5所示。

從組間效應(yīng)來看,差異比較結(jié)果為Qbet=2.227,P=0.328>0.05,未達(dá)到顯著水平。這表明,考試設(shè)備對在線考試與傳統(tǒng)考試成績等效性不具有顯著調(diào)節(jié)作用,即學(xué)生在線考試成績不會(huì)受到考試設(shè)備的顯著影響。具體來看,三種考試設(shè)備的效應(yīng)量均為正值,其中手機(jī)的效應(yīng)量最高,且達(dá)到小效應(yīng)標(biāo)準(zhǔn)(SMD=0.319>0.2),但不顯著(P=0.055>0.05)。這表明考生利用手機(jī)進(jìn)行在線考試成績相對較好,但由于樣本量較小,這一研究結(jié)果應(yīng)謹(jǐn)慎看待。

4. 考試場景

本研究將原始研究樣本按照考試場景分為兩類,即固定場景(K=49)和非固定場景(K=6),具體結(jié)果如表6所示。

從組間效應(yīng)來看,差異比較結(jié)果為Qbet=7.839,P=0.005<0.05,達(dá)到顯著水平。這表明,考試場景對在線考試與傳統(tǒng)考試成績等效性具有顯著調(diào)節(jié)作用,即不同的考試場景會(huì)顯著影響考生的在線考試成績。具體來看,兩種考試場景的效應(yīng)量均為正值,其中非固定場景的效應(yīng)量最高,達(dá)到中等效應(yīng)(SMD=0.728>0.5),并且顯著(P=0.005<0.05)。這表明,在非固定場景進(jìn)行在線考試對考生成績具有中等程度的顯著正向影響。

5. 考生學(xué)段

本研究將原始研究樣本按照考生學(xué)段分為四類,即小學(xué)(K=12)、初中(K=7)、高中(K=8)和大學(xué)(K=28),具體結(jié)果如表7所示。

從組間效應(yīng)來看,差異比較結(jié)果為Qbet=10.22,P=0.016<0.05,達(dá)到顯著水平。這表明,學(xué)段對在線考試與傳統(tǒng)考試成績的等效性具有顯著調(diào)節(jié)作用,即在線考試與傳統(tǒng)考試成績等效性會(huì)受到考生學(xué)段的顯著影響。具體來看,高中和大學(xué)階段的效應(yīng)量均為正值,其中高中階段最高,且達(dá)到小效應(yīng)(SMD=0.249>0.2),但不顯著(P=0.089>0.05)。小學(xué)和初中階段的效應(yīng)量均為負(fù)數(shù),并且顯著,其中小學(xué)階段的效應(yīng)量最低(SMD=-0.215)。這表明小學(xué)和初中階段的考生在線考試成績會(huì)相對低于傳統(tǒng)考試,這種差異在小學(xué)階段更為明顯。

6. 考生傾向

本研究將原始研究樣本按照考生傾向分為隨機(jī)分配(K=48)和自愿選擇(K=7)兩類,具體結(jié)果如表8所示。

從組間效應(yīng)來看,差異比較結(jié)果為Qbet=15.059,

P=0.0001<0.01,達(dá)到顯著水平。這表明,個(gè)人傾向?qū)υ诰€考試與傳統(tǒng)考試成績等效性具有顯著調(diào)節(jié)作用,即考生個(gè)人選擇傾向會(huì)顯著影響考生的在線考試成績。具體來看,兩種考生傾向的效應(yīng)量均為正值,但自愿選擇情況下的效應(yīng)量最高,達(dá)到中等影響(SMD=0.782>0.5),并且顯著(P=0.000<0.01)。這表明自愿選擇在線考試的考生其在線考試成績會(huì)顯著優(yōu)于其傳統(tǒng)考試成績。

7. 發(fā)表年份

本研究將原始研究樣本按照發(fā)表年份分為四類,即2000—2005年(K=15)、2006—2010年(K=14)、2011—2015年(K=13)和2016—2020年(K=13),具體結(jié)果如表9所示。

從組間效應(yīng)來看,差異比較結(jié)果為Qbet=2.999,P=0.391>0.05。這表明,發(fā)表年份不存在調(diào)節(jié)效應(yīng),即不同年份開展的實(shí)驗(yàn)研究對在線考試與傳統(tǒng)考試成績等效性無顯著影響。具體來看,2016—2020年發(fā)表文章的效應(yīng)量最高,且達(dá)到小效應(yīng)(SMD=0.258>0.2),但不顯著(P=0.184>0.05)。

五、結(jié)論與建議

為探討在線考試成績與傳統(tǒng)考試成績是否具有等效性問題,本研究采用元分析方法對2000—2020年國際上開展的55項(xiàng)實(shí)證研究結(jié)果進(jìn)行定量綜合分析。在此基礎(chǔ)上,探究了不同考試題型、科目、設(shè)備、場景、考試學(xué)段、考生傾向和發(fā)表年份等調(diào)節(jié)變量對兩者等效性的影響。研究發(fā)現(xiàn):

第一,在線考試與傳統(tǒng)考試成績具有等效性,兩者不存在顯著差異

元分析結(jié)果顯示,在隨機(jī)效應(yīng)模型下,納入本研究的55個(gè)樣本合并效應(yīng)量為0.0657,遠(yuǎn)低于Cohen(1988)提出的最小差異標(biāo)準(zhǔn)0.2。這表明,考生在線考試成績與傳統(tǒng)考試成績不存在顯著差異,二者具有等效性。這與金斯敦(Kingston, 2008)的元分析結(jié)果一致。在線考試作為一種評(píng)價(jià)方式,具有靈活、智能、低成本等優(yōu)勢,受到越來越多大中小學(xué)的認(rèn)可與使用。依托于信息技術(shù)的不斷升級(jí)迭代,在線考試的弊端也在不斷縮小,在線考試逐漸成為傳統(tǒng)考試的補(bǔ)充或替代選擇。需要注意的是,雖然現(xiàn)有證據(jù)表明,在線考試在評(píng)價(jià)學(xué)生成績表現(xiàn)方面與傳統(tǒng)考試方式無異,但是,這一結(jié)論離不開必要的前提條件支撐,即在線考試需要具備良好的硬件設(shè)備、穩(wěn)定的網(wǎng)絡(luò)環(huán)境、流暢的作答系統(tǒng)以及信效度與傳統(tǒng)考試相同的試題資源。在線考試系統(tǒng)還需為考生提供允許提前瀏覽題目、跳躍作答、回頭檢查、隨時(shí)修改、文字標(biāo)記等方面的功能。

為更好地發(fā)揮在線考試在評(píng)價(jià)學(xué)生學(xué)習(xí)效果方面的優(yōu)勢,相關(guān)主體應(yīng)共同努力,攜手促進(jìn)在線考試的發(fā)展和運(yùn)用。教育管理部門應(yīng)給予政策支持,出臺(tái)在線考試標(biāo)準(zhǔn)(胡星, 2017),進(jìn)一步鼓勵(lì)各級(jí)各類學(xué)校靈活使用在線評(píng)價(jià)方式,充分發(fā)揮“互聯(lián)網(wǎng)+教育”的優(yōu)勢。學(xué)校應(yīng)結(jié)合自身實(shí)際,加強(qiáng)信息化建設(shè),改革評(píng)價(jià)方式,探索不同在線考試方式的應(yīng)用與實(shí)施,促進(jìn)技術(shù)與教育的深度融合。教育科技公司應(yīng)繼續(xù)加強(qiáng)技術(shù)創(chuàng)新,充分利用自身在人工智能、5G、大數(shù)據(jù)等領(lǐng)域的技術(shù)優(yōu)勢,不斷優(yōu)化在線考試系統(tǒng),讓技術(shù)更好地服務(wù)學(xué)生的全面發(fā)展。學(xué)生、教師和家長則應(yīng)增強(qiáng)對在線考試的信心,做在線考試的擁護(hù)者和踐行者。

第二,考試科目對在線考試與傳統(tǒng)考試成績等效性具有調(diào)節(jié)作用

從考試科目來看,不同考試科目對考生在線考試成績具有顯著影響。其中,考生參加數(shù)學(xué)科目的在線考試成績最不理想,這與金斯敦(Kingston, 2008)和王(Wang, 2007)的元分析結(jié)果一致(兩項(xiàng)研究的效應(yīng)量分別為-0.060和-0.102)??赡艿脑蚴?,數(shù)學(xué)科目考試通常需要大量計(jì)算。在傳統(tǒng)考試中,考生的注意力可以保持在同一平面內(nèi),但在在線考試過程中考生的注意力需要在電腦和草稿紙之間來回轉(zhuǎn)換,這會(huì)導(dǎo)致更多的計(jì)算錯(cuò)誤。約翰遜和格林(Johnson & Green, 2006)、哈爾斯特德和加德爾(Hallstedt & Ghaderi, 2018)的研究同樣證實(shí),雖然在線考試成績和傳統(tǒng)考試相比在整體上不存在顯著差異,但在個(gè)別問題上存在顯著差異。例如,數(shù)學(xué)考試中的圖表題考察考生的邏輯推理能力,在線考試可能會(huì)使之受影響。相反,閱讀、外語、自然科學(xué)和社會(huì)科學(xué)等科目在兩種考試中的成績差異不顯著,這與鄭(Jeong, 2014)的研究結(jié)論一致。

因此,學(xué)校在選擇在線考試方式時(shí)應(yīng)充分考慮考試科目的差異,提前認(rèn)識(shí)到在線考試可能對某些科目存在不利影響,及時(shí)采取針對性措施,最大限度保障考生發(fā)揮真實(shí)水平。此外,教育研究者、教育科技公司應(yīng)繼續(xù)加強(qiáng)相關(guān)實(shí)驗(yàn)研究,針對不同學(xué)科性質(zhì)差異設(shè)計(jì)符合不同科目需求的在線考試系統(tǒng),將系統(tǒng)對考生產(chǎn)生的不利影響降到最低。例如,在進(jìn)行數(shù)學(xué)科目在線考試時(shí),系統(tǒng)應(yīng)酌情給考生提供量角器、計(jì)算器等作圖工具以及輔助線等提示。在進(jìn)行外語、閱讀和社會(huì)科學(xué)等高閱讀需求的在線考試時(shí),考試系統(tǒng)應(yīng)注意字體的清晰度、大小、行距、布局設(shè)置并優(yōu)化滾動(dòng)或翻頁閱讀的方式,同時(shí)注意開發(fā)護(hù)眼模式,減輕考生視覺疲勞。

第三,考試場景對在線考試與傳統(tǒng)考試成績等效性具有調(diào)節(jié)作用

從考試場景來看,不同考試場景對考生的在線考試成績具有顯著影響。元分析結(jié)果顯示,考生在相對固定、有監(jiān)考人員監(jiān)考的場景中進(jìn)行的在線考試其成績與傳統(tǒng)考試相當(dāng)。反之,考生在非固定、無人監(jiān)考的場景中進(jìn)行在線考試,其成績與傳統(tǒng)考試相比存在顯著差異。這與德蘇扎和弗萊明(DeSouza & Fleming, 2003)的研究結(jié)論一致。原因可能是,在非固定考試場景中,與考試要求無關(guān)的因素會(huì)相對較多(例如,考生可能不夠重視考試,或者存在翻閱資料、查詢答案、尋求場外人幫助等情況),導(dǎo)致考生在線考試成績相對較高(Ilgaz & Adan?r, 2020)。

因此,學(xué)?;蚪處熢谶x擇在線考試方式之前,應(yīng)充分意識(shí)到考試場景對在線考試成績的影響。對于比較重要的考試,為保障考試公平,應(yīng)盡量優(yōu)先選擇有人監(jiān)考的固定考試環(huán)境。教育科技公司、軟件開發(fā)人員應(yīng)加快研發(fā)在線考試防作弊監(jiān)測系統(tǒng)。例如,在遠(yuǎn)程在線考試開始前,綜合使用人臉識(shí)別、語音識(shí)別、指紋驗(yàn)證等技術(shù)手段對考生身份進(jìn)行驗(yàn)證。在考試過程中,綜合使用人工智能、大數(shù)據(jù)等技術(shù)手段對考生的作答狀態(tài)進(jìn)行捕捉和監(jiān)測,防止考生出現(xiàn)利用網(wǎng)絡(luò)檢索答案、尋求他人幫助以及其他任何作弊行為,從而保障在線考試公平。

第四,考生學(xué)段對在線考試與傳統(tǒng)考試成績等效性具有調(diào)節(jié)作用

從考生學(xué)段來看,考生學(xué)段對其在線考試成績具有顯著影響。與傳統(tǒng)考試相比,小學(xué)生和初中生的在線考試成績相對不佳,其中小學(xué)生表現(xiàn)最不理想。高中生和大學(xué)生的在線考試成績相對較好,其中高中生表現(xiàn)最為理想。這可能跟不同學(xué)段學(xué)生的個(gè)性特點(diǎn)、心理素質(zhì)和信息素養(yǎng)水平有關(guān)。相較于高年級(jí)學(xué)生,低年級(jí)學(xué)生相對缺乏在線學(xué)習(xí)與考試經(jīng)驗(yàn),在考試過程中可能出現(xiàn)更大的心理焦慮與更多的操作失誤。同時(shí),低年級(jí)學(xué)生更易受電腦、平板、手機(jī)等考試終端的外在干擾,尤其是小學(xué)生自我控制能力較弱,出現(xiàn)注意力不集中情況的概率會(huì)更高。高中生和大學(xué)生媒介素養(yǎng)水平更高,對在線考試形式適應(yīng)更快,同時(shí)相對不易受到外在干擾。受學(xué)習(xí)環(huán)境影響,高中生對待考試態(tài)度更為認(rèn)真,組織紀(jì)律更好,可能是導(dǎo)致在線考試成績相對較好的原因。

因此,學(xué)校在選擇在線考試方式時(shí),應(yīng)意識(shí)到學(xué)段差異會(huì)影響考生在線考試成績。正式考試前,應(yīng)讓考生提前熟悉在線考試操作流程,針對低年級(jí)學(xué)生,有必要提前進(jìn)行多次模擬練習(xí)。家長和教師應(yīng)加強(qiáng)低年級(jí)學(xué)生信息素養(yǎng)教育,引導(dǎo)其樹立正確的媒介使用態(tài)度,防止沉溺電子產(chǎn)品,最大限度減少外在因素造成的不良影響。

第五,考生傾向?qū)υ诰€考試與傳統(tǒng)考試成績等效性具有調(diào)節(jié)作用

從考生傾向來看,考生的個(gè)人選擇傾向?qū)ζ湓诰€考試成績具有顯著影響。元分析結(jié)果顯示,自愿選擇在線考試的考生其在線考試成績會(huì)顯著優(yōu)于其傳統(tǒng)考試成績。這與希金斯等(Higgins, et al., 2005)的研究結(jié)果一致。原因可能在于,自愿選擇在線考試方式的學(xué)生具有更高的自我效能,對在線考試保持更高的信任與期待,而非自愿選擇在線考試的學(xué)生可能會(huì)表現(xiàn)出嚴(yán)重的考試焦慮,影響其能力發(fā)揮。當(dāng)然,由于本次研究樣本較少,這一研究結(jié)論有待進(jìn)一步觀察。

學(xué)?;蚪處熢谶x擇在線考試方式時(shí),應(yīng)充分認(rèn)識(shí)到考生傾向?qū)υ诰€考試成績的影響,尊重考生個(gè)人選擇傾向,靈活運(yùn)用考評(píng)方式。同時(shí),學(xué)校和社會(huì)應(yīng)共同采取措施,創(chuàng)造良好的外部考試環(huán)境,減輕考生對在線考試的擔(dān)憂與焦慮。例如,優(yōu)化硬件設(shè)備,降低鼠標(biāo)和鍵盤敲擊聲音;優(yōu)化在線考試系統(tǒng),減少卡頓或掉線等異常情況;加強(qiáng)安全保障,防止隱私泄露,等等。

六、結(jié)語

教育評(píng)價(jià)事關(guān)教育綜合質(zhì)量提升與教育改革方向?!盎ヂ?lián)網(wǎng)+教育”“人工智能+教育”催生了在線考試這種新型評(píng)價(jià)形式,為學(xué)習(xí)者提供了方便、快捷、有效的學(xué)習(xí)評(píng)價(jià)服務(wù)。本研究采用元分析方法,對在線考試與傳統(tǒng)考試成績等效性這一根本問題進(jìn)行了系統(tǒng)綜述。研究發(fā)現(xiàn)在線考試成績與傳統(tǒng)考試無顯著差異,在線考試可以作為傳統(tǒng)考試方式的替代與補(bǔ)充,但兩者等效性會(huì)受到考試科目、考試場景、考生學(xué)段和考生選擇傾向等因素影響。面向未來,需充分發(fā)揮在線考試的優(yōu)勢,采取各種措施消除在線考試的弊端,促進(jìn)在線考試高質(zhì)量發(fā)展,加快我國教育現(xiàn)代化進(jìn)程。

[參考文獻(xiàn)]

國務(wù)院. 2020-10-13. 中共中央、國務(wù)院印發(fā)《深化新時(shí)代教育評(píng)價(jià)改革總體方案》[EB/OL]. [2020-12-20]. http://www.gov.cn/zhengce/2021-10/13/content_5551032.htm

胡星. 2017. 開放教育網(wǎng)絡(luò)學(xué)習(xí)測評(píng)的實(shí)踐探索與研究[J].中國遠(yuǎn)程教育(7):69-76.

教育部. 2019-09-25. 教育部等十一部門關(guān)于促進(jìn)在線教育健康發(fā)展的指導(dǎo)意見[EB/OL]. [2020-12-20]. http://www.moe.gov.cn/srcsite/A03/moe_1892/moe_630/201909/t20190930_401825.html

宋偉,孫眾. 2013. 數(shù)字化學(xué)習(xí)資源有效性的元分析[J]. 中國電化教育(11):81-85.

楊寶山. 2010. 基礎(chǔ)教育階段網(wǎng)絡(luò)作業(yè)與在線考試的現(xiàn)狀分析[J]. 中國遠(yuǎn)程教育(8):62-65.

Bunderson, C. V., Inouye, D. K., & Olsen, J. B. (1989). The four generations of computerized educational measurement. In R. L. Linn (Ed.), Educational measurement American Council on Education (pp.367- 407), New York: Macmillan.

Bayazit, A., & Askar, P. (2012). Performance and duration differences between online and paper-pencil tests. Asia Pacific Educational Review, 13(2), 219-226.

Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed.). Hillsdale, NJ: Lawrence Erlbaum.

Clariana, R., &Wallace, P. (2002). Paper-based versus computer-based assessment: Key factors associated with the test mode effect. British Journal of Educational Technology, 33(5), 593-602.

Choi, I. C., Kyoung, S. K., & Jaeyool, B. (2003). Comparability of a paper-based language test and a computer-based language test. Language Testing, 20(3), 295-320.

Coniam, D. (2006). Evaluating computer-based and paper-based versions of an English-language listening tes. ReCALL, 18(2), 193-211.

Drasgow, F. (2002). The work ahead: A psychometric infrastructure for computerized adaptive tests. In C. N. Mills, M. T. Potenza, J. J. Fremer & W.C. Ward (Eds.), Computer-based testing: Building the foundation for future assessments(pp.67-88). Mahwah, NJ: Lawrence Erlbaum Associates.

DeSouza, E., & Fleming, M. (2003). A comparison of in-class and online quizzes on student exam performance. Journal of Computing in Higher Education, 14(2), 121-134.

Dadey, N., Lyons, S., & DePascale, C. (2018). The comparability of scores from different digital devices: A literature review and synthesis with recommendations for practice. Applied Measurement in Education, 31(1), 30-50.

Ebrahimi, M. R., & Seyyed, M. H. T. (2019). Score equivalence, gender difference, and testing mode preference in a comparative study between computer-based testing and paper-based testing. International Journal of Emerging Technologies in Learning (iJET), 14(7), 128-143.

Gvozdenko, E., & Chambers, D. (2007). Beyond test accuracy: Benefits of measuring response time in computerised testing. Australasian Journal of Educational Technology, 23(4), 542-558.

Higgins, J., Russell, M., & Hoffmann, T. (2005). Examining the effect of computer-based passage presentation on reading test performance. Journal of Technology, Learning,and Assessment, 3(4), 1-35.

Horkay, N., Randy, E. B., Allen, N., et al. (2006). Does it matter if I take my writing test on computer? An empirical study of mode effects in NAEP. The Journal of Technology, Learning, and Assessment, 5(2), 1-49.

Hochlehnert, A., Konstantin,B., Andreas, M., et al. (2011). Does medical students’ preference of test format (computer-based vs. paper-based) have an influence on performance? Bmc Medical Education, 11(89), 1-6.

Hosseini, M., Abidin, M. J. Z., & Baghdarnia, M. (2014). Comparability of test results of computer based tests (CBT) and paper and pencil tests (PPT) among English language learners in Iran. Procedia-Social and Behavioral Sciences, (98), 659-667.

Hallstedt, H., M., & Ghaderi, A. (2018). Tablets instead of paper-based tests for young children? Comparability between paper and tablet versions of the mathematical Heidelberger Rechen Test 1-4. Educational Assessment, 23(3), 195-210.

Halamish, V., & Elbaz, E. (2020). Children’s reading comprehension and metacomprehension on screen versus on paper. Computers & Education, (145), 1-11.

Hamhuis, E., Glas, C., & Meelissen, M. (2020). Tablet assessment in primary education: Are there performance differences between TIMSS’ paper-and-pencil test and tablet test among Dutch grade-four students? British Journal of Educational Technology, 51(6):2340-2358.

lgaz, H., & Adan?r, A. G. (2020). Providing online exams for online learners: Does it really matter for them? Education and Information Technologies, 25(2), 1255-1269.

Johnson, M., Green, S. (2006). On-line mathematics assessment: The impact of mode on performance and question answering strategies. The Journal of Technology, Learning, and Assessment, 4(5), 1-34.

Jeong, H. (2014). A comparative study of scores on computer-based tests and paper-based tests. Behaviour & Information Technology, 33(4), 410-422.

Kim, D. H., & Huynh, H. (2007). Comparability of computer and paper-and-pencil versions of algebra and biology assessments. The Journal of Technology, Learning, and Assessment, 6(4), 1-30.

Kingston, N. M. (2008). Comparability of computer- and paper-administered multiple-choice tests for k-12 populations: A synthesis. Applied Measurement in Education, 22(1), 22-37.

Karay, Y., Schauber, S. K., Stosch, C., & Schuttpelz, B. K. (2015). Computer versus paper--does it make any difference in test performance?Teach Learn Med, 27(1), 57-62.

Lipsey, M.W., & Wilson, D. B. (2000). Practical meta analysis. Thousand Oaks, Calif: Sage.

Millsap, C. M. (2000). Comparison of computer testing versus traditional paper and pencil testing. Unpublished doctoral dissertation, University of North Texas, USA.

Mason, B. J., Marc, P., & Daniel, J. B. (2001). An examination of the equivalence between non-adaptive computer-based and traditional testing. Educational Computing Research, 24(1), 29-39.

Meade, A. W., Michels, L. C., & Gary, J. (2007). Are Internet and paper-and-pencil personality tests truly comparable? An experimental design measurement invariance study. Organizational Research Methods, 10(2), 322-345.

Marcos, L., Hilera, J. R., Barchino, R., et al. (2010). An experiment for improving students performance in secondary and tertiary education by means of m-learning auto-assessment. Computers & Education, 55(3), 1069-1079.

Mangen, A., Walgermo, B. R., &Br?nnick, K. K. (2013). Reading linear texts on paper versus computer screen: Effects on reading comprehension. International Journal of Educational Research, (58), 61-68.

Nguyen, Q., Rienties, B., Toetenel, L., Ferguson, R., & Whitelock, D. (2017). Examining the designs of computer-based assessment and its impact on student engagement, satisfaction, and pass rates. Computers in Human Behavior, (76), 703-714.

Nardi, A., & Ranieri, M. (2019). Comparing paper-based and electronic multiple-choice examinations with personal devices: Impact on students’ performance, self-efficacy and satisfaction. British Journal of Educational Technology, 50(3), 1495-1506.

Olson, L. (2003). Legal twists, digital turns: Computerized testing feels the impact of No Child Left Behind. Education Week, 12 (35), 11-14.

Pomplun, M., Sharon, F., & Douglas F. B. (2002). The score equivalence of paper-and-pencil and computerized versions of a speeded test of reading comprehension. Educational and Psychological Measurement, 62(2), 337-354.

Poggio, J., Douglas, R. G., Yang, X. D., & Andrew, J. P. (2005). A comparative evaluation of score results from computerized and paper & pencil mathematics testing in a large scale state assessment program. The Journal of Technology, Learning, and Assessment, 3(6), 1-30.

Pomplun, M., Ritchie, T., & Custer, M. (2006). Factors in paper-and-pencil and computer reading score differences at the primary grades. Educational Assessment, 11(2), 127-143.

Prisacari, A. A., & Danielson, J. (2017). Rethinking testing mode: Should I offer my next chemistry test on paper or computer? Computers & Education, (106), 1-12.

Russell, M., & Haney, W. (1997). Testing writing on computers: An experiment comparing student performance on tests conducted via computer and via paper-and-pencil. Education Policy Analysis Archives, 5(3), 1-20.

Rothstein, H. R., Sutton, A. J., & Borenstein, M. (2005). Publication bias in meta-analysis: Prevention,assessment and adjustments. Chichester: John Wiley & Sons Ltd.

Randy, E. B., James, B., Andreas, O., et al. (2008). Does it matter if I take my mathematics test on computer? A second empirical study of mode effects in NAEP. The Journal of Technology, Learning, and Assessment, 6(9), 1-38.

Smith, B., & Caputi, P. (2007). Cognitive interference model of computer anxiety: Implications for computer-based assessment. Computers in Human Behavior , 23(3), 1481-1498.

Sanchez, C. A., & Wiley, J. (2009). To scroll or not to scroll: Scrolling, working memory capacity, and comprehending complex texts. Human Factors: The Journal of the Human Factors and Ergonomics Society, 51(5), 730-738.

Seo, D. G., & Jong, G. D. (2015). Comparability of online and paper-based tests in a statewide assessment program. Journal of Educational Computing Research, 52(1), 88-113.

Ventouras, E., Triantis, D., Tsiakas, P., & Stergiopoulos, C. (2011). Comparison of oral examination and electronic examination using paired multiple-choice questions. Computers & Education, 56(3), 616-624.

Wang, S., Jiao, H., Young, M. J., Brooks, T., & Olson, J. (2007). A meta-analysis of testing mode effects in grade k-12 mathematics tests. Educational and Psychological Measurement, 67(2), 219-238.

Ziefle, M. (1998). Effects of display resolution on visual performance. Human Factors, (40), 554-568.

收稿日期:2021-02-25

定稿日期:2021-06-28

作者簡介:竇營山,博士研究生,華東師范大學(xué)教育學(xué)系(200062)。

責(zé)任編輯 單 玲

猜你喜歡
考試成績科目效應(yīng)
2024年擬在河北招生的普通高校招生專業(yè)選考科目要求發(fā)布
考試與招生(2022年2期)2022-03-18 08:10:02
鈾對大型溞的急性毒性效應(yīng)
懶馬效應(yīng)
考試成績轉(zhuǎn)換成偏態(tài)分布量化成績的算法
應(yīng)變效應(yīng)及其應(yīng)用
考試成績
讓討厭的科目“?!逼饋?/a>
因子分析法在高中地理考試成績分析中的應(yīng)用
漢語或成俄羅斯高考科目
中學(xué)英語園地·教研版(2008年1期)2008-03-20 03:06:12
临桂县| 荣昌县| 淄博市| 和田县| 新巴尔虎右旗| 洞口县| 金昌市| 岫岩| 沙湾县| 建平县| 新巴尔虎右旗| 湖州市| 石台县| 怀仁县| 弥勒县| 三亚市| 巴彦淖尔市| 西青区| 新建县| 潼关县| 沁源县| 东兴市| 鹤岗市| 湘阴县| 赤壁市| 习水县| 交口县| 高阳县| 苏尼特左旗| 惠安县| 渑池县| 谷城县| 宜春市| 金山区| 德清县| 本溪市| 鲜城| 菏泽市| 德钦县| 长春市| 永州市|