楊志明 徐慶樹
(湖南師范大學(xué)外國(guó)語學(xué)院,長(zhǎng)沙 410081)
作弊甄別研究一直是考試研究的重點(diǎn)課題,考試中的作弊現(xiàn)象不僅干擾了考試秩序(胡佳琪 等,2020;駱方 等,2020),影響了考試的信效度,影響評(píng)分標(biāo)準(zhǔn)或合格線劃定(Sinharay,2021),而且違反國(guó)家有關(guān)考試的法律法規(guī)(Crittenden,Hanna,& Peterson,2009;彭恒利,2015)。一直以來,大量的研究者采用心理計(jì)量學(xué)、統(tǒng)計(jì)學(xué)的研究方法甄別各種作弊現(xiàn)象(Cizek &Wollack,2017;Sinharay,2017;van der Linden &Lewis,2015)。近年來,隨著基于計(jì)算機(jī)的測(cè)試(computer based test,CBT)的快速發(fā)展,考生在考試中的項(xiàng)目作答反應(yīng)時(shí)間可以被搜集、記錄、使用(Zopluoglu,2019)。正如van der Linden所說,項(xiàng)目作答反應(yīng)時(shí)間一直以來都被看作是識(shí)別個(gè)人行為的重要信息源,但只在基于計(jì)算機(jī)的測(cè)試普及后,這一信息源才能得到解碼使用(van der Linden,2006)。
最近10年間,越來越多的研究者開始嘗試使用考生的項(xiàng)目作答反應(yīng)時(shí)間甄別考生的異常作答情況(Man &Harring,2021;Nagy &Ulitzsch,2021)。然而,本研究發(fā)現(xiàn)國(guó)外研究者應(yīng)用此類方法較多,而國(guó)內(nèi)研究者應(yīng)用此類方法較少。為更好的介紹這種作弊甄別方法,本文首先對(duì)考試作弊現(xiàn)象進(jìn)行界定與分類,接著介紹基于項(xiàng)目作答反應(yīng)時(shí)間建模的研究假設(shè)、建模方法和個(gè)人數(shù)據(jù)擬合方法,然后進(jìn)一步闡釋各類建模方法、擬合方法在不同類型作弊行為甄別中的應(yīng)用和實(shí)踐,最后對(duì)這種作弊甄別方法中存在的相關(guān)問題開展總結(jié)和討論。
考試作弊呈多發(fā)態(tài)勢(shì)(彭恒利,2015),作弊形式趨于多樣化,作弊工具趨于高科技化、作弊行為向團(tuán)伙化、集團(tuán)化、專業(yè)化方向發(fā)展,考試作弊逐漸形成產(chǎn)業(yè)鏈,向商業(yè)化運(yùn)作模式轉(zhuǎn)變。面對(duì)當(dāng)前紛繁復(fù)雜的作弊現(xiàn)象,沒有任何一種研究方法或者統(tǒng)計(jì)模型可以全部適用。因此,開展考試作弊現(xiàn)象研究,首先要對(duì)考試作弊行為進(jìn)行界定、分類(Sinharay,2020)。
基于作弊主體的分類較多。有研究者基于作弊主體的規(guī)模將作弊行為分為個(gè)人作弊行為和團(tuán)體作弊行為(胡佳琪 等,2020;駱方 等,2020)。我國(guó)政府對(duì)作弊行為進(jìn)行的分類主要也是基于作弊主體開展的。教育部頒布的《國(guó)家教育考試違規(guī)處理辦法》界定了3類作弊行為,分別是:考生的作弊行為、考試工作人員的作弊行為、組織作弊的行為?!缎谭ㄐ拚?九)》按作弊主體分別做出作弊犯罪的處罰規(guī)定,其中對(duì)組織作弊者的處罰規(guī)定為:“在法律規(guī)定的國(guó)家考試中,組織作弊的,處三年以下有期徒刑或者拘役,并處或者單處罰金;情節(jié)嚴(yán)重的,處三年以上七年以下有期徒刑,并處罰金?!?/p>
當(dāng)然,也有研究者基于作弊行為的分布特點(diǎn)、動(dòng)機(jī)和發(fā)生場(chǎng)景進(jìn)行了分類。Cizek提出3大類59種作弊行為,其中最常見的是抄襲(Cizek,1999)。從作弊動(dòng)機(jī)的角度,Cizek進(jìn)一步將作弊行為分為2類:一類是考試欺詐(test cheating),主要指需要參加考試并獲得成績(jī)的個(gè)人或者群體進(jìn)行的作弊行為;另一類是考試盜竊(test theft),主要指作弊者無需參加考試、從考試作弊中牟利的行為(Cizek &Wollack,2017)。Wollack等按照作弊發(fā)生的場(chǎng)景將作弊行為分為3類:第一類是答案抄襲與共謀作弊(answer-copying and collusion),指的是作弊考生單獨(dú)或與其他考生協(xié)作,進(jìn)行答案抄襲的現(xiàn)象;第二類是泄題(item preknowledge),指的是考生通過各種手段在交卷前獲取考試的項(xiàng)目信息現(xiàn)象;第三類是篡改答案(test tampering),指的是考生、教師、考試機(jī)構(gòu)工作人員等通過修改考生答案的方式進(jìn)行的作弊行為(Wollack &Fremer,2013)。
本研究在前述作弊分類方案的基礎(chǔ)上進(jìn)行總結(jié),提出“兩種三類”的作弊行為分類方法:“兩種”指的是作弊主體,也就是:個(gè)人作弊、團(tuán)體作弊,兩種作弊行為;“三類”則分別指的是:泄題、抄襲和篡改答案。
基于項(xiàng)目作答反應(yīng)時(shí)間的作弊甄別方法基本可以分為2類:一類是參數(shù)法,一類是非參數(shù)法。參數(shù)法的基本假設(shè)為:假定項(xiàng)目作答反應(yīng)時(shí)間是一個(gè)連續(xù)變量,該變量的分布規(guī)律符合某種特定分布,如對(duì)數(shù)正態(tài)分布(lognormal distribution)(van der Linden,2006;van der Linden,2008;van der Linden,2009)、伽馬分布(gamma distribution)(Verhelst,Verstralen,& Jansen,1997)、指數(shù)分布(exponential distribution)(Scheiblechner,1979,1985)、偏正態(tài)分布(孟祥斌,2016)等,研究者基于項(xiàng)目作答反應(yīng)時(shí)間的這種分布特點(diǎn)構(gòu)建模型。在個(gè)人數(shù)據(jù)擬合中,研究者再將模型的預(yù)測(cè)值與實(shí)際觀測(cè)值進(jìn)行比較,如果二者相差過大,就懷疑考生或有作弊、試題或被泄露(Qian,Staniewska,Reckase,& Woo,2016;van der Linden &Guo,2008)。非參數(shù)法則另做假定:考生的項(xiàng)目作答反應(yīng)時(shí)間是一個(gè)離散變量,單個(gè)題項(xiàng)的項(xiàng)目作答反應(yīng)時(shí)間的分布可以和考生總體的項(xiàng)目作答反應(yīng)時(shí)間進(jìn)行對(duì)比?;谶@種假設(shè),研究者就可省去參數(shù)建模的步驟,直接采用如KL離散度等方法比較考生個(gè)體和考生群體的作答反應(yīng)時(shí)間模式,進(jìn)行作弊甄別,也取得了不錯(cuò)的效果(Man,Harring,Ouyang,& Thomas,2018)。
參數(shù)建模法主要有3類參數(shù)模型:一是基于作答反應(yīng)時(shí)間的模型,這類模型以對(duì)數(shù)正態(tài)模型應(yīng)用最為廣泛;二是基于項(xiàng)目作答反應(yīng)時(shí)間和作答正誤情況聯(lián)合建模的層次框架模型;三是在第二類模型基礎(chǔ)上增加眼動(dòng)等其他過程數(shù)據(jù)的聯(lián)合建模。
3.1.1 對(duì)數(shù)正態(tài)模型
van der Linden(2006)采用對(duì)數(shù)正態(tài)模型對(duì)考試中的項(xiàng)目作答反應(yīng)時(shí)間進(jìn)行建模,這種建模方法擬合優(yōu)度較高,獲得了廣泛認(rèn)可。此方法假定考試中的項(xiàng)目作答反應(yīng)時(shí)間具有隨機(jī)性,且呈對(duì)數(shù)正態(tài)分布(lognormal distribution),因此借鑒項(xiàng)目反應(yīng)理論的兩參數(shù)模型的建模方法,提出項(xiàng)目作答反應(yīng)時(shí)間的對(duì)數(shù)正態(tài)分布模型(Lognormal Model),構(gòu)建考生做題速度參數(shù)τ、題項(xiàng)參數(shù)βi、αi,用以擬合考生作答反應(yīng)時(shí)間的分布情況,公式如下:
f(ti;τ,αi,βi)=
(1)
其中,ti代表考生t在進(jìn)行題項(xiàng)i作答時(shí)所用的時(shí)間,τ則代表了考生的做題速度,τ取值越大,則考生在該題項(xiàng)上花費(fèi)的時(shí)間越少。βi則代表了試題的時(shí)間消耗度(time intensity),βi的取值越大,考生在該試題上花費(fèi)的時(shí)間就越多。而αi如同在項(xiàng)目反應(yīng)理論中一樣,是一個(gè)作答時(shí)間區(qū)分度指標(biāo),取值大于0,且取值越大,考生在第i個(gè)題的作答時(shí)間的對(duì)數(shù)分布越集中;取值越小,則越分散。因此,αi這一指標(biāo)可以實(shí)現(xiàn)以題項(xiàng)為單位區(qū)分做題速度不同的考生。
模型背后的原理可以對(duì)照對(duì)數(shù)正態(tài)模型的公式(公式2)進(jìn)行解讀:
f(x,μ,σ)=
(2)
對(duì)照可知,項(xiàng)目作答反應(yīng)時(shí)間對(duì)數(shù)正態(tài)分布模型的均值和標(biāo)準(zhǔn)差分別為:
μi=βi-τ,
(3)
(4)
公式1中的ti(考生t在第i題的做題時(shí)間)的對(duì)數(shù)lnti服從正態(tài)分布:其均值由題項(xiàng)的時(shí)間消耗度βi和考生的做題速度τ決定(公式3);標(biāo)準(zhǔn)差為試題的作答時(shí)間區(qū)分度αi的倒數(shù)(公式4)。
為了提高模型的可識(shí)別性,van der Linden(2006)對(duì)公式1中提到的變量進(jìn)行了約束。速度參數(shù)τ,應(yīng)該符合公式5:
(5)
也就是說,第j個(gè)人的做題速度可以取正值或者負(fù)值,所有人的做題速度之和等于0。
結(jié)合公式3可知,第j個(gè)考生在第i個(gè)題項(xiàng)上的作答反應(yīng)時(shí)間的對(duì)數(shù)分布模型的均值等與第i個(gè)題項(xiàng)的時(shí)間消耗度βi減去第j個(gè)考生的做題速度τj,公式如下:
βi-τj=μij,
(6)
由此可知:
(7)
套入公式5的約束,可以得到:
(8)
這就是說試卷中所有試題的時(shí)間消耗度的均值等于所有考生作答所有題目所需的項(xiàng)目反應(yīng)時(shí)間的對(duì)數(shù)正態(tài)分布的均值。
van der Linden(2006)認(rèn)為可以采用MCMC方法(吉布斯采樣)對(duì)這個(gè)模型進(jìn)行參數(shù)估計(jì)。但是,同項(xiàng)目反應(yīng)理論一樣,在參數(shù)估計(jì)前需要先進(jìn)行局部獨(dú)立性假設(shè):一是,考生個(gè)體之間具有局部獨(dú)立性;二是,給定考生作答所有試題的項(xiàng)目作答反應(yīng)時(shí)間之間具有局部獨(dú)立性。在此基礎(chǔ)上,考生的參數(shù)τj符合正態(tài)分布:
(9)
同時(shí),他指定試題參數(shù)作答時(shí)間區(qū)分度αi服伽馬分布(公式10),題項(xiàng)時(shí)間消耗度βi服從正態(tài)分布(公式11):
(10)
(11)
如公式11所示,βi的正態(tài)分布標(biāo)準(zhǔn)差中含有參數(shù)αi,且αi服從gamma分布,因此,(βi,αi)服從normal-gamma分布。
在Gibbs采樣中,交替給定考生參數(shù)τ和試題參數(shù)(α,β)按照公式(12)進(jìn)行參數(shù)估計(jì):
(12)
3.1.2 層次框架模型
van der Linden(2009)提出考生在作答速度和作答正誤情況之間會(huì)做出權(quán)衡(speed-accuracy tradeoff),并提供示意圖:
圖1 瑟斯多恩作答反應(yīng)面示意圖(Thurstone’s response surface)
圖中橫軸為試題難度、縱軸為作答時(shí)間、豎軸為作答正確率,圖示作答時(shí)間越長(zhǎng),正確率越高。很多研究者基于此開展項(xiàng)目作答反應(yīng)時(shí)間和項(xiàng)目作答正誤情況的聯(lián)合建模分析。De Boeck 和 Jeon(2019)認(rèn)為這種聯(lián)合建模一般可以分為四類:第一類是將項(xiàng)目作答反應(yīng)時(shí)間作為因變量,將做題正誤情況作為自變量的建模(Thissen,1983);第二類則是將項(xiàng)目作答正誤情況作為因變量而將項(xiàng)目作答反應(yīng)時(shí)間作為自變量的建模(Roskam,1987;Verhelst et al.,1997);第三類則是將項(xiàng)目作答反應(yīng)時(shí)間和項(xiàng)目作答正誤情況同時(shí)作為因變量且二者之間無因果關(guān)系的建模分析van der Linden(2007);第四類則是將項(xiàng)目作答反應(yīng)時(shí)間和項(xiàng)目作答正誤情況同時(shí)作為因變量且將二者之間的因果關(guān)系也考慮到數(shù)據(jù)模型中的建模方法(dependency model,本文譯作“依存模型”)(Bolsinova &Maris,2016)。在所有這些模型中,van der Linden(2007)提出的層次框架模型是使用最多且最為廣泛的模型,本文重點(diǎn)介紹這一模型。
作答反應(yīng)時(shí)間經(jīng)常和考生的準(zhǔn)確率一起聯(lián)合建模。這種建模方式的基本假設(shè)是:考生可以選擇高準(zhǔn)確率低速度答題,也可以選擇低準(zhǔn)確率高速度答題,其中速度是自變量,而準(zhǔn)確率是因變量。根據(jù)項(xiàng)目反應(yīng)理論,我們可以估計(jì)出能力值θ。在此基礎(chǔ)上,van der Linden(2007)基于作答反應(yīng)時(shí)間和考生的準(zhǔn)確率進(jìn)行聯(lián)合建模,提出了層次框架模型。這種建模方式主要基于以下5個(gè)關(guān)鍵假設(shè):一是個(gè)體考生的做題速度相對(duì)固定;二是個(gè)體考生在作答單個(gè)題項(xiàng)時(shí),其做題速度和作答對(duì)錯(cuò)情況均屬于隨機(jī)變量;三是題項(xiàng)的參數(shù)(如時(shí)間消耗度、時(shí)間區(qū)分度、難度、區(qū)分度)和考生參數(shù)(做題速度、能力值)等可以分開計(jì)算;四是在給定做題速度和做題能力的前提下,作答對(duì)錯(cuò)和項(xiàng)目反應(yīng)時(shí)間之間條件獨(dú)立;五是可以用樣本考生的數(shù)據(jù)對(duì)考生總體的作答速度和準(zhǔn)確率分別進(jìn)行估計(jì)。
在此基礎(chǔ)上,van der Linden(2007)提出2層模型。第一層模型選用三參數(shù)IRT模型(正態(tài)肩形模型Normal Ogive Model或logistic模型)對(duì)作答的對(duì)錯(cuò)情況進(jìn)行建模,同時(shí)選用對(duì)數(shù)正態(tài)模型對(duì)項(xiàng)目反應(yīng)時(shí)間進(jìn)行建模,公式如下:
f(uj,tj;ξj,ψ)=
(13)
其中,考生j的考生參數(shù)ξj有2個(gè),分別為做題速度(τj)和能力值(θj);試題參數(shù)ψi有5個(gè),分別為區(qū)分度(ai)、難度(bi)、猜測(cè)指數(shù)(ci)、時(shí)間消耗度(βi)、時(shí)間區(qū)分度(αi)。
第二層模型同樣包含2個(gè)模型,公式如下:
f(u,t;ξ,ψ)=
(14)
其中,考生參數(shù)ξj的取自于考生總體P,其參數(shù)符合多元正態(tài)分布,公式如下:
ξj~f(ξj;μP,ΣP)。
(15)
試題參數(shù)ψi同樣取值于多元正態(tài)分布:
ψi~f(ψi;μi,Σi)。
(16)
第二層模型在第一層模型的基礎(chǔ)上對(duì)考生總體的參數(shù)和題項(xiàng)間的關(guān)系進(jìn)行了估計(jì)。層次模型框架(hierarchical framework)同樣采用了吉布斯采樣的方式進(jìn)行參數(shù)估計(jì)。
自發(fā)布以來,層次框架模型廣受好評(píng),多位研究者認(rèn)為層次框架模型是一種插件模型(plugin model)(Bolsinova,Tijmstra,& Molenaar,2017;Molenaar,Bolsinova,& Vermunt,2018;Molenaar &de Boeck,2018),研究者可以將表示作答準(zhǔn)確率的單維項(xiàng)目反應(yīng)模型換成多維項(xiàng)目反應(yīng)模型或認(rèn)知診斷模型(Zhan,2022;Zhan,Man,Wind,& Malone,2022;詹沛達(dá),2019),又或者多級(jí)計(jì)分模型(汪大勛,郭瑩瑩,2022),也可以將項(xiàng)目作答反應(yīng)時(shí)間的對(duì)數(shù)正態(tài)模型換成多維反應(yīng)時(shí)間模型(Zhan,Jiao,Man,Wang,& He,2021;Zhan,Jiao,Wang,& Man,2018;詹沛達(dá),Jiao,Man,2022),還可以在模型中增加協(xié)變量(Qiao &Jiao,2022),郭小軍等(2022)還進(jìn)一步探討了多維潛在特質(zhì)速度之間可能存在層階關(guān)系,并提出了高階對(duì)數(shù)正態(tài)作答時(shí)間模型與雙因子對(duì)數(shù)正態(tài)作答時(shí)間模型。Ranger(2013)認(rèn)為van der Linden的層次框架模型是標(biāo)準(zhǔn)化測(cè)驗(yàn)中有關(guān)考生作答和考生作答反應(yīng)的標(biāo)準(zhǔn)建模操作流程,Wang(2018)等研究者更是指出這種層次框架模型在考生作答和考生作答反應(yīng)的多種統(tǒng)計(jì)建模中是最為流行的一種。嚴(yán)娟等(2022)將這種建模方法應(yīng)用到了多維人格測(cè)驗(yàn)中。
當(dāng)然,我們也應(yīng)注意到在層次框架模型以外,也有不少研究者嘗試提出其他類型的模型,其中比較重要的如雙向異常值檢測(cè)模型(two-way outliers detection model)(Chen,Lu,& Moustaki,2019)和線性模型(Molenaar &Bolsinova,2017;Molenaar,Tuerlinckx,& van der Maas,2015a,2015b),尤其線性模型是在層次框架模型基礎(chǔ)上發(fā)展而來。
3.1.3 與其他過程數(shù)據(jù)的聯(lián)合模型
隨著基于計(jì)算機(jī)的考試(CBT)進(jìn)一步普及,考生越來越多的生物信息(如眼動(dòng)、腦電、心率)開始被采集、記錄和分析,Man 和Harring(2021)在綜合對(duì)比多種生物信息和傳統(tǒng)考試信息的基礎(chǔ)上進(jìn)行分析,提出了一種基于項(xiàng)目反應(yīng)、作答反應(yīng)時(shí)間、注視點(diǎn)個(gè)數(shù)的聯(lián)合建模,并用這種模型分析了團(tuán)體作弊行為,他們通過對(duì)335名大學(xué)生的眼動(dòng)實(shí)驗(yàn),驗(yàn)證了模型具有較好的數(shù)據(jù)擬合性,也能量化呈現(xiàn)不同學(xué)生群體的作答準(zhǔn)確率、作答效率和視覺參與度,為作弊甄別提供量化依據(jù)。在疫情的影響下,這一研究也為如何開展線上考試的作弊甄別提供了一種新的解決方案。還有研究者將作答反應(yīng)時(shí)間數(shù)據(jù)、作答正誤數(shù)據(jù)以及作答中鼠標(biāo)的拖拽和點(diǎn)擊等數(shù)據(jù)進(jìn)行聯(lián)合建模(Liang,Tu,& Cai,2023),也為作弊甄別提供了一種新的研究方法。
3.1.4 個(gè)人擬合分析
本文前述模型需要通過個(gè)人擬合分析的方法判斷考生是否作弊。在考試甄別中,基于對(duì)數(shù)正態(tài)模型和層次框架模型的個(gè)人擬合方法分別為:以標(biāo)準(zhǔn)作答為基礎(chǔ)的索引法(Marianti,Fox,Avetisyan,Veldkamp,& Tijmstra,2014)和以層次框架模型為基礎(chǔ)的貝葉斯殘差分析法(van der Linden &Guo,2008)。
標(biāo)準(zhǔn)作答索引法(Marianti et al.,2014)是指在作答反應(yīng)時(shí)間的對(duì)數(shù)正態(tài)模型的基礎(chǔ)上,基于Iz統(tǒng)計(jì)法(Drasgow,Levine,& Williams,1985)進(jìn)行個(gè)人擬合分析,查看觀測(cè)到的考生項(xiàng)目作答反應(yīng)時(shí)間數(shù)據(jù)在模型預(yù)估到的項(xiàng)目作答反應(yīng)時(shí)間分布中的概率,并將該概率與門檻值C進(jìn)行對(duì)比,判斷偏離情況,確定是否需要標(biāo)注、告警。并基于公式1建立公式如下:
(17)
貝葉斯殘差分析法是在層次框架的基礎(chǔ)上提出2個(gè)公式,用以計(jì)算考生j在任意一個(gè)題項(xiàng)i作答中所用的項(xiàng)目反應(yīng)時(shí)間的觀測(cè)值與預(yù)測(cè)值的差異,并計(jì)算在貝葉斯后驗(yàn)分布中該觀測(cè)值出現(xiàn)的概率。如果考生在某個(gè)題項(xiàng)的作答反應(yīng)時(shí)間過于短,則懷疑該考生有可能提前獲知題項(xiàng),存在泄題(preknowledge)的問題;如果考生在某個(gè)題項(xiàng)的作答反應(yīng)時(shí)間過于長(zhǎng),則懷疑該考生有可能是在背誦試題,用以對(duì)外售賣或者傳播。
概率計(jì)算公式采用了反常積分(Improper Integral)的計(jì)算方法,考生在某個(gè)題項(xiàng)答題時(shí)間短于預(yù)測(cè)值的概率的公式如下:
(18)
考生在某個(gè)題項(xiàng)答題時(shí)間長(zhǎng)于預(yù)測(cè)值的概率的公式如下:
(19)
當(dāng)然,也有研究者提出了其他的個(gè)人擬合分析方法,如在三參數(shù)的項(xiàng)目反應(yīng)模型和項(xiàng)目作答反應(yīng)時(shí)間的對(duì)數(shù)正態(tài)模型的基礎(chǔ)上提出混合模型法(mixed hierarchical model,MHM),構(gòu)建異常作答指標(biāo)Δij(第i個(gè)題項(xiàng),第j個(gè)考生的異常作答情況),并對(duì)其進(jìn)行建模運(yùn)算(Wang et al.,2018),這種擬合方法層次框架模型的一種延伸和修正。
當(dāng)數(shù)據(jù)污染情況較重時(shí),殘差分析法對(duì)題目參數(shù)估計(jì)準(zhǔn)確性會(huì)大幅降低,劉玥等(2022)利用混合模型法(MHM)對(duì)原有殘差計(jì)算方式進(jìn)行優(yōu)化,提出了固定參數(shù)標(biāo)準(zhǔn)化殘差法(conditional estimate standard residual,CSR),該方法先通過混合模型法(MHM)篩選正常作答的考生,進(jìn)而獲得較為準(zhǔn)確參數(shù)估計(jì)結(jié)果,研究顯示在數(shù)據(jù)污染較為嚴(yán)重時(shí),該方法效果優(yōu)于其他方法。
也有研究者在個(gè)人擬合統(tǒng)計(jì)量的基礎(chǔ)上嘗試使用變點(diǎn)分析法(change point analysis,CPA)進(jìn)行異常作答甄別。張龍飛等(2020)對(duì)這種方法進(jìn)行了系統(tǒng)介紹,變點(diǎn)分析的原理在于使用個(gè)人擬合分析統(tǒng)計(jì)量(person-fit statistics,PFS)判斷作答序列中是否存在可將該序列劃分為具有不同統(tǒng)計(jì)學(xué)屬性的兩個(gè)部分的點(diǎn),常用的統(tǒng)計(jì)檢驗(yàn)方法有基于似然比檢驗(yàn)的Lmax法,基于Wald檢驗(yàn)的Wmax法,基于得分檢驗(yàn)的Smax法和基于加權(quán)殘差的Rmax法。鐘小緣等(2022)將變點(diǎn)分析拓展性的應(yīng)用到了作答時(shí)間數(shù)據(jù)的分析中,發(fā)現(xiàn)此方法在加速作答檢測(cè)中效果較好,I型錯(cuò)誤水平較低。
目前,有大量的研究者使用參數(shù)法進(jìn)行建模和個(gè)人擬合,在檢出率和誤檢率方面都取得了不錯(cuò)效果(Qian et al.,2016;Zopluoglu,Kasli,& Toton,2021)。但是,也有研究者對(duì)參數(shù)建模方法提出了批評(píng)(Man et al.,2018;Meijer &Sijtsma,2001),他們認(rèn)為參數(shù)法存在著比較多的問題:一是算法過于復(fù)雜,如使用MCMC進(jìn)行參數(shù)估計(jì)的時(shí)會(huì)因?yàn)榈鷶?shù)、起始點(diǎn)、馬氏鏈長(zhǎng)度等參數(shù)的設(shè)置造成不同;二是如果異常作答的數(shù)據(jù)較多,用單一模型進(jìn)行數(shù)據(jù)擬合的難度將會(huì)變得非常大。
3.1.5 參數(shù)法在作弊甄別中的應(yīng)用
參數(shù)法在近些年間獲得了廣泛應(yīng)用,從本研究界定的“三類”作弊行為而言:這種作弊甄別方法在泄題和抄襲類的作弊行為的甄別中應(yīng)用更多且更有效,但是在篡改答案型的作弊甄別中應(yīng)用較少。這主要是因前兩類作弊行為會(huì)更加系統(tǒng)化、規(guī)?;挠绊懽鞔鸱磻?yīng)時(shí)間(Sinharay,2021)。從本文界定的“兩種”作弊行為而言:這種作弊甄別方法在團(tuán)體作弊行為和個(gè)人作弊行為的甄別中都取得了不錯(cuò)的效果,并且在團(tuán)體作弊行為甄別中的效果更優(yōu)。
在抄襲類作弊行為甄別中的應(yīng)用。van der Linden基于作答反應(yīng)時(shí)間開展二元對(duì)數(shù)正態(tài)模型(bivariate lognormal)建模,進(jìn)行抄襲類作弊行為的甄別研究(van der Linden,2009)。二元對(duì)數(shù)正態(tài)模型主要是在對(duì)數(shù)正態(tài)模型的基礎(chǔ)上引入了2個(gè)考生在個(gè)別考試題項(xiàng)上作答反應(yīng)的一致性參數(shù)ρjk,假定ρjk=0(即2個(gè)考生的作答沒有一致性)。但在觀測(cè)中,如果發(fā)現(xiàn)ρjk>0,并且大于門檻值C,則這2個(gè)考生之間可能存在著答案抄襲或者共謀作弊的情況。在實(shí)際的估算和檢驗(yàn)中,van der Linden(2009)采用了LM檢驗(yàn)的方法(Lagrange multiplier test,拉格朗日乘數(shù)檢驗(yàn))進(jìn)行抄襲甄別確認(rèn)。研究結(jié)果顯示,基于二元對(duì)數(shù)正態(tài)模型的抄襲甄別檢驗(yàn)在實(shí)際數(shù)據(jù)中獲得了不錯(cuò)的效果,尤其LM檢驗(yàn)比普通的相關(guān)性檢驗(yàn)?zāi)芨玫姆磻?yīng)2個(gè)考生之間的相似度。
在泄題類作弊行為甄別中的應(yīng)用??荚囆诡}、考生提前獲取試題已經(jīng)成為當(dāng)前考試實(shí)踐中面臨的一個(gè)重要問題(Zopluoglu et al.,2021)。Eckerly(2017)對(duì)泄題類作弊甄別做了分類:一是針對(duì)泄題類作弊考生開展的甄別研究;二是針對(duì)泄題題項(xiàng)的甄別研究;三是同時(shí)針對(duì)作弊考生和泄題題項(xiàng)的甄別研究;四是針對(duì)團(tuán)體作弊考生甄別研究。Eckerly(2017)指出,基于反應(yīng)時(shí)間的泄題類作弊行為研究主要應(yīng)用在第三類。前文介紹的2種參數(shù)建模方法在泄題類作弊甄別中均有應(yīng)用:單純基于項(xiàng)目反應(yīng)時(shí)間數(shù)據(jù)庫(kù)開展的泄題類作弊甄別研究有很多(Qian et al.,2016;Van der Linden &Van Krimpen-Stoop,2003;van der Linden &Guo,2008),基于項(xiàng)目反應(yīng)時(shí)間數(shù)據(jù)和其他數(shù)據(jù)聯(lián)合建模進(jìn)行作弊甄別的研究也有不少(Meijer &Sotaridona,2006;Wang et al.,2018;Zopluoglu,2019)。如,在一項(xiàng)基于真實(shí)數(shù)據(jù)的泄題甄別研究中(Qian et al.,2016),研究者從項(xiàng)目作答反應(yīng)時(shí)間角度對(duì)兩個(gè)行業(yè)從業(yè)資格考試進(jìn)行泄題甄別。該研究選定分屬于金融、衛(wèi)健行業(yè)的2個(gè)行業(yè)準(zhǔn)入考試,基于層次框架模型(hierarchical framework)(van der Linden &Guo,2008)進(jìn)行作弊甄別。結(jié)果顯示,這種方法在檢出率和誤報(bào)率等指標(biāo)中都獲得了比較好的結(jié)果,檢測(cè)出了111個(gè)題項(xiàng)中2個(gè)有可能被泄露的題項(xiàng)和1 172個(gè)考生中有2個(gè)有可能掌握泄題資料的考生。
在答案篡改類作弊行為甄別中的應(yīng)用。目前尚未有研究者采用項(xiàng)目作答反應(yīng)時(shí)間的方法針對(duì)考試篡改答案情況進(jìn)行研究。這主要是因?yàn)榭荚嚧鄹拇鸢感袨?如更改考生答案等,污染了原有的項(xiàng)目作答反應(yīng)數(shù)據(jù),不易識(shí)別。
在團(tuán)體類作弊行為甄別中的應(yīng)用。根據(jù)本文的分類,團(tuán)體類型的作弊也會(huì)出現(xiàn)如答案抄襲和共謀作弊(answer copying and collusion)、泄題(preknowledge)、考試篡改答案(test tampering)等類型。有研究者提出了一種多維數(shù)據(jù)聯(lián)合建模的方式開展團(tuán)體作弊行為中的泄題行為甄別,并取得了較好的作弊甄別效果(Man &Harring,2021)。也有研究者更新了對(duì)數(shù)正態(tài)模型(Cengiz Zopluoglu et al.,2021),采用了增加門控制機(jī)制(Gating Mechanism)對(duì)數(shù)正態(tài)模型的方法對(duì)團(tuán)體泄題類型的作弊進(jìn)行了甄別研究。該結(jié)果雖然顯示甄別效果較好,但是研究者也坦陳了效應(yīng)量的問題。因?yàn)椴煌瑪?shù)據(jù)集的效應(yīng)量可能來自于多種因素,如考生特點(diǎn)、泄題的具體情況、和試題的特點(diǎn)等,這種研究方法不具有普適性,研究者需要針對(duì)數(shù)據(jù)特點(diǎn)選擇建模方法和擬合分析方法。
非參數(shù)建模法則主要采用K-L散度(相對(duì)熵)的方法進(jìn)行建模,當(dāng)然,研究者也會(huì)在建模中引入其他作答數(shù)據(jù),如作答準(zhǔn)確率、考生的其他生物信息等。非參數(shù)法與參數(shù)法的本質(zhì)不同在于,非參數(shù)法把考生的作答時(shí)間看成了一種離散變量,而參數(shù)法則把考生的作答時(shí)間看作了一種連續(xù)變量,且其對(duì)數(shù)服從正態(tài)分布。非參數(shù)的這種檢測(cè)方法在模擬數(shù)據(jù)和真實(shí)數(shù)據(jù)中都取得了較好的效果(Man,Harring,Ouyang,& Thomas,2018),尤其是在同樣的數(shù)據(jù)分析中,取得了比標(biāo)準(zhǔn)作答索引法(Marianti et al.,2014)相對(duì)更優(yōu)的效果。Man等研究者(2018)針對(duì)參數(shù)建模的缺點(diǎn),采用K-L散度(Kullback-Leibler Divergence,也稱相對(duì)熵)進(jìn)行了基于項(xiàng)目作答反應(yīng)時(shí)間的作弊甄別研究。K-L散度可以度量?jī)煞N分布之間的差異。在研究中,研究者使用相對(duì)熵的方法對(duì)考生個(gè)人的作答反應(yīng)時(shí)間分布情況和考生總體的作答反應(yīng)時(shí)間分布情況進(jìn)行了對(duì)比,公式如下:
(20)
有研究者在非參數(shù)建模中引入了作答準(zhǔn)確率的數(shù)據(jù),對(duì)項(xiàng)目作答反應(yīng)時(shí)間進(jìn)行了細(xì)分,提出了“有效反應(yīng)時(shí)間”(effective response time)的概念,用以描述個(gè)體考生答對(duì)某一題項(xiàng)所花費(fèi)的時(shí)間(Meijer &Sotaridona,2006)。研究者假定,獲得泄題(preknowledge)數(shù)據(jù)的考生作答時(shí)間與普通考生有較大差異,并采用堪薩斯大學(xué)528位大學(xué)一年級(jí)學(xué)生參與的摘要推理考試(abstract reasoning test,ART)數(shù)據(jù)進(jìn)行假設(shè)檢驗(yàn)。研究發(fā)現(xiàn),基于“有效反應(yīng)時(shí)間”模型的誤檢率(type I error)較低。隨后,他們又在真實(shí)數(shù)據(jù)的基礎(chǔ)上生成了模擬數(shù)據(jù),在真實(shí)考試數(shù)據(jù)中抽樣選取部分考生,然后將其在原始考試題項(xiàng)中比例為50%或者75%的題項(xiàng)上的作答反應(yīng)時(shí)間改為原始數(shù)據(jù)的1/2或者1/4,發(fā)現(xiàn)檢出率較以往的方法有了大幅提升。但是也應(yīng)該注意到,這項(xiàng)研究中的模擬數(shù)據(jù)情況較為極端(Meijer &Sotaridona,2006)。
有關(guān)項(xiàng)目作答反應(yīng)時(shí)間的考試作弊甄別研究成立的一個(gè)基本假設(shè)為:考生沒有刻意操縱自己的作答時(shí)間。但是,如果作弊考生了解到,現(xiàn)有作弊甄別技術(shù)是通過監(jiān)控其作答時(shí)間進(jìn)行作弊甄別的,考生有可能會(huì)刻意控制自己的項(xiàng)目作答時(shí)間,這將為甄別效果帶來巨大的挑戰(zhàn)。不過,也應(yīng)該看到,考生在刻意控制作答時(shí)間的時(shí)候,眼動(dòng)等其他生物信息、敲擊鍵盤的信息等會(huì)與積極作答的考生有所不同(Nagy &Ulitzsch,2021;Zopluoglu,2019),所以將考生作答反應(yīng)時(shí)間與其他考生信息進(jìn)行聯(lián)合建模將有力的促進(jìn)研究者優(yōu)化建模方法、提升模型擬合度、提高作弊的甄別效率。
另外,還需要注意到,也有研究者(郭小軍,羅照盛,2019;Domingue et al.,2022)對(duì)速度與準(zhǔn)確率之間的權(quán)衡進(jìn)行了分析與討論,他們認(rèn)為作答反應(yīng)時(shí)間與作答準(zhǔn)確性之間可能不是線性關(guān)系,隨著反應(yīng)時(shí)間的增加,準(zhǔn)確率提高到某種程度之后會(huì)停滯或者降低。這些研究對(duì)有關(guān)項(xiàng)目作答反應(yīng)時(shí)間數(shù)據(jù)的假設(shè)也提出了一定挑戰(zhàn)。
隨著基于計(jì)算機(jī)的考試(Computer Based Tests)進(jìn)一步普及,隨著各類信息追蹤設(shè)備和軟件的輕量化、普及化發(fā)展,考生在考試中的各類信息可以被實(shí)時(shí)搜集(Man &Harring,2021),這些信息既包含機(jī)械信息:如作答反應(yīng)時(shí)間、如擊鍵記錄(keystroke logging);也包含生物信息如眼動(dòng)追蹤、注視點(diǎn)個(gè)數(shù)、眨眼頻率(blinking rates)、瞳孔直徑(pupil diameters)、血氧度(blood oxygen level)等(Liang et al.,2023;Man,Harring,& Zhan,2022)。這些信息可以和項(xiàng)目作答反應(yīng)時(shí)間、考試作答數(shù)據(jù)等其他數(shù)據(jù)進(jìn)行聯(lián)合建模,進(jìn)而量化考生的總體情況,從更全面的角度、更為精確得開展作弊甄別。
在這種多類型數(shù)據(jù)的聯(lián)合應(yīng)用過程中,不僅要擴(kuò)大數(shù)據(jù)量、拓展數(shù)據(jù)種類,也要進(jìn)一步提升數(shù)據(jù)模型的擬合優(yōu)度。有研究者嘗試將機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的研究方法應(yīng)用到了作弊甄別中,取得了不錯(cuò)的效果。在機(jī)器學(xué)習(xí)方面,Man等(2019)研究者對(duì)多種機(jī)器學(xué)習(xí)方法進(jìn)行了對(duì)比,包括無監(jiān)督學(xué)習(xí)方法K均值算法(K-means),有監(jiān)督學(xué)習(xí)方法支持向量機(jī)(SVM)、K近鄰(K-Nearest Neighbor)、隨機(jī)森林(Random Forests)等,建議在作弊甄別實(shí)踐中將多種機(jī)器學(xué)習(xí)方法合并使用,可以獲得較好的檢測(cè)效果。Pan 等采用機(jī)器學(xué)習(xí)方法進(jìn)行了泄題題項(xiàng)和獲取泄題信息的考生的作弊甄別(Pan &Wollack,2021,2023)。也有研究者采用機(jī)器學(xué)習(xí)中集成學(xué)習(xí)的方法開展作弊甄別,Zhou和Jiao(2022)使用集成學(xué)習(xí)的stacking算法開展了大規(guī)??荚嚨淖鞅渍鐒e,Zopluoglu(2019)采用了集成學(xué)習(xí)中的boosting的方法進(jìn)行了作弊甄別,兩個(gè)模型越都取得了較好的作弊甄別效果。Meng和Ma(2023)也選定了11種特征,并使用隨機(jī)森林(Random Forests)、邏輯回歸(Logistic Regression)、支持向量機(jī)(SVM)等方法訓(xùn)練模型,發(fā)現(xiàn)支持向量機(jī)(SVM)和隨機(jī)森林(Random Forests)在作弊甄別中的效果更好。在深度學(xué)習(xí)方面,Kamalov等研究者采用循環(huán)神經(jīng)網(wǎng)絡(luò)的方法(RNN)進(jìn)行了作弊甄別(Kamalov,Sulieman,& Santandreu Calonge,2021)。Zhen和Zhu(2023)采用了深層神經(jīng)網(wǎng)絡(luò)TabNet進(jìn)行了作弊甄別,研究發(fā)現(xiàn)相較于其他機(jī)器學(xué)習(xí)模型而言,TabNet具有較強(qiáng)的優(yōu)勢(shì)效果。
同時(shí),如基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)和YOLO算法的機(jī)器視覺研究也開始逐漸被使用到考場(chǎng)監(jiān)控視頻的識(shí)別研究中(竇剛,劉榮華,范誠(chéng),2021),研究者也可以嘗試將考場(chǎng)抓取的機(jī)器視覺信息與作答反應(yīng)模型、項(xiàng)目作答反應(yīng)時(shí)間模型等數(shù)據(jù)聯(lián)合使用,提升作弊甄別的效率。
從研究數(shù)據(jù)角度看,大部分研究者都拿不到真實(shí)數(shù)據(jù),或同一數(shù)據(jù)集被反復(fù)使用(Zopluoglu et al.,2021),模擬數(shù)據(jù)研究的支撐作用較大(van der Linden &Guo,2008),采樣軟件有JAGS或R語言的LNIRT等。換言之,雖然科研領(lǐng)域?qū)@類作弊甄別模型研究較多,但是在實(shí)際考試中的模型的應(yīng)用仍然較少。隨著國(guó)內(nèi)基于計(jì)算機(jī)的考試(Computer Based Tests)大規(guī)模普及,考試組織方和考試研究單位可以積極開展聯(lián)合協(xié)作,推動(dòng)作答反應(yīng)時(shí)間類數(shù)據(jù)的采集和作答反應(yīng)時(shí)間類作弊甄別模型的廣泛應(yīng)用,提升考試的安全性。