k系列指數(shù)、g2、錯(cuò)同率的抄襲識(shí)別效能比較研究*

2015-02-25 05:09:34甘媛源,余嘉元

心理學(xué)探新 2015年5期

甘媛源1，2，余嘉元2

(1.江蘇省教育評(píng)估院，南京 210024；2.南京師范大學(xué)心理學(xué)系，南京 210097)

摘要：采用蒙特卡洛模擬的方法進(jìn)行k系列指數(shù)、g2、錯(cuò)同率的抄襲識(shí)別效能比較實(shí)驗(yàn)，探討影響五種抄襲統(tǒng)計(jì)量抄襲識(shí)別效能的因素。結(jié)果表明：(1)在被試樣本量、項(xiàng)目數(shù)、被抄者的能力水平、抄襲率四個(gè)因素中，抄襲率對(duì)抄襲識(shí)別效能的影響最大，被抄者的能力水平、項(xiàng)目數(shù)次之，被試樣本量的影響最??；(2)在上述因素相當(dāng)?shù)那闆r下，g2的抄襲識(shí)別經(jīng)驗(yàn)I型錯(cuò)誤率遠(yuǎn)高于α 水平，抄襲識(shí)別率也最高，k1、k2的經(jīng)驗(yàn)I型錯(cuò)誤率遠(yuǎn)低于α 水平，抄襲識(shí)別率較高，錯(cuò)同率的經(jīng)驗(yàn)I型錯(cuò)誤率略高于α 水平，抄襲識(shí)別率較低，k*′的經(jīng)驗(yàn)I型錯(cuò)誤率幾乎均為0，抄襲識(shí)別率最低；(3)在被懷疑的被抄者已確定的情況下，k1、k2的抄襲識(shí)別效能最高，是較理想的抄襲統(tǒng)計(jì)量；(4)在同等條件下，當(dāng)被懷疑的被抄者和抄襲者均未確定時(shí)，五種抄襲統(tǒng)計(jì)量的抄襲識(shí)別效能較被懷疑的被抄者已確定的情形均大幅下降；(5)在缺乏被懷疑者信息的情況下，需設(shè)定更為保守的指標(biāo)臨界值，以降低誤判風(fēng)險(xiǎn)。

關(guān)鍵詞：k系列指數(shù)；g2；錯(cuò)同率；經(jīng)驗(yàn)I型錯(cuò)誤率；抄襲識(shí)別率

1引言

從古至今，考試和作弊就像一對(duì)孿生兄弟一樣形影不離，在古代的科考中，最為常見(jiàn)的作弊手段是夾帶、賄賂主考官及請(qǐng)人代考，隨著社會(huì)的不斷進(jìn)步，各種高科技作弊工具不斷涌現(xiàn)，作弊現(xiàn)象就更加泛濫。作弊現(xiàn)象的存在不僅降低了考試的信效度，破壞了考試的公平、公正性，而且制約了考試評(píng)估、選拔功能的正常發(fā)揮，因此，它引起了考生、家長(zhǎng)、教育機(jī)構(gòu)、考試中心、政府部門(mén)的廣泛關(guān)注。在眾多的作弊方式中，抄襲是最難以識(shí)別的一種作弊方式，它是指一個(gè)考生從另一個(gè)考生那里得到部分試題答案或全部試題答案的行為，最終呈現(xiàn)為兩份試卷作答反應(yīng)的雷同。

從20世紀(jì)20年代開(kāi)始，國(guó)外研究者陸續(xù)構(gòu)建了一些用于考試抄襲識(shí)別的統(tǒng)計(jì)量，如：ESA(Bay，1995)、Bm(Bay，1995)、g2(Frary，1997)、k(Holland，1996；Belov，2010)、s2(Sotaridona，2006)、ω(Wollack，2004；van der Linden，2009)、kappa(Sotaridona，2006)等，有的統(tǒng)計(jì)量還在實(shí)際考試情景中得以應(yīng)用，如：k指數(shù)在SAT中的應(yīng)用(Lewis，1998)、ω指數(shù)在MPRE中的應(yīng)用等(Wollack，2003)。但在國(guó)內(nèi)，查處考試作弊的方式多為考場(chǎng)監(jiān)測(cè)，對(duì)試后抄襲甄別方法的探究非常有限：韓丹等對(duì)國(guó)外學(xué)者構(gòu)建的抄襲統(tǒng)計(jì)量的綜述并對(duì)其中的一些指標(biāo)進(jìn)行了模擬實(shí)驗(yàn)研究(韓丹，2009)，劉景玉對(duì)g2、ω進(jìn)行的抄襲識(shí)別效能比較模擬實(shí)驗(yàn)(劉景玉，2008)，胡艷對(duì)轉(zhuǎn)換二項(xiàng)式、kappa進(jìn)行了抄襲識(shí)別效能比較研究(胡艷，2009)，關(guān)丹丹等對(duì)kappa的抄襲識(shí)別能力進(jìn)行了驗(yàn)證(關(guān)丹丹，2009)，張穎等結(jié)合醫(yī)師資格考試數(shù)據(jù)，對(duì)錯(cuò)同率的抄襲識(shí)別效能進(jìn)行了初步探討(張穎，2002；甘媛源，2012)。由此可見(jiàn)，國(guó)內(nèi)關(guān)于抄襲統(tǒng)計(jì)量的探究才剛剛起步，模擬研究的實(shí)驗(yàn)條件單一、零散，沒(méi)有與國(guó)內(nèi)考試實(shí)際相結(jié)合，本文的主要目的在于設(shè)計(jì)系統(tǒng)的實(shí)驗(yàn)比較k系列指數(shù)、g2及錯(cuò)同率的抄襲識(shí)別效能，之所以選擇這五種抄襲統(tǒng)計(jì)量是基于以下考慮：(1)在國(guó)外，k已經(jīng)被用于實(shí)際考試的抄襲甄別，然而，無(wú)論Holland的研究還是韓丹的研究，都沒(méi)有明確提出計(jì)算k所涉及的參數(shù)b的方法(Holland，1996；韓丹，2009)；(2)Sotaridona認(rèn)為k1、k2較k的抄襲識(shí)別效能更高(Sotaridona，2002)，韓丹的研究也支持這一結(jié)論(韓丹，2009)，然而他們的研究設(shè)計(jì)都建立在已知被懷疑范圍的抄襲者和被抄者基礎(chǔ)上，但在國(guó)內(nèi)一些高利害考試中會(huì)出現(xiàn)大規(guī)模的集團(tuán)作弊，這樣的作弊方式可能使得被懷疑的被抄者和抄襲者均不確定，而這一點(diǎn)可能會(huì)對(duì)它們的抄襲識(shí)別性能產(chǎn)生影響；(3)在以往的比較實(shí)驗(yàn)研究中，常將ω作為一種“好”的統(tǒng)計(jì)量，用于評(píng)估其他甄別方法的優(yōu)劣，然而，ω是建立在項(xiàng)目反應(yīng)理論基礎(chǔ)上的，在國(guó)內(nèi)的適用范圍有限，而g2識(shí)別抄襲的基本思路與ω相同，它既是基于經(jīng)典測(cè)量理論的方法，又是同時(shí)考慮錯(cuò)同(兩考生做出相同錯(cuò)誤反應(yīng)的數(shù)目)和對(duì)同(兩考生做出相同正確反應(yīng)的數(shù)目)的方法(甘媛源，2012)；(4)錯(cuò)同率是唯一已經(jīng)在國(guó)內(nèi)的考試實(shí)際中得以應(yīng)用的方法。因此，研究嘗試結(jié)合國(guó)內(nèi)考試實(shí)際設(shè)計(jì)實(shí)驗(yàn)條件，對(duì)這五個(gè)抄襲統(tǒng)計(jì)量進(jìn)行比較，探討影響其抄襲識(shí)別效能的因素，以期推進(jìn)我國(guó)心理測(cè)量學(xué)的發(fā)展。

2研究方法與過(guò)程

2.1五種抄襲統(tǒng)計(jì)量簡(jiǎn)介

2.1.1抄襲統(tǒng)計(jì)量的統(tǒng)計(jì)原理

抄襲統(tǒng)計(jì)量的基本原理是在假設(shè)沒(méi)有抄襲的條件下建立被試反應(yīng)概率的模型，在此基礎(chǔ)上可以得到被試間存在相似回答模式的概率，進(jìn)而發(fā)現(xiàn)異常的相似回答模式，存在這一模式的被試就被認(rèn)為是可能的抄襲者。

任何兩個(gè)獨(dú)立的被試都存在一些相同的作答反應(yīng)，例如，被試選擇相同的正確答案是非常普遍的，相應(yīng)地，任何兩個(gè)被試也有可能選擇相同的錯(cuò)誤答案，因?yàn)槟切┚哂辛己脜^(qū)分度的多項(xiàng)選擇題一般都會(huì)設(shè)置一些誘惑性強(qiáng)的錯(cuò)誤選項(xiàng)來(lái)吸引能力較低的被試，讓他們趨于選擇這一錯(cuò)誤選項(xiàng)，因此，兩個(gè)獨(dú)立的被試選擇了相同的錯(cuò)誤選項(xiàng)是正常的。但是，某些類(lèi)型的一致回答卻是異常的，例如，能力很低的被試不可能連續(xù)正確回答出非常難的項(xiàng)目，這就是所謂的異常相似反應(yīng)模式。當(dāng)然，一些偶然因素也可能造成這種異常相似反應(yīng)模式，但如果這種異常模式很多，就具有了統(tǒng)計(jì)學(xué)意義。抄襲統(tǒng)計(jì)量就是基于以上假定提出來(lái)的，因此，所有的抄襲統(tǒng)計(jì)量的計(jì)算依據(jù)都是被懷疑抄襲者和被抄者得分模式的相似概率。

2.1.2k系列指數(shù)

在k指數(shù)的計(jì)算中，首先將具有相同錯(cuò)誤答案數(shù)目的被試分成一組，所有被試就被分為R組，第r組(r=1，2，…R)中的被試記為j(j=1，2，…Jr)，也就是說(shuō)，在第r組中的Jr個(gè)被試有相同的錯(cuò)誤項(xiàng)目數(shù)，將含有被懷疑抄襲者(c)的被試組定義為第c′組，用Jc′表示第c′組中所包含的被試人數(shù)，因此，rj表示在r組中的被試j，Uirj為在r組中的被試j對(duì)項(xiàng)目i的反應(yīng)，設(shè)ws為被抄者(s)的錯(cuò)誤項(xiàng)目數(shù)，對(duì)于每一個(gè)被試rj就有一個(gè)指示變量Airj，當(dāng)?shù)趓組中的被試j對(duì)項(xiàng)目i的反應(yīng)與s對(duì)項(xiàng)目i的反應(yīng)相同時(shí)，Airj=1，否則，Airj=0，設(shè)Mrj為被試rj與s錯(cuò)誤答案匹配的數(shù)目，因此，Mrj=ΣAirj，因?yàn)樵谟?jì)算k指數(shù)時(shí)指出是哪一個(gè)被試所對(duì)應(yīng)的與抄襲來(lái)源的錯(cuò)誤答案匹配數(shù)目是不必要的，以下將Mrj簡(jiǎn)記為M，用二項(xiàng)分布近似的估計(jì)M的分布，數(shù)學(xué)表達(dá)式如(1)，

(1)

其中，ws為s錯(cuò)誤回答的數(shù)目，mc′c為c與s做出相同錯(cuò)誤反應(yīng)的數(shù)目，Pc′是第c′組中的被試與s做出相同錯(cuò)誤反應(yīng)的平均數(shù)目在s做錯(cuò)的項(xiàng)目數(shù)中所占比例。所以，k即是在偶然因素條件下的錯(cuò)誤答案匹配比mc′c大的概率。當(dāng)k值較小時(shí)，c抄襲s的可能性較大。在求k的過(guò)程中，Holland建議用Qc′的分段線(xiàn)性回歸來(lái)估計(jì)Pc′，用數(shù)學(xué)表達(dá)式如(2)，

(2)

其中，Qc′表示c的錯(cuò)誤反應(yīng)數(shù)占總項(xiàng)目數(shù)的比率，b恒大于零并隨考試類(lèi)型的變化而隨之變化，但在Holland的研究中并沒(méi)有明確提出參數(shù)b的求取方法，在研究中，先將Qc′和Pc′的經(jīng)驗(yàn)值代入式(2)求對(duì)應(yīng)的b值，然后取這些值中的最大者作為調(diào)節(jié)變量b的值，由于該方法有別于Holland通過(guò)畫(huà)圖進(jìn)行估計(jì)的方式，因此通過(guò)這一方法求得的k另記為k*′。

實(shí)際上，k1、 k2主要在Pc′估計(jì)方法方面進(jìn)行了改進(jìn)，它們分別通過(guò)一次線(xiàn)性回歸和二次回歸來(lái)估計(jì)Pc′；并通過(guò)R2和RSE來(lái)評(píng)價(jià)回歸方程的有效性。

2.1.3g2

g2指數(shù)是s和c作出相同反應(yīng)的數(shù)目(hcs)的標(biāo)準(zhǔn)化，因此，該抄襲指標(biāo)的計(jì)算分三步：(1)求E(hcs)，(2)求σhcs2，(3)其標(biāo)準(zhǔn)化。具體計(jì)算過(guò)程如下：

(1)在計(jì)算期望時(shí)，假設(shè)s的作答反應(yīng)Us固定，隨后確定c與s選擇了相同答案的概率Pc(uis)，hcs的期望即為在考試所有項(xiàng)目n上的匹配概率之和，其數(shù)學(xué)表達(dá)式如(3)，

(3)

(2)因?yàn)楸辉噷?duì)項(xiàng)目的回答只有正確和錯(cuò)誤兩種，所以被試間的項(xiàng)目答案匹配服從二項(xiàng)分布，那么，s與c做出相同反應(yīng)的數(shù)目的方差如(4)，

(4)

(3)將hcs標(biāo)準(zhǔn)化即為g2的值，其數(shù)學(xué)表達(dá)式如(5)，

(5)

一般地，g2近似服從均值為0，標(biāo)準(zhǔn)差為1的標(biāo)準(zhǔn)正態(tài)分布，因此，其值可用標(biāo)準(zhǔn)正態(tài)分布來(lái)進(jìn)行顯著性檢驗(yàn)，其值越大，c從s處抄襲答案的可能性就越大。

2.1.4錯(cuò)同率

錯(cuò)同率是指c與s都答錯(cuò)并且選擇相同錯(cuò)誤答案的項(xiàng)目數(shù)占s答錯(cuò)項(xiàng)目數(shù)的比例，它基于經(jīng)驗(yàn)分布，其臨界值需要根據(jù)每個(gè)樣本分布來(lái)定。這一指標(biāo)是抄襲統(tǒng)計(jì)量中算法最簡(jiǎn)單、操作最容易的一種方法，張穎的研究也證明，錯(cuò)同率可以作為一種有效的抄襲識(shí)別統(tǒng)計(jì)量在實(shí)際考試情景中加以應(yīng)用，但是，正是由于該指標(biāo)的計(jì)算過(guò)于簡(jiǎn)單，并沒(méi)有考慮到被試間的能力水平差異，也沒(méi)有用到除c和s外的被試樣本信息，可能會(huì)在一定程度上影響它的抄襲識(shí)別效能。

2.2實(shí)驗(yàn)設(shè)計(jì)

采用模擬實(shí)驗(yàn)比較k系列、g2及錯(cuò)同率在已知被懷疑范圍的c、s和c、s均不確定的情況下的抄襲識(shí)別性能，實(shí)驗(yàn)考察的因素有7個(gè)：測(cè)驗(yàn)長(zhǎng)度、樣本量大小、被抄襲者的能力水平、抄襲者的抄襲率、理論I型錯(cuò)誤率、抄襲統(tǒng)計(jì)量及被懷疑對(duì)象是否確定。實(shí)驗(yàn)包括兩部分(1)實(shí)驗(yàn)一至實(shí)驗(yàn)五對(duì)應(yīng)具備被懷疑對(duì)象確定的情況；(2)實(shí)驗(yàn)六對(duì)應(yīng)被懷疑對(duì)象不確定的情況，具體設(shè)計(jì)如下：

實(shí)驗(yàn)一：測(cè)驗(yàn)長(zhǎng)度對(duì)k系列、g2及錯(cuò)同率的抄襲識(shí)別性能的影響，在具備被懷疑對(duì)象信息的情況下，將樣本量、被抄襲者的能力水平、抄襲者的抄襲率、理論I型錯(cuò)誤率分別固定為500人、60百分等級(jí)、30%、0.01，考察測(cè)驗(yàn)長(zhǎng)度對(duì)五種抄襲統(tǒng)計(jì)量的抄襲識(shí)別性能的影響。測(cè)驗(yàn)項(xiàng)目數(shù)分別?。?0(短)、80(中)、120(長(zhǎng))。

實(shí)驗(yàn)二：樣本量對(duì)k系列、g2及錯(cuò)同率的抄襲識(shí)別性能的影響，在具備被抄襲對(duì)象信息的情況下，將測(cè)驗(yàn)長(zhǎng)度、被抄者的能力水平、抄襲者的抄襲率、理論I型錯(cuò)誤率分別固定為80題、60百分等級(jí)、30%、0.01，考察樣本量對(duì)五種抄襲統(tǒng)計(jì)量的抄襲識(shí)別性能的影響。測(cè)驗(yàn)人數(shù)分別?。?00(少)、500(中)、1000(多)。

實(shí)驗(yàn)三：被抄者的能力水平對(duì)k系列、g2及錯(cuò)同率的抄襲識(shí)別性能的影響，將測(cè)驗(yàn)長(zhǎng)度、樣本量、抄襲者的抄襲率、理論I型錯(cuò)誤率分別固定為80題、500人、30%、0.01，考察被抄者的能力水平對(duì)五種抄襲統(tǒng)計(jì)量的抄襲識(shí)別性能的影響。被抄襲者的能力水平分別取：60百分等級(jí)(低)、90百分等級(jí)(高)。

實(shí)驗(yàn)四：抄襲者的抄襲率對(duì)k系列、g2及錯(cuò)同率的抄襲識(shí)別性能的影響。將測(cè)驗(yàn)長(zhǎng)度、樣本量、被抄襲者的能力水平、理論I型錯(cuò)誤率分別固定為80題、500人、60百分等級(jí)、0.01，考察抄襲率對(duì)五種抄襲統(tǒng)計(jì)量的抄襲識(shí)別性能的影響。抄襲率分別取：10%(低)、30%(中)、50%(高)。

實(shí)驗(yàn)五：在不同的α水平下，k系列、g2及錯(cuò)同率的抄襲識(shí)別性能。將測(cè)驗(yàn)長(zhǎng)度、樣本量、被抄襲者的能力水平、抄襲者的抄襲率分別固定為80題、500人、60百分等級(jí)、30%，考察五種抄襲統(tǒng)計(jì)量在不同理論I型錯(cuò)誤率下的抄襲識(shí)別性能。理論I型錯(cuò)誤率由大到小分別?。?.01、0.008、0.006、0.004、0.002。

實(shí)驗(yàn)六：為了考察五種抄襲統(tǒng)計(jì)量在被懷疑對(duì)象不確定情況下的可行性，本實(shí)驗(yàn)設(shè)樣本量為500人、項(xiàng)目數(shù)為80題、被抄者的能力水平為60百分等級(jí)，計(jì)算在不同的理論I型錯(cuò)誤率下，不同抄襲率下五種抄襲統(tǒng)計(jì)量的抄襲識(shí)別性能，并與被懷疑范圍確定情況下的識(shí)別性能作比較。

2.3實(shí)驗(yàn)方法

(1)采用Montecarlo模擬數(shù)據(jù)方法生成模擬數(shù)據(jù)。測(cè)驗(yàn)長(zhǎng)度分別為40、80、120，樣本量分別為200、500、1000，共6種實(shí)驗(yàn)條件。用稱(chēng)名反應(yīng)模型(nominalresponsemodel，NRM)生成被試模擬反應(yīng)矩陣。實(shí)驗(yàn)中，測(cè)驗(yàn)采用四選一多項(xiàng)選擇題，相應(yīng)地，每個(gè)項(xiàng)目分別生成4個(gè)區(qū)分度和難度，其區(qū)分度服從以0為均值，1為標(biāo)準(zhǔn)差的對(duì)數(shù)正態(tài)分布，難度服從標(biāo)準(zhǔn)正態(tài)分布，被試的能力水平也服從標(biāo)準(zhǔn)正態(tài)分布。每種實(shí)驗(yàn)條件重復(fù)模擬100次。

(2)按照被試的能力水平排序，確定被抄者s(隨機(jī)選取90百分等級(jí)和60百分等級(jí)的被試)，每一個(gè)數(shù)據(jù)文件對(duì)應(yīng)唯一的被抄者。

(3)在能力水平低于s的被試中隨機(jī)抽取5%的被試作為模擬抄襲者c。c在抄襲項(xiàng)目上的反應(yīng)通過(guò)如下步驟取得：從全部項(xiàng)目中隨機(jī)選取10%、30%、50%的項(xiàng)目，將c在這些項(xiàng)目上的反應(yīng)替換為s的反應(yīng)。

(4)區(qū)分度值最大的選項(xiàng)即為項(xiàng)目的正確答案，將被試的反應(yīng)與正確反應(yīng)進(jìn)行對(duì)比取得被試的得分矩陣，計(jì)算每個(gè)被試的正確及錯(cuò)誤反應(yīng)數(shù)目，并根據(jù)被試錯(cuò)誤反應(yīng)數(shù)目進(jìn)行分組，把錯(cuò)誤數(shù)相同的被試分在同一組。

(5)在被懷疑對(duì)象確定的條件下，s不參與計(jì)算，實(shí)驗(yàn)?zāi)康脑谟谕ㄟ^(guò)比較其他被試與s的反應(yīng)矩陣找出抄襲者；在被懷疑對(duì)象不確定的條件下，s參與計(jì)算，實(shí)驗(yàn)?zāi)康脑谟谕ㄟ^(guò)被試間的兩兩比較找出抄襲者。

(6)各抄襲統(tǒng)計(jì)量的抄襲性能用經(jīng)驗(yàn)I型錯(cuò)誤率(I)和識(shí)別率(P)來(lái)衡量，I型錯(cuò)誤率即為被抄襲統(tǒng)計(jì)量誤判為抄襲者的被試在被試樣本量中所占比例，抄襲識(shí)別率即為被抄襲統(tǒng)計(jì)量識(shí)別出的抄襲者在抄襲者中所占比例。為降低隨機(jī)誤差，I、P均取100次實(shí)驗(yàn)的均值。

3研究結(jié)果

3.1被懷疑的被抄者確定

3.1.1實(shí)驗(yàn)一至實(shí)驗(yàn)四研究結(jié)果

表1　測(cè)驗(yàn)長(zhǎng)度對(duì)五種抄襲統(tǒng)計(jì)量的抄襲識(shí)別性能的影響(α=0.01)

表2　樣本量對(duì)五種抄襲統(tǒng)計(jì)量的抄襲識(shí)別性能的影響(α=0.01)

表3　被抄者的能力水平(百分等級(jí))對(duì)五種抄襲統(tǒng)計(jì)量的抄襲識(shí)別性能的影響(α=0.01)

表4　抄襲率對(duì)五種抄襲統(tǒng)計(jì)量的抄襲識(shí)別性能的影響(α=0.01)

3.1.2實(shí)驗(yàn)五研究結(jié)果

圖1　經(jīng)驗(yàn)I型錯(cuò)誤率與抄襲識(shí)別率(500人、80題、60百分等級(jí)、抄襲30%)

3.2被懷疑的被抄者與抄襲者均未確定(實(shí)驗(yàn)六)

表5　被懷疑的被抄者是否確定對(duì)五種抄襲統(tǒng)計(jì)量的抄襲識(shí)別性能的影響(α=0.01)

表6　在無(wú)前期信息條件下，五種抄襲統(tǒng)計(jì)量的臨界值(經(jīng)驗(yàn)I型錯(cuò)誤率設(shè)為0.01)

4結(jié)果討論

4.1被懷疑的被抄者已確定

4.1.1被試樣本、項(xiàng)目數(shù)、被抄者能力水平、抄襲率對(duì)抄襲識(shí)別效能的影響

表1表明，在被抄者的能力水平、抄襲者的抄襲率固定的情況下，隨著項(xiàng)目數(shù)的增加，無(wú)論是k系列指數(shù)、g2還是錯(cuò)同率的抄襲識(shí)別率均不斷提高，經(jīng)驗(yàn)I型錯(cuò)誤率變化不顯著；表2表明，在項(xiàng)目數(shù)、被抄者的能力水平及抄襲者的抄襲率固定的情況下，隨著被試樣本量的增加，五種抄襲統(tǒng)計(jì)量的抄襲識(shí)別率均不斷提高，經(jīng)驗(yàn)I型錯(cuò)誤率略微降低；表3表明，在項(xiàng)目數(shù)、被試樣本、抄襲者的抄襲率固定的情況下，隨著被抄者能力水平的提高，五種抄襲統(tǒng)計(jì)量的抄襲識(shí)別率均不斷降低，經(jīng)驗(yàn)I型錯(cuò)誤率不斷提高；表4表明，在項(xiàng)目數(shù)、被試樣本、被抄者的能力水平固定的情況下，隨著抄襲者抄襲率的提高，五種抄襲統(tǒng)計(jì)量的抄襲識(shí)別率均不斷提高，經(jīng)驗(yàn)I型錯(cuò)誤率不斷降低。比較發(fā)現(xiàn)，抄襲率是對(duì)抄襲效能影響最大的因素，被抄者的能力水平、項(xiàng)目數(shù)次之，被試樣本量對(duì)抄襲統(tǒng)計(jì)量的抄襲效能影響最小。

4.1.2k系列指數(shù)、g2及錯(cuò)同率的抄襲識(shí)別效能比較

表1至表4的研究結(jié)果還表明，(1)從經(jīng)驗(yàn)I型錯(cuò)誤率來(lái)看，g2的經(jīng)驗(yàn)I型錯(cuò)誤率是α水平的4倍以上，錯(cuò)同率在除項(xiàng)目數(shù)最大(120個(gè)項(xiàng)目)、抄襲率最高(50%)的情況下，其經(jīng)驗(yàn)I型錯(cuò)誤率均略高于α水平，k系列指數(shù)的經(jīng)驗(yàn)I型錯(cuò)誤率均低于α水平，其中，k*′的經(jīng)驗(yàn)I型錯(cuò)誤率幾乎全為0，這表明，用k*′進(jìn)行抄襲識(shí)別的準(zhǔn)確性最高，幾乎不存在將未抄襲者誤判為抄襲者的情況；k1、k2也能將誤判率控制在α水平以下；用錯(cuò)同率進(jìn)行抄襲識(shí)別的誤判率與α水平基本相當(dāng)；只有g(shù)2的經(jīng)驗(yàn)I型錯(cuò)誤率數(shù)倍于α水平，使得其抄襲識(shí)別的準(zhǔn)確性降低，存在將被試誤判為抄襲者的高風(fēng)險(xiǎn)，因此，在將g2作為抄襲識(shí)別指標(biāo)時(shí)，應(yīng)設(shè)置更為嚴(yán)格的α水平，選取更大的指標(biāo)臨界值，以降低其將被試誤判為抄襲者的風(fēng)險(xiǎn)。(2)從抄襲識(shí)別率來(lái)看，在同等條件下，g2的抄襲識(shí)別率最高，k2次之，k1略低于k2，錯(cuò)同率第四，k*′最低。由于g2是這些抄襲統(tǒng)計(jì)量中唯一既考慮被試間的錯(cuò)誤答案匹配又考慮正確答案匹配的指標(biāo)，能獲得更多被試間匹配的信息，因此，它更易于將抄襲者從被試樣本中甄別出來(lái)；前已述及，k系列指數(shù)的區(qū)別僅在于二項(xiàng)分布的參數(shù)P的求取方法的差異，k*′用分段線(xiàn)性函數(shù)求P，而分段線(xiàn)性函數(shù)的調(diào)節(jié)變量b選取了通過(guò)經(jīng)驗(yàn)P、Q求得的b值中的最大者，b越大，參數(shù)P越大，k*′的值越大，在臨界值不變的條件下，就越容易出現(xiàn)漏判抄襲者的情況，因此，k*′的抄襲識(shí)別率較低；k1、k2分別用線(xiàn)性函數(shù)和二次函數(shù)取代分段線(xiàn)性函數(shù)，通過(guò)分析兩回歸方程的R2和RSE可知，兩回歸方程均有效，相對(duì)而言，二次回歸模型擬合更優(yōu)，因此，k1、k2較k*′更不易出現(xiàn)漏判，相應(yīng)地，k2的抄襲識(shí)別率略高于k1；錯(cuò)同率的計(jì)算相對(duì)簡(jiǎn)單，也沒(méi)有將被試按能力進(jìn)行分組，可能會(huì)漏掉一些有用的信息，其抄襲識(shí)別率也較低。

4.1.3α水平對(duì)抄襲識(shí)別效能的影響

前已述及，經(jīng)驗(yàn)I型錯(cuò)誤率是指將未抄襲者誤判為抄襲者的比例，因此，經(jīng)驗(yàn)I型錯(cuò)誤率不高于α水平即表示該抄襲統(tǒng)計(jì)量能很好地控制I型錯(cuò)誤，在抄襲者甄別中趨于保守估計(jì)，這也使得其抄襲識(shí)別率將會(huì)下降。圖1A和圖1B分別表示在被試樣本為500、項(xiàng)目數(shù)為80、被抄者的能力水平為60百分等級(jí)、抄襲率為30%情況下，各個(gè)抄襲統(tǒng)計(jì)量的經(jīng)驗(yàn)I型錯(cuò)誤率和抄襲識(shí)別率，在圖1A中的分界線(xiàn)表示α水平和經(jīng)驗(yàn)I型錯(cuò)誤率相等，可將五種抄襲統(tǒng)計(jì)量的經(jīng)驗(yàn)I型錯(cuò)誤率連線(xiàn)與之比較，由圖可知，k系列指數(shù)的經(jīng)驗(yàn)I型錯(cuò)誤率連線(xiàn)均在分界線(xiàn)之下，表明k系列指數(shù)將被試判定為抄襲者的標(biāo)準(zhǔn)很好，據(jù)此作出的被試抄襲判定非常謹(jǐn)慎；而錯(cuò)同率和g2的經(jīng)驗(yàn)I型錯(cuò)誤率連線(xiàn)均在分界線(xiàn)之上，相對(duì)而言，g2對(duì)應(yīng)連線(xiàn)向上遠(yuǎn)離分界線(xiàn)更多，表明g2在抄襲者甄別中趨于放松估計(jì)，其將被試判定為抄襲的標(biāo)準(zhǔn)較低，由于把未抄襲被試誤判為抄襲者對(duì)個(gè)體發(fā)展將產(chǎn)生非常嚴(yán)重的后果，因此，如前所述，在采用g2進(jìn)行抄襲甄別時(shí)應(yīng)設(shè)定更嚴(yán)格的α水平以降低其經(jīng)驗(yàn)I型錯(cuò)誤率。圖1B直觀地顯示了五種抄襲統(tǒng)計(jì)量的抄襲識(shí)別率高低：g2的抄襲識(shí)別率最高，k1、k2的抄襲識(shí)別率也較高，錯(cuò)同率和k*′的抄襲識(shí)別率較低，綜合考慮經(jīng)驗(yàn)I型錯(cuò)誤率和抄襲識(shí)別率這兩個(gè)反映抄襲識(shí)別效能的指標(biāo)可知，k1、k2是較為理想的抄襲統(tǒng)計(jì)量。

4.2被懷疑的被抄者與抄襲者均未確定

4.2.1被懷疑的被抄者是否確定對(duì)抄襲識(shí)別效能的影響

表5表明，在同等條件(500人，80題，60百分等級(jí)，抄襲30%，α=0.01)下，當(dāng)被懷疑的被抄者與抄襲者均未確定時(shí)，五種抄襲統(tǒng)計(jì)量的經(jīng)驗(yàn)I型錯(cuò)誤率和抄襲識(shí)別率均大幅提高，由此可知，將抄襲識(shí)別建立在已知被懷疑范圍的被抄者和抄襲者基礎(chǔ)上是非常重要的，據(jù)此做出的抄襲判定才具有較高的準(zhǔn)確性，若只能在被試樣本中進(jìn)行兩兩比較，而無(wú)法確定被懷疑的被抄者與抄襲者，五種抄襲統(tǒng)計(jì)量的抄襲識(shí)別效能均下降，據(jù)此將未抄襲被試誤判為抄襲者的風(fēng)險(xiǎn)很大，因此，在這種情況下，五種抄襲統(tǒng)計(jì)量都需設(shè)置更嚴(yán)格的α水平，調(diào)整指標(biāo)臨界值，以降低誤判率，提高抄襲判定的準(zhǔn)確性和嚴(yán)謹(jǐn)性。

4.2.2五種抄襲統(tǒng)計(jì)量的臨界值

表6列出了在被試樣本為500、項(xiàng)目數(shù)為80、被試能力水平為60百分等級(jí)、抄襲率為30%條件下，將抄襲識(shí)別的經(jīng)驗(yàn)I型錯(cuò)誤率設(shè)定在0.01左右時(shí)，各抄襲統(tǒng)計(jì)量的臨界值，由表6可知，當(dāng)將誤判率設(shè)定為0.01時(shí)，k系列指數(shù)的臨界值均縮小到小數(shù)點(diǎn)后第六位，其抄襲識(shí)別率均在0.3~0.4之間；錯(cuò)同率的臨界值為0.5842，抄襲識(shí)別率最低，g2的臨界值為5.3，其抄襲識(shí)別率最高，達(dá)到了0.8以上。當(dāng)然，當(dāng)被試樣本、項(xiàng)目數(shù)、被試能力水平、抄襲率發(fā)生變化時(shí)，這些抄襲統(tǒng)計(jì)量的臨界值也會(huì)隨之變化，因此，針對(duì)跨區(qū)域的高科技團(tuán)伙作弊，需參照真實(shí)的被試作答數(shù)據(jù)規(guī)模，設(shè)定更為保守的臨界值，以達(dá)到不誤判每一個(gè)考生的目的。

5研究結(jié)論

采用蒙特卡洛模擬的方法進(jìn)行了k系列指數(shù)、g2、錯(cuò)同率的抄襲識(shí)別效能比較實(shí)驗(yàn)研究。結(jié)果表明：(1)在被試樣本量、項(xiàng)目數(shù)、被抄者的能力水平、抄襲率四個(gè)因素中，抄襲率對(duì)抄襲識(shí)別效能的影響最大，被抄者的能力水平、項(xiàng)目數(shù)次之，被試樣本量的影響最??；(2)在上述因素相當(dāng)?shù)那闆r下，g2的抄襲識(shí)別經(jīng)驗(yàn)I型錯(cuò)誤率遠(yuǎn)高于α水平，抄襲識(shí)別率也最高，k1、k2的經(jīng)驗(yàn)I型錯(cuò)誤率遠(yuǎn)低于α水平，抄襲識(shí)別率較高，錯(cuò)同率的經(jīng)驗(yàn)I型錯(cuò)誤率略高于α水平，抄襲識(shí)別率較低，k*′的經(jīng)驗(yàn)I型錯(cuò)誤率幾乎均為0，抄襲識(shí)別率最低；(3)在被懷疑的被抄者已確定的情況下，k1、k2的抄襲識(shí)別效能最高，是較理想的抄襲統(tǒng)計(jì)量；(4)在同等條件下，當(dāng)被懷疑的被抄者和抄襲者均未確定時(shí)，五種抄襲統(tǒng)計(jì)量的抄襲識(shí)別效能較被懷疑的被抄者已確定的情形均大幅下降；(5)在缺乏被懷疑者信息的情況下，需設(shè)定更為保守的指標(biāo)臨界值，以降低誤判風(fēng)險(xiǎn)。

當(dāng)然研究是采用蒙特卡洛模擬的方法進(jìn)行的比較實(shí)驗(yàn)，實(shí)際考試的數(shù)據(jù)可能更加復(fù)雜，因此，結(jié)合真實(shí)考試數(shù)據(jù)對(duì)各個(gè)抄襲統(tǒng)計(jì)量的抄襲識(shí)別效能進(jìn)行比較是未來(lái)研究的方向；同時(shí)，限于篇幅，研究只討論了k系列指數(shù)、g2及錯(cuò)同率的考試抄襲識(shí)別效能，對(duì)于s系列指數(shù)、kappa、個(gè)人擬合指數(shù)、人工神經(jīng)網(wǎng)絡(luò)等抄襲統(tǒng)計(jì)量的抄襲識(shí)別效能均未涉及，這些也有待于更進(jìn)一步的探討。

參考文獻(xiàn)

甘媛源，田金亭，余嘉元.(2012).兼顧兩種匹配的抄襲統(tǒng)計(jì)量研究評(píng)述.心理學(xué)探新，32(1)，86-90.

甘媛源，余嘉元，張穎，等.(2012).K系列指數(shù)在執(zhí)業(yè)醫(yī)師資格考試抄襲識(shí)別中的應(yīng)用.中國(guó)衛(wèi)生事業(yè)管理，10，760-761.

關(guān)丹丹，孫曉敏.(2009).考試抄襲識(shí)別的統(tǒng)計(jì)方法—kappa統(tǒng)計(jì)量.中國(guó)考試，11，8-13.

韓丹.(2009).考試抄襲識(shí)別的心理測(cè)量學(xué)研究.碩士論文.遼寧師范大學(xué).

胡艷.(2009).查作答抄襲的兩種新指標(biāo)的比較研究.碩士論文.江西師范大學(xué).

劉景玉，肖立宏.(2008).甄別多項(xiàng)選擇題考試中答案抄襲的不同方法的比較.考試研究，4(3)，90-101.

張穎，趙世明,等.(2002).多選題雷同的判定標(biāo)準(zhǔn)研究.考試研究，9，15-17.

Bay，L.G.(1995).Detectionofcheatingonmultiple-choicetestsexaminations.Annual Meeting of the American Educational Research Association.

Belov，I.D.(2010).Armstrong R D.Automatic detection of answer copying via kullback-leibler divergence and k-index.AppliedPsychologicalMeasurement，34(6),379-392.

Frary，R.B.(1997).Comparison of two indices of answer copying and development of a spliced index.EducationalandPsychologicalMeasurement，57(1)，20-32.

Holland，P.W.(1996).Assessingunusualagreementbetweentheincorrectanswersoftwoexamineesusingthekindex：Statisticaltheoryandempiricalsupport.Princeton，NJ：Education Testing Service.

Lewis，C.，& Thayer,D.T.(1998).Thepowerofthekindextodetect.Princeton，NJ：Education Testing Service.

Sotaridona,L.S.,& Meijer,R.R.(2002).Statistical properties of k-index for detecting answer copying.JournalofEducationalMeasurement，39,115-132.

Sotaridona,L.S.，& Van der Linden,W.J.(2006).Detecting answer copying when the regular response process follows a known response model.AppliedPsychologicalMeasurement，31(3),283-304.

Sotaridona,L.S.，Van der Linden,W.J.，& Meijer,R.R.(2006).Detecting answer copying using the kappa statistic.AppliedPsychologicalMeasurement，30,412-431.

van der Linden,W.J.(2009).A bivariate lognormal response-time model for the detection of collusion between test takers.JournalofEducationalandBehavioralStatistics，34(3),378-394.

Wollack,J.A.(2003).Comparison of answer copying indices with real data.MeasurementinEducation，40,189-205.

Wollack,J.A.(2004).Detecting answer copying on high-stakes tests.TheBarExaminer，73,35-45.

Comparision of Series ofk-index，g2-index，and

False Same Rate of Answer Copying

Gan Yuanyuan1，2，Yu Jiayuan2

(1.Jiangsu Agency for Educational Evaluation，Nanjing 210024；

2.Psychology Department，Nanjing Normal University，Nanjing 210097)

Abstract：In order to compare the power of answer copying detection of the answer copying statistics such as series of k-index，g2-index，and false same rate，the comparison experiment was carried out under various copying conditions，sample size，test length，source’s ability，and copier’s detection rate.Which one was the most influencing factor of their answer copying detection power and which one was the best answer-copying statistics were investigated.The results indicated the following：(1)among sample size，test length，source’s ability，and copier’s detection rate，the copier’s detection rate was the most influential factor of their answer-copying detection power，test length and source’s ability were the second ones，and sample size was the least one.(2)With the same sample size，test length，source’s ability，and copier’s detection rate，the empirical type I error rate of g2-index was above the nominal α level，and the detection rate of it was the highest；k1-index and k2-index were able to hold the empirical type I error rates below the nominal α level，and their detection rates were the second higher；the empirical type I error rate of k*′-index was close to 0，and its detection rate was the lowest；the empirical type I error rate of false same rate was slightly above the nominal α level，and its detection rate was the second lower.(3)k1-index and k2-index were the best answer-copying statistics when the source under suspicion was determined，because their powers of answer copying detection were the highest.(4)With the same sample size，test length，source’s ability，and copier’s detection rate，the powers of answer copying detection of series of k-index，g2-index，and false same rate were sharp decreased when the source and copier under suspicion were undetermined.(5)In order to reduce misjudgment risk，the conservative critical value of the answer-copying statistics would be determined when the examinees under suspicion were undetermined.

Key words：series of k-index；g2-index；false same rate；empirical type I error rate；detection rate

中圖分類(lèi)號(hào)：B841.2

文獻(xiàn)標(biāo)識(shí)碼：A

文章編號(hào)：1003-5184(2015)05-0464-07

基金項(xiàng)目：*國(guó)家社會(huì)科學(xué)基金“十一五”規(guī)劃課題(BBA080050)。

心理學(xué)探新2015年5期

心理學(xué)探新的其它文章: 道德:刻板印象內(nèi)容的新維度＊; “大五”人格、依戀與青少年孤獨(dú)感的關(guān)系研究＊; 社會(huì)建構(gòu)論心理學(xué)：輪廓、流派和局限*; 一種新的多維IRT模型——高階IRT模型; 中小學(xué)教師勝任力迫選式測(cè)驗(yàn)的編制及應(yīng)用*; 探索性因子分析中主軸法下的平行分析

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

k系列指數(shù)、g2、錯(cuò)同率的抄襲識(shí)別效能比較研究*

k系列指數(shù)、g2、錯(cuò)同率的抄襲識(shí)別效能比較研究*