国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

實時監(jiān)控計算機自適應考題的兩種方法及其穩(wěn)健性比較

2017-06-05 14:14:54張金明曹燦兮揭勇菁
中國考試 2017年2期
關鍵詞:樣本量試題概率

張金明 曹燦兮 揭勇菁

(美國伊利諾伊大學香檳分校,美國伊利諾伊州 61822)

實時監(jiān)控計算機自適應考題的兩種方法及其穩(wěn)健性比較

張金明 曹燦兮 揭勇菁

(美國伊利諾伊大學香檳分校,美國伊利諾伊州 61822)

基于項目反應理論和基于經(jīng)典測量理論的兩種序貫監(jiān)控方法,用來實時監(jiān)控計算機自適應考試,及時偵測出已泄露試題,并替換或剔除泄露試題,以提高考試的公正性和分數(shù)的有效性。本文著重對這兩種序貫監(jiān)控方法在考生整體能力水平隨時間有季節(jié)性變化或具有連續(xù)提高趨勢的情況下進行統(tǒng)計穩(wěn)健性比較,主要考察這兩種監(jiān)控方法犯第一類統(tǒng)計錯誤的概率是否變大,是否超出預設的顯著性水平。模擬結(jié)果表明,基于項目反應理論的序貫監(jiān)控方法在本文所考慮的情況下比基于經(jīng)典測量理論的方法具有更好的穩(wěn)健性。

計算機自適應考試;經(jīng)典測量理論;項目反應理論;試題曝光率;變點問題;序貫監(jiān)控方法

1 引言

計算機自適應考試(Computerized Adaptive Test,CAT)是一種現(xiàn)代考試形式,它依靠大型題庫,采用現(xiàn)代測量理論,根據(jù)每個考生不同的能力水平,用計算機自動選擇難度恰當且統(tǒng)計性能優(yōu)良的題目,生成為其量身定做的試題組合,從而實現(xiàn)對考生的高效測量[1]。依靠現(xiàn)代測量理論,計算機自適應考試與傳統(tǒng)紙筆測驗相比,可使用更少的試題并得到更精確的考生能力估計值。

由于在一次考試中,計算機組卷所使用的試題均來自同一題庫,在該題庫被使用一段時間后,其中的一部分題目就有可能被泄露,所以一直以來,計算機自適應考試都面臨著試題安全問題,先行參加考試的考生可能會泄露試題信息,使得后續(xù)考生成為“受益者”[2-9]。一旦試題被泄露,相應試題的統(tǒng)計特性將被改變,對于后續(xù)的“受益”考生,這些試題難度變低,故“受益”考生的能力值會被高估,這將威脅考試的公正性和分數(shù)的有效性。Zhang等在一個模擬研究中指出,當一個720道題的題庫中有150道試題被泄露時,考生能力估計值的偏差和誤差均方根分別高達1.010和1.226[9]。

試題曝光率是衡量考試安全性的一個重要指標。通常,一道試題被使用得越頻繁(即其曝光率越高),被泄露的可能性就越大。因此,在計算機組卷選題過程中,研究人員就會運用一些試題曝光控制的方法,平衡試題曝光率以加強考試安全性[4,7,10-15]。基于對考試安全性的考慮,題庫中一些曝光率較高的試題會被暫時或永久剔除[16]。但是,高曝光率的試題不一定就是被泄露的試題,同時低曝光率的試題也有被泄露的可能。例如,雖然一道試題被很多個考生使用,即曝光率較高,但如果這些考生都沒有在考后分享試題,那么這道試題并沒有被泄露;反之,另一道試題雖然沒有被經(jīng)常使用,曝光率較低,但恰被用在一個習慣于在考后分享試題的考生的考試中,那么這道題就很可能被泄露。因此曝光率的高低并不能準確判斷一道試題是否被泄露。

另一個考試安全性的指標是測驗重疊率,常被用以偵測大規(guī)模試題泄露問題[2-3,7,17]。盡管有這兩種指標已初步保障考試安全性,但在計算機自適應考試進行過程中,仍需要統(tǒng)計技術對試題統(tǒng)計特性進行實時連續(xù)監(jiān)控,并在試題泄露發(fā)生時及時偵測到這些已泄露試題。

為加強計算機自適應考試的安全性及分數(shù)的有效性,并在計算機自適應考試過程中實現(xiàn)對試題的實時連續(xù)監(jiān)控,以盡早偵測出已泄露試題,Zhang[18]和Zhang&Li[19]開發(fā)出兩種實時連續(xù)監(jiān)控試題的統(tǒng)計序貫監(jiān)控方法,一種是基于經(jīng)典測量理論(Classical Testing Theory,CTT),另一種是基于項目反應理論(Item Response Theory,IRT)。兩種方法都是在考試過程中通過一系列統(tǒng)計假設檢驗來判斷試題的統(tǒng)計特性是否發(fā)生顯著變化。本文將從理論框架、模擬研究及研究結(jié)果對這兩種方法進行詳細介紹,并在考生整體能力水平隨時間有季節(jié)性變化或連續(xù)提高趨勢的情況下,對這兩種方法進行統(tǒng)計穩(wěn)健性的比較。

2 序貫監(jiān)控方法

通常一個題庫會使用較長一段時間,考試管理者需要監(jiān)測每一道被使用多次的試題。假定{U1,U2,…,Un…}是某一被監(jiān)控試題的得分序列。這里及本文后面的n是指作答某試題的第n個考生,而不是指參加考試的第n個考生。若第n個考生答對該題,則Un=1;反之,則Un=0。注意,n是與試題相關的,對于不同試題,相同的n并不一定是同一個考生。為方便起見,本文對所有與試題相關的變量和函數(shù)都沒有用試題下標。因為監(jiān)控程序是對每一道被使用多次的試題分別監(jiān)測的,所以不用試題下標不會產(chǎn)生歧義。

2.1 變點問題

如果一個隨機變量在某一時間點之前服從一個分布,而在這一時間點之后服從另一個分布,這在統(tǒng)計序列分析中稱作變點問題[20-26]。變點問題出現(xiàn)在眾多領域,尤其是在工業(yè)產(chǎn)品質(zhì)量監(jiān)控中。在連續(xù)的生產(chǎn)過程中,機器在任一時間點都可能發(fā)生故障,從而導致產(chǎn)品質(zhì)量下降(產(chǎn)品特征變量在該時間點發(fā)生變化),因此需要一個監(jiān)控方法來甄別產(chǎn)品質(zhì)量。理想的監(jiān)控方法是在產(chǎn)品質(zhì)量發(fā)生變化時,及時發(fā)出信號,同時把犯第Ⅰ類偵測錯誤率控制在一定水平之下。這里,第Ⅰ類偵測錯誤是指在產(chǎn)品質(zhì)量未發(fā)生改變時,該監(jiān)控方法錯誤地判斷產(chǎn)品質(zhì)量已發(fā)生變化。

若該試題的信息在第nc個考生后被泄露,即部分將要參加考試的考生得到了該試題的信息,那么該試題對于這些考生來說將會變得簡單。對于這些考生,新的正確作答該題的概率為而更極端的情況是這些考生將會一直答對這道題,即而那些沒有得到該題信息的考生仍將以的概率正確作答該題。當該試題被選中給一個考生,依賴于該考生是否在考試前已獲得該試題的信息,這個考生正確作答該題的概率可能是,也可能是假定這個考生恰好得到了該題信息的可能性概率是r,那么根據(jù)全概率公式,任何一個考生在試題泄露之后答對該題的概率為

顯然,r與得到該題信息的考生在所有將要參加考試的考生中的比例密切相關。因此,r可以看作該題泄露影響廣度的指標,而更確切地說可以看作該題泄露影響深度的指標。當然r是未知的,但在本文所介紹的方法中我們并不需要估計它的數(shù)值。如果r=0,即該題的泄露影響可忽略,不造成任何損失,或者說該題并沒有被泄露,所以考試管理者并不需要考慮該題的泄露問題。因此,本文只考慮r>0的情況,這樣

即在統(tǒng)計上看該試題在泄露之后對所有的考生來說都顯得簡單了??傊谠囶}泄露之前,該試題服從一個項目反應函數(shù)而在試題泄露之后,它服從另一個較大的項目反應函數(shù)因此,試題泄露問題是一個變點問題。

一道試題是否被泄露是未知的。如果泄露,其變點nc的位置更是難以確定。而且,不同的試題,它們的被泄露變點位置不一定是一樣的。因此,需要統(tǒng)計方法對每一道試題進行實時連續(xù)監(jiān)控,一旦發(fā)生試題泄露,盡早地甄別出已泄露試題,以保障計算機自適應考試的安全性和有效性。

假設某被監(jiān)控試題的變點是nc,而監(jiān)控結(jié)果表明該試題在被n個考生使用過后被泄露(如圖1所示)。若nnc,監(jiān)控程序在考生n作答后發(fā)現(xiàn)了試題泄露,即給出了正確甄別;此時雖然監(jiān)控程序找到了該泄露試題,但是該試題仍被使用在nc與n之間的考生的考試中,從nc到n之間的考生數(shù)量為試題泄露之后到被監(jiān)控程序正確甄別之間的延遲間隔(如圖1(b)所示)。這個延遲間隔是從變點到該泄露試題被正確甄別之間使用該題考生的數(shù)量。如果監(jiān)控程序未正確甄別已泄露試題,這就犯了第Ⅱ類統(tǒng)計錯誤。在第Ⅰ類統(tǒng)計錯誤概率得到控制的前提下,越小的延遲間隔與越低的第Ⅱ類統(tǒng)計錯誤犯錯概率,表明這個監(jiān)控程序越理想。總之,理想的監(jiān)控程序需要精準且高效地甄別已泄露試題。

圖1 錯誤與正確的變點甄別

2.2 基于經(jīng)典測量理論的序貫監(jiān)控方法

在計算機自適應考試中,每道試題都有潛在的目標考生子群體,這個子群體與總考生群體是不一樣的。例如,在計算機自適應考試中,較難的題目是被設計用以考查較高能力考生時使用的。因此,總體上來說,一道難題的目標考生子群體比一道較容易題目的目標考生子群體的能力高。在計算機自適應考試系統(tǒng)中,考生群體、試題的難度參數(shù)和選題策略及算法共同決定了這個目標子群體。定義p是來自目標子群體中的某一考生在某一被監(jiān)控試題上的得分期望值:

Zhang[18]認為試題信息泄露作為變點問題可通過p值反映出來,并據(jù)此針對計算機自適應考試系統(tǒng)開發(fā)了基于經(jīng)典測量理論的實時連續(xù)監(jiān)控試題統(tǒng)計特性的序貫監(jiān)控方法。在施測過程中,被監(jiān)控中的每一道試題,若其信息沒有被泄露,那么相應的考生作答U1,U2,…,Un…,均具有相同的p值。若某題在第nc個考生后被立即泄露,那么前nc個考生的得分的期望值為p,其后考生得分的期望值為p*,這里

假設當前考生是作答該被監(jiān)控試題的第n名考生。針對該題的監(jiān)控過程由一系列統(tǒng)計假設檢驗構(gòu)成:至n的原假設為在第n個考生使用該試題時,該試題還未被泄露;相應的備擇假設為該試題在第n個考生或其之前就已經(jīng)被泄露。至n的假設檢驗將到當前為止的n個考生對該試題的作答分為兩個部分:前個考生作答{U1,U2,…,Un-m}被稱為至n的參考移動樣本,而從考生n-m+1到考生n的m個作答{Un-m+1,Un-m+2,…,Un}被稱為至n的目標移動樣本。這里“移動”是指在實時連續(xù)監(jiān)控試題的過程中,n是不斷向前移動的,而m(m

若該試題在第n個考生作答時還沒有被泄露,那么和均為p的無偏估計。因此的數(shù)值應較小。然而,若該試題在第n個考生作答前就已經(jīng)被泄露,尤其當nc=n-m時是在該試題被泄露后對正確作答概率的估計,而仍是在該試題被泄露前對正確作答概率()p的估計。由于試題泄露會導致該題變得簡單,即p*>p,所以的值也會相應地增大。因此,可以用來構(gòu)造假設檢驗的統(tǒng)計量,其被標準化后被記為

至n的假設檢驗為:如果大于預設的臨界值cα,就拒絕至n的原假設,即認為至n時該試題已被泄露。

基于經(jīng)典測量理論的監(jiān)控方法的操作過程為:對于題庫中的每一道試題,在施測過程中一旦使用該試題的人數(shù)達到一定數(shù)量(例如,n0=150)時,就開始依據(jù)公式(4)計算的數(shù)值。如果就可認為該試題已泄露,這里n=n0,n0+1,n0+2,...。即該監(jiān)控程序由一系列統(tǒng)計假設檢驗構(gòu)成,在考試過程中,每當一道受監(jiān)控試題被選用于當前考生,就重新計算該題的并與預先設定的臨界值cα進行比較,做顯著性檢驗。

2.3 基于項目反應理論的序貫監(jiān)控方法

由于計算機自適應考試一般均建立在項目反應理論的基礎之上,然而前述所介紹的基于經(jīng)典測量理論的序貫監(jiān)控方法并沒有直接運用項目反應理論中的任何主要成分,例如能力估計和項目反應函數(shù)。如果項目反應理論中的主要成分和統(tǒng)計量能被加以利用,就有可能開發(fā)出更為理想的監(jiān)控程序。在這一點的啟發(fā)下,Zhang&Li[19]開發(fā)了基于項目反應理論的實時連續(xù)監(jiān)控方法。

若該試題在n-m處或之前已被泄露,則Xnm是試題泄露后的正確作答觀測值,其期望值為

基于項目反應理論的序貫監(jiān)控方法的操作過程為:對于題庫中的每一道試題,在施測過程中一旦使用該試題的人數(shù)達到一定數(shù)量(例如,n0=150)時,就開始依據(jù)公式(5)計算的數(shù)值。如果就可認為該試題已泄露,這里n=n0,n0+1,n0+2,...。即該監(jiān)控程序由一系列統(tǒng)計假設檢驗構(gòu)成,在考試過程中,每當一道受監(jiān)控試題被選用于當前考生,就重新計算該題的并與預先設定的臨界值cα比較,做顯著性檢驗。

基于經(jīng)典測量理論的序貫監(jiān)控方法是通過比較基于目標移動樣本與參照移動樣本p值的估計來實現(xiàn)對試題統(tǒng)計特性的實時連續(xù)監(jiān)控,而基于項目反應理論的監(jiān)控方法則只需要使用目標移動樣本。上述兩種序貫監(jiān)控方法都含有參數(shù)cα和m,其均需要在相應的序貫監(jiān)控方法被應用于具體的計算機自適應考試系統(tǒng)之前被確定下來。這兩個參數(shù),特別是臨界值cα,在上述兩種序貫監(jiān)控程序中往往是不一樣的。通常我們希望將犯第Ⅰ類統(tǒng)計錯誤的概率控制在一定的顯著性水平之下。顯著性水平α通常被選定為0.01或0.05。當給定顯著性水平α后,對各個監(jiān)控程序,臨界值cα就可以通過模擬研究被確定下來。在下文中我們將示范如何用模擬實驗來確定臨界值cα。在選取目標移動樣本大小m時,應注意平衡相應序貫監(jiān)控方法犯第Ⅱ類統(tǒng)計錯誤的概率與相應偵測被泄露試題監(jiān)控過程中的延遲間隔[18]。在其他參數(shù)不變的情況下,越大的目標移動樣本,即m值越大,相應的序貫監(jiān)控程序犯第Ⅱ類統(tǒng)計錯誤的概率越小,但延遲間隔也可能會越大。因此,為獲得較小的延遲間隔,不可選取過大的m值。在為序貫監(jiān)控方法選取最優(yōu)參數(shù)時,應該綜合考量眾多因素以平衡犯第Ⅰ類錯誤、第Ⅱ類統(tǒng)計錯誤的概率以及延遲間隔。那些應該考量的因素包括(但不限于):犯第Ⅰ類統(tǒng)計錯誤所可能耗費的成本,以及使用已被泄露試題可能會對本次計算機自適應考試評估所產(chǎn)生的破壞。整個過程要依據(jù)考試的具體情況來確定。

3 模擬研究

本研究用模擬計算機自適應考試數(shù)據(jù)對上述這兩種序貫監(jiān)控方法進行統(tǒng)計穩(wěn)健性比較。具體地說,首先在考生整體水平隨時間沒有任何變化的情況下,用模擬實驗來確定顯著性水平α為0.01和0.05的臨界值cα。然后再模擬考生整體水平有季節(jié)性變化或連續(xù)提高趨勢的情況下,檢查這兩種監(jiān)控方法犯第Ⅰ類統(tǒng)計錯誤的概率是否變大,是否超出預設的顯著性水平。本研究既要比較這兩種方法在不同情形下的表現(xiàn),也要比較各個方法從考生整體水平隨時間沒有任何變化到有變化時的表現(xiàn)。除了犯第Ⅰ類統(tǒng)計錯誤的概率,即某一題沒有被泄露,卻被誤判為已被泄露的概率,這一概率越小越好外,另一個比較的標準是第Ⅰ類統(tǒng)計錯誤的發(fā)生位置,用犯第Ⅰ類統(tǒng)計錯誤前的考生數(shù)量這一指標來衡量,即犯第Ⅰ類統(tǒng)計錯誤發(fā)生得越晚,在該錯誤發(fā)生前,使用該題的考生數(shù)量將會越大,試題越不會被浪費,故而這一指標越大越好。對于這兩個標準,一般先考察犯第Ⅰ類統(tǒng)計錯誤的概率是否超出預設的顯著性水平,這是本研究評估穩(wěn)健性的主要標準;在犯第Ⅰ類統(tǒng)計錯誤概率得到控制的前題下,再來比較第Ⅰ類統(tǒng)計錯誤發(fā)生的位置,這將作為比較的輔助標準。

3.1 CAT模擬實驗設計

此次模擬研究的題庫選自一次真實大規(guī)模測評的400道試題,這些題目被標定使用三參數(shù)Logistic模型:

其中θ表示相應被試者的能力值表示當能力值為θ時正確作答某題目的概率,a表示題目的區(qū)分度參數(shù),b表示題目的難度參數(shù),c表示題目的猜測參數(shù)[28]。

表1 全題庫及各內(nèi)容板塊試題三參數(shù)的描述性統(tǒng)計量

測試包含三個內(nèi)容板塊,每個板塊分別占總試題的40%、30%、30%,即每個板塊分別包含試題160道、120道、120道。表1羅列了全卷及各內(nèi)容板塊相應試題三參數(shù)的描述性統(tǒng)計量。

此次模擬研究中,計算機自適應考試試題長度固定為40題,同時對整個選題過程實現(xiàn)內(nèi)容控制,這樣三個內(nèi)容板塊分別包含的題量為16道、12道、12道。對于每個考生或每次考試,每個內(nèi)容板塊試題的出現(xiàn)順序是通過隨機的方式預先設定的:分別使用數(shù)字1、2、3來代表三個內(nèi)容板塊,在實驗中使用16個1、12個2、12個3,分別通過隨機重新排列這些數(shù)字以獲得考試中試題內(nèi)容板塊的出現(xiàn)順序,例如,第k個數(shù)字是1,那么被選取的第k題則來自第一個內(nèi)容板塊。

給定一個考生真實能力值和一道試題,通過標準IRT方法,使用其相應的真實能力值以及試題參數(shù)來產(chǎn)生模擬分數(shù)(1或0):從(0,1)均勻分布中產(chǎn)生的一個隨機數(shù),如果該數(shù)小于基于三參數(shù)Logistic模型計算所得的正確作答的概率,那么相應模擬分數(shù)被賦值為1,否則為0。

模擬考生的人數(shù)為10 000人。對于每一個考生,前三道試題從預先設定的內(nèi)容板塊中曝光率較低的試題中選出,曝光率越低越會被選中。此后的選題方法是結(jié)合了內(nèi)容控制和曝光控制的最大信息量選題法[27]。在此次模擬研究中,試題曝光率會受到嚴格控制,當前考生的考題只會在那些曝光率低于最大曝光率并滿足限制條件的試題中挑選信息量最大的。試題最大曝光率被限定為0.20。注意當所有試題被等概率使用時,平均試題曝光率為0.10(即40/400)。

在選題過程中,此次模擬研究使用后驗期望(EAP)方法[29]來估計考生當前的能力水平,該方法使用標準正態(tài)分布作為能力值的先驗分布。而考生的最終能力估計是用最大似然估計法(MLE)來得到的。

在此次模擬計算機自適應考試的過程中,一旦一道試題的曝光次數(shù)達到150次(即 n0=150)就啟動序貫監(jiān)控程序來監(jiān)測這一試題。這樣,實際被監(jiān)測的試題數(shù)量即為題庫中曝光次數(shù)大于或等于150次的試題數(shù)量。此次模擬研究考慮4個不同的移動樣本量,m=25,50,75,100。

在每種模擬條件下,模擬實驗將重復1 000次。對于每一次重復模擬,首先將記錄下列結(jié)果:被監(jiān)測試題數(shù)量,被錯誤標識為泄露的試題數(shù)量(即犯第Ⅰ類統(tǒng)計錯誤),以及發(fā)生錯誤標識前該題被使用的次數(shù)(即犯第Ⅰ類統(tǒng)計錯誤前的考生數(shù)量)。然后計算觀測到的犯第Ⅰ類統(tǒng)計錯誤的概率(即被錯誤標識試題數(shù)量與被監(jiān)測試題數(shù)量的比率)和其相對應的第Ⅰ類統(tǒng)計錯誤發(fā)生前的考生數(shù)量均值。犯第Ⅰ類統(tǒng)計錯誤的概率當然是越小越好,不過人們通常選擇合適的臨界點來控制犯第Ⅰ類統(tǒng)計錯誤的概率,而犯第Ⅰ類統(tǒng)計錯誤前的考生數(shù)量當然是越大越好。一道試題被用了200次就被錯誤標識為泄露與一道試題被用了800次才被錯誤標識為泄露相比,前者的錯誤更為嚴重。

3.2 臨界點確定

對于給定的顯著性水平α(0.01或0.05),需要在所有原假設都成立(即沒有試題泄露)的條件下,通過模擬實驗來確定本研究介紹的這兩種序貫監(jiān)控程序相應的臨界值cα。這一模擬實驗通常在一個標準狀況下完成。這里所謂的“標準狀況”,具體地說,是在模擬實驗中考生真實能力值是從均值為0、標準差為1的標準正態(tài)分布中相互獨立產(chǎn)生,θn~N(0,1),n=1,2,...,N。這里N是模擬考生的人數(shù),在本研究中N=10 000。在這種標準狀況下,考生整體水平?jīng)]有隨時間有任何變化。

具體的做法是:首先在標準狀況下,用重復模擬實驗來確定本文介紹的這兩種序貫監(jiān)控程序在可能的臨界值下犯第Ⅰ類統(tǒng)計錯誤的概率,從而建立臨界值與犯第Ⅰ類統(tǒng)計錯誤概率對應的表格,最后監(jiān)控程序使用者根據(jù)選定的顯著性水平α(例如0.01或0.05)來查取相應的臨界值。

基于1 000次的重復模擬,平均被監(jiān)測試題數(shù)量為272道題。像前面指出的那樣,這個平均被監(jiān)測的試題數(shù)量即為在這1 000次的重復模擬中,題庫里曝光次數(shù)大于或等于150次的試題的平均數(shù)。

模擬結(jié)果表明21個可能的臨界數(shù)值,3.00, 3.05,…,4.00,相對應的犯第Ⅰ類統(tǒng)計錯誤的概率的范圍已涵蓋了通常選用的顯著性水平的取值,即0.01和0.05。因此,表2至表5只給出了從3.00到4.00(步長為0.05)的21個可能的臨界數(shù)值所對應的犯第Ⅰ類統(tǒng)計錯誤的概率。表2至表5是對應于4個不同移動樣本量的模擬實驗結(jié)果,即在這21個可能的臨界點下,這兩種序貫監(jiān)控程序在這1 000次的重復模擬中犯第Ⅰ類統(tǒng)計錯誤的平均比率和犯第Ⅰ類統(tǒng)計錯誤前的平均考生數(shù)量。從這些表中可以看出,隨著臨界點取值的升高,犯第Ⅰ類統(tǒng)計錯誤的概率會持續(xù)降低。

下面來說明如何使用表2至表5來選取合適的臨界值。假如預設的顯著性水平為α=0.01,移動樣本量預設為m=25時,據(jù)表2查得,當臨界點為3.85時,基于CTT方法犯第Ⅰ類錯誤的概率是0.0101,而當臨界點為3.90時,基于CTT方法犯第Ⅰ類錯誤的概率是0.0081。為了把犯第Ⅰ類錯誤的概率控制在α=0.01以下,當移動樣本量預設為m=25時,為CTT方法選取的臨界值應為c0.01(CTT)=3.90。當然,為了得到更精確的臨界值,可以建立更為精細的表

格以供查用。監(jiān)控程序使用者也可以使用插值的方法來選取臨界值為c0.01(CTT)=3.86。本文為方便起見只用表中數(shù)值。同樣,當移動樣本量預設為m=25時,選取基于IRT方法的臨界值為c0.01(CTT)= 3.85。

表2 在理想狀況下,不同臨界點相應的犯第Ⅰ類錯誤的概率均值與犯第Ⅰ類統(tǒng)計錯誤前的考生數(shù)量均值(移動樣本量為25)

表3 在理想狀況下,不同臨界點相應的犯第Ⅰ類錯誤的概率均值與犯第Ⅰ類統(tǒng)計錯誤前的考生數(shù)量均值(移動樣本量為50)

表4 在理想狀況下,不同臨界點相應的犯第Ⅰ類錯誤的概率均值與犯第Ⅰ類統(tǒng)計錯誤前的考生數(shù)量均值(移動樣本量為75)

表5 在理想狀況下,不同臨界點相應的犯第Ⅰ類錯誤的概率均值與犯第Ⅰ類統(tǒng)計錯誤前的考生數(shù)量均值(移動樣本量為100)

表6羅列了在不同移動樣本量下,當顯著性水平預設為α=0.01或0.05時,從表2至表5查找出來的臨界值cα以及第Ⅰ類錯誤發(fā)生前使用該題的考生數(shù)量均值。換句話說,表6綜合了表2至表5中的相關信息,概括了在4個不同移動樣本量下,對應于常用的顯著性水平的臨界點和相應犯第Ⅰ類統(tǒng)計錯誤前的平均考生數(shù)量。

本研究只報告了犯第Ⅰ類統(tǒng)計錯誤的概率,如希望進一步了解有關犯第Ⅱ類統(tǒng)計錯誤概率的信息,可以參閱Zhang[18]及Zhang&Li[19]發(fā)表的文章。在實際應用中,監(jiān)控程序使用者需要為不同的監(jiān)控程序選取最佳的移動樣本量。如果僅考慮犯第Ⅰ類統(tǒng)計錯誤前的考生數(shù)量的大小,從表6可以看出,CTT序貫監(jiān)控方法的最佳移動樣本量為m(CTT)= 50,而IRT序貫監(jiān)控方法的最佳移動樣本量為m(IRT)=25。當然,監(jiān)控程序使用者在選取最佳的移動樣本量時還需考慮犯第Ⅱ類統(tǒng)計錯誤概率,使之最小化。從表6也可以看出,IRT序貫監(jiān)控方法犯第Ⅰ類統(tǒng)計錯誤前的考生數(shù)量普遍比相應CTT序貫監(jiān)控方法的大,而這個指標是越大越好。

3.3 兩種序貫監(jiān)控程序的穩(wěn)健性比較

計算機自適應考試的題庫通常會使用較長一段時間,幾個月甚至幾年??忌恼w水平有可能隨時間而變化。例如,3月份考生的整體水平比1月份的高。本研究考慮以下兩種考生整體水平隨時間而變化的情況。

(1)模擬考生整體水平隨時間有季節(jié)(周期)性變化:考生真實能力值n=1,2,...,10 000。即考生真實能力均值隨n有季節(jié)(周期)性變化。例如θ1~N(0.0003,1),θ2500~N(0.5,1),θ5000~N(0,1),θ7500~N(-0.5,1),θ10000~N(0,1)。

(2)模擬考生整體水平隨時間有持續(xù)提高趨勢:考生真實能力值θn~N(0.5n/10000,1),n=1,2,..., 10 000。即考生真實能力均值隨n有持續(xù)提高的趨勢。例如θ1~N(0.0,1),θ2000~N(0.1,1),θ4000~N(0.2,1),θ10000~N(0.5,1)。

給定顯著性水平0.01或0.05,序貫監(jiān)控方法中的臨界點是在標準狀態(tài)(考生整體水平隨時間沒有變化)下得到的?,F(xiàn)在考生整體水平隨時間有變化,就需要考察這兩種序貫監(jiān)控方法犯第Ⅰ類統(tǒng)計錯誤的概率是否變大,是否超出預設的顯著性水平。在犯第Ⅰ類統(tǒng)計錯誤概率得到控制的前提下,再來考察第Ⅰ類統(tǒng)計錯誤發(fā)生的位置是否有變化。換句話說,這一節(jié)中的模擬試驗是用來研究這兩種序貫監(jiān)控方法的穩(wěn)健性。

表6 在不同顯著性水平下,臨界點與相應犯第Ⅰ類統(tǒng)計錯誤前的考生數(shù)量均值(標準差)

表7概括了在考生整體水平有季節(jié)性變化的情況下,這兩種序貫監(jiān)控方法使用在標準條件下得到的臨界點(參見表6)及在不同移動樣本量下,犯第Ⅰ類統(tǒng)計錯誤的概率均值和犯第Ⅰ類統(tǒng)計錯誤前的考生數(shù)量均值。

在考生整體水平有本研究所模擬的季節(jié)性變化時,這兩種序貫監(jiān)控方法犯第Ⅰ類統(tǒng)計錯誤的概率與相應的預設顯著性水平(0.01或0.05)可以通過t-檢驗進行比較。本研究中t-檢驗的顯著性水平均設為0.05。結(jié)果表明,在本研究所考慮的4個不同移動樣本量的情況中,這兩種序貫監(jiān)控方法犯第Ⅰ類統(tǒng)計錯誤的概率都沒有顯著超出相應的預設顯著性水平。但是,通過t-檢驗比較,在所有考慮的情況中,IRT方法犯第Ⅰ類統(tǒng)計錯誤前的考生平均數(shù)都比CTT方法相應的平均數(shù)大。這些結(jié)果表明在考生整體水平有季節(jié)性變化時,這兩種序貫監(jiān)控方法都能很好地控制犯第Ⅰ類統(tǒng)計錯誤的概率,而在犯第Ⅰ類統(tǒng)計錯誤前的考生平均數(shù)方面,IRT方法略好于CTT方法。

我們還可以通過t-檢驗比較各個方法犯第Ⅰ類統(tǒng)計錯誤前的考生數(shù)由考生整體水平?jīng)]有變化到有季節(jié)性變化的前后變化(參見表6和表7)。結(jié)果表明CTT方法的該指標數(shù),在所考慮的4個不同移動樣本量中,全面顯著變差(變?。?;然而IRT方法的該指標數(shù)只有在移動樣本量為75或100時顯著性變差,而在移動樣本量為25時變好。

表8概括出在考生整體水平有連續(xù)提高趨勢的情況下,這兩種序貫監(jiān)控方法使用在標準條件下得到的臨界點及在不同移動樣本量下,犯第Ⅰ類統(tǒng)計錯誤的概率均值和犯第Ⅰ類統(tǒng)計錯誤前的考生平均數(shù)。通過t-檢驗進行比較,發(fā)現(xiàn)在本研究所考慮的4個不同移動樣本量的情況中,IRT方法犯第Ⅰ類統(tǒng)計錯誤的概率都沒有顯著超出相應的預設顯著性水平。但是,除了當移動樣本量為25時,CTT方法犯第Ⅰ類統(tǒng)計錯誤的概率都顯著超出相應的預設顯著性水平。這些結(jié)果表明IRT序貫監(jiān)控方法能很好地控制犯第Ⅰ類統(tǒng)計錯誤的概率,而CTT方法卻不能在所有4個不同移動樣本量的情形中控制好犯第Ⅰ類統(tǒng)計錯誤的概率。另外,通過t-檢驗表明,在所有4個不同移動樣本量的情形中,IRT方法犯第Ⅰ類統(tǒng)計錯誤前的考生平均數(shù)都比CTT方法相應的平均數(shù)大。

我們也可以通過t-檢驗比較各個方法犯第Ⅰ類統(tǒng)計錯誤前的考生數(shù)由考生整體水平?jīng)]有變化到有連續(xù)提高趨勢的前后變化(參見表6和表8)。結(jié)果表明CTT方法的該指標數(shù),在所考慮的4個不同移動樣本量中,全面顯著變好(變大);然而IRT方法的該指標數(shù)值有增有減,例如,當移動樣本量為25時,該指標數(shù)值顯著變差(變?。?,而當移動樣本量為100時顯著變大。

表7 在有季節(jié)性變化情況下,不同顯著性水平相應的犯第Ⅰ類統(tǒng)計錯誤的概率的均值,犯第Ⅰ類統(tǒng)計錯誤前的考生數(shù)量均值及其標準差

4 討論

本研究對基于CTT和IRT的兩種實時序貫監(jiān)控方法在考生水平變化的情況下進行了統(tǒng)計穩(wěn)健性的比較。首先,在標準狀況下,根據(jù)預設的顯著性水平,確定這兩種監(jiān)控方法各自統(tǒng)計檢驗的臨界點;然后再模擬考生整體水平有季節(jié)性變化或連續(xù)提高趨勢的情況下,檢查這兩種監(jiān)控方法犯第Ⅰ類統(tǒng)計錯誤的概率是否變大,是否超出預設的顯著性水平。

在模擬考生整體水平有季節(jié)性變化的情況下,基于經(jīng)典測量理論的序貫監(jiān)控方法犯第Ⅰ類統(tǒng)計錯誤的概率能夠被有效地控制在預設的顯著性水平之下,然而,犯第Ⅰ類統(tǒng)計錯誤發(fā)生前使用該題的考生數(shù)量,較考生整體水平?jīng)]有任何變化的情況而言,顯著下降。因此,在這種情況下,該方法的穩(wěn)健性表現(xiàn)不夠理想。在模擬考生整體水平隨時間有持續(xù)提高趨勢的情況下,該方法犯第Ⅰ類統(tǒng)計錯誤的概率有所上升,特別當移動樣本量大于25時,該方法犯第Ⅰ類統(tǒng)計錯誤的概率顯著地超出了預設的顯著性水平。然而,結(jié)果也顯示,第Ⅰ類統(tǒng)計錯誤發(fā)生前使用該題的考生數(shù)量,較考生整體水平?jīng)]有任何變化的情況而言,有顯著上升。

基于項目反應理論的序貫監(jiān)控方法,在模擬考生整體水平隨時間有季節(jié)性變化和有持續(xù)提高趨勢這兩種情況下,都表現(xiàn)出了較好的穩(wěn)健性,即犯第Ⅰ類統(tǒng)計錯誤的概率被很好地控制在預設的顯著性水平之下。評價一個統(tǒng)計檢驗方法穩(wěn)健性的最重要的指標是在狀況或條件發(fā)生變化時,該方法犯第Ⅰ類統(tǒng)計錯誤的概率能否被很好地控制在預設的顯著性水平之下。在這一標準下,基于項目反應理論的序貫監(jiān)控方法比基于經(jīng)典測量理論的方法表現(xiàn)得更為穩(wěn)健。

至于另一個指標,第Ⅰ類統(tǒng)計錯誤發(fā)生前使用該題的考生數(shù)量,在模擬考生整體水平有季節(jié)性變化的情況下,基于經(jīng)典測量理論的序貫監(jiān)控方法顯著低于基于項目反應理論的方法;而在模擬考生整體水平隨時間有持續(xù)提高趨勢的情況下,基于經(jīng)典測量理論的方法顯著高于基于項目反應理論的方法。

總之,基于項目反應理論的序貫監(jiān)控方法對本研究所模擬的非標準狀況均表現(xiàn)出了較強的適應性及優(yōu)良的穩(wěn)健性,而基于經(jīng)典測量理論的序貫監(jiān)控方法會在不同程度上受到影響,監(jiān)測效果相較于考生整體水平?jīng)]有任何變化的情況而言,有所下降。因此,在本研究所模擬的非標準狀況下,基于項目反應理論的序貫監(jiān)控方法的穩(wěn)健性表現(xiàn)優(yōu)于基于經(jīng)典測量理論的序貫監(jiān)控方法。

表8 在考生整體水平有連續(xù)提高趨勢的情況下,不同顯著性水平相應的犯第Ⅰ類統(tǒng)計錯誤的概率的均值,犯第Ⅰ類統(tǒng)計錯誤前的考生數(shù)量均值及其標準差

項目參數(shù)標定的準確性是確保計算機自適應考試系統(tǒng)成功的必要條件。在本項研究中,假定這一條件已滿足,但在實際的自適應考試過程中,項目參數(shù)可能會出現(xiàn)漂移,這時基于項目反應理論的序貫監(jiān)控方法就需要作出相應的調(diào)整。

[1]漆書青,戴海崎,丁樹良.現(xiàn)代教育與心理測量學原理[M].北京:高等教育出版社,2002.

[2]CHANG H,ZHANG J.Hypergeometric family and test overlap rates in computerized adaptive testing[J].Psychometrika,2002(67):387-398.

[3]CHANG H,ZHANG J.Assessing CAT security breaches by the item pooling index[C]//Paper presented at the Annual Meeting of Nation?al Council on Measurement in Education.Chicago,IL,2003.

[4]DAVEY T,NERING N.Controlling item exposure and maintaining item security[M]//MILLS C N,POTENZA M T,FREMER J J, WARD W C.Computer-based testing:Building the foundation for future assessments.Mahwah,NJ:Lawrence Erlbaum,2002:165-191.

[5]GUO J,TAY L,DRASGOW F.Conspiracies and test compromise: An evaluation of the resistance of test systems to small-scale cheat?ing[J].International Journal of Testing,2009(9):283-309.

[6]MCLEOD L,LEWIS C,THISSEN D.A Bayesian method for the de?tection of item preknowledge in computerized adaptive testing[J]. Applied Psychological Measurement,2003(27):121-137.

[7]WAY W D.Protecting the integrity of computerized testing item pools[J].Educational Measurement:Issues and Practice,1998(Win?ter):17-27.

[8]YI Q,ZHANG J,CHANG H.Severity of organized item theft in com?puterized adaptive testing:A simulation study[J].Applied Psycholog?ical Measurement,2008(32):543-558.

[9]ZHANG J,CHANG H,YI Q.Comparing single-pool and multiplepool designs regarding test security in computerized testing[J].Be?havior Research Methods,2012(44):742-752.

[10]HETTER R,SYMPSON B.Item exposure control in CAT-ASVAB [M]//SANDS W,WATERS B,McBRIDE J.Computerized adaptive testing:From inquiry to operation.Washington,DC:American Psy?chological Association,1997:141-144.

[11]MILLS C N,STEFFEN M.The GRE computer adaptive test:Opera?tional issues[M]//VAN DER LINDEN W J,GLAS C A W.Compu?erized Adaptive Testing:Theory and Practice.The Netherlands: Kluwer Academic Publishers,2000:75-99.

[12]STOCKING M L.Three practical issues for modern adaptive testing item pools(ETS RR-94-5)[R].Princeton,NJ:ETS,1994.

[13]STOCKING M L,LEWIS C.A new method of controlling item expo?sure in computerized adaptive testing(ETS RR-95-25)[R].Prince?ton,NJ:ETS,1995.

[14]STOCKING M L,LEWIS C.Controlling item exposure conditional on ability in computerized adaptive testing[J].Journal of Education?al and Behavioral Statistics,1998(23):57-75.

[15]SYMPSON J B,HETTER R D.Controlling item-exposure rates in computerized adaptive testing[C]//Proceedings of the 27th annual meeting of the Military Testing Association.San Diego,CA:Navy Personnel Research and Development Center,1985:973-977.

[16]MILLS C N,STOCKING M L.Practical issues in large-scale com?puterized adaptive testing[J].Applied Measurement in Education, 1996(9):287-304.

[17]CHEN S,ANKENMANN R D,SPRAY J A.The relationship be?tween item exposure and test overlap in computerized adaptive test?ing[J].Journal of Educational Measurement,2003(40):129-145.

[18]ZHANG J.A sequential procedure for detecting compromised items in the item pool of a CAT system[J].Applied Psychological Mea?surement,2014(38):87-104.DOI:10.1177/0146621613510062.

[19]ZHANG J,LI J.Monitoring Items in Real Time to Enhance CAT Se?curity[J].Journal of Educational Measurement,2016,53(2):131-151.DOI:10.1111/jedm.12104.

[20]ANSCOMBE F J,GODWIN H J,PLACKETT R L.Methods of de?ferred sentencing in testing the fraction defective of a continuous output[J].Supplement to the Journal of the Royal Statistical Soci?ety,1947(9):198-217.

[21]CARLSTEIN E.Nonparametric change-point estimation[J].Annals of Statistics,1988,16(1):188-197.

[22]LORDEN G.Procedures for reacting to a change in distribution[J]. Annals of Mathematical Statistics,1971,42(6):1897-1908.

[23]PAGE E S.Continuous inspection schemes[J].Biometrika,1954(41):100-115.

[24]POLLAK M.Optimal detection of a change in distribution[J].An?nals of Statistics,1985(13):206-227.

[25]SIEGMUND D.Sequential Analysis[M].New York,NY:Springer, 1985.

[26]SIEGMUND D.Boundary crossing probabilities and statistical ap?plications[J].Annals of Statistics,1985,14(2):361-404.

[27]LORD F M.Applications of item response theory to practical test?ing problems[M].Hillsdale,NJ:Lawrence Erlbaum Associates, 1980.

[28]羅照盛.項目反應理論基礎[M].北京:北京師范大學出版社, 2012.

[29]BOCK R D,MISLEVY R J.Adaptive EAP estimation of ability in a microcomputer environment[J].Applied Psychological Measure?ment,1982(6):431-444.

Robustness of CTT-and IRT-based Sequential Procedures for Detecting Compromised Items in CAT

ZHANG Jinming,CAO Canxi,JIE Yongjing
(University of Illinois at Urbana-Champaign,Illinois 61822,US)

CTT-and IRT-based sequential procedures are introduced for monitoring items in a CAT item pool in order to identify compromised items in real time,remove or replace them with appropriate new items,and ultimately enhance test security and validity.This article focuses on the robustness of these two procedures when the overall ability of test takers increases with time or changes seasonally.Specifically,it investigates whether the rates of type I errors of the two procedures become larger than the corresponding significance level in these two scenarios.Results from simulation studies demonstrate that the IRT-based sequential procedure is more robust than the CTT-based one in the settings specified in the article.

Computerized Adaptive Testing;Item Response Theory;Classical Testing Theory;Item Exposure; Change-point Problem;Sequential Method

G405

A

1005-8427(2017)02-0020-14

10.19360/j.cnki.11-3303/g4.2017.02.004

(責任編輯:陳睿)

本研究得到中國國家漢語國際推廣領導小組辦公室提供的部分資助。

張金明(1962—),男,博士,美國伊利諾伊大學香檳分校,副教授;曹燦兮(1990—),女,美國伊利諾伊大學香檳分校,在讀研究生;揭勇菁(1991—),男,美國伊利諾伊大學香檳分校,在讀研究生。

猜你喜歡
樣本量試題概率
第6講 “統(tǒng)計與概率”復習精講
醫(yī)學研究中樣本量的選擇
2021年高考數(shù)學模擬試題(四)
第6講 “統(tǒng)計與概率”復習精講
概率與統(tǒng)計(一)
概率與統(tǒng)計(二)
2019年高考數(shù)學模擬試題(五)
《陳涉世家》初三復習試題
2019屆高考數(shù)學模擬試題(二)
航空裝備測試性試驗樣本量確定方法
測控技術(2018年4期)2018-11-25 09:46:52
南郑县| 玉山县| 固阳县| 宜州市| 买车| 张家川| 中阳县| 白银市| 广州市| 庆城县| 弥勒县| 鱼台县| 滁州市| 南丹县| 澄城县| 松溪县| 陇南市| 肃宁县| 永泰县| 休宁县| 莱芜市| 永丰县| 梅州市| 民权县| 漳平市| 本溪市| 尼勒克县| 宁德市| 伊金霍洛旗| 河曲县| 德江县| 巴东县| 卢龙县| 茶陵县| 大化| 郑州市| 都匀市| 平乡县| 新民市| 光泽县| 东辽县|