基于MFI的不定長CAT選題策略研究

2023-12-25 03:25:04張濱

電腦知識與技術(shù) 2023年31期

張濱

摘要：針對最大信息量選題策略中因項目曝光不均勻所導致的題庫安全性問題，在沿用曝光因子和自動控制區(qū)分度函數(shù)的基礎(chǔ)上，在0-1評分的不定長計算機化自適應(yīng)測驗下提出了一種新的選題策略。蒙特卡洛實驗結(jié)果表明新的選題策略通過在測驗過程中動態(tài)控制曝光因子和區(qū)分度的大小，使信息量大的項目被選中的概率提高，既保證了測驗的效率和精度，同時也較大程度地降低了項目的曝光率，提高了題庫的安全性。

關(guān)鍵詞：計算機化自適應(yīng)測驗；項目反應(yīng)理論；選題策略；項目信息量；蒙特卡洛模擬

中圖分類號：TP391.76? ? ? 文獻標識碼：A

文章編號：1009-3044（2023）31-0071-03

開放科學（資源服務(wù)）標識碼（OSID）

0 引言

計算機化自適應(yīng)測驗（Computerized Adaptive Test，CAT）是以現(xiàn)代測量理論為基礎(chǔ)，結(jié)合了計算機技術(shù)的一種新型測驗形式。相比傳統(tǒng)的測驗形式，計算機化自適應(yīng)測驗實現(xiàn)了個性化測驗，有著更精確的測量精度并且保證了測驗過程更加公平，具有高效、準確、公平、靈活等優(yōu)勢。目前，CAT廣泛應(yīng)用于各類考試中，如國外的美國研究生入學考試（GRE）、美國（工商）管理類研究生入學考試（GMAT）以及國內(nèi)的漢語水平測試（HSK）、第四軍醫(yī)大學對應(yīng)征者進行的文化水平測驗都是采用CAT的測驗形式。

在計算機化自適應(yīng)測驗中，選題策略是較為關(guān)鍵的一環(huán)，不僅直接影響著測驗的效率和精度，和題庫的安全性也密切相關(guān)。目前CAT中用得較多的選題策略是Lord[1]在1970年提出的最大Fisher信息量選題策略（Maximum Fisher Information， MFI），該選題策略的測驗效率非常高，使用少量的項目就能夠快速準確地估計被試的能力水平。然而，MFI對高區(qū)分度項目的過度使用使得這些項目的曝光次數(shù)較多，低區(qū)分度的項目被調(diào)用的次數(shù)較少，嚴重影響了題庫中項目曝光的均勻性，進而對題庫的安全性產(chǎn)生威脅。后來學者們針對MFI在曝光度和安全性上的缺陷提出了不同的選題策略。Chang和Ying提出了按a分層法[2]（a-STR），這是一種通過區(qū)分度的大小對題庫進行分層實現(xiàn)逐層升a的選題策略。針對MFI選題策略的缺陷，結(jié)合按a分層法選題策略分層的思想，程小揚和丁樹良等引入了三個新的變量提出了引入曝光因子的最大信息量選題策略，下面簡稱程方法。這三個變量分別是項目j控制曝光因子ecf（j）、ecf（j）的調(diào)節(jié)因子[λi]以及區(qū)分度aj的冪函數(shù)a（j，T，k）。其中ecf（j）=mj / m，mj 是項目j被前m-1個被試使用的次數(shù)，m是前m-1個被試使用題庫中所有項目的平均次數(shù)。[a（j，T，k）=a2（T-k）T-1j]，T表示將測驗過程中的選題分為T個階段，k（取值為1，2 ... T）表示CAT進行選題時項目j所處的階段[3]。在MFI選題策略基礎(chǔ)上引入曝光因子以及區(qū)分度函數(shù)后，項目的調(diào)用次數(shù)變得更加均勻，較大程度地改善了項目的曝光率。李萍和甘登文等考慮到引入曝光因子的CAT選題策略仍需對題庫進行分層才能夠進行選題，提出了不需要進行分層就能自動控制區(qū)分度作用的新選題策略[4]，下面簡稱李方法。通過引入新的區(qū)分度冪函數(shù)a（j，i）實現(xiàn)在測驗過程中動態(tài)調(diào)節(jié)區(qū)分度對信息量函數(shù)的影響。在定長CAT測驗中，a（j，i）=[a2·（test_length-L（i））/test_lengthj]，在不定長CAT測驗中，a（j，i）=[a2·（Infor-infor（i））/Inforj]。其中的test_length代表定長測驗中預(yù)設(shè)的測驗長度，L（i）是第i個被試當前已經(jīng)作答完的項目數(shù)量，Infor代表不定長測驗中被試需完成的項目信息總量，Infor（i）則是第i個被試當前已經(jīng)完成的項目信息總量。新的區(qū)分度冪函數(shù)實現(xiàn)了隨著測驗進程的深入，逐步減少區(qū)分度對信息量的影響，在引入曝光因子的基礎(chǔ)上，進一步降低了被試的測驗長度。朱隆尹、丁樹良和程小揚等引入曝光因子后，通過調(diào)整信息平均的方法提出了引入曝光因子的平均調(diào)整信息選題法[5]。賀翔、羅芬等在動態(tài)a分層方法基礎(chǔ)上引入均值不等式，構(gòu)造了新的動態(tài)a分層法，進一步提高了測驗的安全性[6]。楊文清在引入曝光因子的基礎(chǔ)上定義了曝光因子控制指數(shù)函數(shù)，通過這一函數(shù)逐步弱化曝光因子在選題策略中的影響[7]，下面簡稱楊方法。王璞玨和劉紅云基于推薦系統(tǒng)中協(xié)同過濾推薦的思想，提出兩種可以利用已有答題者數(shù)據(jù)的CAT選題策略：直接基于答題者推薦（DEBR）和間接基于答題者推薦（IEBR）[8]。李佳和丁樹良等提出了區(qū)分度與測驗進程相匹配的CAT選題策略，這是一種相對嚴格的升“a”方法[9]。

以上選題策略在對題庫安全性控制方面，部分項目仍存在著曝光次數(shù)過多的現(xiàn)象。本文在引入曝光因子的基礎(chǔ)上，參照李方法的自動控制區(qū)分度函數(shù)，在選題中同時對區(qū)分度和曝光因子進行動態(tài)控制，提出了一種新的選題策略，以獲得更好的題庫安全性。

1 新的選題策略

程方法在MFI選題策略基礎(chǔ)上引入曝光因子后，較好地解決了某些項目曝光次數(shù)過多的問題，使得項目調(diào)用次數(shù)更加均勻，但被試的測驗長度有所增加。李方法實現(xiàn)了不需要分層即可隨著測驗過程的深入減小區(qū)分度對信息量選題的影響。本文綜合了程方法引入曝光因子的后有效降低項目曝光率的優(yōu)勢以及李方法動態(tài)控制區(qū)分度影響信息量選題方法的特點，參照楊方法在引入曝光因子的同時對曝光因子ecf（j）指數(shù)化，楊方法中并未對區(qū)分度進行動態(tài)調(diào)節(jié)，而是使用項目本身的區(qū)分度去削弱其對信息量的影響。新的選題策略中，通過同時對區(qū)分度及曝光因子進行動態(tài)調(diào)節(jié)，削弱曝光因子和區(qū)分度在測驗后期對信息量的影響，以達到保證測驗效率的同時提升題庫安全性的目的。

使用新的選題策略項目j要滿足的條件為：

[j=argmaxj∈RaIj（θ）ecf（j）t（i）·at（i）j] （1）

式子中的控制曝光因子和區(qū)分度的控制函數(shù)使用李方法中不定長測驗的自動控制區(qū)分度函數(shù)t（i）=[2（Infor-infor（i））/Infor]，Ra表示當前被試在題庫中尚未作答的項目，[Ij（θ）]是估計能力為[θ]的被試在項目j上所含的項目信息量，ecf（j）是程方法中的曝光因子，Infor代表不定長測驗中被試需完成的項目信息總量，Infor（i）則是第i個被試當前已經(jīng)完成的項目信息總量。

2 實驗設(shè)計

本文實驗中的測驗采用0-1評分的三參數(shù)Logistic模型，其項目反應(yīng)函數(shù)為：

[Pj（θi）=P（uij=1 | θi）=cj+（1-cj）exp{aj（θi-bj）}1+exp{aj（θi-bj）}]? （2）

在3PL模型中，[uij]是取值為0或1的伯努利隨機變量，代表著被試i在項目j上的二級計分反應(yīng)，[uij]值為1表示被試正確作答項目j，[uij]值為0則表示被試錯誤作答項目j；[Pj（θi）]表示能力為[θ]的被試i在二級評分項目j上正確作答的概率，[aj]，[bj]，[cj]分別為項目j區(qū)分度參數(shù)，難度系數(shù)以及猜測參數(shù)。

2.1 模擬生成題庫和被試

計算機模擬生成含有項目數(shù)量為1 000題的4個題庫，題庫中項目的區(qū)分度參數(shù)、難度參數(shù)和猜測參數(shù)均按照分布模擬生成[9]。得到以下4個項目參數(shù)服從不同分布的題庫：

題庫1生成區(qū)分度a服從對數(shù)正態(tài)分布，難度b服從標準正態(tài)分布，猜測參數(shù)c服從α為5，β為17的貝塔分布，記為[Ina～N（0，1）∧a∈（0.2，2.5），b～N（0，1）∧b∈（-3，3），c～Beta（5，17）]。

題庫2生成區(qū)分度a服從均勻分布，難度b服從均勻分布，猜測參數(shù)c服從α為5，β為17的貝塔分布，記為[a～U（0.2，2.5），b～U（-3，3），c～Beta（5，17）]。

題庫3生成區(qū)分度a服從對數(shù)正態(tài)分布，難度b服從均勻分布，猜測參數(shù)服從α為5，β為17的貝塔分布，記為[Ina～N（0，1）∧a∈（0.2，2.5），b～U（-3，3），c～Beta（5，17）]。

題庫4生成區(qū)分度a服從均勻分布，難度b服從標準正態(tài)分布，猜測參數(shù)服從α為5，β為17的貝塔分布，記為[a～U（0.2，2.5），b～N（0，1）∧b∈（-3，3），c～Beta（5，17）]。

計算機模擬生成1 000個被試，被試的能力參數(shù)均服從標準正態(tài)分布，即能力參數(shù)[θ～N（0，1）]，且[-3<θ<3]。

2.2 模擬被試作答

根據(jù)所選項目j的項目參數(shù)a、b、c以及被試i的能力估計值θ，代入式（2）計算其答對項目的概率[Pj（θi）]，同時通過計算機模擬生成一個服從0到1之間均勻分布的隨機數(shù)r，記為[r～U（0，1）]。如果[r<Pj（θi）]，認為被試i正確作答了項目j，記被試i在項目j上作答反應(yīng)[uij=1]；倘若[r?Pj（θi）]，則認為被試i錯誤作答了項目j，則被試i在項目j上作答反應(yīng)[uij=0]。

2.3 模擬CAT施測過程

CAT施測過程有兩個階段，第一階段是模擬測試的初始階段，從題庫中隨機選擇3個項目供被試作答，答對計1分，答錯計0分，計算被試的得分與失分的比值的自然對數(shù)值，將其作為被試的初始能力估計值；隨后進入第二階段，即被試能力的精確估計階段，使用貝葉斯期望后驗估計方法精準估計被試的能力值。

2.4 評價指標

本文用測驗效率Eff、測驗偏差Bias、測驗標準誤差MSE、試題曝光均勻度Chi及測驗重疊率R、最小測驗試題長度MinL、平均測驗試題長度AvgL等評價指標來評價選題策略的優(yōu)劣，除測驗效率值為越大越好以外，其余評價指標均為越小越好。

3 實驗結(jié)果及其分析

表1至表4的數(shù)據(jù)是在不定長CAT測驗中選用三參數(shù)Logistic模型的實驗結(jié)果，通過四張表數(shù)據(jù)可以看出，新的選題策略在保證測驗效率和測量精度的情況下，有效降低了測驗的曝光均勻度，保證了題庫的安全性。在測驗效率上，新方法除略低于李方法外，比其他方法都表現(xiàn)得更好；新方法在損失少許測量精度的同時，極大地降低了測驗項目的曝光率和測驗的重疊率；新方法在測驗長度上總體與李方法相當，優(yōu)于其他的選題策略。總體而言，新的選題策略提高了題庫的安全性的同時，測量的精度依然能夠保持在一個較好的水平。

4 小結(jié)與展望

本文對CAT的重要組成部分選題策略進行了研究。在選題策略的研究中，沿用程小揚提出的曝光因子和李萍的自動控制區(qū)分度函數(shù)的基礎(chǔ)上，在使用0-1評分三參數(shù)logistic模型的不定長CAT中，提出了新的選題策略。Monte Carlo模擬實驗表明新的選題策略在保證測量精度的同時，大幅度地降低了項目的曝光均勻度，有效提升了題庫的安全性。在自適應(yīng)測驗選題算法改進上，新的選題策略較以往的選題方法在曝光均勻度上表現(xiàn)更好，但在測驗效率和測量精度等指標的表現(xiàn)上沒有與李方法拉開差距。因此，在今后的研究中可以進一步提高該選題策略的測驗精度，降低其測驗的長度；其次，新的選題策略僅在不定長CAT上進行了應(yīng)用，其在定長CAT上的表現(xiàn)還需進一步的研究。

參考文獻：

[1] LORD F M. Some test theory for tailored testing[R]// HOLZMAN W H.Computer assisted instruction， testing， and guidance.New York： Harper & Row， 1970：139-183.

[2] CHANG H H，YING Z L. A-stratified multistage computerized adaptive testing， Applied Psychological Measurement， 1999， 23（3）： 211-222.

[3] 程小揚，丁樹良，嚴深海，等.引入曝光因子的計算機化自適應(yīng)測驗選題策略[J].心理學報，2011，43（2）：203-212.

[4] 李萍，甘登文，丁樹良.自動控制區(qū)分度作用的選題策略研究[J].江西師范大學學報（自然科學版），2013，37（1）：101-105.

[5] 朱隆尹，丁樹良，程小揚，等.不定長CAT引入曝光因子的平均調(diào)整信息選題策略研究[J].心理學探新，2015，35（1）：68-71.

[6] 賀翔，羅芬，甘登文，等.一種提升題庫安全性的選題策略[J].江西師范大學學報（自然科學版），2016，40（4）：363-368.

[7] 楊文清.CAT中提升題庫安全性的選題策略和a分層終止規(guī)則的研究[D].南昌：江西師范大學，2017.

[8] 王璞玨，劉紅云.讓自適應(yīng)測驗更知人善選——基于推薦系統(tǒng)的選題策略[J].心理學報，2019，51（9）：1057-1067.

[9] 李佳，丁樹良，況天昊.區(qū)分度與測驗進程相匹配的CAT選題策略[J].江西師范大學學報（自然科學版），2021，45（4）：384-389.

【通聯(lián)編輯：王力】

電腦知識與技術(shù)2023年31期

電腦知識與技術(shù)的其它文章: 新工科背景下UML分析與建模課程研究; 工程認證背景下數(shù)據(jù)庫原理線上線下混合式教學模式探索與實踐; 基于圖形化編程的計算思維培養(yǎng)模式探析; 熵權(quán)法和VIKOR算法在高職實訓教學效果綜合評價中的應(yīng)用研究; 新工科背景下Matlab對高等數(shù)學課堂教學輔助作用的探討; 基于SPOC的旅游規(guī)劃應(yīng)用軟件課程實踐教學探究

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于MFI的不定長CAT選題策略研究