摘 要 測驗安全的事后檢測主要依靠統(tǒng)計量方法, 而新興的機器學(xué)習(xí)方法憑借良好的檢測性能與統(tǒng)計量方法形成互補。為了推進測驗安全問題的解決, 綜述了監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)三大類機器學(xué)習(xí)方法及其衍生的集成學(xué)習(xí)、深度學(xué)習(xí)與遷移學(xué)習(xí)方法在測驗安全領(lǐng)域的應(yīng)用, 闡述了不同機器學(xué)習(xí)方法的特點, 提供了數(shù)據(jù)的獲取及處理、輸入特征的選擇等實用的方法建議。未來研究可以從機器學(xué)習(xí)與個人擬合、機器學(xué)習(xí)與多模態(tài)數(shù)據(jù)、基于生成對抗網(wǎng)絡(luò)的異常檢測, 以及增加研究結(jié)果的可解釋性幾方面開展。
關(guān)鍵詞 機器學(xué)習(xí), 心理測驗, 教育測驗, 測驗安全, 統(tǒng)計量
分類號 B841
1 引言
心理和教育測驗中的作弊、加速作答或其他異常作答行為會破壞測驗的可靠性以及測驗分數(shù)解釋的有效性(van der Linden & Guo, 2008; van Krimpen-Stoop & Meijer, 2001)。在學(xué)業(yè)成績測驗中, 會導(dǎo)致教師錯誤評估學(xué)生的學(xué)習(xí)水平, 影響教師教學(xué)(Cizek & Wollack, 2017); 在問卷調(diào)查中會導(dǎo)致施測者無法準確測量到目標維度, 影響問卷的信效度和對結(jié)果的解釋(Arias et al., 2020; Huang et al., 2015); 這些異常行為帶來的不良后果在競爭激烈的考試中更加嚴重, 威脅測驗的安全、聲譽以及施測者的篩選質(zhì)量(Sinharay, 2017)。
當前根據(jù)受試者過程數(shù)據(jù)進行事后異常檢測的方法主要有兩種, 一種是從監(jiān)控視頻、眼球跟蹤軟件及計算機日志文件中收集的生物特征數(shù)據(jù)(Alsabhan, 2023; Ullah et al., 2019); 另一種是常規(guī)測驗數(shù)據(jù), 如被試項目反應(yīng)、反應(yīng)時、作答總時間等(Man et al., 2019)。前者尚處于起步階段, 故本文重點綜述常規(guī)測驗數(shù)據(jù)框架下的研究。
目前研究者主要通過開發(fā)統(tǒng)計量方法來解決測驗安全問題, 其中流行度較高的是抄襲統(tǒng)計量
(answer copying statistics, ACS)和個人擬合統(tǒng)計量(person fit statistics, PFS); ACS多是以被懷疑抄襲者和被抄襲者匹配的反應(yīng)數(shù)目來構(gòu)建的, 主要是對作弊中的不同類型如抄襲、項目預(yù)知等進行針對性識別(韓丹 等, 2008; Man et al., 2019)。PFS是通過理論模型對個體的項目反應(yīng)模式進行假設(shè)再與實際反應(yīng)模式相對比來確定個體項目反應(yīng)模式的擬合程度, 致力于對被試的不同偏差得分模式進行全面的識別(黃美薇 等, 2020; 童昊 等, 2022; 王昭 等, 2007; 張龍飛 等, 2020; 鐘小緣 等, 2022; Karabatsos, 2003; Ranger et al., 2020)。胡佳琪等人(2020)和駱方等人(2020)對個體作弊和團體作弊檢測方法進行了總結(jié); 針對問卷調(diào)查中被試粗心作答的檢測方法可以參考鐘曉鈺等人(2021)、Arthur等人(2021)、Curran (2016)以及Ward和Meade (2023)。除主流的統(tǒng)計量方法外, 混合模型方法也受到了一定的關(guān)注(劉玥, 劉紅云, 2021)。
現(xiàn)如今, 普通課堂測驗、計算機化自適應(yīng)測驗、線上交互式測驗、開放性試題等多樣化的考試類型伴隨著不同的計分類型和評分方式不斷衍生。許多測驗已從傳統(tǒng)的紙筆測驗轉(zhuǎn)向計算機測驗, 測驗過程中實時生成了大量受試者的過程數(shù)據(jù), 這為測驗安全領(lǐng)域帶來了新的視角。統(tǒng)計量的研究難以支撐如此多樣化的測驗安全檢測, 同時, 使用統(tǒng)計量方法納入這些交互作用復(fù)雜的過程數(shù)據(jù)極具挑戰(zhàn)性(Man et al., 2019), 迫切需要一種新的方法對這些非結(jié)構(gòu)化過程數(shù)據(jù)進行分析。
隨著數(shù)智時代的到來, 機器學(xué)習(xí)(machine learning)方法越來越多地參與到心理與教育測量研究中(劉冬予 等, 2024), 并在測驗安全領(lǐng)域中廣泛應(yīng)用。機器學(xué)習(xí)算法專門用于學(xué)習(xí)數(shù)據(jù)規(guī)律并根據(jù)學(xué)習(xí)到的內(nèi)容做出預(yù)測和分類(Alpaydin, 2020)。雖然機器學(xué)習(xí)存在對樣本數(shù)據(jù)質(zhì)量要求高等問題, 但其相比統(tǒng)計量方法仍有一些優(yōu)勢: (1)統(tǒng)計量方法的選擇依賴于特定理論和假設(shè), 機器學(xué)習(xí)方法的選擇取決于它們檢測真實數(shù)據(jù)的方式(Pan et al., 2022); (2)與受試者相關(guān)的大部分變量都可以作為輸入特征訓(xùn)練模型, 可以充分利用過程數(shù)據(jù); (3)模型的訓(xùn)練往往基于真實數(shù)據(jù), 通過劃分訓(xùn)練集、測試集與驗證集來檢驗外部效度, 減輕傳統(tǒng)方法與實證數(shù)據(jù)擬合差的問題; (4)大多數(shù)機器學(xué)習(xí)方法都具有很高的計算效率, 因此可以對大量的評估數(shù)據(jù)進行實時建模和分析。
本文根據(jù)機器學(xué)習(xí)算法的學(xué)習(xí)方式將當前測驗安全領(lǐng)域的應(yīng)用研究分為監(jiān)督學(xué)習(xí)(supervised learning)、無監(jiān)督學(xué)習(xí)(unsupervised learning)、半監(jiān)督學(xué)習(xí)(semi-supervised learning)三大類方法進行述評, 強化學(xué)習(xí)(reinforcement learning)涉及較少, 因此未作介紹。每大類方法根據(jù)研究現(xiàn)狀下設(shè)集成學(xué)習(xí)(ensemble learning)、深度學(xué)習(xí)(deep learning)與遷移學(xué)習(xí)(transfer learning), 我們根據(jù)各個研究使用的基礎(chǔ)模型將其納入不同的類別進行述評, 有些研究結(jié)合了多種機器學(xué)習(xí)方法, 我們按其使用的核心方法進行分類。第一, 我們先介紹各類機器學(xué)習(xí)方法的原理, 再對該類方法在測驗安全領(lǐng)域的應(yīng)用進行述評; 第二, 探討了不同測驗類型和異常類型下機器學(xué)習(xí)方法的適用場
景, 并從已標記數(shù)據(jù)的獲取、初始數(shù)據(jù)的處理、
輸入特征的選擇等方面給出了相應(yīng)的建議, 為研究者和應(yīng)用者提供一定的參考和借鑒。最后對未來可研究的方向進行了展望。
2 監(jiān)督學(xué)習(xí)在測驗安全領(lǐng)域的應(yīng)用
監(jiān)督學(xué)習(xí)的目標是構(gòu)建可以用來預(yù)測和分類的模型。在訓(xùn)練過程中, 模型會在已標記數(shù)據(jù)中學(xué)習(xí)從輸入層(例如, 受試者的項目反應(yīng)和反應(yīng)時向量)到輸出層(例如, 作弊反應(yīng)、正常反應(yīng))的映射函數(shù), 訓(xùn)練好的模型可用于預(yù)測未標記數(shù)據(jù)的輸出(Alpaydin, 2020)。圖1為監(jiān)督學(xué)習(xí)示意圖, Xij為被試i在變量j的反應(yīng), 輸出層的“正?!迸c“異?!笔欠诸悩撕?, 監(jiān)督學(xué)習(xí)是目前測驗安全領(lǐng)域研究中最常用的方法, 適用于擁有數(shù)量和質(zhì)量尚可的已標記數(shù)據(jù)的情況。我們根據(jù)當前研究將監(jiān)督學(xué)習(xí)分為四部分進行介紹:(1)常規(guī)監(jiān)督學(xué)習(xí); (2)集成學(xué)習(xí); (3)深度學(xué)習(xí)中的監(jiān)督學(xué)習(xí); (4)遷移學(xué)習(xí)。
2.1 常規(guī)監(jiān)督學(xué)習(xí)
2.1.1 方法介紹
這部分主要介紹使用基本模型的研究, 監(jiān)督學(xué)習(xí)中用于分類的模型主要包括:樸素貝葉斯(naive Bayes)、決策樹(decision tree)、隨機森林(random forest)、神經(jīng)網(wǎng)絡(luò)(neural network)、支持向量機(support vector machine)、K近鄰(K-nearest neighbors)、極端梯度提升法(extreme gradient boosting)、自適應(yīng)提升法(adaptive boosting)、邏輯回歸(logistic regression)、判別分析(discriminant analysis)。由于集成學(xué)習(xí)中的袋裝法(bagging)和提升法(boosting)是同質(zhì)分類器的集成, 是一種較為基礎(chǔ)的模型, 因此我們將使用這些方法的研究歸入了常規(guī)監(jiān)督學(xué)習(xí)中進行介紹, 在集成學(xué)習(xí)板塊中我們主要介紹異質(zhì)分類器的集成。
2.1.2 應(yīng)用研究
Thomas (2016)、Zopluoglu (2019)以及Man等人(2019)使用監(jiān)督學(xué)習(xí)對考試中的項目預(yù)知考生或泄露項目進行檢測, 這些研究都建立在已標記數(shù)據(jù)基礎(chǔ)上。每個研究選擇的輸入特征不盡相同, 大多都使用了模型參數(shù)值、統(tǒng)計量值作為輸入特征, 檢測項目預(yù)知考生時主要關(guān)注考生的表現(xiàn)如項目反應(yīng)和反應(yīng)時, 而在檢測泄露項目時則需關(guān)注項目信息如項目難度、平均項目反應(yīng)時間等, 從而加強模型的性能。在項目預(yù)知的研究中, 我們可以通過預(yù)知項目的考生來尋找泄露的項目, 反之亦然, 后續(xù)的研究可以從當前具有較好分類效果的研究基礎(chǔ)上進行, 如使用現(xiàn)有研究中標定好的泄露題目來尋找項目預(yù)知的考生。
面對沒有已標記數(shù)據(jù)的情況, Zhu等人(2022)使用了“仿真模擬”的方法進行監(jiān)督學(xué)習(xí), 根據(jù)認知診斷模型(cognitive diagnostic model)模擬出正常和各種異常作答模式的考生作為訓(xùn)練數(shù)據(jù), 將被試的項目反應(yīng)和屬性掌握模式向量作為輸入特征, 將異常類型作為輸出特征來構(gòu)建模型。該方法在模擬實驗中取得了優(yōu)良的效果, 但也有一定局限性。首先, 對于異常作答的模擬只能代表“一部分”現(xiàn)實的情況, 各種研究對于異常作答模式在現(xiàn)實中的表現(xiàn)定義也不盡相同; 其次, 研究在模擬異常被試時對于異常作答模式的定義十分規(guī)律, 這種規(guī)律性數(shù)據(jù)就使得機器學(xué)習(xí)很容易識別作答規(guī)律性強的異常被試, 但是在現(xiàn)實中被試表現(xiàn)往往更加復(fù)雜。面對無標記數(shù)據(jù), Meng和Ma (2023)使用受測驗條件限制較小的反應(yīng)相似性指標(response similarity index, RSI)對數(shù)據(jù)中的作弊考生進行標記, 再提取被標記的作弊考生特征作為機器學(xué)習(xí)輸入特征來訓(xùn)練模型, 這樣模型可以對新數(shù)據(jù)中更多接近這個特征的考生進行標記, 研究充分利用了統(tǒng)計量的優(yōu)勢和機器學(xué)習(xí)方法的優(yōu)勢, 但是在選擇統(tǒng)計量進行標記時需要衡量統(tǒng)計量的檢驗力和適用條件。這兩個研究都為我們獲取標記數(shù)據(jù)提供了良好的思路。
Schroeders等人(2022)則通過實驗誘發(fā)了認真與粗心的作答行為獲取調(diào)查問卷中的標記數(shù)據(jù)來構(gòu)建監(jiān)督學(xué)習(xí)模型, 但是實證研究效果較差。這說明了通過實驗指導(dǎo)語誘發(fā)異常反應(yīng)來建立模型也許是不可取的, 因為很難判斷現(xiàn)實中的參與者是否遵守了這些指示, 另一方面被指示粗心回應(yīng)受訪者的行為方式可能與那些在外面表現(xiàn)出粗心回應(yīng)的受訪者的行為方式不同。調(diào)查問卷中的異常作答要比教育測驗中的更難辨認和鑒別, 因為調(diào)查問卷的項目反應(yīng)并不像教育測驗一樣隨著題目難度和受試者的能力變化, 數(shù)據(jù)的規(guī)律性極差, 因此難以獲取高質(zhì)量的異常標簽, 后續(xù)有學(xué)者在使用無監(jiān)督學(xué)習(xí)方法得出了較好的結(jié)果, 詳見3.2.2節(jié)。
Cavalcanti等人(2012)對開放性文本試題(主觀題)抄襲進行了研究, 在建立監(jiān)督模型前, 要對文本進行刪減、規(guī)范, 并將規(guī)范好的文本進行數(shù)值型轉(zhuǎn)換作為輸入特征。當前將機器學(xué)習(xí)文本挖掘技術(shù)應(yīng)用于測驗作弊的研究極少, 相關(guān)領(lǐng)域大多研究都集中在學(xué)術(shù)剽竊。而測驗中的開放性文本試題有字數(shù)少、回答零散等特點, 且主要是為了檢測同一考場中的考生是否存在互相抄襲行為, 因此與學(xué)術(shù)剽竊檢測研究的重點有所差別, 學(xué)術(shù)剽竊的研究更集中于對于大型段落的再譯、近義式抄襲, 目的是通過機器學(xué)習(xí)識別語義特征等。建立文本抄襲檢測模型之前的準備工作十分繁雜, 在中文試題中我們需要進行繁瑣的操作對文本進行刪減和規(guī)范才能達到數(shù)值型轉(zhuǎn)換的目的, 而且Cavalcanti等人(2012)使用了特定領(lǐng)域的試題, 專業(yè)術(shù)語的增加降低了數(shù)值轉(zhuǎn)換的難度, 但是這對于領(lǐng)域?qū)挿旱目荚噮s是非常致命的, 各式各樣的詞匯增多, 使得文本的數(shù)值轉(zhuǎn)換工作很難進行, 這也許是該領(lǐng)域機器學(xué)習(xí)研究較少的原因之一。類似的研究中, 徐靜等人(2024)使用深度學(xué)習(xí)中的卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks, CNN)對開放式情境判斷測驗進行了自動化評分, 分別從文檔層面和句子層面對作答文本進行特征提取和分類, 深度學(xué)習(xí)更適合處理自然語言, 有可能成為識別文本抄襲的新途徑。
2.2 集成學(xué)習(xí)
2.2.1 方法介紹
集成學(xué)習(xí)旨在結(jié)合多個基礎(chǔ)模型的結(jié)果來開發(fā)元模型, 以實現(xiàn)更好的預(yù)測效果(Dong et al., 2020)。集成學(xué)習(xí)主要包括袋裝法、提升法和堆疊法(stacking)。袋裝法和提升法都是基于同質(zhì)分類器(只能使用相同的子模型開發(fā)元模型), 而堆疊法是基于異質(zhì)分類器(可以使用不同的子模型開發(fā)元模型)。袋裝算法是一種并行集成方法, 基于每個子樣本開發(fā)決策樹, 聚合多個決策樹的結(jié)果以找到最佳預(yù)測結(jié)果。提升法是一種按照確定性策略將弱學(xué)習(xí)算法順序提升為強學(xué)習(xí)算法的技術(shù)(Zhou & Jiao, 2023)。
堆疊與其他兩種集成學(xué)習(xí)算法的不同之處在于它整合來自不同基礎(chǔ)模型的模型預(yù)測結(jié)果進行優(yōu)化, 以提高整體預(yù)測效果(Chan & Stolfo, 1997)。該算法包括兩層結(jié)構(gòu), 第一層中不同機器學(xué)習(xí)算法的單個基礎(chǔ)模型分別完成訓(xùn)練后, 第二層的元模型從第一層模型的輸出中學(xué)習(xí)。圖2為堆疊集成學(xué)習(xí)示意圖。
2.2.2 應(yīng)用研究
Zhou和Jiao (2022, 2023)、Jiao等人(2023)的研究系統(tǒng)的比較了集成學(xué)習(xí)模型及基礎(chǔ)模型在不同的輸入特征和重采樣方式下對于項目預(yù)知考生的檢測性能。研究從兩方面進行了數(shù)據(jù)增強, 從特征空間來看, 除了常用的項目反應(yīng)和反應(yīng)時外, 研究還在輸入特征中加入了異常值檢測算法得出的異常分數(shù)、統(tǒng)計量指標計算出的統(tǒng)計量值以及其他的測驗過程信息并進行了特征篩選, 從樣本空間來看, 通過SMOTE (synthetic minority over- sampling technique; Chawla et al., 2002)達到訓(xùn)練樣本類平衡(例如, 訓(xùn)練數(shù)據(jù)中有100個被試數(shù)據(jù), 僅有5人異常, 使用這樣的樣本訓(xùn)練模型會導(dǎo)致預(yù)測結(jié)果出現(xiàn)偏差)。結(jié)果顯示, 堆疊、類平衡和包括增強數(shù)據(jù)的模型效果更好。Pan和Wollack (2023)、Pan等人(2022)利用集成學(xué)習(xí)的思路, 使用不同的數(shù)據(jù)子集訓(xùn)練模型最后合并訓(xùn)練結(jié)果。Zhen和Zhu (2024)則將表現(xiàn)最優(yōu)異的基礎(chǔ)模型進行集成來達到最佳效果。
項目預(yù)知與題目泄露研究中模型的預(yù)測效果隨著研究的復(fù)雜程度不斷增加, 從結(jié)構(gòu)較為簡單的單一監(jiān)督模型, 逐漸衍化成多個基礎(chǔ)模型做比較, 再到使用集成學(xué)習(xí)以及開發(fā)堆疊、混合集成學(xué)習(xí)元模型; 模型輸入特征從單一的受試者項目反應(yīng)和反應(yīng)時到各種數(shù)據(jù)增強特征的對比??梢园l(fā)現(xiàn), 集成算法、類平衡、數(shù)據(jù)增強以及特征篩選都給機器學(xué)習(xí)模型性能帶來了不小的提升, 如果說2.1節(jié)中的基礎(chǔ)模型是“普通電腦”, 那么有了這些方法加持的研究可謂是“高性能工作站”。在進行研究時可以充分利用這些方法提升模型的性能, 但是需要注意, 過于復(fù)雜的方法和過多的輸入特征需要極高的算力支持。
2.3 深度學(xué)習(xí)中的監(jiān)督學(xué)習(xí)
2.3.1 方法介紹
深度學(xué)習(xí)是機器學(xué)習(xí)的一個分支, 通過訓(xùn)練多層次的神經(jīng)網(wǎng)絡(luò)來自動學(xué)習(xí)輸入數(shù)據(jù)的特征, 并根據(jù)這些特征進行預(yù)測或分類。深度學(xué)習(xí)領(lǐng)域涵蓋了監(jiān)督學(xué)習(xí)、無監(jiān)督學(xué)習(xí)和半監(jiān)督學(xué)習(xí)算法:其中, 深度神經(jīng)網(wǎng)絡(luò)(deep neural networks, DNN)、卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural networks, RNN)屬于監(jiān)督學(xué)習(xí)的代表性算法, 深度神經(jīng)網(wǎng)絡(luò)擅長處理結(jié)構(gòu)化數(shù)據(jù), 卷積神經(jīng)網(wǎng)絡(luò)專門處理圖像數(shù)據(jù), 而循環(huán)神經(jīng)網(wǎng)絡(luò)擅長處理序列數(shù)據(jù)(Goodfellow et al., 2016), 深度學(xué)習(xí)在測驗安全領(lǐng)域中已有諸多應(yīng)用。
2.3.2 應(yīng)用研究
Zhen和Zhu (2024)比較了12種基礎(chǔ)模型對于項目預(yù)知考生檢測的性能, 他們發(fā)現(xiàn)深度神經(jīng)網(wǎng)絡(luò)模型TabNet效果優(yōu)于其他基礎(chǔ)模型, 而且該模型無需超參數(shù)調(diào)整, 該模型與基礎(chǔ)模型中表現(xiàn)同樣良好的AdaBoost模型集成后的TabNet- AdaBoost模型還超越了其他研究中同一批數(shù)據(jù)的集成學(xué)習(xí)模型性能(Zhou & Jiao, 2023)。在沒有堆疊集成學(xué)習(xí)和增強數(shù)據(jù)的情況下, 深度神經(jīng)網(wǎng)絡(luò)也許是處理監(jiān)督分類任務(wù)的良策。
深度學(xué)習(xí)中的長短期記憶網(wǎng)絡(luò)(long short-term memory, LSTM)是循環(huán)神經(jīng)網(wǎng)絡(luò)的一種變體, 非常適合處理帶有時間標簽的序列數(shù)據(jù), 它可以學(xué)習(xí)數(shù)據(jù)的內(nèi)在模式和結(jié)構(gòu), 對未來值進行預(yù)測。研究者往往通過比較未來值與實際值的差異來判斷受試者的異常作答行為, 比較典型的研究有:Tiong和Lee (2021)使用LSTM分析考生的得分和反應(yīng)時, 觀察其是否出現(xiàn)超高正確率的快速作答, 一旦出現(xiàn)異常則會給考生重新分配題目進行作答; Kamalov等人(2021)使用LSTM根據(jù)考生平常的測驗和期中考試的成績來預(yù)測期末考試的成績, 然后應(yīng)用異常值檢測算法來識別實際與預(yù)測成績之間的異常, 時間序列數(shù)據(jù)的預(yù)測示意見表1; Tang等人(2023)則使用點擊流(應(yīng)用程序中用戶操作的精確日志)建立預(yù)測模型, 從而根據(jù)預(yù)測結(jié)果尋找“非典型受試者”; Alsabhan (2023)則做了更綜合的研究, 結(jié)合了考生操作日志、不同時期的考試成績等序列數(shù)據(jù)識別作弊受試者。從研究中來看, 時間序列數(shù)據(jù)既可以是一場考試中考生做每道題的數(shù)據(jù), 也可以是間隔一段時間后的整體考試成績, 還可以是計算機上的操作日志數(shù)據(jù), 我們可以記錄考生的時間序列行為和成績數(shù)據(jù)從而對其未來值進行預(yù)測, 再從考生下一步的實際行動判斷其是否符合未來值, 一旦考生嚴重偏離典型模式, 就可能是出現(xiàn)了異常作答反應(yīng)。
2.4 遷移學(xué)習(xí)
2.4.1 方法介紹
遷移學(xué)習(xí)可以應(yīng)用于絕大部分數(shù)據(jù)樣本甚至所有樣本都無標記的情況, 這時可以尋找一些相似的有標記數(shù)據(jù)進行遷移學(xué)習(xí)。遷移學(xué)習(xí)可以將知識從一個領(lǐng)域遷移到另一個領(lǐng)域中, 其基本思想是利用已學(xué)習(xí)的知識(通過在源領(lǐng)域進行學(xué)習(xí)得到的模型)來幫助改善在目標領(lǐng)域上的學(xué)習(xí)任務(wù), 即使它們的輸入空間或輸出空間有所不同(項目長度、內(nèi)容), 圖3為遷移學(xué)習(xí)示意圖, 在測驗安全領(lǐng)域中模型效果成功遷移的關(guān)鍵在于訓(xùn)練數(shù)據(jù)集和目標數(shù)據(jù)集中的作弊流行率和數(shù)據(jù)分布的相似性, 遷移學(xué)習(xí)的詳細內(nèi)容可以參考Weiss等人(2016)。
2.4.2 應(yīng)用研究
Ranger等人(2023)將整套題目拆分為測驗長度相近的三對數(shù)據(jù)集作為訓(xùn)練集與目標集, 以此比較遷移學(xué)習(xí)的轉(zhuǎn)移效果。首先使用多元雙樣本檢驗對所有數(shù)據(jù)集對(訓(xùn)練數(shù)據(jù)集與目標數(shù)據(jù)集)的指標聯(lián)合分布相似性進行檢驗, 然后使用訓(xùn)練數(shù)據(jù)對模型進行訓(xùn)練??梢詫⒂?xùn)練好的模型直接應(yīng)用到目標數(shù)據(jù)集, 也可以通過半監(jiān)督學(xué)習(xí)的自訓(xùn)練算法(self-training)使訓(xùn)練好的模型不斷適應(yīng)目標數(shù)據(jù)集, 將目標數(shù)據(jù)集中異常信號最強烈的被試不斷納入模型進行訓(xùn)練, 重復(fù)步驟直至模型將目標數(shù)據(jù)集中的數(shù)據(jù)完全標記。
該研究為相似數(shù)據(jù)集之間的模型訓(xùn)練效果遷移提供了良好的借鑒, 雖然研究中的訓(xùn)練集與目標集的統(tǒng)計量分布并不完全相同, 但是轉(zhuǎn)移后的效果仍然比使用無監(jiān)督方法好得多。在擁有與目標數(shù)據(jù)集相似性較高的標記數(shù)據(jù)集時, 可以嘗試使用遷移學(xué)習(xí), 但是要盡量確保作弊的流行率處在同一水平, 項目的長度和內(nèi)容也要盡量一致, 這樣我們可以直接遷移學(xué)習(xí)好的模型參數(shù)到目標數(shù)據(jù)集, 減少特征選擇和特征變換的工作量。如果數(shù)據(jù)集之間相差較大可能要對源模型進行一定的調(diào)整來適應(yīng)對目標任務(wù)的需求, 這時遷移學(xué)習(xí)的工作量就會比較大, 模型的遷移效果難以得到保證(Weiss et al., 2016)。對于測驗安全領(lǐng)域來說, 遷移學(xué)習(xí)的要求比較苛刻, 使用時要注意數(shù)據(jù)集之間的相似性。
3 無監(jiān)督學(xué)習(xí)在測驗安全領(lǐng)域的應(yīng)用
無監(jiān)督機器學(xué)習(xí)評估不同變量之間的相似性, 以尋找嵌入數(shù)據(jù)中的潛在結(jié)構(gòu)或集群。通過評估輸入變量(例如, 過程數(shù)據(jù))以揭示數(shù)據(jù)中的潛在模式, 將相似的考生歸入同質(zhì)群組, 或?qū)⒖臻g劃分為高密度(常規(guī)數(shù)據(jù))和低密度(異常值)區(qū)域(Alpaydin, 2020)。盡管無監(jiān)督學(xué)習(xí)不會明確搜索出作弊者, 但它會將作弊者構(gòu)成單獨的集群。圖4為無監(jiān)督學(xué)習(xí)示意圖, 圖左為去掉輸出層的圖1。根據(jù)當前研究, 在無監(jiān)督學(xué)習(xí)中我們主要分為兩類進行介紹:(1)常規(guī)無監(jiān)督學(xué)習(xí); (2)深度無監(jiān)督學(xué)習(xí)。
3.1 常規(guī)無監(jiān)督學(xué)習(xí)
3.1.1 方法介紹
當前研究主要使用無監(jiān)督學(xué)習(xí)中的聚類(clustering)和異常值檢測(anomaly detection)。聚類算法旨在將數(shù)據(jù)點分組成具有相似特征的簇, 常見的聚類算法包括K均值聚類、層次聚類、密度聚類等; 異常值檢測算法用于識別數(shù)據(jù)中與大多數(shù)數(shù)據(jù)顯著不同(模式或分布)的觀測值, 這些觀測值被稱為異常或離群點, 可以計算一個異常值分數(shù)并設(shè)定一個閾值來判斷哪些數(shù)據(jù)點為異常值, 常見的異常檢測算法包括孤立森林(isolation forest)、馬氏距離(mahalanobis distance)等, 詳細的異常值檢測方法可參考Hodge和Austin (2004)、Gorgun和Bulut (2022)以及Zimek等人(2012)。
3.1.2 應(yīng)用研究
Kim等人(2016)使用已標記數(shù)據(jù)集中的項目預(yù)知考生來進行購物籃分析(無監(jiān)督學(xué)習(xí)中的關(guān)聯(lián)規(guī)則挖掘方法, 旨在發(fā)現(xiàn)特征變量之間的關(guān)系), 可以有效的分析作弊考生的共同背景特征, 這樣有利于分析這些特征與被標記的被試密切相關(guān)的原因; Liao等人(2021)使用K均值算法識別不同作答模式的考生并將其聚類, 再根據(jù)過程數(shù)據(jù)進行具體的分類; Gorgun和Bulut (2022)使用異常值檢測方法檢測了智能交互式的個性化學(xué)習(xí)系統(tǒng)中的異常受試者; Man等人(2019)使用聚類方法檢測項目預(yù)知考生; Man等人(2019)與Pan和Wollack (2021) (以下稱PW21)都使用了聚類方法檢測了同一個數(shù)據(jù)集(Cizek & Wollack, 2017), 前者將考生的各種過程信息直接作為輸入特征進行聚類, 而后者則先根據(jù)作答正誤和反應(yīng)時將反應(yīng)極快且回答正確的數(shù)據(jù)點標記為異常(異常矩陣見示意圖5), 再根據(jù)考生作答的相似性將項目預(yù)知考生聚類, 再從聚類后的考生組作答的異常模式中識別泄露項目。
注:該圖僅作思路的示例。異常矩陣中的0(1)代表正常(異常), 快慢是根據(jù)該考生在所有題目的平均作答時長和所有考生在此題目上的平均作答時長來定義的, 如果考生E2在I1題目的作答速度遠超平均水平且答對(具體定義見PW21), 則會被標記為1 (異常), 生成異常矩陣后根據(jù)反應(yīng)的相似性, 考生E2和E3, 題目I1和I2 (圖中加粗)則會被聚為同一類。
Pan和Wollack (2023) (以下稱PW23)又在此研究基礎(chǔ)上進行了改進, 同時對項目預(yù)知考生和泄露項目進行聚類。研究使用集成學(xué)習(xí)思路, 對不同的數(shù)據(jù)子集重復(fù)聚類和標記的過程后將標記結(jié)果合并, 最后使用自編碼器(autoencoder)提供一個信度值, 從而計算考生實際作答情況與預(yù)期重構(gòu)的情況之間的差距。Pan等人(2022)將項目預(yù)知考生與題目泄露的檢測拓展到了計算機化自適應(yīng)測驗當中, 結(jié)合了上述研究的特點, 見4.2節(jié)。
在測驗安全領(lǐng)域的研究中不論是監(jiān)督還是無監(jiān)督學(xué)習(xí)使用的輸入特征都是比較相似的。從一系列研究中可以發(fā)現(xiàn), 無監(jiān)督學(xué)習(xí)在相當程度上起到輔助和初步識別的作用??梢允褂镁垲惙椒▽忌悇e進行劃分, 也可以嘗試使用異常值檢測方法找到異常被試, 兩種方法都可以作為對異常受試者的初步識別, 而后再根據(jù)過程數(shù)據(jù)手動分類; 也可以先根據(jù)異常被試的明顯異常特征手動分類再使用無監(jiān)督學(xué)習(xí)進行進一步分類。無監(jiān)督學(xué)習(xí)在測驗安全領(lǐng)域的應(yīng)用非常廣泛。
3.2 深度學(xué)習(xí)中的無監(jiān)督學(xué)習(xí)
3.2.1 方法介紹
自編碼器是當前研究中使用較多的深度無監(jiān)督學(xué)習(xí)方法, 作為一種異常檢測方法, 自編碼器旨在濾除數(shù)據(jù)中的噪聲。自編碼器往往被用來學(xué)習(xí)數(shù)據(jù)中的模式, 例如正常被試的作答反應(yīng)模式, 它將觀察到的作答反應(yīng)壓縮為潛在的低維表示, 并通過學(xué)習(xí)到的模式對原始數(shù)據(jù)進行重建, 訓(xùn)練好的自編碼器同樣可以對新數(shù)據(jù)進行重建(Goodfellow et al., 2016)。重建良好的作答反應(yīng)表明自編碼器已成功學(xué)習(xí)了這些反應(yīng)的內(nèi)部結(jié)構(gòu)。相反, 無法很好重建則表明此類作答反應(yīng)本質(zhì)上與自編碼器學(xué)習(xí)的底層結(jié)構(gòu)不同。因此自編碼器非常適合于檢測教育測驗或者是問卷調(diào)查中的異常反應(yīng), 因為異常反應(yīng)的內(nèi)部結(jié)構(gòu)往往都比較混亂。
3.2.2 應(yīng)用研究
Welz和Alfons (2023)提出了一種基于對異??赡鼙憩F(xiàn)出來的三個維度(不一致性、不變性、快速反應(yīng))的新方法來識別每個參與者開始粗心應(yīng)答的節(jié)點, 將三個維度的證據(jù)整合在一起, 從而為每個項目構(gòu)建出一個基于變化點的檢測分數(shù), 用以衡量某個受訪者是否已開始對該項目做出異常應(yīng)答并將每個應(yīng)答者的應(yīng)答劃分為準確應(yīng)答段和異常應(yīng)答段[與變點分析(張龍飛 等, 2020)有相似之處]。該研究使用自編碼器對觀察到的反應(yīng)進行重建來測量內(nèi)部一致性維度, 如果被試粗心作答, 則算法就會出現(xiàn)較差的學(xué)習(xí)情況。通過計算每個被試的重建誤差來比較重建與實際的差異, 較大的重建誤差代表了被試出現(xiàn)異常作答; 使用回答變異性來測量第二個維度, 一旦受訪者開始通過直線或模式作答行為時, 就會出現(xiàn)變化點; 第三個維度反應(yīng)時間測量的是受訪者花在調(diào)查表每一頁上的時間或花在每個項目上的時間。在實證研究中該方法取得了理想的效果, 這也一定程度上證明了使用自編碼器檢測問卷粗心作答這種結(jié)構(gòu)較為混亂的數(shù)據(jù)是有很大潛力的。Pan等人(2022)以及PW23的研究中都使用了自編碼器來重建了實際作答與預(yù)期作答的差距, 從而提供方法的置信度。
4 半監(jiān)督學(xué)習(xí)在測驗安全領(lǐng)域的應(yīng)用
4.1 方法介紹
當數(shù)據(jù)集中只有一小部分標記樣本但有大量未標記樣本時, 半監(jiān)督學(xué)習(xí)是一種很有效的方法。半監(jiān)督學(xué)習(xí)通過將未標記數(shù)據(jù)納入模型訓(xùn)練來更好地捕獲數(shù)據(jù)分布的特征, 從而提高模型的性能(Zhu & Goldberg, 2009), 見圖6。其中, 自訓(xùn)練算法是半監(jiān)督學(xué)習(xí)中最常見的方法, 也是當前研究中使用最多的方法, 它使用初始標記數(shù)據(jù)訓(xùn)練模型, 然后用模型預(yù)測未標記數(shù)據(jù), 并將高置信度的預(yù)測結(jié)果作為新的標記數(shù)據(jù)添加到訓(xùn)練集中, 這個過程重復(fù)進行, 直到完全標記所有數(shù)據(jù)或達到停止條件。
4.2 應(yīng)用研究
相當一部分研究為機器學(xué)習(xí)方法在項目預(yù)知檢測上的前景提供了有力的證據(jù), 但現(xiàn)有的方法多為紙筆測試而設(shè)計, PW21與PW23使用無監(jiān)督聚類方法檢測項目預(yù)知或題目泄露, Pan等人(2022)則成功將機器學(xué)習(xí)的方法應(yīng)用到更容易受到項目預(yù)知影響的計算機化自適應(yīng)測驗(Computerized Adaptive Testing)中。計算機化自適應(yīng)測驗是一種量體裁衣的測驗形式, 對于每一個受試者所出的題目內(nèi)容和數(shù)量都不同, 而且題庫推薦系統(tǒng)是根據(jù)當前題目的難易以及受試者能否正確作答來出下一題目, 如果被試在較難的題目擁有項目預(yù)知能力, 那么系統(tǒng)就會推薦更難的題目, 因此得出的測驗結(jié)論將會毫無價值。
同PW23一致, Pan等人(2022)先根據(jù)作答正誤和反應(yīng)時將一組項目反應(yīng)標記為正常和異常, 標記好數(shù)據(jù)后通過自訓(xùn)練算法迭代訓(xùn)練支持向量機分類器:輸入特征使用考生水平的中心作答對數(shù)響應(yīng)時間與項目水平的中心作答對數(shù)響應(yīng)時間, 用訓(xùn)練好的分類器對無標簽的被試數(shù)據(jù)進行分類, 不斷從分類好的被試中挑選極端的異常被試樣本添加到訓(xùn)練數(shù)據(jù)集中繼續(xù)迭代訓(xùn)練分類器, 直到剩余未標記數(shù)據(jù)之間的反應(yīng)時間方差小于沒有預(yù)知能力被試數(shù)據(jù)的預(yù)期反應(yīng)時間方差時, 才停止分類過程。為了防止不同數(shù)據(jù)集上的檢測性能差異, 采用集成學(xué)習(xí)的思路, 對多個數(shù)據(jù)子集分別標記后合并為最終的檢測結(jié)果, 最后通過自編碼器算法提供了一個信度值(同PW23)。在Ranger等人(2023)的遷移學(xué)習(xí)研究中也用到了自訓(xùn)練算法, 研究者將其應(yīng)用到模型效果的遷移中, 通過自訓(xùn)練算法不斷適應(yīng)目標數(shù)據(jù)集。
5 三種方法在測驗安全領(lǐng)域應(yīng)用的綜合分析與使用建議
本節(jié)主要根據(jù)當前測驗安全領(lǐng)域的機器學(xué)習(xí)研究對三大類方法進行了總結(jié), 并給出了一些使用建議:不同測驗類型和異常類型下方法的選用、初步的數(shù)據(jù)處理、輸入特征的選擇以及如何獲取已標記數(shù)據(jù), 供測驗安全領(lǐng)域研究者進行參考。由于篇幅限制, 在綜述每種方法的應(yīng)用時并未在文中詳盡介紹研究具體使用的機器學(xué)習(xí)方法, 在表2中我們對其進行了總結(jié)。圖7為方法選用流程, 以便對照第5節(jié)具體內(nèi)容進行參考。
5.1 三種方法的綜合分析
機器學(xué)習(xí)方法整體上最大的局限性是受數(shù)據(jù)的數(shù)量和質(zhì)量影響, 數(shù)據(jù)是模型的營養(yǎng), 如果數(shù)
據(jù)質(zhì)量低下或數(shù)量較少, 任何方法的效果都不會太好。監(jiān)督學(xué)習(xí)方法作為本領(lǐng)域中最常用的一種方法, 可以使用已知的異常和正常樣本進行訓(xùn)練, 從而建立一個分類模型來識別新數(shù)據(jù)中的異常行為。監(jiān)督學(xué)習(xí)最大的優(yōu)勢在于一旦有質(zhì)量和數(shù)量尚可的標記數(shù)據(jù)就可以實現(xiàn)很好的預(yù)測效果, 但這一切都要建立在有充足標記數(shù)據(jù)的情況下, 而測驗安全領(lǐng)域由于道德、法律更因為心理過程的潛在性, 很難得到高質(zhì)量的異常標記數(shù)據(jù)。監(jiān)督學(xué)習(xí)的優(yōu)勢還在于除了基礎(chǔ)模型外還可以使用集成學(xué)習(xí)加強模型性能, 但是集成學(xué)習(xí)需要繁復(fù)的調(diào)試超參數(shù), 需要較好的算力才能支持大規(guī)模高維數(shù)據(jù)。使用深度學(xué)習(xí)中的長短期記憶網(wǎng)絡(luò)進行時間序列數(shù)據(jù)的預(yù)測則需要數(shù)據(jù)中的每個數(shù)據(jù)點都帶有時間標簽。
無監(jiān)督學(xué)習(xí)方法可以在沒有已標記異常樣本的情況下, 學(xué)習(xí)數(shù)據(jù)中的模式和結(jié)構(gòu), 并識別出偏離典型的異常作答反應(yīng)模式。無監(jiān)督學(xué)習(xí)的局限性在于無法明確量化結(jié)果, 但是對我們初步分類受試者以及了解被試的潛在作答模式或背景特征起到很大作用。
半監(jiān)督學(xué)習(xí)中的自訓(xùn)練算法可以根據(jù)部分已標記數(shù)據(jù)對剩余無標記數(shù)據(jù)進行預(yù)測, 而這種情況在測驗安全領(lǐng)域十分常見, 因此值得引起重視。在模型學(xué)習(xí)過程中, 用于訓(xùn)練模型的這一部分已標記數(shù)據(jù)的質(zhì)量是至關(guān)重要的, 因為它影響著模型的學(xué)習(xí)效果, 影響著模型對于剩余大部分無標記數(shù)據(jù)的識別, 因此選擇已標記數(shù)據(jù)一定要非常謹慎。
總之, 各種機器學(xué)習(xí)方法各有優(yōu)劣, 使用需視情況而定, 可以將不同的機器學(xué)習(xí)方法相結(jié)合以達到更好的檢測效果。
5.2 三種方法在不同場景的選用
當前的研究中的異常類型總共可以分為以下兩種:(1)教育測驗中的異常反應(yīng), 如作弊、隨機作答、睡眠效應(yīng)等; (2)調(diào)查問卷測驗中的粗心作答(受試者由于動機低下而隨機作答、直線作答或規(guī)律作答等)。在基于計算機的測驗中我們多數(shù)時候能獲得的數(shù)據(jù)都包含最基礎(chǔ)的項目反應(yīng)、反應(yīng)時, 部分測驗還會提供諸如考生的修改答案次數(shù)、情緒、點擊流等更豐富的過程數(shù)據(jù), 我們往往是根據(jù)數(shù)據(jù)的情況選用不同方法(有無已標記數(shù)據(jù)? 已標記數(shù)據(jù)的質(zhì)量?)。由于機器學(xué)習(xí)是學(xué)習(xí)數(shù)據(jù)規(guī)律的方法, 因此這三種方法在多數(shù)的測驗類型和異常類型下都是適用的, 只是我們選擇的輸入特征會有一些不同的側(cè)重點。例如, 如果我們想檢測項目預(yù)知, 我們可以重點關(guān)注考生快速答對的項目反應(yīng)時并作為輸入特征; 如果我們想檢測被試在測驗尾部的疲勞作答, 我們可以側(cè)重于將測驗尾部的項目反應(yīng)等變量作為輸入特征。
有一部分異常類型有很強的隨機性, 教育測驗中的受試者在作答動機不強時可能會對任意題目進行隨機作答, 這導(dǎo)致項目反應(yīng)和反應(yīng)時等過程數(shù)據(jù)非常混亂; 另一種是調(diào)查問卷中的粗心作答, 調(diào)查問卷與教育測驗的過程數(shù)據(jù)有著顯著的不同, 在教育測驗中考生在項目上的項目反應(yīng)和反應(yīng)時遵循著隨著題目難度上升則分數(shù)降低、反應(yīng)時增加的基本規(guī)律, 而在調(diào)查問卷中除了明顯異常的連續(xù)一致作答和規(guī)律作答, 我們很難去判斷其是否認真作答。因此面對這些隨機性強、過程數(shù)據(jù)無明顯規(guī)律的異常類型, 常用的監(jiān)督學(xué)習(xí)對其效果并不明顯。目前比較有效的方法是無監(jiān)督學(xué)習(xí)中的異常值檢測方法, 尤其是深度無監(jiān)督學(xué)習(xí)中的自編碼器在當前研究取得了較好的效果(Welz & Alfons, 2023)。在異常檢測中, 自編碼器通常被用來學(xué)習(xí)正常數(shù)據(jù)的表示, 訓(xùn)練完成后自編碼器可以用來重建新的輸入數(shù)據(jù)。如果重建誤差(即重建的數(shù)據(jù)與原始數(shù)據(jù)之間的差異)超過了某個閾值, 就可以將該輸入數(shù)據(jù)標記為異常, 而隨機性強的異常反應(yīng)往往結(jié)構(gòu)十分混亂、重建誤差較大, 因此可以較好的識別出來。
5.3 如何獲取已標記數(shù)據(jù)
在面對異常受試者檢測時, 無論是使用半監(jiān)督或者監(jiān)督學(xué)習(xí), 我們往往會面臨真實數(shù)據(jù)中僅有小部分或者完全沒有已標記樣本的難題, 我們通過對現(xiàn)有研究的總結(jié)提出了三點方法來獲取已標記數(shù)據(jù), 以便研究者參考。
(1)仿真模擬法:模擬現(xiàn)實中最有可能發(fā)生的異常作答反應(yīng), 根據(jù)測驗的理論框架如項目反應(yīng)理論(item response theory, IRT)模型通過項目參數(shù)模擬一批異常被試進行標記, 再與正常被試混合訓(xùn)練模型, 這樣的方IlfQLwKqC8KWf9T38OOMgg==法雖然只能在一定程度上代表現(xiàn)實中的情況, 但是我們可以通過盡量的泛化數(shù)據(jù)(盡可能增加所模擬的異常被試得分的隨機性)等手段來貼近現(xiàn)實。如Zopluoglu (2019)在項目預(yù)知的研究展望中提出使用多層 IRT 模型擬合到所調(diào)查的數(shù)據(jù)集, 并模擬具有項目反應(yīng)和反應(yīng)時間的已標記數(shù)據(jù)(基于調(diào)查數(shù)據(jù)集中的相同項目參數(shù))嵌入數(shù)據(jù)集中來訓(xùn)練模型; Zhu等人(2022)也同樣提出通過認知診斷理論模擬被試在真實情景中最可能出現(xiàn)的異常情況(作弊、隨機作答、睡眠效應(yīng))來訓(xùn)練模型。
(2)手動標記法:使用檢驗力高、不依靠理論假設(shè)的非參數(shù)統(tǒng)計量來標記異常受試者或者根據(jù)受試者的明顯異常特征來手動標記異常受試者(比如將極快的正確作答標記為可疑), 再將其嵌入訓(xùn)練集進行訓(xùn)練, 這樣模型就可以根據(jù)明顯異常的被試特征泛化到與其類似特征的被試, 這個方法對于統(tǒng)計量或者異常特征的明顯程度要求比較高, 因此在使用時僅建議標記極端受試者。Meng和Ma (2023)使用鑒別考生作答相似性的RSI指標先手動對部分受試者進行標記, 再通過標記的數(shù)據(jù)進行訓(xùn)練來檢測作弊抄襲考生; Pan等人(2022)提出根據(jù)被試的作答速度與是否答對的信息標記一部分極端的異常被試, 使用自訓(xùn)練算法訓(xùn)練分類器從而識別更多的未標記數(shù)據(jù)。
(3) SMOTE方法:對少數(shù)類樣本進行插值, 生成一些與已有的少數(shù)類樣本相似但略有變化的合成樣本, 以增加少數(shù)類樣本的數(shù)量, 可以提高模型對少數(shù)類別的預(yù)測能力, 從而提高整體模型性能, 主要用來解決數(shù)據(jù)不平衡的問題。在項目預(yù)知的研究中最常被用到的計算機認證考試數(shù)據(jù)集中(Cizek & Wollack, 2017), 被標記為異常的受試者僅占2.81%, 在這種情況下對多數(shù)類進行低采樣或放棄非作弊者樣本都是不合適的, 失衡比例的樣本對模型的訓(xùn)練將產(chǎn)生消極的影響。例如, Zhou和Jiao (2023)通過使用SMOTE增加來合成作弊受試者數(shù)據(jù)。這意味著當我們僅擁有小部分已標記的異常樣本時, 我們可以通過合成少數(shù)群體過度采樣技術(shù)適當增加異常樣本, 該方法在數(shù)據(jù)本身噪點較大的情況下要謹慎使用。
這些方法都是通過在原始數(shù)據(jù)集上添加更多異常樣本來增強數(shù)據(jù), 但是都有一定的使用限制, 因此在使用時需謹慎。
5.4 初始數(shù)據(jù)處理
機器學(xué)習(xí)數(shù)據(jù)集的處理一般要經(jīng)歷三個階段:缺失值插補、數(shù)據(jù)編碼以及特征縮放, 在測驗數(shù)據(jù)中經(jīng)常會發(fā)現(xiàn)缺失值, 例如一張調(diào)查問卷中部分被試有相當數(shù)量的項目都未作答。在機器學(xué)習(xí)領(lǐng)域, 通常假設(shè)所有變量都包含合理的值, 但如果存在缺失值則會不同程度的影響模型效果。一種比較直接的方法是舍棄缺失值較多的某個樣本或某個特征, 這僅適用于數(shù)據(jù)量較大的情況, 在處理時應(yīng)該盡量通過一些插補的方法減小數(shù)據(jù)損失, 例如使用中位數(shù)、平均數(shù), 或者隨機森林插補法(Stekhoven & Bühlmann, 2012), 也可以酌情將其全部輸入為0來保留特征維度(Zhen & Zhu, 2024)。在數(shù)據(jù)編碼方面, 數(shù)值型數(shù)據(jù)對大部分算法都比較友好, 例如我們經(jīng)常用到的項目得分或者反應(yīng)時等都是數(shù)值型數(shù)據(jù), 多數(shù)時候需要將非數(shù)值型數(shù)據(jù)進行編碼, 在測驗安全領(lǐng)域中我們最常用到序數(shù)編碼和獨熱編碼, 前者適用于可以排序的順序數(shù)據(jù), 例如本科生、碩士生、博士生, 而后者尤其適用于由非順序類別(如作答選項中的ABCD、地名等)數(shù)據(jù)(Zopluoglu, 2019)。在特征縮放方面, 分數(shù)、被試作答次數(shù)等數(shù)據(jù)一般不會差距太大, 但若某些變量普遍出現(xiàn)很大差距, 應(yīng)使用標準化方法將其縮放到可比較的尺度。
5.5 輸入特征的選擇
我們可以通過增加特征數(shù)量來增強特征空間, 我們所選擇特征的質(zhì)量對機器學(xué)習(xí)模型的性能有重大影響。在原本特征的基礎(chǔ)上添加新特征可以增強輸入數(shù)據(jù)的特征表示, 從而提高模型性能(Heaton, 2016)。Zopluoglu (2019)通過將項目反應(yīng)進行獨熱編碼來擴展特征空間。Jiao等人(2023)在堆疊學(xué)習(xí)算法中, 通過在特征空間中添加基于項目反應(yīng)和反應(yīng)時間的個人擬合統(tǒng)計量作為特征變量訓(xùn)練模型, 被證實能有效提高作弊檢測的準確率。在訓(xùn)練模型過程中, 如果出現(xiàn)由于輸入特征較少或者特征質(zhì)量較差導(dǎo)致模型效果差的情況, 我們可以選擇增加特征變量, 提高模型效果, 比如在僅有項目反應(yīng)作為特征時, 我們可以有針對性的加入一些與目標相關(guān)性強的統(tǒng)計量或人口統(tǒng)計學(xué)信息等新特征。
雖然我們建議在調(diào)試模型時多嘗試一些特征變量, 但是模型性能并不是靠特征數(shù)量而是靠適量取勝, 在訓(xùn)練模型時我們需要不斷篩選合適的特征, 這個過程稱為特征選擇, 其目的是為了減少訓(xùn)練時間、提高模型精度并防止過擬合(Chen et al, 2020), Zhou和Jiao (2022)在研究中使用了過濾法、包裝法和嵌入法分別進行特征選擇。在測驗安全領(lǐng)域, 受試者反應(yīng)時普遍被認為是能有效篩選異常的特征, 它可以捕捉到特定事件的速度或持續(xù)時間, 在進行特征選擇時可重點關(guān)注, 除了直接將其作為輸入特征以外, 還可以計算反應(yīng)時與其他特征的關(guān)系, 如反應(yīng)時殘差, 反應(yīng)時與分數(shù)的相關(guān)性。
6 問題與展望
如何偵查各種測驗中的異常被試已經(jīng)成為許多教育機構(gòu)和考試公司的重要問題, 異常被試不僅威脅著測驗分數(shù)的可靠性與解釋性, 也給測驗的名譽帶來嚴重損害, 不利于心理和教育測量的發(fā)展。目前, 研究者們提出了許多有效的方法對其進行識別, 與此同時, 各種過程數(shù)據(jù)的出現(xiàn)給傳統(tǒng)的以統(tǒng)計量為主的評估框架帶來了機遇和挑戰(zhàn), 機器學(xué)習(xí)在測驗安全領(lǐng)域的研究也不斷擴而充之, 但研究基本都集中在國外, 其中使用到的算法非常豐富, 應(yīng)用的場景也十分廣泛。這些研究為我們今后在測驗安全領(lǐng)域中使用機器學(xué)習(xí)方法識別異常被試提供了參考, 可以將機器學(xué)習(xí)與傳統(tǒng)的統(tǒng)計量研究高度結(jié)合, 更好的檢測異常受試者。此外, 當前機器學(xué)習(xí)的文本挖掘技術(shù)已經(jīng)充分運用到檢測學(xué)術(shù)上的剽竊抄襲(Foltynek et al., 2019)以及檢測學(xué)術(shù)論文或大型文字任務(wù)中的人工智能生成內(nèi)容(Taloni et al., 2024), 由此看來, 使用文本挖掘技術(shù)檢測異常受試者是非常有潛力的??偟膩碚f, 機器學(xué)習(xí)作為一種在心理與教育測量領(lǐng)域新興的方法, 在當前研究中充分體現(xiàn)了其優(yōu)勢, 但也有些局限性需注意, 如受限于已標記數(shù)據(jù)的數(shù)量和質(zhì)量、模型的可解釋性有待提高、實驗的可重復(fù)性有待加強等。需要特別注意的是, 盡管在研究中取得了一定成果, 但是這僅能作為一種統(tǒng)計學(xué)意義上的輔助標記手段, 在現(xiàn)實中要謹慎對待。當前機器學(xué)習(xí)在國內(nèi)的測驗安全領(lǐng)域研究還比較稀少, 對于其方法改進的理論研究或者對其實際應(yīng)用的實踐研究都有待探索?,F(xiàn)針對機器學(xué)習(xí)在當前研究中存在的問題以及未來可能的研究方向提供一些建議, 以供研究者參考。
6.1 基于機器學(xué)習(xí)的個人擬合研究
當前測驗安全領(lǐng)域大多數(shù)研究者都在關(guān)注如何找出作弊考生, 在當今高競爭力的環(huán)境下, 作弊確實是最威脅篩選性考試(例如高考、各種職業(yè)資格證考試等)也是最值得關(guān)注的異常類型, 但是其他的異常類型如隨機作答、疲勞效應(yīng)、創(chuàng)造性作答等卻嚴重影響著學(xué)生的學(xué)業(yè)評估和測驗的個人擬合。這方面的研究主要集中在個人擬合統(tǒng)計量上, 機器學(xué)習(xí)的研究卻比較稀少, 但是考慮到學(xué)業(yè)測試中一套試題經(jīng)常會重復(fù)使用兩三年甚至更久, 以及項目得分和反應(yīng)時隨著題目難度變化的規(guī)律, 使用機器學(xué)習(xí)進行個人擬合研究是十分有潛力的, 因此Zhu等人(2022)提出了基于神經(jīng)網(wǎng)絡(luò)的個人擬合檢驗方法, 該方法針對課堂的短測驗取得了良好的效果。根據(jù)該研究的思路, 可以先獲取一批能力分布較為均勻的無污染數(shù)據(jù), 再根據(jù)測驗的理論框架估計項目參數(shù), 生成正常被試與不同類型的異常被試作為訓(xùn)練數(shù)據(jù)集對模型進行訓(xùn)練, 在訓(xùn)練過程中可以使用各種監(jiān)督學(xué)習(xí)模型或是集成學(xué)習(xí)模型, 待模型訓(xùn)練好后便可重復(fù)使用, 從而省去面對新數(shù)據(jù)重新進行參數(shù)估計和模型訓(xùn)練的步驟。這種方法在面對某些統(tǒng)計量方法檢測效果較差或者沒有對應(yīng)測驗類型的統(tǒng)計量可用時能發(fā)揮很大作用, 在各種理論框架和測驗類型下都有較大的研究空間。
6.2 基于多模態(tài)數(shù)據(jù)的機器學(xué)習(xí)測驗安全研究
目前測驗安全領(lǐng)域的機器學(xué)習(xí)研究仍處于起步階段, 多數(shù)研究都基于常規(guī)測驗數(shù)據(jù)(項目反應(yīng)、項目得分、反應(yīng)時等), 然而除了這些數(shù)據(jù)仍有許多其他類型的數(shù)據(jù)值得我們?nèi)リP(guān)注和研究:(1)統(tǒng)計量: Zhou和Jiao (2022, 2023)、Jiao等人(2023)的研究結(jié)論充分表明了將與檢測目的高度相關(guān)的統(tǒng)計量納入輸入特征后模型效果得到了明顯提升, 例如在檢測抄襲的研究當中納入高檢驗力的抄襲統(tǒng)計量作為輸入特征, 當前有許多研究的輸入特征中都包含了統(tǒng)計量, 這也一定程度上代表著模型性能反映了所選統(tǒng)計量的檢驗力, 而不是機器學(xué)習(xí)技術(shù), 進一步說明了統(tǒng)計量與機器學(xué)習(xí)方法的互補性; (2)圖片與視頻:Hussein等人(2022) 使用五種不同類型的已知作弊特征在作弊視頻的幀層面對動作檢測任務(wù)進行了研究, 從而建立檢測作弊的模型; (3)計算機活動日志: Tang等人(2023)、Alsabhan (2023)等研究者利用被試在計算機上的行為數(shù)據(jù)(點擊流)進行時間序列建模來檢測被試是否出現(xiàn)了異常行為; (4)生物特征信息:Ullah等人(2019)提出了一種電子考試監(jiān)控系統(tǒng), 使用眼動追蹤器和指紋讀取器對被試在屏幕上的總時間和他們離開屏幕的頻率進行檢測, Rodríguez-Villalobos等人(2023)開發(fā)了一種評估頭部位置和時間延遲的系統(tǒng), 討論了作弊行為與被試頭部相對于計算機屏幕的位置變化之間的高度統(tǒng)計相關(guān)性??梢园l(fā)現(xiàn), 當前研究不斷地向更豐富的數(shù)據(jù)類型探索, 其中的大量信息尤其是生物特征信息是無法造假的, 如果成功將其與常規(guī)測驗數(shù)據(jù)結(jié)合進行研究, 將大大提高研究結(jié)果的準確度和可信度, 這對于重要考試來說是非常有必要的。我們可以嘗試將這些多模態(tài)數(shù)據(jù)融合起來對監(jiān)督學(xué)習(xí)模型進行訓(xùn)練, 或者是進行其他機器學(xué)習(xí)研究, 在模型開發(fā)過程中會涉及到不同類型數(shù)據(jù)如何轉(zhuǎn)換為有效輸入特征的問題, 同時對模型的選擇和使用也需要更多考量, 例如, 如何將常規(guī)數(shù)據(jù)和圖片、眼動數(shù)據(jù)等同時作為輸入特征?使用哪些模型可以更好地利用不同的數(shù)據(jù)?這將是一個非常有挑戰(zhàn)性和前景的話題。
6.3 基于生成對抗網(wǎng)絡(luò)的測驗安全研究
本文在5.3節(jié)提到了三種獲得異常被試樣本的方法, 實則在機器學(xué)習(xí)領(lǐng)域仍有許多方法可以獲得更加貼近真實的數(shù)據(jù), 例如深度學(xué)習(xí)中的生成對抗網(wǎng)絡(luò)(generative adversarial network, GAN), GAN由Goodfellow等人(2020)提出, 該網(wǎng)絡(luò)由生成模型和判別模型構(gòu)成, 生成模型不斷捕捉真實數(shù)據(jù)的分布, 判別模型判斷輸入數(shù)據(jù)是真實數(shù)據(jù)還是生成器所生成的數(shù)據(jù), 二者相互博弈訓(xùn)練, 最終使生成模型學(xué)習(xí)到最逼近真實數(shù)據(jù)的分布。GAN既可以生成真實數(shù)據(jù), 也可以用來進行異常檢測。Zenati等人(2018)首次使用GAN來識別網(wǎng)絡(luò)數(shù)據(jù)集中的異常入侵數(shù)據(jù); Di Mattia等人(2019)對異常檢測的GAN模型進行了比較和分析。Zopluoglu (2019)提到在測驗安全的研究中, GAN可以在數(shù)據(jù)集量少不足的情況下, 根據(jù)這部分少量的數(shù)據(jù)集的特征來生成更多新數(shù)據(jù)集從而擴充訓(xùn)練數(shù)據(jù), 想實現(xiàn)這個功能需要:(1) 收集正常數(shù)據(jù), 訓(xùn)練一個包括生成器和判別器的標準GAN, 以生成與正常數(shù)據(jù)分布一致的數(shù)據(jù); (2)生成異常數(shù)據(jù), 對生成的正常數(shù)據(jù)進行小幅度的擾動, 添加噪聲或改變某些特征值, 從而生成異常樣本, 可以參考5.3節(jié); (3)使用正常數(shù)據(jù)和異常數(shù)據(jù)訓(xùn)練反向GAN, 此時生成器的目標是生成異常數(shù)據(jù), 判別器的目標是區(qū)分正常數(shù)據(jù)和生成的異常數(shù)據(jù); (4)評估生成的異常數(shù)據(jù)的質(zhì)量, 調(diào)整參數(shù), 提高生成數(shù)據(jù)的質(zhì)量。如果想要進一步實現(xiàn)異常檢測, 則需將待檢測數(shù)據(jù)輸入生成器, 生成器會根據(jù)訓(xùn)練過的數(shù)據(jù)重建待檢測數(shù)據(jù), 再比較生成數(shù)據(jù)與待檢測數(shù)據(jù)之間的重建誤差即可識別異常數(shù)據(jù), 這部分類似于前文提到的自編碼器??傊?, 使用GAN進行異常檢測的研究仍處于起步階段, 有較大的研究價值。
6.4 增強研究結(jié)果的可解釋性
機器學(xué)習(xí)算法被認為是一種“黑箱方法”, 因為它們更多是由數(shù)據(jù)驅(qū)動的, 涉及到所有輸入變量之間的復(fù)雜關(guān)系, 對建模的過程和結(jié)果的解釋一直存在爭議。研究者認為在測驗安全的研究中, 對于被試分類結(jié)果的解釋非常重要, Zopluoglu (2019)根據(jù)極端梯度提升模型的變量重要性圖表解析了一部分被試的分類結(jié)果, 從這樣的解釋中我們可以獲悉哪些特征對被試被分類為異常的影響最大, 例如某些題目的作答是否正確、某些題目的反應(yīng)時、某些人口統(tǒng)計學(xué)變量, 這對于我們分析某個被試或者了解更多關(guān)于被試的背景特征是十分有必要的。同時這也使得我們的研究結(jié)論更加豐富和完整。其次, 如果研究側(cè)重于對結(jié)果的解釋, 可以使用更容易解釋的簡單模型。例如, 線性回歸、決策樹等模型相對于深度神經(jīng)網(wǎng)絡(luò)等復(fù)雜模型具有更好的可解釋性??梢酝ㄟ^畫特征重要性圖以及使用一些專門的解釋性技術(shù), 例如局部可解釋性方法、全局可解釋性方法(Du et al., 2019)。
參考文獻
韓丹, 郭慶科, 王昭, 陳雪霞. (2008). 考試抄襲識別的心理測量學(xué)研究回顧. 心理科學(xué)進展, 16(1), 175?183.
胡佳琪, 黃美薇, 駱方. (2020). 考試作弊甄別技術(shù)的研究進展:個體作弊的甄別. 中國考試, (11), 32?36.
黃美薇, 潘逸沁, 駱方. (2020). 結(jié)合選擇題與主觀題信息的兩階段作弊甄別方法. 心理科學(xué), 43(1), 75?80.
劉冬予, 駱方, 屠焯然, 饒思敬, 沈陽. (2024). 人工智能技術(shù)賦能心理學(xué)發(fā)展的現(xiàn)狀與挑戰(zhàn). 北京師范大學(xué)學(xué)報(自然科學(xué)版), 60(1), 30?37.
劉玥, 劉紅云. (2021). 心理與教育測驗中異常作答處理的新技術(shù): 混合模型方法. 心理科學(xué)進展, 29(9), 1696? 1710.
駱方, 王欣夷, 徐永澤, 封慰. (2020). 考試作弊甄別技術(shù)的研究進展:團體作弊的甄別. 中國考試, (11), 37?41.
童昊, 喻曉鋒, 秦春影, 彭亞風(fēng), 鐘小緣. (2022). 多級計分測驗中基于殘差統(tǒng)計量的被試擬合研究. 心理學(xué)報, 54(9), 1122?1136.
王昭, 郭慶科, 岳艷. (2007). 心理測驗中個人擬合研究的回顧與展望. 心理科學(xué)進展, 15(3), 559?566.
徐靜, 駱方, 馬彥珍, 胡路明, 田雪濤. (2024). 開放式情境判斷測驗的自動化評分. 心理學(xué)報, 56(6), 831?844.
張龍飛, 王曉雯, 蔡艷, 涂冬波. (2020). 心理與教育測驗中異常反應(yīng)偵查新技術(shù):變點分析法. 心理科學(xué)進展, 28(9), 1462?1477.
鐘曉鈺, 李銘堯, 李凌艷. (2021). 問卷調(diào)查中被試不認真作答的控制與識別. 心理科學(xué)進展, 29(2), 225?237.
鐘小緣, 喻曉鋒, 苗瑩, 秦春影, 彭亞風(fēng), 童昊. (2022). 基于作答時間數(shù)據(jù)的改變點分析在檢測加速作答中的探索——已知和未知項目參數(shù). 心理學(xué)報, 54(10), 1277? 1292.
Alpaydin, E. (2020). Introduction to machine learning. MIT press.
Alsabhan, W. (2023). Student cheating detection in higher education by implementing machine learning and LSTM techniques. Sensors, 23(8), 4149.
Arias, V. B., Garrido, L. E., Jenaro, C., Martínez-Molina, A., & Arias, B. (2020). A little garbage in, lots of garbage out: Assessing the impact of careless responding in personality survey data. Behavior Research Methods, 52(6), 2489?2505.
Arthur, W., Jr., Hagen, E., & George, F., Jr. (2021). The lazy or dishonest respondent: Detection and prevention. Annual Review of Organizational Psychology and Organizational Behavior, 8, 105?137.
Cavalcanti, E. R., Pires, C. E., Cavalcanti, E. P., & Pires, V. F. (2012). Detection and evaluation of cheating on college exams using supervised classification. Informatics in Education, 11(2), 169?190.
Chan, K., & Stolfo, J. (1997). On the accuracy of meta- learning for scalable data mining. Journal of Intelligent Information Systems, 8(1), 5?28
Chawla, N. V., Bowyer, K. W., Hall, L. O., & Kegelmeyer, W. P. (2002). SMOTE: Synthetic minority over-sampling technique. Journal of Artificial Intelligence Research, 16, 321–357.
Chen, R. C., Dewi, C., Huang, S. W., & Caraka, R. E. (2020). Selecting critical features for data classification based on machine learning methods. Journal of Big Data, 7(1), 52.
Cizek, G. J., & Wollack, J. A. (Eds.). (2017). Handbook of quantitative methods for detecting cheating on tests. New York, NY: Routledge.
Curran, P. G. (2016). Methods for the detection oysCtfQNXuTycTJiMFjJq8g==f carelessly invalid responses in survey data. Journal of Experimental Social Psychology, 66, 4?19.
Di Mattia, F., Galeone, P., De Simoni, M., & Ghelfi, E. (2019). A survey on gans for anomaly detection. arxiv preprint arxiv: 1906.11632. https://doi.org/10.48550/ arXiv.1906.11632
Dong, X., Yu, Z., Cao, W., Shi, Y., & Ma, Q. (2020). A survey on ensemble learning. Frontiers of Computer Science, 14, 241?258.
Du, M., Liu, N., & Hu, X. (2019). Techniques for interpretable machine learning. Communications of the ACM, 63(1), 68?77.
Foltynek, T., Meuschke, N., & Gipp, B. (2019). Academic plagiarism detection: A systematic literature review. ACM Computing Surveys (CSUR), 52(6), 1?42.
Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep learning. MIT press.
Goodfellow, I., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., ... Bengio, Y. (2020). Generative adversarial networks. Communications of the ACM, 63(11), 139?144.
Gorgun, G., & Bulut, O. (2022). Identifying aberrant responses in intelligent tutoring systems: An application of anomaly detection methods. Psychological Test and Assessment Modeling, 64(4), 359?384.
Heaton, J. (2016). An empirical analysis of feature engineering for predictive modeling. In SoutheastCon 2016 (pp. 1?6). IEEE.
Hodge, V., & Austin, J. (2004). A survey of outlier detection methodologies. Artificial Intelligence Review, 22(2), 85?126.
Huang, J. L., Liu, M., & Bowling, N. A. (2015). Insufficient effort responding: Examining an insidious confound in survey data. Journal of Applied Psychology, 100(3), 828? 845.
Hussein, F., Al-Ahmad, A., El-Salhi, S., Alshdaifat, E. A., & Al-Hami, M. T. (2022). Advances in contextual action recognition: Automatic cheating detection using machine learning techniques. Data, 7(9), 122.
Jiao, H., Yadav, C., & Li, G. (2023). Integrating psychometric analysis and machine learning to augment data for cheating detection in large-scale assessment. OSF. https://doi.org/ 10.31234/osf.io/fjz2c
Kamalov, F., Sulieman, H., & Santandreu Calonge, D. (2021). Machine learning based approach to exam cheating detection. Plos One, 16(8), e0254340. https://doi.org/ 10.1371/journal.pone.0254340
Karabatsos, G. (2003). Comparing the aberrant response detection performance of thirty-six person-fit statistics. Applied Measurement in Education, 16(4), 277?298.
Kim, D., Woo, A., & Dickison, P. (2016). Identifying and investigating aberrant responses using psychometrics- based and machine learning-based approaches. In G. J. Cizek & J. A.Wollack (Eds.), Handbook of quantitative methods for detecting cheating on tests (pp. 70?97). New York, NY: Routledge.
Liao, M., Patton, J., Yan, R., & Jiao, H. (2021). Mining process data to detect aberrant test takers. Measurement: Interdisciplinary Research and Perspectives, 19(2), 93?105.
Man, K., Harring, J. R., & Sinharay, S. (2019). Use of data mining methods to detect test fraud. Journal of Educational Measurement, 56(2), 251?279.
Meng, H., & Ma, Y. (2023). Machine learning–based profiling in test cheating detection. Educational Measurement: Issues and Practice, 42(1), 59?75.
Pan, Y., Sinharay, S., Livne, O., & Wollack, J. A. (2022). A machine learning approach for detecting item compromise and preknowledge in computerized adaptive testing. Psychological Test and Assessment Modeling, 64(4), 385?424.
Pan, Y., & Wollack, J. A. (2021). An unsupervised-learning- based approach to compromised items detection. Journal of Educational Measurement, 58(3), 413?433.
Pan, Y., & Wollack, J. A. (2023). A machine learning approach for the simultaneous detection of preknowledge in examinees and items when both are unknown. Educational Measurement: Issues and Practice, 42(1), 76?98.
Ranger, J., Schmidt, N., & Wolgast, A. (2020). The detection of cheating on E-exams in higher education—The performance of several old and some new indicators. Frontiers in Psychology, 11, 568825. https://doi.org/ 10.3389/fpsyg.2020.568825
Ranger, J., Schmidt, N., & Wolgast, A. (2023). Detecting cheating in large-scale assessment: The transfer of detectors to new tests. Educational and Psychological Measurement, 83(5), 1033?1058.
Rodríguez-Villalobos, M., Fernandez-Garza, J., & Heredia-Escorza, Y. (2023). Monitoring methods and student performance in distance education exams. The International Journal of Information and Learning Technology, 40(2), 164?176.
Schroeders, U., Schmidt, C., & Gnambs, T. (2022). Detecting careless responding in survey data using stochastic gradient boosting. Educational and Psychological Measurement, 82(1), 29?56.
Sinharay, S. (2017). Detection of item preknowledge using likelihood ratio test and score test. Journal of Educational and Behavioral Statistics, 42(1), 46?68.
Stekhoven, D., & Bühlmann, P. (2012). MissForest – non-parametric missing value imputation for mixed-type data. Bioinformatics, 28(1), 112?118.
Taloni, A., Scorcia, V., & Giannaccare, G. (2024). Modern threats in academia: Evaluating plagiarism and artificial intelligence detection scores of ChatGPT. Eye, 38(2), 397?400.
Tang, S., Samuel, S., & Li, Z. (2023). Detecting atypical test-taking behavior with behavior prediction using LSTM. Psychological Test and Assessment Modeling, 65(2), 76?124.
Thomas, S. L. (2016). So happy together? Combining Rasch and item response theory model estimates with support vector machines to detect test fraud. (Unpublished doctorial dissertation). University of Virginia.
Tiong, L. C. O., & Lee, H. J. (2021). E-cheating prevention measures: Detection of cheating at online examinations using deep learning approach--a case study. arXiv preprint arXiv:2101.09841. https://doi.org/10.48550/arXiv.2101.09841
Ullah, A., Xiao, H., & Barker, T. (2019). A dynamic profile questions approach to mitigate impersonation in online examinations. Journal of Grid Computing, 17, 209?223.
van der Linden, W. J., & Guo, F. (2008). Bayesian procedures for identifying aberrant response-time patterns in adaptive testing. Psychometrika, 73, 365?384.
van Krimpen-Stoop, E. M. L. A., & Meijer, R. R. (2001). CUSUM-based person-fit statistics for adaptive testing. Journal of Educational and Behavioral Statistics, 26(2), 199?217.
Ward, M. K., & Meade, A. W. (2023). Dealing with careless responding in survey data: Prevention, identification, and recommended best practices. Annual Review of Psychology, 74, 577?596.
Weiss, K., Khoshgoftaar, T. M., & Wang, D. (2016). A survey of transfer learning. Journal of Big Data, 3, 1?40.
Welz, M., & Alfons, A. (2023). I don't care anymore: Identifying the onset of careless responding. arXiv preprint arXiv: 2303.07167.https://doi.org/10.48550/arXiv. 2303.07167
Zenati, H., Foo, C. S., Lecouat, B., Manek, G., & Chandrasekhar, V. R. (2018). Efficient gan-based anomaly detection. arxiv preprint arxiv:1802.06222. https://doi. org/10.48550/arXiv.1802.06222
Zhen, Y., & Zhu, X. (2024). An ensemble learning approach based on TabNet and machine learning models for cheating detection in educational tests. Educational and Psychological Measurement, 84(4), 780?809.
Zhou, T., & Jiao, H. (2022). Data augmentation in machine learning for cheating detection in large-scale assessment: An illustration with the blending ensemble learning algorithm. Psychological Test and Assessment Modeling, 64(4), 425?444.
Zhou, T., & Jiao, H. (2023). Exploration of the stacking ensemble machine learning algorithm for cheating detection in large-scale assessment. Educational and Psychological Measurement, 83(4), 831?854.
Zhu, X., & Goldberg, A. B. (2009). Introduction to semi-supervised learning. Synthesis Lectures on Artificial Intelligence and Machine Learning, 3(1), 1?130.
Zhu, Z., Arthur, D., & Chang, H. H. (2022). A new person-fit method based on machine learning in CDM in education. British Journal of Mathematical and Statistical Psychology, 75(3), 616?637.
Zimek, A., Schubert, E., & Kriegel, H. P. (2012). A survey on unsupervised outlier detection in high-dimensional numerical data. Statistical Analysis and Data Mining: The ASA Data Science Journal, 5(5), 363?387.
Zopluoglu, C. (2019). Detecting examinees with item preknowledge in large-scale testing using extreme gradient boosting (XGBoost). Educational and Psychological Measurement, 79(5), 931?961.
Application of machine learning methods in test security
GAO Xuliang, LpW6JBMVy6aqtfrPbrGiPw==LI Ning
(School of Psychology, Guizhou Normal University, Guiyang 550025, China)
Abstract: The post hoc detection of test security has traditionally relied on statistics, but emerging machine learning methods offer enhanced detection performance. To advance the field of test security, we proposed a review of the research literature, categorizing the methods into three major categories: supervised learning, unsupervised learning, and semi-supervised learning. Each of these major categories was further subdivided into three subcategories: ensemble learning, deep learning, and transfer learning. The study elucidated the distinctive attributes of diverse machine learning methodologies, provided practical recommendations for data acquisition and processing, and outlined strategies for input feature selection. Finally, prospective avenues for future research were identified, including machine learning-based person-fit research, machine learning test security research utilizing multimodal data, test security research employing generative adversarial networks, and the interpretability of research results.
Keywords: machine learning, psychological tests, educational tests, test security, statistics