韓裕娜,張敏強
(1.華南師范大學心理應用研究中心,廣東廣州510631;2.華南師范大學基礎教育培訓與研究院,廣東廣州510631)
基于經(jīng)典測驗理論、概化理論和項目反應理論的傳統(tǒng)測驗最終只是給出一個分數(shù)或等級.然而有的考生分數(shù)或等級雖然相同,所掌握的知識卻不同.為了通過測驗從考生的反應模式中獲得更多考生的信息,有些研究者提出“將認知與測量相結(jié)合”.按照不同的假設,提出了各自不同的方法和模型,并稱這些模型為認知診斷模型.常見的認知診斷模型有規(guī)則空間模型(Rule Space Model,RSM)、屬性層級模型(Attribute Hierarchy Method,AHM)、DINA 模型(Deterministic Input,Noisy-And gate,DINA)、NIDA模型(Noisy Input,Deterministic-And gate,NIDA)等.
本研究將在前人研究的基礎上,對AHM模型2種基于IRT的判別方法——方法A和方法B進行改良,得到2種新分類方法——方法C和方法D.進而設計蒙特卡洛模擬試驗考察4種分類方法的診斷性能.
AHM模型假設屬性之間有一定的層級關系,并把觀察反應模式劃歸為期望反應模式,該模型也采用了RSM模型的Q矩陣理論[1-3],兩者的判別方法不同.RSM對被試的認知診斷是通過建構(gòu)規(guī)則空間,采用距離判別法,將其判歸為相應的典型屬性掌握模式.AHM則是根據(jù)最大相似概率進行判別,將觀察反應模式劃歸為期望反應模式.
使用屬性層級模型進行認知診斷,共包含如下4 個步驟[4].
屬性間的層級關系共有4種基本關系(圖1),其他復雜的關系可以由這4種基本關系組合生成[5].用鄰接矩陣 A(adjacency matrix)來表征屬性間的鄰接關系.并通過布爾代數(shù)計算(布爾加和布爾乘)由矩陣A計算得到可達矩陣R(reachability matrix),用R來表征屬性間的前提關系.
圖1 4種不同的屬性層級關系Figure 1 Four hierarchical structures using seven attributes
1.2.1 建立事件矩陣 Q 事件矩陣 Q(incidence matrix)k行n列,描述各屬性與可能的項目類型間的關系.其中,k表示屬性數(shù)目,n指可能的項目類型數(shù),由組合數(shù)學可知n=2k-1.
1.2.2 建立縮減矩陣Qr建立縮減矩陣Qr目前有2種方法:縮減法和擴張算法.縮減法是由TATSUOKA提出的,先得到Q矩陣,然后刪除不可能存在的項目類型.而擴張算法則是由R矩陣,通過擴張算法直接得到縮減矩陣Qr[6].
1.2.3 編制測驗并施測 一般來說,在設計測驗時,先選定可達陣R對應的所有題型作為測驗的一部分,再根據(jù)所需依據(jù)矩陣Qr選擇適當數(shù)量的題目類型構(gòu)成測驗,得到測驗所對應的測驗Q矩陣Qt.Qtk行n列,k表示屬性數(shù)目,n指測驗的項目數(shù)[7].
接著進行施測,得到被試的作答情況(也稱為觀察反應模式).
AHM中分類方法有IRT分類法和非IRT分類法.LEIGHTON等[5-6]提出了2種基于項目反應理論和概率論的分類方法:A方法和B方法.方法A和方法B都是通過分析觀察反應模式同各類期望反應模式的一致程度來進行分類的,是根據(jù)最大相似概率進行判別.
假設第j種期望反應模式對應的被試能力為θj,由項目反應理論可知,第j種期望反應模式在第k題的正確作答概率Pk(θj)和錯誤作答概率Qk(θj)=1-Pk(θj)可由IRT模型及模擬方法計算得到.
A方法認為,當被試的觀察反應模式和任何一類期望反應模式都不一樣時,則計算各種期望反應模式轉(zhuǎn)化為觀察反應模式的概率,假設第p種期望反應模式的轉(zhuǎn)化概率最大,則將被試歸為第p類被試.轉(zhuǎn)化概率的計算公式如下:
其中:Si(0→1)表示對于被試i期望反應為0,但觀察反應模式為1的所有題的集合;Si(1→0)表示對于被試i期望反應為1,但觀察反應模式為0的所有題的集合.
B方法則認為,擁有某個觀察反應模式的被試掌握了所有邏輯包含在其中的期望反應模式的屬性組合.對于那些不邏輯包含的期望反應模式,則只需要考慮失誤而不考慮猜測,即只計算1→0的可能性,公式如下所示.假設第p種期望反應模式的轉(zhuǎn)化概率最大,且最大轉(zhuǎn)化概率大于等于截斷點(cutpoint),則被試有可能歸為第p類被試.最后結(jié)合邏輯包含部分的診斷結(jié)果和不邏輯包含的部分的診斷結(jié)果,給出最終的診斷結(jié)果.
GIERL等[5]則提出了非IRT方法,該方法是用多層感知器神經(jīng)網(wǎng)絡來估計被試對每個屬性的掌握概率.
將被試進行歸類,最終報告認知診斷分析結(jié)果.
以往的研究[5]表明,方法A和方法B的診斷準確率均不高,有待進一步改良.
方法A在判別具有觀察反應模式Si的被試是否屬于第j類被試(對應期望反應模式Sj,能力為θj)的關系時,計算概率時是以第j類被試為主體,計算的是第j類被試出現(xiàn)觀察反應模式Si的概率.使用到的是2類事件的概率:
(1)Pk(θj):對于題目k,第j類被試事實上并沒有掌握該題所考察的屬性,然而卻答對了的概率.
(2)1-Pm(θj):對于題目m,第j類被試事實上掌握該題所考察的屬性,然而卻答錯了的概率.
方法A在判別被試屬于哪一類時使用上述概率并不合理,是該方法診斷準確率不高的一個原因.在判別具有觀察反應模式Si的被試是否屬于第j類被試(對應期望反應模式Sj,能力為θj)的關系時,應該以觀察反應模式Si為主體,計算的是具有觀察反應模式Si的被試是第j類被試的概率,換句話說,計算的是觀察反應模式Si轉(zhuǎn)移到期望反應模式Sj的概率值.
因而使用到的概率應該是另2種:
(1)當受測者答對試題q時,受測者實際上并未掌握試題q所考察的屬性的概率P(q:1→0),稱為猜測概率,用PG(q)表示.
(2)當受測者答錯試題q時,受測者實際上掌握了試題q所考察的屬性的概率P(q:0→1),稱為失誤概率,用PS(q)表示.
由A方法的計算公式,以猜測概率PG(q)和失誤概率 PS(q)代替Pk(θj)、Qk(θj),即得到判別方法C:對于某觀察反應模式Si,記從Si轉(zhuǎn)移到期望反應模式Sj的概率值為Pij,Pij實際上等于從Si轉(zhuǎn)移到Sj時對不同的答題結(jié)果進行0/1反轉(zhuǎn)的概率PG(q)、PS(q)的乘積.計算各觀察反應模式Si轉(zhuǎn)移到各個期望反應模式概率值,最大概率值對應的期望反應模式就是Si進行狀態(tài)轉(zhuǎn)移的目標狀態(tài),換句話說,觀察反應模式Si是由最大概率值對應的期望反應模式衍生的.
例如,對于觀察反應模式S(10001)轉(zhuǎn)移到期望反應模式S1(10000)的概率為PG(q5),而轉(zhuǎn)移到期望反應模式S2(11111)的概率為PS(q2)×PS(q3)×PS(q4).
同樣地,可由B方法得到對應的D方法,D方法使用的公式如下:
從理論上看,方法C和方法D的計算方法比方法A和方法B更科學,具有更高的診斷性能.為了比較方法A、B、C和D的診斷性能,本研究通過蒙特卡洛模擬試驗,以計分準確率、模式判準率、邊際判準率為評價指標,對4種判別方法的診斷性能進行考察.
在診斷前,首先指定測驗需測量的屬性以及屬性層級關系,屬性間的層級關系共有4種基本關系(圖1),其他復雜的關系可以由這4種基本關系組合生成[5].本模擬試驗以圖1為例,考察在4種不同的屬性層級結(jié)構(gòu)下4種診斷方法的診斷性能.
以七屬性發(fā)散型結(jié)構(gòu)為例(圖1 A),模擬步驟如下:
(1)設定初始值 測驗項目數(shù):20;屬性個數(shù):7;屬性層級關系:發(fā)散型(圖1 A);被試先驗分布:被試成績按正態(tài)分布;被試人數(shù):5 000;IRT模型:二參數(shù)Logistic IRT模型;失誤水平參數(shù)假定為0.1.
(2)根據(jù)初始值得到A、R、Qr和D 根據(jù)屬性層級關系圖確定鄰接矩陣A,通過布爾代數(shù)計算可達矩陣R.由R通過擴張算法得到縮減矩陣Qr.再由Qr得到知識狀態(tài)矩陣D.
(3)模擬診斷過程 為了盡量減少無關變量隨機抽取Qr項目的影響,本部分步驟采取隨機化試驗設計并重復10次.
①根據(jù)初始設定,測驗項目數(shù)量為20.其中,有7個項目對應R的7個列,剩余的13個項目從Qr中隨機抽取確定,從而得到測驗Q矩陣Qt.進而由D和Qt得到期望反應矩陣E.
②根據(jù)先驗分布假設模擬產(chǎn)生5 000個被試的期望反應矩陣.由期望反應矩陣計算各類被試能力參數(shù) θj和各題試題參數(shù) ai、bi(1≤j≤5 000,1≤i≤20).根據(jù)所得參數(shù)計算 Pi(θj)(1≤j≤5 000,1≤i≤20)、Qi(θj)、PG(i)和 PS(i).
③由期望反應矩陣模擬產(chǎn)生5 000個被試的觀察反應模式矩陣.由于本研究的目的在于研究在相同條件下4種診斷方法的診斷性能,因而失誤水平參數(shù)的大小并不是本研究關注的對象,進行模擬試驗時失誤參數(shù)假定為0.1.
④對觀察反應模式矩陣分別使用4種方法進行診斷,并計算計分準確率、模式判準率、邊際判準率.
上述步驟重復10次后,求10次模擬各種指標的平均值.
本研究通過R軟件編程實現(xiàn)上述模擬試驗并統(tǒng)計各種方法的計分準確率、模式判準率、邊際判準率,蒙特卡洛模擬試驗的結(jié)果見表1~表3.
從計分準確率(表1)和模式判準率(表2)2項診斷指標看,對于線型結(jié)構(gòu),B方法的診斷指標高于A方法,D方法的診斷指標高于C方法,即B方法優(yōu)于A方法,D方法優(yōu)于C方法.而對于其他3種結(jié)構(gòu)則反過來,均是A方法優(yōu)于B方法,C方法優(yōu)于D方法.不過不管對于哪種結(jié)構(gòu),新方法均優(yōu)于對應的原方法.換句話說,C方法的診斷指標高于A方法,D方法的診斷指標高于B方法.
表1 各種診斷方法的計分準確率Table 1 Scorematch ratios for differentmethods
從邊際判準率來看,對于線型結(jié)構(gòu),B方法的平均邊際判準率高于A方法,D方法的平均邊際判準率高于C方法.從總體來說,D方法的平均邊際判準率0.758最高,其次是B方法.不過從各個屬性的邊際判準率來看,則是C方法對屬性A1、A2、A3的邊際判準率最高,D 方法對屬性 A4、A5、A6、A7的邊際判準率最高.對于其他3種結(jié)構(gòu),情況則不同,均是A方法的平均邊際判準率高于B方法,C方法的平均邊際判準率高于D方法,且C方法對各個屬性的邊際判準率最高.
表2 各種診斷方法的模式判準率Table 2 Patternmatch ratios for differentmethods
表3 各種診斷方法的邊際判準率Table 3 Marginalmatch ratios for differentmethods
綜合考慮3種評價指標,對線型結(jié)構(gòu)進行診斷,最優(yōu)方法是D方法,平均邊際判準率在0.7以上,尤其是屬性A6和A7的邊際判準率高達0.944和0.988.模式判準率僅有0.372偏低,計分準確率也僅有0.372.最優(yōu)方法是C方法,平均邊際判準率在0.9以上,有一些屬性的邊際判準率還高達0.99以上,模式判準率和計分準確率也均在0.6以上.
(1)蒙特卡洛模擬試驗的結(jié)果與理論研究結(jié)果相符,經(jīng)過改良得到的方法C和方法D的診斷性能均優(yōu)于對應的原方法.且從總體上看,新方法的評價指標比對應原方法的評價指標有較大幅度提高.使用方法C和方法D更能準確的得到被試真實的知識狀態(tài)和認知結(jié)構(gòu),為教學提供更為準確的診斷結(jié)果.
(2)由于使用D方法對線型結(jié)構(gòu)進行診斷的模式判準率和計分準確率較低.相對來說,使用C方法對發(fā)散型、收斂型和無結(jié)構(gòu)型3種屬性結(jié)構(gòu)進行診斷的各項指標則較好.因而在設計測驗時,不妨設法增加待測屬性,使線型結(jié)構(gòu)轉(zhuǎn)化為發(fā)散型、收斂型或者由基本關系組合生成的復雜結(jié)構(gòu),以便提高診斷性能.
(3)評價指標的高低除了跟屬性結(jié)構(gòu)、診斷方法有關,還有可能受其他因素影響,例如:測驗長度、測驗題目的復雜程度、測驗屬性的個數(shù)、試題隨機參數(shù)、IRT模型、考生成績分布狀態(tài)、計分形式等.本研究組業(yè)已設計一系列蒙特卡洛模擬試驗考察A、B、C、D等4種診斷方法的分類準確率如何受到測驗不同的因素的影響,以便探究在哪種情況下使用哪一種的方法可以得到最準確的診斷結(jié)果,具體研究方法及結(jié)論將另文撰之.這些試驗結(jié)論可用于指導測驗編制.
[1]TATSUOKA K.A probabilistic model for diagnosing misconceptions in the pattern classification approach[J].Journal of Educational Statistics,1985,10:55-73.
[2]文劍冰.規(guī)則空間模型在診斷性計算機自適應測驗中的應用[D].香港:香港中文大學,2003.
[3]張敏強,簡小珠,陳秋梅.規(guī)則空間模型在瑞文智力測驗中的認知診斷分析[J].心理科學,2011,34(2):266-271.
[4]LEIGHTON JP,GIERL M J.Cognitive diagnostic assessment for education:Theory and applications[M].Cambridge,UK:Cambridge University Press,2007:242-274.
[5]CUIY,LEIGHTON JP,ZHENG Y.Simulation studies for evaluating the performance of the two classification methods in the AHM[R].San Francisco,CA:The annualmeeting of the National Council on Measurement in Education,2006.
[6]祝玉芳.RSM改進及多級評分AHM的開發(fā)研究[D].南昌:江西師范大學,2008.
[7]丁樹良,汪文義,楊淑群.認知診斷測驗藍圖的設計[J].心理科學,2011,34(2):258-265.