劉彥樓
(曲阜師范大學(xué)教育大數(shù)據(jù)研究院,山東 濟寧 273165)
認知診斷模型(Cognitive Diagnosis Model,CDM)或稱診斷分類模型,是一類離散潛變量模型(Rupp et al.,2010),當(dāng)前已廣泛應(yīng)用于心理、教育或生物學(xué)等領(lǐng)域(例如,Tjoe &de la Torre,2014)。潛在屬性在不同領(lǐng)域有不同的含義,例如,知識、技能、認知過程、精神障礙、甚至是病原體等(Rupp et al.,2010;Wu et al.,2017)。恰當(dāng)應(yīng)用CDM,研究者可以通過被試的外顯行為去推論每個個體的多維潛在屬性掌握狀況,為被試提供及時的反饋、個性化的指導(dǎo)或針對性的補救。
CDM 模型參數(shù)的標準誤(Standard Error,)是關(guān)于模型參數(shù)估計不確定性的度量(Liu et al.,2021)。在心理統(tǒng)計與測量模型中,點估計值相同的兩個模型參數(shù)可能由于不同而具有不同的置信區(qū)間(Confidence Interval,CI),因此需要綜合考慮模型參數(shù)的點估計值與CI。例如,CDM 中兩個項目的猜測參數(shù)估計值均為0.2,但的估計值分別為0.08 與0.05,那么這兩個猜測參數(shù)的估計精度不同。根據(jù)正態(tài)分布理論,第一個猜測參數(shù)的95% CI是[0.2-1.96×0.08,0.2+1.96×0.08],第二個猜測參數(shù)的95% CI 是[0.2-1.96×0.05,0.2+1.96×0.05]。正因如此,國內(nèi)外多種心理學(xué)期刊(如《心理學(xué)報》,或參考:American Psychological Association,2020)要求或建議報告及95% CI。然而,在國內(nèi)外的CDM 實證研究中,報告模型參數(shù)的及CI 的研究仍然較少。造成這種現(xiàn)象的原因是多方面的,主要原因在于缺乏易用的計算方法。接下來,本文將對兩類常用的及CI 的估計方法:解析法以及自助法目前存在的問題展開探討,并提出一類簡易、可行的方法。
CDM 中模型參數(shù)的(或廣義而言,方差—協(xié)方差矩陣)在推論統(tǒng)計中具有基礎(chǔ)與核心作用(Liu,Xin et al.,2019;Philipp et al.,2018)。除用于計算CI 外,模型參數(shù)的在項目功能差異檢驗(Liu,Yin,et al.,2019;Ma et al.,2021;劉彥樓 等,2016)、項目水平上的模型比較(de la Torre &Lee,2013;Liu,Andersson,et al.,2019;Ma &de la Torre,2016,2019)、Q 矩陣檢驗(Ma &de la Torre,2020a)以及探索屬性層級關(guān)系(Liu et al.,2021;Wang &Lu,2021)等領(lǐng)域也有重要價值。對于模型參數(shù)的的估計,研究者提出了多種基于解析法的估計方法(Liu,Xin et al.,2019;Liu et al.,2021;Philipp et al.,2018;劉彥樓 等,2016),包括:經(jīng)驗交叉相乘信息矩陣法(Empirical Cross-product Information Matrix,XPD)、觀察信息矩陣法(Observed Information Matrix,Obs)和三明治信息矩陣法(Sandwich-type Information Matrix,Sw)。
在模型參數(shù)可識別條件下(Gu &Xu,2020;Wang &Lu,2021),研究者通過數(shù)據(jù)模擬以及實證數(shù)據(jù)分析的方式探索了使用解析法信息矩陣(Liu et al.,2016;劉彥樓 等,2016)計算的模型參數(shù)(包括項目參數(shù)與用于描述被試分布的結(jié)構(gòu)參數(shù))的及CI 的表現(xiàn)。關(guān)于項目參數(shù)的及CI,研究者比較了在理想狀況下(即模型與觀察數(shù)據(jù)完美擬合)、在CDM的項目反應(yīng)模型和/或Q 矩陣錯誤設(shè)定條件下,XPD、Obs 或Sw 方法的表現(xiàn)(Liu,Xin,et al.,2019;Philipp et al.,2018)。研究發(fā)現(xiàn),當(dāng)模型(包括項目反應(yīng)模型與Q 矩陣)完全正確設(shè)定或存在較少錯誤設(shè)定時,這3 種方法在項目參數(shù)的估計的一致性方面都有好的表現(xiàn);在模型存在嚴重錯誤設(shè)定時(如,項目反應(yīng)模型與Q 矩陣同時包括較多的錯誤),只有Sw 具有健壯性(Liu,Xin,et al.,2019)。關(guān)于結(jié)構(gòu)參數(shù)的及 CI,研究者在 HCDM(Hierarchical Cognitive Diagnosis Model;Templin &Bradshaw,2014)框架下進行了探索(Liu et al.,2021)。研究發(fā)現(xiàn),對于正確設(shè)定的屬性層級關(guān)系,即結(jié)構(gòu)模型完全正確設(shè)定時,在樣本量大于或等于3000 條件下這3 種方法均有較好的95% CI 覆蓋率;當(dāng)屬性之間存在層級關(guān)系但使用飽和CDM 估計時,即結(jié)構(gòu)模型參數(shù)存在部分冗余情景下,對于允許存在的結(jié)構(gòu)參數(shù)(permissible structural parameter),即根據(jù)屬性層級關(guān)系在理論上不等于0 的結(jié)構(gòu)參數(shù),XPD 和Obs 方法計算的有較好的表現(xiàn);對于非允許存在的結(jié)構(gòu)參數(shù)(impermissible structural parameter),即理論上等于0 的結(jié)構(gòu)參數(shù),XPD 方法計算的結(jié)構(gòu)參數(shù)的表現(xiàn)較好(Liu et al.,2021)。
準確地識別與驗證CDM 中的屬性層級關(guān)系能夠使研究者深入地了解被試作答的心理過程,具有重要的理論與實踐價值(Leighton et al.,2004)。然而,實踐中預(yù)先正確設(shè)定屬性層級關(guān)系是一個非常具有挑戰(zhàn)性的過程(Hu &Templin,2020;Liu et al.,2021;Ma &Xu,2021;Templin &Bradshaw,2014;Wang &Lu,2021)。如果認知診斷測驗中存在屬性層級關(guān)系,使用飽和CDM 擬合作答反應(yīng)數(shù)據(jù),相應(yīng)的結(jié)構(gòu)參數(shù)近似等于0。即,飽和CDM 的結(jié)構(gòu)參數(shù)能提供屬性層級是否存在的證據(jù)(Liu et al.,2021;Templin &Bradshaw,2014)。Liu 等人(2021)初步提出,結(jié)構(gòu)參數(shù)的已知時,可以使用統(tǒng)計量探索屬性層級關(guān)系,具體表達式為,
在多數(shù)情況下,可以使用XPD、Obs 或Sw 方法有效地計算CDM 中模型參數(shù)的,但是這些解析性方法主要有兩個缺點。(1)需要信息矩陣正定(positive definiteness)。DeCarlo (2011,2019)發(fā)現(xiàn),CDM 中的邊界值問題(boundary problems),會導(dǎo)致使用信息矩陣計算方差—協(xié)方差矩陣時存在非正定問題。關(guān)于邊界值及其可能導(dǎo)致的信息矩陣非正定問題將在第2 部分詳細闡述。(2)需要方差—協(xié)方差矩陣的對角線元素大于0,如果小于0 則會導(dǎo)致相應(yīng)的模型參數(shù)的無法計算。然而,在實踐中由于計算誤差的存在,可能會導(dǎo)致使用信息矩陣求逆計算的方差—協(xié)方差矩陣中的某個或某些元素小于0 (Liu &Maydeu-Olivares,2014)。例如,第5部分實證數(shù)據(jù)分析中基于Obs 的方差—協(xié)方差矩陣中第2 個結(jié)構(gòu)參數(shù)對應(yīng)的對角線元素小于0,而導(dǎo)致無法計算。這也就意味著,如果出現(xiàn)情形(1),則全部的模型參數(shù)的無法計算;如果出現(xiàn)情形(2),相應(yīng)的模型參數(shù)的無法計算。解析法信息矩陣所存在的以上問題,限制了其理論發(fā)展及實踐應(yīng)用。
除解析法外,另一類可用于計算及CI 的方法是自助法(Davison &Hinkley,1997;Efron &Tibshirani,1993),最常見的有參數(shù)化自助法(Parametric Bootstrap,PB)與非參數(shù)化自助法(Nonparametric Bootstrap,NPB)。PB 以及NPB 是一種應(yīng)用廣泛(例如,2019 年1 月至2021 年8 月份發(fā)表在《心理學(xué)報》上的論文中至少有20 篇論文用到了自助法)、通用性強,但計算密集(computerintensive)、費時的方法。與解析法信息矩陣不同,PB以及NPB 不需要有較強的前提假設(shè)以及大量的公式推導(dǎo)。這類方法是通過3 個步驟進行的。第一步是根據(jù)觀察數(shù)據(jù)集獲得重采樣數(shù)據(jù)集。第二步是根據(jù)重采樣數(shù)據(jù)集估計模型參數(shù)。以上兩步重復(fù)進行,直到達到預(yù)先設(shè)定的重抽樣次數(shù)。第三步,根據(jù)每次重復(fù)獲得的模型參數(shù)估計值,計算以及CI。PB 與NPB 的不同之處在于:PB 是先通過觀察數(shù)據(jù)集估計獲得模型參數(shù),再使用模型參數(shù)模擬生成重采樣數(shù)據(jù)集;NPB 則是通過有放回取樣的方式直接從觀察數(shù)據(jù)集中取樣。盡管研究者認為自助法可以用于計算CDM 中的及CI (Ma &de la Torre,2020b),且理論上可以較好地解決解析法信息矩陣在特定條件下無法計算的問題,然而其估計的準確性仍缺乏研究。作為一種計算密集型方法,計算量大、耗時長的缺點不僅限制了PB 與NPB 的理論研究,也造成了實踐應(yīng)用的困難。舉例而言,在PB 與NPB 的應(yīng)用中,進行重抽樣時,如果樣本量過少可能會影響到自助法的準確性,如果抽樣過多會因計算量增大而影響效率。目前,重抽樣次數(shù)的選擇問題仍存在爭議(例如,Bai et al.,2016;Efron &Tibshirani,1993;Guo &Wind,2021;Hayes,2009,2018;Lai,2021)。另外,PB 與NPB 在不同情景中估計CDM 的模型參數(shù)的及CI 的表現(xiàn)也需要進一步探討。隨著多線程、并行調(diào)度等計算技術(shù)的發(fā)展,并行計算技術(shù)被逐步用于計算密集型方法研究(Denwood,2016;Khorramdel et al.,2019)。僅以自助法為例,Zhang 和Wang (2020)開發(fā)了使用并行自助法的R 軟件包,并探討了其在統(tǒng)計功效分析中的應(yīng)用(Zhang,2014);線性混合效應(yīng)模型軟件包(Bates et al.,2015)也提供了并行計算的自助法,Jiang 等人(2021)以此為基礎(chǔ)探索了使用自助法計算概化系數(shù)的CI 估計值問題。
本文要解決的主要問題有:(1)借鑒以往研究中的并行自助法計算技術(shù),開發(fā)適用于CDM 的并行參數(shù)化自助法(parallel Parametric Bootstrap,pPB)和并行非參數(shù)化自助法(parallel Nonparametric Bootstrap,pNPB),提高CDM 中PB 與NPB 的計算效率。(2)系統(tǒng)探討pPB 與pNPB 在估計CDM 模型參數(shù)的及CI 時的表現(xiàn)。正如本文將要呈現(xiàn)的一樣,pPB 與pNPB 是一類簡易、可行的方法,不僅能有效解決CDM中與CI 理論研究中的重要問題,而且能有效提升實踐應(yīng)用中的計算效率。
接下來,本文將首先說明解析法信息矩陣計算時存在的問題,然后詳細介紹新提出的pPB 與pNPB 方法。第4 部分是模擬研究,分別探討CDM完全正確設(shè)定以及存在屬性層級關(guān)系條件下這兩個方法的表現(xiàn)。第5 部分是實證數(shù)據(jù)分析,主要用于說明及展示pPB 與pNPB 在估計CDM 模型參數(shù)的時的作用與價值。最后是討論與結(jié)論。
本部分以同一鏈接(identity link)下的G-DINA(Generalized Deterministic Input Noisy Output“AND” gate;de la Torre,2011)為例,分別呈現(xiàn)3 種解析法信息矩陣并闡述這些方法在計算CDM 模型參數(shù)的及CI 時可能會遇到的矩陣非正定,以及方差—協(xié)方差矩陣對角線元素可能小于0 等問題。
假設(shè)在一份認知診斷測驗中有個被試,個項目,個屬性,且屬性及項目均為二級計分,×維項目反應(yīng)矩陣記為 x ∈{x},×維Q 矩陣記為 Q ={q}。在飽和的G-DINA 模型中,被試正確作答項目的概率為,
其中,α=(α,…,α)′是第個被試的屬性掌握模式,q=(q,… ,q)′是Q 矩陣中所定義的正確作答項目所需要的屬性,λ=( ,λ ,,…) ′是項目的所有參數(shù)。對于飽和G-DINA 模型進行恰當(dāng)約束,可以獲得多種特殊模型。
為便于理解及行文,以=2,q=(1,1)′,α=(1,1)′為例。飽和G-DINA 的項目反應(yīng)函數(shù)可以表達為,
其中,λ為截距參數(shù),表示沒有掌握項目所需的任何屬性僅憑猜測正確作答項目的概率,λ和λ,2分別是對應(yīng)于第一個屬性()和第二個屬性()的主效應(yīng)參數(shù),λ,是這兩個屬性的交互效應(yīng)。
當(dāng)=2且屬性層級關(guān)系不存在時,所有可能的屬性掌握模式可以表示為,
當(dāng)測驗所測屬性之間存在層級關(guān)系時,對飽和模型(如G-DINA)的結(jié)構(gòu)參數(shù)以及項目參數(shù)加以適當(dāng)約束,可獲得 HCDM (Templin &Bradshaw,2014)。同樣以=2,q=(1,1)′,α= (1,1)′為例,且假定這兩個屬性之間存在線性層級關(guān)系:只有掌握才能掌握。那么,所有可能的屬性掌握模式為,
由于屬性層級關(guān)系約束,飽和結(jié)構(gòu)模型中的第三種屬性掌握模式 α不存在,即=(α)= 0。在當(dāng)前的例子中,HCDM 的項目反應(yīng)函數(shù)可以表示為,
可以發(fā)現(xiàn),如果真模型是 HCDM,但使用飽和G-DINA 模型估計參數(shù)時,某些結(jié)構(gòu)參數(shù)(例如,)以及項目參數(shù)(例如,飽和G-DINA 中的λ)的真值都等于0,在這種情況下會導(dǎo)致CDM 中的一些模型參數(shù)冗余。在接下來的部分中,參考以往研究中的表述(Liu,2018;Liu et al.,2021),將真值為0的參數(shù)統(tǒng)稱為非允許存在的參數(shù),真值不等于0 的參數(shù)統(tǒng)稱為允許存在的參數(shù)。
公式(5)中,I表示的是使用模型參數(shù)真值以及對單個被試的作答反應(yīng)向量求期望(即所有可能的作答反應(yīng)模式)而計算的期望 Fisher 信息矩陣(Liu et al.,2016;Liu,Xin et al.,2019)。但由于模型參數(shù)真值在實踐中是未知的,并且所有可能的作答反應(yīng)模式會隨著項目的數(shù)量呈現(xiàn)指數(shù)增長,因此I只具有理論價值,無法應(yīng)用于實踐(Liu,Xin et al.,2019)。
根據(jù)觀察數(shù)據(jù)對數(shù)似然函數(shù)關(guān)于模型參數(shù)的二階偏導(dǎo)而計算的Obs 矩陣可表示為(Liu,Xin et al.,2019;劉彥樓 等,2016),
需要特別說明的是,Obs 矩陣中的元素也可以等價地表達為(Liu &Maydeu-Olivares,2014;Liu,Xin et al.,2019),
在公式(8)中,與分別表示任意一個項目參數(shù)()或結(jié)構(gòu)參數(shù)();υ是作答反應(yīng)矩陣x 中獨特反應(yīng)模式的數(shù)量;與(x)分別代表第υ 個觀察到的獨特作答模式所占的實際比例以及期望。Sw矩陣因其形狀而得名,表達式為,
可以發(fā)現(xiàn)Sw 矩陣在計算過程中需要Obs 及XPD矩陣的參與。
基于以上陳述,接下來將重點闡述解析法信息矩陣的不足。首先,邊界值問題會對解析法信息矩陣造成嚴重影響。在CDM 中,至少有兩種情形會導(dǎo)致邊界值問題,使得無法使用解析法信息矩陣計算或者使變大(DeCarlo,2011,2019)。一種可能的情況是:由于項目參數(shù)λ表示的是截距項參數(shù),其取值范圍介于[0,1]之間。然而,在λ的真值等于0 或1 的極端情況下,由于真值在參數(shù)空間的邊界上,λ的估計值有較大可能會非常接近0 或1,造成項目參數(shù)的邊界值問題。另一種可能的情況是:CDM 中有非允許存在的結(jié)構(gòu)參數(shù)。當(dāng)CDM中存在屬性層級關(guān)系但使用飽和模型估計的時候,不可避免的有非允許存在的項目參數(shù)及結(jié)構(gòu)參數(shù)。因為結(jié)構(gòu)參數(shù)的取值區(qū)間為[0,1],非允許存在的結(jié)構(gòu)參數(shù)的真值恰好落在參數(shù)空間邊界上,其估計值可能會非常接近0,例如,10。邊界值問題會造成解析法信息矩陣不穩(wěn)定或者是奇異陣(Liu et al.,2021)。其次,如果非允許存在的結(jié)構(gòu)參數(shù)的估計值偏離其真值0,那么這個估計值是有偏的,不再符合公式(5)中的前提假設(shè),因此對XPD、Obs 以及Sw 矩陣的計算會造成不良影響。第三,可以發(fā)現(xiàn),Obs 矩陣等于XPD 矩陣減去公式(8)中最右側(cè)部分的表達式。但是由于計算誤差的存在,Obs 矩陣中對角線元素可能會小于0,對應(yīng)模型參數(shù)的無法計算,這是Obs 矩陣的一個不足(Liu &Maydeu-Olivares,2014)。
本研究新提出的pNPB 的具體實施步驟如下:
步驟(1),確定重抽樣的次數(shù),設(shè)定擬合模型;檢測CPU 的核心數(shù)量,據(jù)此創(chuàng)建并行運算環(huán)境中相應(yīng)數(shù)量的副本程序。
本研究新提出的pPB 的實施步驟如下:
CDM 完全正確設(shè)定或存在邊界值問題時,pNPB 以及pPB 的表現(xiàn)是本研究重點關(guān)注的問題。模擬研究的主要目的有兩個:(1)探討在理想條件下,即模型完全正確設(shè)定時,pNPB 和pPB 在估計以及CI 時的表現(xiàn);并與解析法XPD、Obs 和Sw 的表現(xiàn)進行比較。為使結(jié)果具有較好的一般性,數(shù)據(jù)生成模型及擬合模型均采用同一鏈接下的飽和G-DINA 模型。(2)探討當(dāng)屬性層級關(guān)系存在時,即當(dāng)模型的結(jié)構(gòu)參數(shù)及項目參數(shù)均存在非允許存在的參數(shù)時,這兩種方法在估計及CI 時的表現(xiàn)。需要特別說明的是,屬性間存在層級關(guān)系時,XPD、Obs 和Sw 很容易出現(xiàn)無法求逆的問題(Liu et al.,2021),因此難以在完全相同的模擬條件下比較自助法與解析法的表現(xiàn)。
檢索相關(guān)文獻(例如,Bai et al.,2016;Efron &Tibshirani,1993;Guo &Wind,2021;Hayes,2009,2018;Lai,2021)發(fā)現(xiàn),研究者對于重抽樣次數(shù)的設(shè)置有較大爭議,因此如何找到恰當(dāng)?shù)闹爻闃哟螖?shù)也是模擬研究關(guān)注的問題。
本研究使用(Ma &de la Torre,2020b)軟件包估計模型參數(shù),參考(Zhang &Wang,2020)及(Bates et al.,2015)軟件包中開源代碼自編pNPB 以及pPB 代碼,解析法信息矩陣XPD、Obs 和Sw 估計代碼來自Liu 等人(2021),感興趣的研究者可以聯(lián)系作者獲取。為保證各條件下CDM模型參數(shù)具有可識別性,尤其是屬性層級條件下的模型參數(shù)的可識別性(Gu &Xu 2019,2020),本研究參考Ma 和Xu (2021)的實驗設(shè)計使用圖1 中呈現(xiàn)的Q 矩陣。另外,為清晰地探討本研究中各自變量對pNPB 以及pPB 的影響,假定數(shù)據(jù)生成模型中每個條件下的結(jié)構(gòu)參數(shù)相等,主效應(yīng)及交互效應(yīng)相等,以消除模型參數(shù)大小對實驗結(jié)果的影響。使用云主機運行模擬程序,CPU 型號為英特爾i9-10980XE,18 核36 線程,每種實驗條件組合重復(fù)=500次以獲得穩(wěn)定的模擬結(jié)果。
圖1 模擬研究中使用的Q 矩陣
具體而言,數(shù)據(jù)生成模型有兩種:飽和G-DINA 及存在層級關(guān)系(→,→)的HCDM。數(shù)據(jù)生成模型為飽和G-DINA 時,估計方法有5 種:XPD、Obs、Sw、pNPB 以及pPB;數(shù)據(jù)生成模型為存在屬性層級關(guān)系的HCDM 時,估計方法有兩種:pNPB 以及pPB。pNPB 以及pPB方法的重抽樣次數(shù)有4 個水平:200、500、3000及5000 次。樣本量有兩個水平:1000 及3000。項目質(zhì)量有3 個水平:高質(zhì)量(( 0)= 0.1,(1)= 0.9)、中等質(zhì)量((0)= 0.2,(1)= 0.8)、低質(zhì)量((0)=0.3,(1)= 0.7),其中(0)表示僅憑猜測答對的概率,(1) 表示掌握項目所需要的全部屬性的被試正確作答該項目的概率。所有條件下均使用飽和G-DINA 模型估計模型參數(shù),也就是當(dāng)數(shù)據(jù)生成模型同樣為飽和G-DINA 時,模型參數(shù)是完全正確設(shè)定的;當(dāng)數(shù)據(jù)生成模型為HCDM 時,模型中存在一些真值為0 的項目參數(shù)與結(jié)構(gòu)參數(shù),此時模型參數(shù)是冗余的。
使用偏差(BIAS)以及95% CI 覆蓋率評價估計方法的表現(xiàn)。模型參數(shù)估計值的95% CI 為:
圖2 與圖3 分別呈現(xiàn)的是CDM 完全正確設(shè)定時,使用pNPB 以及pPB 計算的項目參數(shù)95% CI覆蓋率及的BIAS。在高質(zhì)量項目條件下,絕大多數(shù)項目參數(shù)的95% CI 都落在圖中灰線的理論范圍內(nèi),BIAS 能很好地接近于0;并且隨著樣本量的增加這兩項評價指標均在變好。在中等質(zhì)量項目條件下,= 1000時盡管有少許項目參數(shù)的95% CI落在理論范圍外且的BIAS 稍有波動,但絕大部分表現(xiàn)較好,這兩個評價指標的波動明顯高于高質(zhì)量項目條件;= 3000條件下,尤其是≥500時,絕大多數(shù)項目參數(shù)的95% CI 覆蓋率以及的BIAS 控制均有好的表現(xiàn)。在低質(zhì)量項目條件下,使用pNPB 以及pPB 計算的項目參數(shù)的95% CI 覆蓋率以及的BIAS 表現(xiàn)差異明顯:在= 1000的條件下,使用pNPB 計算的項目參數(shù)的絕大部分在理論區(qū)間之上且傾向于高估,使用pPB 計算的項目參數(shù)的絕大部分在理論區(qū)間之下且會傾向于低估;另外可以發(fā)現(xiàn)隨著樣本量的增大,在= 3000條件下項目參數(shù)95% CI 覆蓋率及的BIAS 的表現(xiàn)均在變好,且pPB 方法的表現(xiàn)優(yōu)于pNPB。可以發(fā)現(xiàn),當(dāng)重抽樣次數(shù)≥500時,相同條件組合下的模擬結(jié)果具有高一致性,尤其是=3000與= 5000兩者之間沒有發(fā)現(xiàn)明顯差異。
圖2 CDM 模型參數(shù)完全正確設(shè)定時,基于pNPB 與pPB 的項目參數(shù)的95% CI 覆蓋率
圖3 CDM 模型參數(shù)完全正確設(shè)定時,基于pNPB 與pPB 的項目參數(shù)的SE 的BIAS
圖4 與圖5 呈現(xiàn)的是CDM 完全正確設(shè)定時,基于解析法XPD、Obs 與Sw 的項目參數(shù)的95% CI覆蓋率及的BIAS??梢园l(fā)現(xiàn),高質(zhì)量以及中等質(zhì)量項目條件下的項目參數(shù)的有好的表現(xiàn);= 1000時,Sw 矩陣的表現(xiàn)略微優(yōu)于XPD 與Obs;當(dāng)樣本量增加到=3000時,XPD、Obs 以及Sw 矩陣的表現(xiàn)均在變好。對比高質(zhì)量以及中等質(zhì)量項目條件下XPD、Obs、Sw、pNPB 以及pPB 的模擬結(jié)果,可以發(fā)現(xiàn)多數(shù)情況下Sw 以及Obs 矩陣的表現(xiàn)略微優(yōu)于其他方法。低質(zhì)量項目條件下,XPD、Obs以及Sw 矩陣計算的項目參數(shù)的的表現(xiàn)受到較為嚴重的影響;= 1000時,XPD 與Obs 的95% CI覆蓋率絕大部分在理論區(qū)間之下且會傾向于低估,Sw 的95% CI 覆蓋率絕大部分在理論區(qū)間之上且會傾向于高估;=3000時,基于XPD、Obs以及Sw 的95% CI 覆蓋率大部分在理論區(qū)間內(nèi)。本研究還發(fā)現(xiàn),低質(zhì)量項目條件下的BIAS 結(jié)果中,基于XPD 及Sw 方法的項目參數(shù)的的結(jié)果分別有9 個及86 個在區(qū)間[-0.2,0.2]之外;檢查發(fā)現(xiàn),基于XPD 及Sw 方法計算的中有數(shù)值極端偏離正常值的結(jié)果(例如,估計值大于1000)。這也就是說,在低質(zhì)量項目且= 1000條件下,XPD 及Sw方法的表現(xiàn)不穩(wěn)定。綜合對比低質(zhì)量項目條件下,XPD、Obs、Sw、pNPB 以及pPB 的表現(xiàn),可以發(fā)現(xiàn)Obs 略優(yōu)于其他方法。
圖4 CDM 模型參數(shù)完全正確設(shè)定時,基于XPD、Obs 與Sw 的項目參數(shù)的95% CI 覆蓋率
圖5 CDM 模型參數(shù)完全正確設(shè)定時,基于XPD、Obs 與Sw 的項目參數(shù)的SE 的BIAS
圖6 與圖7 分別呈現(xiàn)的是CDM 完全正確設(shè)定時,基于自助法的結(jié)構(gòu)參數(shù)的95% CI 覆蓋率及的BIAS??梢园l(fā)現(xiàn),在高項目質(zhì)量條件下,使用pNPB 以及pPB 計算的結(jié)構(gòu)參數(shù)的均有好的表現(xiàn),所有結(jié)構(gòu)參數(shù)的95% CI 覆蓋率都落在圖中灰線的理論范圍內(nèi)或邊界上,BIAS 幾乎完全與0 重合。在中等質(zhì)量項目條件下,當(dāng)= 1000時,盡管結(jié)構(gòu)參數(shù)的95% CI 的波動明顯增大,但是大多數(shù)結(jié)構(gòu)參數(shù)的都有好的表現(xiàn),且BIAS 波動也很小;當(dāng)= 3000時,結(jié)構(gòu)參數(shù)的的兩種計算方法都有好的表現(xiàn)。在低質(zhì)量項目條件下,結(jié)構(gòu)參數(shù)的95% CI 覆蓋率以及BIAS 的表現(xiàn)受到嚴重影響,當(dāng)= 1000時,絕大多數(shù)使用pNPB 計算的結(jié)構(gòu)參數(shù)95% CI 在理論范圍之上且BIAS 明顯大于0,使用pPB 計算的95% CI 全部在理論范圍之下且BIAS明顯小于0,重抽樣次數(shù)的增加對于pNPB 及pPB的表現(xiàn)沒有明顯影響;當(dāng)= 3000時結(jié)構(gòu)參數(shù)的95% CI 覆蓋率及BIAS 這兩個評價指標均在變好,并且可以發(fā)現(xiàn)當(dāng)≥ 3000時pPB 的表現(xiàn)略微優(yōu)于其他重抽樣次數(shù)下的表現(xiàn);但是重抽樣次數(shù)的增加對于pNPB 的影響較小。
圖6 CDM 模型參數(shù)完全正確設(shè)定時,基于pNPB 與pPB 的結(jié)構(gòu)參數(shù)的95% CI 覆蓋率
圖7 CDM 模型參數(shù)完全正確設(shè)定時,基于pNPB 與pPB 的結(jié)構(gòu)參數(shù)的SE 的BIAS
圖8 與圖9 中呈現(xiàn)的是CDM 完全正確設(shè)定時,基于解析法的結(jié)構(gòu)參數(shù)的95% CI 覆蓋率及的BIAS。在高和中等項目質(zhì)量條件下,使用XPD、Obs 以及Sw 計算的結(jié)構(gòu)參數(shù)的均有好的表現(xiàn),幾乎所有結(jié)構(gòu)參數(shù)的95% CI 覆蓋率都落在圖中灰線的理論范圍內(nèi)或邊界上,BIAS 幾乎完全與0 重合。低質(zhì)量項目嚴重影響了使用XPD、Obs 以及Sw 計算的結(jié)構(gòu)參數(shù)的的表現(xiàn);= 1000時,使用XPD、Obs 計算的結(jié)構(gòu)參數(shù)95% CI 在理論范圍之下且大多數(shù)BIAS 小于0,使用Sw 計算的95% CI大部分在理論范圍之上且BIAS 明顯大于0;=3000 時XPD、Obs 以及Sw 計算的結(jié)構(gòu)參數(shù)95% CI覆蓋率及BIAS 的表現(xiàn)均在變好,尤其是使用Sw計算的結(jié)構(gòu)參數(shù)95% CI 大部分在理論范圍內(nèi)。另外,低質(zhì)量項目且= 1000條件下,基于Sw 方法計算的結(jié)構(gòu)參數(shù)的95% CI 覆蓋率及BIAS 中分別有1 個及3 個值在圖8 及圖9 的區(qū)間之外;檢查發(fā)現(xiàn),與先前一樣,也是由于基于Sw 方法計算的中有數(shù)值極端偏離正常值的結(jié)果。綜合對比XPD、Obs、Sw、pNPB 以及pPB,可以發(fā)現(xiàn)除了低質(zhì)量項目且= 1000條件下以上方法表現(xiàn)均比較差之外,Sw 方法的表現(xiàn)與其他方法相當(dāng)或優(yōu)于其他方法。
圖8 CDM 模型參數(shù)完全正確設(shè)定時,基于XPD、Obs 與Sw 的結(jié)構(gòu)參數(shù)的95% CI 覆蓋率
圖9 CDM 模型參數(shù)完全正確設(shè)定時,基于XPD、Obs 與Sw 的結(jié)構(gòu)參數(shù)的SE 的BIAS
如前所述,當(dāng)數(shù)據(jù)生成模型是HCDM,但使用飽和模型(如飽和G-DINA)估計模型參數(shù)時,可能會導(dǎo)致模型參數(shù)估計值的邊界值問題,造成解析法信息矩陣無法求逆或者會產(chǎn)生不穩(wěn)定的估計結(jié)果。自助法不存在矩陣求逆問題,但這種情況下pNPB 以及pPB 的表現(xiàn)有待進一步探索。
在模型參數(shù)冗余條件下,按照允許存在參數(shù)及非允許存在參數(shù)這兩類分別呈現(xiàn)項目參數(shù)及結(jié)構(gòu)參數(shù)的的研究結(jié)果。另外,為完整顯示全部結(jié)果,將模型參數(shù)冗余條件下的95% CI 覆蓋率的坐標范圍設(shè)置為[0.3,1]。圖10 與圖11 呈現(xiàn)的是允許存在項目參數(shù)的95% CI 覆蓋率及的BIAS??梢园l(fā)現(xiàn),盡管在高質(zhì)量及中質(zhì)量項目條件下,絕大多數(shù)的項目參數(shù)有良好的95% CI 覆蓋率及BIAS控制水平,但是有些參數(shù)的95% CI 低于圖中灰線的理論區(qū)間,并且存在較大的BIAS;且在項目質(zhì)量的所有水平下,這些極端偏離理論區(qū)間的項目參數(shù)的表現(xiàn)并沒有隨著其他實驗條件的改變而發(fā)生明顯的變化,甚至在= 3000時更加偏離理論區(qū)間。這主要是因為當(dāng)使用飽和模型估計HCDM 時,由于錯誤地設(shè)定某些“非允許存在”的屬性掌握模式為“存在”,造成了項目參數(shù)估計值存在偏差,影響了這些項目參數(shù)的95% CI 覆蓋率及BIAS 表現(xiàn)。例如,對比公式(3)和(4),可以發(fā)現(xiàn)如果“真”模型是帶有線性層級關(guān)系的HCDM,但使用飽和CDM 估計模型參數(shù)時,由于“非允許存在”的屬性掌握模式α被錯誤地設(shè)定為“存在”,造成飽和CDM 中結(jié)構(gòu)參數(shù)以及項目參數(shù)λ真值都等于0。除了極端偏離理論區(qū)間的項目參數(shù)外,仔細對比高質(zhì)量及中質(zhì)量項目條件下理論區(qū)間附近的項目參數(shù),可以發(fā)現(xiàn)隨著重抽樣次數(shù)從200 增加到3000,項目參數(shù)的 95% CI 覆蓋率略微變好,但是= 3000與= 5000兩個水平下的結(jié)果高度一致。在低質(zhì)量項目條件下,允許存在項目參數(shù)的95% CI 覆蓋率結(jié)果波動明顯。
圖10 CDM 模型參數(shù)冗余時,基于pNPB 與pPB 的允許存在項目參數(shù)的95% CI 覆蓋率
圖11 CDM 模型參數(shù)冗余時,基于pNPB 與pPB 的允許存在項目參數(shù)的SE 的BIAS
圖12 與圖13 中呈現(xiàn)的是CDM 模型參數(shù)冗余條件下非允許存在項目參數(shù)的95% CI 覆蓋率及的BIAS。整體而言,大部分非允許存在項目參數(shù)的95% CI 覆蓋率低于理論區(qū)間,大部分的BIAS 值也低于0。并且在同一個項目質(zhì)量水平下,這些非允許存在項目參數(shù)的表現(xiàn)具有較高的一致性。另外可以發(fā)現(xiàn)樣本量、項目質(zhì)量以及重抽樣次數(shù)對于這兩個指標沒有明顯影響。從估計方法角度而言,pNPB在估計非允許存在項目參數(shù)的的表現(xiàn)要稍微優(yōu)于pPB。
圖12 CDM 模型參數(shù)冗余時,基于pNPB 與pPB 的非允許存在項目參數(shù)的95% CI 覆蓋率
圖13 CDM 模型參數(shù)冗余時,基于pNPB 與pPB 的非允許存在項目參數(shù)的SE 的BIAS
圖14 與圖15 中呈現(xiàn)的是CDM 模型參數(shù)冗余條件下允許存在結(jié)構(gòu)參數(shù)的95% CI 覆蓋率和的BIAS 結(jié)果。對于允許存在結(jié)構(gòu)參數(shù)而言,在高質(zhì)量及中等質(zhì)量項目條件下,pNPB 及pPB 方法估計的95% CI 均在理論區(qū)間內(nèi)或邊界線上,且隨著樣本量及重抽樣次數(shù)的增加也在逐漸變好,允許存在結(jié)構(gòu)參數(shù)的的BIAS 也幾乎完全與0 重合。項目質(zhì)量對于結(jié)構(gòu)參數(shù)的95% CI 覆蓋率及BIAS 影響明顯,可以發(fā)現(xiàn)隨著項目質(zhì)量降低結(jié)構(gòu)參數(shù) 95%CI 覆蓋率的波動明顯增大,BIAS 對于0 的偏離也在增大。在低質(zhì)量項目條件下,當(dāng)= 1000時使用pPB 估計的結(jié)構(gòu)參數(shù)的95% CI 覆蓋率全部在理論區(qū)間之下,且通過BIAS 結(jié)果可以發(fā)現(xiàn)此種情況下pPB 傾向于低估;使用pNPB 估計的結(jié)構(gòu)參數(shù)95% CI 覆蓋率多數(shù)在理論區(qū)間之上,且通過BIAS結(jié)果可以發(fā)現(xiàn)這種方法傾向于高估;另外可以發(fā)現(xiàn)增加樣本量可以改進pNPB 和pPB 的表現(xiàn),但是增加重抽樣次數(shù)幾乎沒有影響。
圖14 CDM 模型參數(shù)冗余時,基于pNPB 與pPB 的允許存在結(jié)構(gòu)參數(shù)的95% CI 覆蓋率
圖15 CDM 模型參數(shù)冗余時,基于pNPB 與pPB 的允許存在結(jié)構(gòu)參數(shù)的SE 的BIAS
圖16 CDM 模型參數(shù)冗余時,基于pNPB 與pPB 的非允許存在結(jié)構(gòu)參數(shù)的95% CI 覆蓋率
圖17 CDM 模型參數(shù)冗余時,基于pNPB 與pPB 的非允許存在結(jié)構(gòu)參數(shù)的SE 的BIAS
在CDM 研究中,ECPE (the Examination for the Certificate of Proficiency in English;Templin &Bradshaw,2014)是經(jīng)典的實證數(shù)據(jù)之一。本研究所用ECPE 數(shù)據(jù)通過(Robitzsch et al.,2020)軟件包公開獲取,包含2922 名被試在28 個二值計分的英語語法測驗項目上的作答。英語測驗的內(nèi)容專家與心理測量專家合作研究認為:在這個數(shù)據(jù)集中共有3 個屬性:(詞法句法規(guī)則,morphosyntactic rules)、(整合規(guī)則,cohesive rules)以及(詞匯規(guī)則,lexical rules),圖18 中呈現(xiàn)了ECPE 數(shù)據(jù)集的Q 矩陣(Templin &Hoffman,2013);并且這3 個屬性之間可能存在線性層級結(jié)構(gòu)關(guān)系:→→(Liu et al.,2021;Templin &Bradshaw,2014;Wang&Lu,2021)。先前研究發(fā)現(xiàn)結(jié)構(gòu)參數(shù)的在探索屬性層級關(guān)系時有重要價值,因此本文以ECPE 數(shù)據(jù)的結(jié)構(gòu)參數(shù)的估計為例,對比以往相關(guān)研究結(jié)果(Liu et al.,2021),展示本研究的理論與實踐價值。
圖18 ECPE 數(shù)據(jù)集的Q 矩陣
圖19 中呈現(xiàn)了飽和結(jié)構(gòu)模型中8 種屬性掌握模式及其對應(yīng)的結(jié)構(gòu)參數(shù)估計值。表1 中呈現(xiàn)的是使用不同方法計算的圖19 中呈現(xiàn)的結(jié)構(gòu)參數(shù)估計值所對應(yīng)的。對比使用不同方法計算的結(jié)構(gòu)參數(shù)的估計值可以發(fā)現(xiàn),整體上使用pPB 方法估計的與使用XPD 方法估計的在數(shù)值上非常接近;使用pNPB 方法估計的與使用Sw 方法估計的在數(shù)值上比較接近。對比pNPB 方法與pPB方法可以發(fā)現(xiàn),pNPB 估計的的值比pPB 方法估計的值要大,這與模擬研究中CDM 模型參數(shù)冗余時允許存在的結(jié)構(gòu)參數(shù)的及非允許存在結(jié)構(gòu)參數(shù)的的結(jié)果是一致的。
圖19 ECPE 數(shù)據(jù)集中所有可能的屬性掌握模式及其對應(yīng)的結(jié)構(gòu)參數(shù)估計值
表1 ECPE 數(shù)據(jù)的結(jié)構(gòu)參數(shù)估計值的SE
為了直觀地說明pNPB 及pPB 在運算效率上的提升,本文比較了使用200、500 及3000 次重抽樣時新方法與傳統(tǒng)自助法在計算時間上的差異。結(jié)果顯示:pNPB 耗時分別是10.93 s、25.43 s、135.36 s;pPB 耗時分別是15.42 s、36.01 s、200.96 s;NPB 耗時分別是158.43 s、392.97 s、2282.33 s;PB 耗時分別是220.77 s、537.15 s、3201.17 s??梢园l(fā)現(xiàn),pNPB及pPB 極大地提升了計算效率。
CDM 研究中,模型參數(shù)的及CI 估計是一個具有重要價值且富有挑戰(zhàn)性的問題(de la Torre,2011;Liu et al.,2021;Ma &de la Torre,2019;von Davier,2014)。解析法信息矩陣XPD、Obs 及Sw等在多數(shù)的應(yīng)用情景中雖然有好的表現(xiàn)(Liu,Xin et al.,2019;Philipp et al.,2018;劉彥樓 等,2016),但其缺點在于需要矩陣正定,且易受邊界值問題的影響(DeCarlo,2011,2019);傳統(tǒng)自助法,如NPB以及PB 雖然具有前提假設(shè)少、通用性強的優(yōu)點,但是存在計算效率低、耗時長的問題(Ma &de la Torre,2020b)。本研究提出使用pNPB 以及pPB 計算CDM 模型參數(shù)的及CI,系統(tǒng)探討了模型設(shè)定、樣本量、重抽樣次數(shù)、項目質(zhì)量及具體估計方法對及CI 估計結(jié)果的影響;展示了pNPB 以及pPB 在分析可能存在屬性層級關(guān)系的CDM 實證數(shù)據(jù)ECPE 時的檢驗效果與計算效率。
特別指出的是,除了解析法信息矩陣、自助法外還有其他方法可以用于計算CDM 模型參數(shù)的與CI,如MCMC (Markov chain Monte Carlo)方法。MCMC 方法不僅可以用于計算模型參數(shù)估計值,而且可以通過計算估計過程中產(chǎn)生的模型參數(shù)的標準差,作為的估計。使用MCMC 估計CDM的模型參數(shù),計算耗時可能會特別長(例如,大于1小時)。對于模型參數(shù)的及CI 進行研究時,需要進行大量的重復(fù)(如500 次或以上)才能獲得可靠的模擬結(jié)果(Liu,Xin et al.,2019;Philipp et al.,2018;劉彥樓 等,2016)。另外,這類基于貝葉斯的方法可能對于先驗分布敏感(Jiang et al.,2021)。因此,本研究沒有探討使用MCMC 算法計算CDM 模型參數(shù)的及CI 的表現(xiàn)。
(1)自助法在估計及CI 時的表現(xiàn)
本質(zhì)而言,無論是NPB 還是PB 都是模擬從總體中抽樣獲得樣本數(shù)據(jù)的過程:將樣本或通過樣本估計獲得的模型參數(shù)認為是“總體”再抽樣計算的,是對于“樣本”的再抽樣。也就是,自助法無法超越它所依賴的“樣本”而憑空產(chǎn)生出更多的信息。因此,在CDM 的觀察數(shù)據(jù)中所包含的關(guān)于未知參數(shù)的信息越多、越準確,自助法的效果會越好。模擬研究中發(fā)現(xiàn),模型設(shè)定、樣本量以及項目質(zhì)量對于pNPB 及pPB 的表現(xiàn)有重要影響。這主要是因為在模型正確設(shè)定條件下,觀察數(shù)據(jù)與模型是完美擬合的;而模型參數(shù)冗余條件下的情景與此相反,可以明顯地觀察到使用飽和模型擬合帶有屬性層級關(guān)系的數(shù)據(jù)時,由于非允許參數(shù)的存在,模型參數(shù)估計值的估計準確性受到了很大的影響。這從側(cè)面說明了在CDM 中進行屬性層級關(guān)系檢驗或探索的重要性(Hu &Templin,2020;Liu et al.,2021;Ma &Xu,2021)。樣本量越大,所包含的關(guān)于未知參數(shù)的信息越多,模型參數(shù)估計值就會越準確;項目質(zhì)量越高,越能有效區(qū)分被試的屬性掌握模式狀況,也就是說此時樣本能夠提供更多信息,從而使得pNPB 及pPB 的表現(xiàn)越好。通過模擬數(shù)據(jù)觀察到的一個有意思的現(xiàn)象是在低質(zhì)量項目條件下,與同實驗水平組合的前半段參數(shù)相比,后半段的項目參數(shù)的 95%CI 覆蓋率及BIAS 的表現(xiàn)明顯變差。觀察Q 矩陣可以發(fā)現(xiàn),在最后4 個項目中每個項目都測量了3 個屬性,也就是說每個項目中都有8 個項目參數(shù)需要估計,也就是在低質(zhì)量項目條件下最后的4 個項目中可供利用的信息明顯少于其他項目。
(2)重抽樣次數(shù)對于自助法的影響
自助法是計算密集型方法,特定計算環(huán)境中重抽樣次數(shù)越多計算時間也就會越長(Efron &Tibshirani,1993),就理論而言,重抽樣次數(shù)的增加會增加估計準確的可能性(Hayes,2009,2018)。如前所述,在自助法中如何確定重抽樣次數(shù)還沒有明確的結(jié)論(Bai et al.,2016;Guo &Wind,2021;Lai,2021)。本研究在使用并行自助法計算效率提升的基礎(chǔ)上,探索了=200、500、3000 及5000 時的表現(xiàn)。從整體而言,重抽樣次數(shù)對于pNPB 及pPB表現(xiàn)的影響較小,當(dāng)重抽樣次數(shù)≥500時各條件組合下的模擬結(jié)果開始變得穩(wěn)定,= 3000與= 5000兩種重抽樣次數(shù)下的結(jié)果則幾乎完全相同。模型完全正確設(shè)定時一些條件下的參數(shù)或模型冗余設(shè)定時允許存在參數(shù)的95% CI 覆蓋率及BIAS的表現(xiàn)隨著重抽樣次數(shù)從200 增加到3000 稍有變好;在一些非理想情景下,如項目質(zhì)量低、非允許存在參數(shù)等,重抽樣次數(shù)的增加對于pNPB 及pPB 表現(xiàn)沒有明顯影響。實證數(shù)據(jù)分析發(fā)現(xiàn)pNPB在200、500 和3000 下的結(jié)果與10000 次重抽樣次數(shù)下的結(jié)果相比僅有細微的差別,pPB 在3000 次重復(fù)時的結(jié)果與10000 次重復(fù)下的結(jié)果幾乎一致。理論上而言,CDM 的信息矩陣是關(guān)于觀察數(shù)據(jù)中包含的模型參數(shù)信息的度量(Liu,Xin et al.,2019),而則是關(guān)于模型參數(shù)估計值不確定信息的度量(Liu et al.,2021),這也就是說,觀察數(shù)據(jù)中包含“信息”量的多少是影響表現(xiàn)的主要因素。本文的模擬及實證研究支持以上理論,因此作者認為影響自助法表現(xiàn)的最主要因素并非重抽樣次數(shù),而是觀察數(shù)據(jù)中所包含“信息”的多少。當(dāng)然,本文結(jié)論是否可以推廣到其他情景中有待進一步研究。
有一些重要問題需要在后續(xù)研究中進一步探討。(1)本文僅在項目數(shù)量為30,屬性數(shù)量為4 的條件下展開研究,后續(xù)研究者可以繼續(xù)探討不同項目數(shù)量及屬性數(shù)量對于pNPB 及pPB 的影響。(2)本研究僅以(→,→)層級關(guān)系為例,探討了模型參數(shù)冗余設(shè)定對于pNPB 及pPB 表現(xiàn)的影響,然而不同屬性層級關(guān)系條件下,模型參數(shù)的的表現(xiàn),尤其是結(jié)構(gòu)參數(shù)的的表現(xiàn)有待進一步探索?,F(xiàn)實中不僅會存在屬性層級關(guān)系,而且可能會同時存在屬性之間的相關(guān)(Hu &Templin,2020;Liu et al.,2021),限于研究目的,本研究沒有考慮這種情景。本文認為pNPB 及pPB 在探索及驗證屬性層級關(guān)系時的表現(xiàn)值得進一步研究。(3)除了本研究中使用的模型參數(shù)95% CI 計算方法外,還有一些基于自助法的CI 計算方法的表現(xiàn)也值得進一步關(guān)注(例如,Jiang,2021;Lai,2021)。(4)解析法信息矩陣在屬性層級關(guān)系存在時經(jīng)常會遇到無法求逆的問題,因此本研究無法直接比較這兩類方法的優(yōu)劣,Liu 等人(2021)初步提出了通過逐步排除非允許存在結(jié)構(gòu)參數(shù)的兩階段模型參數(shù)估計的思路,這也是一個具有重要理論及實踐價值的方向。本研究在CDM 模型參數(shù)完全正確設(shè)定條件下對比了解析法XPD、Obs、Sw、pNPB 及pPB 的表現(xiàn),結(jié)果顯示,解析法(如,Obs 或Sw)在一些條件下的表現(xiàn)要稍優(yōu)于pNPB 或pPB。后續(xù)研究可以比較兩階段模型參數(shù)估計思路下的解析法與pNPB 及pPB 方法的表現(xiàn)。(5)需要特別指出的是,pNPB 及pPB 除可以用于計算及CI 外,還有很多潛在的理論及實踐價值。研究者可以進一步探索pNPB 及pPB 在項目功能差異檢驗、項目水平上的模型比較、Q 矩陣檢驗等領(lǐng)域中的表現(xiàn)。(6)本文在CDM 框架下探討了pNPB 及pPB 的表現(xiàn),但是作為通用性強的一類方法,后續(xù)研究者可以在開發(fā)并行方法的基礎(chǔ)上,在其他統(tǒng)計與測量模型中深入探討自助法的表現(xiàn),以解決先前研究沒有明確的結(jié)論或結(jié)論相沖突的問題(例如,Efron &Tibshirani,1993;Hayes,2009,2018;Lai,2021)。
結(jié)果顯示:(1) CDM 完全正確設(shè)定時,在高質(zhì)量及中等質(zhì)量項目條件下,使用pNPB 及pPB 這兩種方法計算的項目參數(shù)和結(jié)構(gòu)參數(shù)95% CI 覆蓋率及BIAS 均有好的表現(xiàn);且隨著樣本量的增大及項目質(zhì)量的變好,這兩種方法的表現(xiàn)也在變好。低項目質(zhì)量嚴重影響了pNPB 及pPB 的表現(xiàn),pNPB 傾向于高估模型參數(shù)的,pPB 則傾向于低估。(2)在CDM 的模型參數(shù)存在冗余時,在高質(zhì)量及中等質(zhì)量項目條件下,使用pNPB 及pPB 這兩種方法計算的大部分允許存在項目參數(shù)和幾乎全部允許存在結(jié)構(gòu)參數(shù)的95% CI 覆蓋率及BIAS 均有好的表現(xiàn),但是也存在部分項目參數(shù)的95% CI 覆蓋率極端偏離理論區(qū)間且BIAS 值為負數(shù)的情況。非允許存在項目參數(shù)及結(jié)構(gòu)參數(shù)的95% CI 覆蓋率在大多數(shù)條件下表現(xiàn)較差。(3)探討了pNPB 及pPB 在實證數(shù)據(jù)中的效果,發(fā)現(xiàn)使用pNPB 及pPB 計算的,獲得了同先前研究一致的結(jié)論,即ECPE 數(shù)據(jù)中存在線性屬性層級關(guān)系;同NPB 及PB 相比,pNPB 及pPB 極大地提升了計算效率,是簡易、可行的及CI 計算方法。(4)綜合模擬研究與實證數(shù)據(jù)分析結(jié)果,本研究初步認為:在pNPB 及pPB 方法中為快速預(yù)覽估計結(jié)果可以選擇200 次重抽樣;為獲得較為準確的估計結(jié)果,審慎起見可以選擇3000 或以上的重抽樣次數(shù)。