王曉潔,張敏強,簡小珠,蔡圣剛
(1.華南師范大學心理學院/心理應用研究中心,廣州510631;2.井岡山大學教師教育研究中心,吉安343009;3.華南師范大學經濟與管理學院,廣州510631)
項目反應理論(Item Response Theory,簡稱IRT)是相對于經典測量理論(Classical Testing Theory,簡稱CCT)而言的一種新的測量理論,它較多應用在成就測驗中,而隨著理論的發(fā)展,其應用領域已擴展到了人格量表。Roskam(1985)率先指出IRT項目參數在人格量表中的意義。隨后,越來越多IRT 模型用于人格量表的研究,主要集中在量表的項目分析和記分解釋方面,并將IRT 方法與傳統(tǒng)的CTT 方法進行比較(Lange & Houran,1999;Rapson,2005;朱寧寧,張厚粲,2005;楊業(yè)兵等,2008)。Reise 和Waller(2003)對進行人格量表數據分析的IRT 模型選擇進行了討論。
這些研究都基于參數項目反應理論(Parametric Item Response Theory,簡稱PIRT),使用2PLM、3PLM或等級反應模型等PIRT 模型。近十年,有研究者開始關注項目反應理論中另一大分支——非參數項目反應理論(Nonparametric Item Response Theory,簡稱NIRT)在人格量表中的應用研究。Junker 和Sijtsma(2001)對非參數項目反應理論的使用提出三條理由:(1)為參數項目反應模型提供一種更深的理解;(2)為參數項目反應模型的局限性提出更適應更有彈性的框架;(3)為短量表和小樣本提供比大樣本測驗更容易更準確的方法。
Chernyshenko 等人(2001)將NIRT 模型應用到人格量表中,他們分別用2PLM,3PLM,等級反應模型和NIRT 模型與16PF 和大五人格測驗數據進行擬合比較,發(fā)現非參數模型與實際數據擬合最好。Meijer 和Baneke(2004)進一步探索應用NIRT 模型解釋和分析人格量表,并與PIRT 模型比較。他們將MMPI-2 中的抑郁分量表與莫肯模型(Mokken Model)進行擬合分析,說明NIRT 模型易于應用并且能夠避免PIRT 模型得到的錯誤結果。另外,NIRT 模型還常用于構建等級量表(Hierarchical scale)(Stewart & Watson,2010;Watson & Robert,2008)。
Meredith 于1965 年將非參數模型引入項目反應理論中,Mokken(1971,1997)在此基礎上將NIRT模型做了系統(tǒng)的闡述與研究,提出適用于二級記分項目的Mokken 模型。非參數項目反應理論的基本思想是:用被試在量表中的得分來對被試的潛在特質進行排序,而這樣排序的結果與用被試的潛在特質排序的結果等效。與PIRT 模型不同,Mokken 模型不定義被試應答模式與潛在特質之間的函數關系。也就是說,當數據與Mokken 模型擬合時,只能得到被試潛在特質在此特質量尺上的位置信息,而不能得到被試潛在特質與項目參數的點估計值。
Mokken(1971,1997)提出兩種模型——單調勻質模型(The Monotone Homogeneity Model,MHM)和雙單調模型(The Double Monotonicity Model,DMM),DMM 比MHM 多了一個不變的項目順序假設,可以認為DMM 是MHM 的特例。MHM 基于三個基本假設:(1)單維性,(2)局部獨立性,(3)項目反應函數的單調性。如果一個數據集滿足以上三個假設,就稱其為Mokken 量表。
1.2.1 Mokken 模型擬合檢驗
在Mokken(1971,1997)模型中,適宜性系數H(Scalability coefficient)表示量表數據結構與期望量表結構的誤差。適宜性系數有三種:由項目j 和項目k 組成的成對試題的適宜性系數Hjk、項目j 的適宜性系數Hj和整個量表適宜性系數H。分別定義如下:
其中,Xj和Xk分別表示被試在項目j 和項目k上的得分,Cov(Xj,Xk)表示Xj和Xk的協(xié)方差,Covmax(Xj,Xk)為邊緣分布情況下,項目j 和項目k的最大協(xié)方差。Mokken(1971)根據適宜性系數對Mokken 量表作出以下定義:(1)量表中所有項目對的協(xié)方差值或成對適宜性系數值為正,Cov(Xj,Xk)>0 或Hjk>0,j≠k,并且(2)所有的項目適宜性系數值大于或等于常數c,Hj≥c,0 <c <1。通常選擇c=0.3。
適宜性系數不但是數據與模型擬合的指標,Hj也可作為項目j 的區(qū)分度指標,與Logistic 模型中的a 參數類似。Mokken(1986)和Koning(2002)等人指出H 值越高,根據量表總分對被試潛質進行排序就越有效。
單維性假設檢驗:自下而上的順序選題過程(Bottom-up item selection procedure)是根據適宜性系數從題庫中構建一個或多個單維量表的方法(Hemker,Sijtsma,& Molenaar,1995)。MSP5 軟件提供了構建單維量表的自動選題程序(Molenaar & Sijtsma,2000)。Hemker,Sijtsma 和Molenaar(1995)根據模擬實驗結果,建議用順序選題法檢驗量表維度時,應選擇不同的適宜性系數下限c 多次運行自動選題程序,并總結出判斷量表維度的法則。
單調性假設檢驗:項目j 的單調性就是檢驗它的正向應答概率是否為潛質水平的非遞減函數。可以在MSP5 中進行檢驗(Molenaar & Sijtsma,2000),其中每個項目的Crit 值作為單調性的指標,若Crit值超過80,則不滿足單調性;若Crit 值在40 和80 之間,應根據項目內容和量表目的考慮是否保留;若Crit 值小于40,則認為它基本滿足單調性,個別的違背單調性情況可視為被試抽樣誤差。
1.2.2 項目反應函數及特征曲線
在Mokken 模型中,通常使用核平滑方法估計項目反應函數(Item Response Function,IRF),它是一種非參數回歸方法,基于局部加權的思想。通過TestGraf 軟件能夠得到各個項目在其余分數上的IRF 直觀圖示,即項目特征曲線(Item Characteristic Curve,ICC)(Ramsay,2000),其余分數指除被檢驗的項目外,其他項目的量表總分。Mokken 模型對IRT 沒有特定形式,如Logistic 的要求,與實際數據吻合。
1.2.3 平均項目信息函數
TestGraf 提供了幾種檢驗潛質測量準確性的方法,平均項目信息曲線是其中一種(Ramsay,2000)。二級記分項目的信息函數為
這里的潛質值θ 同樣由其余分數代替。Pj(θ)使用核平滑方法計算,表示潛質為θ 的被試在第j 個項目選擇1 時的概率。平均項目信息量越大,說明根據總分對被試潛質進行排序的結果越準確。同時,從平均項目信息曲線還可以得出量表測量特性信息。
以艾森克個性問卷(Eysenck Personality Questionnaire,EPQ)中的情緒穩(wěn)定性(N)分量表為例(龔耀先,1983),比較Mokken 模型及PIRT 模型與量表的擬合度、項目分析和測量準確性等結果,PIRT 模型選擇2PLM 和3PLM。從而分析NIRT 模型用于人格測驗分析的可行性、優(yōu)勢和適用性。
選用龔耀先1983 年修訂的艾森克個性問卷成人版(EPQ)中的情緒穩(wěn)定性(N)分量表(龔耀先,1983),該分量表共有24 個項目。被試為來自廣州某高校的1451 名在校大學生,其中男生799 人,女生652 人,平均年齡為19.49 ±1.03。所有被試完成EPQ 問卷所有88 個項目。
使用MSP5 檢驗量表的單調性和單維性,并計算量表適宜性系數H 及各項目的適宜性系數Hj,使用TestGraf98 軟件估計Mokken 模型下各項目的IRF 和平均項目信息函數,得到項目ICC 和平均項目信息曲線。PIRT 的參數值、及其ICC、測驗信息曲線由MULTILOG7.03 估計得出,用BILOG3.0 計算實際數據與2PLM、3PLM 的擬合χ2值。為了驗證MSP5 檢驗單維性的準確性,再使用SPSS15.0 對數據進行主成分分析。
3.1.1 單調性檢驗
首先在MSP5 中進行單調性檢驗,結果顯示除項目27 外,其余23 個項目沒有出現任何違背單調性的情況。項目27 的Crit = 26 ,小于40,那么可以認為它出現的個別違背單調性情況是由抽樣誤差引起的。經過檢驗,可以認為N 分量表中24 個項目全部滿足單調性假設。而且所有項目的ICC 都是單調遞減的,驗證MSP5 檢驗單調性的準確性。
3.1.2 單維性檢驗
從c = 0.1 開始,由低到高選擇不同的適宜性系數下限c,在MSP5 中多次運行自動選題程序來檢驗量表的單維性。結果顯示,當下限c = 0.1 和0.2 時,得到相同的量表,所有項目都在這個量表中,沒有項目被拒絕,量表的適宜性系數H = 0.33 。將下限提高到0.3 時,項目15、27、51、67、86 與其他項目不在同一量表中,得到19 個項目的量表,量表的適宜性系數H = 0.38 。而當c = 0.4 時,量表變?yōu)?0 個項目,量表適宜性系數H = 0.44 ,并形成另外三個更小的量表,還有6 個項目被拒絕。根據Hemker 的經驗法則(Hemker,Sijtsma,& Hamers,1995),可以將下限為0.2 或者0.3 時的量表作為最終結果,因此,情緒穩(wěn)定性量表滿足單維性假設。
應用SPSS15.0 對數據進行主成分分析,結果發(fā)現分量表第一和第二因子的負荷量分別為24.8%和5.5%,第一因子負荷量是第二因子的4.5 倍,而且碎石圖的第一因子拐點明顯,可以認為此分量表滿足單維性要求。
在Mokken 模型下,計算每個項目的適宜性系數Hj。估計被試在2PLM 和3PLM 中的參數值,并對所選Logistic 模型與實際數據的擬合性做χ2檢驗。所有結果見表1。
所有項目的Hj值在0.24 到0.44 之間,2PLM和3PLM 的a 參數值在0.82 到2.13 之間,都在正常范圍內,說明所有項目都有較好的區(qū)分度。仔細觀察Hj與2PLM 和3PLM 的a 參數值的關系,發(fā)現Hj與a 參數大小基本一致。Hj大于0.35 的項目,a參數值大多都在1.50 以上,Hj小于0.30 的項目,a參數值都在1.20 以下。而項目12、73 和82 不遵循此規(guī)律,項目12 的適宜性系數在24 個項目中最大,H12= 0.44 ,但是a 參數值卻偏小,只有1.15 和1.18。項目82 類似,H82= 0.33 ,是中等水平,a 參數值在24 個項目中最小,為0.82 和0.83。
2PLM 與實際數據的χ2檢驗結果顯示項目12、35、73 和82 與模型不擬合,3PLM 與實際數據的χ2檢驗結果顯示除27、59、63 和74 項目外,其他均與模型不擬合,那么不適合用3PLM 分析N 量表。
單調性與單維性檢驗結果顯示24 個項目都與Mokken 模型擬合,可以認為N 量表是Mokken 量表,H = 0.33 。
表1 N 量表各項目的Hj 及2PLM、3PLM 中的a 參數值
分別估計24 個項目在Mokken 模型和2PLM 下的ICC,由于TestGraf 得到的是選項特征曲線,而N量表為二級記分,所以圖中有兩條對稱的曲線,標為1 的即為該項目的特征曲線。對比兩種模型下的ICC,結果發(fā)現大部分項目在兩個模型中的ICC 圖非常接近,而4 個與2PLM 不擬合的項目在兩種模型下的ICC 差異較大,尤其是項目12 與82。圖1給出這兩個項目的ICC 圖,在Mokken 模型下的ICC不符合Logistic 形態(tài),見圖1a,它們的曲線在低分段急劇上升,高分段變化平緩,項目12 選擇1 的概率范圍在0 到0.9 之間的被試其余分數約為0 到8,項目82 選擇1 的概率范圍在0 到0.9 之間的被試其余分數約為0 到10。這說明它們能夠較好區(qū)分中低分被試,而且區(qū)分度較高,特別是項目12,H12=0.44 。如果用2PLM 的ICC 分析這兩個項目,見圖1b,則在低分段急劇上升的趨勢不明顯,不能反映數據的真實情況,從而得出這兩個項目區(qū)分度不高的錯誤結果。
從這兩個項目看出,采用與數據不擬合的模型分析項目會得出錯誤結果。如果刪除又錯過有用信息,因為這些項目本身可能有應用價值。如項目12 與82 相比其它項目能夠更有效地區(qū)分中低分被試。
圖1a 項目12、82 在Mokken 模型下的ICC
圖1b 項目12、82 在2PLM 下的ICC
個不擬合項目,剩余19 個項目的平均項目信息曲線。圖2c 和2d 分別是2PLM 中,24 個項目和刪除4 個不擬合項目后的測驗信息曲線。
圖2a Mokken 模型下24 個項目平均項目信息曲線
圖2b Mokken 模型下19 個項目平均項目信息曲線
圖2c 2PLM 中24 個項目測驗信息曲線
圖2d 2PLM 中20 個項目測驗信息曲線
從圖2a 中看出,量表其余分數為2 到18 的被試提供了較大的信息量,對于中低分的被試根據量表總分對情緒穩(wěn)定性排序的結果較準確。其中被試其余分數為7 或8 分時,項目的平均信息量最大約為0.32。而刪除項目15、27、51、67、86 后,平均項目信息量有所提高,為0. 40 左右,增量大約為0.080。N 量表在2PLM 下,測驗最大信息量為11.21,最大平均項目信息量是0.47。刪除不擬合的4 個項目,其余20 個項目的測驗最大信息量為10.3,最大平均信息量增加到0.51,增量是0.045。從中可以看出,雖然在Mokken 模型中測量準確性不如2PLM 高,但也在可接受范圍內,說明按照量表總分對被試潛質進行的排序是較準確的。而且高Mokken 模型擬合標準,使量表平均項目信息量的增量比2PLM 刪除不擬合項目增加的平均項目信息量大0.035,差異較明顯。那么根據Mokken 模型的擬合程度鑒別刪除性能不好項目比PIRT 模型擬合檢驗更加準確有效。
文中展示NIRT 模型如何用于分析人格量表,并與PIRT 模型量表擬合性和項目分析結果做比較,從中總結出NIRT 模型用于人格測驗的優(yōu)勢和適用性。
第一,NIRT 模型基于弱假設,容易與數據擬合。只要符合單調性與單維性假設的項目都可以用NIRT 模型分析,而PIRT 模型要求數據較嚴格,沒有擬合特定形式參數模型的項目就要被刪除,但是這些項目可能在某些特定潛質水平或特定樣本上仍然是有用的(Meijer,& Baneke,2004)。NIRT 模型可準確地分析這些項目性能。
第二,NIRT 模型比PIRT 模型靈活,更貼近實際數據。PIRT 模型限制項目的IRF 符合Logistic 形式,可能導致研究者無從獲得貼近實際數據的項目IRF,而偏離了真實情況。NIRT 模型對項目IRF 沒有特定形式的要求,完全根據實際數據獲得,可能是任何形式,相比PIRT 模型更加靈活。而人格測驗的反應模式復雜多樣,需要應用靈活的NIRT 模型使研究者了解更多更加貼近實際情況的信息。
第三,可根據NIRT 擬合程度構建準確有效短量表。人格量表的項目一般較多,在特定情況下需要使用較短量表施測,那么提高NIRT 模型擬合標準刪除不擬合項目可以構建測量準確有效的短量表。如研究中將下限提高到0.3 時,得到19 個項目的量表,平均項目信息量明顯提高。若需要更短的量表,那么0.4 的下限可構建10 個項目的N 量表。PIRT 模型刪除不擬合項目后,平均項目信息量提高較小。這說明與PIRT 模型不擬合的項目并不是性能最差項目,那么根據PIRT 模型擬合性構建短量表不夠準確有效。
第四,NIRT 模型原理簡單易懂。為了準確反映人格量表項目存在非0 下漸近線和非1 上漸近線現象,Reise 和Waller(2003)提出使用4PLM。然而PIRT 模型本身算法復雜,將參數增加到4 無疑更加難以理解,參數估計也更加難以實現。很多研究者已經強調過進行數據推斷或檢驗假設時使用的模型越簡單和越靈活越好(Junker & Sijtsma,2001;Santor &Ramsay,1998)。Mokken 模型建立在協(xié)方差和非參數回歸技術之上,這些方法都簡單易懂,而且MSP5 軟件和TESTGRAF98 軟件操作方便,易于掌握。
綜上所述,NIRT 模型以及它相關的分析技術非常適用于人格量表分析。然而,并不是說用NIRT模型替代PIRT 模型進行所有人格量表分析。畢竟NIRT 模型存在最大的一個弊端就是只能根據被試在量表上的總分,對潛質特質進行排序,而不能直接估計被試潛質數值,因此測量準確性比PIRT 模型稍差。那么,必須要考慮NIRT 模型分析人格量表的適用性。
第一,NIRT 模型可作為PIRT 模型的補充。若要使用PIRT 模型,如2PLM、3PLM 分析或構建人格量表時,可以在之前進行NIRT 模型分析。將其作為檢驗單調性、單維性假設的方法。更重要的是NIRT 模型得到的貼近實際數據的IRF 可以作為判斷選用哪一種PIRT 模型研究數據,和對項目進行初步分析的依據。
第二,NIRT 模型可作為PIRT 模型的替代模型。如果研究數據與PIRT 模型擬合較差,此時可以用NIRT 模型完全替代PIRT 模型進行數據分析。
第三,NIRT 模型可用于構建人格量表維度。常用的人格量表一般都是以某種人格理論為基礎,根據不同的潛質特質分為幾個不同維度的分量表,那么NIRT 單維性檢驗的選題策略就尤其有用。
N 量表與Mokken 模型完全擬合,與2PLM 有4個項目不擬合,而不擬合項目用Mokken 模型分析比2PLM 模型準確,根據NIRT 模型擬合程度刪除項目后,平均項目信息量的增量明顯高于根據2PLM擬合程度刪除項目后的增量。NIRT 模型適用于人格測驗,優(yōu)勢體現在比PIRT 模型易與數據擬合且更加靈活,有效構建短量表,原理簡單易懂。人格測驗研究中,NIRT 模型可作為PIRT 模型的補充和替代模型,也可作為構建量表維度的方法。
Molenaar(2001)指出,NIRT 中的MSP5 等分析過程可以使數據得到充分的利用,從而與短量表或小樣本數據擬合。也就是說NIRT 模型適用于小樣本的數據,而PIRT 模型需要較大的樣本量,當人格量表樣本量較小時,NIRT 模型如何體現出相對PIRT 模型的優(yōu)勢可作為以后的研究方向。
龔耀先.(1983).修訂艾森克個性問卷手冊.長沙:湖南醫(yī)學院.
楊業(yè)兵,苗丹民,等. (2008). 應用項目反應理論對《中國士兵人格問卷》的項目分析.心理學報,40(5),611 -617.
朱寧寧,張厚粲.(2003).CTT 與IRT 方法對人格量表結果處理的比較研究.心理學探新,23(3),48 -51.
Chernyshenko,O.S.,Stark,S.,Chan,K.,et al. (2001).Fitting item response theory models to two personality inventories:Issue and Insight.Multivariate Behavioral Research,36(4),523-562.
Hemker,B.T.,Sijtsma,K.,& Molenaar,I. W. (1995). Selection of unidimensional scales from a multidimensional item bank in the polytomous Mokken IRT model. Applied Psychological Measurement,19(4),337 -352.
Junker,B. W.,& Sijtsma,K. (2001). Nonparametric item response theory in action:An overview of the special issue.Applied Psychological Measurement,25(3),211 -220.
Koning,D.E.,Sijtsma,K.,& Hamers,J.H.M.(2002).Comparision of four IRT models when analyzing two tests for inductive reasoning. Applied Psychological Measurement,26(3),302 -320.
Lange,R.,& Houran,J.(1999).Scaling MacDonald’s AT-20 usingitem -response theory.Personality and Individual Differences,26,467 -475.
Meijer,R.R.,& Baneke,J.J.(2004).Analyzing psychopathology items:A case for nonparametric item responsetheory modeling.Psychological Methods,9(3),354 -368.
Mokken,R.J.(1971).A theory and procedure of scale analysis.The Hague,The Netherlands:Mouton.
Mokken,R. J. (1997). Nonparametric models for dichotomous responses. In W. J. van der Linden & R. K. Hambleton(Eds.),Handbook of modern item response theory(pp.351 -367).New York:Springer-Verlag.
Mokken,R. J.,Lewis,C.,& Sijtsma,K. (1986). Rejoinder to“The Mokken scale:A critical discussion”. Applied Psychological Measurement,10(3),279 -285.
Molenaar,I.W.(2001). Thirty years of nonparametric item response theory. Applied Psychological Measurement,25(3),295 -299.
Molenaar,I. W.,& Sijtsma,K. (2000). MSP5 for Windows,a program for Mokken scale analysis for polytomous items.Groningen,The Netherlands.
Ramsay,J.O. (2000). TestGraf. A program for the graphical analysis of multiple-choice tests and questionnairedata.McGill University.
Rapson,G. (2005). An item response theory analysis of the Carver and White(1994)BIS/BAS Scales.Personality and Individual Differences,39,1093 -1103.
Reise,S. P.,& Waller,N. G. (2003). How many IRT parameters does it take to model psychopathology items?Psychological Methods,8(2),164 -184.
Roskam,E. E. (1985). Current issues in item responsetheory:Beyond psychometrics. In E. E. Roskam(Ed.),Measurement and personality assessment(pp.3 -19). Amsterdam:Elsevier Science.
Santor,D.A.,& Ramsay,J.O.(1998).Progress in the technology of measurement:Applications of item response models.Psychological Assessment,10(4),345 -359.
Stewart,M.E.,Watson,R.,Clark,A.,et al. (2010). A hierarchy of happiness?Mokken scaling analysis of the Oxford Happiness Inventory. Personality and Individual Differences,48,845 -848.
Watson,R.,Roberts,B.,Gow,A.,et al.(2008).A hierarchy of items within Eysenck’s EPI. Personality and Individual Differences,45,333 -335.