劉 玥 劉紅云
(北京師范大學(xué)心理學(xué)部,北京 100875)
在成就測(cè)驗(yàn)中,存在著一種高能力被試答錯(cuò)容易題目的“睡眠現(xiàn)象(sleeping phenomenon)”(Wright,1977)。造成這種現(xiàn)象的原因可能有:焦慮、不良的測(cè)試環(huán)境導(dǎo)致被試分心、粗心、誤解題意,測(cè)驗(yàn)動(dòng)機(jī)過(guò)強(qiáng)和家長(zhǎng)期望壓力過(guò)大等。同時(shí),在心理測(cè)驗(yàn)(如人格測(cè)驗(yàn))中,也存在一種由于被試掩飾、說(shuō)謊等原因,在試題上表現(xiàn)出人格特征維度低水平方向的傾向性作答,使得被試在這一人格特征維度上總分偏低的現(xiàn)象(簡(jiǎn)小珠,焦璨,彭春妹,2010)。睡眠現(xiàn)象會(huì)導(dǎo)致測(cè)驗(yàn)總分偏低,從而造成測(cè)量偏差。在項(xiàng)目反應(yīng)理論下,為了對(duì)睡眠現(xiàn)象進(jìn)行修正,McDonald(1967)最早提出使用參數(shù)來(lái)反映一部分高能力被試答錯(cuò)了容易試題的現(xiàn)象。睡眠現(xiàn)象可能會(huì)單獨(dú)出現(xiàn)。例如,對(duì)于一些難度較大的填空題,高能力被試未必能全部答對(duì),而低能力被試則很難猜對(duì)。這時(shí)可以使用含有難度、區(qū)分度和睡眠參數(shù)(上漸近線(xiàn)參數(shù))的三參數(shù)Logistic模型擬合數(shù)據(jù)。另外,睡眠現(xiàn)象和猜測(cè)現(xiàn)象可能同時(shí)出現(xiàn),這時(shí)可以在傳統(tǒng)IRT模型(以下簡(jiǎn)稱(chēng)傳統(tǒng)模型)基礎(chǔ)上加入睡眠參數(shù),來(lái)反映數(shù)據(jù)結(jié)構(gòu)。
1.2.1四參數(shù)Logistic模型定義
Waller和Reise(2010)在最早的四參數(shù)Logistic模型基礎(chǔ)上進(jìn)行拓展,提出了廣義模型。該模型中每道題目的睡眠參數(shù)是不同的。
其中,aj,bj,cj分別表示區(qū)分度、難度、猜測(cè)參數(shù)。dj表示睡眠參數(shù),在傳統(tǒng)模型中,dj固定為1,而在此模型中,dj可以小于1且在題目間變化。
另外,如果測(cè)驗(yàn)中僅存在睡眠現(xiàn)象而不存在猜測(cè)現(xiàn)象,則可以使用含有難度、區(qū)分度和睡眠參數(shù)的三參數(shù)logistics模型(Waller & Reise,2010)。
1.2.2四參數(shù)Logistic模型估計(jì)
四參數(shù)Logistic模型在產(chǎn)生初期應(yīng)用并不廣泛,這主要是由于傳統(tǒng)的極大似然估計(jì)方法很難實(shí)現(xiàn)該模型的參數(shù)估計(jì)(Waller & Reise,2010)。而貝葉斯估計(jì)方法對(duì)于估計(jì)復(fù)雜、多參數(shù)的模型非常有效。因此,Loken和Rulison(2010)使用貝葉斯估計(jì)方法實(shí)現(xiàn)了對(duì)四參數(shù)Logistic模型的參數(shù)估計(jì)。
1.2.3四參數(shù)Logistic模型應(yīng)用
在Barton和Lord(1981)的研究中,將四參數(shù)Logistic模型應(yīng)用于成就測(cè)驗(yàn)。但是測(cè)驗(yàn)極大似然值沒(méi)有顯著增加,被試能力估計(jì)值沒(méi)有顯著的變化,四參數(shù)模型還增加了計(jì)算的復(fù)雜性。因此,他們不提倡使用該模型。在之后的近二十年里,關(guān)于該模型的研究論文幾乎沒(méi)有,該模型只在一些教材中被提及。在此期間的BILOG、MULTILOG等軟件都沒(méi)有相應(yīng)程序模塊(簡(jiǎn)小珠,張敏強(qiáng),彭春妹,2010)。
直至近幾年,研究者開(kāi)始關(guān)注心理測(cè)驗(yàn)中的睡眠現(xiàn)象和四參數(shù)Logistic模型。2003年,Reise和Waller(2003)在分析人格測(cè)驗(yàn)MMPI-2 時(shí),發(fā)現(xiàn)了一些試題存在睡眠現(xiàn)象,建議使用四參數(shù)Logistic模型擬合數(shù)據(jù)。簡(jiǎn)小珠、戴海崎和彭春妹(2007)在分析高考數(shù)據(jù)時(shí),發(fā)現(xiàn)了一些試題同時(shí)存在猜測(cè)現(xiàn)象和睡眠現(xiàn)象,或單獨(dú)存在猜測(cè)現(xiàn)象和睡眠現(xiàn)象。目前,關(guān)于四參數(shù)Logistic模型在成就測(cè)驗(yàn)中的應(yīng)用主要關(guān)注CAT測(cè)試中高能力被試在初始階段答錯(cuò)容易試題后,該模型對(duì)能力值低估的修正作用(Rulison & Loken,2009)。但是,國(guó)內(nèi)外關(guān)于四參數(shù)Logistic模型的文章還較少,尤其國(guó)內(nèi)關(guān)于該模型在實(shí)際數(shù)據(jù)中應(yīng)用的研究則更少(簡(jiǎn)小珠,2006)。
對(duì)于四參數(shù)Logistic模型的研究,大多關(guān)注了該模型與傳統(tǒng)模型在估計(jì)結(jié)果和信息量上的差異。研究多以四參數(shù)Logistic模型模擬作答反應(yīng),以睡眠現(xiàn)象作為既定的前提。然而,在實(shí)際的測(cè)驗(yàn)中,睡眠現(xiàn)象真實(shí)發(fā)生的頻率如何?四參數(shù)Logistic模型與傳統(tǒng)模型的估計(jì)結(jié)果到底存在多大區(qū)別?還需要在實(shí)證研究中尋找答案。另外,關(guān)于四參數(shù)Logistic模型的應(yīng)用研究多針對(duì)成就測(cè)驗(yàn)或心理測(cè)驗(yàn)中的一種,并且多數(shù)認(rèn)為該模型更適用于心理測(cè)驗(yàn)。那么,在成就測(cè)驗(yàn)中,四參數(shù)Logistic模型是否對(duì)于模型擬合和參數(shù)估計(jì)沒(méi)有顯著改善呢?研究以焦慮量表和兩種分布的數(shù)學(xué)測(cè)驗(yàn)為例,同時(shí)比較了在心理測(cè)驗(yàn)和成就測(cè)驗(yàn)中,四參數(shù)Logistic模型和傳統(tǒng)模型在模型擬合和參數(shù)估計(jì)值上的結(jié)果,分析了四參數(shù)Logistic模型的必要性,提出了應(yīng)用建議。
心理測(cè)驗(yàn)選擇了泰勒焦慮調(diào)查量表(Taylor Manifest Anxiety Scale),共有50道題目,所有題目都要求被試回答是或否,因此均為0/1計(jì)分。被試共計(jì)5410名,其中男性占44.27%,女性占55.73%,年齡為30.12±11.87,被試得分呈負(fù)偏態(tài)分布。
成就測(cè)驗(yàn)選擇了某大規(guī)模數(shù)學(xué)測(cè)驗(yàn),共60道題目,均為有4個(gè)備選答案的單項(xiàng)選擇題,0/1計(jì)分,滿(mǎn)分為60分。參加測(cè)驗(yàn)的學(xué)生為來(lái)自47所學(xué)校的4882名高一學(xué)生,總分偏度為0.097,基本符合正態(tài)分布。
從數(shù)學(xué)測(cè)驗(yàn)得分小于30分的學(xué)生中隨機(jī)剔除50%,構(gòu)造一個(gè)新樣本,其樣本量為3740人,偏度為-0.199,得到一個(gè)相對(duì)原有分布的負(fù)偏態(tài)分布,以考察含有睡眠參數(shù)模型的優(yōu)勢(shì)是否能夠在負(fù)偏態(tài)分布的成就測(cè)驗(yàn)中顯現(xiàn)。
泰勒焦慮調(diào)查量表和數(shù)學(xué)測(cè)驗(yàn)的描述統(tǒng)計(jì)結(jié)果如下表:
使用R中的sirt軟件包(Robitzsch & Robitzsch,2015)進(jìn)行模型與數(shù)據(jù)的擬合。擬合的模型有以下七種。
模型1:Rasch模型
模型2:兩參數(shù)Logistic模型(2PM)。
模型3:三參數(shù)Logistic模型(3PM),含有難度、區(qū)分度和猜測(cè)參數(shù)的Logistic模型。
模型4:三參數(shù)睡眠logistics模型(3PMR),含有難度、區(qū)分度和睡眠參數(shù)的logistc模型。適用于睡眠現(xiàn)象單獨(dú)存在的情況。
模型5:四參數(shù)Logistic模型(4PM),同時(shí)含有難度、區(qū)分度、猜測(cè)參數(shù)和睡眠參數(shù)的Logistic模型。
模型6:模型5的基礎(chǔ)上將所有題目猜測(cè)參數(shù)固定相等估計(jì)的模型(4PMc)。
模型7:模型5的基礎(chǔ)上將所有題目睡眠參數(shù)都固定相等估計(jì)的模型(4PMd)。
表2列出了對(duì)于不同數(shù)據(jù),各模型的擬合指標(biāo)結(jié)果。AIC、BIC結(jié)果具有較高的一致性。對(duì)于所有測(cè)驗(yàn)來(lái)說(shuō),Rasch模型的擬合結(jié)果均最差,對(duì)于泰勒焦慮調(diào)查量表,3PMR的AIC指標(biāo)最好,2PM的BIC指標(biāo)最好;對(duì)于原始的和構(gòu)造的負(fù)偏態(tài)數(shù)學(xué)測(cè)驗(yàn),4PM的AIC指標(biāo)最好,4PMd的BIC結(jié)果最好。由于這兩個(gè)擬合指標(biāo)均考慮了模型的復(fù)雜程度,因此,綜合來(lái)看,上漸近線(xiàn)參數(shù)非1的模型能提供較好的擬合結(jié)果。
表2 不同測(cè)驗(yàn)?zāi)P蛿M合結(jié)果
為考察四參數(shù)Logistic模型與傳統(tǒng)模型參數(shù)估計(jì)結(jié)果的差異,計(jì)算了擬合情況最好的四參數(shù)Logistic模型(或上漸近線(xiàn)參數(shù)非1的模型,以下簡(jiǎn)稱(chēng)四參數(shù)Logistic模型)與擬合情況次之的上漸近線(xiàn)參數(shù)固定為1的傳統(tǒng)模型的題目參數(shù)、能力參數(shù)的相關(guān)。
3.2.1題目參數(shù)相關(guān)
表3列出了不同測(cè)驗(yàn)四參數(shù)Logistic模型與擬合情況最接近的傳統(tǒng)模型題目參數(shù)估計(jì)值的相關(guān)。
表3 四參數(shù)Logistic模型與傳統(tǒng)模型題目參數(shù)估計(jì)值相關(guān)
從以上結(jié)果可以看出,對(duì)于不同測(cè)驗(yàn),四參數(shù)Logistic模型與傳統(tǒng)模型的難度參數(shù)估計(jì)結(jié)果具有較高的一致性,但是區(qū)分度參數(shù)具有較大的差異,并且,對(duì)于構(gòu)造的負(fù)偏態(tài)數(shù)學(xué)測(cè)驗(yàn),不同模型區(qū)分度參數(shù)估計(jì)值差異最大。不同模型區(qū)分度參數(shù)估計(jì)值的差異如圖1所示。
圖1 四參數(shù)Logistic模型與傳統(tǒng)模型區(qū)分度參數(shù)估計(jì)值
從圖中可以看出,四參數(shù)Logistic模型得到的區(qū)分度參數(shù)估計(jì)值高于傳統(tǒng)模型。
表4列出了按照四參數(shù)Logistic模型的難度參數(shù)估計(jì)值,刪除最簡(jiǎn)單的5、10、15道題目后,不同模型參數(shù)估計(jì)值的相關(guān)。
表4 刪除簡(jiǎn)單題目后四參數(shù)Logistic模型與傳統(tǒng)模型題目參數(shù)估計(jì)值相關(guān)
從表中可以看出,刪除簡(jiǎn)單題目對(duì)難度參數(shù)估計(jì)值的相關(guān)沒(méi)有顯著影響。但是,隨著刪除簡(jiǎn)單題目數(shù)量增加,不同模型區(qū)分度參數(shù)的一致性增強(qiáng),該現(xiàn)象對(duì)于構(gòu)造的負(fù)偏態(tài)數(shù)學(xué)測(cè)驗(yàn)尤其明顯。這可能是由于簡(jiǎn)單題目數(shù)量越少,睡眠現(xiàn)象發(fā)生的概率相對(duì)越少,則上漸近線(xiàn)參數(shù)為1的情況更為普遍,因此,四參數(shù)Logistic模型與傳統(tǒng)模型區(qū)分度參數(shù)估計(jì)值越接近。
3.2.2能力參數(shù)相關(guān)
表5列出了不同測(cè)驗(yàn)四參數(shù)Logistic模型與擬合情況最接近的傳統(tǒng)模型所有能力參數(shù)估計(jì)值、部分能力參數(shù)估計(jì)值的相關(guān)。
表5 四參數(shù)Logistic模型與傳統(tǒng)模型能力參數(shù)估計(jì)值相關(guān)
注:不同測(cè)驗(yàn)所比較的模型與表3一致。
從結(jié)果可以看出,雖然對(duì)于所有的被試,不同模型能力參數(shù)估計(jì)值相關(guān)很高,但是對(duì)于能力越高的群體,不同模型能力參數(shù)估計(jì)值的一致性越低,特別是對(duì)于能力最高的100名被試,不同模型能力參數(shù)估計(jì)值的相關(guān)僅為0.672、0.530和0.527,對(duì)于高能力被試,四參數(shù)Logistic模型得到的能力參數(shù)估計(jì)值高于傳統(tǒng)模型。
以數(shù)學(xué)測(cè)驗(yàn)為例,選取了四參數(shù)Logistic模型能力參數(shù)估計(jì)值為1以上、2以上的被試,并分別計(jì)算了對(duì)于這些群體,使用4PM和3PM得到的能力參數(shù)估計(jì)值的相關(guān)。結(jié)果顯示,對(duì)于所有被試、能力為1以上被試、能力為2以上被試,兩種模型能力參數(shù)估計(jì)值的相關(guān)分別為0.996、0.942、0.590。進(jìn)一步驗(yàn)證了對(duì)于能力水平越高的被試,四參數(shù)Logistic模型與傳統(tǒng)模型能力參數(shù)估計(jì)值差異越大。另外,如圖2所示,對(duì)于高能力被試,4PM得到的能力參數(shù)估計(jì)結(jié)果普遍高于3PM。
圖2 不同被試四參數(shù)Logistic模型與三參數(shù)Logistic模型能力參數(shù)估計(jì)值
圖3 四參數(shù)Logistic模型與傳統(tǒng)模型項(xiàng)目特征曲線(xiàn)
為了進(jìn)一步證明上漸近線(xiàn)參數(shù)非1現(xiàn)象的存在,在泰勒焦慮調(diào)查量表和數(shù)學(xué)測(cè)驗(yàn)中分別選取了d參數(shù)顯著小于1的一道題目,繪制不同模型的項(xiàng)目特征曲線(xiàn)(ICC),如圖3所示。
從圖中可以看出,實(shí)際測(cè)驗(yàn)中確實(shí)存在上漸近線(xiàn)參數(shù)顯著小于1的題目。對(duì)于這些題目,傳統(tǒng)模型的上漸近線(xiàn)為1,高能力被試答對(duì)題目的概率接近1;而四參數(shù)Logistic模型的上漸近線(xiàn)小于1,高能力被試答對(duì)題目的概率顯著小于1。
研究以實(shí)際數(shù)據(jù)為例,展示了四參數(shù)Logistic模型如何用于分析心理測(cè)驗(yàn)和成就測(cè)驗(yàn),并與傳統(tǒng)模型的擬合性和參數(shù)估計(jì)結(jié)果比較,總結(jié)出四參數(shù)Logistic模型的必要性。
4.1.1四參數(shù)Logistic模型對(duì)心理測(cè)驗(yàn)的必要性
早期關(guān)于四參數(shù)Logistic模型的文章中,多認(rèn)為該模型更適用于心理和人格測(cè)驗(yàn)。這是由于三個(gè)原因造成的:一是心理測(cè)驗(yàn)題目存在著極端性,即某些題目有基礎(chǔ)的選擇率,會(huì)存在非0下漸近線(xiàn)現(xiàn)象和非1 上漸近線(xiàn)現(xiàn)象。例如,有調(diào)查顯示,有自殺傾向的青少年比例小于0.50,那么在青少年的抑郁量表中,即使有重度抑郁的人,也不一定有自殺傾向。二是心理測(cè)驗(yàn)項(xiàng)目上存在“非對(duì)稱(chēng)的項(xiàng)目特征模糊性(non-symmetric item ambiguity)”,即人格測(cè)驗(yàn)在人格特征維度上的一端測(cè)量可以模糊,而在人格特征維度的另一端的測(cè)量要求精確。這時(shí)需要c或d參數(shù)來(lái)反映,以得到更精確的測(cè)量(簡(jiǎn)小珠,焦璨,彭春妹,2010)。三是相比于成就測(cè)驗(yàn),心理測(cè)驗(yàn)所關(guān)注的峰值具有較強(qiáng)的靈活性。在大多數(shù)心理測(cè)驗(yàn)中,量尺的兩端都具有一定的意義。如果由于解釋分?jǐn)?shù)的需要,將原有的量表方向反向,那么原本需要猜測(cè)參數(shù)的題目反向后需要睡眠參數(shù)。因此,在很多研究中都證明了在心理測(cè)驗(yàn)中,四參數(shù)Logistic模型的適用性(Waller & Reise,2010)。
四參數(shù)Logistic模型用于泰勒焦慮調(diào)查量表也具有較大的優(yōu)勢(shì)。第一,從模型擬合指標(biāo)來(lái)看,考慮了睡眠參數(shù)的模型其AIC擬合指標(biāo)結(jié)果最好。第二,從參數(shù)估計(jì)結(jié)果來(lái)看,考慮了d參數(shù)的模型與傳統(tǒng)模型在區(qū)分度、能力參數(shù)估計(jì)值上具有一定的差異,傳統(tǒng)模型會(huì)低估一些題目的區(qū)分度參數(shù),低估高能力被試的能力參數(shù)。第三,從具體的題目參數(shù)估計(jì)結(jié)果來(lái)看,確實(shí)存在d參數(shù)顯著小于1的題目。例如第15題,題目為“我的手腳經(jīng)常是暖的。(My hands and feet are usually warm)”,該題為反向計(jì)分,d參數(shù)顯著小于1(d=0.58,se=0.007)。測(cè)驗(yàn)設(shè)計(jì)者假設(shè),越焦慮的人,他們的手腳就越不會(huì)暖。但是實(shí)際數(shù)據(jù)證明,在所有被試中,有接近半數(shù)選擇了“是”,這可能是因?yàn)槭帜_溫暖也存在基礎(chǔ)選擇率,即在所有人群中,本來(lái)就有很大比例的人手腳是暖的。因此,對(duì)于這類(lèi)題目,加入d參數(shù)進(jìn)行數(shù)據(jù)擬合就非常必要。
4.1.2四參數(shù)Logistic模型對(duì)成就測(cè)驗(yàn)的必要性
研究者曾經(jīng)對(duì)ETS所收集的成就測(cè)驗(yàn)的數(shù)據(jù)(如SAT的語(yǔ)言部分、SAT的數(shù)學(xué)部分、GRE的語(yǔ)言部分等)采用四參數(shù)Logistic模型進(jìn)行擬合,結(jié)果證明,四參數(shù)Logistic模型沒(méi)有提高測(cè)驗(yàn)的似然值,得到的能力估計(jì)結(jié)果也沒(méi)有顯著的差異,并且計(jì)算復(fù)雜,因此沒(méi)有較大的實(shí)踐價(jià)值(Barton & Lord,1981)。
但是隨著ETS讓參加測(cè)試的學(xué)生免費(fèi)重考事件的出現(xiàn)(Carlson,2000),許多研究者開(kāi)始關(guān)注在CAT中被試能力被嚴(yán)重低估而導(dǎo)致不可信的問(wèn)題(Rulison & Loken,2009)。
在傳統(tǒng)的紙筆測(cè)驗(yàn)中,也可能存在由于睡眠現(xiàn)象而導(dǎo)致被試能力低估的問(wèn)題。這時(shí),也可以應(yīng)用四參數(shù)Logistic模型來(lái)對(duì)能力估計(jì)值進(jìn)行矯正,得到更為準(zhǔn)確的測(cè)量結(jié)果。對(duì)于數(shù)學(xué)測(cè)驗(yàn)和構(gòu)造的負(fù)偏態(tài)數(shù)學(xué)測(cè)驗(yàn),四參數(shù)Logistic模型在各擬合指標(biāo)上均優(yōu)于傳統(tǒng)模型;在區(qū)分度參數(shù)估計(jì)結(jié)果上與傳統(tǒng)模型有較大的差異,并且當(dāng)?shù)碗y度題目比例相對(duì)較大時(shí),這種差異更為明顯;高能力被試的能力估計(jì)結(jié)果也普遍高于傳統(tǒng)模型。另外,在具體的題目參數(shù)估計(jì)結(jié)果上,也有一些題目的d參數(shù)估計(jì)值顯著小于1。對(duì)比原始數(shù)學(xué)測(cè)驗(yàn)和構(gòu)造的負(fù)偏態(tài)數(shù)學(xué)測(cè)驗(yàn)的估計(jì)結(jié)果可以發(fā)現(xiàn),對(duì)于構(gòu)造的負(fù)偏態(tài)數(shù)學(xué)測(cè)驗(yàn),四參數(shù)Logistic模型和傳統(tǒng)模型在區(qū)分度參數(shù)估計(jì)結(jié)果上的差異更大;而在兩種分布下,不同模型在能力參數(shù)估計(jì)結(jié)果上的差異沒(méi)有顯著區(qū)別。研究假設(shè)在負(fù)偏態(tài)的分布中,由于高能力的被試比例較大,因此四參數(shù)Logistic模型的優(yōu)勢(shì)應(yīng)更明顯。但是實(shí)際結(jié)果并沒(méi)有證明這一假設(shè)。這可能是由于一方面,構(gòu)造的負(fù)偏態(tài)分布是基于測(cè)驗(yàn)的原始分得到的,這種經(jīng)典測(cè)量理論下的原始分對(duì)被試能力水平的描述本來(lái)就存在較大的誤差;另一方面,所構(gòu)造的數(shù)據(jù)偏度為-0.199,偏度較小,可能尚未達(dá)到使得四參數(shù)Logistic模型優(yōu)勢(shì)得以突顯的程度。因此,未來(lái)的研究可以考慮使用模擬的方法,構(gòu)造不同分布的數(shù)據(jù),系統(tǒng)地考察四參數(shù)Logistic模型與傳統(tǒng)模型的差異。
綜上,成就測(cè)驗(yàn)實(shí)際數(shù)據(jù)分析結(jié)果證明,對(duì)于研究所選用的成就測(cè)驗(yàn),有必要使用四參數(shù)Logistic模型進(jìn)行擬合。
傳統(tǒng)模型是四參數(shù)Logistic模型的特例,在實(shí)際中,是否需要選擇四參數(shù)Logistic模型進(jìn)行數(shù)據(jù)擬合可以考慮以下幾個(gè)方面的問(wèn)題:
一是測(cè)驗(yàn)的類(lèi)型。對(duì)于心理測(cè)驗(yàn),由于被試無(wú)意識(shí)的社會(huì)期望反應(yīng)和掩飾防御反應(yīng)等等,被試作答存在著非0下漸近線(xiàn)現(xiàn)象和非1 上漸近線(xiàn)現(xiàn)象,會(huì)影響測(cè)驗(yàn)結(jié)果的準(zhǔn)確性(簡(jiǎn)小珠,焦璨,彭春妹,2010)。因此,建議使用四參數(shù)Logistic模型進(jìn)行參數(shù)估計(jì)。對(duì)于成就測(cè)驗(yàn),有條件的情況下,可以在三參數(shù)Logistic模型的基礎(chǔ)上,使用四參數(shù)Logistic模型的估計(jì)結(jié)果作為驗(yàn)證與補(bǔ)充,糾正高能力被試答錯(cuò)容易試題時(shí)的能力低估現(xiàn)象。另外,如果測(cè)驗(yàn)中簡(jiǎn)單題目的比例較高,使用四參數(shù)Logistic模型可能會(huì)得到較為準(zhǔn)確的結(jié)果。
二是測(cè)驗(yàn)的目的。對(duì)于某些成就測(cè)驗(yàn)而言,準(zhǔn)確地估計(jì)被試的能力水平非常重要。例如在一些高利害的測(cè)驗(yàn)(如高考)中,每個(gè)考生的能力估計(jì)結(jié)果都會(huì)造成直接和重要的后果,其準(zhǔn)確性就顯得尤為重要。如果由于睡眠現(xiàn)象的存在,低估了高能力考生的能力值,就會(huì)對(duì)高能力人才的發(fā)展產(chǎn)生諸多不利的影響。另外,對(duì)于安置性測(cè)驗(yàn)(placement test),考生能力的估計(jì)結(jié)果直接影響到學(xué)生的分班、分級(jí),如果由于使用了不合適的模型進(jìn)行擬合而低估了高能力考生的能力值,會(huì)導(dǎo)致分班結(jié)果的偏差,進(jìn)而影響到高能力學(xué)生后續(xù)階段的學(xué)習(xí)。因此,在這些成就測(cè)驗(yàn)中,考慮到測(cè)驗(yàn)的目的,可以使用四參數(shù)Logistic模型,保證高能力被試能力估計(jì)結(jié)果的準(zhǔn)確性。
三是運(yùn)算的復(fù)雜程度。早期使用四參數(shù)Logistic模型的主要障礙在于計(jì)算的復(fù)雜性和費(fèi)時(shí),隨著估計(jì)方法和計(jì)算機(jī)性能的發(fā)展,最新的IRT 軟件WINSTEPS(Linacre,2009)包含了四參數(shù)logistic 模型的項(xiàng)目參數(shù)估計(jì)模塊,R語(yǔ)言中的sirt軟件包也具有擬合四參數(shù)Logistic模型的功能。這些軟件的發(fā)展使得在選擇四參數(shù)Logistic模型時(shí),運(yùn)算的復(fù)雜程度已不是制約模型應(yīng)用的主要因素,為其廣泛應(yīng)用奠定了基礎(chǔ)。
研究所涉及的實(shí)際數(shù)據(jù),均為0/1計(jì)分。今后,可以將四參數(shù)Logistic模型推廣到多級(jí)評(píng)分的題目,甚至混合題型的測(cè)驗(yàn)中。
其次,四參數(shù)Logistic模型的等值也是值得深入研究的問(wèn)題??梢蕴剿魇褂迷撃P褪欠衲軌蝻@著提高高能力群體被試能力等值結(jié)果的準(zhǔn)確性。
最后,隨著多維項(xiàng)目反應(yīng)理論越來(lái)越受到關(guān)注,如何將四參數(shù)Logistic模型推廣至多維情境中,也需要更多的研究者付諸努力。
在實(shí)際測(cè)驗(yàn)中,確實(shí)存在睡眠現(xiàn)象。四參數(shù)Logistic模型能夠顯著提高模型對(duì)心理測(cè)驗(yàn)和成就測(cè)驗(yàn)數(shù)據(jù)的擬合性,糾正區(qū)分度參數(shù)低估和高能力被試答錯(cuò)容易試題時(shí)的能力低估現(xiàn)象。因此,在實(shí)際測(cè)驗(yàn)的數(shù)據(jù)分析中,應(yīng)當(dāng)根據(jù)具體情況,必要時(shí)使用四參數(shù)Logistic模型替代傳統(tǒng)模型,對(duì)參數(shù)估計(jì)結(jié)果進(jìn)行驗(yàn)證與補(bǔ)充,以提高測(cè)量結(jié)果的準(zhǔn)確性。