姜鶯鷹
南京機(jī)電職業(yè)技術(shù)學(xué)院,江蘇南京 211135
經(jīng)典測(cè)量理論(Classical Test Theory,簡(jiǎn)稱CTT)、項(xiàng)目反應(yīng)理論(Item Response Theory,簡(jiǎn)稱IRT)是心理測(cè)量界的兩大著名理論派別,過去是經(jīng)典測(cè)驗(yàn)理論一統(tǒng)測(cè)量領(lǐng)域,但是隨著項(xiàng)目反應(yīng)理論以及后來形成的可概括性理論(Generalizability Theory,簡(jiǎn)稱GT)的發(fā)展,三者形成了鼎足之勢(shì),這在一定程度上也促進(jìn)了心理測(cè)量的發(fā)展。但是就我國(guó)目前的狀況而言,還是以CTT的應(yīng)用為主,對(duì)于IRT的應(yīng)用尚處于起步階段,本文擬通過對(duì)CTT與IRT的對(duì)比,來探討一下HSK考試中CTT和IRT的運(yùn)用。
HSK全名中國(guó)漢語水平考試,是為測(cè)試母語非漢語者的漢語水平而設(shè)立的國(guó)家級(jí)標(biāo)準(zhǔn)化考試。HSK成績(jī)是外國(guó)留學(xué)生進(jìn)入中國(guó)高等院校學(xué)習(xí)專業(yè)的必要條件,并且已經(jīng)成為國(guó)內(nèi)外一些機(jī)構(gòu)人員選拔的一種依據(jù)。如果HSK證書的授予標(biāo)準(zhǔn)缺乏穩(wěn)定性和公平性,那么,不僅會(huì)影響HSK的信度和效度,而且會(huì)對(duì)有關(guān)的決策產(chǎn)生誤導(dǎo),會(huì)使考生受到不公平的對(duì)待。盡管專家們命題過程中總是盡量保持考試難度的穩(wěn)定性,但不同試卷之間在難度、信度、分?jǐn)?shù)分布方面的差別很難完全避免。因此,對(duì)HSK的要求也越來越高,不僅要求實(shí)現(xiàn)“試卷”之間的等值,甚至要求實(shí)現(xiàn)“試題”之間的等值。
CTT主要是指真分?jǐn)?shù)理論, 其基本思想是:把測(cè)驗(yàn)的得分(通常稱為測(cè)驗(yàn)的觀察分?jǐn)?shù))看做真分?jǐn)?shù)和誤差分?jǐn)?shù)的線性組合,可歸結(jié)為如下簡(jiǎn)單數(shù)學(xué)模型:X=T+e,其中X是觀測(cè)分?jǐn)?shù),是真分?jǐn)?shù),T是反映被試穩(wěn)定心理特征的真分?jǐn)?shù),e是誤差分?jǐn)?shù),也即由隨機(jī)因素例如考試中考生的情緒、考場(chǎng)的因素等所造成的實(shí)際成績(jī)與其真正能力水平的差異。真分?jǐn)?shù)(T)是相對(duì)穩(wěn)定的,它刻劃的是被試某種比較穩(wěn)定的心理特質(zhì)(比如在教育測(cè)驗(yàn)中考生的真實(shí)能力水平),而對(duì)相同對(duì)象多次重復(fù)測(cè)量的誤差分?jǐn)?shù)(e)往往呈正態(tài)分布,真分?jǐn)?shù)和誤差分?jǐn)?shù)相互獨(dú)立,真分?jǐn)?shù)分?jǐn)?shù)與誤差分?jǐn)?shù)最終可簡(jiǎn)單合成測(cè)驗(yàn)分?jǐn)?shù)。傳統(tǒng)信度、效度、項(xiàng)目分析的原理與方法均建立在這一模型之上 。
CTT的不足:1)測(cè)驗(yàn)項(xiàng)目質(zhì)量評(píng)價(jià)的指標(biāo)過度依賴于計(jì)算這些指標(biāo)時(shí)所用的被試樣本;2)難度、區(qū)分度等各項(xiàng)指標(biāo)的計(jì)算都與被試整體的個(gè)性特征密切相關(guān);3)就同一試題,被試組的個(gè)體水平都很高,算出的難度值就偏低;如果水平都較低,難度值就會(huì)偏高;4)對(duì)于區(qū)分度,如被試組的個(gè)體程度參差不齊(較為異質(zhì)),求出的區(qū)分度值就很高;若程度整齊(即較為同質(zhì)),求出的區(qū)分度就低;5)這種度量質(zhì)量的指標(biāo)隨測(cè)試對(duì)象而變化的問題正是經(jīng)典測(cè)量理論的不足所致。
CTT的優(yōu)點(diǎn):1)建立在較簡(jiǎn)單的數(shù)學(xué)模型之上,易于被人理解和接受,且計(jì)算簡(jiǎn)便,容易推廣;2)理論假設(shè)較弱,對(duì)實(shí)施條件要求不嚴(yán)格,適用性廣;3)在多數(shù)情況下CTT是足夠精確的,可以放心地應(yīng)用。
IRT以項(xiàng)目分析為基礎(chǔ),建立在潛在特質(zhì)理論和統(tǒng)計(jì)理論基礎(chǔ)上。 它假設(shè)被試對(duì)測(cè)驗(yàn)的反應(yīng)受某種心理特質(zhì)支配,我們可以對(duì)這種特質(zhì)進(jìn)行界定。IRT估計(jì)出被試在這種特質(zhì)的分?jǐn)?shù),并根據(jù)分?jǐn)?shù)的高低來預(yù)測(cè)、解釋被試對(duì)項(xiàng)目或測(cè)驗(yàn)的反應(yīng)。IRT主要用于建立各種與數(shù)據(jù)擬合的模型,確定被試的潛在特質(zhì)值與他們對(duì)項(xiàng)目的反應(yīng)之間的關(guān)系。IRT認(rèn)為,通過被試對(duì)具有一定難度和區(qū)分度等特征的項(xiàng)目的反應(yīng)可以確定被試的潛能特征和傾向。它所建立的模型可以表達(dá)被試的特性水平和它對(duì)項(xiàng)目所作的反應(yīng)之間的關(guān)系。
IRT的優(yōu)點(diǎn):1)對(duì)項(xiàng)目難度的估計(jì)不受被試樣本的限制;2)對(duì)被試能力的估計(jì)不依賴于特定的測(cè)驗(yàn)題目;3)可發(fā)現(xiàn)靠猜測(cè)作答或表現(xiàn)異常的被試;4)具有分?jǐn)?shù)等值處理的功能;5)具有測(cè)試的適應(yīng)性功能,可用于計(jì)算機(jī)自適應(yīng)測(cè)試;6)根據(jù)項(xiàng)目信息量的大小來選擇對(duì)能力估計(jì)精度最有增益的項(xiàng)目,使測(cè)驗(yàn)達(dá)到預(yù)設(shè)的滿意精度。
IRT的不足:1)因其理論假設(shè)建立在較深?yuàn)W的數(shù)學(xué)基礎(chǔ)之上,所以普遍性上有一定的難度;2)IRT從測(cè)量模型的理論框架來講,多使用1、0記分資料的單維模型,造成其應(yīng)用上的嚴(yán)重局限;3)由于受到苛刻的假設(shè)限制,必須有大樣本進(jìn)行配合,否則精確度不高。
雖然CTT有許多缺點(diǎn),但是由于CTT建立在較簡(jiǎn)單的數(shù)學(xué)模型之上,易于被人理解和接受,且計(jì)算簡(jiǎn)便,容易推廣且理論假設(shè)較弱,對(duì)實(shí)施條件要求不嚴(yán)格,因此在很長(zhǎng)的一段時(shí)間里適用范圍較廣,但是CTT方法不能解決目前遇到的一些實(shí)質(zhì)性問題。例如:隨著計(jì)算機(jī)技術(shù)的發(fā)展,測(cè)驗(yàn)、考試計(jì)算機(jī)化正在成為一種重要趨勢(shì),各種具有影響力的考試,如GRE、TOEFL等均已逐步實(shí)行機(jī)考,那么作為愈來愈熱的HSK,勢(shì)必也會(huì)遇到機(jī)考的問題,但是目前我國(guó)HSK,依舊沿用的CTT卻很難滿足機(jī)考的需要;另外CTT只能實(shí)現(xiàn)“試卷”之間的等值,不能實(shí)現(xiàn)“試題”之間的等值,因此在試題庫的建設(shè)上,CTT的不足也很明顯,這些都需要IRT的幫助,譬如由ETS組織的SAT測(cè)驗(yàn)的試題分析主要是基于CTT的,但其等值過程卻是通過IRT模型而實(shí)現(xiàn)的。但是,IRT的理論假設(shè)建立在較深?yuàn)W的數(shù)學(xué)基礎(chǔ)之上,接受的人群相對(duì)較少,并且需要大量的樣本配合,且包含猜測(cè)參數(shù),不存在與原始分?jǐn)?shù)低分段相對(duì)應(yīng)的估計(jì)等值分?jǐn)?shù),這樣的話會(huì)增加等值誤差,基于以上的對(duì)比,綜合我國(guó)HSK現(xiàn)行等值設(shè)計(jì)和數(shù)據(jù)特點(diǎn)來說,總體上看,CCT優(yōu)于IRT。但是為了進(jìn)行題庫建設(shè)及HSK計(jì)算機(jī)化我們又只能在IRT方法中擇優(yōu)。因此,在相當(dāng)長(zhǎng)的一段時(shí)間內(nèi),要做好HSK,CTT和IRT需共同存在,共同發(fā)展,共同完善。
[1]俞曉琳.項(xiàng)目反應(yīng)理論與經(jīng)典測(cè)驗(yàn)理論之比較[J].南京師大學(xué)報(bào):社會(huì)科學(xué)版,1998(4):74-77.
[2]漆書青,戴海崎,丁樹良.現(xiàn)代教育與心理測(cè)量學(xué)原理[M].北京:高等教育出版社,2002:82.