宋學(xué)玲,梁正妍
(1.教育部教育考試院,北京 100084;2.華南師范大學(xué),廣州 510631)
全國碩士研究生招生考試(簡稱“研究生招生考試”)的試卷質(zhì)量事關(guān)高層次人才的選拔,其重要性不言而喻。與高考、公務(wù)員考試等不同,研究生招生考試中對于考生學(xué)科專業(yè)能力的考查,主要通過“大綜合”形式的試卷進(jìn)行,即多個學(xué)科專業(yè)基礎(chǔ)課程的知識點(diǎn)集中在一張?jiān)嚲砩稀?荚嚂r長限制了試卷的題量,而“大綜合”試卷又需要涵蓋多個專業(yè)基礎(chǔ)課程的知識點(diǎn),大大提高了試卷的命制難度。從題型的設(shè)計,到各基礎(chǔ)課程知識所占試卷題量、總分的比例,以及如何在有限的題量限制下盡可能地區(qū)分出考生的能力,這些對于命題人員來說都是極大的挑戰(zhàn)。
試題試卷的評價需要結(jié)合考試本身的目的、考試的具體形式而定。目前試題試卷的評價多采用經(jīng)典測量理論(CTT)和項(xiàng)目反應(yīng)理論(IRT;Baker &Kim,2004)。CTT的數(shù)學(xué)模型簡單易懂、可操作性強(qiáng)、應(yīng)用廣泛,但是也存在著不少局限,比如測量結(jié)果拓廣有限、測量分?jǐn)?shù)依賴試題、統(tǒng)計量依賴樣本、信度估計不精確、能力量表與難度量表不一致等(漆書青 等,1998,2002)。為了彌補(bǔ)CTT存在的缺陷,IRT應(yīng)運(yùn)而生。IRT主要考查被試的作答反應(yīng)與被試能力之間的關(guān)系,通過項(xiàng)目特征曲線,將項(xiàng)目難度、項(xiàng)目區(qū)分度、被試能力值標(biāo)記在同一個坐標(biāo)系下,建立了被試能力與難度之間的直接聯(lián)系。國內(nèi)對于研究生招生考試的試題質(zhì)量研究相對較少:冼利青等(1996)從經(jīng)典測量理論的角度對醫(yī)學(xué)碩士研究生入學(xué)考試的試題質(zhì)量進(jìn)行了分析;關(guān)丹丹等(2011)應(yīng)用多元概化理論對全國碩士研究生入學(xué)考試心理學(xué)科目的試題質(zhì)量進(jìn)行了研究;趙守盈等(2012)采用Rasch模型對全國碩士研究生入學(xué)考試心理學(xué)科目的試題質(zhì)量進(jìn)行了分析;戴一飛等(2018)對法碩(非法學(xué))專業(yè)學(xué)位聯(lián)考的預(yù)測效度進(jìn)行了分析。
總體而言,過往對于研究生招生考試試題質(zhì)量的研究主要采用的是經(jīng)典測量理論、項(xiàng)目反應(yīng)理論以及概化理論三大理論,而其中基于項(xiàng)目反應(yīng)理論的研究,主要采用的是單維Rasch模型。但是,采用Rasch模型的相關(guān)研究只對選擇題部分做出了分析,同時也缺乏對“大綜合”試卷中各基礎(chǔ)課程試題間的比較分析,對“大綜合”科目試卷質(zhì)量的分析還不夠全面。因此,探究雙因子項(xiàng)目反應(yīng)模型在“大綜合”科目試卷質(zhì)量分析中的應(yīng)用路徑,并采用該模型對研究生招生考試專業(yè)基礎(chǔ)科目的試卷進(jìn)行質(zhì)量分析是非常必要的。
雙因子模型,又稱一般-特殊因子模型(General-Specific Factor Model),其思想來源于能力結(jié)構(gòu)的二因素理論(彭聃齡,2018)。雙因子模型基于以下兩點(diǎn)假設(shè):(1)一般因子G的存在性,即存在一個可以解釋所有項(xiàng)目共同變異的一般因子;(2)特殊因子Si的存在性,即存在多個可以額外解釋部分項(xiàng)目共同變易的特殊因子(Holzinger &Swineford,1937)。雙因子模型的數(shù)學(xué)表達(dá)式如下所示:
(1)
其中,{x1,x2,…,xn}是一個測驗(yàn)的全部項(xiàng)目,G為一般因子,{S1,S2,…,Sm}是m個特殊因子,ai為項(xiàng)目xi在G上的載荷,bij是項(xiàng)目xi在Sj上的載荷,δi是項(xiàng)目xi的測驗(yàn)誤差。
雙因子模型中,一般因子G與特殊因子S1,S2,…,Sm統(tǒng)稱為公共因子(common factor),二者處于同一測量層次上,區(qū)別在于前者反映了所有項(xiàng)目的公共屬性,而后者僅反映了部分項(xiàng)目的公共屬性,因此每個變量僅在一般因子和一個特殊因子上的載荷非零,從而其因子載荷矩陣為分塊矩陣。根據(jù)分析結(jié)果,雙因子模型可以用來評估一般因子及特殊因子在整個測量中的重要性(顧紅磊 等,2014)。
一般而言,測驗(yàn)的測量結(jié)構(gòu)可以分為以下五種類型:單維模型、多個單維模型、相關(guān)特質(zhì)多維模型、二階因子模型、雙因子模型。當(dāng)各維度之間不相關(guān)或相關(guān)較弱時(相關(guān)系數(shù)在0.1以下),建議采用多個單維模型;當(dāng)各維度之間存在中低等相關(guān)時(相關(guān)系數(shù)介于0.1到0.4),建議使用相關(guān)特質(zhì)多維模型;當(dāng)各維度之間存在中高等相關(guān)時(相關(guān)系數(shù)在0.4以上),建議采用雙因子模型(顧紅磊 等,2014;毛秀珍 等,2018;Reise et al.,2007;Reise et al.,2010)。
項(xiàng)目反應(yīng)理論(IRT),又稱潛在特質(zhì)理論,是當(dāng)前應(yīng)用最為廣泛的現(xiàn)代心理測量理論之一。IRT是在一定的假設(shè)下,用數(shù)學(xué)函數(shù)去刻畫被試在項(xiàng)目上可觀察的作答表現(xiàn)(得分)與其不可觀察的特質(zhì)水平(能力)之間的函數(shù)關(guān)系,即IRT模型。用概率密度函數(shù)來刻畫被試的能力與其在項(xiàng)目上的正確反應(yīng)情況之間的函數(shù)關(guān)系是自然的,相應(yīng)的函數(shù)曲線稱為項(xiàng)目特征曲線(閆成海 等,2014)。
IRT的理論假設(shè)主要包含以下三條:(1)單維性假設(shè),即測驗(yàn)只測量被試的某一種能力(潛在特質(zhì)),其他能力對測驗(yàn)結(jié)果的影響可以忽略不計。(2)局部獨(dú)立性假設(shè),即被試在各個項(xiàng)目上的作答反應(yīng)相互獨(dú)立。(3)項(xiàng)目特征曲線假設(shè),即被試在項(xiàng)目上的正確作答概率遵循一定的函數(shù)關(guān)系。后來,多維項(xiàng)目反應(yīng)理論打破了單維性假設(shè),題組反應(yīng)理論打破了局部獨(dú)立性假設(shè),所以第三條假設(shè)是IRT的核心假設(shè)。
依據(jù)評分規(guī)則的不同,IRT模型可以分為二級計分模型和多級計分模型。針對非對即錯的選擇題,選用二級計分模型進(jìn)行試題質(zhì)量分析;針對簡答題、綜合題等,一般采用多級計分模型進(jìn)行試題質(zhì)量分析。
二級計分模型中常用的有Rasch模型、Logistic模型等。Logistic模型可分為單參數(shù)、雙參數(shù)、三參數(shù)Logistic模型,其對應(yīng)的項(xiàng)目特征函數(shù)分別是:
(2)
(3)
(4)
其中,pi(θ)是能力水平為θ的被試在項(xiàng)目i上的正確作答概率;ai,bi,ci分別是項(xiàng)目i的區(qū)分度參數(shù)(又叫斜率參數(shù))、難度參數(shù)、猜測度參數(shù)(又叫下漸近線參數(shù));D=1.7(或1.701)是一個常量。
多維項(xiàng)目反應(yīng)理論(MIRT)建立在單維項(xiàng)目反應(yīng)理論和因子分析的基礎(chǔ)之上,克服了單維項(xiàng)目反應(yīng)理論的單維性缺陷,可在多個維度上分析被試的作答表現(xiàn)。下面所述的雙因子項(xiàng)目反應(yīng)模型就是多維項(xiàng)目反應(yīng)模型在雙因子模型假設(shè)下的特殊形式(毛秀珍 等,2018)。
1992年,Gibbons和Hedeker將雙因子模型引入項(xiàng)目反應(yīng)理論。之后,Cai,Yang和Hansen等(2011)詳細(xì)描述了雙因子Logistic模型、雙因子多級計分模型及其參數(shù)估計方法。以三參數(shù)Logistic模型為例,其對應(yīng)的雙因子Logistic模型的概率密度函數(shù)為
(5)
其中,p(uij=1|θ0i,θsj)表示被試i在項(xiàng)目j上的正確作答概率;θi=(θ0i,θsi)是被試i的能力向量參數(shù);a0j,asj分別是項(xiàng)目j在一般因子和特殊因子上的斜率參數(shù),代表了項(xiàng)目j在相應(yīng)維度上的區(qū)分度;cj是下漸近線參數(shù),反映了項(xiàng)目j內(nèi)容的模糊程度;dj=-(a0jbj+asbj)是項(xiàng)目j的截距參數(shù),與項(xiàng)目的難度參數(shù)bj負(fù)相關(guān)。多級計分的雙因子項(xiàng)目反應(yīng)模型的密度函數(shù)也可以由雙因子Logistic模型的密度函數(shù)推導(dǎo)得到。
以2022年全國碩士研究生招生考試《心理學(xué)專業(yè)基礎(chǔ)(312)》為例,采用雙因子項(xiàng)目反應(yīng)模型對試卷質(zhì)量進(jìn)行分析。在被試作答數(shù)據(jù)中,隨機(jī)抽取22953份樣本,剔除小題數(shù)據(jù)缺失的827份樣本,實(shí)際研究可用作答樣本為22126份。數(shù)據(jù)分析均采用SPSS 21.0以及R軟件中的mirt包(沈勵,萬雅琦,2022)。
全國碩士研究生招生考試《心理學(xué)專業(yè)基礎(chǔ)(312)》科目主要涉及心理學(xué)導(dǎo)論(簡稱“普心”)、發(fā)展與教育心理學(xué)(簡稱“發(fā)教”)、實(shí)驗(yàn)心理學(xué)(簡稱“實(shí)驗(yàn)”)、心理統(tǒng)計與測量(簡稱“統(tǒng)測”)四個學(xué)科基礎(chǔ)課程的內(nèi)容。試卷結(jié)構(gòu)見表1。
表1 試卷結(jié)構(gòu)
各維度得分的相關(guān)系數(shù)如表2所示??梢钥闯?試卷所包含的四個維度的考核內(nèi)容相關(guān)系數(shù)均在0.8左右,屬于高相關(guān),可以采用雙因子項(xiàng)目反應(yīng)模型來分析被試的作答反應(yīng)。
表2 各維度原始得分相關(guān)矩陣
針對樣本數(shù)據(jù),采用單維項(xiàng)目反應(yīng)模型、多維項(xiàng)目反應(yīng)模型以及雙因子項(xiàng)目反應(yīng)模型對數(shù)據(jù)進(jìn)行了擬合檢驗(yàn),擬合結(jié)果如表3所示。
表3 三種模型的擬合指標(biāo)比較
其中,模型擬合評價指標(biāo)AIC是Akaike信息準(zhǔn)則,BIC是貝葉斯信息準(zhǔn)則,SABIC是樣本校正的BIC,HQ為Hannan-Quinn準(zhǔn)則,這四個指數(shù)的值越小,表示模型對數(shù)據(jù)的擬合越好;對數(shù)似然函數(shù)logLik的絕對值越小,模型對數(shù)據(jù)的擬合也越好(潛變量建模與Mplus應(yīng)用·進(jìn)階篇,王孟成,畢向陽,2018)。
從模型擬合結(jié)果來看,多維項(xiàng)目反應(yīng)模型的擬合結(jié)果是最差的,其次是單維項(xiàng)目反應(yīng)模型,擬合表現(xiàn)最好的是雙因子項(xiàng)目反應(yīng)模型。采用R軟件mirt包中的anova函數(shù)對單維項(xiàng)目反應(yīng)模型和雙因子項(xiàng)目反應(yīng)模型進(jìn)行比較后發(fā)現(xiàn),雙因子項(xiàng)目反應(yīng)模型的擬合顯著優(yōu)于單維項(xiàng)目反應(yīng)模型,詳見表4。
表4 單維與雙因子項(xiàng)目反應(yīng)模型比較
綜上,選用雙因子項(xiàng)目反應(yīng)模型來分析作答數(shù)據(jù)是合適的。
本套試卷共有83道試題:選擇題75道,單項(xiàng)選擇題每題2分、多項(xiàng)選擇題每題3分;簡答題5道,每題10分;綜合題3道,每題30分。二級計分題(選擇題)采用雙因子雙參數(shù)Logistic模型;多級計分題(簡答題和綜合題)采用雙因子等級反應(yīng)模型,其中簡答題每2分合并為一個等級,共5個等級難度,(分?jǐn)?shù)(0,2]合并為一個等級,此等級所估難度為難度1;分?jǐn)?shù)(2,4]合并為一個等級,此等級所估難度為難度2;以此類推);綜合題每3分合并為一個等級,共10個等級難度(分?jǐn)?shù)(0,3]合并為一個等級,此等級所估難度為難度1;分?jǐn)?shù)(4,6]合并為一個等級,此等級所估難度為難度2;以此類推)。
表5 部分二級計分題區(qū)分度及難度參數(shù)
表6 部分多級計分題區(qū)分度及截距參數(shù)
經(jīng)轉(zhuǎn)換計算,表6中所涉及試題的難度參數(shù)如下:第76題的難度參數(shù)MDIFF76=(0.47,0.80,0.96,0.96,0.75),第78題的難度參數(shù)MDIFF78=(1.09,1.75,2.09,1.38,-0.77),第79題的難度參數(shù)MDIFF79=(2.30,4.94,6.37,6.34,3.39),第83題的難度參數(shù)MDIFF83=(0.20,0.35,0.16,-0.32,-0.61,-0.77,-1.02,-1.12,-1.62,-1.85)。
項(xiàng)目反應(yīng)理論認(rèn)為,項(xiàng)目的難度參數(shù)應(yīng)在[-3,3]之間,項(xiàng)目的區(qū)分度參數(shù)應(yīng)在[0,3]之間(羅照盛,2012)。難度參數(shù)的數(shù)值越高代表試題難度越大。從難度參數(shù)來看,整套試卷中絕大多數(shù)試題難度合理,難度參數(shù)在[-3,3]范圍內(nèi),但極少數(shù)試題難度偏高,如第67題。結(jié)合區(qū)分度來看,第67題在主測維度“發(fā)教”上區(qū)分度過低,可能是由于其難度過高(4.48)導(dǎo)致的,即便在維度“發(fā)教”上能力高的被試在該題上正確作答的概率也很小,而其他被試卻依然有一定概率通過猜測答對這道選擇題。MDIFF值也可以用來分析多級計分題等級劃分的合理性。比如第79題的難度MDIFF79=(2.30,4.94,6.37,6.34,3.39),前三個等級的設(shè)置有一定的遞增梯度,比較合理,但是后面兩個等級的難度相關(guān)參數(shù)遞減,等級設(shè)置不夠合理,還需改進(jìn)。
MDISC是一個總的概念,可以通過每一個ai值來細(xì)致分析每個項(xiàng)目在各維度上的區(qū)分度。數(shù)據(jù)顯示,二級計分題在一般因子上具有較好的區(qū)分度(表中a1),但是具體到特殊因子上,不同試題的區(qū)分度表現(xiàn)存在差別。其中,在“發(fā)教”維度共有4道試題的特殊因子區(qū)分度(表中a3)為負(fù)數(shù),說明這些試題測試該維度的能力時,能力高的被試反而正確作答率低,但是這幾道題在一般因子上的區(qū)分度表現(xiàn)卻很好。多級計分題在一般因子上的整體表現(xiàn)也優(yōu)于特殊因子。其中,多級計分題在“普心”和“實(shí)驗(yàn)”兩個維度上的區(qū)分度(表中a2、a4)表現(xiàn)一般;在“發(fā)教”和 “統(tǒng)測”兩個維度上的區(qū)分度(表中a3、a5)表現(xiàn)良好。
采用雙因子項(xiàng)目反應(yīng)模型對被試能力參數(shù)進(jìn)行估計,基于不同因子能力繪制密度曲線圖如圖1所示。
圖1 能力密度曲線
在雙因子模型中,G因子即一般因子,代表了心理學(xué)一般素養(yǎng),它蘊(yùn)含在考核的各部分知識內(nèi)容中。被試在心理學(xué)一般素養(yǎng)的能力分布廣,測驗(yàn)信度的大部分方差均由心理學(xué)一般能力所解釋,從數(shù)據(jù)分析結(jié)果可以看出,測驗(yàn)項(xiàng)目一般因子的區(qū)分度(表中a1)比特殊因子的區(qū)分度(表中a2~ a5)更好。從圖1中四個特殊因子的能力分布圖來看,“實(shí)驗(yàn)”和“統(tǒng)測”維度上的能力分布比“普心”和“發(fā)教”維度上的能力分布更高狹,且能力均值更高,說明“實(shí)驗(yàn)”和“統(tǒng)測”更能考查出被試的高階思維能力。
總的來說,此次試卷的命制達(dá)到了“大綜合”考試形式的目的,即對學(xué)科綜合素質(zhì)的考查。
針對2022年全國碩士研究生招生考試《心理學(xué)專業(yè)基礎(chǔ)(312)》科目,采用雙因子項(xiàng)目反應(yīng)模型對試卷進(jìn)行了質(zhì)量分析,在多個維度上分析了被試的作答表現(xiàn),并繪制了被試在各維度的能力密度曲線圖,充分解讀和分析這些測評信息,可以為提高試題質(zhì)量提供有針對性的啟發(fā)。主要結(jié)論如下。
(1)整套試卷命制符合“大綜合”科目試卷的命制要求,基本達(dá)到了考試大綱中所設(shè)定的考核要求,實(shí)現(xiàn)了考查學(xué)科綜合素質(zhì)的目的。
(2)從項(xiàng)目特征參數(shù)來看,心理學(xué)一般因子作為主要的考查內(nèi)容,具有較好的區(qū)分度;而特殊因子(課程因子)的表現(xiàn)存在差異。二級計分題的特殊因子“發(fā)教”、多級計分題的特殊因子“普心”和“實(shí)驗(yàn)”,在其主測維度上的測量精度有待提高。
(3)從能力密度曲線來看,相較“普心”和“發(fā)教”兩個因子,“實(shí)驗(yàn)”和“統(tǒng)測”兩個因子對被試高階思維能力的考核更加有效,選拔性功能更強(qiáng)。
雙因子項(xiàng)目反應(yīng)模型符合研究生招生考試中“大綜合”試卷的結(jié)構(gòu)特征。用雙因子項(xiàng)目反應(yīng)模型來處理被試在項(xiàng)目上的原始反應(yīng)數(shù)據(jù),比起傳統(tǒng)的線性雙因子模型的間接處理,保留了更多的被試作答信息。相較單維項(xiàng)目反應(yīng)理論而言,雙因子項(xiàng)目反應(yīng)模型對“大綜合”試卷的分析更加精細(xì),它對每個項(xiàng)目都做了的細(xì)致的分析,對試卷總體和涉及的基礎(chǔ)課程維度也進(jìn)行了分析,能夠看到被試能力在各個維度上的具體表現(xiàn),從而能夠全方位了解試題的質(zhì)量情況,其最突出的優(yōu)點(diǎn)是能夠更加精確區(qū)分出專業(yè)基礎(chǔ)“大綜合”試卷中的鑒別性維度,有利于后續(xù)對考核內(nèi)容和試卷結(jié)構(gòu)進(jìn)行針對性調(diào)整。
基于以上分析,對研究生招生考試專業(yè)基礎(chǔ)“大綜合”試卷的命制提出以下建議:
(1)明確“門檻性”考核內(nèi)容和“鑒別性”考核內(nèi)容。根據(jù)被試在特殊因子上的反應(yīng),區(qū)分出考試的“門檻性”因子和“鑒別性”因子。對于專業(yè)必需的“門檻性”知識,不必過分追求項(xiàng)目的難度和區(qū)分度,應(yīng)該更加強(qiáng)調(diào)考核知識點(diǎn)的重要性和覆蓋度,但是對于“鑒別性”知識則要求盡量提高項(xiàng)目質(zhì)量,以實(shí)現(xiàn)考試的選拔目的。
(2)適當(dāng)調(diào)整“門檻性”項(xiàng)目與“鑒別性”項(xiàng)目的題量和分值。根據(jù)雙因子項(xiàng)目反應(yīng)模型的分析結(jié)果,適當(dāng)調(diào)整各個維度考核內(nèi)容的比重,在適度考核專業(yè)“門檻性”知識的基礎(chǔ)上,盡量提高“鑒別性”項(xiàng)目的比重和質(zhì)量,以提高人才選拔的有效性。
針對研究生招生考試《心理學(xué)專業(yè)基礎(chǔ)(312)》科目,建議在后續(xù)修訂考試大綱時,對試卷結(jié)構(gòu)進(jìn)行如下調(diào)整:第一,在心理學(xué)導(dǎo)論、發(fā)展和教育心理學(xué)的維度上,以適度、必需為原則,認(rèn)真斟酌項(xiàng)目的取舍,在此基礎(chǔ)上盡量使項(xiàng)目的特征參數(shù)在合理區(qū)間范圍內(nèi)。第二,在實(shí)驗(yàn)心理學(xué)、心理測量與統(tǒng)計兩個維度上,適當(dāng)提高考核內(nèi)容占比,提高命題質(zhì)量,加強(qiáng)對被試高階思維能力的考核。
雙因子項(xiàng)目反應(yīng)理論的引入,拓寬了研究生招生考試質(zhì)量評價的路徑,為研究生招生考試的內(nèi)容改革提供了更加豐富的分析資料,在提高研究生招生考試的科學(xué)性方面具有較廣的應(yīng)用前景。