李心鈺 王超 陸宏
摘要:計算機自適應(yīng)測驗(Computerized Adaptive Testing,CAT)的有效性檢驗是評定測驗生成過程以及解釋測驗結(jié)果是否恰當(dāng)、合理的必要步驟,然而系統(tǒng)性探討CAT有效性檢驗的研究相對較少。為彌補其不足,文章在剖析CAT有效性檢驗內(nèi)涵的基礎(chǔ)上,首先梳理了基于IRT的題庫、模擬CAT與真實CAT有效性檢驗的基本內(nèi)容。然后,文章針對題庫中試題逐漸向多維度和多模態(tài)轉(zhuǎn)變的特點,提出利用高階因子模型與多質(zhì)多法模型對多維度與多模態(tài)試題進行有效性檢驗的方法;同時建議從測驗公平性的角度,檢驗CLT與CAT中個體人格特質(zhì)對被試作答表現(xiàn)的影響是否具有跨組不變性,最終形成了一套符合時代發(fā)展的CAT有效性檢驗的完整流程,以期為CAT的持續(xù)改進及其在教育實踐中的普及推廣提供助力。
關(guān)鍵詞:計算機自適應(yīng)測驗;有效性檢驗;多維度與多模態(tài)試題;測驗公平性
【中圖分類號】G40-057 【文獻標(biāo)識碼】A 【論文編號】1009—8097(2024)06—0123—10?【DOI】10.3969/j.issn.1009-8097.2024.06.013
隨著教育評價改革運動和計算機技術(shù)的迅猛發(fā)展,教育測量與評價理論的演進在不斷深入,教育測驗也逐步從傳統(tǒng)的以經(jīng)典測量理論(Classical Test Theory,CTT)為基礎(chǔ)的線性測驗,轉(zhuǎn)向以項目反應(yīng)理論(Item Response Theory,IRT)為依托的計算機自適應(yīng)測驗(Computerized Adaptive Testing,CAT),總體發(fā)展趨勢呈現(xiàn)出尊重學(xué)生個體差異、注重因材施測的教育理念。IRT克服了CTT的諸多缺陷,使CAT能夠利用更短的時間和更少的試題,實現(xiàn)對被試能力水平更精準的測量[1],但其測量結(jié)果的有效性檢驗卻一直是橫亙在教育測量與評價領(lǐng)域的難題之一。首先,CAT“一人一卷,千人千卷”的特點,使傳統(tǒng)線性測驗的有效性檢驗方式無法直接移植到CAT中。其次,伴隨著CAT測評模式的衍生發(fā)展,能夠同時評估被試在多個維度上能力水平的多維計算機自適應(yīng)測驗(Multidimensional Computerized Adaptive Testing,MCAT)引起研究者的廣泛關(guān)注。同時,隨著教育評價理念的不斷演變,測驗編制者試圖將試題從單一的文本模態(tài)擴展至文本、圖像、視頻等混合模態(tài),通過建構(gòu)真實情境,評估被試解決實際問題的能力[2]。盡管基于多維度與多模態(tài)題庫的CAT能夠滿足測驗的更多需求,但適用于多維度與多模態(tài)試題的有效性檢驗方式始終沒有成型。最后,在CAT環(huán)境下,被試人格特質(zhì)對作答表現(xiàn)的影響機制是否會導(dǎo)致測驗結(jié)果的不公平,進而影響CAT的有效性也是尚未解決的難題?;诖?,本研究將在分別歸納總結(jié)CAT題庫、模擬CAT、真實CAT有效性檢驗基本環(huán)節(jié)的基礎(chǔ)上,提出適用于多維度與多模態(tài)試題有效性檢驗的特定方法,并設(shè)計以傳統(tǒng)線性測驗為校標(biāo),檢驗CAT是否具有測驗公平性的實驗方案,以期為CAT的持續(xù)改進及其在教育實踐中的普及推廣提供助力。
一?CAT有效性檢驗的內(nèi)涵
1何為有效性檢驗
測驗的效度也稱有效性,是反映測驗結(jié)果準確性的指標(biāo)[3]。教育測量學(xué)初步形成于20世紀初,有效性檢驗亦興起于該時期。1937年,Bingham[4]給出了有效性檢驗的操作定義,即有效性檢驗是指一項測驗的成績與采用其他客觀方法進行測量的結(jié)果之間的相關(guān)系數(shù),此時的有效性檢驗是簡單、初級的,相關(guān)系數(shù)被賦予絕對化的意義。在此之后,有效性檢驗又逐步發(fā)展形成了分類效度、構(gòu)念效度、基于論證的效度等多種檢驗?zāi)J?sup>[5]。
隨著教育測量理論和實踐的發(fā)展,測驗的關(guān)注點已越來越多地放在對被試的診斷、評價和補救之上,因此對測驗分數(shù)的解釋和應(yīng)用日益受到重視,測驗有效性檢驗的定義也逐漸游離于傳統(tǒng)定義之外。1985年,美國心理學(xué)會在頒布的《教育與心理測驗標(biāo)準》中給出了有效性檢驗的第一個形式化定義,即基于測量分數(shù)或其他評估形式所做出的推論的適當(dāng)性[6]。由其定義可知,有效性檢驗主要具有兩方面作用,一是為測驗分數(shù)的解釋和運用提供支持,二是審核特定分數(shù)在解釋和使用上的合理性和恰當(dāng)性。
時至今日,人們傾向于認為測驗的有效性檢驗不是簡單地通過一個或幾個數(shù)量化指標(biāo)就能得到充分表示的,而是實驗、統(tǒng)計、理論等諸多方面證據(jù)的積累。換言之,有效性檢驗是一個收集有效性證據(jù)的過程,這個過程不是一個全或無的問題,而是一個程度大小的問題,其從測驗編制開始,一直延續(xù)到測驗結(jié)果的解釋、應(yīng)用等諸多環(huán)節(jié)[7]。
2 CAT有效性檢驗的重點環(huán)節(jié)
傳統(tǒng)線性測驗的有效性檢驗主要側(cè)重于信效度的測量,與之不同,CAT有效性檢驗的著重點主要體現(xiàn)在以下環(huán)節(jié):
①傳統(tǒng)線性測驗一般由命題人員從題庫中選取特定的試題組成整套試卷提供給所有被試,其題庫功能多為儲存、檢索試題。而CAT要在題庫中為每一名被試挑選與其能力相匹配的試題,這樣題庫質(zhì)量(如試題與模型的匹配程度、能夠提供的信息量的大小等)是否符合要求就顯得更為重要,如果題庫質(zhì)量存在問題,導(dǎo)致選題出現(xiàn)偏差,測驗就可能無法達到預(yù)定的測量目標(biāo)。因此,在CAT題庫構(gòu)建完成后,需要對題庫的有效性進行檢驗,以確保CAT的順利實施。
②CAT的測驗結(jié)果是否能滿足施測者的要求,與CAT中選題策略、能力估計的方法等技術(shù)細節(jié)息息相關(guān),為了尋找最佳方案,往往需要比較多種不同的策略和方法。如果每種策略和方法的優(yōu)劣都通過選取真實被試來獲得,無疑將造成人力、財力的巨大消耗。但如果通過模擬CAT進行實驗研究,不僅可以解決測驗情境復(fù)雜時研究變量不易控制的問題,還能為研究者提供短時間內(nèi)評測多種策略與方法的可能性,因此模擬CAT是有效性檢驗中不可或缺的組成部分。
③模擬CAT有著諸多便捷之處,但毋庸置疑的是,真實CAT的測驗結(jié)果才更符合實際情況、更令人信服,模擬數(shù)據(jù)能否準確反映真實情境始終是令人存疑的。因此,盡管真實CAT需要開發(fā)題庫、征集被試、現(xiàn)場測驗,存在研究成本高、耗時長等問題;且真實被試還可能受到如測驗環(huán)境、測驗焦慮等不確定因素的干擾,但真實CAT依然是有效性檢驗中無可替代的環(huán)節(jié)。
二題庫的有效性檢驗
建設(shè)一個高質(zhì)量的題庫是提升測驗安全性、維護測驗結(jié)果公平性的有力保障。題庫構(gòu)建的理論基礎(chǔ)不外乎CTT和IRT兩種,基于CTT題庫的模型較為簡單,投入成本較小,但其試題參數(shù)在不同情境下的可靠性和擴展性較差。因此,本研究中的題庫指基于IRT的題庫,此類題庫的理論基礎(chǔ)和技術(shù)手段相對復(fù)雜,但其試題參數(shù)適用于多種情境,如智能組卷、線性測驗、自適應(yīng)測驗等。IRT題庫的有效性檢驗通常包括假設(shè)檢驗、模型與數(shù)據(jù)的擬合性檢驗、項目功能差異(Differential Item Function,DIF)檢驗、測驗信息量的計算[8]。
1 假設(shè)檢驗
IRT所包含的一切理論必須建立在單維性假設(shè)和局部獨立性假設(shè)的基礎(chǔ)之上,因此,IRT題庫的假設(shè)檢驗包括:單維性檢驗和局部獨立性檢驗。
(1)單維性檢驗
測驗的單維性是指被試在測驗中的表現(xiàn)只能由一種能力或因素進行解釋,目前大多數(shù)關(guān)于測驗有效性的研究僅局限于題庫的單維性檢驗,涉及題庫多維性檢驗的研究寥寥無幾。IRT題庫是否符合單維性主要從兩方面進行考量,一是檢驗試題編制原則是否符合單維性;二是在收集測驗數(shù)據(jù)的前提下,運用統(tǒng)計分析軟件(如SPSS、AMOS、R語言等)進行探索性因子分析(Exploratory Factor Analysis,EFA)或驗證性因子分析(Confirmatory Factor Analysis,CFA),EFA和CFA中單維性檢驗的判別指標(biāo)分別是因子的方差解釋量和擬合指數(shù)。以免費開源軟件R語言為例,EFA和CFA可以分別使用R軟件包的psych和lavaan加以實現(xiàn)。
(2)局部獨立性檢驗
局部獨立性指任何一個能力水平的被試在全部試題上的聯(lián)合正答概率等于其在各試題上正答概率的乘積,其內(nèi)涵表現(xiàn)在:①同一被試在某道試題上的正答概率獨立于該被試在其他試題上的正答概率;②能力水平相同的被試群體在同一道試題上的正答概率相互獨立。局部獨立性是IRT中試題維持參數(shù)不變性的前提之一,其驗證過程可以通過R語言軟件包mirt分析試題殘差間的相關(guān)來實現(xiàn),若試題殘差間的相關(guān)小于0.2,局部獨立性成立,反之則存在局部依賴性。
2 模型與數(shù)據(jù)的擬合性檢驗
模型與數(shù)據(jù)的擬合既可以在一定程度上保證試題參數(shù)與被試能力水平估計的準確性,又可以使參加自適應(yīng)測驗的不同被試的能力水平具有可比性,因此模型與數(shù)據(jù)擬合性檢驗的目的是識別題庫中擬合效果較差的試題并予以刪除。模型與數(shù)據(jù)的擬合性檢驗可以通過R語言軟件包mirt中的itemfit函數(shù)來完成,其檢驗統(tǒng)計量有S-X2、PV-Q1等[9]。以S-X2為例,p<0.001被視為模型與數(shù)據(jù)擬合性不佳,但當(dāng)測驗的樣本量較大時,p值會隨著樣本量的增大而顯著變小,這時研究者會傾向于將近似均方根誤差RMSEA作為擬合檢驗統(tǒng)計量[10]。
3 項目功能差異檢驗
DIF檢驗旨在分析被試對測驗試題的作答是否與其背景(如性別、種族或年齡等)相關(guān),當(dāng)來自不同背景的具有相同能力水平的被試,對同一道試題進行作答所產(chǎn)生的正答概率不同時,即代表該試題存在DIF。一個公正無偏測驗中的試題不應(yīng)存在DIF,一旦所測試題存在DIF,被試最終能力水平估計就會出現(xiàn)偏差。DIF檢驗可通過R語言軟件包lodif實現(xiàn),當(dāng)效應(yīng)統(tǒng)計量McFaddens pseudo R2<0.02時,DIF可忽略不計[11]。
4 測驗信息量的計算
測驗信息量反映了整個測驗在評價被試能力水平時的信息貢獻量,題庫的測驗信息量由試題信息量累加而成,各試題信息量之間互不影響,某一試題信息量的取值由試題參數(shù)和被試能力水平所決定。IRT中測驗信息量的平方根的倒數(shù)構(gòu)成了被試能力水平估計值的標(biāo)準誤,1與標(biāo)準誤平方之差的絕對值即該能力水平的測驗信度。由此可知,題庫所提供的測驗信息量越大,對被試能力水平的估計越精準(標(biāo)準誤越?。?,測驗信度越高。題庫中試題信息量、測驗信息量、能力估計標(biāo)準誤、測驗信度范圍的計算與繪制可分別通過R語言軟件包mirt和ltm實現(xiàn)[12]。
三?CAT的有效性檢驗
1 模擬CAT的有效性檢驗
目前,模擬CAT已經(jīng)成為研究CAT技術(shù)的重要手段之一,常用的模擬CAT有以下三種方法:①蒙特卡羅模擬,這是一種基于模擬隨機數(shù)的統(tǒng)計抽樣實驗方法,測驗中的參數(shù)如被試能力、試題難度等常被認為滿足一定的經(jīng)驗概率分布,可以通過計算機的隨機發(fā)生器預(yù)先模擬產(chǎn)生,其有效性檢驗主要是評估不同算法支持下CAT的性能,并對其優(yōu)劣進行比較和評價;②事后模擬,即依據(jù)被試在題庫中所有試題上的真實作答結(jié)果,模擬出被試在CAT中的試題作答序列和測驗長度,其有效性檢驗主要是依據(jù)被試在常規(guī)線性測驗中的作答結(jié)果,探究當(dāng)測驗以CAT的方式實施時,測驗試題的減少數(shù)量;③混合式模擬,在實際的測驗中,龐大的題庫、測驗安全約束等不允許被試對題庫中的所有試題都進行作答,因此最終生成的試題反應(yīng)矩陣是稀疏的,此時要使用混合式模擬來解決這一問題[13]。該方法首先使用蒙特卡羅模擬估計出被試在題庫中未作答試題上的作答結(jié)果,得到稀疏矩陣中的缺失數(shù)據(jù),然后使用事后模擬評估CAT的有效性。
根據(jù)模擬CAT研究的不同目的,蒙特卡羅模擬的有效性檢驗主要涉及以下三個方面:測驗?zāi)M返真性能、測驗安全性、題庫使用情況。其中,測驗?zāi)M返真性能常用均方根誤差(RMSE)和偏差(Bias)進行評價,RMSE越小或Bias絕對值越趨近于零,模擬結(jié)果越準確;測驗安全性常用測驗重疊率、卡方統(tǒng)計量等指標(biāo)進行評價,指標(biāo)數(shù)值越小,測驗安全性越高;題庫使用情況常用題庫使用率進行評價,在不降低測驗效率的情況下,題庫中區(qū)分度偏低的試題使用越充分,效果越好[14]。事后模擬和混合式模擬的有效性檢驗主要是分析測驗效率,其評價指標(biāo)為線性測驗與CAT測驗長度間的差異。一般情況下,模擬CAT及其有效性檢驗可通過R語言軟件包mirtCAT實現(xiàn),在選拔性、高利害的CAT中,著重檢驗測驗的安全性;而在診斷性、低利害的CAT中更加關(guān)注被試能力估計的準確性[15]。
2 真實CAT的有效性檢驗
目前,線性測驗作為教育測量與評價領(lǐng)域的常用測驗形式已經(jīng)獲得了教育教學(xué)實踐工作者的認可。因此,對真實CAT的有效性檢驗可以通過將其與計算機化線性測驗(Computerized Linear Test,CLT)進行等效性研究來加以實施,兩者的等效性比較主要從被試能力水平、測驗信度、測驗效度、測驗效率的角度進行。
(1)被試能力水平的比較
為使CLT與CAT的被試能力水平具備可比性,應(yīng)確保兩者進行等效性研究的試題是源于同一個以IRT為基礎(chǔ)開發(fā)的題庫,且參加CLT與CAT的被試為相同被試或隨機分配的兩組被試。若為相同被試分別參加CLT和CAT,可直接比較兩次測驗獲取的被試能力水平的排序是否一致;若為不同組被試,則可比較CLT與CAT被試能力水平的描述性統(tǒng)計特征,如比較能力水平分布曲線,觀察其形狀是否相似。
(2)測驗信度的比較
在IRT構(gòu)建的測驗中,測驗信息量取代了CTT的信度概念,測驗信息量越大,表示測驗的信度越高。就CLT而言,盡管每位被試所測的試題相同,但其能力水平不同,測驗所能提供的信息量亦不相同,所得的測驗信度系數(shù)最終表現(xiàn)為一個范圍。在CAT中,測驗信度的取值與測驗的終止規(guī)則息息相關(guān),若比較測驗信度,則CAT的終止規(guī)則應(yīng)采用固定長度法(CLT與CAT測驗長度相同),此時CAT的信度系數(shù)同樣存在一個范圍。CLT與CAT測驗信度的比較可通過對比測驗信度系數(shù)的統(tǒng)計學(xué)特征(如平均值、標(biāo)準差、最大值、最小值)來實現(xiàn)。
(3)測驗效度的比較
在CLT與CAT測驗效度的比較中,內(nèi)容效度是較適宜的評價指標(biāo)。CLT的試題由學(xué)科和測量專家按照課程目標(biāo)、教學(xué)內(nèi)容、評價目的等編制而得,一般具有良好的內(nèi)容效度;而CAT利用選題策略進行適應(yīng)性選題,這就意味著被試的能力水平不同,其所做的試題不同,試題考查的內(nèi)容可能存在不平衡性。兩者內(nèi)容效度的比較按照以下步驟展開:①劃分CAT高、中、低能力區(qū)間,選取每個能力區(qū)間處于中間值的被試的測驗內(nèi)容為代表;②以CLT為校標(biāo),比較CLT與CAT中各部分試題內(nèi)容的數(shù)量和比例。
(4)測驗效率的比較
考慮到CAT中測驗終止規(guī)則的差異,CLT與CAT測驗效率的比較主要從兩方面進行考量:①測驗所測試題數(shù)量相同時,測量精確度的比較;②測驗達到相同測量精確度時,所測試題數(shù)量的比較。若CAT采用固定長度法的測驗終止規(guī)則,測驗效率的比較即被試能力估計值標(biāo)準誤的比較,標(biāo)準誤越小,測驗效率越高;若CAT采用固定測量精確度的測驗終止規(guī)則,測驗效率的比較則為測驗試題數(shù)量的比較,試題數(shù)量越少,測驗效率越高。
四 題庫及CAT有效性檢驗的優(yōu)化
現(xiàn)有題庫的有效性檢驗主要用于檢驗單維度和單一文本模態(tài)的題庫。隨著試題能力維度與模態(tài)的發(fā)展變化,基于多維度與多模態(tài)題庫的CAT逐漸進入教育實踐領(lǐng)域,但其有效性檢驗的方法至今鮮有涉及。另外,有研究顯示,在CAT中被試的測驗焦慮、自我效能感、認知風(fēng)格會顯著影響其作答成績、作答時間、作答行為等作答表現(xiàn)[16]。因此,有必要對測驗過程中更廣泛的個體人格特質(zhì)和作答表現(xiàn)之間的關(guān)聯(lián)做進一步探討,以便更全面地從測驗公平性的角度檢驗CAT施測結(jié)果的有效性。
1 題庫有效性檢驗的優(yōu)化——多維度與多模態(tài)試題的有效性檢驗
本研究將以教師數(shù)字素養(yǎng)的題庫為例,進行多維度與多模態(tài)試題的有效性檢驗。2022年12月,教育部發(fā)布了《教師數(shù)字素養(yǎng)》教育行業(yè)標(biāo)準,旨在提升教師利用數(shù)字技術(shù)優(yōu)化、創(chuàng)新和變革教育教學(xué)活動的意識、能力和責(zé)任[17]?!督處煍?shù)字素養(yǎng)》規(guī)定了教師數(shù)字化意識、數(shù)字技術(shù)知識與技能、數(shù)字化應(yīng)用、數(shù)字社會責(zé)任和專業(yè)發(fā)展五個能力維度的目標(biāo)要求,其測量不僅應(yīng)涉及教師在多維度認知領(lǐng)域的掌握、應(yīng)用能力,還應(yīng)通過多模態(tài)試題實現(xiàn)對分析、整合、評價能力的測量。本研究按照《教師數(shù)字素養(yǎng)》將題庫中試題所測量的能力劃分為五個維度,將試題的模態(tài)劃分為文本、圖像、視頻三種,嘗試通過構(gòu)建高階因子模型和多質(zhì)多法模型對題庫中多維度與多模態(tài)試題的有效性進行檢驗。
(1)高階因子模型
高階因子(High-order Factor)模型是由Hull等[18]提出的一種能夠測量多維特質(zhì)的模型,其原理是由一個高階因子解釋多個高度相關(guān)的低階因子,并用低階因子的殘差解釋各維度的獨特性,可在多維度與多模態(tài)試題的有效性檢驗中評估能力高階因子對不同測評方法的解釋程度。
以教師數(shù)字素養(yǎng)題庫的有效性檢驗為例,在高階因子模型的構(gòu)建過程中,首先將相同試題模態(tài)測評的每個能力維度上的試題得分平均值作為模型的指標(biāo),此處三種試題模態(tài)和五個能力維度的交叉形成模型包含15個指標(biāo),模型中測評相同能力維度的指標(biāo)之間容許殘差相關(guān)。然后,將文本類、圖像類、視頻類試題作為一階因子,15個指標(biāo)分別歸屬于這三個一階因子。最后,抽取一個二階因子(此處為數(shù)字素養(yǎng)),建立數(shù)字素養(yǎng)的二階因子模型,如圖1所示。
圖中的DL代表數(shù)字素養(yǎng)(Digital Literacy),D1、D2、D3、D4、D5分別代表數(shù)字化意識、數(shù)字技術(shù)知識與技能、數(shù)字化應(yīng)用、數(shù)字社會責(zé)任和專業(yè)發(fā)展能力;T、I、V分別代表文本(Text)類試題模態(tài)、圖像(Image)類試題模態(tài)、視頻(Video)類試題模態(tài);U代表獨特性(Uniqueness)。
最終,模型分析的結(jié)果將提供能力高階因子對三個試題模態(tài)因子的標(biāo)準化路徑系數(shù)和解釋率,以此檢驗題庫中多模態(tài)試題對多維度數(shù)字素養(yǎng)能力的測量結(jié)果是否有效。
(2)多質(zhì)多法模型
多質(zhì)多法(Multitrait-Multimethod)的研究觀點源于Campbell和Fiske,其理念是針對同一特質(zhì)采用不同測量工具所得的測量結(jié)果之間相關(guān)程度應(yīng)該較高,而測量不同特質(zhì)的相同測量工具的測量結(jié)果之間相關(guān)程度應(yīng)該較低[19]。通過分析多質(zhì)多法模型中的相關(guān)矩陣,可以檢驗不同測量方法的會聚效度和不同特質(zhì)之間的區(qū)分效度,以便準確了解不同測評手段測量不同特質(zhì)的有效性。
在教師數(shù)字素養(yǎng)的測量中,可基于三種試題模態(tài)和五個能力維度構(gòu)建數(shù)字素養(yǎng)的多質(zhì)多法模型,如圖2所示。其中,三種試題模態(tài)和五個能力維度的交叉形成了模型所包含的15個指標(biāo),三種試題模態(tài)作為模型的3個方法潛因子,五個能力維度作為模型的5個特質(zhì)潛因子,模型中的每一個指標(biāo)都歸屬于1個方法因子和1個特質(zhì)因子,方法因子之間、特質(zhì)因子之間容許相關(guān)。
通過多質(zhì)多法模型與數(shù)據(jù)的擬合程度、因子載荷和因子之間的相關(guān)性,可以考查不同模態(tài)試題測評相同能力維度的會聚效度和相同模態(tài)試題測評不同能力維度的區(qū)分效度,并比較不同模態(tài)試題測評不同能力維度時在有效性方面的差異。在多質(zhì)多法模型中,良好的會聚效度代表不同方法測量同一能力時呈現(xiàn)出較高的相關(guān)性;而良好的區(qū)分效度則表現(xiàn)為同一方法能準確測量不同的能力,但不同能力間的相關(guān)則較低。
2 真實CAT有效性檢驗的優(yōu)化——CLT與真實CAT測驗公平性的比較
研究發(fā)現(xiàn),在不同的測驗環(huán)境中個體人格特質(zhì)可能對被試的作答表現(xiàn)產(chǎn)生顯著的影響。例如,Von der Embse等[20]通過對238項教育類測驗進行元分析,發(fā)現(xiàn)課程測驗成績、平均績點和高風(fēng)險測驗成績與測驗焦慮間表現(xiàn)出顯著的負相關(guān),這些測驗涉及多種國家級考試及各類專業(yè)考試,測驗形式既有紙筆類測驗,也有計算機化線性測驗和自適應(yīng)測驗。經(jīng)過研究發(fā)現(xiàn),在正答概率為0.5和0.7的CAT中,沉思-沖動型認知風(fēng)格對被試的試題作答時間均有顯著影響,且在測驗由難變易(正答概率由0.5變?yōu)?.7)時,個體認知風(fēng)格的差異與試題特征對試題作答時間的總效應(yīng)顯著降低[21]。此外,研究還證實,CAT中不同被試的作答行為差異與其人格特質(zhì)息息相關(guān)[22]。
線性測驗與自適應(yīng)測驗提供了不同的測驗環(huán)境,而不同的測驗環(huán)境可能會導(dǎo)致個體人格特質(zhì)對作答表現(xiàn)(含作答成績、作答時間、作答行為)的影響存在顯著差異。由于教育實踐領(lǐng)域已經(jīng)普遍認同了線性測驗的公平性,因此可以將線性測驗作為校標(biāo),探究個體人格特質(zhì)在CAT環(huán)境中是否會對作答表現(xiàn)產(chǎn)生更強的正面或負面影響,從而判定CAT是否具有測驗的公平性。
(1)個體人格特質(zhì)與被試作答表現(xiàn)
人格特質(zhì)是個體中相對穩(wěn)定的認知、情感和行為模式[23]。目前普遍認同的構(gòu)成人格的基本要素或特質(zhì)是美國心理學(xué)家Costa等[24]提出的大五人格特質(zhì),這是一種闡述人格特質(zhì)的結(jié)構(gòu)關(guān)系的理論,包含五個維度——神經(jīng)質(zhì)、宜人性、盡責(zé)性、開放性、外傾性。經(jīng)過幾十年的實證檢驗,大五人格特質(zhì)已獲得學(xué)界公認,且盡管該理論源自國外,但在不同文化、民族的群體中,大五人格特質(zhì)均表現(xiàn)出跨文化的一致性。因此,本研究以大五人格特質(zhì)為例,探究其在CLT和CAT測驗環(huán)境中對被試作答表現(xiàn)的影響是否存在顯著差異。
本研究中的作答表現(xiàn)是指在CLT和CAT中被試的作答成績以及被試表現(xiàn)出來的作答時間和作答行為。其中,作答成績指被試的能力水平;作答時間指被試在作答某一試題時,從開始作答到作答結(jié)束所用的時間;作答行為則是被試在做題過程中表現(xiàn)出來的外顯行為,即解題行為和猜答行為。解題行為是指被試對試題做出認真思考并努力尋求正確答案的作答行為;猜答行為是指被試不瀏覽試題,或瀏覽試題但未經(jīng)思考而直接猜測試題答案的作答行為。要識別解題行為和猜答行為,需要為每道試題指定一個時間閾值,本研究選用了Kong等[25]提出的標(biāo)準閾值法作為區(qū)分解題行為和猜答行為的判別方法。
(2)大五人格對被試作答表現(xiàn)的影響機制
本研究根據(jù)個體大五人格的定義和大五人格對學(xué)習(xí)成績、學(xué)習(xí)行為影響的文獻綜述[26][27],以及作答成績、作答時間、作答行為之間的相互關(guān)系,做出如下假設(shè):①被試的神經(jīng)質(zhì)、宜人性、盡責(zé)性對作答成績有顯著的影響;②被試的神經(jīng)質(zhì)、盡責(zé)性、外傾性對作答時間有顯著的影響;③被試的神經(jīng)質(zhì)、盡責(zé)性、開放性對作答行為有顯著影響;④被試的作答行為對作答成績有顯著的影響;⑤被試的作答行為對作答時間有顯著影響;⑥被試的神經(jīng)質(zhì)、宜人性、盡責(zé)性、開放性、外傾性之間存在顯著相關(guān)。根據(jù)上述假設(shè),本研究構(gòu)建了圖3所示的個體大五人格對被試作答表現(xiàn)影響機制的結(jié)構(gòu)方程模型,圖中ξ是外源潛變量,η是內(nèi)生潛變量,β描述了內(nèi)生潛變量η之間的關(guān)系,ζ是結(jié)構(gòu)方程的殘差項,反映了η在方程中未能被解釋的部分。
(3)跨組不變性檢驗
本研究通過多組結(jié)構(gòu)方程模型分析來檢驗,在CLT與CAT中個體大五人格對被試作答表現(xiàn)的影響機制是否存在跨組不變性。
首先,利用總樣本、CLT和CAT樣本的作答數(shù)據(jù)分別與圖3中的結(jié)構(gòu)方程模型進行擬合,如果模型與數(shù)據(jù)擬合良好,該模型將作為基準模型用于后續(xù)的多組結(jié)構(gòu)方程模型分析。
然后,在得到基準模型后,通過設(shè)置多個約束條件檢驗CLT和CAT之間是否存在不變性,當(dāng)前面的約束條件不成立時,則不存在跨組不變性,后面的約束條件就不需要再檢驗了??梢栽O(shè)置的約束條件有:①設(shè)定結(jié)構(gòu)系數(shù)相等,即B?(CLT)=B?(CAT),G?(CLT)=G?(CAT);②增設(shè)潛變量x的協(xié)方差矩陣F相等,即B?(CLT)=B?(CAT),G?(CLT)=G?(CAT),F (CLT)=F (CAT);③增設(shè)殘差項?的協(xié)方差矩陣Y 相等,即B?(CLT)=B?(CAT),G?(CLT)=G?(CAT),F (CLT)=F (CAT),Y (CLT)=Y (CAT)。
最后,比較結(jié)構(gòu)方程模型中外源潛變量對內(nèi)生潛變量的直接效應(yīng)和間接效應(yīng)是否具有跨組不變性。
若檢驗結(jié)果顯示CLT與CAT之間存在跨組不變性,表明CLT與CAT具有相似的測驗公平性。若檢驗結(jié)果顯示CLT與CAT之間不存在跨組不變性,則需要進一步分析CLT與CAT中大五人格特質(zhì)對作答表現(xiàn)的影響孰強孰弱,若CAT強于CLT,則CAT的測驗公平性差于CLT;若CAT弱于CLT,則CAT的測驗公平性優(yōu)于CLT。
五 結(jié)語
本研究在闡述CAT有效性檢驗內(nèi)涵的基礎(chǔ)上,探討了題庫、模擬CAT和真實CAT有效性檢驗的基本環(huán)節(jié),并進一步提出了優(yōu)化題庫和真實CAT有效性檢驗的改進方法,從而形成了CAT有效性檢驗的完整流程。研究內(nèi)容側(cè)重于以定量的方法探討CAT的有效性檢驗,但實際上,定性的方法也能為CAT的有效性檢驗提供證據(jù)。例如,在一次CAT施測前,并未告知被試將要進行的是自適應(yīng)測驗,施測后研究團隊組織被試進行了座談,座談中有被試提及在測驗中有一種特殊的感覺,即當(dāng)自己有把握答對試題時,后續(xù)試題會變難;當(dāng)自己遇到不會做的試題時,后續(xù)試題會變得容易。無疑,被試以自己的感知,為CAT中選題策略的有效性提供了強有力的證據(jù)。然而本研究提出的題庫與真實CAT有效性檢驗的改進方法僅從理論層面做了探討,尚未進行實踐,因此在未來CAT有效性檢驗的研究中,研究團隊將注重開展定量與定性方法結(jié)合的實證探索,從不同的角度為CAT的有效性檢驗積累更多證據(jù),這更符合測驗有效性檢驗的內(nèi)涵,即有效性檢驗是一個收集證據(jù)的過程,它不是一個全或無的問題,而是一個程度大小的問題。
參考文獻
[1]Weiss D J. Improving measurement quality and efficiency with adaptive testing[J]. Applied Psychological Measurement,?1982,(4):473-492.
[2]Wang Y, Lu H. Validating items of different modalities to assess the educational technology competency of pre-service teachers[J]. Computers & Education, 2021,162:104081.
[3][6]AERA, APA, NCME. Standards for educational and psychological testing[M]. Washington D C:?American Educational Research Association,?1985:9、94.
[4]Bingham W V. Aptitudes and aptitude testing[M]. New York: Harper & Brothers,?1937:204.
[5]劉慶思.效度驗證:教育考試亟需補齊的短板[J].中國考試,2018,(4):16-21.
[7]張厚粲,龔耀先.心理測量學(xué)[M].杭州:浙江教育出版社,2012:208.
[8]王玥,常淑娟,韓曉玲,等.基于項目反應(yīng)理論的題庫構(gòu)建及其有效性檢驗——以“現(xiàn)代教育技術(shù)”公共課為例[J].現(xiàn)代教育技術(shù),2019,(10):41-47.
[9]溫忠麟,侯杰泰,馬什赫伯特.結(jié)構(gòu)方程模型檢驗:擬合指數(shù)與卡方準則[J].心理學(xué)報,2004,(2):186-194.
[10]Reeve B B, Hays R D, Bjorner J B, et al. Psychometric evaluation and calibration of health-related quality of life item banks: Plans for the patient-reported outcomes measurement information system (PROMIS)[J]. Medical Care,?2007,(5):22-31.
[11]Choi S W, Gibbons L E, Crane P K. Lordif: An R package for detecting differential item functioning using iterative hybrid ordinal logistic regression/item response theory and Monte Carlo simulations[J]. Journal of Statistical Software,?2011,(8):1-30.
[12]張宏.基于IRT的試題分析:R軟件ltm包運用實例[J].中國考試,2012,(8):45-51.
[13]Smits N, Paap M C S,?B?hnke J R. Some recommendations for developing multidimensional computerized adaptive tests for patient-reported outcomes[J]. Quality of Life Research,?2018,(4):1055-1063.
[14]Chang H?H, Qian J, Ying Z. A-Stratified multistage computerized adaptive testing with b blocking[J]. Applied Psychological Measurement,?2001,(4):333-341.
[15]余嘉元,汪存友.項目反應(yīng)理論參數(shù)估計研究中的蒙特卡羅方法[J].南京師大學(xué)報(社會科學(xué)版),2007,(1):87-91.
[16][21]陸宏,王玥,王超,等.計算機自適應(yīng)測驗中沉思-沖動型認知風(fēng)格、能力水平、試題難度與試題作答時間的關(guān)系分析[J].現(xiàn)代教育技術(shù), 2020,(10):91-97.
[17]教育部.關(guān)于發(fā)布《教師數(shù)字素養(yǎng)》教育行業(yè)標(biāo)準的通知[OL].
[18]Hull J G, Lehn D A, Tedlie J C. A general approach to testing multifaceted personality constructs[J] Journal of Personality and Social Psychology,?1991,(6):932-945.
[19]Campbell D T, Fiske D W. Convergent and discriminant validation by the multitrait-multimethod matrix[J]. Psychological Bulletin,?1959,(2):81-105.
[20]Von der Embse N, Jester D, Roy D, et al. Test anxiety effects, predictors, and correlates: A 30-year meta-analytic review[J]. Journal of Affective Disorders,?2018,227:483-493.
[22]Lu H, Tian Y, Wang C. The influence of ability level and big five personality traits on examinees test-taking behaviour in computerised adaptive testing[J]. International Journal of Social Media and Interactive Learning Environments,?2018,(1):70-84.
[23]Steel P, Schmidt J, Shultz J. Refining the relationship between personality and subjective well-being[J] Psychological Bulletin,?2008,(1):138-161.
[24]Costa Jr?P T, McCrae R R. From catalog to classification: Murrays needs and the five-factor model[J]. Journal of Personality & Social Psychology,?1988,(2):258-265.
[25]Kong X J, Wise S L, Bhola D S. Setting the response time threshold parameter to differentiate solution behavior from rapid-guessing behavior[J]. Educational & Psychological Measurement,?2007,(4):606-619.
[26]Wang H, Liu Y, Wang Z, et al. The influences of the big five personality traits on academic achievements: Chain mediating effect based on major identity and self-efficacy[J]. Frontiers in Psychology,?2023,(1):1-21.
[27]Tett R R, Jackson D N, Rothstein M, et al. Meta-analysis of personality-job performance relations: A reply to ones, mount, barrick, and hunter?(1994)[J].?Personnel Psychology, 2010,(1):157-172.
The Investigation and Optimization of Validity Testing for Computerized Adaptive Testing
LIXin-YuWANG?Chao????LU Hong[Corresponding Author]
(Faculty of Education, Shandong Normal University, Jinan, Shandong, China 250014)
Abstract:The validity testing of computerized adaptive testing (CAT)?is a?necessary step in evaluating test generation?and interpreting test results as appropriate and rational. However, systematic studies on CAT validity test were rarely conducted. In order to?make up for the deficiency,?based on the analysis of the connotation of CAT validity test,?the firstly combed the basic contents of IRT-based question bank, simulated CAT and real CAT validity test.?Then, according to the characteristics of the question bank gradually changing to multi-dimension and multi-mode, this paper put forward a method to check the validity of multi-dimension and multi-mode questions by using high-order factor model and multi-quality and multi-method model. Moreover, from the view of test fairness, it was suggested to test whether the influence of individual personality traits on participants response performance?was invariable?across groups between CLT and CAT. Finally, a whole procedure for verifying the validity of CAT?that conformed to the development of The Times was formed, expecting?to provide help for the continuous improvement of CAT and its popularization?in educational practice.
Keywords:computerized adaptive testing; validity testing, multi-dimensional and?multi-modal item; test fairness
作者簡介:李心鈺,在讀博士,研究方向為計算機教育應(yīng)用,郵箱為echo_lixinyu@163.com。
編輯:小時