效度驗證模式系統(tǒng)整合與效度研究發(fā)展策略

2021-11-27 07:12李田

考試研究 2021年6期

李田

效度（validity）是評價測試質(zhì)量最重要的因素。從19世紀20年代開始，效度理論發(fā)展大致歷經(jīng)了120多年，在本世紀初逐漸進入我國相關(guān)領(lǐng)域的研究視野。效度的定義從最初簡單的“測試是否測量了它目標測量的東西”[1]發(fā)展成為同時包含測量屬性和社會屬性的復雜概念，經(jīng)歷了相關(guān)系數(shù)（Cureton，1951）、效度三分（Cronbach，1971）、整體效度觀（Messick，1989）三個發(fā)展時期[2]。從Cronbach開始，效度研究就高度重視測試使用的社會效應(yīng)，這也使得效度研究不再是簡單的系數(shù)計算，而是對復雜的測試系統(tǒng)進行全面綜合研究。效度研究的復雜性催生了效度驗證模式理論。

效度驗證模式，是為整合效度概念和規(guī)范指導效度驗證過程而構(gòu)建的研究框架，對測試效度的實踐研究有重要的理論意義。第一個效度驗證模式——測試有用性框架（Test Usefulness Framework）[3]于19世紀90年代被提出，是整體效度觀在實踐層面上的發(fā)展。之后各種效度驗證模式開始被提出，推動了效度理論的不斷發(fā)展。Kane提出的基于論證的效度驗證模式（Anargument-based approach to validation）[4]更被認為開啟了效度研究的新道路。因此可以說，效度驗證模式是當前效度理論研究的聚焦。

但效度驗證模式理論并不是更迭相繼的發(fā)展，而是在不同地區(qū)圍繞不同核心測試演變和發(fā)展，各自形成了不同的術(shù)語體系和研究模式。這種一致性的欠缺對于理論的進一步發(fā)展十分不利，也容易讓嘗試進入效度研究領(lǐng)域的研究者步入誤區(qū)。因此本文將在對比經(jīng)典效度驗證模式的基礎(chǔ)上，探討效度理論的分歧和研究發(fā)展的方向，并嘗試整合效度驗證研究系統(tǒng)，探索推進我國效度理論和實踐研究發(fā)展的策略。

一、經(jīng)典效度驗證模式

1.Weir[5]于2005年提出的社會認知框架（Socio-Cognitive Framework，SCF）是與整體效度觀一脈相承最完善的效度證據(jù)整合框架，整合了證據(jù)收集來源（理論/認知、環(huán)境、評分、效標關(guān)聯(lián)和后果）、收集順序（測前和測后）以及數(shù)據(jù)分析方法，可操作性較強。該模式在劍橋主體證書考試（KET、PET、FCE、CAE、CPE）的效度對比研究中得到了豐富和完善。

2.Kane[6-8]提出的解釋/使用論證模式（Interpretation/Use Argument，IUA）將哲學家Toulmin的實用論證模型和現(xiàn)代測試學測量模型理論運用到測試效度驗證中，避開了構(gòu)念環(huán)節(jié)，是第一個基于辯證推理的驗效模式。IUA模式主張將效度證據(jù)整合在環(huán)環(huán)相扣的推理鏈中，在證據(jù)之間建立邏輯聯(lián)系，并證明聯(lián)系的可信度和合理性。Kane的推理鏈包含考生表現(xiàn)、觀察分數(shù)、預測分數(shù)、目標域、決策五個因素，評分、概化、外推、使用四個推理環(huán)節(jié)，結(jié)構(gòu)精簡開放。許多學者在此結(jié)構(gòu)基礎(chǔ)上進行拓展，發(fā)展出更具體的效度驗證框架。IUA的拓展分兩條道路：一條是延續(xù)Kane主張的基于數(shù)據(jù)的推理（Aryadoust[9]）；而另一條則轉(zhuǎn)向了基于思辨的推理（Chapelle[10]，Xi[11]，Hopster-den Otter et al.[12]）。其中，Chapelle 的模式是專門為TOFEL測試效度驗證研究設(shè)計的效度驗證模式。

3.Bachman & Palmer[13]提出的測試使用論證模式（Assessment Use Argument，AUA）借鑒吸收了Messick和Kane的思想和觀點，是專門針對語言測試的論證模式。AUA將IUA模式的推理鏈拓展為兩個方向，整合了測試的設(shè)計開發(fā)和分數(shù)的解釋使用，并對推理的結(jié)構(gòu)進行了細化和衍生。但這不等于AUA是IUA的改進和升級。單從數(shù)據(jù)驗證的角度看，IUA的推理更連貫，思路更清晰，而AUA的推理則對社會因素的融合更全面。AUA在我國引起的關(guān)注較多，評價也較高[14-17]。

4.Cizek[18]提出的可辯護的測試效度驗證修訂框架（Framework for Defensible Testing，F(xiàn)DT）是效度理論保守派[19]的代表。該框架將分數(shù)解釋效度驗證（validation）與測試使用合理性證明（justification）分離開來，認為它們是系統(tǒng)上不兼容、邏輯上漸進的兩個過程。FDT的理念與主流的整體效度觀不同，但也代表了許多學者的觀點。在證據(jù)問題上，Cizek將關(guān)于測試使用的證據(jù)來源細化成四類：測試結(jié)果、測試代價、除測試外其他選擇、基礎(chǔ)公平性，相當于發(fā)展了證據(jù)框架，對證據(jù)收集有積極指導作用。

5.Mislevyet al.[20，21]提出的證據(jù)中心模式（Evidence Centered Assessment Design，ECD）是圍繞計算機輔助測試開發(fā)和效度驗證設(shè)計的論證模式。測量模型和概念評測框架是該模式的兩個核心模塊，前者的模型結(jié)構(gòu)與IUA類似，但具有更強的網(wǎng)絡(luò)性，概念評測框架則類似一些心理研究模型。該模式受關(guān)注度不如前面四個模式，但是在處理復雜心理能力測量方面有其獨特的結(jié)構(gòu)優(yōu)勢，值得進一步研究。

二、效度驗證模式對比

在語言測試領(lǐng)域出現(xiàn)的效度驗證模式非常多，但基本上都是在上述五個模式的基礎(chǔ)上發(fā)展而來的。這五個框架模式在提出時間上頗為相近，它們的提出者和支持者之間也互有爭論及影響。五個模式在效度內(nèi)涵主張、驗證模式構(gòu)建的思路方法及證據(jù)收集分析上都有一定差異。

SCF和FDT是證據(jù)框架模式的代表，用以厘清效度證據(jù)來源和證據(jù)收集順序。該類模式的效度評判是綜合評價各種效度證據(jù)以形成一元多維的結(jié)論，但該方式在執(zhí)行層面上采用的仍然是三分效度觀時期的效度驗證方法，針對各類證據(jù)的效度結(jié)論相互之間缺乏邏輯。在目前的效度理論研究中，證據(jù)框架模式頗受批判[22，23]，但在實踐研究中仍然被廣泛采用[24]。

IUA、AUA和ECD是論證模式的代表，均基于Toulmin論證模型[25]在證據(jù)間搭建具有特定邏輯的聯(lián)系，以辯證的方式論證測試的測量準確性和使用合理性；IUA的邏輯基于測試學測量模型，以數(shù)據(jù)推論為核心，從測試表現(xiàn)開始推導，最終證明測試使用的合理。AUA將Toulmin模型與Messick的整體效度觀結(jié)合，以思辨的方式論證如何全面保證測試的效度；ECD則基于心理研究模型構(gòu)建模式，以類計算機模塊思路分析效度問題。IUA強調(diào)測試的測量屬性和社會屬性同等重要，在測量和使用之間架構(gòu)聯(lián)系橋梁，強調(diào)效度問題的特殊性和目的性，是開放性很強的模式；AUA則將測試的社會屬性置于首位，認為測試的期待效度是實現(xiàn)測試對社會的有益影響，并將此作為測試設(shè)計的目的和檢驗效度的標準，因而AUA模式是一種理想化的設(shè)計框架，模式規(guī)定性很強；ECD以測量為核心，主要用于計算機輔助測試設(shè)計和效度驗證，具有較強的程式性。

在效度驗證實踐中，幾種效度模式都有自己的優(yōu)勢和弱點。證據(jù)框架模式（SCF、FDT）基于證據(jù)類型對證據(jù)收集時間和步驟進行規(guī)劃，可以將效度驗證過程化整為零，可操作性較強，但效度評價的內(nèi)部結(jié)構(gòu)缺乏邏輯，也沒有檢定的標準，效度結(jié)論難以直接用于決策?；跀?shù)據(jù)的論證模式（IUA、ECD）效度驗證邏輯清晰，強調(diào)明確的研究目的，驗證效率較高，但對數(shù)據(jù)分析技術(shù)要求較高，且對測試社會屬性的研究面也相對較窄?；谒急娴恼撟C模式（AUA）則整合了測試的開發(fā)與使用，高度重視測試的使用效果，對測試的開發(fā)或效度研究工作有良好的導向作用，但采用該模式的效度驗證工作量大，研究難度高。可見，任何單一的模式在面對效度研究實踐問題時都不是萬能的，效度研究實踐需要針對不同的研究情境選擇合適的方法和思路，甚至需要對經(jīng)典模式進行發(fā)展。而這需要對效度驗證模式的理論有更全面、完整的認識。因此，本文將進一步將五個驗證模式梳理在一個系統(tǒng)中，以厘清各種術(shù)語之間的差別和聯(lián)系，領(lǐng)會效度驗證不同方法的思路和分歧，以期對實踐中的效度驗證獲得更清晰的認知。

三、效度驗證研究的系統(tǒng)整合

雖然幾個模式的差別較大，但相互之間也不無聯(lián)系。首先，論證模式是在證據(jù)框架模式的基礎(chǔ)上發(fā)展而來的，將證據(jù)框架模式中松散整合的不同來源的證據(jù)組建成具有邏輯聯(lián)系的證據(jù)鏈，再加以論證形成環(huán)環(huán)相扣的效度推論。其次，不同論證模式的推理過程也較為相似，都是基于樣本理論、測量理論，將分數(shù)解釋的過程表現(xiàn)為若干個環(huán)節(jié)，進而在效度不同維度間形成邏輯聯(lián)系?；谶@種聯(lián)系，將從效度內(nèi)涵和證據(jù)整合兩個方面梳理測試效度驗證的研究系統(tǒng)。

本次實例數(shù)據(jù)來源于某河道的控制測量，每隔5 km左右布設(shè)一對D級GPS控制點，一共布設(shè)16點，每個控制點均聯(lián)測四等水準高程。四等水準測量采用S05級電子水準儀和配套的銦瓦水準尺進行，并嚴格執(zhí)行GB/T12898—2009《國家三、四等水準測量規(guī)范》。

1.效度內(nèi)涵

目前，在測試研究領(lǐng)域基本達成共識的效度內(nèi)涵定義是美國心理學會（American Psychological Association，APA）編纂的2014年版《教育和心理測驗標準》（以下簡稱《標準》）對效度的定義：“實證證據(jù)和理論依據(jù)對基于特定測試目的的測試分數(shù)解釋和使用合理性的支持程度?！盵26]這個定義涉及四個層面因素，如圖1所示。

圖1 效度結(jié)構(gòu)圖

第一個層面是測試的過程層面。測試過程即對考生測試表現(xiàn)進行評分，并基于這個得分執(zhí)行一系列決策。分數(shù)代表的是考生的能力，分數(shù)解釋就是對如何通過分數(shù)區(qū)分考生能力進行解釋。而測試使用指的是基于測試（有意義的）分數(shù)執(zhí)行決策，涉及一系列社會因素。

第二個層面效度評價是效度的本質(zhì)，可以分為兩個基本環(huán)節(jié)，測量的準確性（測試分數(shù)解釋）和使用的合理性。

第三個層面是支持效度評價的證據(jù)來源，《標準》將其梳理為五種來源：關(guān)于測試內(nèi)容、應(yīng)答過程、內(nèi)部結(jié)構(gòu)、外部結(jié)構(gòu)和后果的證據(jù)。一般來講，測試內(nèi)容和應(yīng)答過程方面的證據(jù)屬于經(jīng)驗證據(jù)（理論依據(jù)），內(nèi)、外部結(jié)構(gòu)和后果證據(jù)屬于實證證據(jù)。這五個來源的證據(jù)可以被評價為四個維度的效度。

第四個層面的“效度維度”是整體效度觀[27]時期采用的術(shù)語，是在三分效度觀時期不同效度類型的基礎(chǔ)上發(fā)展而來。構(gòu)念指的是測試的設(shè)計理念，包括內(nèi)容、結(jié)構(gòu)方面，一般基于認知和其他相關(guān)理論構(gòu)建。價值意義指的是測試的結(jié)果（分數(shù)）能代表和概化考生能力，可以體現(xiàn)為測試的一致性。相關(guān)性是指測試結(jié)果與其他測試或外部標準（如能力量表）、相關(guān)結(jié)構(gòu)（如閱讀能力和語言綜合能力）的聯(lián)系，也被稱為效標關(guān)聯(lián)。社會后果泛指測試使用帶來的影響。構(gòu)念是測試效度建立的基礎(chǔ)，也貫穿和影響著其他維度。

在目前的研究中，四個層面中測試的使用后果部分的界定均相對比較籠統(tǒng)模糊，這是由于測試的使用受社會、學校、個人多種因素影響，本身較為復雜，而對測試使用環(huán)節(jié)的研究又是近二十年才興起的課題，因此研究不足，也存在許多分歧和研究空白，如關(guān)于公平性和后效界定的分歧和爭論等。因此這一部分將有待后續(xù)的研究發(fā)展。

除了效度的四個層面，還需要注意的是，效度所涉及的證據(jù)是具有獨特情境屬性的，即這些證據(jù)都是在某一次特定考試中產(chǎn)生的證據(jù)，具有一定情境代表性。因此，效度指的是測試過程的效度，而不是測試本身的屬性。效度研究要結(jié)合測試的目的，因為測試的目的決定了效度研究的廣度和深度。

四、效度證據(jù)整合模式

效度驗證需要整合效度證據(jù)以體現(xiàn)測試的合理性程度，效度驗證模式的核心在于整合證據(jù)。梳理效度證據(jù)整合的模式，首先區(qū)分為證據(jù)框架和論證模式兩種方式。證據(jù)框架的中心在第三個層面的效度證據(jù)，評價結(jié)果體現(xiàn)為第四個層面——不同維度的效度，主要采用歸類的方式進行效度驗證；論證模式則是將第三個層面證據(jù)基于第一個層面測試過程邏輯進行整合。

測試的本質(zhì)是一種抽樣檢測，是通過考生在某一次考試中的作答反映推測其某一目標域能力或者屬性值。在圖1過程層面的測試過程實際上還包含了一系列的潛在推理，如圖2所示：觀察分數(shù)指的是基于考試評分規(guī)則對考生表現(xiàn)評價得出的分數(shù)。因為是單次抽樣，存在測量誤差，而全域分指的是去除測量誤差后的真實分數(shù)。目標域代表測試的目標能力或?qū)傩浴y試的目標與真實分數(shù)是兩個概念，全域分到目標域之間，還可能存在測量偏差。由此，從考生表現(xiàn)推測考生能力實際上經(jīng)過了評分、概化和外推三個環(huán)節(jié)。通過這三個環(huán)節(jié)對分數(shù)的意義進行解釋，再基于測試分數(shù)解釋實施決策，這就是測試需要效度驗證的整個潛在過程。效度論證模式的整體思路就表現(xiàn)為：論證從考生表現(xiàn)到?jīng)Q策這一系列環(huán)節(jié)都是合理的，能被證據(jù)支持。

圖2 測試過程解釋圖

由此可見，證據(jù)框架和論證模式幾乎是兩個不同的系統(tǒng)。雖然兩者之間可以進行簡單的關(guān)聯(lián)：信度大致對應(yīng)概化環(huán)節(jié)；而構(gòu)念、效標關(guān)聯(lián)等大致對應(yīng)外推環(huán)節(jié)，后效大致對應(yīng)測試使用。但是證據(jù)框架是對效度證據(jù)的分類，而論證模式是對整個測試過程邏輯的合理性推導。論證模式基于的測試過程的邏輯是連續(xù)的，而證據(jù)框架基于的效度維度與傳統(tǒng)分類效度觀的本質(zhì)并無明顯差別，是相對分離的，片段的，雖然效度維度在整體效度觀框架下以構(gòu)念為核心形成統(tǒng)一的整體，但是在效度驗證時，構(gòu)念的證明本身就是一個邏輯問題。因此，據(jù)Chapple等學者的觀點，Kane的論證模式代表了效度理論進入整體效度觀之后的第四個發(fā)展時期——效度論證觀[28]。結(jié)合上述分析也不難發(fā)現(xiàn)，證據(jù)框架中的不同來源的證據(jù)在論證模式中能有更清晰的邏輯解釋，因此，在系統(tǒng)整合中，效度維度的功能可以完全被測試過程解釋取代，進而形成以過程推理為核心的整合結(jié)構(gòu)，作為效度證據(jù)整合的基礎(chǔ)。

對效度證據(jù)的整合，論證模式采用的是哲學家Toulmin（1958）的實用論證模型。該推理模型包含六個要素：基于“理由（Warrant）”從“數(shù)據(jù)（Datum）”推導出“主張（Claim）”，如果存在“反駁（Rebuttal）”即例外（Exception）情況，則需要在主張之前加上“限定（Qualifier）”。理由本身可能無須證明，有時需要“支撐（Backing）”證明[29]。這個模型在傳統(tǒng)三段論大小前提的基礎(chǔ)上增加了支撐、反駁和修飾，使整個論證過程更加全面準確。但根據(jù)論證模式對Toulmin模型六要素的不同解讀方式和應(yīng)用，在構(gòu)建思路上分成兩類：基于數(shù)據(jù)推理模式和基于思辨推理模式。

基于數(shù)據(jù)推理的模式以IUA為代表，其推理結(jié)構(gòu)顯示為圖3中的下半部分。推理鏈被解釋為基于考生在測試中的表現(xiàn)，可以推導出學生具有什么樣的目標域能力或?qū)傩浴Ｍ茖У睦碛赏ㄟ^對測試樣本數(shù)據(jù)即效度證據(jù)的分析得出，可能是公式、函數(shù)或規(guī)則，并可以通過限定詞對推導條件進行限定。限定詞很多時候可以表現(xiàn)為置信區(qū)間、解釋力等量化分析數(shù)值。推理結(jié)構(gòu)本身只是對測試效度的客觀描述，因此效度驗證還要對整個推理結(jié)構(gòu)進行整體評價，檢視推理鏈是否連貫、清晰、合理，是否存在推理的薄弱環(huán)節(jié)。ECD模式的推理邏輯類似，但是沒有使用線性推導，考生表現(xiàn)被分解為考生表現(xiàn)數(shù)據(jù)和測試情境數(shù)據(jù)，測量模型使用網(wǎng)絡(luò)結(jié)構(gòu)。這種結(jié)構(gòu)對于驗證形成性評價、高階能力評價等復雜表現(xiàn)形態(tài)的測試有很好的適配度。

圖3 效度論證推理結(jié)構(gòu)圖

基于思辨的效度推理，以AUA為例，顯示為圖3中的上半部分。它的推理是要證明評分、概化、外推、使用這些環(huán)節(jié)的合理性。在每個環(huán)節(jié)上，主張即合理性表現(xiàn)為具體的標準，而理由為要達到這些標準需要滿足的條件。不同來源的證據(jù)可以分列在各個環(huán)節(jié)中用于檢驗具體的測試過程是“支持”還是“反駁”這些標準。效度驗證推理可以解釋為：因為這些環(huán)節(jié)達到了預設(shè)標準，因此測試是合理的。

圖3中的推理鏈、理由、證據(jù)的解釋說明都不是固定的。例如，推理鏈的兩頭和中間都可以加入新的環(huán)節(jié)，或因研究目的刪除不必要的環(huán)節(jié)；概化理論也可以使用IRT等其他測試理論替代；每個環(huán)節(jié)的標準要求可以因不同的測試使用情境而變化；證據(jù)類型也可以進行拓展，等等。

在數(shù)據(jù)邏輯中，每一次的效度檢驗都需要有具體的分數(shù)解釋方式，效度驗證要驗證這種分數(shù)解釋的合理性。因此效度不僅是測試過程的效度，還是對分數(shù)解釋的效度和基于這種解釋使用的合理性。而思辨邏輯則仍然以測試為核心而不是具體的分數(shù)解釋。思辨邏輯中的分數(shù)解釋意義籠統(tǒng)，在具體的實踐情境下才能對其進行詳細說明。由此可見，數(shù)據(jù)模式用于對具體的測試使用的效度進行驗證，而思辨模式則是綜合評價測試質(zhì)量的效度驗證方法。

這樣，測試的效度驗證系統(tǒng)就可以被整合為四層面、一邏輯、兩方式的統(tǒng)一理論體系。四個層面指的是測試過程、效度評價、證據(jù)來源和效度維度四個層面，其中：效度維度主要用于銜接傳統(tǒng)效度理論和論證效度理論；測試過程作為整個效度驗證系統(tǒng)的核心邏輯；效度證據(jù)基于測試過程推理進行整合，形成數(shù)據(jù)推理效度驗證模式和思辨推理驗證模式兩種效度驗證方式，分別用于具體的或者整體的測試使用效度驗證。

數(shù)據(jù)推理效度驗證模式的發(fā)展主要在于對分數(shù)的解釋模型的發(fā)展，即如何應(yīng)用和改進測量模型挖掘測試數(shù)據(jù)，量化效度驗證研究，如IRT模型和Rasch模型在效度驗證中的應(yīng)用。而思辨推理效度驗證模式的發(fā)展則在于構(gòu)建更全面的效度研究框架，尤其是加深對測試社會屬性的研究，如對測試后效公平性的研究、測試后果的證據(jù)來源研究。兩種方式的發(fā)展相互聯(lián)系，相互影響。

五、我國效度研究的發(fā)展策略

目前效度驗證模式的理論和實證研究主要集中在國外，我國業(yè)界對效度驗證的關(guān)注和研究相對較少。測試和測量被廣泛應(yīng)用于各種教學和研究中，但測試的效度驗證研究卻比較滯后，這十分不利于我國測試的發(fā)展以及測試對教學和社會帶來積極的影響。當然，這種現(xiàn)象也有其現(xiàn)實的原因。我國測試開發(fā)機構(gòu)、研究人員的構(gòu)成以及測試的使用環(huán)境均與國外有較大差異。國外的商用測試開發(fā)體系比較成熟，效度作為測試質(zhì)量控制研究的核心，無論是對于測試開發(fā)方推廣測試或者測試使用方選用測試都十分重要，效度驗證有較明確的責任歸屬和分工。而在我國，測試效度研究的責任歸屬仍不夠清晰，如大規(guī)模高風險測試被開發(fā)出來之后，常被用于不同地區(qū)、人群和目的，測試的測量屬性和社會屬性問題遠比國外測試使用更為復雜。對于開發(fā)方而言，全面驗證測試的效度工程過于龐大，實施難度大，因此研究項目少。而對于一般測試使用者而言，由于效度理論體系復雜，又涉及大量證據(jù)收集和數(shù)據(jù)分析，研究門檻高，一般研究者很難開展關(guān)于效度驗證的研究。針對我國目前這種情況，提出關(guān)于效度驗證模式研究的以下三個發(fā)展策略。

第一，區(qū)分效度研究的開發(fā)者和使用者視角，明確測試效度研究責任，采用合適的效度驗證模式。傳統(tǒng)的效度理論將效度視為測試質(zhì)量屬性，效度驗證責任則理所當然歸于測試開發(fā)者。但隨著社會的發(fā)展，測試的使用范圍越來越廣，開發(fā)者難以也不應(yīng)當承擔測試效度驗證的全部責任。而測試使用者視角的效度研究既能解決具體測試使用問題，又能填補測試開發(fā)者對測試研究的空白，因此應(yīng)當被提倡和重視。

如圖4所示，測試的開發(fā)者對測試效度的研究是大范圍研究，基于某種開發(fā)目的的測試構(gòu)念對于測試開發(fā)效度而言至關(guān)重要。而測試的使用效度研究屬于具體研究。測試的使用目的與測試的開發(fā)目的可能相同但也可能只是相關(guān)，考生群體可能屬于測試開發(fā)的目標群體，也可能超出開發(fā)群體范圍。因此，測試使用效度是區(qū)別于測試開發(fā)效度的效度研究。測試開發(fā)者和使用者是測試效度研究的兩個主體，開發(fā)者承擔測試開發(fā)效度驗證的主體責任，而測試使用者承擔測試使用效度驗證的主體責任。兩個主體效度研究的視角不同、規(guī)模不同，采取的方式也應(yīng)當有所區(qū)別。測試的開發(fā)具有實現(xiàn)“測試帶來有益影響”的責任，效度驗證不僅要關(guān)注測量的準確性，更需要研究測試使用帶來的各種影響。因此，開發(fā)者需要使用綜合性強的效度驗證模式（如AUA），全面檢驗測試效度的方方面面。而測試使用者對測試使用效度的驗證則應(yīng)該基于具體明確的測試目的，采用目的性強的效度驗證模式（如IUA），解決測試使用的關(guān)鍵問題。只有兩者相互協(xié)調(diào)配合，各自明確效度驗證的責任，才能推進測試效度研究的發(fā)展。

圖4 測試開發(fā)使用效度對比圖

第二，發(fā)展數(shù)據(jù)分析手段，提高研究效率。測試本身就是一種收集信息的方式。試題體現(xiàn)測試設(shè)計構(gòu)念，應(yīng)答表現(xiàn)則包含了大量考生信息。深化對測試數(shù)據(jù)的信息挖掘，則能降低對其他輔助證據(jù)的需求，進而簡化證據(jù)收集工作，使效度研究更有效率。因此，數(shù)據(jù)模型的研究和應(yīng)用對發(fā)展和促進效度研究十分關(guān)鍵。

第三，利用測試后效研究基礎(chǔ)，帶動測試的整體效度研究。目前，我國對測試的效度研究已具備一定的研究基礎(chǔ)。測試的反撥效應(yīng)和后效研究是近10年來一個備受關(guān)注的研究話題，體現(xiàn)了業(yè)界對測試使用研究的重視，也將我們的視線從測試的使用轉(zhuǎn)移到對測試的研究上。反撥效應(yīng)特指測試對教學的影響。雖然業(yè)界對反撥效應(yīng)、后效與測試效度關(guān)系界定有爭議[30]，但它們是很容易被聯(lián)系在一起的課題，反撥效應(yīng)的理論框架和實證研究能夠為測試效度整體研究發(fā)展提供一定研究范式基礎(chǔ)，尤其是對效度中測試使用后果方面的研究發(fā)展有啟示作用。但目前的反撥效應(yīng)研究大多聚焦在測試后的影響研究，與測試過程本身幾乎是分離的。這種研究方式會越來越局限研究視野，難以客觀全面地體現(xiàn)測試對教學的影響。因此，將業(yè)界對測試反撥效應(yīng)的關(guān)注拓展到對整個測試的使用過程和影響的研究不僅能夠突破目前研究的一些瓶頸，而且能打開新的局面，帶動測試效度研究，促進測試研究的平衡發(fā)展。

六、結(jié)語

測試效度研究的受關(guān)注度低并不是測試效度問題不重要，相反，效度研究是保證測試合理使用和促進測試對社會、教學、個人積極影響的前提。測試效度理論體系相對復雜，并涉及大量不統(tǒng)一的術(shù)語，使得理論推廣有一定難度。因此，本文在對比現(xiàn)有效度驗證模式的基礎(chǔ)上，對效度驗證研究體系進行了梳理，總結(jié)出基于數(shù)據(jù)的效度論證模式和基于思辨的效度論證模式這兩種主流模式，并對其原理和發(fā)展方向進行闡釋，以期加深讀者對效度驗證模式理論的理解和認識。對于不同視角的研究，研究主體應(yīng)該選取合適的驗證模式以實現(xiàn)不同的效度研究目的。效度驗證研究體系不僅對測試效度研究十分有用，還可以拓展到教育心理測量工具的效度研究上，規(guī)范測量工具的效度驗證，整體提高測試、開發(fā)者和使用者的效度驗證意識，進而促進測試更科學、嚴謹?shù)氖褂煤桶l(fā)展。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡