趙棟
摘 要: 隨著心理測量理論的發(fā)展,統(tǒng)計方法和計算機技術(shù)的更新,以及人們對于考試維權(quán)意識的增強,效度概念的內(nèi)涵和外延在不斷發(fā)展變化。效度在考試質(zhì)量評價中的地位不斷得到提升,已經(jīng)成為測量評價中最重要的方面。本文通過對Messick的統(tǒng)一構(gòu)念效度理論的闡釋,總結(jié)統(tǒng)一構(gòu)念效度在實際運用中所具有的特性,以加強對統(tǒng)一構(gòu)念效度的理解與運用。
關(guān)鍵詞: 效度 構(gòu)念 構(gòu)念效度
構(gòu)念效度的出現(xiàn)是在二十世紀(jì)五十年代初期美國心理學(xué)會為彌補心理測量中概念的不足而引入的(Cronbach,1988),構(gòu)念是指具有個體差異而又不可捉摸的特征和能力的理論抽象。構(gòu)念是一種能力,指成功完成特定任務(wù)所要求的人類特性(Wiley,2002)。構(gòu)念不是一種客觀存在,而是為了某種測量目的而假設(shè)的抽象概念。Bachman(1990)對構(gòu)念效度做出了如下定義:構(gòu)念效度是關(guān)于測試表現(xiàn)與此測試基于某種能力理論或構(gòu)念理論所做出的預(yù)測的一致程度。Messick從測量構(gòu)念的本質(zhì)做出了定義:構(gòu)念效度即測量個體擁有或能展現(xiàn)出多少構(gòu)念。而Heppner,Kivlighan和Wampold(1992)對構(gòu)念效度的定義則體現(xiàn)了其測量假設(shè)檢驗的性質(zhì),即測試者所選取的測量變量能在多大程度上體現(xiàn)出其假設(shè)構(gòu)念的本質(zhì)特性,換言之,即所測量的變量是否能夠代表其假設(shè)的構(gòu)念。Chapelle(1999)也對語言測試的假設(shè)檢驗本質(zhì)指出:語言測試中的檢驗假設(shè)是指一項測試所能測量的(即從測試分?jǐn)?shù)所得出的推論)及所得測量分?jǐn)?shù)的應(yīng)用(即基于測試分?jǐn)?shù)的決定)之間的假設(shè)。
將構(gòu)念效度提升成為在心理測量與語言測試學(xué)界核心地位的是由Messick所提出的效度框架,在此效度框架中Messick(1995)主張引入價值含義(value implication)和社會影響(social consequences)方面。他認(rèn)為,統(tǒng)一構(gòu)念效度的本質(zhì)是,分?jǐn)?shù)推斷要恰當(dāng)(appropriateness)、有意義(meaningfulness)和有用(usefulness),這三方面具有不可分割性;這種綜合解釋力來源于以實證數(shù)據(jù)為支持的分?jǐn)?shù)解釋(p747)。Messick(1995)設(shè)計并闡述了被稱為效度層面漸進矩陣(facets of validity as a progressive matrix),區(qū)分統(tǒng)一構(gòu)念框架下,相互聯(lián)系的效度層面(facets)。隨著統(tǒng)一構(gòu)念框架的提出,構(gòu)念效度對測試分?jǐn)?shù)的合理解釋已具有核心作用。統(tǒng)一效度概念即把內(nèi)容效度、效標(biāo)關(guān)聯(lián)效度作為證據(jù)支撐,而將構(gòu)念效度置于核心地位。Messick(1998:1015)對構(gòu)念效度的地位做出了總結(jié):構(gòu)念效度的確是一個統(tǒng)一概念,它將效標(biāo)與內(nèi)容效度融合到一個共同框架之中,為基于某理論的假設(shè)提供證據(jù)支持,因此統(tǒng)一效度即指構(gòu)念效度。
Messick(1998:3)指出效度是一個統(tǒng)一的概念,即只有一種效度——構(gòu)念效度,而非傳統(tǒng)意義上對效度進行的多種定義。統(tǒng)一意味著在效度檢驗中分?jǐn)?shù)所具有的意義體現(xiàn)在基于分?jǐn)?shù)所做出的推斷之中。構(gòu)念效度作為統(tǒng)一效度的代名詞,Linn和Gronlund(2000:75-6)總結(jié)了統(tǒng)一效度的一些特性。
首先,效度是對測試結(jié)果解釋和使用的一種屬性,而不是測試和分?jǐn)?shù)本身的性質(zhì)。Cronbach(1971)指出效度并不是測試本身的特性,而是分?jǐn)?shù)所蘊含的意義,他進一步指出被認(rèn)為有效的并不是測試或觀察的手段,而是從分?jǐn)?shù)或其他指標(biāo)中所獲得的推斷。即便如此,也經(jīng)常能看到或聽到有某一測試的效度或某一分?jǐn)?shù)的效度的說法,Bachmann(2004:260)指出這種用法是不準(zhǔn)確的,更確切的說法應(yīng)是測試分?jǐn)?shù)作為有效的指標(biāo)或者作為某一能力的有效測量。其次,對使用的某一測試的效度只是一個程度問題。一個特定的測試分?jǐn)?shù)一定不能全面準(zhǔn)確地測量出某個特定能力,分?jǐn)?shù)解釋和使用的效度要依賴于解釋理論的邏輯理據(jù)和支持這種理據(jù)的實證依據(jù)的充足程度。因此,Bachman(2004:260)強調(diào)我們無法證明我們對分?jǐn)?shù)的解釋和使用是有效的,我們最多能提供依據(jù)說明,我們意欲進行的解釋和使用比其他可能的解釋和使用是更有道理的。再次,效度總是針對一定的測量目的而言的,不具有普遍性。當(dāng)一個測驗被設(shè)計和使用時,測驗的使用者總是對分?jǐn)?shù)的解釋和使用有一系列的目的。因此,特定測試的分?jǐn)?shù)并不適用于其他情況和其他目的。對分?jǐn)?shù)的特定解釋取決于測試設(shè)計者如何定義所測能力或構(gòu)念,并且針對不同的使用目的和不同的受測者,對于特定能力的定義也會不同。最后,效度是一個關(guān)于整體的評價性判斷。首先,效度是一種評價性判斷。Cronbach(1988)指出效度是對測量意義和結(jié)果的實證性評價。實證性評價,Messick解釋道,是指效度驗證過程既是科學(xué)性的又是說理性的,都需要有證據(jù)和論點的支撐。其次,實證性評價并不是單方面的。典型的效度論證需要好幾部分,并且需要各種不同的論據(jù)支撐,單獨的論據(jù)并不能有效地驗證對于某個特定測試所期望的解釋和使用。
Messick(1995)區(qū)分出效度是統(tǒng)一概念的六個方面,是教育與心理測量中效度評判的標(biāo)準(zhǔn)。這六個方面為解決驗證分?jǐn)?shù)解釋和使用中所涉及的多種類相互聯(lián)系的效度驗證問題提供了方法。