国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

教育測(cè)量和評(píng)估中多元概化理論的應(yīng)用

2014-06-07 05:57:29董婉玲沈陽(yáng)大學(xué)師范學(xué)院遼寧沈陽(yáng)110041
關(guān)鍵詞:概化測(cè)驗(yàn)信度

董婉玲(沈陽(yáng)大學(xué)師范學(xué)院,遼寧沈陽(yáng) 110041)

教育測(cè)量和評(píng)估中多元概化理論的應(yīng)用

董婉玲
(沈陽(yáng)大學(xué)師范學(xué)院,遼寧沈陽(yáng) 110041)

介紹了在教育測(cè)量和評(píng)估中運(yùn)用多元概化理論的優(yōu)勢(shì),使用多元概化理輪的過(guò)程步驟,以及能夠提供給研究者的各種結(jié)論和信息。認(rèn)為可以幫助初學(xué)者了解多元概化理論,并為使用者提供了使用方法。關(guān) 鍵 詞:教育測(cè)量;教育評(píng)估;多元概化理論

在現(xiàn)代的標(biāo)準(zhǔn)化教育測(cè)量和評(píng)估中,信度是一個(gè)不可或缺的重要指標(biāo)。以往研究者都采用以經(jīng)典測(cè)驗(yàn)理論(Classical Test Theory,CTT)為基礎(chǔ)的各種信度指標(biāo),如重測(cè)信度、分半信度、評(píng)分者信度等。然而,由于受經(jīng)典測(cè)驗(yàn)理論所要求的條件限制,這些信度指標(biāo)往往并不能盡如人意。在這種情況下,概化理論(Generalizability Theory,GT)為教育測(cè)量和評(píng)估信度的研究提供了新的方向和策略。

概化理論的優(yōu)勢(shì)在于,它不僅能為研究者提供一個(gè)信度指標(biāo),即概化系數(shù),更關(guān)鍵的是能將測(cè)量和評(píng)估中的各種誤差來(lái)源進(jìn)行分解并估計(jì)。因?yàn)楦呕碚撌且环N把測(cè)量誤差作為模型參數(shù)來(lái)處理的測(cè)量理論。這樣,研究者就可以在之后的測(cè)量或評(píng)估中有針對(duì)性地更好地控制誤差,從而提高教育測(cè)量和評(píng)估的信度。

以往的教育測(cè)量和評(píng)估通常都由若干部分組成,以考核被評(píng)估者的不同能力或表現(xiàn),也就是說(shuō)某一項(xiàng)測(cè)量或評(píng)估包含若干個(gè)分測(cè)驗(yàn)[1]。但這些分測(cè)驗(yàn)并不是絕對(duì)獨(dú)立的,而是既相對(duì)獨(dú)立又存在聯(lián)系的。比如中考和高考中包括語(yǔ)文、數(shù)學(xué)、外語(yǔ)、綜合,普通話測(cè)試包括讀字、用詞和說(shuō)話等方面的能力測(cè)查[25]。那么,對(duì)于這種涉及到多個(gè)不同能力而且能力之間又存在著一定相關(guān)性的測(cè)量評(píng)估,近些年逐漸發(fā)展起來(lái)的多元概化理論(Multivariate Generalizabilit Theory,MGT)就有獨(dú)特的優(yōu)勢(shì)。因?yàn)槎嘣呕治龅慕Y(jié)果中不僅包括一元概化分析的所有結(jié)果,還可以給研究者呈現(xiàn)各個(gè)分測(cè)驗(yàn)的信度及各個(gè)分測(cè)驗(yàn)之間的關(guān)系。

一、確定測(cè)量目標(biāo)和測(cè)量面

概化理論區(qū)分了測(cè)量目標(biāo)和測(cè)量面這兩個(gè)概念,并在實(shí)施測(cè)量之前首先確定。測(cè)量的目標(biāo)一般是指所要測(cè)量的心理特質(zhì)或能力。測(cè)量面則是指測(cè)量的一組條件,也就是影響測(cè)驗(yàn)過(guò)程和測(cè)量結(jié)果的各種情景,可以將它理解為測(cè)量誤差的各種來(lái)源。比如一次普通話測(cè)試(包括三個(gè)分測(cè)驗(yàn),分別測(cè)試三種不同的能力),被試者p的普通話水平就是測(cè)量的目標(biāo)。測(cè)試所選用的題目i和評(píng)分者r就是兩組影響測(cè)驗(yàn)過(guò)程和結(jié)果的條件,因此就是測(cè)量的兩個(gè)面。在測(cè)量時(shí),人們總是希望測(cè)量目標(biāo)對(duì)測(cè)驗(yàn)結(jié)果的影響達(dá)到最大,而測(cè)量面的影響最小[4]。

二、測(cè)量設(shè)計(jì)

根據(jù)測(cè)量目標(biāo)和測(cè)量面之間的關(guān)系,測(cè)量可分為交叉設(shè)計(jì)、嵌套設(shè)計(jì)和混合設(shè)計(jì)。在上例中,如果所有被試做了所有的試題,而所有的評(píng)分者又評(píng)定了所有被試的全部試題,則被試、試題和評(píng)分者全部都是交叉的,計(jì)為p·i·r。如果每個(gè)評(píng)分者只評(píng)定了一部分被試,則被試就是嵌套于評(píng)定者的,記為p∶r。一個(gè)設(shè)計(jì)中既有交叉又有嵌套,就是混合設(shè)計(jì)。比如上例中,如果全部被試都做了全部試題,但每個(gè)評(píng)分者只對(duì)幾個(gè)被試的全部試題評(píng)分,則被試嵌套于評(píng)分者,而被試與試題又是交叉的,記為i·(p∶r)。

三、G研究與D研究

多元概化理論與一元概化理論一樣,也分為兩個(gè)步驟,即先進(jìn)行G研究,再進(jìn)行D研究。

1.G研究

概化理論研究中,首先要估計(jì)不同來(lái)源的誤差大小,在此基礎(chǔ)上確定測(cè)量的信度,或是通過(guò)改變測(cè)量設(shè)計(jì)方案以盡可能地減少誤差,進(jìn)而達(dá)到提高信度的目的。在概化理論中,除測(cè)量目標(biāo)外的來(lái)自各測(cè)量面的影響都稱為誤差。G研究就是通過(guò)G研究的設(shè)計(jì),借助方差分析技術(shù)將誤差分解,估計(jì)出不同來(lái)源的方差成分的大小。

以某一次中學(xué)期末考試為例,假設(shè)一個(gè)班50名學(xué)生都參加了語(yǔ)文、數(shù)學(xué)、外語(yǔ)和綜合4項(xiàng)測(cè)驗(yàn),只進(jìn)行最簡(jiǎn)單的p·i設(shè)計(jì)。那么經(jīng)過(guò)專門的統(tǒng)計(jì)軟件計(jì)算后,系統(tǒng)將生成一個(gè)表1樣的矩陣圖,呈現(xiàn)G研究的結(jié)果。

表1 期末考試G研究方差與協(xié)方差分量的估計(jì)

表1中的一、二、三、四分別代表語(yǔ)數(shù)外綜合4項(xiàng)測(cè)驗(yàn)。由于只是最簡(jiǎn)單的p·i設(shè)計(jì),因此只有p、i和p·i在4項(xiàng)測(cè)驗(yàn)上的各個(gè)效應(yīng)。

其中主對(duì)角線上的元素為各效應(yīng)在相應(yīng)分測(cè)驗(yàn)上的方差分量估計(jì)。方差分量越大,表明所在的分測(cè)驗(yàn)對(duì)整個(gè)考試測(cè)驗(yàn)的作用越大。

主對(duì)角線以上元素為分測(cè)驗(yàn)間的相關(guān)系數(shù)的估計(jì),主對(duì)角線以下元素為各效應(yīng)在不同分測(cè)驗(yàn)間協(xié)方差分量的估計(jì)。協(xié)方差分量大,表明各個(gè)分測(cè)驗(yàn)在預(yù)測(cè)考生能力水平的順序方面,彼此的功能是一致的,各分測(cè)驗(yàn)得分合成的總分可以直接用來(lái)對(duì)考生能力水平整體排序。反之,若相關(guān)系數(shù)及協(xié)方差分量小,則不適合將直接合成的總分作為整體評(píng)估的指標(biāo)。

2.D研究

D研究的主要任務(wù)是在G研究的基礎(chǔ)上對(duì)測(cè)量精度作出評(píng)價(jià),并針對(duì)誤差來(lái)源,通過(guò)改變?nèi)≈祬^(qū)間或固定某些測(cè)量面等方法,考察減少測(cè)量誤差、提高測(cè)量信度的具體策略。在現(xiàn)代教育測(cè)量與評(píng)價(jià)中,多元概化理論可以為我們達(dá)到以下兩個(gè)最基本的目的。

(1)多元概化的D研究在G研究的基礎(chǔ)上估計(jì)當(dāng)前實(shí)施方案的信度等指標(biāo)。包括以下幾項(xiàng):①各個(gè)分測(cè)驗(yàn)的估計(jì)精度,其中有各個(gè)分測(cè)驗(yàn)的全域分方差分量,即將當(dāng)前的考試作為一個(gè)樣本,推論其在相同條件的總體中的方差分量;各個(gè)分測(cè)驗(yàn)的各種誤差(相對(duì)誤差、絕對(duì)誤差、均值誤差);誤差因素的各個(gè)分測(cè)驗(yàn)的G系數(shù)(類似經(jīng)典真分?jǐn)?shù)中的新度指標(biāo))和φ系數(shù)(可靠性指標(biāo))。②各個(gè)分測(cè)驗(yàn)所占權(quán)重,權(quán)系數(shù)的常用確定方法是直接把某一分測(cè)驗(yàn)中所擁有的題目數(shù)量占總數(shù)的比重作為權(quán)系數(shù)值。③確定了各個(gè)分測(cè)驗(yàn)的權(quán)重后,多元概化分析將把各個(gè)分測(cè)驗(yàn)整合,合成整個(gè)一次考試或測(cè)驗(yàn)的總分,然后估計(jì)出這個(gè)合成總分的G系數(shù)和φ系數(shù)。④多元概化分析會(huì)計(jì)算估計(jì)在這次考試中各個(gè)分測(cè)驗(yàn)對(duì)總體成績(jī)的貢獻(xiàn)率。

(2)在多元概化的D研究中,研究者可以調(diào)整測(cè)量面,選取最佳的教育測(cè)量或評(píng)價(jià)方案。例如,增加或減少測(cè)試題目、改變?cè)u(píng)委人數(shù)以調(diào)整信度系數(shù)。通常,增加測(cè)試題目和評(píng)委人數(shù)會(huì)提高信度系數(shù)。但是當(dāng)題目數(shù)或評(píng)委數(shù)增加到一定程度時(shí),信度系數(shù)(G系數(shù))的提高幅度會(huì)漸漸變得不顯著。多元概化分析中的D研究會(huì)估計(jì)出不同條件下的G系數(shù)。研究者可以根據(jù)自身的條件和需要,選擇一個(gè)節(jié)省人力物力財(cái)力的相對(duì)最佳方案[2]。

四、結(jié) 語(yǔ)

實(shí)際上多元概化理論最初就是在教育測(cè)量與評(píng)估中研究應(yīng)用并逐漸發(fā)展的,因此在教育測(cè)量與評(píng)估領(lǐng)域中應(yīng)用的多元概化理論相對(duì)更加熟練和完善。在國(guó)內(nèi)也有越來(lái)越多的學(xué)者都運(yùn)用多元概化理論分析現(xiàn)代教育測(cè)量與評(píng)估,例如普通話測(cè)試、高考、研究生入學(xué)考試、教育教學(xué)評(píng)估等[2]。分析多個(gè)應(yīng)用概化理論研究教育評(píng)估的課題發(fā)現(xiàn)以下幾點(diǎn):①應(yīng)用概化理論研究教育評(píng)估不論是從各變量來(lái)看還是從整體來(lái)看都具有較高的評(píng)估信度。②評(píng)估中,對(duì)不同變量的評(píng)估,其信度不等,其中對(duì)高校學(xué)術(shù)隊(duì)伍的評(píng)估信度最高,而對(duì)高校工作條件的評(píng)估信度相對(duì)較低。③評(píng)估專家數(shù)的改變會(huì)影響評(píng)估信度。綜上所述,采用多元概化理論對(duì)教育評(píng)估進(jìn)行信度分析有強(qiáng)大的功能。它深入分析各個(gè)分測(cè)驗(yàn)的信度及其綜合信度,而且能有效地考察評(píng)估情景的變化對(duì)評(píng)估信度的影響,能有力又有預(yù)控性地改善和提高評(píng)估的信度和準(zhǔn)確性,對(duì)實(shí)際工作有更強(qiáng)的指導(dǎo)價(jià)值。因此可以認(rèn)為,多元概化理論能使人們站到新的理論高度,是一種發(fā)展前景寬廣,值得推廣的現(xiàn)代測(cè)量理論和工具。

[1]蔡艷,陳撫良.多元概化理論在教育評(píng)估信度分析中的應(yīng)用研究[J].江西師范大學(xué)學(xué)報(bào):自然科學(xué)版,2007,31(3): 306 310.

[2]Brennan R L,Xiaohong G,Colton D A.Generalizability Analyses of Work Keys Listening and Writing Tests[J]. Educational and Psychological Measurement,1995,55(2): 157 176.

[3]關(guān)丹丹.心理學(xué)專業(yè)基礎(chǔ)綜合考試的多元概化理論研究[J].中國(guó)考試:研究版,2007(7):45 49.

[4]楊志明,張雷.用多元概化理論對(duì)普通話的測(cè)試[J].心理學(xué)報(bào),2002,34(1):50 55.

[5]楊志明,張雷,馬世曄.從多元概化理論看高考綜合能力測(cè)試的改進(jìn)[J].心理學(xué)報(bào),2004,36(2):195 200.

【責(zé)任編輯 李 艷】

Application of Multivariate Generalizability Theory in Educational Measurement and Assessment

Dong Wanling
(Normal School,Shenyang University,Shenyang 110041,China)

The advantages of utilizing multivariate generalizability theory in educational measurement and assessment and the process of using this theory are described,as well as the conclusions and information that can be provided for researchers,which could help beginners understand the multivariate generalizability theory,and provide the guidance for users.

educational measurement;educational assessment;multivariate generalizability theory

B 841;G 743

A

2095-5464(2014)01-0092-03

2013 06 19

董婉玲(1982),女,遼寧遼陽(yáng)人,沈陽(yáng)大學(xué)講師。

猜你喜歡
概化測(cè)驗(yàn)信度
《廣東地區(qū)兒童中醫(yī)體質(zhì)辨識(shí)量表》的信度和效度研究
《新年大測(cè)驗(yàn)》大揭榜
基于MIKE21二維數(shù)值模擬的不同橋墩概化方式下河道壅水計(jì)算結(jié)果對(duì)比分析
兩個(gè)處理t測(cè)驗(yàn)與F測(cè)驗(yàn)的數(shù)學(xué)關(guān)系
考試周刊(2016年88期)2016-11-24 13:30:50
科技成果評(píng)價(jià)的信度分析及模型優(yōu)化
體育社會(huì)調(diào)查問(wèn)卷信度檢驗(yàn)的方法學(xué)探索——基于中文核心體育期刊163篇文章分析
結(jié)構(gòu)化面試中多源變異的概化分析
中文版腦性癱瘓兒童生活質(zhì)量問(wèn)卷的信度
你知道嗎?
攔污柵條概化試驗(yàn)
新河县| 安顺市| 天峻县| 城步| 上林县| 安达市| 民乐县| 寿宁县| 仲巴县| 宣武区| 牡丹江市| 乌苏市| 久治县| 临西县| 富蕴县| 安宁市| 黑水县| 垫江县| 卫辉市| 白城市| 班玛县| 台前县| 体育| 万源市| 同江市| 龙山县| 循化| 潢川县| 阿瓦提县| 杂多县| 田东县| 突泉县| 济宁市| 林芝县| 唐海县| 乌兰浩特市| 高碑店市| 孙吴县| 桓仁| 清徐县| 马龙县|