国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

概化理論G研究方差分量及其變異量估計(jì)影響因素*

2016-11-26 06:28黎光明
心理學(xué)探新 2016年5期
關(guān)鍵詞:方差分量變異

黎光明

(1.華南師范大學(xué)心理學(xué)院,心理應(yīng)用研究中心,廣州 510631;2.心理健康與認(rèn)知科學(xué)廣東省重點(diǎn)實(shí)驗(yàn)室,廣州 510631)

?

概化理論G研究方差分量及其變異量估計(jì)影響因素*

黎光明1,2

(1.華南師范大學(xué)心理學(xué)院,心理應(yīng)用研究中心,廣州 510631;2.心理健康與認(rèn)知科學(xué)廣東省重點(diǎn)實(shí)驗(yàn)室,廣州 510631)

概化理論是關(guān)于行為測(cè)量可靠性的統(tǒng)計(jì)理論。G研究是進(jìn)行概化理論分析的關(guān)鍵步驟,其主要目的是進(jìn)行方差分量及其變異量估計(jì)??偨Y(jié)了影響概化理論G研究方差分量及其變異量估計(jì)的多種因素,包括估計(jì)方法、數(shù)據(jù)分布、研究設(shè)計(jì)、樣本容量、模型效應(yīng)和數(shù)據(jù)形態(tài)等,并指出了相關(guān)研究存在的六方面不足,如缺乏估計(jì)方法的綜合比較、較少考察非正態(tài)分布數(shù)據(jù)、較少考慮不平衡或缺失數(shù)據(jù)等。

概化理論;G研究;方差分量;方差分量變異量估計(jì)

1 概化理論

概化理論(Generalizability Theory,GT)是關(guān)于行為測(cè)量可靠性(dependability)的統(tǒng)計(jì)理論(Shavelson & Webb,1991,p.1)。Cronbach,Gleser,Nanda和Rajartnam(1972,p.15)構(gòu)建了可靠性的概念:來(lái)自于一次測(cè)驗(yàn)或其它測(cè)量用作決策的分?jǐn)?shù),僅僅是許多分?jǐn)?shù)中的一個(gè),這些分?jǐn)?shù)可能起著相同目的,決策者從來(lái)不對(duì)在特定刺激物、問(wèn)題、測(cè)驗(yàn)者、測(cè)驗(yàn)時(shí)間等條件下產(chǎn)生的(這些)分?jǐn)?shù)感興趣,因?yàn)橐恍y(cè)驗(yàn)條件容易改變,而用于決策的理想分?jǐn)?shù)是包含所有條件下獲得的觀察分?jǐn)?shù)。根據(jù)Cronbach等人構(gòu)建的可靠性概念,可靠性被定義為:將一次測(cè)量(如心理測(cè)驗(yàn)、行為觀察、民意調(diào)查等)所得的觀察分?jǐn)?shù)概化到包含所有可能條件下平均分的精確度,這些可能的條件是測(cè)驗(yàn)者愿意接受的??煽啃愿拍畹那疤峒僭O(shè)是人的知識(shí)、態(tài)度、技能等都處于穩(wěn)定狀態(tài),僅僅是不同來(lái)源的誤差造成了個(gè)體之間的分?jǐn)?shù)差異。

概化理論可用于分析多側(cè)面測(cè)量誤差(multifaceted measurement error),將測(cè)量的情境關(guān)系(context of measurement situation)分為測(cè)量目標(biāo)和測(cè)量側(cè)面兩部分(Shavelson & Webb,1991)。測(cè)量目標(biāo)(object of measurement)是欲考察的實(shí)際特質(zhì),而測(cè)量側(cè)面(facet of measurement)是影響測(cè)量目標(biāo)的各種因素。根據(jù)測(cè)量的情境關(guān)系,在測(cè)量目標(biāo)確定的條件下,測(cè)量側(cè)面可以來(lái)自多方面,例如,學(xué)生評(píng)價(jià)教師教學(xué)水平,測(cè)量目標(biāo)是教師教學(xué)水平,測(cè)量側(cè)面可以是學(xué)生、班級(jí)、專業(yè)、課程、項(xiàng)目以及教學(xué)水平維度(如教學(xué)態(tài)度、教學(xué)內(nèi)容、教學(xué)方法、教學(xué)效果等)(Meyer,Liu,& Mashburn,2014;Casabianca,Lockwood,& McCaffrey,2015)。針對(duì)某個(gè)測(cè)量目標(biāo),如果測(cè)量側(cè)面僅一個(gè),稱之為單側(cè)面設(shè)計(jì),如p×i設(shè)計(jì)。對(duì)于p×i設(shè)計(jì),如果i為隨機(jī)側(cè)面,可稱為單側(cè)面隨機(jī)設(shè)計(jì),相應(yīng)地,如果i為固定側(cè)面,可稱為單側(cè)面固定設(shè)計(jì)。如果測(cè)量側(cè)面超過(guò)一個(gè),稱之為多側(cè)面設(shè)計(jì),設(shè)計(jì)類型可以是交叉、嵌套,也可以是混合。

概化理論也可以分析多個(gè)測(cè)量目標(biāo)與測(cè)量側(cè)面的情境關(guān)系,這就是多元概化理論(Multivariate Generalizability Theory,MGT)(Brennan,2001)。MGT是在單變量概化理論(Univariate Generalizability Theory,UGT)的基礎(chǔ)上發(fā)展起來(lái)的。MGT是UGT的深化和發(fā)展。與UGT一樣,MGT同時(shí)吸收了經(jīng)典測(cè)量理論、實(shí)驗(yàn)設(shè)計(jì)和方差分析的思想。

2 概化理論G研究

2.1 概化理論G研究方差分量估計(jì)

進(jìn)行GT分析主要包括G研究和D研究?jī)蓚€(gè)過(guò)程,G研究是概化研究,D研究是決策研究。G研究的主要任務(wù)是在觀測(cè)全域(universe of admissible observations)上盡可能地“挖掘”出研究設(shè)計(jì)中各種潛在的測(cè)量誤差來(lái)源,并估計(jì)這些誤差來(lái)源的方差分量(variance component)。D研究的主要任務(wù)是在概化全域(universe of generalizability)上,為了某種特殊的決策需要,以G研究所得到的方差分量估計(jì)值為基礎(chǔ),通過(guò)調(diào)整測(cè)量過(guò)程中的各種關(guān)系(如調(diào)整各個(gè)側(cè)面樣本水平數(shù)、調(diào)整各個(gè)側(cè)面之間的關(guān)系或權(quán)重等),來(lái)探索如何控制和調(diào)節(jié)測(cè)量誤差。G研究是D研究的基礎(chǔ),D研究是G研究的深化。從G研究和D研究分析過(guò)程看,方差分量估計(jì)是進(jìn)行概化理論分析的關(guān)鍵,這是因?yàn)椋玫紻研究的相關(guān)統(tǒng)計(jì)量,如信噪比(S/N)、概化系數(shù)(Eρ2)、可靠性指數(shù)(φ)等都依賴于G研究所估出的方差分量。方差分量估計(jì)是概化理論的必用技術(shù),是進(jìn)行概化理論分析的關(guān)鍵。概化理論借用實(shí)驗(yàn)設(shè)計(jì)與方差分析技術(shù),對(duì)心理與教育測(cè)量中產(chǎn)生的總變異進(jìn)行分解。測(cè)量側(cè)面在多大程度上影響了測(cè)量目標(biāo),即在總變異中,測(cè)量目標(biāo)和測(cè)量側(cè)面的方差分量各占多少,是概化理論分析關(guān)心的問(wèn)題。因此,需要探測(cè)測(cè)量側(cè)面在多大程度上影響到測(cè)量目標(biāo),并對(duì)其產(chǎn)生的誤差進(jìn)行有效控制。

結(jié)合測(cè)量的情境關(guān)系,概化理論對(duì)經(jīng)典測(cè)量理論給出的籠統(tǒng)誤差進(jìn)行探查和分解,辨明誤差的不同來(lái)源,并且在一定范圍內(nèi)變動(dòng)測(cè)量的情境關(guān)系,以考察這種變動(dòng)引起的誤差的相對(duì)變化,從而達(dá)到對(duì)誤差方差進(jìn)行控制(Shavelson & Webb,1991)。因此,概化理論又稱為方差分量模型(variance component model)(Brennan,2000)。

2.2 概化理論G研究方差分量變異量估計(jì)

與其它統(tǒng)計(jì)量一樣,概化理論下估計(jì)出的方差分量受限于抽樣,不同的抽樣樣本,所估計(jì)的方差分量可能不一樣,這就要求進(jìn)行方差分量估計(jì)時(shí)需要對(duì)其變異量進(jìn)行探討。一般地,僅根據(jù)一個(gè)樣本的統(tǒng)計(jì)量來(lái)估計(jì)總體參數(shù),可能存在偏差。在樣本統(tǒng)計(jì)量研究中,僅用一個(gè)(次)樣本平均數(shù)來(lái)估計(jì)總體均值,存在較大的風(fēng)險(xiǎn),因?yàn)闃颖酒骄鶖?shù)容易受抽樣的影響。探討方差分量變異量具有重要意義,這是因?yàn)?,?bào)告這些變異量可以在一定程度上說(shuō)明方差分量測(cè)量的可靠性。概化理論G研究方差分量變異量主要包括標(biāo)準(zhǔn)誤和置信區(qū)間估計(jì)(Brennan,2001;Shin & Raudenbush,2012)。

3 概化理論G研究方差分量及其變異量估計(jì)影響因素

進(jìn)行概化理論G研究方差分量及其變異量估計(jì),需要考慮較多條件(影響因素),如估計(jì)方法、數(shù)據(jù)分布、研究設(shè)計(jì)、樣本容量、模型效應(yīng)及數(shù)據(jù)形態(tài)等。

3.1 估計(jì)方法

《教育與心理測(cè)試標(biāo)準(zhǔn)》(Standards for Educational and Psychological Testing,AERA,APA,& NCME,1999,p.27)和Brennan(2001,p.180)指出,為了獲得準(zhǔn)確的方差分量變異量,理想的做法是進(jìn)行多次獨(dú)立的重復(fù)測(cè)量。Brennan(2001,p.181)對(duì)9個(gè)ACT數(shù)學(xué)平行測(cè)驗(yàn)進(jìn)行了方差分量及其標(biāo)準(zhǔn)誤估計(jì),結(jié)果如表1所示。

表1 九個(gè)ACT數(shù)學(xué)平行測(cè)驗(yàn)估計(jì)的方差分量及其標(biāo)準(zhǔn)誤

3.2 數(shù)據(jù)分布

不同數(shù)據(jù)分布下不同方法對(duì)方差分量變異量估計(jì)可能產(chǎn)生不同的影響。特別地,當(dāng)數(shù)據(jù)為非正態(tài)分布時(shí),如二項(xiàng)分布、多項(xiàng)分布和偏態(tài)分布,適合于正態(tài)分布數(shù)據(jù)的方差分量變異量估計(jì)方法不一定適合于非正態(tài)分布數(shù)據(jù)。因此,也需要探討和比較基于不同非正態(tài)分布數(shù)據(jù)下不同方差分量變異量估計(jì)方法的優(yōu)劣。非正態(tài)分布數(shù)據(jù)在心理與教育測(cè)量實(shí)踐中具有常見性。例如,一些考試中的選擇題、是非題等,僅有兩種分?jǐn)?shù)(錯(cuò)和對(duì)):0和1,就是二項(xiàng)分布數(shù)據(jù)。又如,一些心理與教育測(cè)驗(yàn)中的等級(jí)評(píng)分,具有多個(gè)數(shù)據(jù)點(diǎn),存在多種分?jǐn)?shù),如0~4分,則表示分?jǐn)?shù)可取五個(gè)點(diǎn),分別是0、1、2、3和4分,就是多項(xiàng)分布數(shù)據(jù)。而對(duì)于偏態(tài)分布數(shù)據(jù),在實(shí)踐中也具有常見性,這是因?yàn)殡S著社會(huì)的發(fā)展,心理與教育測(cè)量的應(yīng)用領(lǐng)域發(fā)生了較大變化,被測(cè)群體的知識(shí)和能力等特質(zhì)在一定程度上不再服從偏度為0的分布。

3.3 研究設(shè)計(jì)

常見的概化理論研究設(shè)計(jì)包括p×i、i:p、p×i×r、p×(i:r)、i:(p×r)、i:p:r等。其中對(duì)概化理論單側(cè)面隨機(jī)p×i設(shè)計(jì)研究最多,這種設(shè)計(jì)屬于單變量概化理論的交叉設(shè)計(jì),p為測(cè)量目標(biāo),i為測(cè)量側(cè)面,p和i都隨機(jī),p和i具有交叉關(guān)系(Brennan,2001,p.5)。

但是,隨著研究設(shè)計(jì)側(cè)面數(shù)和復(fù)雜度的增加,G研究難度加大。Smith(1981)指出,概化理論G研究方差分量估計(jì)的穩(wěn)定性受研究設(shè)計(jì)復(fù)雜度(側(cè)面數(shù))和研究設(shè)計(jì)構(gòu)成(設(shè)計(jì)中嵌套的程度)影響。Smith認(rèn)為使用多側(cè)面(multiple)設(shè)計(jì)所得方差分量的方差更小,因?yàn)橛脕?lái)估計(jì)方差分量方差的均方在多側(cè)面設(shè)計(jì)中比在單個(gè)復(fù)雜(singlecomprehensive)設(shè)計(jì)中要小。例如,學(xué)生(p)嵌套在學(xué)校(s)中,施測(cè)若干個(gè)項(xiàng)目(i),項(xiàng)目嵌套在測(cè)驗(yàn)(f)中,那么這個(gè)設(shè)計(jì)可表達(dá)成(p:s)×(i:f)。這個(gè)設(shè)計(jì)是多側(cè)面復(fù)雜設(shè)計(jì),來(lái)自于每個(gè)學(xué)校的學(xué)生都被施測(cè)每個(gè)測(cè)驗(yàn)的項(xiàng)目。對(duì)于(p:s)×(i:f),還有可供替代的單個(gè)復(fù)雜設(shè)計(jì),如p:[s×(i:f)]和i:[f×(p:s)],前者表示每個(gè)學(xué)校不同組的學(xué)生被施測(cè)不同測(cè)驗(yàn)的每個(gè)項(xiàng)目(也就是說(shuō),對(duì)于每個(gè)學(xué)校的學(xué)生有“學(xué)生-項(xiàng)目”形式),后者表示對(duì)于每個(gè)學(xué)校每個(gè)測(cè)驗(yàn)的項(xiàng)目施測(cè)于一個(gè)學(xué)生樣本(也就是說(shuō),對(duì)于每個(gè)測(cè)驗(yàn)的項(xiàng)目有“項(xiàng)目-學(xué)生”形式)。與(p:s)×(i:f)設(shè)計(jì)相比,p:[s×(i:f)]設(shè)計(jì)和i:[f×(p:s)]設(shè)計(jì)估計(jì)的方差分量均方更大,所以產(chǎn)生的誤差也更大。雖然p:[s×(i:f)]和i:[f×(p:s)]設(shè)計(jì)也可以將所有的方差分量都估計(jì)出來(lái),但Smith指出,多側(cè)面設(shè)計(jì)與單個(gè)復(fù)雜設(shè)計(jì)相比,G研究估計(jì)的方差分量更為穩(wěn)定,前者通常使用隨機(jī)觀察數(shù),而后者通常使用固定觀察數(shù)。

3.4 樣本容量

樣本容量對(duì)G研究方差分量及其變異量估計(jì)有影響。Cronbach,Gleser,Nanda和Rajaratnam(1972)認(rèn)識(shí)到教育和社會(huì)背景中準(zhǔn)確估計(jì)方差分量對(duì)決策的重要性,認(rèn)為研究者利用小樣本數(shù)據(jù)估計(jì)G研究方差分量,有時(shí)是站不住腳的,需要考察方差分量的變異量。Gao和Brennan(2001)認(rèn)為,估計(jì)的方差分量因不同樣本存在差別,特別是當(dāng)樣本較小時(shí)這種差異更加明顯,準(zhǔn)確估計(jì)方差分量對(duì)于解釋評(píng)價(jià)結(jié)果至關(guān)重要,在其它條件相等的情況下,大樣本有助于獲得更為準(zhǔn)確的估計(jì)結(jié)果,因?yàn)榇髽颖舅烙?jì)的標(biāo)準(zhǔn)誤更小。

對(duì)于一個(gè)p×i設(shè)計(jì),樣本容量可以是30×5、30×20、600×5、600×20等,p和i因素可能存在“樣本水平不一致性”(disproportionality),表示一個(gè)因素的樣本容量與另一個(gè)因素的樣本容量不相一致。“樣本水平不一致性”在表現(xiàn)性評(píng)價(jià)中比較普遍,因?yàn)楸憩F(xiàn)性評(píng)價(jià)經(jīng)常是較多的人作答較少的題目,即人多題少(Othman,1995)。“樣本水平不一致性”對(duì)G研究方差分量及其變異量估計(jì)有影響。Brennan,Harris和Hanson(1987)的研究表明,“樣本水平不一致性”較大時(shí),Satterthwaite方法估計(jì)G研究方差分量置信區(qū)間不理想。Leucht和Smith(1989)認(rèn)為,“樣本水平不一致性”存在時(shí),使用水平數(shù)較大者作為Bootstrap再抽樣策略,更為合理,如人的樣本容量超過(guò)了題目的樣本容量,那么再抽樣人,采用boot-p策略,反之,采用boot-i策略。Othman(1995)研究發(fā)現(xiàn),“樣本水平不一致性”對(duì)Satterthwaite、TBGJL和Bootstrap方法估計(jì)正態(tài)分布數(shù)據(jù)和二項(xiàng)分布數(shù)據(jù)方差分量及其變異量有影響,“樣本水平不一致性”越大,這種影響越大。

3.5 模型效應(yīng)

概化理論模型可以分為隨機(jī)效應(yīng)模型、固定效應(yīng)模型和混合效應(yīng)模型三種(Brennan,2001;Chien,2008)。隨機(jī)效應(yīng)模型是最常見的一種,假定測(cè)量目標(biāo)和測(cè)量側(cè)面都是隨機(jī),即樣本來(lái)自于一個(gè)較大容量總體,且是隨機(jī)抽取出來(lái)的。例如,對(duì)于一個(gè)樣本容量20×8的隨機(jī)效應(yīng)p×i設(shè)計(jì),測(cè)量目標(biāo)是學(xué)生(p),測(cè)量側(cè)面是項(xiàng)目(i),p和i都隨機(jī),構(gòu)成測(cè)量的情境關(guān)系。測(cè)量目標(biāo)對(duì)應(yīng)的總體是測(cè)量總體(populationofmeasurement),假定為無(wú)限,那么這20個(gè)人表示是從一個(gè)無(wú)限學(xué)生總體中隨機(jī)抽樣出來(lái)的。測(cè)量側(cè)面對(duì)應(yīng)的總體是測(cè)量全域(universeofmeasurement),假定為無(wú)限,那么這8個(gè)題目是從一個(gè)無(wú)限題目全域中隨機(jī)抽樣出來(lái)的。

判斷概化理論模型屬于隨機(jī)效應(yīng)模型,測(cè)量側(cè)面必須滿足下列三個(gè)條件(Shavelson&Webb,1991,p.11):一是當(dāng)樣本的大小比全域要小得多;二是樣本被認(rèn)為是隨機(jī)抽取的;三是所抽取的樣本與從同一全域抽出另外的樣本是可以相互交換。如果這些條件難以滿足,那么測(cè)量側(cè)面是固定側(cè)面,概化理論模型則屬于固定效應(yīng)模型。如果這些條件部分得到滿足,既有隨機(jī)側(cè)面又有固定側(cè)面,那么概化理論模型則屬于混合效應(yīng)模型。Brennan(2001,pp.86-94)對(duì)三種模型效應(yīng)的G研究方差分量估計(jì)進(jìn)行了介紹。不同的模型效應(yīng)對(duì)G研究方差分量及其變異量估計(jì)有影響。Brennan,Harris和Hanson(1987)認(rèn)為,G研究方差分量估計(jì)應(yīng)該考慮總體是來(lái)自于有限總體還是無(wú)限總體,全域是來(lái)自于有限全域還是無(wú)限全域。Mislevy(2001)運(yùn)用MCMC方法同時(shí)估計(jì)隨機(jī)效應(yīng)模型和固定效應(yīng)模型G研究方差分量變異量,對(duì)所得結(jié)果進(jìn)行比較,發(fā)現(xiàn)不同的模型效應(yīng)對(duì)G研究方差分量變異量估計(jì)也有影響。

3.6 數(shù)據(jù)形態(tài)

這里,數(shù)據(jù)形態(tài)是指平衡與不平衡、有缺失與無(wú)缺失等形態(tài)。在概化理論中,缺失數(shù)據(jù)(sparsedata)屬于不平衡數(shù)據(jù)(unbalanceddata)的一種特殊情況(Chiu&Wolfe,2002)。

概化理論平衡設(shè)計(jì)方差分量估計(jì)多采用ANOVA方法或T方法(Tterms),不平衡設(shè)計(jì)多采用類似ANOVA方法(AnalogousANOVA)或類似T方法(AnalogousTterms)。概化理論平衡與不平衡數(shù)據(jù)方差分量估計(jì)方法(Brennan,2001),如表2所示。

表2 概化理論平衡與不平衡數(shù)據(jù)方差分量估計(jì)方法

缺失數(shù)據(jù)是相對(duì)于完整(無(wú)缺失)數(shù)據(jù)而言的,缺失的原因可能是多方面的,如測(cè)評(píng)時(shí)的遺漏等。對(duì)于缺失數(shù)據(jù)G研究方差分量估計(jì),Brennan(2001)提出了估計(jì)概化理論缺失數(shù)據(jù)方差分量的公式,針對(duì)單側(cè)面交叉設(shè)計(jì),在數(shù)據(jù)少量缺失的情況下可以得出方差分量的無(wú)偏估計(jì)。Chiu 和Wolfe(2002)認(rèn)為,也可以采用MBIB方法(Modified Balanced Incomplete Block)估計(jì)概化理論缺失數(shù)據(jù)方差分量。

4 問(wèn)題與展望

概化理論G研究,是進(jìn)行概化理論分析關(guān)鍵的一步,G研究是D研究的基礎(chǔ),主要任務(wù)是進(jìn)行方差分量及其變異量估計(jì)。G研究方差分量估計(jì)和方差分量變異量估計(jì)受到許多因素影響。當(dāng)前,對(duì)于概化理論G研究方差分量及其變異量估計(jì)影響因素,一些研究進(jìn)行過(guò)探討,但存在以下不足:

第一,缺乏估計(jì)方法的綜合比較。多數(shù)研究?jī)H限于一種或兩種估計(jì)方法,缺少將Traditional、Bootstrap、Jackknife和MCMC四種方法一同比較的研究,特別是有關(guān)MCMC方法估計(jì)概化理論方差分量及其變異量方面的研究較少,這就導(dǎo)致了所得結(jié)果僅是“片斷”方法的研究結(jié)果,無(wú)法進(jìn)行方法的綜合比較,所得結(jié)果在不同數(shù)據(jù)分布下也缺乏進(jìn)一步的推廣性。

第二,較少考察非正態(tài)分布數(shù)據(jù)。一些研究所考慮的非正態(tài)分布數(shù)據(jù)也僅限于二項(xiàng)分布數(shù)據(jù)或多項(xiàng)分布數(shù)據(jù),缺少對(duì)偏態(tài)分布數(shù)據(jù)進(jìn)行探討,雖然Othman(1995)已經(jīng)考慮到數(shù)據(jù)分布具有(弱)偏態(tài),但是并沒(méi)有進(jìn)行偏態(tài)分布數(shù)據(jù)方差分量及其變異量估計(jì)的研究,顯得不足。

第三,對(duì)多側(cè)面設(shè)計(jì)關(guān)注不足。關(guān)注單側(cè)面設(shè)計(jì)的研究居多,對(duì)多側(cè)面設(shè)計(jì)關(guān)注不足。測(cè)量目標(biāo)可能受到多個(gè)因素影響,僅關(guān)注一個(gè)測(cè)量側(cè)面,存在局限。關(guān)注多側(cè)面設(shè)計(jì)是一種趨勢(shì),因?yàn)殡S著測(cè)量側(cè)面數(shù)的增加,能夠分解出更多的方差分量,有助于增強(qiáng)測(cè)量控制誤差的能力。

第四,抽取的樣本不具代表性。概化理論是隨機(jī)抽樣理論(漆書青,戴海崎,丁樹良,2002),要求測(cè)量的數(shù)據(jù)具有代表性,樣本過(guò)少,將導(dǎo)致估計(jì)的方差分量不穩(wěn)定。另外,也有一些研究缺少考察“樣本水平不一致性”,往往僅考察一種樣本水平,如100×20,這將導(dǎo)致所得的結(jié)論難以拓廣至其它樣本情形。

第五,使用隨機(jī)效應(yīng)模型居多。特別地,對(duì)于G研究方差分量變異量估計(jì),較少學(xué)者真正意義上探討過(guò)固定效應(yīng)模型和混合效應(yīng)模型。根據(jù)Mislevy(2001)建議,可以使用MCMC方法估計(jì)固定效應(yīng)模型和混合效應(yīng)模型G研究的方差分量及其變異量。

第六,較少考慮不平衡或缺失數(shù)據(jù)。大多數(shù)研究設(shè)計(jì)僅考慮平衡設(shè)計(jì),較少考慮不平衡設(shè)計(jì),而這種設(shè)計(jì)在實(shí)踐中經(jīng)常存在。鮮有學(xué)者用MCMC方法估計(jì)過(guò)缺少數(shù)據(jù)的方差分量及其變異量,實(shí)際上MCMC方法通過(guò)運(yùn)用Bayes先驗(yàn)分布,可以對(duì)“缺失”數(shù)據(jù)進(jìn)行有效處理,避免了舍棄部分?jǐn)?shù)據(jù)丟失大量信息的尷尬局面。

漆書青,戴海崎,丁樹良.(2002).現(xiàn)代教育與心理測(cè)量學(xué)原理(pp.42-78).北京:高等教育出版社.

American Educational Research Association,American Psychological Association,National Council on Measurement in Education.(1999).Standardsforeducationalandpsychologicaltesting(Rev.ed.).Washington,DC:Author.

Brennan,R.L.,Harris,D.J.,& Hanson,B.A.(1987).Thebootstrapandotherproceduresforexaminingthevariabilityofestimatedvariancecomponentsintestingcontexts(ACT Research Report Series87-7).Iowa City,IA:American College Testing Program.

Brennan,R.L.(2000).(Mis)conceptions about generalizability theory.EducationalMeasurement:IssuesandPractice,19(1),5-10.

Brennan,R.L.(2001).Generalizabilitytheory.New York:Springer-Verlag.

Briggs,D.C.,& Wilson,M.(2007).Generalizability in item response modeling.JournalofEducationalMeasurement,44(2),131-155.

Casabianca,J.M.,Lockwood,J.R.,& McCaffrey,D.F.(2015).Trends in classroom observation scores.EducationalandPsychologicalMeasurement,75(2),311-337.

Chien,Y.M.(2008).Aninvestigationoftestlet-baseditemresponsemodelswitharandomfacetsdesigningeneralizabilitytheory.Unpublished doctoral dissertation.University of Iowa.

Chiu,C.W.T.,& Wolfe,E.W.(2002).A method for analyzing sparse data matrices in the generalizability theory framework.AppliedPsychologicalMeasurement,26(3),321-338.

Cronbach,L.J.,Gleser,G.C.,Nanda,H.,& Rajaratnam,N.(1972).Thedependabilityofbehavioralmeasurements:Theoryofgeneralizabilityforscoresandprofiles.New York:Wiley.

Feng,W.C.(2002).ApplicabilityofthejackknifeprocedureforestimatingstandarderrorsofvariancecomponentestimatesinselectedrandomeffectsGstudydesigns.Unpublished doctoral dissertation.University of Iowa.

Gao,X.H.,& Brennan,R.L.(2001).Variability of estimated variance components and related statistics in a performance assessment.AppliedMeasurementinEducation,14(2),191-203.

Leucht,R.M.,& Smith,P.L.(1989).Theeffectsofbootstrappingstrategiesontheestimationofvariancecomponents.Paper presented at the annual meeting of the American Educational Research Association,San Francisco,CA.

Li,F(xiàn).F.(2009).Aninformationcorrectionmethodfortestlet-basedtestanalysis:Fromtheperspectivesofitemresponsetheoryandgeneralizabilitytheory.Unpublished doctoral dissertation.University of Maryland.

Mao,X.,Shin,D.,& Brennan,R.L.(2005).EstimatingthevariabilityofestimatedvariancecomponentsandrelatedstatisticsusingtheMCMCprocedure:Anexploratorystudy.Paper presented at the annual meeting of the National Council on Measurement in Education,Montreal.

Meyer,J.P.,Liu,X.,& Mashburn,A.J.(2014).A practical solution to optimizing the reliability of teaching observation measures under budget constraints.EducationalandPsychologicalMeasurement,74(2),280-291.

Mislevy,R.J.(2001).Generalizabilitytheory:AbriefintroductiontoBayesianinferenceing-theory.Available from http://www.education.umd.edu/EDMS

Othman,A.R.(1995).Examiningtasksamplingvariabilityinscienceperformanceassessments.Unpublished doctoral dissertation.University of California,Santa Barbara.

Shavelson,R.J.,& Webb,N.M.(1991).Generalizabilitytheory:Aprimer.Newbury Park,CA:Sage.

Shin,Y.,& Raudenbush,S.W.(2012).Confidence bounds and power for the reliability of observational measures on the quality of a social setting.Psychometrika,77(3),543-560.

Smith,P.L.(1981).Gaining accurancey in generalizability theory:Using mulitiple designs.JournalofEducationalMeasurement,18,147-154.

Tong,Y.,& Brennan,R.L.(2007).Bootstrap estimates of standard errors in generalizability theory.EducationalandPsychologicalMeasurement,67(5),804-817.

Influence Factors of Estimating of Variance Components and Their Variability for Generalizability Study in Generalizability Theory

Li Guangming1,2

(1.School of Psychology,Center for Studies of Psychological Application,South China Normal University,Guangzhou 510631;2.Key Lab of Mental Health and Cognitive Science of Guangdong Province,Guangzhou 510631)

Generalizability theory is a statistical theory about the dependability of behavioral measurements.Generalizability studies,which focus on estimating the variance components and the variability of estimated variance components,is a crucial step of performing the generalizability analyses for generalizability theory.Estimation of variance components and their variability for generalizability study was influenced by some factors such as estimation procedure,data distribution,research design,sample size,model effect and data mode and so on.There was some deficiency in some researches about the influence factors for generalizability study such as lack of synthetic research about estimation procedures,less researches about non-normal data distribution,little focus on multifaceted design,only using random effect model,relatively less researches of unbalanced and sparse data.

Generalizability theory;Generalizability study;Variance component;Estimating the variability of estimated variance components

2014年國(guó)家自然科學(xué)基金面上項(xiàng)目(31470050),廣州市教育科學(xué)“十二五”規(guī)劃2012年度面上一般課題(12AO19),廣州市教育科學(xué)“十二五”規(guī)劃2014年重大課題(1201411413),廣東省2015年度高等教育改革項(xiàng)目(粵教高函[2015]173號(hào)),華南師范大學(xué)2014年度校級(jí)高等教育教學(xué)研究和改革項(xiàng)目(教學(xué)[2014]52號(hào))。

黎光明,E-mail:Lgm2004100@sina.com。

B841.2

A

1003-5184(2016)05-0458-06

猜你喜歡
方差分量變異
概率與統(tǒng)計(jì)(2)——離散型隨機(jī)變量的期望與方差
變異危機(jī)
變異
一斤生漆的“分量”——“漆農(nóng)”劉照元的平常生活
一物千斤
方差越小越好?
計(jì)算方差用哪個(gè)公式
論《哈姆雷特》中良心的分量
方差生活秀
變異的蚊子
梧州市| 佛学| 威海市| 伊吾县| 潞城市| 吉木萨尔县| 兰西县| 宁远县| 讷河市| 太白县| 成都市| 浦东新区| 南雄市| 西贡区| 新河县| 沙洋县| 宁津县| 桂平市| 桃园县| 景宁| 三亚市| 卫辉市| 闽侯县| 芷江| 张家界市| 原阳县| 南皮县| 旬阳县| 武穴市| 泰来县| 汉阴县| 新沂市| 镇巴县| 稷山县| 开封县| 石景山区| 宜州市| 桃园县| 娱乐| 阿坝| 梁平县|