王天劍
(貴州財經(jīng)大學外國語學院 貴州貴陽 550004)
概化理論在中小學英語測試研究中的應用
王天劍
(貴州財經(jīng)大學外國語學院 貴州貴陽 550004)
概化理論是將方差分析與傳統(tǒng)的真分數(shù)理論整合發(fā)展而來的可靠度(信度)理論,它是現(xiàn)代教育和心理測量的重要理論之一。為幫助研究者掌握概化理論在中小學英語測試研究中的應用方法,文章討論了概化分析中的基本概念,并以一套英語演講能力評定程序可靠度研究為例,介紹了利用軟件EduG進行概化分析的基本步驟。
概化理論;測試;研究
概化理論是關(guān)于行為測量可靠度的理論 (Shavelson& Webb,1991)[1](P1)。它是在經(jīng)典測量理論(Classical TestTheory, CTT)與方差分析理論(ANOVA)基礎(chǔ)上,經(jīng)不同專家逐步發(fā)展而來的現(xiàn)代測量理論(Cronbach etal,1963[2](P137-163);Cardinet etal,2010(pix))。根據(jù)經(jīng)典測量理論,觀測分數(shù)(X)是真分數(shù)(T)與隨機誤差(E)之和(X=T+E)。真分數(shù)是對象某種特質(zhì)的真實值,隨機誤差是測量過程中產(chǎn)生的所有偏差。哪些因素導致了隨機誤差?為回答這一問題,概化理論吸收了方差分析的思想,將隨機誤差進一步區(qū)分為不同來源的誤差,估算各自所占比重,并計算可靠度系數(shù)(與經(jīng)典測量的信度系數(shù)可以類比的參數(shù)),反應測量的精確度。使用概化理論,我們不僅可以評價既有測量程序的優(yōu)劣,也可以探索測量優(yōu)化的方案。正因其重要應用價值,概化理論在國外教育與心理測量中受到高度重視。美國教育研究協(xié)會、心理學協(xié)會和國家教育測量委員會聯(lián)合提出的《教育和心理測量標準》(Standards for Education and PsychologyTesting,AERA,1999)明確提出,在建立觀察和測量程序的信度與效度時,需參照概化理論(GeneralizabilityTheory,GT)[3](P34)。
學校的各種測驗、測試、考試(本文統(tǒng)稱“測試”)均屬于教育或心理測量。近年來,國內(nèi)已有學者開始利用概化理論理論研究英語測試。如,徐鷹等(2015)[4](P89-95)利用概化理論,分析了廣東省高考英語聽說模擬測試程序;孫海洋等(2011)[5](P61-65)對職前中學英語教師的口語測試進行了概化和多元化分析;張英莉等(2014)[6](P4-8)應用概化理論,對初中學生英語口試評分標準及評分者信度等進行了分析。這些研究披露了英語測試程序中存在的種種缺陷,對于優(yōu)化測試方案具有重要參考價值。
測試貫穿中小學英語教學的始末。從安置性測試、平時測試、期末測試,到各種升學測試、競賽測試等,無不需要具有較高信度和效度的測試程序。利用概化理論對有關(guān)數(shù)據(jù)進行分析,對于提高測試質(zhì)量具有重要意義。鑒于國內(nèi)關(guān)于概化理論應用的文獻尚不多見,本文在介紹概化分析基本概念基礎(chǔ)上,結(jié)合實例,簡要描述利用工具軟件EduG進行概化分析的方法。
(一)側(cè)面。側(cè)面是測量的對象以及構(gòu)成測量條件的因素(相當于方差分析中的自變量)。例如,測試時間、測試地點、測試方式、測試題目、受試者(或其某種特征)、評分員(或其某種特征)等均可視為側(cè)面,只要研究者對這些因素的影響感興趣。諸因素中,測量對象被稱作區(qū)別側(cè)面,構(gòu)成測量條件的因素被稱作工具側(cè)面。
(二)觀察設(shè)計。在測量中,側(cè)面之間就會形成不同的結(jié)構(gòu)關(guān)系:
1.交叉關(guān)系,即每一個側(cè)面的每個水平均與其他側(cè)面的每個水平存在結(jié)合。例如,測試中涉及10個學生(S)和2個評分員(R)兩個側(cè)面,每個學生需要接受每個評分員評分,即S和R的各個水平均有接觸,側(cè)面之間構(gòu)成交叉關(guān)系,表示為S×R,或者SR。其結(jié)果是,可以產(chǎn)生10×2=20個數(shù)據(jù)。
2.套嵌關(guān)系,即一個側(cè)面的不同水平與且僅與另一個側(cè)面的一個水平結(jié)合。例如,上述測試中,5個學生由評分員A評分,另外5個由評分員B評分,這時S的五個水平與R的一個水平接觸,另外五個水平與R的另一水平接觸,側(cè)面之間構(gòu)成套嵌關(guān)系,稱作S套嵌于R,表示為S:R。其結(jié)果是,可以產(chǎn)生10個數(shù)據(jù)。
如果有三個或者三個以上的側(cè)面作為測量條件,其間會形成更為復雜的關(guān)系。如對于A、B和C三個側(cè)面,可以構(gòu)成ABC(三個側(cè)面完全交叉),A:BC(BC交叉,A套嵌于BC),AB: C(AB為交叉,AB套嵌于C),或者A:B:C(A套嵌于B,而B進一步套嵌于C)等。
上述側(cè)面之間的交叉或者套嵌關(guān)系,統(tǒng)稱為觀察設(shè)計,反映的是數(shù)據(jù)的結(jié)構(gòu)關(guān)系。
(三)估計設(shè)計。估計設(shè)計需要回答的問題是:各個側(cè)面是以多少個水平估計多大的全域(以多大的樣本量估計多大的總體)?我們需要完成的操作任務(wù)是,確定測量涉及的每一個側(cè)面分屬于以下哪種類型:
1.固定側(cè)面,即全域各個水平全部出現(xiàn)在研究中的側(cè)面。自然的固定側(cè)面很少,但研究者可以將一個側(cè)面的某些水平人為地定義為全域,并將其全部容納于研究中。例如,在一次測試中,某校將其僅有的5位高級英語教師作為一個評分員全域,并使其全部參加某次試卷的評閱,則評分員就是一個固定側(cè)面(側(cè)面水平=全域水平=5)。
2.有限隨機側(cè)面,即出現(xiàn)于研究中的水平是從有限全域中隨機抽取的側(cè)面。例如,某校將其僅有的5位高級英語教師作為一個評分員全域,某次試卷評閱中隨機抽取2名作為評分員,則評分員就是一個有限隨機側(cè)面(側(cè)面水平=2,全域水平=5)。
3.無限隨機側(cè)面,即出現(xiàn)于研究中的水平是從被視為無限大的全域中隨機抽取的側(cè)面。例如,英語教師可被視為一個無限大的全域,某次試卷評閱中隨機抽取5名作為評分員,則評分員就是一個無限隨機側(cè)面(側(cè)面水平=5,全域水平=Infinite)。
基于不同的抽樣方式獲得的研究結(jié)果,在適用范圍(概化)方面不同。例如,當評分員是一個固定側(cè)面時,研究結(jié)果在概化時,僅適用于同樣的評分員參與的測量;當評分員是隨機側(cè)面時,結(jié)果可以概化到隨機抽樣的全域中。側(cè)面的隨機性或固定性隨研究目的而定,研究者可以根據(jù)研究興趣進行雙向修改(將固定側(cè)面更改為隨機側(cè)面,或?qū)㈦S機側(cè)面更改為固定側(cè)面)。一個研究程序中可以同時容納固定側(cè)面與隨機側(cè)面(這樣的模型叫做混合模型)。
(四)測量設(shè)計。測量設(shè)計部分的任務(wù)是:確定哪些側(cè)面是區(qū)別側(cè)面,哪些是工具側(cè)面;確定測量是相對的,還是絕對的。
1.確定區(qū)別側(cè)面與工具側(cè)面。區(qū)別側(cè)面是研究的焦點或者研究對象。工具側(cè)面是完成測量需要依賴的各種條件因素。在教育研究中,一般情況下學生是區(qū)別側(cè)面,因為我們傾向于關(guān)注學生的成績數(shù)據(jù)是否可靠。其他因素大多視為工具側(cè)面,它們是為測量學生服務(wù)的。但是我們可以將區(qū)別側(cè)面和工具側(cè)面換位使用。例如,在一個由學生(S)、試題(T)和評分者(R)組成的交叉設(shè)計(STR)中,如果旨在考查學生的得分是否可靠,則學生為區(qū)別側(cè)面,其他因素為工具側(cè)面(表示為S/TR);如果旨在檢查不同試題項目得分高低的穩(wěn)定性,則試題變成區(qū)別側(cè)面,學生和評分員變成工具側(cè)面(T/SR);如果旨在檢查不同評分員給分差別的穩(wěn)定性,則評分員為區(qū)別側(cè)面,學生和試題變成工具側(cè)面(R/ST)。
2.確定測量是相對的還是絕對的。為了將個人(或研究目標)排名進行的測量叫做相對測量。例如競賽、拔尖、擇優(yōu)之類的測試均為相對測量,因為我們的目的是比較高低,鑒別優(yōu)差。為了了解個人(或研究目標)分數(shù)水平的測量叫做絕對測量。例如,目標測試、掌握性測試、學期測試、過級測試、畢業(yè)測試一般均作為絕對測量,因為我們傾向于關(guān)注個人成績是否達到某一合格線。絕對測量是一種更加精確的測量,不僅能區(qū)別名次,而且能鑒定個人分值是否達到合格線。概化分析中,相對測量和絕對測量的可靠度是依據(jù)不同的參數(shù)衡量的。
借助軟件進行概化研究非常簡便?,F(xiàn)以一套英語演講能力評定程序的導航研究為例,展示利用EduG進行概化分析的方法。
(一)問題描述。為了確定一套英語演講能力評定程序的可靠度,某學校進行了一個導航研究:隨機抽取10名初三學生作為被試,2名英語教師為評委,要求評委從語音、語法、詞匯、內(nèi)容四方面(能力維度),對被試的演講進行評價。每個維度均需在一個三級量表上打分:“差”記1分,“中”記2分,“優(yōu)”記3分。由于兩個評分員都要對四個維度進行打分,每個被試可以產(chǎn)生8個原始分數(shù),最后需要以8個分數(shù)的平均值作為每個被試的綜合成績,并根據(jù)綜合成績將所有被試排名。表1是某個被試的得分樣例:
表1 被試不同能力維度得分樣例(平均2.375)
10名被試在各維度上的原始分數(shù)共計80個。試根據(jù)這些數(shù)據(jù),利用概化理論分析該評分程序的可靠度。
(二)問題分析。
1.觀察設(shè)計。本例共有三個側(cè)面:學生(10個水平),評分員(2個水平),能力維度(4個水平)。因每個評分員均要對每個學生在每個維度上評分,三個側(cè)面的各個水平均有接觸,所以這是一個完全交叉設(shè)計:學生(S)評分員(R)能力維度(Q),或者SRQ。
2.估計設(shè)計。本例的被試學生和評分員是通過隨機程序抽取的,其全域可視為無限,這兩個側(cè)面均為為無限隨機側(cè)面。能力維度不是隨機抽取的,而是特意確定的,所以為固定側(cè)面,其全域水平為4。
3.測量設(shè)計。本例著重考查評定程序?qū)W生演講能力測量的可靠性,因此學生是區(qū)別側(cè)面(即研究對象),評分員和能力維度則構(gòu)成工具側(cè)面(測評的條件因素),這種關(guān)系可以表示為S/QR。由于演講比賽評分的目的是排名,測量是相對的。
(三)輸入程序指令。為了利用EduG軟件進行概化分析,需打開軟件,并在界面中按如下方式填寫指令(見圖1)。
圖1 概化分析指令界面
完成如上指令的具體步驟包括:
1.確定文件名稱與保存位置。運行軟件,依次點擊File 和New,在彈出的界面中填寫文件的存儲名稱和位置(本例名稱取“example1”,保存位置為F盤)。
2.打開文件,在界面中填寫相關(guān)指令。
●在Title后填寫文件的標題(這是分析報告中使用的標題,本例用Procedureforrankingspeakingability);
●在Numberoffacets后選3,表示分析涉及三個側(cè)面;
●在Observation and estimation designs之下填寫各側(cè)面的英文名稱(Student,Rater,Quality),名稱的字母代碼(S,R,Q,代表三個側(cè)面處于完全交叉關(guān)系)。填寫各側(cè)面的水平(10,2, 4),各側(cè)面的全域容量(本例中學生和評分員來自無限全域,表示為INF;能力維度全域水平為4);
●在Measurementdesign后填寫測量設(shè)計代碼(S/RQ,表示學生是區(qū)別側(cè)面,評分員和能力維度是構(gòu)成測評條件的工具側(cè)面);
●在Reports下勾選RTF(表示輸出的結(jié)果以Word表格形式呈現(xiàn));
●其他選項保持默認值。
●插入數(shù)據(jù)。點擊Insertdata,選擇scores,即彈出數(shù)據(jù)錄入界面(見圖2)。第一列表示的是學生序號,第二列是評分員序號,第三列是能力維度序號。前三列是軟件根據(jù)觀察設(shè)計自動生成的,第四列是需要我們錄入數(shù)據(jù)的位置。一個學生要受兩個評分員在四個維度評價,故有8個原始數(shù)據(jù),10個被試的原始數(shù)據(jù)共計80個,可以依次錄入表中。
圖2 數(shù)據(jù)錄入界面
(四)查看結(jié)果。錄入如上程序指令和數(shù)據(jù)后,點擊Compute,即可查看結(jié)果,主要包括如下部分。
1.哪些因素對學生的分數(shù)變化有較大影響?
表2 方差分析表
表2是輸出的方差分析結(jié)果。各列依次表示對被試得分具有潛在影響的因素(側(cè)面及其交互)、平方和、自由度、均方、隨機效果模型方差成分、混合效果模型方差成分、Whimbey’s矯正的方差成分、各矯正成分的百分比及各隨機效果模型方差成分的標準誤。跟據(jù)表2第一列和第八列可知,有三個因素對被試得分影響分量較重:
SRQ(學生、評分員和能力維度的交互作用):51.7%
SR(學生和評分員的交互作用):28.8%
S(學生):16.1%
交互作用意味著,兩個評分員對不同學生的打分(SQ交互作用),以及兩個評分員對不同學生在不同能力維度上的打分(SQR交互作用)分歧較大。學生作為研究目標,對分數(shù)的影響僅有16.1%,沒有的達到足夠的分量。
2.研究結(jié)果是否可靠?在概化中,測量誤差源于那些側(cè)面?表3呈現(xiàn)的是概化研究表(G-StudyTable)。其中第一列是研究對象,即區(qū)別側(cè)面(本例是指學生),第二列是區(qū)別側(cè)面的方差(相當于經(jīng)典測量中真分數(shù)解釋的變異,這里可理解為“學生的能力可以解釋的得分變異”),第三列是潛在的誤差來源(注意:由于能力維度Q為固定側(cè)面,不存在隨機抽樣誤差,故該側(cè)面及其交互作用對測量誤差的影響為零),第四、五列為相對誤差方差及其百分比,第六、七列為絕對誤差方差及其百分比。各列數(shù)據(jù)是進一步計算可靠度系數(shù)的依據(jù)。
由于本例屬于相對測量,需要根據(jù)相對概化系數(shù)(Coef_Grelative),以及相對誤差方差判斷測量的可靠度與誤差根源。Coef_Grelative=0.53<0.80,即相對概化系數(shù)沒有達到0.80這一慣用的臨界值,表明測量可靠度不夠理想。這里的0.53也意味著,在概化中,“真分數(shù)”能夠解釋的變異占53%,誤差能夠解釋的變異占47%。哪些因素導致了概化中的測量誤差?是SR,雖然其方差為0.07569,但因它是唯一的誤差源,故解釋全部誤差(100%)。
表3 概化研究表
(五)優(yōu)化設(shè)計方案。概化研究的特殊價值在于,它不僅能發(fā)現(xiàn)問題,而且能提供解決問題的方案。如何提高研究結(jié)果的可靠度?一般而言,可以通過增加隨機工具側(cè)面的抽樣水平,或者剔除固定工具側(cè)面中的不適宜水平,來達到提高測量結(jié)果可靠度的目的。
1.剔除固定工具側(cè)面中的不適宜水平。剔除固定工具側(cè)面中之不適宜水平的理論依據(jù)是,固定工具側(cè)面中的某些水平缺乏效度,會增加測量誤差。本例中能力(Q)為固定工具側(cè)面,其四個水平依次為語音、語法、詞匯和內(nèi)容。利用EduG中的G-Facetsanalysis,便可探明本側(cè)面哪一水平刪除后能夠提升相對概化系數(shù)。步驟為:
(1)勾選G-Facetsanalysis(G側(cè)面分析);
(2)在彈出對話框內(nèi)勾選Q并點擊OK;
(3)點擊Compute并觀察輸出結(jié)果。
表4G側(cè)面分析結(jié)果
表4呈現(xiàn)的是G側(cè)面分析結(jié)果。表中第三欄是刪除能力側(cè)面某一水平后相對概化系數(shù)(Coef_Grel.)可以達到的新高度。顯而易見,刪除水平二(Level2,即語法),可以將相對概化系數(shù)最大幅度提高(達到0.68725)。可以推論,語法作為一個評定維度,會增加學生與評分員的交互作用(SR),擴大測量誤差。刪除語法項將有助于優(yōu)化測量程序,提高結(jié)果的可靠度。
2.增加隨機工具側(cè)面的抽樣水平。凡是以樣本代表總體的研究,樣本量越大結(jié)果越準確。這是通過增加隨機工具側(cè)面之抽樣水平,以提高測量結(jié)果的原理。本例評分員(R)為隨機工具側(cè)面,借助EduG可以探明,如何在可操作的范圍內(nèi)適當增加其水平以獲得可靠測量結(jié)果。由于剔除能力維度之水平二(語法),可以提高結(jié)果可靠度,在增加評分員時可以將剔除能力維度水平二作為并列條件。分析步驟如下:
(1)指定剔除能力維度二為并行條件(在Observationand estimationdesigns中Quality一行最后一個方框內(nèi)點擊,在彈出對話框內(nèi)選2,點擊OK。結(jié)果見圖3);
圖3 剔除能力維度二后的觀測與估計設(shè)計界面
(2)改變評分員抽樣水平數(shù)(勾選Optimization,在彈出對話框中輸入如圖4的內(nèi)容,注意在五中優(yōu)化方案中,將R的觀察水平依次更改為3,4,5,6,7,點擊OK);
圖4 優(yōu)化方案界面
(3)點擊Compute觀察輸出結(jié)果。表5是輸出的優(yōu)化方案。表中顯示了不同優(yōu)化方案下的結(jié)果(絕對概化系數(shù)、誤差方差、測量標準誤等冗余數(shù)據(jù)略去)。根據(jù)相對概化系數(shù)的變化可知,評分員越多,系數(shù)越高。要達到可接受水平(系數(shù)大于或等于0.80)[7](P117-123),至少需要4位評分員(即Option2,相對信度為0.81464)。
表5 優(yōu)化方案分析表
總之,剔除一個評分維度(語法),額外增加兩個評分員(達到4個),便可預期測量程序達到可靠評價學生能力的目的。但是,也有一個前提條件,在測量程序的實際推廣應用中,隨機抽取的評分員或者受試學生,必須與導航研究中涉及的人員具有類似性。否則,導航研究結(jié)果便失去推廣的基礎(chǔ)。
概化理論是將方差分析與傳統(tǒng)的真分數(shù)理論整合發(fā)展而來的信度理論。借助概化研究分析,我們不僅能夠了解不同因素對測量結(jié)果和測量準確度的影響,評價測量程序的信度,判斷結(jié)果的可靠度,也可以找到測量程序的優(yōu)化方案,進而獲得滿意的結(jié)果。本研究借助具體案例,介紹了概化分析軟件EduG的使用方法。由于篇幅有限,只能展示部分基本用法,希望對中小學英語教育測量有益。
[1]ShavelsonRJ,WebbNM.Generalizabilitytheory:Aprimer [M].SagePublications,1991.
[2]Cronbach.L.J,Rajaratnam,N,&Gleser,GC.Theory of generalizability:A liberalization of reliability theory[J].British JournalofMathematicalandStatisticalPsychology,1963(2).
[3]AmericanEducationResearchAssociation(AERA),American Psychological Association (APA),National Council on MeasurementinEducation(NCME).StandardsforEducationand PsychologyTesting[M].WashingtonDC:AmericanPsychological Association,1999.
[4]徐鷹,曾用強.基于概化理論和多層面Rasch模型的計算機化英語聽說考試評分研究[J].電化教育研究,2015(3).
[5]孫海洋,韓寶成.概化理論在口語考試設(shè)計中的應用研究[J].外語教學,2011(11).
[6]張英莉,姚春艷.初中英語口語測試信度的概化理論應用研究[J].教育測量與評價(理論版),2014(2).
[7]靳雪蓮,滕金生,楊德山.網(wǎng)絡(luò)論壇公共事務(wù)討論語言的修辭特征和成因[J].重慶郵電大學學報(社會科學版),2014(5).
[責任編輯 劉金榮]
H319
A
2095-0438(2017)02-0119-05
2015-10-15
王天劍(1968-),河南南陽人,貴州財經(jīng)大學教授,博士,碩士生導師,研究方向:應用語言學。
貴州省科學技術(shù)廳貴州財經(jīng)大學軟科學研究聯(lián)合基金資助項目(黔科合LH字[2014]7262)。