概化理論在中小學英語測試研究中的應用

2017-03-10 07:39王天劍

綏化學院學報 2017年2期

關(guān)鍵詞：概化全域維度

王天劍

（貴州財經(jīng)大學外國語學院貴州貴陽 550004）

概化理論在中小學英語測試研究中的應用

王天劍

（貴州財經(jīng)大學外國語學院貴州貴陽 550004）

概化理論是將方差分析與傳統(tǒng)的真分數(shù)理論整合發(fā)展而來的可靠度（信度）理論，它是現(xiàn)代教育和心理測量的重要理論之一。為幫助研究者掌握概化理論在中小學英語測試研究中的應用方法，文章討論了概化分析中的基本概念，并以一套英語演講能力評定程序可靠度研究為例，介紹了利用軟件EduG進行概化分析的基本步驟。

概化理論；測試；研究

概化理論是關(guān)于行為測量可靠度的理論 (Shavelson& Webb,1991)[1](P1)。它是在經(jīng)典測量理論（Classical TestTheory, CTT）與方差分析理論（ANOVA）基礎(chǔ)上，經(jīng)不同專家逐步發(fā)展而來的現(xiàn)代測量理論（Cronbach etal,1963[2](P137-163)；Cardinet etal,2010(pix)）。根據(jù)經(jīng)典測量理論，觀測分數(shù)（X）是真分數(shù)（T）與隨機誤差（E）之和（X=T+E）。真分數(shù)是對象某種特質(zhì)的真實值，隨機誤差是測量過程中產(chǎn)生的所有偏差。哪些因素導致了隨機誤差？為回答這一問題，概化理論吸收了方差分析的思想，將隨機誤差進一步區(qū)分為不同來源的誤差，估算各自所占比重，并計算可靠度系數(shù)（與經(jīng)典測量的信度系數(shù)可以類比的參數(shù)），反應測量的精確度。使用概化理論，我們不僅可以評價既有測量程序的優(yōu)劣，也可以探索測量優(yōu)化的方案。正因其重要應用價值，概化理論在國外教育與心理測量中受到高度重視。美國教育研究協(xié)會、心理學協(xié)會和國家教育測量委員會聯(lián)合提出的《教育和心理測量標準》(Standards for Education and PsychologyTesting，AERA,1999)明確提出，在建立觀察和測量程序的信度與效度時，需參照概化理論（GeneralizabilityTheory,GT）[3](P34)。

學校的各種測驗、測試、考試（本文統(tǒng)稱“測試”）均屬于教育或心理測量。近年來，國內(nèi)已有學者開始利用概化理論理論研究英語測試。如，徐鷹等（2015）[4](P89-95)利用概化理論，分析了廣東省高考英語聽說模擬測試程序；孫海洋等（2011）[5](P61-65)對職前中學英語教師的口語測試進行了概化和多元化分析；張英莉等（2014）[6](P4-8)應用概化理論,對初中學生英語口試評分標準及評分者信度等進行了分析。這些研究披露了英語測試程序中存在的種種缺陷，對于優(yōu)化測試方案具有重要參考價值。

測試貫穿中小學英語教學的始末。從安置性測試、平時測試、期末測試，到各種升學測試、競賽測試等，無不需要具有較高信度和效度的測試程序。利用概化理論對有關(guān)數(shù)據(jù)進行分析，對于提高測試質(zhì)量具有重要意義。鑒于國內(nèi)關(guān)于概化理論應用的文獻尚不多見，本文在介紹概化分析基本概念基礎(chǔ)上，結(jié)合實例，簡要描述利用工具軟件EduG進行概化分析的方法。

一、概化分析的基本概念

（一）側(cè)面。側(cè)面是測量的對象以及構(gòu)成測量條件的因素（相當于方差分析中的自變量）。例如，測試時間、測試地點、測試方式、測試題目、受試者（或其某種特征）、評分員（或其某種特征）等均可視為側(cè)面，只要研究者對這些因素的影響感興趣。諸因素中，測量對象被稱作區(qū)別側(cè)面，構(gòu)成測量條件的因素被稱作工具側(cè)面。

（二）觀察設(shè)計。在測量中，側(cè)面之間就會形成不同的結(jié)構(gòu)關(guān)系：

1.交叉關(guān)系，即每一個側(cè)面的每個水平均與其他側(cè)面的每個水平存在結(jié)合。例如，測試中涉及10個學生（S）和2個評分員（R）兩個側(cè)面，每個學生需要接受每個評分員評分，即S和R的各個水平均有接觸，側(cè)面之間構(gòu)成交叉關(guān)系，表示為S×R，或者SR。其結(jié)果是，可以產(chǎn)生10×2=20個數(shù)據(jù)。

2.套嵌關(guān)系，即一個側(cè)面的不同水平與且僅與另一個側(cè)面的一個水平結(jié)合。例如，上述測試中，5個學生由評分員A評分，另外5個由評分員B評分，這時S的五個水平與R的一個水平接觸，另外五個水平與R的另一水平接觸，側(cè)面之間構(gòu)成套嵌關(guān)系，稱作S套嵌于R，表示為S：R。其結(jié)果是，可以產(chǎn)生10個數(shù)據(jù)。

如果有三個或者三個以上的側(cè)面作為測量條件，其間會形成更為復雜的關(guān)系。如對于A、B和C三個側(cè)面，可以構(gòu)成ABC(三個側(cè)面完全交叉)，A:BC（BC交叉，A套嵌于BC），AB: C（AB為交叉，AB套嵌于C），或者A:B:C（A套嵌于B，而B進一步套嵌于C）等。

上述側(cè)面之間的交叉或者套嵌關(guān)系，統(tǒng)稱為觀察設(shè)計，反映的是數(shù)據(jù)的結(jié)構(gòu)關(guān)系。

（三）估計設(shè)計。估計設(shè)計需要回答的問題是：各個側(cè)面是以多少個水平估計多大的全域（以多大的樣本量估計多大的總體）？我們需要完成的操作任務(wù)是，確定測量涉及的每一個側(cè)面分屬于以下哪種類型：

1.固定側(cè)面，即全域各個水平全部出現(xiàn)在研究中的側(cè)面。自然的固定側(cè)面很少，但研究者可以將一個側(cè)面的某些水平人為地定義為全域，并將其全部容納于研究中。例如，在一次測試中，某校將其僅有的5位高級英語教師作為一個評分員全域，并使其全部參加某次試卷的評閱，則評分員就是一個固定側(cè)面（側(cè)面水平=全域水平=5）。

2.有限隨機側(cè)面，即出現(xiàn)于研究中的水平是從有限全域中隨機抽取的側(cè)面。例如，某校將其僅有的5位高級英語教師作為一個評分員全域，某次試卷評閱中隨機抽取2名作為評分員，則評分員就是一個有限隨機側(cè)面（側(cè)面水平=2，全域水平=5）。

3.無限隨機側(cè)面，即出現(xiàn)于研究中的水平是從被視為無限大的全域中隨機抽取的側(cè)面。例如，英語教師可被視為一個無限大的全域，某次試卷評閱中隨機抽取5名作為評分員，則評分員就是一個無限隨機側(cè)面（側(cè)面水平=5，全域水平=Infinite）。

基于不同的抽樣方式獲得的研究結(jié)果，在適用范圍（概化）方面不同。例如，當評分員是一個固定側(cè)面時，研究結(jié)果在概化時，僅適用于同樣的評分員參與的測量；當評分員是隨機側(cè)面時，結(jié)果可以概化到隨機抽樣的全域中。側(cè)面的隨機性或固定性隨研究目的而定，研究者可以根據(jù)研究興趣進行雙向修改（將固定側(cè)面更改為隨機側(cè)面，或?qū)㈦S機側(cè)面更改為固定側(cè)面）。一個研究程序中可以同時容納固定側(cè)面與隨機側(cè)面（這樣的模型叫做混合模型）。

（四）測量設(shè)計。測量設(shè)計部分的任務(wù)是：確定哪些側(cè)面是區(qū)別側(cè)面，哪些是工具側(cè)面；確定測量是相對的，還是絕對的。

1.確定區(qū)別側(cè)面與工具側(cè)面。區(qū)別側(cè)面是研究的焦點或者研究對象。工具側(cè)面是完成測量需要依賴的各種條件因素。在教育研究中，一般情況下學生是區(qū)別側(cè)面，因為我們傾向于關(guān)注學生的成績數(shù)據(jù)是否可靠。其他因素大多視為工具側(cè)面，它們是為測量學生服務(wù)的。但是我們可以將區(qū)別側(cè)面和工具側(cè)面換位使用。例如，在一個由學生（S）、試題（T）和評分者（R）組成的交叉設(shè)計（STR）中，如果旨在考查學生的得分是否可靠，則學生為區(qū)別側(cè)面，其他因素為工具側(cè)面（表示為S/TR）；如果旨在檢查不同試題項目得分高低的穩(wěn)定性，則試題變成區(qū)別側(cè)面，學生和評分員變成工具側(cè)面（T/SR）；如果旨在檢查不同評分員給分差別的穩(wěn)定性，則評分員為區(qū)別側(cè)面，學生和試題變成工具側(cè)面（R/ST）。

2.確定測量是相對的還是絕對的。為了將個人（或研究目標）排名進行的測量叫做相對測量。例如競賽、拔尖、擇優(yōu)之類的測試均為相對測量，因為我們的目的是比較高低，鑒別優(yōu)差。為了了解個人（或研究目標）分數(shù)水平的測量叫做絕對測量。例如，目標測試、掌握性測試、學期測試、過級測試、畢業(yè)測試一般均作為絕對測量，因為我們傾向于關(guān)注個人成績是否達到某一合格線。絕對測量是一種更加精確的測量，不僅能區(qū)別名次，而且能鑒定個人分值是否達到合格線。概化分析中，相對測量和絕對測量的可靠度是依據(jù)不同的參數(shù)衡量的。

二、概化研究舉例

借助軟件進行概化研究非常簡便?，F(xiàn)以一套英語演講能力評定程序的導航研究為例，展示利用EduG進行概化分析的方法。

（一）問題描述。為了確定一套英語演講能力評定程序的可靠度，某學校進行了一個導航研究：隨機抽取10名初三學生作為被試，2名英語教師為評委，要求評委從語音、語法、詞匯、內(nèi)容四方面（能力維度），對被試的演講進行評價。每個維度均需在一個三級量表上打分：“差”記1分，“中”記2分，“優(yōu)”記3分。由于兩個評分員都要對四個維度進行打分，每個被試可以產(chǎn)生8個原始分數(shù)，最后需要以8個分數(shù)的平均值作為每個被試的綜合成績，并根據(jù)綜合成績將所有被試排名。表1是某個被試的得分樣例：

表1 被試不同能力維度得分樣例（平均2.375）

10名被試在各維度上的原始分數(shù)共計80個。試根據(jù)這些數(shù)據(jù)，利用概化理論分析該評分程序的可靠度。

（二）問題分析。

1.觀察設(shè)計。本例共有三個側(cè)面：學生（10個水平），評分員（2個水平），能力維度（4個水平）。因每個評分員均要對每個學生在每個維度上評分，三個側(cè)面的各個水平均有接觸，所以這是一個完全交叉設(shè)計：學生（S）評分員（R）能力維度（Q），或者SRQ。

2.估計設(shè)計。本例的被試學生和評分員是通過隨機程序抽取的，其全域可視為無限，這兩個側(cè)面均為為無限隨機側(cè)面。能力維度不是隨機抽取的，而是特意確定的，所以為固定側(cè)面，其全域水平為4。

3.測量設(shè)計。本例著重考查評定程序?qū)W生演講能力測量的可靠性，因此學生是區(qū)別側(cè)面（即研究對象），評分員和能力維度則構(gòu)成工具側(cè)面（測評的條件因素），這種關(guān)系可以表示為S/QR。由于演講比賽評分的目的是排名，測量是相對的。

（三）輸入程序指令。為了利用EduG軟件進行概化分析，需打開軟件，并在界面中按如下方式填寫指令（見圖1）。

圖1 概化分析指令界面

完成如上指令的具體步驟包括：

1.確定文件名稱與保存位置。運行軟件，依次點擊File 和New，在彈出的界面中填寫文件的存儲名稱和位置（本例名稱取“example1”，保存位置為F盤）。

2.打開文件，在界面中填寫相關(guān)指令。

●在Title后填寫文件的標題（這是分析報告中使用的標題，本例用Procedureforrankingspeakingability）；

●在Numberoffacets后選3，表示分析涉及三個側(cè)面；

●在Observation and estimation designs之下填寫各側(cè)面的英文名稱（Student,Rater,Quality），名稱的字母代碼（S,R,Q，代表三個側(cè)面處于完全交叉關(guān)系）。填寫各側(cè)面的水平（10,2, 4），各側(cè)面的全域容量（本例中學生和評分員來自無限全域，表示為INF；能力維度全域水平為4）；

●在Measurementdesign后填寫測量設(shè)計代碼（S/RQ，表示學生是區(qū)別側(cè)面，評分員和能力維度是構(gòu)成測評條件的工具側(cè)面）；

●在Reports下勾選RTF（表示輸出的結(jié)果以Word表格形式呈現(xiàn)）；

●其他選項保持默認值。

●插入數(shù)據(jù)。點擊Insertdata，選擇scores，即彈出數(shù)據(jù)錄入界面（見圖2）。第一列表示的是學生序號，第二列是評分員序號，第三列是能力維度序號。前三列是軟件根據(jù)觀察設(shè)計自動生成的，第四列是需要我們錄入數(shù)據(jù)的位置。一個學生要受兩個評分員在四個維度評價，故有8個原始數(shù)據(jù)，10個被試的原始數(shù)據(jù)共計80個，可以依次錄入表中。

圖2 數(shù)據(jù)錄入界面

（四）查看結(jié)果。錄入如上程序指令和數(shù)據(jù)后，點擊Compute，即可查看結(jié)果，主要包括如下部分。

1.哪些因素對學生的分數(shù)變化有較大影響？

表2 方差分析表

表2是輸出的方差分析結(jié)果。各列依次表示對被試得分具有潛在影響的因素（側(cè)面及其交互）、平方和、自由度、均方、隨機效果模型方差成分、混合效果模型方差成分、Whimbey’s矯正的方差成分、各矯正成分的百分比及各隨機效果模型方差成分的標準誤。跟據(jù)表2第一列和第八列可知，有三個因素對被試得分影響分量較重：

SRQ（學生、評分員和能力維度的交互作用）：51.7%

SR（學生和評分員的交互作用）：28.8%

S（學生）：16.1%

交互作用意味著，兩個評分員對不同學生的打分（SQ交互作用），以及兩個評分員對不同學生在不同能力維度上的打分（SQR交互作用）分歧較大。學生作為研究目標，對分數(shù)的影響僅有16.1%，沒有的達到足夠的分量。

2.研究結(jié)果是否可靠？在概化中，測量誤差源于那些側(cè)面？表3呈現(xiàn)的是概化研究表（G-StudyTable）。其中第一列是研究對象，即區(qū)別側(cè)面（本例是指學生），第二列是區(qū)別側(cè)面的方差（相當于經(jīng)典測量中真分數(shù)解釋的變異，這里可理解為“學生的能力可以解釋的得分變異”），第三列是潛在的誤差來源（注意：由于能力維度Q為固定側(cè)面，不存在隨機抽樣誤差，故該側(cè)面及其交互作用對測量誤差的影響為零），第四、五列為相對誤差方差及其百分比，第六、七列為絕對誤差方差及其百分比。各列數(shù)據(jù)是進一步計算可靠度系數(shù)的依據(jù)。

由于本例屬于相對測量，需要根據(jù)相對概化系數(shù)（Coef_Grelative），以及相對誤差方差判斷測量的可靠度與誤差根源。Coef_Grelative=0.53＜0.80，即相對概化系數(shù)沒有達到0.80這一慣用的臨界值，表明測量可靠度不夠理想。這里的0.53也意味著，在概化中，“真分數(shù)”能夠解釋的變異占53%，誤差能夠解釋的變異占47%。哪些因素導致了概化中的測量誤差？是SR，雖然其方差為0.07569，但因它是唯一的誤差源，故解釋全部誤差（100%）。

表3 概化研究表

（五）優(yōu)化設(shè)計方案。概化研究的特殊價值在于，它不僅能發(fā)現(xiàn)問題，而且能提供解決問題的方案。如何提高研究結(jié)果的可靠度？一般而言，可以通過增加隨機工具側(cè)面的抽樣水平，或者剔除固定工具側(cè)面中的不適宜水平，來達到提高測量結(jié)果可靠度的目的。

1.剔除固定工具側(cè)面中的不適宜水平。剔除固定工具側(cè)面中之不適宜水平的理論依據(jù)是，固定工具側(cè)面中的某些水平缺乏效度，會增加測量誤差。本例中能力（Q）為固定工具側(cè)面，其四個水平依次為語音、語法、詞匯和內(nèi)容。利用EduG中的G-Facetsanalysis，便可探明本側(cè)面哪一水平刪除后能夠提升相對概化系數(shù)。步驟為：

（1）勾選G-Facetsanalysis（G側(cè)面分析）；

（2）在彈出對話框內(nèi)勾選Q并點擊OK;

（3）點擊Compute并觀察輸出結(jié)果。

表4G側(cè)面分析結(jié)果

表4呈現(xiàn)的是G側(cè)面分析結(jié)果。表中第三欄是刪除能力側(cè)面某一水平后相對概化系數(shù)（Coef_Grel.）可以達到的新高度。顯而易見，刪除水平二（Level2,即語法），可以將相對概化系數(shù)最大幅度提高（達到0.68725）。可以推論，語法作為一個評定維度，會增加學生與評分員的交互作用（SR），擴大測量誤差。刪除語法項將有助于優(yōu)化測量程序，提高結(jié)果的可靠度。

2.增加隨機工具側(cè)面的抽樣水平。凡是以樣本代表總體的研究，樣本量越大結(jié)果越準確。這是通過增加隨機工具側(cè)面之抽樣水平，以提高測量結(jié)果的原理。本例評分員（R）為隨機工具側(cè)面，借助EduG可以探明，如何在可操作的范圍內(nèi)適當增加其水平以獲得可靠測量結(jié)果。由于剔除能力維度之水平二（語法），可以提高結(jié)果可靠度，在增加評分員時可以將剔除能力維度水平二作為并列條件。分析步驟如下：

（1）指定剔除能力維度二為并行條件（在Observationand estimationdesigns中Quality一行最后一個方框內(nèi)點擊，在彈出對話框內(nèi)選2，點擊OK。結(jié)果見圖3）；

圖3 剔除能力維度二后的觀測與估計設(shè)計界面

（2）改變評分員抽樣水平數(shù)（勾選Optimization，在彈出對話框中輸入如圖4的內(nèi)容，注意在五中優(yōu)化方案中，將R的觀察水平依次更改為3,4,5,6,7，點擊OK）;

圖4 優(yōu)化方案界面

(3)點擊Compute觀察輸出結(jié)果。表5是輸出的優(yōu)化方案。表中顯示了不同優(yōu)化方案下的結(jié)果（絕對概化系數(shù)、誤差方差、測量標準誤等冗余數(shù)據(jù)略去）。根據(jù)相對概化系數(shù)的變化可知，評分員越多，系數(shù)越高。要達到可接受水平（系數(shù)大于或等于0.80）[7](P117-123)，至少需要4位評分員（即Option2，相對信度為0.81464）。

表5 優(yōu)化方案分析表

總之，剔除一個評分維度（語法），額外增加兩個評分員（達到4個），便可預期測量程序達到可靠評價學生能力的目的。但是，也有一個前提條件，在測量程序的實際推廣應用中，隨機抽取的評分員或者受試學生，必須與導航研究中涉及的人員具有類似性。否則，導航研究結(jié)果便失去推廣的基礎(chǔ)。

三、結(jié)語

概化理論是將方差分析與傳統(tǒng)的真分數(shù)理論整合發(fā)展而來的信度理論。借助概化研究分析，我們不僅能夠了解不同因素對測量結(jié)果和測量準確度的影響，評價測量程序的信度，判斷結(jié)果的可靠度，也可以找到測量程序的優(yōu)化方案，進而獲得滿意的結(jié)果。本研究借助具體案例，介紹了概化分析軟件EduG的使用方法。由于篇幅有限，只能展示部分基本用法，希望對中小學英語教育測量有益。

[1]ShavelsonRJ,WebbNM.Generalizabilitytheory:Aprimer [M].SagePublications,1991.

[2]Cronbach.L.J,Rajaratnam,N,&Gleser,GC.Theory of generalizability:A liberalization of reliability theory[J].British JournalofMathematicalandStatisticalPsychology,1963(2).

[3]AmericanEducationResearchAssociation(AERA),American Psychological Association (APA),National Council on MeasurementinEducation(NCME).StandardsforEducationand PsychologyTesting[M].WashingtonDC:AmericanPsychological Association,1999.

[4]徐鷹，曾用強.基于概化理論和多層面Rasch模型的計算機化英語聽說考試評分研究[J].電化教育研究,2015(3).

[5]孫海洋，韓寶成.概化理論在口語考試設(shè)計中的應用研究[J].外語教學，2011(11).

[6]張英莉，姚春艷.初中英語口語測試信度的概化理論應用研究[J].教育測量與評價(理論版),2014（2）.

[7]靳雪蓮，滕金生，楊德山.網(wǎng)絡(luò)論壇公共事務(wù)討論語言的修辭特征和成因[J].重慶郵電大學學報(社會科學版)，2014（5）.

[責任編輯劉金榮]

H319

2095-0438（2017）02-0119-05

2015-10-15

王天劍（1968-），河南南陽人，貴州財經(jīng)大學教授，博士，碩士生導師，研究方向：應用語言學。

貴州省科學技術(shù)廳貴州財經(jīng)大學軟科學研究聯(lián)合基金資助項目（黔科合LH字[2014]7262）。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

概化理論在中小學英語測試研究中的應用

一、概化分析的基本概念

二、概化研究舉例

三、結(jié)語

三、結(jié)語