国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于多元概化理論的英語聽說考試信度效度研究

2018-08-14 07:27:42劉燕王華
長治學院學報 2018年3期
關鍵詞:概化信度方差

劉燕,王華

(1.山西大學商務學院 外語系,山西 太原 030031;2.山西大學 外語學院,山西 太原 030006)

一、引言

任何語言測試在本質上都是一個抽樣過程,抽樣必然帶來樣本的概化問題[1],即從抽取的樣本得出的結論在多大程度上可以推論到全域中(universe domain)。Messick[2]認為概化性是構念效度的一個重要組成部分,可以從兩個層面去理解。第一,概化性涉及信度問題(reliability),即對考生能力的推論在多大程度上可以概化到不同的任務、不同的群體、不同的評分員等情況下;第二牽涉遷移問題(transfer),即考生在測量更廣闊構念任務上表現(xiàn)的一致性問題。概化理論[3]為分析語言行為測試的概化性提供了很好的分析框架。正如Schoonen[4]和McNamara[1]指出,概化理論不僅可以估算語言行為測試的信度,而且還可以為不同任務提供聚合效度方面的證據(jù)。本研究將使用多元概化理論分析聽說考試的信度和不同任務聚合效度方面的證據(jù)。

二、相關研究

概化理論是在經典測試理論和方差分析的基礎上,由Cronbach及其同事在上世紀70年代提出,經Brennan等逐步完善的測量理論。概化理論應用分為概化研究階段和決策研究階段。在概化研究階段,概化理論估算出不同測量側面(facet)及他們之間的交互作用的方差分量。在決策研究階段,這些方差分量則可被用于不同的測量情景中,估算不同測量條件下信度指標,如概化系數(shù)(generalizability coefficent)、可靠指數(shù)(phi index)和側寫差異性(profile variability)指數(shù)(g^ 值)。

隨著GENOVA,EduG等概化理論測試軟件的開發(fā)和不斷完善,概化理論被廣泛地應用到研究測試的信度和效度上。Gebril[5],Lee[6],Lee&Kantor[7],Sawaki[8],Schoonen[9],Xi[10]等利用概化理論對語言行為測試進行研究。他們的研究不僅表明概化理論可以分析信度,分析不同測量側面組合對信度的影響,也能提供不同任務聚合效度方面的證據(jù)。在國內,運用概化理論對語言行為測試進行分析的研究相對比較少,如李航[11],孫海洋[12],趙向民和王占禮[13],而且這些研究基本上都是只用單元概化理論進行信度分析。即使使用了多元概化理論,如羅娟和肖云南[14],汪順玉和席仲恩[15],他們的分析也是停留在信度分析的層面。

在多元概化理論中,一個測試被看成是由v個測量不同構念的部分組成,這v個部分被當成是固定側面(fixed facet)。在概化分析中,這v個部分不能發(fā)生變化,能發(fā)生變化的是每個部分中的測量側面的數(shù)量,如題目、評分員等的數(shù)量。不同于單元概化理論,多元概化理論可以同時估算每一部分中測量側面以及他們之間的交互作用的方差和協(xié)方差。其次,多元概化理論可以估算每一部分在域分數(shù)上之間相關系數(shù),這為分析不同部分是否測量相似的構念提供數(shù)據(jù)支持,也為能否合理的合成一個總分提供了基礎。在合成總分時,每一部分的權重可能不同,這個權重通常是由考試開發(fā)者設定,稱之為名義權重。但不同部分的名義權重對考生能力方差的實際貢獻是否和考試開發(fā)者預期的一樣呢?多元概化理論的另一個優(yōu)勢在于,可以估算每一部分的效應權重,即不同部分對考生能力方差的實際貢獻率?;趪鴥痊F(xiàn)有研究不足和多元概化理論的優(yōu)勢,本研究將回答以下三個問題:

1)聽說考試評分的信度如何?如果將評分員從1名增加到4名,評分的信度將如何變化?

2)聽說考試三個任務在域分數(shù)上的相關度如何,是否支持這三個任務測試的是相似構念?

3)聽說考試三個任務對總分方差的實際貢獻率是否和考試開發(fā)者預期的一樣?如果改變名義權重,對考試的信度有何影響?

三、研究方法

(一)被試

本研究的被試包括455名學生和6名評分員。這455名學生中,男生171名,女生284名,他們的年齡介于17至20歲之間。六名評分員中,男女各3名,他們均多次參加過口語考試閱卷。

(二)實驗材料

本研究采用的聽說考試共有三個任務組成:第一個任務是模仿朗讀;第二個任務是角色扮演;第三個任務是故事復述。

(三)評分

這六名評分員被分成三組(每組男女各一名),每組負責一個任務的評分。在評分之前,每一組都詳細分析討論了各自任務的評分標準,在對評分標準達成共識后,每一組都試評了15份(這15份不包括在最后分析的455份考生錄音)各個分數(shù)檔的考生錄音。對于評分不一致的樣本,評分員都進行分析和討論,最終他們對評分標準的把握達成了基本共識和一致。

(四)數(shù)據(jù)分析

數(shù)據(jù)分析使用的是多元概化理論分析軟件mGENOVA2.1[3]。英語聽說考試由3個部分組成,但每個部分只有一個任務,理論上這樣的組合不適合使用多元概化理論分析,如果使用的是整體評分法。由于聽說考試每一部分使用的都是分項評分法,這使得可以使用多元概化理論進行分析,但只能將不同的評分維度看成固定側面。這樣的研究設計存在其不足之處,即在決策研究階段,無法估算任務數(shù)量的增加是否會影響信度。多元概化理論分析最理想的分析模式是考生(p)、評分維度(d)和評分員(r)的完全交叉模式(p x d x r)。本研究使用了6名評分員,每名評分員都嵌套在某個任務中,實際上本研究的設計模式是p x(r:d)。但這樣的模式在mGENOVA2.1無法運行,因此本研究將6名評分員對三個任務的評分看成是兩個評分員對三個任務的雙評,這樣本研究就成了考生(p)、評分維度(d)和評分(r’)的完全交叉模式(p x d x r’)。這種做法在很多概化研究中都被采用(如Lee[6];Sawaki[8])。

四、結果和討論

(一)聽說考試的信度

1.方差估算

多元概化理論在概化研究階段分別估算了模仿朗讀、角色扮演和故事復述三任務中考生、評分維度、評分、考生和評分維度交互、考生和評分交互、評分維度和評分交互以及考生、評分維度、評分三者交互和隨機誤差這七個方面的方差以及它們占各自方差總量的百分比。如表1所示,在聽說考試三個任務中,占方差比重最大的都是考生,分別解釋了各自方差總量的44.5%、49.1%和51.1%。這說明聽說考試中,考生分數(shù)之間的差異主要是由考生的能力造成,即聽說考試能很好地將考生能力區(qū)分開來,這也是聽說考試期望的結果。除了故事復述任務外,考生和評分維度之間的交互是第二大方差來源,分別占模仿朗讀和角色扮演方差總量的24.0%和35.7%,這說明不同評分維度對考生排序存在較大差異。本研究將角色扮演任務總分分成問題分和答題分兩部分,這兩部分分相當于模仿朗讀和故事復述任務中的分項分??忌驮u分維度之間的交互方差較大說明考生在問題和答題部分的排序不同。在故事復述部分,考生和評分維度之間的交互雖然不是第二大方差來源,但它也占方差總量的12.5%,這表明考生在信息點得分和綜合得分上的排序也存在著一定的差異。需要注意的是,在故事復述部分,方差的第二大來源是評分維度,占方差總量的23.9%,這意味著故事復述兩個評分維度在難度上存在著較大差異,也就是說,考生在這兩個評分維度上得分的容易程度不同。在模仿朗讀和角色扮演中,第三大方差來源是考生、評分維度、評分的交互和隨機誤差,分別占方差總量的15.2%和10.3%,這說明有相當一部分考生在評分維度和評分交互上排序出現(xiàn)不一致,或者這說明在模仿朗讀和角色扮演中有相當一部分無法解釋的隨機誤差。相對而言,在故事復述中,考生、評分維度、評分的交互和隨機誤差占方差總量比重較少,只占6.9%。這說明考生在評分維度和評分交互上排序基本一致,或者可能是故事復述任務隨機誤差較小。在模仿朗讀和角色扮演中,第四大方差來源都是評分維度,分別占8.4%和2.7%,不過它們占各自方差總量的比重差距較大。評分維度占模仿朗讀方差總量的8.4%說明在模仿朗讀中,考生在語音語調和語速兩個分項分上得分的容易程度不同。但在語音語調和語速上得分的容易程度跟在故事復述中信息點得分和綜合得分的難易度比起來,這種容易度要小很多。評分維度占角色扮演方差總量的2.7%說明在問題和答題在難度上存在差異,但這種差異非常的小。在聽說考試的三部分中,評分所占的方差都比較小,分別占5.2%、1.6%和0.6%,這說明每一組評分員之間的嚴厲度基本接近。但需要指出的是,在模仿朗讀中,評分所占方差稍高,這說明在這個部分評分時,評分員之間還是存在一定的差異。考生和評分之間的交互在模仿朗讀和角色扮演任務中所占的方差幾乎可以忽略,分別占0%和0.5%,這說明在這兩個任務中,評分員對考生的排序基本完全一致。但考生和評分之間的交互在故事復述任務中,占方差總量的4.4%,這表明評分員在故事復述任務中對考生能力的排序存在著一定的差異,但這種差異不是很大。

表1 概化研究方差估算

2.信度指標

在多元概化理論的決策研究階段,我們分別估算信度指標在模仿朗讀、角色扮演、故事復述三個任務以及總分上的變化跟評分員數(shù)量與之間的關系。Brennan[3]以及Xi[10]指出,在多元概化理論中,概化系數(shù)、可靠指數(shù)以及表示考生側寫差異性的g^值是表示信度的重要指標。概化系數(shù)是對考生相對排序的信度指標,一般用作制定相對決策的常模參照測驗,而可靠指數(shù)是對考生絕對排序的信度指標,多用于制定絕對決策的尺度參照測驗。在計算概化系數(shù)時,使用測量對象的方差和測量對象和其他測量側面的交互作用所產生的誤差作為分母,而在計算可靠指數(shù)時,使用測量對象的方差和其他所有的誤差作為分母,因此,概化系數(shù)總是大于可靠指數(shù)。g^值是對考生在側寫上相對平整度(the relative flatness)的估算,它的值越大,說明考生域分數(shù)方差占考生觀察到的分數(shù)方差的比重越大。也就是說,g^值越大,越說明在考生的分數(shù)中考生能力占的比重越大,分數(shù)的誤差越小。這三個指標的取值都在0和1之間。

表2 信度指標估算

從表2可以看出,當只有一個評分員時,在模仿朗讀、角色扮演和故事復述三個任務中,概化系數(shù)分別為0.69、0.68和0.78,雖然在模仿朗讀、角色扮演概化系數(shù)未達到0.7,但都非常接近0.7(在語言測試界,通常信度指標達到0.7才被認為是可以接受的,見Green[17],2013)。這三個任務的可靠指數(shù)分別為0.59、0.65和0.66,均未達到0.7。雖然三個任務各自的概化系數(shù)和可靠指數(shù)相對比較低,但總分的概化系數(shù)、可靠指數(shù)和值卻相對比較高,分別為0.88、0.82和0.81。這說明從總分上看,英語聽說考試的信度非常好。同等情況下,總分這樣的信度指標甚至比新托??谡Z考試的指標都高,托??偡值母呕禂?shù)和可靠指數(shù)分別為0.78和0.78[6]。即使從單個任務來看,每個任務的信度還是相當不錯的,因為英語聽說考試是常模參照性考試,我們只需要參考概化系數(shù)。

當兩個評分員評分時,每一個信度指標,不管是每一個任務的概化系數(shù)和可靠指數(shù),還是總分的概化系數(shù)、可靠指數(shù)和值都有了相對較大的提高,提高的幅度分布在0.02和0.07之間,提高幅度的均值為0.04。但當把評分員人數(shù)從2個增加到3個,從3個增加到4個的時候,信度指標提高的幅度明顯降低,尤其是把評分員人數(shù)從3個增加到4個的時候,提高幅度的均值只有0.01。這樣的研究結果得到很多使用概化理論分析信度研究的支持(Lee[7];羅娟和肖云南[15];李航[11])。隨著評分員人數(shù)的增加,信度指標提高的幅度會逐漸降低,提高幅度最大的是當把評分員人數(shù)從1個增加到2個的時候。

(二)域分數(shù)上三個任務的相關性

任何測量都是有誤差的,如果使用有誤差的分數(shù)進行相關分析,無形中會增大或者減小事物間相關系數(shù),導致無法準確地估計事物之間的相關性。多元概化理論可以剔除由測量帶來的誤差,估算考生的真分數(shù),概化理論稱之為域分數(shù)。如表3所示,在聽說考試中,模仿朗讀和角色扮演、模仿朗讀和故事復述、角色扮演和故事復述在域分數(shù)上的相關系數(shù)分別為0.87、0.76和0.99。角色扮演和故事復述在域分數(shù)上近乎完美的相關(0.99)說明這兩個任務實際測量的構念非常接近,盡管兩個任務考察的形式不同。雖然模仿朗讀和角色扮演在理論上測量的構念不同,但它們之間較高的相關系數(shù)(0.87)說明兩部分可能實際上測量的構念比較接近,另一個可能的原因是語音語調好的考生在聽力理解和口語表達能力方面也比較高。模仿朗讀和故事復述在域分數(shù)上相關系數(shù)(0.76)相對較低,這可能是由于模仿朗讀所測的構念只是故事復述任務所測構念的一部分。

表3 域分數(shù)相關性

(三)效應權重

Brennan[3]指出合成總分效應權重受三個因素的影響:名義權重,域分數(shù)方差以及域分數(shù)協(xié)方差(covariance)。表4列出了聽說考試三個任務的名義權重和效應權重,從表4中可以看出,故事復述任務占合成總分域分數(shù)方差的50.88%,大于其名義權重。角色扮演任務占合成總分域分數(shù)方差的比重為24.03%,比較接近其名義權重,而模仿朗讀占25.09%,低于其名義權重。這說明,故事任務最能區(qū)分考生的能力,而且占總分域分數(shù)方差的一半還多。在現(xiàn)有名義權重下,模仿朗讀和角色扮演兩個任務的對總分域分數(shù)方差的貢獻率基本一致。如果考試開發(fā)者期望強調某一任務,可以改變其名義權重,但改變名義權重會改變總分的信度。Kane&Case[18]在研究不同名義權重對測試信度和效度影響時指出,如果給與信度較高部分較大的名義權重,總分的信度將會提高,到達某個點前,也會提高效度。但如果給與信度較高部分過大的名義權重,將會降低總分的效度。從表2可以看出,信度最高的是故事復述任務,如果改變故事復述任務的名義權重,總分的概化系數(shù)是否跟Kane&Case預測的一樣呢?表5列出了三種名義權重下總分的概化系數(shù),從表中可以看出,現(xiàn)有名義權重下,總分的概化系數(shù)是最高的。從總分的信度來看,這說明現(xiàn)有名義權重是最優(yōu)組合。這從一個側面說明聽說考試設計的科學性。

表4 聽說考試名義權重和效應權重

表5 不同名義權重下總分的概化系數(shù)變化

五、結束語

本研究運用多元概化理論分析了6名評分員對455名學生在聽說考試上表現(xiàn)的評分結果。總體來說,本研究發(fā)現(xiàn)英語聽說考試具有較高的信度,三個任務在域分數(shù)上相關度較高說明這三個任務測試的構念比較接近,支持將三部分合成總分報告給考生,現(xiàn)有名義權重的組合研究也說明聽說考試能最大限度地提高信度和效度。本研究也發(fā)現(xiàn)了一些值得今后深入分析的地方。在故事復述任務中,方差的第二大來源是評分維度,這說明考生在這兩個評分維度上得分的容易程度不同。這可能需要對這兩個評分維度進行進一步的分析,發(fā)現(xiàn)存在差異的原因。在模仿朗讀中,評分所占方差稍高,這說明在這個部分評分時,評分員之間還是存在一定的差異,需要進一步分析,這種差異是評分員自身的原因還是評分標準的問題。

猜你喜歡
概化信度方差
方差怎么算
《廣東地區(qū)兒童中醫(yī)體質辨識量表》的信度和效度研究
概率與統(tǒng)計(2)——離散型隨機變量的期望與方差
計算方差用哪個公式
方差生活秀
基于MIKE21二維數(shù)值模擬的不同橋墩概化方式下河道壅水計算結果對比分析
科技成果評價的信度分析及模型優(yōu)化
體育社會調查問卷信度檢驗的方法學探索——基于中文核心體育期刊163篇文章分析
結構化面試中多源變異的概化分析
心理學探新(2015年4期)2015-12-10 12:54:02
中文版腦性癱瘓兒童生活質量問卷的信度
上虞市| 玉山县| 二连浩特市| 乐清市| 恩施市| 株洲县| 乌拉特中旗| 彰化县| 商河县| 泽普县| 女性| 磐安县| 兴仁县| 米泉市| 准格尔旗| 正安县| 巴青县| 兰州市| 达州市| 盐亭县| 平江县| 淮滨县| 海城市| 玉田县| 普兰县| 新邵县| 正镶白旗| 伽师县| 招远市| 黄平县| 喀喇沁旗| 耒阳市| 华宁县| 土默特右旗| 广南县| 长阳| 灵璧县| 崇州市| 武城县| 宜阳县| 虹口区|