李亞男 王艾琳 王之嶺
[關(guān)鍵詞] 《國際中文教師證書》面試;多側(cè)面Rasch模型;信度
[摘 要] 面試是一種廣泛應(yīng)用的評價技術(shù),面試的成績受多方面影響。多側(cè)面Rasch模型(MFRM)可對影響成績的多個側(cè)面(參數(shù))進(jìn)行分析,因而適用于面試的信度研究。本文對2019年某次《國際中文教師證書》面試中12位考官給128位考生在5個打分項(xiàng)上的分?jǐn)?shù)進(jìn)行了MFRM分析,研究發(fā)現(xiàn):考官在面試打分過程中能夠有效區(qū)分不同水平的考生;考官打分寬嚴(yán)度雖存在顯著差異,但對考生打分不會產(chǎn)生決定性影響;考官自身打分一致性總體上處在可接受的范圍,但也存在一定程度的趨中現(xiàn)象;考官在不同打分項(xiàng)上給出的分?jǐn)?shù)存在顯著差異,在“試講”這一打分項(xiàng)上打分最嚴(yán)。
0. 引言
面試是一種人員評價技術(shù),其考察方式直觀、靈活,具有良好的效度,因而被廣泛應(yīng)用于各類人才選拔。吳志明等(1997)將面試定義為評委通過與考生面對面的交談,或?qū)⒑笳咧糜谝欢ㄇ榫持羞M(jìn)行觀察,從而了解、考察考生是否滿足條件要求的一種人員評價技術(shù)。面試評價的過程是復(fù)雜而間接的:首先應(yīng)試者對測量潛在知識結(jié)構(gòu)或技能的項(xiàng)目或任務(wù)做出回答;然后評分者根據(jù)評分標(biāo)準(zhǔn),按照對潛在結(jié)構(gòu)的理解,對應(yīng)試者的表現(xiàn)做出評價;最后,根據(jù)評分者的評分估計考生的能力(丁樹良,羅芬,涂東波等,2012)。因而,面試成績將受到評分者(考官)、試題(打分項(xiàng))、評分標(biāo)準(zhǔn)等多種因素的影響,對測試信效度提出了更高的要求。
本研究使用多側(cè)面Rasch模型對某次《國際中文教師證書》面試考官的打分?jǐn)?shù)據(jù)進(jìn)行分析,試圖探究:考官在面試過程中能否有效區(qū)分考生能力?打分寬嚴(yán)度、評分標(biāo)準(zhǔn)、考試時間等因素對考官打出的分?jǐn)?shù)會產(chǎn)生什么影響?這些影響考試信度的各因素之間是否有交互作用?希望通過以上問題的分析結(jié)果,為考官培訓(xùn)和考試改進(jìn)等提供一點(diǎn)建議。
1. 研究背景
1.1《國際中文教師證書》面試
《國際中文教師證書》考試是由教育部中外語言交流合作中心主辦的一項(xiàng)標(biāo)準(zhǔn)化考試??荚囃ㄟ^對中文教學(xué)基礎(chǔ)、中文教學(xué)方法、教學(xué)組織與課堂管理、中華文化與跨文化交際、職業(yè)道德與專業(yè)發(fā)展等五個方面的考查,評價考生是否具備國際中文教師能力??荚嚢üP試和面試兩部分,筆試成績合格者方能報名參加面試。筆試、面試均合格者,可獲得證書。
面試著重考查考生綜合運(yùn)用各種方法設(shè)計教學(xué)方案、組織實(shí)施教學(xué)過程、完成教學(xué)任務(wù)以及用外語輔助教學(xué)的能力,同時考查考生的溝通交際、心理素質(zhì)、教姿教態(tài)等基本職業(yè)素養(yǎng)。面試采用結(jié)構(gòu)化面試和情景模擬相結(jié)合的方法,考生經(jīng)過30分鐘的準(zhǔn)備后,需在25分鐘內(nèi),根據(jù)試卷內(nèi)容進(jìn)行說課、試講,并回答考官提出的問題。
面試采取考官小組評分的方式,每小組由三名考官組成,分別為主考官、考官和外語考官。所有考官均為具有多年教學(xué)經(jīng)驗(yàn)、副教授以上職稱或博士以上學(xué)歷的高校教師,均參加過考前培訓(xùn)并通過了考核。面試過程中,考官小組按照統(tǒng)一的指導(dǎo)語、時間安排和標(biāo)準(zhǔn)化流程,根據(jù)試卷內(nèi)容對考生進(jìn)行提問,在“說課”“試講”“中文問答”“外語水平”和“總體印象”等5個打分項(xiàng)上給考生表現(xiàn)進(jìn)行打分。
1.2 多側(cè)面Rasch模型
在一項(xiàng)面試中,為提高考試信度,開發(fā)者會使用多種方式,如隨機(jī)匹配考生和考試題目、對考官進(jìn)行考前培訓(xùn)、對同一考生進(jìn)行多考官評分、報告成績?nèi)《嗫脊倬档?。研究結(jié)果表明,經(jīng)過培訓(xùn),考官評分的內(nèi)部一致性①會有所提升,但仍存在顯著的寬嚴(yán)度②差異(丁樹良,羅芬,涂東波等,2012;Weigle, 1998)。評分過程中,會產(chǎn)生一些考官效應(yīng),如趨中效應(yīng)③、光環(huán)效應(yīng)④及偏差⑤等(范鵬,2017;劉耀中,2009;張潔,2014;Myford & Wolfe,2003;Myford & Wolfe,2004)。因而,要提高面試的信度,就要對這些影響因素進(jìn)行研究和處理。
多側(cè)面Rasch模型(Many-Facet Rasch Model,以下簡稱MFRM),最早由Linacre在1989年提出,是單參數(shù)Rasch模型的延伸。單參數(shù)Rasch模型處理的測驗(yàn)情境中,只有被試特質(zhì)參數(shù)和項(xiàng)目難度參數(shù)。而在面試中,考生在題目上得到某一特定分值的概率,不僅取決于考生自身能力的高低和題目難度的大小,也受到考官對評分標(biāo)準(zhǔn)的理解程度和評分寬嚴(yán)程度等因素的影響。MFRM在單參數(shù)Rasch模型基礎(chǔ)上,引入了更多可能對考試成績產(chǎn)生影響的參數(shù)(也叫側(cè)面),如考官特質(zhì)、評分標(biāo)準(zhǔn)等,因而更適用于面試的信度研究。
MFRM在分析某個側(cè)面對考試成績的影響時,能夠剔除其他因素的影響,將此側(cè)面的影響單獨(dú)剝離出來,從而可以使研究者更好地理解每個側(cè)面對考試成績是如何產(chǎn)生影響的。在進(jìn)行MFRM分析時,所有側(cè)面的相關(guān)數(shù)據(jù)都會通過線性邏輯斯蒂克方程轉(zhuǎn)換到一個量表模型(scaling model)上,因而其估計出來的側(cè)面值(如考生能力值、考官寬嚴(yán)度)是在一個等距量表上的,每個側(cè)面值擁有相同的單位,可以相互比較。另外,MFRM還可以通過偏差/交互分析(Bias/Interaction Analysis)偵測各因素之間可能存在的交互效應(yīng),進(jìn)而探究某個側(cè)面在不同情境下對考試成績的影響模式,如考官給不同性別的考生打分時的寬嚴(yán)程度變化。這將有助于提高考試的信度,讓決策更加公平。
2. 研究方法
2.1 數(shù)據(jù)來源
MFRM分析要求相互比較的個體之間存在聯(lián)結(jié)(Linacre,2012)。在本研究中,我們以不同評分小組中的同一考官作為聯(lián)結(jié)點(diǎn),選取同一考官給不同考生的打分?jǐn)?shù)據(jù),以達(dá)到比較多位考官、考生的目的。數(shù)據(jù)來源于2019年的某次面試,通過以共同考官為聯(lián)結(jié)點(diǎn)的方式,抽取了符合MFRM分析要求的12位考官的打分?jǐn)?shù)據(jù),由這12位考官打分的考生共有128位,考官打分?jǐn)?shù)據(jù)包括說課分、試講分、中文問答分、外語水平分和總體印象分共5項(xiàng)??脊侔搭愋头譃橹骺脊?人(編號為1A、2A、3A、4A)、考官4人(編號為1B、2B、3B、4B)、外語考官4人(編號為1C、2C、3C、4C),考生編號為1至128號。12位考官平均教齡為21.83年(SD=7.95),其中11位女性,1位男性。128位考生中包括女性115人,男性13人。抽取方案如表1所示,每一組考官都與其他組考官存在一個或以上的相同考官,如通過主考官3A,考官3A、4B、4C、1B、3C等5位考官可以相互比較,考生1-30號與45-58號共44位考生也可以相互比較。另外,一次面試通常會持續(xù)兩到四天,考生是按事先抽簽決定的時間段(批次)參加考試的,考官可以選擇參加一天或者多天的面試,每天的面試時間約8小時(上午4小時,下午4小時),考慮到工作時長可能對打分產(chǎn)生些許影響,我們在收集數(shù)據(jù)時也收集了考官打分?jǐn)?shù)據(jù)產(chǎn)生的時間。
2.2 數(shù)據(jù)處理
要探究面試過程中考官能否有效區(qū)分考生能力這一問題,在MFRM分析前我們定義了三個側(cè)面,首先是“考生”側(cè)面,每位考生會得到三位考官在五個打分項(xiàng)上給出的分?jǐn)?shù),通過這些分?jǐn)?shù)可估計出考生能力值;第二個側(cè)面是“考官”,每位考官在面試過程中會給多位考生打分,通過分析考官打出的所有分?jǐn)?shù),可得出每位考官自身的打分一致性、考官之間打分一致性、是否存在光環(huán)效應(yīng)、以及不同考官之間的打分寬嚴(yán)差異;第三個側(cè)面是“打分項(xiàng)”,考官會在說課、試講、中文問答、外語水平和總體印象這五個打分項(xiàng)上給出分?jǐn)?shù),通過分析每個打分項(xiàng)上所有考官給出的分?jǐn)?shù),可以得到不同打分項(xiàng)的難易度(考官打分高低)。
將上述三個側(cè)面的數(shù)據(jù)進(jìn)行估值和模型建立,用到的計算公式如下:
目前,研究者在MFRM分析時使用較多的統(tǒng)計軟件是Facets,本研究使用的是Facets 3.83.2① (Linacre,2020)。
3. 研究結(jié)果與討論
本研究的結(jié)果分析和討論主要從以下三個方面展開:一為總體分析,即三個側(cè)面的總體分布情況,是數(shù)據(jù)的可視化、總結(jié)性表達(dá);二為分側(cè)面分析,分別從考生、考官、打分項(xiàng)三個側(cè)面,進(jìn)行側(cè)面內(nèi)的分析和討論;三為交互分析,分析各個側(cè)面之間的交互關(guān)系和不同情境對考官打分寬嚴(yán)度的影響。
數(shù)據(jù)分析結(jié)果包括兩個主要部分:個體統(tǒng)計量和層面統(tǒng)計量。個體統(tǒng)計量主要包括度量值(measure)、擬合統(tǒng)計量(fit statistics)和擬合統(tǒng)計量轉(zhuǎn)化而來的標(biāo)準(zhǔn)Z值(Z standard)。層面統(tǒng)計量主要包括分隔系數(shù)(Separation)、信度(Reliability)、層度系數(shù)(Stara)和卡方檢驗(yàn)(chi-square)。除此之外,在考官側(cè)面,還用到了評分者間一致性系數(shù)(Inter-rater)進(jìn)行考官間一致性的分析。
3.1 總體分析
總體分析主要說明本研究定義的三個側(cè)面在統(tǒng)一量表上的分布情況。如圖1所示,第一列的“Measr”代表的是MFRM分析的度量值(measure),單位是“l(fā)ogits”,它是三個側(cè)面的共同標(biāo)準(zhǔn),每個側(cè)面中的個體(如考生127號、考官3B)都在這個統(tǒng)一量尺上有確定的值??忌鷤?cè)面的度量值代表考生的能力值,考官側(cè)面的度量值代表考官的打分寬嚴(yán)度,打分項(xiàng)側(cè)面的度量值代表打分項(xiàng)得分的難易度,也就是考官在這一打分項(xiàng)上給出分?jǐn)?shù)的高低。每個側(cè)面在MFRM分析中是有方向性的,可以正向發(fā)揮作用(用 “+”號表示),也可以反向發(fā)揮作用(用“-”號表示)。在教育領(lǐng)域中,通常的慣例是“能力為正向,其他方面為反向”(Linacre,2012)。據(jù)此,本研究中的考生側(cè)面是正向的,考官和打分項(xiàng)這兩個側(cè)面是反向的。
考生能力值由大到小自上而下排列,位于最上方的127號考生能力值最高,位于最下方的84號考生能力值最低,考生的能力基本呈正態(tài)分布??脊俅蚍謱拠?yán)度由嚴(yán)至寬自上而下排列,考官3B位于最上方,說明他在評分過程中最為嚴(yán)厲,給考生的打分最低;考官1A和1C位于最下方,說明他們在評分過程中最為寬松,給考生打分最高。打分項(xiàng)根據(jù)考官給出的分?jǐn)?shù)由低至高排列,“試講”位于最上方,說明這一打分項(xiàng)最難,考官打分最嚴(yán)格,給出的分?jǐn)?shù)最低;“總體印象”位于最下方,說明這一打分項(xiàng)最容易,考官打分最寬松,給出的分?jǐn)?shù)最高。
3.2 分側(cè)面分析
分側(cè)面分析主要說明本研究定義的每一個側(cè)面的內(nèi)部情況,主要包括側(cè)面內(nèi)個體的度量值、個體的擬合統(tǒng)計量、每個側(cè)面的層面統(tǒng)計量。在考官側(cè)面,還包括評分者間一致性系數(shù)。分側(cè)面將用到以下幾個指標(biāo)進(jìn)行分析。
擬合統(tǒng)計量用于分析各側(cè)面中的每個個體與模型之間的擬合程度。MFRM使用均方擬合統(tǒng)計量(Chi-square fit statistics)和標(biāo)準(zhǔn)Z值(ZStd)來表示數(shù)據(jù)和模型的擬合程度。擬合統(tǒng)計量包括加權(quán)均方擬合統(tǒng)計量(Infit Mnsq)和未加權(quán)均方擬合統(tǒng)計量(Outfit Mnsq),因后者更易受到個別值的影響,一般以前者作為判斷個體是否擬合模型的依據(jù)(張潔,2014)。一般認(rèn)為,0.5-1.5是Infit Mnsq的可接受范圍。而對于高風(fēng)險測試,應(yīng)采取更嚴(yán)格的控制(Linacre,2012;孫曉敏、張厚粲,2006)。因此,本研究選用0.8-1.2的嚴(yán)格范圍(Linacre,2012),Infit Mnsq大于1.2為不擬合,小于0.8為過度擬合。ZStd是由Infit Mnsq轉(zhuǎn)化而來的符合正態(tài)分布的標(biāo)準(zhǔn)值。Linacre(2012)指出,|ZStd|≥2.6可作為數(shù)據(jù)與模型不擬合及過度擬合高度顯著的指標(biāo)。
層面統(tǒng)計量主要包括分隔系數(shù)(Separation)、信度(Reliability)、層度系數(shù)(Stara)和卡方檢驗(yàn)(chi-square),用于分析該側(cè)面中個體之間的差異大小。分隔系數(shù)(Separation)標(biāo)志著測量分?jǐn)?shù)整體的有效性,如果來自考生的真實(shí)變異與來自測量誤差的變異相等,則分隔系數(shù)等于1(孫曉敏、薛剛,2008)。一般認(rèn)為,分隔系數(shù)大于2,意味著個體間有明顯差異(Myford & Wolfe,2004; Linacre,2012),數(shù)值越大,說明有越大的把握認(rèn)為該層面?zhèn)€體之間存在顯著的差異。信度(Reliability)說明了在總觀測變異中真實(shí)變異所占的比例(孫曉敏、張厚粲,2006)。信度值的取值范圍在0到1之間,越接近于0,說明該側(cè)面?zhèn)€體之間差異越小;越接近于1,說明該側(cè)面?zhèn)€體之間差異越大。通過分隔系數(shù)可以把側(cè)面內(nèi)的個體分成幾層,用層度值(Strata)表示,其計算方法為Strata=(4*Separation+1)/3(Myford &Wolfe, 2000)。卡方檢驗(yàn)(chi-square)用于統(tǒng)計樣本的實(shí)際觀測值與理論推斷值之間的偏離程度,數(shù)值越大,說明有越大的把握認(rèn)為該層面?zhèn)€體之間存在顯著的差異。
評分者間一致性系數(shù)(Inter-rater)包括Exact Agreement Expected %(以下簡稱Expected %)和Exact Agreement Observed %(以下簡稱Observed %),其中Expected %是MFRM估算出的、在每個考官都獨(dú)立打分的情況下,考官組之間的一致性評分占所有評分的比例; Observed %則是考官組在實(shí)際打分過程中所出現(xiàn)的一致性評分在所有評分中所占的比例。如果Observed %與Expected %數(shù)值相近,則說明在打分過程中考官是獨(dú)立打分的。如果Observed %數(shù)值高于Expected %數(shù)值,則說明考官在打分過程中有意與其他考官達(dá)成一致(Linacre,2012)。
3.2.1 考生側(cè)面
考生側(cè)面代表的是考生的能力水平,在MFRM分析中是正向的。如表2所示,樣本中能力值最高的考生為127號,其度量值為1.20 logits,84號考生能力值最低,度量值為-1.44 logits,考生的能力跨度為2.64 logits??忌鷤?cè)面的分隔系數(shù)為4.48,信度值為0.95,卡方值為2435.4,接受各考生能力度量值在統(tǒng)計上全部相同這一假設(shè)的概率p<0.001。這說明考分的差異具有顯著意義,且該差異絕大部分可由考生的被考查能力得到解釋。從考官打分角度說,就是考官能夠區(qū)分考生的能力水平??忌鷤?cè)面的層度值為6.30,說明考生能力水平最少可分為6級。
從考生個體的角度來看,|ZStd|≥2.6的考生有23位,其中12人的Infit MnSq高于1.2,表現(xiàn)為不擬合,11人的Infit MnSq低于0.8,表現(xiàn)為過度擬合。不擬合的原因一方面可能跟不同考官對同一考生的評分不一致程度高有關(guān),另一方面可能是由于不同打分項(xiàng)測查的是作為一名合格的國際中文教師在不同方面的能力,而考生在不同方面的能力水平并不一致。過度擬合則說明考官給考生的評定過于一致,可能有考官間一致性過強(qiáng)或評分趨中的問題。后面我們還將分別對考生和考官、考生和打分項(xiàng)進(jìn)行偏差/交互分析,尋找考生數(shù)據(jù)不擬合的原因。
3.2.2 考官側(cè)面
面試的主觀性使得多個考官之間的評分一致性成為面試?yán)碚摵蛯?shí)踐中長期關(guān)注的一個重要問題。經(jīng)典測量理論中的評分者信度只能提供多個考官之間的一致性信息,而MFRM則可以對考官個體的寬嚴(yán)程度、自身評分一致性、與其他考官的一致性、與各因素之間的交互/偏差等多個角度進(jìn)行分析。以下將從考官的打分寬嚴(yán)度、自身一致性和考官間一致性進(jìn)行分析。
考官側(cè)面代表的是考官打分情況,在MFRM分析中是反向的。從表3的考官度量值可以看出考官打分寬嚴(yán)度,考官3B打分最嚴(yán),其度量值為0.17 logits, 考官1A打分最松,其度量值為-0.20 logits??脊賯?cè)面的分隔系數(shù)為3.45,信度為0.92,卡方值為125.9,接受考官的評分寬嚴(yán)程度在統(tǒng)計上全部相同這一假設(shè)的概率p<0.001。這說明考官打分的寬嚴(yán)度有顯著的差異。考官的寬嚴(yán)跨度為0.37 logits,考生能力跨度(2.64 logits)是考官寬嚴(yán)跨度的7.14倍。通常認(rèn)為,考生能力跨度在考官寬嚴(yán)跨度4倍以上時,考官在寬嚴(yán)度上的差異總體上不會對考生的成績產(chǎn)生決定性的影響(何蓮珍,張潔,2008;張新玲,曾用強(qiáng),2009)。所以,雖然此次考官打分寬嚴(yán)度有顯著差異,但不會對考生成績造成太大影響。
考官打分的自身一致性可依據(jù)Infit MnSq值進(jìn)行分析,這里的“一致性”并不是指不同考官之間需要達(dá)成相互一致,而是指某一位考官是否能夠?qū)λ锌忌3址€(wěn)定的打分寬嚴(yán)程度。如表3所示,從考官個體角度來看,|ZStd|≥2.6的考官有4位,其中2A、3B兩位考官的Infit MnSq高于1.2,表現(xiàn)為不擬合,說明他們在打分過程中自身穩(wěn)定性較差;3A、4B兩位考官的Infit MnSq低于0.8,表現(xiàn)為過度擬合,說明他們在打分過程中給出的分?jǐn)?shù)差異太小,存在一定的趨中性,也許是采用了“安全策略”,在打分過程中僅僅使用了少數(shù)幾個等級分?jǐn)?shù)對不同表現(xiàn)的考生進(jìn)行評分。
除了考官自身一致性,我們又根據(jù)三人考官小組對同一批考生的打分情況分析了考官間評分的一致性,結(jié)果如表4所示。
表4為考官組(分組情況見表1)內(nèi)的三位考官之間的評分一致性系數(shù),第三列為Expected %,即MFRM估計的獨(dú)立打分時的一致性打分占比,第四列為Observed %實(shí)際打分中的一致性打分占比,第五列為前兩列差值。從中可以看出2、3、5、7組的Observed %值均比Expected %值高百分之十幾,這與考官在面試中并不是完全被要求獨(dú)立打分的情況相吻合。根據(jù)打分要求,考官在打分過程中可以對考生的表現(xiàn)進(jìn)行一定程度的討論,因而Observed %值往往會高于Expected %值。同時,如表3所示,這幾組的考官也大都表現(xiàn)出了穩(wěn)定的自身一致性。第4組和第6組考官的Observed %均與Expected %數(shù)值相近,說明這兩組的考官在打分中偏向于獨(dú)立打分,但也有可能是與2A、3B兩位考官打分過程中自身穩(wěn)定性較差有關(guān)。第1組考官的Observed %值遠(yuǎn)大于其Expected %值,差值達(dá)到了40.3%,遠(yuǎn)遠(yuǎn)大于其他組,這可能與3A、4B兩位考官打分過程中存在一定的趨中性有關(guān)。第4組和第6組體現(xiàn)出來的打分獨(dú)立性和自身穩(wěn)定性之間的因果關(guān)系,有待進(jìn)一步討論,可能是由于考官們未按照要求進(jìn)行一定程度的討論導(dǎo)致考官評分穩(wěn)定性較差,也可能是評分不穩(wěn)定的考官無法與評分穩(wěn)定的考官達(dá)成一致,因而使評分者一致性系數(shù)呈現(xiàn)出獨(dú)立打分的狀態(tài)。第1組考官打分也是如此,可能是考官間的過度討論使得組內(nèi)考官均給出了趨中性的打分,也可能是由于三位考官各自打分的趨中性使得組內(nèi)評分者一致性系數(shù)過高。未來可針對此問題進(jìn)行進(jìn)一步研究。
3.2.3 打分項(xiàng)側(cè)面
打分項(xiàng)側(cè)面代表的是各打分項(xiàng)的難易度情況,也就是考官在不同打分項(xiàng)上的打分高低情況,在MFRM分析中是反向的。根據(jù)表5所示,在排除了不同考官寬嚴(yán)程度差異、考生能力差異的影響后,考官打分最嚴(yán)格的是“試講”這一項(xiàng),度量值為0.26 logits,最寬松的是“總體印象”這一項(xiàng),度量值為-0.14 logits。打分項(xiàng)側(cè)面的總體跨度為0.40 logits,分隔系數(shù)為5.70,信度為0.97,卡方值為308.5,接受各打分項(xiàng)的難度在統(tǒng)計上全部相同這一假設(shè)的概率為p<0.001,說明考官在“說課”“試講”“中文問答”“外語水平”“總體印象”這五個打分項(xiàng)上的寬嚴(yán)程度有明顯差異,“試講”最嚴(yán)格,其次是“外語水平”“說課”和“中文問答”,考官對“總體印象”這一項(xiàng)的打分偏慷慨。
打分項(xiàng)側(cè)面的Infit MnSq值代表了某打分項(xiàng)的考官打分一致程度,從表5可以看出,“說課”和“總體印象”的|Zstd|≥2.6,Infit MnSq低于0.8,表現(xiàn)為顯著的過度擬合,說明考官在對這兩項(xiàng)打分時存在過度一致的情況,這可能與“說課”的程式化和“總體印象”比較容易趨中性給分有關(guān)?!爸形膯柎稹钡膢Zstd|≥2.6,Infit MnSq高于1.2,數(shù)據(jù)呈現(xiàn)顯著的不擬合,說明考官在這一打分項(xiàng)存在較大分歧,這可能是考官對“中文問答”的評分細(xì)則的理解和尺度把握不同有關(guān),也可能是由于考官對這一部分參考答案的理解和側(cè)重有所不同所致?!霸囍v”“ 外語水平”這兩項(xiàng)則擬合較好,說明考官在這兩個打分項(xiàng)上總體來講能恰當(dāng)?shù)匕芽忌絽^(qū)分開。
為進(jìn)一步探究考官在每個打分項(xiàng)的打分質(zhì)量,我們又分別計算了考生在這五個打分項(xiàng)上的分隔系數(shù)和信度,以考察考官在不同打分項(xiàng)上對考生的區(qū)分能力如何。如表6所示,在各打分項(xiàng)上接受考生能力度量值在統(tǒng)計上全部相同這一假設(shè)的概率p均小于0.001,也就是說,每個打分項(xiàng)上考生的差異均具有顯著意義,且該差異絕大部分可由考生的被考察能力得到解釋,這就說明考官在所有打分項(xiàng)上均能有效地區(qū)分考生能力??脊僭凇霸囍v”這一項(xiàng)上至少能將考生能力水平分為9層,區(qū)分能力最強(qiáng);在“外語水平”和“總體印象”這兩項(xiàng)上均可以將考生能力水平分出6個以上的層次,區(qū)分能力較強(qiáng);在“說課”和“中文問答”這兩項(xiàng)上將考生能力水平都是僅分為4個層次,區(qū)分能力相對較弱?!罢f課”的區(qū)分能力較弱可能與前文提到的“說課”具有較強(qiáng)的程式化有關(guān),“中文問答”的區(qū)分能力較弱的原因,我們將在后面的偏差分析中進(jìn)一步討論。
3.3 偏差/交互分析
在用MFRM進(jìn)行考試信度研究時,實(shí)際考試數(shù)據(jù)若完全符合假設(shè),則與模型出現(xiàn)不擬合的偏差應(yīng)該是完全隨機(jī)的,但在實(shí)際面試中各側(cè)面是極可能發(fā)生交互作用的,從而導(dǎo)致實(shí)際考試分?jǐn)?shù)偏離模型預(yù)測的分?jǐn)?shù)。這就有必要通過偏差分析來找到各側(cè)面的偏差所在,相當(dāng)于進(jìn)行項(xiàng)目功能差異(differential item functioning, DIF)研究,并通過交互分析來找到各側(cè)面之間的交互關(guān)系。本研究分析了考生、考官和打分項(xiàng)三個側(cè)面之間的交互關(guān)系,并關(guān)注了考官在考生性別、考試時間等兩個情境下是否會產(chǎn)生系統(tǒng)性的打分寬嚴(yán)度變化。分析結(jié)果如表7所示。
考官和考生之間顯著偏差的數(shù)量為1,占所有交互總數(shù)(384)的0.26%。除考官3C在給119號考生打分時出現(xiàn)了與往常打分寬嚴(yán)略有不同的情況之外,無其他偏差情況。根據(jù)McNamara(1996)的觀點(diǎn),顯著偏差占比在5%以下,屬于可接受的范圍。關(guān)于測量誤差的假設(shè)檢驗(yàn)p=1.00,說明此次偏差很可能是偶然情況。也就是說,總體上考官能夠有效、一致地區(qū)分不同能力考生,不存在偏差。
考官和打分項(xiàng)在交互總數(shù)為60的情況下,顯著偏差為11個,占到了18.3%,大于McNamara提出的5%的范圍。關(guān)于測量誤差的假設(shè)檢驗(yàn)p<0.001,說明偏差并非偶然產(chǎn)生。在11個顯著偏差中,“中文問答”的偏差占到了6個。結(jié)合表6的打分項(xiàng)分隔系數(shù)和層度系數(shù)看,“中文問答”的分隔系數(shù)、層度系數(shù)均相對較低,說明考官在打分項(xiàng)上的給分確實(shí)存在偏差。這可能是由于評分細(xì)則的可操作性不足,或考官對參考答案的理解有偏差所致。另外,在分析考官和打分項(xiàng)交互作用時,我們還會綜合考官側(cè)面數(shù)據(jù)來檢查考官打分是否存在光環(huán)效應(yīng)。如果考官側(cè)面的Infit MnSq小于1且Outfit MnSq大于1,同時考官與打分項(xiàng)的交互作用顯著,則可認(rèn)為存在光環(huán)效應(yīng)(Myford& Wolfe,2004;Farrokhi & Esfandiari,2011)。雖然這里考官和打分項(xiàng)交互作用顯著,但表3所示的考官側(cè)面數(shù)據(jù)中卻沒有Infit MnSq小于1且Outfit MnSq大于1的情況,所以還是可以說明考官在打分過程中并不存在光環(huán)效應(yīng)。
考生和打分項(xiàng)在交互總數(shù)為640的情況下,顯著偏差為108個,占到了16.9%,大于McNamara提出的5%的范圍。關(guān)于測量誤差的假設(shè)檢驗(yàn)p<0.001,也說明偏差并非偶然產(chǎn)生。顯著偏差中,除“總體印象”的偏差數(shù)量較少外,其余打分項(xiàng)偏差數(shù)量較多,且分布較平均。這說明考生在各打分項(xiàng)所代表的國際中文教師應(yīng)具備的各方面能力上,水平發(fā)展并不均衡,而由于“總體印象”的給分是在綜合考量其他4個打分項(xiàng)基礎(chǔ)上給出的分?jǐn)?shù),且考官在打分時可能會存在較大趨中性,因而顯著偏差較少。
在考官和考試時間、考官和考生性別之間的偏差/交互分析中,都沒有發(fā)現(xiàn)顯著的差異,即考官的打分寬嚴(yán)度不會隨著工作時間長度的變化產(chǎn)生一致的變化趨勢,考官在給不同性別的考生打分時也不會產(chǎn)生一致的變化趨勢。對考生而言,不論他們在一天中的哪個批次參加面試,也不論他們是男性還是女性,考官都能夠一視同仁地根據(jù)他們的面試表現(xiàn)進(jìn)行打分,考生得到了公平的對待。
4. 結(jié)論
此次MFRM分析結(jié)果表明:在該次面試中,考官能夠有效地區(qū)分不同水平的考生,考官的打分寬嚴(yán)度存在顯著差異,但該差異不會對考生成績產(chǎn)生決定性的影響;考官打分的自身一致性總體上處在可接受范圍,存在一定程度的趨中現(xiàn)象;大部分考官小組內(nèi)部的三位考官之間打分一致性略高于獨(dú)立打分時的一致性,與考試打分流程要求相吻合。考官在不同打分項(xiàng)上對考生的區(qū)分能力存在差異,在“試講”這一項(xiàng)上打分最嚴(yán),對考生水平的區(qū)分效果最好,在“總體印象”這一項(xiàng)上打分最慷慨,但也都能夠較好地區(qū)分考生水平;考官在評分時不存在光環(huán)效應(yīng),基本做到了性別公平,打分穩(wěn)定性不受考試時間的影響。
本次研究發(fā)現(xiàn)可為考官培訓(xùn)和考生能力培養(yǎng)了提供了一些參考意見。部分考官的打分一致性不高,在面試評分標(biāo)準(zhǔn)、細(xì)則以及試題參考答案的理解和把握上存在一定程度的偏差,不能在打分過程中有效區(qū)分考生能力水平。為改善這一狀況,一方面需要對考官有針對性地加強(qiáng)考前培訓(xùn)和考后反饋,另一方面需要考試開發(fā)者對評分標(biāo)準(zhǔn)和試題參考答案等進(jìn)行一定的調(diào)整和優(yōu)化。根據(jù)考生和打分項(xiàng)的偏差分析結(jié)果顯示,考生在國際中文教師能力的各個方面上發(fā)展并不均衡,可有針對性地加強(qiáng)提高相應(yīng)能力的培養(yǎng),盡量做到全面發(fā)展。
[參考文獻(xiàn)]
丁樹良,羅 芬,涂冬波 2012 項(xiàng)目反應(yīng)理論新進(jìn)展專題研究[M]. 北京:北京師范大學(xué)出版社.
范 鵬 2017 大規(guī)??荚嚲W(wǎng)上評卷中趨中評分的成因探析[J]. 中國輕工教育(5).
何蓮珍,張 潔 2008 多層面Rasch模型下大學(xué)英語四,六級考試口語考試(CET-SET)信度研究[J]. 現(xiàn)代外語31(4).
孔子學(xué)院總部/國家漢辦 2016 國際中文教師證書考試大綱[M]. 北京:人民教育出版社.
劉耀中 2009 人員選拔面試中的暈輪效應(yīng)[J]. 心理科學(xué)32(6).
孫曉敏,薛 剛 2008 多面Rasch模型在結(jié)構(gòu)化面試中的應(yīng)用[J].心理學(xué)報(9).
孫曉敏,張厚粲 2006 國家公務(wù)員結(jié)構(gòu)化面試中評委偏差的IRT分析[J].心理學(xué)報38(4).
吳志明,張厚粲,楊立謙 1997 結(jié)構(gòu)化面試中的評分一致性問題初探[J].應(yīng)用心理學(xué)(02).
曾秀芹,孟慶茂 1999 項(xiàng)目功能差異及其檢測方法[J]. 心理科學(xué)進(jìn)展17(002).
張 潔 2014 語言測試研究中的多層面Rasch模型——原理簡介和研究綜述[J]. 外語測試與教學(xué)000(3).
張新玲,曾用強(qiáng) 2009 讀寫結(jié)合寫作測試任務(wù)在大型考試中的構(gòu)念效度驗(yàn)證[J]. 解放軍外國語學(xué)院學(xué)報32(001).
Farrokhi, F. & R. Esfandiari 2011 A many-facet Rasch Model to detect halo effect in three types of raters [J]. Theory and Practice in Language Studies 1(11).
Linacre, J. M. 2012 Many-Facet Rasch Measurement: Facets Tutorial [EB/OL] https://www.winsteps.com/tutorials.htm
McNamara, T. F. 1996 Measuring Second Language Performance[M]. London: Longman.
Myford, C. M. & E. W. Wolfe 2000 Monitoring Sources of Variability within the Test of Spoken English Assessment System [R] (TOEFL Research Report NO. 65) Princeton, NJ: Educational Testing Service.
——— 2003 Detecting and measuring rater effects using many-facet Rasch measurement: Part I. [J]. Journal of Applied Measurement 4(4).
——— 2004 Detecting and measuring rater effects using many-facet Rasch measurement: Part II [J]. Journal of applied measurement 5(2).
Weigle, S. C. 1998 Using FACETS to model rater training effects[J]. Language Testing 15(2).