国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于內(nèi)容證據(jù)的PETS-4口試效度研究

2015-12-14 05:03:45高懷勇劉鋒戢煥奇
山東外語教學(xué) 2015年3期
關(guān)鍵詞:口試效度

高懷勇,劉鋒,戢煥奇

(四川農(nóng)業(yè)大學(xué)文法學(xué)院,四川雅安 625014)

基于內(nèi)容證據(jù)的PETS-4口試效度研究

高懷勇,劉鋒,戢煥奇

(四川農(nóng)業(yè)大學(xué)文法學(xué)院,四川雅安 625014)

本研究依據(jù)語言測試效度理論,通過檢查表、問卷調(diào)查和訪談方法收集“內(nèi)容相關(guān)與內(nèi)容覆蓋”、“測試任務(wù)特征”和“測試實施環(huán)境特征”等口試的“內(nèi)容證據(jù)”,檢驗了2013年9月PETS-4口試的效度。研究結(jié)果表明:1)PETS-4口試任務(wù)內(nèi)容相關(guān)和內(nèi)容覆蓋恰當,符合預(yù)設(shè)的考查內(nèi)容與目標;2)PETS-4口試任務(wù)特征和實施環(huán)境特征有利于擬測構(gòu)念的表現(xiàn),具體表現(xiàn)為:(1)口試任務(wù)充分體現(xiàn)了測試設(shè)計者預(yù)設(shè)的“交際模式”、“交際功能”、“口試渠道”和“真實性”等口試特征,考官語言輸出用語嚴格一致;(2)測試場景、施測程序符合測試整體要求。上述證據(jù)綜合表明2013年9月的PETS-4口試在內(nèi)容證據(jù)方面具有較高的效度。[關(guān)鍵詞]全國公共英語等級考試;口試;效度;內(nèi)容證據(jù)

1.0 引言

作為行為測試(performance testing)之一的英語口語測試歷來為研究者所關(guān)注,如:口試研究綜述(楊莉芳,2006;王保云,2006;鄒瓊,2007;呂長宏等,2008),CET口試效度研究(金艷、郭杰克,2002),TEM口試效度研究(王海貞,2007;黃永紅,2006)。PETS(全國公共英語等級考試)是教育部考試中心設(shè)計并組織實施的全國性標準化英語考試,在我國有很強的影響力,其口試研究亦受到學(xué)界廣泛關(guān)注。縱觀目前國內(nèi)PETS口試研究,雖然在口試特點與交際特征(李潔平,2004;龐繼賢、潘文紅,2007;肖德法、向平,2004)、口試體系設(shè)計及其特色(劉慶思,2008;金啟軍等,2002)、口試與口語教學(xué)之關(guān)系(向平、肖德法,2003)、口試評分信度(向平,2003)等方面有廣度和深度的發(fā)展,但就PETS口試效度研究而言,相關(guān)研究缺乏。雖然高懷勇等(2011,2014)探討過PETS口試效度,但其研究僅限于評分過程、試題內(nèi)部結(jié)構(gòu)分析和測試后效研究。作為大規(guī)模、高風險測試之一的PETS口試,對其效度的考查不可依賴單一證據(jù),有必要從不同角度收集證據(jù)來考察其準確性與科學(xué)性。國外雖然有學(xué)者用檢查表法(observation checklist)(如O’Sullivan et al.,2002)和會話分析法(如Lazaraton,2000)從內(nèi)容證據(jù)視角檢驗過英語口試的效度,但其研究對象為劍橋大學(xué)考試委員(UCLES)編制的英語口試系統(tǒng),PETS口試在內(nèi)容證據(jù)方面效度如何,有待進一步驗證?;诖?,本研究依據(jù)語言測試效度理論,采用檢查表(checklist)、問卷調(diào)查和訪談方法從以下三方面收集“內(nèi)容證據(jù)”來檢驗PETS-4口試的效度:1)內(nèi)容相關(guān)和內(nèi)容覆蓋;2)口試任務(wù)特征;3)口試實施環(huán)境特征。

2.0 效度理論框架

要談測試,必須從測試效度的涵義開始。效度是“測量工具確能測出其所要測量特質(zhì)的程度”(楊惠中&Weir,1998:1),即測試的準確性和有效性。Messick(1989:7)將效度的涵義界定為“證據(jù)和理論依據(jù)支持基于測試分數(shù)或其它評估方式所做出的推斷或采取的行動的程度”。效度是決定語言測試與評價質(zhì)量的關(guān)鍵(Alderson et al.,1995;Bachman,1990;Messick,1989;Weir,2005),是科學(xué)的測量工具所必須具備的最重要的條件之一。自20世紀60年代以來,效度問題成為“語言測試國際研討會的一個永恒話題,并將一如既往”(Bachman,2000: 22)。20世紀90年代后,效度被普遍認為是一個整體概念 (Messick,1989;Bachman,1990; Cronbach,1988;Anastasi,1988;Weir,2005),該效度框架下的基本觀點有:1)效度是一個整體概論,構(gòu)念效度是其核心,傳統(tǒng)上不同的效度種類是構(gòu)念效度的不同證據(jù)來源;2)效驗即舉證,效度驗證過程是所有測試使用者舉證說明其合理性的過程。

測試界對效驗證據(jù)的討論由來已久,如Bachmann(1990)認為,效驗證據(jù)應(yīng)包含:內(nèi)容相關(guān)與覆蓋、效標關(guān)聯(lián)性、測試公平性。美國心理學(xué)會(APA 1999)則認為效驗證據(jù)來源有五類:測試內(nèi)容、反應(yīng)過程、內(nèi)部結(jié)構(gòu)、與其他變量關(guān)系和測試后效。在此基礎(chǔ)上,Weir(2005)和Shaw&Weir(2007)從實踐操作的角度對效度證據(jù)進行了梳理,他們認為效驗證據(jù)有以下五方面:1)理論證據(jù)或認知效度;2)內(nèi)容證據(jù)或環(huán)境效度;3)評分證據(jù);4)測試后效證據(jù);5)效標關(guān)聯(lián)證據(jù)。其中“內(nèi)容證據(jù)”是“影響交際語言測試質(zhì)量的決定性因素”(Douglas,2000)。Bachman將內(nèi)容證據(jù)分為“內(nèi)容相關(guān)”、“內(nèi)容覆蓋”和“測試方法”(method facets)三方面。內(nèi)容相關(guān)指“對相關(guān)測試的表現(xiàn)行為(即相關(guān)能力)與相應(yīng)任務(wù)的具體明細或說明”(1990:244)。具體來說,內(nèi)容相關(guān)包括:1)對擬測能力理論構(gòu)念的闡述與界定;2)對擬測能力所涉及的相應(yīng)任務(wù)和指標的詳細說明。內(nèi)容覆蓋指“測試任務(wù)能代表所測能力各方面的程度”(Messick,1989:

10)。也就是說,內(nèi)容相關(guān)與測試設(shè)計者對擬測能力構(gòu)念與測試任務(wù)的界定與詳細指標說明有關(guān),內(nèi)容覆蓋與測試任務(wù)代表擬測能力的程度有關(guān)。換言之,對內(nèi)容相關(guān)和內(nèi)容覆蓋的考察可以通過對比考試設(shè)計者對擬測構(gòu)念和考試內(nèi)容的具體要求與考試相關(guān)者(考官與考生)和測試專家對該考試的認識而獲得。Bachman雖然提出了“測試方法”維度,卻沒有提出具體的操作方法。鑒于此,Weir對測試方法進行了細化,他認為“一項測試中所選擇的任務(wù)……與任務(wù)本身對語言和應(yīng)試者的能力要求有關(guān),也與任務(wù)本身和任務(wù)實施環(huán)境所要求的條件有關(guān)”(2005:19)。也就是說,內(nèi)容證據(jù)除了應(yīng)該考察測試所要測量能力的詳細指標(即內(nèi)容相關(guān))和測試任務(wù)的代表性(即內(nèi)容覆蓋)外,還應(yīng)包括“測試任務(wù)特征“和“測試實施環(huán)境特征”。在討論口試效度驗證時,Weir將口試“任務(wù)特征”分為“語言輸入與輸出”和交談考官(interlocutor)兩個方面。前者主要考量口試參與者在口試過程中的語言“交際模式”、“交際功能”、“口試渠道”(即測試口試的方式)和“真實性”四個方面(Weir,2005:46)。后者主要考查考官的語言輸出。“實施環(huán)境特征”是“測試環(huán)境接近真實語言使用環(huán)境的程度”(O’Sullivan et al.,2002:33-56),即測試物質(zhì)環(huán)境應(yīng)符合測試要求,操作程序應(yīng)一致(李清華,2007)。正是為了突出語言使用的社會性,Weir才強調(diào)收集“任務(wù)特征”和“實施環(huán)境特征”的重要性,因為語言測試過程不是發(fā)生在真空中,只有了解測試任務(wù)特征和真實的語言使用環(huán)境,我們才有可能使語言測試任務(wù)盡可能復(fù)制(模擬)這種過程,從而反映受試使用語言的真實能力(李清華,2007)。

圖1 口語測試“內(nèi)容證據(jù)”考查示意圖

上述理論探討促進了人們對測試內(nèi)容證據(jù)機理的認識,但是作為有影響的大規(guī)模測試之一的PETS口試,對其測試內(nèi)容方面的效度考查不可依賴主觀想象簡單推測。有必要在具體的社會環(huán)境下進行實證研究?;诖?,本研究擬考查PETS口試相關(guān)人員(考試中的考官與考生)和測試專家對該測試的認識在多大程度上與測試設(shè)計者的預(yù)設(shè)目標相一致,其操作機理如圖1所示。

3.0 研究設(shè)計

3.1 研究問題

本研究擬回答以下兩個問題:

1)PETS-4口試任務(wù)“內(nèi)容相關(guān)和內(nèi)容覆蓋”是否符合預(yù)設(shè)的考查內(nèi)容與目標?具體要回答的問題是:(1)PETS-4口試測試任務(wù)是否考查了擬測構(gòu)念的詳細指標?(2)PETS-4口試測試任務(wù)能否充分代表擬測構(gòu)念?

2)PETS-4口試任務(wù)特征和實施環(huán)境特征是否有利于應(yīng)測構(gòu)念的表現(xiàn)?具體要回答的問題是:(1)PETS-4測試任務(wù)是否充分體現(xiàn)測試設(shè)計者預(yù)設(shè)的特征?(2)interlocutor的語言輸出是否有利于擬測構(gòu)念的表現(xiàn)?(3)PETS-4測試物質(zhì)環(huán)境與操作程序是否有利于擬測構(gòu)念的表現(xiàn)?

3.2 研究對象

參加本研究檢查表調(diào)查的對象為13位國內(nèi)語言測試專家(2位為博導(dǎo),11位為博士或博士后研究人員)。參加本研究問卷調(diào)查的對象有:1)參加先導(dǎo)性實驗的60名四川某高職院??忌?均參加了2012年9月PETS-4口試);2)川、陜兩地參加2013年9月PETS-4口試的考生461人,考官38人(其中30人為英語口語教師,8人為專業(yè)從事語言測試的教育行政人員)。參加本研究訪談的對象為參加上述問卷調(diào)查的10位考官(7位英語口語教師和3位教育行政人員)和20名考生。

3.3 研究工具

本研究根據(jù)《PETS考試指南》下稱《指南》),對口語能力的界定及考試內(nèi)容的要求并結(jié)合O’Sullivan(2002)的口試內(nèi)容證據(jù)特征量表設(shè)計了PETS-4口試內(nèi)容證據(jù)調(diào)查問卷,訪談提綱和檢查表。在進行正式研究之前,本研究進行了先導(dǎo)性實驗,目的在于確定問卷的信度與結(jié)構(gòu)效度。根據(jù)第一次先導(dǎo)性實驗(30名受試)結(jié)果,研究者對問卷進行了修改(如拆分、合并部分問卷題目;避免使用生僻術(shù)語,必要時在問卷中進行特別說明、解釋,以避免調(diào)查對象不理解問卷內(nèi)容)。并進行第二次先導(dǎo)性實驗(另30名受試),通過SPSS16.0對實驗結(jié)果進行因子分析和信度分析,結(jié)果見表1和圖2。從表1和圖2可見:問卷中的27個問題包含3個維度(因子),第一個維度為問題1-12,調(diào)查有關(guān)PETS-4“內(nèi)容相關(guān)與內(nèi)容覆蓋”,其信度為0.816;第二個維度為問題13-25,調(diào)查PETS-4“口試任務(wù)特征”,其信度為0.848;第三個維度為問題26-27,考察PET-4“實施環(huán)境特征”,其信度為0.864。整個問卷的內(nèi)部一致性系數(shù)為R=0.92。訪談提綱包括有關(guān)內(nèi)容證據(jù)三個方面的六個問題。檢查表是用專業(yè)術(shù)語對問卷的提煉,與問卷內(nèi)容一致。

表1 內(nèi)容證據(jù)調(diào)查問卷結(jié)構(gòu)、因子分析與信度分析表

圖2 調(diào)查問卷因子結(jié)構(gòu)圖

3.4 研究步驟與數(shù)據(jù)收集

征得考場同意,研究者對4個考室進行口試過程全程錄像,并隨機選擇了8組考生(每個考室4人,共16人)的錄像文件作為測試專家在檢查表上評判的依據(jù)(觀看視頻錄像后作出選擇)。錄像內(nèi)容隨同檢查表及PETS-4口試試卷(見附錄4)一同通過電子郵件發(fā)給13位專家。檢查表在兩個月內(nèi)完成。問卷調(diào)查在口試結(jié)束后進行,時間約20分鐘。為避免問卷調(diào)查本身的局限性,本研究于問卷調(diào)查結(jié)束后對10位口試考官和20名學(xué)生進行訪談。對考官的訪談采用半開放一對一式訪談(semi-structured),時間為15分鐘/人。對學(xué)生的訪談以5人/組/15分鐘的形式進行。檢查表和調(diào)查問卷采用利克特五級量表。調(diào)查對象在量表上的選擇表明他們對選項的態(tài)度:1=完全不同意;2=不同意;3=不知道;4=同意;5=完全同意。分數(shù)的高低代表同意的程度。本研究發(fā)出檢查表13份,問卷499份,收回有效檢查表11份,問卷442份。我們對訪談內(nèi)容進行錄音和文字轉(zhuǎn)換以備后用。

4.0 結(jié)果與討論

調(diào)查統(tǒng)計結(jié)果顯示(見表2),測試專家、考生和考官普遍認為PETS-4口試在內(nèi)容證據(jù)方面有較高效度:92.63%的考官和考生(下稱受試)和87.12%的專家認為PETS-4口試測試任務(wù)考查了擬測構(gòu)念的詳細指標,充分代表了擬測構(gòu)念;92.09%的受試和96.03%的專家贊成PETS-4測試任務(wù)充分體現(xiàn)了測試設(shè)計者預(yù)設(shè)的特征,考官語言輸出用語嚴格一致,有利于擬測構(gòu)念的表現(xiàn);88.47%的受試和84.24%的專家贊成PETS-4測試物質(zhì)環(huán)境與操作程序均有利于擬測構(gòu)念的表現(xiàn)。為使我們收集的證據(jù)有說服力,下面我們結(jié)合問卷結(jié)果和訪談結(jié)果進一步分析討論“內(nèi)容相關(guān)和內(nèi)容覆蓋”、“口試任務(wù)特征”和“實施環(huán)境特征”證據(jù)。

4.1 內(nèi)容相關(guān)和內(nèi)容覆蓋

問卷中有關(guān)“內(nèi)容相關(guān)與內(nèi)容覆蓋”的問題(1-12題)是根據(jù)《指南》對口語能力的界定及考試內(nèi)容的要求而進行設(shè)計的。《指南》中詳細界定了PETS-4口試的擬測構(gòu)念及其詳細指標,并對PETS-4口試測試內(nèi)容有較清晰的界定與闡述(2003:22)。將《指南》對考試構(gòu)念和內(nèi)容的要求與考試相關(guān)者(考官與考生)以及測試專家對該考試的認識進行比對,我們可以檢驗PETS-4口試“內(nèi)容相關(guān)與內(nèi)容覆蓋”是否達到了《指南》的總體設(shè)計目標。如果施測任務(wù)與《指南》要求一致,我們就得到了內(nèi)容相關(guān)和覆蓋的一個證據(jù)(McNamara,2006)。從表2

可見,87.12%的專家和92.63%的受試贊成PETS-4口試測試任務(wù)考查了《指南》擬測的口語能力及其詳細指標,充分代表了擬測的口語能力(M分別為3.656和4.194)。這一結(jié)論也在訪談中得到了印證,大多數(shù)訪談?wù)?如I5,I13,I16,I22)①均認為PETS-4考查了“英語口語的各方面能力,任務(wù)覆蓋面廣,很全面,類型眾多……要求層次不一”。因此PETS-4各項測試任務(wù)都滿足了《指南》對口語能力的要求和覆蓋范圍。因此我們得出結(jié)論:PETS-4口試任務(wù)“內(nèi)容相關(guān)和內(nèi)容覆蓋”符合預(yù)設(shè)的考查內(nèi)容與目標。

表2 調(diào)查問卷結(jié)果統(tǒng)計(N=463)

4.2 口試任務(wù)特征

4.2.1 交際模式

口試中誘導(dǎo)出的話語功能和交互性受不同交際模式的影響(Lier,1989)。口試的交互性程度“取決于所采用的交際模式,如講座、面試、對話等”(Weir,2005:71)。對話是比較理想的交際模式,原因在于在該交際模式下,交際雙方同等擁有話語權(quán)和交際責任,而不是由考官獨自控制話語權(quán),承擔交際責任(同上)。因此,“一項有效度的口試必須包含交互性”(同上: 72)。從表2可見,所有專家和98.75%的受試贊成PETS-4口試的交際模式主要是強調(diào)交際的“互動性”與“責任”的面對面對話模式(第13題)。綜合起來,訪談?wù)哒J為面對面對話模式有利于體現(xiàn)口試的互動性(I23,I26)。測試題目的設(shè)定方便考生參與到交際中去,彼此應(yīng)答,接替話輪,共同承擔交際責任、構(gòu)建對話、完成言語交際任務(wù),實現(xiàn)口語交際的“社會性”(Luoma,2004:20)??脊買28認為:“有信息差的試題設(shè)計使得聽話者必須根據(jù)講話者的內(nèi)容組織語言,講話者必須根據(jù)聽話者的反應(yīng)調(diào)節(jié)自己的詞匯和信息,因為對話雙方持有的信息不均等,需要進行真實的交際溝通。所有的交際都是以信息溝通為出發(fā)點,而不是以語言形式為出發(fā)點,信息的獲取和信息的表達都是在參與交際的各方之間互動完成。這與傳統(tǒng)的口語考試中考官提問考生回答截然不同”。

4.2.2 交際功能

口試中的“交際功能”(即話語的illocutionary force)是口語測試與評估中重要的考量因素(ETS 2001)。根據(jù)歐盟2001年制定的《歐洲語言通用參照框架》,交際功能可以分為兩類:宏觀功能和微觀功能(Luoma,2004)。前者指使用語塊描述、敘述、評價、解釋等;后者指實施請求、道歉、邀請、勸說、建議等具體語言行為。口語任務(wù)應(yīng)該考查這兩方面的能力(O’Sullivan et al.,2002)。由表2可見,分別有83.76%受試和84.25%的專家認為PETS-4有效考查了語言的交際功能,具體情況見表3。結(jié)合訪談內(nèi)容,訪談?wù)逫1,I26,I29認為PETS-4通過詢問考生有關(guān)生活、工作、學(xué)習(xí)等方面的問題考查考生問候、打招呼、道歉、致謝等微觀功能。而訪談?wù)逫28,I29,I30則認為利用有信息差的圖片PETS-4考查了描述、敘述、評價、解釋等宏觀功能。PETS-4可以說是綜合考查語言宏觀功能和微觀功能的測試模式典范之一。

4.2.3 口試渠道

“口試渠道”指通過什么方式來測試,是面對面談話、電話談話、看圖說話還是獨白等。測試方式不一樣,誘導(dǎo)出的語言產(chǎn)出會有差別(Weir,2005)。表2顯示,所有專家和94.96%的受試贊成PETS-4口試以面對面對話方式為口試渠道。一接受訪談的考官(I21)以一項測試任務(wù)為例說明PETS-4口試的測試渠道:考官分別給兩考生具體內(nèi)容不同但都是關(guān)于“野外生存”的圖片,要求考生進行交互描述,告訴對方自己圖片的內(nèi)容(如,一考生持有圖片顯示野外生存需要“火柴、帳篷,電話”等工具,而另一考生持有的圖片顯示野外生存需要“手電筒、指南針、藥品、水”等必須品,考生需要就圖片信息進行描述、溝通),在溝通的基礎(chǔ)上,考生相互討論、協(xié)商并決定野外生存需要帶哪些物品,并說明選用該物品的理由,并最終形成野外生存物品必備清單(問題解決)。面對面口試渠道無疑有助于誘導(dǎo)出反映受試口語真實水平的樣本。適當?shù)目谠嚽篮筒蓸尤蝿?wù)的多樣化(問候-描述-討論-問題解決)是保證測試效度的一個重要因素(Bachman&Palmer,1996)。

4.2.4 真實性

真實性是決定一項測試質(zhì)量的關(guān)鍵指標之一,是“一項測試任務(wù)特征與目的語使用任務(wù)特征的一致性程度”(Bachman&Palmer,1996:23),一致性程度越高,測試真實性就越高(Bachman,1990:123)。測試任務(wù)真實性的考查離不開對目的語使用特征的考查。英國語言測試專家Weir(1993)對目的語使用特征作了比較詳盡的描述,他認為操本族語者的英語技能主要體現(xiàn)在三個方面:(1)常規(guī)技能(routine),如問候、陳述、解釋等;(2)即席技能(improvisational),如表明目的、確認不/理解、尋求提示等;(3)微觀語言技能(micro-linguistic),如話輪轉(zhuǎn)換、補償策略等。調(diào)查結(jié)果顯示(見表2),分別有83.74%的受試和85.92%的專家贊成PETS-4口試任務(wù)考查了這三種口語技能,具有真實性,具體情況見表4。訪談考官I21和I26認為在微觀語言技能方面,PETS-4口試中圖片的描述與討論起著關(guān)鍵的作用。由不同圖片指示誘導(dǎo)難度呈等級、具有信息差的一般性話題使考生無論是在“圖片描述”環(huán)節(jié)還是在“討論與問題解決”環(huán)節(jié)都要進行必要的話輪轉(zhuǎn)換、修正、補救策略甚至尋求提示等以順利完成交際任務(wù)(龐繼賢、潘文紅,2007)。多數(shù)訪談考生與考官都認為無論是從“問候”到“描述”,還是從“討論”到“問題解決”,PETS-4均對語言的三種技能進行了全面考察??梢哉f這是一種符合現(xiàn)代語言交際理論有交際真實性的口試形式。

表4 PETS-4口試真實性調(diào)查結(jié)果(N=463)

4.2.5 Interlocutor的語言輸入

“口試考官因素可能是口試中最難界定的變量”(Weir,2005:80)。只要口語測試中有考官的參與,他們說什么、做什么,對考生的表現(xiàn)都有影響。在PETS-4口試中,考官的語言指令對考生完成測試中規(guī)定的任務(wù)有很大影響。如interlocutor的語速、口音、清晰度、語篇長度等都會對考生測試表現(xiàn)產(chǎn)生影響(Weir,2005:154)。作為interlocutor的考官技能和可比較性是測試是否公正的重要考量因素(Luoma,2004:52)。因此測試開發(fā)者應(yīng)盡量編制清晰、明白、一致的考官指令,對考官進行培訓(xùn)和認證(Bachman&Palmer,1996)。為了保證測試效度,PETS-4口試對考官培訓(xùn)、考官資格認證,特別是考場指令(如考官在測試中講話的多少、講話的復(fù)雜程度、話語的所指范圍、語言的功能范圍等)都做出了詳盡規(guī)定(《PETS口試教師指南》,2003:4)。這一點得到了調(diào)查結(jié)果和訪談結(jié)果的印證:所有訪談?wù)?、測試專家和98.79%的受試均認為interlocutor的語言輸入嚴格一致。其中所有專家和98%的受試認為考官主持考試的指導(dǎo)語是嚴格一致的(第24題),95.58%的受試和所有專家贊成考官的語言輸入不因考生而異、不因考場而異(第25題)確保了口試的公平性。這是直接測試中非常難得的。

4.3 實施環(huán)境特征

測試實施的物質(zhì)環(huán)境和實測程序會影響考生的測試體會從而影響考試結(jié)果,對保證測試的公正和可比性尤為重要(Luoma,2004)。測試物質(zhì)環(huán)境具體指口試考場的布景和座位安排等。在口語測試中,如果物質(zhì)環(huán)境不能反映出考生將來所使用的語言,那么考試效度將受到威脅(Khalifa,2003)。實測程序的差異會誘導(dǎo)出不同的語言產(chǎn)出,從而影響考生表現(xiàn)(Weir,2005)。調(diào)查結(jié)果顯示85.47%的受試和84.24%的專家同意PETS-4口試的實施環(huán)境有利于擬測構(gòu)念的表現(xiàn)(見表2)。訪談考官I26和I28認為,在統(tǒng)一的施測程序下,PETS-4的施測程序嚴格一致。這一點也得到82.36%的受試和86.5%的專家認同(第26題)。在考場的布景上,88.58%的受試和81.98%的專家認為PETS-4考場的布景創(chuàng)造了輕松的氣氛(第27題)。這一點得到訪談結(jié)果的印證,訪談考官I23和I27認為PETS-4口試對考場房間大小、桌子擺放位置和擺放方式、燈光位置、光線強度等都有具體規(guī)定與要求(如房間不宜過大,燈光或陽光不能從考官的背后照射過來;應(yīng)該將桌子擺在距門不遠的地方,避免考生因在口試考官的注視下穿過房間而緊張;考官應(yīng)該同考生呈直角就坐,避免考生和考官面對面以減少考生的緊張感)。考生越放松,所產(chǎn)出語言的采樣量越大,受與構(gòu)念無關(guān)變量影響也就越少,口試效度也就越高(Messick,1989)。測試環(huán)境設(shè)置和施測過程的人性化是PETS-4口試同等關(guān)注語言測試社會認知維度的真實體現(xiàn)。

5.0 結(jié)語

綜上所述,本研究通過檢查表、調(diào)查問卷和訪談方法收集PETS-4口試“內(nèi)容相關(guān)和內(nèi)容覆蓋”、“任務(wù)特征”和“實施環(huán)境特征”等口試的“內(nèi)容證據(jù)”,驗證了PETS-4口試的效度。

分析結(jié)果表明:1)PETS-4口試測試任務(wù)考查了《指南》規(guī)定的口語能力詳細指標,口試測試任務(wù)充分代表了擬測口語能力。表明PETS-4口試“內(nèi)容相關(guān)和內(nèi)容覆蓋”符合預(yù)設(shè)的考查內(nèi)容與目標。2)口試任務(wù)充分體現(xiàn)了測試設(shè)計者預(yù)設(shè)的“交際模式”、“交際功能”、“口試渠道”和“真實性”等特征,考官的語言輸出嚴格一致,增強了測試的效度。測試物質(zhì)環(huán)境符合測試總體要求、施測程序一致。即PETS-4口試任務(wù)特征和實施環(huán)境特征有利于擬測構(gòu)念的表現(xiàn)。這些源自不同渠道的證據(jù)綜合表明2013年9月的PETS-4口試在內(nèi)容證據(jù)方面有很高的效度。

本研究通過檢查表、調(diào)查問卷和訪談方法對PETS-4口試的內(nèi)容證據(jù)進行了研究,雖然由于試題例證的不足(僅限于2013年)以及統(tǒng)計分析的缺陷(僅僅考查百分比和平均分),本結(jié)論不能概括整個PETS-4內(nèi)容證據(jù)情況,但管中窺豹,可見一斑。本研究對PETS口試內(nèi)容效度的探索能為眾多PETS口試研究增加新的例證,對提高PETS口試的科學(xué)性和有效性作出有益探索,同時,本研究有望能啟發(fā)測試研究者采用更科學(xué)、有效的研究方法,如有聲思維法(think aloud)、內(nèi)省法(introspection)、回顧法(retrospection)等方法從不同視角對其他測量工具的效度進行更具普遍意義、更深入、細致的研究。

*本文在寫作過程中得到了上海交通大學(xué)金艷教授的悉心指導(dǎo),謹致謝忱!錯訛之處,概由本人負責。

注釋:

①I表示Interviewee,I11表示第11位接受訪談?wù)?,同理可解釋文中的I18,I13,等。限于篇幅,有興趣者可向作者索取有關(guān)錄音、視頻、文字資料。

[1]Alderson,J.C.,C.Clapham&D.Wall.Language Test Construction and Evaluation[M].Cambridge:Cambridge University Press,1995.

[2]Anastasi,A.Psychological Testing(6th ed.)[M].New York:Macmillan,1988.

[3]APA.Standards for Educational and Psychological Testing[Z].Washington,DC:APA,1999.

[4]Bachman,L.F.Fundamental Considerations in Language Testing[M].Shanghai:Shanghai Foreign Language Education Press,1990.

[5]Bachman,L.F.Modern language testing at the turn of the century:Assuring that what we count counts[J].Language Testing,2000,17(1):1-42.

[6]Bachman,L.F&A.Palmer.Language Testing in Practice[M].Oxford:Oxford University Press,1996.

[7]Cronbach,L.J.Five Perspectives on validity Argument[C].In H.Wainer&H.Braun(eds.).Test Validity.Hillsdale,NJ:Lawrence Erlbaun,1988.3-17.

[8]Douglas,D.Assessing Language for Specific Purposes:Theory and Practice[M].Cambridge:CUP,2000.

[9]ETS.Test of Spoken English and Speak Score User Guide[Z].Princeton,NJ:Educational Testing Service.http://www.toefl.org/tse/tesindex.html.2001.[2014-03-05]

[10]Khalifa,H.(ed).Student Achievement Test Development Manual[Z].Egypt:USAID,2003.

[11]Lazaraton,A.A qualitative approach to the validation of oral language tests[J].Studies in Language Testing,Ser.14.Cambridge:Cambridge University Press,2000.

[12]Lier,L.Reeling,writhing,drawling,stretching and fainting in coils:Oral proficiency interviews as conversa-

tion[J].TESOL Quarterly,1989,23(3):489-503.

[13]Luoma,S.Assessing Speaking[M].Cambridge:Cambridge University Press,2004.

[14]McNamara,T.Assessment of second language proficiency[A].In Keith Brown(ed.).Encyclopedia of Language and Linguistics[C].Elsevier Science,2006.251-271.

[15]Messick,S.A.Validity[C].In R.L.Linn(ed.).Educational Measurement(3rd.ed.).New York:Macmillan,1989.3-103.

[16]O’Sullivan,B.,C.Weir&N.Savill.Using observation checklists to validate speaking test tasks[J].Language Testing,2002,19(1):33-56.

[17]Shaw,S.&C.J.Weir.Examining writing in a second language[A].Studies in Language Testing 26[C].Cambridge:Cambridge University Press/Cambridge ESOL,2007.

[18]Weir,C.J.Understanding and Developing Language Tests[M].New York:Prentice Hall,1993.

[19]Weir,C.J.Language Testing and Validation:An Evidence-Based Approach[M].Palgrave:Macmillan,2005.

[20]高懷勇,戢煥奇,劉峰,汪定明.基于試題內(nèi)部結(jié)構(gòu)和評分過程的口試構(gòu)念效度研究——以PETS四級為例[J].山東外語教學(xué),2011,(4):49-55.

[21]高懷勇,劉峰,戢煥奇.基于測試后效證據(jù)的PETS口試效度研究[J].解放軍外國語學(xué)院學(xué)報,2014,(5):40-48.

[22]黃永紅.英語專業(yè)四級口語測試的信度和效度[J].外語研究,2006,(3):36-38.

[23]教育部考試中心.全國英語等級考試PETS口試教師指南[R].北京:教育部,2003.

[24]教育部考試中心.全國英語等級考試PETS考試指南(第二版)[R].北京:教育部,2003.

[25]金啟軍,李思國,梁興莉.全國公共英語等級考試體系:理論與實踐[J].外語與外語教學(xué),2002,(4):38-46.

[26]金艷,郭杰克.大學(xué)英語四、六級考試非面試型口語考試效度研究[J].外語界,2002,(5):72-79.

[27]李潔平.PETS口試特點及信度和效度:兼談口試中的失誤與應(yīng)試策略[J].繼續(xù)教育研究,2004,(4): 90-92.

[28]李清華.《語言測試與效度驗證——基于證據(jù)的研究方法》述介[J].現(xiàn)代外語,2007,(2):214-217.

[29]劉慶思.全國英語等級考試(PETS)計算機輔助口語考試研究[J].中國外語,2008,(2):7-9.

[30]呂長宏,宋冰,王焰,劉文麗.口語測試評分標準比較研究[J].外語教學(xué)與研究,2008,(6):453-458.

[31]龐繼賢,潘文紅.PETS-3口試的會話分析[J].外語與外語教學(xué),2007,(10):12-17.

[32]王保云.外語口試的形式評析——面試、錄音口試和機助測試[J].外語電化教學(xué),2006,(1):60-64.

[33]王海貞.基于評分過程證據(jù)的英語專業(yè)四級口試效度研究[J].解放軍外國語學(xué)院學(xué)報,2007,(4):49-53.

[34]肖德法,向平.交際策略與PETS口試研究[J].外語與外語教學(xué),2004,(12):16-18.

[35]向平.論提高PETS口試評分的信度——對一次PETS口試量分統(tǒng)計結(jié)果的思考[J].中國成人教育,2003,(12):87-89.

[36]向平,肖德法.PETS口試對成人英語口語教學(xué)的啟示[J].中國成人教育,2003,(10):74-75.

[37]楊惠中,C.J.Weir.大學(xué)英語四、六級考試效度研究[M].上海:上海外語教育出版社,1998.

[38]楊莉芳.近二十年口語測試研究中存在的主要問題[J].外語教學(xué),2006,(1):42-48.

[39]鄒瓊.普通高校大學(xué)英語口語水平測試模式研究[J].四川外語學(xué)院學(xué)報,2007,(6):71-74.

Validation Study of PETS-4 Oral Test:A Study Based on Content Evidence

GAO Huai-yong,LIU Feng,JI Huan-qi
(College of Literature and Law,Sichuan Agricultural University,Ya’an 625014,China)

This study,employing checklist,questionnaire and interview,validated PETS-4 oral test administered in Sep 2013,on the basis of content-related evidence by collecting evidence from“content-related”,“content-coverage”,“task demand”and features of“the context of oral test”.The results indicate that:1)test tasks in PETS-4 do represent and cover the target domain;2)The characteristics of test tasks and contexts both facilitate the construct supposed to be tested,specifically:(1)test-tasks in PETS-4 fully represent the presupposed characteristics of oral communication in terms of discourse mode,communicative function,channel and authenticity.Language input of interlocutors is strict and uniform;(2) settings and administration settings all meet the general requirements of oral test.Considering the evidence listed above,we may conclude that PETS-4 oral test administered in Sep 2013 is of high validity in term s of content-related evidence.

Public English Test System;oral test;validity;content-related evidence

H319

A

1002-2643(2015)03-0047-10

10.16482/j.sdwy37-1026.2015-03-006

2014-09-08

本文為國家社科基金項目“整體效度觀下的語言測試效度研究:基于證據(jù)的效度驗證”(項目編號:13BYY085)的部分成果。

高懷勇(1974-),男,四川雅安人,碩士,副教授。研究方向:語言測試。劉峰(1980-),男,江西吉首人,博士,講師。研究方向:二語習(xí)得、語言測試。戢煥奇(1975-),男,四川眉山人,碩士,講師。研究方向:應(yīng)用語言學(xué)。

猜你喜歡
口試效度
《廣東地區(qū)兒童中醫(yī)體質(zhì)辨識量表》的信度和效度研究
我省將于7月25日前公布高考成績及錄取分數(shù)線
科教新報(2020年28期)2020-07-21 06:43:12
開展數(shù)學(xué)口試,提升學(xué)生數(shù)學(xué)核心素養(yǎng)
新教師(2020年12期)2020-03-11 02:58:50
慈善募捐規(guī)制中的國家與社會:兼論《慈善法》的效度和限度
PETS口試評分培訓(xùn)效果的多面Rasch分析
耳鳴殘疾問卷中文版的信度和效度檢驗及其臨床應(yīng)用
被看重感指數(shù)在中國大學(xué)生中的構(gòu)念效度
外語形成性評估的效度驗證框架
BEC加試:口試成了成敗關(guān)鍵
海外英語(2013年7期)2013-11-22 08:25:45
復(fù)雜圖形測驗對區(qū)分阿爾茨海默病與非癡呆的診斷效度
乐东| 开封县| 丽江市| 铜川市| 山东省| 襄垣县| 东平县| 酒泉市| 霍州市| 呼伦贝尔市| 南江县| 南华县| 镇雄县| 都江堰市| 略阳县| 于田县| 武定县| 漾濞| 镇坪县| 泸州市| 凤山县| 盖州市| 贞丰县| 宁远县| 金山区| 深水埗区| 新巴尔虎左旗| 土默特左旗| 花莲市| 南部县| 黑龙江省| 遵化市| 沅江市| 墨玉县| 五常市| 岳阳市| 万源市| 宝兴县| 衡阳市| 余江县| 大港区|