基于內(nèi)容證據(jù)的PETS－4口試效度研究

2015-12-14 05:03:45高懷勇劉鋒戢煥奇

山東外語教學(xué) 2015年3期

關(guān)鍵詞：口試效度

高懷勇，劉鋒，戢煥奇

(四川農(nóng)業(yè)大學(xué)文法學(xué)院，四川雅安 625014)

基于內(nèi)容證據(jù)的PETS－4口試效度研究

高懷勇，劉鋒，戢煥奇

(四川農(nóng)業(yè)大學(xué)文法學(xué)院，四川雅安 625014)

本研究依據(jù)語言測試效度理論，通過檢查表、問卷調(diào)查和訪談方法收集“內(nèi)容相關(guān)與內(nèi)容覆蓋”、“測試任務(wù)特征”和“測試實施環(huán)境特征”等口試的“內(nèi)容證據(jù)”，檢驗了2013年9月PETS－4口試的效度。研究結(jié)果表明:1)PETS－4口試任務(wù)內(nèi)容相關(guān)和內(nèi)容覆蓋恰當，符合預(yù)設(shè)的考查內(nèi)容與目標;2)PETS－4口試任務(wù)特征和實施環(huán)境特征有利于擬測構(gòu)念的表現(xiàn)，具體表現(xiàn)為:(1)口試任務(wù)充分體現(xiàn)了測試設(shè)計者預(yù)設(shè)的“交際模式”、“交際功能”、“口試渠道”和“真實性”等口試特征，考官語言輸出用語嚴格一致;(2)測試場景、施測程序符合測試整體要求。上述證據(jù)綜合表明2013年9月的PETS－4口試在內(nèi)容證據(jù)方面具有較高的效度。［關(guān)鍵詞］全國公共英語等級考試;口試;效度;內(nèi)容證據(jù)

1.0 引言

作為行為測試(performance testing)之一的英語口語測試歷來為研究者所關(guān)注，如:口試研究綜述(楊莉芳，2006;王保云，2006;鄒瓊，2007;呂長宏等，2008)，CET口試效度研究(金艷、郭杰克，2002)，TEM口試效度研究(王海貞，2007;黃永紅，2006)。PETS(全國公共英語等級考試)是教育部考試中心設(shè)計并組織實施的全國性標準化英語考試，在我國有很強的影響力，其口試研究亦受到學(xué)界廣泛關(guān)注。縱觀目前國內(nèi)PETS口試研究，雖然在口試特點與交際特征(李潔平，2004;龐繼賢、潘文紅，2007;肖德法、向平，2004)、口試體系設(shè)計及其特色(劉慶思，2008;金啟軍等，2002)、口試與口語教學(xué)之關(guān)系(向平、肖德法，2003)、口試評分信度(向平，2003)等方面有廣度和深度的發(fā)展，但就PETS口試效度研究而言，相關(guān)研究缺乏。雖然高懷勇等(2011，2014)探討過PETS口試效度，但其研究僅限于評分過程、試題內(nèi)部結(jié)構(gòu)分析和測試后效研究。作為大規(guī)模、高風險測試之一的PETS口試，對其效度的考查不可依賴單一證據(jù)，有必要從不同角度收集證據(jù)來考察其準確性與科學(xué)性。國外雖然有學(xué)者用檢查表法(observation checklist)(如O’Sullivan et al.，2002)和會話分析法(如Lazaraton，2000)從內(nèi)容證據(jù)視角檢驗過英語口試的效度，但其研究對象為劍橋大學(xué)考試委員(UCLES)編制的英語口試系統(tǒng)，PETS口試在內(nèi)容證據(jù)方面效度如何，有待進一步驗證?；诖?，本研究依據(jù)語言測試效度理論，采用檢查表(checklist)、問卷調(diào)查和訪談方法從以下三方面收集“內(nèi)容證據(jù)”來檢驗PETS－4口試的效度:1)內(nèi)容相關(guān)和內(nèi)容覆蓋;2)口試任務(wù)特征;3)口試實施環(huán)境特征。

2.0 效度理論框架

要談測試，必須從測試效度的涵義開始。效度是“測量工具確能測出其所要測量特質(zhì)的程度”(楊惠中＆Weir，1998:1)，即測試的準確性和有效性。Messick(1989:7)將效度的涵義界定為“證據(jù)和理論依據(jù)支持基于測試分數(shù)或其它評估方式所做出的推斷或采取的行動的程度”。效度是決定語言測試與評價質(zhì)量的關(guān)鍵(Alderson et al.，1995;Bachman，1990;Messick，1989;Weir，2005)，是科學(xué)的測量工具所必須具備的最重要的條件之一。自20世紀60年代以來，效度問題成為“語言測試國際研討會的一個永恒話題，并將一如既往”(Bachman，2000: 22)。20世紀90年代后，效度被普遍認為是一個整體概念 (Messick，1989;Bachman，1990; Cronbach，1988;Anastasi，1988;Weir，2005)，該效度框架下的基本觀點有:1)效度是一個整體概論，構(gòu)念效度是其核心，傳統(tǒng)上不同的效度種類是構(gòu)念效度的不同證據(jù)來源;2)效驗即舉證，效度驗證過程是所有測試使用者舉證說明其合理性的過程。

測試界對效驗證據(jù)的討論由來已久，如Bachmann(1990)認為，效驗證據(jù)應(yīng)包含:內(nèi)容相關(guān)與覆蓋、效標關(guān)聯(lián)性、測試公平性。美國心理學(xué)會(APA 1999)則認為效驗證據(jù)來源有五類:測試內(nèi)容、反應(yīng)過程、內(nèi)部結(jié)構(gòu)、與其他變量關(guān)系和測試后效。在此基礎(chǔ)上，Weir(2005)和Shaw＆Weir(2007)從實踐操作的角度對效度證據(jù)進行了梳理，他們認為效驗證據(jù)有以下五方面:1)理論證據(jù)或認知效度;2)內(nèi)容證據(jù)或環(huán)境效度;3)評分證據(jù);4)測試后效證據(jù);5)效標關(guān)聯(lián)證據(jù)。其中“內(nèi)容證據(jù)”是“影響交際語言測試質(zhì)量的決定性因素”(Douglas，2000)。Bachman將內(nèi)容證據(jù)分為“內(nèi)容相關(guān)”、“內(nèi)容覆蓋”和“測試方法”(method facets)三方面。內(nèi)容相關(guān)指“對相關(guān)測試的表現(xiàn)行為(即相關(guān)能力)與相應(yīng)任務(wù)的具體明細或說明”(1990:244)。具體來說，內(nèi)容相關(guān)包括:1)對擬測能力理論構(gòu)念的闡述與界定;2)對擬測能力所涉及的相應(yīng)任務(wù)和指標的詳細說明。內(nèi)容覆蓋指“測試任務(wù)能代表所測能力各方面的程度”(Messick，1989:

10)。也就是說，內(nèi)容相關(guān)與測試設(shè)計者對擬測能力構(gòu)念與測試任務(wù)的界定與詳細指標說明有關(guān)，內(nèi)容覆蓋與測試任務(wù)代表擬測能力的程度有關(guān)。換言之，對內(nèi)容相關(guān)和內(nèi)容覆蓋的考察可以通過對比考試設(shè)計者對擬測構(gòu)念和考試內(nèi)容的具體要求與考試相關(guān)者(考官與考生)和測試專家對該考試的認識而獲得。Bachman雖然提出了“測試方法”維度，卻沒有提出具體的操作方法。鑒于此，Weir對測試方法進行了細化，他認為“一項測試中所選擇的任務(wù)……與任務(wù)本身對語言和應(yīng)試者的能力要求有關(guān)，也與任務(wù)本身和任務(wù)實施環(huán)境所要求的條件有關(guān)”(2005:19)。也就是說，內(nèi)容證據(jù)除了應(yīng)該考察測試所要測量能力的詳細指標(即內(nèi)容相關(guān))和測試任務(wù)的代表性(即內(nèi)容覆蓋)外，還應(yīng)包括“測試任務(wù)特征“和“測試實施環(huán)境特征”。在討論口試效度驗證時，Weir將口試“任務(wù)特征”分為“語言輸入與輸出”和交談考官(interlocutor)兩個方面。前者主要考量口試參與者在口試過程中的語言“交際模式”、“交際功能”、“口試渠道”(即測試口試的方式)和“真實性”四個方面(Weir，2005:46)。后者主要考查考官的語言輸出。“實施環(huán)境特征”是“測試環(huán)境接近真實語言使用環(huán)境的程度”(O’Sullivan et al.，2002:33－56)，即測試物質(zhì)環(huán)境應(yīng)符合測試要求，操作程序應(yīng)一致(李清華，2007)。正是為了突出語言使用的社會性，Weir才強調(diào)收集“任務(wù)特征”和“實施環(huán)境特征”的重要性，因為語言測試過程不是發(fā)生在真空中，只有了解測試任務(wù)特征和真實的語言使用環(huán)境，我們才有可能使語言測試任務(wù)盡可能復(fù)制(模擬)這種過程，從而反映受試使用語言的真實能力(李清華，2007)。

圖1 口語測試“內(nèi)容證據(jù)”考查示意圖

上述理論探討促進了人們對測試內(nèi)容證據(jù)機理的認識，但是作為有影響的大規(guī)模測試之一的PETS口試，對其測試內(nèi)容方面的效度考查不可依賴主觀想象簡單推測。有必要在具體的社會環(huán)境下進行實證研究?；诖?，本研究擬考查PETS口試相關(guān)人員(考試中的考官與考生)和測試專家對該測試的認識在多大程度上與測試設(shè)計者的預(yù)設(shè)目標相一致，其操作機理如圖1所示。

3.0 研究設(shè)計

3.1 研究問題

本研究擬回答以下兩個問題:

1)PETS－4口試任務(wù)“內(nèi)容相關(guān)和內(nèi)容覆蓋”是否符合預(yù)設(shè)的考查內(nèi)容與目標?具體要回答的問題是:(1)PETS－4口試測試任務(wù)是否考查了擬測構(gòu)念的詳細指標?(2)PETS－4口試測試任務(wù)能否充分代表擬測構(gòu)念?

2)PETS－4口試任務(wù)特征和實施環(huán)境特征是否有利于應(yīng)測構(gòu)念的表現(xiàn)?具體要回答的問題是:(1)PETS－4測試任務(wù)是否充分體現(xiàn)測試設(shè)計者預(yù)設(shè)的特征?(2)interlocutor的語言輸出是否有利于擬測構(gòu)念的表現(xiàn)?(3)PETS－4測試物質(zhì)環(huán)境與操作程序是否有利于擬測構(gòu)念的表現(xiàn)?

3.2 研究對象

參加本研究檢查表調(diào)查的對象為13位國內(nèi)語言測試專家(2位為博導(dǎo)，11位為博士或博士后研究人員)。參加本研究問卷調(diào)查的對象有:1)參加先導(dǎo)性實驗的60名四川某高職院?？忌?均參加了2012年9月PETS－4口試);2)川、陜兩地參加2013年9月PETS－4口試的考生461人，考官38人(其中30人為英語口語教師，8人為專業(yè)從事語言測試的教育行政人員)。參加本研究訪談的對象為參加上述問卷調(diào)查的10位考官(7位英語口語教師和3位教育行政人員)和20名考生。

3.3 研究工具

本研究根據(jù)《PETS考試指南》下稱《指南》)，對口語能力的界定及考試內(nèi)容的要求并結(jié)合O’Sullivan(2002)的口試內(nèi)容證據(jù)特征量表設(shè)計了PETS－4口試內(nèi)容證據(jù)調(diào)查問卷，訪談提綱和檢查表。在進行正式研究之前，本研究進行了先導(dǎo)性實驗，目的在于確定問卷的信度與結(jié)構(gòu)效度。根據(jù)第一次先導(dǎo)性實驗(30名受試)結(jié)果，研究者對問卷進行了修改(如拆分、合并部分問卷題目;避免使用生僻術(shù)語，必要時在問卷中進行特別說明、解釋，以避免調(diào)查對象不理解問卷內(nèi)容)。并進行第二次先導(dǎo)性實驗(另30名受試)，通過SPSS16.0對實驗結(jié)果進行因子分析和信度分析，結(jié)果見表1和圖2。從表1和圖2可見:問卷中的27個問題包含3個維度(因子)，第一個維度為問題1－12，調(diào)查有關(guān)PETS－4“內(nèi)容相關(guān)與內(nèi)容覆蓋”，其信度為0.816;第二個維度為問題13－25，調(diào)查PETS－4“口試任務(wù)特征”，其信度為0.848;第三個維度為問題26－27，考察PET－4“實施環(huán)境特征”，其信度為0.864。整個問卷的內(nèi)部一致性系數(shù)為R=0.92。訪談提綱包括有關(guān)內(nèi)容證據(jù)三個方面的六個問題。檢查表是用專業(yè)術(shù)語對問卷的提煉，與問卷內(nèi)容一致。

表1 內(nèi)容證據(jù)調(diào)查問卷結(jié)構(gòu)、因子分析與信度分析表

圖2 調(diào)查問卷因子結(jié)構(gòu)圖

3.4 研究步驟與數(shù)據(jù)收集

征得考場同意，研究者對4個考室進行口試過程全程錄像，并隨機選擇了8組考生(每個考室4人，共16人)的錄像文件作為測試專家在檢查表上評判的依據(jù)(觀看視頻錄像后作出選擇)。錄像內(nèi)容隨同檢查表及PETS－4口試試卷(見附錄4)一同通過電子郵件發(fā)給13位專家。檢查表在兩個月內(nèi)完成。問卷調(diào)查在口試結(jié)束后進行，時間約20分鐘。為避免問卷調(diào)查本身的局限性，本研究于問卷調(diào)查結(jié)束后對10位口試考官和20名學(xué)生進行訪談。對考官的訪談采用半開放一對一式訪談(semi-structured)，時間為15分鐘/人。對學(xué)生的訪談以5人/組/15分鐘的形式進行。檢查表和調(diào)查問卷采用利克特五級量表。調(diào)查對象在量表上的選擇表明他們對選項的態(tài)度:1=完全不同意;2=不同意;3=不知道;4=同意;5=完全同意。分數(shù)的高低代表同意的程度。本研究發(fā)出檢查表13份，問卷499份，收回有效檢查表11份，問卷442份。我們對訪談內(nèi)容進行錄音和文字轉(zhuǎn)換以備后用。

4.0 結(jié)果與討論

調(diào)查統(tǒng)計結(jié)果顯示(見表2)，測試專家、考生和考官普遍認為PETS－4口試在內(nèi)容證據(jù)方面有較高效度:92.63%的考官和考生(下稱受試)和87.12%的專家認為PETS－4口試測試任務(wù)考查了擬測構(gòu)念的詳細指標，充分代表了擬測構(gòu)念;92.09%的受試和96.03%的專家贊成PETS－4測試任務(wù)充分體現(xiàn)了測試設(shè)計者預(yù)設(shè)的特征，考官語言輸出用語嚴格一致，有利于擬測構(gòu)念的表現(xiàn);88.47%的受試和84.24%的專家贊成PETS－4測試物質(zhì)環(huán)境與操作程序均有利于擬測構(gòu)念的表現(xiàn)。為使我們收集的證據(jù)有說服力，下面我們結(jié)合問卷結(jié)果和訪談結(jié)果進一步分析討論“內(nèi)容相關(guān)和內(nèi)容覆蓋”、“口試任務(wù)特征”和“實施環(huán)境特征”證據(jù)。

4.1 內(nèi)容相關(guān)和內(nèi)容覆蓋

問卷中有關(guān)“內(nèi)容相關(guān)與內(nèi)容覆蓋”的問題(1－12題)是根據(jù)《指南》對口語能力的界定及考試內(nèi)容的要求而進行設(shè)計的。《指南》中詳細界定了PETS－4口試的擬測構(gòu)念及其詳細指標，并對PETS－4口試測試內(nèi)容有較清晰的界定與闡述(2003:22)。將《指南》對考試構(gòu)念和內(nèi)容的要求與考試相關(guān)者(考官與考生)以及測試專家對該考試的認識進行比對，我們可以檢驗PETS－4口試“內(nèi)容相關(guān)與內(nèi)容覆蓋”是否達到了《指南》的總體設(shè)計目標。如果施測任務(wù)與《指南》要求一致，我們就得到了內(nèi)容相關(guān)和覆蓋的一個證據(jù)(McNamara，2006)。從表2

可見，87.12%的專家和92.63%的受試贊成PETS－4口試測試任務(wù)考查了《指南》擬測的口語能力及其詳細指標，充分代表了擬測的口語能力(M分別為3.656和4.194)。這一結(jié)論也在訪談中得到了印證，大多數(shù)訪談?wù)?如I5，I13，I16，I22)①均認為PETS－4考查了“英語口語的各方面能力，任務(wù)覆蓋面廣，很全面，類型眾多……要求層次不一”。因此PETS－4各項測試任務(wù)都滿足了《指南》對口語能力的要求和覆蓋范圍。因此我們得出結(jié)論:PETS－4口試任務(wù)“內(nèi)容相關(guān)和內(nèi)容覆蓋”符合預(yù)設(shè)的考查內(nèi)容與目標。

表2 調(diào)查問卷結(jié)果統(tǒng)計(N=463)

4.2 口試任務(wù)特征

4.2.1 交際模式

口試中誘導(dǎo)出的話語功能和交互性受不同交際模式的影響(Lier，1989)。口試的交互性程度“取決于所采用的交際模式，如講座、面試、對話等”(Weir，2005:71)。對話是比較理想的交際模式，原因在于在該交際模式下，交際雙方同等擁有話語權(quán)和交際責任，而不是由考官獨自控制話語權(quán)，承擔交際責任(同上)。因此，“一項有效度的口試必須包含交互性”(同上: 72)。從表2可見，所有專家和98.75%的受試贊成PETS－4口試的交際模式主要是強調(diào)交際的“互動性”與“責任”的面對面對話模式(第13題)。綜合起來，訪談?wù)哒J為面對面對話模式有利于體現(xiàn)口試的互動性(I23，I26)。測試題目的設(shè)定方便考生參與到交際中去，彼此應(yīng)答，接替話輪，共同承擔交際責任、構(gòu)建對話、完成言語交際任務(wù)，實現(xiàn)口語交際的“社會性”(Luoma，2004:20)?？脊買28認為:“有信息差的試題設(shè)計使得聽話者必須根據(jù)講話者的內(nèi)容組織語言，講話者必須根據(jù)聽話者的反應(yīng)調(diào)節(jié)自己的詞匯和信息，因為對話雙方持有的信息不均等，需要進行真實的交際溝通。所有的交際都是以信息溝通為出發(fā)點，而不是以語言形式為出發(fā)點，信息的獲取和信息的表達都是在參與交際的各方之間互動完成。這與傳統(tǒng)的口語考試中考官提問考生回答截然不同”。

4.2.2 交際功能

口試中的“交際功能”(即話語的illocutionary force)是口語測試與評估中重要的考量因素(ETS 2001)。根據(jù)歐盟2001年制定的《歐洲語言通用參照框架》，交際功能可以分為兩類:宏觀功能和微觀功能(Luoma，2004)。前者指使用語塊描述、敘述、評價、解釋等;后者指實施請求、道歉、邀請、勸說、建議等具體語言行為。口語任務(wù)應(yīng)該考查這兩方面的能力(O’Sullivan et al.，2002)。由表2可見，分別有83.76%受試和84.25%的專家認為PETS－4有效考查了語言的交際功能，具體情況見表3。結(jié)合訪談內(nèi)容，訪談?wù)逫1，I26，I29認為PETS－4通過詢問考生有關(guān)生活、工作、學(xué)習(xí)等方面的問題考查考生問候、打招呼、道歉、致謝等微觀功能。而訪談?wù)逫28，I29，I30則認為利用有信息差的圖片PETS－4考查了描述、敘述、評價、解釋等宏觀功能。PETS－4可以說是綜合考查語言宏觀功能和微觀功能的測試模式典范之一。

4.2.3 口試渠道

“口試渠道”指通過什么方式來測試，是面對面談話、電話談話、看圖說話還是獨白等。測試方式不一樣，誘導(dǎo)出的語言產(chǎn)出會有差別(Weir，2005)。表2顯示，所有專家和94.96%的受試贊成PETS－4口試以面對面對話方式為口試渠道。一接受訪談的考官(I21)以一項測試任務(wù)為例說明PETS－4口試的測試渠道:考官分別給兩考生具體內(nèi)容不同但都是關(guān)于“野外生存”的圖片，要求考生進行交互描述，告訴對方自己圖片的內(nèi)容(如，一考生持有圖片顯示野外生存需要“火柴、帳篷，電話”等工具，而另一考生持有的圖片顯示野外生存需要“手電筒、指南針、藥品、水”等必須品，考生需要就圖片信息進行描述、溝通)，在溝通的基礎(chǔ)上，考生相互討論、協(xié)商并決定野外生存需要帶哪些物品，并說明選用該物品的理由，并最終形成野外生存物品必備清單(問題解決)。面對面口試渠道無疑有助于誘導(dǎo)出反映受試口語真實水平的樣本。適當?shù)目谠嚽篮筒蓸尤蝿?wù)的多樣化(問候－描述－討論－問題解決)是保證測試效度的一個重要因素(Bachman＆Palmer，1996)。

4.2.4 真實性

真實性是決定一項測試質(zhì)量的關(guān)鍵指標之一，是“一項測試任務(wù)特征與目的語使用任務(wù)特征的一致性程度”(Bachman＆Palmer，1996:23)，一致性程度越高，測試真實性就越高(Bachman，1990:123)。測試任務(wù)真實性的考查離不開對目的語使用特征的考查。英國語言測試專家Weir(1993)對目的語使用特征作了比較詳盡的描述，他認為操本族語者的英語技能主要體現(xiàn)在三個方面:(1)常規(guī)技能(routine)，如問候、陳述、解釋等;(2)即席技能(improvisational)，如表明目的、確認不/理解、尋求提示等;(3)微觀語言技能(micro-linguistic)，如話輪轉(zhuǎn)換、補償策略等。調(diào)查結(jié)果顯示(見表2)，分別有83.74%的受試和85.92%的專家贊成PETS－4口試任務(wù)考查了這三種口語技能，具有真實性，具體情況見表4。訪談考官I21和I26認為在微觀語言技能方面，PETS－4口試中圖片的描述與討論起著關(guān)鍵的作用。由不同圖片指示誘導(dǎo)難度呈等級、具有信息差的一般性話題使考生無論是在“圖片描述”環(huán)節(jié)還是在“討論與問題解決”環(huán)節(jié)都要進行必要的話輪轉(zhuǎn)換、修正、補救策略甚至尋求提示等以順利完成交際任務(wù)(龐繼賢、潘文紅，2007)。多數(shù)訪談考生與考官都認為無論是從“問候”到“描述”，還是從“討論”到“問題解決”，PETS－4均對語言的三種技能進行了全面考察?？梢哉f這是一種符合現(xiàn)代語言交際理論有交際真實性的口試形式。

表4 PETS－4口試真實性調(diào)查結(jié)果(N=463)

4.2.5 Interlocutor的語言輸入

“口試考官因素可能是口試中最難界定的變量”(Weir，2005:80)。只要口語測試中有考官的參與，他們說什么、做什么，對考生的表現(xiàn)都有影響。在PETS－4口試中，考官的語言指令對考生完成測試中規(guī)定的任務(wù)有很大影響。如interlocutor的語速、口音、清晰度、語篇長度等都會對考生測試表現(xiàn)產(chǎn)生影響(Weir，2005:154)。作為interlocutor的考官技能和可比較性是測試是否公正的重要考量因素(Luoma，2004:52)。因此測試開發(fā)者應(yīng)盡量編制清晰、明白、一致的考官指令，對考官進行培訓(xùn)和認證(Bachman＆Palmer，1996)。為了保證測試效度，PETS－4口試對考官培訓(xùn)、考官資格認證，特別是考場指令(如考官在測試中講話的多少、講話的復(fù)雜程度、話語的所指范圍、語言的功能范圍等)都做出了詳盡規(guī)定(《PETS口試教師指南》，2003:4)。這一點得到了調(diào)查結(jié)果和訪談結(jié)果的印證:所有訪談?wù)?、測試專家和98.79%的受試均認為interlocutor的語言輸入嚴格一致。其中所有專家和98%的受試認為考官主持考試的指導(dǎo)語是嚴格一致的(第24題)，95.58%的受試和所有專家贊成考官的語言輸入不因考生而異、不因考場而異(第25題)確保了口試的公平性。這是直接測試中非常難得的。

4.3 實施環(huán)境特征

測試實施的物質(zhì)環(huán)境和實測程序會影響考生的測試體會從而影響考試結(jié)果，對保證測試的公正和可比性尤為重要(Luoma，2004)。測試物質(zhì)環(huán)境具體指口試考場的布景和座位安排等。在口語測試中，如果物質(zhì)環(huán)境不能反映出考生將來所使用的語言，那么考試效度將受到威脅(Khalifa，2003)。實測程序的差異會誘導(dǎo)出不同的語言產(chǎn)出，從而影響考生表現(xiàn)(Weir，2005)。調(diào)查結(jié)果顯示85.47%的受試和84.24%的專家同意PETS－4口試的實施環(huán)境有利于擬測構(gòu)念的表現(xiàn)(見表2)。訪談考官I26和I28認為，在統(tǒng)一的施測程序下，PETS－4的施測程序嚴格一致。這一點也得到82.36%的受試和86.5%的專家認同(第26題)。在考場的布景上，88.58%的受試和81.98%的專家認為PETS－4考場的布景創(chuàng)造了輕松的氣氛(第27題)。這一點得到訪談結(jié)果的印證，訪談考官I23和I27認為PETS－4口試對考場房間大小、桌子擺放位置和擺放方式、燈光位置、光線強度等都有具體規(guī)定與要求(如房間不宜過大，燈光或陽光不能從考官的背后照射過來;應(yīng)該將桌子擺在距門不遠的地方，避免考生因在口試考官的注視下穿過房間而緊張;考官應(yīng)該同考生呈直角就坐，避免考生和考官面對面以減少考生的緊張感)。考生越放松，所產(chǎn)出語言的采樣量越大，受與構(gòu)念無關(guān)變量影響也就越少，口試效度也就越高(Messick，1989)。測試環(huán)境設(shè)置和施測過程的人性化是PETS－4口試同等關(guān)注語言測試社會認知維度的真實體現(xiàn)。

5.0 結(jié)語

綜上所述，本研究通過檢查表、調(diào)查問卷和訪談方法收集PETS－4口試“內(nèi)容相關(guān)和內(nèi)容覆蓋”、“任務(wù)特征”和“實施環(huán)境特征”等口試的“內(nèi)容證據(jù)”，驗證了PETS－4口試的效度。

分析結(jié)果表明:1)PETS－4口試測試任務(wù)考查了《指南》規(guī)定的口語能力詳細指標，口試測試任務(wù)充分代表了擬測口語能力。表明PETS－4口試“內(nèi)容相關(guān)和內(nèi)容覆蓋”符合預(yù)設(shè)的考查內(nèi)容與目標。2)口試任務(wù)充分體現(xiàn)了測試設(shè)計者預(yù)設(shè)的“交際模式”、“交際功能”、“口試渠道”和“真實性”等特征，考官的語言輸出嚴格一致，增強了測試的效度。測試物質(zhì)環(huán)境符合測試總體要求、施測程序一致。即PETS－4口試任務(wù)特征和實施環(huán)境特征有利于擬測構(gòu)念的表現(xiàn)。這些源自不同渠道的證據(jù)綜合表明2013年9月的PETS－4口試在內(nèi)容證據(jù)方面有很高的效度。

本研究通過檢查表、調(diào)查問卷和訪談方法對PETS－4口試的內(nèi)容證據(jù)進行了研究，雖然由于試題例證的不足(僅限于2013年)以及統(tǒng)計分析的缺陷(僅僅考查百分比和平均分)，本結(jié)論不能概括整個PETS－4內(nèi)容證據(jù)情況，但管中窺豹，可見一斑。本研究對PETS口試內(nèi)容效度的探索能為眾多PETS口試研究增加新的例證，對提高PETS口試的科學(xué)性和有效性作出有益探索，同時，本研究有望能啟發(fā)測試研究者采用更科學(xué)、有效的研究方法，如有聲思維法(think aloud)、內(nèi)省法(introspection)、回顧法(retrospection)等方法從不同視角對其他測量工具的效度進行更具普遍意義、更深入、細致的研究。

*本文在寫作過程中得到了上海交通大學(xué)金艷教授的悉心指導(dǎo)，謹致謝忱!錯訛之處，概由本人負責。

注釋:

①I表示Interviewee，I11表示第11位接受訪談?wù)?，同理可解釋文中的I18，I13，等。限于篇幅，有興趣者可向作者索取有關(guān)錄音、視頻、文字資料。

［1］Alderson，J.C.，C.Clapham＆D.Wall.Language Test Construction and Evaluation［M］.Cambridge:Cambridge University Press，1995.

［2］Anastasi，A.Psychological Testing(6th ed.)［M］.New York:Macmillan，1988.

［3］APA.Standards for Educational and Psychological Testing［Z］.Washington，DC:APA，1999.

［4］Bachman，L.F.Fundamental Considerations in Language Testing［M］.Shanghai:Shanghai Foreign Language Education Press，1990.

［5］Bachman，L.F.Modern language testing at the turn of the century:Assuring that what we count counts［J］.Language Testing，2000，17(1):1－42.

［6］Bachman，L.F＆A.Palmer.Language Testing in Practice［M］.Oxford:Oxford University Press，1996.

［7］Cronbach，L.J.Five Perspectives on validity Argument［C］.In H.Wainer＆H.Braun(eds.).Test Validity.Hillsdale，NJ:Lawrence Erlbaun，1988.3－17.

［8］Douglas，D.Assessing Language for Specific Purposes:Theory and Practice［M］.Cambridge:CUP，2000.

［9］ETS.Test of Spoken English and Speak Score User Guide［Z］.Princeton，NJ:Educational Testing Service.http://www.toefl.org/tse/tesindex.html.2001.［2014-03-05］

［10］Khalifa，H.(ed).Student Achievement Test Development Manual［Z］.Egypt:USAID，2003.

［11］Lazaraton，A.A qualitative approach to the validation of oral language tests［J］.Studies in Language Testing，Ser.14.Cambridge:Cambridge University Press，2000.

［12］Lier，L.Reeling，writhing，drawling，stretching and fainting in coils:Oral proficiency interviews as conversa-

tion［J］.TESOL Quarterly，1989，23(3):489－503.

［13］Luoma，S.Assessing Speaking［M］.Cambridge:Cambridge University Press，2004.

［14］McNamara，T.Assessment of second language proficiency［A］.In Keith Brown(ed.).Encyclopedia of Language and Linguistics［C］.Elsevier Science，2006.251－271.

［15］Messick，S.A.Validity［C］.In R.L.Linn(ed.).Educational Measurement(3rd.ed.).New York:Macmillan，1989.3－103.

［16］O’Sullivan，B.，C.Weir＆N.Savill.Using observation checklists to validate speaking test tasks［J］.Language Testing，2002，19(1):33－56.

［17］Shaw，S.＆C.J.Weir.Examining writing in a second language［A］.Studies in Language Testing 26［C］.Cambridge:Cambridge University Press/Cambridge ESOL，2007.

［18］Weir，C.J.Understanding and Developing Language Tests［M］.New York:Prentice Hall，1993.

［19］Weir，C.J.Language Testing and Validation:An Evidence-Based Approach［M］.Palgrave:Macmillan，2005.

［20］高懷勇，戢煥奇，劉峰，汪定明.基于試題內(nèi)部結(jié)構(gòu)和評分過程的口試構(gòu)念效度研究——以PETS四級為例［J］.山東外語教學(xué)，2011，(4):49－55.

［21］高懷勇，劉峰，戢煥奇.基于測試后效證據(jù)的PETS口試效度研究［J］.解放軍外國語學(xué)院學(xué)報，2014，(5):40－48.

［22］黃永紅.英語專業(yè)四級口語測試的信度和效度［J］.外語研究，2006，(3):36－38.

［23］教育部考試中心.全國英語等級考試PETS口試教師指南［R］.北京:教育部，2003.

［24］教育部考試中心.全國英語等級考試PETS考試指南(第二版)［R］.北京:教育部，2003.

［25］金啟軍，李思國，梁興莉.全國公共英語等級考試體系:理論與實踐［J］.外語與外語教學(xué)，2002，(4):38－46.

［26］金艷，郭杰克.大學(xué)英語四、六級考試非面試型口語考試效度研究［J］.外語界，2002，(5):72－79.

［27］李潔平.PETS口試特點及信度和效度:兼談口試中的失誤與應(yīng)試策略［J］.繼續(xù)教育研究，2004，(4): 90－92.

［28］李清華.《語言測試與效度驗證——基于證據(jù)的研究方法》述介［J］.現(xiàn)代外語，2007，(2):214－217.

［29］劉慶思.全國英語等級考試(PETS)計算機輔助口語考試研究［J］.中國外語，2008，(2):7－9.

［30］呂長宏，宋冰，王焰，劉文麗.口語測試評分標準比較研究［J］.外語教學(xué)與研究，2008，(6):453－458.

［31］龐繼賢，潘文紅.PETS－3口試的會話分析［J］.外語與外語教學(xué)，2007，(10):12－17.

［32］王保云.外語口試的形式評析——面試、錄音口試和機助測試［J］.外語電化教學(xué)，2006，(1):60－64.

［33］王海貞.基于評分過程證據(jù)的英語專業(yè)四級口試效度研究［J］.解放軍外國語學(xué)院學(xué)報，2007，(4):49－53.

［34］肖德法，向平.交際策略與PETS口試研究［J］.外語與外語教學(xué)，2004，(12):16－18.

［35］向平.論提高PETS口試評分的信度——對一次PETS口試量分統(tǒng)計結(jié)果的思考［J］.中國成人教育，2003，(12):87－89.

［36］向平，肖德法.PETS口試對成人英語口語教學(xué)的啟示［J］.中國成人教育，2003，(10):74－75.

［37］楊惠中，C.J.Weir.大學(xué)英語四、六級考試效度研究［M］.上海:上海外語教育出版社，1998.

［38］楊莉芳.近二十年口語測試研究中存在的主要問題［J］.外語教學(xué)，2006，(1):42－48.

［39］鄒瓊.普通高校大學(xué)英語口語水平測試模式研究［J］.四川外語學(xué)院學(xué)報，2007，(6):71－74.

Validation Study of PETS-4 Oral Test:A Study Based on Content Evidence

GAO Huai-yong，LIU Feng，JI Huan-qi
(College of Literature and Law，Sichuan Agricultural University，Ya’an 625014，China)

This study，employing checklist，questionnaire and interview，validated PETS-4 oral test administered in Sep 2013，on the basis of content-related evidence by collecting evidence from“content-related”，“content-coverage”，“task demand”and features of“the context of oral test”.The results indicate that:1)test tasks in PETS-4 do represent and cover the target domain;2)The characteristics of test tasks and contexts both facilitate the construct supposed to be tested，specifically:(1)test-tasks in PETS-4 fully represent the presupposed characteristics of oral communication in terms of discourse mode，communicative function，channel and authenticity.Language input of interlocutors is strict and uniform;(2) settings and administration settings all meet the general requirements of oral test.Considering the evidence listed above，we may conclude that PETS-4 oral test administered in Sep 2013 is of high validity in term s of content-related evidence.

Public English Test System;oral test;validity;content-related evidence

H319

1002-2643(2015)03-0047-10

10.16482/j.sdwy37－1026.2015－03－006

2014-09-08

本文為國家社科基金項目“整體效度觀下的語言測試效度研究:基于證據(jù)的效度驗證”(項目編號:13BYY085)的部分成果。

高懷勇(1974－)，男，四川雅安人，碩士，副教授。研究方向:語言測試。劉峰(1980－)，男，江西吉首人，博士，講師。研究方向:二語習(xí)得、語言測試。戢煥奇(1975－)，男，四川眉山人，碩士，講師。研究方向:應(yīng)用語言學(xué)。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于內(nèi)容證據(jù)的PETS－4口試效度研究

1.0 引言

2.0 效度理論框架

3.0 研究設(shè)計

4.0 結(jié)果與討論

5.0 結(jié)語