基于多元概化理論的英語(yǔ)口語(yǔ)測(cè)試任務(wù)研究

2023-12-12 22:27吳泓霖

考試研究 2023年3期

[摘要]基于多元概化理論，對(duì)某次口語(yǔ)測(cè)試所包含的朗讀、聽后回答、回答問題、聽后復(fù)述四類常見的測(cè)試任務(wù)進(jìn)行研究，重點(diǎn)關(guān)注不同類型測(cè)試任務(wù)的區(qū)分效果、測(cè)量精度和對(duì)總分的貢獻(xiàn)程度。研究結(jié)果表明，偏封閉型、內(nèi)容導(dǎo)向的測(cè)試任務(wù)相比偏開放型、技能導(dǎo)向的測(cè)試任務(wù)，在區(qū)分效果、測(cè)量精度和對(duì)總分的貢獻(xiàn)上表現(xiàn)更好。

[關(guān)鍵詞]口語(yǔ)測(cè)試任務(wù)；多元概化理論；計(jì)算機(jī)化考試

[中圖分類號(hào)]G424.74[文獻(xiàn)標(biāo)識(shí)碼]A

[文章編號(hào)]1673—1654（2023）03—051—008

一、引言

（一）口語(yǔ)測(cè)試任務(wù)

口語(yǔ)測(cè)試是語(yǔ)言測(cè)試研究和實(shí)踐的重要領(lǐng)域。根據(jù)考官的參與程度，一般可分為直接型、半直接型、間接型口語(yǔ)測(cè)試[1]。間接型口語(yǔ)測(cè)試現(xiàn)在已經(jīng)很少使用，例如，早期的語(yǔ)音測(cè)試是讓考生在紙筆考試中選擇與對(duì)應(yīng)音素發(fā)音不同的單詞，不需要進(jìn)行口頭交流。直接型口語(yǔ)測(cè)試主要采用現(xiàn)場(chǎng)面試型口試的方式，由一位或多位考官對(duì)一位或多位考生進(jìn)行面對(duì)面的口語(yǔ)測(cè)試，例如雅思（IELTS）、劍橋通用五級(jí)（Main Suite）和全國(guó)英語(yǔ)等級(jí)考試（PETS）各個(gè)級(jí)別的現(xiàn)場(chǎng)口試等。隨著信息技術(shù)的廣泛應(yīng)用，目前最為主流的是半直接型口語(yǔ)測(cè)試，主要采用計(jì)算機(jī)化考試的實(shí)施方式。計(jì)算機(jī)化考試的研究和實(shí)踐開始于20世紀(jì)70年代[2]，歷經(jīng)多年探索，伴隨著計(jì)算機(jī)技術(shù)和語(yǔ)言測(cè)試?yán)碚摰娜诤习l(fā)展，其應(yīng)用已經(jīng)日漸成熟。目前，國(guó)外知名的語(yǔ)言類考試大多已經(jīng)推出了計(jì)算機(jī)化考試，例如托福網(wǎng)考（TOEFL iBT）、雅思機(jī)考（IELTS CBT）、劍橋領(lǐng)思（Linguaskill）等。國(guó)內(nèi)的語(yǔ)言類考試實(shí)行計(jì)算機(jī)化考試主要集中在口試的改革中，例如大學(xué)英語(yǔ)四、六級(jí)口語(yǔ)機(jī)考，以及部分省市（北京、上海、天津、廣東等）高考英語(yǔ)的口語(yǔ)機(jī)考。相關(guān)研究表明，實(shí)行口語(yǔ)機(jī)考對(duì)教學(xué)產(chǎn)生了良性的引導(dǎo)作用，促進(jìn)了學(xué)生聽、說能力的發(fā)展[3]。

設(shè)計(jì)口語(yǔ)測(cè)試時(shí)，設(shè)定測(cè)試任務(wù)十分重要，它不僅是測(cè)試本身構(gòu)念定義的直接反映，也會(huì)對(duì)語(yǔ)言學(xué)習(xí)產(chǎn)生反撥作用?？谡Z(yǔ)測(cè)試任務(wù)可以理解為說話者在特定的口語(yǔ)交際場(chǎng)景下，為了實(shí)現(xiàn)某種交際目標(biāo)而使用語(yǔ)言的活動(dòng)[4]。口語(yǔ)測(cè)試任務(wù)可以有不同的分類維度，包括技能的綜合性、任務(wù)的開放性、交談內(nèi)容是事實(shí)性還是評(píng)價(jià)性、任務(wù)設(shè)計(jì)是基于構(gòu)念還是基于任務(wù)、所測(cè)能力屬于宏觀還是微觀等[5]。以計(jì)算機(jī)化口語(yǔ)測(cè)試為代表的半直接型口語(yǔ)測(cè)試中，最為常見的任務(wù)類型包括朗讀、情景問答、看圖說話、回答問題、聽后回答問題、故事復(fù)述等，這些任務(wù)已在相關(guān)省市的高考英語(yǔ)口語(yǔ)機(jī)考中被廣泛使用。

（二）多元概化理論

概化理論是現(xiàn)代心理測(cè)量理論之一[6]，雖然出現(xiàn)較晚、統(tǒng)計(jì)要求比較繁瑣，但隨著計(jì)算機(jī)技術(shù)的發(fā)展，其應(yīng)用范圍越來越大，包括常模參照性測(cè)驗(yàn)、標(biāo)準(zhǔn)參照性測(cè)驗(yàn)、非標(biāo)準(zhǔn)化測(cè)驗(yàn)、表現(xiàn)性評(píng)價(jià)等，受重視程度日漸提升。

根據(jù)概化理論，傳統(tǒng)意義上測(cè)量信度的概念被概化系數(shù)或可靠性系數(shù)取代[7]。概化理論重點(diǎn)關(guān)注分?jǐn)?shù)差異與相關(guān)影響因素（例如考生能力、試題難度等）之間的關(guān)系。在經(jīng)典測(cè)量理論的基礎(chǔ)上，概化理論引進(jìn)了實(shí)驗(yàn)設(shè)計(jì)和方差分析技術(shù)[8]，可以分離各類誤差的方差，并估算出不同方差成分的大小，用于探究不同因素對(duì)分?jǐn)?shù)差異造成的影響和各個(gè)因素之間的交互作用，這個(gè)過程被稱為概化研究或者G研究。在此基礎(chǔ)上，概化理論還能通過實(shí)驗(yàn)性研究估算出不同條件下概化系數(shù)的變化，尋找最佳的誤差控制方法，幫助考試設(shè)計(jì)者優(yōu)化試卷設(shè)計(jì)，這個(gè)過程被稱為概化理論的決策研究或D研究。

多元概化理論是概化理論的進(jìn)一步發(fā)展，主要適用于具有多個(gè)全域分?jǐn)?shù)等方面問題的研究，例如分析當(dāng)總測(cè)驗(yàn)被分解成多個(gè)分測(cè)驗(yàn)時(shí)，分測(cè)驗(yàn)的信度和試題數(shù)量變化對(duì)總測(cè)驗(yàn)信度造成的影響[9]。近年來，多元概化理論被廣泛應(yīng)用于高考等大規(guī)模高利害考試的評(píng)價(jià)中，可定量比較試卷中各個(gè)內(nèi)容模塊和相關(guān)題型的區(qū)分度與內(nèi)部一致性，為試卷質(zhì)量研究提供了理論模型和方法依據(jù)，有助于考試命題質(zhì)量的提高。基于多元概化理論對(duì)口語(yǔ)測(cè)試進(jìn)行研究，可以分析各項(xiàng)測(cè)試任務(wù)的區(qū)分功能和測(cè)試信度，探究不同任務(wù)對(duì)總分的貢獻(xiàn)程度，便于考試設(shè)計(jì)者調(diào)整測(cè)試設(shè)計(jì)，進(jìn)而更好地達(dá)到預(yù)期的測(cè)量效果。

二、研究設(shè)計(jì)

（一）研究問題

基于定量分析回答不同類型口語(yǔ)測(cè)試任務(wù)的三個(gè)問題：

1.區(qū)分效果分別是什么樣的？

2.測(cè)量精度分別是什么樣的？

3.對(duì)總分的貢獻(xiàn)程度分別是什么樣的？

（二）研究工具

基于高考英語(yǔ)學(xué)科對(duì)于關(guān)鍵能力中口語(yǔ)表達(dá)的界定[10]，結(jié)合常見的口語(yǔ)測(cè)試任務(wù)類型，設(shè)計(jì)和實(shí)施了一次研究性英語(yǔ)口語(yǔ)測(cè)試，采用了計(jì)算機(jī)化考試的形式。如表1所示，本次口語(yǔ)測(cè)試滿分分值為10分，共11道試題，包含朗讀、聽后回答、回答問題、聽后復(fù)述四項(xiàng)任務(wù)，測(cè)試過程中允許考生做筆記。

參加本次口語(yǔ)測(cè)試的受試者為華東某省2所中學(xué)的高二年級(jí)學(xué)生，有效樣本共725份，其中男生約占45%，女生約占55%，學(xué)生的英語(yǔ)口語(yǔ)水平基本覆蓋了好、中、差各個(gè)層次。

（三）評(píng)分設(shè)計(jì)

10名評(píng)分員均為來自高校的英語(yǔ)教師，具有大型考試的閱卷經(jīng)驗(yàn)。正式評(píng)分開始前，評(píng)分員接受了培訓(xùn)，熟悉了評(píng)分標(biāo)準(zhǔn)并進(jìn)行了試評(píng)分，以保證評(píng)分尺度的一致性。

（四）數(shù)據(jù)分析

采用mGENOVA 2.1程序進(jìn)行多元概化分析全體有效樣本共725份。按照口語(yǔ)測(cè)試任務(wù)的結(jié)構(gòu)，將全部試題劃分為“朗讀”“聽后回答”“回答問題”“聽后復(fù)述”4個(gè)分測(cè)試，使用了4因子單面交叉設(shè)計(jì)p×i多元概化模型，p代表受試者（測(cè)量目標(biāo)），i代表試題（測(cè)量側(cè)面），分別計(jì)算各項(xiàng)口語(yǔ)測(cè)試任務(wù)和整個(gè)測(cè)試的概化系數(shù)（即信度）。在此基礎(chǔ)上，結(jié)合相關(guān)信息分析各項(xiàng)口語(yǔ)測(cè)試任務(wù)對(duì)整個(gè)測(cè)試的貢獻(xiàn)程度。

三、結(jié)果與討論

（一）描述性統(tǒng)計(jì)

各項(xiàng)測(cè)試任務(wù)的平均得分率從高到低依次為回答問題（68.18%）、朗讀（66.75%）、聽后回答（66.18%）、聽后復(fù)述（45.22%）。這表明，相比其他三項(xiàng)任務(wù)，聽后復(fù)述的平均得分率較低，任務(wù)難度相對(duì)較大。

（二）四因子模型的G研究

基于四因子概化模型的G研究，得到考生效應(yīng)（p）、試題效應(yīng)（i）及考生和試題之間的交互效應(yīng)（pi）在四個(gè)因子上的方差與協(xié)方差分量的估計(jì)矩陣，如表2所示。

考生效應(yīng)（p）反映由于考生水平差異導(dǎo)致的成績(jī)變異大小。從表2可以看出，四個(gè)因子中考生效應(yīng)（p）方差分量從大到小依次為聽后復(fù)述（0.32621）、朗讀（0.23622）、聽后回答（0.22236）、回答問題（0.09165）。這表明，在本次口語(yǔ)測(cè)試中，聽后復(fù)述對(duì)不同水平考生的區(qū)分作用最大，朗讀和聽后回答的區(qū)分作用大致相當(dāng)，回答問題的區(qū)分作用最小。可能導(dǎo)致這一現(xiàn)象的原因是：回答問題任務(wù)的開放性較大，考生發(fā)揮的空間也比較大，緊扣主題言之成理即可得到一定分?jǐn)?shù)，因此比較難以區(qū)分不同水平的考生，而其他三項(xiàng)任務(wù)對(duì)考生作答的評(píng)判具有相對(duì)剛性的約束，更容易區(qū)分不同水平的考生。

此外，根據(jù)相關(guān)系數(shù)的估計(jì)值，四個(gè)因子之間的相關(guān)系數(shù)介于0.36和0.51之間，這表明考生在各項(xiàng)任務(wù)上的得分高低順序有所差異。其中可能原因是四項(xiàng)任務(wù)分別測(cè)量了考生口語(yǔ)表達(dá)能力的不同方面。

試題效應(yīng)（i）反映出因試題難度差異導(dǎo)致的成績(jī)變異大小。從表2可以看出，聽后復(fù)述的方差分量（0.06921）最大，這表明在所有任務(wù)中，聽后復(fù)述任務(wù)由于試題難度差異造成的考生成績(jī)變異最大。換言之，這項(xiàng)任務(wù)的不同試題難度差異最為明顯。造成這個(gè)差異的可能原因在于聽后復(fù)述任務(wù)中聽力文本體裁對(duì)考生復(fù)述表現(xiàn)的影響。本次口語(yǔ)測(cè)試中，聽后復(fù)述的兩道試題分別使用了說明文和記敘文作為輸入內(nèi)容，且兩種體裁的內(nèi)容長(zhǎng)度相當(dāng)，但考生復(fù)述說明文的得分率明顯低于對(duì)記敘文的復(fù)述，在一定程度上表明，對(duì)于考生來說，聽取說明文并進(jìn)行復(fù)述的難度大于記敘文，這與此前相關(guān)的研究結(jié)論一致[11]。

（三）四因子模型的D研究

1.各項(xiàng)任務(wù)全域分?jǐn)?shù)的測(cè)量精度

通過D研究估計(jì)出考生在四項(xiàng)任務(wù)上的全域分?jǐn)?shù)與相應(yīng)誤差項(xiàng)的方差分量，并計(jì)算出概化系數(shù)、可靠性指數(shù)及信噪比等指標(biāo)，如表3所示。

從表3可以看出，各項(xiàng)任務(wù)的概化系數(shù)（Gen Coefficient）均超過0.66，表明本次口語(yǔ)測(cè)試的試卷質(zhì)量較高，各項(xiàng)任務(wù)具有良好的測(cè)量精度、測(cè)量誤差較小。各項(xiàng)任務(wù)按照概化系數(shù)從高到低排序，依次為朗讀（0.95287）、聽后復(fù)述（0.86738）、回答問題（0.70215）、聽后回答（0.66259），這表明朗讀相比其他任務(wù)測(cè)量精度更高，其中可能的原因是朗讀部分的試題數(shù)量多于其他任務(wù)，相當(dāng)于對(duì)同一能力反復(fù)進(jìn)行多次測(cè)量，因此效果更好。

2.全域總分的測(cè)量精度

根據(jù)各項(xiàng)任務(wù)的題目數(shù)量比例，對(duì)四個(gè)因子的全域分?jǐn)?shù)進(jìn)行合成，估計(jì)出全域總分與相應(yīng)誤差項(xiàng)的方差分量，以及全域總分的概化系數(shù)、可靠性指數(shù)和信噪比等指標(biāo)，如表4所示。

從表4可以看出，全域總分的概化系數(shù)達(dá)到了0.93555，相對(duì)誤差和絕對(duì)誤差的方差分量分別僅為0.00909和0.01036，表明本次口語(yǔ)測(cè)試的總體測(cè)量信度較好。

3.各項(xiàng)任務(wù)對(duì)總分方差的貢獻(xiàn)度

為進(jìn)一步研究本次口語(yǔ)測(cè)試的四項(xiàng)任務(wù)對(duì)總分方差的實(shí)際影響程度，計(jì)算出各項(xiàng)任務(wù)對(duì)測(cè)試總分方差的實(shí)際貢獻(xiàn)度，如表5所示。

從表5可以看出，各項(xiàng)任務(wù)對(duì)總分方差的貢獻(xiàn)比例從高到低依次是朗讀（53.52%）、聽后復(fù)述（19.16%）、聽后回答（17.40%）、回答問題（9.12%）。各項(xiàng)任務(wù)對(duì)總分方差的貢獻(xiàn)比例與預(yù)先設(shè)定的賦分比例相比，存在一定差距。朗讀任務(wù)的貢獻(xiàn)比例高于賦分比例，聽后回答任務(wù)的貢獻(xiàn)比例大致相當(dāng)于賦分比例，回答問題和聽后復(fù)述任務(wù)的貢獻(xiàn)比例低于賦分比例。其中可能的原因是：朗讀任務(wù)的題量相對(duì)較大，包含了5道試題，而且考生成績(jī)分布較為分散；而回答問題和聽后復(fù)述任務(wù)都只有2道試題，且考生成績(jī)分布相對(duì)集中。這表明，可以考慮進(jìn)一步提高朗讀任務(wù)的賦分比例，或者增加回答問題和聽后復(fù)述任務(wù)的試題數(shù)量，以進(jìn)一步提升考試的信度和區(qū)分效果。

4.各項(xiàng)任務(wù)題目數(shù)量對(duì)測(cè)量精度的影響研究

通過D研究計(jì)算出各項(xiàng)任務(wù)題目數(shù)量變化對(duì)口語(yǔ)測(cè)試整體測(cè)量信度的影響情況，結(jié)果如表6所示。

由表6可知，當(dāng)各項(xiàng)任務(wù)的試題數(shù)量增加為2倍和3倍時(shí)，總分概化系數(shù)分別增加至0.9667和0.97755。此外，單獨(dú)增加某一項(xiàng)任務(wù)的試題數(shù)量，也可以提高總分概化系數(shù)，其中對(duì)提升整卷信度作用比較大的是增加朗讀和聽后復(fù)述的題目數(shù)量。

四、結(jié)論與啟示

（一）研究結(jié)論

采用四因子多元概化模型，對(duì)同一口語(yǔ)測(cè)試中的不同任務(wù)進(jìn)行了分析，得到以下結(jié)論：

在測(cè)量信度方面，本次口語(yǔ)測(cè)試的全域總分概化系數(shù)為0.93555，總體測(cè)量信度高，達(dá)到了預(yù)期的測(cè)量目的。具體到任務(wù)上，朗讀的概化系數(shù)最高，聽后回答的概化系數(shù)最低。四項(xiàng)任務(wù)分別測(cè)量了考生不同方面的口語(yǔ)表達(dá)能力，這與考試的構(gòu)念設(shè)計(jì)是一致的。

在區(qū)分效果方面，聽后復(fù)述和朗讀對(duì)不同水平考生的區(qū)分效果較好，而聽后復(fù)述由于不同試題難度差異對(duì)考生成績(jī)?cè)斐傻挠绊懽顬槊黠@。這表明，需要注意聽后復(fù)述任務(wù)的難度控制，尤其是關(guān)注不同聽力體裁對(duì)任務(wù)難度的影響。

對(duì)總分的貢獻(xiàn)程度方面，朗讀對(duì)總分變異的貢獻(xiàn)最大且遠(yuǎn)高于其他三項(xiàng)任務(wù)，而回答問題的貢獻(xiàn)最小。此外，朗讀對(duì)總分方差的貢獻(xiàn)比例高于其賦分比例，而回答問題和聽后復(fù)述對(duì)總分方差的貢獻(xiàn)比例低于各自的賦分比例。這表明，應(yīng)該適當(dāng)增加朗讀部分的分值，或者增加回答問題和聽后復(fù)述部分的試題數(shù)量。

試題數(shù)量變化對(duì)總分概化系數(shù)的影響方面，同時(shí)增加各項(xiàng)任務(wù)的題目數(shù)量可以提升總分概化系數(shù)，而單獨(dú)增加朗讀或聽后復(fù)述的題目數(shù)量對(duì)總分概化系數(shù)的提升效果最為明顯。

（二）研究啟示

基于上述結(jié)論，在口語(yǔ)測(cè)試任務(wù)設(shè)計(jì)方面可得到如下啟示。

Wright提出，根據(jù)交際潛質(zhì)（communicative potential）不同，口語(yǔ)測(cè)試任務(wù)可以按照兩個(gè)維度進(jìn)行分類：任務(wù)類型和導(dǎo)向[12]。在任務(wù)類型的維度上，口語(yǔ)測(cè)試任務(wù)從開放到封閉進(jìn)行排列：開放性任務(wù)對(duì)考生作答不作限制，有多種可以接受的答案；封閉性任務(wù)則會(huì)對(duì)考生的作答進(jìn)行限制，超出范圍的答案是不可接受的。在導(dǎo)向的維度上，口語(yǔ)測(cè)試任務(wù)從技能導(dǎo)向到內(nèi)容導(dǎo)向進(jìn)行排列：技能導(dǎo)向任務(wù)一般考查口語(yǔ)能力本身，答案往往比較開放；內(nèi)容導(dǎo)向任務(wù)則將口語(yǔ)能力與具體的內(nèi)容融合起來進(jìn)行考查，答案的可控程度一般較高。

基于該分類依據(jù)，本次口語(yǔ)測(cè)試的四項(xiàng)任務(wù)中，朗讀、聽后復(fù)述、聽后回答屬于偏封閉型和內(nèi)容導(dǎo)向的任務(wù)類型，回答問題屬于偏開放型和技能導(dǎo)向的任務(wù)類型。本次研究的結(jié)果表明，整體而言，偏封閉型、內(nèi)容導(dǎo)向的測(cè)試任務(wù)比偏開放型、技能導(dǎo)向的測(cè)試任務(wù)在區(qū)分效果、測(cè)量精度和對(duì)總分的貢獻(xiàn)上表現(xiàn)更好。

從考試命題的角度，內(nèi)容導(dǎo)向的口語(yǔ)測(cè)試任務(wù)有助于減少考生“押題”和“背模板”等應(yīng)試現(xiàn)象。從考試評(píng)分的角度，封閉型的口語(yǔ)測(cè)試任務(wù)因?yàn)樽鞔饍?nèi)容可控，有利于評(píng)卷人員把握評(píng)分標(biāo)準(zhǔn)、控制評(píng)分誤差，最終保障評(píng)分質(zhì)量。從考試組織實(shí)施的角度，隨著人力成本的增加，大規(guī)?？荚嚨脑u(píng)分工作和評(píng)卷人員的聘請(qǐng)日益成為考試組織機(jī)構(gòu)面臨的一大挑戰(zhàn)。為了解決這個(gè)問題，一些大規(guī)?？荚嚰娂娺M(jìn)行了機(jī)器自動(dòng)評(píng)分的探索和應(yīng)用[13]。相關(guān)研究表明，封閉型和半封閉型的口語(yǔ)測(cè)試任務(wù)機(jī)器評(píng)分與人工評(píng)分的一致性明顯高于開放型任務(wù)[14]。因此，在口語(yǔ)測(cè)試中采用相對(duì)封閉型的任務(wù)，有助于自動(dòng)評(píng)分的應(yīng)用、減少人工評(píng)分的組織成本。

本研究的主要不足在于考生樣本量偏少且僅限于高二年級(jí)學(xué)生，口語(yǔ)測(cè)試任務(wù)類型偏少。在今后類似的研究中，可考慮增加樣本數(shù)量和范圍，進(jìn)一步豐富任務(wù)類型，基于更具代表性的受試者群體和更多樣的任務(wù)類型，進(jìn)而對(duì)口語(yǔ)測(cè)試任務(wù)的特點(diǎn)進(jìn)行更為全面的研究。

參考文獻(xiàn)：

[1] OLoighlin K. The Equivalence Of Direct And Semi-Direct Speaking Tests [M]. Cambridge University Press，2001：4.

[2]曾用強(qiáng).對(duì)計(jì)算機(jī)化考試的幾點(diǎn)思考[J].外語(yǔ)電化教學(xué)，2010，（01）：52-55.

[3]侯艷萍.外語(yǔ)高考聽說測(cè)試改革的反撥作用研究[J].外語(yǔ)電化教學(xué)，2018，（05）：23-29.

[4] Luoma，S. Assessing Speaking [M]. Cambridge University Press，2004：31.

[5]李夢(mèng)莉，范琳.機(jī)助口試?yán)碚撃Ｐ?、任?wù)特征和評(píng)分標(biāo)準(zhǔn)研究——新托福網(wǎng)絡(luò)口試和PhonePass～（TM）SET口試對(duì)比分析[J].中國(guó)考試，2013，（08）：22-27.

[6]劉遠(yuǎn)我，張厚粲.概化理論在作文評(píng)分中的應(yīng)用研究[J].心理學(xué)報(bào)，1998，（02）：211-218.

[7]羅照盛，郭小軍.認(rèn)知行為實(shí)驗(yàn)研究中最佳素材容量的選擇與確定：多元概化理論應(yīng)用[J].心理學(xué)報(bào)，2014，46（06）：876-884.

[8]楊志明，張雷.測(cè)評(píng)的概化理論及其應(yīng)用[M].北京：教育科學(xué)出版社，2003：18-20.

[9]趙軒，任子朝，陳昂.基于多元概化理論的高考數(shù)學(xué)文理科試卷質(zhì)量分析與對(duì)比研究[J].數(shù)學(xué)通報(bào)，2018，57（01）：25-30.

[10]陳康，吳泓霖，李新煜，等.基于高考評(píng)價(jià)體系的英語(yǔ)科考試內(nèi)容改革實(shí)施路徑[J].中國(guó)考試，2019，（12）：33-37.

[11]柳明明.高考英語(yǔ)聽后口頭復(fù)述任務(wù)效度論證研究[D].北京外國(guó)語(yǔ)大學(xué)，2015：114-115.

[12] Wright，T. Instructional Task And Discoursal Outcome In The L2 Classroom [J]. Lancaster Practical Papers in English Language Education，1987，（07）：49.

[13]金艷，王偉，楊浩然.語(yǔ)言測(cè)試中的技術(shù)應(yīng)用：基于大學(xué)英語(yǔ)四、六級(jí)考試的實(shí)踐分析[J].外語(yǔ)測(cè)試與教學(xué)，2021，（01）：1-7+27.

[14]孫海洋.國(guó)內(nèi)外英語(yǔ)口語(yǔ)自動(dòng)評(píng)分研究綜述[J].外語(yǔ)教育研究前沿，2021，4（02）：28-36+89-90.

Research on English Speaking Test Tasks Based on Multivariate Generalizability Theory

Wu Honglin

National Education Examinations Authority，Beijing，100084

Abstract：Speaking test tasks，which can be seen as activities that involve a speaker in using language for the purpose of achieving a particular communicative goal in a particular speaking situation，are important parts of the design of a speaking test. Based on Multivariate Generalizability Theory，this study analyzes four common tasks such as reading-aloud，listening-and-answering，answering questions and listening-and-retelling focusing on the effect of differentiation，precision of measurement and contribution to the composite score regarding different tasks. The result of the study shows that in general closed and content-oriented speaking test tasks perform better than open and skill-oriented ones do in terms of the effect of differentiation，precision of measurement and contribution to the composite score.

Key words：Speaking Test Tasks，Multivariate Generalizability Theory，Computer-based Testing

（責(zé)任編輯：吳茳）

考試研究2023年3期

考試研究的其它文章: 優(yōu)質(zhì)學(xué)校閱讀教學(xué)樣態(tài)及改進(jìn)建議; 近十年（2012—2021）國(guó)際中小學(xué)工程教育研究進(jìn)展與趨勢(shì); 智能口語(yǔ)雙機(jī)評(píng)測(cè)模式在外語(yǔ)聽說機(jī)考評(píng)卷中的可行性研究; 清初徽州一個(gè)生員的考試; 高校普通話水平測(cè)試工作評(píng)價(jià)標(biāo)準(zhǔn)研究; 基于國(guó)家安全觀視角的高中地理試題評(píng)析及教學(xué)路徑探索

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于多元概化理論的英語(yǔ)口語(yǔ)測(cè)試任務(wù)研究