計(jì)算機(jī)自適應(yīng)性語(yǔ)言測(cè)試的智能選題方法研究*

2014-07-17 10:17柴省三

中國(guó)教育信息化·基礎(chǔ)教育 2014年4期

柴省三

摘要：隨著計(jì)算機(jī)信息技術(shù)的發(fā)展和多媒體網(wǎng)絡(luò)教學(xué)設(shè)備的日益普及，基于項(xiàng)目反應(yīng)理論（IRT）的計(jì)算機(jī)自適應(yīng)性（CAT）語(yǔ)言測(cè)試由于在測(cè)驗(yàn)信度、測(cè)驗(yàn)效率和考試安全性等方面比傳統(tǒng)的紙筆測(cè)驗(yàn)具有更大的優(yōu)勢(shì)，因此針對(duì)計(jì)算機(jī)自適應(yīng)性考試的理論問(wèn)題和實(shí)踐問(wèn)題正在成為教育考試信息化研究的熱點(diǎn)之一。文章在對(duì)自適應(yīng)性考試原理進(jìn)行考察的基礎(chǔ)上，專門(mén)就計(jì)算機(jī)自適應(yīng)性語(yǔ)言測(cè)試，特別是對(duì)國(guó)內(nèi)外計(jì)算機(jī)自適應(yīng)性閱讀理解考試過(guò)程中遇到的智能選題單位和方法問(wèn)題進(jìn)行了探討，并對(duì)具體的解決途徑進(jìn)行了研究。

關(guān)鍵詞：教育信息化；計(jì)算機(jī)自適應(yīng)性考試；考試信息化；語(yǔ)言測(cè)試

中圖分類號(hào)：GTP393文獻(xiàn)標(biāo)志碼：A 文章編號(hào)：1673-8454（2014）08-0081-05

當(dāng)代計(jì)算機(jī)科學(xué)的日益普及和信息技術(shù)及網(wǎng)絡(luò)技術(shù)的高速發(fā)展，不僅對(duì)語(yǔ)言教學(xué)模式和語(yǔ)言教學(xué)手段的完善發(fā)揮了重要作用，而且還全面提升了教育信息化和考試信息化的水平。進(jìn)入本世紀(jì)以后，以項(xiàng)目反應(yīng)理論（Item Response Theory,簡(jiǎn)稱IRT）為基礎(chǔ)的計(jì)算機(jī)自適應(yīng)性考試模式（Computer-Adaptive Testing，簡(jiǎn)稱CAT），在國(guó)內(nèi)外語(yǔ)言測(cè)試領(lǐng)域的應(yīng)用已經(jīng)由理論探索階段進(jìn)入了實(shí)踐探索階段。2000年，美國(guó)ETS（Educational Testing Service）即開(kāi)始對(duì)計(jì)算機(jī)自適應(yīng)性TOEFL考試的可行性問(wèn)題進(jìn)行了實(shí)驗(yàn)研究，并于2005年正式推出了計(jì)算機(jī)網(wǎng)絡(luò)版的TOEFL考試（internet-Based TOEFL，簡(jiǎn)稱TOEFL iBT）。與此同時(shí)，美國(guó)大學(xué)入學(xué)考試（SAT）、研究生入學(xué)資格考試（GRE）以及全美建筑師資格考試等也相繼嘗試將傳統(tǒng)的紙筆測(cè)試方式向計(jì)算機(jī)自適應(yīng)性測(cè)試方式過(guò)渡（Sawaki et al.，2008）。

從上個(gè)世紀(jì)末開(kāi)始，國(guó)內(nèi)也陸續(xù)對(duì)計(jì)算機(jī)自適應(yīng)性考試進(jìn)行了許多探索。漆書(shū)青、戴海崎（1986）、谷思義等（1990）分別對(duì)CAT測(cè)驗(yàn)的模式和在英語(yǔ)水平測(cè)驗(yàn)中的應(yīng)用問(wèn)題進(jìn)行了初步探索；謝小慶（2008）教授對(duì)中國(guó)漢語(yǔ)水平考試（HSK）自適應(yīng)性測(cè)試的可行性問(wèn)題進(jìn)行了實(shí)驗(yàn)，并開(kāi)發(fā)出了國(guó)內(nèi)第一個(gè)計(jì)算機(jī)自適應(yīng)性HSK模擬考試系統(tǒng)；2008年，全國(guó)大學(xué)英語(yǔ)四、六級(jí)考試也對(duì)自適應(yīng)性測(cè)驗(yàn)方式進(jìn)行了嘗試。綜觀上述研究成果，我們不難發(fā)現(xiàn)，計(jì)算機(jī)自適應(yīng)性語(yǔ)言測(cè)試在考試個(gè)性化、測(cè)驗(yàn)信度和測(cè)驗(yàn)效率等方面確實(shí)具有紙筆考試無(wú)法比擬的優(yōu)勢(shì)。不過(guò)，上述研究主要是針對(duì)以分離式（discrete）、客觀性多項(xiàng)選擇題為主要測(cè)驗(yàn)方式所進(jìn)行的探索和研究，不少研究成果對(duì)于傳統(tǒng)的基于共同刺激材料（stimulus）的閱讀理解測(cè)驗(yàn)項(xiàng)目的CAT考試卻鮮有涉及。因此，本文將在對(duì)CAT測(cè)驗(yàn)原理和測(cè)試邏輯過(guò)程進(jìn)行考察的基礎(chǔ)上，專門(mén)就CAT在閱讀理解測(cè)驗(yàn)中的計(jì)算機(jī)智能選題方法問(wèn)題進(jìn)行研究。

一、計(jì)算機(jī)自適應(yīng)性考試的原理

計(jì)算機(jī)考試和計(jì)算機(jī)自適應(yīng)性考試是最近幾年國(guó)內(nèi)外語(yǔ)言測(cè)試和教育測(cè)量界研究的熱點(diǎn)問(wèn)題之一，由于兩種測(cè)試方式所依托的信息技術(shù)背景完全相同，而且與傳統(tǒng)的紙筆測(cè)驗(yàn)方式存在顯著的差異，所以兩者經(jīng)常被誤解，因此我們有必要首先澄清兩者之間的基本關(guān)系。

所謂計(jì)算機(jī)考試，顧名思義，即被試通過(guò)計(jì)算機(jī)終端完成測(cè)試的過(guò)程，也稱之為基于計(jì)算機(jī)的考試（Computer-Based Testing，簡(jiǎn)稱CBT）。而計(jì)算機(jī)自適應(yīng)性考試的標(biāo)準(zhǔn)英文名稱則是“Computer-Adaptive Testing”或“Computerized Adaptive Testing”，簡(jiǎn)稱為CAT。CBT和CAT之間存在很多相同的地方，但也存在本質(zhì)的區(qū)別（見(jiàn)圖1）。

首先，CBT和CAT考試都是以計(jì)算機(jī)科學(xué)和網(wǎng)絡(luò)技術(shù)為依托，測(cè)驗(yàn)的內(nèi)容都是通過(guò)網(wǎng)絡(luò)化傳遞和呈現(xiàn)，考生全部在計(jì)算機(jī)上完成測(cè)試的過(guò)程。與傳統(tǒng)的紙筆測(cè)試相比，CBT和CAT的考試效率和評(píng)分效率更高，答題的方式更加便捷（熊春明，吳瑞，2006）。

其次，CBT和CAT也存在若干不同的地方，其中最本質(zhì)的區(qū)別在于兩者的測(cè)量理論基礎(chǔ)完全不同。CBT考試的理論基礎(chǔ)是經(jīng)典測(cè)量理論（Classical Testing Theory，簡(jiǎn)稱CTT），而CAT考試的理論基礎(chǔ)則是現(xiàn)代項(xiàng)目反應(yīng)理論。所以，基于計(jì)算機(jī)信息科學(xué)和網(wǎng)絡(luò)技術(shù)，不僅可以開(kāi)發(fā)和實(shí)施CBT考試，也可以實(shí)施CAT考試，甚至還可以進(jìn)行CBT和CAT混合型考試模式的設(shè)計(jì)，即半適應(yīng)性測(cè)驗(yàn)，因此，兩者的差異不是體現(xiàn)在信息技術(shù)手段方面，而是測(cè)量理論和計(jì)算機(jī)施測(cè)時(shí)的計(jì)算模型方面。

在CBT考試中，所有的考生，無(wú)論其語(yǔ)言水平差異有多大，都必須在相同的時(shí)間內(nèi)完成由相同題目構(gòu)成的定長(zhǎng)測(cè)驗(yàn)。由于考生的語(yǔ)言水平和測(cè)驗(yàn)題目的難度指標(biāo)一般符合正態(tài)分布（見(jiàn)圖2），因此，難度較低的部分題目，比如N1和N2部分的題目對(duì)于考生團(tuán)體中語(yǔ)言水平較高的E組和F組考生而言，由于題目的難度水平已遠(yuǎn)低于其語(yǔ)言水平，所以考生在回答這部分題目時(shí)根本無(wú)法獲得有效的分?jǐn)?shù)差異（ceiling effect）。同樣，對(duì)于語(yǔ)言水平較低的A組和B組考生而言，試卷中較難的N5和N6部分題目的難度則太難，考生在回答這部分試題時(shí)就會(huì)產(chǎn)生地板效應(yīng)（floor effects），即考生的分?jǐn)?shù)普遍較低，考生對(duì)這部分測(cè)驗(yàn)題目的回答幾乎無(wú)法提供任何測(cè)量信息。另外，由于受CTT測(cè)量理論的嚴(yán)格平行測(cè)驗(yàn)假設(shè)的限制，在CBT考試中，考生答對(duì)任何一個(gè)題目所獲得的分?jǐn)?shù)都相同，即答對(duì)相同題目數(shù)量的考生被認(rèn)為具有相同的語(yǔ)言能力。事實(shí)，考生答對(duì)題目的難度不同，其語(yǔ)言水平也必然存在本質(zhì)的區(qū)別。

基于IRT理論的CAT考試則可以克服CBT考試上述之不足。在CAT考試中，考生的語(yǔ)言水平不是單純地以定長(zhǎng)測(cè)驗(yàn)的總分來(lái)表示的，因?yàn)槊總€(gè)測(cè)驗(yàn)題目的難度、區(qū)分度和猜測(cè)度不同（b，a，c參數(shù)不同），所以不同能力水平（θ）的考生答對(duì)每個(gè)測(cè)驗(yàn)題目的概率值也就不同，并且概率值可以用下列公式進(jìn)行估計(jì)。

P(θ)=C+(1-c)

其中，Pi(θ)表示具備能力水平θ的被試在題目參數(shù)為ai、bi和ci的題目上正確回答的概率。同一個(gè)測(cè)驗(yàn)項(xiàng)目，不同能力水平的考生正確回答的概率不同，相同能力水平的考生回答ai、bi和ci參數(shù)不同的題目的概率也不相同。由于在IRT中題目的難度參數(shù)不依賴于被試樣本，所以，我們就可以借助計(jì)算機(jī)系統(tǒng)對(duì)被試的能力和項(xiàng)目參數(shù)分別進(jìn)行估計(jì)，同時(shí)將若干題目進(jìn)行參數(shù)估計(jì)后建立題庫(kù)（item bank）和進(jìn)行等值處理。參數(shù)完備的測(cè)驗(yàn)題庫(kù)是CAT考試設(shè)計(jì)的必要條件之一，因?yàn)镃AT考試的主要優(yōu)點(diǎn)就是“量體裁衣”式的考試，只有具備數(shù)量較大、參數(shù)完備的題庫(kù)后才能借助計(jì)算機(jī)技術(shù)參照被試的不同水平進(jìn)行隨機(jī)選擇題目，以保證每個(gè)考生回答的測(cè)驗(yàn)題目的難度與其能力水平最接近，從而不必回答那些難度水平明顯高于或低于其語(yǔ)言水平的題目，從而既提高了測(cè)驗(yàn)的效率，也確保了測(cè)驗(yàn)題目對(duì)不同被試水平的測(cè)量可以提供最大信息函數(shù)值（item information）。

二、CAT測(cè)試的基本過(guò)程

計(jì)算機(jī)自適應(yīng)性考試的實(shí)施必須滿足三個(gè)基本條件：一是事先必須建立一個(gè)容量較大的題庫(kù)，并對(duì)每個(gè)測(cè)驗(yàn)題目進(jìn)行參數(shù)估計(jì)和參數(shù)量表化處理（scaling），以保證題庫(kù)具備適應(yīng)測(cè)量不同語(yǔ)言水平被試的足夠題量。二是成熟的計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)信息技術(shù)的支持。三是采用優(yōu)化的計(jì)算方法和操作程序，保證考試過(guò)程中的即時(shí)能力估計(jì)和選題策略。目前，計(jì)算機(jī)科學(xué)和網(wǎng)絡(luò)技術(shù)的發(fā)展已經(jīng)足以滿足CAT考試的實(shí)施條件（巫華芳，2011），因此，決定CAT考試可行性的關(guān)鍵因素是題庫(kù)建設(shè)、題庫(kù)維護(hù)和能力估計(jì)的優(yōu)化算法以及選題策略。根據(jù)國(guó)內(nèi)外計(jì)算機(jī)自適應(yīng)性考試的研究成果，CAT語(yǔ)言測(cè)試的基本流程包括初測(cè)、實(shí)測(cè)和結(jié)果處理三個(gè)邏輯過(guò)程（參見(jiàn)圖3）。

1.初測(cè)階段（piloting）

CAT考試的精髓就是針對(duì)不同水平的考生提供不同難度的測(cè)驗(yàn)題目，因此初測(cè)階段主要是對(duì)被試的語(yǔ)言水平進(jìn)行初步的估計(jì)，以便判斷考生在正式考試階段首先作答的題目難度。在初測(cè)階段，計(jì)算機(jī)CAT系統(tǒng)首先從題庫(kù)中隨機(jī)抽取少量（5-10個(gè)）的中等難度的題目讓被試作答，同時(shí)計(jì)算機(jī)系統(tǒng)通過(guò)期望能力法（EAP）或最大似然估計(jì)法（MLE）對(duì)被試的水平進(jìn)行在線（on-line）估計(jì)，從而判斷正式考試階段對(duì)每一個(gè)被試第一次呈現(xiàn)的題目難度。初測(cè)階段的操作機(jī)制與眼科大夫根據(jù)國(guó)際標(biāo)準(zhǔn)視力表檢查學(xué)生的裸眼視力時(shí)第一次選擇辨別符號(hào)的方法一樣。檢查者首先讓被試辨別幾個(gè)代表中等視力的符號(hào)“E”，然后根據(jù)學(xué)生反應(yīng)的正確情況再?zèng)Q定繼續(xù)讓被試辨別的視力符號(hào)的級(jí)別，這樣不斷循環(huán)，逐步逼近學(xué)生的真實(shí)視力水平后即可終止檢查過(guò)程，從而可以在最短的時(shí)間內(nèi)準(zhǔn)確地判斷被試的視力水平。

2.實(shí)測(cè)階段（formal administration）

CAT考試的實(shí)測(cè)階段是考試的核心階段。根據(jù)初測(cè)階段的結(jié)果，計(jì)算機(jī)從題庫(kù)中隨機(jī)選擇并呈現(xiàn)一個(gè)與被試初測(cè)水平最匹配的題目讓被試回答，回答結(jié)束后，系統(tǒng)馬上根據(jù)回答的結(jié)果判斷下一個(gè)應(yīng)該呈現(xiàn)的題目難度，并計(jì)算測(cè)驗(yàn)的信息函數(shù)值是否達(dá)到了終止測(cè)驗(yàn)的標(biāo)準(zhǔn)。測(cè)驗(yàn)的信息函數(shù)值（information function）是反映測(cè)量準(zhǔn)確性的關(guān)鍵指標(biāo)，它是測(cè)驗(yàn)項(xiàng)目信息函數(shù)值的總和，其具體估計(jì)公式如下：

1(θ)=

其中，P1i(θ)是Pi(θ)的一階導(dǎo)數(shù)，Qi(θ)=1- Pi(θ)，據(jù)此，我們可以得出滿足信息函數(shù)值最大化的項(xiàng)目與能力值之間存在如下關(guān)系：

θ=b+loge

當(dāng)Ci=0時(shí)，在能力量表的bi點(diǎn)上，題目i提供的信息量最大，即當(dāng)被試的語(yǔ)言能力水平與項(xiàng)目的難度值相當(dāng)時(shí)，項(xiàng)目對(duì)被試的測(cè)量準(zhǔn)確性最高。所以，在選擇下一個(gè)測(cè)驗(yàn)題目時(shí)，如果被試答對(duì)了項(xiàng)目I(j)，并且測(cè)驗(yàn)的信息函數(shù)值I(θ)還沒(méi)有達(dá)到終止測(cè)驗(yàn)的標(biāo)準(zhǔn)，那么系統(tǒng)就會(huì)繼續(xù)給被試隨機(jī)提供一個(gè)難度更高（b值更大一點(diǎn)）的項(xiàng)目I(j+1)；如果被試答錯(cuò)了項(xiàng)目I(j)，系統(tǒng)則會(huì)為被試隨機(jī)提供一個(gè)難度更低的項(xiàng)目I(j+1)，并繼續(xù)計(jì)算被試的反應(yīng)結(jié)果和測(cè)驗(yàn)信息函數(shù)值，如此不斷循環(huán)，直到滿足結(jié)束標(biāo)準(zhǔn)（達(dá)到預(yù)先設(shè)置的信度要求）后，實(shí)測(cè)階段即告結(jié)束。

3.處理結(jié)果（score transformation and report）

CAT考試的最后階段是在測(cè)驗(yàn)滿足終止（end-up）條件后，首先對(duì)每個(gè)考生的能力估計(jì)值進(jìn)行計(jì)算，然后進(jìn)行分?jǐn)?shù)轉(zhuǎn)換，并給每個(gè)考生報(bào)告一個(gè)便于理解的標(biāo)準(zhǔn)化測(cè)驗(yàn)分?jǐn)?shù)（standardized score）和測(cè)量的標(biāo)準(zhǔn)誤（信度值），最后宣布考試結(jié)束。

三、CAT在閱讀測(cè)驗(yàn)中的智能選題策略問(wèn)題

閱讀理解能力是一個(gè)人語(yǔ)言水平高低的重要標(biāo)志，因此，國(guó)內(nèi)外幾乎所有的外語(yǔ)測(cè)試或第二語(yǔ)言測(cè)試都將閱讀理解能力的測(cè)量作為考試的重要組成部分，而且基本上都是采用經(jīng)典的篇章閱讀測(cè)驗(yàn)方式對(duì)被試的閱讀水平進(jìn)行考查，即命題者首先選擇若干適當(dāng)長(zhǎng)度的閱讀材料（passages），然后針對(duì)每篇閱讀材料命制適當(dāng)數(shù)量的多項(xiàng)選擇題讓考生回答，從而通過(guò)考生對(duì)測(cè)驗(yàn)題目的回答情況推斷其閱讀理解水平的高低。

這種經(jīng)典的測(cè)量方式可以比較準(zhǔn)確、全面地評(píng)價(jià)考生的綜合閱讀理解能力，具有較高的構(gòu)想效度（construct validity ），因此在未來(lái)一個(gè)相當(dāng)長(zhǎng)的時(shí)間內(nèi)，教育測(cè)量領(lǐng)域還無(wú)法找到其他替代的測(cè)量方式。不過(guò)，CAT考試中的即時(shí)能力估計(jì)和選題策略基本上都是以二分記分（dichotomous）模式的孤立測(cè)驗(yàn)項(xiàng)目為基礎(chǔ)的，因此，在CAT測(cè)驗(yàn)方式中，就必然會(huì)面對(duì)這樣一個(gè)特殊的困境：基于同一篇閱讀材料命制的題束內(nèi)測(cè)驗(yàn)項(xiàng)目之間的難度并不相同，如果僅以題目的難度參數(shù)作為標(biāo)準(zhǔn)選擇題目時(shí)，不同能力水平的考生必然需要回答不同的測(cè)驗(yàn)項(xiàng)目，同時(shí)還必須讓考生閱讀相同的閱讀材料，否則考生就無(wú)法對(duì)測(cè)驗(yàn)的題目做出回答。然而，考生對(duì)同一個(gè)題束內(nèi)不同題目的回答，并不能完全反映考生對(duì)閱讀材料的整體理解水平。另外，如果兩個(gè)考生分別正確回答了一個(gè)難度指數(shù)相同、但屬于不同文章的題目時(shí)，兩者的閱讀能力也不具有可比性。

所以，為了解決上述測(cè)量悖論，在以CAT方式對(duì)被試的閱讀能力進(jìn)行測(cè)量時(shí)，必須以整篇閱讀材料為單位，而不是以其中的題目參數(shù)值為標(biāo)準(zhǔn)進(jìn)行題目的適應(yīng)性選擇，否則在考試的可行性和能力的估計(jì)方面就會(huì)產(chǎn)生邏輯矛盾。目前，國(guó)外在實(shí)施計(jì)算機(jī)自適應(yīng)性語(yǔ)言測(cè)試時(shí)，主要采用三種方法解決閱讀測(cè)試的智能選題問(wèn)題：一是計(jì)算機(jī)考試和適應(yīng)性考試的混合設(shè)計(jì)方式；二是篇章難度系數(shù)控制法；三是借助題組反應(yīng)理論（TRT）的固定路徑法（fixed branching routine）嘗試解決上述問(wèn)題，不過(guò)該方法目前還不能在CAT中進(jìn)行實(shí)際應(yīng)用。

1.混合設(shè)計(jì)模式

在絕大多數(shù)語(yǔ)言測(cè)試中，為了保證測(cè)驗(yàn)的內(nèi)容效度和避免測(cè)驗(yàn)方法引起的構(gòu)想無(wú)關(guān)變異（construct-irrelevant variance），測(cè)驗(yàn)題目主要以客觀性測(cè)驗(yàn)方式為主。所以只有在段落聽(tīng)力理解和閱讀理解考試部分不得不采用題束方式。為了避免產(chǎn)生CAT考試中的上述選題陷阱，所以不少考試采用“CAT+CBT”混合設(shè)計(jì)的方式進(jìn)行施測(cè)。在考試開(kāi)始階段，首先對(duì)考生進(jìn)行基于CBT的閱讀理解定長(zhǎng)測(cè)驗(yàn)，然后再進(jìn)行其他部分客觀題目的CAT測(cè)試。這樣，所有的考生必須閱讀相同的閱讀材料并回答相同的題目，計(jì)算機(jī)根據(jù)每個(gè)題目的參數(shù)，估計(jì)考生的能力和信息函數(shù)值。閱讀理解測(cè)試結(jié)束后，再按照嚴(yán)格的CAT模式繼續(xù)完成其它部分的測(cè)驗(yàn)。這樣一方面可以充分發(fā)揮CAT的優(yōu)勢(shì)，同時(shí)又可以避免閱讀測(cè)試中的題目選擇問(wèn)題。目前，“CBT+CAT”混合測(cè)量模式是國(guó)際語(yǔ)言測(cè)試的主流模式之一，其優(yōu)點(diǎn)是效率高、可行性強(qiáng)，但缺點(diǎn)是兩種測(cè)量模式的考試結(jié)果必須進(jìn)行復(fù)雜的分?jǐn)?shù)合成處理（Chalhoub-Deville，1999；Yang，2011）。

2.篇章難度系數(shù)控制模式

篇章難度系數(shù)控制模式的CAT考試?yán)碚摶A(chǔ)源自美國(guó)對(duì)英語(yǔ)閱讀材料的易讀度（readability）研究。1948年美國(guó)哈佛大學(xué)的語(yǔ)言學(xué)家和心理學(xué)家G. K.Zipf在對(duì)大樣本語(yǔ)料庫(kù)（corpus）進(jìn)行統(tǒng)計(jì)研究和變量分析的基礎(chǔ)上，提出了書(shū)面語(yǔ)言表達(dá)中的最省力原則，即：任何作者在用自然語(yǔ)言寫(xiě)作時(shí)，都會(huì)潛意識(shí)地在不違反語(yǔ)言篇章組織原則的前提下，使用盡量簡(jiǎn)單的詞匯和簡(jiǎn)單的句法表達(dá)期望表達(dá)的意思，這也是后來(lái)被稱之為齊普夫定律（Zipfs law）的精髓。齊普夫定律中的詞頻和句子復(fù)雜度是英語(yǔ)閱讀材料易讀度研究的基礎(chǔ)。1995年，Stenner在齊普夫定律的基礎(chǔ)上提出了藍(lán)思文本難度計(jì)算公式（text difficulty in Lexile），并將其用于英語(yǔ)閱讀材料的難度估計(jì)（Rover，2001）。

Lexile difficulty=582-386*mean(ln(WF))+1768*ln(mean(SL))

該公式的基本含義是：文章的難度與文章中詞頻（WF）對(duì)數(shù)的平均值和平均句長(zhǎng)（SL）（平均每個(gè)句子中的詞匯數(shù)量）密切相關(guān)。詞頻越低、平均句長(zhǎng)越長(zhǎng)，文章的難度越高，即藍(lán)思值越大，反之藍(lán)思值越小。為了保證CAT語(yǔ)言測(cè)試中的閱讀理解文章的選擇具有理想的適應(yīng)性，在建立題庫(kù)時(shí)，不僅要根據(jù)IRT模型對(duì)題目的參數(shù)進(jìn)行估計(jì)，而且還要對(duì)每篇文章的難度Lexile值和相應(yīng)的題目參數(shù)進(jìn)行計(jì)算和標(biāo)注，從而在CAT考試的選題中根據(jù)考生的不同閱讀水平，自動(dòng)從題庫(kù)中選擇滿足相應(yīng)Lexile值的閱讀材料。篇章難度系數(shù)控制模式的CAT閱讀選題和測(cè)試過(guò)程包括兩個(gè)階段，分別是初測(cè)和正式施測(cè)階段（參見(jiàn)圖4）。

在初測(cè)階段，CAT系統(tǒng)以題庫(kù)中所有文章的平均難度值為基礎(chǔ)，隨機(jī)選擇一篇文章對(duì)所有的考生進(jìn)行施測(cè)，并根據(jù)考生對(duì)文章的整體反應(yīng)情況，以測(cè)驗(yàn)項(xiàng)目為單位即時(shí)估計(jì)考生的能力值。然后根據(jù)考生能力值的不同，再分別呈現(xiàn)較難或較容易的整篇文章而不是單個(gè)的測(cè)驗(yàn)項(xiàng)目讓考生繼續(xù)閱讀。

正式考試階段，可以根據(jù)實(shí)際需要設(shè)計(jì)不同的測(cè)量階段。在初測(cè)階段閱讀水平較低的考生將在第二階段閱讀若干篇難度較低的文章，而初測(cè)階段閱讀水平較高的考生則在第二階段閱讀若干篇難度較高的文章。在考生回答完每篇文章的所有題目后，CAT系統(tǒng)馬上估計(jì)每個(gè)考生的測(cè)驗(yàn)信息函數(shù)值，如果達(dá)到終止條件，考生的閱讀測(cè)試即告結(jié)束，反之，考生將繼續(xù)按上述步驟進(jìn)入下一個(gè)測(cè)量階段，直到滿足終止條件。在考生完成閱讀測(cè)驗(yàn)以后，CAT系統(tǒng)將分別估計(jì)考生在閱讀理解測(cè)驗(yàn)部分的能力值，為考生提供最終的測(cè)驗(yàn)總分和分測(cè)驗(yàn)考試分?jǐn)?shù)。

篇章難度系數(shù)控制模式的CAT閱讀理解考試，是一個(gè)在充分考慮閱讀材料難度基礎(chǔ)上的智能選題方案。這種測(cè)試方法，不是簡(jiǎn)單地以測(cè)驗(yàn)項(xiàng)目的難度值為選題策略，而是充分考慮到文章本身的難度變量對(duì)文章和題目難度的影響因素，因而從理論上講更符合語(yǔ)言學(xué)的客觀事實(shí)。在具體的測(cè)量實(shí)踐中，我們還可以根據(jù)測(cè)量精度的要求，將題庫(kù)中所有的閱讀材料按照藍(lán)思值的大小進(jìn)行分層組織，從而構(gòu)造出更多的智能選題路徑（Fulcher，2005），使CAT閱讀理解測(cè)驗(yàn)的適應(yīng)性更強(qiáng)，測(cè)量的信度和效度更高。

四、結(jié)束語(yǔ)

計(jì)算機(jī)自適應(yīng)性語(yǔ)言測(cè)試，可以提供個(gè)性化測(cè)量模式并確保測(cè)量具有更高的信度與效度，因而CAT考試是未來(lái)語(yǔ)言測(cè)試和教育測(cè)量發(fā)展的必然趨勢(shì)。不過(guò)，由于分離式測(cè)驗(yàn)題目在考查學(xué)生的綜合語(yǔ)言能力方面存在諸多不足，盡管采用綜合性、整體性測(cè)驗(yàn)任務(wù)對(duì)考生語(yǔ)言能力進(jìn)行評(píng)價(jià)的社會(huì)需求日益迫切，然而僅靠傳統(tǒng)的CAT選題策略已經(jīng)無(wú)法滿足對(duì)閱讀理解測(cè)驗(yàn)的考試要求，因而這在相當(dāng)大的程度上限制了CAT考試模式的推廣和普及。所以，為了充分發(fā)揮信息技術(shù)在語(yǔ)言測(cè)試中的作用，我們必須在對(duì)測(cè)驗(yàn)內(nèi)容進(jìn)行深入分析的基礎(chǔ)上，采用科學(xué)的指標(biāo)體系和靈活的選題方法才能滿足對(duì)考生語(yǔ)言水平的自適應(yīng)性測(cè)量。當(dāng)代計(jì)算機(jī)科學(xué)和多媒體技術(shù)與項(xiàng)目反應(yīng)理論的有機(jī)結(jié)合為CAT測(cè)量方法的實(shí)現(xiàn)奠定了基礎(chǔ)，同時(shí)針對(duì)CAT考試中各種可行性問(wèn)題的探索，特別是對(duì)閱讀和聽(tīng)力測(cè)驗(yàn)中選題方式的探索，也對(duì)語(yǔ)言測(cè)試研究人員和計(jì)算機(jī)科學(xué)設(shè)計(jì)人員提出了更高的技術(shù)要求。在多級(jí)計(jì)分IRT模型和題組反應(yīng)理論（TRT）在計(jì)算機(jī)自適應(yīng)性考試的實(shí)踐中取得實(shí)質(zhì)性進(jìn)展以前，閱讀理解測(cè)驗(yàn)的智能選題策略問(wèn)題仍將是計(jì)算機(jī)自適應(yīng)性語(yǔ)言測(cè)試普及中必須面對(duì)的嚴(yán)峻挑戰(zhàn)。

參考文獻(xiàn):

[1]谷思義，漆書(shū)青，賴民.中學(xué)英語(yǔ)水平計(jì)算機(jī)自適應(yīng)測(cè)試系統(tǒng)的研制報(bào)告[J].外語(yǔ)電化教學(xué)，1990（3）.

[2]巫華芳.計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].科技廣場(chǎng)，2011（1）：111-113.

[3]熊春明，吳瑞.紙筆測(cè)驗(yàn)和計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的比較研究[J].計(jì)算機(jī)與現(xiàn)代化，2006（9）：28-35.

[4]漆書(shū)青，戴海崎.項(xiàng)目反應(yīng)理論及其應(yīng)用研究[M].南昌：江西高校出版社，1992.

[5]謝小慶.網(wǎng)上模擬HSK考試系統(tǒng)和練習(xí)系統(tǒng)[DB/OL]. http://blog.sina.com.cn/s/blog_4cce637301008165.html.

[6]Chalhoub-Deville, M. Issues in Computer-adaptive Testing of Reading Proficiency [M].Cambridge: Cambridge University Press, 1999.

[7]Fulcher, G. Interface design in computer-based language testing[J].Language Testing,2005(4): 384-408.

[8]Rover, C. Web-based language testing Language[J].Learning & Technology,2001 (2): 84–94.

[9]Sawaki,Y.,Stricker,L.,& Oranje,A. Factor structure of the TOEFL Internet-based Test (iBT): Exploration in a field trial sample [R]. Educational Testing Service. TOEFL Research Report: 08-09. Revised November 2, 2008, from Http: //www.ets.org/Media Research/pdf/RR-08-09.pdf.

[10]Yang, M. Computer-Adaptive Testing of ESL Reading Proficiency[J].Read and Write Periodical,2011(3):10-11.

（編輯：魯利瑞）

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

計(jì)算機(jī)自適應(yīng)性語(yǔ)言測(cè)試的智能選題方法研究*