国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

計(jì)算機(jī)自適應(yīng)性語(yǔ)言測(cè)試的智能選題方法研究*

2014-07-17 10:17柴省三
關(guān)鍵詞:教育信息化

柴省三

摘 要:隨著計(jì)算機(jī)信息技術(shù)的發(fā)展和多媒體網(wǎng)絡(luò)教學(xué)設(shè)備的日益普及,基于項(xiàng)目反應(yīng)理論(IRT)的計(jì)算機(jī)自適應(yīng)性(CAT)語(yǔ)言測(cè)試由于在測(cè)驗(yàn)信度、測(cè)驗(yàn)效率和考試安全性等方面比傳統(tǒng)的紙筆測(cè)驗(yàn)具有更大的優(yōu)勢(shì),因此針對(duì)計(jì)算機(jī)自適應(yīng)性考試的理論問(wèn)題和實(shí)踐問(wèn)題正在成為教育考試信息化研究的熱點(diǎn)之一。文章在對(duì)自適應(yīng)性考試原理進(jìn)行考察的基礎(chǔ)上,專門(mén)就計(jì)算機(jī)自適應(yīng)性語(yǔ)言測(cè)試,特別是對(duì)國(guó)內(nèi)外計(jì)算機(jī)自適應(yīng)性閱讀理解考試過(guò)程中遇到的智能選題單位和方法問(wèn)題進(jìn)行了探討,并對(duì)具體的解決途徑進(jìn)行了研究。

關(guān)鍵詞:教育信息化;計(jì)算機(jī)自適應(yīng)性考試;考試信息化;語(yǔ)言測(cè)試

中圖分類號(hào):GTP393文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1673-8454(2014)08-0081-05

當(dāng)代計(jì)算機(jī)科學(xué)的日益普及和信息技術(shù)及網(wǎng)絡(luò)技術(shù)的高速發(fā)展,不僅對(duì)語(yǔ)言教學(xué)模式和語(yǔ)言教學(xué)手段的完善發(fā)揮了重要作用,而且還全面提升了教育信息化和考試信息化的水平。進(jìn)入本世紀(jì)以后,以項(xiàng)目反應(yīng)理論(Item Response Theory,簡(jiǎn)稱IRT)為基礎(chǔ)的計(jì)算機(jī)自適應(yīng)性考試模式(Computer-Adaptive Testing,簡(jiǎn)稱CAT),在國(guó)內(nèi)外語(yǔ)言測(cè)試領(lǐng)域的應(yīng)用已經(jīng)由理論探索階段進(jìn)入了實(shí)踐探索階段。2000年,美國(guó)ETS(Educational Testing Service)即開(kāi)始對(duì)計(jì)算機(jī)自適應(yīng)性TOEFL考試的可行性問(wèn)題進(jìn)行了實(shí)驗(yàn)研究,并于2005年正式推出了計(jì)算機(jī)網(wǎng)絡(luò)版的TOEFL考試(internet-Based TOEFL,簡(jiǎn)稱TOEFL iBT)。與此同時(shí),美國(guó)大學(xué)入學(xué)考試(SAT)、研究生入學(xué)資格考試(GRE)以及全美建筑師資格考試等也相繼嘗試將傳統(tǒng)的紙筆測(cè)試方式向計(jì)算機(jī)自適應(yīng)性測(cè)試方式過(guò)渡(Sawaki et al.,2008)。

從上個(gè)世紀(jì)末開(kāi)始,國(guó)內(nèi)也陸續(xù)對(duì)計(jì)算機(jī)自適應(yīng)性考試進(jìn)行了許多探索。漆書(shū)青、戴海崎(1986)、谷思義等(1990)分別對(duì)CAT測(cè)驗(yàn)的模式和在英語(yǔ)水平測(cè)驗(yàn)中的應(yīng)用問(wèn)題進(jìn)行了初步探索;謝小慶(2008)教授對(duì)中國(guó)漢語(yǔ)水平考試(HSK)自適應(yīng)性測(cè)試的可行性問(wèn)題進(jìn)行了實(shí)驗(yàn),并開(kāi)發(fā)出了國(guó)內(nèi)第一個(gè)計(jì)算機(jī)自適應(yīng)性HSK模擬考試系統(tǒng);2008年,全國(guó)大學(xué)英語(yǔ)四、六級(jí)考試也對(duì)自適應(yīng)性測(cè)驗(yàn)方式進(jìn)行了嘗試。綜觀上述研究成果,我們不難發(fā)現(xiàn),計(jì)算機(jī)自適應(yīng)性語(yǔ)言測(cè)試在考試個(gè)性化、測(cè)驗(yàn)信度和測(cè)驗(yàn)效率等方面確實(shí)具有紙筆考試無(wú)法比擬的優(yōu)勢(shì)。不過(guò),上述研究主要是針對(duì)以分離式(discrete)、客觀性多項(xiàng)選擇題為主要測(cè)驗(yàn)方式所進(jìn)行的探索和研究,不少研究成果對(duì)于傳統(tǒng)的基于共同刺激材料(stimulus)的閱讀理解測(cè)驗(yàn)項(xiàng)目的CAT考試卻鮮有涉及。因此,本文將在對(duì)CAT測(cè)驗(yàn)原理和測(cè)試邏輯過(guò)程進(jìn)行考察的基礎(chǔ)上,專門(mén)就CAT在閱讀理解測(cè)驗(yàn)中的計(jì)算機(jī)智能選題方法問(wèn)題進(jìn)行研究。

一、計(jì)算機(jī)自適應(yīng)性考試的原理

計(jì)算機(jī)考試和計(jì)算機(jī)自適應(yīng)性考試是最近幾年國(guó)內(nèi)外語(yǔ)言測(cè)試和教育測(cè)量界研究的熱點(diǎn)問(wèn)題之一,由于兩種測(cè)試方式所依托的信息技術(shù)背景完全相同,而且與傳統(tǒng)的紙筆測(cè)驗(yàn)方式存在顯著的差異,所以兩者經(jīng)常被誤解,因此我們有必要首先澄清兩者之間的基本關(guān)系。

所謂計(jì)算機(jī)考試,顧名思義,即被試通過(guò)計(jì)算機(jī)終端完成測(cè)試的過(guò)程,也稱之為基于計(jì)算機(jī)的考試(Computer-Based Testing,簡(jiǎn)稱CBT)。而計(jì)算機(jī)自適應(yīng)性考試的標(biāo)準(zhǔn)英文名稱則是“Computer-Adaptive Testing”或“Computerized Adaptive Testing”,簡(jiǎn)稱為CAT。CBT和CAT之間存在很多相同的地方,但也存在本質(zhì)的區(qū)別(見(jiàn)圖1)。

首先,CBT和CAT考試都是以計(jì)算機(jī)科學(xué)和網(wǎng)絡(luò)技術(shù)為依托,測(cè)驗(yàn)的內(nèi)容都是通過(guò)網(wǎng)絡(luò)化傳遞和呈現(xiàn),考生全部在計(jì)算機(jī)上完成測(cè)試的過(guò)程。與傳統(tǒng)的紙筆測(cè)試相比,CBT和CAT的考試效率和評(píng)分效率更高,答題的方式更加便捷(熊春明,吳瑞,2006)。

其次,CBT和CAT也存在若干不同的地方,其中最本質(zhì)的區(qū)別在于兩者的測(cè)量理論基礎(chǔ)完全不同。CBT考試的理論基礎(chǔ)是經(jīng)典測(cè)量理論(Classical Testing Theory,簡(jiǎn)稱CTT),而CAT考試的理論基礎(chǔ)則是現(xiàn)代項(xiàng)目反應(yīng)理論。所以,基于計(jì)算機(jī)信息科學(xué)和網(wǎng)絡(luò)技術(shù),不僅可以開(kāi)發(fā)和實(shí)施CBT考試,也可以實(shí)施CAT考試,甚至還可以進(jìn)行CBT和CAT混合型考試模式的設(shè)計(jì),即半適應(yīng)性測(cè)驗(yàn),因此,兩者的差異不是體現(xiàn)在信息技術(shù)手段方面,而是測(cè)量理論和計(jì)算機(jī)施測(cè)時(shí)的計(jì)算模型方面。

在CBT考試中,所有的考生,無(wú)論其語(yǔ)言水平差異有多大,都必須在相同的時(shí)間內(nèi)完成由相同題目構(gòu)成的定長(zhǎng)測(cè)驗(yàn)。由于考生的語(yǔ)言水平和測(cè)驗(yàn)題目的難度指標(biāo)一般符合正態(tài)分布(見(jiàn)圖2),因此,難度較低的部分題目,比如N1和N2部分的題目對(duì)于考生團(tuán)體中語(yǔ)言水平較高的E組和F組考生而言,由于題目的難度水平已遠(yuǎn)低于其語(yǔ)言水平,所以考生在回答這部分題目時(shí)根本無(wú)法獲得有效的分?jǐn)?shù)差異(ceiling effect)。同樣,對(duì)于語(yǔ)言水平較低的A組和B組考生而言,試卷中較難的N5和N6部分題目的難度則太難,考生在回答這部分試題時(shí)就會(huì)產(chǎn)生地板效應(yīng)(floor effects),即考生的分?jǐn)?shù)普遍較低,考生對(duì)這部分測(cè)驗(yàn)題目的回答幾乎無(wú)法提供任何測(cè)量信息。另外,由于受CTT測(cè)量理論的嚴(yán)格平行測(cè)驗(yàn)假設(shè)的限制,在CBT考試中,考生答對(duì)任何一個(gè)題目所獲得的分?jǐn)?shù)都相同,即答對(duì)相同題目數(shù)量的考生被認(rèn)為具有相同的語(yǔ)言能力。事實(shí),考生答對(duì)題目的難度不同,其語(yǔ)言水平也必然存在本質(zhì)的區(qū)別。

基于IRT理論的CAT考試則可以克服CBT考試上述之不足。在CAT考試中,考生的語(yǔ)言水平不是單純地以定長(zhǎng)測(cè)驗(yàn)的總分來(lái)表示的,因?yàn)槊總€(gè)測(cè)驗(yàn)題目的難度、區(qū)分度和猜測(cè)度不同(b,a,c參數(shù)不同),所以不同能力水平(θ)的考生答對(duì)每個(gè)測(cè)驗(yàn)題目的概率值也就不同,并且概率值可以用下列公式進(jìn)行估計(jì)。

P(θ)=C+(1-c)

其中,Pi(θ)表示具備能力水平θ的被試在題目參數(shù)為ai、bi和ci的題目上正確回答的概率。同一個(gè)測(cè)驗(yàn)項(xiàng)目,不同能力水平的考生正確回答的概率不同,相同能力水平的考生回答ai、bi和ci參數(shù)不同的題目的概率也不相同。由于在IRT中題目的難度參數(shù)不依賴于被試樣本,所以,我們就可以借助計(jì)算機(jī)系統(tǒng)對(duì)被試的能力和項(xiàng)目參數(shù)分別進(jìn)行估計(jì),同時(shí)將若干題目進(jìn)行參數(shù)估計(jì)后建立題庫(kù)(item bank)和進(jìn)行等值處理。參數(shù)完備的測(cè)驗(yàn)題庫(kù)是CAT考試設(shè)計(jì)的必要條件之一,因?yàn)镃AT考試的主要優(yōu)點(diǎn)就是“量體裁衣”式的考試,只有具備數(shù)量較大、參數(shù)完備的題庫(kù)后才能借助計(jì)算機(jī)技術(shù)參照被試的不同水平進(jìn)行隨機(jī)選擇題目,以保證每個(gè)考生回答的測(cè)驗(yàn)題目的難度與其能力水平最接近,從而不必回答那些難度水平明顯高于或低于其語(yǔ)言水平的題目,從而既提高了測(cè)驗(yàn)的效率,也確保了測(cè)驗(yàn)題目對(duì)不同被試水平的測(cè)量可以提供最大信息函數(shù)值(item information)。

二、CAT測(cè)試的基本過(guò)程

計(jì)算機(jī)自適應(yīng)性考試的實(shí)施必須滿足三個(gè)基本條件:一是事先必須建立一個(gè)容量較大的題庫(kù),并對(duì)每個(gè)測(cè)驗(yàn)題目進(jìn)行參數(shù)估計(jì)和參數(shù)量表化處理(scaling),以保證題庫(kù)具備適應(yīng)測(cè)量不同語(yǔ)言水平被試的足夠題量。二是成熟的計(jì)算機(jī)技術(shù)和網(wǎng)絡(luò)信息技術(shù)的支持。三是采用優(yōu)化的計(jì)算方法和操作程序,保證考試過(guò)程中的即時(shí)能力估計(jì)和選題策略。目前,計(jì)算機(jī)科學(xué)和網(wǎng)絡(luò)技術(shù)的發(fā)展已經(jīng)足以滿足CAT考試的實(shí)施條件(巫華芳,2011),因此,決定CAT考試可行性的關(guān)鍵因素是題庫(kù)建設(shè)、題庫(kù)維護(hù)和能力估計(jì)的優(yōu)化算法以及選題策略。根據(jù)國(guó)內(nèi)外計(jì)算機(jī)自適應(yīng)性考試的研究成果,CAT語(yǔ)言測(cè)試的基本流程包括初測(cè)、實(shí)測(cè)和結(jié)果處理三個(gè)邏輯過(guò)程(參見(jiàn)圖3)。

1.初測(cè)階段(piloting)

CAT考試的精髓就是針對(duì)不同水平的考生提供不同難度的測(cè)驗(yàn)題目,因此初測(cè)階段主要是對(duì)被試的語(yǔ)言水平進(jìn)行初步的估計(jì),以便判斷考生在正式考試階段首先作答的題目難度。在初測(cè)階段,計(jì)算機(jī)CAT系統(tǒng)首先從題庫(kù)中隨機(jī)抽取少量(5-10個(gè))的中等難度的題目讓被試作答,同時(shí)計(jì)算機(jī)系統(tǒng)通過(guò)期望能力法(EAP)或最大似然估計(jì)法(MLE)對(duì)被試的水平進(jìn)行在線(on-line)估計(jì),從而判斷正式考試階段對(duì)每一個(gè)被試第一次呈現(xiàn)的題目難度。初測(cè)階段的操作機(jī)制與眼科大夫根據(jù)國(guó)際標(biāo)準(zhǔn)視力表檢查學(xué)生的裸眼視力時(shí)第一次選擇辨別符號(hào)的方法一樣。檢查者首先讓被試辨別幾個(gè)代表中等視力的符號(hào)“E”,然后根據(jù)學(xué)生反應(yīng)的正確情況再?zèng)Q定繼續(xù)讓被試辨別的視力符號(hào)的級(jí)別,這樣不斷循環(huán),逐步逼近學(xué)生的真實(shí)視力水平后即可終止檢查過(guò)程,從而可以在最短的時(shí)間內(nèi)準(zhǔn)確地判斷被試的視力水平。

2.實(shí)測(cè)階段(formal administration)

CAT考試的實(shí)測(cè)階段是考試的核心階段。根據(jù)初測(cè)階段的結(jié)果,計(jì)算機(jī)從題庫(kù)中隨機(jī)選擇并呈現(xiàn)一個(gè)與被試初測(cè)水平最匹配的題目讓被試回答,回答結(jié)束后,系統(tǒng)馬上根據(jù)回答的結(jié)果判斷下一個(gè)應(yīng)該呈現(xiàn)的題目難度,并計(jì)算測(cè)驗(yàn)的信息函數(shù)值是否達(dá)到了終止測(cè)驗(yàn)的標(biāo)準(zhǔn)。測(cè)驗(yàn)的信息函數(shù)值(information function)是反映測(cè)量準(zhǔn)確性的關(guān)鍵指標(biāo),它是測(cè)驗(yàn)項(xiàng)目信息函數(shù)值的總和,其具體估計(jì)公式如下:

1(θ)=

其中,P1i(θ)是Pi(θ)的一階導(dǎo)數(shù),Qi(θ)=1- Pi(θ),據(jù)此,我們可以得出滿足信息函數(shù)值最大化的項(xiàng)目與能力值之間存在如下關(guān)系:

θ=b+loge

當(dāng)Ci=0時(shí),在能力量表的bi點(diǎn)上,題目i提供的信息量最大,即當(dāng)被試的語(yǔ)言能力水平與項(xiàng)目的難度值相當(dāng)時(shí),項(xiàng)目對(duì)被試的測(cè)量準(zhǔn)確性最高。所以,在選擇下一個(gè)測(cè)驗(yàn)題目時(shí),如果被試答對(duì)了項(xiàng)目I(j),并且測(cè)驗(yàn)的信息函數(shù)值I(θ)還沒(méi)有達(dá)到終止測(cè)驗(yàn)的標(biāo)準(zhǔn),那么系統(tǒng)就會(huì)繼續(xù)給被試隨機(jī)提供一個(gè)難度更高(b值更大一點(diǎn))的項(xiàng)目I(j+1);如果被試答錯(cuò)了項(xiàng)目I(j),系統(tǒng)則會(huì)為被試隨機(jī)提供一個(gè)難度更低的項(xiàng)目I(j+1),并繼續(xù)計(jì)算被試的反應(yīng)結(jié)果和測(cè)驗(yàn)信息函數(shù)值,如此不斷循環(huán),直到滿足結(jié)束標(biāo)準(zhǔn)(達(dá)到預(yù)先設(shè)置的信度要求)后,實(shí)測(cè)階段即告結(jié)束。

3.處理結(jié)果(score transformation and report)

CAT考試的最后階段是在測(cè)驗(yàn)滿足終止(end-up)條件后,首先對(duì)每個(gè)考生的能力估計(jì)值進(jìn)行計(jì)算,然后進(jìn)行分?jǐn)?shù)轉(zhuǎn)換,并給每個(gè)考生報(bào)告一個(gè)便于理解的標(biāo)準(zhǔn)化測(cè)驗(yàn)分?jǐn)?shù)(standardized score)和測(cè)量的標(biāo)準(zhǔn)誤(信度值),最后宣布考試結(jié)束。

三、CAT在閱讀測(cè)驗(yàn)中的智能選題策略問(wèn)題

閱讀理解能力是一個(gè)人語(yǔ)言水平高低的重要標(biāo)志,因此,國(guó)內(nèi)外幾乎所有的外語(yǔ)測(cè)試或第二語(yǔ)言測(cè)試都將閱讀理解能力的測(cè)量作為考試的重要組成部分,而且基本上都是采用經(jīng)典的篇章閱讀測(cè)驗(yàn)方式對(duì)被試的閱讀水平進(jìn)行考查,即命題者首先選擇若干適當(dāng)長(zhǎng)度的閱讀材料(passages),然后針對(duì)每篇閱讀材料命制適當(dāng)數(shù)量的多項(xiàng)選擇題讓考生回答,從而通過(guò)考生對(duì)測(cè)驗(yàn)題目的回答情況推斷其閱讀理解水平的高低。

這種經(jīng)典的測(cè)量方式可以比較準(zhǔn)確、全面地評(píng)價(jià)考生的綜合閱讀理解能力,具有較高的構(gòu)想效度(construct validity ),因此在未來(lái)一個(gè)相當(dāng)長(zhǎng)的時(shí)間內(nèi),教育測(cè)量領(lǐng)域還無(wú)法找到其他替代的測(cè)量方式。不過(guò),CAT考試中的即時(shí)能力估計(jì)和選題策略基本上都是以二分記分(dichotomous)模式的孤立測(cè)驗(yàn)項(xiàng)目為基礎(chǔ)的,因此,在CAT測(cè)驗(yàn)方式中,就必然會(huì)面對(duì)這樣一個(gè)特殊的困境:基于同一篇閱讀材料命制的題束內(nèi)測(cè)驗(yàn)項(xiàng)目之間的難度并不相同,如果僅以題目的難度參數(shù)作為標(biāo)準(zhǔn)選擇題目時(shí),不同能力水平的考生必然需要回答不同的測(cè)驗(yàn)項(xiàng)目,同時(shí)還必須讓考生閱讀相同的閱讀材料,否則考生就無(wú)法對(duì)測(cè)驗(yàn)的題目做出回答。然而,考生對(duì)同一個(gè)題束內(nèi)不同題目的回答,并不能完全反映考生對(duì)閱讀材料的整體理解水平。另外,如果兩個(gè)考生分別正確回答了一個(gè)難度指數(shù)相同、但屬于不同文章的題目時(shí),兩者的閱讀能力也不具有可比性。

所以,為了解決上述測(cè)量悖論,在以CAT方式對(duì)被試的閱讀能力進(jìn)行測(cè)量時(shí),必須以整篇閱讀材料為單位,而不是以其中的題目參數(shù)值為標(biāo)準(zhǔn)進(jìn)行題目的適應(yīng)性選擇,否則在考試的可行性和能力的估計(jì)方面就會(huì)產(chǎn)生邏輯矛盾。目前,國(guó)外在實(shí)施計(jì)算機(jī)自適應(yīng)性語(yǔ)言測(cè)試時(shí),主要采用三種方法解決閱讀測(cè)試的智能選題問(wèn)題:一是計(jì)算機(jī)考試和適應(yīng)性考試的混合設(shè)計(jì)方式;二是篇章難度系數(shù)控制法;三是借助題組反應(yīng)理論(TRT)的固定路徑法(fixed branching routine)嘗試解決上述問(wèn)題,不過(guò)該方法目前還不能在CAT中進(jìn)行實(shí)際應(yīng)用。

1.混合設(shè)計(jì)模式

在絕大多數(shù)語(yǔ)言測(cè)試中,為了保證測(cè)驗(yàn)的內(nèi)容效度和避免測(cè)驗(yàn)方法引起的構(gòu)想無(wú)關(guān)變異(construct-irrelevant variance),測(cè)驗(yàn)題目主要以客觀性測(cè)驗(yàn)方式為主。所以只有在段落聽(tīng)力理解和閱讀理解考試部分不得不采用題束方式。為了避免產(chǎn)生CAT考試中的上述選題陷阱,所以不少考試采用“CAT+CBT”混合設(shè)計(jì)的方式進(jìn)行施測(cè)。在考試開(kāi)始階段,首先對(duì)考生進(jìn)行基于CBT的閱讀理解定長(zhǎng)測(cè)驗(yàn),然后再進(jìn)行其他部分客觀題目的CAT測(cè)試。這樣,所有的考生必須閱讀相同的閱讀材料并回答相同的題目,計(jì)算機(jī)根據(jù)每個(gè)題目的參數(shù),估計(jì)考生的能力和信息函數(shù)值。閱讀理解測(cè)試結(jié)束后,再按照嚴(yán)格的CAT模式繼續(xù)完成其它部分的測(cè)驗(yàn)。這樣一方面可以充分發(fā)揮CAT的優(yōu)勢(shì),同時(shí)又可以避免閱讀測(cè)試中的題目選擇問(wèn)題。目前,“CBT+CAT”混合測(cè)量模式是國(guó)際語(yǔ)言測(cè)試的主流模式之一,其優(yōu)點(diǎn)是效率高、可行性強(qiáng),但缺點(diǎn)是兩種測(cè)量模式的考試結(jié)果必須進(jìn)行復(fù)雜的分?jǐn)?shù)合成處理(Chalhoub-Deville,1999;Yang,2011)。

2.篇章難度系數(shù)控制模式

篇章難度系數(shù)控制模式的CAT考試?yán)碚摶A(chǔ)源自美國(guó)對(duì)英語(yǔ)閱讀材料的易讀度(readability)研究。1948年美國(guó)哈佛大學(xué)的語(yǔ)言學(xué)家和心理學(xué)家G. K.Zipf在對(duì)大樣本語(yǔ)料庫(kù)(corpus)進(jìn)行統(tǒng)計(jì)研究和變量分析的基礎(chǔ)上,提出了書(shū)面語(yǔ)言表達(dá)中的最省力原則,即:任何作者在用自然語(yǔ)言寫(xiě)作時(shí),都會(huì)潛意識(shí)地在不違反語(yǔ)言篇章組織原則的前提下,使用盡量簡(jiǎn)單的詞匯和簡(jiǎn)單的句法表達(dá)期望表達(dá)的意思,這也是后來(lái)被稱之為齊普夫定律(Zipfs law)的精髓。齊普夫定律中的詞頻和句子復(fù)雜度是英語(yǔ)閱讀材料易讀度研究的基礎(chǔ)。1995年,Stenner在齊普夫定律的基礎(chǔ)上提出了藍(lán)思文本難度計(jì)算公式(text difficulty in Lexile),并將其用于英語(yǔ)閱讀材料的難度估計(jì)(Rover,2001)。

Lexile difficulty=582-386*mean(ln(WF))+1768*ln(mean(SL))

該公式的基本含義是:文章的難度與文章中詞頻(WF)對(duì)數(shù)的平均值和平均句長(zhǎng)(SL)(平均每個(gè)句子中的詞匯數(shù)量)密切相關(guān)。詞頻越低、平均句長(zhǎng)越長(zhǎng),文章的難度越高,即藍(lán)思值越大,反之藍(lán)思值越小。為了保證CAT語(yǔ)言測(cè)試中的閱讀理解文章的選擇具有理想的適應(yīng)性,在建立題庫(kù)時(shí),不僅要根據(jù)IRT模型對(duì)題目的參數(shù)進(jìn)行估計(jì),而且還要對(duì)每篇文章的難度Lexile值和相應(yīng)的題目參數(shù)進(jìn)行計(jì)算和標(biāo)注,從而在CAT考試的選題中根據(jù)考生的不同閱讀水平,自動(dòng)從題庫(kù)中選擇滿足相應(yīng)Lexile值的閱讀材料。篇章難度系數(shù)控制模式的CAT閱讀選題和測(cè)試過(guò)程包括兩個(gè)階段,分別是初測(cè)和正式施測(cè)階段(參見(jiàn)圖4)。

在初測(cè)階段,CAT系統(tǒng)以題庫(kù)中所有文章的平均難度值為基礎(chǔ),隨機(jī)選擇一篇文章對(duì)所有的考生進(jìn)行施測(cè),并根據(jù)考生對(duì)文章的整體反應(yīng)情況,以測(cè)驗(yàn)項(xiàng)目為單位即時(shí)估計(jì)考生的能力值。然后根據(jù)考生能力值的不同,再分別呈現(xiàn)較難或較容易的整篇文章而不是單個(gè)的測(cè)驗(yàn)項(xiàng)目讓考生繼續(xù)閱讀。

正式考試階段,可以根據(jù)實(shí)際需要設(shè)計(jì)不同的測(cè)量階段。在初測(cè)階段閱讀水平較低的考生將在第二階段閱讀若干篇難度較低的文章,而初測(cè)階段閱讀水平較高的考生則在第二階段閱讀若干篇難度較高的文章。在考生回答完每篇文章的所有題目后,CAT系統(tǒng)馬上估計(jì)每個(gè)考生的測(cè)驗(yàn)信息函數(shù)值,如果達(dá)到終止條件,考生的閱讀測(cè)試即告結(jié)束,反之,考生將繼續(xù)按上述步驟進(jìn)入下一個(gè)測(cè)量階段,直到滿足終止條件。在考生完成閱讀測(cè)驗(yàn)以后,CAT系統(tǒng)將分別估計(jì)考生在閱讀理解測(cè)驗(yàn)部分的能力值,為考生提供最終的測(cè)驗(yàn)總分和分測(cè)驗(yàn)考試分?jǐn)?shù)。

篇章難度系數(shù)控制模式的CAT閱讀理解考試,是一個(gè)在充分考慮閱讀材料難度基礎(chǔ)上的智能選題方案。這種測(cè)試方法,不是簡(jiǎn)單地以測(cè)驗(yàn)項(xiàng)目的難度值為選題策略,而是充分考慮到文章本身的難度變量對(duì)文章和題目難度的影響因素,因而從理論上講更符合語(yǔ)言學(xué)的客觀事實(shí)。在具體的測(cè)量實(shí)踐中,我們還可以根據(jù)測(cè)量精度的要求,將題庫(kù)中所有的閱讀材料按照藍(lán)思值的大小進(jìn)行分層組織,從而構(gòu)造出更多的智能選題路徑(Fulcher,2005),使CAT閱讀理解測(cè)驗(yàn)的適應(yīng)性更強(qiáng),測(cè)量的信度和效度更高。

四、結(jié)束語(yǔ)

計(jì)算機(jī)自適應(yīng)性語(yǔ)言測(cè)試,可以提供個(gè)性化測(cè)量模式并確保測(cè)量具有更高的信度與效度,因而CAT考試是未來(lái)語(yǔ)言測(cè)試和教育測(cè)量發(fā)展的必然趨勢(shì)。不過(guò),由于分離式測(cè)驗(yàn)題目在考查學(xué)生的綜合語(yǔ)言能力方面存在諸多不足,盡管采用綜合性、整體性測(cè)驗(yàn)任務(wù)對(duì)考生語(yǔ)言能力進(jìn)行評(píng)價(jià)的社會(huì)需求日益迫切,然而僅靠傳統(tǒng)的CAT選題策略已經(jīng)無(wú)法滿足對(duì)閱讀理解測(cè)驗(yàn)的考試要求,因而這在相當(dāng)大的程度上限制了CAT考試模式的推廣和普及。所以,為了充分發(fā)揮信息技術(shù)在語(yǔ)言測(cè)試中的作用,我們必須在對(duì)測(cè)驗(yàn)內(nèi)容進(jìn)行深入分析的基礎(chǔ)上,采用科學(xué)的指標(biāo)體系和靈活的選題方法才能滿足對(duì)考生語(yǔ)言水平的自適應(yīng)性測(cè)量。當(dāng)代計(jì)算機(jī)科學(xué)和多媒體技術(shù)與項(xiàng)目反應(yīng)理論的有機(jī)結(jié)合為CAT測(cè)量方法的實(shí)現(xiàn)奠定了基礎(chǔ),同時(shí)針對(duì)CAT考試中各種可行性問(wèn)題的探索,特別是對(duì)閱讀和聽(tīng)力測(cè)驗(yàn)中選題方式的探索,也對(duì)語(yǔ)言測(cè)試研究人員和計(jì)算機(jī)科學(xué)設(shè)計(jì)人員提出了更高的技術(shù)要求。在多級(jí)計(jì)分IRT模型和題組反應(yīng)理論(TRT)在計(jì)算機(jī)自適應(yīng)性考試的實(shí)踐中取得實(shí)質(zhì)性進(jìn)展以前,閱讀理解測(cè)驗(yàn)的智能選題策略問(wèn)題仍將是計(jì)算機(jī)自適應(yīng)性語(yǔ)言測(cè)試普及中必須面對(duì)的嚴(yán)峻挑戰(zhàn)。

參考文獻(xiàn):

[1]谷思義,漆書(shū)青,賴民.中學(xué)英語(yǔ)水平計(jì)算機(jī)自適應(yīng)測(cè)試系統(tǒng)的研制報(bào)告[J].外語(yǔ)電化教學(xué),1990(3).

[2]巫華芳.計(jì)算機(jī)化自適應(yīng)測(cè)驗(yàn)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].科技廣場(chǎng),2011(1):111-113.

[3]熊春明,吳瑞.紙筆測(cè)驗(yàn)和計(jì)算機(jī)自適應(yīng)測(cè)驗(yàn)的比較研究[J].計(jì)算機(jī)與現(xiàn)代化,2006(9):28-35.

[4]漆書(shū)青,戴海崎.項(xiàng)目反應(yīng)理論及其應(yīng)用研究[M].南昌:江西高校出版社,1992.

[5]謝小慶.網(wǎng)上模擬HSK考試系統(tǒng)和練習(xí)系統(tǒng)[DB/OL]. http://blog.sina.com.cn/s/blog_4cce637301008165.html.

[6]Chalhoub-Deville, M. Issues in Computer-adaptive Testing of Reading Proficiency [M].Cambridge: Cambridge University Press, 1999.

[7]Fulcher, G. Interface design in computer-based language testing[J].Language Testing,2005(4): 384-408.

[8]Rover, C. Web-based language testing Language[J].Learning & Technology,2001 (2): 84–94.

[9]Sawaki,Y.,Stricker,L.,& Oranje,A. Factor structure of the TOEFL Internet-based Test (iBT): Exploration in a field trial sample [R]. Educational Testing Service. TOEFL Research Report: 08-09. Revised November 2, 2008, from Http: //www.ets.org/Media Research/pdf/RR-08-09.pdf.

[10]Yang, M. Computer-Adaptive Testing of ESL Reading Proficiency[J].Read and Write Periodical,2011(3):10-11.

(編輯:魯利瑞)

猜你喜歡
教育信息化
高校智慧教育生態(tài)發(fā)展新挑戰(zhàn)
拒絕“花哨”,重拾“得體”
信息化教育在高職教育教學(xué)改革中的作用
如何加強(qiáng)校園信息化建設(shè)創(chuàng)學(xué)校發(fā)展提速平臺(tái)
基于虛擬仿真技術(shù)的地方高校實(shí)驗(yàn)教學(xué)探討
信息技術(shù)與教學(xué)難以深度融合的成因及解決途徑探析
高職學(xué)院信息化建設(shè)中面臨的問(wèn)題和思考