主觀性試題分?jǐn)?shù)等值連接可行性初探

2014-11-28 08:19:13彭恒利張秀秀

中國考試 2014年12期

彭恒利張秀秀劉慧

彭恒利張秀秀劉慧

等值是保證測驗公平性的主要手段，主觀性試題由于具有試題數(shù)量少、容易曝光、難度控制較難、評分受評分者因素影響大等特點，其等值問題一直是測量界一大難題。研究從實際問題和現(xiàn)實需求出發(fā)，使用了MHK口語的實測數(shù)據(jù)，采用非等組錨題的設(shè)計，將筆試客觀題的聽力理解部分作為錨題，嘗試對4套口試試卷進行了IRT等值處理，并以隨機等組的辦法對其等值效果進行了檢驗。研究結(jié)果表明，把聽力理解部分作為錨題進行口試試卷等值具有一定的可行性，因其中涉及許多問題，研究的結(jié)論還需進一步驗證。

MHK；口試；主觀性試題；等值連接

1 引言

等值是保證測驗公平性的主要手段，目前許多大規(guī)模考試已經(jīng)實現(xiàn)了測驗中客觀題的等值，使不同版本測驗的客觀題分?jǐn)?shù)之間具有了可比性。而主觀性試題由于受到多種因素的影響，其等值問題一直是測量界的一大難題，因而絕大多數(shù)考試的主觀性試題分?jǐn)?shù)是未經(jīng)過等值處理的。

作為標(biāo)準(zhǔn)化的考試，從科學(xué)性上講各套試卷間應(yīng)該是進行等值的，但如何實現(xiàn)主觀性試題的等值卻不是可以輕松回答的。國際上許多著名考試機構(gòu)對此或直接忽略回避，或內(nèi)部解決不公開，這實際上也說明了就目前的測量技術(shù)而言，直接實現(xiàn)主觀題分?jǐn)?shù)之間的等值幾乎是不可能的。因此，從嚴(yán)格意義上講，主觀性試題之間是無法實現(xiàn)真正意義上的等值的，目前所能做的是把不同主觀性試題分?jǐn)?shù)連接起來，通過一定的技術(shù)手段使彼此之間的分?jǐn)?shù)具有一定的可比性，然后再作出相應(yīng)的調(diào)整。這實際上做的是對不同主觀試題的分?jǐn)?shù)削峰填谷，與“校準(zhǔn)”（Calibration）有些類似。為了便于理解，這里暫且借用等值的概念，用等值連接來表述實現(xiàn)主觀性試題之間的可比性。

MHK是面向國內(nèi)母語非漢語的少數(shù)民族漢語學(xué)習(xí)者的一項國家級標(biāo)準(zhǔn)化考試，分為筆試和口試兩部分。MHK雖早已實現(xiàn)筆試的客觀題等值，但同樣也面臨著主觀性試題等值連接的難題，其中口試的等值連接問題更為迫切。目前，MHK口試采用“人機對話”的方式進行，受場地、硬件設(shè)備的限制，各個考場的口試分批次進行。為防止考生泄題或作弊造成的不公平，每批次使用的試題均不同，這樣就出現(xiàn)了同一次考試，筆試只使用一套試題，口試使用多套試題的情況。由于不同套的口試試題之間內(nèi)容不一致，難度很難保證完全一致，這樣在同一次MHK口試中，就會出現(xiàn)有的考生因碰到偏易的試題得分較高，有的碰到偏難的試題得分較低的現(xiàn)象，這對考生來說是不公平的。實際上，這一個問題不是MHK獨有，而是一個具有普遍性的問題，托福（Test of English as a Foreign Language,TOEFL）、雅思（International English Language Testing System，IELTS）等許多影響力較大的考試都面臨著同樣的問題，所不同的是解決的思路有差異而已。

對于MHK來說，這是一個無法回避的問題，以近期某年11月MHK（三級）口試為例，各批次口試試題情況如表1所示。

表1 某年11月各套口試試題相關(guān)描述性統(tǒng)計

從表1可以看出，12套試卷的轉(zhuǎn)換分絕大多數(shù)在30分左右，但也出現(xiàn)了差異較大的，第4套試卷的轉(zhuǎn)換分最高，達(dá)35.37分，第10套試卷的轉(zhuǎn)換分最低，為26.23分，兩者的分差9分之多。這是什么原因造成的呢？是試題之間本身的難度差異？還是口試評分的誤差？抑或考生水平的差異？對于標(biāo)準(zhǔn)化考試來說，不僅應(yīng)做到命題和考試實施的標(biāo)準(zhǔn)化，也應(yīng)做到閱卷評分和分?jǐn)?shù)報告的標(biāo)準(zhǔn)化。在報告分?jǐn)?shù)時，應(yīng)設(shè)法消除或減少由于題目難度差異或者評分誤差造成的分差，這涉及的不僅僅是誤差控制的問題、公平性的問題，實質(zhì)上要解決的是各套口試試題間的分?jǐn)?shù)等值連接問題。

2 研究思路與方法

2.1 研究思路

2.1.1 等值條件

等值是對同一個測驗的不同版本的分?jǐn)?shù)進行連接的過程，是在構(gòu)念相同、難度相似、信度相同和考生目標(biāo)總體基本相同的情況下的分?jǐn)?shù)連接?！督逃郎y量》第四版中Dorans和 Holland（2000）指出，必須滿足以下5個條件才能成功等值：相同構(gòu)念、相同信度、對稱性、等價性、跨樣本一致性。前兩項是等值最重要的前提條件?？陀^性試題在測驗中具有題量多、評分客觀等特點，較容易滿足等值條件，因而目前與測驗等值相關(guān)的研究多數(shù)集中于客觀性試題等值。與客觀性試題等值相比，主觀性試題的等值難度更大，需要考慮的因素更多。首先，主觀性試題的評分無法做到完全客觀化，受評分者效應(yīng)影響大，進行等值面臨的最大的挑戰(zhàn)就是要保證信度相同，尤其評分者信度要做到高度一致，這樣才能使其具備等值的條件；其次，主觀性試題一般具有題量少、容易曝光的特點，這就給主觀性試題的等值設(shè)計造成了極大困難，直接設(shè)置錨題的條件基本不具備。而對共同題等值來說，設(shè)錨是關(guān)鍵，否則，就目前的等值技術(shù)而言，等值是很難實現(xiàn)的。

2.1.2 客觀題（聽力理解）作錨可行性

據(jù)上，主觀性試題本身直接設(shè)錨的路是不通的，那么是否意味著主觀性試題就無法等值連接呢？既然無法直接設(shè)錨，是否可以間接橋接設(shè)錨呢？從以往的研究來看，許多學(xué)者認(rèn)為“聽說能力具有密切關(guān)系”（Harrison，1959；楊惠元，2002；王佶旻，2012）。從語言產(chǎn)生機制來說，聽和說共同依賴神經(jīng)元的傳導(dǎo)和神經(jīng)云中所儲存的信息進行理解和生成；從認(rèn)知心理學(xué)信息交流機制來說，聽說是兩個相反的運動過程，是一個信息加工、處理與發(fā)送、接受的動態(tài)系統(tǒng)，在實際交際中不斷交替。在與語言測試密切相關(guān)的語言習(xí)得及語言教學(xué)相關(guān)研究中，越來越多學(xué)者支持“聽說一體化”。此外，美國教育考試服務(wù)中心在1979年推出托業(yè)（Test of English for International Communication,TOEIC）時，試卷內(nèi)容只有聽力和閱讀兩部分，他們認(rèn)為可以通過被試的聽力水平推測其口語水平，其后的效度研究也證實了這一點（Woodford，1985）。盡管有人會對上述的研究提出質(zhì)疑，但依據(jù)聽說之間的密切關(guān)系，至少可以尋找到一條間接實現(xiàn)口試試題等值連接的途徑，而且這條途徑也是具有一定的理論支撐的。

2.1.3 MHK口試等值的可行性

MHK的研發(fā)者在建構(gòu)理論框架時就提出：作為語言測驗，MHK所考查的是“漢語交際能力”，其含義如下：（1）運用漢語獲得信息和傳遞信息的能力；（2）對漢語環(huán)境的適應(yīng)能力；（3）在漢語環(huán)境中完成一定工作和學(xué)習(xí)任務(wù)的能力；（4）不是某種先天的能力，而是經(jīng)過適當(dāng)?shù)膶W(xué)習(xí)、練習(xí)而獲得的能力；（5）不是某種潛在能力，而是在考生參加考試時已經(jīng)具備的能力；（6）在一定情境、一定語言背景中運用漢語的能力，而不是某些特定的語法知識，不是對某個單詞、句式的記憶或識記。其中特別指出，“在考試開發(fā)過程中，將從聽、說、讀、寫四個方面來考查考生的漢語交際能力，但是MHK并不將聽、說、讀、寫看成完全獨立的四個部分，它們之間是有聯(lián)系的?！保ㄖx小慶，2002）因此，從測驗的構(gòu)念角度上看，MHK口試主觀性試題以聽力理解部分間接作為錨題是有依據(jù)的。

最主要的是，對于MHK來說，同一次考試的口試試題不同，但無論口試的批次有多少，其筆試部分的客觀題是完全一樣，這就為采用客觀題聽力理解部分作錨提供了基礎(chǔ)條件。另外，對于同一次MHK口試來說，不同批次口試的閱卷評分是混合在一起同時進行的，而且借助計算機網(wǎng)上閱卷系統(tǒng)對評分質(zhì)量進行了有效控制，各批次口試答題數(shù)據(jù)都是隨機分配給閱卷員的，因此，可以假設(shè)在大樣本量的情況下各套試題的評分誤差是均等的。在前期的有關(guān)研究中發(fā)現(xiàn)，各套口試試卷的分?jǐn)?shù)與聽力理解分?jǐn)?shù)的相關(guān)均在0.6上，兩者之間具有實質(zhì)性相關(guān)。

據(jù)上，研究擬以MHK口試為例，采用客觀題中的聽力理解分測驗作為共同題，進行MHK口試分?jǐn)?shù)等值連接的可行性探索。目的是對主觀性試題等值連接的可能性和可行性進行初步探究，期望能為確保MHK測驗公平性做些有益的嘗試，同時也能為尋求主觀性試題等值連接的可行性做些積極探索。

2.2 研究設(shè)計

研究使用MHK（三級）實測數(shù)據(jù)，探討用客觀題中聽力理解分測驗作為共同題，進行口試主觀性試題等值的可行性，并擬將等值后的數(shù)據(jù)結(jié)果與隨機等組的數(shù)據(jù)結(jié)果進行比較，初步判斷聽力理解作錨的效果。

2.2.1 研究對象

研究使用MHK某年11月正式考試的實測口試及其對應(yīng)的筆試資料。本次考試，口試共進行了12批次，因硬件條件所限，各批次的人數(shù)有較大差異。因研究是探索性的，主要是想探討聽力理解作錨的可行性。為使研究能順利進行，從中選取了4套樣本量相當(dāng)?shù)目谠囋嚲碜鳛閷嶒灅颖?，主要的考慮如下：首先，這4套試卷的考生樣本各自都是對總體的分層隨機抽樣的結(jié)果，保證了各套試卷的樣本是大樣本的隨機組，可以進行隨機等組設(shè)計；其次，保證了對總體的代表性，而對總體的代表性是等值對樣本最重要的要求之一。

由于參加不同試卷口試的考生共同參加了同樣的筆試測驗，為了便于理解和說明，研究使用“組合試卷”這個概念，即將筆試中的客觀多項選擇題（Multiple Choice，MC）的聽力理解分測驗抽取出來作為共同題，與4套均為主觀性試題（Construct Response，CR）的口試試卷重新組合成4套主客觀組合試卷，也就是4批次隨機抽樣的考生參加了4套不同試卷測驗。研究要實現(xiàn)的就是使用組合試卷中的聽力理解部分作為錨題，對不同組合試卷中口試部分的分?jǐn)?shù)進行等值處理。組合試卷的結(jié)構(gòu)如表2所示。

2.2.2 研究方法

等值的方法有多種，既可以在經(jīng)典測量理論（the Classical Testing Theory,CTT）下等值，也可在項目反應(yīng)理論（the Item Response Theory,IRT）下等值。無論采用哪種理論，等值的過程均涉及等值數(shù)據(jù)收集和等值數(shù)據(jù)處理兩部分。丁樹良與熊建華（2003）在其研究中提到，在IRT框架下實施等值，不僅理論完善、相關(guān)研究眾多，前提條件較容易滿足，而且等值關(guān)系也十分簡潔。因此，研究中的組合試卷等值基于IRT進行等值處理。IRT等值分為以下幾個步驟：一是IRT連接數(shù)據(jù)收集設(shè)計；二是選擇適合的IRT等值模型；三是項目參數(shù)和能力參數(shù)的估計；四是利用錨題或共同組求出轉(zhuǎn)換系數(shù)，進行量表轉(zhuǎn)換，將項目參數(shù)或能力值參數(shù)估計結(jié)果置于同一尺度上，實現(xiàn)項目參數(shù)等值和能力參數(shù)等值；五是根據(jù)需要選擇將能力值轉(zhuǎn)換成為報告分?jǐn)?shù)。下面就研究中等值流程重要的幾個步驟進行簡要說明：

（1）研究采用非等組錨題設(shè)計，即通過聽力理解作為錨題來實現(xiàn)不同套口試試卷間的分?jǐn)?shù)連接。

（2）研究資料涉及0、1計分的客觀題和多級計分的口試主觀性試題。在多級計分題目的等值處理中，國內(nèi)外研究中最常用的多級計分項目反應(yīng)模型是等級反應(yīng)模型（Graded Response Model，GRM）。GRM也可以進行0、1計分題目的參數(shù)估計，因此研究采用GRM模型進行參數(shù)估計。

（3）使用項目分析軟件PARSCALE進行每道題的參數(shù)估計，得到相應(yīng)項目參數(shù)值和考生能力值。研究采用分別估計的方法，參數(shù)標(biāo)定采用平均數(shù)和平均數(shù)方法（Mean/mean meathod，mm）及平均數(shù)和標(biāo)準(zhǔn)偏差方法（mean/sigma method，ms）。

3 研究結(jié)果

3.1 等值設(shè)計條件檢驗

將研究材料中4套組合試卷的其中1套視為標(biāo)準(zhǔn)卷，另外3套待等值試卷分別稱為新卷1、新卷2、新卷3，標(biāo)準(zhǔn)卷與新卷的相關(guān)統(tǒng)計分析如表3所示。

為了進一步說明組合試卷的單維性，上述組合試卷中的4種題型（抑或看成4個分測驗）作為變量進入因素分析，采用主成分分析法提取因素，結(jié)果發(fā)現(xiàn)每份組合試卷都只有一個因素的特征值大于1，分析結(jié)果為聽力理解部分作錨提供了支持。因素分析具體情況如表4所示。

表2 主客觀組合試卷結(jié)構(gòu)

表3 主客觀組合試卷統(tǒng)計數(shù)據(jù)

表4 各組合試卷探索性因素分析結(jié)果

3.2 等值連接數(shù)據(jù)處理結(jié)果

等級反應(yīng)模型既可以估計0、1計分，也可以估計多級計分。表5-6是采用分別估計的方法對4套組合試卷進行參數(shù)估計的結(jié)果。

表5 各組合試卷錨題參數(shù)估計均值——0、1計分

由于等級反應(yīng)模型可以估計多級計分項目的參數(shù)，對于口試這種等級評分項目，等級反應(yīng)模型在諸多模型中是概念假設(shè)上最適用的。

3.3 等值連接系數(shù)標(biāo)定

由3.1參數(shù)估計的結(jié)果，按照MM與MS參數(shù)標(biāo)定方法進行A、B系數(shù)的求取，然后使用轉(zhuǎn)換公式，實現(xiàn)各組合試卷參數(shù)與標(biāo)準(zhǔn)卷之間的連接，得到了轉(zhuǎn)后的考生能力值如表7所示。

3.4 等值連接效果判斷

等值完成后需對等值結(jié)果進行評價，而評價的指標(biāo)就是等值關(guān)系中誤差的大小。等值誤差包括隨機誤差和系統(tǒng)誤差。隨機誤差由抽樣造成，隨著樣本容量的增大而減??；系統(tǒng)誤差則比隨機誤差復(fù)雜，造成誤差的原因有多種情況如：由等值方法的假設(shè)沒有被滿足、等值模型與等值數(shù)據(jù)并不擬合等所使用的等值方法引入的誤差；由沒有嚴(yán)格遵守收集數(shù)據(jù)的方法與要求而引入的誤差，等等。本研究目的是探討聽力理解部分作錨為口試試題分?jǐn)?shù)進行等值的可行性，因此研究設(shè)計中并不涉及等值模型選擇、連接系數(shù)標(biāo)定方法等等值方法的比較，主要是探討使用聽力理解作錨這種等值設(shè)計進行等值，能否縮小由試題難度差異帶來的分?jǐn)?shù)差異。比較理想的辦法是使用共同組設(shè)計進行等值，然后比較聽力理解作錨等值與共同組等值的一致性，但共同組設(shè)計因時間、人力和物力限制，目前無法完成。

表6 各組合試卷口試題參數(shù)估計—多級計分

對MHK數(shù)據(jù)及其施測情況進行分析，發(fā)現(xiàn)其有著獨特之處：

（1）MHK口試的施測形式是相同批次在不同考點同時進行，也就是同一批次考生是隨機分布在各個考點的。前四個批次口試人數(shù)相當(dāng)，其實際情況便是該批次的考生是來自新疆地區(qū)的各個考點的，同一考點的考生又是隨機分配批次的。因此前四套可以看成在大樣本量中分層隨機抽樣而來的樣本，符合隨機等組的抽樣原則。

（2）為了驗證這四批次是否為大樣本的隨機組，下面具體分析參加這四批次口試考生的筆試原始總分（包括聽力理解、閱讀理解、書面表達(dá)、寫作四個部分）分布情況，結(jié)果如表8所示，由表8可以看出，參加這四套組合試卷考生的語言能力水平分布十分相似。

因此，研究將參加MHK考試口試前四套的各批次考生視為隨機等組，隨機等組設(shè)計的思路是從同一總體中隨機抽取兩組考生，這兩組考生被認(rèn)為在能力分布上是相同的或很接近，考生所得分?jǐn)?shù)上的差異反應(yīng)的就是題目難度上的差異。具體分析各組合試卷考生口試原始分分布情況如表9所示。

由表9可以看出，新卷與標(biāo)準(zhǔn)卷之間平均值有差異，其中以新卷3與標(biāo)準(zhǔn)卷差異最大。研究將以隨機等組的考生原始分?jǐn)?shù)分布情況與等值后考生的能力值轉(zhuǎn)換后的分?jǐn)?shù)分布情況進行了對比，比較等值處理后的分?jǐn)?shù)在平均值附近分布上的差異是否減小，以此來初步判斷聽力理解作錨的等值設(shè)計的可行性。

由表10可以看出，兩種標(biāo)定方法得到的結(jié)果基本一致。與表9中考生原始分?jǐn)?shù)的平均值之間差異比較，可以發(fā)現(xiàn)經(jīng)過等值處理之后各批次考生口試平均分差距縮小，且更接近標(biāo)桿卷平均分，這種分布情況更符合各批次考生水平相近的實際情況。說明用聽力作錨的等值處理后的分?jǐn)?shù)更能代表考生的實際水平。

表7 等值系數(shù)表

表8 各組合試卷考生筆試總分分布情況

表9 各組合試卷考生口試分?jǐn)?shù)分布情況

表10 等值后考生口試分?jǐn)?shù)均值

4 分析與討論

4.1 關(guān)于聽力作錨進行等值的相關(guān)問題

通過相關(guān)分析及因素分析發(fā)現(xiàn)，MHK聽力理解與口試在很大程度上考查了相似的能力，客觀題聽力理解部分作為錨題進行口試等值這種等值設(shè)計在一定程度上能夠縮小由試題難度帶來的分?jǐn)?shù)差異，具有可行性，上文等值處理結(jié)果是對其可行性的一次驗證。

研究基于MHK實測資料中聽力理解與口試有著實質(zhì)性相關(guān)的特點，結(jié)合前人對聽說關(guān)系的研究及國內(nèi)外相關(guān)等值研究的基礎(chǔ)上提出的，所得到的等值結(jié)果是基于MHK的等值情境，MHK等值情境的特殊性可能會限制其等值連接結(jié)果的可推廣度，但是由于語言能力是一種綜合的交際能力，即使測驗在編制的時候是分技能進行考查的，各部分仍具有一定的相關(guān)，在沒有其他更好的辦法與途徑的時候，這種間接橋接的等值連接思路是值得探討的。

4.2 關(guān)于等值效果比較的檢驗標(biāo)準(zhǔn)問題

與等值相關(guān)的研究的難點之一就是等值效果檢驗標(biāo)準(zhǔn)的確定問題。多數(shù)等值研究中所使用的等值檢驗標(biāo)準(zhǔn)多是用于比較等值方法是否一致的證據(jù)，但不能提供精確的程度，因為不同方法之間很難找到比較的基準(zhǔn)，目前的研究同樣面臨這個問題。理想的情況是，在最短時間間隔內(nèi)將兩個不同的口試試卷施測于一組考生，以共同組等值方式作為檢驗標(biāo)準(zhǔn)，這樣能對等值效果進行更有力的說明。但是這種方式很難實現(xiàn)，一是很難保證參加兩次施測的考生具有相同的動機水平；二是口試閱卷評分任務(wù)量大，專門組織等值施測代價較高；三是這樣連續(xù)實測兩次，尤其對于口試這樣的主觀性試題來說，很可能會存在練習(xí)效應(yīng)。因此依據(jù)MHK測試實施特點及其數(shù)據(jù)特點，研究選擇了“隨機等組設(shè)計”作為評價依據(jù)。從研究目的來說，是想探索聽力作錨進行口試試題等值連接的可行性，并非要進行嚴(yán)格上意義上的等值連接處理，因此對其等值誤差的來源及分析暫不討論。

4.3 有待進一步研究的問題

近年來，隨著測量理論的發(fā)展，心理測量學(xué)家們對測驗等值問題給予越來越多的關(guān)注，不僅提出了許多等值方法，而且圍繞等值問題展開了許多方面的研究。研究問題包括：不同等值設(shè)計之間的比較，不同理論模型之間的比較，不同等值系數(shù)估計方法之間的比較，等值誤差因素研究，等值誤差估計方法研究，等等（謝小慶，2000）。但是多數(shù)等值研究都是針對客觀性試題，缺乏對主觀性試題等值連接的研究。然而，在實際操作中又有許多大規(guī)模測驗都面臨著主觀性試題等值連接問題。由于等值存在諸多的設(shè)計方案、模型和方法，而主觀性試題等值連接又存在諸多導(dǎo)致等值誤差的因素，圍繞主觀性試題等值連接問題，還需要在多方面展開進一步的研究，其中以主觀性試題評分質(zhì)量控制最為關(guān)鍵，希望能在接下來的研究中能對此展開討論。

[1]Dorans,N.J.&Holland,P.W.,Brennan,R.L..(Ed).Educational measurement:Fourth Edition(ACE/Praeger Series on Higher Education)[M].New York:Praeger Publishers Inc.2006.

[2]EijiMuraki,Catherine M.Hombo&Yong-Won Lee.Equating and linking of performance assessments[J].Applied Psychological Measurement,2000,24,325-337.

[3]Harrison&Carrol Franklin.A study of the relationship between speaking and listening comprehension in the single individual[D].Montana State University,1959.

[4]Kadriye Ercikan,Richard D.Schwarz&Marc W.Calibration and scoring of tests with multiple-choice and constructed-response item types[J].Journal of Educational Measurement,.1998(35),137-154.

[5]Sooyeon Kim,Michael E.Walker&Frederick Mehale.Comparison among designs for equating mixed-format tests in larger-scale assessments[J].Journal of Measurement,2010（47），36-53.

[6]Woodford,E.Protase.An introduction to TOEIC:the initial validity study[R].Educational Testing Service.

[7]丁樹良，熊建華.項目反應(yīng)理論框架下幾個等值問題的探討[J].中國考試，2003（12）：14-15.

[8]楊惠元.漢語聽力說話教學(xué)法[M].北京：北京語言大學(xué)出版社，2002.

[9]謝小慶.對15種測驗等值方法的比較研究[J].心理學(xué)報，2000（32）：217-223.

[10]謝小慶.中國少數(shù)民族漢語水平等級考試的理論框架[C].考試研究文集，2002：17-36.

[11] 謝小慶.HSK和MHK的等值[J].考試研究，2005（1）：33-46.

[12]謝小慶.考試分?jǐn)?shù)等值的新框架[J].考試研究，2008（4）：4-17.

（責(zé)任編輯周黎明）

Research on the Feasibility of Equating Tests with Constructed-response Items

PENG Hengli，ZHANG Xiuxiu and LIUHui

Equating the test scores is crucial to the fairness and reliability of a test.Nowadays most test forms with multiple-choice(MC)items have been equated to make sure that the scores can be comparable in most large-scale assessments.Whereas tests with constructed-response(CR)items pose some challenge in the area of equating.The number of items used in CR tests is typically much smaller,moreover those items are easier to be exposed and the item difficulty is harder to be controlled.Also CR items tend to be difficult to score objectively and reliably.The problem discussed in this study comes from the real testing procedure,which meets the practical needs.Using data from one administration of MHK,a large-scale exam for testing Chinese minority‘s Chinese proficiency,this study investigates the use of MC items from the listening comprehension part as anchor items to equate CR items in the oral test of MHK in the context of the Item Response Theory methodology,using random group design to verify the equivalent accuracy.The results support the feasibility of the use of the proposed equating method.Since there are a lot of relevant practical issues in the equating procedure of CR items,the conclusion of this study needs further verification.

MHK；Oral Test；Constructed-response Items；Equating

G405

1005-8427(2014)12-0024-8

本文系國家語委“十二五”科研規(guī)劃重點項目（編號：ZD1125-6)的研究成果之一。

彭恒利，男，北京語言大學(xué)語言科學(xué)院，副研究員（北京 100083）

張秀秀，女，北京語言大學(xué)語言科學(xué)院，在讀研究生（北京 100083）

劉慧，女，北京語言大學(xué)語言科學(xué)院，助理研究員，博士（北京 100083）

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

主觀性試題分?jǐn)?shù)等值連接可行性初探

1 引言

2 研究思路與方法

2.1 研究思路

2.1.1 等值條件

2.1.2 客觀題（聽力理解）作錨可行性

2.1.3 MHK口試等值的可行性

2.2 研究設(shè)計

2.2.1 研究對象

2.2.2 研究方法

3 研究結(jié)果

3.1 等值設(shè)計條件檢驗

3.2 等值連接數(shù)據(jù)處理結(jié)果

3.3 等值連接系數(shù)標(biāo)定

3.4 等值連接效果判斷

4 分析與討論

4.1 關(guān)于聽力作錨進行等值的相關(guān)問題

4.2 關(guān)于等值效果比較的檢驗標(biāo)準(zhǔn)問題

4.3 有待進一步研究的問題