計算機自適應(yīng)測驗在美國護士執(zhí)照考試中的應(yīng)用

2020-07-21 00:44魏華林陳聲宇

考試研究 2020年3期

魏華林陳聲宇

計算機自適應(yīng)測驗（Computerized Adaptive Testing，CAT）由Lord 在20 世紀70 年代初奠定理論基礎(chǔ)，80 年代初由Weiss 大力倡導與推進[1]，90 年代中期開始大規(guī)模應(yīng)用，目前美國研究生入學考試（Graduate Record Examinations， GRE）、美國管理學研究生入學考試（Graduate Management Admission Test，GMAT）、外國人英語能力測試（Test of English as a Foreign Language，TOEFL）、軍隊職業(yè)傾向測驗（Armed Services Vocational Aptitude Battery ，ASVAB）、美國全國教育進展評估（National Assessment of Educational Progress，NAEP）、美國護士執(zhí)照考試（National Council Licensure Examination for Registered Nurses，NCLEX-RN）等知名考試和測評均已采用CAT[2]。NCLEX-RN 是在美國申請注冊護士執(zhí)照必須參加的行業(yè)準入性考試，從1994 年就開始采用CAT 考試模式，形成了一套成熟穩(wěn)定的CAT 考試技術(shù)方案，是大規(guī)模高利害考試中運用CAT 的典范，值得深入研究和借鑒。本文以NCLEX-RN 為例，系統(tǒng)介紹CAT 的應(yīng)用情況，以期對我國的考試工作有所啟發(fā)。

一、計算機自適應(yīng)考試簡介

CAT 是一種基于計算機的考試形式，能夠根據(jù)考生能力水平呈現(xiàn)適應(yīng)考生能力的試題，因人施考，因此又被稱為個性化定制考試。具體來說，如果考生答對了一道或一組中等難度的題目，計算機將在下一批題中呈現(xiàn)更難的試題；如果考生答錯，計算機將在下一批題中呈現(xiàn)一個更簡單的試題。通過考生作答對錯和試題難度的反復匹配，最終估計出考生的能力水平，并與合格標準做比較。

采用CAT 模式進行考試具有顯而易見的優(yōu)點，它能夠通過更少的試題就對考生的能力水平做出更加精確的估計[3]。更少的試題節(jié)省了考試的組織成本和考生的考試時間，更加經(jīng)濟，為一年多次的預約式考試奠定了基礎(chǔ)；更少的試題和自適應(yīng)抽題策略減少了更多試題的曝光風險，更加安全；對考生能力更精確的估計則提高了考試的有效性、公平性，由于試題能自動適應(yīng)考生的能力，能力高的考生可以少做對他們而言簡單的題目，能力低的考生也可以少做對他們而言困難的題目，提高了測量精度。

二、計算機自適應(yīng)測驗在NCLEX-RN 中的應(yīng)用

1.基本概況

NCLEX-RN 由美國護士局聯(lián)合委員會（National Council of State Board of Nursing，NCSBN）負責管理。作為一項高利害的資格準入考試，其對護理能力的精確評估對于保護公眾健康、安全和福利至關(guān)重要。為此，NCSBN 從1986 年開始，開展了將NCLEX-RN從傳統(tǒng)的紙筆考試轉(zhuǎn)向CAT 的可行性評估和研究，歷時8 年最終于1994 年4 月1 日正式實施[4]。

NCLEX-RN 采用CAT 模式，考生只作答與其能力相匹配的試題，根據(jù)考生對試題的作答情況，每個考生的最終題量不一，NCLEX-RN 的題量范圍在75-265 之間，全部為0/1 計分，其中有15 道是預測試題，不計分總分，用來標定試題參數(shù)。題型包括選擇題（multiple-choice question，MCQ）、多選題（multiple response）、填空題（fill-in-blank）、排序題（ordered response）和熱點題（hot spot）?？荚嚂r長為6 個小時，包括休息時間。NCLEX-RN 采用預約式考試，具體考務(wù)工作委托Pearson VUE 組織，考生可以在Pearson VUE 遍布全球的考點預約任意時間的考試。

2.理論基礎(chǔ)

NCLEX-RN 的CAT 采用Rasch 模型為理論基礎(chǔ)。Rasch 模型中，個體能力和試題難度相互獨立并且表達在同一個單維的量尺連續(xù)體上，以logit 代替?zhèn)鹘y(tǒng)的分數(shù)概念，個體與個體之間、題目與題目之間、個體與題目之間可以方便地進行直接比較，這是Rasch 模型區(qū)別于經(jīng)典測量理論（Classical Test Theory，CTT）的一個顯著特征，也是其實際應(yīng)用當中最有意義的一個方面[5]。

Rasch 模型是一個理想模型，它要求實際數(shù)據(jù)資料必須滿足兩個要求，一是能力高的個體在同一道試題上作答正確的概率要高于能力低的個體，二是同一個體在低難度試題上作答正確的概率要高于高難度試題，而這兩個要求在實際測量中不大可能完美達到，因此RASCH 模型并非來自于實際數(shù)據(jù)，而是來自測量必須具有的結(jié)構(gòu)，是一種先驗要求。這與其他IRT 模型可以使用不同的參數(shù)來適應(yīng)實際數(shù)據(jù)正好相反，它要求實際數(shù)據(jù)必須符合模型先驗要求[6]。

3.考試內(nèi)容

RASCH 模型要求測量內(nèi)容必須符合單維性假設(shè)，因此NCLEX-RN 把護理能力視為一個總體建構(gòu)，包含幾個具體的內(nèi)容領(lǐng)域，且這些具體的內(nèi)容領(lǐng)域都統(tǒng)一在護理能力的不同層次結(jié)構(gòu)中，因而只需要一個整體的合格標準。若將護理能力看作由幾個獨立的結(jié)構(gòu)成分所組成，包括臨床需求、護理過程、特定環(huán)境等，那就需要為每個結(jié)構(gòu)成分單獨開發(fā)相應(yīng)的量表并分別設(shè)定合格標準[7]。

考試內(nèi)容的確定采用實踐分析（practice analyses）并制定考試大綱。作為一項執(zhí)業(yè)資格考試，NCLEX-RN 的考查目標是考生是否具備安全而有效地從事臨床護理工作所必需的知識（knowledge）、技能（skills）和能力（abilities）（簡稱KSAs），這決定了其考試內(nèi)容必須來源于臨床護理實踐需求，實踐分析就是用來收集新注冊的準入級護士當前臨床實踐數(shù)據(jù)，用來指導考試內(nèi)容分布。NCSBN 每3 年會進行1次實踐分析，以根據(jù)臨床實踐變化更新考試內(nèi)容分布。最新的實踐分析于2017 年進行，從2016 年4 月15 日-2017 年3 月15 日期間通過NCLEX-RN 的考生中隨機抽取了12000 名進行實踐分析問卷調(diào)查，調(diào)查內(nèi)容為評定142 項護理活動的執(zhí)行頻率和重要程度，這142 項護理活動清單由學科專家小組（subject matter expert，SME）根據(jù)當前考試大綱類別制定并由NCLEX-RN 考試委員會審定。實踐分析調(diào)查問卷還包括執(zhí)照信息、工作環(huán)境、基本人口統(tǒng)計學信息和意見反饋等。

4.題庫

大多數(shù)常見的CAT 模型都以“大型”的IRT 校準題庫作為先決條件，NCSBN 最初將NCLEX-RN轉(zhuǎn)向CAT 時，也認為題庫越大越好，但經(jīng)過實際使用后，他們認為題庫量并沒有必要盡可能大，太大的題庫使得考生反應(yīng)分散于太多試題中，導致難以獲得足夠信息進行題庫監(jiān)測研究，如項目功能差異（Differential Item Functioning，DIF）、量表漂移（scale drift）等[8]。因此，NCLEX-RN 在平衡題目曝光和開展必要研究所需樣本量的基礎(chǔ)上，將原有的題庫縮減為幾千道試題，實際使用時會將這些試題劃分為幾個平行的題庫。

由于采用Rasch 模型，試題參數(shù)只有難度，因而題庫中的試題均標定了難度參數(shù)。試題參數(shù)標定有兩個來源：一是在CAT 實施之前傳統(tǒng)紙筆考試實測試題的參數(shù)，二是CAT 實測考試中未計入總分的預測試題[9]。參數(shù)已估試題會定期重新標定。

5.合格標準

NCLEX-RN 合格標準是入門級護士進行安全而有效的臨床護理實踐所需的最低勝任力，其設(shè)定是在綜合多種信息來源的基礎(chǔ)上作出的決策[10]，具體包括：

（1）專家判斷法

該方法是合格標準設(shè)定的直接來源。采用改進Angoff 法、Beuk 折中法和整體估計法設(shè)定[11]，由9-20人組成的專家小組判斷最低勝任力的準入級護士在300 道真題（real item）上的作答情況和整體通過情況。改進Angoff 法具體步驟是，：首先選拔專家小組，該專家小組均為已有執(zhí)照的注冊護士，其來源覆蓋美國東北部、中西部、南部以及西部4 個不同地域（4大區(qū)域經(jīng)濟發(fā)展水平不一，專家要覆蓋不同區(qū)域才具有全美代表性）），其中包括少數(shù)種族代表和新獲執(zhí)照的注冊護士；其次培訓專家小組，討論確定“最低勝任力的準入級護士”的定義特征和試題難度的定義，并用30 道練習題練習設(shè)定程序；然后進行實際判斷，專家小組要判斷在每道試題上“100 個最低能力水平的準入級護士有多少人可以答對該題”，300 道試題每25 題作為一組，每組試題評定完進行統(tǒng)計分析并討論專家之間評分差異較大的試題，討論后專家可以自由改變評分，之后進行下一組試題，此過程一直持續(xù)到全部300 道試題評定結(jié)束；最后，將專家組對試題難度判斷的平均值作為推薦的合格標準。整體估計法是在改進Angoff 法之后進行，專家組從整體上回答三個問題：“您認為參照組考生（首次參加考試的美國本土考生）不能通過RN 的百分比是多少”，“您認為參照組考生不能勝任護理實踐的百分比是多少”， “在您剛剛判定的300 道試題中，您認為最低勝任考生需要答對的試題百分比是多少”。Beuk 折中法是在改進Angoff 法結(jié)果和整體估計法中的第2 個問題結(jié)果之間折中，來近似判斷最低勝任考生的表現(xiàn)。

（2）面向護理教育者和護士雇主的合格標準設(shè)定調(diào)查結(jié)果

NCSBN 每年都會選定一批護理專業(yè)人員進行問卷調(diào)查，調(diào)查對象包括護理教育機構(gòu)的管理者、醫(yī)院護理部主任、長期護理機構(gòu)和社區(qū)/家庭健康機構(gòu)共四類，每年發(fā)送1600 份調(diào)查表，每類調(diào)查對象400份，征求他們對當前準入級注冊護士隊伍能力的意見。調(diào)查問題有三個：一是將其接觸到的新注冊護士按照“是否勝任”和“能否通過考試”兩個維度分為四類（由于護士雇主接觸到的都是已通過考試的注冊護士，其只需回答通過考試的護士“是否勝任”），二是當前注冊護士隊伍質(zhì)量與以前相比是更差、相同還是更好，三是NCLEX-RN 目前的合格標準應(yīng)該降低、保持不變還是提高。第一個問題能分別得出護理教育者和雇主認為勝任考生的比例，即考試預期通過率。

（3）過往合格標準以及在該標準下的考生表現(xiàn)

將歷年來的合格標準和首次參加考試的美國本土考生和全部考生的通過情況按年、按季度繪制成圖，作為背景信息供參考。

（4）有意從事護理行業(yè)的高中畢業(yè)生的教育背景信息

提供這部分人群歷年高考（American College Test，ACT）的平均成績，作為背景信息供參考，幫助解釋通過率的意外變化。這些信息只是用來解釋通過率的變化，而不會用作調(diào)高或降低合格標準。

（5）綜合信息

以上第（1）和（2）條信息可以得出多個合格標準，為評估不同方法得到的合格標準的實際影響，分別繪制了NCLEX-RN 上一年度實際考試中兩個人群的成績累積頻率分布曲線，一是首次參加考試的美國本土考生，二是全部考生。不同合格標準都可以在這兩條分布曲線上推測出兩個考生群體的通過率，作為最終確定的合格標準參考，以防止設(shè)定的合格標準不切實際。

在獲得以上信息后，由NCSBN 董事會（Board of Directors，BOD）討論并投票確定合格標準。由于護理臨床實踐要求隨著時代發(fā)展在變化，為確保合格標準能夠反映當前入門級護士臨床實踐所需的能力，NCSBN 每3 年對考試大綱進行一次修訂，BOD也隨之每3 年對合格標準重新評估一次。12 月份開會投票確定新的合格標準，次年4 月1 號開始執(zhí)行。

表1 NCLEX-RN 不同合格標準來源預期通過率比較（例表）[10]

在RASCH 模型下，NCLEX-RN 的試題參數(shù)和考生能力估計能基于Rasch 模型置于同一量尺連續(xù)體上，合格標準也自然而然地表達在該量尺上。多種來源的合格標準信息均可以定義在RASCH 模型統(tǒng)一量尺上，具體包括：（1）專家小組通過改進ANGOFF 法、Beuk 折中法和整體估計法設(shè)定的通過率可以轉(zhuǎn)換為能力連續(xù)體上的值；（2）過往的合格標準能力值；（3）護理教育者和護士雇主建議的通過率所對應(yīng)的能力值[11]。

表2 NCLEX-RN 采用CAT 以來的歷年合格標準（logit）

6.選題策略

選題策略本質(zhì)上是在多個約束條件下選取組合最優(yōu)試題的方法。NCLEX-RN 考試呈現(xiàn)給考生的每一道試題均從題庫中抽取，試題抽取基于三個標準[12]：（1）內(nèi)容標準。該試題所屬考查內(nèi)容與考試大綱中各項內(nèi)容百分比符合試卷大綱的要求，以確保每一個考生的考試內(nèi)容領(lǐng)域都有足夠的試題并匹配考試大綱內(nèi)容百分比。（2）難度標準。選擇一個預計對考生有一定挑戰(zhàn)性的試題。根據(jù)考生到目前為止的答案以及這些試題的難度，計算機估計考生的能力，并選擇考生應(yīng)有50%的機會正確回答的試題。這樣，下一個試題不應(yīng)該太容易或太難，并且考試可以從該試題中獲得關(guān)于考生能力的最大信息。（3）重復標準。對于重復考生，不會出現(xiàn)其在以往試題中看到的任何題目。

7.能力估計和決策程序

決策程序是對考生是否通過考試的判定程序，當計算機能夠判定考試能力高于或低于合格標準時，考試即停止。CAT 是一個人機交互的迭代過程，具體步驟是：

（1）根據(jù)對考生能力水平的當前估計，計算機從題庫中搜索最適合考生能力的試題；

（2）計算機將選定的試題呈現(xiàn)給考生，考生做出回答，計算機估計考生能力；

（3）計算機根據(jù)先前所有試題的作答對錯情況，更新對考生能力水平的估計；

（4）重復步驟（1）-（3），直到滿足終止規(guī)則。

在NCLEX-RN 中，按照以上抽題策略答完第75題后，計算機會試圖以95%的置信度判定考生的真實能力是否高于或低于合格標準[13]。具體程序如下：

（1）95%置信度標準（The 95%Confidence Interval Rule）

如果考生能力估計值高于合格標準，且能力估計值95%置信度的標準誤下限超過合格標準，考試停止并且判定考生通過；如果能力估計值低于合格標準，且95%置信度的標準誤上限低于合格標準，考試停止并且判定考生不通過。如果計算機無法以95%的置信度做出決定，那么系統(tǒng)會按照符合試卷藍圖要求的原則自動提供下一試題，并再次按照上述規(guī)則評估考生能力和能力置信度，作出合格判斷，依次類推。

當始終無法以95%置信度做出判斷時，會出現(xiàn)兩種情況，一是在考試作答時間內(nèi)（6 小時）做完了全部265 題，此時按最大題量標準判定；一是考試時長已到但試題未答完，此時按作答時長標準判定。

（2）最大題量標準（Maximum-Length Exam）

如果考生答完了全部265 題但仍未能以95%置信度判定考生是否通過，那么不再考慮置信度，而直接根據(jù)全部試題的作答情況對考生能力進行估計，能力估計值高于合格標準則判定通過，否則不通過。NCLEX-RN 認為，如果考生做完了全部265 題，對考生的能力估計是非常精確的。

（3）作答時長標準（Run-Out-Of-Time Rule）

又名最后60 題標準（last 60 rule）。如果考生沒有在考試總時長內(nèi)答完全部試題，則將已答最后1題的能力估計與通過標準進行比較。如果不高于合格標準，則考試結(jié)束并判定考生不通過。如果高于合格標準，則將倒數(shù)第2 題的能力估計與通過標準進行比較。如果此估計值也高于合格標準，則將倒數(shù)第3 題的能力估計值與通過標準進行比較。只要高于合格標準，這個過程將會一直持續(xù)下去，直到倒數(shù)第60 題。但凡有一道題的能力估計等于或低于合格標準，則考試結(jié)束并判定考生不通過[14]。

8.評分和成績報告

盡管NCLEX-RN 是實時評分，在VUE 考試中心答題完畢即意味著評分完成，但考試結(jié)果并不會立即呈現(xiàn)給考生。VUE 考試中心并沒有權(quán)限接觸考試結(jié)果，考試結(jié)果會以電子方式發(fā)送給該護士申請注冊的護理監(jiān)管機構(gòu)（nursing regulatory body，NRB），各州的NRB 一般在考后6 周向考生公布官方成績，也有一些州的NRB 會有償提供非正式的快速成績服務(wù)（quick result service），考后2 個工作日即可查詢，但需要繳納一定費用，并且不能用于申請執(zhí)照。

由于采用CAT，考生作答題量不一，因而考生考試時長與最終是否通過并無關(guān)系，考生原始得分也無意義?？荚嚱Y(jié)果只報告是否通過（pass or fail），不報告原始得分。

針對未通過考生，NCLEX-RN 會提供有償?shù)某煽兎治鰣蟾妫–andidate Performance Report，CPR），目的是幫助重考考生理解自己內(nèi)容掌握的優(yōu)、劣勢，以指導下一步的學習。該成績分析報告共兩頁紙：首頁內(nèi)容包括考生信息、作答試題數(shù)量、是否通過、CAT考試原理和如何使用第二頁信息；第二頁內(nèi)容是分模塊知識點的比重及考生表現(xiàn)（是否通過）。雖然原始得分沒有意義，但作答試題數(shù)量可以視為考生接近合格標準程度的指標。

三、總結(jié)

CAT 已經(jīng)在NCLEX-RN 中平穩(wěn)運行25 年，得益于其運行之前歷經(jīng)8 年的深入評估、論證和測試，其模式從1994 年確定之后幾乎未做調(diào)整，也未發(fā)生大規(guī)模失泄題和質(zhì)疑事件，科學性、公平性都經(jīng)歷了時間的驗證。Rasch 模型作為最簡單易懂的IRT 模型，其簡潔性使得能力估計、試題難度、選題、合格標準等都高度統(tǒng)一，便于實踐推廣。但是，CAT 在國內(nèi)考試中推廣還面臨著許多障礙。第一，CAT 要求題庫所有試題都有參數(shù)標定，這就需要試題預先施測于大樣本中以獲得穩(wěn)定的試題參數(shù)，試題的提前曝光增加了安全風險；第二，在選題策略上，盡管CAT 有曝光控制算法以防止過度抽取某些題目，但信息量大的題目有更高概率被抽到，另外一些題目則可能很少被抽到，造成題庫浪費；第三，自適應(yīng)考試題目可能會被培訓機構(gòu)通過回憶復制，導致題庫大部分試題曝光，最著名的案例就是1994 年Kaplan 教育中心通過派雇員多次參加GRE 考試并通過回憶試題“盜取”了題庫里的大量試題，以及2002 年亞洲的一些網(wǎng)站公布GRE 真題導致ETS 中止了在中國內(nèi)地、香港、臺灣地區(qū)和韓國的GRE 采用CAT 考試[15]。這些缺點導致了CAT 在國內(nèi)應(yīng)用的受限。雖然在高考、執(zhí)業(yè)準入類等高利害考試中采用CAT 存在障礙，但國內(nèi)可以在一些非高利害考試中借鑒NCLEX-RN 的CAT 模式，逐步探索。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡