計算機模擬病例考試質(zhì)量的評價研究

2018-03-02 07:44王煒

中國衛(wèi)生標(biāo)準(zhǔn)管理 2018年3期

王煒

目前，由于標(biāo)準(zhǔn)化考試在國內(nèi)普及以及教育測量學(xué)的廣泛應(yīng)用，人們普遍運用統(tǒng)計學(xué)和教育測量學(xué)參數(shù)來評價考試與試卷的質(zhì)量和結(jié)果，豐富了評價手段和方法?，F(xiàn)代醫(yī)學(xué)考試的評價指標(biāo)主要趨向于定量化，如試題難易度、區(qū)分度、信度、效度和平均分等。計算機模擬病例考試作為一項醫(yī)學(xué)考試，同樣適用于使用這類評價方法對考試質(zhì)量做出評估，是試題質(zhì)量分析的一項重要指標(biāo)，為命審題專家對試題的修改和補充做出參考，對進一步提高考試質(zhì)量和題庫質(zhì)量具有指導(dǎo)意義。

1 計算機模擬病例考試

現(xiàn)在的醫(yī)學(xué)考試多數(shù)仍以傳統(tǒng)的筆試考試為主，這種考核方式更注重理論知識掌握情況的考核，缺乏對考生臨床實踐能力的評價。而在臨床實踐能力考核方面，傳統(tǒng)的考試形式相對缺乏客觀性、有效性，缺少簡單易行的辦法，考試成績難以科學(xué)反映考生水平。現(xiàn)代醫(yī)學(xué)考試要求實踐考試方法接近實際，計算機模擬病例考試作為一種有效地實踐考試方法，其評價能夠做到客觀、準(zhǔn)確，正在受到越來越多的重視。

計算機模擬病例考試系統(tǒng)是一個動態(tài)的、人機交互的對患者疾病狀況的模擬，是利用人機對話形式使某些傳統(tǒng)紙質(zhì)考試或面試無法表達(dá)的試題形式，通過計算機輔助系統(tǒng)的處理，較全面具體的反映考生解決臨床問題實際能力和水平，對專業(yè)人員做出較為客觀評價的考試形式[1]。其試題為根據(jù)病例進行連續(xù)性提問的不定項選擇題，一個病例一般可以延伸3～10個提問，考生根據(jù)病例摘要的內(nèi)容和每一問的其他提示信息進行作答。題目從邏輯性上完全模擬臨床實際接診情況，通過計算機模擬實際病例，讓考生根據(jù)計算機提示的初診患者情況、檢查結(jié)果、影像診斷、鑒別診斷和治療方式等文字或多媒體信息作答每一個不定項選擇題，在考試中當(dāng)一問確認(rèn)結(jié)束后不能返回修改，完全模擬實際工作從患者的接診、檢查、診斷、處理等方面對被考核人員進行綜合評價。計算機模擬病例考試的評分原則采用每一問得扣分制，即每一問的分?jǐn)?shù)由選擇的正確答案和錯誤答案個數(shù)相抵消后給出，最低將這一問的分?jǐn)?shù)扣為0分為止。

目前我中心的計算機模擬病例考試涵蓋115個專業(yè)，專業(yè)設(shè)置細(xì)化到三級分科，從專業(yè)設(shè)置上基本能夠貼合考試要求，考試內(nèi)容能夠緊密結(jié)合該專業(yè)所要求的專業(yè)范圍。

2 計算機模擬病例考試評價

計算機模擬病例考試質(zhì)量的評價指標(biāo)與方法因其題型不完全相同以及評分方式的不同，不能與傳統(tǒng)的筆試考試一概而論，需要在借鑒傳統(tǒng)考試形式評價方法的基礎(chǔ)上綜合學(xué)科專家的專業(yè)意見，結(jié)合專業(yè)領(lǐng)域的知識和實踐經(jīng)驗?，F(xiàn)用某次考試中其中一個代碼為AK的專業(yè)的考試試卷和結(jié)果作為分析對象對該專業(yè)的題目和考試效果做出評價，為該學(xué)科專家綜合評定試題做出參考，為提高題庫試題質(zhì)量和考試質(zhì)量做出指導(dǎo)。

專業(yè)代碼為AK的計算機模擬臨床病例此次考試共含有12個病例，共計70個提問，總分為100分，此次考試該專業(yè)實考考生為200人，根據(jù)此次考試的考生答題數(shù)據(jù)，對該專業(yè)的考試質(zhì)量進行評價?？荚囋u價包括試題質(zhì)量評價和試卷質(zhì)量評價，以及考生成績的分析。

2.1 試題質(zhì)量評價

2.1.1 難易度教育測量中定量刻畫被試作答一個題目所遇到的困難程度的量數(shù)，就叫做試題的難度系數(shù)，用符號P表示，由于每個病例不只全部答對滿分和答錯0分兩種可能結(jié)果，而是從滿分至0分之間有多種結(jié)果出現(xiàn)的可能性，因此難度系數(shù)計算公式為其中X為此次考試所有被試者在該題上的平均得分，Xmax為該題目的滿分[2]。一般來說，試題難度系數(shù)P值為0.00～1.00，P值為0.00～0.39的試題列為難題，0.40～0.69列為中等題，0.70～1.00列為容易題[3]。經(jīng)驗與研究均表明，倘若標(biāo)準(zhǔn)化常模參照測驗所有題目的難度系數(shù)分布在0.30～0.70，并且整個測驗的難度系數(shù)在0.50左右時，可使測驗對被試有較大的鑒別力，而且可以使測驗分?jǐn)?shù)接近正態(tài)分布。該專業(yè)試卷組卷時，因測試對象屬于初級人員水平，按要求以難、中、易試題2∶4∶4的難易程度進行組卷，根據(jù)命審題專家對試題的難度判斷，按照標(biāo)注的試卷難度預(yù)測整體試卷難度應(yīng)為0.58。

計算機模擬病例考試的特點是病例下連續(xù)的幾個提問，互相具有緊密的關(guān)聯(lián)性，考察的是對該病例所描述病種的知識掌握情況，因此試題均以病例而不是單獨一問為單位進行難度劃分。在命審題專家對題目難度進行預(yù)測時，以0.3代表較難，0.5代表中等，0.7代表容易三個層次進行劃分。通過對200人的成績進行分析，得到該專業(yè)試卷各病例難度值，從而得到該專業(yè)試卷難度值。該專業(yè)各病例難度值見表1。

該套試卷總問數(shù)為70問，以病例內(nèi)提問數(shù)為除以70得出每個病例在試卷中所占比重，乘以該病例實際難度值后得出整套試卷難度值為0.58，與預(yù)測難度相符，能夠有效反映應(yīng)試者的水平。但其中病例號為035751和115751的兩個病例試題實際難度值與預(yù)測難度不符，需要再結(jié)合其他考試成績分析后提交命審題專家審核，重新綜合判定這兩個病例的預(yù)測難度值是否科學(xué)。

2.1.2 區(qū)分度試題區(qū)分度是試題區(qū)別被試水平能力的量度，常用D表示，是判定試題質(zhì)量的一項常規(guī)測量項目。區(qū)分度的計算一般采用高低分組法，其具體方法是先將被試成績從高到低排列，按照分?jǐn)?shù)最高和最低的考生各取前27%組成高分組和低分組，然后分別計算兩組對該試題的平均分，用P表示（高分組PH和低分組PL），再用公式D=PH-PL計算D值，一般試題區(qū)分度D值越大，也就越有效。該專業(yè)本次考試各病例區(qū)分度經(jīng)計算見表2。由于病例考試的特殊扣分原則，選擇題不是只有滿分和0分兩種，因此按照經(jīng)驗，區(qū)分度在0.4以上即可視為有效，區(qū)分度在0.2以下的試題盡量淘汰出題庫，0.2～0.4的病例則考慮請命審題專家審核，判斷題目修改方向或判定是否將題目淘汰出題庫。

經(jīng)過數(shù)據(jù)分析，病例號為109751的試題區(qū)分度為0.16，建議淘汰出題庫，病例號為074601和117751的試題區(qū)分度在0.2～0.4，需要請命審題專家結(jié)合其他指標(biāo)進行判斷是否修改或淘汰出庫。

2.2 試卷質(zhì)量評價

2.2.1 信度信度是反映測試試卷所有題目得分一致性程度的統(tǒng)計量，它是常規(guī)測量項目。一般來說，信度系數(shù)以1.00為最多，但實際考試測量都小于1.00，一般情況下，信度大于0.7則考試分?jǐn)?shù)具有參考性，低于這一數(shù)值則該次考試分?jǐn)?shù)的參考價值不大。

由于本次考試是一次正式考試，只有一次測試結(jié)果，因此獲得試卷的信度需要使用對半法，將整套試題的題目按單、雙數(shù)分成兩組來分別計分，再用公式計算兩組分?jǐn)?shù)的相關(guān)系數(shù)，而后再用斯皮爾曼—布朗公式進行校正，從而得出整個試卷的信度[4]。

設(shè)r為相關(guān)系數(shù)，n為該專業(yè)本次考試人數(shù)，x為單數(shù)題號題目得分，y為雙數(shù)題號題目得分，利用相關(guān)系數(shù)計算公式：

2.2.2 效度效度是指一次測量的有效程度。試卷的效度一般情況下可以分為內(nèi)容效度、效標(biāo)關(guān)聯(lián)效度與結(jié)構(gòu)效度3種類型，但對醫(yī)學(xué)考試來說，最合適的效度指標(biāo)是內(nèi)容效度，其次是效標(biāo)關(guān)聯(lián)效度。內(nèi)容效度是指測驗的內(nèi)容能否充分反映所要測量的目的要求。內(nèi)容效度的分析方法有邏輯分析法和量化分析法。邏輯分析法由有關(guān)專家對測驗題目與應(yīng)測內(nèi)容范圍的吻合程度做出判斷；量化分析法則以數(shù)量指標(biāo)描述實測內(nèi)容與預(yù)測目標(biāo)的相關(guān)程度。醫(yī)學(xué)考試一般所用的是內(nèi)容效度的邏輯分析法[5]。在本次考試的評價中，依據(jù)考試結(jié)果與考試前由命題者編制的考試目標(biāo)和難易度進行對比，該專業(yè)考試目標(biāo)準(zhǔn)確，包含難、中、易試題比例比較科學(xué)，病例數(shù)量較多，該專業(yè)所覆蓋知識面比較廣，是一套有效試卷。

2.3 成績分析

2.3.1 頻率分布頻率分布是成績分布測量的常規(guī)測量項目，它能夠直觀地反映各分?jǐn)?shù)段的考生人數(shù)比例，是考試成績的分布形態(tài)指標(biāo)。其具體方法是將成績以10分為一個區(qū)間按照以0～9、10～19、20～29、……、80～89、90～100劃分分?jǐn)?shù)段，列出該次考試中各分?jǐn)?shù)段內(nèi)的考生人數(shù)、所占總?cè)藬?shù)的百分率，然后按照數(shù)據(jù)畫成頻率分布直方圖。一般而言，頻率分布直方圖的最高峰應(yīng)在60～69分?jǐn)?shù)段，呈正態(tài)或正態(tài)略偏右，分布較為正常。該專業(yè)本次考試200人具體成績分布為30～39分5人，40～49分12人，50～59分45人，60～69分82人，70～79分52人，80～89分4人，圖1為該專業(yè)本次考試成績的頻率分布情況，從圖中可以看出其頻率分布符合一般規(guī)律，從頻率分布的角度驗證了該專業(yè)本次考試是一次有效考試，試卷質(zhì)量良好。

表1 專業(yè)AK本次試卷各病例預(yù)計與實際難度值比對表

表2 專業(yè)AK本次考試各病例區(qū)分度計算表

2.3.2 平均分平均分X是成績分布測量常規(guī)測量項目，它反映了考試成績的集中趨勢指標(biāo)。其計算公式是，其中n為考生人數(shù)其中n為考生人數(shù)，Xi為第i個考生的考試成績[6]。一般地，根據(jù)模擬病例考試的評分是采用每一問得扣分制，每一問的分?jǐn)?shù)由選擇的正確答案和錯誤答案個數(shù)相抵消后給出，最低將這一問的分?jǐn)?shù)扣為0分為止，因此獲得高分不容易，平均分一般在60～70分之間較為適宜[7]。經(jīng)計算，該專業(yè)此次考試平均分為62.41，在合理的分?jǐn)?shù)區(qū)間內(nèi)。

3 結(jié)論

圖1 專業(yè)AK本次考試成績的頻率分布圖

根據(jù)以上對試題、試卷和考試成績的評價，該套試卷總體難易度與預(yù)期相符，但有兩個病例難易度與預(yù)期不符，占考試總體量的10%；試題區(qū)分度良好的占77%，區(qū)分度不佳的試題占23%。試卷信度0.73證明了本套試卷的可信性，經(jīng)專家評定該套試卷難易度符合預(yù)期，內(nèi)容包含較為全面，是一套有效試卷。經(jīng)計算考生成績呈正態(tài)分布，平均分較低但在正常范圍內(nèi)，符合計算機模擬病例考試的評分特點。這些數(shù)據(jù)均說明該套試卷總體質(zhì)量良好，能夠達(dá)到考試預(yù)期目標(biāo)，但個別試題存在難易度與預(yù)期不符合區(qū)分度較低的問題，需要在今后結(jié)合試題使用情況做出進一步評價，并由命審題專家審定。

由統(tǒng)計分析所得出的結(jié)果是一種概率意義上的結(jié)論[8]。測量指標(biāo)所反映出的題目或試卷質(zhì)量問題，有可能是試題編制方面的問題，例如題目本身表述不準(zhǔn)確或答案標(biāo)注錯誤；也有可能是被試群體的問題，例如考生整體水平高或整體水平低。除了測量指標(biāo)外，因其內(nèi)容更加貼合實際，每個病例都含有緊密聯(lián)系的多個提問，需要考生根據(jù)多方面知識綜合判斷和考慮，而不是傳統(tǒng)意義上的客觀題，每一個問題多數(shù)只反映某一個知識點，因此究竟是什么原因?qū)е碌脑囶}質(zhì)量問題，需要由該學(xué)科命審題專家根據(jù)統(tǒng)計結(jié)果和其專業(yè)知識以及實踐經(jīng)驗進行科學(xué)分析，而后才可做出具有一定價值標(biāo)準(zhǔn)的確切性的評價結(jié)論。

為此，在計算機模擬病例考試試題的管理中，首先命審題工作需要進一步規(guī)范和加強，從源頭杜絕表述有問題或答案標(biāo)注錯誤的試題出現(xiàn)。其次，要重視試題分析工作，及時將測量指標(biāo)反映出來的題目或試卷問題反饋給審題專家，對題目做出必要的修改和整理。最后，要進一步探索計算機模擬病例考試的評價方法，豐富評價手段，綜合評價考試質(zhì)量，改進考試工作。只有重視考試質(zhì)量的評價研究，才能使題庫保持長久的生命力，使考試更加科學(xué)有效。

[1] 曹偉，孫建華，潘民德. 實踐技能計算機醫(yī)學(xué)考試題庫在資格認(rèn)定中的作用[J]. 繼續(xù)醫(yī)學(xué)教育，2001，15（3）：44-46.

[2] 張陽，秦鵬，左天明，等. 計算機模擬病例考試信度、難度及區(qū)分度研究[J]. 中國高等醫(yī)學(xué)教育，2009（2）：7-8.

[3] 康寧. 計算機模擬臨床病例考試試題的統(tǒng)計分析研究[J]. 考試，2013（1）：7-8.

[4] 萬金鳳. 關(guān)于試卷質(zhì)量的分析方法[J]. 山西師范大學(xué)學(xué)報（自然科學(xué)版），2006，20（1）：22-24.

[5] 劉叔才，葛利榮. 醫(yī)學(xué)考試質(zhì)量評價指標(biāo)體系的構(gòu)建與實現(xiàn)[J].中國社會醫(yī)學(xué)雜志，2008，25（4）：202-204.

[6] 景匯泉，張穎，郭永松，等. 醫(yī)學(xué)考試評價的研究進展[J]. 中國高等醫(yī)學(xué)教育，2009（7）：36-37.

[7] 秦鵬，馮雪英，孫寶志. 計算機模擬病例考試研究的新進展[J].中華醫(yī)學(xué)教育雜志，2007，27（2）：126-128.

[8] 高茵茵，景匯泉，孫寶志. 淺談我國的醫(yī)學(xué)考試評價指標(biāo)體系與評價方法[J] . 西北醫(yī)學(xué)教育，2007，15（6）：1061-1062.