王煒
目前,由于標(biāo)準(zhǔn)化考試在國內(nèi)普及以及教育測量學(xué)的廣泛應(yīng)用,人們普遍運用統(tǒng)計學(xué)和教育測量學(xué)參數(shù)來評價考試與試卷的質(zhì)量和結(jié)果,豐富了評價手段和方法?,F(xiàn)代醫(yī)學(xué)考試的評價指標(biāo)主要趨向于定量化,如試題難易度、區(qū)分度、信度、效度和平均分等。計算機模擬病例考試作為一項醫(yī)學(xué)考試,同樣適用于使用這類評價方法對考試質(zhì)量做出評估,是試題質(zhì)量分析的一項重要指標(biāo),為命審題專家對試題的修改和補充做出參考,對進一步提高考試質(zhì)量和題庫質(zhì)量具有指導(dǎo)意義。
現(xiàn)在的醫(yī)學(xué)考試多數(shù)仍以傳統(tǒng)的筆試考試為主,這種考核方式更注重理論知識掌握情況的考核,缺乏對考生臨床實踐能力的評價。而在臨床實踐能力考核方面,傳統(tǒng)的考試形式相對缺乏客觀性、有效性,缺少簡單易行的辦法,考試成績難以科學(xué)反映考生水平。現(xiàn)代醫(yī)學(xué)考試要求實踐考試方法接近實際,計算機模擬病例考試作為一種有效地實踐考試方法,其評價能夠做到客觀、準(zhǔn)確,正在受到越來越多的重視。
計算機模擬病例考試系統(tǒng)是一個動態(tài)的、人機交互的對患者疾病狀況的模擬,是利用人機對話形式使某些傳統(tǒng)紙質(zhì)考試或面試無法表達(dá)的試題形式,通過計算機輔助系統(tǒng)的處理,較全面具體的反映考生解決臨床問題實際能力和水平,對專業(yè)人員做出較為客觀評價的考試形式[1]。其試題為根據(jù)病例進行連續(xù)性提問的不定項選擇題,一個病例一般可以延伸3~10個提問,考生根據(jù)病例摘要的內(nèi)容和每一問的其他提示信息進行作答。題目從邏輯性上完全模擬臨床實際接診情況,通過計算機模擬實際病例,讓考生根據(jù)計算機提示的初診患者情況、檢查結(jié)果、影像診斷、鑒別診斷和治療方式等文字或多媒體信息作答每一個不定項選擇題,在考試中當(dāng)一問確認(rèn)結(jié)束后不能返回修改,完全模擬實際工作從患者的接診、檢查、診斷、處理等方面對被考核人員進行綜合評價。計算機模擬病例考試的評分原則采用每一問得扣分制,即每一問的分?jǐn)?shù)由選擇的正確答案和錯誤答案個數(shù)相抵消后給出,最低將這一問的分?jǐn)?shù)扣為0分為止。
目前我中心的計算機模擬病例考試涵蓋115個專業(yè),專業(yè)設(shè)置細(xì)化到三級分科,從專業(yè)設(shè)置上基本能夠貼合考試要求,考試內(nèi)容能夠緊密結(jié)合該專業(yè)所要求的專業(yè)范圍。
計算機模擬病例考試質(zhì)量的評價指標(biāo)與方法因其題型不完全相同以及評分方式的不同,不能與傳統(tǒng)的筆試考試一概而論,需要在借鑒傳統(tǒng)考試形式評價方法的基礎(chǔ)上綜合學(xué)科專家的專業(yè)意見,結(jié)合專業(yè)領(lǐng)域的知識和實踐經(jīng)驗?,F(xiàn)用某次考試中其中一個代碼為AK的專業(yè)的考試試卷和結(jié)果作為分析對象對該專業(yè)的題目和考試效果做出評價,為該學(xué)科專家綜合評定試題做出參考,為提高題庫試題質(zhì)量和考試質(zhì)量做出指導(dǎo)。
專業(yè)代碼為AK的計算機模擬臨床病例此次考試共含有12個病例,共計70個提問,總分為100分,此次考試該專業(yè)實考考生為200人,根據(jù)此次考試的考生答題數(shù)據(jù),對該專業(yè)的考試質(zhì)量進行評價??荚囋u價包括試題質(zhì)量評價和試卷質(zhì)量評價,以及考生成績的分析。
2.1.1 難易度 教育測量中定量刻畫被試作答一個題目所遇到的困難程度的量數(shù),就叫做試題的難度系數(shù),用符號P表示,由于每個病例不只全部答對滿分和答錯0分兩種可能結(jié)果,而是從滿分至0分之間有多種結(jié)果出現(xiàn)的可能性,因此難度系數(shù)計算公式為其中X為此次考試所有被試者在該題上的平均得分,Xmax為該題目的滿分[2]。一般來說,試題難度系數(shù)P值為0.00~1.00,P值為0.00~0.39的試題列為難題,0.40~0.69列為中等題,0.70~1.00列為容易題[3]。經(jīng)驗與研究均表明,倘若標(biāo)準(zhǔn)化常模參照測驗所有題目的難度系數(shù)分布在0.30~0.70,并且整個測驗的難度系數(shù)在0.50左右時,可使測驗對被試有較大的鑒別力,而且可以使測驗分?jǐn)?shù)接近正態(tài)分布。該專業(yè)試卷組卷時,因測試對象屬于初級人員水平,按要求以難、中、易試題2∶4∶4的難易程度進行組卷,根據(jù)命審題專家對試題的難度判斷,按照標(biāo)注的試卷難度預(yù)測整體試卷難度應(yīng)為0.58。
計算機模擬病例考試的特點是病例下連續(xù)的幾個提問,互相具有緊密的關(guān)聯(lián)性,考察的是對該病例所描述病種的知識掌握情況,因此試題均以病例而不是單獨一問為單位進行難度劃分。在命審題專家對題目難度進行預(yù)測時,以0.3代表較難,0.5代表中等,0.7代表容易三個層次進行劃分。通過對200人的成績進行分析,得到該專業(yè)試卷各病例難度值,從而得到該專業(yè)試卷難度值。該專業(yè)各病例難度值見表1。
該套試卷總問數(shù)為70問,以病例內(nèi)提問數(shù)為除以70得出每個病例在試卷中所占比重,乘以該病例實際難度值后得出整套試卷難度值為0.58,與預(yù)測難度相符,能夠有效反映應(yīng)試者的水平。但其中病例號為035751和115751的兩個病例試題實際難度值與預(yù)測難度不符,需要再結(jié)合其他考試成績分析后提交命審題專家審核,重新綜合判定這兩個病例的預(yù)測難度值是否科學(xué)。
2.1.2 區(qū)分度 試題區(qū)分度是試題區(qū)別被試水平能力的量度,常用D表示,是判定試題質(zhì)量的一項常規(guī)測量項目。區(qū)分度的計算一般采用高低分組法,其具體方法是先將被試成績從高到低排列,按照分?jǐn)?shù)最高和最低的考生各取前27%組成高分組和低分組,然后分別計算兩組對該試題的平均分,用P表示(高分組PH和低分組PL),再用公式D=PH-PL計算D值,一般試題區(qū)分度D值越大,也就越有效。該專業(yè)本次考試各病例區(qū)分度經(jīng)計算見表2。由于病例考試的特殊扣分原則,選擇題不是只有滿分和0分兩種,因此按照經(jīng)驗,區(qū)分度在0.4以上即可視為有效,區(qū)分度在0.2以下的試題盡量淘汰出題庫,0.2~0.4的病例則考慮請命審題專家審核,判斷題目修改方向或判定是否將題目淘汰出題庫。
經(jīng)過數(shù)據(jù)分析,病例號為109751的試題區(qū)分度為0.16,建議淘汰出題庫,病例號為074601和117751的試題區(qū)分度在0.2~0.4,需要請命審題專家結(jié)合其他指標(biāo)進行判斷是否修改或淘汰出庫。
2.2.1 信度 信度是反映測試試卷所有題目得分一致性程度的統(tǒng)計量,它是常規(guī)測量項目。一般來說,信度系數(shù)以1.00為最多,但實際考試測量都小于1.00,一般情況下,信度大于0.7則考試分?jǐn)?shù)具有參考性,低于這一數(shù)值則該次考試分?jǐn)?shù)的參考價值不大。
由于本次考試是一次正式考試,只有一次測試結(jié)果,因此獲得試卷的信度需要使用對半法,將整套試題的題目按單、雙數(shù)分成兩組來分別計分,再用公式計算兩組分?jǐn)?shù)的相關(guān)系數(shù),而后再用斯皮爾曼—布朗公式進行校正,從而得出整個試卷的信度[4]。
設(shè)r為相關(guān)系數(shù),n為該專業(yè)本次考試人數(shù),x為單數(shù)題號題目得分,y為雙數(shù)題號題目得分,利用相關(guān)系數(shù)計算公式:
2.2.2 效度 效度是指一次測量的有效程度。試卷的效度一般情況下可以分為內(nèi)容效度、效標(biāo)關(guān)聯(lián)效度與結(jié)構(gòu)效度3種類型,但對醫(yī)學(xué)考試來說,最合適的效度指標(biāo)是內(nèi)容效度,其次是效標(biāo)關(guān)聯(lián)效度。內(nèi)容效度是指測驗的內(nèi)容能否充分反映所要測量的目的要求。內(nèi)容效度的分析方法有邏輯分析法和量化分析法。邏輯分析法由有關(guān)專家對測驗題目與應(yīng)測內(nèi)容范圍的吻合程度做出判斷;量化分析法則以數(shù)量指標(biāo)描述實測內(nèi)容與預(yù)測目標(biāo)的相關(guān)程度。醫(yī)學(xué)考試一般所用的是內(nèi)容效度的邏輯分析法[5]。在本次考試的評價中,依據(jù)考試結(jié)果與考試前由命題者編制的考試目標(biāo)和難易度進行對比,該專業(yè)考試目標(biāo)準(zhǔn)確,包含難、中、易試題比例比較科學(xué),病例數(shù)量較多,該專業(yè)所覆蓋知識面比較廣,是一套有效試卷。
2.3.1 頻率分布 頻率分布是成績分布測量的常規(guī)測量項目,它能夠直觀地反映各分?jǐn)?shù)段的考生人數(shù)比例,是考試成績的分布形態(tài)指標(biāo)。其具體方法是將成績以10分為一個區(qū)間按照以0~9、10~19、20~29、……、80~89、90~100劃分分?jǐn)?shù)段,列出該次考試中各分?jǐn)?shù)段內(nèi)的考生人數(shù)、所占總?cè)藬?shù)的百分率,然后按照數(shù)據(jù)畫成頻率分布直方圖。一般而言,頻率分布直方圖的最高峰應(yīng)在60~69分?jǐn)?shù)段,呈正態(tài)或正態(tài)略偏右,分布較為正常。該專業(yè)本次考試200人具體成績分布為30~39分5人,40~49分12人,50~59分45人,60~69分82人,70~79分52人,80~89分4人,圖1為該專業(yè)本次考試成績的頻率分布情況,從圖中可以看出其頻率分布符合一般規(guī)律,從頻率分布的角度驗證了該專業(yè)本次考試是一次有效考試,試卷質(zhì)量良好。
表1 專業(yè)AK本次試卷各病例預(yù)計與實際難度值比對表
表2 專業(yè)AK本次考試各病例區(qū)分度計算表
2.3.2 平均分 平均分X是成績分布測量常規(guī)測量項目,它反映了考試成績的集中趨勢指標(biāo)。其計算公式是 ,其中n為考生人數(shù)其中n為考生人數(shù),Xi為第i個考生的考試成績[6]。一般地,根據(jù)模擬病例考試的評分是采用每一問得扣分制,每一問的分?jǐn)?shù)由選擇的正確答案和錯誤答案個數(shù)相抵消后給出,最低將這一問的分?jǐn)?shù)扣為0分為止,因此獲得高分不容易,平均分一般在60~70分之間較為適宜[7]。經(jīng)計算,該專業(yè)此次考試平均分為62.41,在合理的分?jǐn)?shù)區(qū)間內(nèi)。
圖1 專業(yè)AK本次考試成績的頻率分布圖
根據(jù)以上對試題、試卷和考試成績的評價,該套試卷總體難易度與預(yù)期相符,但有兩個病例難易度與預(yù)期不符,占考試總體量的10%;試題區(qū)分度良好的占77%,區(qū)分度不佳的試題占23%。試卷信度0.73證明了本套試卷的可信性,經(jīng)專家評定該套試卷難易度符合預(yù)期,內(nèi)容包含較為全面,是一套有效試卷。經(jīng)計算考生成績呈正態(tài)分布,平均分較低但在正常范圍內(nèi),符合計算機模擬病例考試的評分特點。這些數(shù)據(jù)均說明該套試卷總體質(zhì)量良好,能夠達(dá)到考試預(yù)期目標(biāo),但個別試題存在難易度與預(yù)期不符合區(qū)分度較低的問題,需要在今后結(jié)合試題使用情況做出進一步評價,并由命審題專家審定。
由統(tǒng)計分析所得出的結(jié)果是一種概率意義上的結(jié)論[8]。測量指標(biāo)所反映出的題目或試卷質(zhì)量問題,有可能是試題編制方面的問題,例如題目本身表述不準(zhǔn)確或答案標(biāo)注錯誤;也有可能是被試群體的問題,例如考生整體水平高或整體水平低。除了測量指標(biāo)外,因其內(nèi)容更加貼合實際,每個病例都含有緊密聯(lián)系的多個提問,需要考生根據(jù)多方面知識綜合判斷和考慮,而不是傳統(tǒng)意義上的客觀題,每一個問題多數(shù)只反映某一個知識點,因此究竟是什么原因?qū)е碌脑囶}質(zhì)量問題,需要由該學(xué)科命審題專家根據(jù)統(tǒng)計結(jié)果和其專業(yè)知識以及實踐經(jīng)驗進行科學(xué)分析,而后才可做出具有一定價值標(biāo)準(zhǔn)的確切性的評價結(jié)論。
為此,在計算機模擬病例考試試題的管理中,首先命審題工作需要進一步規(guī)范和加強,從源頭杜絕表述有問題或答案標(biāo)注錯誤的試題出現(xiàn)。其次,要重視試題分析工作,及時將測量指標(biāo)反映出來的題目或試卷問題反饋給審題專家,對題目做出必要的修改和整理。最后,要進一步探索計算機模擬病例考試的評價方法,豐富評價手段,綜合評價考試質(zhì)量,改進考試工作。只有重視考試質(zhì)量的評價研究,才能使題庫保持長久的生命力,使考試更加科學(xué)有效。
[1] 曹偉,孫建華,潘民德. 實踐技能計算機醫(yī)學(xué)考試題庫在資格認(rèn)定中的作用[J]. 繼續(xù)醫(yī)學(xué)教育,2001,15(3):44-46.
[2] 張陽,秦鵬,左天明,等. 計算機模擬病例考試信度、難度及區(qū)分度研究[J]. 中國高等醫(yī)學(xué)教育,2009(2):7-8.
[3] 康寧. 計算機模擬臨床病例考試試題的統(tǒng)計分析研究[J]. 考試,2013(1):7-8.
[4] 萬金鳳. 關(guān)于試卷質(zhì)量的分析方法[J]. 山西師范大學(xué)學(xué)報(自然科學(xué)版),2006,20(1):22-24.
[5] 劉叔才,葛利榮. 醫(yī)學(xué)考試質(zhì)量評價指標(biāo)體系的構(gòu)建與實現(xiàn)[J].中國社會醫(yī)學(xué)雜志,2008,25(4):202-204.
[6] 景匯泉,張穎,郭永松,等. 醫(yī)學(xué)考試評價的研究進展[J]. 中國高等醫(yī)學(xué)教育,2009(7):36-37.
[7] 秦鵬,馮雪英,孫寶志. 計算機模擬病例考試研究的新進展[J].中華醫(yī)學(xué)教育雜志,2007,27(2):126-128.
[8] 高茵茵,景匯泉,孫寶志. 淺談我國的醫(yī)學(xué)考試評價指標(biāo)體系與評價方法[J] . 西北醫(yī)學(xué)教育,2007,15(6):1061-1062.