摘要:為檢測題庫自動組卷產(chǎn)生的試卷質(zhì)量及題庫中試題的質(zhì)量,利用SPSS軟件從信度、難度、區(qū)分度及效度4個方面對10套組卷的質(zhì)量進(jìn)行定量分析,根據(jù)所得結(jié)果,為題庫的下一步建設(shè)提供有力依據(jù)。
關(guān)鍵詞:題庫;自動組卷;SPSS;信度;效度;區(qū)分度;難度
0.引言
考試改革是精品課程建設(shè)的重要組成部分,而題庫建設(shè)是近年來精品課程建設(shè)中比較重要的一種考試改革措施。題庫的建設(shè)有助于考試朝著標(biāo)準(zhǔn)化方向邁進(jìn),而且有效實現(xiàn)授課、出題、考試、批卷4個環(huán)節(jié)的自動分離,有利于學(xué)生全面而重點地掌握學(xué)習(xí)內(nèi)容,同時有利于檢驗教師的教學(xué)質(zhì)量。因此,題庫中試題的質(zhì)量以及基于題庫進(jìn)行自動組卷所產(chǎn)生的試卷質(zhì)量成為題庫建設(shè)中需要重點關(guān)注的方面。不少同行在對題庫質(zhì)量的定量分析方面做了大量研究與探索,對題庫建設(shè)乃至精品課程的建設(shè)在質(zhì)量方面起到了把關(guān)和監(jiān)督的效果。
1.題庫建設(shè)
以精品課程C語言程序設(shè)計的題庫為例,該題庫可以按章節(jié)人工錄入題型、試題內(nèi)容及其分值、試題答案等,以便為系統(tǒng)的自動組卷功能提供必要的試題信息。題量是按照考試大綱給出的各章節(jié)的知識點要求和不同的掌握程度要求而設(shè)定的,收集或編寫的題目數(shù)量初步定在“1個知識點×掌握程度個數(shù)×5道左右”。題目來源可以是教師在多年授課過程中積累下來的、比較典型的、有針對性的優(yōu)秀試題,也可以是近幾年全國二級c語言考試試題,也可以是國內(nèi)外優(yōu)秀的C語言書籍上遴選的能夠鞏固知識點的題目等。該題庫現(xiàn)已建設(shè)完畢,那么試題質(zhì)量如何,基于該題庫自動組卷產(chǎn)生的試卷質(zhì)量又如何?我們在將其投入學(xué)生考試之前對試題質(zhì)量和試卷質(zhì)量做了定量分析,從而對題庫的總體質(zhì)量進(jìn)行了把關(guān)。
題庫共880道題目,自動組卷10套,每套50道題目,共500道題,考慮重復(fù)抽題,大約涵蓋了50%的題量。現(xiàn)從整體和局部兩個方面來分析題庫的試題及試卷質(zhì)量:整體方面,主要針對10套試卷的答題分?jǐn)?shù)分析系統(tǒng)的組卷質(zhì)量,利用SPSS軟件的統(tǒng)計功能對10套試卷分別從試卷信度、難度、區(qū)BtiIxybFk4BNPBtv8AsEk65kBnwHvg0x939xVzzCiPs=分度及效度4個方面定量分析試卷的整體質(zhì)量;局部方面是對錄入題庫的6大題型:選擇題、填空題、程序填空題、編程題、程序閱讀題、算法設(shè)計題分別從以上方面定量分析每種題型的試題質(zhì)量。
2.題庫組卷質(zhì)量的定量分析
2.1操作方法
首先是生成試卷。使用題庫自動組卷系統(tǒng)輸入抽題條件,包括覆蓋的章節(jié)、題型、每種題型的題量和分值,然后使用抽題功能產(chǎn)生10套總分默認(rèn)為100分的試卷及參考答案。根據(jù)抽題算法,對產(chǎn)生的每套試卷給出相應(yīng)的難度:易、一般、難3種之一。
然后是答題。10套試卷,每套由3位多次教授過C語言課程的教師作答,并記下答題所用時間、每種題型的所得分?jǐn)?shù)及試卷總分。一共得到30份試卷的上述數(shù)據(jù)。
最后是對所得數(shù)據(jù)的整理、統(tǒng)計、分析。使用SPSS統(tǒng)計軟件錄入、統(tǒng)計、處理得到答題數(shù)據(jù),從而對10套試卷的總體質(zhì)量給出~個比較客觀的基于定量分析的結(jié)論,并比對組卷系統(tǒng)給出的每套試卷的難易程度,在出入較大的情況下修改組卷算法,提高試卷難度的預(yù)測水平。
2.2結(jié)果分析
針對10套試卷中的每套試卷分別由3位教師作答得到的答題數(shù)據(jù),包括每種題型3位教師所得的分值及總分,分別采用SPSS軟件按圖1所示組織方式生成10個數(shù)據(jù)文件并保存。
在這10個數(shù)據(jù)文件的基礎(chǔ)上利用SPSS軟件提供的相關(guān)性分析功能,分別從信度、難度、區(qū)分度和效度4個方面對10套試卷進(jìn)行定量分析,結(jié)果如下所述。
(1)信度:指對同一事物的重復(fù)測量結(jié)果的一致性程度。試卷信度就是指試卷結(jié)果的可靠程度,用信度系數(shù)a(即克龍巴赫a系數(shù))表示,一般認(rèn)為試卷信度在0.5~0.9以內(nèi)是合理的。如果是編制預(yù)測問卷,信度系數(shù)在0.5~0.6足夠。針對每套試卷的答題分?jǐn)?shù)情況,分別利用SPSS中的“分析”→“度量”→“可靠性分析”功能,得到每套試卷的a值,見表1。同時得到每套試卷的F值,見表2。F統(tǒng)計量取值越大,考試所反映的學(xué)生或教師真實水平的差異就越可信,試卷的可靠性也就越好,而且如果對應(yīng)的顯著性水平Sig值遠(yuǎn)小于0.01,則F統(tǒng)計量的取值是顯著的大,由此可推斷出試卷的可信度不錯。
從表1的數(shù)據(jù)可以看出,題庫自動抽題產(chǎn)生的10套試卷中有70%的試卷信度比較好;表2的數(shù)據(jù)可以看出10套預(yù)測試卷的可靠性也比較好,反映出與表1數(shù)據(jù)得出的結(jié)論比較一致。為了檢測題庫的總體信度,將10個數(shù)據(jù)文件匯總在一起,按照上述方法得出a值為0.700,F(xiàn)值為422.862,Sig值為0.000。說明該題庫自動組卷的可信度是比較好的。
(2)難度:指試卷的難易程度。該指標(biāo)可以反映出試卷的復(fù)雜程度。難度H的計算公式為:H=考生平均得分/試卷滿分。H越大,試題就越容易,反之,試題越難。在難度分析中,H值在0.9-1.0之間的試卷,無意義,一般應(yīng)淘汰;H值小于0.4的試卷,難度比較大,學(xué)生失分嚴(yán)重,需要分析原因。一般H值在0.7~0.8之間較好,有利于測量學(xué)生的真實水平。表3為10套預(yù)測試卷的難度結(jié)果及自動組卷系統(tǒng)給出的難度系數(shù)。
從表3中的H值可以看出,10套試卷的難度都在0.8以上,難度偏小。但是考慮到學(xué)生與教授C語言課程的教師之間在課程水平上的差別,這個結(jié)果應(yīng)該是合理的。對于學(xué)生來說,H值可能還要再減小一些。對10套試卷的答題數(shù)據(jù)匯總后,按照上述方法計算出平均H值為0.8975,在此基礎(chǔ)上減小一些H值,也就意味著對學(xué)生來說,試卷的難度再增加一些,但不會低于0.7,因此,該結(jié)果在合理范圍之內(nèi)是比較滿意的。只是H值與組卷系統(tǒng)給出的難度標(biāo)示有不相符的情況,需要考慮改進(jìn)組卷中對難度計算的算法部分。
對于各種題型來說,難度是指各題型試題的難易程度。該指標(biāo)可以反映出某題型的復(fù)雜程度,難度H的計算公式可以表述為:H=考生某題型的平均得分/該題型滿分。根據(jù)該公式得出各題型的難度值見表4。從表4中看出,各種題型的難度都在0.8以上,偏簡單,與試卷難度分析的總體結(jié)果比較一致,可以接受。只有算法設(shè)計題的難度值為1,說明沒有難度,原因在前面已經(jīng)分析過,可考慮去掉該題型或增加相應(yīng)試題的數(shù)量。
(3)區(qū)分度:又稱為鑒別度,是指試題或試卷對學(xué)生實際水平的區(qū)分程度或鑒別能力。區(qū)分度高的試題或試卷能對不同知識水平和能力的學(xué)生加以區(qū)分,使能力高的學(xué)生得高分,能力低的學(xué)生得低分,即區(qū)分度的高低能讓試卷將不同水平的學(xué)生區(qū)分開來。
目前區(qū)分度的計算方法主要采用“兩端分組法”,即把學(xué)生第i題考分由高到低排序,取前27%的學(xué)生作為高分組,取后27%的學(xué)生作為低分組,分別計算第i題高分組學(xué)生的平均成績XH和低分組學(xué)生的平均成績X1。設(shè)第i題滿分為XR,第i題區(qū)分度為Di,則有:
D=(1/X)(X-X)
一般情況下,D值越大,意味著此題對高、低組考生的區(qū)分能力越強(qiáng)。如果D≥0.4,則此題的區(qū)分度為“優(yōu)”;如果0.3≤D≤0.39,區(qū)分度為“良”,如果0.2≤D≤0.29,區(qū)分度為“中”;如果D≤0.19,則此題目應(yīng)淘汰。表5中的D值分別為10套試卷中選擇題、填空題、程序填空題、編程題、程序閱讀題及算法設(shè)計題6類大題各自的區(qū)分度。
從表5的D值結(jié)果看出,這6種題型中,選擇題、填空題和程序閱讀題的區(qū)分度在良或中;編程題的區(qū)分度不到0.2,這是因為對于編程題來說,參考答案的評分要求比較寬松,因此只要給出關(guān)鍵的實現(xiàn)語句,扣分就不是很嚴(yán)格;而算法設(shè)計題的區(qū)分度為0,是因為算法這章的內(nèi)容在公選課中不是重點章節(jié),因此該題型在題庫中對應(yīng)的試題數(shù)量非常少,使得抽題的時候會產(chǎn)生大量的重復(fù),再加上參考答案不唯一,只要能設(shè)計出合理的算法即可,因此無法區(qū)分,導(dǎo)致D值為0。后續(xù)在更新題庫的時候可以考慮撤掉該題型。
如果不考慮算法設(shè)計題,按照該方法對10套試卷的其余題型計算試卷的總區(qū)分度,得到D值為0.2286。區(qū)分度為“中”??紤]到學(xué)生與教師的差異,如果使用該題庫組卷給學(xué)生測試用的話,D值還要比0.2286更高一些,但也說明在今后的題庫建設(shè)中,還要加強(qiáng)不同難度韙目的比例協(xié)調(diào)問題,同時優(yōu)化抽題算法,使每套試題的區(qū)分度值更高,爭取達(dá)到優(yōu)良水平。
(4)效度:是衡量考試結(jié)果對考試目標(biāo)實現(xiàn)程度的指標(biāo)。效度反映了考試的準(zhǔn)確性和有效性。效度分為內(nèi)容效度、效應(yīng)關(guān)聯(lián)效度和構(gòu)想效度…。對于學(xué)生試卷來說,主要指內(nèi)容效度,即試卷中試題對欲測教學(xué)內(nèi)容(教學(xué)目標(biāo))的代表性程度。也就是說,考試內(nèi)容體現(xiàn)了教學(xué)大綱或考試大綱的知識點的準(zhǔn)確性程度。試卷的效度在眾多參考文獻(xiàn)中的計算方法均不同,有的使用各章節(jié)考題分?jǐn)?shù)與教學(xué)學(xué)時數(shù)兩列數(shù)據(jù)的積差相關(guān)系數(shù)來反映考試與教學(xué)的一致性,用于內(nèi)容效度的測試;有的采用效表關(guān)聯(lián)效度法,用于效應(yīng)關(guān)聯(lián)效度的測試;還有的采用通過計算各試題的考生得分與其卷面總成績的Pearson相關(guān)系數(shù)來反映各試題的效度,也是用于效應(yīng)關(guān)聯(lián)效度的測試。這里將采用SPSS因子分析功能實現(xiàn)對試卷效度的分析。因子分析的基本思想是把聯(lián)系比較緊密的變量歸為同一個類別,而不同類別的變量之間的相關(guān)性則較低。在這里主要測試各題型之間的相關(guān)性,如果高的話,就說明各題型是受到了考試大綱或教學(xué)大綱規(guī)定的主要知識點這個共同因素的影響才彼此高度相關(guān)的。具體操作是將10套試卷的答題分值按圖1所示數(shù)據(jù)格式匯總后,進(jìn)行選擇分析→降維→因子分析,將需要分析的各種題型選中,單擊“描述”,在彈出的窗口中選中“原始分析結(jié)果”和“KMO和Bartlett的球形度檢驗”,單擊確定后得到圖2所示結(jié)果。
KMO檢驗各種題型間的偏相關(guān)性。一般KMO統(tǒng)計量大于0.9時效果最佳,0.7-0.9之間可以接受,0.5以下不宜作因子分析。圖2中的因子分析結(jié)果為0.737,進(jìn)一步印證了做因子分析的重要性。Bartlett球形度檢驗統(tǒng)計量的Sig值為0.000,遠(yuǎn)遠(yuǎn)小于0.01,則認(rèn)為各題型之間存在顯著的相關(guān)性,說明在考察內(nèi)容知識點的時候不是各自獨立的,而是以多種題型共同考察了重要的知識點。換句話說,也就是在多種題型中都涉及了相同或相近的知識點,說明題庫中的試題大多數(shù)是針對重要知識點設(shè)計的,不管以哪種題型出現(xiàn)。這也說明了入庫的試題對知識點的把握上是準(zhǔn)確和有效的,而不是毫無目的隨意設(shè)計的題目。
效度是指各種題型之間的相關(guān)性分析,因此獨自就某個題型拿出來進(jìn)行因子分析是沒有意義的。
3.結(jié)語
綜上所述,將10套試卷的答題情況在SPSS軟件的輔助下,從信度、難度、區(qū)分度和效度4個方面做定量分析,得到了信度為0.700、難度為0.8975、區(qū)分度為0.2286、效度為0.737的結(jié)果。從而可以得出以下結(jié)論:10套試卷大概覆蓋了題庫50%的題量,經(jīng)過教師答題,結(jié)合考慮到學(xué)生與教師在對課程掌握程度的差別情況,可以看出題庫的建設(shè)是比較成功的。試題在測試的可靠性、難度把握、能力的區(qū)分上以及對考試內(nèi)容的準(zhǔn)確性和有效性方面都經(jīng)受住了定量分析的考驗,說明教師在試題選擇方面嚴(yán)格以考試大綱和教學(xué)大綱要求的知識點為選題依據(jù),并考慮了題目難度的分層次,同時也表明組卷系統(tǒng)的算法設(shè)計需要進(jìn)一步改進(jìn),以便在難度系數(shù)方面給出更準(zhǔn)確的信息。