題庫建設(shè)及其自動組卷質(zhì)量的定量分析

2013-12-29 00:00:00馬紅梅楊衛(wèi)軍孫少寧

計算機(jī)教育 2013年17期

摘要：為檢測題庫自動組卷產(chǎn)生的試卷質(zhì)量及題庫中試題的質(zhì)量，利用SPSS軟件從信度、難度、區(qū)分度及效度4個方面對10套組卷的質(zhì)量進(jìn)行定量分析，根據(jù)所得結(jié)果，為題庫的下一步建設(shè)提供有力依據(jù)。

關(guān)鍵詞：題庫；自動組卷；SPSS；信度；效度；區(qū)分度；難度

0.引言

考試改革是精品課程建設(shè)的重要組成部分，而題庫建設(shè)是近年來精品課程建設(shè)中比較重要的一種考試改革措施。題庫的建設(shè)有助于考試朝著標(biāo)準(zhǔn)化方向邁進(jìn)，而且有效實現(xiàn)授課、出題、考試、批卷4個環(huán)節(jié)的自動分離，有利于學(xué)生全面而重點地掌握學(xué)習(xí)內(nèi)容，同時有利于檢驗教師的教學(xué)質(zhì)量。因此，題庫中試題的質(zhì)量以及基于題庫進(jìn)行自動組卷所產(chǎn)生的試卷質(zhì)量成為題庫建設(shè)中需要重點關(guān)注的方面。不少同行在對題庫質(zhì)量的定量分析方面做了大量研究與探索，對題庫建設(shè)乃至精品課程的建設(shè)在質(zhì)量方面起到了把關(guān)和監(jiān)督的效果。

1.題庫建設(shè)

以精品課程C語言程序設(shè)計的題庫為例，該題庫可以按章節(jié)人工錄入題型、試題內(nèi)容及其分值、試題答案等，以便為系統(tǒng)的自動組卷功能提供必要的試題信息。題量是按照考試大綱給出的各章節(jié)的知識點要求和不同的掌握程度要求而設(shè)定的，收集或編寫的題目數(shù)量初步定在“1個知識點×掌握程度個數(shù)×5道左右”。題目來源可以是教師在多年授課過程中積累下來的、比較典型的、有針對性的優(yōu)秀試題，也可以是近幾年全國二級c語言考試試題，也可以是國內(nèi)外優(yōu)秀的C語言書籍上遴選的能夠鞏固知識點的題目等。該題庫現(xiàn)已建設(shè)完畢，那么試題質(zhì)量如何，基于該題庫自動組卷產(chǎn)生的試卷質(zhì)量又如何？我們在將其投入學(xué)生考試之前對試題質(zhì)量和試卷質(zhì)量做了定量分析，從而對題庫的總體質(zhì)量進(jìn)行了把關(guān)。

題庫共880道題目，自動組卷10套，每套50道題目，共500道題，考慮重復(fù)抽題，大約涵蓋了50%的題量。現(xiàn)從整體和局部兩個方面來分析題庫的試題及試卷質(zhì)量：整體方面，主要針對10套試卷的答題分?jǐn)?shù)分析系統(tǒng)的組卷質(zhì)量，利用SPSS軟件的統(tǒng)計功能對10套試卷分別從試卷信度、難度、區(qū)BtiIxybFk4BNPBtv8AsEk65kBnwHvg0x939xVzzCiPs=分度及效度4個方面定量分析試卷的整體質(zhì)量；局部方面是對錄入題庫的6大題型：選擇題、填空題、程序填空題、編程題、程序閱讀題、算法設(shè)計題分別從以上方面定量分析每種題型的試題質(zhì)量。

2.題庫組卷質(zhì)量的定量分析

2.1操作方法

首先是生成試卷。使用題庫自動組卷系統(tǒng)輸入抽題條件，包括覆蓋的章節(jié)、題型、每種題型的題量和分值，然后使用抽題功能產(chǎn)生10套總分默認(rèn)為100分的試卷及參考答案。根據(jù)抽題算法，對產(chǎn)生的每套試卷給出相應(yīng)的難度：易、一般、難3種之一。

然后是答題。10套試卷，每套由3位多次教授過C語言課程的教師作答，并記下答題所用時間、每種題型的所得分?jǐn)?shù)及試卷總分。一共得到30份試卷的上述數(shù)據(jù)。

最后是對所得數(shù)據(jù)的整理、統(tǒng)計、分析。使用SPSS統(tǒng)計軟件錄入、統(tǒng)計、處理得到答題數(shù)據(jù)，從而對10套試卷的總體質(zhì)量給出～個比較客觀的基于定量分析的結(jié)論，并比對組卷系統(tǒng)給出的每套試卷的難易程度，在出入較大的情況下修改組卷算法，提高試卷難度的預(yù)測水平。

2.2結(jié)果分析

針對10套試卷中的每套試卷分別由3位教師作答得到的答題數(shù)據(jù)，包括每種題型3位教師所得的分值及總分，分別采用SPSS軟件按圖1所示組織方式生成10個數(shù)據(jù)文件并保存。

在這10個數(shù)據(jù)文件的基礎(chǔ)上利用SPSS軟件提供的相關(guān)性分析功能，分別從信度、難度、區(qū)分度和效度4個方面對10套試卷進(jìn)行定量分析，結(jié)果如下所述。

（1）信度：指對同一事物的重復(fù)測量結(jié)果的一致性程度。試卷信度就是指試卷結(jié)果的可靠程度，用信度系數(shù)a（即克龍巴赫a系數(shù)）表示，一般認(rèn)為試卷信度在0.5～0.9以內(nèi)是合理的。如果是編制預(yù)測問卷，信度系數(shù)在0.5～0.6足夠。針對每套試卷的答題分?jǐn)?shù)情況，分別利用SPSS中的“分析”→“度量”→“可靠性分析”功能，得到每套試卷的a值，見表1。同時得到每套試卷的F值，見表2。F統(tǒng)計量取值越大，考試所反映的學(xué)生或教師真實水平的差異就越可信，試卷的可靠性也就越好，而且如果對應(yīng)的顯著性水平Sig值遠(yuǎn)小于0.01，則F統(tǒng)計量的取值是顯著的大，由此可推斷出試卷的可信度不錯。

從表1的數(shù)據(jù)可以看出，題庫自動抽題產(chǎn)生的10套試卷中有70%的試卷信度比較好；表2的數(shù)據(jù)可以看出10套預(yù)測試卷的可靠性也比較好，反映出與表1數(shù)據(jù)得出的結(jié)論比較一致。為了檢測題庫的總體信度，將10個數(shù)據(jù)文件匯總在一起，按照上述方法得出a值為0.700，F(xiàn)值為422.862，Sig值為0.000。說明該題庫自動組卷的可信度是比較好的。

（2）難度：指試卷的難易程度。該指標(biāo)可以反映出試卷的復(fù)雜程度。難度H的計算公式為：H=考生平均得分/試卷滿分。H越大，試題就越容易，反之，試題越難。在難度分析中，H值在0.9-1.0之間的試卷，無意義，一般應(yīng)淘汰；H值小于0.4的試卷，難度比較大，學(xué)生失分嚴(yán)重，需要分析原因。一般H值在0.7～0.8之間較好，有利于測量學(xué)生的真實水平。表3為10套預(yù)測試卷的難度結(jié)果及自動組卷系統(tǒng)給出的難度系數(shù)。

從表3中的H值可以看出，10套試卷的難度都在0.8以上，難度偏小。但是考慮到學(xué)生與教授C語言課程的教師之間在課程水平上的差別，這個結(jié)果應(yīng)該是合理的。對于學(xué)生來說，H值可能還要再減小一些。對10套試卷的答題數(shù)據(jù)匯總后，按照上述方法計算出平均H值為0.8975，在此基礎(chǔ)上減小一些H值，也就意味著對學(xué)生來說，試卷的難度再增加一些，但不會低于0.7，因此，該結(jié)果在合理范圍之內(nèi)是比較滿意的。只是H值與組卷系統(tǒng)給出的難度標(biāo)示有不相符的情況，需要考慮改進(jìn)組卷中對難度計算的算法部分。

對于各種題型來說，難度是指各題型試題的難易程度。該指標(biāo)可以反映出某題型的復(fù)雜程度，難度H的計算公式可以表述為：H=考生某題型的平均得分/該題型滿分。根據(jù)該公式得出各題型的難度值見表4。從表4中看出，各種題型的難度都在0.8以上，偏簡單，與試卷難度分析的總體結(jié)果比較一致，可以接受。只有算法設(shè)計題的難度值為1，說明沒有難度，原因在前面已經(jīng)分析過，可考慮去掉該題型或增加相應(yīng)試題的數(shù)量。

（3）區(qū)分度：又稱為鑒別度，是指試題或試卷對學(xué)生實際水平的區(qū)分程度或鑒別能力。區(qū)分度高的試題或試卷能對不同知識水平和能力的學(xué)生加以區(qū)分，使能力高的學(xué)生得高分，能力低的學(xué)生得低分，即區(qū)分度的高低能讓試卷將不同水平的學(xué)生區(qū)分開來。

目前區(qū)分度的計算方法主要采用“兩端分組法”，即把學(xué)生第i題考分由高到低排序，取前27%的學(xué)生作為高分組，取后27%的學(xué)生作為低分組，分別計算第i題高分組學(xué)生的平均成績XH和低分組學(xué)生的平均成績X1。設(shè)第i題滿分為XR，第i題區(qū)分度為Di，則有：

D=（1/X）（X-X）

一般情況下，D值越大，意味著此題對高、低組考生的區(qū)分能力越強(qiáng)。如果D≥0.4，則此題的區(qū)分度為“優(yōu)”；如果0.3≤D≤0.39，區(qū)分度為“良”，如果0.2≤D≤0.29，區(qū)分度為“中”；如果D≤0.19，則此題目應(yīng)淘汰。表5中的D值分別為10套試卷中選擇題、填空題、程序填空題、編程題、程序閱讀題及算法設(shè)計題6類大題各自的區(qū)分度。

從表5的D值結(jié)果看出，這6種題型中，選擇題、填空題和程序閱讀題的區(qū)分度在良或中；編程題的區(qū)分度不到0.2，這是因為對于編程題來說，參考答案的評分要求比較寬松，因此只要給出關(guān)鍵的實現(xiàn)語句，扣分就不是很嚴(yán)格；而算法設(shè)計題的區(qū)分度為0，是因為算法這章的內(nèi)容在公選課中不是重點章節(jié)，因此該題型在題庫中對應(yīng)的試題數(shù)量非常少，使得抽題的時候會產(chǎn)生大量的重復(fù)，再加上參考答案不唯一，只要能設(shè)計出合理的算法即可，因此無法區(qū)分，導(dǎo)致D值為0。后續(xù)在更新題庫的時候可以考慮撤掉該題型。

如果不考慮算法設(shè)計題，按照該方法對10套試卷的其余題型計算試卷的總區(qū)分度，得到D值為0.2286。區(qū)分度為“中”?？紤]到學(xué)生與教師的差異，如果使用該題庫組卷給學(xué)生測試用的話，D值還要比0.2286更高一些，但也說明在今后的題庫建設(shè)中，還要加強(qiáng)不同難度韙目的比例協(xié)調(diào)問題，同時優(yōu)化抽題算法，使每套試題的區(qū)分度值更高，爭取達(dá)到優(yōu)良水平。

（4）效度：是衡量考試結(jié)果對考試目標(biāo)實現(xiàn)程度的指標(biāo)。效度反映了考試的準(zhǔn)確性和有效性。效度分為內(nèi)容效度、效應(yīng)關(guān)聯(lián)效度和構(gòu)想效度…。對于學(xué)生試卷來說，主要指內(nèi)容效度，即試卷中試題對欲測教學(xué)內(nèi)容（教學(xué)目標(biāo)）的代表性程度。也就是說，考試內(nèi)容體現(xiàn)了教學(xué)大綱或考試大綱的知識點的準(zhǔn)確性程度。試卷的效度在眾多參考文獻(xiàn)中的計算方法均不同，有的使用各章節(jié)考題分?jǐn)?shù)與教學(xué)學(xué)時數(shù)兩列數(shù)據(jù)的積差相關(guān)系數(shù)來反映考試與教學(xué)的一致性，用于內(nèi)容效度的測試；有的采用效表關(guān)聯(lián)效度法，用于效應(yīng)關(guān)聯(lián)效度的測試；還有的采用通過計算各試題的考生得分與其卷面總成績的Pearson相關(guān)系數(shù)來反映各試題的效度，也是用于效應(yīng)關(guān)聯(lián)效度的測試。這里將采用SPSS因子分析功能實現(xiàn)對試卷效度的分析。因子分析的基本思想是把聯(lián)系比較緊密的變量歸為同一個類別，而不同類別的變量之間的相關(guān)性則較低。在這里主要測試各題型之間的相關(guān)性，如果高的話，就說明各題型是受到了考試大綱或教學(xué)大綱規(guī)定的主要知識點這個共同因素的影響才彼此高度相關(guān)的。具體操作是將10套試卷的答題分值按圖1所示數(shù)據(jù)格式匯總后，進(jìn)行選擇分析→降維→因子分析，將需要分析的各種題型選中，單擊“描述”，在彈出的窗口中選中“原始分析結(jié)果”和“KMO和Bartlett的球形度檢驗”，單擊確定后得到圖2所示結(jié)果。

KMO檢驗各種題型間的偏相關(guān)性。一般KMO統(tǒng)計量大于0.9時效果最佳，0.7-0.9之間可以接受，0.5以下不宜作因子分析。圖2中的因子分析結(jié)果為0.737，進(jìn)一步印證了做因子分析的重要性。Bartlett球形度檢驗統(tǒng)計量的Sig值為0.000，遠(yuǎn)遠(yuǎn)小于0.01，則認(rèn)為各題型之間存在顯著的相關(guān)性，說明在考察內(nèi)容知識點的時候不是各自獨立的，而是以多種題型共同考察了重要的知識點。換句話說，也就是在多種題型中都涉及了相同或相近的知識點，說明題庫中的試題大多數(shù)是針對重要知識點設(shè)計的，不管以哪種題型出現(xiàn)。這也說明了入庫的試題對知識點的把握上是準(zhǔn)確和有效的，而不是毫無目的隨意設(shè)計的題目。

效度是指各種題型之間的相關(guān)性分析，因此獨自就某個題型拿出來進(jìn)行因子分析是沒有意義的。

3.結(jié)語

綜上所述，將10套試卷的答題情況在SPSS軟件的輔助下，從信度、難度、區(qū)分度和效度4個方面做定量分析，得到了信度為0.700、難度為0.8975、區(qū)分度為0.2286、效度為0.737的結(jié)果。從而可以得出以下結(jié)論：10套試卷大概覆蓋了題庫50%的題量，經(jīng)過教師答題，結(jié)合考慮到學(xué)生與教師在對課程掌握程度的差別情況，可以看出題庫的建設(shè)是比較成功的。試題在測試的可靠性、難度把握、能力的區(qū)分上以及對考試內(nèi)容的準(zhǔn)確性和有效性方面都經(jīng)受住了定量分析的考驗，說明教師在試題選擇方面嚴(yán)格以考試大綱和教學(xué)大綱要求的知識點為選題依據(jù)，并考慮了題目難度的分層次，同時也表明組卷系統(tǒng)的算法設(shè)計需要進(jìn)一步改進(jìn)，以便在難度系數(shù)方面給出更準(zhǔn)確的信息。

計算機(jī)教育2013年17期

計算機(jī)教育的其它文章: 教學(xué)與教案設(shè)計; 西部地區(qū)CDIO理念下的數(shù)據(jù)結(jié)構(gòu)與算法課程建設(shè); 淺析青海藏區(qū)信息技術(shù)課程中的分層教學(xué); 類比教學(xué)法在編譯原理課程教學(xué)中的應(yīng)用; 工程應(yīng)用型計算機(jī)專業(yè)人才綜合素質(zhì)培養(yǎng)體系建設(shè)研究; 計算機(jī)網(wǎng)絡(luò)課程設(shè)計的項目驅(qū)動式教學(xué)改革

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

題庫建設(shè)及其自動組卷質(zhì)量的定量分析