華南師范大學(xué)數(shù)學(xué)科學(xué)學(xué)院(510631) 葛文秀
廣東食品藥品職業(yè)學(xué)院軟件學(xué)院(510665) 阮麗華
有些關(guān)鍵考試的結(jié)果對于受試者而言,其重要性是不言而喻的,比如高考成績甚至?xí)绊懙娇忌囊簧?考試結(jié)束之后,接踵而至的是閱卷評分工作.隨著現(xiàn)代科學(xué)技術(shù)的快速發(fā)展,閱卷方式也發(fā)生了較大的變化.在現(xiàn)代信息技術(shù)出現(xiàn)之前,閱卷的主要方式是手工閱卷.光學(xué)標記閱讀機的出現(xiàn), 完成了通過掃描信息卡上的涂寫內(nèi)容實現(xiàn)對選擇題目的自動判讀.隨著網(wǎng)絡(luò)通信技術(shù)的發(fā)展,網(wǎng)上閱卷開始被大量采用,大大節(jié)省了成績的錄入時間,提高了閱卷的工作效率[1].
然而,值得注意的是,網(wǎng)絡(luò)閱卷只是閱卷方式的改變,由原來的紙質(zhì)答卷變?yōu)殡娮訏呙柚蟮碾娮觾?nèi)容,其非選擇題部分仍然需要人工閱卷.同時,隨著考試頻率的增加,教師要在有限的時間內(nèi)對大量的試卷給出科學(xué)、公平的評判仍然是一項重要而且艱巨的工作.已有少量文獻開始探討將人工智能技術(shù)引入到評卷工作中[1-4].不同于已有文獻,本文將以地市級模擬考試為例探討大型數(shù)學(xué)考試中將填空題目分割與否對考試評卷工作中的錯判數(shù)量和工作效率的影響.此外,本文采用概率建模和隨機模擬兩種方法分析問題,也是對中學(xué)數(shù)學(xué)教育中有關(guān)概率統(tǒng)計內(nèi)容的一個較好的應(yīng)用范例.
本文討論中學(xué)數(shù)學(xué)大型模擬考試中關(guān)于4 道填空題目的兩種評卷方式:
方案1將4 道填空題目切割,即閱卷系統(tǒng)每次向一位評卷員發(fā)送的任務(wù)是評閱一道題,以下簡稱為切割填空題;
方案24 道填空題目未切割,即閱卷系統(tǒng)每次向一位評卷員發(fā)送的任務(wù)是評閱4 道題,評卷員需將4 道題的成績一起提交,以下簡稱為未切割填空題.
在具體討論之前,首先介紹一下大型數(shù)學(xué)模擬考試填空題目的評卷制度.大型中學(xué)數(shù)學(xué)模擬考試填空題的改卷實行“二評制度”,即一份答卷首先由兩名評卷員評分,稱為第一評和第二評.若兩名評卷員的給分完全一致,則此份試卷的給分確定.否則,此份試卷將提交到題組長處進行第三評.
本文主要研究兩個問題:問題1.在兩種方案下,由兩名評卷員同時改錯導(dǎo)致的錯判試卷數(shù)量; 問題2.在兩種方案下,組長卷的數(shù)量.
為表述方便,引入如下符號:N:考生試卷總份數(shù);Ai:第i題兩名評卷員同時改錯,i=1,2,3,4;Bij:第i題第j名改卷員改錯,i=1,2,3,4,j=1,2;Di:第i題兩名評卷員的給分不同,i=1,2,3,4.同時做如下假設(shè):每名評卷員每道題的改錯概率相同,而且任意兩名評卷員改錯與否是相互獨立的.
問題1.兩種方案下,由兩個評卷員同時改錯導(dǎo)致的錯判試卷數(shù)量
方案1.切割填空題.
記每名評卷員每道題目的改錯概率為參數(shù)p1, 即P(Bi1)=P(Bi2)=p1.進而, 因為兩名評卷員同時改錯同一道題目而導(dǎo)致錯判的概率P(Ai)=P(Bi1∩Bi2)=.因為填空題切割,則改卷數(shù)量由N份變成4N份.記Y1:4N份試卷中, 兩名評卷員同時改錯的數(shù)量.則Y1服從參數(shù)為4N和的二項分布Y1~B(4).
方案2.未切割填空題.
記每名評卷員每道題目的改錯概率為參數(shù)p2, 即P(Bi1)=P(Bi2)=p2,i= 1,2,3,4.進而, 第i道題目兩名評卷員同時改錯的概率P(Ai)=P(Bi1∩Bi2)=.記X:同一份試卷兩名評卷員同時改錯的題目數(shù)量.則有X ~B(4).從而,對于一份試卷,此份試卷被兩名評卷員同時改錯導(dǎo)致錯判的概率為
記Y2:N份試卷中,兩名評卷員同時改錯導(dǎo)致錯判的數(shù)量.則有Y2~B(N,1-(1)4).
因為Y1,Y2的分布不同, 從期望角度進行比較, 可知:E(Y1)=4Np21,E(Y2)=N[1-(1-p22)4].當(dāng)p22很小時,由Taylor 展開式可得,
由上面的概率建模,不難發(fā)現(xiàn):若p1=p2,從期望角度看,兩種不同方案下,因為評卷員同時改錯導(dǎo)致的錯判試卷數(shù)量無顯著差異.
表1 給出了在考生人數(shù)N= 400000,p1=p2=p分別為0.0001,0.0005,0.001,0.005 以及0.01 的情況下,兩種方案平均錯判的數(shù)量E(Y1),E(Y2)以及兩者差值的模擬結(jié)果.
表1.兩種方案下平均錯判試卷數(shù)量的比較
注:結(jié)果保留2 位小數(shù).
由上面的模擬結(jié)果發(fā)現(xiàn),與理論結(jié)果相同,在每名評卷員每道題目的改錯概率相同的情況下,由期望角度看,兩種方案的平均錯判數(shù)量沒有顯著差異.
問題2.在兩種方案下,組長改卷量
因為填空題每道題目的給分只有正確和錯誤兩種情況,按照改卷質(zhì)量控制的要求,若兩名評卷員對同一道題目的給分不一致,則此份試卷將由題組長批改.
方案1.切割填空題.
與問題1 相同,仍然記每名評卷員每道題目的改錯概率為參數(shù)p1.則對于第i題,兩名評卷員給分不一致的概率為
記Y3:4N份試卷中, 題組長的改卷數(shù)量.則有Y3~B(4N,2p1(1-p1)).
方案2.未切割填空題.
仍然記每名評卷員每道題目的改錯概率為參數(shù)p2.則對于第i題,兩名評卷員給分不一致的概率
記Z:同一份試卷兩名評卷員給分不一致的題目數(shù)量.則Z ~B(4,2p2(1-p2)).進而對于一份試卷,需要題組長批改的概率為
記Y4:N份試卷中,題組長的改卷數(shù)量.則Y4~B(N,1-[1-2p2(1-p2)]4).
因為Y3,Y4的分布不同, 從期望角度進行比較:E(Y3)=8Np1(1-p1),E(Y4)=N{1-[1-2p2(1-p2)]4}.
表2 給出了在考生人數(shù)N= 400000,p1=p2=p分別為0.0001,0.0005,0.001,0.005 以及0.01 的情況下,兩種方案下組長卷的數(shù)量E(Y3),E(Y4)以及兩者差值的模擬結(jié)果.
表2.兩種改卷方案下組長卷數(shù)量的比較
注:結(jié)果保留2 位小數(shù).
由上面的模擬結(jié)果不難發(fā)現(xiàn):在兩種方案下,若每道題目每個評卷員改錯的概率相同,則從期望角度比較,因為兩個評卷員給分不一致導(dǎo)致的題組長改卷數(shù)量方案1 比方案2 略多,而且隨評卷員改錯概率增加,兩種方案的題組長改卷量差異增大.
本文以中學(xué)數(shù)學(xué)大型模擬考試的填空題為例,探討切割填空題的評卷方式與未切割填空題的評卷方式兩種方案在試卷錯判數(shù)量以及相應(yīng)的組長卷數(shù)量方面的優(yōu)劣比較.通過概率統(tǒng)計建模以及模擬研究發(fā)現(xiàn):在兩種方案下,從期望的角度出發(fā),因為兩名評卷員同時改錯導(dǎo)致的錯判試卷數(shù)量無顯著性差異;同時,因為兩名評卷員給分不一致導(dǎo)致的題組長改卷量切割填空題的方案1 比未切割方式的方案2 略多,而且隨評卷員改錯概率增加,兩種方案的組長卷差異增大.
此外,相比于未切割填空題的方案2,切割填空的方案1每個題目的評分都需要點擊“提交”按鈕,導(dǎo)致評卷員點擊鼠標次數(shù)高于方案2.同時,因為閱卷數(shù)量大,調(diào)用試卷過程中涉及到的網(wǎng)絡(luò)延時也是一個影響方案1 工作效率的因素.然而,方案1 并不是完全沒有優(yōu)點.切割填空的方案1 將能夠獲得每一道填空題目的分值數(shù)據(jù),有助于進一步分析處理.
綜上所述,本文認為在保證公平性、科學(xué)性基礎(chǔ)上,從提高大型模擬考試評卷的工作效率角度出發(fā),基于錯判試卷數(shù)量和組長卷數(shù)量兩個指標,未切割填空題的方案2 優(yōu)于切割填空題的方案1.