任子朝,趙 軒,關(guān)丹丹,徐奉先
圖形分析法在高考試題評價中的應(yīng)用研究
任子朝,趙 軒,關(guān)丹丹,徐奉先
(教育部考試中心,北京 100084)
對試題、試卷的難度、區(qū)分功能一般都是運用數(shù)值進行量化評價,應(yīng)用圖形分析法對評價數(shù)據(jù)進行直觀展示將有助于公眾和命題人員理解評價數(shù)據(jù)的含義,同時更進一步深化對數(shù)據(jù)的理解.分數(shù)分布直方圖能夠反映考生的分布情況.各批次考生成績分布圖能展示試題對各層次考生的區(qū)分情況.試題難度分布圖能夠深入揭示試題對總分在哪個分數(shù)段的考生區(qū)分良好.不同組別考生成績分布圖可以了解各組別考生的得分情況和考生分數(shù)的走勢.不同年份試題難度對比圖可以比較年度間試題的水平和變化情況.
高考;試題評價;圖形分析;難度;區(qū)分度
2020年初,教育部考試中心發(fā)布中國高考評價體系[1],高考的核心功能是立德樹人,服務(wù)選才,引導(dǎo)教學.立足于服務(wù)國家,服務(wù)高校選才這一基本點,高考要為國家和高校選拔出符合要求的新生,高考要進一步探索和完善評價人才的方法,保證適宜的考試區(qū)分度[2].《國務(wù)院辦公廳關(guān)于新時代推進普通高中育人方式改革的指導(dǎo)意見》指出,科學設(shè)置試題難度,命題要符合相應(yīng)學業(yè)質(zhì)量標準,體現(xiàn)不同考試功能.建立命題評估制度,提高命題質(zhì)量[3].試題的難度和區(qū)分度、試卷的難度和區(qū)分功能是衡量試題、試卷質(zhì)量的重要指標,這些指標都是通過數(shù)值進行衡量,依據(jù)統(tǒng)計數(shù)據(jù)進行量化評價[4–6].但如何向公眾展示試題的評價結(jié)論,如何給命題人員解釋數(shù)據(jù)分析結(jié)果,幫助公眾和命題人員更直觀地理解試題的難度、區(qū)分度等指標及其意義,是值得深入探討的問題.進一步分析,經(jīng)常會有這樣的情況,兩個試題具有相同的難度或區(qū)分度,但對不同層次的考生區(qū)分功能完全不同.
據(jù)此,研究聚焦在兩個問題,一是如何直觀地展示考試數(shù)據(jù)分析結(jié)果及其意義;二是對統(tǒng)計數(shù)據(jù)相同的試題,如何展示其對不同層次考生的區(qū)分功能.此外,還分析和研究了利用圖形分析評價高考試題的方法,通過圖形呈現(xiàn)評價結(jié)果,將會更加直觀有效地展示高考試題對于不同能力水平考生的難度、區(qū)分度情況,將更有助于公眾和命題專家獲得直觀形象,更深入理解統(tǒng)計數(shù)據(jù)的意義,也能更好地將統(tǒng)計數(shù)據(jù)應(yīng)用于試題評價和改進考試命題.
研究的基礎(chǔ)是試題和試卷的難度.對二分法計分的試題,即只有答對和答錯兩種可能結(jié)果的試題,如數(shù)學試卷中的選擇題和填空題,試題難度以通過率計算
式中為試題難度,為答對該題的考生數(shù),為考生總數(shù).
對非二分法計分試題,即在零分到滿分之間有多種可能的結(jié)果,如數(shù)學試卷中的解答題,試題難度以下面公式計算
分數(shù)分布直方圖是將考生的分數(shù)按一定的分數(shù)段,分段統(tǒng)計各分數(shù)段的人數(shù)和百分比,然后以總分為橫坐標,各分數(shù)段的百分比為縱坐標繪制成矩形圖形.分數(shù)分布直方圖全面反映了考生的總體分布情況、分布的峰值和偏度、離散程度、各分數(shù)段考生的比例.高考統(tǒng)計中是以15分為一個分數(shù)段,圖1和圖2是2019年全國I卷理科數(shù)學和文科數(shù)學的分數(shù)分布直方圖.
圖1 2019年全國I卷理科數(shù)學分數(shù)分布直方圖
圖2 2019年全國I卷文科數(shù)學分數(shù)分布直方圖
2019年全國I卷理科數(shù)學試卷的難度為0.556,文科數(shù)學試卷的難度為0.462,即為平均數(shù).中數(shù)都為75.通過分數(shù)分布直方圖可以看出各分數(shù)段考生的比例,理科考生呈負偏態(tài)分布,峰值較高,眾數(shù)分數(shù)段為[90, 105),高水平考生的比例較高.文科考生呈正態(tài)分布,考生的分布比理科考生更為分散,峰值較低,眾數(shù)分數(shù)段為[75, 90),低水平考生的比例較高.兩卷比較,理科數(shù)學試卷得分率比文科數(shù)學試卷更高,比文科試卷容易.分析多年的統(tǒng)計數(shù)據(jù),當整卷難度在0.4~0.5時,考生成績呈正態(tài)分布.當整卷難度值大于0.5時,試卷就呈負偏態(tài)分布,即顯示試卷整體偏易.通過直方圖展示考生群體的分布情況,比單純的平均分、標準差等數(shù)值更為詳實、真切、生動.
因為中國高校分批次錄取,為發(fā)揮功能選拔,區(qū)分不同批次水平的學生,高考試題難度應(yīng)該有相應(yīng)的層次,體現(xiàn)出與錄取要求相對應(yīng)的難度差異,從而實現(xiàn)有效區(qū)分不同層次學生的目的.因為中國高考是分省錄取,沒有全國統(tǒng)一的錄取分數(shù)線,所以,研究選取2019年使用全國Ⅰ卷X省的理科數(shù)學考試數(shù)據(jù),對每個試題的難度按照一批、二批、高職高專3個類別進行分層統(tǒng)計,以題號為橫坐標,分別計算各批次考生在該題目的平均得分率(也即對該批次考生的試題難度),以此作為縱坐標,繪制成圖(見圖3).
圖3 2019年X省不同批次理科數(shù)學試題難度分布
界定兩個批次之間考生在每個題目得分率小于0.1視為差異不明顯,大于等于0.1視為有明顯差異.圖3中SXZJ是指各批次考生分別在理科數(shù)學整卷的得分率.從圖3可以看出,除第1和9題,其它各題在3個批次考生得分率都有明顯的差異,試題可以分為4類.
第一類,全體考生在該題都沒有明顯差異.此類試題只有第1和9題,分值比例為6.7%.兩題的難度分別為0.968和0.942.這是因為第1題是起始題,其功能不是為了區(qū)分和選拔,而是為了穩(wěn)定考生情緒,使考生形成良好的作答心態(tài),迅速進入答題狀態(tài),所以每年試卷的第1題都很容易.而第9題作為在此位置的試題屬于偏易的試題,該題考查等差數(shù)列的通項公式和前項和的計算,統(tǒng)計結(jié)果顯示,考生對該部分知識和方法掌握很好,而試題偏易.
第二類是對全體考生都有良好區(qū)分度的試題.這類試題包括第4、6、15、19、23題,此類試題分值比例為21.3%.(因為第22、23題為選做題,考生從兩題中選擇一題作答,所以兩題的分值折半計算,每題分值計為5分)
第三類是對基礎(chǔ)水平的考生具有良好區(qū)分度的試題.這類試題包括第2、3、5、7、8、11、13、14、17、18、22題.此類試題分值比例為46%.
第四類是對高水平考生具有良好區(qū)分度的試題.這類試題包括第10、12、16、20、21題.此類試題分值比例為26%.
根據(jù)以上分析,理科數(shù)學試卷中單純區(qū)分基礎(chǔ)水平考生的試題接近半數(shù),再加上對全體考生都能良好區(qū)分的試題,比例接近70%,所以考生打好基礎(chǔ)非常重要.圖3通過圖形直觀形象地呈現(xiàn)每道試題針對3個不同批次考生的得分率差異,并且得分率呈現(xiàn)遞增的趨勢,對各層次考生的區(qū)分良好,更便于公眾和命題人員理解和研究.
通過圖3可以看出試題對不同批次考生的區(qū)分情況,但該題具體是對數(shù)學總分在哪個分數(shù)段的考生進行區(qū)分,從圖中并不能看出,這就要借助于試題的難度分布圖.試題的難度分布圖是以考生的數(shù)學學科總分為橫坐標,以該總分的考生在該題的得分率為縱坐標繪制的曲線圖.在上述4類試題中,每類選取一題進行分析.并增加了第14題的圖形,以便與第13題進行對比研究.
從圖4可以看出,第1題對總分在45分以下的考生有一定的區(qū)分度,總分在45分以上的考生都能得滿分,所以該題主要區(qū)分低水平的考生,對高水平考生的區(qū)分不夠明顯,主要是起到穩(wěn)定考生情緒的作用.
圖4 第1題難度分布
從圖5可以看出,第6題的難度分布曲線比較平緩,對各分數(shù)段的考生區(qū)分良好.
圖5 第6題難度分布
從圖6可以看出,第13題對總分在85分以下的考生區(qū)分良好,總分在85以上的考生在該題都能得滿分,所以該題主要區(qū)分基礎(chǔ)水平的考生.
圖6 第13題難度分布
試卷的第13題和14題的難度基本相同,分別是0.774和0.765,但兩題卻在區(qū)分考生的層次上存在差異.從圖6可以看出,第13題對總分在20—85分的考試區(qū)分良好,而從圖7可以看出,第14題的區(qū)分效果比較平均,基本對各分數(shù)段的考生區(qū)分功能相同,這一點也可以從圖3得到印證.這說明難度數(shù)值相同的試題對不同層次的考生區(qū)分功能存在差異,而試題難度分布圖可以很好地展示這些差異.
圖7 第14題難度分布
從圖8可以看出,在第20題,總分在100分以下的考生得分率都在20%以下,對總分在100分以上的高水平考生區(qū)分良好.
圖8 第20題難度分布
為更加深入地分析一個試題對不同層次考生的區(qū)分情況和試題質(zhì)量,對選擇題需要了解各干擾選項的迷惑功能,對解答題需要了解各個得分點設(shè)置是否合理、對考生的區(qū)分是否顯著.為此設(shè)計了不同組別考生成績分布圖.將考生從低到高平均分為5個組,建立坐標系,橫坐標為考生群體從低到高的5組,對選擇題,縱坐標是每組考生在每個選項的得分率;對解答題,縱坐標為得到某一分數(shù)的考生累積比例,這樣可以繪制有多條曲線的折線圖.利用折線圖,對于選擇題,可以分析每個組的考生在每個選項的得分情況以及考生得分的走勢.對解答題,可以分析考生在該題每一個分數(shù)段的得分情況.因為對于得分率比較高的選擇題,該折線圖就是接近頂端的曲線,對于填空題就是兩條相對應(yīng)的曲線,圖形都比較簡單,所以研究只選擇上文中的第6題和20題做出圖形,同時增加了對第18題的圖形分析.
根據(jù)條件概率估計,對于0/1計分題目,如對選擇題進行選項分析,可直觀看出不同能力水平的考生對各個選項選擇的情況及變化趨勢.對于單選題,該題有幾個選項就有幾條折線;對于多選題而言,則有幾種選項組合就有幾條折線.理想的模式是,正確選項的選擇率隨著考生水平的提高呈單調(diào)遞增趨勢,即曲線呈上升趨勢;干擾選項的選擇率則呈單調(diào)遞減趨勢,即曲線呈下降趨勢[7].
圖9中標*號的是正確選項,P代表未答考生.從圖9可以看出,隨著考生水平的提高,選擇正確選項的人數(shù)比例逐漸提高,第1組考生答對的概率在0.2左右,而第5組考生答對的概率達到0.9以上.同時,隨著考生水平的提高,選擇錯誤選項的考生概率逐步下降,在最高水平的第5組,選擇錯誤選項的概率在0.1以下.在各干擾選項中,B選項的曲線下降較快,區(qū)分功能最為顯著.
圖9 第6題選項分布
對于多級計分的解答題,可觀察隨著考生能力水平的遞增,考生在每一得分點的得分情況和變化趨勢.該題有幾個得分點就有幾條折線.在分數(shù)點過多時,可以進行簡化,選擇幾個關(guān)鍵的得分點繪制分數(shù)折線.理想的狀態(tài)是,所有可能的得分點的累積百分比折線都是隨著考生水平的提高呈單調(diào)遞增趨勢,不同得分點的累積百分比折線之間疏密程度比較均衡,特別是沒有交叉的情況.
第19題滿分12分,為使圖形更加清晰,以2分為一個步長單位,圖10中標示了6條曲線.最上面的2分線為隨著考生能力水平的遞增得分等于和超過2分的累積比例變化趨勢,最下面的12分線為隨著考生能力水平的遞增得分等于12分的比例變化趨勢.從圖10各得分線的斜率可以看出,2分線對于中低段的考生區(qū)分較好,4分線和6分線對于所有的考生都有較好的區(qū)分度,8分線對中高水平的考生有較好的區(qū)分度,10分和12分線對高分段特別是拔尖的考生具有很好的區(qū)分度.不同得分線之間間距比較大,說明該題不同得分點的分值設(shè)計是合理的,能夠很好地將不同思維層次的考生區(qū)分開來.
圖10 第19題成績分布
第20題滿分12分,從圖11可以看出,2分線對所有考生都有良好的區(qū)分,4分線、6分線、8分線僅能區(qū)分高分段考生,而10分線和12分線的區(qū)分效果不很明顯,因此需要對考生的層次進行進一步地加細分類,考察這樣的難題對高水平考生的區(qū)分效果.
圖11 第20題成績分布
從以上分析可以看出,不同組別考生成績分布圖與試題難度分布圖是有關(guān)聯(lián)的,特別是對選擇題,關(guān)聯(lián)性更強.而對解答題,不同組別考生成績分布圖則更為精細,反映的信息更多、更為詳細、也更加全面.
這里對壓軸題等難題的區(qū)分效果進行了重點研究,在前面分批次的基礎(chǔ)上,將高水平考生的層次進一步加細.中國正在進行重點高校建設(shè),在高考錄取時也是分批次的,清華北大是提前批次,其次是985高校、一批、二批、高職高專.以此為基礎(chǔ),以X省為例,將考生劃分為群體1到群體5這5個類別進行分析.同時進行了年度間的比較,選取2017—2019年的高考數(shù)據(jù),對高考理科數(shù)學壓軸題分批次、跨年度的試題難度變化及層次差別進行更深入的分析研究.
對于清華北大、985高校這樣的高水平大學,高考試題要想達到有效選拔高水平學生的目的,必須設(shè)置個別難度較大的題目,俗稱“壓軸題”.壓軸題的試題難度設(shè)置是否符合命題人員的預(yù)期,對高水平學生的難度梯度和區(qū)分情況如何,是重點關(guān)注的問題.
在老高考中,因為數(shù)學試卷中設(shè)置了兩個選做題,考生從中選擇一題作答,而且為便于考生選擇,這兩個試題放置在試卷的最后.雖然兩題的位置在最后,但其難度并不是最難的,而是屬于中檔水平.因此第20、21題才是名副其實的“壓軸題”.下面是第20、21題的統(tǒng)計圖,其中全體考生是指全體考生在該題的得分率.從圖12、圖13可以得到如下的結(jié)論.
圖12 2017—2019年X省高考理科數(shù)學第20題不同批次難度分布
2017、2018、2019年,第20、21題作為兩個壓軸題對不同批次的考生都有非常好的區(qū)分,所有批次之間考生得分率的差異都大于0.1;一批和二批之間的得分率差值大于0.2;2018年在試卷整體偏易的情況下,一批和二批考生得分率差值大于0.3,2019年清北和985兩批考生在20和21題上得分率差值都達到了0.3以上,達到了區(qū)分高水平考生的目的.
圖13 2017—2019年X省高考理科數(shù)學第21題不同批次難度分布
第20題:2017年試題整體比2018、2019年試題容易,對于清北和985考生2017和2018兩年在20題的難度差異不大.對于一批、二批和高職高專考生,2017年難度和2018、2019年難度有一定的差異.
第21題:3年難度總體差別不大,2018年略容易.對于985考生,3年難度稍微有差異,2017年985考生作答該題的平均難度為0.74,2018年的平均難度為0.82,2019年平均難度為0.59,其它批次差別不大.
通過分析可以發(fā)現(xiàn),2019年壓軸的第20和21題,雖然其難度分別為0.138和0.183,屬于難題,但不同批次的考生得分差異明顯,特別是對高水平高校的考生具有良好的區(qū)分度.因此對試題的評價應(yīng)將難度和區(qū)分度結(jié)合起來進行,不同難度的試題發(fā)揮對不同層次考生的區(qū)分和選拔作用.
以考試統(tǒng)計數(shù)據(jù)為基礎(chǔ),描繪了各種統(tǒng)計圖形,探討了圖形分析法在高考試題評價中的應(yīng)用.通過以上分析可以看出,利用圖形分析的方法可以很好地解決研究中提出的兩個問題,一是直觀地展示考試數(shù)據(jù)分析結(jié)果及其意義;二是對統(tǒng)計數(shù)據(jù)相同的試題,展示其對不同層次考生的區(qū)分功能.
(1)利用圖形分析法對試題、試卷統(tǒng)計數(shù)據(jù)進行深入分析,可以更直觀、更形象地展示試題、試卷的功能和作用,同時可以更細致、更詳實地揭示試題、試卷的功能和作用,使公眾和命題人員更便捷、更深入地了解試題的難度、區(qū)分度、區(qū)分考生的能力和層次,更有效、充分發(fā)揮統(tǒng)計數(shù)據(jù)對考試命題和試題評價的作用.
(2)考生分數(shù)分布直方圖可以更為直觀地展示全體考生的整體分布,展示分數(shù)分布的偏度、峰度和各分數(shù)段的人數(shù)百分比,反映試卷的質(zhì)量和難度,同時也可以使教育者了解考生的整體分布和水平.
(3)不同批次考生成績分布圖、試題難度分布圖反映了試題的難度和各層次考生的得分情況.特別是通過試題難度分布圖,可以分析難度值相同的試題對不同層次考生的區(qū)分功能.有利于對試題難度的分析和控制,同時有利于在教學過程中,針對不同層次的考生進行因材施教.
(4)不同組別考生成績分布圖反映了試題的區(qū)分功能,同時反映了對各層次考生的區(qū)分情況.基于條件概率(不同水平考生條件下)的統(tǒng)計特征圖形分析更加直觀和有意義,為評價試題質(zhì)量提供了更加豐富的手段和視角.對于過難的題目、過易的題目或者區(qū)分度過低的題目,圖形分析法能夠更容易地幫助公眾、命題人員、分數(shù)使用人員找到題目的問題所在.基于條件概率估計給出的題目統(tǒng)計特征圖形,外形上雖然與項目反應(yīng)理論中的項目反應(yīng)曲線相似,但不依賴于任何數(shù)學模型,原理簡單,圖形直觀,可以廣泛應(yīng)用.
(5)數(shù)學試卷的壓軸題雖然偏難,但清華北大、985高校、一批、二批錄取的考生在兩個壓軸題的得分率差別較大,對高層次的考生區(qū)分顯著,在高考選拔高水平考生中發(fā)揮重要的作用.
[1] 萬玉鳳.教育部考試中心發(fā)布《中國高考評價體系》[N].中國教育報,2020–01–08(1).
[2] 教育部考試中心.中國高考評價體系[M].北京:人民教育出版社,2019:11.
[3] 國務(wù)院辦公廳.關(guān)于新時代推進普通高中育人方式改革的指導(dǎo)意見[EB/OL].(2019–09–02)[2019–10–11].https://zhuanlan.zhihu.com/p/80842215.
[4] 任子朝,陳昂,黃熙彤,等.高考數(shù)學新題型試卷質(zhì)量分析研究[J].數(shù)學教育學報,2019,28(1):1–7.
[5] 任子朝,佟威,趙軒.高考試題難度預(yù)估研究[J].數(shù)學教育學報,2018,27(5):13–16.
[6] 任子朝,佟威,趙軒.高考試題難度預(yù)估的校準與改進研究[J].數(shù)學教育學報,2019,28(6):1–4.
[7] 楊志明.提高選擇題區(qū)分度的若干方法[J].教育測量與評價,2017(2):5–10.
The Use of Graphics in Evaluating and Representing Quality of Items from College Entrance Examinations
REN Zi-zhao, ZHAO Xuan, GUAN Dan-dan, XU feng-xian
(National Education Examinations Authority, Beijing 100084, China)
The difficulty and discrimination of testing items are evaluated and represented using numerical values. The visual display of items qualities from high-stake test like college entrance examinations through graphics has advantages for public and item developers to understand the testing quality related to item difficulty and discrimination. Score distribution histograms reflect the distribution of the examinees. The score distribution chart of different batches of examinees can help us understand the distinctions between each test item for each level of examinee. The difficulty distribution chart of the test items can reveal in-depth information about the discrimination of examinees in different range of overall test scores. The score distribution chart of different groups of examinees can help us understand the scores of each group of examinees and the trend of their scores. The comparison chart of test difficulty in different years helps us compare the level and change of test items across years.
college entrance examination; item quality; graphics; difficulty; discrimination
G632.0
A
1004–9894(2021)01–0037–05
任子朝,趙軒,關(guān)丹丹,等.圖形分析法在高考試題評價中的應(yīng)用研究[J].數(shù)學教育學報,2021,30(1):37-41.
2020–12–20
國家教育考試科研規(guī)劃2019年度課題——新高考開放性試題研究(GJK2019011)
任子朝(1961—),男,北京人,研究員,主要從事數(shù)學教育、教育測量研究.
[責任編校:周學智、陳雋]