張 軍,吳 荻,周海芳,周競文,賈 楠,寧偉勛
(國防科技大學(xué) 計算機(jī)學(xué)院,湖南 長沙 410073)
大學(xué)計算機(jī)基礎(chǔ)課程(本文中簡稱“大基”)在諸多高校課程體系中是面向全校學(xué)生的基礎(chǔ)課程,對其教學(xué)質(zhì)量進(jìn)行便捷、有效的量化評價是大基教學(xué)的重要環(huán)節(jié)。在以“能力為導(dǎo)向”的教育趨勢下[1],教師對學(xué)生考評的關(guān)注點已經(jīng)不僅僅浮于考試的分?jǐn)?shù)高低、及格率、優(yōu)秀率等指標(biāo),而是希望通過考評結(jié)果數(shù)據(jù)客觀地量化分析,縱向比較,以便能用客觀數(shù)據(jù)判斷學(xué)生能力是否達(dá)到教學(xué)大綱的要求、教學(xué)效果是否有提高、教育改革是否有成效。然而,在實際教學(xué)過程中,教師需要根據(jù)目前學(xué)生情況從數(shù)量龐大的教學(xué)資源中選取或設(shè)計合適的題目形成一份學(xué)生能力考察試卷,這具有一定難度;另一方面,由于學(xué)生人數(shù)眾多,計算機(jī)知識水平差異大,為客觀評價教學(xué)效果以便指導(dǎo)后續(xù)教學(xué)工作,教師需要對大量成績數(shù)據(jù)進(jìn)行多方位、多層次整理與分析。傳統(tǒng)考評系統(tǒng)僅提供考試環(huán)境和原始考試成績,在考前考卷組建方式和考后考情分析等方面均十分薄弱。例如,傳統(tǒng)考評系統(tǒng)中教師憑借個人經(jīng)驗確定試題難易度、知識點等考題屬性,在分析過程中主觀因素占比多,易產(chǎn)生疏漏和偏頗。因此,在當(dāng)前教學(xué)要求下,需要設(shè)計科學(xué)、全面分析學(xué)生能力并依據(jù)分析結(jié)果選擇考題等的考評系統(tǒng)。
目前有考評系統(tǒng)摒棄了傳統(tǒng)考評系統(tǒng)組卷方式,采用自適應(yīng)方式,其具體實施方式主要是真分?jǐn)?shù)模型與難度相結(jié)合。例如,文獻(xiàn)[2]從認(rèn)知層次、知識點數(shù)量、知識跨度、信息干擾4個因素展開分析,結(jié)合布盧姆目標(biāo)分析理論,構(gòu)建出了試題難度的分級方法和試卷生成策略,并對考試系統(tǒng)的開發(fā)進(jìn)行需求分析和設(shè)計,但未對考試結(jié)果進(jìn)行分析;文獻(xiàn)[3]認(rèn)為Rasch模型可最大限度地減少額外因素對真實測量目的的影響和干擾,從而保證測量的客觀性和準(zhǔn)確性,但缺乏在計算機(jī)教育中的實際應(yīng)用研究。目前已有一些研究將Rasch模型應(yīng)用于計算思維能力的測量,但存在測試樣本不足的缺陷,例如樣本中測試題目較少[4]、參與測評學(xué)生數(shù)目較少[5]、參與測試學(xué)生專業(yè)不屬于理工科方向[6]、參與測試學(xué)生的學(xué)生不屬于本科教育范圍[7]。
Rasch模型又稱為一維難度模型,是一種用于評估考試或測驗題目質(zhì)量或難易程度的統(tǒng)計模型,是IRT(Item Response Theory)中最基礎(chǔ)的模型。該模型基于概率分布函數(shù),假設(shè)考生的能力和試題的難度可以用單個參數(shù)來描述,從而建立起考試成績與題目難度之間的聯(lián)系,適用于各種類型的教育評估,包括學(xué)術(shù)考試和職業(yè)認(rèn)證等。該模型還可以評估測試的信度和效度,對受試者、項目和整個測試的屬性進(jìn)行分析和比較。為彌補以上研究不足,本文以大學(xué)計算機(jī)基礎(chǔ)這門公共課程作為研究對象,將Rasch模型應(yīng)用于其基礎(chǔ)教學(xué)測評中,以期拓寬Rasch模型在能力測評中的應(yīng)用范圍,也為大學(xué)計算機(jī)基礎(chǔ)課程的發(fā)展與完善提供理論與數(shù)據(jù)支撐。
考評是教學(xué)閉環(huán)中的重要環(huán)節(jié),通過精準(zhǔn)的考情分析可以及時把握學(xué)生學(xué)習(xí)情況,有效督促教學(xué)改進(jìn)。在很多院校中,大基屬于全校公共基礎(chǔ)課程,考生人數(shù)多。為評估考生能力,教師需要花費大量時間和精力對每一題的答題情況進(jìn)行統(tǒng)計分析,如答題正確率、班級平均分與整體平均分?jǐn)?shù)的比較等。對答題情況進(jìn)行分析一方面有助于教師有針對性地增強(qiáng)薄弱知識點講解,另一方面可剔除或修改不合適的題目,完善試題庫。
考評系統(tǒng)結(jié)構(gòu)如圖1所示,系統(tǒng)中各個考評環(huán)節(jié)的支撐說明見表1。目前無論是采用簡單隨機(jī)式還是先進(jìn)的人工智能考評系統(tǒng),其主要關(guān)注點在于組卷方式,但均必須基于試題可以客觀反映學(xué)生能力的基礎(chǔ)上才能達(dá)到預(yù)期考核目的。因此,考評系統(tǒng)除需支持考試組卷等外,還需提供考情分析功能,幫助教師完成考核閉環(huán)的迭代改進(jìn)過程。
Table 1 Supporting description of evaluation sector表1 考評環(huán)節(jié)支撐說明
Fig.1 Evalutation system structure圖1 考評系統(tǒng)結(jié)構(gòu)
依據(jù)用戶類型,考評系統(tǒng)功能模塊分為面向教師和考生兩個部分,面向教師模塊主要提供考題設(shè)置、考核結(jié)果分析、考生能力評估等功能;面向考生模塊根據(jù)考核目的、考場設(shè)置提供不同考核界面,具體如圖2和圖3所示。為方便學(xué)生平時自測和正式考試,減少對客戶端軟硬件的需求,該系統(tǒng)采用WEB模式,教師和考生可通過瀏覽器訪問考評系統(tǒng)。該模式受客戶端操作系統(tǒng)、設(shè)備性能等因素限制少,擴(kuò)展了考評系統(tǒng)用戶規(guī)模和層次。
Fig.2 Teacher module圖2 教師模塊
Fig.3 Student module圖3 考生模塊
根據(jù)考評系統(tǒng)主要分為面向教師和考生兩個模塊,其頂層設(shè)計如圖2和圖3所示。
在考題選擇模塊,系統(tǒng)在傳統(tǒng)選題模式的基礎(chǔ)上提供高級篩選功能中的相對難度和絕對難度作為選題參考[2],具體如圖4所示。
Fig.4 Module design of "selecting questions"圖4 考題選擇模塊設(shè)計
1.3.1 相對難度
相對難度的計算公式為:
式中,H表示難度系數(shù),M表示答錯該題的人數(shù),N表示參加測試的總?cè)藬?shù),答錯的人越多,難度系數(shù)越高。
隨著歷史數(shù)據(jù)量的增長,N和M均產(chǎn)生變化,H也隨之改變,根據(jù)相對難度選擇考題可以通過考評結(jié)果橫向比較學(xué)生能力。
影響相對難度的因素見表2,在同一學(xué)期中,因素1、2、3、4等外部客觀因素相對穩(wěn)定,此時相對難度可側(cè)面反映同一批次的學(xué)生能力情況。以2018年期末考試為例,抽取一部分班級答題情況,將其與全體考生答題情況進(jìn)行比較。根據(jù)式(1)計算前10道題目的相對難度,結(jié)果見表3。采用式(2)表示相對難度偏差度,以考察不同樣本量下同一題目相對難度的不一致程度,其中D表示相對難度偏差度,b1表示Rasch模型中依據(jù)部分樣本統(tǒng)計得到的統(tǒng)計出的難度,b2表示Rasch模型中依據(jù)全體樣本統(tǒng)計出的難度。
Table 2 Factors affecting "relative difficulty"表2 影響相對難度的因素
Table 3 Relative difficulty deviation of 10 questions between some candidates and all candidates表3 部分考生與全體考生10道題目的相對難度偏差度
可以看出,抽取的部分考生與全體考生10道題目的相對難度偏差度范圍為[ -42.11%,28.91% ],跨度高達(dá)70%,說明相對難度值高度依賴選取的樣本,抽取出來的學(xué)生在部分知識點的應(yīng)用能力上低于平均水平,如第5題。
1.3.2 絕對難度
相對難度存在極大變化幅度,不適合作為不同年度、不同考生群體的能力考評參數(shù)。由于難度是題目本身的屬性,客觀上不因抽取樣本的不同而改變,因此考評系統(tǒng)同時提供了絕對難度參數(shù),以縱向比較學(xué)生能力,該參數(shù)可通過測量考生能力的IRT模型獲得[8]。IRT模型以概率解釋學(xué)生答題情況與能力素養(yǎng)之間的關(guān)系[9]。IRT模型有3條基本假設(shè):①能力單維性假設(shè),其含義是組成某個測驗的所有項目均為測量同一潛在特質(zhì);②局部獨立性假設(shè),其含義是對某個被試者而言,不同測試題目不存在相關(guān)性;③項目特征曲線假設(shè),其含義是對被試者對某項目的正確反映概率與被試者能力之間的函數(shù)關(guān)系所作的模型[10]。為使絕對難度符合IRT模型,考評系統(tǒng)需要滿足以上3個假設(shè)前提[11]。為考察學(xué)生解決問題能力水平而不是知識點記憶情況,課題組采用開卷考試形式,重點考察學(xué)生運用知識點解決實際問題的能力,題目特征曲線嚴(yán)格單調(diào)上升??荚u系統(tǒng)提供按IP地址發(fā)放A/B試卷、切換窗口控制等措施,可以做到作答真實可信,學(xué)生之間互不影響??碱}中判斷題、選擇題占80%以上,保證學(xué)生有充足時間作答?;谝陨锨疤釋崿F(xiàn)對考生能力和試卷、試題質(zhì)量的測評,可以達(dá)到使用同一尺度比較不同年度試卷、試題、考生水平和教學(xué)水平的目的[12]。
式中,Pi(θ)表示能力值為θ時的學(xué)生正確回答題目i的概率,一般為[ -3,+3 ];bi表示題目i的難度系數(shù),一般為 [ -3,+3 ]。
IRT模型測量某個考題的特征曲線如圖5所示,其中橫坐標(biāo)為θ,縱坐標(biāo)為考生答題的正確率,函數(shù)是單調(diào)上升的。由圖5(a)可以看出,能力值(θ)越大,考生能力越強(qiáng);由圖5(b)可以看出,當(dāng)θ值一定時,曲線從左至右,b分別為[-2,-1,0,1,2],即能力值一定時,b值越小,答題正確率越高。當(dāng)題目難度過小或過大時,在曲線頂部或底部的Pi(θ)值趨向于水平變化不明顯,說明考生基本均能答題正確或錯誤,無法區(qū)分考生能力。
Fig.5 IRT model measuring the characteristic curve of a certain exam question圖5 IRT模型測量某個考題的特征曲線
為使考試系統(tǒng)更符合Rasch模型,依據(jù)IRT模型的假設(shè)前提采取如表4所示的多項措施,以支撐絕對難度作為選題指標(biāo)。
Table 4 IRT assumptions and implementation conditions表4 IRT假設(shè)前提與實施條件
本文系統(tǒng)采用Winsteps軟件根據(jù)Rasch 模型[13]計算得到的題目絕對難度符合教學(xué)規(guī)律,由此在相對難度相同的兩組考生答題情況下計算獲得絕對難度值,結(jié)果見表5??梢钥闯?,表5中的偏差度較表3明顯穩(wěn)定。
Table 5 Absolute difficulty and deviation of samples表5 絕對難度值及其偏差度
在以能力為導(dǎo)向的教育環(huán)境下,教師更關(guān)注學(xué)生們解決問題的過程,為此考評系統(tǒng)記錄考生解決問題的時長,嘗試次數(shù)等過程信息,將其作為參數(shù),結(jié)合題目正確率,根據(jù)式(3)計算并生成學(xué)生能力分布圖和效率分布圖。該模塊設(shè)計見圖6,用戶根據(jù)實際評估需求選擇相對難度或絕對難度,例如若需評估某個班級能力水平在全年級中所處的排名,可以采用樣本為全體考生的相對難度作為參數(shù),若比較不同年度考生能力水平則使用絕對難度作為參數(shù)。
Fig.6 Candidate ability analysis module圖6 考生能力分析模塊
大基課程參考人數(shù)多、考察知識范圍廣,考評系統(tǒng)提供多角度、多層次的考核結(jié)果反饋考生能力和教學(xué)效果,具體如表6所示。
Table 6 Assessment result analysis表6 考核結(jié)果分析
考評系統(tǒng)同時支持線上和線下考核結(jié)果的整理、展示,具體如圖7所示,教師可直觀地對學(xué)生能力和教學(xué)效果進(jìn)行整體評估。
Fig.7 Organization and display of assessment results圖7 考核結(jié)果整理、展示
為針對考評目標(biāo)合理構(gòu)建考題,需盡量減少非考題因素對考生的影響,以得到真實考生數(shù)據(jù)并據(jù)此調(diào)整考題,因此考評系統(tǒng)設(shè)計了模擬考試和正式考試兩種模式,具體見表7。
Table 7 Module of examination hall settings表7 考場設(shè)置模塊
為方便教師選擇考題并對已選考題進(jìn)行操作,考評系統(tǒng)建立一個考題籃,將待選考題加入考題籃,考題確認(rèn)后可形成一套試卷。界面如圖8所示。
Fig.8 Test question selection interface圖8 考題選擇界面
為直觀展示學(xué)生能力,考評系統(tǒng)對其能力值進(jìn)行百分制量化,并采用散點圖表示。如圖9所示,縱坐標(biāo)表示學(xué)生能力量化值,橫坐標(biāo)表示做對該題目所用時長,每個小藍(lán)色圓點代表一個學(xué)生。若考生使用該功能,則有紅色水滴形標(biāo)簽標(biāo)出其排名。以圖9考情分析結(jié)果對該考題進(jìn)行改進(jìn),首先學(xué)生在該題能力值集中于左上部,如圖9中方框線所示,平均能力值偏大,且用時較小;其次該題的絕對難度平均能力值為-,小于0,表明需要修正該題目。
Fig.9 Distribution of candidates' ability values圖9 考生能力值分布
修改考題示例如表8所示,對題目調(diào)整后再次測試,發(fā)現(xiàn)其參數(shù)值均在合理范圍內(nèi)。
Table 8 Example of modifying examination questions表8 修改考題示例
采用難度量化后的考卷能在滿足考核所需的同時提高考情分析的科學(xué)性和全面性,將考核結(jié)果多層次直觀地展示給教師,可便捷準(zhǔn)確地定位教學(xué)短板。本文基于Rasch模型分解難度維度,為計算思維能力提供了客觀的測量方式。但在使用Rasch模型對學(xué)生編程能力評估時并不理想,這是由于樣本的編程題評分方式不同,例如即使沒有編寫正確的功能代碼,但只要編譯通過了也可以獲得部分分?jǐn)?shù),這種設(shè)置無法準(zhǔn)確反映學(xué)生的計算機(jī)思維能力。下一步將隨著樣本的數(shù)量增加針對編程題樣本數(shù)據(jù)進(jìn)一步整理和挖掘,以期可以使用量化方式客觀評價考生能力,為考察教學(xué)效果提供客觀依據(jù)。