許 嘉,李秋云,劉 靜,呂 品,于 戈
1(廣西大學(xué) 計(jì)算機(jī)與電子信息學(xué)院,南寧530004)
2(廣西大學(xué) 廣西多媒體通信網(wǎng)絡(luò)技術(shù)重點(diǎn)實(shí)驗(yàn)室,南寧 530004)
3(廣西大學(xué) 廣西高校并行與分布式計(jì)算重點(diǎn)實(shí)驗(yàn)室,南寧 530004)
4(東北大學(xué) 計(jì)算機(jī)科學(xué)與工程學(xué)院,沈陽(yáng) 110819)
E-mail:lvpin@gxu.edu.cn
隨著大數(shù)據(jù)、云計(jì)算和互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,以Coursera、edX、中國(guó)大學(xué)MOOC和學(xué)堂在線為代表的在線教育平臺(tái)的興起給平臺(tái)上的任課教師帶來(lái)了嚴(yán)峻的教學(xué)挑戰(zhàn).一個(gè)最突出的教學(xué)挑戰(zhàn)在于教師如何高效批改大規(guī)模選課學(xué)生在平臺(tái)上提交的作業(yè).鑒于做作業(yè)能夠幫助學(xué)生鞏固和內(nèi)化知識(shí),是至關(guān)重要的教學(xué)活動(dòng),各大在線教育平臺(tái)都提供了客觀題(例如選擇題和判斷題)的自動(dòng)批改功能,減輕了任課教師的教學(xué)負(fù)擔(dān).相對(duì)于客觀題,主觀題(例如簡(jiǎn)答題和應(yīng)用題)更能考察學(xué)生的語(yǔ)言表達(dá)能力、知識(shí)運(yùn)用能力與創(chuàng)新思維能力,所以主觀題的考察對(duì)于很多在線課程而言是必不可少的[1].然而,由于沒(méi)有唯一標(biāo)準(zhǔn)答案,主觀題的批改很難由計(jì)算機(jī)自動(dòng)完成[2],需要任課教師花費(fèi)大量精力逐份手工批改,導(dǎo)致他們無(wú)法將精力用于課程內(nèi)容及活動(dòng)的改進(jìn)提高.可見(jiàn),如何減輕任課教師的主觀題批改負(fù)擔(dān)是當(dāng)前教育研究領(lǐng)域亟待解決的重要問(wèn)題.
為了有效降低任課教師的主觀題作業(yè)批改負(fù)擔(dān),國(guó)內(nèi)外各大在線平臺(tái)與科研機(jī)構(gòu)提出了不少主觀題評(píng)判的技術(shù),這些技術(shù)可分為兩類:基于自然語(yǔ)言處理的評(píng)判技術(shù)[3-5]和基于同行互評(píng)的評(píng)判技術(shù)[6-10].其中,基于自然語(yǔ)言處理的評(píng)判技術(shù)通過(guò)分析學(xué)生答案與教師給的參考答案之間的匹配程度來(lái)實(shí)現(xiàn)主觀題的自動(dòng)判分.然而,基于自然語(yǔ)言處理的評(píng)判技術(shù)通常依賴于特定領(lǐng)域的知識(shí),只適用于解決面向特定領(lǐng)域的主觀題評(píng)分問(wèn)題,因此鮮有在線教育平臺(tái)提供基于自然語(yǔ)言處理的主觀題評(píng)判功能.基于同行互評(píng)的評(píng)判技術(shù)是當(dāng)下不少主流在線教育平臺(tái)(例如Coursera和中國(guó)大學(xué)MOOC)提供的主觀題評(píng)判功能.該類技術(shù)將主觀題批改任務(wù)的子集分派給每個(gè)學(xué)生,然后基于多名學(xué)生對(duì)某主觀題的評(píng)分來(lái)估計(jì)該題的真實(shí)分?jǐn)?shù).基于同行互評(píng)的主觀題評(píng)判技術(shù)對(duì)于教師與學(xué)生而言都有積極益處:一方面減輕了任課教師的主觀題作業(yè)批改負(fù)擔(dān);另一方面要求學(xué)生評(píng)判他人的主觀題作業(yè),不但能夠讓他們學(xué)習(xí)到不同的解題思路,還能提高他們的課程參與度[11,12].因此,基于同行互評(píng)的主觀題評(píng)判技術(shù)成為當(dāng)下解決大規(guī)模主觀題評(píng)判問(wèn)題的主流技術(shù)和目前智能教育領(lǐng)域的研究熱點(diǎn),關(guān)注于提出提高同行互評(píng)質(zhì)量的方法[13].
本文考慮基于基數(shù)估計(jì)的同行互評(píng)場(chǎng)景,即每名同行評(píng)價(jià)者針對(duì)每道主觀題給出一個(gè)數(shù)值型的評(píng)價(jià)分?jǐn)?shù).基于同行互評(píng)的主觀題評(píng)判方法的研究難點(diǎn)在于如何利用多個(gè)同行給出的評(píng)價(jià)分?jǐn)?shù)估計(jì)被評(píng)價(jià)者的真實(shí)分?jǐn)?shù).大多數(shù)在線教育平臺(tái)只是簡(jiǎn)單基于各個(gè)評(píng)價(jià)分?jǐn)?shù)的均值或中位數(shù)來(lái)估計(jì)被評(píng)價(jià)者的真實(shí)分?jǐn)?shù).然而,由于同行評(píng)價(jià)者的打分質(zhì)量受其可靠性、偏見(jiàn)等因素的影響[14],簡(jiǎn)單用各個(gè)評(píng)價(jià)分?jǐn)?shù)的均值或中位數(shù)估計(jì)被評(píng)價(jià)者的真實(shí)分?jǐn)?shù)往往不夠準(zhǔn)確[15].近年來(lái),研究人員將同行評(píng)價(jià)者的評(píng)分可靠性及評(píng)分偏見(jiàn)作為模型的隨機(jī)變量,構(gòu)建了估計(jì)被評(píng)價(jià)主觀題作業(yè)真實(shí)分?jǐn)?shù)的概率模型,能夠利用變量間的依賴關(guān)系提高估計(jì)的準(zhǔn)確性[6-9].然而,現(xiàn)有研究方法均假設(shè)同行評(píng)價(jià)者的可靠性只與其當(dāng)前作業(yè)的答題情況相關(guān),未同時(shí)考慮同行評(píng)價(jià)者對(duì)主觀題考察的知識(shí)點(diǎn)的掌握程度(由其歷史答題結(jié)果數(shù)據(jù)診斷得到)對(duì)其評(píng)分可靠性造成的影響,因而存在局限性.對(duì)284名同行評(píng)價(jià)者針對(duì)三道主觀題作業(yè)給出的2109條互評(píng)打分記錄進(jìn)行統(tǒng)計(jì)分析.具體而言,首先以這些同行評(píng)價(jià)者的歷史答題結(jié)果數(shù)據(jù)為輸入并利用流行的認(rèn)知診斷DINA模型[16]診斷得到他們對(duì)主觀題考察的知識(shí)點(diǎn)的掌握程度,并進(jìn)而量化每個(gè)同行評(píng)價(jià)者對(duì)每道主觀題的掌握程度值.之后,計(jì)算由每名同行評(píng)價(jià)者對(duì)每道主觀題的掌握程度值組成的序列與每名同行評(píng)價(jià)者對(duì)每道主觀題的評(píng)分誤差值序列之間的皮爾遜相關(guān)系數(shù).由于兩個(gè)序列的皮爾遜相關(guān)系數(shù)為-0.673,表明評(píng)價(jià)者的可靠性還受其對(duì)該主觀題掌握程度的影響:評(píng)價(jià)者的掌握程度越低,則平均評(píng)分誤差越大,可靠性越低;評(píng)價(jià)者的掌握程度越高,則平均評(píng)分誤差越小,可靠性越大.因此,在對(duì)同行評(píng)價(jià)者的可靠性進(jìn)行建模時(shí),應(yīng)該同時(shí)考慮評(píng)價(jià)者對(duì)待評(píng)價(jià)習(xí)題的掌握程度信息.
鑒于此,本文提出了一種基于認(rèn)知診斷的主觀題同行互評(píng)技術(shù),包括PG8和PG9兩個(gè)概率模型.該技術(shù)在現(xiàn)有概率模型的基礎(chǔ)上[9],同時(shí)基于同行評(píng)價(jià)者在本次作業(yè)中的答題表現(xiàn)(對(duì)應(yīng)于本次作業(yè)取得的真實(shí)分?jǐn)?shù))以及評(píng)價(jià)者的歷史答題表現(xiàn)(對(duì)應(yīng)于基于歷史答題記錄診斷得到的該評(píng)價(jià)者對(duì)本次作業(yè)題的掌握程度)對(duì)評(píng)價(jià)者的可靠性進(jìn)行建模,以期最終提高概率模型估計(jì)主觀題作業(yè)真實(shí)分?jǐn)?shù)的準(zhǔn)確性.PG8和PG9的區(qū)別在于:PG8假設(shè)評(píng)價(jià)者的評(píng)分可靠性服從伽馬分布;PG9則假設(shè)評(píng)價(jià)者的評(píng)分可靠性服從高斯分布.綜上,本文的主要貢獻(xiàn)包括:
1)提出了改進(jìn)現(xiàn)有同行評(píng)價(jià)概率模型的思路,即應(yīng)同時(shí)以認(rèn)知診斷得到的同行評(píng)價(jià)者對(duì)主觀題的掌握程度信息和評(píng)價(jià)者在該主觀題中取得的真實(shí)分?jǐn)?shù)信息作為評(píng)價(jià)者評(píng)分可靠性的建模依據(jù),以期進(jìn)一步提高概率模型對(duì)主觀題作業(yè)真實(shí)分?jǐn)?shù)的估計(jì)準(zhǔn)確性.
2)基于由284名學(xué)生參與的3次主觀題作業(yè)的互評(píng)活動(dòng)收集真實(shí)互評(píng)數(shù)據(jù)集,并基于該數(shù)據(jù)集評(píng)估提出的互評(píng)技術(shù)和相關(guān)互評(píng)技術(shù)的有效性.實(shí)驗(yàn)結(jié)果表明本文提出的基于認(rèn)知診斷的主觀題互評(píng)技術(shù)在提高對(duì)主觀題作業(yè)真實(shí)分?jǐn)?shù)的估計(jì)準(zhǔn)確性方面比其它相關(guān)技術(shù)更具優(yōu)勢(shì).
本文剩余部分的內(nèi)容組織如下.第2部分闡釋了相關(guān)研究工作.第3部分給出了預(yù)備知識(shí).第4部分給出了基于認(rèn)知診斷的同行互評(píng)技術(shù),包含PG8和PG9兩個(gè)概率模型.第5部分為實(shí)驗(yàn).最后,第6部分總結(jié)了全文.
基于自然語(yǔ)言處理的主觀題評(píng)判技術(shù)從題目本身的特性出發(fā),利用自然語(yǔ)言處理、機(jī)器學(xué)習(xí)等技術(shù)實(shí)現(xiàn)主觀題的自動(dòng)評(píng)判.例如,文獻(xiàn)[5]基于自然語(yǔ)言處理技術(shù)對(duì)開(kāi)放式數(shù)學(xué)問(wèn)題的每一個(gè)解答轉(zhuǎn)變?yōu)閿?shù)字特征,再通過(guò)聚類分析發(fā)現(xiàn)解答中正確、部分正確以及不正確的解答結(jié)構(gòu),從而實(shí)現(xiàn)了對(duì)該類問(wèn)題的自動(dòng)判分.文獻(xiàn)[3]針對(duì)英文論文寫(xiě)作題給出了自動(dòng)判分的解決方案,該方案利用潛在語(yǔ)義分析和學(xué)習(xí)向量量化算法來(lái)提升自動(dòng)判分的準(zhǔn)確率.文獻(xiàn)[17]針對(duì)英語(yǔ)簡(jiǎn)答題設(shè)計(jì)了自動(dòng)判分方法,該方法利用同義詞詞典和衡量語(yǔ)義距離的兩種自然語(yǔ)言處理方法來(lái)解決標(biāo)準(zhǔn)文本相似度衡量方法對(duì)于同義詞的匹配不夠準(zhǔn)確的問(wèn)題.文獻(xiàn)[4]則基于潛在語(yǔ)義分析的奇異值分解策略設(shè)計(jì)了日語(yǔ)短文的自動(dòng)評(píng)分系統(tǒng).基于自然語(yǔ)言處理的主觀題評(píng)判技術(shù)為主觀題的自動(dòng)評(píng)分提供解決思路,也取得了不錯(cuò)的評(píng)分效果.然而,該類技術(shù)通常依賴特定領(lǐng)域的知識(shí)來(lái)優(yōu)化自然語(yǔ)言的處理過(guò)程,從而保證自動(dòng)判分的準(zhǔn)確性,因而只適用于解決特定領(lǐng)域的主觀題自動(dòng)判分問(wèn)題,很難在其它領(lǐng)域推廣使用.
基于同行互評(píng)的主觀題評(píng)判問(wèn)題即讓每名評(píng)價(jià)者對(duì)分配給其的一部分主觀題作業(yè)進(jìn)行評(píng)判,最終基于各個(gè)評(píng)價(jià)者反饋的評(píng)判信息估計(jì)每份主觀題作業(yè)的質(zhì)量.由于評(píng)價(jià)者的態(tài)度和能力存在差異,與眾包問(wèn)題類似,基于同行互評(píng)的主觀題評(píng)判問(wèn)題需要解決的核心問(wèn)題是對(duì)評(píng)價(jià)者反饋的評(píng)價(jià)信息進(jìn)行質(zhì)量控制.按照評(píng)價(jià)者反饋的評(píng)價(jià)信息形式的不同,基于同行互評(píng)的主觀題評(píng)價(jià)技術(shù)可分為序數(shù)(Ordinal)估計(jì)技術(shù)和基數(shù)(Cardinal)估計(jì)技術(shù)兩類.
序數(shù)估計(jì)技術(shù)要求每名評(píng)價(jià)者對(duì)分配給其的主觀題作業(yè)給出表征作業(yè)質(zhì)量高低的排名反饋,系統(tǒng)則基于所有評(píng)價(jià)者給出的作業(yè)間的偏序排名信息估計(jì)每份作業(yè)的質(zhì)量[18].序數(shù)估計(jì)技術(shù)通常利用基于配對(duì)比較的方法[19,20]、貝葉斯生成法[21]和矩陣分解方法[22]來(lái)估計(jì)主觀題作業(yè)的質(zhì)量.序數(shù)估計(jì)的方法不要求同行評(píng)價(jià)者給出主觀題作業(yè)的具體分?jǐn)?shù),降低了評(píng)價(jià)者的評(píng)判難度.然而,該類技術(shù)存在兩大問(wèn)題[23]:首先,評(píng)價(jià)者由于評(píng)判經(jīng)驗(yàn)有限,很難對(duì)質(zhì)量相差不大的兩份主觀題作業(yè)給出它們的合理排序;其次,僅依賴作業(yè)間的偏序排名信息很難量化兩份作業(yè)之間的質(zhì)量差異.
與序數(shù)估計(jì)技術(shù)不同,基數(shù)估計(jì)技術(shù)要求每名評(píng)價(jià)者對(duì)分配給其的每份主觀題作業(yè)都給出一個(gè)量化分?jǐn)?shù),系統(tǒng)繼而基于不同評(píng)價(jià)者針對(duì)同一份作業(yè)給出的多個(gè)評(píng)價(jià)分?jǐn)?shù)估計(jì)作業(yè)的真實(shí)分?jǐn)?shù).主流的基數(shù)估計(jì)方式有兩種:加權(quán)求和的估計(jì)方式[23-26]和基于概率模型的估計(jì)方式[6-9].其中,加權(quán)求和的估計(jì)方式依據(jù)同行評(píng)價(jià)者的評(píng)分準(zhǔn)確性和信任度給他們賦以不同的權(quán)重,然后以同行評(píng)價(jià)者針對(duì)主觀題作業(yè)給出的評(píng)價(jià)分?jǐn)?shù)為輸入,通過(guò)加權(quán)求和的方法來(lái)估計(jì)該作業(yè)的真實(shí)分?jǐn)?shù).系統(tǒng)會(huì)根據(jù)同行評(píng)價(jià)者在新的互評(píng)活動(dòng)中的評(píng)分表現(xiàn)來(lái)迭代更新其權(quán)重信息.另一類方式是通過(guò)構(gòu)建概率模型來(lái)估計(jì)主觀題作業(yè)的真實(shí)分?jǐn)?shù).本文提出的基于認(rèn)知診斷的主觀題互評(píng)技術(shù)就屬于這類方法.這類方法的主要實(shí)現(xiàn)思路是將待估計(jì)的主觀題作業(yè)的真實(shí)分?jǐn)?shù)、同行評(píng)價(jià)者的可靠性及偏見(jiàn)都建模為滿足一定概率分布的隱含變量,然后基于能觀察到的同行評(píng)價(jià)者的評(píng)分信息來(lái)推演以上各個(gè)隱含變量的值.具體而言,Piech等人[6]首先提出了估計(jì)主觀題作業(yè)真實(shí)分?jǐn)?shù)的3個(gè)概率模型,即PG1(考慮了評(píng)價(jià)者當(dāng)前的可靠性和偏見(jiàn)),PG2(在PG1的基礎(chǔ)上考慮了評(píng)價(jià)者的歷史偏見(jiàn)),PG3(在PG1的基礎(chǔ)上將評(píng)價(jià)者當(dāng)前可靠性設(shè)定為評(píng)價(jià)者當(dāng)前作業(yè)真實(shí)分?jǐn)?shù)的線性函數(shù)的隨機(jī)變量).考慮到PG3模型所設(shè)置的評(píng)價(jià)者的可靠性是關(guān)于評(píng)價(jià)者真實(shí)分?jǐn)?shù)的線性函數(shù)這一假設(shè)過(guò)于嚴(yán)格,Mi等人將評(píng)價(jià)者的可靠性建模為滿足形狀參數(shù)為其真實(shí)分?jǐn)?shù)的伽馬分布或均值為其真實(shí)分?jǐn)?shù)的高斯分布,分別得到了PG4模型和PG5模型[7].研究表明一名同行評(píng)價(jià)者的評(píng)分偏見(jiàn)會(huì)受到其朋友的評(píng)分偏見(jiàn)的影響[27,28],為了提高對(duì)評(píng)價(jià)者偏見(jiàn)建模的準(zhǔn)確性,Chan等人利用學(xué)堂在線平臺(tái)上收集到的學(xué)生間的社交關(guān)系信息優(yōu)化對(duì)評(píng)價(jià)者偏見(jiàn)的建模,擴(kuò)展了PG1、PG4、PG5這3個(gè)概率模型[8].然而上述概率模型均認(rèn)為評(píng)價(jià)者針對(duì)不同主觀題作業(yè)給出的評(píng)價(jià)分?jǐn)?shù)之間是相互獨(dú)立的,存在局限性.因此,Wang等人在概率建模時(shí)引入了評(píng)價(jià)者的相對(duì)分?jǐn)?shù)信息(即同一個(gè)評(píng)價(jià)者對(duì)不同作業(yè)評(píng)分之間的差值),提出了PG6模型(構(gòu)建在PG4之上),PG7模型(構(gòu)建在PG5之上)[9].這兩個(gè)概率模型由于引入了評(píng)價(jià)者的相對(duì)分?jǐn)?shù)信息,降低了數(shù)據(jù)稀疏性給參數(shù)估計(jì)帶來(lái)的負(fù)面影響,從而有效提高了對(duì)主觀題真實(shí)分?jǐn)?shù)估計(jì)的準(zhǔn)確性.然而,PG6模型與PG7模型僅基于同行評(píng)價(jià)者針對(duì)當(dāng)前主觀題作業(yè)取得的真實(shí)分?jǐn)?shù)對(duì)其可靠性進(jìn)行建模.PG6模型與PG7模型是當(dāng)前最好的同行互評(píng)概率模型,實(shí)驗(yàn)部分將針對(duì)這兩種相關(guān)模型進(jìn)行比較分析.
綜上,基于概率模型的基數(shù)估計(jì)方法是目前實(shí)現(xiàn)主觀題評(píng)判的主流方法,近年來(lái)研究人員們提出了不少相關(guān)工作.然而,現(xiàn)有研究工作在概率建模時(shí)均未同時(shí)考慮影響同行評(píng)價(jià)者評(píng)分可靠性的兩大因素,即其在本次作業(yè)中的答題表現(xiàn)(對(duì)應(yīng)于本次作業(yè)取得的真實(shí)分?jǐn)?shù))以及其的歷史答題表現(xiàn)(對(duì)應(yīng)于基于歷史答題記錄診斷得到的該評(píng)價(jià)者對(duì)本次作業(yè)題的掌握程度),因而限制了它們對(duì)于主觀題真實(shí)分?jǐn)?shù)的估計(jì)準(zhǔn)確性.
認(rèn)知診斷以認(rèn)知心理學(xué)和心理計(jì)量學(xué)為理論基礎(chǔ),通過(guò)構(gòu)建具有認(rèn)知診斷功能的心理計(jì)量模型,能夠基于被試的歷史答題結(jié)果數(shù)據(jù)診斷其對(duì)不同技能(知識(shí)點(diǎn))的掌握程度,從而為教學(xué)提供重要依據(jù),是當(dāng)下教育評(píng)估領(lǐng)域的研究熱點(diǎn)[29-31].作為最流行的認(rèn)知診斷模型之一,DINA模型[16]在實(shí)現(xiàn)對(duì)被試知識(shí)點(diǎn)掌握程度的精準(zhǔn)建模的同時(shí)具有較好的解釋性,近年來(lái)受到廣泛的關(guān)注和研究[32,33].以同行評(píng)價(jià)者的歷史答題結(jié)果數(shù)據(jù)為診斷基礎(chǔ),本文正是基于DINA認(rèn)知診斷模型來(lái)量化評(píng)價(jià)者對(duì)主觀題作業(yè)的掌握程度.
給定被試集合C={c1,…,cM},習(xí)題集合E={e1,…,eN},則記錄被試和其答題結(jié)果之間關(guān)聯(lián)關(guān)系的響應(yīng)矩陣R可表示為R=[rmn]M×N,其中rmn=1表示被試cm答對(duì)了習(xí)題en(rmn=0則表示答錯(cuò)了該題).設(shè)習(xí)題集合E考察的知識(shí)點(diǎn)集合為KP={kp1,…,kpK},則記錄習(xí)題與其考察的知識(shí)點(diǎn)之間關(guān)聯(lián)關(guān)系的Q矩陣可表示為Q=[qnk]N×K,其中qnk=1表示習(xí)題en考察了知識(shí)點(diǎn)KPk(qnk=0則表示未考察該知識(shí)點(diǎn)).DINA模型將被試cm的知識(shí)狀態(tài)描述為一個(gè)向量αm={αm1,…,αmK},稱為被試cm的知識(shí)點(diǎn)掌握程度向量.其中,αmk表示被試cm對(duì)知識(shí)點(diǎn)kpk的掌握程度,且αmk∈[0,1].αmk=1說(shuō)明被試cm完全掌握了第k個(gè)知識(shí)點(diǎn);αmk=0則說(shuō)明被試cm完全沒(méi)有掌握第k個(gè)知識(shí)點(diǎn).DINA認(rèn)知診斷模型的項(xiàng)目反應(yīng)函數(shù)為:
p(rmn=1|αm)=guess1-δmnn(1-slipn)δmn
(1)
其中:
δmn=∏Kk=1αmkqnk
(2)
公式(2)中,δmn表示知識(shí)狀態(tài)為αm的被試cm對(duì)習(xí)題en的潛在正確作答概率,即可被定義為被試cm對(duì)習(xí)題en的掌握程度值;slipn=P(rmn=0 |δmn=1)表示被試掌握習(xí)題en考察的所有知識(shí)點(diǎn)但是答錯(cuò)該題的概率,被稱為失誤參數(shù);guessn=P(rmn=1|δmn=0)指被試沒(méi)有掌握習(xí)題en考察的任何一個(gè)知識(shí)點(diǎn)時(shí)但答對(duì)該題的概率,被稱為猜測(cè)參數(shù).DINA模型利用EM算法最大化公式(1)的邊緣似然值,從而得到被試cm的知識(shí)點(diǎn)掌握程度向量αm.
本文假設(shè)參與主觀題互評(píng)活動(dòng)的同行評(píng)價(jià)者在進(jìn)行主觀題作業(yè)評(píng)判之前完成了該主觀題考察的知識(shí)點(diǎn)所對(duì)應(yīng)的客觀題的習(xí)題練習(xí),因而作業(yè)互評(píng)測(cè)試系統(tǒng)能夠收集到他們對(duì)于這些知識(shí)點(diǎn)對(duì)應(yīng)的客觀習(xí)題的答題結(jié)果數(shù)據(jù).以某同行評(píng)價(jià)者的歷史答題結(jié)果數(shù)據(jù)和表征習(xí)題和主觀題作業(yè)知識(shí)點(diǎn)間考察關(guān)系的Q矩陣為輸入,利用DINA認(rèn)知診斷模型即可求得該同行評(píng)價(jià)者的知識(shí)點(diǎn)掌握程度向量α.然后基于α和主觀題作業(yè)所考察的知識(shí)點(diǎn)信息即可以利用公式(2)求得該評(píng)價(jià)者對(duì)于該主觀題的掌握程度值.
本節(jié)介紹了基于認(rèn)知診斷的主觀題同行互評(píng)技術(shù),具體涉及概率模型PG8與PG9.用U表示提交主觀題作業(yè)的被評(píng)價(jià)者集合,V表示參與互評(píng)的同行評(píng)價(jià)者集合.考慮到實(shí)際教學(xué)實(shí)踐中一般要求提交主觀題作業(yè)的被評(píng)價(jià)者都參與該作業(yè)的互評(píng)活動(dòng),因而有|U|=|V|.下面給出模型所涉及的重要概念的定義并說(shuō)明它們?cè)谀P椭械脑O(shè)定.
真實(shí)分?jǐn)?shù):假設(shè)每份被評(píng)價(jià)者提交的主觀題作業(yè)對(duì)應(yīng)一個(gè)真實(shí)分?jǐn)?shù),且用si表示被評(píng)價(jià)者ui∈U所提交作業(yè)的真實(shí)分?jǐn)?shù).兩個(gè)概率模型中均假設(shè)變量si的取值滿足高斯分布.
可靠性:可靠性(記為τv)表示同行評(píng)價(jià)者v∈V對(duì)主觀題作業(yè)的評(píng)分精度.評(píng)價(jià)者v的可靠性實(shí)際反映了v給出的主觀題作業(yè)的評(píng)價(jià)分?jǐn)?shù)基于其偏見(jiàn)bv修正后的分?jǐn)?shù)與主觀題作業(yè)真實(shí)分?jǐn)?shù)之間的接近程度.給定某主觀題作業(yè),本文首先假設(shè)評(píng)價(jià)者v對(duì)于該作業(yè)的評(píng)分可靠性τv滿足形狀參數(shù)為θ1δv+θ2sv的伽馬分布,得到PG8模型;其次假設(shè)τv滿足均值為θ1δv+θ2sv的高斯分布,得到PG9模型.其中,δv表示基于DINA認(rèn)知診斷模型得到的評(píng)價(jià)者v對(duì)該作業(yè)的掌握程度.可見(jiàn),PG8和PG9在對(duì)評(píng)價(jià)者可靠性建模時(shí)同時(shí)考慮了評(píng)價(jià)者的對(duì)當(dāng)前作業(yè)答題表現(xiàn)(對(duì)應(yīng)θ2sv部分)和評(píng)價(jià)者的歷史答題表現(xiàn)(對(duì)應(yīng)θ1τv部分).
偏見(jiàn):偏見(jiàn)(記為bv)是量化同行評(píng)價(jià)者v∈V評(píng)分時(shí)表現(xiàn)出其評(píng)分高于真實(shí)分?jǐn)?shù)或其評(píng)分低于真實(shí)分?jǐn)?shù)的常量.考慮到互評(píng)活動(dòng)中不同的同行評(píng)價(jià)者的偏見(jiàn)不同(有些給分偏高,有些則給分偏低),因此兩個(gè)概率模型均認(rèn)為所有評(píng)價(jià)者的偏見(jiàn)值的均值為0,即假設(shè)同行評(píng)價(jià)者v的偏見(jiàn)bv服從均值為0且方差為1/η0的高斯分布.
互評(píng)分?jǐn)?shù):互評(píng)分?jǐn)?shù)(記為zvi)表示同行評(píng)價(jià)者v∈V針對(duì)被評(píng)價(jià)者ui提交的主觀題作業(yè)給出的評(píng)價(jià)分?jǐn)?shù).設(shè)所有評(píng)價(jià)者的互評(píng)分?jǐn)?shù)集合為Z={zvi|ui∈U,v∈V}.兩個(gè)概率模型均假設(shè)變量zvi服從以高斯分布,且高斯分布的均值等于作業(yè)的真實(shí)分?jǐn)?shù)si與評(píng)價(jià)者v的評(píng)分偏見(jiàn)bv之和,方差反比于評(píng)價(jià)者v的可靠性τv.在PG9模型中引入了超參數(shù)λ用于調(diào)節(jié)高斯分布的方差取值.
相對(duì)分?jǐn)?shù):相對(duì)分?jǐn)?shù)(記為dvij)表示同行評(píng)價(jià)者v∈V對(duì)被評(píng)價(jià)者ui∈U和uj∈U的主觀題作業(yè)給出的互評(píng)分?jǐn)?shù)間的差值.記面向所有評(píng)價(jià)者的相對(duì)分?jǐn)?shù)集合為D={dvij|ui,uj∈U,v∈V}.相對(duì)分?jǐn)?shù)的引入有利于提高對(duì)主觀題作業(yè)真實(shí)分?jǐn)?shù)估計(jì)的精度.PG8模型中,相對(duì)分?jǐn)?shù)dvij被設(shè)定為滿足均值為兩份被v評(píng)價(jià)的主觀題作業(yè)的真實(shí)分?jǐn)?shù)之差(即si-sj)、且方差為2/τv的高斯分布.在PG9模型中同樣引入了超參數(shù)λ用于調(diào)節(jié)高斯分布的方差取值.
基于以上符號(hào)表征,本文的研究問(wèn)題為:已知所有同行評(píng)價(jià)者的互評(píng)分?jǐn)?shù)集合Z,面向所有評(píng)價(jià)者的相對(duì)分?jǐn)?shù)集合D,所有評(píng)價(jià)者的知識(shí)點(diǎn)掌握程度向量α構(gòu)成的矩陣M|V|×|KP|,通過(guò)構(gòu)建概率模型PG8和PG9推斷出每個(gè)同行評(píng)價(jià)者(即?v∈V)的可靠性τv、偏見(jiàn)bv以及每個(gè)被評(píng)價(jià)者(即?ui∈U)提交的主觀題作業(yè)的真實(shí)分?jǐn)?shù)si,可以形式化表示為P({bv|v∈V},{τv|v∈V},{si|ui∈U}Z,D,M).表1總結(jié)了模型涉及的主要符號(hào)和相關(guān)解釋.
表1 主要符號(hào)及其含義Table 1 Main notations and their descriptions
圖1展示了PG8和PG9的概率圖模型.可見(jiàn),同行評(píng)價(jià)者v針對(duì)被評(píng)價(jià)者ui的主觀題作業(yè)給出的互評(píng)分?jǐn)?shù)zvi、v針對(duì)被評(píng)價(jià)者ui和被評(píng)價(jià)者uj給出的評(píng)價(jià)分?jǐn)?shù)之間的相對(duì)分?jǐn)?shù)dvij、v的潛在正確作答概率δv是概率圖模型中的觀測(cè)變量.而ui的主觀題作業(yè)的真實(shí)分?jǐn)?shù)si、v的偏見(jiàn)bv、v的可靠性τv則是概率模型估計(jì)的隱含變量,且這些隱含變量的先驗(yàn)分布由超參數(shù)μ0、γ0、θ1、θ2、η0和β0所確定.由圖可知,這些隱含變量彼此間是相聯(lián)系的.因而,為了估計(jì)這些隱含變量的值,基于每個(gè)隱含變量的近似后驗(yàn)分布信息,并利用Gibbs采樣技術(shù)[34]對(duì)每個(gè)隱含變量的取值進(jìn)行采樣.具體而言,Gibbs采樣技術(shù):首先基于每個(gè)隱含變量的近似后驗(yàn)分布信息運(yùn)行若干次Gibbs采樣以生成該變量的若干個(gè)樣本,得到該變量的樣本集;其后,當(dāng)隱含變量樣本的分布逐漸趨于收斂和穩(wěn)定時(shí),基于隱含變量的樣本集推斷變量的真實(shí)值.例如,假定基于Gibbs采樣技術(shù)所得到的被評(píng)價(jià)者ui的主觀題作業(yè)真實(shí)分?jǐn)?shù)si的樣本集為{s1i,s2i,…,sIGi}且IG為采樣的次數(shù),則可基于樣本集中樣本的平均值來(lái)估計(jì)si.考慮到Gibbs采樣過(guò)程存在老化階段(Burn-in階段),這時(shí)得到的隱含變量的樣本不準(zhǔn)確,因而基于Gibbs采樣技術(shù)生成隱含變量的樣本集時(shí)需要丟棄在老化階段生成的樣本(一般為樣本集中的前n個(gè)樣本).
圖1 PG8和PG9的概率圖模型Fig.1 Probabilistic graphical model for PG8 and PG9
PG8模型擴(kuò)展了現(xiàn)有的PG6模型[9],其的生成過(guò)程為:
·對(duì)于第i個(gè)被評(píng)價(jià)者ui提交的每份主觀題作業(yè)
→定義隱含變量si(即ui的真實(shí)分?jǐn)?shù))si~N(μ0,1/γ0)
·對(duì)于每個(gè)同行評(píng)價(jià)者v
→定義隱含變量τv(即v的可靠性)τv~Γ(θ1δv+θ2sv,1/η0)
→定義隱含變量bv(即v的偏見(jiàn))bv~N(0,1/η0)
·對(duì)于每個(gè)互評(píng)分?jǐn)?shù)zvi
→定義可觀測(cè)變量zvi~N(si+bv,1/τv)
·對(duì)于每個(gè)相對(duì)分?jǐn)?shù)dvij
→定義可觀測(cè)變量dvij~N(si-sj,2/τv)
由于概率模型PG8中的隱含變量si沒(méi)有閉式解(close-form solution),因而采用近似離散推斷的策略得到該隱含變量的近似后驗(yàn)分布.概率模型PG8中隱含變量的近似后驗(yàn)分布的推斷結(jié)果如下:
s∝β0θ2siτi(θ2si-1)Γ(θ1δi+θ2si)×exp(R(si-YR)2)
其中R=γ0+∑v∈Vuiτv+∑v∈Vui∑uj∈Uvτv2
(3)
Y=μ0γ0+τv(∑v∈Vui(zvi-bv)+∑v∈Vui∑uj∈Uv(dvij+sj)2)
τ~Γ(θ1δv+θ2sv+|Uv|22,β0+
∑vi∈Uv(zvi-si-bv)2+∑ui,uj∈Uv12(dvij-si+sj)2)
(4)
b~N∑ui∈Uvτv(zvi-si)η0+|Uv|τv,1η0+|Uv|τv
(5)
PG8模型與PG9模型的區(qū)別在于PG8模型假同行設(shè)評(píng)價(jià)者的可靠性滿足伽馬分布而PG9模型則假設(shè)同行設(shè)評(píng)價(jià)者的可靠性滿足高斯分布.PG9模型擴(kuò)展了現(xiàn)有的PG7模型[9],其的生成過(guò)程為:
· 對(duì)于第i個(gè)被評(píng)價(jià)者ui提交的每份主觀題作業(yè)
→定義隱含變量si(即ui的真實(shí)分?jǐn)?shù))si~N(μ0,1/γ0)
· 對(duì)于每個(gè)同行評(píng)價(jià)者v
→定義隱含變量τv(即v的可靠性)τv~N(θ1δv+θ2sv,1/η0)
→定義隱含變量bv(即v的偏見(jiàn))bv~N(0,1/η0)
· 對(duì)于每個(gè)互評(píng)分?jǐn)?shù)zvi
→定義可觀測(cè)變量zvi~N(si+bv,λ/τv)
· 對(duì)于每個(gè)相對(duì)分?jǐn)?shù)dvij
→定義可觀測(cè)變量dvij~N(si-sj,2λ/τv)
由于PG9模型中的隱含變量si和τv沒(méi)有閉式解,因而采用近似離散推斷的策略得到該隱含變量的近似后驗(yàn)分布.概率模型PG9中隱含變量的近似后驗(yàn)分布的推斷結(jié)果如下:
s∝β0θ2siτi(θ2si-1)Γ(θ1δi+θ2si)×exp(R(si-YR)2)
其中R=γ0+∑v∈Vuiτvλ+∑v∈Vuiτv*(|Uv|-1)2λ
(6)
Y=γ0μ0+τvλ∑v∈Vui(zvi-bv)+∑v∈Vui∑uj∈Uv(dvij+sj)2
τ∝τv|Uv|22×exp-β02τv-θ1δv+θ2sv+
∑ui∈Uv(zvi-si-bv)2λβ0+∑ui,uj∈Uv(dvij-si+sj)22λβ02
(7)
b~N∑ui∈Uvτvλ(zvi-si)η0+|Uv|τvλ,1η0+|Uv|τvλ
(8)
利用PG8模型和PG9模型即可估計(jì)一份主觀題作業(yè)的真實(shí)分?jǐn)?shù),具體分為以下4個(gè)步驟:
步驟1.認(rèn)知診斷.以所有同行評(píng)價(jià)者的歷史答題記錄為輸入,利用DINA 模型診斷得到記錄了他們對(duì)所有知識(shí)點(diǎn)的掌握程度信息的矩陣M.
步驟2.推理.由于概率模型中的各個(gè)變量是相互聯(lián)系的,因而基于模型中觀測(cè)變量的觀測(cè)值(包括同行評(píng)價(jià)者v的潛在正確作答概率(v、互評(píng)分?jǐn)?shù)zvi和相對(duì)分?jǐn)?shù)dvij)推斷模型中隱含變量(包括同行評(píng)價(jià)者的偏見(jiàn)bv、可靠性τv和被評(píng)價(jià)者ui的主觀題作業(yè)的真實(shí)分?jǐn)?shù)si)的后驗(yàn)概率分布是一個(gè)循環(huán)推理的過(guò)程,最終推理得到PG8模型中各個(gè)隱含變量的近似后驗(yàn)分布(循環(huán)推理得到的近似后驗(yàn)概率分布如公式(3)-公式(5)所示)以及PG9模型中各個(gè)隱含變量的近似后驗(yàn)分布(循環(huán)推理得到的近似后驗(yàn)概率分布如公式(6)-公式(8)所示).
步驟3.采樣.以互評(píng)分?jǐn)?shù)集合、相對(duì)分?jǐn)?shù)集合和步驟一得到的知識(shí)點(diǎn)的掌握程度矩陣M為輸入,以Gibbs采樣技術(shù)為采樣框架并利用步驟2得到的各個(gè)隱含變量的近似后驗(yàn)分布得到概率模型中每個(gè)隱含變量的多個(gè)樣本值.
步驟4.整合.對(duì)步驟3得到的概率模型中的每個(gè)隱含變量的多個(gè)樣本值進(jìn)行整合,進(jìn)而得到每個(gè)隱含變量(包括主觀題作業(yè)的真實(shí)分?jǐn)?shù))的估計(jì)值.
基于真實(shí)采集的主觀題同行互評(píng)數(shù)據(jù)集,本節(jié)對(duì)本文提出的基于認(rèn)知診斷的主觀題同行互評(píng)技術(shù)PG8、PG9和相關(guān)的主觀題同行互評(píng)技術(shù)進(jìn)行了實(shí)驗(yàn)比較.
為了驗(yàn)證本文提出的基于認(rèn)知診斷的同行互評(píng)技術(shù)對(duì)于主觀題評(píng)判的有效性,基于自主研發(fā)的“會(huì)了嗎”在線教學(xué)服務(wù)系統(tǒng)[37]收集計(jì)算機(jī)專業(yè)核心主干課“數(shù)據(jù)庫(kù)原理”中“關(guān)系數(shù)據(jù)庫(kù)規(guī)范化理論”這一節(jié)的真實(shí)教學(xué)數(shù)據(jù),得到涉及關(guān)系數(shù)據(jù)庫(kù)規(guī)范化理論相關(guān)知識(shí)點(diǎn)的主觀題同行互評(píng)數(shù)據(jù)集以及客觀題測(cè)試結(jié)果數(shù)據(jù)集.
5.1.1 主觀題同行互評(píng)數(shù)據(jù)集
在“會(huì)了嗎”在線教學(xué)服務(wù)系統(tǒng)中實(shí)現(xiàn)了主觀題作業(yè)的互評(píng)功能.通過(guò)給“數(shù)據(jù)庫(kù)原理”課程的5個(gè)本科平行教學(xué)班的284名學(xué)生布置考察了關(guān)系數(shù)據(jù)庫(kù)規(guī)范化理論的3次主觀題作業(yè)并組織他們進(jìn)行同行互評(píng)從而得到主觀題同行互評(píng)數(shù)據(jù)集.每次主觀題作業(yè)僅包含一道主觀題,且布置的3次主觀題作業(yè)涉及考察關(guān)系數(shù)據(jù)庫(kù)規(guī)范化理論的11個(gè)知識(shí)點(diǎn),這些知識(shí)點(diǎn)和它們的編號(hào)分別為:1)一范式;2)二范式;3)三范式;4)BC范式;5)主屬性;6)傳遞函數(shù)依賴;7)決定因素;8)函數(shù)依賴;9)碼;10)部分函數(shù)依賴;11)非主屬性.這些知識(shí)點(diǎn)是數(shù)據(jù)庫(kù)原理這門(mén)課的教學(xué)難點(diǎn),而主觀題形式的作業(yè)比客觀題形式的作業(yè)能更好地幫助學(xué)生鞏固對(duì)這些知識(shí)點(diǎn)的學(xué)習(xí).圖2給出了記錄了3次主觀題作業(yè)所考察知識(shí)點(diǎn)信息的Q矩陣.
圖2 主觀題作業(yè)的Q矩陣Fig.2 Q matrix of subjective questions
在主觀題作業(yè)的互評(píng)教學(xué)活動(dòng)中,每名學(xué)生既是提交主觀題作業(yè)的提交者(即被評(píng)價(jià)者)又是評(píng)判同行提交的主觀題作業(yè)的評(píng)價(jià)者.每個(gè)評(píng)價(jià)者都會(huì)收到系統(tǒng)隨機(jī)給其派發(fā)的3份主觀題作業(yè),并要求其遵循教師制定的評(píng)分指導(dǎo)規(guī)則完成對(duì)這3份主觀題作業(yè)的判分.需要說(shuō)明的是,為了保證互評(píng)的質(zhì)量,互評(píng)活動(dòng)采用雙盲的方式進(jìn)行.為了評(píng)估不同主觀題互評(píng)技術(shù)對(duì)于主觀題作業(yè)真實(shí)估計(jì)的準(zhǔn)確性,邀請(qǐng)擁有6年以上“數(shù)據(jù)庫(kù)原理”課程教學(xué)經(jīng)驗(yàn)的教師對(duì)每份學(xué)生提交的主觀題作業(yè)進(jìn)行評(píng)價(jià)打分,并以教師的評(píng)分作為該主觀題作業(yè)的真實(shí)分?jǐn)?shù).表2給出了從3次主觀題作業(yè)的互評(píng)教學(xué)活動(dòng)收集到的主觀題同行互評(píng)數(shù)據(jù)集的相關(guān)統(tǒng)計(jì)信息.
表2 主觀題同行互評(píng)數(shù)據(jù)集的統(tǒng)計(jì)信息Table 2 Statistics of our subjective question dataset for peer grading
5.1.2 歷史客觀題測(cè)試結(jié)果數(shù)據(jù)集
為了能夠基于DINA模型診斷學(xué)生對(duì)主觀題的掌握程度,要求學(xué)生們?cè)凇皶?huì)了嗎”在線教學(xué)服務(wù)系統(tǒng)上完成包含40道客觀題的在線測(cè)試.這些客觀題覆蓋了3次主觀題作業(yè)考察的關(guān)系數(shù)據(jù)庫(kù)規(guī)范化理論的11個(gè)知識(shí)點(diǎn).基于在線測(cè)試活動(dòng)得到的每名學(xué)生的客觀題測(cè)試結(jié)果數(shù)據(jù)和記錄了每道客觀題考察的知識(shí)點(diǎn)信息的Q矩陣(如圖3所示),從而可基于DINA模型診斷每名學(xué)生對(duì)11個(gè)知識(shí)點(diǎn)的掌握程度,進(jìn)而可計(jì)算每名學(xué)生對(duì)每道客觀題作業(yè)的掌握程度.
圖3 每道客觀題考察的知識(shí)點(diǎn)信息的Q矩陣Fig.3 Q matrix of objective questions
為了評(píng)估本文提出的PG8模型與PG9模型的有效性,將它們與其它主觀題同行互評(píng)技術(shù)進(jìn)行比較,具體包括:
·中位數(shù):即用一份主觀題作業(yè)所獲得的所有評(píng)價(jià)分?jǐn)?shù)的中位數(shù)估計(jì)該作業(yè)的真實(shí)分?jǐn)?shù),這也是當(dāng)今大多數(shù)提供主觀題互評(píng)功能的MOOC平臺(tái)(例如Coursera和中國(guó)大學(xué)MOOC)采用的估計(jì)主觀題作業(yè)真實(shí)分?jǐn)?shù)的方法.
·均值:即用一份主觀題作業(yè)所獲得的所有評(píng)價(jià)分?jǐn)?shù)的均值估計(jì)該作業(yè)的真實(shí)分?jǐn)?shù).
·PG6和PG7[9]:PG6和PG7均是解決主觀題同行互評(píng)問(wèn)題的現(xiàn)有最先進(jìn)概率模型.本文提出的PG8與PG9模型分別是在PG6和PG7模型的基礎(chǔ)上對(duì)評(píng)價(jià)者可靠性進(jìn)行了建模優(yōu)化.具體而言,PG6和PG7模型在評(píng)價(jià)者可靠性時(shí)僅考慮了其在當(dāng)前主觀題作業(yè)中的答題表現(xiàn),而PG8與PG9模型在對(duì)評(píng)價(jià)者的可靠性進(jìn)行建模時(shí)不但考慮了其在當(dāng)前作業(yè)中的答題表現(xiàn)還考慮了基于其歷史答題表現(xiàn)診斷得到的評(píng)價(jià)者對(duì)待評(píng)價(jià)作業(yè)的掌握程度信息,以期提高概率模型對(duì)主觀題作業(yè)真實(shí)分?jǐn)?shù)估計(jì)的精確性.需要說(shuō)明的是:1)PG8與PG6相對(duì)應(yīng),均假設(shè)同行評(píng)價(jià)者互評(píng)可靠性取值的先驗(yàn)分布為伽馬分布;2)PG9與PG7相對(duì)應(yīng),均假設(shè)同行評(píng)價(jià)者互評(píng)可靠性取值的先驗(yàn)分布為高斯分布.
本文提出的主觀題同行互評(píng)技術(shù)和相關(guān)主觀題同行互評(píng)技術(shù)PG6和PG7均是利用概率模型對(duì)同行評(píng)價(jià)者的互評(píng)可靠性和互評(píng)偏見(jiàn)進(jìn)行建模,因而都使用了一些超參數(shù).為這些超參數(shù)設(shè)置合理的值對(duì)準(zhǔn)確估計(jì)主觀題作業(yè)的真實(shí)分?jǐn)?shù)非常重要.對(duì)于概率模型中的真實(shí)分?jǐn)?shù)變量si服從的高斯分布的超參數(shù),即均值μ0和方差1/γ0,分別設(shè)置為所有主觀題作業(yè)互評(píng)分?jǐn)?shù)的均值和方差.根據(jù)文獻(xiàn)[7,9]的參數(shù)設(shè)置,本文的具體調(diào)整策略為:對(duì)于PG8和PG6,在其它參數(shù)取值固定的前提下,以50為步長(zhǎng)嘗試超參數(shù)β0在[150,400]范圍中的不同取值,然后以該技術(shù)所得到的對(duì)真實(shí)分?jǐn)?shù)最準(zhǔn)確的估計(jì)值為該技術(shù)的最終估計(jì)值;對(duì)于PG9和PG7,在其它參數(shù)取值固定的前提下,以0.2為步長(zhǎng)嘗試超參數(shù)λ在[0.6,1.6]范圍中不同取值,然后以該技術(shù)所得到的對(duì)真實(shí)分?jǐn)?shù)最準(zhǔn)確的估計(jì)值為該技術(shù)的最終估計(jì)值.由于基于概率模型的同行互評(píng)技術(shù)在估計(jì)主觀題作業(yè)真實(shí)分?jǐn)?shù)時(shí)具有一定的隨機(jī)性,因此對(duì)于超參數(shù)集合的每種設(shè)定,每種技術(shù)都執(zhí)行10次真實(shí)分?jǐn)?shù)的推斷算法.對(duì)于基于概率模型的同行互評(píng)技術(shù)中每個(gè)需要估計(jì)的隱含變量,推斷算法均迭代運(yùn)行600次Gibbs采樣獲取隱含變量的樣本值,并設(shè)定前60次采樣得到的樣本為老化階段的樣本,這些老化階段的樣本將不參與對(duì)真實(shí)分?jǐn)?shù)的估計(jì)運(yùn)算.
所有參與比較的主觀題同行互評(píng)技術(shù)均基于Python(v3.7)語(yǔ)言實(shí)現(xiàn),并在配備了i5-8500 3GHZ CPU、8GB內(nèi)存、1TB硬盤(pán),運(yùn)行了64位Windows 10操作系統(tǒng)的服務(wù)器上進(jìn)行統(tǒng)一實(shí)驗(yàn)測(cè)試.
5.4.1 同行互評(píng)技術(shù)的估計(jì)準(zhǔn)確性
采用不同技術(shù)給出的對(duì)主觀題真實(shí)分?jǐn)?shù)的估計(jì)值和主觀題作業(yè)真實(shí)分?jǐn)?shù)之間的均方根誤差(即RMSE)作為不同同行互評(píng)技術(shù)有效性的評(píng)估指標(biāo).RMSE被廣泛應(yīng)用于評(píng)估同行互評(píng)技術(shù)有效性[6,8].表3展示了不同主觀題同行互評(píng)技術(shù)估計(jì)主觀題作業(yè)真實(shí)分?jǐn)?shù)的準(zhǔn)確性.需要說(shuō)明的是,表中的RMSE表示互評(píng)技術(shù)10次迭代得到的RMSE的平均值,而STD表示RMSE的標(biāo)準(zhǔn)差.由表3可知,本文提出的基于認(rèn)知診斷的同行互評(píng)技術(shù)PG8和PG9在3份主觀題作業(yè)中的估計(jì)準(zhǔn)確率均高于比其他技術(shù).由于同時(shí)考慮了同行評(píng)價(jià)者在本次作業(yè)中的答題表現(xiàn)以及評(píng)價(jià)者的歷史答題表現(xiàn)對(duì)其評(píng)分可靠性的影響,PG8和PG9技術(shù)對(duì)3次作業(yè)真實(shí)分?jǐn)?shù)的平均估計(jì)誤差比PG6和PG7技術(shù)平均降低了42%.實(shí)驗(yàn)結(jié)果證實(shí)了結(jié)合本次作業(yè)中的答題表現(xiàn)以及評(píng)價(jià)者的歷史答題表現(xiàn)建模可靠性對(duì)于基數(shù)同行互評(píng)估計(jì)的有效性.
表3 估計(jì)真實(shí)分?jǐn)?shù)的準(zhǔn)確性Table 3 Error of true score estimation
5.4.2 同行互評(píng)技術(shù)的最大估計(jì)誤差
通過(guò)衡量主觀題作業(yè)真實(shí)分?jǐn)?shù)估計(jì)值與教師批改分?jǐn)?shù)之間的最大評(píng)分偏差來(lái)分析同行互評(píng)技術(shù)的評(píng)估表現(xiàn),如表4所示.從表中可看出,均值技術(shù)與中位數(shù)技術(shù)的最大評(píng)分偏差是最大的,而基于認(rèn)知診斷的同行互評(píng)技術(shù)PG8和PG9在3份主觀題作業(yè)中的最大評(píng)分偏差是最小的,說(shuō)明同行評(píng)價(jià)者對(duì)主觀題作業(yè)考察的知識(shí)點(diǎn)的掌握程度信息使概率模型能更有效地保障對(duì)每個(gè)學(xué)生的主觀題作業(yè)真實(shí)分?jǐn)?shù)的估計(jì)準(zhǔn)確性.同時(shí)還可觀察到,PG8和PG9技術(shù)對(duì)3次作業(yè)真實(shí)分?jǐn)?shù)估計(jì)的最大評(píng)分誤差均低于PG6和PG7技術(shù),進(jìn)一步表明了同時(shí)考慮影響可靠性的兩方面因素(即同行評(píng)價(jià)者在本次作業(yè)中的答題表現(xiàn)以及評(píng)價(jià)者的歷史答題表現(xiàn))能夠提升對(duì)主觀題作業(yè)真實(shí)分?jǐn)?shù)估計(jì)的精確性.
5.4.3 同行互評(píng)技術(shù)的超參數(shù)敏感性
表4 真實(shí)分?jǐn)?shù)估計(jì)值與真實(shí)分?jǐn)?shù)間的最大評(píng)分偏差Table 4 Maximum deviation between an estimated grade and ground truth for all students
為了表明PG8技術(shù)中的超參數(shù)β0和PG9技術(shù)中的超參數(shù)λ對(duì)主觀題作業(yè)真實(shí)分?jǐn)?shù)估計(jì)的影響,本文采取固定其他超參數(shù)值的策略并對(duì)這兩個(gè)超參數(shù)的值進(jìn)行了實(shí)驗(yàn)分析.在實(shí)驗(yàn)中為了測(cè)試模型的敏感性,將PG8中的超參數(shù)β0設(shè)置在[150,400]范圍內(nèi)以50為步長(zhǎng)變化,實(shí)驗(yàn)結(jié)果如圖4;將PG9中的超參數(shù)λ設(shè)置在[0.6,1.6]范圍內(nèi)以0.2為步長(zhǎng)變化,實(shí)驗(yàn)結(jié)果如圖5所示.圖4和圖5的結(jié)果表明:在合理的取值范圍內(nèi),這兩種技術(shù)對(duì)超參數(shù)值具有魯棒性,它們對(duì)主觀題作業(yè)真實(shí)分?jǐn)?shù)的估計(jì)誤差都控制在可接受的范圍.
圖4 PG8技術(shù)的超參數(shù)敏感性分析Fig.4 Sensitivity analysis of hyper-parameter for PG8
圖5 PG9技術(shù)的超參數(shù)敏感性分析Fig.5 Sensitivity analysis of hyper-parameter for PG9
同行互評(píng)是當(dāng)前大型開(kāi)放式網(wǎng)絡(luò)課程(MOOCs)平臺(tái)用以解決大規(guī)模主觀題作業(yè)評(píng)價(jià)的主流方式.同行評(píng)價(jià)者的評(píng)分偏見(jiàn)和評(píng)分可靠性是未知的,因此基于多個(gè)同行評(píng)價(jià)者給出的評(píng)價(jià)分?jǐn)?shù)估計(jì)主觀題作業(yè)的真實(shí)分?jǐn)?shù)是一個(gè)具有挑戰(zhàn)的問(wèn)題.現(xiàn)有同行互評(píng)技術(shù)利用概率模型對(duì)同行評(píng)價(jià)者的評(píng)分可靠性和評(píng)分偏見(jiàn)進(jìn)行建模,有效提高了估計(jì)主觀題作業(yè)的真實(shí)分?jǐn)?shù)的準(zhǔn)確性.然而,這些技術(shù)均未同時(shí)考慮同行評(píng)價(jià)者在本次作業(yè)中的答題表現(xiàn)以及評(píng)價(jià)者的歷史答題表現(xiàn)對(duì)其評(píng)分可靠性的影響.鑒于此,本文在現(xiàn)有概率模型的基礎(chǔ)上提出了基于認(rèn)知診斷的主觀題同行互評(píng)技術(shù),包含PG8和PG9兩個(gè)概率模型.PG8和PG9利用教育評(píng)估領(lǐng)域流行的認(rèn)知診斷DINA模型診斷得到同行評(píng)價(jià)者對(duì)主觀題的掌握程度信息并結(jié)合評(píng)價(jià)者在待評(píng)價(jià)作業(yè)中的答題表現(xiàn)對(duì)評(píng)價(jià)者評(píng)分可靠性進(jìn)行建模,實(shí)驗(yàn)證實(shí)PG8和PG9比相關(guān)最好的同行技術(shù)在提升主觀題作業(yè)真實(shí)分?jǐn)?shù)估計(jì)準(zhǔn)確性方面更有優(yōu)勢(shì).