李國輝,耿 輝,馮 靜,楊文堯
(國防科學(xué)技術(shù)大學(xué) 1.信息系統(tǒng)與管理學(xué)院;2.訓(xùn)練部,湖南 長沙 410073)
?
課堂教學(xué)的專家評價與學(xué)生評價一致性分析
李國輝1,耿輝2,馮靜1,楊文堯1
(國防科學(xué)技術(shù)大學(xué)1.信息系統(tǒng)與管理學(xué)院;2.訓(xùn)練部,湖南長沙410073)
結(jié)合專家評價和學(xué)生評價的綜合評價是課堂教學(xué)評價中的一種重要方法。這里的問題是專家評價和學(xué)生評價是否一致呢?本文以某高校抽取的評優(yōu)教師的專家和學(xué)生評分作為樣本,采用描述性統(tǒng)計法、圖形分析法和Kappa統(tǒng)計量法,分析二者的一致性程度。
課堂教學(xué)評價;學(xué)生評教;專家評教;一致性分析
在人才培養(yǎng)的質(zhì)量工程中,課堂教學(xué)的評價工作是一個重要環(huán)節(jié)。教學(xué)評價是教學(xué)質(zhì)量監(jiān)控體系中的核心。
早在上世紀(jì)20年代的美國,一些高校中就開展了評教工作。到上世紀(jì)80年代,學(xué)生評教在一些國家興起,成為高校教學(xué)評估中日常管理的一部分[1]。隨著評價標(biāo)準(zhǔn)的不斷規(guī)范和完善,美國許多州的高校建立起了一套以提高教師的自我參與、自我督促和自我完善能力為目的的評估體系。
上世紀(jì)80年代中期,我國開始開展課堂教學(xué)的評價工作。此時學(xué)生評教也才逐步開展。經(jīng)過30多年的時間,我國高校的教學(xué)評價體系已基本建立起來[2]。其中專家評價與學(xué)生評價相結(jié)合的方法是目前一種重要的評價方法[3]。有學(xué)者[4]給出了基于非參數(shù)方法對課堂教學(xué)的評價一致性問題進(jìn)行建模,而本文將主要利用實際的評價數(shù)據(jù)進(jìn)行統(tǒng)計分析,研究專家評價與學(xué)生評價相結(jié)合的課堂教學(xué)評價問題。專家評價是以教學(xué)經(jīng)驗豐富的教授作為主體組成教學(xué)督導(dǎo)組,通過隨機聽課的方式來進(jìn)行評教,而學(xué)生評價是全體學(xué)生們通過網(wǎng)上的教學(xué)評價系統(tǒng)來對授課教師進(jìn)行評價。最后綜合專家評價與學(xué)生評價的得分作為教師課堂教學(xué)的最后評價。
對于課堂評價中的專家評價與學(xué)生評價,哪個更客觀一些呢?學(xué)生是學(xué)習(xí)的主體,全程接受教師的授課,他們對教師的評價應(yīng)該更全面。但是專家評教是一種專業(yè)評教,在評價教師的課堂教學(xué)形式、教學(xué)內(nèi)容設(shè)計和講授內(nèi)容組織和表述準(zhǔn)確性方面,評價更為客觀。而學(xué)生評教可能會帶有任務(wù)性和隨意性。本文不討論專家評價與學(xué)生評價哪個更為合理,而是用采集的評價數(shù)據(jù)來分析兩者的一致性問題,用數(shù)據(jù)來說話。本文通過描述性統(tǒng)計法、圖形分析法和Kappa統(tǒng)計量法對專家評價與學(xué)生評價的一致性程度進(jìn)行分析,給出一些建議從而進(jìn)一步促進(jìn)課堂教學(xué)評價工作的改進(jìn)。
描述性統(tǒng)計分析是指對收集到的數(shù)據(jù)進(jìn)行位置特征、離散特征、形態(tài)特征及圖形的分析,確定數(shù)據(jù)的統(tǒng)計分布情況。
1.偏倚程度和扁平程度。數(shù)據(jù)的偏倚度分為如下三種情況:如果數(shù)據(jù)的頻數(shù)分布曲線以平均數(shù)為中心,左右兩邊形狀對稱,那么稱為對稱分布;如果頻數(shù)分布曲線的峰部偏向左邊,尾部拖向右邊,稱為右偏分布或正偏分布;如果頻數(shù)分布曲線的峰部偏向右邊,尾部拖向左邊,稱為左偏分布或負(fù)偏分布。在數(shù)據(jù)的扁平程度度量方面,如果分布曲線的峰態(tài)值為3時,曲線呈正態(tài)分布曲線;如果分布曲線的峰態(tài)值大于3時,曲線呈尖頂曲線;如果分布曲線的峰態(tài)值小于3時,曲線呈平頂曲線。
2.集中趨勢和離散趨勢。集中趨勢由數(shù)據(jù)的位置特征所反映,離散趨勢由數(shù)據(jù)的離散特征所反映。數(shù)據(jù)的離散程度越大,位置特征對數(shù)據(jù)的代表性也越差;數(shù)據(jù)的離散程度越小,位置特征對數(shù)據(jù)的代表性也就越好。集中趨勢的度量參數(shù)包含平均值、中位數(shù)和眾數(shù)。離散趨勢的度量參數(shù)包含極差、四分位值、方差或標(biāo)準(zhǔn)差。
3.相關(guān)關(guān)系與散點圖。兩個變量之間的相關(guān)關(guān)系可以通過散點圖來直觀地表示出來。它將兩個變量形成的成對數(shù)據(jù)用點的形式標(biāo)在平面直角坐標(biāo)系上。對這些點形成的散布進(jìn)行分析,就可以看出變量xi和yi(i=1,2,…,n)之間的相關(guān)關(guān)系,用r表示。
(1)
根據(jù)實際數(shù)據(jù)計算出的r,其取值一般分布在-1與+1之間。那么r的絕對值越接近1,表示兩個變量之間的相關(guān)程度越高;r的絕對值越小,兩者的相關(guān)程度越低。
散點圖是用來描述兩種變量之間相關(guān)性的直觀圖。在直角坐標(biāo)系中,自變量為橫坐標(biāo),因變量為縱坐標(biāo)。坐標(biāo)系中的每一個點代表一組數(shù)據(jù)。多組數(shù)據(jù)由多個點表示,此時這些點是根據(jù)兩種變量之間的相關(guān)關(guān)系散布在坐標(biāo)系中。我們可以根據(jù)散點圖的分布情況來直觀地判斷出兩個變量之間的相關(guān)性強度。
Kappa統(tǒng)計量是用來比較兩個或多個觀測者對同一事物,或者同一觀測者對同一事物的兩次或多次觀測結(jié)果是否一致的統(tǒng)計指標(biāo)量,用于度量判別類結(jié)果的一致性。以兩個觀察者為例,如圖1所示。設(shè)Po為兩個觀察者判斷一致的概率,有:
(2)
其中,N為總的樣例數(shù);TP為真正例,TN為真反例,是兩者觀察一致的樣本數(shù)量;FP為偽正例,F(xiàn)N是偽反例,是兩者觀察不一致的樣本數(shù)量。P1和P2分別是觀察者1和觀察者2判斷為真的樣本總數(shù),N1和N2分別是觀察者1和觀察者2判斷為假的樣本總數(shù)。P1+N1 =P2+N2 =N.
觀察者2YesNo觀察者1 Yes No TPFPP1FNTNN1P2N2N
圖1Kappa統(tǒng)計量計算
設(shè)Pe為隨機情況下的期望一致率,即兩個觀察者判別的結(jié)果因為偶然機會所造成的一致率。采用邊緣統(tǒng)計量來計算:
(2)
Kappa統(tǒng)計量的定義為:
(3)
Kappa系數(shù)是兩個差值的比值,其中分子為實際觀察到的一致率和可能的期望一致率之差。分母表示非隨機情況下的一致率。
Kappa系數(shù)取值范圍一般在-1到1之間。如果Kappa系數(shù)為1,表明兩個觀察者的判斷結(jié)果完全一致;如果Kappa系數(shù)為0,表明兩個觀察者的結(jié)果完全是因為隨機造成的,完全不一致;當(dāng)不一致比一致更多,Kappa系數(shù)為負(fù)值。易知Kappa系數(shù)越大,一致性程度越好。通常情況下,如果kappa系數(shù)位于0.21-0.40范圍的一致性是“可接受的”,位于0.41-0.60范圍的一致性是“中等的”,位于0.61-0.8范圍的一致性是“較大的”,大于0.81的一致性是“非常好的”。
我們嘗試對一個學(xué)期中參與課堂教學(xué)評優(yōu)的評價數(shù)據(jù)進(jìn)行分析。選取某個學(xué)期總共參與評優(yōu)的教師共有97人。然后將這97名教師的專家評價的結(jié)果與學(xué)生評價的結(jié)果進(jìn)行比較。在時間一致,對象樣本一致,數(shù)據(jù)具有可比性的前提下,分析專家評價和學(xué)生評價結(jié)果的一致性。表1是專家打分與學(xué)生打分的各個描述性統(tǒng)計量。需要說明的是,我們對兩組評分?jǐn)?shù)據(jù)進(jìn)行了歸一化預(yù)處理,使得兩組評價數(shù)據(jù)的均值趨于相等,以便進(jìn)行歸一化合并處理。
表1 專家打分和學(xué)生打分描述性統(tǒng)計結(jié)果
1.偏度分析。專家評價的偏度為-0.583,屬于負(fù)偏;學(xué)生評價的偏度為-1.193,也屬于負(fù)偏,都在“0>偏度>-3”的范圍內(nèi),表示評分集中在高數(shù)值段內(nèi)。但是學(xué)生偏度更大,表示學(xué)生更偏向給教師打高分。
2.峰態(tài)分析。專家打分的峰態(tài)為0.528,位于“峰態(tài)<3”的區(qū)間內(nèi),說明專家所給分?jǐn)?shù)比較均勻地分散在眾數(shù)的兩側(cè)。學(xué)生打分的峰態(tài)值為3.609,位于“峰態(tài)值>3”的區(qū)間內(nèi),說明學(xué)生所給分?jǐn)?shù)較為密集的分布在眾數(shù)的周圍,區(qū)分度相對較小。
3.集中趨勢與離散趨勢分析。把專家評價和學(xué)生評價的平均值歸一化到一致值,為89.89。這樣的情況下,專家評價的標(biāo)準(zhǔn)差為1.020,學(xué)生評價的標(biāo)準(zhǔn)差為0.437。專家打分的標(biāo)準(zhǔn)差要比學(xué)生打分的標(biāo)準(zhǔn)差大0.583,這正好與專家打分的分?jǐn)?shù)較為分散、均勻而學(xué)生打分較為集中的結(jié)論保持一致。專家認(rèn)為這些教師之間存在一定的差距,所以所給的分?jǐn)?shù)也有一定的差距,有一定的區(qū)分度,導(dǎo)致標(biāo)準(zhǔn)差較大;而學(xué)生所給的分?jǐn)?shù)差別不大,相對集中一些,標(biāo)準(zhǔn)差只有0.437。
圖2 專家打分與學(xué)生打分散點圖
5.散點圖分析。圖2中每一個點代表一位教師的專家打分和學(xué)生打分的情況,橫坐標(biāo)為學(xué)生打分,縱坐標(biāo)為專家打分。當(dāng)某位教師的專家打分與學(xué)生打分相同時,相應(yīng)的點便在擬合線y=x上。所以這條擬合線代表了專家打分與學(xué)生打分的一致性程度。
從散點圖中可以看出,在擬合線上或周圍的點分布較少,說明專家打分與學(xué)生打分相關(guān)關(guān)系較弱,圖上的散點隨機地分布在各處,幾乎看不出二者之間的線性關(guān)系,所以專家打分與學(xué)生打分的一致性程度很低。直線上部的點表示學(xué)生打分較低而專家打分較高的教師,直線下部的點表示學(xué)生打分較高而專家打分較低的教師。這兩種情況的數(shù)據(jù)分布基本相等。
教師的課堂教學(xué)總評分由專家打分和學(xué)生打分的加權(quán)平均值構(gòu)成。我們用圖形分析法分析總評分與專家打分和學(xué)生打分之間的一致性,得出一致性關(guān)系。首先,分析課堂教學(xué)的總評分與專家打分的一致性程度。將教師總分排名與專家打分排名進(jìn)行對比,找出二者不同排名段內(nèi)相同的教師的個數(shù),用圖3的形式表示。其中橫坐標(biāo)表示排名百分比,例如0.4表示排名前40%的被評價對象(教師)??v坐標(biāo)值(重合率)對應(yīng)于該排名百分比下,總分進(jìn)入前40%的被評價對象與專家打分進(jìn)入前40%的被評價對象的相同對象比例。
圖3 教師總排名與專家打分的教師排名
專家打分排名和教師的總得分排名的重合率是很高的,基本上都是保持在80%以上的重合率,除了排名在前5%和30%到45%這段區(qū)間之外。在排名前5%的教師中,二者此時的重合率為50%。在教師排名的前40%這個點上,教師總排名與專家打分的教師排名的重合率達(dá)到了一個極小值點,此時重合率為73.68%,即排名前38名中,有28名是相同的。在教師排名的前65%這個點上,教師總排名與專家打分的教師排名的重合率達(dá)到了一個極大值點,此時重合率到達(dá)了96.83%,也就是說排名前63名中,有61名是相同的。所以總的來說,專家打分與總評分的一致性還是很高的,即二者的吻合度很高。說明專家打分時比較嚴(yán)謹(jǐn)認(rèn)真,細(xì)心周全,所給分?jǐn)?shù)比較客觀合理,不會出現(xiàn)主觀性很大的分?jǐn)?shù)。
另外,再分析教師的總評分與學(xué)生打分的一致性程度,如圖4所示。其橫坐標(biāo)和縱坐標(biāo)的含義同圖3。
從圖4中看出,學(xué)生打分的教師排名與教師的總排名一致性程度較低,不是很理想。在教師排名的前4名和前9名里面,都是僅有一名教師是相同的,重合率僅為25%和11.11%;在排名的前14名和前19名里面,相同的也分別只有2名教師和3名教師,重合率僅為14.29%和15.79%。再從整個得到的數(shù)據(jù)來看,當(dāng)學(xué)生打分的總排名超過75%之后,二者的重合率才超過80%。整體而言,相比于專家打分的排名來說,學(xué)生打分的排名與總排名的一致性程度就要差很多,尤其是排名越靠前的教師,學(xué)生打分的排名與總排名的差別越大。
圖4 教師總排名與學(xué)生打分的教師排名
教師課堂教學(xué)評價的總評分是學(xué)生評分和專家評分的加權(quán)平均值(本文中假設(shè)是各占百分之五十),90(含)以上為評價優(yōu)秀。在對參與評優(yōu)的教師中,有些教師的總評分達(dá)到90分以上,但是在學(xué)生評價中的排序比較靠后。在總評分中雖然已經(jīng)考慮到學(xué)生評價的成分,但是為了進(jìn)一步體現(xiàn)學(xué)生評價的重要性,對學(xué)生打分排名靠后的90分以上得分的教師進(jìn)一步篩選,如果排名靠后,將從優(yōu)秀名單中去掉。問題是,學(xué)生打分排名靠后的線如何劃?也就是排名排在前多少百分比的教師作為評價優(yōu)秀的必要條件。
下面我們用Kappa檢驗方法分五種情況進(jìn)行討論,即當(dāng)學(xué)生評價分別排在前50%、60%、70%、80%、90%的教師作為評優(yōu)的必要條件,看它們與總評分90分以上作為評優(yōu)條件的一致性如何。根據(jù)本文第1節(jié)描述的Kappa模型,設(shè)N=97為總的評價樣本總數(shù),k為學(xué)生評分排名的前百分比值,例如排名前70%,表示教師的學(xué)生評分位于前70%以內(nèi)。P1和P2分別表示被評價者總分90分(含)以上的樣本數(shù)和學(xué)生評價排名前k的樣本數(shù),N1和N2分別是被評價者總分小于90分的樣本數(shù)和學(xué)生評價排名未排到前k的樣本數(shù)。顯然P1+N1=P2+N2=N.
表2給出了用Kappa統(tǒng)計量計算得出的三個學(xué)期評價數(shù)據(jù)的一致性指標(biāo)值。
表2 學(xué)生評價排名與總評優(yōu)秀的一致性程度
從計算結(jié)果看,Kappa值主要位于0.21-0.50之間,表明一致性是可接受的。這里的一致性,是計算總評分90分(含)以上的判斷為優(yōu)秀,90以下為良好以下,與學(xué)生評分排名前k為優(yōu)秀,排名后k為良好的一致性。直觀看,提高學(xué)生評價排名的百分比值,可以使得總評分為優(yōu)秀與學(xué)生排名前k的重合率不斷提高,評價優(yōu)秀一致性不斷提高,但同時增加了兩者在非優(yōu)秀(良好及其良好以下)評價的不一致性。因此從表2的數(shù)據(jù)中可以看出,評價優(yōu)秀和良好以下的總一致性在學(xué)生排名前70%左右達(dá)到最大,之后又開始衰減。因此從數(shù)據(jù)分析角度看,取學(xué)生排名前70%左右作為一個判斷優(yōu)秀的必要條件是合理的。
教學(xué)督導(dǎo)組專家主要以隨機采樣方式從教學(xué)形式和教學(xué)內(nèi)容對課堂教學(xué)進(jìn)行評價。但是可能受到自身專業(yè)領(lǐng)域的限制,對授課專業(yè)內(nèi)容不熟悉,難以對授課內(nèi)容進(jìn)行準(zhǔn)確評價。雖然不是全程聽課,但是根據(jù)采樣理論,這種評價方式具有一定的合理性。
學(xué)生是教師授課的主體,他們是最直接的接受者,所以對教師的評價,他們最具有發(fā)言權(quán)。但是學(xué)生評教也有一定局限性的,體現(xiàn)在任務(wù)性、隨意性、師生關(guān)系等。因此造成專家評價與學(xué)生評價的一致性存在某些偏差。
在考慮到專家評價與學(xué)生評價存在偏差的情況下,目前采用兩者加權(quán)平均,總分超過90分的前提下,再次強調(diào)學(xué)生主體的重要性,以學(xué)生評價排名前70%作為優(yōu)秀評價的必要條件,具有合理性。
今后還有許多工作可以研究,例如不同類型課程統(tǒng)一排名是否合理,理學(xué)、工科、文科、實驗、核心與選修課程的統(tǒng)一排名是否合理?專家評價與學(xué)生評價的權(quán)重分別為多少合適?專家評價和學(xué)生評價的指標(biāo)如何改進(jìn),專家采樣評價和學(xué)生評價的方式是否進(jìn)一步優(yōu)化等問題,期待后續(xù)進(jìn)一步開展研究。
[1]黃成林.國外教師教學(xué)質(zhì)量評價發(fā)展的研究及啟示[J].清華大學(xué)教育研究, 2006(6):101-105.
[2]王宇柏.高等職業(yè)院校人才培養(yǎng)督導(dǎo)評價調(diào)研報告[J].北京市經(jīng)濟(jì)管理干部學(xué)院學(xué)報,2014(3):53-59.
[3]周柏林.基于Kappa統(tǒng)計量的督導(dǎo)評教與學(xué)生評教一致性分析[J].科教導(dǎo)刊,2014(25):3-5.
[4]馮靜,潘正強,李國輝,等.基于非參數(shù)評價的課堂教學(xué)評價一致性建模與分析[J].數(shù)學(xué)的實踐與認(rèn)知,2015(15):164-170.
(責(zé)任編輯:趙惠君)
A Consistency Analysis of Experts’and Students’Evaluation for Classroom Teaching
LI Guo-hui1,GENG Hui2,F(xiàn)ENG Jing1,YANG Wen-yao1
(1.CollegeofInformationSystemandManagement,2.EducationDepartment,NationalUniversityofDefenseTechnology,Changsha410073,China)
Comprehensive evaluation combined with the experts’evaluation and the stadents’evaluation is an important method in the evaluation for classroom teaching.There rises a problem whether the experts’evaluation and the students’evaluation are consistent.Taking samples from the experts’evaluation and the students’evaluation in a certacn university,using desscriptive statistics,diagram analysis and Kappa statistic method,the paper analyses the consistency of both.
evaluation of classroom teaching;students’evaluation;experts’evaluation;consistency analysis
2016-05-31
李國輝(1963-),男,湖南衡陽人。國防科學(xué)技術(shù)大學(xué)信息系統(tǒng)與管理學(xué)院教授,博士,主要從事信息系統(tǒng)工程研究。
G647
A
1672-8874 (2016) 03-0040-05