黃玉平 何以建
前言
如何通過對(duì)學(xué)業(yè)成績(jī)的分析來(lái)反映學(xué)校的管理水平和教師的業(yè)務(wù)表現(xiàn),去除考試命題,閱卷,學(xué)生臨場(chǎng)表現(xiàn),班級(jí)差異,學(xué)生基礎(chǔ)等干擾因素,形成公平合理的評(píng)價(jià)標(biāo)準(zhǔn),一直是教育管理部門關(guān)注的技術(shù)問題。
本文給出的研究成果:基于正態(tài)化標(biāo)準(zhǔn)分的二十層回歸分析方法,有效地解決了評(píng)估學(xué)校和教師教學(xué)成績(jī)的標(biāo)準(zhǔn)問題。
一、現(xiàn)狀分析
(一)均分排位變化分析法
此方法適用于相同基礎(chǔ)的各地市之間的終結(jié)性比較,不論各地市的教育起點(diǎn)如何,直接用測(cè)試結(jié)果的均分進(jìn)行排名,名次高低代表各地市教育水平的高低。例如,2017年,A市某項(xiàng)測(cè)試的均分位列全省第一,因此代表著A市2017年在某項(xiàng)的教育水平全省第一。這種分析法優(yōu)點(diǎn)是:容易理解,容易計(jì)算,缺點(diǎn)是:很粗糙,不科學(xué),反應(yīng)慢,只反映結(jié)果,不反映進(jìn)步程度。
(二)均分對(duì)比分析法
將同一個(gè)群體同一個(gè)科目?jī)纱慰荚嚨木诌M(jìn)行直接對(duì)比,由于可能受到兩次考試難度不同,導(dǎo)致均分差異過大,另外標(biāo)準(zhǔn)差不同,也會(huì)使均分直接對(duì)比受到較大的影響,從而影響比較的效果。
用回歸分析來(lái)處理兩次考試的成績(jī),是一個(gè)值得嘗試的方法。
下圖是某市2017屆文科畢業(yè)生高考總分與中考總分的回歸分析,具有較高的相關(guān)性,其線性相關(guān)的判定指數(shù)為0.644,畢竟經(jīng)過了三年時(shí)間,中間已經(jīng)有太多的因素對(duì)成績(jī)產(chǎn)生影響。
這種方法的判定指數(shù)不到七成,還有三成多不能解釋的因素,誤差太大,還不適合直接用于分析學(xué)校和教師的教育質(zhì)量。
如果將第一次考試均分相同的一批學(xué)生的第二次考試成績(jī)進(jìn)行比較,可以橫向比較出進(jìn)步還是退步的學(xué)校。這種方法提供了橫向比較的參照物,說(shuō)服力大大地增強(qiáng)了。
在上表中,以中考總分第4層次為例,三個(gè)學(xué)校中考總分均分相差不到1分,高考文科總分差距最高為5分,能比較出高低。
經(jīng)過一段時(shí)間的使用,發(fā)現(xiàn)這種方法的五個(gè)問題:第一,某些學(xué)校獨(dú)占了某個(gè)均分層次,沒有橫向?qū)Ρ鹊膶W(xué)校,因此無(wú)法評(píng)價(jià),例如上表中中考總分第一層次,只有A1校有學(xué)生,無(wú)法反映成績(jī)的相對(duì)高低;第二,無(wú)法反映這個(gè)均分層次是否整體偏好或偏差,無(wú)法與其它層次進(jìn)行比較,使評(píng)價(jià)有可能產(chǎn)生偏差;第三,一個(gè)學(xué)校均分各層次之間的比較結(jié)果能否相加,缺乏依據(jù);第四,相同層次的各學(xué)校的中考總分均分不相同,直接看文科總分不夠科學(xué);第五,不直觀,不能直接看出結(jié)果,效率低。
(三)簡(jiǎn)單標(biāo)準(zhǔn)分對(duì)比分析法
簡(jiǎn)單標(biāo)準(zhǔn)分的處理:通過利用與均分的差距比上標(biāo)準(zhǔn)差得到的Z分?jǐn)?shù),再進(jìn)行線性變換(100Z+500),得到平均分為500,標(biāo)準(zhǔn)差為100的簡(jiǎn)單標(biāo)準(zhǔn)分。通過變換,有效地消除了均分和標(biāo)準(zhǔn)差不同的影響。
簡(jiǎn)單標(biāo)準(zhǔn)分的使用,可以使同一次考試不同科目之間,同一科目不同考試之間都可以進(jìn)行比較,準(zhǔn)確性有了較大的提高。
這種方法的問題在于:由于試題命制目的不同,兩次考試的區(qū)分度也不同,觀察散點(diǎn)圖可以看出,兩者之間的關(guān)系與二次曲線接近,如果直接比較,仍存在一定誤差,影響評(píng)價(jià)的精確性。
如果采用回歸分析,理論上可以找到期望函數(shù),從而得到比較基準(zhǔn)。但是多次試驗(yàn)的結(jié)果發(fā)現(xiàn)兩個(gè)問題:第一,這種二次回歸誤差很大,不容易解釋原因;第二,計(jì)算上沒有線性回歸方便。
(四)正態(tài)化標(biāo)準(zhǔn)分對(duì)比分析法
將考試成績(jī)轉(zhuǎn)化為正態(tài)化標(biāo)準(zhǔn)分,是一種巨大的進(jìn)步,它能較好地將不同的考試造成的偏態(tài)經(jīng)過轉(zhuǎn)換,變形為正態(tài)分布,從而較好地消除不同考試區(qū)分部位與區(qū)分能力的不同。目前國(guó)際上公認(rèn)的標(biāo)準(zhǔn)正態(tài)化處理共有五種算法,其中rankit算法在SPSS軟件中自帶,因此為實(shí)際使用提供了可行性。
將兩次成績(jī)轉(zhuǎn)轉(zhuǎn)換為正態(tài)化標(biāo)準(zhǔn)分以后,直接進(jìn)行比較的誤差還是不小的。
如果對(duì)全體學(xué)生兩次正態(tài)化標(biāo)準(zhǔn)分的直接進(jìn)行回歸分析,回歸效率提高了,但是殘差還是不小。原因是:特別優(yōu)秀的班級(jí)和特別弱的班級(jí)對(duì)學(xué)生成績(jī)的影響體現(xiàn)出來(lái)了。
下圖是某市2017年屆文科畢業(yè)生文科總分標(biāo)準(zhǔn)分(正態(tài)化)與中考總分標(biāo)準(zhǔn)分(正態(tài)化)之間的線性回歸分析,判定指數(shù)是0.706,從散點(diǎn)圖上觀察,一些數(shù)據(jù)偏離回歸直線較多,受到學(xué)生個(gè)體與班級(jí)的干擾很大,不適合直接用于評(píng)價(jià)各校和各班的教育質(zhì)量。
二、解決方案
珠海市教育研究院高中教育研究室經(jīng)過多年研究,不斷改進(jìn),于2012年正式定型,形成了目前的“基于標(biāo)準(zhǔn)正態(tài)化的二十層回歸分析法”。
要真實(shí)反映教育的質(zhì)量,須要進(jìn)行前后的對(duì)比,不能只看目前的現(xiàn)狀;
兩次考試由于命題等因素的影響,區(qū)分度不同,導(dǎo)致原始成績(jī)反映學(xué)生真實(shí)水平的程度不同,須進(jìn)行標(biāo)準(zhǔn)化處理。如果對(duì)兩次考試只是采用簡(jiǎn)單的標(biāo)準(zhǔn)化處理,雖然解決了兩次考試的標(biāo)準(zhǔn)差不同問題,但是沒有解決兩次考試對(duì)于不同層次學(xué)生能力的區(qū)分度不同問題,例如水平性考試關(guān)注的是學(xué)生能否及格,對(duì)于學(xué)生是否優(yōu)秀并不關(guān)注,因此試題更多的是基礎(chǔ)型,多數(shù)學(xué)生能夠獲得較高的成績(jī),但是少數(shù)基礎(chǔ)比較弱的學(xué)生,則成績(jī)較弱,整體成績(jī)呈現(xiàn)為負(fù)偏態(tài)(均分低于中位數(shù));而能力型考試關(guān)注的是學(xué)生是否具有較高的核心素養(yǎng)和學(xué)科能力,對(duì)思維和綜合能力考查的試題較多,考試的結(jié)果是多數(shù)學(xué)生考分不能及格,而能力較強(qiáng)的學(xué)生能夠突出表現(xiàn),整體成績(jī)呈現(xiàn)為正偏態(tài)(均分高于中位數(shù)),兩次考試簡(jiǎn)單標(biāo)準(zhǔn)分明顯不是線性相關(guān)關(guān)系。
由于都是線性變換,最后很有可能兩次考試的標(biāo)準(zhǔn)分之間存在非線性相關(guān),例如二次相關(guān)等,容易產(chǎn)生較大的誤差,也不能進(jìn)行分班分層的計(jì)算。經(jīng)過反復(fù)試驗(yàn)和思考,現(xiàn)采用標(biāo)準(zhǔn)正態(tài)化處理,采用國(guó)際通用的rankit算法,對(duì)兩次考試成績(jī)進(jìn)行標(biāo)準(zhǔn)正態(tài)化轉(zhuǎn)換,解決了兩次考試考查側(cè)重點(diǎn)不同和區(qū)分度不同帶來(lái)的困擾。
對(duì)兩次考試成績(jī)的正態(tài)化標(biāo)準(zhǔn)分進(jìn)行相關(guān)性分析,發(fā)現(xiàn)相關(guān)性大大提高,對(duì)所有學(xué)生的兩次正態(tài)化標(biāo)準(zhǔn)分進(jìn)行線性回歸分析,得到的判定指數(shù)達(dá)到了0.7。
每一個(gè)學(xué)?;虬嗉?jí),經(jīng)過一段時(shí)間的教學(xué),都容易產(chǎn)生分化,最低分與最高分之間差距巨大。用均分為代表一個(gè)學(xué)?;虬嗉?jí)成績(jī),目的是反映群體的集中趨勢(shì),由于群體內(nèi)各數(shù)據(jù)權(quán)重相同,均分很容易受到較特殊數(shù)據(jù)的影響,導(dǎo)致發(fā)生偏離,從而使分析效果下降。
在實(shí)踐的過程中發(fā)現(xiàn),各學(xué)校對(duì)基礎(chǔ)非常敏感,不同基礎(chǔ)的學(xué)校之間的比較數(shù)據(jù),除非發(fā)生了反轉(zhuǎn),否則說(shuō)服力不強(qiáng)。
同一批對(duì)象同一個(gè)科目?jī)纱慰荚囍g的成績(jī)存在非常明顯的相關(guān)關(guān)系,采用標(biāo)準(zhǔn)正態(tài)化轉(zhuǎn)換之后,發(fā)現(xiàn)這種相關(guān)關(guān)系進(jìn)一步提高。
如果以學(xué)校均分為對(duì)象,進(jìn)行兩次考試的正態(tài)化標(biāo)準(zhǔn)分進(jìn)行回歸分析,獲得如下的結(jié)果:兩次成績(jī)成線性相關(guān),判定指數(shù)為0.95。學(xué)校內(nèi)部班級(jí)的差異已經(jīng)被消減,反映出在學(xué)校差異較小的情況下,兩次考試的正態(tài)化標(biāo)準(zhǔn)分之間呈現(xiàn)高度線性相關(guān)。
以學(xué)校為對(duì)象的正態(tài)化標(biāo)準(zhǔn)的回歸分析中,由于各校人數(shù)差異較大,使得較小的學(xué)校數(shù)據(jù)權(quán)重較大,影響回歸結(jié)論。
通過對(duì)數(shù)據(jù)的觀察,我們發(fā)現(xiàn):學(xué)校之間表現(xiàn)差異非常大,班級(jí)之間的差異也非常大,如果用一個(gè)均分表達(dá)一個(gè)學(xué)校的成績(jī),其中受到這些差異因素的干擾太多,從而較大地影響了兩次考試之間的回歸分析效果。
如果將全市基礎(chǔ)相近的學(xué)生作為一個(gè)群體,分析它們兩考正態(tài)化標(biāo)準(zhǔn)分的均分之間的相關(guān)關(guān)系,能夠具體有以下優(yōu)點(diǎn):第一,均分代表性增加;第二,各層次群體權(quán)重相近;第三,每個(gè)層次包括多所學(xué)校,能較好地消除學(xué)校差異對(duì)回歸結(jié)果的影響,使回歸分析結(jié)果更準(zhǔn)確;第四,采用正態(tài)化標(biāo)準(zhǔn)分,有效地減小不同考試命題造成的差異性。
下表是某市2017年高考文科總分與中考總分二十層回歸分析的結(jié)果:
三、操作步驟
(一)對(duì)齊
兩次考試,人群是不完全相同的,做質(zhì)量分析只能針對(duì)兩次考試都參加的學(xué)生,因此將兩個(gè)表格對(duì)齊,是第一個(gè)步驟。中考和高考的成績(jī)表都有身份證號(hào)字段,用它做為連接兩個(gè)表格的共同字段,只有身份證號(hào)相同的數(shù)據(jù),才能保留下來(lái)。采用數(shù)據(jù)庫(kù)的處理方法,能較快地對(duì)齊兩個(gè)表格。為了今后復(fù)查,保留原始表格。
(二)合并
將兩個(gè)對(duì)齊的表格合并成為同一張表,須將兩個(gè)表格中相同的字段保留,例如:學(xué)校,身份證號(hào),姓名等。同時(shí),要將兩張表中,兩次考試的所有成績(jī)都保留下來(lái),重復(fù)的字段名,如語(yǔ)文、英語(yǔ)等,須分別改為中考語(yǔ)文、中考英語(yǔ)和高考語(yǔ)文、高考英語(yǔ)或類似的字段。
合并的表格,將首先按考試類別進(jìn)行分類和排序,即文科和理科兩類。學(xué)生類別中,只留下文科和理科兩類,其它類如音樂、美術(shù)和體育等,都不進(jìn)行集中處理,直接從表格刪除。
合并這個(gè)環(huán)節(jié)的人工操作是不可少的。
(三)二十層分組
不同的分層,如果各層之間差距不是特別大,不影響統(tǒng)計(jì)結(jié)果。
將合并后文理合在一起的表格,按中考總分的高低排序,等量分為二十層,因有同分?jǐn)?shù)學(xué)生,保持每層數(shù)量盡量相近,優(yōu)先高分組。增加一個(gè)字段:二十層。給每個(gè)學(xué)生標(biāo)注層次號(hào):1,2,…,20。
(四)標(biāo)準(zhǔn)正態(tài)化
將分出二十層的表格,按文科和理科分為兩張表,分別取名為:20XX年高考中考合并分層文(理)科表。
對(duì)中考五個(gè)科目和高考四個(gè)單科進(jìn)行標(biāo)準(zhǔn)正態(tài)化處理,并分別增加相應(yīng)字段。
將兩考的單科標(biāo)準(zhǔn)分分別合并后,再根據(jù)rankit算法,對(duì)中考總分和高考的文科總分(理科總分)進(jìn)行標(biāo)準(zhǔn)正態(tài)化處理,增加字段:中考總分標(biāo)準(zhǔn)分,文科總分標(biāo)準(zhǔn)分(理科總分標(biāo)準(zhǔn)分)。
(五)回歸分析
下面以文科總分為例,說(shuō)明回歸分析的方法:
按二十層,分別計(jì)算各層的文科總分標(biāo)準(zhǔn)分的平均分和中考總分標(biāo)準(zhǔn)分的平均分;
將二十組數(shù)據(jù)進(jìn)行回歸分析,以中考總分標(biāo)準(zhǔn)分為橫坐標(biāo),文科總分標(biāo)準(zhǔn)分為縱坐標(biāo),求出回歸方程和判定指數(shù),并標(biāo)出來(lái)(如 );
將每個(gè)學(xué)生的中考總分標(biāo)準(zhǔn)分代入回歸方程的橫坐標(biāo),計(jì)算出每個(gè)學(xué)生文科總分標(biāo)準(zhǔn)分的期望值;
將每個(gè)學(xué)生的文科總分標(biāo)準(zhǔn)分減去它的期望值,得到比較值,即殘差;
分別計(jì)算每個(gè)學(xué)校每個(gè)層次的比較值(殘差)的平均值;
計(jì)算每個(gè)學(xué)校的比較值(殘差)的平均值。殘差的標(biāo)準(zhǔn)差為100左右,結(jié)合學(xué)校的人數(shù),用標(biāo)準(zhǔn)誤的方式,可以評(píng)判斷學(xué)校進(jìn)步或退步的幅度。
文科綜合與中考總分進(jìn)行回歸分析。
理科綜合與中考總分進(jìn)行回歸分析。
語(yǔ)文,數(shù)學(xué)(文科數(shù)學(xué)與理科數(shù)學(xué)),英語(yǔ)三科分別與中考相應(yīng)科目回歸分析。
四、應(yīng)用舉例
下面是2017年某市各校文科總分與中考總分二十層回歸分析的結(jié)果(正態(tài)化標(biāo)準(zhǔn)分):
各校進(jìn)步或退步,在總計(jì)這里顯示了,如A10學(xué)校,總計(jì)平均進(jìn)步了22分,其中各批次都顯示超過了期望值,因此表現(xiàn)非常突出;A3學(xué)校,總計(jì)平均退步了12分,其中八個(gè)層次中有六個(gè)層次都是負(fù)分,意味著比期望值低,這樣與那些進(jìn)步的學(xué)校差距就非常大了,說(shuō)明整體水平不高。另外A1學(xué)校,總計(jì)平均進(jìn)步了2分,但是其中第一個(gè)層次退步了8分,且這個(gè)層次是中考水平最高的,只有這一所學(xué)校有這一層次的學(xué)生,說(shuō)明該校的優(yōu)生培養(yǎng)較弱,還有提升空間。
表中對(duì)18所學(xué)校各個(gè)層次都進(jìn)行了分析,針對(duì)性強(qiáng)。這個(gè)表只顯示了各層次平均分與期望的比較,沒有加上人數(shù)的影響,須結(jié)合各層次人數(shù),才能掌握各校主要的得分或失分層次。
在上表中,可以發(fā)現(xiàn),為總體進(jìn)步貢獻(xiàn)最大的學(xué)校是A18和A10兩校,而A9則拖的后腿是最大的。其中A1??傮w是進(jìn)步,但是它的前兩層,卻是退步的,說(shuō)明它對(duì)優(yōu)秀生的培養(yǎng),還有提高空間。
如果配合各科的分析,更能發(fā)現(xiàn)具體的問題。
上表中,A2??偡诌M(jìn)步了14分,但是單科分析發(fā)現(xiàn),主要貢獻(xiàn)是文科英語(yǔ),文科數(shù)學(xué)也有正貢獻(xiàn),而文科語(yǔ)文則負(fù)了6分,文科綜合也負(fù)了3分,這樣學(xué)科的情況清楚,有利于進(jìn)一步的工作。類似的,A5校總分進(jìn)步了13分,單科分析中發(fā)現(xiàn),其中文科語(yǔ)文也負(fù)了3分。
繼續(xù)分析A2校和A5校的文科語(yǔ)文的二十層,看看是哪些層次造成的影響。
在上表中,A2校的文科語(yǔ)文在十二個(gè)層次中七個(gè)層次是負(fù)分的,而且負(fù)分值較大,特別是第三層和第四層及第六層,差距較大。說(shuō)明多數(shù)學(xué)生的語(yǔ)文學(xué)習(xí)存在問題。
A5校的語(yǔ)文出現(xiàn)負(fù)分的層次是第六層,第十層,第十一層,第二層,第十五層,主要是中下學(xué)生存在退步現(xiàn)象,有可能是教學(xué)中對(duì)基礎(chǔ)的問題關(guān)注不夠或解決不徹底。
五、結(jié)束語(yǔ)
采用本文辦法,實(shí)現(xiàn)了增值評(píng)價(jià)。這種方法,可以將每個(gè)學(xué)校、每個(gè)班級(jí)的每個(gè)層面的教學(xué)成果在這兩次考試成績(jī)上定量地測(cè)量出來(lái)。其中遠(yuǎn)高于期望值的學(xué)校和班級(jí),可能有與眾不同的教育方法,值得特別關(guān)注,其中符合黨和國(guó)家教育方向,符合學(xué)生的終身發(fā)展需要,符合學(xué)生實(shí)際情況的教育措施,應(yīng)該及時(shí)總結(jié)和推廣;對(duì)于其中遠(yuǎn)低于期望值的學(xué)校和班級(jí),可能存在學(xué)校管理上的松懈和粗糙,校風(fēng)不正,師德不良,教師不敬業(yè),專業(yè)水平不高等諸多問題,須問責(zé)談話,認(rèn)真整改,切實(shí)找出問題,改正教風(fēng),端正態(tài)度。作為行政管理部門,應(yīng)思考如何針對(duì)這些學(xué)校的問題,改進(jìn)培訓(xùn)和支教的方式方法,幫助這類學(xué)校逐步改進(jìn)工作方法,不斷取得進(jìn)步。
參考文獻(xiàn):
[1]劉娟,高振華,盧志舟,馬春環(huán),李鵬. 增值評(píng)價(jià)在學(xué)校效能評(píng)價(jià)中的應(yīng)用【J】.教育測(cè)量與評(píng)價(jià),2015(10):48-52.
[2]萬(wàn)兵濤,許志勇,汪曉銀. 教學(xué)質(zhì)量增值評(píng)價(jià)中數(shù)學(xué)模型的選擇與應(yīng)用【J】.考試研究,2019(1):98-104.