孔 敏 張亞權(quán) 沈 群 潘 柏
2003年,教育部首次批準部分高校開展自主選拔錄取試點工作,自此,逐步打破了高考一考定終身的局面。自主招生考試更多地關(guān)注學(xué)生的應(yīng)用能力、思維能力、反應(yīng)能力、表達能力等綜合素質(zhì)以及學(xué)生的發(fā)展?jié)摿?。為此,試點學(xué)校探索了自主招生考試的多種形式,其中,面試往往成為首選的考量方式。
在面試過程中,通常將所有參加面試的學(xué)生分成若干組,每組有若干評委,每位評委根據(jù)學(xué)生的表現(xiàn),各自進行獨立評分(我們稱之為“原始分”),學(xué)生的最終成績來自各組評委的算術(shù)平均值,最終,學(xué)校對所有學(xué)生的成績進行排序,以此表征學(xué)生水平的高低,擇優(yōu)錄取。這種做法經(jīng)實踐證明存在一定問題:
同組學(xué)生面臨相同評委,可比性尚好;不同組學(xué)生面臨不同評委,難以保證其可比性。例如,某組評委評分比較緊,該組平均分相對偏低;反之,如果評委評分比較寬松,該組平均分相對偏高。若有A、B兩組,A組平均分比較低,B組平均分比較高,那么,在最后排序時B組學(xué)生位于前列的可能性就比A組大,從而B組學(xué)生的總的排名靠前,其錄取率也會較高。因此,不同組學(xué)生所得成績并不能客觀地反映考生實際水平,即“原始分”不具有可比性。
盡管面試有其評分原則和評分標準,但每個評委對標準的理解不盡相同。事實上,面對同一批學(xué)生,評分寬松的評委所給成績相對較高,嚴格苛刻的評委所給成績相對較低,即把同樣的分數(shù)映射到不同評委的價值坐標系中,所反映的水平不相一致,甚至相差甚遠。例如,同一組中的兩個評委,一個評分比較集中,在65~85分,另一個評分比較分散,在45~90分,那么,如果把兩個評委的評分作簡單算術(shù)平均,就會造成兩個考官所給分數(shù)在學(xué)生成績中所占的比重不同,結(jié)果不盡合理,即“原始分”不具有可加性。
設(shè)參加面試學(xué)生的總數(shù)為n,將他們分成m個組,每個組中面試學(xué)生的人數(shù)為ni(i=1,2,…,m),則n1+n2+…+nm=n。
類似地,假定參加面試的評委總數(shù)為p個,設(shè)每個組有pj(j=1,2,…,m)個評委,則p1+p2+…+pm=p。
設(shè)第k組的面試學(xué)生人數(shù)為nk,評委人數(shù)為pk(k=1,2,…,m)。
第一步:面試成績標準化
最后,求出每個面試學(xué)生面試的標準分
一組數(shù)據(jù)的平均分(均值)是這組數(shù)據(jù)中最有代表性的數(shù)值,它表示了這組數(shù)據(jù)的集中趨勢,平均分是計算標準分的重要參數(shù),它是對整體水平的一個度量。
平均分受到多種因素的影響。首先,學(xué)生素質(zhì)的高低是影響平均分的一個重要因素,如果學(xué)生的總體素質(zhì)較高,平均分就較高;如果學(xué)生的總體素質(zhì)較低,平均分也就較低。其次,每個面試考官不同的衡量標準也有較大的影響,如果評委對面試學(xué)生的要求比較嚴格,平均分就會較低;反之,如果考官對考生的要求比較寬松,平均分就會較高。
一組數(shù)據(jù)的標準差反映了這組數(shù)據(jù)的離散程度(或區(qū)分度)的差異情況,標準差也是計算標準分的重要參數(shù)。
標準差也受到多種因素的影響。首先,學(xué)生自身的情況對標準差有較大的影響,學(xué)生素質(zhì)水平的差異,即優(yōu)劣生在分組的分配比例在很大程度上影響差值,此外,面試中隨機的干擾因素也影響標準差。其次,評委所給分數(shù)集中情況對標準差也有著較大的影響。
標準分具有可比性,這是最重要的特性。因為標準分的單位相同,標準分是以標準差為單位來度量每個學(xué)生的考分與平均分之間的距離,無論每個評委給出的平均分、標準差存在多少差異,經(jīng)轉(zhuǎn)換為標準分后,都是以1為單位來度量學(xué)生的考分與0之間的距離,因此標準分具有可比性。
其次,標準分具有可加性。因為標準分的單位一致,同是平均數(shù)為0,標準差為1的統(tǒng)一的度量標準,同為以1為單位來度量,從而具有可加性。據(jù)此,比較學(xué)生成績時,只要將每個評委的評分的標準分相加,比較其標準分的總和(標準總分)即可。
原始分不能直接表示出考生在團體中的位置。例如,兩個參加面試的學(xué)生甲、學(xué)生乙分配在不同的組,其面試的原始分均為75分,但學(xué)生甲可能位于其所在組中前幾名,而學(xué)生乙卻位于其所在組中最末幾名。標準分恰恰克服了以上的缺點,明確了一個面試學(xué)生在總體中的名次位置。
我們就評委對面試學(xué)生給出的成績標準化前后進行數(shù)據(jù)分析(數(shù)據(jù)來源于歷史真實資料,共有A、B、C、D、E、F 六組,對比數(shù)據(jù)詳見以表1~表6),所提及的面試學(xué)生成績是指標準化前所有評委給出分數(shù)的算術(shù)平均。
對面試學(xué)生的成績進行標準化后,我們發(fā)現(xiàn)A組的所有人名次均提前,B組除兩個人以外,所有人名次均后退,C組的所有人名次均提前,D組所有人名次均后退,E組的所有人名次均提前,F(xiàn)組除一人以外,所有人名次均后退。
產(chǎn)生上述結(jié)果的原因主要是由于A、C、E組評委所給出的均值較小,其均值分別為54.1,56.2和56.01;而D、F、B組評委所給出的均值較大,分別是66.46、65.42和64.23,總的均值為60.41,所以在標準化后,那些原來均值大的組名次會后退,而均值小的組名次會提前。
再則,名次變化大的人均分布在A、D、F組中。這是因為,A組是均值最小的組,所以原來處于A組前面的人,在標準化前排名靠后,而標準化后排名自然前進了很多,D、F組分別為均值最大和第二大的組,而且這兩組的均值大小差不多,所以這兩組中原來名次靠后的人在原來的排名中,名次并沒有排在后面,但是標準化后,這些人的名次大大后退了。
我們將六組的面試成績在標準化前后排名變化最大的列表如表1~表6所示:
表1 A組標準化前后差異最大的5個數(shù)據(jù)
表2 B組標準化前后差異最大的5個數(shù)據(jù)
表3 C組標準化前后差異最大的5個數(shù)據(jù)
表4 D組標準化前后差異最大的5個數(shù)據(jù)
表5 E組標準化前后差異最大的5個數(shù)據(jù)
表6 F組標準化前后差異最大的5個數(shù)據(jù)
下面,我們對上述變化進行分析說明。
首先看A組中排名第一的學(xué)生A10。在標準化之前,他的排名是64,標準化之后是第4。由于假設(shè)每組考生具有同質(zhì)性,所以,每組考生的平均分應(yīng)該相差不大,所以每組中處于相同位置的考生在總體中所處的位置不會有太大差距,那么A組中排名第一的A10,但在總體中排第64名肯定是有問題的。原因就在于A組的平均分是所有組中最低的,而且和最高分(D組)相差12分,也就是差了15%,所以即使是A組排在第一的人在原始排名中也只排到了64,但是標準化克服了組與組之間平均分差異的影響,A10自然可以排到第4名了。像這樣的例子還有A27、A24 、A05、A23、A02。
再看D組,D04在原來的排名中排在40,而在標準化后的排名是146,相差了106名。這是因為D組的平均分是六組中最高的,所以,未標準化前,即使那些在組里排在后面的考生也在總排名中排在了靠前的位置。
由于A組評委所給出的均值最小,而D組最大所以在標準化后,那些原來均值小的組名次會提前,而均值大的組名次則會退后。表7給出這兩組中各組前3名在標準化前后的對比。
表7 A組和D組前3名在標準化前后的對比
與上面分析的原理相同,A組前4名的排名在標準化后有很大的提升,而D組的前4名在標準化后的排名退后,尤其是A組面試學(xué)生成績在標準化前后的排名變化較大。
在同一組中,因評委評分的均值不同產(chǎn)生的差異,取E組的6個樣本如表8所示。
表8 E組的6個樣本
表中數(shù)據(jù)有一個共同特征:第一個評委給的分數(shù)較大,而第四個評委給的分數(shù)較低,而且兩個評委所給分數(shù)差距較大。這是因為第一個評委的均值在這五個評委中最大(62.1分),而第四個評委的均值最小(48.6分),這樣第一個評委在學(xué)生分數(shù)中所占比重就會大,而第四個評委所占比重就會小。如果把評委所給分數(shù)和平均分的差值與標準差的比看成評委對這個學(xué)生的真實評價,那么,就會發(fā)現(xiàn),雖然第一個評委給出的分數(shù)較高,但不代表這個評委對該考生的評價較高,例如E31的第一個分數(shù)顯然低于均分,第二、三、五的分數(shù)卻高于均分很多,簡單的算術(shù)平均并未體現(xiàn)出這一點。另外,E18的第四個分數(shù)也高出均值很多,第五個分數(shù)低于均值很多,而且第四個高出的遠遠大于第五個低于均值的分數(shù),也沒有體現(xiàn)出來。
我們以C組的數(shù)據(jù)為樣本,先添加C39、C40兩個樣本,C39的數(shù)據(jù)為原數(shù)據(jù)每列的均值(四舍五入為整數(shù)),而C40的數(shù)據(jù)由五個評委給出,每個評委給3項分數(shù)。相對于C39、C40的每個評委的第一項分數(shù)不變,第二項減少4分,第三項增加4分,這樣每個評委給C40的總分與C39的相同,只是第二、三項存在差異。然后再在下面添加C41、C42兩個樣本,這兩行第一個評委的三項分數(shù)分別取其所在列的最大值和最小值,而后面四個評委的數(shù)據(jù)與C39均相同,如表9所列(每個評委分三項分別評判計分,三項分數(shù)總和即為該評委對考生的面試成績)。
表9 評委給出C組考生樣本的面試成績
運行結(jié)果如表10所示。
表10 C組考生樣本所得的原始分及名次
數(shù)據(jù)結(jié)果分析:
(1)我們知道,C39的各項分數(shù)為原數(shù)據(jù)的平均值,也就是說處于所有學(xué)生的平均水平,不存在“偏項”現(xiàn)象;而每個評委給C40的總分與C39相同,但第二項明顯低于平均水平,而第三項高于平均水平,處于優(yōu)秀行列,故C40存在較為明顯的“偏項”。從運行結(jié)果可以看出,無論是“加權(quán)標準化”還是“分項標準化”,所得結(jié)果均表明C39領(lǐng)先C40。從此例可以得出結(jié)論:我們的這兩種標準化方法都使各項分數(shù)較為均衡的學(xué)生最終能獲得較高的分數(shù),也就是說這兩種方法對于那些全面發(fā)展的學(xué)生更有利。
(2)C41、C42的后面四個評委給的分數(shù)較為一致,都是所有學(xué)生的平均分,但第一個評委的分數(shù)與其他評委差距較大,他給C41所有學(xué)生的最高分,C42所有學(xué)生的最低分。由于五個評委中有四個對這兩名學(xué)生的評價一致,因此我們有理由懷疑這名評委對C41有“特殊照顧”,但對有C42“持有偏見”。如果評委一給C41較為客觀一點的評價,即像其他四個評委一樣給C41的分數(shù)是所有學(xué)生的平均分,那么C41的排名應(yīng)為19名(按原始分數(shù)計算);但因為C41受到這種“特殊照顧”致使他的名次升到了第11名(按原始分數(shù)計算),但經(jīng)過評分標準化的處理,他的名次為13名,相比原始名次退后兩位。這種分數(shù)處理方法削弱了“特殊照顧”的作用。同理分析C42,可以得出相同的結(jié)論。由此得出,盡管異常分數(shù)的影響客觀存在,但這種方法可以大大地降低這種影響的作用。
[1]孫榮平.成績統(tǒng)計分析中的數(shù)據(jù)預(yù)處理研究[J].黑龍江教育(高教研究與評估),2006(9):67-68.
[2]葉宗裕.高考成績綜合時的標準分研究[J].統(tǒng)計與決策,2005(3):25-26.
[3]孫國耀,黃廼本.用標準分評定考試成績[J].中山大學(xué)學(xué)報論叢,2004,24(5):13-15.
[4]鄭群.標準分數(shù)在考試成績評價中的應(yīng)用[J].浙江統(tǒng)計,2004(9):24-25.
[5]彭成獎.標準分的應(yīng)用[J].暨南學(xué)報(哲學(xué)社會科學(xué)),1999(21):138-142.
[6]張亞萍,謝家功.建立高考標準分制度的思考[J].上海高教研究,1998(3):42-44.