廖先祥 莫海浪
關(guān)于教育測(cè)量理論,好像離我們很遠(yuǎn),所以我們都不太去關(guān)心它、研究它,認(rèn)為那是專家們的事。但是,考試卻離我們很近,對(duì)于我們中小學(xué)教師而言,它一直伴隨著我們,直到我們離開教學(xué)崗位。每一次考試,我們好像都只是關(guān)心考什么,怎么才能讓學(xué)生考得好,得到多少分?jǐn)?shù),班級(jí)排名第幾……僅此而已。其實(shí),我們對(duì)考試的了解遠(yuǎn)遠(yuǎn)不夠,甚至有時(shí)會(huì)被“現(xiàn)象”蒙蔽,以為真的就像我們想象的那樣。當(dāng)然,任何事物都有一個(gè)由初級(jí)到高級(jí),由粗到細(xì),逐步發(fā)展,精益求精的過(guò)程,關(guān)于考試也是如此。真正關(guān)心、懂得考試的人,他會(huì)從考試的現(xiàn)象、結(jié)果里看到很多很多隱藏在它背后的東西。在后面的文中你可以了解到,關(guān)于“考試”,今天已經(jīng)發(fā)展到了什么程度。
我們不講太“理論”的東西,讓我們就從身邊的問題開始認(rèn)識(shí)和了解吧。
問題1:我們的考試真的公平嗎?
考試,在大多數(shù)人的眼里都被認(rèn)為是一種最公平的評(píng)價(jià)方式,是“天然公平”的,所謂“考試面前人人平等”??忌绻蚩荚嚦煽?jī)不好而被拒絕入學(xué)或錄用,大多不會(huì)有什么怨言,他們會(huì)首先從自己身上找原因,認(rèn)為自己學(xué)識(shí)不深、能力低,頂多也是怪自己考試時(shí)發(fā)揮不正常。有時(shí)問題確實(shí)如此。但還有一些深層次的問題:我們很少去質(zhì)詢這項(xiàng)考試是否可信、是否有效以及處理考試結(jié)果的方式方法是否科學(xué)合理等等。
假設(shè)有下面一個(gè)簡(jiǎn)單的“考試”,我們來(lái)分析一下這次考試的深層次問題。
填空(每題10分,滿分100分)
1.2+5=( );
2.9-6=( );
3.3+( )=14;
4.比3大9的數(shù)是( );
5.比12少1的數(shù)是( );
6.和6相差4的數(shù)是( );
7.一隊(duì)小朋友排隊(duì)做操,小冬前面有7個(gè)人,后面有5個(gè)人,這隊(duì)一共有( )人;
8.哥哥有4塊糖,弟弟有8塊糖,弟弟給哥哥( )塊糖,兩人的糖就一樣多了;
9.一條路長(zhǎng)9米,在這條路上每隔1米插一面彩旗,共能插( )面彩旗;
10.一個(gè)數(shù),十位上的數(shù)是1,個(gè)位上的數(shù)比十位上的數(shù)多7,這個(gè)數(shù)是( )。
顯然,這10道題我們是由易到難依次排下來(lái)的,也就是說(shuō),后面一道題總比前面一道題難。有一個(gè)極端的案例:孩子A做對(duì)了前面的1-5題,孩子B做對(duì)了后面的6-10題,他們的得分都是50分。你怎么看待這個(gè)考試結(jié)果?如果在平時(shí),你不去分析題目的難易度,一定會(huì)說(shuō):“啊,這兩孩子成績(jī)一樣,他們?cè)谕粋€(gè)水平上呢!”可是,現(xiàn)在你還認(rèn)為他們的水平是一樣的嗎?如果你就是那個(gè)B孩子,而我就是那個(gè)A孩子,關(guān)于我們的能力與水平的評(píng)價(jià),你有什么想要說(shuō)的?
當(dāng)然,這只是一個(gè)極端的例子,我們很少遇到。
就這次“考試”,我們?cè)儆懻撘粋€(gè)問題:老師,為什么每道題目不分難易,賦分都是10分呢?如果在平時(shí),你的回答可能會(huì)是這樣的:“因?yàn)闈M分是100分,只有10道題,而且都是填空題,它們屬同一類題,只能按平均分,每題10分了?!蔽腋銈冋f(shuō)出了題目有難易的問題以后,你也許會(huì)感覺到這樣賦分有點(diǎn)不公平了,因?yàn)轭}目的難度不同,賦分值也應(yīng)該不同才對(duì),否則遇上上面那樣極端的例子,對(duì)孩子真的是不公平的,你不認(rèn)為是這樣嗎?
事實(shí)上,在平時(shí)我們命題的過(guò)程中,往往同一種題型中的每道題,賦分基本相同,如填空題、選擇題等。
也許你會(huì)提出反對(duì)意見:“也不全是呀,在平時(shí)命題中,同一份試卷里也有些是2分一題,有些是4分一題,有些是6分題,還有些是8分題、12分題,甚至有些是50分一題的呢?!笔堑?,我們確實(shí)發(fā)現(xiàn)有這種情況,但問題是,你是根據(jù)什么來(lái)確定題目賦分的差距的?
上面的情況在下面這張圖中都真實(shí)地出現(xiàn)了,即有的題目難度不同賦分卻相同,有的題目難度相同賦分卻不同,題目賦分差距沒有更充分的理由。這是一次真實(shí)的大型考試試題難度及賦分分布表,其中每題賦分及其難度系數(shù)如下:第1-14題以及18題,每題2分,難度系數(shù)從0.4到0.8左右的都有;第15-16題,每題3分,難度系數(shù)分別是0.6和0.4;第17題10分,第19-24題每題4分,難度系數(shù)從0.5到接近0.8;第25題50分,難度系數(shù)與第1、3、9、10題卻非常接近!
可能你會(huì)說(shuō):“容易的題目賦分那么高,是因?yàn)橄虢o那些基礎(chǔ)比較差的學(xué)生送點(diǎn)分,不至于讓考試成績(jī)那么難看,這叫‘送分題。其實(shí)呀,你都不知道,有時(shí)送分題還不一定能送得出去呢,他們就是不會(huì)做!”
這就是我們平時(shí)的考試,我們平時(shí)看到的多數(shù)情況下的考試。而且我們都會(huì)在不同程度上用這個(gè)考試成績(jī)來(lái)評(píng)價(jià)學(xué)生的學(xué)習(xí)水平和能力,評(píng)價(jià)老師們的教學(xué)水平,評(píng)價(jià)學(xué)校的教學(xué)水平和質(zhì)量。
我們并不是想說(shuō)目前的考試不好,而是想發(fā)現(xiàn)其中的奧秘,想知道該怎樣做才能讓我們的考試更具有可信性、有效性和科學(xué)性,從而使我們對(duì)學(xué)生的學(xué)業(yè)測(cè)評(píng)所下的結(jié)論更貼近真實(shí)。
問題2:我們考試的依據(jù)是什么?
說(shuō)起考試,在我國(guó)可謂歷史悠久,自隋朝的科舉考試算起,已有一千多年歷史。這一千多年來(lái),我們已經(jīng)將考試的功能與應(yīng)用進(jìn)行了大大的拓展,在國(guó)內(nèi)外都有大量的專家學(xué)者對(duì)考試進(jìn)行研究,得出了很多“理論化”的成果。比如大家所熟知的、已被廣泛運(yùn)用于中小學(xué)的學(xué)科考試,就可歸入“古典測(cè)量理論”或“經(jīng)典測(cè)量理論”。
人們認(rèn)為,要想了解一個(gè)人在某些問題上的知識(shí)、能力水平如何,就要有意識(shí)地提出一些問題給他去解答,然后通過(guò)他解答這些問題的實(shí)際情況來(lái)評(píng)判他的能力和知識(shí)水平,這就是“考試”。
專門研究考試的專家們認(rèn)為,如果通過(guò)考試能知道一個(gè)人的知識(shí)、能力或某種特質(zhì)的水平,那么考試所得分?jǐn)?shù)就是他在這方面水平的表現(xiàn)。雖然他們的真實(shí)水平在一定范圍和條件內(nèi)是不會(huì)改變的,但是,由于考試時(shí)會(huì)受到很多因素的影響,會(huì)存在一定的誤差,所以,考試所得分?jǐn)?shù)不能完全看成是他真實(shí)水平的表現(xiàn);又因?yàn)槟莻€(gè)誤差是隨機(jī)出現(xiàn)的,于是專家們想出了一個(gè)數(shù)學(xué)公式,用這個(gè)公式把他的真實(shí)水平分?jǐn)?shù)從考試所得的分?jǐn)?shù)中分離出來(lái),這就是X=T+E這個(gè)公式的由來(lái)。這個(gè)公式表明,在一次考試中,一個(gè)人的真實(shí)水平等于這次考試所得分?jǐn)?shù)與這次考試誤差值的和,X代表真實(shí)水平的分?jǐn)?shù),T是考試所得分?jǐn)?shù),E則是考試誤差值。由于E是隨機(jī)出現(xiàn)的,每次考試所出現(xiàn)的誤差值E有正有負(fù):當(dāng)E值為正值時(shí),說(shuō)明這次考試卷面成績(jī)低于他的真實(shí)水平,也就是我們平時(shí)所說(shuō)的“沒有發(fā)揮出真正水平”;如果E值為負(fù)值時(shí),卷面成績(jī)高于他的真實(shí)水平,就是我們平時(shí)所說(shuō)的“超水平發(fā)揮”了。由此我們知道了,無(wú)論是“沒有發(fā)揮出真正水平”還是“超水平發(fā)揮”,考試都不是一個(gè)人真實(shí)水平的全部表現(xiàn)。
比如,我們用一組如下的試題對(duì)一年級(jí)的小學(xué)生進(jìn)行兩位數(shù)以內(nèi)的加減法進(jìn)行掌握和運(yùn)用水平的測(cè)試。
假若某一學(xué)生在這次考試中所得分?jǐn)?shù)是95分,那么,他的真實(shí)分?jǐn)?shù)就應(yīng)該被表述成這樣一個(gè)式子:X=95+E。即學(xué)生的真實(shí)分?jǐn)?shù)X對(duì)我們來(lái)說(shuō)還是一個(gè)未知數(shù),我們只是知道了我們所看到的學(xué)生的卷面分?jǐn)?shù)95分,因?yàn)槲覀儾⒉恢滥莻€(gè)考試誤差值E具體是多少。要是在平時(shí),我們已經(jīng)將這個(gè)95分等同于這位學(xué)生的真實(shí)分?jǐn)?shù)了,其實(shí)不應(yīng)該是!
那我們要怎樣做才能得到考生的真實(shí)分?jǐn)?shù)呢?于是,專家們又做了一個(gè)假設(shè):若一個(gè)人的某種心里特質(zhì)(比如上面的小學(xué)一年級(jí)學(xué)生兩位數(shù)以內(nèi)的加減法運(yùn)算能力)可以用平行的測(cè)驗(yàn)方法反復(fù)測(cè)驗(yàn)足夠多的次數(shù)來(lái)獲得,那么他的這些測(cè)驗(yàn)所得分?jǐn)?shù)的平均值就會(huì)接近于他的真實(shí)分?jǐn)?shù)。利用這個(gè)假設(shè),如果我們對(duì)小學(xué)一年級(jí)學(xué)生兩位數(shù)以內(nèi)的加減法運(yùn)算進(jìn)行足夠多次的反復(fù)測(cè)驗(yàn)(如下表),那么,計(jì)算出這個(gè)學(xué)生的這些考試所得分?jǐn)?shù)的平均成績(jī),這個(gè)平均成績(jī)就相當(dāng)接近他的真實(shí)分?jǐn)?shù)了。
這樣求得的學(xué)生的真實(shí)分?jǐn)?shù),專家們有一個(gè)說(shuō)法,叫真分?jǐn)?shù)理論。
真分?jǐn)?shù)理論是最早實(shí)現(xiàn)數(shù)學(xué)形式化的測(cè)量理論。它興起于十九世紀(jì)末;到二十世紀(jì)三十年代趨于成熟,形成比較完整的體系;到二十世紀(jì)五十年代格里克森的著作使其具有完備的數(shù)學(xué)理論形式;到1968年洛德和諾維克出版《心理測(cè)驗(yàn)分?jǐn)?shù)的統(tǒng)計(jì)理論》一書,將經(jīng)典真分?jǐn)?shù)理論發(fā)展至顛峰狀態(tài),并實(shí)現(xiàn)了向現(xiàn)代測(cè)量理論的轉(zhuǎn)換。人們將以真分?jǐn)?shù)理論(True Score Theory)為核心理論假設(shè)的測(cè)量理論和方法體系,統(tǒng)稱為經(jīng)典測(cè)驗(yàn)理論(Classical Test Theory,CTT)。我們平時(shí)的考試就是以這一理論為依據(jù)進(jìn)行的,只不過(guò)在現(xiàn)實(shí)的應(yīng)用中我們并沒有像理論中所要求的那么嚴(yán)格和嚴(yán)密而已。
(責(zé)編 白聰敏)