侯杰泰 張珊珊
編者按以2007年11月30日國家基礎(chǔ)教育質(zhì)量監(jiān)測中心的成立為標(biāo)志,教育質(zhì)量測查、監(jiān)控迅速成為基礎(chǔ)教育界關(guān)注的一項重要工作。許多省、市開始成立教育質(zhì)量監(jiān)測中心。這是令人鼓舞的,表明教育發(fā)展與決策從此走上更加科學(xué)、理性的道路。但是,必須意識到,教育質(zhì)量測查與分析同時也是一個專業(yè)性極強的領(lǐng)域,由于其結(jié)果可能會成為重大教育決策的依據(jù),可能關(guān)系到地區(qū)及學(xué)校和教師的業(yè)績評價,因此必須審慎對待,必須以實實在在的研究為基礎(chǔ)。本刊將陸續(xù)刊載系列文章,就如何科學(xué)地開展學(xué)業(yè)質(zhì)量測評、如何使用測評結(jié)果、如何解讀數(shù)據(jù)等重要問題展開討論,希望引起讀者關(guān)注。
國家在作整體規(guī)劃時,需要掌握很多基礎(chǔ)教育數(shù)據(jù),以監(jiān)測、分析各項政策的成效并規(guī)劃未來,這是不言自明的道理。各國政府在教育規(guī)劃方面,除了搜集學(xué)生的升學(xué)率外,也積極關(guān)注學(xué)生的知識水平,例如美國自20世紀(jì)60年代就已經(jīng)開始這項工作,香港特區(qū)也有近20年的監(jiān)控數(shù)據(jù)。
各國政府每年用科學(xué)的取樣方法,測查中小學(xué)多個年級的學(xué)生在一些主要學(xué)科上的表現(xiàn),從而了解整個國家以及不同地區(qū)學(xué)生的能力水平,然后制定相應(yīng)的教育政策。這有點類似教育上的人口普查,是任何國家不可或缺的數(shù)據(jù)。
學(xué)業(yè)質(zhì)量分析系統(tǒng)的功能
美國自19世紀(jì)60年代起進(jìn)行國家教育進(jìn)展評估(NationalAssessmentofEducationalProgress,簡稱NAEP)。簡單說來,就是每年由美國政府委派研究人員(現(xiàn)為ETS),用科學(xué)的取樣方法,在全國各州抽取小學(xué)四年級、初中二年級以及高中三年級的學(xué)生,參加各個學(xué)科(閱讀、數(shù)學(xué)、科學(xué)、寫作、歷史、地理、公民、美術(shù))的考試。
該評估主要報告各州學(xué)生在這些學(xué)科上的表現(xiàn),但測量結(jié)果不反饋給具體的學(xué)校及學(xué)生,因此這種測試對學(xué)校和學(xué)生來說是低利害的。當(dāng)然,各科成績的總和就是美國教育部長及總統(tǒng)的個人成績表了。所以,NAEP又稱為國家成績表(NationsReportCard),對各州及聯(lián)邦政府來說是高利害的,因為人們可對各州政府以及美國總統(tǒng)能否提升學(xué)生的學(xué)業(yè)成績一目了然。
對于中國,因為無需了解每名學(xué)生的學(xué)業(yè)表現(xiàn),所以,正如教育部基礎(chǔ)教育課程教材發(fā)展中心的“中小學(xué)生學(xué)業(yè)質(zhì)量分析”項目中采取的辦法一樣,我們只要對學(xué)生抽樣測查便可。技術(shù)上,我們可以向不同層面的參與者(如學(xué)生、學(xué)校、省市部門),計算并提供他們單位(如學(xué)校、區(qū))或個人(如學(xué)生)的成績表,至于應(yīng)不應(yīng)該這樣做則有待下面再作分析。
對于參加考核的學(xué)生,我們可以告訴他在該學(xué)校、該省市以及全國學(xué)生中的相對位置,當(dāng)然我們也能提供一些更詳盡的個人學(xué)業(yè)成績分析。
同理,只要學(xué)校內(nèi)參加考試的學(xué)生人數(shù)足夠多,且有代表性,我們也可以提供該校的成績報告,甚至和其他省、市作相對水平分析。如此類推,我們可以提供各省、市以及全國的表現(xiàn)分析。
按道理,各級報告可以協(xié)助學(xué)校、省、市以及教育部門的相關(guān)領(lǐng)導(dǎo),去制定教育政策,策劃教育改革。不過,在強調(diào)政策透明及問責(zé)的社會環(huán)境下,各級報告也自然會成為有高利害關(guān)系的數(shù)據(jù)。正如在提倡控制人口的政策下,各省、市的人口數(shù)字報表也必然成為各地政府控制人口工作成效的高利害關(guān)系報告。
測查是否會給學(xué)生帶來不必要的壓力及負(fù)擔(dān)
高利害關(guān)系的考試,常會錯誤地引導(dǎo)學(xué)生及教師將所有精力都用于操練考試題上去。尤其是紙筆考試模式,永遠(yuǎn)無法囊括所有教學(xué)內(nèi)容及重點,所以社會上及教育界也普遍彌漫著反對考試的氣氛,這是可以理解的。再者,頗多學(xué)者相信,中國乃至亞洲是比較重視考試成績的,那么我們這個學(xué)業(yè)質(zhì)量分析系統(tǒng),是否會給學(xué)生帶來不必要的壓力及負(fù)擔(dān),而根本就不應(yīng)該開展呢?
一般說來,這個系統(tǒng)只是對各省、市及國家教育政策制定者有高利害關(guān)系,對學(xué)生及家長并無直接的影響。而缺乏這種學(xué)生學(xué)業(yè)的質(zhì)量分析數(shù)據(jù),在重大教育規(guī)劃上,就無所依據(jù),容易變?yōu)閭€人喜好、片面經(jīng)驗與猜度。因此,學(xué)業(yè)質(zhì)量分析系統(tǒng)仍是需要的,但如何避免這一系統(tǒng)異化,妨礙學(xué)生正常學(xué)習(xí),卻是值得留意的,也是本文的討論重點。
教育界亦有人用養(yǎng)豬作比喻,說我們不斷地稱豬(即考試),并不會令豬更肥(即增加學(xué)生的知識)。從學(xué)習(xí)動機理論來看,這不一定是對的。尤其是近年來我們極為重視學(xué)生自我調(diào)控自己的學(xué)習(xí)。教會學(xué)生自己學(xué)習(xí),就等于教會他們?nèi)绾吾烎~,比只送魚(灌輸知識)給他們更為重要,這些說法及理論在很大程度上主導(dǎo)著我們當(dāng)前的教學(xué)策略。
既然如此,學(xué)生若沒有一個很好的學(xué)習(xí)反饋系統(tǒng)(如考試),他們?nèi)绾沃雷约簩W(xué)得怎樣呢?也就是說,在某一階段的學(xué)習(xí)結(jié)束以后,學(xué)生應(yīng)該可以參加某些測評及考試,讓他們看見自己的進(jìn)步。
這就正如我們想減肥,若我們不去買一個秤,不斷監(jiān)測自己體重的變化,我們又怎會減肥成功呢?如果我們看見自己某些減肥方法有成效,便是非常正面的反饋,可以推動我們繼續(xù)采用那些痛苦而有效的減肥方法。
簡而言之,經(jīng)常進(jìn)行有效的學(xué)習(xí)評估及分析,對學(xué)生學(xué)習(xí)并無害處,這是學(xué)生了解自己進(jìn)度的正面反饋。我們不愿看到的只是過多高利害的妨礙性考試。
如何平衡及處理高、低利害的影響
只要我們提供及公布某一級(學(xué)生、學(xué)校、省市)的成績表,該成績表就變?yōu)樵摷墸▽W(xué)?;蚴∈校┑母呃﹃P(guān)系報告了。
我們的思考重點是清晰的,我們必須要問:(1)該高利害關(guān)系的報告帶來的好處多還是壞處多呢?(2)這是必需的措施嗎?是否有其他方法替代?(3)對學(xué)生的學(xué)習(xí)會產(chǎn)生什么正面或負(fù)面的影響呢?
我想上述第3個問題是公眾最關(guān)心的,也就是說,我們所設(shè)計的系統(tǒng)絕對不應(yīng)提供一個對學(xué)生有高利害關(guān)系的成績報告。有任何可能被誤用、使之變成高利害關(guān)系的報告,都應(yīng)該避免及禁止。若禁止不了,就需要暫時考慮不開展這個質(zhì)量分析,這是最基本的原則。(注:美國的《不讓一個兒童落后》(NCLB)法案提供個別學(xué)生成績表,與NAEP及我國正開展的學(xué)業(yè)質(zhì)量分析系統(tǒng)不同;NCLB對學(xué)生是高利害的,而NAEP及我們的系統(tǒng)對學(xué)生是低利害的。)
我國正開展的學(xué)業(yè)質(zhì)量分析系統(tǒng)中,包含國家及省級的成績報告。這些報告當(dāng)然會對參加測試的各省、市相關(guān)教育部門的領(lǐng)導(dǎo)構(gòu)成壓力,但我認(rèn)為這是管理及規(guī)劃教育不可缺少的資料依據(jù),不能因為高利害關(guān)系而不去搜集。不過我完全同意,在今天各省、市所能投入的教育資源仍有巨大差距時,不必像美國一樣將各州學(xué)生的教育成績用總表一目了然地去展示。因為這種將中國各省、市比較的做法,害處可能多于好處。不過在中國教育機構(gòu)的相關(guān)負(fù)責(zé)人有了這些數(shù)據(jù)后,可有所依據(jù),從而有針對性地做一些輔助落后地區(qū)的決策,并可了解這些增加的資源對于提高教育質(zhì)量的成效,因此收集數(shù)據(jù)是有用及必須的。
教育行政部門是否會為了提高本轄區(qū)內(nèi)中小學(xué)在學(xué)業(yè)質(zhì)量監(jiān)測中的成績,而下令或誘使各校學(xué)生加強無謂的考試操練呢?我們深信若有這類政策或命令,各學(xué)校及公眾一定會知悉并提出抗議的。教育行政部門必須從根本改善整體教育素質(zhì)及學(xué)習(xí)條件的角度,慢慢提升整個轄區(qū)學(xué)生的成績。
那么我們是否應(yīng)向下一級市、縣、村等教育部門發(fā)放他們的成績表呢?一個簡單的決策原則是:他們不會為了提高成績,而讓學(xué)生過分操練。我們當(dāng)然贊成各級領(lǐng)導(dǎo)因為不滿意學(xué)生的成績,而整體地改善教學(xué)及學(xué)習(xí)環(huán)境,但我們害怕的是大家僅集中于操練考試題目。
依循上述思路,在今天的國情下,社會、學(xué)校及家長都非常重視學(xué)生的成績,我們并不贊同向?qū)W校發(fā)放個別學(xué)校的成績。至少在開展質(zhì)量監(jiān)測的初期,不能對學(xué)校提供一些高利害關(guān)系的報告。
那么,我們是否能夠私下秘密地向?qū)W校提供他們自己的成績表,從而降低這種高利害關(guān)系的負(fù)面影響呢?對此我們抱懷疑態(tài)度。因為學(xué)校間會通消息,操練試題的壓力也會逐年上升。在香港的同類監(jiān)測中,曾有教師于考試進(jìn)行中作弊,在黑板寫下答案供自己的學(xué)生抄下以提高分?jǐn)?shù),可惜因為教師提供的答案錯誤,致使整班學(xué)生錯誤相同而最終被教育行政部門發(fā)覺。
由此可見,雖然在技術(shù)上,我們完全可以向?qū)W校提供該校的成績報告以及其他各項詳細(xì)的比較分析資料,讓他們知道學(xué)生能力強弱所在,但這一做法肯定會使學(xué)校及教師感到極大的壓力。就算我們盡力將每一所學(xué)校的資料保密,只向該校提供數(shù)據(jù),教師也很有可能會將正常課程改為集中于操練考試題目,從而干擾日常教學(xué),這實在是得不償失。
在開展教育質(zhì)量分析的初期,任何有關(guān)學(xué)校的成績表,肯定會影響學(xué)校內(nèi)的教學(xué),在中國強調(diào)考試成績的文化下,不宜操之過急。綜觀國外,亦有向各學(xué)校甚至公眾派發(fā)每一學(xué)校成績表的,目的在于向社會及公眾問責(zé)。也有一些國家立法,雖然學(xué)校知道自己的表現(xiàn),但不允許將這些資料公開,以免因惡性競爭扭曲學(xué)校的課程。簡而言之,在中國,學(xué)校層面的數(shù)據(jù)暫時應(yīng)該保密,待日后教育資源增多,學(xué)生升學(xué)機會大大增加,學(xué)校間的競爭降低,且各學(xué)校所獲的教育資源相差不遠(yuǎn)時,我們可以考慮將這些質(zhì)量分析系統(tǒng)的數(shù)據(jù),作學(xué)校問責(zé)之用。
如何抽測、跨年比較及評價
由以上分析可知,若此學(xué)業(yè)質(zhì)量分析系統(tǒng)并不用于評價學(xué)校,我們就不必對每一所學(xué)校每年均進(jìn)行測試,只要在省、市或區(qū)、縣抽取學(xué)校樣本便可。
課程一般覆蓋范圍甚廣,但每一名學(xué)生作答的時間不能太長,例如,若要全面考核某年級的數(shù)學(xué)課程要點,學(xué)生須回答一份3小時的試題,但因為這類考試并不向個別學(xué)生報告結(jié)果,學(xué)生自然沒有興趣去盡力回答一份長達(dá)3小時的試卷,因此,在不同國家,通常將試卷分為多份較短(如每份40分鐘)的試卷,每一位被抽選到的學(xué)生只需回答其中一份短試卷。
此外,我們也會周期性地改變每年考核的重點。例如,科學(xué)并不是每年必考科目,我們只會每3年一次,普查及分析學(xué)生的科學(xué)知識。
因為該系統(tǒng)無需仔細(xì)地考查學(xué)生每年的學(xué)習(xí)表現(xiàn),所以在不同國家的同類系統(tǒng)中,我們通常只需測查中小學(xué)課程中某兩三個年級便可(例如小學(xué)三年級、六年級、初中三年級)。
在這個學(xué)業(yè)質(zhì)量分析系統(tǒng)中,我們會用一些國際通用的測量方法來對數(shù)據(jù)進(jìn)行分析,形成報告,從而令公眾更容易明白全國或省、市的表現(xiàn),而且就算每年試題難度有異,我們?nèi)匀豢梢员容^不同年份的分?jǐn)?shù)及成績。
假設(shè)每份考卷滿分是100分,我們永遠(yuǎn)無法主觀地控制考卷的難易度,令每年的難度都相同。每年試題的深淺永遠(yuǎn)會有波動。在一些大型考試(如托福、SAT等)中,我們會通過另外一些保密試卷的等值研究,如找一些考生同時考兩份試卷等,使不同年度的試卷可以轉(zhuǎn)換到同一個難度單位上,使不同年度的80分代表相同的能力。
此外,絕對分?jǐn)?shù)(如80分)很多時候并無多大意義。若我們每年均用一份較淺的試題,那么必然有較多人得到80分以上。因此,在這類大型學(xué)業(yè)質(zhì)量診斷系統(tǒng)中,我們通常會用一些國際測量學(xué)家所公認(rèn)的方法,去設(shè)定“優(yōu)異”、“良好”、“合格”等標(biāo)準(zhǔn)。例如在某年級的數(shù)學(xué)學(xué)科中,我們會邀請一些教師、學(xué)科專家、學(xué)者甚至家長,去找出某個分?jǐn)?shù)分割點(如83分),作為他們心中優(yōu)異的標(biāo)準(zhǔn)。所以在報告這類學(xué)業(yè)質(zhì)量分析系統(tǒng)的結(jié)果時,除了列出考生的平均分、標(biāo)準(zhǔn)差等描述性統(tǒng)計資料外,我們也會報告獲取“優(yōu)異”、“良好”、“合格”等人數(shù)的百分比。
我們必須明白“優(yōu)異”、“合格”等標(biāo)準(zhǔn)是一個主觀的判斷,測量學(xué)界有一套公認(rèn)的方法協(xié)助我們設(shè)定這些等級的分割分?jǐn)?shù)(例如,83分以上是優(yōu)異)。即便如此,這類學(xué)業(yè)質(zhì)量分析系統(tǒng)的報告仍然十分倚重跨年、跨不同地區(qū)(省、市等)的比較,去了解及分析教學(xué)質(zhì)量的好壞。
例如,某城市40%的學(xué)生獲得優(yōu)異,那么這算是滿意還是亟需改善的成績呢?假設(shè)我們得知,很多背景相近的城市,均有70%以上學(xué)生獲得優(yōu)異,那么40%優(yōu)異算不了什么。同理,假設(shè)該城市去年及前年均有60%學(xué)生達(dá)優(yōu)異,若今年在教育改革后只有40%學(xué)生獲優(yōu)異,我們必定十分焦急地去找出問題所在。因此,在這類學(xué)業(yè)質(zhì)量分析系統(tǒng)中,跨學(xué)區(qū)、省、市及年份的比較才能提供較有用的資料。也正因為這樣,中國也必須盡快建立這個系統(tǒng)及數(shù)據(jù),以便日后比較之用。
可否測查基本教學(xué)以外的內(nèi)容及道德水平、學(xué)習(xí)興趣等
為了減輕這類學(xué)業(yè)質(zhì)量分析系統(tǒng)對日常教學(xué)的影響,一些教育界人士要求考核內(nèi)容只限于一些最基本的教學(xué)重點,也就是說,若學(xué)生能回答這些最基本的問題,我們的教學(xué)就算成功。此外,這些教育界人士也認(rèn)為,就算學(xué)生不斷操練這些基本內(nèi)容,也是有益無害的。因此,他們建議整份試卷應(yīng)該全是較淺的最基礎(chǔ)的教學(xué)重點。
但這類考核方法導(dǎo)致的問題甚多。首先我們無法用這個系統(tǒng)監(jiān)控能力中等或能力稍高學(xué)生的能力變化,花費巨大的質(zhì)量分析系統(tǒng)的效能大大減弱,能提供的有用信息太少。此外,因為試題全部偏向淺易,區(qū)分度低,信度等測驗特性均不會理想。
較可取的方法是多加插一些中等難度甚至部分較難的題目,但若真的需要減輕學(xué)校及學(xué)生的壓力,我們只需簡單報告合格與不合格的人數(shù),而不再細(xì)分優(yōu)異等級,免得誘使學(xué)校及學(xué)生操練去追求更高的等級,但我們無需因此而將試題全改為較易的基本題目。簡單而言,若果真需要減輕學(xué)生的壓力,那么在開展這個學(xué)業(yè)質(zhì)量分析系統(tǒng)初期,我們只區(qū)分合格與不合格即可,待日后再擴(kuò)展為優(yōu)異、良好、合格等更多等級。
學(xué)生成績是教學(xué)過程中的“產(chǎn)出指標(biāo)”(即教學(xué)成果)。對于教育政策的制定者來說,他們更希望找出導(dǎo)致成績高低的原因。因此,我們通常也要求參加測試的學(xué)生填寫一份問卷,回答一些家庭背景、種族、學(xué)習(xí)態(tài)度(如每天看電視、做功課時數(shù)),甚至學(xué)校、教學(xué)的問題(如老師的教學(xué)方法)。不過在解釋這些相關(guān)數(shù)據(jù)時要格外小心,以免因錯誤解釋結(jié)果而導(dǎo)致定出一些無效的教育政策。
既然操練試題會產(chǎn)生不良的效果,單純監(jiān)控學(xué)生學(xué)業(yè)成績有其局限性,并且會扭曲我們的教學(xué)目標(biāo),很多教育界人士自然會希望我們能設(shè)計更多樣的系統(tǒng),可以去分析學(xué)生的道德水平、體能及學(xué)習(xí)興趣、創(chuàng)意等方面的能力或水平,充分了解學(xué)生個人的整體發(fā)展,也可減少局限于學(xué)業(yè)測驗的操練。
這一思路未必可行。用一些簡單問卷去了解學(xué)生的精神健康、生活習(xí)慣,當(dāng)然可行,但我們須明白絕大部分這類題目的心理特性,從來不足以作這種監(jiān)控用途。簡單舉例來說,學(xué)術(shù)文獻(xiàn)內(nèi)至今沒有僅憑一些調(diào)查問卷的題目,便可有效地測量學(xué)生的學(xué)習(xí)動機。因為動機涉及的概念太多,難以簡單測量。
我們選取另一重要的教學(xué)成功指標(biāo)“自信”為例加以說明。研究顯示,自信頗受同班同學(xué)能力的影響,也就是說,一名就讀于重點學(xué)校的學(xué)生,他的自信遠(yuǎn)低于另一名能力相同,但就讀于平均能力較差學(xué)校的學(xué)生(簡稱“大塘小魚效應(yīng)”)。通過測查學(xué)生自信去了解誰的教學(xué)更有成效,在學(xué)理上是極其復(fù)雜的。
此外,學(xué)生在學(xué)業(yè)測驗上,除了作弊外,無法或者說很難通過偽裝便可提高分?jǐn)?shù)。但在不同類型的態(tài)度問卷(如,我是否喜歡學(xué)習(xí))中,只要在教師暗示或誘導(dǎo)下,所有學(xué)生填答自己極有興趣學(xué)習(xí),輕而易舉。也就是說,學(xué)生很難在學(xué)業(yè)測驗上“作弊”,但在態(tài)度問卷上卻非常容易。
因此,用態(tài)度問卷作學(xué)術(shù)研究是可行而且必需的,但若用于大面積常規(guī)性的學(xué)業(yè)質(zhì)量分析系統(tǒng),應(yīng)從長計議。國際經(jīng)貿(mào)組織(OECD)的學(xué)生能力國際評估計劃(ProgrammeforInternationalStudentAssessment,簡稱PISA),其國際間學(xué)業(yè)質(zhì)量比較包含動機及學(xué)習(xí)態(tài)度問卷,但只限于用來解釋學(xué)業(yè)成績表現(xiàn)的相關(guān)變量,而非用于嚴(yán)謹(jǐn)?shù)谋容^及找出哪個國家的學(xué)生動機更強等的分析。
總而言之,在省、市及全國測查及分析學(xué)生的學(xué)業(yè)質(zhì)量是刻不容緩,愈早開展便能愈早提供一些穩(wěn)定數(shù)據(jù),可作日后教育發(fā)展及規(guī)劃的依據(jù)。這個系統(tǒng)的設(shè)計必須經(jīng)過詳細(xì)的論證,以減低對正常教學(xué)的干擾。我們不能期望這個質(zhì)量分析系統(tǒng)亦能發(fā)揮日常教學(xué)反饋之用(如,提供學(xué)生學(xué)習(xí)上的診斷性報告)。至于怎樣利用類似的方案作個別學(xué)生的學(xué)習(xí)反饋及診斷,則是另外一個日后可再作探討的問題。
(作者分別系香港中文大學(xué)教育心理系主任、首席教授,教育部基礎(chǔ)教育課程教材發(fā)展中心職員、教育學(xué)碩士。作者注:教育部基礎(chǔ)教育課程教材發(fā)展中心于2008年4月在上海召開了“中小學(xué)生學(xué)業(yè)質(zhì)量分析”研討會,侯杰泰教授應(yīng)邀在大會上作主題發(fā)言,本文是在大會演講稿的基礎(chǔ)上由作者改寫而成。)