●王映學
學生學業(yè)結果評估是課堂學業(yè)活動的重要組成部分,也是衡量學生學習結果的主要方式。學業(yè)測驗與評價倫理涉及對學生學業(yè)評估的價值關懷,涉及學業(yè)評估的后效。本文討論三個問題:相關的幾個概念、學業(yè)測驗與評價倫理的具體表現(xiàn)及其反思。
涉及測驗與評價倫理的概念比較多,這里主要討論兩組概念:一是測量、測驗和評價;二是測驗與評價的價值和倫理。
早在20世紀40年代,史蒂文斯(Stevens,1946)就指出,測量是按照規(guī)則對客體或事件賦以數(shù)字的過程,依據(jù)不同規(guī)則賦值就出現(xiàn)不同形式的量表和測量。[1]根據(jù)測量屬性的不同,可以將測量分為心理測量和教育測量:前者關注個體的心理特質(如人格、IQ等),是對個體心理狀態(tài)的刻畫與描述;后者則通過確定個體的優(yōu)勢與不足,主要聚焦個體在教育方面的進步。換言之,心理測量指向個體之“實然狀態(tài)”,而教育測量指向個體之“可能”甚或“應然狀態(tài)”。心理測量旨在為個體安排適當?shù)耐獠扛深A條件提供依據(jù),教育測量旨在衡量滿足某種適宜條件之后出現(xiàn)的預期變化。
測驗是測量一個行為樣本的系統(tǒng)程序。[2]內容包括測驗思想及目的的確定、測驗的編制、測驗的實施以及測驗結果的分析與反饋;測驗涉及的對象范圍通常很大,但我們常常從中抽取有代表性的部分作為考察的樣本;從完整的測驗程序講,測驗包含了前面提及的測量。
而評價則是基于測量或測驗的結果,依據(jù)一定的準則進行價值判斷的過程。對評價的理解,有的關注結果,有的關注過程。關注結果的評價主要偏向通過評價確定教育目標或教育計劃的實現(xiàn)程度[3],或評價學習者實際上是否發(fā)生了某些變化,確定學生個體變化的數(shù)量或程度。[4]關注過程的評價則強調評價對一個計劃、項目、服務或其他感興趣對象之優(yōu)點或價值的系統(tǒng)考察,是描述、獲得并提供有用信息以判斷決策方案的過程[5],并認為任何教育評價都包括背景、輸入、過程以及成果的評價。[6]
概言之,測量涉及對測量屬性的數(shù)字賦值,測驗指向從測驗目的確定到測驗結果分析之全程,而評價則關乎以一定標準對測驗結果的判斷和解釋。
學業(yè)評價一般涉及四個基本問題:做什么,怎么做,做得對嗎,做得有效嗎。[7]這自然就涉及學生學業(yè)測驗與評價的兩個基本問題,即測驗與評價的倫理與價值。凡被稱為“教育”的活動,須同時滿足兩個標準:一要傳遞有價值的內容;二要采取道德上可以接受的方式。[8]前述測量、測驗及評價,均涉及學生學業(yè)結果評估中的人或事,因此對價值的追求與倫理的堅守是學業(yè)評估的應有之義。
“價值”包含兩層含義:一是內在價值,即事物本身有優(yōu)異性;二是外在或功用價值,指其優(yōu)異性能滿足一定的需要。學業(yè)測驗與評價涉及的價值和倫理不同:倫理是義務與美德的標準,表明個體應該按照是非原則行事;價值是引導并激勵我們態(tài)度與行為的信念。[9]評價主要涉及兩個領域,一是技術與科學領域,主要采用經(jīng)濟學、社會科學以及統(tǒng)計學等學科的測量方法分析活動、目標與對象;二是價值與目標領域,更多涉及評價方案的道德與倫理以及是否完成等問題。[10]前者確保對客體本真的接近與認識,可以幫助我們了解測量對象的基本屬性;后者確保對測量目的、過程及結果合乎價值的關注。如果說技術領域引領測量基礎,那么價值領域則確保測量的方向與正當性。價值與倫理之間常常存在某種張力甚至矛盾,而且前者相對規(guī)范簡單,后者顯得復雜而混亂。
有些價值關乎倫理,有些價值在倫理方面是中立的。就涉及倫理的價值而言,可以分為核心倫理價值和文化與個人倫理價值[11],前者是倫理決策的基礎,無論時間、文化及宗教如何不同,這些價值都是全人類普遍接受的基本價值;后者是與宗教信念、文化傳統(tǒng)、政治哲學、商業(yè)或專業(yè)標準及實踐有關的是非方面的信念,這些非核心倫理價值隨時間推移及不同職業(yè)、文化、宗教和個體而變化。有研究者直言,倫理的第一原則是不傷害他人。[12]置于課堂情境,任何與評估有關的教育活動不能傷害學生,不能對其后繼的學習活動產(chǎn)生消極影響。
綜上,學業(yè)測驗與評價的價值關注評價的功能與意義,側重對學生學業(yè)結果評估需求的滿足;而學業(yè)測驗與評價倫理則追求活動的道德關懷,聚焦學業(yè)評估的人文后效。
教育教學實踐中的學業(yè)測驗與評價倫理表現(xiàn)各具形態(tài),因而形化為不同的教育生態(tài)。有人將中小學評價中違反倫理的現(xiàn)象概括為四種情形:一是排名并張榜公布學生的考試結果,二是對學生的綜合素質大都給予“優(yōu)秀”等級的“千人一面”式評價,三是以學生學業(yè)成績外推學生品德的發(fā)展,四是評價旨在應對各種檢查或是社會公眾對信息公開化的要求。[13]
本文主要從分數(shù)污染、項目功能差異及對學業(yè)結果的不當解釋和使用三方面說明學生測驗與評價中涉及的倫理問題。
任何提高成績但未能同時提高學生對內容實際掌握程度的考試,都會產(chǎn)生分數(shù)污染,即測驗成績增高卻與要測量的結構沒有關系,亦即出現(xiàn)與結構無關的測驗成績變異。分數(shù)污染是“手段-目的”異化的表現(xiàn),即過于看重學生學業(yè)成績的時候,就會出現(xiàn)學業(yè)變化程度讓位于衡量這一變化的外部指標的現(xiàn)象。造成分數(shù)污染的原因各種各樣,就教師對學生的學業(yè)成績評定而言,通常表現(xiàn)為以下三類。[14]
一是“慷慨偏差”,即教師的偏差導致超越正當?shù)母叱煽冊u定,這類教師往往能在沒有好的地方也能看到“好”的一面,多出于教師良好的愿望,因而容易出現(xiàn)“負偏態(tài)”的成績分布,這類評定對高成績學生的辨別力比較差。以下即是一例:我有時會給某些成績不佳的學生高于其應得的分數(shù),因為我認為這樣做會讓他們處于“我能做到”的狀態(tài);我也會根據(jù)學生在學習上付出的努力程度給一些學生打分;我給勤奮但效果不佳的學生予以寬限評分,也以高分誘惑作為激勵手段,作為讓學生更加努力學習的一種方式。[15]
二是“嚴苛偏差”,即教師往往有低估學生作業(yè)質量的傾向,在成績評定中傾向于作低于實際得分的評定,因而出現(xiàn)“正偏態(tài)”的成績分布,這類評定對低成績學生的鑒別力較差。出現(xiàn)這類分數(shù)污染,通常與教師的評分傾向(一貫評分習慣、個人心境等)或與特定的評價對象(成績不良、不討教師歡心或作業(yè)表達形式欠佳)相關聯(lián)。
三是“居中傾向偏差”,即教師居中評分(平均分),避免給高分或低分,喜歡“更加保險”的中分評定,這類評定通常出現(xiàn)“正態(tài)”的成績分布,對中等學生的分辨力較差。
學生學業(yè)測驗與評價中的分數(shù)污染存在學科間的差異。研究人員基于監(jiān)測與現(xiàn)場調研發(fā)現(xiàn),就評分尺度而言,社會科學考試科目比自然科學考試科目在不同閱卷點更容易出現(xiàn)寬嚴差異。[16]同樣一道地理題,讓91位教師評閱,評分差距在2~20分之間;[17]同一份語文卷,省份之間的評分差距高達33分,省內的評分差距高達23分,其中滿分45分的作文,評分差距竟然高達27分![18]
項目功能差異(簡稱DIF)關注的是測驗題項中的偏差問題,任何公平測驗的特征之一是無偏差,任何存在偏差的項目測驗自然難以保證測驗的公平性,而不能確保公平的測驗必定涉及倫理問題。不幸得很,在學生學業(yè)測驗中常常存在著各種形式的測驗偏差,即測驗項目(內容)、測驗方法(技術)對考生某一特質測試得分的影響,測驗內容與測驗方法的變化會直接影響學生在測驗中的表現(xiàn)。
DIF關注的問題是測驗項目對不同文化背景和學習經(jīng)驗的考生的“等值”問題。等值是測量學的概念,指考試成績可用于對不同考生作出比較性推論的程度。[19]其實,這個問題德國心理學家艾賓浩斯(Ebbinghaus)在研究記憶問題時就注意到了:為了排除學習者已有經(jīng)驗對學習新材料的影響,他創(chuàng)編了許多無意義音節(jié)(如QAJ、MOF、GET等),但他很快發(fā)現(xiàn),這些“無意義”音節(jié)對不同學習者也構成不同意義,即原本在測量中要做到等值的音節(jié)并不等值。我們現(xiàn)在討論的DIF也正是這個問題,即測驗項目功能不等值或者因項目功能差異而引發(fā)的一種測驗偏差,它是衡量測驗公平性的一個常用指標。
如下面一道數(shù)學題:小麗上樓時從一樓跑到六樓,一共用了45秒,平均每層用時多少秒?就這樣涉及均數(shù)計算的一道數(shù)學題,有無相關的居住經(jīng)驗,將對學生構成不同的測驗偏差,即測驗項目考察的不僅是求“平均數(shù)”,而且測查受測者有無樓宇居住的經(jīng)驗。近年來,一些引發(fā)熱議的高考作文題目,如2017年全國卷Ⅰ“中國關鍵詞”、2016 年浙江卷《虛擬現(xiàn)實》、2016年北京卷二選一大作文題《“老腔”何以讓人震撼》以及2015 年全國卷 I《給違反交規(guī)父親一封信》等[20],大多涉及我們這里討論的DIF。
如果來自相同能力水平的兩組被試對某一題項正確回答的概率不同,那么這個題項便存在DIF;或者總體上有著相似能力或狀態(tài)的不同群體的考生,對特定項目出現(xiàn)系統(tǒng)性不同應答時,便出現(xiàn)DIF。[21]判斷是否存在DIF,主要看以下三點:一是受測學生有相同或相似的能力水平;二是因學生個人經(jīng)驗對測驗項目的擬合程度,其成功的機會不同;三是這種不同并非緣于與測驗效度有關的能力結構,而是測驗題項與應試者已有經(jīng)驗的關聯(lián)度所致。
一般而言,單一維度(如寫一封信、求平均數(shù))時不會出現(xiàn)DIF;在兩個或兩個以上維度(求平均數(shù)+樓宇居住經(jīng)驗或電表讀數(shù))時才有可能出現(xiàn)DIF。[22]參加過英語四六級考試的學生常常會在考后提及類似的問題,即閱讀部分對學某專業(yè)的學生特別有利,即測驗中的DIF問題,是因為這類閱讀測驗既涉及英語閱讀能力的測量,也涉及特定專業(yè)知識的測量。
同樣的結果,可以進行不同的解釋,也可以當作不同的用途。因此,對學業(yè)結果的不同理解、解釋及使用就出現(xiàn)萬千生態(tài)。
1.排名公布
對學生學業(yè)結果排名并公布是我們司空見慣的一種教育圖景。其表現(xiàn)形式多種多樣,并成為教育資源分配的依據(jù)與標簽。
一是班級內排名比較。將學生階段內的單科或綜合成績按原始分數(shù)累加進行排序,并將排序結果張貼于教室前后比較醒目的位置。不僅如此,教師往往會以此為據(jù)進行相應的教育資源配置。請看學生的報告:在我的小學,教師曾經(jīng)采用過這樣的方式:如果考試成績在班級排名前五名,就可以免去假期作業(yè),五名之后的學生可適當減免。盡管小學的作業(yè)并沒有那么多,我也會在考試時認真復習,爭取取得好成績,以免去作業(yè)之苦。而且,老師還給成績名列前茅的同學一項特權:優(yōu)先挑選自己喜歡的座位……筆者認為,這種個體間的成績排序,滿意的可能只有排名第一的那一位!且伴隨其愉悅體驗更多的是壓力與焦慮。學校或教師的任何教育活動應當是面向全體的、普惠的,而上述排名法對大多數(shù)尤其是排名偏后學生造成的傷害不言而喻。
二是校內班級間排名比較。這常常是基于學生階段內的學業(yè)測驗結果,以班級為單位進行的成績綜合排名,往往張榜于校內比較醒目的位置。以這樣的方式公布學生學業(yè)成績,看似班級同學間的比較,實質上多指向教師或班主任之間的比較:通過排名,旨在說明班級任課教師或班主任之間的工作績效,其后效是影響教師及師生之間的關系。請看例證:記得在我剛上小學的時候,考試成績總是倒數(shù)、不及格,拖班級后退。有一天,班主任語文老師指著黑板上的成績單,生氣地說:“這次我們班的總成績下降了很多,年級排名也下降到第四名。主要原因在于那幾個倒數(shù)的同學,成績真的太差了,老師對你們這些學生也不抱什么期待,不指望你們考多么高的分,但你們能不能有點上進心,不能總拖班級后腿吧?” 我當時滿臉通紅,恨不得立馬逃離教室。
三是校際之間的排名比較。往往由上級教育主管部門或第三方評估機構通過網(wǎng)絡的形式進行公布,從而形成一定的社會輿論,對學校的辦學產(chǎn)生一定的影響和壓力。過去的重點校、如今的星級中學都是這類以學生學業(yè)結果為主要評價指標的變相排名。其結果常常會以教育資源分配轉移的方式體現(xiàn)在校際之間。請看例證:(重點學校)各學科至少有1/3比較有經(jīng)驗的骨干教師。要盡快配齊所缺的主要學科的骨干教師,特別是外語教師……高等師范院校的畢業(yè)生要由省、市、自治區(qū)教育廳(局)擇優(yōu)分配給重點中學……重點中學的骨干教師比一般學校多,今后調整工資或晉級等,比例應大于一般學校。[23]
2.不當推論
學生學業(yè)結果是學生因經(jīng)驗而發(fā)生的變化,這種變化表現(xiàn)為認知、情感及動作技能三個領域。同一領域如認知領域的變化,有的測量多涉及知識及理解方面的低層次變化,有的測量則涉及分析、綜合與創(chuàng)造方面的高層次變化。以某次或階段內學生學業(yè)結果進行不當推論,會衍生各種各樣的教育倫理問題。具體表現(xiàn)如下。
一是同一領域不同層次的推論,即以基礎知識和基本技能測量結果推論學生學習能力的評價,即以低層次測量結果推論學生高層次學業(yè)結果,我們經(jīng)常提及的“高分低能”之偏論[24]實質上就涉及這樣的情形。
二是不同領域間的錯位推論。即以學生某一學科領域的測量結果推論另一完全不同領域的個體性向或品質,如以學生學科考試結果(多反映認知領域的變化)推論學生思想品德(即情感領域),并由此將學生分為“好學生”和“差學生”等。
三是不同情境之間的預測式推論,即以課堂學業(yè)結果對學生未來發(fā)展及社會適應方面進行推論。我們都知道,社會對個體的測量方式與課堂對學生的測量方式完全不同,其不同體現(xiàn)在:一方面,課堂往往追求的是學科邏輯,是遠離情境的,多涉及對個體認知能力的考核;而社會往往看重的是綜合與整合邏輯,是高度情境化的。雷斯尼克(Resnick,1987)將校內外學習的不同概括為四個方面,即個體認知與共享認知、純智力活動與工具操作、符號運算與情境化推理、概括化學習和具體情境的能力。[25]正因為學校學習與社會適應的這種巨大差異,使得學校對學生的測量結果并不能很好地預測學生的社會適應與發(fā)展能力,而這也是社會對人才培養(yǎng)單位抱怨最為集中的地方。另一方面,課堂偏向學習變化之認知領域的單一評價,而社會則看重認知、情感以及動作技能領域的綜合評價。認知測驗常常是測量學生的最佳表現(xiàn),而情感測驗則致力于測量其典型表現(xiàn)。[26]與認知變量比,情感變量往往被視為個體未來行為的重要預測因子,因為人們的情感狀態(tài)往往蘊含著其行為傾向。
四是不同參與方之間的漂移式推論,即以學生學業(yè)結果推論教師的教學質量或教學效果,或者推論學生家長對學生學業(yè)的精力投入。伴生的問題是:面對學生的學業(yè)結果,教師會受到學校和家長的肯定或責難,認為教師應該對學生的學業(yè)結果負責;學生家長受到學?;蛉握n教師的警示或面談,要求對自己孩子的學業(yè)結果擔當責任。
學生學業(yè)測驗與評價之倫理,無不與測驗中的偏差及評價中對測驗結果的不當使用有關,其中涉及的問題是多層次多維度的。我們以學生閱讀《紅樓夢》這部經(jīng)典為例,嘗試從目標倫理、手段倫理、過程倫理及結果倫理幾方面反思學業(yè)測驗與評價中的倫理問題。
目標之倫理常常關注這樣的問題:“我們應該做什么?”因為倫理選擇的重點是評估所追求的正確價值觀和規(guī)范。[27]以當下我國的學校教育而論,目標之倫理關切的問題是,我們的教育到底應該追求什么樣的目的?是學生的身心健康發(fā)展還是之外的東西?對這一問題,學理層面似乎不存在問題,但在教育現(xiàn)實中卻是一個很嚴峻的問題。
如,學生閱讀《紅樓夢》是出于培養(yǎng)學生的閱讀素養(yǎng)——如此,則對閱讀的獎勵來自閱讀本身,即閱讀過程所帶來的精神享受;還是因為考試要求閱讀——如此,則獎勵來自閱讀之外,即通過閱讀能否得到對自己而言很重要的成績。心理學告訴我們,前者是內部動機,后者是外部動機。
當然,我們不能奢望學生的學習都是內部動機驅動的,這不僅不現(xiàn)實,而且無可能。需要教師和家長警覺的是,如果學生本身對閱讀懷有興趣,那么外部獎勵,如閱讀與考試或某種個人榮譽關聯(lián),往往會讓學習者游離目標,將“游戲”變成“工作”,此即獎勵的“隱蔽代價”:對活動本身有著內在興趣的個體施加外部獎勵,會損害個體對活動本身的興趣,降低其內在學習動機。如果我們的教育偏離個體本位而過于追求社會本位的學業(yè)目標,或者偏離成長性目標而多為功利性目標所驅動,就難以避免上述目標倫理問題。
目標有學習導向之功能,為了實現(xiàn)預定的學業(yè)目標,當然可以選擇不同的學習手段和過程。但無論如何,目的與手段不能混同甚至異化。如,學生若帶著各自不同的閱讀目標,就會采取各種手段或途徑來實現(xiàn)自己的目標,在選擇實現(xiàn)目標路徑或者手段的時候,自然就出現(xiàn)“手段-目標”之爭:目標至上還是手段優(yōu)先?
仍結合上述例證,對于以閱讀素養(yǎng)習得為目的的學生而言,不論采用何種手段,以能真正閱讀、品味并享受這部經(jīng)典為旨要,閱讀方式不能超越目的;而對于以得到理想考試成績?yōu)槟康牡膶W生而言,“閱讀”本身就成了手段,因此通過或輔導或閱讀或聽書,只要能得到高分就是王道。
這其中存在手段倫理嗎?對于閱讀有著不同目標定位并選取各自不同手段的學生而言,自然就會采用不同的過程以實現(xiàn)這一目標,這樣,或者按計劃閱讀、或聽書、或者接受系統(tǒng)輔導,當目標追求出現(xiàn)偏差的時候,過程倫理就各具千秋了!
所以,手段或過程出現(xiàn)偏差,往往與目標定位偏差有關,要解決前者,須在目標定位上確定合理的價值與倫理。否則,就是上游污染下游治理式的問題解決思路。
前已述及,測驗和評價所涉及的倫理常常與對結果的解釋與使用有關。同樣的結果可以進行不同的解釋,也可以當作不同的用途:對學生閱讀部分的成績,可以視為學生閱讀能力的證明,也可以視為學生閱讀愛好的佐證,當然也能當作學生閱讀成績排序的依據(jù)。
所以,測驗結果如何解釋、如何采用這一結果所涉及的教育倫理,將對學生的學習動機與學習性向產(chǎn)生長遠后效。評估者的職業(yè)責任是做出有價值的判斷,這是對公眾的一種獨特的道德義務(如同治病是醫(yī)務人員的一種獨特的道德義務一樣)。[28]教育評價者需要承擔三方面的倫理責任,即維護評價對象的利益、尊重評價對象的人格和權利、確保評價結果用于發(fā)展之目的。[29]
涉及學生學業(yè)結果的解釋與使用,理應就事論事,不作上下位之間、領域之間的竄位式推論,更不宜以此領域的學業(yè)變化預測完全不同的彼領域發(fā)展之可能性。