蔣遠橋
【關(guān)鍵詞】情境,測評,效度,高考
隨著時代的發(fā)展,社會對教育、對人才有了新的要求,人們對學(xué)習(xí)、課程、測評也有了新的理解。《關(guān)于深化考試招生制度改革的實施意見》《關(guān)于新時代推進普通高中育人方式改革的指導(dǎo)意見》《關(guān)于深化教育教學(xué)改革全面提高義務(wù)教育質(zhì)量的意見》《深化新時代教育評價改革總體方案》等文件的陸續(xù)發(fā)布正是新時代、新要求、新理解的體現(xiàn)。
具體到語文學(xué)科,新課程標準即《普通高中語文課程標準(2017年版2020年修訂)》(以下簡稱“ 課程標準”)既是這一進程中的重要成果,也是新教學(xué)、新測評的綱領(lǐng)性文件。課程標準從學(xué)習(xí)目標、學(xué)習(xí)內(nèi)容、學(xué)習(xí)方式、課程結(jié)構(gòu)、課程方式、測評內(nèi)容、測評方式各個方面提出了新要求,“任務(wù)”“活動”“情境”是貫通整個系統(tǒng)的三個重要概念[1]。關(guān)于依憑情境開展活動、完成任務(wù)以達到提升核心素養(yǎng)的理論研究與教學(xué)實踐,已經(jīng)廣泛而熱烈地展開,基于情境進行測量評價,也已經(jīng)在過程性評價乃至大規(guī)模高利害考試如中高考中普遍施行。關(guān)于情境在考試中的運用,眾多學(xué)者和考試從業(yè)者已經(jīng)作出了有益的探索[2],本文將基于這些討論,以高考為主要討論對象,從效度視域理解情境測評,探究情境測評有效和有限的程度,討論情境測評的實現(xiàn)路徑和提升情境測評效度的關(guān)鍵策略,以期對情境測評在大規(guī)模高利害考試中的實踐運用有所幫助。
一、效度視域下情境測評的必然性
教育測評以如下心理假設(shè)為基礎(chǔ):人的心理特質(zhì)是客觀存在的;這些心理特質(zhì)具有相對穩(wěn)定性;這些心理特質(zhì)雖然抽象,但可以通過一定的外部刺激作出的反應(yīng)得以測量評估;測評的結(jié)果可以類推得到心理特質(zhì)的整體特征和水平。這些心理特質(zhì)稱為構(gòu)念(construct),具體到語文測評,就是“構(gòu)成語文能力的理念”。測評就是要通過外部情境的刺激,讓考生作出反應(yīng),并依據(jù)反應(yīng)推測考生素養(yǎng)的特征和水平,即基于考生反應(yīng)推斷所測構(gòu)念的特征和水平。效度(validity)就是一個測評項目在多大程度上達到了測評目的,即在多大程度上準確反映了所要測評的構(gòu)念。
在20世紀90年代,Messick 以構(gòu)念效度(construct validity)為效度問題的核心提出“一元效度(unified validity)”理論,將構(gòu)念效度置于評判一個測評項目的頂端,認為其中包括內(nèi)容、實體、結(jié)構(gòu)性、概化、外推、后效六個方面。[3]這六個方面都與所測評的構(gòu)念息息相關(guān),與本文討論的情境測評關(guān)系最為緊密的是構(gòu)念效度的內(nèi)容、實體、結(jié)構(gòu)性、概化四個方面。
效度理論的發(fā)展基于測評理念的發(fā)展,而任何測評改革都不會僅在測評領(lǐng)域內(nèi)發(fā)生,正如前文所言:時代、教育、人才、學(xué)習(xí)、課程、教學(xué)的發(fā)展,要求測評也要有相應(yīng)的發(fā)展。情境測評正是社會主義新時代的人才需求,以及核心素養(yǎng)的教育理念、學(xué)習(xí)內(nèi)容、學(xué)習(xí)方式方面改革在評價領(lǐng)域中的一種反映。正因為新時代要求社會主義建設(shè)者和接班人具備應(yīng)對21 世紀各種復(fù)雜的、綜合的、不確定的現(xiàn)實生活環(huán)境的品質(zhì),教育教學(xué)應(yīng)以培養(yǎng)學(xué)生的這種關(guān)鍵品質(zhì)為目標,這種關(guān)鍵品質(zhì)即核心素養(yǎng)。因為核心素養(yǎng)是應(yīng)對復(fù)雜、綜合的真實情境的品質(zhì),所以它也更適宜在復(fù)雜、綜合的情境中得到培養(yǎng)。
課程標準在“ 命題原則”中要求“ 以語文學(xué)科核心素養(yǎng)為考查目標”,也就是要求測評的構(gòu)念是“核心素養(yǎng)”,那么要想提高核心素養(yǎng)測評的效度,依據(jù)構(gòu)念效度理論則需要:測評內(nèi)容必須是語文學(xué)科核心素養(yǎng)中具有強相關(guān)性和代表性的一部分;實體方面則要求考生在答題過程中的作答行為能夠反映核心素養(yǎng)的特征并得到證據(jù)的足夠支持;結(jié)構(gòu)性方面則要求試卷的各部分構(gòu)成及其構(gòu)成比例能夠真實反映核心素養(yǎng)的各部分及其比例;概化方面則要求關(guān)于核心素養(yǎng)的分數(shù)解釋適用于其他各種不同的語境情景、交際任務(wù);外推方面要求考試結(jié)果具有高相關(guān)性,能夠得到外部證據(jù)的支持,如考試分數(shù)與學(xué)生日常生活表現(xiàn)出來的實際使用語言的能力具有高相關(guān)性等;后效方面則要求分數(shù)解釋的依據(jù)、考試結(jié)果的使用所產(chǎn)生的后果有利于核心素養(yǎng)的發(fā)展和提升。
也正是基于這樣的邏輯鏈條,課程標準在“學(xué)業(yè)水平測試與高考命題建議”中提出“考試、測評題目應(yīng)以具體的情境為載體”。因為“ 真實、富有意義的語文實踐活動情境是學(xué)生語文核心素養(yǎng)形成、發(fā)展和表現(xiàn)的載體”,所以當且僅當“以情境任務(wù)作為試題載體”,在復(fù)雜多樣的情境中完成不良結(jié)構(gòu)的真實任務(wù),才能“呈現(xiàn)學(xué)生語文素養(yǎng)的多樣化表現(xiàn)”[4],然后才能依據(jù)學(xué)生的表現(xiàn)對其語文學(xué)科核心素養(yǎng)進行評估。
二、效度視域下的測評情境和“語境”
課程標準中的“ 命題建議”在提出“ 以具體情境為載體”時對情境作了如下說明:“ 真實、富有意義的語文實踐活動情境是學(xué)生語文核心素養(yǎng)形成、發(fā)展和表現(xiàn)的載體。語文實踐活動情境主要包括個體體驗情境、社會生活情境、學(xué)科認知情境?!盵5]學(xué)者揭示了情境和語境理論的緊密關(guān)系,指出情境化教學(xué)是語境理論在教育領(lǐng)域中的運用。[6]不過課程標準對“語境”和“ 情境”兩個詞語的使用并無清晰明確的分工。課程標準中“語境”一詞出現(xiàn)在“語言建構(gòu)與運用”相關(guān)學(xué)習(xí)任務(wù)群的學(xué)習(xí)目標和內(nèi)容中,以及相應(yīng)的五個等級的學(xué)業(yè)質(zhì)量水平“ 質(zhì)量描述”中,體會“語境”的用例,可以判斷課程標準是在“ 具體的語言使用的場景環(huán)境”而非“ 語篇內(nèi)的上下文”的意義上來使用“ 語境”一詞的。而課程標準在闡述“ 語言建構(gòu)與運用”時對相關(guān)要點的表述則使用了“情境”一詞,即“ 發(fā)展在具體語言情境中正確有效地運用祖國語言文字進行交流溝通的能力”,如果課程標準在闡述核心素養(yǎng)的內(nèi)涵、學(xué)習(xí)的目標與內(nèi)容、學(xué)業(yè)質(zhì)量的表現(xiàn)時是系統(tǒng)而一貫的,則可以知道它在使用兩個詞時并未明確區(qū)分。
“ 語境”(context)一詞常見于語言學(xué)和邏輯學(xué)領(lǐng)域,指言語行為所發(fā)生的環(huán)境,一般包括文內(nèi)因素和文外因素,前者指向話語行為中的前后語或上下文,后者指向話語行為的“情景”和“ 背景”[7]。狹義的“ 語境”常常指口語中的前后語、書面語中的上下文,即文內(nèi)語境。廣義的語境則可以無所不包,如維特根斯坦的語言使用理論、奧斯汀的言語行為理論、斯特勞森的日常語言邏輯等,乃至巴赫金、克里斯蒂娃的互文理論也都是語境理論的組成部分。比照課程標準關(guān)于情境的分類詮釋,可以看出語境和情境有千絲萬縷的聯(lián)系:無論哪一種情境下開展的語文實踐活動都要考慮三種類型的語境,即文本語境、情境語境、背景語境,這樣才能準確地理解和表達意義、思想,達到語文活動行事取效的意圖。
不過從理論來源及側(cè)重看,二者又有著區(qū)別。課程標準對情境的分類主要基于實踐活動的主體和客體,基于活動的目的和意圖,這種情境含義明顯受到建構(gòu)主義和情境認知理論的影響。情境認知理論把知識視為個人與情境之間的交互關(guān)系的副產(chǎn)品,把學(xué)習(xí)視為個人、知識、情境之間的交互作用的副產(chǎn)品,重在基于情境的認知過程和學(xué)習(xí)過程。情境認知理論正是為消除學(xué)習(xí)脫離情境的弊端而提出的:傳統(tǒng)的正式的學(xué)習(xí)因孤立于獲得意義的情境,而僅能收獲靜止的、刻板的、未完成的、膚淺的理解。[8]
與傳統(tǒng)的教學(xué)類似,傳統(tǒng)的測評多注重文內(nèi)語境即上下文,也會關(guān)注到背景語境,如歷史文化背景,這在以紙筆為載體的終結(jié)性考試如高考中尤為明顯,這也是與高考把識記、理解、概括、分析等能力作為測評構(gòu)念是一致的。以傳統(tǒng)學(xué)習(xí)掌握的知識如果能讓學(xué)生通過傳統(tǒng)的考試,卻不能將同樣的知識運用于真實情境解決實際問題,那么說明傳統(tǒng)的考試是低效度的。正是為了提高測評效度,所以課程標準提出了情境測評。
正如語境理論強調(diào)話語行為的行事取效的意圖,我們也應(yīng)該這樣理解課程標準格外強調(diào)語言運用的環(huán)境場景,格外強調(diào)“真實、富有意義的語文實踐活動情境”的意圖。因此,試題應(yīng)當做到以個人、社會、學(xué)科三種情境為載體,在語境的運用上,需要格外強調(diào)情境語境,實現(xiàn)情境測評,這樣才能有針對性地消除原有考試的弊端,提高測評的效度。
三、效度視域下“真實”的測評情境
對“ 真實”的一種常見理解是現(xiàn)實性,即學(xué)習(xí)和測評所利用的情境與現(xiàn)實的生活情境應(yīng)當是吻合的,某個測評情境越能原汁原味地再現(xiàn)目標情境中該任務(wù)的情形、要求和實施條件,該情境就越是真實的?;谶@樣的理解,“ 真實”的測評情境應(yīng)當重現(xiàn)各種身份、行業(yè),如作家、學(xué)者、商人、科學(xué)家、管理者、設(shè)計師等通常面對的各種挑戰(zhàn)或要求。[9]當然,真正的現(xiàn)實情境任務(wù)及其實施條件是無法完全重現(xiàn)的,正是在這個意義上,在以紙筆考試為基本方式的大規(guī)模高利害考試如高考中,“ 直接測試”或“真實測評”甚至可以看成一個偽命題。[10]
既然絕大多數(shù)現(xiàn)實性情境難以復(fù)制,那么命題者能做的是使測評情境和任務(wù)盡量模仿現(xiàn)實、靠近現(xiàn)實,根據(jù)測評需要,模仿現(xiàn)實生活情境,考生則模擬完成任務(wù),任務(wù)結(jié)果和成品當然也不會真正投入使用,這也正是目前的高考試題情境化的常見做法。在這種理論傾向下,我們需要額外注意以下問題。
一是情境任務(wù)的典型性、代表性?,F(xiàn)實性情境測評歸根到底針對的是考生在完成某一特定真實任務(wù)中的表現(xiàn)。楊向東指出,這樣的測評關(guān)鍵在于“ 判斷當前評價任務(wù)的領(lǐng)域代表性”,即“如何確定所采用的評價任務(wù)是所要推斷的目標情境或任務(wù)范圍的一個代表性樣本”[11]。具體到高考,這一問題在寫作測評中更為突出。課程標準中的寫作內(nèi)容十分豐富,有作品評介、調(diào)查報告、文學(xué)作品、雜感、隨筆、評論、研究論文、研究報告、文學(xué)評論、學(xué)術(shù)性小論文等,而高考由于考試時長的限制,往往只能要求完成一個寫作任務(wù),這就需要對高考寫作任務(wù)的典型性和代表性格外留意。也正是在這樣的考量下,課程標準對測評情境任務(wù)的典型性提出明確要求:典型任務(wù)是指“ 為評價學(xué)生語文素養(yǎng)水平而選取的具有代表性價值的語文實踐活動”,考生通過典型的實踐活動,“ 體會典型的思維過程與方法,體驗典型的情感,呈現(xiàn)典型的成果”。[12]
二是評價標準的可類推?,F(xiàn)實性的情境任務(wù)往往有很多特定要素,這些要素?zé)o法涵蓋其他任務(wù)的特征,也無法代表一般性的整體素養(yǎng)。考生在完成現(xiàn)實性情境任務(wù)中的表現(xiàn)必然受到這些特定特征的影響,甚至越優(yōu)秀的考生會越注意某一現(xiàn)實性任務(wù)的“區(qū)別性特征”,而這些特征對考試目標來說卻可能是邊緣性的。評價標準如果不對這些邊緣特征加以關(guān)注,則測評不容易準確;如果關(guān)注這些邊緣特征,評價標準又很難類推到其他情境任務(wù)中去。這讓現(xiàn)實性情境測評陷入兩難的境地。
三是分數(shù)和分數(shù)使用的可解釋?!督逃c心理測量標準》的效度定義反復(fù)強調(diào)分數(shù)解釋的“ 預(yù)定用途”,如“ 效度是指證據(jù)和理論支持為了某一預(yù)定用途而產(chǎn)生的測試分數(shù)解釋的程度”,“效度驗證過程是積累相關(guān)證據(jù)為某一特定用途的分數(shù)解釋提供可靠科學(xué)的依據(jù)”,“基于指定用途所作的特定分數(shù)解釋可以作為效度的證據(jù)”,甚至認為效度必須與分數(shù)使用關(guān)聯(lián):“ 測評效度應(yīng)當是指向預(yù)定用途的特定解釋,不加預(yù)定用途的限制而泛泛地說‘ 測評效度是不正確的”。[13]具體到高考,其基本功能是“為不同類型的高校選拔出符合要求的新生”,“ 服務(wù)選才不僅是高考制度建立的目的、存在的依據(jù),也是高考的基本功能和使命”[14],其分數(shù)解釋指向核心素養(yǎng),其分數(shù)使用的解釋指向“高校選才”,二者是契合的。高考分數(shù)是考生進入高校最重要、最直接的依據(jù),所以基于情境測評得到的分數(shù)及其使用也應(yīng)當指向高校學(xué)習(xí),指向國家選才。在這樣的前提下,測評情境應(yīng)當適應(yīng)高校對人才培養(yǎng)的要求,適應(yīng)國家經(jīng)濟社會發(fā)展對多樣化、高素質(zhì)人才的需求,這對現(xiàn)實性情境來說是很艱難的任務(wù)。
四是測評的準確度,即構(gòu)念是否受到干擾而“測不準”。一個測評項目可以描述為“成績需求—項目開發(fā)—項目實施—閱卷評分—成績使用”這樣的流程,任何一個環(huán)節(jié)出現(xiàn)差錯都會導(dǎo)致效度的降低?,F(xiàn)實性測評情境追求復(fù)雜多變的時空和社會條件,對命題必然提出更高的要求。如2020年高考全國Ⅰ卷的寫作試題,要求考生基于“ 班級計劃舉行讀書會,圍繞上述材料展開討論”的情境寫一篇發(fā)言稿。所謂“ 討論”,指就某一問題交換意見或進行辯論,一般是有來有往而往復(fù)推進的,那么班級同學(xué)在讀書會上發(fā)表的觀點就成為現(xiàn)實情境中極為重要的一部分,他們的觀點和意見應(yīng)該是“我”思考和發(fā)言的起點,“我”的“感受和思考”理應(yīng)包括與同學(xué)的商量、辯駁,而這種動態(tài)語境在紙筆考試中是很難呈現(xiàn)的。
另外,命題還要避免那些阻礙考生答題的無關(guān)因素,如與本試題測試目標無關(guān)的本學(xué)科的其他知識或外學(xué)科知識、能力的需求。前述試題要求就“ 齊桓公、管仲和鮑叔三人,你對哪個感觸最深”寫發(fā)言稿,那么考生對這三人性格人品、事跡經(jīng)歷的了解,自然成為“ 感觸”的生發(fā)點,關(guān)于這三人的事跡在現(xiàn)實性任務(wù)中提供了極其有限的資料,對該三人事跡的了解甚至可以看成與寫作能力相關(guān)性不強的干擾因素。
還有閱卷信度的問題。仍以作文為例,考生寫完一篇作文,其語言能力的表現(xiàn)已經(jīng)完成,按理說閱卷者應(yīng)當給出準確的分數(shù),但要做到這一點并不容易?,F(xiàn)實性測評情境對閱卷提出了更高、更為細致的要求,在現(xiàn)實性情境下,閱卷者不僅要看考生寫作的內(nèi)容形式,還要看考生能否全面考慮到某言說者以什么身份、在什么場合或平臺、為了什么目的、以什么文體、對誰說了什么,并且要對這些現(xiàn)實性情境的要素在賦分上作出符合效度的分配,這對目前的閱卷現(xiàn)實提出了巨大的挑戰(zhàn)。
把“ 真實”理解為“ 現(xiàn)實性”,容易只關(guān)注測評情境的現(xiàn)實程度,而忽視情境與所測建構(gòu)間的聯(lián)系。對測評情境現(xiàn)實性的追求不是增高而是降低了構(gòu)念效度,這是我們需要警惕的?;谛Ф纫曈?qū)ΜF(xiàn)實性測評情境的考量,越來越多的研究者對“ 真實”的這種理解尤其是對大規(guī)模高利害考試中的“ 現(xiàn)實性情境”的應(yīng)用有了自覺的反思。今年高考作文試題中,現(xiàn)實性交際情境的寫作任務(wù)比往年有所減少,可能也是對現(xiàn)實性測評情境反思的體現(xiàn)。
四、效度視域下“有效”的測評情境
王寧教授在談到對“ 真實”的理解時指出,所謂“ 真實”是“ 這種語境對學(xué)生而言是真實的,是他們在繼續(xù)學(xué)習(xí)和今后生活中能夠遇到的,也就是能引起他們聯(lián)想,啟發(fā)他們往下思考,從而在這個思考過程中獲得需要的方法,積累必要的資源,豐富語言文字運用的經(jīng)驗”,她把“ 真實情境”概括為“ 從所思所想出發(fā),以能思能想啟迪,向應(yīng)思應(yīng)想前進”。[15]如果“ 真實”一詞容易引起誤會,我們可以在教學(xué)中突出課程標準在詮釋三類情境時使用的“ 有意義”這一語詞。類推到測評中,則只要測評情境不違背基本的日常邏輯,能有效地服務(wù)于測試構(gòu)念,達到期待的測試效果,這樣的情境都可以稱為“有效”的情境。
這種效度視域下對測評情境“ 有效”的追求,強調(diào)在情境中解決評價任務(wù)所需的思維方式或素養(yǎng)與目標情境中的思維方式或素養(yǎng)的相似性,而不強調(diào)情境或任務(wù)本身的相似性。以文言實詞解釋的測評為例,以下幾種測評情境的設(shè)置在效度上都是可接受的。
1. 寫出“ 民用不擾,而物生亦遂”中的“ 遂”字在句中的意思。
2. 為“ 民用不擾,而物生亦遂”中的“ 遂”字選擇釋義正確的一項是( )
A. 通達B. 因循C. 稱心D. 長成
3. 為“ 民用不擾,而物生亦遂”中的“ 遂”字選擇釋義正確的一項是( )
A. 通達?!痘茨献印罚骸澳苤筚F,何往而不遂?”
B. 因循。南朝梁丘遲《與陳伯之書》:“ 若遂不改,方思仆言?!?/p>
C. 稱心。唐杜甫《羌村三首》之一:“ 世亂遭飄蕩,生還偶然遂?!?/p>
D. 長成?!秶Z》:“犠牲不略,則牛羊遂。”
4. 小明在讀到所給文本“民用不擾,而物生亦遂”一句時無法理解句中的“遂”字便去查字典,字典呈現(xiàn)如下,請你為小明推薦一個恰當?shù)牧x項。
A. 通達?!痘茨献印罚骸澳苤筚F,何往而不遂?”
B. 因循。南朝梁丘遲《與陳伯之書》:“若遂不改,方思仆言?!?/p>
C. 稱心。唐杜甫《羌村三首》之一:“世亂遭飄蕩,生還偶然遂?!?/p>
D. 長成?!秶Z》:“犠牲不略,則牛羊遂?!?/p>
完成例題1 所需的思維與“ 通過文言文閱讀,梳理文言詞語在不同上下文中的詞義和用法”相似,完成例題2 所需的思維與“ 學(xué)生借助工具書獨立研讀文本”相似,例題3 呈現(xiàn)了接近借助工具書研討文本的現(xiàn)實生活的情境,例題4則是對現(xiàn)實生活情境的全真模仿。四道題所設(shè)置的情境在現(xiàn)實性即與現(xiàn)實生活的距離上各有不同,卻都能有效測評對文言文詞語的理解。李衛(wèi)東指出,簡單情境、良性結(jié)構(gòu)的問題和任務(wù)雖然不能促成深度理解和運用,但也是不可缺少的,是認知學(xué)習(xí)的基礎(chǔ)[16]。在測評中,簡單情境也是可接受的,是不可缺少的,這與高考以文字來呈現(xiàn)情境并要求考生在有限的時間內(nèi)完成任務(wù)的特點也是一致的。
不過,既然測評構(gòu)念是核心素養(yǎng),而核心素養(yǎng)是應(yīng)對復(fù)雜、綜合的真實情境的品質(zhì),所以它也更適宜在復(fù)雜的綜合的不良結(jié)構(gòu)的情境中加以測評。不良結(jié)構(gòu)的情境任務(wù)沒有暗示確保取得成功的策略或方法,這類情境是模糊的,在解決方案提出前需要進一步定義或明確。因此,這類問題或疑問更多需要的不是知識,而是良好的判斷力和想象力,這也更多地指向核心素養(yǎng)[17]。因此,評判測試情境質(zhì)量高下的關(guān)鍵是情境的復(fù)雜或綜合程度,而不是情境的現(xiàn)實性程度。
高考是大規(guī)模高利害考試,涉及的人數(shù)眾多,影響范圍廣,對考生個人命運和社會發(fā)展都有極其重要的影響。這要求高考有較高的效度。效度視域下高考中的情境測評應(yīng)當具有以下特點:以核心素養(yǎng)為測評構(gòu)念,情境的設(shè)置應(yīng)當有助于而非干擾核心素養(yǎng)的準確測評,情境相關(guān)的要求應(yīng)當在評價標準中得以體現(xiàn)并在實踐中可操作;高考的目的是為高校和國家選才育才,所以高考的分數(shù)解釋應(yīng)當以此為既定用途,分數(shù)的使用應(yīng)當與高校和國家對人才的要求一致;注重情境的典型性、代表性,完成情境任務(wù)所用思維特質(zhì)可類推到其他情境;注重情境的復(fù)雜性、綜合性,完成情境任務(wù)所用思維應(yīng)該有質(zhì)和量的保障,并且追求這些思維特質(zhì)的綜合貫通。