[摘 要] 效度如何得到有效的評(píng)估是教育測(cè)量中的一個(gè)重要問題。為了有效評(píng)估中高考等高利害考試的試題效度,以語文學(xué)科為例,在學(xué)生作答往年試題過程中采用紅外線眼動(dòng)儀,追蹤學(xué)生審讀題目要求和作答的思維軌跡,為學(xué)生答題思維過程畫像。眼動(dòng)儀監(jiān)測(cè)答題過程的一系列心理反應(yīng)數(shù)據(jù)和后期學(xué)生訪談?dòng)涗浬勺鞔鸬男睦矸磻?yīng)樣本。將這些數(shù)據(jù)樣本與命題人所期待的測(cè)量目標(biāo)進(jìn)行對(duì)比后發(fā)現(xiàn):有部分試題所希望測(cè)量的知識(shí)點(diǎn)、能力點(diǎn)與學(xué)生實(shí)際的心理反應(yīng)偏差較大。建議依據(jù)被試面對(duì)不同刺激材料時(shí)的眼動(dòng)軌跡和心理反應(yīng)的有關(guān)數(shù)據(jù),建立一個(gè)相對(duì)完善的試題效度檢測(cè)系統(tǒng),從而在試題設(shè)計(jì)上減少“噪聲”;并在日常教學(xué)中以被評(píng)價(jià)者視角增強(qiáng)“評(píng)價(jià)對(duì)焦”。
[關(guān)鍵詞] 眼動(dòng)軌跡;心理反應(yīng);高考語文試題;內(nèi)容效度
[中圖分類號(hào)] G424.74 [文獻(xiàn)標(biāo)識(shí)碼] A
[文章編號(hào)] 1673—1654(2024)02—052—010
一、利用眼動(dòng)的心理機(jī)制評(píng)估試題效度
視覺系統(tǒng)作為人類最重要的感官系統(tǒng),獲取外界的大部分信息[1]。近年來,將眼睛的運(yùn)動(dòng)軌跡作為一種研究視覺系統(tǒng)信息處理機(jī)制的重要手段,已經(jīng)形成廣泛共識(shí),且在醫(yī)學(xué)、心理學(xué)、工業(yè)等領(lǐng)域得到了廣泛的運(yùn)用。在被試運(yùn)用視覺觀察刺激對(duì)象時(shí),將眼睛的中央凹瞄準(zhǔn)刺激信息的過程稱為“注視”,通過注視可以把視覺對(duì)象固定在視網(wǎng)膜的中央凹上,從而完成視覺攝入信息的加工。
眼動(dòng)被認(rèn)為是一種研究視覺信息加工的有效手段[1]。眼動(dòng)的過程實(shí)質(zhì)是“視覺—眼動(dòng)系統(tǒng)”在面對(duì)刺激下的輸出反應(yīng)。這種反應(yīng)是客觀真實(shí)的原始材料。刺激背景和刺激材料不同,引發(fā)的眼動(dòng)反應(yīng)也不同。運(yùn)用紅外線眼動(dòng)儀可以捕捉被試在觀察刺激材料時(shí)的信息加工過程。而信息加工過程的本質(zhì)是被試面對(duì)刺激材料的心理反應(yīng),基于此可以把眼動(dòng)過程看作被試加工刺激材料的心理過程。
這項(xiàng)追蹤技術(shù)始于19世紀(jì)末20世紀(jì)初,心理學(xué)家利用簡單的眼動(dòng)儀記錄個(gè)體在文字閱讀及圖形掃描中的眼動(dòng)軌跡,并探究其與視覺信息加工之間的關(guān)系。直至20世紀(jì)中期前,許多用于心理學(xué)研究的眼動(dòng)追蹤技術(shù)還存在誤差大、操作難和被試眼動(dòng)負(fù)擔(dān)大等缺點(diǎn)。20世紀(jì)中期后,隨著攝像技術(shù)的引入,特別是計(jì)算機(jī)技術(shù)的快速發(fā)展推動(dòng)了高精度眼動(dòng)儀的研發(fā),極大地?cái)U(kuò)展了眼動(dòng)追蹤技術(shù)應(yīng)用。當(dāng)前的眼動(dòng)研究多使用現(xiàn)代化大型精密眼動(dòng)儀,擁有集光學(xué)技術(shù)、攝影技術(shù)、計(jì)算機(jī)硬件技術(shù)和計(jì)算機(jī)軟件技術(shù)為一體的眼動(dòng)追蹤記錄系統(tǒng)。
目前學(xué)術(shù)界對(duì)眼動(dòng)的研究成果主要表現(xiàn)為:眼動(dòng)在人機(jī)互動(dòng)領(lǐng)域的運(yùn)用[2];眼動(dòng)在認(rèn)知和心理決策領(lǐng)域的體現(xiàn)[3];眼動(dòng)作為證據(jù)對(duì)閱讀行為和結(jié)果的監(jiān)測(cè)[4]。這些文獻(xiàn)涵蓋了眼動(dòng)追蹤技術(shù)在不同領(lǐng)域的應(yīng)用和研究,包括游戲、情感分析、文本閱讀理解、智能家居、駕駛行為和交通情境認(rèn)知等。這些研究領(lǐng)域具有廣泛的應(yīng)用前景,可以為人們提供更便捷、更高效的交互方式。但目前,將眼動(dòng)研究應(yīng)用于中高考等高利害考試評(píng)價(jià)仍是空白。
上述過程可以借鑒到考試評(píng)價(jià)的效度評(píng)估中,即將眼動(dòng)追蹤所反映的心理過程監(jiān)測(cè)用于試題的作答過程監(jiān)控。試題作為基于特定情境的刺激材料,考生作為被試,眼動(dòng)過程則是作答試題的思考過程,也是考生面對(duì)試題刺激材料的心理軌跡。被試考生關(guān)注測(cè)試材料時(shí)會(huì)注視材料的關(guān)鍵點(diǎn),將關(guān)注點(diǎn)停留在主觀上認(rèn)為重要的位置,眼睛的關(guān)注點(diǎn)隨著主觀注意和心理反應(yīng)、思維活動(dòng)而移動(dòng)或停留。因此,從眼動(dòng)的過程可以逆推被試解讀測(cè)試材料的心理軌跡。利用紅外線眼動(dòng)儀監(jiān)測(cè)考生答題的眼動(dòng)過程,進(jìn)而搜集判讀眼動(dòng)數(shù)據(jù)就可以獲得特定試題在考生心理上產(chǎn)生的刺激效應(yīng),不同的答題心理軌跡刻畫了不同試題的刺激效應(yīng)。
心理層面的刺激效應(yīng)外顯化就是特定試題的效度。試題效度指考試的準(zhǔn)確性,它反映的是考試內(nèi)容與課程標(biāo)準(zhǔn)及考試標(biāo)準(zhǔn)的吻合程度。效度高的試卷,能夠較準(zhǔn)確地測(cè)試出學(xué)生掌握和運(yùn)用所學(xué)知識(shí)和所具備的學(xué)科能力素養(yǎng)的真實(shí)度。通過還原法來評(píng)估,考生展現(xiàn)出符合試題所期望考查的學(xué)科知識(shí)和能力素養(yǎng)的心理刺激反應(yīng),則可以認(rèn)為這道試題具有較高的效度。反之,考生答題的心理刺激反應(yīng)與試題期待考查的知識(shí)和能力素養(yǎng)不符合,則可以認(rèn)為這道試題的效度較低。
長期以來,對(duì)中高考試題的效度評(píng)估一直處在“事后評(píng)價(jià)”和“場外評(píng)價(jià)”的狀態(tài)。所謂“事后評(píng)價(jià)”,是指考生已經(jīng)完成試題作答,并且評(píng)卷工作已經(jīng)完成后,評(píng)價(jià)者依據(jù)考生的得分來評(píng)估試題的效度;所謂“場外評(píng)價(jià)”,是指非過程性評(píng)價(jià),脫離考生實(shí)際作答的現(xiàn)場和考生答題的心理視角,從考場以外的角度展開評(píng)價(jià)。這樣的評(píng)價(jià)必然制約了評(píng)價(jià)者獲得考生答題的第一手資料,難以從作答試題的心理過程準(zhǔn)確評(píng)估試題的效度。
本文旨在探討運(yùn)用眼動(dòng)儀監(jiān)測(cè)考生的答題過程,改變“事后評(píng)價(jià)”和“場外評(píng)價(jià)”,從考生答題過程獲得第一手樣本以真實(shí)評(píng)估試題的效度。從學(xué)生的實(shí)際作答樣本來反觀試題的效度,是一個(gè)較準(zhǔn)確的評(píng)估方式。
二、實(shí)驗(yàn)設(shè)計(jì)
(一)被試選擇
2022年初,從Z市選取60名分?jǐn)?shù)呈正態(tài)分布的高三畢業(yè)班學(xué)生。學(xué)生均來源于該市不同級(jí)別的普通中學(xué)。全部學(xué)生分為兩組,每組30名。
(二)研究工具
選取瑞典生產(chǎn)的“tobii近紅外眼動(dòng)儀”。計(jì)算機(jī)上運(yùn)行Eyeso Studio分析程序。眼動(dòng)儀通過紅外線捕捉搜集學(xué)生的眼部移動(dòng)軌跡,通過分析程序形成數(shù)據(jù)和圖表再現(xiàn)答題過程的心理軌跡。
(三)測(cè)試方式
提供兩道往年高考語文試題(一道為高考作文題和一道為高考文言文翻譯題)對(duì)兩組高三學(xué)生分別作模擬測(cè)試。學(xué)生閱讀試題之后口頭作答。作文試題由每位學(xué)生用2分鐘口頭講述各自對(duì)題意的理解以及寫作構(gòu)思,文言文翻譯題由學(xué)生直接進(jìn)行口頭翻譯。
依據(jù)高考正常答題時(shí)間分配為標(biāo)準(zhǔn),設(shè)置本次實(shí)驗(yàn)的考生答題時(shí)間。
1. 文言文翻譯題:考生在考場上完成一道文言文翻譯題(從讀題到動(dòng)筆完成作答)的時(shí)間為5~6分鐘,本次實(shí)驗(yàn)省去考生動(dòng)筆作答改用口頭講述,因此將時(shí)間限定在3~4分鐘。
2. 作文審題構(gòu)思:考生在考場完成一道作文題的審題構(gòu)思時(shí)間為5~6分鐘,本次實(shí)驗(yàn)省去考生實(shí)際動(dòng)筆草稿寫出構(gòu)思的過程改用讀題后口頭講述,因此將時(shí)間限定在2~3分鐘。
題1:2017年高考(全國卷)作文試題
閱讀下面的漫畫材料,根據(jù)要求寫一篇不少于800字的文章。
要求:結(jié)合材料的內(nèi)容和寓意,選好角度,確定立意明確文體,自擬標(biāo)題;不要套作,不得抄襲。
題2:2018高考(全國卷)文言文翻譯題。
將文中畫橫線的句子翻譯成白話文。
謝弘微(謝弘微:宋代名人)少孤,事兄謝曜如父,兄弟友穆之至,舉世莫及也。弘微口不言人短長,而曜好臧否人物,曜每言論,弘微常以它語亂之。
【標(biāo)準(zhǔn)答案】而謝曜喜愛褒貶人物,謝曜每每發(fā)表議論,弘微常說其他的事岔開話頭。
【評(píng)分參考】譯出大意給3分;“臧否”“亂”兩處,每譯出一處給1分。
(四)數(shù)據(jù)統(tǒng)計(jì)
紅外線眼動(dòng)儀全過程捕捉學(xué)生的眼動(dòng)軌跡,通過Eyeso眼動(dòng)軟件追蹤系統(tǒng)生成一系列數(shù)據(jù)統(tǒng)計(jì)圖和統(tǒng)計(jì)表。
三、實(shí)驗(yàn)結(jié)果分析
(一)高考(全國卷)作文試題
1. 熱點(diǎn)圖與總注視時(shí)間分析
本次審題過程追蹤將熱點(diǎn)圖的分析與被試在特定區(qū)域的總停留時(shí)間結(jié)合。熱點(diǎn)圖綜合了30位學(xué)生的眼動(dòng)軌跡關(guān)注點(diǎn),圖中顏色越深,表明關(guān)注度越高。如圖1:
由熱點(diǎn)圖可見,被試的關(guān)注點(diǎn)數(shù)量“人臉”多于“數(shù)字”,且關(guān)注55分和98分的“人臉”多于100分和61分的“人臉”。
基于熱點(diǎn)圖數(shù)據(jù),在55分的“巴掌印”和98分的“巴掌印”兩個(gè)區(qū)域?qū)θw被試的總注視時(shí)間(說明:總注視時(shí)間是30位被試在詞語上注視時(shí)間的總和)進(jìn)行統(tǒng)計(jì):55分的巴掌印區(qū)域總停留時(shí)間是22323ms,98分的巴掌印總停留時(shí)間是34906ms。如圖2:
上述兩個(gè)統(tǒng)計(jì)圖表明:被試更關(guān)注人臉的表情而非抽象的數(shù)字,關(guān)注“懲罰”的信息多于關(guān)注“獎(jiǎng)賞”,對(duì)負(fù)面信息更敏感。
2. 注視點(diǎn)轉(zhuǎn)換次數(shù)分析
注視點(diǎn)轉(zhuǎn)換次數(shù)是指被試在不同關(guān)注區(qū)域間的切換,例如被試從“98分”上的“掌印”切換到“55分”的“掌印”。轉(zhuǎn)換過程描述了被試關(guān)注點(diǎn)軌跡的變化頻率和掃視的方向的變動(dòng)。如表1:
AOI是指眼動(dòng)實(shí)驗(yàn)中的“興趣區(qū)”。即在對(duì)眼動(dòng)數(shù)據(jù)進(jìn)行分析的過程中,可以在測(cè)試材料上畫出一個(gè)包含實(shí)驗(yàn)關(guān)鍵對(duì)象的區(qū)域,這個(gè)區(qū)域稱為“興趣區(qū)”(Areas of Interest,AOI)。AOI Group是依據(jù)實(shí)驗(yàn)需要對(duì)興趣區(qū)進(jìn)行的分組。由表1可見,對(duì)于不同的“興趣區(qū)”而言,98分到55分轉(zhuǎn)換為14次,55分到98分為4次。前三組圖的轉(zhuǎn)換次數(shù)差均不多于4次,但這兩組圖的轉(zhuǎn)換次數(shù)差高達(dá)10次,表明被試正在努力建立“98分”與“55分”兩個(gè)圖中要素間的聯(lián)系。
綜上所述,被試存在四個(gè)“思維動(dòng)作”:
第一,對(duì)人臉上的表情關(guān)注重于對(duì)分?jǐn)?shù)的關(guān)注;
第二,相比100分和61分的人臉,被試更關(guān)注98分和55分的人臉;
第三,最關(guān)注98分被打臉的圖;
第四,被試以98分這幅圖作為關(guān)注中心關(guān)聯(lián)其余三幅圖。
進(jìn)而可以總結(jié)被試面對(duì)試題刺激材料有三個(gè)突出特征:
第一,關(guān)注具有異常色彩且負(fù)面的信息,如98分雖是高分卻被打臉;
第二,關(guān)注形象化的信息,如人臉的表情;
第三,建立概念關(guān)聯(lián)的過程傾向于從局部出發(fā),從點(diǎn)到面,而不是優(yōu)先建立全局認(rèn)識(shí)。
3. 作文試題與構(gòu)思的過程性思維特征
被試在進(jìn)行作文試題的審題構(gòu)思過程中,其思維特征主要表現(xiàn)為以下兩個(gè)方面:
第一,關(guān)注直觀和感性的信息;
第二,忽略影響全局的隱蔽信息。
(二)高考(全國卷)文言文翻譯題
1. 典型個(gè)案分析
被試對(duì)該句的口頭翻譯為:
謝曜喜歡好的和壞的人物,謝曜每次說話,弘微常常認(rèn)為他的語言混亂。
(1)思維過程描述
被試將“好”理解為“喜歡”,“臧否”理解為“好的和壞的”,“以它語亂之”理解為“認(rèn)為他的語言混亂”。
如果割裂開前后文語境,孤立觀察這個(gè)句子,或直接看被試對(duì)具體字詞的解釋,似乎存在著一定的“合理性”。這個(gè)合理性是被試“邏輯自洽”的合理性,而非試題情境下的準(zhǔn)確理解。被試深層的認(rèn)知上已經(jīng)形成了一個(gè)脫離前后文語境而“自圓其說”的封閉系統(tǒng)。在這一系統(tǒng)中,被試潛意識(shí)“自信地”對(duì)每個(gè)關(guān)鍵字詞給出了“規(guī)范的解釋”。具有這類思維特征的被試可以概括為“割裂語境,自我封閉”型作答者。
(2)眼動(dòng)行為觀察
從總注視時(shí)間、注視點(diǎn)數(shù)量、平均注視時(shí)間(說明:注視點(diǎn)數(shù)量是該名被試在詞語上的掃視點(diǎn)數(shù)目,平均注視時(shí)間是該名被試在每個(gè)詞的平均停留時(shí)間)三個(gè)維度觀察被試對(duì)前文影響句子理解的三個(gè)關(guān)鍵詞的加工情況。
為了讓實(shí)驗(yàn)結(jié)果趨于完善,另選取了三個(gè)詞語補(bǔ)充上面的觀察結(jié)果。這三個(gè)詞語為“少孤”“如父”“舉世莫及”。這三個(gè)詞語與要求翻譯的句子內(nèi)容關(guān)聯(lián)性較小,屬于邊緣詞語。但能有效觀察到被試更加全面的思維過程。
從總注視時(shí)間、注視點(diǎn)數(shù)量、平均注視時(shí)間三個(gè)維度觀察被試對(duì)前文語境中非關(guān)鍵的“邊緣詞語”的加工情況。
兩組數(shù)據(jù)對(duì)比可以得出:被試雖在影響句意的核心詞語上思考得更多,但在“少孤”和“舉世莫及”這兩個(gè)詞語上也分散了較多的注意力,注意力分散行為意味著被試沒有將關(guān)注重點(diǎn)很好地對(duì)準(zhǔn)語段的核心詞。
2. 典型案例“畫像”
依據(jù)前述實(shí)驗(yàn)結(jié)果,給“割裂語境,自我封閉”型作答者“畫像”:
第一,能在試題要求翻譯的句子前后文找到有助于作答的關(guān)鍵詞,并且給予較多的思維聚焦。
第二,雖然完成了思維聚焦,但沒有得到切合文章本意的準(zhǔn)確解釋,在文言文向白話文轉(zhuǎn)換的過程中出現(xiàn)加工障礙。
第三,相比準(zhǔn)確作答的被試,分散較多注意力資源關(guān)注前后文語境中的非關(guān)鍵性詞語,導(dǎo)致信息纏繞,自我干擾,最終難以得出正確的理解。
四、實(shí)驗(yàn)結(jié)果分析及啟示
(一)命題構(gòu)念與學(xué)生實(shí)際答題之間的契合度分析
1. 作文試題分析
高考命題人在《高考文科試題分析(2017年版)》(教育部考試中心編寫)對(duì)這道試題的構(gòu)念解釋為:“本題重點(diǎn)考查考生寫作能力”。[5]
命題人對(duì)“寫作能力”的考查內(nèi)涵進(jìn)一步展開解析:“從作文材料的漫畫內(nèi)容看,漫畫中的人,考生可以想到自己,也可想到某類群體,甚至可以抽象為人類這一集合概念;人物手舉的分?jǐn)?shù),不僅能理解為學(xué)業(yè)成績,也能理解為工作成績乃至團(tuán)體、社會(huì)或國家的進(jìn)步程度;人物臉上的唇印、掌印,除了可看成親吻、掌摑之外,還可視作一般意義的表揚(yáng)與批評(píng);而成績浮動(dòng)與獎(jiǎng)懲變化之間的多重反差對(duì)比,足以引發(fā)考生對(duì)進(jìn)步與退步、表揚(yáng)與批評(píng)、起點(diǎn)與程度、數(shù)量與質(zhì)量等問題形成自己的思考與判斷”。
首先,進(jìn)步與退步、表揚(yáng)與批評(píng)是涉及價(jià)值判斷的核心問題。所謂價(jià)值觀,就是人們對(duì)于政治、經(jīng)濟(jì)、道德、金錢等所持有的總的看法。試題作為一種特殊的教育材料,就應(yīng)該讓學(xué)生思考:什么是應(yīng)該肯定和贊揚(yáng)的,什么是必須反對(duì)和否定的。其次,起點(diǎn)與程度,涉及理想信念和奮斗目標(biāo)的問題。因此,這道題“看得懂、感受深、易接受”,引導(dǎo)學(xué)生思考、認(rèn)同、踐行社會(huì)主義核心價(jià)值觀。
由于隱去原漫畫題目,材料更加直觀,避免了觀念上的直接導(dǎo)引,可選擇性較強(qiáng)。材料與學(xué)生的生活經(jīng)驗(yàn)緊密勾連,能切合學(xué)生的寫作實(shí)際。材料本身豐富的張力、寓意中包含的思辨色彩,尤其是“結(jié)合材料的內(nèi)容和寓意”的任務(wù)要求,容易激發(fā)考生的寫作欲望,也有利于考查考生的邏輯思維能力和探究能力??梢哉f,試題力求為每一個(gè)學(xué)生都提供寫作空間,不僅考慮到不同層次、不同地域的學(xué)生,也考慮到每一個(gè)學(xué)生的寫作優(yōu)勢(shì),有利于學(xué)生寫作能力的全面考查。
按漫畫標(biāo)注的組別,從上往下看,第一組,一人因得滿分受到表揚(yáng),另一人因不及格而受到批評(píng),這是教育乃至整個(gè)社會(huì)中非常普遍的現(xiàn)象,并無特別之處;漫畫的意趣來自第二組的比照,第二組并非高分就表揚(yáng),低分就批評(píng),而恰是相反。這樣,寓意就出來了,人們總是以某一尺度去衡量評(píng)價(jià),達(dá)到最高標(biāo)準(zhǔn)就獲得高度肯定,達(dá)不到最低標(biāo)準(zhǔn)就會(huì)受到批評(píng);人們往往又將這種標(biāo)準(zhǔn)固定下來,要求高分者恒高,低分者不斷進(jìn)步;這種機(jī)械化且不切實(shí)際的思維方式需要反思,正如唯分?jǐn)?shù)論的評(píng)價(jià)體系必須批判。
如果忽略組別,從左往右看漫畫,右邊人的分?jǐn)?shù)由55到61,雖只有6分的進(jìn)步,但由批評(píng)轉(zhuǎn)為表揚(yáng),左邊人的分?jǐn)?shù)由100降為98,卻由表揚(yáng)變?yōu)榕u(píng):低分者取得進(jìn)步值得表揚(yáng),但滿分者變?yōu)?8分就遭受批評(píng),這就提供了另一思考角度,事物起始階段都有發(fā)展空間,但到一定高度后,其提升空間就會(huì)越來越狹小。如何看待事物達(dá)到一定高度后的發(fā)展態(tài)勢(shì),并為其提供更好的發(fā)展可能,這需要具體問題具體分析。寫作的重點(diǎn)還可以放在如何辯證看待進(jìn)步與退步上,而如果敢于突破,這個(gè)立意還可以寫成記敘文或小小說。
甚至也可以交叉地看漫畫。100分和61分得到表揚(yáng),98分和55分受到批評(píng),前者我們能夠接受,因?yàn)榉謩e達(dá)到了最高標(biāo)準(zhǔn)和最低要求,但98分就受批評(píng)則毫無道理,因?yàn)闄C(jī)械地拿同一個(gè)標(biāo)準(zhǔn)去衡量處于不同發(fā)展階段的事物,這是不應(yīng)該的?!盵5]
綜上所述,可以將這道高考漫畫作文題的考查構(gòu)念凝練為三個(gè)方面:價(jià)值判斷;分析抽象概念;辯證解讀概念關(guān)系。
但從前面的實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),被試考生更多地關(guān)注了漫畫上的人臉信息,集中關(guān)注了漫畫上“98分被打臉”的信息,而沒有將“98、61、100、59”四個(gè)抽象數(shù)字綜合聯(lián)系,更缺乏將四個(gè)抽象數(shù)字與漫畫上“打臉”和“親吻”的符號(hào)進(jìn)行辯證關(guān)聯(lián)。造成這種偏差的內(nèi)在原因有兩個(gè)。第一,命題者以成年人的理性視角高估考生的認(rèn)知水平。這在前文引用的《高考試題分析》中已經(jīng)有明確的體現(xiàn):“如果忽略組別,從左往右看漫畫,右邊人的分?jǐn)?shù)由55到61,雖只有6分的進(jìn)步,但由批評(píng)轉(zhuǎn)為表揚(yáng),左邊人的分?jǐn)?shù)由100降為98,卻由表揚(yáng)變?yōu)榕u(píng):低分者取得進(jìn)步值得表揚(yáng),但滿分者變?yōu)?8分就遭受批評(píng),這就提供了另一思考角度,事物起始階段都有發(fā)展空間,但到一定高度后,其提升空間就會(huì)越來越狹小?!边@段話表明命題者以分?jǐn)?shù)值這一抽象概念作為分析漫畫的出發(fā)點(diǎn)。第二,考生雖然處于步入成年階段的臨界點(diǎn),但其思維的成熟度還遠(yuǎn)遠(yuǎn)未達(dá)到完成理性分析問題的階段,更多的思考方式仍然以感性認(rèn)識(shí)作為基本的出發(fā)點(diǎn)。
綜上所述,命題者構(gòu)念的三個(gè)方面所生成的三個(gè)測(cè)試點(diǎn)與被試考生的思維特征不能準(zhǔn)確對(duì)接。由于在被試接受刺激材料后的反應(yīng)與試題期待的考查點(diǎn)發(fā)生偏移,導(dǎo)致這道試題的內(nèi)容效度較低。如圖3:
(二)高考(全國卷)文言文試題分析
高考命題人在《高考文科試題分析(2018年版)》對(duì)這道高考試題的命題立意解析是:“本題考查考生對(duì)文言文的理解和翻譯的能力?!盵6]命題人對(duì)此進(jìn)一步展開解析:“理解是文言文翻譯的基礎(chǔ),而對(duì)文意的理解又取決于對(duì)文中關(guān)鍵詞語的理解?!}中的關(guān)鍵詞語有‘臧否‘亂兩處?!胺裨干茞?,引申為褒貶人物、評(píng)論優(yōu)劣,‘亂是干擾、擾亂,文中指用其他的話,岔開話題”。[6]由此可見這道試題的構(gòu)念為:對(duì)文言文語段大意的理解和對(duì)文言語段中關(guān)鍵詞語的理解。
從前面的實(shí)驗(yàn)結(jié)果可以看到:被試能依據(jù)所翻譯任務(wù)從前文語境中找到有價(jià)值信息作為理解所譯句子字詞的憑借,但對(duì)文意的理解出現(xiàn)了較大的偏差,表明被試解釋刺激材料的關(guān)鍵信息時(shí)出現(xiàn)了錯(cuò)誤。此外,被試對(duì)句子中關(guān)鍵詞的理解也出現(xiàn)了明顯的錯(cuò)誤,這表明甄別與整合材料關(guān)鍵信息的環(huán)節(jié)上沒有順利完成任務(wù)。如圖4:
從命題構(gòu)念上看,本道試題所考查的兩個(gè)方面:對(duì)文意的理解和對(duì)文中關(guān)鍵字詞的理解,均很好地對(duì)應(yīng)了考生作答時(shí)的反應(yīng)。被試考生的答題失誤恰恰體現(xiàn)出了在這兩方面暴露的能力缺陷。因此可以認(rèn)定這道試題具有較高的效度。
綜上所述,提升試題內(nèi)容效度切實(shí)可行的路徑是對(duì)考生進(jìn)行“回測(cè)”,對(duì)答題過程進(jìn)行模擬的過程性觀察,從而發(fā)現(xiàn)被試考生面對(duì)特定試題刺激材料的反應(yīng)與試題考查點(diǎn)、試題構(gòu)念是否對(duì)應(yīng)。
(二)改進(jìn)建議
1. 試題設(shè)計(jì)上減少“噪聲”
將高考(全國卷)作文試題與高考(全國卷)文言文翻譯題對(duì)比,可以發(fā)現(xiàn):文言文翻譯題的試題材料設(shè)計(jì)更簡潔,考查目標(biāo)更集中,試題要求更明確。而作文試題則由于漫畫呈現(xiàn)形式導(dǎo)致命題初衷與考生實(shí)際反應(yīng)相背離。為了提升試題的內(nèi)容效度,建議命題者在試題材料設(shè)計(jì)上著力于減少“噪聲”。
以作文試題為例。由上述實(shí)驗(yàn)結(jié)果可知,被試首先關(guān)注的是人臉,而非試題中隱藏的抽象概念。正因被試的這一思維特征導(dǎo)致其他命題構(gòu)念難以有效實(shí)現(xiàn)。因此提升試題效度可以將漫畫變?yōu)閮啥挝淖植牧希?/p>
甲同學(xué)說:我這次考了98分,比上次退步了兩分,被批評(píng)了。
乙同學(xué)說:我這次考了61分,比上次進(jìn)步了兩分,被表揚(yáng)了。
這樣修改后減少了圖像直觀信息的干擾,讓不同層次的考生都能關(guān)注材料中的基本概念:“98,61”,“進(jìn)步,退步”,“批評(píng),表揚(yáng)”,從而與試題的命題構(gòu)念:“價(jià)值判斷;分析抽象概念;辯證解讀概念關(guān)系”密切對(duì)應(yīng)。
綜上所述,減少試題“噪聲”提升試題內(nèi)容效度的路徑為:從命題構(gòu)念出發(fā),推測(cè)考生面對(duì)試題材料可能產(chǎn)生的偏離表現(xiàn),從而簡化試題材料使考查測(cè)試點(diǎn)清晰呈現(xiàn),確保答題要求能準(zhǔn)確對(duì)應(yīng)試題構(gòu)念的基本組成要素。
2.在日常教學(xué)中以被評(píng)價(jià)者視角增強(qiáng)“評(píng)價(jià)對(duì)焦”
將上述實(shí)驗(yàn)結(jié)果推廣到教師的日常教學(xué)中。如能更多依據(jù)學(xué)生模擬測(cè)試的過程性數(shù)據(jù),以及過程性數(shù)據(jù)形成的有價(jià)值的經(jīng)驗(yàn)沉淀來調(diào)整評(píng)價(jià)者的視角,從而達(dá)到評(píng)價(jià)者與被評(píng)價(jià)者“對(duì)焦”,應(yīng)是提升評(píng)價(jià)精準(zhǔn)度的有效路徑。
以前文所述的高考(全國卷)漫畫作文試題為例。如果將這道試題作為日常教學(xué)的練習(xí)題,為提升評(píng)價(jià)精準(zhǔn)度,“首先在教師這一端需要用批判性思維審視自己的理念、自己的教學(xué)設(shè)計(jì)”[7]。教師在施測(cè)前應(yīng)考慮:“教師的‘教學(xué)腦所形成的教學(xué)信念、教學(xué)邏輯是否有值得修正和完善之處?教師在指導(dǎo)學(xué)生運(yùn)用批判性思維展開閱讀和寫作的過程中,是否有‘值得批判之處?教師的教學(xué)設(shè)計(jì)是否能夠在充分研究學(xué)情、彌合認(rèn)知落差的基礎(chǔ)上優(yōu)化?”[7]
帶著這樣的思考,教師對(duì)被試學(xué)生的認(rèn)知視角做出預(yù)測(cè),同時(shí)也可以搜集學(xué)生的答題個(gè)案,先進(jìn)行模擬測(cè)試,以驗(yàn)證自己的預(yù)測(cè)。這樣做的目的是修正脫離學(xué)生認(rèn)知視線的“成人化”設(shè)計(jì)。仍以這道作文題為例,教師基于過程性評(píng)價(jià)視角可以將評(píng)價(jià)點(diǎn)確定為:
要素提?。簩W(xué)生描述并比較人臉上的表情變化;
要素含義:學(xué)生分析受到獎(jiǎng)懲后的喜和悲,以及對(duì)每幅畫中人自我認(rèn)識(shí)產(chǎn)生的影響。
這兩個(gè)評(píng)價(jià)點(diǎn)從最直觀的信息“人臉上表情變化”入手,并提取出最直接的含義“喜和悲”從而深入挖掘?qū)ψ陨淼恼J(rèn)識(shí)。將學(xué)生普遍關(guān)注的人臉信息作為思考的起點(diǎn),將對(duì)人臉表情變化背后的個(gè)體影響作為思考的落點(diǎn),符合學(xué)生的認(rèn)知視線。由此,在切合學(xué)生認(rèn)知視角的前提下,讓試題本身的考查點(diǎn)能與之“對(duì)焦”。
綜上所述,教師在日常教學(xué)評(píng)價(jià)中,應(yīng)更多考慮學(xué)生的思維生成過程與評(píng)價(jià)材料之間的互動(dòng)關(guān)系,找到學(xué)生認(rèn)知視角與評(píng)價(jià)材料測(cè)量目的之間的契合點(diǎn),從而設(shè)計(jì)出符合學(xué)生認(rèn)知視角的評(píng)價(jià)方案。
參考文獻(xiàn):
[1] 汪亮.人類視覺的眼球運(yùn)動(dòng)機(jī)制[J].高校科技,2014,(20):185.
[2] 萬春蓮.基于交互指標(biāo)工作負(fù)荷的垂直碰撞風(fēng)險(xiǎn)模型[J].濱州學(xué)院學(xué)報(bào),2016,32(02):20-21.
[3] 郭明濤.不同工作記憶輔導(dǎo)員對(duì)情緒面孔的注意偏向[J].文學(xué)教育(下),2016,(10):152-153.
[4] 劉麗萍,劉海健,胡笑羽等. SWIFT-Ⅱ:閱讀中眼跳發(fā)生的動(dòng)力學(xué)模型[J].心理與行為研究,2006,(03):230-235.
[5] 教育部考試中心.高考文科試題分析:2017年版.語文數(shù)學(xué)英語分冊(cè)[M]中國版本圖書館CIP數(shù)據(jù)核字(2016)第286981號(hào).北京:高等教育出版社,2016:38-39.
[6] 教育部考試中心.高考文科試題分析:2018年版.語文數(shù)學(xué)英語分冊(cè)[M]中國版本圖書館CIP數(shù)據(jù)核字(2017)第277275號(hào).北京:高等教育出版社,2017:25.
[7] 余航.中學(xué)語文答題診斷術(shù):作文教學(xué)探案集[M].中國版本圖書館CIP數(shù)據(jù)核字(2019)第107020號(hào).福建:海峽文藝出版社,2019:27.
Accumulating Evidence of Content Validity by Tracking the Eye Movements of Students' Answers:A Case Study of Chinese Test in College Entrance Examination
Yu Hang
Fujian Hua'an Zhengxing School,Zhangzhou,F(xiàn)ujian,363000
Abstract:How to evaluate the validity effectively is an important issue in educational measurement. In order to effectively evaluate the validity of high-stake examinations such as high school entrance examination and college entrance examination,taking Chinese subject as an example,the infrared eye tracker was used in the process of students answering the questions in previous years to track the requirements of students' reading questions and the thinking track of students' answering,so as to portray the thinking process of students' answering questions. The eye tracker monitors a series of psychological reaction data in the process of answering questions and later student interview records to generate psychological reaction samples for answering questions. These data samples are compared with the targets expected to be measured by the proposer(taking the college entrance examination Chinese as an example). After comparison,it is found that there is a large deviation between the knowledge points and ability points expected to be measured in some test questions and the actual psychological reaction of students. A relatively perfect testing system for the validity of test questions is established from the relevant data of the subjects' eye movement tracks and psychological reactions when they are faced with different stimulus materials. Based on the study of data samples,the paper puts forward some suggestions for the optimization and improvement of test questions.
Key words:Eye Movement Track,Psychological Reaction,Chinese Test of College Entrance Examination,Content Validity
(責(zé)任編輯:陳暢)
作者簡介? 余航,高級(jí)教師,福建省華安正興學(xué)校。福建省漳州市,363000。