韓映雄,周林芝
(1.華東師范大學(xué)考試與評價研究院,上海200062;2.華東師范大學(xué)高等教育研究所,上海200062)
過去二十年來,要求高等教育“回歸教學(xué)”的聲音日益高漲,社會各界對大學(xué)教學(xué)質(zhì)量的擔(dān)憂和重視已經(jīng)到了前所未有的高度。教育部先后頒發(fā)的兩個有關(guān)高等教育質(zhì)量的文件以及相關(guān)研究[1]就是例證。人們對大學(xué)教學(xué)質(zhì)量的擔(dān)憂,一方面是由于高等教育規(guī)模擴大所引致,另一方面也與大學(xué)過于重視科研的績效辦學(xué)觀有密切關(guān)系。這一現(xiàn)象并不是我國高等教育發(fā)展所獨有的現(xiàn)象,美國等高等教育發(fā)達國家在20世紀(jì)80年代也曾出現(xiàn)過。
導(dǎo)致大學(xué)教學(xué)質(zhì)量下滑或變化的原因既包括來自主觀的理念或認(rèn)識因素,也包括一定社會歷史條件下的高等教育外部因素,如全球?qū)W術(shù)競爭、知識分工、一流大學(xué)建設(shè)需求等。就理念因素而言,如何衡量和評價大學(xué)教學(xué)質(zhì)量,既是學(xué)術(shù)界持續(xù)討論的熱點問題,也是教育管理界所面臨的難題。與科研質(zhì)量評價相比較,教學(xué)評價要更加復(fù)雜和難以達成共識。
基于此,研究以2000年以來Web of Science核心數(shù)據(jù)庫中發(fā)表的有關(guān)大學(xué)教學(xué)評價的研究成果為資料來源,試圖回顧和總結(jié)近20年來學(xué)術(shù)界和教育管理界對學(xué)生評教的最新思考和實踐經(jīng)驗。
研究以Web of Science核心數(shù)據(jù)庫為文獻檢索來源,不設(shè)時間限制,共檢索到包含Teaching Evaluation、Evaluation of Teaching等檢索詞的英文研究文獻523篇,經(jīng)過篩選后得到360篇有效文獻。
研究使用知識圖譜法作為文獻處理和分析的方法,該方法是以科學(xué)知識為對象,通過空間表征法,綜合運用科學(xué)計量學(xué)、信息可視化技術(shù)、應(yīng)用數(shù)學(xué)、圖形學(xué)等學(xué)科的理論和方法,揭示科學(xué)文獻和引文路徑的復(fù)雜交織所反映出的科學(xué)交流及發(fā)展趨勢[2]。與傳統(tǒng)的內(nèi)容分析法相比,知識圖譜分析法的優(yōu)勢在于可以更客觀、形象反映某學(xué)科或知識領(lǐng)域的研究熱點和研究趨勢,且能夠完整地呈現(xiàn)出那些有影響性的、高引用率的代表性文獻。從文獻的全面性和系統(tǒng)性角度看,知識圖譜法有其獨特的優(yōu)勢。但該方法也明顯存在不足——在反映論文更為詳細觀點上的深度不夠。為克服這一缺陷,研究對經(jīng)知識圖譜分析方法所得到的代表性論文開展了仔細閱讀和主要觀點的梳理與歸納。知識圖譜分析方法僅是本研究的信息收集方法,但研究結(jié)論并不僅僅局限于知識圖譜方法所自動生成的諸多圖表信息。
表1-表3是Cite Space軟件分析出的高共被引文獻、高中心性文獻和突現(xiàn)文獻。
上述大部分文獻都對學(xué)生評教這一主題進行了討論和分析,這說明學(xué)生評教是大學(xué)教學(xué)評價領(lǐng)域的熱門問題。在學(xué)生評教研究領(lǐng)域內(nèi),以下問題被多次討論:
表1 Cite Space軟件分析出的高共被引文獻
表2 Cite Space軟件分析出的高中心性文獻
表3 Cite Space軟件分析出的突現(xiàn)文獻
(1)學(xué)生評教是否具有較高信度?不同學(xué)生的評教結(jié)果是否具有一致性?
(2)學(xué)生評教是否具有較高效度?評教結(jié)果能在多大程度上反映教師教學(xué)有效性?
(3)學(xué)生在評教過程中是否受到非教學(xué)因素的影響從而導(dǎo)致評教結(jié)果出現(xiàn)偏差?
(4)學(xué)生評教結(jié)果的應(yīng)用中存在哪些問題?如何更好地應(yīng)用學(xué)生評教結(jié)果?
學(xué)生評教信度是指學(xué)生評教結(jié)果穩(wěn)定反映教師教學(xué)水平的程度。當(dāng)學(xué)生評教結(jié)果在不同時間、構(gòu)成測量的不同項目和不同評價者之間保持一致時,學(xué)生評教具有較高的信度。馬什(Marsh)指出,造成學(xué)生評教結(jié)果不一致的最主要原因是不同學(xué)生對同一名教師的評價不同,而不是不同學(xué)生評教指標(biāo)之間缺乏一致性。因此,研究學(xué)生評教信度最重要的是檢驗評分者信度(inter-rater reliability),即檢驗同一課程中不同學(xué)生之間評教結(jié)果的一致性程度[3]。
對評分者信度的研究早已有之。在早期的研究中,學(xué)者們普遍使用班級平均評教分?jǐn)?shù)來衡量信度,這種被眾多學(xué)者認(rèn)可的計算方法的最大缺陷是忽略了學(xué)生個體之間的差異[4]。隨著統(tǒng)計學(xué)的發(fā)展和應(yīng)用,學(xué)者們將班級平均情況與學(xué)生個體情況納入研究當(dāng)中,引發(fā)了人們對學(xué)生評教信度問題的再次討論。莫利(Morley)指出,一些經(jīng)典研究中檢測學(xué)生評教信度的方法雖然廣為流傳,但使用的是班級平均評教分?jǐn)?shù),且部分存在邏輯問題。他同時提出,不能使用班級平均評教分?jǐn)?shù)的原因是環(huán)境污染(environmental contaminates,即班級內(nèi)部的環(huán)境因素如學(xué)生之間的交流等)會導(dǎo)致學(xué)生評教信度虛高。平均數(shù)還會掩蓋影響班級內(nèi)學(xué)生評價教學(xué)的重要潛在變量,并不能幫助研究者了解教學(xué)之外影響信度系數(shù)的環(huán)境因素。他使用SPSS宏命令(SPSS macros)對樣本進行單向或雙向的組內(nèi)相關(guān)系數(shù)(intra-class correlation coefficient,簡稱ICC)檢驗后發(fā)現(xiàn),在1073個使用特定工具開展評教的班級中,僅有21%~28%的班級內(nèi)部評分者信度系數(shù)大于等0.7[5]??死咨–layson)也對學(xué)生評教的信度進行了檢驗,結(jié)論與莫利相似。他發(fā)現(xiàn)班級內(nèi)部學(xué)生評教結(jié)果之間的差異較大,14個班級中僅有4個班級的ICC值大于0.7,且所有班級的Krippendorff's alpha系數(shù)都沒有達到可接受的水平[6]。丹妮拉(Daniela)等人運用多級交叉分類模型(cross-classified multilevel models)和方差分量法(variance componen)分析總方差中能用學(xué)生、教師和課程特征解釋的比例后發(fā)現(xiàn),學(xué)生與教師的相互作用(即學(xué)生的期待、能力、興趣等特征與教師的期望、風(fēng)格等特征的匹配程度)以及一些未知的變量是造成評教結(jié)果差異的主要來源,而能夠反映評分者信度的特征只能解釋小部分的學(xué)生評教結(jié)果差異[7]。
上述3項研究證明,在學(xué)生評教中,評分者信度普遍較低。早期研究由于在研究設(shè)計上存在問題,從而夸大了學(xué)生評教的信度。不過,學(xué)者們意識到特定的評教工具可能對信度有所影響,因此沒有徹底推翻學(xué)生評教信度較高的傳統(tǒng)結(jié)論。
學(xué)生評教效度(或有效性)指評教結(jié)果反映教學(xué)有效性的程度。斯博仁(Spooren)指出,教育學(xué)家僅在教學(xué)有效性的一些特征(例如豐富的學(xué)科知識、良好的課程組織、幫助學(xué)生學(xué)習(xí)、具有教學(xué)熱情、及時反饋、與學(xué)生進行互動等)上達成共識,但還未能明確定義教學(xué)有效性[8]。因此基于這些模糊的教學(xué)有效性特征而建立起的學(xué)生評教工具之間存在著較大差異,常常被詬病效度較低。對此,以馬什為代表的學(xué)者們提出,可轉(zhuǎn)而研究學(xué)生評教與其他衡量教師教學(xué)有效性標(biāo)準(zhǔn)之間的相關(guān)性,并以此來檢測學(xué)生評教的建構(gòu)效度(construct validity)。如果學(xué)生評教結(jié)果與學(xué)生學(xué)習(xí)成就、教師自評、同行評議等教師教學(xué)有效性標(biāo)準(zhǔn)的測量結(jié)果正相關(guān),并且特定的學(xué)生評教因子與其在邏輯和理論上聯(lián)系最緊密的變量高度相關(guān),則說明學(xué)生評教的效度較高[3]。
自1974年蘇利文(Sullivan)等人[9]發(fā)現(xiàn)學(xué)生評教與學(xué)生的平均測驗成績存在正相關(guān)以來,學(xué)者們使用不同的評教工具與學(xué)習(xí)成就測量工具,運用多種方法對二者的相關(guān)性展開了研究,得出了不一致的結(jié)論。就研究方法來說,為了比較學(xué)生在不同課程中獲得的學(xué)業(yè)成就,學(xué)者們一般使用多段效度范式(multisection validity paradigm)。近期也有比較新穎的研究方法出現(xiàn),如加爾布雷斯(Galbraith)使用的神經(jīng)網(wǎng)絡(luò)分析法(neural network analysis)[10]。就研究結(jié)論來說,克雷森的元分析顯示,由于統(tǒng)計的復(fù)雜性隨時間推移而不斷提高,總體趨勢是后期研究得出的二者相關(guān)性普遍小于前期的研究結(jié)果??死咨仓赋?,造成研究結(jié)論不一致的最主要原因還是測量工具的差異。學(xué)生評教和學(xué)生學(xué)習(xí)成就的測量工具越客觀,二者的相關(guān)性越小[11]。斯特勒(Stehle)的研究也證明了這一觀點,并解釋了不同測量工具影響研究結(jié)論的原因。由于客觀考試(在斯特勒的研究中是多選題考試)一般考察陳述性知識,這類知識可通過自學(xué)、背誦等渠道獲得,教師在其中發(fā)揮的作用不大。而主觀考試(在研究中是考察實踐操作能力的考試)涉及的知識更有可能由教師傳授獲得,教師的教學(xué)目標(biāo)也與主觀題考察的分析問題、應(yīng)用知識更相符[12]。因此,與主觀測試相比,客觀的學(xué)生學(xué)業(yè)成就測量工具往往更難檢測出教師的作用,測量結(jié)果也就與反映教師教學(xué)有效性的學(xué)生評教結(jié)果更不相關(guān)。不過,也有與測量方法無關(guān)的因素影響著二者的相關(guān)性,如學(xué)科差異等[11]??梢?,學(xué)生評教與學(xué)生學(xué)習(xí)成就的關(guān)系十分復(fù)雜,“評教結(jié)果好的教師能讓學(xué)生收獲更多知識”這種簡單的論斷并不準(zhǔn)確[10]。
也有研究涉及學(xué)生評教與教師對教學(xué)效果的自評、同行和管理者評價、專業(yè)觀察者評價的相關(guān)性,但是這類研究數(shù)量較少。正如馬什提出的,檢驗學(xué)生評教與其他教學(xué)有效性標(biāo)準(zhǔn)之間的關(guān)系時必須注意評教的多維性[3]。如研究學(xué)生評教與教師自評的相關(guān)性時,不僅要檢驗二者在總體評價上的相關(guān)性,還要在不同的評教維度(例如課堂管理、教學(xué)熱情、與學(xué)生相處情況等)上檢驗相關(guān)性。另外,目前也缺少對學(xué)生評教與學(xué)生學(xué)習(xí)動機、學(xué)習(xí)策略、學(xué)習(xí)興趣之間關(guān)系的探討。教師教學(xué)對學(xué)生學(xué)習(xí)的促進不應(yīng)只表現(xiàn)在學(xué)習(xí)成就方面,但學(xué)生在態(tài)度、策略等方面的變化是否可以作為教學(xué)有效性的衡量標(biāo)準(zhǔn)、與學(xué)生評教存在怎樣的關(guān)系還有待研究。綜上所述,學(xué)生評教效度是一個被不斷討論但仍存在爭議,有待繼續(xù)深化研究的主題。
常見的非教學(xué)因素包括教師、學(xué)生和課程的背景特征(background characteristics)如教師的性別、職稱和教齡,學(xué)生的興趣、選課原因和預(yù)期分?jǐn)?shù),課程類型、課程安排和課程難易程度等。
1.分?jǐn)?shù)對學(xué)生評教的影響
教師和學(xué)生之間若存在分?jǐn)?shù)互惠關(guān)系,則很容易引發(fā)分?jǐn)?shù)膨脹效應(yīng)。因此學(xué)者們就學(xué)生分?jǐn)?shù)特別是高于實際學(xué)習(xí)水平的分?jǐn)?shù)對評教結(jié)果的影響進行了大量研究。
首先,學(xué)生分?jǐn)?shù)概念的外延擴大了。早期對學(xué)生分?jǐn)?shù)的討論局限于實際分?jǐn)?shù)(如課程考試分?jǐn)?shù))和預(yù)期分?jǐn)?shù)(可能反映學(xué)生的真實學(xué)習(xí)水平和受教師評分標(biāo)準(zhǔn)影響的期待分?jǐn)?shù))。而艾斯利(Isely)指出,學(xué)生的相對預(yù)期分?jǐn)?shù)(Relative Expected Grade,即預(yù)期分?jǐn)?shù)與歷史分?jǐn)?shù)的差值)比預(yù)期分?jǐn)?shù)更顯著影響學(xué)生評教結(jié)果。這是由于歷史分?jǐn)?shù)代表了學(xué)生習(xí)慣接受的成績,而預(yù)期分?jǐn)?shù)可能受具體教師打分習(xí)慣的影響,這兩個成績的差值更能反映教師寬松打分的程度,因此應(yīng)將相對預(yù)期分?jǐn)?shù)作為學(xué)生分?jǐn)?shù)對學(xué)生評教影響的解釋變量[13]。
其次,研究結(jié)論各執(zhí)一詞。對學(xué)生分?jǐn)?shù)和學(xué)生評教存在正相關(guān)關(guān)系的解釋衍生出支持兩種截然不同的假設(shè):支持評分寬大假設(shè)和支持效度假設(shè)。支持評分寬大假設(shè)(grading leniency hypothesis)的學(xué)者認(rèn)為,分?jǐn)?shù)互惠導(dǎo)致了正相關(guān),因此寬大評分是學(xué)生評教的重要潛在偏差來源。而支持效度假設(shè)(validity hypothesis)的學(xué)者認(rèn)為,評教分?jǐn)?shù)高的教師確實促進了學(xué)生學(xué)習(xí),這些學(xué)習(xí)效果好的學(xué)生獲得了更高的分?jǐn)?shù),二者的正相關(guān)關(guān)系恰好證明了學(xué)生評教的效度較高[14]。這兩種假設(shè)的支持者經(jīng)過多年討論仍各執(zhí)一詞。支持評分寬大假設(shè)的學(xué)者用數(shù)據(jù)證明,當(dāng)學(xué)生預(yù)期分?jǐn)?shù)增加1個單位時,學(xué)生評教分?jǐn)?shù)也會相應(yīng)增加[15]。朗本(Langbein)在控制預(yù)期分?jǐn)?shù)、教師和課程特征的影響后也發(fā)現(xiàn),給學(xué)生打分高的教師會在學(xué)生評教中得到更高分?jǐn)?shù)。因此,學(xué)校若為迎合學(xué)生喜好,僅將學(xué)生評教結(jié)果作為評價教師教學(xué)水平的依據(jù)并以此進行人事決策的話,就會在教師和學(xué)生中產(chǎn)生沃博艮湖效應(yīng)(Lake Wobegon Effect)——即教師的教學(xué)水平和學(xué)生的學(xué)習(xí)成就均虛有其表。這不僅不利于教師教學(xué)水平的提高,還會對就業(yè)市場有一定影響[16]。卡雷爾(Carrell)的研究也發(fā)現(xiàn),寬大評分的做法盡管會使學(xué)生們一時取得高分,但學(xué)生卻在在后續(xù)課程中表現(xiàn)不佳。他同時指出,學(xué)生評教對學(xué)生在同期課程中的成績有正向預(yù)測作用,但對他們的后續(xù)成績的預(yù)測作用很差[17]。這說明教師評學(xué)和學(xué)生評教都沒能反映出真實的學(xué)習(xí)和教學(xué)情況。布拉加(Braga)在卡雷爾研究的基礎(chǔ)上更進一步,他證明了學(xué)生主要根據(jù)課堂中的實際效用即獲得的成績而非教師的教學(xué)效果來進行評教[18]。這兩位學(xué)者的研究從另一個側(cè)面說明學(xué)生評教容易受到寬大評分的影響。捍衛(wèi)學(xué)生評教效度的學(xué)者重點反駁了評分寬大假設(shè)支持者對預(yù)期分?jǐn)?shù)與學(xué)生評教相關(guān)性的解讀,認(rèn)為預(yù)期分?jǐn)?shù)與學(xué)生真實學(xué)習(xí)水平更為相關(guān)。這種預(yù)期分?jǐn)?shù)與學(xué)生真實學(xué)習(xí)水平的相關(guān)性被稱為預(yù)期分?jǐn)?shù)的內(nèi)生性(endogeneity)。希維(Seiver)最早關(guān)注到這一點,他認(rèn)為雖然前人研究發(fā)現(xiàn)預(yù)期成績影響學(xué)生對教師的評價,但實際上教學(xué)質(zhì)量(用學(xué)生評教衡量)也可能影響預(yù)期成績[19]。在此之后,諸多學(xué)者的研究證明,當(dāng)控制教學(xué)質(zhì)量相關(guān)因素之后,預(yù)期成績對學(xué)生評教的影響會減弱。馬什等人發(fā)現(xiàn),一旦控制學(xué)生學(xué)習(xí)認(rèn)知的影響,班級平均預(yù)期分?jǐn)?shù)和學(xué)生評教之間的關(guān)系就被消除了[20]。森特拉(Centra)基于大樣本研究也發(fā)現(xiàn),學(xué)習(xí)成果對學(xué)生評教結(jié)果產(chǎn)生了很大的積極影響。而在控制學(xué)習(xí)成果后,預(yù)期成績通常不會影響學(xué)生評教結(jié)果[21]。斯博仁也認(rèn)為學(xué)生評教受學(xué)生分?jǐn)?shù)的影響較小,他運用馬什編制的學(xué)生評教量表(Students'Evaluation of Teaching,簡稱SET)[22],運用交叉分類多層次分析(crossclassified multilevel analysis)探究了學(xué)生和教師特征對學(xué)生評教分?jǐn)?shù)的影響以及造成學(xué)生評教結(jié)果偏差的因素。結(jié)果顯示,人們普遍認(rèn)為會顯著影響評教結(jié)果的因素如學(xué)生的分?jǐn)?shù)、課堂參與以及教師的職稱等實際上對結(jié)果的影響并不大[23]。
還有研究者對分?jǐn)?shù)的影響持中立態(tài)度。如薩巴萊塔(Zabaleta)專門研究了學(xué)生課程所得分?jǐn)?shù)與評教結(jié)果之間的關(guān)系以及教師的年齡、性別、教學(xué)經(jīng)驗等因素對二者的影響,并發(fā)現(xiàn)學(xué)生所得成績與評教結(jié)果之間的關(guān)系比較模糊[24]。由此可見,關(guān)于分?jǐn)?shù)與學(xué)生評教之間的關(guān)系目前尚無共識。最近有學(xué)者指出,一些研究者似乎經(jīng)常從前人研究中挑選支持他們假設(shè)的結(jié)果,甚至產(chǎn)生了研究者偏差(experimenter bias)[25]。
2.教師魅力對學(xué)生評教的影響
近年來興起的對教師魅力的關(guān)注,源于一個廣泛使用的非官方學(xué)生評教網(wǎng)站——RateMyProfessor.com。大學(xué)開始對學(xué)生評教結(jié)果進行匿名處理之后,尋找不到足夠大的樣本成為困擾研究者的難題。因此,研究者開始應(yīng)用評教網(wǎng)站上公開的數(shù)據(jù)開展研究。在各類評教網(wǎng)站中,RateMyProfessor.com的影響最為廣泛,它不僅成為美國學(xué)生選擇學(xué)校和課程時的參考資料,還被一些大學(xué)排行榜用作數(shù)據(jù)來源。許多學(xué)者認(rèn)為,對這種評教網(wǎng)站的數(shù)據(jù)進行分析,將有助于深入理解學(xué)生評價教師的過程和潛在偏差。
RateMyProfessor.com網(wǎng)站使用的評教工具由4個維度組成:課程難度(easiness)、清晰度(clarity)、幫助度(helpfulness)和魅力度(hotness),其中魅力度是爭議較多的維度之一。費爾頓(Felton)指出,課程的難易度以及教授的個人魅力等與教學(xué)無關(guān)的因素會影響學(xué)生評教結(jié)果[26]。他認(rèn)為個人魅力強的教師會產(chǎn)生光環(huán)效應(yīng),即這種好的總體印象會影響學(xué)生對其他方面的判斷。但這項研究沒有考慮到評分中的負值的缺失值,對此,費爾頓在此基礎(chǔ)上做了改進性研究,結(jié)果同樣發(fā)現(xiàn)總體教學(xué)質(zhì)量和教師個人魅力之間存在統(tǒng)計上的顯著相關(guān)[27]。羅森(Rosen)在費爾頓的基礎(chǔ)上對魅力度數(shù)據(jù)進行了更科學(xué)的處理,依然得出教學(xué)質(zhì)量評分與個人魅力呈正相關(guān)且不同學(xué)科獲得的評教分?jǐn)?shù)存在差異的結(jié)論[28]。這些研究都一致證明了教師個人魅力與學(xué)生評教之間的正相關(guān)關(guān)系。
隨著時間推移和數(shù)據(jù)處理技術(shù)的進步,有學(xué)者開始質(zhì)疑使用RateMyProfessor.com網(wǎng)站數(shù)據(jù)進行研究的科學(xué)性問題??死咨椭赋?,RateMyProfessor.com網(wǎng)站使用的評教工具不是評價教學(xué)有效性的工具,而更像是學(xué)生喜愛度量表,因此用這種工具評價教師教學(xué)質(zhì)量是不合理的。但也有研究發(fā)現(xiàn),RateMyProfessor.com網(wǎng)站的評教結(jié)果與院校自行組織的學(xué)生評教結(jié)果在統(tǒng)計上具有相關(guān)性,因此院校也需要重新檢查自己使用的評教工具[29]。除了教師個人魅力外,課程難易程度、教師性別等也是討論的熱點,但研究結(jié)論尚未達成共識。另外,隨著網(wǎng)絡(luò)評教的興起,學(xué)者們開始關(guān)注不回應(yīng)偏差(non-response bias)對學(xué)生評教的影響。賴森維茨(Reisenwitz)的研究指出,參與網(wǎng)絡(luò)評教的學(xué)生與未參與評教的學(xué)生在性別、種族、GPA方面存在顯著差異,拒絕參與評教的學(xué)生可能影響由參與評教學(xué)生組成的樣本的代表性。為此,大學(xué)應(yīng)通過加強動員,采用紙質(zhì)評教與網(wǎng)絡(luò)評教相結(jié)合的方式來避免這種偏差[30]。
總體而言,非教學(xué)因素對學(xué)生評教的影響是一個討論豐富但結(jié)論不統(tǒng)一且仍有待繼續(xù)研究的主題。
如何使用學(xué)生評教結(jié)果來幫助教師提高教學(xué)水平呢?學(xué)生評教除了能為管理者人事決策提供信息外,還應(yīng)能診斷教師教學(xué)的優(yōu)缺點。盡管學(xué)生評教提供的信息有潛在的用處,但如果直接將學(xué)生評教結(jié)果反饋給教師,可能對教師教學(xué)水平的促進作用非常有限。因為在缺乏指導(dǎo)和幫助條件下,教師不一定會主動改進教學(xué)。甚至有學(xué)者發(fā)現(xiàn),學(xué)生評教的結(jié)果越負面,教師行為就越不可能發(fā)生變化[31]。馬什指出,學(xué)生評教結(jié)果摘要、針對教師個人的總結(jié)材料、結(jié)合學(xué)生評教結(jié)果的教學(xué)專家咨詢這3種反饋方式對教師教學(xué)水平的影響依次增大[22]。因此,學(xué)校管理者若想充分利用學(xué)生評教資源,應(yīng)當(dāng)請教學(xué)專家有針對性地幫助教師改善教學(xué)。另一個重要問題是如何更加科學(xué)地解讀評教結(jié)果。學(xué)生評教結(jié)果可分為兩類:一類是評教分?jǐn)?shù),另一類是開放性問題的回答。首先,現(xiàn)實中存在管理者誤讀評教分?jǐn)?shù)的現(xiàn)象。博耶森(Boysen)發(fā)現(xiàn),管理者大多缺乏統(tǒng)計學(xué)知識,因此經(jīng)常使用分高者更優(yōu)的慣性思維來比較不同教師的學(xué)生評教分?jǐn)?shù),這種比較甚至精確到學(xué)生評教平均分?jǐn)?shù)的小數(shù)點后3位。但實際上,比較學(xué)生評教中很小的差異是不科學(xué)的,因為可能是與教學(xué)無關(guān)的因素影響了評教分?jǐn)?shù)。為此,他提出解釋學(xué)生評教結(jié)果的原則——不能直接對原始平均分進行比較,要使用嚴(yán)格的統(tǒng)計方法如計算測量的標(biāo)準(zhǔn)誤和置信區(qū)間以及給出真分?jǐn)?shù)的范圍等[32]。其次,實踐中存在對學(xué)生評教信息挖掘不夠的問題。雖然斯文尼奇(Svinicki)[33]的研究證明了開放性評價在學(xué)生評教中具有重要作用,并建議在設(shè)計學(xué)生評教問卷時關(guān)注設(shè)置開放性問題,但是由于開放性問題回答的文本量過大,相關(guān)人員并沒能挖掘其中蘊含的豐富信息。近年來,隨著文本分析軟件的發(fā)展,此種情況才有所改變。
學(xué)生評教作為一種手段和工具,是為滿足評價大學(xué)教學(xué)水平需要而產(chǎn)生和發(fā)展起來的。除了學(xué)生評教這種手段之外,教師自評、同行評價、督導(dǎo)評價等其他方法也在大學(xué)教學(xué)評價實踐中有所使用。相對而言,學(xué)生評教因其操作簡便且能反映學(xué)生在教學(xué)和學(xué)校管理中的主體地位而被眾多院校采用,并已成為當(dāng)前最主要的教學(xué)評價手段。從知識圖譜分析結(jié)果來看,學(xué)生評教也是大學(xué)教學(xué)評價領(lǐng)域的熱門主題。盡管如此,很難說學(xué)生評教就是最佳手段。學(xué)生評教的信度、效度、影響研究還有諸多有待討論之處。在尚未找到最佳手段之前,學(xué)生評教只能作為權(quán)宜之計而存在。
在有關(guān)大學(xué)教學(xué)水平評價的研究中,學(xué)者們不斷致力于對學(xué)生評教開展深入細致的研究,以便持續(xù)推動該方法的優(yōu)化并提升其科學(xué)性。假使未來,人們能更清楚地揭示出學(xué)生評教實踐中的謎團、困惑和可靠的技術(shù)路徑,學(xué)生評教將可為大學(xué)教學(xué)評價提供更為有力的幫助和貢獻。限于人們對學(xué)生評教當(dāng)前的認(rèn)識水平和實踐經(jīng)驗,保持清醒、理性和謹(jǐn)慎的態(tài)度應(yīng)用學(xué)生評教是十分必要的。沒有學(xué)生評教的大學(xué)教學(xué)評價是不完善和不全面的,但單純依賴學(xué)生評教開展教學(xué)評價的做法也是不可取的。
格林沃爾德(Greenwald)[34]的研究為思考學(xué)生評教效度開啟了更為廣闊的視角,他提出的4種效度——概念結(jié)構(gòu)、聚合效度、區(qū)分效度和結(jié)果效度實際上分別對應(yīng)于實踐中的如下4個基本問題:學(xué)生評教的維度即指標(biāo)體系應(yīng)該是怎樣的?學(xué)生評教的結(jié)果能否真正篩選出那些可以稱之為有效的教學(xué)?教學(xué)之外的哪些因素影響學(xué)生評教的結(jié)果?學(xué)生評教是否能達到促進教師專業(yè)發(fā)展的目的?這4個問題也正是當(dāng)前我國大學(xué)在應(yīng)用學(xué)生評教過程中所面臨的困惑。
首先,在評教指標(biāo)體系方面,科學(xué)性不高是一個普遍問題。例如,在不少院校,諸如“老師不遲到、不早退”之類的問項常被用作評價維度。其實,不遲到和不早退是教師教學(xué)中的一個事實行為,它并不需要學(xué)生做主觀價值判斷。對此類行為,利用技術(shù)手段如實記錄即可獲得證據(jù)。交由學(xué)生判斷,便出現(xiàn)與事實不符的調(diào)查結(jié)果。類似不科學(xué)的問項在學(xué)生評教問卷中的出現(xiàn),足以反映當(dāng)前我國院校學(xué)生評教問卷的質(zhì)量是令人擔(dān)憂的。院校管理者或相關(guān)部門有時候并不重視學(xué)生評教問卷的科學(xué)性,也較少開展規(guī)范的科學(xué)研制,大多數(shù)時候是由非專業(yè)的管理人員依據(jù)經(jīng)驗或是別校的樣例東拼西湊而成,也有不少院校的學(xué)生評教問卷是由承擔(dān)問卷實施系統(tǒng)的技術(shù)公司提供的。學(xué)生評教的有效性本來就受制于很多難以控制因素的影響,如再加之問卷質(zhì)量科學(xué)性不夠的現(xiàn)實,其結(jié)果的應(yīng)用和參考價值自然就大打折扣了。
其次,在關(guān)于學(xué)生評教結(jié)果與有效教學(xué)或?qū)W生學(xué)業(yè)成就之間的關(guān)系問題上,克雷森和加爾布雷斯的研究結(jié)論顛覆了人們之前已經(jīng)形成的對此問題的既有觀念和看法。本來,人們只是想通過學(xué)生評教促進教師更好地教學(xué)并最終達到學(xué)生獲得更多學(xué)業(yè)成就的目的,現(xiàn)在既然評教結(jié)果與學(xué)生學(xué)業(yè)成就之間的關(guān)系很模糊甚至很小的話,似乎實在沒有必要耗時耗力地實施學(xué)生評教了。的確,假使學(xué)生評教只有此種單一功能的話,放棄它沒有什么壞處。但是,學(xué)生評教已經(jīng)被寄托了除此之外的其他用途——課程教學(xué)質(zhì)量鑒定、教師人事決策、學(xué)生的課程教學(xué)滿意度測評等。
第三,如何恰當(dāng)看待影響學(xué)生評教結(jié)果的因素以及降低或控制這些影響因素。如前所述,有太多因素會影響或干擾學(xué)生評教的結(jié)果,這為后續(xù)充分利用學(xué)生評教結(jié)果實現(xiàn)其他管理目標(biāo)帶來客觀上的障礙和挑戰(zhàn)。隨著研究的深入,有可能還會進一步發(fā)現(xiàn)更多的影響因素。發(fā)現(xiàn)這些影響因素是必要的,但更重要的是在實施學(xué)生評教時如何控制這些影響因素,或是將其作為控制變量,這是后續(xù)有待深入研究的一個重要方向。
最后,在教師人事管理中如何恰當(dāng)利用學(xué)生評教的結(jié)果。簡單地將學(xué)生評教結(jié)果與教師的獎懲、薪資直接掛鉤的做法是不當(dāng)?shù)?,也是不負?zé)任的。但現(xiàn)實中,有很多院校卻是這樣做的。這種做法歪曲了學(xué)生評教本該具有的良好價值屬性,并導(dǎo)致教師對學(xué)生評教產(chǎn)生更大的抱怨和誤解,甚至還會促使教師與學(xué)生聯(lián)手合作——學(xué)生獲得滿意的分?jǐn)?shù)、教師得到中意的評教結(jié)果。學(xué)生評教作為教學(xué)評價手段的初衷本是服務(wù)于教師專業(yè)發(fā)展,確切地說,是用于尋找和收集教師教學(xué)的不足與缺陷。
基于人們對學(xué)生評教的認(rèn)識水平和應(yīng)用現(xiàn)狀,有兩類風(fēng)險在實施學(xué)生評教時應(yīng)予以正視和防范。
一是系統(tǒng)性風(fēng)險。系統(tǒng)性風(fēng)險是指那些由學(xué)生評教作為一種評價手段的功能局限而帶來的風(fēng)險。上述的學(xué)生評教結(jié)果未必與學(xué)生學(xué)業(yè)成就以及有效教學(xué)之間密切相關(guān)、諸多目前尚難以控制的因素對學(xué)生評教結(jié)果的影響等均屬于系統(tǒng)性風(fēng)險。系統(tǒng)性風(fēng)險是不可避免的,但卻是可容忍的。畢竟,任何事物都有其固有的局限性。防范系統(tǒng)性風(fēng)險的根本辦法是在任何時候都不要把學(xué)生評教作為衡量大學(xué)教學(xué)水平的唯一手段。與此同時,通過加深對學(xué)生評教客觀規(guī)律的認(rèn)識來給學(xué)生評教實踐“打補丁”。另一種風(fēng)險是誤用性風(fēng)險。誤用性風(fēng)險是指那些因未能使用科學(xué)的學(xué)生評教問卷或是濫用學(xué)生評教結(jié)果而導(dǎo)致的風(fēng)險,如使用低質(zhì)量的學(xué)生評教問卷、將學(xué)生評教結(jié)果與教師獎懲、薪水直接掛鉤等就屬于誤用性風(fēng)險。誤用性風(fēng)險的危害遠大于系統(tǒng)性風(fēng)險,是需要力爭在實踐中予以有效防范的。要想做到這一點,首先需要教學(xué)管理人員樹立對教育科學(xué)成果的敬畏之心,其次,在學(xué)生評教問卷研制、結(jié)果運用的過程中盡可能地吸收教師和學(xué)生的意見和建議。