● 劉夢今 陳月茹
教科書實驗評價法及其應用個案研究*
● 劉夢今 陳月茹
本文介紹了教科書實驗評價法的概念、步驟及特點,并簡述了美國學者對特殊教育領域兩種歷史教科書進行的實驗評價,從理論和實踐兩個層面對教科書實驗評價法進行介紹,以期為我國教科書評價方法理論體系的構建提供思路。
教科書;實驗法;評價
本文將對教科書評價方法中的實驗評價法及其應用個案進行研究,以期完善教科書評價方法的理論體系。
關于教科書實驗評價法的概念,還沒有形成統(tǒng)一的明確的描述。筆者認為,教科書實驗評價法是指由專家組織,在學校施行,由學生參與,在一段時間(幾個星期,一般不超過6學期)后,通過對學生關于教科書內(nèi)容的習得和理解程度進行測試,從而對教科書的有效性、適切性進行評價的方法。
教科書實驗評價法可分為兩種,一種是評價現(xiàn)行的教科書是否適用,實驗類型通常采用單組實驗;另一種是通過對兩本教科書的對照實驗,確定哪一本更有效,實驗類型通常采用等組實驗。
通常情況下,教科書面向的學生群體是龐大的,這就需要在學生中進行抽樣,抽樣時要注意兩點問題,一是樣本容量,二是樣本的代表性。
樣本容量由學生的多樣性及容許的誤差所決定,正如下面的公式所示[1]:
n-參加實驗的學生人數(shù):t-學生系數(shù);δ-學生的多樣性參數(shù);△X-允許的誤差
為保證樣本的代表性,在確定樣本時,可使用分層抽樣法。例如,如果實驗區(qū)的學生總數(shù)中,有40%的學生來自于農(nóng)村,那么在抽取的樣本中,農(nóng)村的學生數(shù)量就應當占40%。
1.題目的數(shù)量、內(nèi)容與難度
題目的數(shù)量應當適中,過少可能會遺漏部分知識點,影響實驗的效度;過多則可能會給學生負擔太大的工作量,從而影響學生進行測試的態(tài)度,也會降低實驗的效度。研究表明,若想實驗結果的誤差低于5%,對一本教科書的評價需要設計大約400道題目。[2]
同一本教科書可以有很多不同版本的測試題目,題目的難易程度不同,測試的結果也就不同。格林在一次實驗中,對一篇課文的題目進行了多次調(diào)整,結果正確率有的才達到22%,有的卻高達70%。[3]題目的正確率取決于題目的難度:以術語為基礎的問題正確率高于以事實或觀點為基礎的問題;原文中涉及答案的內(nèi)容越多,正確率越低;問題越長,正確率越低。
2.題目的類型
在國外的教科書實驗研究中,測試題目多以單項選擇題(multiple-choice)和完形填空題(cloze procedure)為主。
單項選擇題作為一種客觀題,存在的一個重要問題就是被試有可能因為猜測而答對題目,提高分數(shù)。恩廷和克萊爾在其研究中發(fā)現(xiàn),某些選擇題中,80%的被試在沒有閱讀課文時就已給出正確答案。[4]由此可見,必須對猜測進行校正,以求出能反應被試真實水平的校正分數(shù),公式如下[5]:
S-校正后的分數(shù);R-被試答對的題目數(shù);W-被試答錯的題目數(shù);K-題目的選項數(shù)
完形填空題作為一種測量文本可讀性的工具,其創(chuàng)始人是泰勒[6]。完形填空是研究者按相同的間隔(一般為5至10個詞語)刪除一個詞語,由被試根據(jù)自己的理解,在空格上填上自己認為正確的詞語。完形填空的評分標準十分嚴格,只有“當填上的詞語跟原文完全符合時,才能算正確”。[7]
教科書實驗評價中的測試題目,有的來自于國家或區(qū)域統(tǒng)一的題庫,有的來自于教師命題,但一般都會由研究者進行二次加工,使其數(shù)量、內(nèi)容、難度以及題目類型基本與上述原則相符合。
博姆斯教授于1971年提出了中小學教科書閱讀材料的評判標準,這個標準在美國得到了廣泛的使用。博姆斯指出,“在完形填空測試中,正確率為0-34%,是無效等級;正確率為35%-49%,是需要教師輔導的等級;正確率在50%以上,是可自主學習的等級。”“完形填空38%的正確率等同于單項選擇75%的正確率,完形填空50%的正確率等同于單項選擇90%的正確率?!盵8]
如果通過測試結果的分析后,發(fā)現(xiàn)教科書的難度不適合于學生,那么該怎樣由實驗結果來計算理想的難度水平呢?以下兩個案例可以為我們提供思路和方法。
第一個案例是愛沙尼亞1973年九年級地理教科書的難度測試。此測試由854名學生參加,測試的滿分為20分,測試的統(tǒng)計結果如表1所示。
表1 愛沙尼亞1973年九年級地理教科書的難度測試統(tǒng)計結果[9]
由表1可知,95%的學生可以達到6分。按照博姆斯的標準,正確率應達到至少50%,教科書才可被使用。因此,12分所對應的難度水平就應當是教科書的理想難度。此教科書的難度過高,需要降低20-12 20*100%=40%的難度。
第二個案例是愛沙尼亞1978-1979學年八年級解剖學教科書的難度測試[10]。此測試的滿分為42,平均分為26.1,方差為8.l。分析結果如下:
理想的難度水平可由下面的公式計算得出:
有關美國歷史教科書存在的缺陷,早在20多年以前就有學者論及。拜克和麥基翁就曾指出兩大問題,一是教科書中蘊含的背景知識遠遠多于學生實際掌握的知識[12],二是“教科書內(nèi)容的呈現(xiàn)既沒有形成連續(xù)的歷史事件鏈,也不能滿足學生總結事件和觀點之間聯(lián)系的需求?!盵13]也有研究表明,很多學生將歷史看做是一系列獨立的事件,更不能理解國家領導人緣何制定相關的政策[14]。因此,此案例針對美國歷史教科書存在的問題,通過對照實驗,評價兩版歷史教科書孰優(yōu)孰劣。
因此,在此案例中,教科書的理想難度水平應該
實驗選定了兩所中學,這兩所中學位于太平洋西北部的兩個毗鄰的中等大小的學區(qū)。兩所學校的人數(shù)均為500人左右,在州統(tǒng)一組織的閱讀和數(shù)學測試中成績相當。在一項對全州范圍內(nèi)336所中學進行的以家庭收入、父母受教育程度、學生的流動性以及學生出勤率為指標的綜合性排名中,兩所學校的名次分別位列第29和第155名,這是兩所學校最大的區(qū)別所在。為了避免區(qū)別所帶來的誤差,研究者在實驗組和對照組中都安置了來自兩所學校的學生。實驗者分別從兩所學校中選出24和26名八年級學生參與實驗,但是,在為期20周的實驗中,由于學生離校等原因未能堅持參與,最終有效的樣本人數(shù)為29人,具體信息如表2所示:
表2 學生分組信息表
實驗選用了兩種不同版本的歷史教科書,1994年版《理解美國歷史》[15]和 1991 年版《美國歷史》[16],分別作為實驗組和對照組的教材。
實驗組的教材涵蓋了前殖民地時期到內(nèi)戰(zhàn)的歷史。作者首先羅列出標題,建立起內(nèi)容之間的聯(lián)系。教科書以“原因——結果”為基本的敘述框架,呈現(xiàn)人們遇到的一連串問題和解決辦法,以及預料和預料之外的結果,即自始至終貫穿“問題——解決方法——結果”的思路。此外,還有一些課堂實踐活動被安排在教科書中,如每隔一或兩段,都有問題要求學生回答,以幫助學生提煉重點。
對照組的教材講述了美國前殖民地時期一直到現(xiàn)代的歷史。作者采用了記敘文文體,講述不同時期不同的人。教科書通過呈現(xiàn)對于同一歷史事件的不同觀點,以告訴學生理解歷史可以有多種角度和方法。此外,為了加強學生對教材的理解,作者還增加了與歷史聯(lián)系密切的地理地圖、閱讀技巧的訓練以及章節(jié)和單元復習。
此實驗主要通過對學生基于教科書內(nèi)容的習得水平的考查來評價教科書的適用性,測試方法有如下幾種:
1.NAEP(國家教育進展評價項目)①
來自NAEP中的歷史測試題目由歷史學科的專家以及NAEP的測量專家共同創(chuàng)建,題目類型均為多項選擇題。此實驗選用了題庫中與樣本教科書內(nèi)容相關的3、8、11三個年級的測試版本。通過對最初選定的49個題目的信度系數(shù)α②進行測量發(fā)現(xiàn),前測的α值為0.571,后測的α值為0.635,鑒于前測的α值偏低,研究者在題目中去除了25道與教材內(nèi)容關系不夠密切的題目,最終保留了24道題,經(jīng)過測量,前、后測的α值分別為0.725和0.635。NAEP的題目分別在前測和后測中使用。
2.教師命題
來自實驗組和對照組的教師分別出題,題目既要來自于樣本教材,還要與教師在課堂上講解的內(nèi)容一致。題目類型為簡答、匹配和多項選擇。研究者將題目合并為一份有32題的試卷,并且測量得出α值為0.91。這份試卷由學生在課程結束后完成。
3.進度監(jiān)控措施
研究者在涉及重點內(nèi)容的術語詞匯中進行選擇,每周對學生進行一次包含20個詞匯含義匹配題的測試,要求學生在5分鐘內(nèi)完成,根據(jù)正確率來評價學生對于教科書內(nèi)容的習得水平。
將教科書分發(fā)給每位學生,在授課前對所有的教師進行兩個小時的備課指導。歷史課每天進行90分鐘,每周5天。對每天的進度并不做統(tǒng)一的要求,只要保證20周過后,能夠完成4到5章的教學即可。
通過對NAEP測試結果進行F-test③,以時間為變量的結果為F(1,23)=0.157,p④=0.7;以組別為變量的結果為F(1,23)=0.437,p=0.52。由此可見,兩組學生均沒有因為對教科書內(nèi)容的學習而在NAEP測試中取得顯著的提高。
研究者對學生完成教師命題的結果進行T-test⑤,從對照組的教科書中抽取的題目,實驗組學生的測試結果為M=0.38,SD⑥=0.21,對照組學生的測試結果為M=0.41,SD=0.25,可見差別并不明顯;從實驗組的教科書中抽取的題目,實驗組學生的測試結果為M=0.87,SD=0.22,對照組學生的測試結果為M=0.38,SD=0.26,由此可見,實驗組教科書更有利于學生對于教科書內(nèi)容的習得。
進度監(jiān)控的結果如圖1所示。由圖可見,實驗組的學生每五分鐘回答正確的題目個數(shù)由3個上升至16個,而對照組則由3個最終下降到0個。因此可得出結論,實驗組的教科書有助于幫助學生習得術語,而對照組的教科書缺乏對于術語的強調(diào)。
通過以上分析,研究者的得出最終的結論,1994年版歷史教科書向?qū)W生呈現(xiàn)出明確的歷史時間鏈以及歷史事實之間的因果聯(lián)系,思路清晰,框架明了,可以使學生習得更多的歷史知識并使其在測試中取得更優(yōu)異的成績。
此案例實驗目的明確并具有較強的針對性,測試方法恰當并具有一定的權威性。同時,研究者注意規(guī)避有可能產(chǎn)生的誤差,運用到心理測量的手段,使實驗評價更加嚴謹、科學。當然,此案例也有其局限性,比如樣本容量的確定,最終將29人作為樣本容量,顯然會因為容量偏小而影響結果的代表性和普及性。
圖1 進度監(jiān)控結果
1.直面學生 針對性強
在教科書實驗評價法當中,教科書在正式投入使用之前,就直接與學生面對面,評價的過程不再僅僅是研究者對于文本的字斟句酌,對插圖的審慎篩選的過程,不再僅僅是研究者對照審核表,對教科書打分評判的過程。將評價的實施過程置于真實的學校環(huán)境中,由學生直接參與,教師根據(jù)實際教學情況編纂部分測試題目,使得評價具有更強的針對性,通過學生對教科書的使用情況來直接反映教科書的難度大小以及適切性能的高低,由此得出的結論最為真實有效。
2.綜合性強 可靠度高
實驗法作為科學研究的基本方法,可以廣泛應用于很多研究中。教科書實驗評價法既可以驗證其他方法的結論,又可以將其本身的結論提供給其他評價法,作為其研究的基礎和依據(jù)。對于這種既是檢驗手段,又是基礎論據(jù)的評價方法,在教科書評價領域,已經(jīng)有越來越多的研究者開始對其投入更多的關注,通過對它的廣泛運用,開發(fā)其巨大的價值。
1.操作復雜 難度大
實驗評價法是教科書評價方法中最為復雜的方法。研究者需要考慮諸多因素,如被試的代表性、被試之間的平等性、實驗設計和測量的有效性等。在實驗前設想的理想條件在真實的實驗中往往很難實現(xiàn)。與理論的設想偏差越大,實驗結果的價值就越小。正如本文案例的缺憾,正是由于研究者沒有考慮到實驗參與者中途退出的可能性,因而導致樣本容量偏小,實驗信度下降。因此,對于研究者而言,實驗前要做好充足的準備,全面考慮各方面因素,實驗中也要捕捉新情況,及時調(diào)整實驗的進行。
2.耗資耗時 投入多
實驗評價法還是最耗時、最昂貴的教科書評價方法。為了保證學生的多樣性和代表性、保證教師在實驗中所起作用的一致性,必須調(diào)動很多的學校和學生參與進來,并對教師進行培訓,這些都離不開學校的配合和經(jīng)費的支持。實驗持續(xù)的時間有所不同,最短也要一個星期,在這期間,學生和教師都要投入大量時間和精力,才能保證實驗的順利進行。
注釋:
①美國國家教育進展評價 (The National Assessment of Educational Progress,NAEP)提供了一個獨立的測量工具,來了解全美中小學生在閱讀、寫作、數(shù)學、科學、社會等學科領域的學術表現(xiàn)及發(fā)展趨勢,是美國目前唯一定期在各個學科領域持續(xù)測評學生學業(yè)的全國性評價項目。
②克倫巴赫alpha系數(shù)的計算公式是由克倫巴赫于1951年提出的。后來,克倫巴赫及其同事又從方差分量分解的角度定義了很多種適應于各種不同測量情景的信度。alpha信度系數(shù)的取值范圍應該在0~+1.0 之間。
③方差分析又稱F檢驗 (F test),用于推斷多個總體均數(shù)有無差異。
④ p為可能性參數(shù)。
⑤檢驗是用于小樣本(樣本容量小于30)的兩個平均值差異程度的檢驗方法。它是用T分布理論來推斷差異發(fā)生的概率,從而判定兩個平均數(shù)的差異是否顯著。
⑥ M為平均值,SD為方差。
[1]Jann Mikk.Textbook:Research and Writing.New York,Oxford.2002.P47.P48.
[2]Jann Mikk.Theory of the Measurement and Optimization of the Degree of Complicacy of the Study Material in Comprehensive School.Doctoral dissertation.Manuscript.Tartu:University of Tartu,P434.
[3]Green K.Effects of item characteristics on multiple-choice item difficulty.Education and Psychological Measurement,vo1.44,551-561.
[4]Entin E.B.,Klare G.R.Relationship of measures of interest,prior knowledge and readability to comprehension of exposition passages.Advances in Reading/Language Research Quarterly,vo1.15,no.2.1980.
[5]戴海琦,張鋒,陳雪楓.心理與教育測量[M].廣州:暨南大學出版社,2007.87.
[6]Taylor.Wilson L. “Cloze procedure”:a new tool for measuring readability.Journalism quarterly,Vol30,1953,415-433.
[7]Bormuth.John R.Cloze readability procedure.CSEIP Occasional Report No.l,Feb.1967.
[8]Graham Wagner.Interpreting Cloze Scores in the Assessment of Text Readability and Reading Comprehension.1986-directions.usp.ac.fj.
[9]V ja IX.Results of a test on geography in fifth and ninth form in 1973.
[10]Jann Mikk.Experimental evaluation of textbook and multimedia.ED472706,2002.
[11]Mark K.Harniss,Jennifer Caros,Russell Gersten.Impact of the Design of U.S.History Textbooks on Content Acquisition and Academic Engagement of Special Education Students:An Experimental Investigation.Journaloflearning disabilities,vol40,number2,March/April 2007,P100-110.
[12]Beck I.L,McKeown M.G Gromoll E.W.Learning from social studies texts.Cognition and Instruction,Vo16,Issue 2,1989.
[13]Beck I.L,McKeown M.G Making sense of accounts of history:Why young students don't and how they might.Teaching and learning in history,1994,P7.
[14]http://www.redorbit.com/news/education/454060/eyes_on_the_prize_teaching_complex_historical_content to middle.html
[15]Carnine D,Crawford D.B,Harniss M.K,Hollenbeck K.L.Understanding U.S.history,Vol.l.Through the Civil War.Eugene,OR:Considerate,1994.
[16]Garraty J.A.The story of America.Orlando,FL:Harcourt Brace Jovanovich,1991.
*本課題系教育部人文社科研究項目 《教科書評價方法研究》(09YJA880077)的研究成果。
劉夢今 陳月茹/山東師范大學教育學院
(責任編輯:陳培瑞)