曾昭炳 姚繼軍
(南京師范大學(xué)教育科學(xué)學(xué)院,南京 210097)
文獻(xiàn)綜述是對(duì)既往研究文獻(xiàn)的梳理和概括。對(duì)于一項(xiàng)規(guī)范的學(xué)術(shù)研究而言,對(duì)文獻(xiàn)進(jìn)行“再研究”都是必不可少的環(huán)節(jié)。通過撰寫文獻(xiàn)綜述,研究者可以充分了解所關(guān)注領(lǐng)域的研究進(jìn)展,發(fā)現(xiàn)既有研究的不足,確定新的研究思路和研究問題,闡明本研究的緣由和意義,并在理論基礎(chǔ)、變量設(shè)置、研究?jī)?nèi)容和研究方法等方面為新的研究提供依據(jù)(Denney,2013)。從這個(gè)角度而言,文獻(xiàn)綜述為所有類型的研究所必需。
就當(dāng)下的教育研究現(xiàn)狀而言,實(shí)證研究往往對(duì)文獻(xiàn)綜述更為重視。大多數(shù)規(guī)范的實(shí)證研究,都會(huì)基于對(duì)既往文獻(xiàn)的梳理,提出研究的問題和假設(shè),給出變量及方法選取的依據(jù)。但在文獻(xiàn)綜述的方法方面,目前大多數(shù)研究均采用傳統(tǒng)的文獻(xiàn)回顧和評(píng)述方法,所得結(jié)論更多地依賴于評(píng)述者的個(gè)人經(jīng)驗(yàn)和主觀判斷,往往難以令人信服。姚計(jì)海(2017)認(rèn)為,教育研究方法應(yīng)具有科學(xué)性、系統(tǒng)性和獨(dú)特性,按此標(biāo)準(zhǔn),描述性文獻(xiàn)綜述并不能被當(dāng)作獨(dú)立的研究方法使用,其結(jié)論也不具有客觀性、可驗(yàn)證性和可重復(fù)性,難以消除讀者的質(zhì)疑。
相對(duì)于實(shí)證研究,當(dāng)下思辨研究的文獻(xiàn)綜述質(zhì)量則受到了更多的批評(píng)。有研究在分析了我國(guó)教育學(xué)博士學(xué)位論文的文獻(xiàn)綜述后認(rèn)為,目前大多數(shù)博士論文皆為思辨研究,其文獻(xiàn)綜述存在著堆砌材料、來源單一、缺少實(shí)質(zhì)性分析、未能對(duì)既往研究進(jìn)行充分概括與分析、寫作不夠規(guī)范等問題(張斌賢,李曙光,2015)。在這種情況下,文獻(xiàn)綜述根本無法為研究提供扎實(shí)的依據(jù),有些研究者甚至出于便于論述或發(fā)表的目的,對(duì)文獻(xiàn)進(jìn)行篩選,選擇有利于自己觀點(diǎn)的文獻(xiàn)而非具有重要學(xué)術(shù)價(jià)值的文獻(xiàn)進(jìn)行呈現(xiàn),這就使得文獻(xiàn)綜述喪失了為研究提供依據(jù)的功能,從而變成了一個(gè)“任人打扮的小姑娘”。
這種情況正如教育循證研究(evidence-based educational research)代表人物、約翰霍普金斯大學(xué)Slavin 教授所批評(píng)的那樣,“進(jìn)入新世紀(jì)的教育實(shí)踐仍處于前科學(xué)階段(pre-scientific point),很多研究和決策缺少嚴(yán)謹(jǐn)、科學(xué)的評(píng)估證據(jù),無法為兒童提供最好的教育項(xiàng)目,也無法推動(dòng)教育的創(chuàng)新”(Slavin,2008)。而要解決這一問題,就需將“有效的證據(jù)作為選擇教育產(chǎn)品和服務(wù)的主要標(biāo)準(zhǔn)”,這樣才能讓所實(shí)施的教育項(xiàng)目為兒童帶來更好的發(fā)展,進(jìn)而使教育進(jìn)入創(chuàng)新、評(píng)估和漸進(jìn)式改革的良性循環(huán)(Slavin,2017)。但問題在于,教育學(xué)這樣的社會(huì)科學(xué)領(lǐng)域存在著大量的不可控因素,即便是嚴(yán)格控制了相關(guān)變量的實(shí)驗(yàn)研究及準(zhǔn)實(shí)驗(yàn)研究,同類研究的結(jié)果也會(huì)不同。因此,人們需要一種科學(xué)嚴(yán)謹(jǐn)?shù)姆椒▽?duì)現(xiàn)有研究結(jié)果進(jìn)行綜合分析,以得出一個(gè)“最佳證據(jù)”來支持教育決策。這樣的“最佳證據(jù)”,至少應(yīng)滿足以下條件:首先,它需按一定的標(biāo)準(zhǔn),對(duì)既往研究成果做無偏的、全面的總結(jié),不能因個(gè)人好惡或論證方便,對(duì)研究結(jié)果進(jìn)行有目的地篩選和“控制”;其次,它需運(yùn)用可比較的指標(biāo),分析不同的研究成果,并明確告訴人們,某項(xiàng)干預(yù)是否真的有效,以及有哪些因素會(huì)影響到這些外生變量的實(shí)施效果;再次,這樣的證據(jù)應(yīng)能經(jīng)受并通過嚴(yán)格的穩(wěn)健性檢驗(yàn),其結(jié)論具有一致性和可重復(fù)性。元分析作為一種定量與定性相結(jié)合的文獻(xiàn)分析方法,能對(duì)既有實(shí)證文獻(xiàn)進(jìn)行較好的綜合分析,或是尋求“最佳證據(jù)”的一種有效手段。
元分析最早由Glass 提出并應(yīng)用于臨床心理學(xué),其基本思路是通過一定的標(biāo)準(zhǔn)對(duì)某一領(lǐng)域內(nèi)的文獻(xiàn)進(jìn)行檢索和篩選,對(duì)結(jié)果進(jìn)行標(biāo)準(zhǔn)化處理后,通過加權(quán)平均得出一個(gè)綜合性結(jié)論,并利用一定的統(tǒng)計(jì)方法探討異質(zhì)性的來源。元分析因能較好控制不同研究間的差異性并使其具有可比性而受到了研究者們的廣泛重視和應(yīng)用,與傳統(tǒng)的、描述性的文獻(xiàn)綜述相比,元分析具有兩個(gè)突出的優(yōu)勢(shì):一是可相對(duì)科學(xué)地給出綜合性的結(jié)論以解決研究爭(zhēng)議,并能有效探索不同研究結(jié)果存在差異的原因;二是可對(duì)既有文獻(xiàn)中的數(shù)據(jù)進(jìn)行二次分析,使人們無需獲得直接研究數(shù)據(jù)便可對(duì)某一領(lǐng)域的研究結(jié)果進(jìn)行討論(Borenstein et al.,2009,p. 9-13)。元分析雖不排斥評(píng)價(jià)者自身的研究經(jīng)驗(yàn),但由于有著較為嚴(yán)格的規(guī)范和要求,其結(jié)論會(huì)更為穩(wěn)健與科學(xué)。因此,元分析迅速成為循證研究的主要方法之一。新世紀(jì)以來,隨著教育循證改革的推進(jìn),使用元分析方法的研究數(shù)量迅速攀升。此類研究,不但對(duì)前期研究結(jié)論做了很好的總結(jié),還能通過“異質(zhì)性分析”等手段清晰地告訴人們,導(dǎo)致研究結(jié)論差異的因素是什么,這無疑對(duì)后續(xù)的實(shí)證研究和實(shí)踐探索具有導(dǎo)向與啟示作用。
與西方相比,我國(guó)高品質(zhì)的教育實(shí)證研究成果還不夠豐富,對(duì)既有實(shí)證研究成果的歸納與總結(jié)也比較欠缺。以本文探討的STEM 教育為例,目前國(guó)內(nèi)研究對(duì)這一舶來品的討論大多停留在概念討論和經(jīng)驗(yàn)介紹階段,相關(guān)實(shí)證研究幾為空白,以致難以回答實(shí)踐工作者迫切需要了解的一些問題:這一教育模式對(duì)學(xué)生發(fā)展是否有效?如果有效,哪些因素是其見效的關(guān)鍵?哪些STEM 教育方法可能取得更好的效果?等等。考慮到國(guó)外的相關(guān)研究早已展開,運(yùn)用元分析技術(shù)對(duì)國(guó)外STEM 教育實(shí)證研究進(jìn)行梳理,應(yīng)可為國(guó)內(nèi)STEM 教育的科學(xué)推進(jìn)提供高價(jià)值的證據(jù)。本文下面的內(nèi)容,即著眼于此,以STEM 教育對(duì)中小學(xué)生學(xué)習(xí)成績(jī)的影響為切入點(diǎn),運(yùn)用元分析對(duì)國(guó)外相關(guān)實(shí)證研究結(jié)論進(jìn)行定量整合,力圖為中國(guó)的STEM 教育改革提供可靠的研究證據(jù)。
以1986 年美國(guó)國(guó)家科學(xué)委員會(huì)(NSB)發(fā)布的《本科科學(xué)、數(shù)學(xué)和工程教育》(Undergraduate Science Mathematics and Engineering Education)為標(biāo)志,STEM 教育迅速成為國(guó)際教育界普遍關(guān)注的熱點(diǎn)問題。成績(jī)作為衡量教育質(zhì)量的一個(gè)重要指標(biāo),STEM 教育是否有助于提高學(xué)生成績(jī),進(jìn)而是否有利于提高人才培養(yǎng)質(zhì)量,便成為人們最為關(guān)注的問題之一。
如前所述,以美國(guó)為代表的一些國(guó)家(或地區(qū))在STEM 教育評(píng)估領(lǐng)域已積累了一定的實(shí)證研究成果,但這部分研究對(duì)STEM 教育效果的認(rèn)識(shí)未達(dá)成一致。有學(xué)者發(fā)現(xiàn)接受STEM 教育的學(xué)生在測(cè)試中的表現(xiàn)要遠(yuǎn)遠(yuǎn)好于未接受STEM 教育的學(xué)生,比如Cakici & Turkemen(2013)發(fā)現(xiàn),在前測(cè)差異不顯著的情況下,STEM 教育組學(xué)生的科學(xué)測(cè)試成績(jī)遠(yuǎn)高于非STEM 教育組的學(xué)生,效應(yīng)量高達(dá)2.404;類似的研究還有Kassir(2013)、Robinson 等(2014)、Rehmat(2015)、Acar 等(2018),都發(fā)現(xiàn)STEM 教育對(duì)學(xué)生科學(xué)成績(jī)的提升有很大幫助,效應(yīng)量分別為1.781、1.902、0.940 和1.247。也有些研究發(fā)現(xiàn),接受STEM 教育的學(xué)生,其成績(jī)只在較小或中等程度上有所提升。比如Korur 等(2015)發(fā)現(xiàn)基于設(shè)計(jì)的學(xué)習(xí)(design-based learning)幫助學(xué)生提高科學(xué)成績(jī)的效果為0.728;Cervetti(2012)的研究結(jié)果表明采用STEM 整合教育模式后,可在中等程度上提高學(xué)生的科學(xué)成績(jī)(ES=0.501);Olivarez(2013)使用因果比較研究分析了STEM 教育組與非STEM 教育組的學(xué)生在數(shù)學(xué)、閱讀測(cè)試中的表現(xiàn),發(fā)現(xiàn)STEM 教育組的學(xué)生優(yōu)于非STEM 教育組,效應(yīng)量分別為0.649 和0.549;Harris 等(2015)以及Han 等(2016)的研究則表明在提升學(xué)生測(cè)試表現(xiàn)上,STEM 教育相比非STEM 教育只具有微弱的優(yōu)勢(shì),效應(yīng)量分別為0.220 和0.170。上述研究雖然在STEM 教育效果的大小方面觀點(diǎn)不一,但至少說明STEM 教育更有利于提高學(xué)生的學(xué)業(yè)成績(jī)。有些學(xué)者則與上述學(xué)者的觀點(diǎn)完全相反,他們發(fā)現(xiàn)STEM 教育在提升學(xué)生成績(jī)方面并不比傳統(tǒng)教育更為有效,甚至存在負(fù)效應(yīng)。比如Merill(2001)、Li 等(2016)的研究表明STEM 教育對(duì)學(xué)生學(xué)業(yè)成績(jī)幾乎沒有影響,效應(yīng)量接近為0(d=0.026、d=0.015);Barth(2013)、James(2014)的研究則表明STEM 教育不利于提高學(xué)生的學(xué)業(yè)成績(jī),其效應(yīng)量分別為-0.147 和-0.412。
由此可見,有關(guān)STEM 教育效果的實(shí)證研究并未得出統(tǒng)一的結(jié)論,這意味著STEM 教育對(duì)學(xué)生成績(jī)的影響,或受多種因素影響并有著較為復(fù)雜的影響機(jī)制。正如Glass 當(dāng)年試圖用元分析方法回應(yīng)“心理療法是否有效”這一爭(zhēng)議一樣,目前已有學(xué)者試圖通過元分析來解決“STEM 教育是否有效”這個(gè)問題中存在的分歧,并探討造成研究差異的原因。相關(guān)研究的大致信息如表1 所示。
表1 STEM 教育領(lǐng)域內(nèi)元分析研究的基本信息
續(xù)表1
從表1 中可以看出,既有的元分析研究大多探討某一方法在STEM 學(xué)科教育中的教學(xué)效果,此類研究約占九成。僅有Yildirim(2016)、Sarac(2018)從整體上探討STEM 教育對(duì)學(xué)生學(xué)業(yè)成績(jī)、能力或態(tài)度的影響。但是他們的研究仍有許多可以改進(jìn)的地方。比如Yildirim 只對(duì)相關(guān)實(shí)證研究進(jìn)行了系統(tǒng)性綜述,未計(jì)算效應(yīng)量從而無法直觀、具體地判斷STEM 教育對(duì)學(xué)生成績(jī)和能力的影響。Sarac 的研究雖然計(jì)算了合并效應(yīng)量,比較全面地測(cè)算了STEM 教育的效果(對(duì)學(xué)生成績(jī)、態(tài)度和能力的影響的合并效應(yīng)量分別為0.442、0.620 和0.820);但是他對(duì)STEM 教育概念的界定過于寬泛,沒有給出篩選文獻(xiàn)的標(biāo)準(zhǔn),未對(duì)納入的文獻(xiàn)進(jìn)行質(zhì)量評(píng)估,異質(zhì)性分析也不夠詳細(xì)。這表明,盡管元分析是解決本領(lǐng)域?qū)嵶C研究差異的重要手段,但到目前為止,規(guī)范的、高質(zhì)量的元分析仍較為缺乏。這在一定程度上影響了人們對(duì)STEM 教育規(guī)律的認(rèn)識(shí)。
近年來,中國(guó)開始嘗試推進(jìn)STEM 教育,但人們對(duì)于STEM 教育效果的認(rèn)識(shí)還基本停留在理論和經(jīng)驗(yàn)層面。因此對(duì)國(guó)外本領(lǐng)域的實(shí)證研究結(jié)果進(jìn)行歸納和總結(jié),將在規(guī)律層面為我國(guó)的STEM 教育事業(yè)發(fā)展提供科學(xué)證據(jù)。有鑒于此,本研究將運(yùn)用嚴(yán)謹(jǐn)而規(guī)范的元分析方法,討論國(guó)外的實(shí)證研究結(jié)論,以幫助我國(guó)的研究者和實(shí)踐工作者,了解STEM 教育對(duì)學(xué)生成績(jī)影響的一般規(guī)律,推進(jìn)我國(guó)STEM 教育的發(fā)展。為此,本研究將重點(diǎn)回答以下三個(gè)問題:
1. 相比于非STEM 教育,STEM 教育是否有利于提高學(xué)生成績(jī)?
2. 若STEM 教育對(duì)學(xué)生的成績(jī)有影響,影響程度有多大?
3. 哪些因素會(huì)影響到STEM 教育的效果?
在元分析的過程中,首先要做的工作就是對(duì)核心概念進(jìn)行界定。這是因?yàn)橹挥写_定了核心概念(或研究對(duì)象)的“操作性”定義后,才可能框定文獻(xiàn)檢索和篩選的范圍。到目前為止,人們對(duì)“STEM教育”這個(gè)概念并未形成完全統(tǒng)一的認(rèn)識(shí)。Carmichael(2017)通過分析政策文本,發(fā)現(xiàn)美國(guó)各州在實(shí)施STEM 教育的過程中,對(duì)STEM 教育的理解和期望都存有差異。因此,我們將通過簡(jiǎn)單回顧STEM 教育的發(fā)展歷程,來把握其核心內(nèi)涵并合理界定概念。事實(shí)上,在STEM 這個(gè)縮寫剛被提出時(shí),它所指的只是科學(xué)、技術(shù)、工程和數(shù)學(xué)四門學(xué)科及相關(guān)領(lǐng)域。早期的STEM 教育更多地聚焦于學(xué)科領(lǐng)域的知識(shí),并常常單獨(dú)教授STEM 的學(xué)科內(nèi)容,這往往使得學(xué)生缺乏對(duì)STEM 學(xué)科的興趣,學(xué)業(yè)表現(xiàn)也差強(qiáng)人意(Atkinson & Mayo,2010;Kelley & Knowles,2016)。因此美國(guó)提出了一系列改進(jìn)STEM 教育質(zhì)量的措施,其中就包括實(shí)行STEM 整合教育(integrated STEM education),并將學(xué)科間的整合從STEM 學(xué)科擴(kuò)大到其他領(lǐng)域,強(qiáng)調(diào)基于真實(shí)情境與問題的教學(xué)(Honey,et al.,2014;Macdonald,2016)。在此過程中,以真實(shí)情景、學(xué)科融合、問題解決及學(xué)生中心為特征的STEM 教育模式逐步得到了廣泛認(rèn)可。基于此,我們將“STEM 教育”界定為:在真實(shí)情境中,利用項(xiàng)目式學(xué)習(xí)、問題式學(xué)習(xí)等以學(xué)生為中心的學(xué)習(xí)方式有機(jī)整合科學(xué)、技術(shù)、工程、數(shù)學(xué)或更多學(xué)科的一種教育。本文將按此定義框定文獻(xiàn)范圍并篩選符合要求的文獻(xiàn)。
本文按照元分析的一般步驟展開:第一,在理論分析和概念界定的基礎(chǔ)上,確定文獻(xiàn)搜索的范圍和納入標(biāo)準(zhǔn),進(jìn)而在各類數(shù)據(jù)庫(kù)中檢索相關(guān)文獻(xiàn),形成分析所需數(shù)據(jù);第二,對(duì)所納入的文獻(xiàn)進(jìn)行編碼,列出納入文獻(xiàn)的詳細(xì)統(tǒng)計(jì)信息,并對(duì)所納入文獻(xiàn)的質(zhì)量進(jìn)行評(píng)估;第三,計(jì)算合并效應(yīng)量,分析STEM 教育對(duì)學(xué)習(xí)成績(jī)影響的整體程度,回答本研究的第一和第二個(gè)問題,并在此基礎(chǔ)上,進(jìn)行異質(zhì)性分析以討論STEM 教育影響學(xué)生成績(jī)的因素和機(jī)制,回答本研究的第三個(gè)問題;第四,進(jìn)行穩(wěn)健性檢驗(yàn),通過檢驗(yàn)、校正發(fā)表偏倚與敏感性分析,確保結(jié)果的可靠性和科學(xué)性。以上步驟中涉及的數(shù)據(jù)分析工作均通過Comprehensive Meta-Analysis 2.0 軟件來完成。
元分析在確定文獻(xiàn)納入標(biāo)準(zhǔn)的過程中要盡量排除研究者的個(gè)人偏好,更多地依據(jù)研究目的、研究?jī)?nèi)容、文獻(xiàn)特征和統(tǒng)計(jì)要求來確定。比如Lipsey & Wilson(2001,p. 16-20)指出,文獻(xiàn)納入標(biāo)準(zhǔn)需至少包含以下幾個(gè)基本要素:需納入文獻(xiàn)的顯著特征、研究對(duì)象、關(guān)鍵變量、研究設(shè)計(jì)、文化和語(yǔ)言范圍、時(shí)間范圍、文獻(xiàn)類型。結(jié)合研究目的以及納入標(biāo)準(zhǔn)應(yīng)包含的基本要素,本研究擬定了以下七條標(biāo)準(zhǔn)用以篩選文獻(xiàn):
1. 研究所使用的語(yǔ)言為英語(yǔ),發(fā)表于1996—2018 年間,文獻(xiàn)類型不限。
2. 研究?jī)?nèi)容為STEM 教育對(duì)基礎(chǔ)教育階段學(xué)生測(cè)試成績(jī)的影響,不包括特殊教育、職業(yè)教育及校外STEM 項(xiàng)目(out-school program)。
3. 研究設(shè)計(jì)為實(shí)驗(yàn)設(shè)計(jì),對(duì)比STEM 教育與非STEM 教育效果的差異。參照Cheung & Slavin(2013a)的標(biāo)準(zhǔn),文章需報(bào)告前測(cè)結(jié)果,差異過大的研究將被排除(ES>0.5),隨機(jī)實(shí)驗(yàn)可不進(jìn)行前測(cè)。
4. 至少由兩名老師分別對(duì)實(shí)驗(yàn)組和控制組進(jìn)行教學(xué),盡量減少教師因素所帶來的影響。若兩組只由一名老師進(jìn)行教學(xué),無法保證干預(yù)措施的獨(dú)立性,或會(huì)影響實(shí)驗(yàn)結(jié)果。
5. 研究在實(shí)驗(yàn)的進(jìn)程中,不應(yīng)告知學(xué)生研究的目的。因?yàn)樵诟嬷獙W(xué)生研究目的的情況下可能會(huì)導(dǎo)致實(shí)驗(yàn)結(jié)果出現(xiàn)偏差。
6. 實(shí)驗(yàn)組與對(duì)照組的樣本量應(yīng)相近。若實(shí)驗(yàn)組與對(duì)照組有一組樣本量過小,且兩者之間差距過大,可能導(dǎo)致研究結(jié)果存在偏誤。
7. 研究應(yīng)報(bào)告均值、標(biāo)準(zhǔn)差、樣本量或t 值、F 值等統(tǒng)計(jì)信息,確保能夠計(jì)算出效應(yīng)量。
所謂“最佳證據(jù)”應(yīng)當(dāng)是更具代表性和全面性的證據(jù),其來源應(yīng)當(dāng)盡可能地廣泛,不遺漏任何有價(jià)值的研究。為此,本研究以“STEM education”、“integrated STEM education”、“student achievement”等關(guān)鍵詞在教育數(shù)據(jù)庫(kù)以及搜索引擎(e.g.,ERIC,EBSCO,Springer,Google Scholar)中進(jìn)行檢索。根據(jù)已制定的納入標(biāo)準(zhǔn),先是對(duì)文獻(xiàn)標(biāo)題進(jìn)行篩選,排除明顯不符合標(biāo)準(zhǔn)的研究,并將可能符合標(biāo)準(zhǔn)的文獻(xiàn)下載存檔;然后閱讀文獻(xiàn)摘要,進(jìn)一步排除不符合要求的研究;最后對(duì)剩余的文獻(xiàn)進(jìn)行全文閱讀,篩選出完全符合標(biāo)準(zhǔn)的文獻(xiàn)。本研究共檢索了28683 篇文獻(xiàn),最終納入17 篇,獲得20 個(gè)效應(yīng)量。文獻(xiàn)檢索與篩選流程如圖1 所示。
圖1 文獻(xiàn)檢索與篩選流程
獲得可供分析的文獻(xiàn)后,需要將文獻(xiàn)進(jìn)行編碼以便于信息提取與數(shù)據(jù)分析。本研究使用的編碼規(guī)則如下:
1. 性別(Ge):女編碼為F,男編碼為M,男女都有編碼為B,未報(bào)告樣本性別信息的編碼為U。
2. 家庭社會(huì)經(jīng)濟(jì)地位(SES):低SES 編碼為L(zhǎng),中SES 編碼為M,高SES 編碼為H,樣本低、中、高SES 都有編碼為V,未報(bào)告SES 編碼為U。
3. 種族(E):白人編碼為W,非裔編碼為B,亞裔編碼為A,西班牙裔編碼為H,其他編碼為O,樣本中包含多個(gè)種族編碼為V,未報(bào)告種族信息編碼為U。
4. 受教育階段(Gr):K—5 年級(jí)編碼為P,6—8 年級(jí)編碼為M,9—12 年級(jí)編碼為H。由于各地區(qū)學(xué)制不同,具體編碼以作者報(bào)告為準(zhǔn)。
5. 學(xué)科(D):科學(xué)編碼為science,數(shù)學(xué)編碼為mathematics,工程編碼為engineering。
6. 地區(qū)(L):以作者報(bào)告的地區(qū)名稱作為編碼。
7. STEM 教育方法(I):項(xiàng)目式學(xué)習(xí)(project-based learning)編碼為PBL,問題式學(xué)習(xí)(problem-based learning)編碼為pbl,探究式學(xué)習(xí)編碼為(inquiry-based learning)IBL,其他以作者所報(bào)告STEM 教育措施為編碼。
8. 研究設(shè)計(jì)(Rd):準(zhǔn)實(shí)驗(yàn)設(shè)計(jì)編碼為QE,隨機(jī)實(shí)驗(yàn)設(shè)計(jì)編碼為RE。
9. 樣本量(Ss):大樣本編碼為L(zhǎng),小樣本編碼為S。參照Cheung & Slavin(2013b),樣本量大于250 的為大樣本,小于等于250 的為小樣本。
10. 測(cè)試工具類型(Ti):標(biāo)準(zhǔn)化測(cè)試工具編碼為1,非標(biāo)準(zhǔn)化測(cè)試工具編碼為0(研究中將大型測(cè)試或依據(jù)學(xué)科標(biāo)準(zhǔn)制定的測(cè)試題視為標(biāo)準(zhǔn)化測(cè)試,其余視為非標(biāo)準(zhǔn)化測(cè)試)。
11. 文獻(xiàn)發(fā)表年份(Py):分階段編碼為1996—2007 或2007—NOW。根據(jù)Sanders(2009),上世紀(jì)90 年代中期首次提出“STEM”這個(gè)縮寫;2007 年首次提出“STEM 教育整合”,強(qiáng)調(diào)學(xué)科之間的有機(jī)融合。
12. 文獻(xiàn)類型(Lt):期刊編碼為(J),非期刊類編碼為(non-J)。
已納入文獻(xiàn)的部分信息如表2 所示。
表2 納入文獻(xiàn)的信息
在元分析過程中,所納入文獻(xiàn)的質(zhì)量會(huì)影響到最終結(jié)果的質(zhì)量。我們參照Valentine & Cooper(2003)評(píng)估文獻(xiàn)質(zhì)量的方法,從納入文獻(xiàn)是否清楚地描述了干預(yù)措施、研究設(shè)計(jì)、樣本特征、測(cè)試工具以及測(cè)量過程等五個(gè)方面對(duì)文獻(xiàn)質(zhì)量打分,其中,“不清楚”賦值為1,“較清楚”賦值為2,“清楚”賦值為3。一篇文獻(xiàn)可獲得的最高分為15 分,得分越高質(zhì)量越高。為確保文獻(xiàn)質(zhì)量的評(píng)價(jià)盡可能客觀,這一過程由本文的第一作者與通訊作者(姚繼軍)獨(dú)立進(jìn)行,各文獻(xiàn)得分分值范圍為7—13 分,評(píng)分一致性為0.910(p<0.0001),納入文獻(xiàn)的質(zhì)量基本滿足分析需求。
計(jì)算合并效應(yīng)量是元分析的核心工作。這是因?yàn)椋瑐鹘y(tǒng)的虛無假設(shè)顯著性檢驗(yàn)(null hypothesis significance testing,NHST)僅能給出結(jié)果顯著與否的結(jié)論,但卻無法在不同樣本數(shù)量的研究中比較結(jié)果的有效性。從尋找“最佳證據(jù)”的角度而言,如果我們得到的證據(jù)無法確切地給出某項(xiàng)干預(yù)措施的效果大小,且無法比較不同干預(yù)措施之間的優(yōu)劣,那么這樣的證據(jù)也就無法準(zhǔn)確判斷相關(guān)教育改革(干預(yù))的效果并給出未來改進(jìn)的方向。效應(yīng)量指標(biāo)恰恰可以解決這個(gè)問題,Chow(1988)認(rèn)為,效應(yīng)量不但能指出自變量作用的大小,而且可作為統(tǒng)一的度量標(biāo)準(zhǔn)用以比較包含相同變量的系列實(shí)驗(yàn)的結(jié)果;更為重要的是,人們可以通過元分析等技術(shù)手段,對(duì)效應(yīng)量進(jìn)行平均以給出某一方面研究的一般性結(jié)論。
然而,不同文獻(xiàn)的研究設(shè)計(jì)不同,所使用的數(shù)據(jù)類型也有所差別。因此需要針對(duì)不同的數(shù)據(jù)和研究設(shè)計(jì)選擇合適的效應(yīng)量,必要的時(shí)候還需要進(jìn)行效應(yīng)量之間的轉(zhuǎn)換(盧謝峰等,2011;Borenstein et al.,2009,p. 45-49)。具體到本研究,由于學(xué)生成績(jī)?yōu)檫B續(xù)性變量,納入的文獻(xiàn)皆為實(shí)驗(yàn)設(shè)計(jì)并比較組間差異,因此筆者選用Cohen’s d 作為效應(yīng)量。計(jì)算合并效應(yīng)量的具體步驟是:
1. 計(jì)算各文獻(xiàn)的效應(yīng)量。
其中si為合并標(biāo)準(zhǔn)差,m1i為實(shí)驗(yàn)組均值,m2i為對(duì)照組均值。
2. 采用逆方差加權(quán)(inverse variance weighting)對(duì)各效應(yīng)量進(jìn)行賦權(quán)。
3. 通過加權(quán)平均計(jì)算合并效應(yīng)量。
經(jīng)Q 檢驗(yàn),發(fā)現(xiàn)研究間存在異質(zhì)性(Q=168.11,p < 0.0001),且我們假設(shè)除樣本誤差外,還有其他因素導(dǎo)致了各研究結(jié)果存在差異,因此采用隨機(jī)效應(yīng)模型(random-effect model)(Borenstein et al.,2009,p.83)進(jìn)行分析,詳細(xì)結(jié)果如表3 所示。
各文獻(xiàn)的效應(yīng)量分布在(-0.147,1.902)之間。參照Cohen(1988)的標(biāo)準(zhǔn),0.2 為小效應(yīng),0.5 為中等效應(yīng),0.8 為大效應(yīng)。所納入文獻(xiàn)中,報(bào)告了大效應(yīng)的有8 篇,且都具有統(tǒng)計(jì)意義,其中3 篇文獻(xiàn)報(bào)告的效應(yīng)量超過了1。效應(yīng)量最大的是Robinson 等(2014)的研究,第一年測(cè)得的效應(yīng)量為1.902(p<0.0001),第二年測(cè)得的效應(yīng)量為1.713(p<0.0001);Kassir(2013)的結(jié)果與Robinson 相近,效應(yīng)量為1.781;Acar(2018)則發(fā)現(xiàn)STEM 教育對(duì)科學(xué)和數(shù)學(xué)成績(jī)的提高程度都比較大,效應(yīng)量分別為1.247 和1.174。報(bào)告了中等效應(yīng)的有2 篇,且都比較接近于大效應(yīng)量,其大小分別為0.789 和0.693。其余文獻(xiàn)所報(bào)告的為小效應(yīng)、負(fù)效應(yīng)或不具統(tǒng)計(jì)意義。通過計(jì)算,未經(jīng)發(fā)表偏倚矯正和穩(wěn)健性檢驗(yàn)的合并效應(yīng)量為0.700(p<0.0001),是一個(gè)中等大小的效應(yīng)量。
元分析的另一項(xiàng)核心工作是異質(zhì)性分析。在尋找“最佳證據(jù)”的過程中,我們不僅需要了解某項(xiàng)干預(yù)的綜合效應(yīng),還需要知道有哪些因素會(huì)對(duì)干預(yù)的結(jié)果產(chǎn)生影響。元分析可以通過異質(zhì)性分析,來對(duì)影響研究結(jié)論的因素進(jìn)行討論。調(diào)節(jié)變量分析(moderator analysis)是進(jìn)行異質(zhì)性分析的主要方法之一,根據(jù)一定的特征劃分亞組,通過Q 檢驗(yàn)比較各組之間是否存在差異,便可判斷該特征是不是導(dǎo)致異質(zhì)性的原因(Borenstein et al.,2009,p. 149-186)。調(diào)節(jié)變量的選取主要有兩條途徑。一是參照既有的元分析文獻(xiàn),或是探討影響STEM 教育效果的因素的研究。對(duì)表1 中元分析文獻(xiàn)所選定的調(diào)節(jié)變量進(jìn)行簡(jiǎn)單的頻數(shù)統(tǒng)計(jì),出現(xiàn)頻數(shù)超過3 次的調(diào)節(jié)變量有以下幾個(gè):受教育階段(11 次),教學(xué)方法(6 次)、學(xué)科(8 次)、干預(yù)時(shí)長(zhǎng)(5 次)、研究設(shè)計(jì)(7 次)、文獻(xiàn)類型(3 次)、測(cè)試工具類型(3 次)、測(cè)試項(xiàng)目(3 次)、文獻(xiàn)年份(3 次)。此外,還有學(xué)者表明STEM 教育的效果或受學(xué)生的性別、家庭社會(huì)經(jīng)濟(jì)地位(SES)以及種族等因素的影響。比如Bicer 等(2015)發(fā)現(xiàn)接受STEM 教育的女同學(xué)比未接受STEM 教育的男同學(xué)的成績(jī)要好,STEM 教育組中低SES 的學(xué)生要比非STEM 教育組中高SES 的學(xué)生在數(shù)學(xué)上表現(xiàn)更好;Rozek 等人(2019)表明低SES 的學(xué)生在學(xué)習(xí)STEM 課程時(shí)更為吃力。諸如此類的研究都可以作為選擇調(diào)節(jié)變量的參考。二是從專業(yè)角度及統(tǒng)計(jì)學(xué)角度來選取,比如張?zhí)灬缘龋?015,第312 頁(yè))認(rèn)為可從設(shè)計(jì)方案、研究質(zhì)量等角度選取劃分亞組的因素。結(jié)合以上兩條選取調(diào)節(jié)變量的途徑及本文的研究目的,筆者從研究特征、干預(yù)特征及文獻(xiàn)特征三個(gè)方面選取調(diào)節(jié)變量,具體如表4 所示。
表4 調(diào)節(jié)變量的選取及其分類
由于已納入的文獻(xiàn)所報(bào)告的樣本特征信息不足,加之本研究只探討STEM 教育對(duì)學(xué)生學(xué)業(yè)成績(jī)的影響,因此樣本特征和測(cè)試項(xiàng)目不納入調(diào)節(jié)變量分析之中。其余調(diào)節(jié)變量的分析結(jié)果如表5 所示。
由表5 可知,STEM 教育方法、受教育階段、地區(qū)以及樣本量的不同都是造成各研究效應(yīng)量存在差異的原因:
1. 就STEM 教育方法而言(QB=47.760,p<0.0001),效果最好的是探究式學(xué)習(xí)(d=0.907),其次是問題式學(xué)習(xí)(d=0.888),二者都是大效應(yīng);學(xué)科整合則在中等程度上有利于提高學(xué)生的成績(jī)(d=0.614);項(xiàng)目式學(xué)習(xí)在提升學(xué)生成績(jī)方面的效應(yīng)量為0.228,是一個(gè)小效應(yīng)量。
2. 就受教育階段而言(QB=8.287,p=0.016),小學(xué)階段STEM 教育效果最好(d=1.021),高中階段其次(d=0.487),初中階段STEM 教育效果較為一般(d=0.237)且不顯著。
3. 就地區(qū)而言(QB=14.022,p=0.007),中國(guó)臺(tái)灣、尼日利亞、土耳其以及阿拉伯聯(lián)合酋長(zhǎng)國(guó)STEM 教育的效果比較好,效應(yīng)量分別為0.862、0.880、0.834 和1.781;而作為STEM 教育起源地的美國(guó),納入的文獻(xiàn)最多,效應(yīng)量相對(duì)較?。╠=0.515),但也是一個(gè)中等效應(yīng)量。
4. 就樣本量而言(QB=5.782,p=0.016),大樣本研究的效應(yīng)量較小,為0.333;小樣本研究的效應(yīng)量則比較大,為0.816。
表5 調(diào)節(jié)效應(yīng)分析
一般而言,發(fā)表偏倚是指統(tǒng)計(jì)結(jié)果為正向顯著的研究成果,更容易被期刊所接受并發(fā)表的一種現(xiàn)象。如果存在發(fā)表偏倚,元分析的結(jié)果可能會(huì)面臨放大干預(yù)措施真實(shí)效果的風(fēng)險(xiǎn)(Rothstein et al.,2005,p. 2-3)。發(fā)表偏倚是影響研究結(jié)果可靠性的一個(gè)重要因素,因此對(duì)其進(jìn)行檢驗(yàn)是元分析不可或缺的重要一環(huán)。常用的檢驗(yàn)方法是漏斗圖,通過觀察漏斗圖是否對(duì)稱來判斷發(fā)表偏倚存在與否;若無法直觀判斷出漏斗圖是否對(duì)稱,則可通過Egger 檢驗(yàn)來確定。本研究的漏斗圖如圖2 所示,該圖明顯不對(duì)稱,Egger 檢驗(yàn)的結(jié)果也顯著(B0=3.289,t=2.714,p1=0.007,p2=0.014),這表明本研究存在發(fā)表偏倚。發(fā)表偏倚作為一種不可控的因素,元分析的研究者很難完全避免這一問題。若存在發(fā)表偏倚,則需要對(duì)發(fā)表偏倚進(jìn)行修正并測(cè)算所缺失的研究文獻(xiàn)對(duì)元分析結(jié)果的影響,同時(shí)還要更為謹(jǐn)慎地討論研究的結(jié)果,以確保分析結(jié)果足夠穩(wěn)健。但需要指出的是,是否存在發(fā)表偏倚并不能作為評(píng)價(jià)元分析質(zhì)量的唯一標(biāo)準(zhǔn)。事實(shí)上,無論是元分析還是傳統(tǒng)的文獻(xiàn)綜述,都可能存在因發(fā)表偏倚而導(dǎo)致的“有偏估計(jì)”問題。相比于傳統(tǒng)文獻(xiàn)綜述,元分析的研究者們已經(jīng)發(fā)展出了一系列檢驗(yàn)、修正發(fā)表偏倚的技術(shù),以最大限度地保證分析結(jié)果的穩(wěn)健性。
圖2 發(fā)表偏倚檢驗(yàn)(漏斗圖)
修正與測(cè)算發(fā)表偏倚影響的常用方法是剪補(bǔ)法(trim and fill),其主要步驟是:首先,剪除(trim)引起漏斗圖不對(duì)稱的研究,并重新計(jì)算合并效應(yīng)量(中心值);其次,將去除的研究沿新的中心對(duì)稱地填補(bǔ)(fill)到對(duì)稱軸的另一側(cè);最后,計(jì)算合并效應(yīng)量及其標(biāo)準(zhǔn)差,并不斷疊代以上過程直至結(jié)果穩(wěn)定(Duval & Tweedie,2000;Rothstein et al.,2005,p. 127-144)。Bediou 等人(2018)近期發(fā)表在心理學(xué)權(quán)威期刊《Psychology Bulletin》上的研究,便是利用這一方法修正了發(fā)表偏倚對(duì)研究結(jié)果的影響。參考以上研究,我們同樣運(yùn)用剪補(bǔ)法,對(duì)本文的效應(yīng)量進(jìn)行修正。修正后的合并效應(yīng)量為0.410,95%置信區(qū)間為(0.185,0.636),說明發(fā)表偏倚的存在或?qū)е滦?yīng)量放大了41.43%。那么,這樣一個(gè)經(jīng)過修正的效應(yīng)量是否可靠呢?為解決這個(gè)問題,我們還需要對(duì)結(jié)果進(jìn)行敏感性檢驗(yàn),以評(píng)估元分析結(jié)果對(duì)發(fā)表偏倚的反應(yīng)程度。
進(jìn)行敏感性分析的常用方法是失安全系數(shù)法(failed-safe N)。通過對(duì)失安全系數(shù)的計(jì)算,我們可以判斷因存在發(fā)表偏倚而逆轉(zhuǎn)元分析結(jié)論的可能性(Cheung,& Slavin,2012;Lazowski,& Hulleman,2015)。該方法由Rosenthal(1979)提出,通過計(jì)算最少需要缺失多少研究才能使元分析的結(jié)論發(fā)生逆轉(zhuǎn),進(jìn)而判斷結(jié)論的穩(wěn)健性。該系數(shù)值越大,說明雖然存在發(fā)表偏倚,但元分析結(jié)果對(duì)缺失文獻(xiàn)的反應(yīng)越不敏感。若新增研究個(gè)數(shù)小于5K+10 個(gè)(K 為納入的文獻(xiàn)數(shù)量),則對(duì)所得到的結(jié)論要慎重對(duì)待。本研究計(jì)算的Classic 失安全系數(shù)N=1257(α=0.050,p<0.0001),即需要額外納入1257 篇文獻(xiàn),元分析的結(jié)論才能被推翻。
以上分析結(jié)果表明,本研究修正后的效應(yīng)量,已經(jīng)在一定程度上消除了發(fā)表偏倚對(duì)分析結(jié)果的影響,且研究結(jié)果較為穩(wěn)健。這說明0.410 更為接近STEM 教育效果的真實(shí)效應(yīng)量。
經(jīng)過嚴(yán)格的統(tǒng)計(jì)分析,我們可以得出結(jié)論:STEM 教育有利于提高學(xué)生的學(xué)業(yè)成績(jī),但是提升的程度較?。╠=0.410);諸如STEM 教育方法、受教育階段、地區(qū)和樣本量等都是造成實(shí)證研究結(jié)果不同的因素。本研究的結(jié)論支持“STEM 教育比傳統(tǒng)教育模式更有利于提高學(xué)生的成績(jī)”這一觀點(diǎn)。對(duì)比同類研究,本文所得到的合并效應(yīng)量略小于Sarac(2018)的0.442。但是Sarac 的研究除了前文提到的一些不足外,對(duì)發(fā)表偏倚的檢驗(yàn)和討論也有失嚴(yán)謹(jǐn)。因此,可認(rèn)為本研究的結(jié)論更具穩(wěn)健性。
本研究還進(jìn)一步分析了造成各研究結(jié)果存在差異的原因。整體而言,這些原因可以分為兩類。一類是研究設(shè)計(jì)本身引起的差異。比如,本研究發(fā)現(xiàn),樣本所在地區(qū)不同,STEM 教育的效果也不同。由于地區(qū)間文化存在差異,或可推測(cè)文化因素會(huì)影響STEM 教育的效果。就樣本量而言,大樣本研究的效應(yīng)量遠(yuǎn)小于小樣本研究,也更接近合并效應(yīng)量。此外,雖然干預(yù)時(shí)長(zhǎng)的異質(zhì)性分析結(jié)果不顯著,但是干預(yù)時(shí)長(zhǎng)過短(0—2 月)的研究其平均效應(yīng)量與其他亞組相比要小很多??梢酝普撘鼮闇?zhǔn)確地評(píng)估STEM 教育的效果,應(yīng)在條件允許的情況下,盡可能地增加樣本量,并延長(zhǎng)干預(yù)的時(shí)間,這樣可減小研究結(jié)果的誤差。
另一類導(dǎo)致結(jié)果不同的原因可歸結(jié)為STEM 教育本身的特征。對(duì)這類原因的分析,將有助于我們了解,到底什么樣的STEM 教育對(duì)學(xué)生的學(xué)習(xí)結(jié)果作用更為明顯。具體而言,在STEM 教育方法方面,本研究表明不同的教育方法在提升學(xué)生學(xué)業(yè)成績(jī)的表現(xiàn)上有所差別。比如學(xué)科整合方法在中等程度上有利于學(xué)生學(xué)業(yè)成績(jī)的提升(d=0.614),這一結(jié)果與Becker & Park(2011)所得的結(jié)論非常接近(d=0.630);問題式學(xué)習(xí)又比學(xué)科整合的效果更好,是一個(gè)大效應(yīng)量(d=0.888);項(xiàng)目式學(xué)習(xí)在提高學(xué)生成績(jī)方面的效應(yīng)量最小。既有研究表明,一些學(xué)習(xí)方法在促進(jìn)學(xué)生能力發(fā)展方面的作用或遠(yuǎn)大于其在提高學(xué)生成績(jī)方面的作用。以項(xiàng)目式學(xué)習(xí)為例,本研究表明其提高學(xué)生的成績(jī)的效應(yīng)量?jī)H為0.228,Zeng 等人(2018)的研究卻發(fā)現(xiàn),這一方法對(duì)學(xué)生能力的提升作用非常明顯,效應(yīng)量高達(dá)1.335。就學(xué)科內(nèi)容而言,本研究發(fā)現(xiàn)使用同一STEM 教育方法教授不同的內(nèi)容,其效果差異并不顯著,這也從一定程度上反映了STEM 學(xué)科之間具有緊密的內(nèi)在聯(lián)系(Bicer,et al.,2017)。就學(xué)生的受教育階段而言,STEM 教育似乎最適合于在小學(xué)階段實(shí)施,高中階段實(shí)施STEM 教育的效果則一般,初中階段的效應(yīng)量最小,僅為0.237 且不具統(tǒng)計(jì)意義。已有研究表明STEM 教育的效果或受學(xué)生學(xué)習(xí)經(jīng)驗(yàn)的影響,剛接觸STEM 教育的學(xué)生其表現(xiàn)要好于接觸過STEM 教育的學(xué)生(Taylor,2016),但這無法解釋為何STEM 教育在初中階段表現(xiàn)一般,其中的機(jī)制仍有待進(jìn)一步揭示。
受納入文獻(xiàn)信息所限,本研究無法通過調(diào)節(jié)變量分析來判斷樣本特征(性別、SES、種族)是否會(huì)影響STEM 教育的效果,但已有研究指出,不同性別的學(xué)生在空間能力(spacial ability)上存在差異,進(jìn)而影響STEM 學(xué)習(xí)表現(xiàn),但這種能力上的差異是可塑的(Kine,2017);還有研究發(fā)現(xiàn)家庭社會(huì)經(jīng)濟(jì)地位也會(huì)影響學(xué)生學(xué)習(xí)STEM 的效果(Bicer,et al.,2015;Rozek,et al.,2019)。
綜合來看,STEM 教育雖然比傳統(tǒng)教育模式更有利于學(xué)生的發(fā)展,但其作用機(jī)制仍是一個(gè)黑箱,打開這個(gè)黑箱是今后STEM 教育研究的一個(gè)重點(diǎn)方向。
回到本文最初探討的問題:如何基于既往教育研究文獻(xiàn)為教育的改革與發(fā)展提供“最佳證據(jù)”?本研究可被視為是一個(gè)方法上的探索。與傳統(tǒng)的主觀性文獻(xiàn)綜述相比,本文的研究過程表明,規(guī)范的元分析至少具有以下幾個(gè)方面的優(yōu)勢(shì):第一,由于在文獻(xiàn)搜集前,必須要確定“操作性定義”,因此元分析要求對(duì)核心概念進(jìn)行嚴(yán)謹(jǐn)?shù)慕缍?,這就避免了概念含混不清的問題。第二,元分析有著明確的文獻(xiàn)檢索和納入標(biāo)準(zhǔn),這就解決了過度依賴個(gè)人經(jīng)驗(yàn)甚至主觀好惡選擇文獻(xiàn)的問題。雖然元分析在確定文獻(xiàn)納入標(biāo)準(zhǔn)時(shí),也會(huì)受研究者個(gè)人研究背景和經(jīng)驗(yàn)的影響,但這樣的影響最終仍要以確定性的標(biāo)準(zhǔn)來體現(xiàn),而非像有些主觀性文獻(xiàn)綜述那樣,可將文獻(xiàn)篩選的標(biāo)準(zhǔn)“隱藏”于作者的意圖之后,進(jìn)而根據(jù)預(yù)設(shè)觀點(diǎn)去安排文獻(xiàn)。第三,在技術(shù)層面,元分析有著更為嚴(yán)謹(jǐn)?shù)臋z驗(yàn)流程,可通過漏斗圖、失安全系數(shù)等定量分析手段,更好地確保分析結(jié)果的穩(wěn)健性。第四,與以上幾點(diǎn)相關(guān),元分析具有可重復(fù)性和可驗(yàn)證性。在研究對(duì)象、核心概念界定、文獻(xiàn)篩選標(biāo)準(zhǔn)一致的情況下,不同的研究者使用元分析方法可以得到相同或相近的結(jié)論,這是傳統(tǒng)的主觀性文獻(xiàn)綜述所不具備的優(yōu)勢(shì)。需要指出的是,元分析到目前為止,主要還是用于對(duì)實(shí)證研究文獻(xiàn)的分析,難以分析思辨研究文獻(xiàn)。這可以視為這一方法的局限之一。但這并不意味著,基于元分析的結(jié)論不能為思辨研究提供證據(jù)。相對(duì)于傳統(tǒng)的主觀性文獻(xiàn)綜述,通過元分析方法對(duì)既有研究文獻(xiàn)進(jìn)行科學(xué)的梳理和綜合歸納,所得到的證據(jù),無疑更具一般性和指導(dǎo)性,更符合“最佳證據(jù)”的要求。這樣的證據(jù),無論對(duì)哪一類研究而言,都具有更強(qiáng)的證據(jù)效力,從而幫助相關(guān)研究建立在更為扎實(shí)的基礎(chǔ)之上。
毋庸諱言的是,由于聚焦國(guó)內(nèi)教育問題的高水準(zhǔn)實(shí)證研究,尤其是嚴(yán)格設(shè)計(jì)的實(shí)驗(yàn)研究還較為缺乏,當(dāng)前開展教育領(lǐng)域的元分析,在國(guó)內(nèi)文獻(xiàn)來源方面存在著一定的困難。為此,一方面,要大力強(qiáng)化和推動(dòng)國(guó)內(nèi)的教育實(shí)驗(yàn)研究。這是因?yàn)閲?guó)內(nèi)大多數(shù)實(shí)證研究均為相關(guān)性分析,這雖能幫助人們認(rèn)識(shí)特定教育現(xiàn)象的影響因素,但卻難以進(jìn)行因果推斷。而在不設(shè)對(duì)照組的教育實(shí)證研究中,還存在著有偏估計(jì)干預(yù)效果的風(fēng)險(xiǎn)(Cheung & Slavin,2016)。要解決這一問題,從技術(shù)上來說,最好的方式便是開展嚴(yán)格設(shè)計(jì)的實(shí)驗(yàn)研究。這樣,人們才能在更多的實(shí)證研究的基礎(chǔ)之上,通過元分析等技術(shù)獲得一般性的結(jié)論。另一方面,要倡導(dǎo)文獻(xiàn)綜述研究的“證據(jù)”意識(shí)。當(dāng)前的教育類綜述研究很多都存在著評(píng)述不全面、過程不嚴(yán)謹(jǐn)、結(jié)論不可靠等問題。我們無意否定主觀性文獻(xiàn)綜述研究的價(jià)值,并堅(jiān)信高品質(zhì)的綜述研究,無論是否使用元分析方法,都會(huì)推進(jìn)教育的研究與實(shí)踐的進(jìn)步。但如前所述,從理論研究與實(shí)踐工作的關(guān)系而言,主要聚焦于學(xué)理探究和觀點(diǎn)表達(dá)的主觀性文獻(xiàn)綜述,很難為實(shí)踐工作提供直接的、有效的、穩(wěn)健的“最佳證據(jù)”。從這個(gè)角度而言,本文所展示的方法,或?yàn)樨S富教育文獻(xiàn)綜述研究,更好地服務(wù)教育實(shí)踐探索提供了一條有效路徑。
華東師范大學(xué)學(xué)報(bào)(教育科學(xué)版)2020年6期