周丐曉 劉恩山 黃 瑄
(1 溫州大學(xué)生命與環(huán)境科學(xué)學(xué)院 浙江溫州 325035 2 北京師范大學(xué)生命科學(xué)學(xué)院 北京 100875)
當(dāng)前世界各國(guó)均從國(guó)家戰(zhàn)略的高度,將教育質(zhì)量提升作為國(guó)家發(fā)展的重要目標(biāo)和推動(dòng)力。作為教育質(zhì)量的核心指標(biāo),學(xué)生的學(xué)業(yè)質(zhì)量的監(jiān)測(cè)和評(píng)估,可為教育改革和決策提供重要參考。越來越多的國(guó)家將開展學(xué)生學(xué)業(yè)質(zhì)量監(jiān)測(cè),作為教育質(zhì)量提升的重要途徑,為政府教育決策、國(guó)家教育管理和學(xué)校教育診斷和改進(jìn)提供實(shí)證支持。通常學(xué)業(yè)質(zhì)量監(jiān)測(cè)包括框架設(shè)計(jì)、工具研發(fā)、試點(diǎn)實(shí)驗(yàn)、正式測(cè)試、結(jié)果反饋等若干環(huán)節(jié),其中最為關(guān)鍵的是開發(fā)高信效度的測(cè)評(píng)工具,在此基礎(chǔ)之上獲得的診斷信息才有參考價(jià)值。而當(dāng)前關(guān)于學(xué)業(yè)質(zhì)量測(cè)評(píng)工具的開發(fā)仍存在諸多困難,如何科學(xué)評(píng)價(jià)監(jiān)測(cè)工具的質(zhì)量是其中亟待攻克的重點(diǎn)難關(guān),理解開展學(xué)業(yè)質(zhì)量測(cè)評(píng)研究的重要意義、學(xué)業(yè)質(zhì)量監(jiān)測(cè)工具開發(fā)中存在的挑戰(zhàn),以及如何評(píng)價(jià)監(jiān)測(cè)工具的質(zhì)量,將有效提高學(xué)業(yè)質(zhì)量監(jiān)測(cè)工具的信效度,為進(jìn)一步提高學(xué)業(yè)質(zhì)量監(jiān)測(cè)結(jié)果的科學(xué)性及有效性奠定良好基礎(chǔ)。
當(dāng)前建設(shè)和完善教育質(zhì)量監(jiān)測(cè)評(píng)估體系已成為國(guó)際教育改革的一大趨勢(shì),開展學(xué)業(yè)質(zhì)量測(cè)評(píng)研究是完善教育質(zhì)量監(jiān)測(cè)評(píng)估體系的有效措施。學(xué)業(yè)質(zhì)量測(cè)評(píng)研究可為國(guó)家或區(qū)域教育質(zhì)量的提升和改進(jìn)提供客觀的坐標(biāo)定位和有效的參考依據(jù),學(xué)業(yè)質(zhì)量的監(jiān)測(cè)結(jié)果可在一定程度上反映當(dāng)?shù)亟逃|(zhì)量的水平,客觀評(píng)估當(dāng)前教育發(fā)展的優(yōu)勢(shì)和不足,為下一步進(jìn)行教育改進(jìn)和提升提供有效的反饋建議和努力方向。
1.1 完善教育質(zhì)量監(jiān)測(cè)評(píng)估體系已成為教育改革的迫切需求和重點(diǎn)議題 長(zhǎng)期以來,由于缺乏客觀準(zhǔn)確衡量學(xué)校教育質(zhì)量的標(biāo)準(zhǔn)和數(shù)據(jù)支持,我國(guó)以升學(xué)率和考試成績(jī)片面評(píng)價(jià)教育質(zhì)量的做法屢見不鮮,這已成為制約教育質(zhì)量評(píng)價(jià)發(fā)展的一大瓶頸,也影響了學(xué)校教育質(zhì)量的提高和改進(jìn)。為此,建立和完善國(guó)家義務(wù)教育質(zhì)量監(jiān)測(cè)評(píng)估體系,有效診斷和客觀評(píng)價(jià)我國(guó)教育質(zhì)量現(xiàn)狀,為教育部門科學(xué)決策和有效管理提供依據(jù)被提到了議事日程。2010年我國(guó)頒布了《國(guó)家中長(zhǎng)期教育改革和發(fā)展規(guī)劃綱要(2010—2020年)》,明確指出“要建立教育質(zhì)量監(jiān)測(cè)、評(píng)估體系,整合國(guó)家教育質(zhì)量監(jiān)測(cè)評(píng)估機(jī)構(gòu)及資源,完善監(jiān)測(cè)評(píng)估體系,定期發(fā)布監(jiān)測(cè)評(píng)估報(bào)告”[1]。開展教育質(zhì)量監(jiān)測(cè)研究,對(duì)教育質(zhì)量進(jìn)行科學(xué)、全面、有效的評(píng)價(jià),為教育改革和發(fā)展提供咨詢和論證,提高重大教育決策的科學(xué)性和有效性,已成為實(shí)現(xiàn)我國(guó)基礎(chǔ)教育科學(xué)發(fā)展、內(nèi)涵發(fā)展的重大舉措和戰(zhàn)略任務(wù)。
1.2 開展學(xué)業(yè)質(zhì)量測(cè)評(píng)研究是完善教育質(zhì)量監(jiān)測(cè)評(píng)估體系的有效途徑 學(xué)生學(xué)業(yè)質(zhì)量的水平是衡量一個(gè)國(guó)家教育質(zhì)量的重要標(biāo)準(zhǔn)之一,同時(shí)也是教育改革的核心議題,開展學(xué)業(yè)質(zhì)量測(cè)評(píng)研究已成為世界各國(guó)提升教育質(zhì)量的重要措施??v觀當(dāng)前國(guó)際教育改革發(fā)展趨勢(shì),為提升和改進(jìn)國(guó)家和地區(qū)的教育質(zhì)量,眾多教育發(fā)達(dá)國(guó)家和組織,嘗試通過開展學(xué)生學(xué)業(yè)質(zhì)量測(cè)評(píng)項(xiàng)目獲悉學(xué)生的學(xué)業(yè)現(xiàn)狀和影響因素,影響較為廣泛的包括PISA、TIMSS 和NAEP 等,以國(guó)際或區(qū)域教育發(fā)展?fàn)顩r為標(biāo)準(zhǔn)坐標(biāo)尺,對(duì)比分析本國(guó)的優(yōu)勢(shì)和不足,從而為教育質(zhì)量提升和政府教育決策提供論據(jù)和支持。我國(guó)也認(rèn)識(shí)到開展學(xué)業(yè)質(zhì)量測(cè)評(píng)工作的迫切性和重要性,教育部在2014年的工作要點(diǎn)中明確指出“開展義務(wù)教育階段學(xué)生學(xué)業(yè)質(zhì)量監(jiān)測(cè),研究制定中小學(xué)各學(xué)科學(xué)業(yè)質(zhì)量標(biāo)準(zhǔn)”。為落實(shí)這一工作,教育部隨后制定了《國(guó)家義務(wù)教育質(zhì)量監(jiān)測(cè)方案》,從2015年起在全國(guó)開展義務(wù)教育質(zhì)量監(jiān)測(cè)工作[2]。
開展學(xué)業(yè)質(zhì)量監(jiān)測(cè)的研究是改進(jìn)和提升教育質(zhì)量的重要措施,其中客觀且準(zhǔn)確診斷教育質(zhì)量現(xiàn)狀,才可為教育質(zhì)量的改進(jìn)提升提供有效的靶向和指導(dǎo)。這一目標(biāo)的實(shí)現(xiàn)有賴于研發(fā)科學(xué)有效的測(cè)試工具,測(cè)試工具的質(zhì)量直接影響診斷的結(jié)果及其教育決策價(jià)值。但由于我國(guó)教育測(cè)量理論和技術(shù)的相關(guān)研究仍處于起步階段,當(dāng)前在工具質(zhì)量分析的過程中存在諸多問題和挑戰(zhàn),主要表現(xiàn)在以下3 個(gè)方面。
2.1 統(tǒng)計(jì)學(xué)指標(biāo)的濫用和不恰解讀,數(shù)據(jù)分析缺乏連貫一致的頂層設(shè)計(jì) 在實(shí)際分析中有一誤區(qū),研究者容易盲目追逐統(tǒng)計(jì)指標(biāo)的新意和數(shù)量,認(rèn)為用盡可能多的較為高級(jí)的數(shù)據(jù)統(tǒng)計(jì)指標(biāo),便可為質(zhì)量分析提供更為科學(xué)的論證和論據(jù)。然而統(tǒng)計(jì)學(xué)指標(biāo)的應(yīng)用一般需考慮測(cè)驗(yàn)的具體情境,根據(jù)測(cè)試的要求選擇適宜的指標(biāo),才可獲得有價(jià)值的測(cè)試信息和對(duì)數(shù)據(jù)的正確解讀。例如在SPSS中做因子分析時(shí),需先做KMO 檢驗(yàn)和Bartlett 球度檢驗(yàn),通過對(duì)原有變量間相關(guān)性的檢驗(yàn),判斷變量是否適合做因子分析,只有二者均符合要求時(shí),因子分析的統(tǒng)計(jì)學(xué)指標(biāo)才具有參考價(jià)值。
除了統(tǒng)計(jì)學(xué)指標(biāo)的濫用和不恰解讀,另一常見問題是研究者傾向于碎片化的數(shù)據(jù)分析,數(shù)據(jù)分析方案缺乏連貫一致的頂層設(shè)計(jì)。連貫一致的頂層設(shè)計(jì)要求統(tǒng)籌考慮工具分析的各要素和測(cè)驗(yàn)情境,工具質(zhì)量的分析需要系統(tǒng)性而非碎片化的指標(biāo)解讀。碎片化的分析猶如管中窺豹,不能得其全貌,常導(dǎo)致分析指標(biāo)間功能重疊、缺乏邏輯上的連貫一致,難以獲得全面有效的質(zhì)量分析信息。工具的質(zhì)量分析實(shí)質(zhì)為一個(gè)論證分析過程,是對(duì)工具合適性和科學(xué)性的邏輯分析和實(shí)證分析,對(duì)質(zhì)量分析方案進(jìn)行頂層設(shè)計(jì)有助于優(yōu)化分析方案,從而提高質(zhì)量分析的效率和科學(xué)性。
2.2 測(cè)量理論的單一化,難以整合各種理論的優(yōu)勢(shì)進(jìn)行工具的分析 在測(cè)量理論的發(fā)展過程中,經(jīng)典測(cè)驗(yàn)理論(classic test theory,CTT)和項(xiàng)目反應(yīng)理論(item response theory,IRT)在心理學(xué)與教育測(cè)量方面發(fā)揮了重要作用。當(dāng)前在學(xué)科測(cè)試工具質(zhì)量評(píng)估方面,國(guó)際主流方向是結(jié)合項(xiàng)目反應(yīng)理論(IRT)和經(jīng)典測(cè)試?yán)碚摚–TT)綜合分析試題和問卷數(shù)據(jù),從而提高工具的科學(xué)性和有效性。
然而在實(shí)際分析中,我國(guó)研究者往往仍選擇CTT 作為工具質(zhì)量分析的優(yōu)先選擇,測(cè)量理論的單一化使得研究者難以整合各種理論的優(yōu)勢(shì)進(jìn)行工具的分析。究其原因在于CTT 所涉及的數(shù)學(xué)模型相對(duì)簡(jiǎn)單,參數(shù)和估算方法易于理解和掌握,對(duì)研究者統(tǒng)計(jì)學(xué)原理知識(shí)的掌握程度要求不高。但是CTT 有其理論和方法體系的弱點(diǎn),例如:項(xiàng)目難度與被試能力互相依賴,各參數(shù)受樣本質(zhì)量的影響;不區(qū)分問題重要性,項(xiàng)目均是平行的無(wú)重要性的差別;統(tǒng)計(jì)量(難度、區(qū)分度、誤差等)是籠統(tǒng)的全組被試的平均值,因此CTT 的信度僅能代表平均測(cè)量精確度,信度較低等。項(xiàng)目反應(yīng)理論克服了CTT 的缺點(diǎn),相比CTT 易受樣本影響的特點(diǎn),IRT 中所用的項(xiàng)目參數(shù)(例如題目難度、區(qū)分度等)是一種不受樣本影響的指標(biāo),被試能力與難度參數(shù)相互獨(dú)立,這些參數(shù)的獲得不會(huì)因被試樣本的變化而變化,同時(shí)對(duì)被試能力的估計(jì)不會(huì)因?yàn)樵囶}的不同而不同[3]。其次,它將定序測(cè)量轉(zhuǎn)化為等距測(cè)量,將項(xiàng)目難度與被試放在同一量尺上進(jìn)行測(cè)量,便于比較操作。最后,基于IRT 的測(cè)量能將誤差具體到個(gè)人,更為精確也更能反映客觀的被試情況。因此,充分利用CTT 和IRT 的優(yōu)勢(shì)共同分析工具質(zhì)量,優(yōu)劣互補(bǔ)協(xié)同并進(jìn),可極大提高工具質(zhì)量分析的科學(xué)性和有效性。
2.3 效度的程式化驗(yàn)證,缺乏實(shí)際情境的考量相比信度的檢驗(yàn),工具效度的評(píng)定更為靈活多變,長(zhǎng)期以來一直是教育測(cè)評(píng)領(lǐng)域的一大難題,研究者對(duì)效度的檢驗(yàn)偏于程式化和單一化,以經(jīng)驗(yàn)和主觀因素判定工具的效度,忽略樣本、工具和測(cè)試本身的屬性,單純從內(nèi)容效度的角度進(jìn)行專家評(píng)估以解釋工具的效度,缺乏實(shí)際情境的考量。
效度是指根據(jù)制定用途支持分?jǐn)?shù)解釋的那些事實(shí)和理論的有效程度[4]。效度檢驗(yàn)強(qiáng)調(diào)從多種渠道獲取效度證據(jù),例如基于內(nèi)容、反應(yīng)過程、內(nèi)部結(jié)構(gòu)、與其他變量之間關(guān)系、測(cè)驗(yàn)結(jié)果等的證據(jù),以驗(yàn)證測(cè)驗(yàn)?zāi)康模ɡ碚摽蚣埽┡c從測(cè)驗(yàn)分?jǐn)?shù)或其他評(píng)估中獲得的推論之間的一致程度。因此效度的檢驗(yàn)較為靈活,沒有程式化的模式。把握效度驗(yàn)證的核心在于用邏輯或?qū)嵶C的方法證明假設(shè),通??蓮睦碚摽蚣苁欠衲芙忉屧u(píng)價(jià)者在工具上的作答表現(xiàn),根據(jù)理論框架推演有關(guān)測(cè)驗(yàn)成績(jī)的假設(shè)與作答成績(jī)的一致程度等方面進(jìn)行實(shí)證檢驗(yàn)。好的效度論證應(yīng)考慮實(shí)際測(cè)驗(yàn)情境,整合多種論據(jù)構(gòu)建對(duì)測(cè)試目的達(dá)成度的良好論證,而非程式化的效度指標(biāo)報(bào)告。
工具分析是以教育測(cè)量理論為基礎(chǔ),獲得試題及整個(gè)測(cè)驗(yàn)的難度、區(qū)分度等一系列客觀定量指標(biāo),然后再結(jié)合命題目的、框架、藍(lán)圖、內(nèi)容效度等資料,實(shí)現(xiàn)對(duì)于測(cè)驗(yàn)及其題目進(jìn)行定量與定性分析的系統(tǒng)過程[5]。根據(jù)測(cè)驗(yàn)?zāi)康募皺z驗(yàn)指標(biāo)對(duì)工具中的試題進(jìn)行篩選是設(shè)計(jì)良好工具的重要保障,這一過程的實(shí)現(xiàn)主要依賴于以下3 個(gè)核心要素:①對(duì)測(cè)量學(xué)指標(biāo)和方法的深入理解;②測(cè)量理論的綜合運(yùn)用;③各個(gè)指標(biāo)的綜合參考。
3.1 深入理解測(cè)量學(xué)指標(biāo)和方法,形成結(jié)構(gòu)良好的頂層設(shè)計(jì)方案 對(duì)測(cè)量學(xué)指標(biāo)和方法的深入理解是靈活運(yùn)用各種統(tǒng)計(jì)指標(biāo)和方法的前提。每種測(cè)量學(xué)指標(biāo)和方法有其特殊的內(nèi)涵、使用條件及情境、樣本要求,例如基于CTT 的量表分析與樣本之間有一定的依賴性。實(shí)際選擇哪種指標(biāo)和統(tǒng)計(jì)方法需參考多方面的信息,例如每個(gè)變量的類型,連續(xù)變量、雙歧變量或順序變量;潛在的分布性質(zhì),正態(tài)分布還是非正態(tài)分布;變量分布特征,線性的還是非線性的;樣本的小大等。而且多數(shù)指標(biāo)和統(tǒng)計(jì)方法有特定的適用條件,如若依據(jù)試題信息函數(shù)驗(yàn)證試題質(zhì)量,首先要確定題目特征曲線能與試題相擬合,若擬合度差,則會(huì)產(chǎn)生誤導(dǎo)作用[6]。測(cè)量方法和指標(biāo)的選擇決定了工具質(zhì)量分析的有效性和科學(xué)性。
深入理解測(cè)量學(xué)指標(biāo)和方法的關(guān)鍵在于把握工具質(zhì)量檢驗(yàn)的核心本質(zhì),其實(shí)質(zhì)在于把握3 個(gè)關(guān)鍵要素:信度、效度和客觀度。信度的本質(zhì)在于了解測(cè)試結(jié)果的一致性和穩(wěn)定性; 而效度則是為了探查測(cè)試的正確性和有效性; 客觀性是為了確定測(cè)試工具對(duì)不同群體有無(wú)偏見。工具質(zhì)量的檢驗(yàn)參數(shù)也可根據(jù)這3 個(gè)關(guān)鍵要素進(jìn)行分類,如表1所示,試題信息量分析、信度分析、誤差、評(píng)分者一致性分析本質(zhì)上都是為了提高工具的信度,題總相關(guān)、效度分析、擬合度分析、懷特圖、因子載荷和項(xiàng)目特征曲線則是效度檢驗(yàn)的證據(jù),項(xiàng)目功能檢驗(yàn)則為工具客觀度的檢驗(yàn)提供了參考。在此基礎(chǔ)上形成結(jié)構(gòu)良好的頂層設(shè)計(jì)方案可化繁為簡(jiǎn)、精簡(jiǎn)指標(biāo),有效提高分析的效率和科學(xué)性。
表1 工具質(zhì)量檢驗(yàn)核心要素的指標(biāo)分類
3.2 測(cè)量理論的綜合運(yùn)用,達(dá)到優(yōu)劣互補(bǔ)的良好效果 經(jīng)典測(cè)量理論和項(xiàng)目反應(yīng)理論是當(dāng)前測(cè)驗(yàn)理論的兩大流派,經(jīng)典測(cè)量理論操作方便、便于理解,但存在樣本依賴、誤差較大等問題,項(xiàng)目反應(yīng)理論下的指標(biāo)更為精確、參數(shù)之間相互獨(dú)立,但不易理解且操作更為復(fù)雜、對(duì)樣本和測(cè)試條件要求較為苛刻,因此兩者各具優(yōu)勢(shì),可為互補(bǔ)。在工具質(zhì)量的檢驗(yàn)中可綜合應(yīng)用2 種理論,篩選題目提供更多、更為全面的信息。此外,在分析中還可根據(jù)具體測(cè)試類型及測(cè)試特點(diǎn)偏重參考某一測(cè)量理論分析結(jié)果,例如在做試題質(zhì)量分析時(shí),CTT 和IRT 參數(shù)均能提供較多的有效信息,但若要做跨年度的測(cè)試結(jié)果分析,則建議重點(diǎn)選用IRT 理論做試題分析,輔助參考CTT 理論的項(xiàng)目分析參數(shù),因?yàn)榻⒃贑TT 理論上的數(shù)據(jù)指標(biāo)與樣本是相互依賴的,由此測(cè)試的結(jié)果缺乏穩(wěn)定性,不利于開展跨年度結(jié)果比較的深入研究,而基于IRT 理論分析的量表可通過設(shè)置鏈接題對(duì)跨年度的數(shù)據(jù)進(jìn)行追蹤研究。此外,在做問卷質(zhì)量分析時(shí),基于IRT 理論的數(shù)據(jù)分析在效度的驗(yàn)證方面可提供更多的方法和參數(shù),為問卷的信效度提供更多客觀有效的信息,因此,問卷分析可更多參考IRT 參數(shù)以提高問卷質(zhì)量。
3.3 各個(gè)指標(biāo)的綜合參考,充分考慮測(cè)驗(yàn)本身的特征和情境 在工具質(zhì)量的檢驗(yàn)中,需注意綜合參考各個(gè)指標(biāo)。通常工具質(zhì)量檢驗(yàn)的指標(biāo)如表2所示,參考時(shí)應(yīng)根據(jù)測(cè)試目的、試題類型、樣本情況等選取分析指標(biāo)及決定指標(biāo)參照的優(yōu)先次序,例如在選擇信度指標(biāo)時(shí),若涉及主觀題的等級(jí)評(píng)分情況,則需考慮評(píng)分者一致性信度,若只有客觀題則無(wú)需參考評(píng)分者的一致性。此外,某些指標(biāo)的取值范圍可有一定的浮動(dòng),例如項(xiàng)目擬合度(MNSQ)的取值范圍與測(cè)試的要求有很大關(guān)系,若是高利害測(cè)試,取值范圍較為嚴(yán)格,一般要求在0.7~1.3 之間,若非高利害測(cè)試,在0.5~1.5 之間也為可接受水平,工具開發(fā)者需根據(jù)被試情況及測(cè)試要求等實(shí)際情況選取適當(dāng)?shù)娜≈捣秶?。另一方面,?shù)據(jù)的解讀也需參考具體的測(cè)試背景,例如很多指標(biāo)與樣本量有關(guān),擬合度檢驗(yàn)中近似誤差均方根(RMESA)的大小就與樣本量有關(guān),當(dāng)抽樣較大時(shí)RMESA 值可能會(huì)偏高,因此,當(dāng)數(shù)據(jù)結(jié)果不夠理想可結(jié)合樣本情況做具體分析,指標(biāo)的解讀不能教條地看數(shù)據(jù),還需綜合各個(gè)指標(biāo)才能判斷測(cè)試結(jié)果的信效度。
表2 工具質(zhì)量檢驗(yàn)的常用指標(biāo)
在對(duì)工具質(zhì)量的檢驗(yàn)分析時(shí),深入理解各種測(cè)量學(xué)指標(biāo)和方法,是靈活運(yùn)用各種統(tǒng)計(jì)指標(biāo)和方法的前提,在此基礎(chǔ)之上需綜合運(yùn)用CTT 和IRT 測(cè)量理論,根據(jù)實(shí)際情況靈活選取分析指標(biāo),采用多種測(cè)量學(xué)指標(biāo)和數(shù)據(jù)分析方法,以全面考察工具的質(zhì)量,確保工具的科學(xué)性和有效性,才能為教育研究與實(shí)踐提供客觀準(zhǔn)確的數(shù)據(jù)結(jié)果,進(jìn)一步提高教育研究與實(shí)踐的質(zhì)量。與此同時(shí),還需指出的是統(tǒng)計(jì)指標(biāo)是試題修改的輔助工具,研究者除了綜合參考各種統(tǒng)計(jì)指標(biāo)外,試題的修改及刪除與否還需參考試題設(shè)計(jì)的理論框架和測(cè)試藍(lán)圖等,結(jié)合測(cè)試目的才能最終確定試題的修改方向。工具質(zhì)量評(píng)估的過程是一個(gè)不斷尋找證據(jù)支持論證工具信效度和客觀性的過程,除了側(cè)重量化分析的測(cè)量學(xué)指標(biāo)的運(yùn)用,還需特別注意參照工具開發(fā)的測(cè)試目的及理論框架,這些均能為工具質(zhì)量評(píng)估提供重要的證據(jù)支持,因此,要充分重視并綜合運(yùn)用這些信息,促進(jìn)高質(zhì)量工具的開發(fā)。