劉瀟
摘 要 本文從國內(nèi)近年來對于標準參照測驗的一系列探索出發(fā),對國內(nèi)學者對于標準參照測驗的相關理論和評價指標做的研究和陳述主要包括標準參照測驗的評價指標如信效度,測驗長度以及分數(shù)體系做了一個綜合述評。
關鍵詞 標準參照測驗 評價指標 分數(shù)體系
中圖分類號:O212 文獻標識碼:A
1標準參照測驗的定義與作用
1.1標準參照測驗的定義
匹斯堡大學的Glaser首次提出標準參照測驗,將測驗分成標準參照測驗和常模參照測驗。后來許多學者將內(nèi)容參照、領域參照等解釋為標準參照。
標準參照測驗又稱準則參照測驗。是一種精心編制的,在一定的行為領域上按照具體標準水平對測驗結(jié)果作出直接解釋的測驗。是一種與以經(jīng)典測驗理論為基礎的與常模參照測驗相對的測驗類型。
1.2標準參照測驗的作用
了解個體在所規(guī)定的測量內(nèi)容上的行為水平,其出發(fā)點是個體本身的絕對水平,而不是個體間的差異。
2標準參照測驗與常模參照測驗的不同
常模參照測驗的分數(shù)反應了一個人在所屬群體中的相對位置,常模代表了某一群體的真正水平,而標準參照測驗的分數(shù)標志一個人能力或知識的絕對水平,不與其他人的分數(shù)比較,標準是希望達到的目標,對個體作出是否達標或達到什么程度的判斷,有很大的人為性。
3標準參照測驗的評價指標
3.1標準參照測驗的信度估計
標準參照測驗的信度估計方法很多,如克龍巴赫 系數(shù)或CTT中的其它信度指標。標準參照測驗一定程度上有別于常模參照測驗,許多的學者對其信度估計做了很多的闡述和研究。
香港中文大學的楊志明教授用概化理論中的可靠性指數(shù) 和 ( )公式,分別針對交叉設計和嵌套設計,就標準參照性測驗的整體信度和等級分數(shù)線決策信度的估計問題進行了探討。用數(shù)據(jù)演示的方法比較了交叉設計與嵌套設計在估計標準參照性測驗整體信度方面的差異,展示了等級決策分數(shù)線決策信度的估計方法。
安徽師大的趙必華教授在《標準參照測驗信度的估計方法及其驗證》中列舉了四種標準參照測驗信度的估計方法,分別是斯旺明內(nèi)森方法;惠恩方法;薩伯考維克方法;瑪希爾方法。
3.2標準參照測驗的效度估計
對標準參照測驗的效度估計主要是內(nèi)容效度的估計,主要從以下兩方面入手:一是測題的正確性即指測題正確地反映測量目標所欲測量的知識、技能的程度。檢驗主要包括:測題的技術質(zhì)量和測題與測量目標之間的一致性程度;二是測題的代表性,即要求組成標準參照測驗的測題必須對測驗領域總體有一定的代表性,從而使測驗具有較高的內(nèi)容效度。為了保證測題的代表性,標準參照測驗編制中往往需要制訂雙向細目表;同時人們也提出了利用“重復實驗”方法。
3.3標準參照測驗的長度
在標準參照測驗中,測驗長度的決策不僅要結(jié)合特定的測驗分界分數(shù),而且要以降低錯誤肯定和錯誤拒絕的誤差概率為原則。因此,標準參照測驗長度的確定不是以常模參照測驗中的斯皮爾曼布朗信度估計理論為基礎,而是采用米爾曼的二項式概率模型法、威爾克森的不肯定區(qū)域法以及項目反應理論下的信息函數(shù)值法。
這些研究方法進行長度決策時的基本宗旨是:在符合測量誤差標準要求的前提下,尋求最符合經(jīng)濟原則的測驗長度和合格分數(shù)的優(yōu)化組合方式,將測驗對被試掌握程度的錯誤分類降低到最低限度。
針對標準參照測驗長度的研究方法使用范圍最廣、理論基礎最成熟是米爾曼的二項式概率模型、威爾克斯的不肯定區(qū)域模型和項目反應理論的擬合估計法。每種方法都有各自的適用條件,在具體情境中可以根據(jù)情況進行方法選擇。
4標準參照測驗的分數(shù)體系
標準參照測驗分數(shù)的報告和解釋還存在誤區(qū),許多考試仍沿用經(jīng)典測驗理論中的常模參照方法來對其分數(shù)報告和解釋。目前國內(nèi)有學者從國內(nèi)外的重大考試入手,通過探討分數(shù)體系的共同點以找到適合于標準參照測驗的分數(shù)體系,為以后的一些標準參照測驗的分數(shù)體系提供參考。
國內(nèi)外有許多重大教育考試在使用標準參照測驗,每套測驗都會有一個相對成熟的分數(shù)體系。國內(nèi)常見的標準參照測驗有大學英語四六級考試,漢語水平考試HSK等;國外的比如美國研究生入學考試GRE,美國大學水平考試CLEP等等。
盡管上述一些國內(nèi)外重大考試采用的分數(shù)體系比較完善。但目前使用的一些標準參照測驗的分數(shù)體系仍存在大量的問題。首先分數(shù)的報告和解釋過分依賴于標準樣本的分布;其次不同的等值方法和等值設計將造成了不同的等值誤差,且差異較大。但是樣本容量限制等現(xiàn)實情況使得許多測驗不得不采用一些誤差較大的等值方案;再次,樣本選擇代表性受到了一定的限制,另外由各專家評定的標準試卷同樣無法避免其主觀性;最后,盡管采用了專家評定方法和樣本分布共同來確定分界線,但是具體的分數(shù)線的確定因人的能力是連續(xù)變量而仍具有一定的主觀性。
5小結(jié)
隨著教育水平的不斷提高,標準參照測驗在教育考試以及其他考試方面的重要性也逐漸凸顯,關于測驗的編制和評估,以及分數(shù)解釋等的完善也越來越重要,以往沿用常模參照測驗的方式進行的信度估計,分數(shù)解釋等工作已經(jīng)顯示出許多的局限性,對于新的理論方法的探索是迫切而十分有必要的,大量有待解決的問題需要人們在以后的工作中進行進一步的探索,希望以后有更多更好的辦法來解決這些問題,而為日后一些標準參照測驗分數(shù)體系的設計提供切合實際的參考。
參考文獻
[1] 甘良梅,余嘉元.標準參照測驗分數(shù)體系的探討研究.心理學探新,2006(3):79-83.
[2] 趙必華.標準參照測驗信度的估計方法及其驗證.寧波大學學報(理工版),2002(3):99-102.
[3] 楊志朋.標準參照測驗及其等級線信度的概化理論分析.心理學探新,2003(3):52-56.
[4] 柴省三.標準參照測驗長度研究方法探析.教育測量與評價,2013(2):9-15.