華中科技大學(xué)附屬中學(xué) (430074) 梁 玉 華中師范大學(xué)數(shù)學(xué)與統(tǒng)計學(xué)學(xué)院 (430079) 徐章韜
一件合格產(chǎn)品的問世必須經(jīng)過上百道工序的錘煉、全方位品質(zhì)監(jiān)控體系的檢測,同樣地,做教育實(shí)證研究,不可缺少的一環(huán)是對研究進(jìn)行“質(zhì)量把關(guān)”,一項好的研究必須是穩(wěn)定可靠的,多次使用獲得的結(jié)果應(yīng)前后一致,這是教育研究得以推廣使用最基本的前提.在教育研究中,誤差不可避免,但大小有所不同,我們總是盡力縮小隨機(jī)誤差到可接受的程度,從而使得研究結(jié)果更準(zhǔn)確可靠.一項研究結(jié)果的穩(wěn)定性和一致性如何、可靠性有多大、能在多大的程度上保證研究工具的精密是研究中最不容忽視的基本問題,這個問題即是研究的信度.不同研究的信度可能存在高低程度上的不同,教育實(shí)證研究應(yīng)當(dāng)追求更高的信度以保證得出研究結(jié)論的客觀性、科學(xué)性和可推廣性.本文將揭示信度理論的原理,從信度的理論定義走向操作定義,并作進(jìn)一步細(xì)化,從平行測驗的獲得方法重復(fù)施測、復(fù)本替代及等值分半等得到數(shù)學(xué)教育研究中的不同信度類型,深化對信度概念的理解,以期更有效地做好數(shù)學(xué)教育定量實(shí)證研究.
既然真分?jǐn)?shù)無法直接求解,不妨以退為進(jìn),設(shè)法找一些可以實(shí)際獲得的已知量來代替信度公式中的未知量,由于實(shí)測分?jǐn)?shù)是實(shí)驗過程中唯一可直接獲得的資料,做法是從實(shí)測分?jǐn)?shù)出發(fā)來定義信度,使信度變得實(shí)際可操作.理論上看,同一組被試在兩平行測驗上的實(shí)測分?jǐn)?shù)是相同的,然而在實(shí)際研究中,同一組被試在兩平行測驗上實(shí)測分?jǐn)?shù)往往存在差異,這種差異正是由測量誤差決定的,如果兩個實(shí)測分?jǐn)?shù)高度接近,可以推論測量誤差很小,測量是可靠的.因而,一個合乎邏輯的想法是用兩個平行測驗實(shí)測分?jǐn)?shù)之間的相關(guān)來定義信度,間接來推論測驗控制誤差的能力,該定義具有可操作性.
從相關(guān)角度來看,信度是通過計算兩平行測驗得分的相關(guān)系數(shù)得到的,信度系數(shù)介于-1到1之間,信度系數(shù)越大,測驗越可靠.如果信度為負(fù)值,說明在一個平行測驗中得分高的被試在另一個平行測驗中得分低,當(dāng)然這種情況很少出現(xiàn),信度系數(shù)一般介于0到1之間,不同目的的測驗對信度系數(shù)的要求不同,例如一般標(biāo)準(zhǔn)學(xué)業(yè)成績考試要求信度在0.90以上,標(biāo)準(zhǔn)智力考試的信度應(yīng)達(dá)到0.85以上,個性考試和興趣考試則較低,達(dá)到0.70-0.80即可.用相關(guān)法評估信度,用一個0至1之間的數(shù),依據(jù)數(shù)值的大小刻畫研究的效度高低,這種方法可操作性很強(qiáng),關(guān)鍵點(diǎn)和難點(diǎn)就在于平行測驗的獲得.
要從操作層面得到測驗的信度指標(biāo),就要求得兩平行測驗的相關(guān)性,前提是存在兩組平行測驗,可以說,解決信度問題的能力就取決于獲得平行測驗的能力.平行測驗測的是同一被試屬性,要求對同一足夠大的被試施測后,這些實(shí)測分?jǐn)?shù)的平均數(shù)和方差都相等,且所有測驗與其他任一測驗的相關(guān)也相等.這是按照統(tǒng)計學(xué)方法進(jìn)行檢驗,在數(shù)學(xué)教育研究中,我們還應(yīng)對測驗內(nèi)容進(jìn)行分析.
(1)從時間變量來看——重測信度
如果一個測量工具和所測屬性是穩(wěn)定可靠的,那么測量結(jié)果應(yīng)當(dāng)不以時間為轉(zhuǎn)移,前后一致.從這個角度出發(fā),用同一測驗對同一組被試在不同時間重復(fù)實(shí)測兩次,測驗的形式和內(nèi)容相同,就得到一組平行測驗,計算兩次實(shí)測分?jǐn)?shù)的相關(guān)系數(shù)得到測驗的信度,稱為重測信度.根據(jù)重測信度的高低,可以得知測驗結(jié)果跨時距的穩(wěn)定性程度,因此重測信度也成為穩(wěn)定系數(shù).例如,為了考察學(xué)生對學(xué)習(xí)數(shù)學(xué)的興趣,就需要確定一定時間間隔,在使用某種教學(xué)方式前后分別對學(xué)生進(jìn)行施測,考察兩次實(shí)測分?jǐn)?shù)之間的相關(guān)性,即求重測信度是獲得平行測驗最簡單的方法,然而由于使用的是同一套測驗,形式與內(nèi)容完全一樣,測驗結(jié)果不可避免地受到練習(xí)和記憶的影響,加之時間間隔的確定不太容易,因此重測信度存在明顯的局限性,測量誤差較大.
(2)從功能等值來看——復(fù)本信度
為了避免使用同一測驗重測帶來的記憶效應(yīng)和練習(xí)效應(yīng),一種自然的想法是使用兩個功能相同的測驗對同一組被試對象進(jìn)行施測,計算兩個版本得分的相關(guān)系數(shù),這種類型信度稱為復(fù)本信度.復(fù)本信度系數(shù)越高,表示兩個版本的實(shí)測分?jǐn)?shù)基本相同,可以相互替代;復(fù)本信度系數(shù)低,則說明兩版本的實(shí)測分?jǐn)?shù)不一樣,不能互相替代.例如,在許多正規(guī)考試中,都會出A、B兩套試卷,B卷作為備用卷,其功能在誤差允許范圍內(nèi)與A卷是等值的.考察兩個版本試卷的功能是否等同,就需要求出A卷得分與B卷得分的相關(guān)系數(shù)作為兩個版本在功能上的等價程度,即復(fù)本信度.在可以被接受的信度范圍內(nèi),兩套試卷互為復(fù)本,相互替代,以備不時之需.
實(shí)際上,復(fù)本信度的高低反映了兩個互為復(fù)本的測驗在效能上的等價程度,而不是直接反映一個測驗本身受隨機(jī)誤差影響的大小.通常要求兩個版本在題目內(nèi)容、形式、題數(shù)、難度等方面保持一致,這樣才能保證整體測驗的效能類似,從而提高復(fù)本信度系數(shù),因此復(fù)本信度也成為等值系數(shù).然而,在教育研究中,兩個測驗具體的項目難以保證“平行等值性”,內(nèi)容抽樣和難度匹配難以做到嚴(yán)格等同,并且編制兩份復(fù)本測驗所花費(fèi)的人力物力成倍地增加,成本很高.
(3)從內(nèi)部屬性來看——內(nèi)部一致性信度
重測信度和復(fù)本信度都需要前后施測兩次,且復(fù)本信度還需要兩種形式的測題.為了減少時間和成本損耗,循著使用單一形式測驗只施測一次的思路,不妨從測題內(nèi)部的一致性著手考察測驗的信度,這樣得到的信度稱為內(nèi)部一致性信度或同質(zhì)信度.如果測驗內(nèi)部各測題間相關(guān)一致性強(qiáng),則認(rèn)為是同質(zhì)的,說明測驗的所有成分都在集中力量考察同一屬性,那么內(nèi)部一致性信度就高;相反地,各測題相關(guān)較低,則認(rèn)為測驗為異質(zhì)的,測驗的內(nèi)部一致性信度就低.
內(nèi)部一致性信度擺脫了傳統(tǒng)上信度系數(shù)的定義——用兩平行測驗向同一組被試前后施測兩次獲得兩批實(shí)測分?jǐn)?shù)的相關(guān)性,另辟蹊徑,從內(nèi)部屬性角度出發(fā),用單一形式測驗只施測一次求出信度系數(shù),其原理還是使用了平行測驗,具體獲得平行測驗的方法如下:
從分半信度到α系數(shù)和KR-20公式,這一大類單一形式測驗內(nèi)部一致性信度都考察測驗的組成成分,直至最基本的單位即項目之間的相關(guān)性.如果它們的相關(guān)一致性強(qiáng),說明測驗的所有成分都集中于考察同一屬性特征,這樣測驗的信度系數(shù)取值高,測驗質(zhì)量好.內(nèi)部一致性信度在操作上采用了單一形式測驗,但本質(zhì)上仍是求取平行測驗間分?jǐn)?shù)的相關(guān),因而與重測信度系數(shù)和復(fù)本信度系數(shù)一樣,都是一組實(shí)現(xiàn)平行性要求的策略和方法.從內(nèi)部屬性角度考察獲得平行測驗的方法,還能從信度和效度兩方面說明問題.它從信度與效度的關(guān)系角度提出了對測驗量表內(nèi)部一致性檢驗的思路,效度從根本上受到信度的限制,如果一個測量量表是有效的,這個量表就必須是前后一致的.
重測信度、復(fù)本信度、內(nèi)部一致性信度是主要的三類信度指標(biāo),用來對研究質(zhì)量進(jìn)行分析各有優(yōu)點(diǎn)和特殊適用范圍,嚴(yán)格地說,都是信度系數(shù)的大體估計值.一般地,內(nèi)部一致性系數(shù)大于復(fù)本信度,復(fù)本信度大于重測信度,復(fù)本信度和重測信度兩種估計方法中,屬于測量誤差的因素多與內(nèi)部一致性信度.在具體操作中,用來估計信度的方法應(yīng)當(dāng)與研究的目的相吻合,有時還需把幾種方法加以綜合應(yīng)用,貫穿統(tǒng)一起來,使得在真分?jǐn)?shù)理論的框架下,獲得對信度完整透徹的理解和運(yùn)用.
數(shù)據(jù)是數(shù)學(xué)教育實(shí)證研究的命門,沒有量化數(shù)據(jù)的支撐何談研究的客觀、可靠、有效、可推廣.然而從“量”的角度客觀還原事物本質(zhì)的同時,不可避免地會產(chǎn)生隨機(jī)誤差,使得研究信度大大降低.因此無論是數(shù)學(xué)教育研究還是概率統(tǒng)計相關(guān)知識的中學(xué)數(shù)學(xué)教學(xué),都會強(qiáng)調(diào)控制隨機(jī)誤差,確保所獲得資料的準(zhǔn)確性和可靠性,提高研究的信度.
鑒于信度原理的復(fù)雜性,信度在中學(xué)概率統(tǒng)計部分的體現(xiàn),遠(yuǎn)遠(yuǎn)不如方差分析、相關(guān)系數(shù)、回歸分析這般明顯,但教材中對信度概念的處理、信度思想的滲透在細(xì)微處可見一斑.例如教材中統(tǒng)計部分,用樣本估計總體所提及到抽取樣本,三種抽樣方法往往只有“好壞之分”,而不是“對錯之分”,評價抽樣方法的優(yōu)劣應(yīng)該以樣本的代表性為標(biāo)準(zhǔn),為了使樣本具有代表性,抽樣規(guī)則應(yīng)客觀、公正,保證總體中每個單元被抽中的概率相等,因此等可能性是三種抽樣方法賴以存在的前提和根本,這樣的抽樣結(jié)果才客觀公正、不失代表性,提高了研究的信度.再如教材中概率部分,頻率在大量重復(fù)試驗的前提下可以近似地作為這個事件的概率,這就是頻率與概率的關(guān)系,而“大量重復(fù)試驗”正是為了減少隨機(jī)誤差,提高了研究的信度,保證了試驗結(jié)果——概率的精準(zhǔn)與合理,概率從數(shù)量上反映了隨機(jī)事件發(fā)生可能性的大小.統(tǒng)計與概率關(guān)系密切,理性和嚴(yán)謹(jǐn)是數(shù)學(xué)學(xué)科的特點(diǎn),借助概率知識,通過邏輯分析和運(yùn)算過程,讓三種抽樣方法的“等概率性”變得有理有據(jù),促進(jìn)學(xué)生進(jìn)一步體會抽樣規(guī)則的科學(xué)、合理之處,減少隨機(jī)誤差和偶然,保證研究的高質(zhì)量.