鐘欣
摘 要:在心理學(xué)研究中,數(shù)據(jù)的質(zhì)量直接影響著研究的成敗。但沒(méi)有完美的數(shù)據(jù),對(duì)于那些因?yàn)槟承┰蜻z失的數(shù)據(jù),即缺失值。綜合前人研究,提出了導(dǎo)致缺失值產(chǎn)生的三個(gè)因素,以及提出處理缺失值的六種方法。
關(guān)鍵詞:心理學(xué)問(wèn)卷 缺失值 處理
中圖分類(lèi)號(hào):B841 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-098X(2014)08(a)-0201-02
心理學(xué)至成立以來(lái)一直致力于改善人們的生活,提高人們的生活質(zhì)量,為社會(huì)的發(fā)展與進(jìn)步貢獻(xiàn)自己的綿薄之力。由于心理學(xué)是一門(mén)講求實(shí)證的學(xué)科,要達(dá)到這樣的目的,一定的研究則必不可少,這就不可避免的會(huì)遇到數(shù)據(jù)分析的問(wèn)題。一個(gè)研究的成敗取決于這個(gè)研究所收集數(shù)據(jù)的質(zhì)量,質(zhì)量較好的數(shù)據(jù),即較少出現(xiàn)遺失、奇異、極端等情況,就能夠反應(yīng)研究的真實(shí)情況從而得到較好的研究結(jié)果。心理學(xué)是一門(mén)對(duì)人的行為進(jìn)行研究的學(xué)科,然而對(duì)某些行為的研究可能會(huì)引起人們的抵觸,這種抵觸心理就會(huì)反映在數(shù)據(jù)的收集上,導(dǎo)致數(shù)據(jù)會(huì)出現(xiàn)一些問(wèn)題,例如出現(xiàn)數(shù)據(jù)遺失,而怎樣應(yīng)對(duì)這種問(wèn)題即是該文關(guān)注的焦點(diǎn)。
1 缺失值的概念及產(chǎn)生因素
缺失值指的是某項(xiàng)研究的某個(gè)項(xiàng)目或多個(gè)項(xiàng)目上的數(shù)據(jù)出現(xiàn)遺失的情況。在心理學(xué)研究中,出現(xiàn)缺失值是十分常見(jiàn)的現(xiàn)象,有些研究人員并沒(méi)有對(duì)這個(gè)問(wèn)題予以重視,往往將其忽略并簡(jiǎn)單處理了事,然而這個(gè)不受重視的問(wèn)題有時(shí)會(huì)對(duì)研究結(jié)果產(chǎn)生致命的影響。在某些心理學(xué)研究中,由于研究經(jīng)費(fèi)或是社會(huì)倫理性等原因,可能研究收集的數(shù)據(jù)較少,這就導(dǎo)致每個(gè)數(shù)據(jù)對(duì)研究人員來(lái)說(shuō)都彌足珍貴,并且由于樣本量較小,一個(gè)數(shù)據(jù)的變化可能就會(huì)影響整個(gè)研究的結(jié)果。在這種情況下如果出現(xiàn)了缺失值,不當(dāng)?shù)奶幚矸绞綄?huì)帶來(lái)嚴(yán)重的結(jié)果,千里大堤潰于蟻穴。
缺失值對(duì)心理學(xué)研究可能會(huì)產(chǎn)生如此之大的危害,那么缺失值又是如何產(chǎn)生的呢?
1.1 被試因素
一個(gè)心理學(xué)的研究,被試自身的態(tài)度對(duì)研究結(jié)果有著至關(guān)重要的影響。例如,在某些心理學(xué)研究中由于涉及一些比較敏感的信息,被試在完成這樣的研究時(shí)可能基于對(duì)自我的保護(hù),并不會(huì)認(rèn)真的完成調(diào)查或干脆不予配合,這就導(dǎo)致了缺失值的出現(xiàn)。其次,由于社會(huì)贊許等現(xiàn)象的存在,被試也會(huì)不按真實(shí)的情況如實(shí)完成研究,有時(shí)在問(wèn)卷調(diào)查中因沒(méi)有符合自己要求的答案而棄選,從而造成缺失值的出現(xiàn)。最后,也有可能是被試在作答時(shí)確實(shí)是因?yàn)閷?duì)題目的遺漏而導(dǎo)致沒(méi)有作答。
1.2 研究本身因素
由于心理學(xué)屬于社會(huì)學(xué)科,在其進(jìn)行的研究中,并不是每個(gè)研究的設(shè)計(jì)都完美無(wú)缺,特別是有些不是很?chē)?yán)謹(jǐn)?shù)膯?wèn)卷調(diào)查研究,問(wèn)卷本身設(shè)計(jì)的不恰當(dāng),就已經(jīng)對(duì)研究的結(jié)果的可信性埋下了隱患。例如:?jiǎn)柧眍}目設(shè)計(jì)的不嚴(yán)謹(jǐn),使被試在進(jìn)行作答時(shí)感覺(jué)到疑惑,從而沒(méi)有作答。其次,問(wèn)卷內(nèi)容過(guò)多,題目過(guò)長(zhǎng),這都會(huì)使被試產(chǎn)生疲倦感,促使他們應(yīng)付了事或者直接跳躍式作答。最后,對(duì)于實(shí)驗(yàn)研究來(lái)說(shuō),實(shí)驗(yàn)儀器的故障也是導(dǎo)致缺失值的因素之一。
1.3 主試因素
在心理學(xué)研究中,主試起到的是一個(gè)引導(dǎo)的作用,雖然不是被研究者,但是其本身所具有的屬性,也會(huì)對(duì)研究結(jié)果產(chǎn)生影響。一個(gè)嚴(yán)格的心理學(xué)研究必須要包括對(duì)主試的培訓(xùn)過(guò)程,即讓主試熟悉研究目的,研究注意事項(xiàng)等等,然而有些研究因?yàn)榻?jīng)費(fèi)、時(shí)間等原因并沒(méi)有重視這一步驟,從而導(dǎo)致主試缺乏一些基本的問(wèn)題應(yīng)對(duì)技巧,不能夠在研究過(guò)程中發(fā)現(xiàn)問(wèn)題,或是在被試出現(xiàn)問(wèn)題時(shí)沒(méi)有及時(shí)糾正。其次,在數(shù)據(jù)錄入時(shí),由于主試的粗心,導(dǎo)致在錄入時(shí)出現(xiàn)錯(cuò)錄、漏錄等現(xiàn)象。最后,主試對(duì)于數(shù)據(jù)分析軟件的操作不當(dāng)也會(huì)導(dǎo)致數(shù)據(jù)的丟失。以上這些因素都可能會(huì)產(chǎn)生缺失值從而對(duì)研究產(chǎn)生負(fù)面影響。
2 常見(jiàn)的缺失值處理方法
倘若在研究中已經(jīng)無(wú)可避免的出現(xiàn)了數(shù)據(jù)的缺失,則必須采用一些辦法來(lái)填補(bǔ)這些缺失值,減小其對(duì)研究結(jié)果的影響。常見(jiàn)的處理方法有以下幾種。
2.1 個(gè)案剔除法(Listwise Deletion)
該方法是最常見(jiàn)也最簡(jiǎn)單的缺失值處理方法,在很多統(tǒng)計(jì)軟件(例如:SPSS)中該方法作為默認(rèn)的處理方法。該方法的處理思路是,如果在研究的某一變量上存在數(shù)據(jù)缺失,則將該被試的所有數(shù)據(jù)從統(tǒng)計(jì)分析中刪除。當(dāng)缺失值的數(shù)量占數(shù)據(jù)總數(shù)量的比例沒(méi)有超過(guò)20%時(shí),使用這種方法可以很好地解決數(shù)據(jù)缺失的問(wèn)題。然而在某些研究中,研究所取得的數(shù)據(jù)量很小,如果出現(xiàn)缺失值,使用剔除法進(jìn)行處理,由于該方法的特點(diǎn),勢(shì)必會(huì)再次減少樣本的容量,這樣就會(huì)嚴(yán)重影響數(shù)據(jù)的客觀性與準(zhǔn)確性。同時(shí),當(dāng)數(shù)據(jù)是非隨機(jī)分布時(shí),使用這種方法會(huì)導(dǎo)致數(shù)據(jù)發(fā)生偏離,使最終的數(shù)據(jù)分析產(chǎn)生錯(cuò)誤的結(jié)論。其次,由于被試某一變量存在缺失值而剔除該被試所有的數(shù)據(jù),這會(huì)造成資源的大量浪費(fèi),很可能丟失了隱藏在其中的重要信息。
2.2 均值替換法(Mean Imputation)
與個(gè)案剔除法不同的是,均值替換法不需要?jiǎng)h除被試的數(shù)據(jù),這樣就保留了與缺失變量無(wú)關(guān)的其他變量的信息,最大程度上的保證了數(shù)據(jù)的真實(shí)性與完整性。在心理學(xué)研究中,我們將變量的屬性分為數(shù)值型與非數(shù)值型,對(duì)于不同類(lèi)型的變量缺失值,使用不同的替換方法。當(dāng)缺失值為數(shù)值型,就根據(jù)該變量其他所有對(duì)象的取值平均值來(lái)填充該缺失值;但缺失值屬于非數(shù)值型則根據(jù)統(tǒng)計(jì)學(xué)中的眾數(shù)原理,用該變量在其他所有對(duì)象的取值次數(shù)最多的值來(lái)填補(bǔ)這個(gè)缺失值。均值替換法雖然簡(jiǎn)單,但是使用這種方法可能會(huì)產(chǎn)生有偏估計(jì),并且使用該方法的前提假設(shè)是缺失值的產(chǎn)生是完全隨機(jī)的。
2.3 熱卡填充法(Hotdecking)
對(duì)于存在缺失值的變量,熱卡填充法首先在數(shù)據(jù)中找到一個(gè)與它最相似的對(duì)象,然后用這個(gè)對(duì)象的值進(jìn)行填充。不同的問(wèn)題選擇的標(biāo)準(zhǔn)也會(huì)不同。一般最常用的是相關(guān)矩陣,即確定缺失值所在的變量A與變量B最相關(guān),然后將所有個(gè)案的B的取值從小到大排序,變量A的值就可以用排在此位置的變量B的值代替。
2.4 回歸替換法(Regression Imputation)endprint
回歸替換法利用回歸方程的特點(diǎn),所限選擇若干個(gè)預(yù)測(cè)缺失值的自變量,然后建立回歸方程來(lái)估計(jì)該缺失值,利用缺失數(shù)據(jù)的條件期望值對(duì)缺失值進(jìn)行替換。這種方法利用了數(shù)據(jù)庫(kù)中盡可能多的信息。這種方法也存在其自身的缺陷,首先,由于該方法的理論基礎(chǔ)是回歸方程,那么研究人員在使用該方法前必須要確定缺失值所在的變量與其他變量存在線(xiàn)性關(guān)系。其次,基于回歸方程的估計(jì)雖然是無(wú)偏估計(jì),但卻容易忽略隨機(jī)誤差的影響,低估標(biāo)準(zhǔn)差和其他未知性質(zhì)的測(cè)量值,這個(gè)問(wèn)題會(huì)隨著缺失值的增多而變得更加嚴(yán)重。
2.5 多重替代法(Multiple Imputation)
Rubin等人于1987年建立起該方法,該方法的特點(diǎn)在于不是使用單一的數(shù)值來(lái)替換缺失值,而是試圖建立一個(gè)隨機(jī)的樣本來(lái)估計(jì)缺失值。首先,用一系列可能的值來(lái)替換每一個(gè)缺失值,以反映被替換的缺失值的不確定性。然后,用標(biāo)準(zhǔn)的統(tǒng)計(jì)分析過(guò)程對(duì)多次替換后產(chǎn)生的若干個(gè)數(shù)據(jù)集進(jìn)行分析。最后,把來(lái)自各個(gè)數(shù)據(jù)集的統(tǒng)計(jì)結(jié)果進(jìn)行綜合,得到總體參數(shù)的估計(jì)值。通過(guò)這種方法,研究人員不僅可以對(duì)缺失值進(jìn)行填充,還可以在不刪除任何數(shù)據(jù)的情況下,對(duì)數(shù)據(jù)的未知性質(zhì)進(jìn)行判斷。在缺失較少時(shí)(10%~20%),采用多重替代法準(zhǔn)確度、精確度高于其他方法,且只需較低的填充次數(shù)即可達(dá)到較好的效果,填充后的分布接近完整數(shù)據(jù)集分布,并能很好地反映完整數(shù)據(jù)集的準(zhǔn)確度,其處理結(jié)果與“實(shí)際情況”較接近。
2.6 期望最大化法(Expectation Maxim ization)
該方法常用于對(duì)實(shí)驗(yàn)缺失值的處理。1930年Allan和威沙特Wishart首先提出插補(bǔ)單一不完整數(shù)據(jù)的觀念,并提出了對(duì)單一缺失值的估計(jì)方法;Yates于1933年在其基礎(chǔ)上進(jìn)行改良,利用解聯(lián)立方程組的技巧,將之推廣到幾個(gè)缺失值的插補(bǔ); Laird和Rubin(1977)利用極大似然估計(jì)發(fā)展出“EM”迭代算法計(jì)算缺失值的方法。EM迭代法估計(jì)缺失值的基本思想是,當(dāng)數(shù)據(jù)出現(xiàn)缺失值,首先以其它觀測(cè)值計(jì)算估計(jì)總平均值、處理效應(yīng)及區(qū)組效應(yīng),再采用迭代方式,將上述估計(jì)的總平均值、處理效應(yīng)及區(qū)組效應(yīng)代入到原來(lái)的缺失值位置,重新計(jì)算總平均值、處理效應(yīng)和區(qū)組效應(yīng),再將重新計(jì)算的這些值代入重新估計(jì),以此類(lèi)推,直到前后兩次的估計(jì)值差異較小時(shí)停止。
以上六種缺失值的處理方法各有各的特點(diǎn),在使用他們進(jìn)行數(shù)據(jù)處理時(shí),需要根據(jù)不同的情況合理選擇處理方法。不同的處理方法有時(shí)會(huì)帶來(lái)不同的結(jié)果,例如使用個(gè)案剔除法進(jìn)行數(shù)據(jù)處理后,各變量的標(biāo)準(zhǔn)差可能會(huì)明顯的增大,而當(dāng)使用均值替換法時(shí),各變量的標(biāo)準(zhǔn)差可能會(huì)明顯的偏小。
缺失值的處理需要考慮缺失數(shù)據(jù)產(chǎn)生的原因、缺失值所占的比例、研究人員的研究能力、時(shí)間條件等因素,具體情況具體分析。與后期通過(guò)數(shù)據(jù)處理的方式來(lái)彌補(bǔ)缺失值,研究人員更應(yīng)該注重的是研究的實(shí)施過(guò)程,只要把好研究的每一道關(guān),就能夠盡力避免缺失值的產(chǎn)生,磨刀不誤砍柴工,希望廣大的研究人員能夠深刻理解這個(gè)道理。
參考文獻(xiàn)
[1] 張朝雄,沈昱,張慧.缺失數(shù)據(jù)插補(bǔ)方法比較研究[J].市場(chǎng)研究,2007(9):33-35.
[2] 花琳琳,施念,楊永利,等.不同缺失值處理方法對(duì)隨機(jī)缺失數(shù)據(jù)處理效果的比較[J].鄭州大學(xué)學(xué)報(bào)(醫(yī)學(xué)版),2012,47(3):315-318.
[3] 戴穩(wěn)勝,謝邦昌.實(shí)驗(yàn)設(shè)計(jì)中缺失值的處理[J].統(tǒng)計(jì)與決策,2009(9):6-7.endprint