国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

心理學(xué)研究中缺失數(shù)據(jù)的處理方法比較

2020-05-23 04:26:42沈洪炎
關(guān)鍵詞:替代法期望值最大化

沈洪炎

(廣州大學(xué) 學(xué)生處心理健康教育與咨詢中心,廣東 廣州 510006)

一、研究背景

缺失值是指在數(shù)據(jù)采集與整理過程中丟失的內(nèi)容。心理學(xué)的研究對象是人,以人作為被試,不可避免地存在著態(tài)度、情緒、心理狀態(tài)等主試無法控制的因素,因此,數(shù)據(jù)的收集與整理比其他研究更加困難,得到的觀測數(shù)據(jù)也普遍存在不完整的情況[1-2]。因此,從統(tǒng)計(jì)和測量的角度探討合適的缺失值處理方法尤為重要。但是,在心理學(xué)研究領(lǐng)域,缺失值的問題并未得到足夠的重視,對處理缺失值的方法的研究有限,而且缺乏系統(tǒng)性和針對性。

SPSS(Statistical Package for the Social Science)軟件是心理研究常用的統(tǒng)計(jì)軟件,其常用的缺失值處理方法有整列刪除、成對刪除、均值替換法、期望值最大化法、回歸插補(bǔ)法。其中,整列刪除和成對刪除可統(tǒng)稱為刪除法。

近幾十年來,研究者提出了許多統(tǒng)計(jì)方法用于處理數(shù)據(jù)缺失的問題,在不同領(lǐng)域得到了廣泛應(yīng)用,并且有大量文獻(xiàn)對其進(jìn)行了探討及效果優(yōu)劣的比較,結(jié)論不盡一致。鄧建新等人[3]認(rèn)為,刪除法在低缺失率(小于5%)的情況下表現(xiàn)較好;對于期望值最大化法和回歸插值法,殷娟娟[4]、魏娜等人[5]認(rèn)為缺失率是決定其效果優(yōu)劣的重要影響因素,而且期望值最大化法的處理效果更好。朱高培等人[6]認(rèn)為在缺失比例較低時(shí)(10%~20%),成對刪除法和回歸插補(bǔ)法的效果較好且易于實(shí)現(xiàn),但成對刪除法會(huì)降低統(tǒng)計(jì)效率,所以建議選擇回歸插補(bǔ)法。

綜上所述,每一種方法都有其適用條件,因此有必要了解其在不同條件下的數(shù)據(jù)處理效果,以便使其能用到實(shí)處。

二、模擬研究

本研究通過模特卡羅模擬方法構(gòu)造隨機(jī)缺失數(shù)據(jù)(MCAR),并采用5種缺失值處理方法進(jìn)行刪除或填充,然后借助回歸模型來計(jì)算處理后的數(shù)據(jù)和原始數(shù)據(jù)的參數(shù)估計(jì)偏差大小,并以絕對值偏差A(yù)BSE作為衡量缺失值處理方法好壞的指標(biāo)。本研究使用的軟件包括R2.9.1、SPSS 15.0和Excel 2003。

(一)模型選用

通過R2.9.1軟件編程,模擬一個(gè)完整的數(shù)據(jù)集,該數(shù)據(jù)集中包含的樣本容量為N=200,1個(gè)因變量Y,3個(gè)自變量,即X1、X2和X3,這3個(gè)自變量均為正態(tài)連續(xù)變量,利用該數(shù)據(jù)集建立多元線性回歸模型:

(二)構(gòu)造缺失值

將各變量合并為矩陣,并按照一定的缺失率(2%、3%、5%、10%、20%)隨機(jī)地將矩陣中的數(shù)值指定為缺失值。

(三)缺失處理

采用SPSS軟件,分別用各種方法(整列刪除、成對刪除、均值替換法、期望值最大化法、回歸插補(bǔ)法)對每一種缺失率下的缺失數(shù)據(jù)集進(jìn)行處理,并將處理后的數(shù)據(jù)和原始數(shù)據(jù)分別帶入回歸模型中進(jìn)行參數(shù)估計(jì),比較兩組回歸系數(shù)的差異。

(四)選取衡量指標(biāo)

重復(fù)實(shí)驗(yàn)50次,以回歸系數(shù)的絕對值偏差A(yù)BSE作為衡量缺失值處理效果的指標(biāo)。此值越低,則處理后的數(shù)據(jù)集與原始的完整數(shù)據(jù)集越接近,即對應(yīng)的缺失值處理方法效果越好;此值越高,則處理效果越差?;貧w系數(shù)的絕對值偏差A(yù)BSE計(jì)算公式為:

(五)模擬研究結(jié)果

圖1為本次模擬的結(jié)果。

圖1 模擬結(jié)果的柱形圖

由圖1可知,隨著缺失率的增大,各方法的絕對值偏差A(yù)BSE值都在上升,這說明數(shù)據(jù)缺失越多,可利用的數(shù)據(jù)信息就越少,無論使用哪一種方法,還原完整的原始數(shù)據(jù)都會(huì)越來越困難,處理效果也會(huì)越來越差。同時(shí),隨著缺失率的逐步遞增,各方法的效果差異也越發(fā)明顯。

在各種缺失率下,均值替代法的絕對值偏差A(yù)BSE值總是最高,而且當(dāng)缺失率大于2%時(shí),均值替代法的效果明顯差于其他方法。但不幸的是,在心理學(xué)問卷和實(shí)驗(yàn)數(shù)據(jù)處理過程中,絕大多數(shù)研究者都使用這種方法來填充缺失值。此外,整列刪除和期望值最大化法的絕對值偏差A(yù)BSE值較低,說明此兩種方法的處理結(jié)果與完整數(shù)據(jù)集比較接近。

三、實(shí)例驗(yàn)證

引用何莉雯[7]的數(shù)據(jù),共得到8 729個(gè)完整的觀測樣本,分別以2%、3%、5%、10%、20%的缺失率構(gòu)造缺失數(shù)據(jù)集,再用本研究中的5種方法進(jìn)行缺失值處理,結(jié)果如圖2所示。由圖1制作的模擬結(jié)果的折線圖如圖3所示。

通過實(shí)例結(jié)果與模擬結(jié)果進(jìn)行對比可以發(fā)現(xiàn):ABSE值總是隨著缺失率的增大而升高,各方法的效果差異隨著缺失值的增大越來越明顯;均值替代法的ABSE值在各種缺失率下總是最高的,即該方法填充效果最不理想;整列刪除法和期望值最大化法效果通常較好,在樣本量充足的條件下,可適當(dāng)使用;回歸插值法和成對刪除法效果居中,優(yōu)于均值替代法,劣于刪除處理??傮w上,實(shí)例驗(yàn)證結(jié)果與模擬結(jié)果是一致的。

圖2 實(shí)例驗(yàn)證結(jié)果的折線圖

圖3 模擬結(jié)果的折線圖

四、討論和建議

(一)討論

對比本文和前人研究的結(jié)果可以發(fā)現(xiàn),刪除法在低缺失率(小于10%)的情況下應(yīng)用效果最好,這與國內(nèi)外大多數(shù)研究結(jié)論一致。當(dāng)數(shù)據(jù)樣本缺失率較?。ú怀^10%)且缺失值呈現(xiàn)隨機(jī)分布時(shí),整列刪除方法的處理效果比較好;但是,當(dāng)樣本缺失率較大或缺失值未服從完全隨機(jī)分布時(shí),該方法可能會(huì)因刪除大量樣本而降低檢驗(yàn)功效,并產(chǎn)生較大的偏差。在心理學(xué)研究中,大多數(shù)問卷調(diào)查和實(shí)驗(yàn)設(shè)計(jì)的樣本量都不是很充足,使用該方法時(shí)應(yīng)結(jié)合具體情況,綜合考慮樣本量、缺失率、統(tǒng)計(jì)功效等因素。另外,當(dāng)使用結(jié)構(gòu)方程模型(Structural Equation Model)構(gòu)建心理模型時(shí),如進(jìn)行驗(yàn)證性因素分析或路徑分析時(shí),使用成對刪除法處理缺失數(shù)據(jù)可能導(dǎo)致樣本協(xié)方差矩陣非正定,對參數(shù)估計(jì)和模型擬合產(chǎn)生影響,所以此時(shí)應(yīng)慎重選用成對刪除法。

在本研究中,模擬數(shù)據(jù)和實(shí)測數(shù)據(jù)都顯示,均值替代法所得出的結(jié)果是最差的。從原理上講,這種方法建立在完全隨機(jī)缺失的假設(shè)之上,會(huì)使樣本離散程度減小,方差變小,但是通常對變量的均值估計(jì)不會(huì)產(chǎn)生影響。只是這種方法假設(shè)各個(gè)變量之間是相互獨(dú)立的,而無論是模擬中用到的回歸模型,還是實(shí)證研究中測量得到的各個(gè)變量,大都存在著某種相關(guān)關(guān)系,難以滿足獨(dú)立性假設(shè)。

(二)建議

筆者詳細(xì)探討了SPSS軟件中5種缺失值處理方法的優(yōu)劣,為研究者處理缺失數(shù)據(jù)提供了多種方法選擇。現(xiàn)對各種缺失值處理方法的優(yōu)劣進(jìn)行總結(jié),以供心理學(xué)研究者和SPSS使用者參考。

刪除法(包括整列刪除和成對刪除):方便快捷,但容易損失數(shù)據(jù)信息。該方法適合于樣本量充足、缺失率較小、缺失數(shù)據(jù)呈現(xiàn)隨機(jī)分布的情況。

均值替換法:方便快捷,但效果較差。該方法可用于缺失率較低、研究精度要求不高、海量數(shù)據(jù)的填充處理。

期望值最大化法:當(dāng)缺失率較高時(shí),該方法能得到比較準(zhǔn)確的估計(jì)結(jié)果。但是,該方法運(yùn)算時(shí)間較長,對計(jì)算機(jī)硬件要求高。

回歸插值法:該方法在低缺失率下處理效果可以和刪除法相媲美,高缺失率下的表現(xiàn)還有待檢驗(yàn),運(yùn)算時(shí)間較短,但應(yīng)用時(shí)應(yīng)注意變量之間的相關(guān)關(guān)系假定。

猜你喜歡
替代法期望值最大化
物理方法之等效替代法
初識等效替代法
勉縣:力求黨建“引領(lǐng)力”的最大化
Advantages and Disadvantages of Studying Abroad
劉佳炎:回國創(chuàng)業(yè)讓人生價(jià)值最大化
基于改進(jìn)數(shù)學(xué)期望值的瀝青性能評價(jià)模型
石油瀝青(2018年4期)2018-08-31 02:29:40
例說等效替代法
重新審視你的期望值
媽媽寶寶(2017年4期)2017-02-25 07:00:58
距跟外側(cè)韌帶替代法治療跟腓韌帶缺失的慢性踝關(guān)節(jié)外側(cè)不穩(wěn)
戴夫:我更愿意把公益性做到最大化
都兰县| 遂平县| 革吉县| 曲水县| 大理市| 竹溪县| 吉林市| 宁强县| 电白县| 阿克陶县| 色达县| 额尔古纳市| 尼勒克县| 东安县| 兴文县| 阿克陶县| 和平区| 临沂市| 万宁市| 两当县| 陵水| 会东县| 确山县| 桐庐县| 呼伦贝尔市| 德惠市| 玉屏| 大关县| 屯昌县| 曲阜市| 克山县| 石柱| 北宁市| 扶风县| 柳河县| 徐闻县| 广宗县| 大石桥市| 黑山县| 秦皇岛市| 阳原县|