国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

顧客滿意度測評(píng)中的缺失值處理方法

2013-05-10 10:04:04趙富強(qiáng)
統(tǒng)計(jì)與決策 2013年6期
關(guān)鍵詞:補(bǔ)法均值顧客

趙富強(qiáng)

(天津財(cái)經(jīng)大學(xué),天津300222)

1 缺失值產(chǎn)生的原因、方式及處理方法

缺失值(Missing Value)是指在進(jìn)行問卷抽樣調(diào)查或?qū)嶒?yàn)性研究中,應(yīng)該從抽樣的樣本單元中得到而實(shí)際上卻由于種種原因而未得到所需的數(shù)據(jù);也稱為缺失數(shù)據(jù)(Missing Data)。

在進(jìn)行實(shí)驗(yàn)性研究或問卷抽樣調(diào)查中,數(shù)據(jù)缺失現(xiàn)象經(jīng)常發(fā)生,主要原因包括:①被調(diào)查者不愿提供調(diào)查所需要的信息;②不可人為控制的因素造成數(shù)據(jù)的缺失;③調(diào)研人員本身或調(diào)查系統(tǒng)的原因沒有收集到完全的信息;④信息填報(bào)匯總錯(cuò)誤原因造成數(shù)據(jù)的缺失等。產(chǎn)生缺失數(shù)據(jù)原因多種多樣,實(shí)際工作中有時(shí)很難判斷和檢測缺失數(shù)據(jù)產(chǎn)生的機(jī)制與方式。為了認(rèn)識(shí)和研究缺失的數(shù)據(jù),從形式上將其分為單元缺失與項(xiàng)目缺失兩種。Little和Rubin定義了以下三種不同的數(shù)據(jù)缺失機(jī)制:完全隨機(jī)缺失(Missing Completely at Random,MCAR)、隨機(jī)缺失(Missing at Random,MAR)和不可忽略的缺失(Non-ignorable Missing,NIM)。整個(gè)缺失數(shù)據(jù)的推估過程中,缺失數(shù)據(jù)的情況表現(xiàn)為三種方式[1,2]:單變量缺失、單調(diào)缺失型和任意缺失型。

缺失值的處理方法主要包括刪除法(Deletion)、插補(bǔ)法(Imputation)和最大似然估計(jì)法(Maximum likelihood)[3]等。缺失值插補(bǔ)法包括:均值插補(bǔ)法(Mean Imputation)、隨機(jī)插補(bǔ)法和多重插補(bǔ)方法(Multiple Imputation,MI)等。

在文獻(xiàn)[4]中,Lohm?ller’s PLSX對(duì)缺失值的處理為:⑴如果所有的顯變量樣本值都缺失,那么該樣本無效,無法估計(jì)潛變量。⑵如果該塊的顯變量樣本值不全缺失,那么計(jì)算潛變量估計(jì)時(shí),缺失的顯變量值由該顯變量的均值替代。⑶如果該潛變量估計(jì)值有缺失,那么計(jì)算內(nèi)部估計(jì)時(shí),缺失值由0替代。⑷權(quán)重的計(jì)算:①模式A(Mode A):權(quán)重根據(jù)公式計(jì)算;②模式B(Mode B):當(dāng)沒有缺失值按照公式計(jì)算;有缺失值時(shí),采用成對(duì)刪除法把對(duì)應(yīng)的缺失樣本值刪除,即不考慮在內(nèi),然后利用公式來計(jì)算權(quán)重。

除了上述方法外,缺失值處理方法還有回歸或主成分法、最大似然估計(jì)法、相似反應(yīng)模式算法(Similar Response Pattern Imputation)、EM算法(Expected Maximization Algorithm)和MCMC算法(Markov Chain Monte Carlo)等。

2 基于分類的缺失值處理方法

基于分類的缺失值處理方法是通過對(duì)被調(diào)查對(duì)象問卷分值的分析,選擇關(guān)鍵字段進(jìn)行分類,然后使用上述的缺失值處理方法進(jìn)行缺失值處理。主要包括:分類的均值插補(bǔ)法、分類的多重插補(bǔ)法和分類的K-means方法等。

均值插補(bǔ)法是用每個(gè)變量的均值取代該變量的缺失值。分類均值插補(bǔ)法是先對(duì)數(shù)據(jù)進(jìn)行分類,然后同類中的缺失值進(jìn)行均值插補(bǔ);在一定程度上克服了均值插補(bǔ)法替代值過于凝集和容易扭曲目標(biāo)變量分布的弱點(diǎn),使替代值的分布與真值分布更為接近。

多重插補(bǔ)法由1987年由Dempster教授和美國哈佛大學(xué)Rubin教授提出。在2000年,Paul D.Allison[5]博士也對(duì)多重插補(bǔ)法進(jìn)行了深入研究。它是一種用兩個(gè)或者更多的可得到的并且能反映數(shù)據(jù)本身分布概率的值來插補(bǔ)缺失或者不完善數(shù)據(jù)的一種方法。多重插補(bǔ)方法的主要思想是,給每個(gè)缺失值都構(gòu)造m個(gè)估計(jì)值(m>1),這樣就產(chǎn)生出m個(gè)完全數(shù)據(jù)集,對(duì)每個(gè)完全數(shù)據(jù)集分別使用相同的方法進(jìn)行處理,得到m個(gè)處理結(jié)果,最后再綜合這m個(gè)處理結(jié)果,最終得到對(duì)目標(biāo)變量的估計(jì)。多重填補(bǔ)法使得被插補(bǔ)的缺失數(shù)據(jù)能夠接近“真實(shí)”。該方法主要應(yīng)用于生物醫(yī)學(xué)、行為學(xué)和社會(huì)科學(xué)等領(lǐng)域,已成為處理缺失數(shù)據(jù)的最常用方法之一。而分類多重插補(bǔ)法是先對(duì)數(shù)據(jù)進(jìn)行分類,然后同類中的缺失值進(jìn)行多重插補(bǔ);

分類K-means方法是先對(duì)數(shù)據(jù)進(jìn)行分類,然后同類中的缺失值進(jìn)行聚類中心值插補(bǔ)。

3 分類缺失值處理方法在滿意度測評(píng)中應(yīng)用

以某食品公司為研究對(duì)象,以ACSI為測評(píng)模型,即包含6個(gè)潛變量,15個(gè)顯變量。數(shù)據(jù)的收集采取網(wǎng)上調(diào)查的方式進(jìn)行,參與網(wǎng)上調(diào)查的用戶為252位,因此樣本量為252。

求解帶缺失值的顧客滿意度指數(shù)步驟如下:

(1)異常值處理。

所謂異常值是被調(diào)查顧客在回答問卷時(shí),由于各種原因而選擇了“不知道”、“拒絕回答”以及“超出數(shù)值范圍”等選項(xiàng)時(shí)系統(tǒng)默認(rèn)的值。問卷采用10分制,從1分到10分供被調(diào)查者選擇,且只能選擇一個(gè)。對(duì)被調(diào)查者不知道或拒絕的回答,在數(shù)據(jù)庫里進(jìn)行了標(biāo)識(shí)(98表示不知道;99表示拒絕;101表示從來不購買)。這些數(shù)據(jù)在進(jìn)行處理時(shí)按照缺失值處理。

(2)數(shù)據(jù)標(biāo)準(zhǔn)化。

使得樣本值的均值為0、方差為1;

(3)缺失值處理。

通過對(duì)被調(diào)查對(duì)象問卷分值的分析,選擇滿意度字段進(jìn)行分類,滿意度分值從1到10分,共分為十個(gè)類別。分別采用類均值插補(bǔ)法、分類多重插補(bǔ)法和分類K-means方法進(jìn)行缺失值處理。

(4)利用PLS算法來估計(jì)模型中各個(gè)參數(shù),反復(fù)迭代得到潛變量估計(jì)值。

(5)求出顧客滿意度指數(shù)。

根據(jù)第四步求得的權(quán)重系數(shù),計(jì)算出顧客滿意度指數(shù)[1]。

圖1和圖2分別表示分類多重插補(bǔ)法在20%的缺失值比率下總體期望取值密度分布和總體期望缺失率與取值分布圖;僅給出了總體顧客期望的插補(bǔ)情況,顧客滿意度分類值為10,樣本量為112個(gè),迭代次數(shù)為9次,插補(bǔ)效果滿意。

圖1 總體期望取值密度分布圖

圖2 總體期望缺失率與取值分布圖

圖3 表示在不同缺失率下各種缺失值處理方法均方根誤差RMSE比較。其中,(a)圖表示均值插補(bǔ)與分類均值插補(bǔ)均方根誤差比較;(b)圖表示多重插補(bǔ)與分類的多重插補(bǔ)均方根誤差比較;(c)圖表示K-means與分類K-means均方根誤差比較,k的取值不同。

圖3 缺失率與RMSE關(guān)系圖

結(jié)果分析:通過實(shí)驗(yàn)數(shù)據(jù)分析,三種基于分類的缺失值處理方法優(yōu)于未采用分類的缺失值處理方法。其中分類K-means方法RMSE最小,如圖(c)所示;在K-means和分類K-means方法中,k的取值不同結(jié)果有差異,k值越大誤差越小。分類多重插補(bǔ)法誤差最大,如圖(b)所示(多重插補(bǔ)法缺失值比率超過50%后,RMSE值大于6。)。

在顧客滿意度測評(píng)中,對(duì)滿意度關(guān)鍵字段進(jìn)行分類,進(jìn)而采用相關(guān)的缺失值插補(bǔ)方法,即基于分類的缺失值處理方法是有效的。

4 結(jié)論與展望

通過對(duì)缺失值處理方法分析,提出基于分類的三種缺失值處理方法:分類的均值插補(bǔ)法、分類的多重插補(bǔ)法和分類的K-means方法;以某食品公司為研究對(duì)象,分析了帶缺失值的顧客滿意度指數(shù)測評(píng)步驟:異常值處理、數(shù)據(jù)標(biāo)準(zhǔn)化、缺失值處理等;對(duì)顧客滿意度測評(píng)常規(guī)模型進(jìn)行帶缺失值的實(shí)證分析和評(píng)價(jià),基于分類的三種缺失值處理方法優(yōu)于均值插補(bǔ)法、多重插補(bǔ)法和K-means方法。但論文僅對(duì)顧客滿意度字段進(jìn)行了分類研究,沒有考慮其它字段的分類情況、多個(gè)字段分類情況及各字段間關(guān)系等,這些是今后深入研究的問題。

[1]Wang Q H,Rao J N K.Empirical Likelihood for Linear Regression Models under Imputation for Missing Response[J].The Canadian Jour?nal Statistics,2001,29.

[2]Allison,Paul D.Missing Data Techniquesfor Structural Equation Mod?els[J].Journal of Abnormal Psychology,2003,112.

[3]Fatukasi,O.Kittler,J.Poh,N.Estimation of Missing Values in Multi?modal Biometric Fusion[J].Biometrics Theory Applications and Sys?tems,2008,9.

[4]Tenenhaus,M.,Vinzi,V.E.,Chatelin,Y.M.,Lauro,C.PLSPath Model?ing[J].Computational Statisticsand Data Analysis,2005,48(1).

[5]Allison,Paul D.Multiple Imputation for Missing Data:a Cautionary tale[J].Sociological Methodsand Research,2000,28.

猜你喜歡
補(bǔ)法均值顧客
基于絡(luò)病理論探討絡(luò)虛通補(bǔ)法在氣虛血瘀型椎動(dòng)脈型頸椎病中的應(yīng)用
“一站式”服務(wù)滿足顧客
基于少數(shù)類過采樣的傾向得分匹配插補(bǔ)法
響應(yīng)傾向得分匹配插補(bǔ)法
均值不等式失效時(shí)的解決方法
均值與方差在生活中的應(yīng)用
讓顧客自己做菜
山東青年(2016年1期)2016-02-28 14:25:27
關(guān)于均值有界變差函數(shù)的重要不等式
以顧客為關(guān)注焦點(diǎn)
對(duì)偶均值積分的Marcus-Lopes不等式
湟中县| 麻江县| 通河县| 正蓝旗| 江达县| 蒙阴县| 万荣县| 兰考县| 长武县| 阿鲁科尔沁旗| 大姚县| 廊坊市| 高台县| 天长市| 龙山县| 吴川市| 佛坪县| 沿河| 大兴区| 乳源| 罗山县| 芜湖市| 巴林右旗| 莫力| 高台县| 大关县| 鹤峰县| 江都市| 轮台县| 潜江市| 兰州市| 襄汾县| 耒阳市| 布尔津县| 桂平市| 故城县| 公安县| 平利县| 西吉县| 许昌县| 芜湖市|