李春林,李冬連,萬平
(河北經(jīng)貿(mào)大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)學(xué)院,石家莊050061)
基于組合分類挖掘模型的調(diào)查問卷數(shù)據(jù)預(yù)處理
李春林,李冬連,萬平
(河北經(jīng)貿(mào)大學(xué)數(shù)學(xué)與統(tǒng)計(jì)學(xué)學(xué)院,石家莊050061)
文章在Bates和Granger對時(shí)間序列的組合預(yù)測模型的理論基礎(chǔ)上,靈活運(yùn)用數(shù)據(jù)挖掘的思維和Clementine數(shù)據(jù)挖掘軟件中的相關(guān)節(jié)點(diǎn),充分利用問卷中已有信息構(gòu)造組合分類數(shù)據(jù)挖掘模型,對《影響中國人際關(guān)系和諧因素調(diào)查問卷》進(jìn)行分類了預(yù)處理。
調(diào)查問卷;數(shù)據(jù)挖掘;數(shù)據(jù)預(yù)處理;組合分類模型
問卷調(diào)查所獲的微觀數(shù)據(jù),尤其在調(diào)查范圍廣、人群雜、問卷數(shù)量多的情況下,難免會(huì)出現(xiàn)工作失誤、被訪者不配合、抽樣方法選取不當(dāng)、問卷設(shè)計(jì)不合理等現(xiàn)象,致使問卷數(shù)據(jù)中存在各種不一致、缺失、錯(cuò)誤、冗余以及含有與定量分析方法不符的數(shù)據(jù)等情況。要保證問卷調(diào)查分析的質(zhì)量,對原始數(shù)據(jù)進(jìn)行清理、集成、變換和規(guī)約等預(yù)處理過程不容小覷。
面對問卷數(shù)據(jù)中的各種不符合要求,尤其是存在缺失值的情況,目前常用的方法有刪除問卷、刪除缺失值、插補(bǔ)法等。最直接和簡便的方法莫過于刪除問卷和缺失值,但這很可能致使結(jié)果偏差嚴(yán)重。并且這兩種方法的前提條件是問卷量很大,不符合要求的問卷很少(低于10%)[1]。插補(bǔ)法是利用其他數(shù)據(jù)代替和估算缺失值。如利用回歸、眾數(shù)、判定樹歸納、貝葉斯推斷方法等建立一個(gè)預(yù)測模型,利用模型的預(yù)測值代替缺失值。盡管這些方法相對復(fù)雜,但能夠最大程度地利用現(xiàn)存數(shù)據(jù)所包含的信息。
本文所研究問卷數(shù)據(jù)來自于“當(dāng)代中國影響人際關(guān)系和諧因素問卷調(diào)查”,該項(xiàng)調(diào)查共獲得有效問卷2972份,其中有以下幾種形式數(shù)據(jù)需要做相應(yīng)預(yù)處理:
(1)人口統(tǒng)計(jì)學(xué)數(shù)據(jù)的預(yù)處理。這部分主要是對數(shù)值數(shù)據(jù)進(jìn)行離散化處理和對分類數(shù)據(jù)進(jìn)行概念分層處理。如:本文將年齡離散化為30歲以下(不包括30歲)、30至50歲(不包括50歲)及50歲以上三個(gè)階段;將學(xué)歷分為中小學(xué)、大中專、本科、研究生四個(gè)層次。
(2)缺失值預(yù)數(shù)理。2972份問卷中的被訪者基本信息部分至少存在一項(xiàng)缺失的問卷量達(dá)187份;在關(guān)于當(dāng)前社會(huì)道德水平(Q15)和我國民主建設(shè)(Q28)滿意度的調(diào)查題目中,問卷在答案最后設(shè)置了“說不清”選項(xiàng),且分別有106個(gè)(3.57%)和497個(gè)(16.72%)被訪者選擇了該選項(xiàng)。但“說不清”選項(xiàng)并不是按Likert量測標(biāo)準(zhǔn)設(shè)置,不適合定量建模型分析,因此將其視為問卷設(shè)計(jì)不合理而作缺失值處理。
因?yàn)槿笔е祮柧頂?shù)量比重較大,不宜作刪除處理。本文試圖利用分類模型根據(jù)已有問卷信息進(jìn)行有指導(dǎo)地學(xué)習(xí),建立一個(gè)分類模型,再利用所得模型對缺失值進(jìn)行分類預(yù)測。因?yàn)椴煌哪P陀凶陨聿煌膬?yōu)點(diǎn)和缺點(diǎn):神經(jīng)網(wǎng)絡(luò)等非線性方法的精度往往要高于(線性)判別分析、Logistic回歸、線性規(guī)劃等線性評分方法;而Logistic回歸、判別分析、線性規(guī)劃等方法的穩(wěn)健性則比神經(jīng)網(wǎng)絡(luò)方法要好[2]。因此,本文試圖用組合模型對缺失值進(jìn)行分類預(yù)處理。同時(shí)考慮到問卷數(shù)據(jù)不僅有數(shù)值型數(shù)據(jù),也有分類型數(shù)據(jù),而判別分析只適用于數(shù)值型數(shù)據(jù),因此組合模型由Logistic回歸、CHAID決策樹和神經(jīng)網(wǎng)絡(luò)模型構(gòu)成。本文將以對Q28中“說不清”的預(yù)處理過程為例進(jìn)行說明。
對于組合模型的運(yùn)用,學(xué)術(shù)界最常用的是Bates和Granger(1969)[3]對時(shí)間序列的組合預(yù)測模型,如文獻(xiàn)[3]~[6]。而對于組合分類模型的研究尚未見到文獻(xiàn)記載,本文在借鑒Bates和Granger關(guān)于時(shí)間序列的組合預(yù)測模型的基礎(chǔ)上,對組合預(yù)測模型進(jìn)行適當(dāng)修正,構(gòu)造出組合分類模型。假設(shè)已知一個(gè)問題有K個(gè)類別,記為c1,c2…,ck;有m個(gè)分類模型適用于該問題,分別記為f1,f2,…,fm;pij=p(ci(fj)),表示第j種分類模型判斷某個(gè)樣本單元問卷單元屬于第i個(gè)類別的概率;wj為第j個(gè)模型在組合分類模型中的權(quán)重。
因此,組合分類模型可表示為:
組合模型中,權(quán)重的選擇非常重要。常用的權(quán)重選擇方法有算術(shù)平均法、標(biāo)準(zhǔn)差法、方差倒數(shù)法、均方倒數(shù)法、主成分分析法、德爾菲法、最優(yōu)加權(quán)法等。本文使用最優(yōu)加權(quán)法,即對誤差平方和在最小二乘法準(zhǔn)則下求解如式(2)所示的線性規(guī)劃問題:
如果定義Im=(1,1,…,1)T,且存在協(xié)方差矩陣∑,則有:
用Lagrange乘數(shù)法求解(3)得:
即:
2972份問卷中,有62份因?yàn)樾畔⑷笔?yán)重而無法進(jìn)行預(yù)處理,故將這些問卷刪除。剩下2910份問卷中,有494個(gè)被訪者在Q28題中選擇了“說不清”選項(xiàng),因此將其視為缺失值進(jìn)行預(yù)處理。并以選擇其他選項(xiàng)的2416個(gè)有效問卷建立組合分類模型,對選擇“說不清”的494個(gè)問卷進(jìn)行分類預(yù)測。
建立模型之前,將2416個(gè)有效問卷通過設(shè)置隨機(jī)種子的方式進(jìn)行隨機(jī)抽樣,隨機(jī)選取70%作為訓(xùn)練問卷用來建立分類預(yù)測模型,30%當(dāng)作測試問卷用來檢驗(yàn)?zāi)P偷姆€(wěn)健性。本文單一分類模型的擬合過程分別通過Clementine數(shù)據(jù)挖掘軟件中的Logistic節(jié)點(diǎn)、CHAID決策樹節(jié)點(diǎn)和RBF神經(jīng)網(wǎng)絡(luò)節(jié)點(diǎn)實(shí)現(xiàn)。
本文因?yàn)榉磻?yīng)變量為4Likert測量形式,即受訪者對我國民主建設(shè)的態(tài)度是滿意、比較滿意、不滿意還是很不滿意,因此采用多項(xiàng)logit模型進(jìn)行分析。將產(chǎn)生三個(gè)logit(即對數(shù)發(fā)生比),并將“很不滿意”定義為參照類,如式(5):
其中p1,p2,p3,p4分別表示被訪者對我國當(dāng)前民主建設(shè)態(tài)度是滿意、比較滿意、不滿意和很不滿意的概率,且p1+p2+ p3+p4=1。多項(xiàng)logit模型將產(chǎn)生三套回歸系數(shù)系數(shù):滿意對比很不滿意的對數(shù)發(fā)生比,比較滿意對比很不滿意的對數(shù)發(fā)生比,不滿意對比很不滿意的對數(shù)發(fā)生比。
CHAID決策樹模型主要適用于市場調(diào)查和社會(huì)調(diào)查過程分析。CHAID的全稱是Chi-squared Automatic Interaction Detector(卡方自動(dòng)交互檢測)。1980年,由Kass等人提出,它的理論構(gòu)想主要來源于決策樹模型,根據(jù)反應(yīng)變量在解釋變量上的分布來進(jìn)行分類,適用于分類和序次等級數(shù)據(jù)的分析,是一種以目標(biāo)最優(yōu)為依據(jù),具有目標(biāo)選擇、變量篩選和聚類功能的分析方法[8]。它的基本分析思路是X2自動(dòng)交叉檢驗(yàn)[9],首先選定分類的反應(yīng)變量,然后用解釋變量與反應(yīng)變量進(jìn)行交叉分類,產(chǎn)生一系列二維分類表。分別計(jì)算二維分類表X2的值或似然估計(jì)統(tǒng)計(jì)量,以最大統(tǒng)計(jì)量的二維表作為最佳初始分類表,并繼續(xù)使用分類指標(biāo)對目標(biāo)變量進(jìn)行分類,重復(fù)上述過程直到滿足分類條件為止。
徑向基(RBF)神經(jīng)網(wǎng)絡(luò)是由輸入層,隱含層和輸入層構(gòu)成的3層前向網(wǎng)絡(luò)。在RBF網(wǎng)絡(luò)中,隱含層節(jié)點(diǎn)通過徑向基函數(shù)執(zhí)行一種非線性變化,將輸入空間映射到一個(gè)新的空間,輸出層節(jié)點(diǎn)則在該新的空間實(shí)現(xiàn)線性加權(quán)組合[10]。徑向基函數(shù)是徑向?qū)ΨQ的標(biāo)量函數(shù),定義為空間一點(diǎn)x到某一中心xc的歐式距離的單調(diào)函數(shù)k(‖x-xc‖),x∈RN,最常用徑向基函數(shù)為高斯核函數(shù):
其中σ為帶寬,控制函數(shù)的徑向作用范圍,xc是核函數(shù)中心。
通過Clementine數(shù)據(jù)挖掘軟件中相關(guān)節(jié)點(diǎn)的擬合,得到了單一模型對訓(xùn)練集和測試集的擬合檢驗(yàn)結(jié)果,如表1所示。
表1 單一模型對訓(xùn)練集和測試集的分類結(jié)果
從表1可以看出3個(gè)單一模型各有優(yōu)缺點(diǎn):RBF神經(jīng)網(wǎng)絡(luò)模型對訓(xùn)練集的擬合精度達(dá)69.13%,但對測試集的分類精度卻只有57.06%;而Logistic回歸模型和CHAID決策樹模型盡管對訓(xùn)練集的擬合精度分別只有63.16%和57.67%,但對測試集的分類精度仍分別達(dá)59.83%和56.79%。因此,從這些數(shù)據(jù)也進(jìn)一步證明了參考文獻(xiàn)[3]給出的結(jié)論。
根據(jù)組合模型的理論,設(shè)測試集中第r個(gè)樣本單元在Q28上實(shí)際類別為yi,其中ci=1,2,3,4;r=1,2,…722。分類誤差為eir=yi-cir,即第j種分類模型在第r個(gè)樣本單元上的分類誤差。組合誤差為er(第r個(gè)樣本單元上的分類預(yù)測):
令W=[W1,W2,W3]T;Σ=[e1r,e2r,e3r]T,為第j個(gè)分類模型的分類誤差向量,則組合分類模型的誤差矩陣為e=[Σ1,Σ2,Σ3],其協(xié)方差矩陣為:
進(jìn)一步得到其逆矩陣為:
因此,組合分類模型中,Logistic回歸模型的權(quán)重為0.3333,CHAID決策樹模型的權(quán)重為0.3704,RBF神經(jīng)網(wǎng)絡(luò)模型的權(quán)重為0.2963。
因此,本文組合分類模型可表示為如式(8):
由Clementine分析結(jié)果可知,組合模型對測試集的分類準(zhǔn)確度為62.88%。因此,最優(yōu)組合分類模型從總體上起到了提高分類準(zhǔn)確度的作用,用該模型對Q28中494個(gè)選擇了“說不清”選項(xiàng)的問卷進(jìn)行分類預(yù)處理更為有效和可信,其結(jié)果如表2所示。
表2 組合分類模型預(yù)處理結(jié)果
本文從問卷的特點(diǎn)出發(fā),借助Clementine數(shù)據(jù)挖掘軟件構(gòu)建了適合于分類數(shù)據(jù)分析的組合分類模型。并有效地對“影響當(dāng)代中國人際關(guān)系和諧因素的問卷調(diào)查”所獲問卷數(shù)據(jù)的缺失值進(jìn)行預(yù)處理。盡管數(shù)據(jù)預(yù)處理過程非常煩瑣和耗時(shí),但能有效地提高數(shù)據(jù)預(yù)處理結(jié)果的準(zhǔn)確度和可信度,并且能大大提高數(shù)據(jù)挖掘模式的質(zhì)量。
[1]朱勝,馮能亮.市場調(diào)查方法與應(yīng)用[M].北京:中國統(tǒng)計(jì)出版社, 2004.
[2]石慶炎.一個(gè)基于神經(jīng)網(wǎng)絡(luò)——Logistic回歸的混合兩階段個(gè)人信用評分模型研究[J].統(tǒng)計(jì)研究,2005.
[3]Bates T M,Granger C M J.The Combination of Forecasts[J].J.Operational Research Society,1969,(20).
[4]權(quán)軼,張勇傳.組合預(yù)測方法中的權(quán)重算法及應(yīng)用[J].科技創(chuàng)業(yè)月刊,2006.
[5]趙韓,許輝等.最優(yōu)組合預(yù)測方法在家用汽車需求預(yù)測中的應(yīng)用[J].工業(yè)工程,2008.
[6]劉志杰,季令等.基于徑向基神經(jīng)網(wǎng)絡(luò)的集裝箱吞吐量組合預(yù)測[J].同濟(jì)大學(xué)學(xué)報(bào)(自然科學(xué)版),2007.
[7]王濟(jì)川,郭志剛.logistic回歸模型方法與應(yīng)用[M].北京:高等教育出版社,2001.
[8]何凡,沈毅,葉眾.CHAID方法在居民衛(wèi)生服務(wù)需求研究中的應(yīng)用[J].數(shù)理統(tǒng)計(jì)與管理,2006.
[9]Chaturvedi A,Green P E,et al.SPSS for Windows,CHAID6.0 [J].Journal of Marketing Research,1995,(21).
[10]馬超群,蘭秋軍,陳為民.金融數(shù)據(jù)挖掘[M].北京:科學(xué)出版社, 2008.
(責(zé)任編輯/亦民)
O212
A
1002-6487(2011)05-0011-03
國家社會(huì)科學(xué)基金重點(diǎn)資助項(xiàng)目(2007AZX004)
李春林(1963-),男,河北任縣人,教授,研究方向:市場調(diào)研和數(shù)據(jù)挖掘。
萬平(1984-),男,湖南湘鄉(xiāng)人,碩士研究生,研究方向:市場調(diào)研和數(shù)據(jù)挖掘。