徐夏楠,張 洪
(1. 復(fù)旦大學(xué) 生命科學(xué)學(xué)院, 上海 200438; 2. 中國(guó)科學(xué)技術(shù)大學(xué) 管理學(xué)院, 安徽 合肥 230026)
近些年來(lái),數(shù)據(jù)挖掘方法越來(lái)越多地被應(yīng)用于醫(yī)療領(lǐng)域,使用患者的特定信息來(lái)預(yù)測(cè)診斷結(jié)果,以支持臨床決策。利用預(yù)測(cè)的數(shù)據(jù)構(gòu)建決策模型,再將模型用于如預(yù)后、診斷和治療計(jì)劃[1]。但因?yàn)楦鞣N因素,臨床數(shù)據(jù)普遍存在大量缺失數(shù)據(jù),導(dǎo)致臨床試驗(yàn)統(tǒng)計(jì)分析的結(jié)果出現(xiàn)偏倚。缺失比例如果較大,對(duì)臨床試驗(yàn)結(jié)果的結(jié)論可信度會(huì)有明顯影響。例如,在一項(xiàng)減肥藥的研究中,缺失數(shù)據(jù)限制了試驗(yàn)得出明確結(jié)論的能力,可能導(dǎo)致對(duì)藥物安全性的錯(cuò)誤推論[2]。
缺失數(shù)據(jù)的統(tǒng)計(jì)分析方法在不斷發(fā)展中,隨著醫(yī)療大數(shù)據(jù)的不斷涌現(xiàn),針對(duì)醫(yī)療缺失數(shù)據(jù)的統(tǒng)計(jì)分析方法學(xué)研究成為一個(gè)重要的課題。多重插補(bǔ)是目前較為流行的缺失值插補(bǔ)方法,White等[3]提出一種叫做“使用鏈?zhǔn)椒匠痰亩嘀毓浪惴椒?Multiple Imputation by Chained Equations, MICE)”,該方法較受歡迎,原因是在MICE中允許輸入臨床中的不同變量類型數(shù)據(jù),方便地輸出每個(gè)變量的后驗(yàn)預(yù)測(cè)分布,并基于此進(jìn)行統(tǒng)計(jì)推斷。另一個(gè)研究較多的是由Little[4]提出模式混合模型(Pattern Mixture Model, PMM),該方法需要對(duì)較多參數(shù)進(jìn)行估計(jì),一般情況下的PMM通常可識(shí)別性較低,需要增加一些約束條件[5]。機(jī)器學(xué)習(xí)算法在處理缺失數(shù)據(jù)方面也有應(yīng)用,例如,Stekhoven等[6]提出并評(píng)價(jià)了一種利用隨機(jī)森林來(lái)填補(bǔ)缺失值的非參數(shù)方法misForest,對(duì)缺失值進(jìn)行預(yù)測(cè);Lee等針對(duì)代謝組學(xué)的非隨機(jī)缺失(Missing Not At Random, MNAR)數(shù)據(jù)對(duì)插補(bǔ)性能的影響,改進(jìn)了K最近鄰插補(bǔ)法(K-Nearest Neighbor Interpolation, KNNI)[7],提出了一種新的對(duì)MNAR數(shù)據(jù)提供更準(zhǔn)確的插補(bǔ)算法No-Skip kNN[8]。貝葉斯推斷在醫(yī)學(xué)研究中的應(yīng)用也很廣泛,在meta分析、觀察性研究、臨床診斷與篩檢試驗(yàn)等都有應(yīng)用,其中診斷和篩檢試驗(yàn)是使用貝葉斯推斷較多的領(lǐng)域[9],但貝葉斯模型在處理醫(yī)療缺失數(shù)據(jù)中的應(yīng)用較少。
劉鵬等[10]提出的基于信息增益的貝葉斯重疊補(bǔ)缺模型,是基于信息增益的特征選擇方法,改進(jìn)了貝葉斯重疊補(bǔ)缺模型,用信息增益來(lái)度量屬性值對(duì)分類結(jié)果的重要性,提出先插補(bǔ)重要性高的屬性,然后依次排序插補(bǔ),這樣可以降低插補(bǔ)準(zhǔn)確率對(duì)分類結(jié)果的影響,但對(duì)插補(bǔ)后數(shù)據(jù)集進(jìn)行分類預(yù)測(cè)時(shí),并沒有優(yōu)勢(shì),需要進(jìn)一步優(yōu)化。
本文針對(duì)信息增益在性選擇上的不足之處,提出基于信息增益的加權(quán)貝葉斯插補(bǔ)法(Weighted Bayesian Interpolation based on Information Gain, WBIIG),引入屬性的權(quán)重,將每個(gè)屬性的重要性加入對(duì)分類結(jié)果的影響,充分利用屬性排序的性質(zhì),可以減少因?yàn)椴逖a(bǔ)順序的偏差對(duì)插補(bǔ)結(jié)果的影響,從而優(yōu)化了插補(bǔ)模型。在3種心臟病類醫(yī)療缺失數(shù)據(jù)集上驗(yàn)證插補(bǔ)效果,結(jié)果表明: 在大多數(shù)情況下,新方法不僅優(yōu)于基于信息增益的貝葉斯插補(bǔ)法,而且也優(yōu)于K最近鄰插補(bǔ)法(KNNI)和多重插補(bǔ)法(Multiple Interpolation, MI)。
貝葉斯分類是一類分類算法的總稱,這類算法均以貝葉斯定理為基礎(chǔ),故統(tǒng)稱為貝葉斯分類。樸素貝葉斯分類(Naive Bayesian classification)是貝葉斯分類中最簡(jiǎn)單,也是常見的一種分類方法,是根據(jù)貝葉斯原理,用先驗(yàn)概率與類條件概率進(jìn)行分類預(yù)測(cè)的方法,用全部樣本的分類情況來(lái)預(yù)測(cè)待分樣本的分類結(jié)果[11]。
假設(shè)每個(gè)樣本有n個(gè)屬性X={x1,x2,…,xn},假定有m個(gè)類別C1,C2,…,Cm。對(duì)一個(gè)類別未知的樣本X,樸素貝葉斯分類法的基本思想是用最大后驗(yàn)概率P(Ci|X)=P(X|Ci)P(Ci)/P(X)相應(yīng)的類別作為預(yù)測(cè)結(jié)果。由于P(X)不依賴于類別,只需最大化P(X|Ci)P(Ci)即可。記Si為類Ci的樣本數(shù),S是總的樣本數(shù),先驗(yàn)概率P(Ci)可用頻率Si/S估計(jì),假設(shè)屬性在給定類別時(shí)條件獨(dú)立,即
(1)
當(dāng)xk為分類屬性時(shí),P(xk|Ci)估計(jì)為Sik/Si,其中Sik為x1,x2,…,xn中類別為Ci的屬性數(shù);當(dāng)Ak為連續(xù)屬性時(shí),可對(duì)其進(jìn)行離散化,轉(zhuǎn)化成分類屬性,再對(duì)P(xk|Ci)進(jìn)行估計(jì)。為了預(yù)測(cè)X的類標(biāo)號(hào),對(duì)每個(gè)類Ci計(jì)算P(X|Ci)P(Ci),預(yù)測(cè)的類標(biāo)號(hào)是使P(X|Ci)P(Ci)最大的類Ci。
從式(1)可知,如果任何一個(gè)屬性的P(xk|Ci)為零,則P(X|Ci)就為零,從而后驗(yàn)概率P(Ci|X)為零,這樣的估計(jì)結(jié)果一般不合理。為了避免發(fā)生這種情況,采用拉普拉斯校準(zhǔn)來(lái)修正,在數(shù)據(jù)集樣本較多的情況下,對(duì)每個(gè)計(jì)數(shù)加1后導(dǎo)致的概率變化較小可忽略不計(jì),這樣可以避免后驗(yàn)概率為零的情況。
基于信息增益的貝葉斯插補(bǔ)法(Bayesian Interpolation based on Information Gain, BIIG)是基于樸素貝葉斯分類法對(duì)缺失數(shù)據(jù)插補(bǔ)的模型,先計(jì)算每個(gè)屬性的信息增益(不依賴于樣本),將屬性按照信息增益從大到小排序;將信息增益最大的屬性中所有缺失的數(shù)據(jù)作為預(yù)測(cè)的目標(biāo),采用樸素貝葉斯分類法對(duì)該缺失值進(jìn)行預(yù)測(cè),得到一個(gè)新的數(shù)據(jù)集D1;接著對(duì)信息增益次大的屬性缺失值進(jìn)行預(yù)測(cè),如此重復(fù),直到所有缺失數(shù)據(jù)插補(bǔ)完全。
下面介紹信息增益的定義。因?yàn)樯鲜鲞^(guò)程中先預(yù)測(cè)屬性值的準(zhǔn)確率會(huì)影響到后面屬性值預(yù)測(cè)的準(zhǔn)確率,后續(xù)插補(bǔ)的錯(cuò)誤率一般會(huì)越來(lái)越大,所以在插補(bǔ)過(guò)程中屬性的插補(bǔ)順序很重要,于是引入了信息增益這一概念,用來(lái)衡量屬性對(duì)樣本分類貢獻(xiàn)的信息。貢獻(xiàn)的信息越多,表明該屬性越重要,因此定義信息增益如下[12]。
先定義類別變量C={C1,C2,…,Ci}的信息熵
接著定義屬性變量X={X1,X2,…,Xi}的條件下類別C的條件信息熵
最后信息增益為
IG(C|X)=H(C)-H(C|X).
ID3算法以及C4.5算法的開發(fā)者Quinlan[13]認(rèn)為基于信息增益進(jìn)行屬性選擇的ID3算法偏向于支持結(jié)果多的屬性。從信息增益的計(jì)算公式來(lái)看,信息增益是總信息熵H(C)與條件信息熵H(C|X)之差,數(shù)據(jù)集不充足時(shí),取值多的屬性在計(jì)算條件熵時(shí)容易估計(jì)出偏小的條件熵,得到偏大的信息增益,但在實(shí)際中取值多的屬性并不一定是對(duì)分類結(jié)果最重要的屬性,所以用信息增益進(jìn)行屬性選擇時(shí)有偏向性,給屬性排序帶來(lái)了偏差,需要有新的排序方式對(duì)屬性進(jìn)行重新排序。
針對(duì)信息增益在屬性選擇上的不足,考慮到每個(gè)屬性的重要性對(duì)分類結(jié)果存在影響,本文對(duì)基于信息增益的貝葉斯插補(bǔ)法,引入屬性的權(quán)重,得到基于信息增益的加權(quán)貝葉斯插補(bǔ)法。屬性權(quán)重的引入是為了減少插補(bǔ)順序的偏差對(duì)插補(bǔ)結(jié)果的影響,從而達(dá)到優(yōu)化插補(bǔ)模型的效果。本文使用熵權(quán)法確定權(quán)重[14],熵權(quán)法是基于屬性特征的離散程度來(lái)判斷屬性的權(quán)重的,屬性的離散程度越大,該屬性在綜合評(píng)價(jià)中的權(quán)重就越大。通常權(quán)重的選取和一個(gè)屬性的特異性相關(guān),例如,如果屬性的特異性表現(xiàn)得很差,就取這個(gè)屬性的權(quán)重占比較低。這里用屬性的信息熵冗余度來(lái)度量它的特異性,并取其標(biāo)準(zhǔn)化形式作為屬性的權(quán)重,而屬性的信息熵冗余度定義為屬性可能有的最大信息量與其包含的實(shí)際信息量之差。
熵權(quán)法賦權(quán)的步驟如下:
假設(shè)有m個(gè)屬性,n個(gè)樣本數(shù)據(jù),xij表示第i個(gè)樣本的第j個(gè)屬性下的數(shù)值(1≤i≤n,1≤j≤m)。對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,需要區(qū)分屬性的影響是正向還是負(fù)向:
計(jì)算第j項(xiàng)指標(biāo)下,第i個(gè)樣本值占該指標(biāo)的比重為
計(jì)算第j項(xiàng)指標(biāo)信息熵值
則有0≤ej≤1。計(jì)算熵值的冗余度
dj=1-ej.
并定義各屬性的權(quán)重為
用IGj表示第j個(gè)屬性的信息增益,計(jì)算綜合得分
sj=wj×IGj.
用綜合得分sj對(duì)屬性進(jìn)行遞減排序,然后用樸素貝葉斯分類法依次對(duì)屬性缺失值進(jìn)行預(yù)測(cè),預(yù)測(cè)的結(jié)果作為插補(bǔ)結(jié)果,在前一個(gè)屬性插補(bǔ)得到的數(shù)據(jù)集的基礎(chǔ)上,再對(duì)下一個(gè)屬性進(jìn)行預(yù)測(cè),此過(guò)程一直進(jìn)行下去直到得到一個(gè)完整的數(shù)據(jù)集。
作為對(duì)比方法,本文還考慮了K最近鄰插補(bǔ)法和多重插補(bǔ)法這兩個(gè)方法,其中KNNI是基于K最近鄰算法的插補(bǔ)算法[15],選擇與缺失變量最近的K個(gè)完全觀測(cè)樣本,用這K個(gè)觀測(cè)樣本數(shù)據(jù)來(lái)估計(jì)該缺失變量,可以處理離散型數(shù)據(jù),也可以處理連續(xù)型數(shù)據(jù)。MI是由Rubin首先提出,對(duì)每個(gè)缺失變量構(gòu)造出多個(gè)插補(bǔ)值,得到多個(gè)完整的數(shù)據(jù)集,再用同一種方法對(duì)這多個(gè)完整的數(shù)據(jù)集進(jìn)行處理,得到多個(gè)處理結(jié)果,最后綜合評(píng)價(jià)這些處理結(jié)果,給出最佳的插補(bǔ)結(jié)果[16]。
首先需要對(duì)插補(bǔ)數(shù)據(jù)集的錯(cuò)誤率進(jìn)行評(píng)價(jià)。實(shí)驗(yàn)使用的數(shù)據(jù)包括連續(xù)變量和離散變量,首先對(duì)連續(xù)變量進(jìn)行離散化處理,方便套用貝葉斯分類模型。采用標(biāo)準(zhǔn)均方根誤差(Normalized Root Mean Square Error, NRMSE)來(lái)比較不同的缺失率和不同缺失數(shù)據(jù)處理方法的插補(bǔ)效果[17]。
其中:Xtrue表示真實(shí)的數(shù)據(jù)值(只有一部分可以觀測(cè)到);Ximp表示插補(bǔ)完整后的數(shù)據(jù)值;而mean((Xtrue-Ximp)2)和var(Xtrue)分別為(Xtrue-Ximp)2的均值和Xtrue的方差,可以分別用樣本觀測(cè)值估計(jì)。NRMSE越小表明缺失數(shù)據(jù)插補(bǔ)效果越好,越大則表明插補(bǔ)效果越差。
另一種評(píng)估方法是用分類算法對(duì)插補(bǔ)后的數(shù)據(jù)集建立預(yù)測(cè)模型,用預(yù)測(cè)結(jié)果的正確率(PoA)作為衡量插補(bǔ)效果的指標(biāo)[10]:
其中: “整個(gè)數(shù)據(jù)集中預(yù)測(cè)正確的記錄個(gè)數(shù)”是利用分類算法預(yù)測(cè)插補(bǔ)后的數(shù)據(jù)集計(jì)算得到的。這里的分類算法分別用C4.5決策樹、隨機(jī)森林、樸素貝葉斯分類器和K最近鄰(K-Nearest Neighbor, KNN)等4種分類算法進(jìn)行分類預(yù)測(cè)。
本文采用UCI機(jī)器學(xué)習(xí)庫(kù)的公開數(shù)據(jù)集Heart(http:∥archive.ics.uci.edu/ml/datasets/Heart+Disease)。該數(shù)據(jù)集包括患有心臟病的病人和未患心臟病者的13項(xiàng)臨床指標(biāo)數(shù)據(jù)和一個(gè)結(jié)果變量。其中臨床指標(biāo)包括7個(gè)離散型變量(患者性別、胸痛類型、患者空腹血糖、靜態(tài)心電圖結(jié)果、運(yùn)動(dòng)引起的ST段最高值斜率、通過(guò)熒光檢測(cè)技術(shù)顯示出來(lái)的主要血管數(shù)量、缺陷類型)和6個(gè)連續(xù)型變量(患者年齡、入院前的靜息血壓、患者血清膽固醇含量、達(dá)到最大的心率值、運(yùn)動(dòng)誘發(fā)心絞痛、相對(duì)于休息來(lái)說(shuō)運(yùn)動(dòng)引起的ST段抑制),而結(jié)果變量是患病結(jié)果??偣灿?70個(gè)樣本數(shù)據(jù)。
使用R包discretization的chiM函數(shù)(ChiMerge算法)對(duì)數(shù)據(jù)集中的連續(xù)變量進(jìn)行離散化處理,即進(jìn)行自下而上的合并,并通過(guò)卡方檢驗(yàn)判斷相鄰閾值的相對(duì)類頻率是否有明顯不同或者它們是否足夠相似,據(jù)此決定是否合并為一個(gè)區(qū)間,總共分成5個(gè)區(qū)間(對(duì)應(yīng)5個(gè)類別)。由于數(shù)據(jù)集Heart是已經(jīng)通過(guò)篩選和質(zhì)控的完整數(shù)據(jù)集,故可直接使用。
考慮3種缺失類型,即完全隨機(jī)缺失(Missing Completely At Random, MCAR)、隨機(jī)缺失(Missing At Random, MAR)、非隨機(jī)缺失(MNAR)。缺失數(shù)據(jù)的生成分別采用了R包c(diǎn)ompositions中的函數(shù)setNA(MCAR)和R包simFrame中的函數(shù)simulateMissings(MAR、MNAR)。調(diào)用兩個(gè)函數(shù)均需要指定缺失比例。用函數(shù)simulateMissings生成MAR或MNAR缺失數(shù)據(jù)時(shí),假定帶缺失值的變量服從聯(lián)合正態(tài)分布,其中模型參數(shù)和缺失數(shù)據(jù)都用標(biāo)準(zhǔn)的Gibbs抽樣算法來(lái)估計(jì);生成MNAR缺失數(shù)據(jù)時(shí),還需要指定非隨機(jī)缺失程度的參數(shù)(該參數(shù)為0時(shí)退化為MAR缺失數(shù)據(jù)),在模擬中指定該數(shù)與缺失率一樣。對(duì)于數(shù)據(jù)集Heart的13項(xiàng)臨床指標(biāo),設(shè)置10%,20%,30%的缺失率,且所有樣本所有指標(biāo)的缺失是獨(dú)立的,最終形成3個(gè)MCAR類型的缺失數(shù)據(jù)集Heart_C。同樣對(duì)數(shù)據(jù)集Heart進(jìn)行處理,形成缺失類型為MAR的數(shù)據(jù)集Heart_R和形成缺失類型為MNAR的數(shù)據(jù)集Heart_N。用熵權(quán)法計(jì)算各屬性的權(quán)重,并計(jì)算各屬性的信息增益,將數(shù)據(jù)集中的屬性依次遞減排序。將數(shù)據(jù)集中連續(xù)型屬性的數(shù)據(jù)離散化,用樸素貝葉斯分類法對(duì)屬性依次進(jìn)行預(yù)測(cè)并填充數(shù)據(jù)集,直到得到完整數(shù)據(jù)集。再分別用其他3種插補(bǔ)方法處理數(shù)據(jù)集,得到插補(bǔ)好的數(shù)據(jù)集。計(jì)算NRMSE指標(biāo),作為比較3種插補(bǔ)法的插補(bǔ)效果的一個(gè)衡量指標(biāo)。將插補(bǔ)后的數(shù)據(jù)集加上最后一列的判別變量,對(duì)插補(bǔ)后的數(shù)據(jù)分別利用C4.5決策樹,隨機(jī)森林,樸素貝葉斯分類器和K最近鄰等4種分類預(yù)測(cè)算法進(jìn)行識(shí)別處理。實(shí)驗(yàn)重復(fù)100次并計(jì)算NRMSE和PoA相應(yīng)的平均值,將其作為插補(bǔ)效果的另一衡量指標(biāo)。
對(duì)數(shù)據(jù)集Heart_C,Heart_R和Heart_N,分別采用KNNI、MI、BIIG和WBIIG對(duì)數(shù)據(jù)進(jìn)行插補(bǔ)后,得到的NRMSE指標(biāo)如圖1所示??傮w上來(lái)看,WBIIG的NRMSE最小,說(shuō)明其插補(bǔ)效果最好。具體地說(shuō),對(duì)MCAR類型數(shù)據(jù)集Heart_C,WBIIG的NRMSE比BIIG的低2.00%~49.40%,比KNNI的低58.97%~82.09%,比MI的低59.43%~85.57%;在對(duì)MAR類型數(shù)據(jù)集Heart_R的研究分析中,WBIIG的NRMSE比BIIG的低16.54%~34.69%,比KNNI的低26.32%~76.69%,比MI的低56.62%~81.90%;在對(duì)MNAR類型數(shù)據(jù)集Heart_N的研究分析中,WBIIG的NRMSE比BIIG的低10.57%~43.37%,比KNNI的低73.75%~87.28%,比MI的低71.05%~86.61%。
圖1 對(duì)MCAR、MAR和MNAR類型的缺失數(shù)據(jù)集,分別采用KNNI、MI、BIIG和WBIIG對(duì)數(shù)據(jù)進(jìn)行 插補(bǔ)后得到的標(biāo)準(zhǔn)均方根誤差Fig.1 The NRMSE obtained using KNNI, MI, BIIG and WBIIG for missing data sets of MCAR, MAR and MNAR當(dāng)MNAR類型數(shù)據(jù)的缺失率為0.3時(shí),KNNI法無(wú)法進(jìn)行插補(bǔ)。
對(duì)數(shù)據(jù)集Heart_C,Heart_R和Heart_N,用4種方法插補(bǔ)后得到的新數(shù)據(jù)集,用C4.5決策樹、隨機(jī)森林、樸素貝葉斯分類器和K最近鄰算法進(jìn)行預(yù)測(cè),計(jì)算得到的PoA指標(biāo)如圖2所示。對(duì)于Heart_C,Heart_R和Heart_N數(shù)據(jù)集,隨著缺失率的增加,4種插補(bǔ)法的PoA指標(biāo)逐漸降低。從PoA來(lái)看,在相同缺失率下,用C4.5決策樹(圖2(A))、隨機(jī)森林(圖2(B))、樸素貝葉斯分類器(圖2(C))和K最近鄰分類預(yù)測(cè)算法(圖2(D))進(jìn)行驗(yàn)證時(shí),在大多數(shù)情況下,WBIIG不僅優(yōu)于BIIG,而且也優(yōu)于KNNI和MI,在預(yù)測(cè)性能上總體上有優(yōu)勢(shì)。
圖2 缺失率對(duì)預(yù)測(cè)正確率PoA的影響Fig.2 Influence of missing rate on the accuracy of prediction先用WBIIG, BIIG, MI, KNNI對(duì)數(shù)據(jù)集Heart_C(MCAR),Heart_R(MAR)和Heart_N(MNAR)分別進(jìn)行插補(bǔ),然后用(A) C4.5決策樹、(B) 隨機(jī)森林、(C) 樸素貝葉斯分類器、(D) KNN進(jìn)行預(yù)測(cè)并計(jì)算PoA指標(biāo)。
圖3顯示了KNNI, MI,BIIG和WBIIG在數(shù)據(jù)集Heart_C,Heart_R和Heart_N上進(jìn)行缺失值插補(bǔ)運(yùn)算的時(shí)間。對(duì)任意一個(gè)數(shù)據(jù)集,WBIIG的運(yùn)算時(shí)間略多于BIIG,且明顯少于MI,而比KNNI更多。而對(duì)每一個(gè)插補(bǔ)算法,在不同缺失類型數(shù)據(jù)集及缺失率上的運(yùn)算時(shí)間則沒有明顯差別。
圖3 WBIIG,BIIG, MI, KNNI在3種數(shù)據(jù)集進(jìn)行缺失值插補(bǔ)運(yùn)算的時(shí)間比較Fig.3 Computational time of WBIIG, BIIG, MI, KNNI in the application to three data sets 當(dāng)缺失率為0.3時(shí),KNNI法無(wú)法進(jìn)行插補(bǔ)。
本文提出一種改進(jìn)后的基于信息增益的貝葉斯插補(bǔ)法,即基于信息增益的加權(quán)貝葉斯插補(bǔ)法,該算法對(duì)插補(bǔ)性能有進(jìn)一步的優(yōu)化。當(dāng)對(duì)缺失值插補(bǔ)算法進(jìn)行改進(jìn)時(shí),屬性權(quán)重是需要被考慮的重要影響因素。例如在改進(jìn)KNN的缺失值填補(bǔ)算法時(shí),用客觀賦權(quán)法確定屬性值權(quán)重得到的改進(jìn)灰色關(guān)聯(lián)度可提高缺失值填補(bǔ)的準(zhǔn)確性和可靠性[18]。在信息增益計(jì)算屬性權(quán)重具有更優(yōu)性能研究的基礎(chǔ)上[19],針對(duì)信息增益會(huì)依賴取值多的屬性問題,本文用熵權(quán)法計(jì)算權(quán)重和信息增益組合的綜合得分對(duì)屬性進(jìn)行排列,既兼顧到了觀測(cè)數(shù)據(jù)本身數(shù)值大小對(duì)分類預(yù)測(cè)的影響,也兼顧了屬性對(duì)分類預(yù)測(cè)的貢獻(xiàn)程度,更符合真實(shí)數(shù)據(jù)的特點(diǎn),因此可進(jìn)一步提高算法的插補(bǔ)性能。屬性加權(quán)樸素貝葉斯算法在分類問題上的應(yīng)用較多[20],本文對(duì)屬性排序進(jìn)行改進(jìn)后,應(yīng)用在缺失數(shù)據(jù)插補(bǔ)問題上,并在數(shù)據(jù)集Heart上進(jìn)行了驗(yàn)證。該方法在大多數(shù)情況下,對(duì)3種缺失類型的Heart數(shù)據(jù)集的插補(bǔ)效果優(yōu)于其他兩種插補(bǔ)法,表明WBIIG對(duì)于Heart數(shù)據(jù)集能在一定程度上提高插補(bǔ)性能,可以進(jìn)一步嘗試在其他類似醫(yī)療缺失數(shù)據(jù)集上應(yīng)用該方法。因?yàn)樵摲椒ㄓ?jì)算復(fù)雜度較小,可應(yīng)用于大規(guī)模數(shù)據(jù)分析。
本文提出的貝葉斯插補(bǔ)模型使用了樣本屬性間獨(dú)立的假定,但在實(shí)際應(yīng)用中,樣本的屬性間往往有或多或少的相關(guān)性,其對(duì)該方法的插補(bǔ)效果的影響未知。今后可以針對(duì)該缺陷進(jìn)行修正,或許可以改進(jìn)插補(bǔ)效果。