余海燕 陳京京 邱 航 , 王 永 王若凡
高斯混合聚類(lèi)[1?2]作為統(tǒng)計(jì)機(jī)器學(xué)習(xí)、模式識(shí)別和陣列數(shù)據(jù)分析等的重要模型,廣泛用于健康醫(yī)療[3?4]、故障診斷[5?6]等領(lǐng)域.然而,常因諸如截?cái)嗟臄?shù)據(jù)、傳感器故障或傳輸錯(cuò)誤等造成數(shù)據(jù)不完整問(wèn)題[1],引起推斷偏差并使得聚類(lèi)精度下降.例如在醫(yī)療決策智能支持中[7?8],需要依據(jù)患者的各項(xiàng)生理指標(biāo)信息進(jìn)行智能推理[9?10],然而由于記錄數(shù)據(jù)刪失或截?cái)嗟葘?dǎo)致數(shù)據(jù)不完整,從而給數(shù)據(jù)分析帶來(lái)困難.在惡性淋巴瘤等疾病診斷[11]中,流式細(xì)胞儀記錄的數(shù)據(jù)因測(cè)量信號(hào)強(qiáng)度范圍有限而使得數(shù)據(jù)記錄在一個(gè)固定范圍內(nèi)(如0 到1 023 之間),如果測(cè)量值超出這一范圍,則該值將替換為最接近的值,小于0的值將被刪失記為0,大于1 023 的值將被刪失記為1023.類(lèi)似的刪失數(shù)據(jù)還包括保險(xiǎn)費(fèi)理賠計(jì)算中,因一定數(shù)量免賠額的存在使得記錄成為刪失數(shù)據(jù)等.這類(lèi)刪失數(shù)據(jù)處理不當(dāng)會(huì)影響分析結(jié)果的可靠性,甚至使得聚類(lèi)模型參數(shù)推斷出現(xiàn)較大偏差.又因這類(lèi)數(shù)據(jù)的分布參數(shù)的精確估計(jì),為處理變量或治療方案對(duì)觀察結(jié)果的因果效應(yīng)分析[12]提供基礎(chǔ),甚至影響到后續(xù)的決策方案選擇.高斯聚類(lèi)算法因能夠提供分布參數(shù)的估計(jì),故而刪失數(shù)據(jù)的參數(shù)估計(jì)已成為高斯混合聚類(lèi)的一個(gè)重要熱點(diǎn)問(wèn)題.
刪失數(shù)據(jù)的處理方法常基于缺失數(shù)據(jù)的處理機(jī)理.因數(shù)據(jù)缺失機(jī)制不同,處理方法也不盡相同.數(shù)據(jù)缺失可以分為隨機(jī)缺失(Missing at random,MAR)和非隨機(jī)缺失(Missing not at random,MNAR)兩大類(lèi)[12].大多數(shù)傳統(tǒng)的缺失數(shù)據(jù)處理方法主要集中于使用樣本抽樣推斷、貝葉斯推斷和似然法推斷[13].其中貝葉斯推斷和似然法在實(shí)際數(shù)據(jù)中的應(yīng)用更為普遍.當(dāng)評(píng)估項(xiàng)目的長(zhǎng)期性能數(shù)據(jù)隨機(jī)缺失且觀測(cè)數(shù)據(jù)也隨機(jī)缺失時(shí),使用樣本抽樣估計(jì)數(shù)據(jù)集分布參數(shù)可以忽略缺失機(jī)制.當(dāng)數(shù)據(jù)屬于隨機(jī)缺失且缺失機(jī)制參數(shù)不同于數(shù)據(jù)集分布參數(shù)時(shí),使用貝葉斯推斷和似然法也可以忽略缺失機(jī)制.文獻(xiàn)[12]對(duì)非隨機(jī)缺失問(wèn)題的探索,還包括不可忽略性無(wú)響應(yīng)問(wèn)題、不可忽略性缺失性問(wèn)題,甚至被稱(chēng)為有信息缺失的問(wèn)題等.文獻(xiàn)[14]認(rèn)為存在解決非隨機(jī)缺失的方法,但是通常難以檢驗(yàn),為此提出了懲罰驗(yàn)證標(biāo)準(zhǔn),通過(guò)懲罰未知參數(shù)過(guò)多的模型來(lái)防止模型過(guò)擬合.刪失數(shù)據(jù)作為一種非隨機(jī)性缺失數(shù)據(jù)[15?16],因其缺失機(jī)制(如刪失)的特殊性而不能直接使用一般的非隨機(jī)缺失方法直接計(jì)算[11].
刪失數(shù)據(jù)常包括右刪失和區(qū)間刪失等類(lèi)型.對(duì)于右刪失數(shù)據(jù),文獻(xiàn)[17]基于一類(lèi)廣義概率測(cè)度的誤差一致性,提供了適用于刪失數(shù)據(jù)的分類(lèi)支持向量機(jī)并應(yīng)用于刪失數(shù)據(jù)平均值、中位數(shù)、分位數(shù)的估計(jì)以及分類(lèi)問(wèn)題.針對(duì)區(qū)間刪失數(shù)據(jù),文獻(xiàn)[15]提出一種貝葉斯非參數(shù)化方法進(jìn)行概率擬合.文獻(xiàn)[18]基于左截?cái)嘤覄h失數(shù)據(jù)構(gòu)造了分位差的經(jīng)驗(yàn)估計(jì),并提出了分位數(shù)差的核光滑估計(jì).針對(duì)刪失混合數(shù)據(jù),文獻(xiàn)[19]提出了一個(gè)加權(quán)最小二乘估計(jì)的一般族,并證明了現(xiàn)有的一致非參數(shù)方法屬于這個(gè)族,識(shí)別其估計(jì)量并分析其漸近性質(zhì).而在高斯混合聚類(lèi)模型算法中,一般假設(shè)觀測(cè)值的特征向量對(duì)聚類(lèi)有相同的權(quán)重[20].然而文獻(xiàn)[1]認(rèn)為高斯混合聚類(lèi)模型的每一個(gè)特征向量的權(quán)重并不一樣,提出競(jìng)爭(zhēng)性懲罰期望最大化算法.該算法將特征選擇模型和高斯混合聚類(lèi)模型結(jié)合在一起,使用馬爾科夫毯濾波器消除多余的特征項(xiàng),找到最小的相關(guān)特征子集,同時(shí)確定高斯混合模型的混合成分個(gè)數(shù).文獻(xiàn)[21]提出了一種基于高斯混合聚類(lèi)和模型平均的算法.對(duì)于缺失值,該方法將每一組成成分得出的估計(jì)值作為線性組合的概率估計(jì)權(quán)重,最終結(jié)果是混合成分的估計(jì)值的平均值.文獻(xiàn)[2]討論高斯混合聚類(lèi)分析的過(guò)擬合問(wèn)題.該文獻(xiàn)改變了以往認(rèn)為不相關(guān)變量必須通過(guò)線性回歸方程依賴(lài)整個(gè)相關(guān)變量的做法,認(rèn)為相關(guān)變量并不一定要解釋所有的不相關(guān)變量.該模型可以有效地提高聚類(lèi)算法的性能且變量選擇的實(shí)現(xiàn)基于一個(gè)向后逐步算法.標(biāo)準(zhǔn)期望最大化(Expectation-maximization,EM)算法作為高斯混合模型中常用的缺失數(shù)據(jù)處理方法[22],更適用于處理隨機(jī)缺失數(shù)據(jù).本文在標(biāo)準(zhǔn)EM 的高斯混合聚類(lèi)算法(EMGM)基礎(chǔ)上,提出了嵌套刪失數(shù)據(jù)期望最大化的高斯混合聚類(lèi)算法(cenEMGM).
本文主要解決非隨機(jī)缺失下的刪失數(shù)據(jù)因利用率不高而導(dǎo)致聚類(lèi)準(zhǔn)確度不高的問(wèn)題.本文的主要貢獻(xiàn)是:利用高斯混合模型聚類(lèi)算法獨(dú)有的特性,在標(biāo)準(zhǔn)EM 算法的基礎(chǔ)上提出改進(jìn)算法cenEMGM,并揭示了刪失率對(duì)模型算法的作用機(jī)制.將刪失數(shù)據(jù)和高斯混合模型聚類(lèi)算法結(jié)合,更加準(zhǔn)確地處理刪失數(shù)據(jù).通過(guò)調(diào)整刪失數(shù)據(jù)的分布函數(shù),使得刪失數(shù)據(jù)最大期望算法不斷更新均值、協(xié)方差和混合系數(shù)的估計(jì)值,從而使得聚類(lèi)簇中心不斷接近真實(shí)的簇中心.cenEMGM 算法在標(biāo)準(zhǔn)EMGM 算法的基礎(chǔ)上進(jìn)行改進(jìn),該方法更加靈活,對(duì)刪失和未刪失數(shù)據(jù)采取不同的處理方式.刪失數(shù)據(jù)EM 算法和高斯混合聚類(lèi)相結(jié)合,使得該方法比原方法聚類(lèi)效果更好,準(zhǔn)確性更高.后續(xù)章節(jié)結(jié)構(gòu)如下:第1 節(jié)引入高斯混合聚類(lèi)模型.第2 節(jié)論述刪失型缺失數(shù)據(jù)的相關(guān)概念.第3 節(jié)構(gòu)建高斯混合聚類(lèi)的參數(shù)估計(jì)算法,包括標(biāo)準(zhǔn)EMGM 算法和cenEMGM 兩種算法,以及兩個(gè)模型校驗(yàn)準(zhǔn)則.第4 節(jié)使用數(shù)值實(shí)驗(yàn)驗(yàn)證算法.第5 節(jié)得出結(jié)論.
對(duì)d維數(shù)據(jù)空間 Rd中,隨機(jī)變量y的觀察值為一個(gè)由n個(gè)樣本構(gòu)成的數(shù)據(jù)集,D={y1,y2,···,yn},其中yi為其第i個(gè)樣本.并將第j維數(shù)據(jù)記為y(j).假設(shè)樣本生成過(guò)程由包含K個(gè)成分的高斯混合分布確定.第k個(gè)成分fk的參數(shù)為 Θk=(πk,μk,Σk);其中,πk為其混合系數(shù),μk為均值,Σk為方差.全部參數(shù) Θ={Θ1,Θ2,···,ΘK}.y(j)為其第j維觀測(cè)值.對(duì)于y,定義高斯混合分布[20]如下:
其中,K為混合成分?jǐn)?shù)量,且每個(gè)混合成分對(duì)應(yīng)一個(gè)高斯分布 N(μk,Σk),相應(yīng)的“混合系數(shù)”πk >0,.
樣本生成過(guò)程中,記π={π1,···,πK},首先根據(jù)π定義的先驗(yàn)分布選擇高斯混合成分,且選擇第k個(gè)混合成分的概率為πk;然后,根據(jù)被選擇的混合成分的概率密度函數(shù)進(jìn)行采樣,從而生成相應(yīng)的樣本.
在高斯混合聚類(lèi)模型中,類(lèi)似地存在K個(gè)簇,C={C1,C2,···,CK}.將yi是否被劃分到簇Ck中的隨機(jī)變量記為,簇指示變量∈{0,1}.當(dāng)yi被劃分到簇Ck時(shí),=1,意味著yi{由fk生成;否則=0.對(duì)于N個(gè)樣本總體,表示第k個(gè) (k=1,2,···,K)高斯混合成分生成樣本y的指示變量值.因此,對(duì)于i=1,2,···,N,=1的概率對(duì)應(yīng)于πk.根據(jù)貝葉斯定理,的后驗(yàn)分布對(duì)應(yīng)于
當(dāng)高斯混合分布(1)已知時(shí),高斯混合聚類(lèi)將把樣本集D劃分為K個(gè)簇,樣本yi的簇標(biāo)記λi.
可見(jiàn),高斯混合聚類(lèi)的本質(zhì)是采用概率模型(高斯分布)對(duì)原型進(jìn)行刻畫(huà),簇劃分則由原型對(duì)應(yīng)后驗(yàn)概率確定.因一個(gè)簇對(duì)應(yīng)一個(gè)中心點(diǎn),隸屬于每一個(gè)簇C的數(shù)據(jù)樣本將聚類(lèi)在簇中心點(diǎn)附近.高斯混合聚類(lèi)模型效果越好,所估計(jì)的簇中心點(diǎn)與實(shí)際簇的中心點(diǎn)之間距離將越小甚至重合.
依據(jù)文獻(xiàn)[12]將數(shù)據(jù)缺失機(jī)制分為四種類(lèi)型,包括隨機(jī)缺失、完全隨機(jī)缺失、取決于未被觀測(cè)因素的缺失(可以通過(guò)未被觀察或記錄的數(shù)據(jù)進(jìn)行預(yù)測(cè)的)以及和僅依賴(lài)于缺失值自身的缺失機(jī)制.后兩種缺失機(jī)制即為這里將定義的非隨機(jī)缺失.
在數(shù)據(jù)空間 Rd中,令A(yù)為一個(gè)實(shí)數(shù)集合,設(shè)為一個(gè)指示變量,表示y的元素在集合A中是否存在觀察值.若∈A,則=1,否則=0.這里yi不區(qū)分變量及其真實(shí)值,而將其觀測(cè)值記為.令作為yi中不存在缺失的部分,表示yi中存在缺失值的部分,那么.
定義1.如果對(duì)所有和參數(shù) Θ,
則缺失數(shù)據(jù)機(jī)制為隨機(jī)缺失.
定義2.如果對(duì)所有和參數(shù) Θ,
則缺失數(shù)據(jù)機(jī)制為非隨機(jī)缺失.
可見(jiàn),對(duì)于隨機(jī)缺失數(shù)據(jù),其樣本數(shù)據(jù)及指示變量滿(mǎn)足交換性,而非隨機(jī)缺失數(shù)據(jù)不滿(mǎn)足這一性質(zhì)[12].當(dāng)缺失數(shù)據(jù)是隨機(jī)缺失時(shí),可直接使用標(biāo)準(zhǔn)EM 算法、多值插補(bǔ)、回歸等方法揭示缺失機(jī)制.下面引入一類(lèi)非隨機(jī)性缺失數(shù)據(jù),即刪失數(shù)據(jù),并研究其缺失機(jī)制和參數(shù)估計(jì)方法.
這里給出刪失數(shù)據(jù)的定義,并詳細(xì)闡述刪失數(shù)據(jù)的缺失機(jī)制和似然函數(shù).在數(shù)據(jù)空間 Rd中,[a,b]d為一個(gè)超矩陣[11],其中上邊界b=(b(1),···,b(d))T,下邊界a=(a(1),···,a(d))T.
定義3.刪失數(shù)據(jù)(Censored data)是指yi的觀測(cè)值滿(mǎn)足分段函數(shù):
其中,a 換言之,yi中的缺失部分被分別賦予a或b對(duì)應(yīng)維度上的元素值.為分析概率密度和估計(jì)參數(shù),假設(shè)的元素個(gè)數(shù)為J1,的元素個(gè)數(shù)為J2,且J1+J2=d.不妨進(jìn)一步假設(shè),.對(duì)于刪失數(shù)據(jù),A=[a,b]d.為簡(jiǎn)化,令δij=1?,當(dāng)δij=1時(shí),表示因刪失而存在缺失數(shù)據(jù),其對(duì)應(yīng)觀測(cè)值被賦予邊界值;相應(yīng)地,δij=0,表示不存在缺失數(shù)據(jù),即觀測(cè)值等同于真實(shí)值.y觀測(cè)值的樣本刪失率.對(duì)于一維數(shù)據(jù),刪失率pce=nce/n,其中nce是存在刪失的樣本數(shù). 根據(jù)刪失數(shù)據(jù)的定義,y1:n的部分真實(shí)值(如序數(shù)為n1+1,···,n的值)被修改.那么,其被修改后的數(shù)據(jù)(不存在缺失部分的值、和缺失部分的修改值)構(gòu)成新數(shù)據(jù)集,記為x1:n.對(duì)于?i,?j,有 與缺失數(shù)據(jù)機(jī)制對(duì)應(yīng),但因每一個(gè)樣本yi的刪失模式會(huì)不一樣,而使用im和io分別表示刪失和未刪失數(shù)據(jù)的坐標(biāo)序號(hào)集,故分別指刪失部分的缺失值(缺失時(shí)的真實(shí)值)和刪失后的改寫(xiě)值(簡(jiǎn)稱(chēng)刪失值),分別指原數(shù)據(jù)不存在缺失的部分與刪失型數(shù)據(jù)對(duì)應(yīng)的部分值,盡管沒(méi)有刪失時(shí)它們值等同.那么.同時(shí),. 為簡(jiǎn)化,將y的數(shù)據(jù)空間劃分為{Yt|t=0,1,···,T},其中當(dāng),此時(shí)數(shù)據(jù)不存在刪失;而當(dāng),t>0 時(shí),數(shù)據(jù)發(fā)生刪失.將刪失部分調(diào)整后的觀測(cè)值x的數(shù)據(jù)空間劃分為{Xt|t=1,···,T},注意,這里沒(méi)有涵蓋不存在刪失的部分,即x的數(shù)據(jù)空間劃分不涵蓋X0.對(duì)于yi∈Y0,觀測(cè)值xi的似然函數(shù)如下: 而對(duì)于yi缺失機(jī)制,有,ti >0,其似然函數(shù)如下: 并且關(guān)于f(xi)推導(dǎo)式(4)的右邊部分轉(zhuǎn)化為: 高斯混合聚類(lèi)參數(shù)估計(jì)主要包括成分的期望、方差和對(duì)應(yīng)的混合系數(shù).嵌套標(biāo)準(zhǔn)EM 的高斯混合聚類(lèi)算法,這里簡(jiǎn)記為EMGM.并將針對(duì)刪失數(shù)據(jù)所提出的改進(jìn)算法,即嵌套刪失型數(shù)據(jù)期望最大化的高斯混合聚類(lèi)算法,簡(jiǎn)記為cenEMGM 算法. 對(duì)于獨(dú)立觀測(cè)變量集合y1:n,參數(shù)空間 Θ,第k個(gè)成分fk和簇指示變量,對(duì)數(shù)似然函數(shù)為: 其中,Θk=(πk,μk,Σk)表示第k個(gè)成分的參數(shù),(Σk)?1表示 Σk的倒數(shù),Const表示常數(shù),tr(·)表示矩陣的跡,In表示值全為1 的 1×n向量. 根據(jù)標(biāo)準(zhǔn)的期望最大化算法[23],其假設(shè)為數(shù)據(jù)存在隨機(jī)缺失.對(duì)于獨(dú)立觀測(cè)變量集合y1:n,Θ,Θold和 Θnew分別為參數(shù)空間,算法中更新前的參數(shù)及更新后的參數(shù). 算法第一步(步驟E):計(jì)算期望函數(shù)Q(Θ;Θold)=,步驟E 可以簡(jiǎn)化為計(jì)算條件概率: 第二步(步驟M):尋找新的參數(shù)集 Θnew,使得Θnew=arg maxΘQ(Θ;Θold).更新后的參數(shù)Θnew=,形成一個(gè)更新的閉環(huán)形式: 該算法不斷迭代E 步和M 步,直至收斂.以最后獲得的更新參數(shù)作為 Θ 的最優(yōu)估計(jì)值. 引理1.通過(guò)最大似然估計(jì)方法獲得全數(shù)據(jù)的參數(shù),即求解全數(shù)據(jù)得分向量方程(yi,Θ)=0,得到 其中,IF(Θ)為全數(shù)據(jù)信息矩陣,IF(Θ)=E[SF(D,Θ)(D,Θ)]. 通過(guò)正則漸近線性法(Regular and asymptotically linear,RAL)[24]獲得全數(shù)據(jù)的參數(shù)記為,即求解全數(shù)據(jù)得分向量方程=0. 引理2.對(duì)于RAL 方法估計(jì)的參數(shù),應(yīng)滿(mǎn)足: 對(duì)于 arg maxΘQ(Θ;Θold),根據(jù)全數(shù)據(jù)參數(shù)估計(jì)的引理,存在關(guān)于期望最大化算法估計(jì)刪失型缺失數(shù)據(jù)的定理. 定理1.令全數(shù)據(jù)D={y1,y2,···,yn},對(duì)應(yīng)的刪失型缺失數(shù)據(jù),對(duì)缺失數(shù)據(jù)使用逐步更新的EMGM 算法估計(jì)參數(shù),可通過(guò)以下方程求解. 依據(jù)第3.2 節(jié)給定刪失數(shù)據(jù)及其似然函數(shù),cen-EMGM 算法首先計(jì)算完全對(duì)數(shù)似然函數(shù)的期望: 該式子可以由式(4)進(jìn)一步推導(dǎo)出結(jié)果. 結(jié)合高斯混合分布定義(1),針對(duì)y(mi)的條件概率分布,,推導(dǎo)其條件分布期望.因?yàn)槭钦龖B(tài)密度函數(shù)且滿(mǎn)足 條件密度f(wàn)k(y(mi)|x)是在Xc上的截尾正態(tài)密度函數(shù),那么計(jì)算關(guān)于Qc的充分統(tǒng)計(jì)量: 定理2.全數(shù)據(jù)D={y1,y2,···,yn},對(duì)應(yīng)的刪失型缺失數(shù)據(jù),在給定缺失數(shù)據(jù)和RAL 估計(jì)參數(shù)下的原數(shù)據(jù)的得分向量,對(duì)缺失數(shù)據(jù)使用cenEMGM 算法估計(jì)參數(shù),滿(mǎn)足 其中,IF(Θ)為全數(shù)據(jù)信息矩陣,Θ 為數(shù)據(jù)的真實(shí)參數(shù),對(duì)于cenEMGM 算法. 證明.因cenEMGM 算法中刪失數(shù)據(jù)的對(duì)數(shù)似然函數(shù)期望為,那么其得分向量的期望 故而有 又因?yàn)?/p> 所以有 根據(jù)定理2 獲得對(duì)數(shù)似然函數(shù)的期望Qc關(guān)于Θ最大化的解,即得到了Θ(t)=ar g maxΘQc(Θ;Θ(t?1))的優(yōu)化解,.該算法的步驟t≥1,并且 Θ(0)表示初始值,可通過(guò)K-means 聚類(lèi)方法獲得賦值.求解的高斯混合聚類(lèi)的混合系數(shù)πk為: 同時(shí),μk和 Σk關(guān)于 arg maxΘQc(Θ;Θ(t?1))的優(yōu)化解分別為: 式(13)~(15)作為標(biāo)準(zhǔn)EM 算法式(6)~(8)針對(duì)刪失型缺失數(shù)據(jù)的改進(jìn).式(13)與(6)在形式上沒(méi)有變化,從理論上論證了刪失型算法cenEMGM與標(biāo)準(zhǔn)算法EMGM 在混合系數(shù)上一致.式(14)與(7)相比較發(fā)現(xiàn),在刪失數(shù)據(jù)算法cenEMGM 中,y1:n的刪失部分被條件均值代替.式(15)與(8)相比較發(fā)現(xiàn),刪失數(shù)據(jù)算法cenEMGM 的被樣本校正協(xié)方差所替代.標(biāo)準(zhǔn)算法EMGM 即為算法cenEMGM 處理不存在刪失數(shù)據(jù)時(shí)的特定情形. 為了防止算法出現(xiàn)過(guò)擬合并計(jì)算估計(jì)值和真實(shí)值之間的距離,需要設(shè)定模型檢驗(yàn)準(zhǔn)則.這里引入信息散度(Kullback-Leibler divergence,KLD)和赤池弘次信息準(zhǔn)則(Akaike's information criterion,AIC)[20,25].信息散度KLD 公式[25]為: 其中,p(y) 是y真實(shí)分布的概率密度函數(shù),q(y)是y估計(jì)分布的概率密度函數(shù).本文中y的概率密度函數(shù)由高斯混合分布(1)確定..在算法EMGM 中,p(y)由式(6)~(8)確定;在算法cenEMGM中,q(y)由式(13)~(15)確定. 對(duì)于AIC 準(zhǔn)則,其值最小的模型即為最佳模型.假設(shè)模型的誤差服從獨(dú)立正態(tài)分布,AIC 可表示為: 其中,N(Θ)是模型算法參數(shù)的數(shù)量,d為D數(shù)據(jù)維度,K為高斯混合模型的成分?jǐn)?shù)量,L(Θ)是參數(shù)集 Θ 的似然函數(shù). 嵌套刪失型數(shù)據(jù)期望最大化的高斯混合聚類(lèi)算法(cenEMGM)主要由高斯混合聚類(lèi)和針對(duì)刪失數(shù)據(jù)的期望最大化算法構(gòu)成,如算法1 所示.第1)步初始化參數(shù),常使用k-means 算法.第2)~10)步,運(yùn)行直至滿(mǎn)足停止條件,跳出循環(huán).其中第3)~4)步,cenEMGM 算法的E 步,計(jì)算后驗(yàn)概率;第5)~9)步,cenEMGM 算法的M 步,計(jì)算新的模型參數(shù).第11)~13)步,劃分簇.算法流程的停止條件是,其中ε是一個(gè)小的正數(shù)(如1.0×10?6).其中,,k=1,2,···,K.cenEMGM 算法的計(jì)算復(fù)雜度(時(shí)間復(fù)雜度)受到樣本規(guī)模n和參數(shù)規(guī)模影響,其中d為D數(shù)據(jù)維度,K為高斯混合模型的成分?jǐn)?shù)量. 算法1.嵌套刪失型數(shù)據(jù)期望最大化的高斯混合聚類(lèi)算法cenEMGM cenEMGM 算法的核心步驟主要基于式(13)~(15).與之對(duì)應(yīng)的標(biāo)準(zhǔn)EMGM 算法,其核心是式(6)~(8).cenEMGM 算法是針對(duì)刪失型缺失數(shù)據(jù)的改進(jìn)算法,先根據(jù)新均值向量計(jì)算新樣本規(guī)模,然后計(jì)算新混合系數(shù).因?yàn)闃颖疽?guī)模改變,所以樣本方差、刪失率、觀測(cè)數(shù)據(jù)均值等參數(shù)同步做出改變.針對(duì)刪失數(shù)據(jù)修改的這些內(nèi)容,使cenEMGM 算法更靈活,更能適應(yīng)含有刪失數(shù)據(jù)的高斯混合聚類(lèi). 高斯混合分布中,πk是選擇第k個(gè)混合成分的概率,由式(8)和式(13)可以看出,樣本刪失率間接地通過(guò)樣本容量影響著πk,所以pce對(duì)πk產(chǎn)生影響.數(shù)據(jù)質(zhì)量可以衡量采樣機(jī)制產(chǎn)生的選擇偏差程度[26],其不僅和估計(jì)準(zhǔn)確度有關(guān),更是與刪失率有關(guān).為了提高模型的準(zhǔn)確性,可以根據(jù)刪失率調(diào)整并確定樣本規(guī)模n.關(guān)于樣本規(guī)模在實(shí)驗(yàn)設(shè)計(jì)中已有討論[27].這里給出樣本方差未知時(shí)刪失率pce與樣本規(guī)模n的結(jié)論.根據(jù)統(tǒng)計(jì)推斷理論,檢驗(yàn)水準(zhǔn)α?xí)r,預(yù)測(cè)能力 (1?β)表示,當(dāng)所考慮的總體與原假設(shè)H0確有差別時(shí),按照檢驗(yàn)水準(zhǔn)α能夠發(fā)現(xiàn)拒絕它的概率.總體方差未知時(shí),在刪失數(shù)據(jù)缺失率為pce的情況下,估計(jì)樣本容量大小如下:n0=,其中δ表示估計(jì)精度(即允許誤差),為數(shù)據(jù)分布中的真實(shí)缺失率,t為檢驗(yàn)統(tǒng)計(jì)量.對(duì)于一定規(guī)模的同一數(shù)據(jù)集,隨著樣本刪失率pce上升,參數(shù)估計(jì)模型的估計(jì)能力下降,導(dǎo)致準(zhǔn)確性也降低.因此,數(shù)據(jù)分析中要求樣本容量不小于n0.隨著數(shù)據(jù)感知和收集成本下降,數(shù)據(jù)可得性變高,統(tǒng)計(jì)機(jī)器學(xué)習(xí)模型使用的數(shù)據(jù)規(guī)模選取常會(huì)超過(guò)模型的測(cè)試能力要求,且通常會(huì)考慮數(shù)據(jù)的缺失機(jī)制[12]. 這里使用人工數(shù)值實(shí)驗(yàn)與真實(shí)數(shù)據(jù)分析,驗(yàn)證方法的有效性. 實(shí)驗(yàn)從預(yù)設(shè)分布生成數(shù)據(jù)集,并對(duì)數(shù)據(jù)進(jìn)行刪失處理.在刪失數(shù)據(jù)上,分別采用嵌套標(biāo)準(zhǔn)EM 的高斯混合聚類(lèi)算法EMGM 和嵌套刪失型數(shù)據(jù)cenEM 的高斯混合聚類(lèi)算法cenEMGM 進(jìn)行實(shí)驗(yàn)分析.實(shí)驗(yàn)結(jié)果通過(guò)聚類(lèi)的真實(shí)參數(shù)與估計(jì)參數(shù)比較、KL 散度等統(tǒng)計(jì)指標(biāo)進(jìn)行比較分析. 為在多變量上比較算法,這里設(shè)計(jì)兩個(gè)含有三個(gè)成分的二元高斯混合模型的實(shí)驗(yàn).在兩個(gè)實(shí)驗(yàn)中,實(shí)驗(yàn)數(shù)據(jù)集D S-a 的觀測(cè)值 (Y1,Y2)被設(shè)置在[10,50]×[5,45]的矩形窗中,用于右刪失型數(shù)據(jù)和雙邊刪失型數(shù)據(jù)在EMGM 算法和cenEMGM 算法上的實(shí)驗(yàn);實(shí)驗(yàn)數(shù)據(jù)集DS-b 的觀測(cè)值 (Y1,Y2)被設(shè)置在 [?20,60]×[?10,60] 的矩形窗中,用于左刪失型數(shù)據(jù)和雙邊刪失型數(shù)據(jù)在EMGM 算法和cenEMGM算法上的實(shí)驗(yàn).右(左)刪失型缺失是指在變量值域范圍內(nèi),設(shè)定了觀測(cè)值上(下)界,且大(小)于該上(下)界的其他值被賦予該上(下)界值,但并無(wú)給定的下(上)界.雙邊刪失型缺失是指在變量值域范圍內(nèi),同時(shí)設(shè)定了觀測(cè)值上界和下界值,大于該上界的其他值被賦予該上界值,且小于該下界的其他值被賦予該下界值.這里生成的兩組數(shù)據(jù)分別采用了兩種刪失機(jī)制,并非只討論一組數(shù)據(jù)的左刪失、右刪失及雙邊刪失,以便體現(xiàn)刪失數(shù)據(jù)邊界的多樣性和實(shí)驗(yàn)的可重復(fù)性. 在實(shí)驗(yàn)數(shù)據(jù)集DS-a 中,三個(gè)分量的中心都在對(duì)應(yīng)的矩形窗內(nèi),參數(shù)設(shè)置如下:成分權(quán)重為π=(0.25,0.40,0.35);均值為μ1=(23.50,23.50),μ2=(33.50,23.50),μ3=(40.50,40.50);方差中,成分1 與成分2 在兩個(gè)變量之間不存在相關(guān)性: 成分3 的兩個(gè)變量之間存在相關(guān)性: 在實(shí)驗(yàn)數(shù)據(jù)集DS-b 中,雖然三個(gè)成分的中心都在對(duì)應(yīng)的矩形窗內(nèi),但有兩個(gè)成分的中心落在了下界之外.參數(shù)設(shè)置如下:成分權(quán)重和方差分別與實(shí)驗(yàn)數(shù)據(jù)集DS-a 對(duì)應(yīng)一致.但它們的均值分別為μ1=(?3.50,23.50),μ2=(33.50,?3.50),μ3=(40.50,40.50). 在每種情形下繪制1 000 個(gè)數(shù)據(jù)點(diǎn)后,根據(jù)刪失型缺失的預(yù)設(shè)邊界,邊界外的所有數(shù)據(jù)都刪失.在DS-a 中,針對(duì)右刪失缺失型數(shù)據(jù),其上界值設(shè)為43.5,表明刪失類(lèi)型的(超)矩形窗為[10,43.5]×[5,43.5],其中10 和5 為小于其觀測(cè)值最小值的一個(gè)數(shù),來(lái)源于觀測(cè)值的矩形窗下界,并不表示刪失數(shù)據(jù)的下界,并觀察到約862 個(gè)數(shù)據(jù)點(diǎn)未刪失,并使用EMGM 算法和cenEMGM 算法進(jìn)行實(shí)驗(yàn),如圖1 所示;若其還存在左刪失,如將其下界值設(shè)為15,形成雙邊刪失型缺失數(shù)據(jù),表明刪失類(lèi)型的(超)矩形窗為 [15,43.5]×[15,43.5],約818 個(gè)數(shù)據(jù)點(diǎn)未刪失,如圖2 所示.類(lèi)似地,在DS-b 中,針對(duì)左刪失缺失型數(shù)據(jù),其下界值設(shè)為0,表明刪失類(lèi)型的(超)矩形窗為 [0,60]×[0,60],其中60 為大于其觀測(cè)值最大值的一個(gè)數(shù),來(lái)源于觀測(cè)值的矩形窗上界,并不表示刪失數(shù)據(jù)的上界,約484 個(gè)數(shù)據(jù)點(diǎn)未刪失,如圖2 所示;若其還存在右刪失,例如其上界值設(shè)為40,形成雙邊刪失型缺失數(shù)據(jù),表明刪失類(lèi)型的(超)矩形窗為 [0,40]×[0,40],約241 左右的數(shù)據(jù)點(diǎn)未刪失,如圖3 所示.圖中小十字表示刪失后的數(shù)據(jù)點(diǎn),‘o’ 和實(shí)心橢圓是每個(gè)成分在算法估計(jì)后的聚類(lèi)中心和距離為1 的等高曲線.其距離使用成對(duì)馬氏(Mahalanobis)距離計(jì)算.‘+’ 和虛線橢圓表示高斯混合模型成分的真實(shí)聚類(lèi)中心和等高曲線. 圖1 在數(shù)據(jù)集DS-a 右刪失上的兩種算法比較Fig.1 Comparison of the two algorithms on the dataset DS-a with right censoring 圖2 在數(shù)據(jù)集DS-a 雙邊刪失上的兩種算法比較Fig.2 Comparison of the two algorithms on the dataset DS-a with double-side censoring 圖3 在數(shù)據(jù)集DS-b 左刪失上的兩種算法比較Fig.3 Comparison of the two algorithms on the dataset DS-b with left censoring 圖1 顯示EMGM 算法和cenEMGM 算法在二維合成數(shù)據(jù)DS-a 右刪失上的實(shí)驗(yàn)結(jié)果.EMGM 算法在該數(shù)據(jù)集上的結(jié)果(圖1 (a))顯示,‘o’ 和實(shí)心橢圓所表示的估計(jì)的聚類(lèi)中心和距離為1 的等高曲線與 ‘+’ 和虛線橢圓表示高斯混合模型成分的真實(shí)聚類(lèi)中心和等高曲線之間存在顯著差異.而cenEMGM 算法在該數(shù)據(jù)集上的結(jié)果(圖1(b))顯示,cenEMGM 算法估計(jì)的聚類(lèi)中心和等高曲線與真實(shí)聚類(lèi)中心和等高曲線之間的差異明顯減小,其結(jié)果明顯優(yōu)于EMGM 算法. 圖2 顯示EMGM 算法和cenEMGM 算法在二維合成數(shù)據(jù)DS-a 雙邊刪失上的實(shí)驗(yàn)結(jié)果.EMGM算法在該數(shù)據(jù)集上的結(jié)果(圖2 (a))顯示,聚類(lèi)中心和距離為1 的等高曲線比EMGM 算法(圖1 (a))明顯更接近于真實(shí)值.因?yàn)檫@里除了存在右刪失外,還存在左刪失.盡管缺失率更高,但觀測(cè)到的數(shù)據(jù)(未刪失部分)的均值更接近真實(shí)值.同時(shí)可見(jiàn),cenEMGM 算法估計(jì)(圖2 (b))的聚類(lèi)中心和真實(shí)聚類(lèi)中心之間的差異也明顯更小,其結(jié)果進(jìn)一步表明cenEMGM 算法在處理刪失數(shù)據(jù)聚類(lèi)問(wèn)題上明顯優(yōu)于EMGM 算法. 圖3 顯示EMGM 算法和cenEMGM 算法在二維合成數(shù)據(jù)DS-b 左刪失上的實(shí)驗(yàn)結(jié)果.‘+’ 表示高斯混合模型成分的真實(shí)聚類(lèi)中心,其中兩個(gè)已落在了值域的下界之外.EMGM 算法的結(jié)果(圖3 (a))顯示,其估計(jì)的聚類(lèi)中心(‘o’)和等高曲線(實(shí)心橢圓)沒(méi)有超出值域的下界,表明估計(jì)值與對(duì)應(yīng)的真實(shí)值之間存在顯著差異.而cenEMGM 算法的估計(jì)結(jié)果(圖3 (b))顯示,其估計(jì)的聚類(lèi)中心和等高曲線與真實(shí)值之間的差異明顯更小.對(duì)于圖3 (b)圖中靠近Y2坐標(biāo)軸的成分,盡管其估計(jì)值與真實(shí)值之間尚存在一些差異,但這一差異與EMGM 算法所表現(xiàn)出的差異已經(jīng)小很多,且另外兩個(gè)成分的估計(jì)值與真實(shí)值之間幾乎無(wú)差異,因此這些結(jié)果進(jìn)一步表明cenEMGM 算法在這類(lèi)數(shù)據(jù)聚類(lèi)上更優(yōu)于EMGM 算法. 圖4 顯示EMGM 算法和cenEMGM 算法在二維合成數(shù)據(jù)DS-b 雙邊刪失上的實(shí)驗(yàn)結(jié)果.三個(gè)成分的聚類(lèi)中心真實(shí)值(‘+’)都在下界或上界之外.EMGM 算法在該數(shù)據(jù)集上的結(jié)果(圖4 (a))顯示,三個(gè)成分的估計(jì)的聚類(lèi)中心和距離為1 的等高曲線與真實(shí)值之間都存在顯著差異.與此相反,cenEMGM算法在該數(shù)據(jù)集上的結(jié)果(圖4 (b))顯示,其估計(jì)值也可以位于上下界之外,更接近真實(shí)聚類(lèi)中心和等高曲線,即估計(jì)值與真實(shí)值之間的差異明顯變小.結(jié)果表明cenEMGM 算法在處理這類(lèi)刪失數(shù)據(jù)聚類(lèi)時(shí)明顯優(yōu)于EMGM 算法. 圖4 在數(shù)據(jù)集DS-b 雙邊刪失上的兩種算法比較Fig.4 Comparison of the two algorithms on the dataset DS-b with double-side censoring 此外,進(jìn)行 100 次重復(fù)實(shí)驗(yàn),記錄多次實(shí)驗(yàn)結(jié)果在KLD 值與AIC 值上的平均值和方差.實(shí)驗(yàn)合成數(shù)據(jù)集真實(shí)分布和估計(jì)分布之間的KLD 值見(jiàn)表1,對(duì)于參數(shù)估計(jì)的兩種算法AIC 值比較見(jiàn)表2.結(jié)果表明,對(duì)于兩種算法在同一數(shù)據(jù)集上的表現(xiàn),不論是KLD 值還是AIC 值,cenEMGM 算法的值都小于對(duì)應(yīng)EMGM 算法的值,說(shuō)明在刪失型缺失數(shù)據(jù)參數(shù)估計(jì)上cenEMGM 算法優(yōu)于EMGM 算法.對(duì)于同一算法在不同數(shù)據(jù)集上的表現(xiàn),因雙邊刪失比對(duì)應(yīng)的單邊刪失因缺失而擁有更少的樣本數(shù)據(jù),雙邊刪失的AIC 值小于對(duì)應(yīng)的單側(cè)刪失的AIC 值. 表1 實(shí)驗(yàn)合成數(shù)據(jù)集真實(shí)分布和估計(jì)分布之間的KLD 值Table 1 Kullback-Leibler divergence (KLD)between the true densities and the estimated densities of the synthetic data set 表2 實(shí)驗(yàn)合成數(shù)據(jù)集參數(shù)估計(jì)的兩種算法AIC 比較Table 2 AIC comparison of the two estimation algorithms on the synthetic data set 數(shù)據(jù)來(lái)源于某大型醫(yī)院信息系統(tǒng)中的臨床數(shù)據(jù)[4].這些數(shù)據(jù)樣本包括554 個(gè)相關(guān)屬性,其中有106 個(gè)建檔屬性、23 個(gè)檢驗(yàn)數(shù)據(jù)屬性、157 個(gè)來(lái)自實(shí)驗(yàn)室信息系統(tǒng)的試驗(yàn)結(jié)果屬性以及268 個(gè)電子健康檔案中病案首頁(yè)的屬性.根據(jù)醫(yī)學(xué)領(lǐng)域?qū)<乙庖?jiàn)和文獻(xiàn)進(jìn)行屬性篩選,經(jīng)過(guò)數(shù)據(jù)清理后所得數(shù)據(jù)集包括50 個(gè)屬性,具體包括年齡、婚齡、孕婦體重指數(shù)、紅細(xì)胞計(jì)數(shù)、谷氨酰轉(zhuǎn)肽酶、空腹血糖水平值等屬性.根據(jù)驗(yàn)證的目的,這里所使用的數(shù)據(jù)集為原臨床數(shù)據(jù)集中提取的包含4 個(gè)屬性的數(shù)據(jù).這些屬性具體為關(guān)于孕婦在篩檢妊娠期糖尿病過(guò)程中的血糖水平值和醫(yī)生給出的診斷結(jié)果,即是否患有妊娠期糖尿病.其中包括關(guān)于血糖水平值的3 個(gè)屬性分別為口服糖耐量試驗(yàn)中的空腹血糖水平值(Fasting blood sugar level,FBSL)、1 小時(shí)血糖水平值(1h-blood sugar level,1h-BSL)和2 小時(shí)后的血糖水平值.根據(jù)國(guó)際妊娠合并糖尿病研究組織建議,妊娠期糖尿病的診斷標(biāo)準(zhǔn)為[4],空腹血糖水平值高于5.1 mmol/L、1 小時(shí)血糖水平值高于10 mmol/L 和2 小時(shí)血糖水平值高于8.5 mmol/L,滿(mǎn)足以上三項(xiàng)中的任一項(xiàng)即診斷為患有妊娠期糖尿病,數(shù)據(jù)記錄聚類(lèi)為患病簇,否則為正常簇.在電子病歷記錄與數(shù)據(jù)聯(lián)結(jié)整合中,小于等于10 mmol/L 的血糖水平值記錄為原始測(cè)量值,而高于10 mmol/L 的空腹血糖水平值和1 小時(shí)血糖水平值的數(shù)據(jù)被記錄為“>10mmol/L”型刪失型數(shù)據(jù).雖然這些刪失型數(shù)據(jù)能夠?yàn)樵\斷結(jié)果提供直接的臨床證據(jù),但是這些數(shù)據(jù)的刪失對(duì)于進(jìn)一步探索關(guān)于妊娠期糖尿病的風(fēng)險(xiǎn)因子,以及這些因子對(duì)血糖水平值影響的因果關(guān)系研究構(gòu)成困難.又因妊娠期糖尿病的主要治療方案包括膳食改變、增加鍛煉甚至胰島素等的藥物治療[28],但這些治療方案對(duì)以血糖水平值作為結(jié)果的影響作用大小是有差異的.為后續(xù)研究這些影響作用,在使用這些刪失型的血糖水平值數(shù)據(jù)時(shí),需要對(duì)這些數(shù)據(jù)的分布參數(shù)進(jìn)行較為精確的估計(jì).本文的聚類(lèi)算法正是針對(duì)這些刪失型數(shù)據(jù)提供分布參數(shù)的估計(jì). 從原數(shù)據(jù)中選擇了917 例數(shù)據(jù)進(jìn)行數(shù)值計(jì)算,其中756 例樣本屬于正常簇,161 例樣本屬于患病簇.在917 例樣本數(shù)據(jù)中,以空腹血糖水平值和1小時(shí)血糖水平值進(jìn)行分析,發(fā)現(xiàn)78 例樣本數(shù)據(jù)屬于刪失型數(shù)據(jù),主要存在于1 小時(shí)血糖水平值上.對(duì)這一數(shù)據(jù)集,分別采用EMGM 算法和cenEMGM算法進(jìn)行高斯混合聚類(lèi),結(jié)果如圖5 所示. 圖5 在血糖測(cè)試數(shù)據(jù)右刪失上兩種算法比較Fig.5 Comparison of the two algorithms on the dataset of blood sugar tests with right-side censoring 圖5 顯示了EMGM 算法和cenEMGM 算法在刪失型血糖水平值數(shù)據(jù)上的聚類(lèi)結(jié)果.橫坐標(biāo)為空腹血糖水平值,縱坐標(biāo)為1 小時(shí)血糖水平值,其樣本數(shù)據(jù)關(guān)于“>10 mmol/L”刪失.真實(shí)數(shù)據(jù)中一個(gè)成分的聚類(lèi)中心真實(shí)值(‘+’)在樣本數(shù)據(jù)所展示的范圍內(nèi),為(4.96,7.16);另一個(gè)成分的聚類(lèi)中心真實(shí)值(‘+’)在樣本數(shù)據(jù)的上界之外,為(6.09,11.16),即中心值在1 小時(shí)血糖水平值上“>10 mmol/L”.圖5 (a)顯示EMGM 算法在該數(shù)據(jù)集上存在一個(gè)成分的估計(jì)聚類(lèi)中心和距離為1 的等高曲線與真實(shí)值之間存在顯著差異,即估計(jì)值所在的聚類(lèi)中心在1 小時(shí)血糖水平值以下,而真實(shí)值所在的聚類(lèi)中心在1 小時(shí)血糖水平值以上.不同的是,圖5 (b)顯示cenEMGM 算法在該數(shù)據(jù)集上的估計(jì)值也可以位于上界之外,使得其更接近真實(shí)聚類(lèi)中心,說(shuō)明估計(jì)值與真實(shí)值之間的差異明顯變小.在模型檢驗(yàn)準(zhǔn)則上,對(duì)于這一真實(shí)數(shù)據(jù)集,EMGM 算法在真實(shí)分布與估計(jì)分布之間的KLD 值(12.7)高于cenEMGM算法的KLD 值(9.1),同時(shí)后者的AIC 值(4 263)低于前者的AIC 值(4 366).因此,這些結(jié)果說(shuō)明cenEMGM 算法在處理真實(shí)的刪失數(shù)據(jù)聚類(lèi)時(shí)優(yōu)于EMGM 算法. 此外,為進(jìn)一步驗(yàn)證方法的有效性,對(duì)于真實(shí)數(shù)據(jù)調(diào)整刪失率進(jìn)行拓展,動(dòng)態(tài)改變刪失率而進(jìn)行計(jì)算,并對(duì)聚類(lèi)中心、AIC 與KLD 值進(jìn)行定量對(duì)比,如表3 所示. 表3 真實(shí)數(shù)據(jù)及其拓展數(shù)據(jù)的兩種算法比較Table 3 Comparison of the two algorithms with the real data and its extended data 表3 結(jié)果表明,當(dāng)右側(cè)刪失率從8.51%增加到11.67%時(shí),兩種算法的聚類(lèi)中心估計(jì)值與真實(shí)值(4.96,7.16)和(6.09,11.16)之間的差異增大,KLD 值與AIC 值減小.cenEMGM 算法的KLD 值與AIC 值比EMGM 算法的對(duì)應(yīng)值小,說(shuō)明其在處理刪失數(shù)據(jù)聚類(lèi)時(shí)仍然優(yōu)于EMGM 算法.當(dāng)將數(shù)據(jù)拓展為雙邊刪失型數(shù)據(jù)時(shí),即在右邊刪失的基礎(chǔ)上增加左邊刪失6.54 %,總體上刪失15.05 %時(shí),兩種算法的聚類(lèi)中心估計(jì)值與真實(shí)值之間的差異進(jìn)一步增大,且KLD 值增大而AIC 值減小.總體上,隨著刪失率的增加,算法處理的能力在一定程度上逐漸減弱,但是cenEMGM 算法的聚類(lèi)中心估計(jì)值與真實(shí)值相對(duì)更接近,且KLD 值與AIC 值比EMGM算法的對(duì)應(yīng)值更小,進(jìn)一步說(shuō)明其通過(guò)聚類(lèi)在處理刪失數(shù)據(jù)的參數(shù)估計(jì)時(shí)仍然優(yōu)于EMGM 算法. 刪失型數(shù)據(jù)處理特別是在機(jī)器學(xué)習(xí)或數(shù)據(jù)挖掘等數(shù)據(jù)處理中,作為工程實(shí)踐和管理中數(shù)據(jù)處理的焦點(diǎn)問(wèn)題.由于刪失數(shù)據(jù)處理的知識(shí)有限性,需要根據(jù)刪失模式制定合適的算法模型.盡管當(dāng)前數(shù)據(jù)智能處理所面臨的數(shù)據(jù)規(guī)模較大,但選取高價(jià)值的實(shí)驗(yàn)數(shù)據(jù)或稀有事件等所面臨的刪失數(shù)據(jù)處理仍然顯得較為重要.然而,現(xiàn)有的缺失數(shù)據(jù)處理問(wèn)題主要集中在隨機(jī)缺失,對(duì)非隨機(jī)缺失下的刪失型數(shù)據(jù)研究不深,因此本文根據(jù)估計(jì)算法的有效性理論,針對(duì)刪失數(shù)據(jù)期望最大化的高斯混合聚類(lèi)算法(cenEMGM),通過(guò)關(guān)于得分向量期望的方程得出算法估計(jì)的最優(yōu)參數(shù).與嵌套標(biāo)準(zhǔn)EM 的高斯混合聚類(lèi)算法(EMGM)相比,本方法根據(jù)刪失數(shù)據(jù)的指示變量調(diào)整樣本似然函數(shù),進(jìn)而改進(jìn)參數(shù)估計(jì)的期望最大化算法,使得高斯混合聚類(lèi)模型參數(shù)估計(jì)準(zhǔn)確性更高,AIC 信息準(zhǔn)則值更小,聚類(lèi)效果更好.并通過(guò)數(shù)值實(shí)驗(yàn)論證了本方法相對(duì)于EMGM 算法的優(yōu)越性.更多類(lèi)型數(shù)據(jù)中的刪失型缺失機(jī)制(模式)識(shí)別、不同刪失情形下多種算法有效性分析及其高斯混合聚類(lèi)算法拓展是下一步工作重點(diǎn).3 高斯混合聚類(lèi)的參數(shù)估計(jì)
3.1 基于高斯混合聚類(lèi)的標(biāo)準(zhǔn)算法EMGM
3.2 估計(jì)算法的有效性
3.3 針對(duì)刪失數(shù)據(jù)的算法cenEMGM
3.4 模型檢驗(yàn)準(zhǔn)則
3.5 cenEMGM 算法及分析
4 數(shù)值實(shí)驗(yàn)分析
4.1 人工數(shù)值實(shí)驗(yàn)分析
4.2 真實(shí)數(shù)據(jù)分析
5 結(jié)論