馬 超,蔡 猛,李建勛
(1. 上海交通大學自動化系,上海 200240;2. 中國航空工業(yè)集團洛陽電光設備研究所,河南 洛陽 471009)
現(xiàn)實世界的數(shù)據(jù)集常會存在數(shù)據(jù)隨機缺失(MAR,Missing At Random)的問題,且樣本數(shù)據(jù)缺失會大大降低分析算法的有效性?,F(xiàn)有的處理缺失數(shù)據(jù)還原的方法大致分為兩類:第一類是直接刪除含有缺失值的樣本點,這種方法簡單易操作,但是會造成原有數(shù)據(jù)集信息的丟失;另一種方法是對缺失值進行插值,這種方法分為基于統(tǒng)計技術的方法和基于樣本聚類技術的方法。基于統(tǒng)計技術的方法即常見的均值插值、眾數(shù)插值等?;跇颖揪垲惣夹g的方法是通過找到與缺失值樣本相似的樣本,再通過一定的算法進行插值。早期的方法常見的有K近鄰、決策樹等。
近年來,將深度生成模型應用于缺失數(shù)據(jù)處理逐漸成為研究的熱點。該模型是一種基于貝葉斯網(wǎng)絡的深度學習網(wǎng)絡模型,通過一種無監(jiān)督的方式學習任何類型的數(shù)據(jù)分布。在該模型中,通過定義觀測數(shù)據(jù)和潛在變量的聯(lián)合分布,用極大似然估計的方式去擬合觀測數(shù)據(jù)分布。然而,推理隱變量的真實后驗分布是十分困難的,所以,采用了基于變分推斷理論的深度生成模型——變分自編碼器(VAE, Variational Auto-Encoder),該模型可以通過隱變量學習觀測數(shù)據(jù)集的分布,并在生成網(wǎng)絡中將缺失數(shù)據(jù)推理出來?,F(xiàn)有的VAE推理缺失數(shù)據(jù)方法通常將隱變量的先驗分布設置為單高斯分布,并將數(shù)據(jù)的缺失位置當作掩碼變量一同作為觀測數(shù)據(jù)輸入。這種設置可以降低算法的復雜度,但是,由于設置了單一先驗高斯分布,將會在一定程度上損失觀測數(shù)據(jù)的部分信息,且變分推斷證據(jù)下界收斂較慢。
針對以上問題,本文提出了一種新的貝葉斯推理模型——位置索引高斯混合變分自編碼器(Index—GMVAE, Index—Gaussian Mixture Vatiational Auto-Encoders),將隱變量的先驗分布設置為高斯混合分布,可以使隱變量更好地學習觀測數(shù)據(jù)的先驗分布,從而提高隨機缺失數(shù)據(jù)推理生成的有效性,并將缺失位置掩碼作為一種變量建立了觀測數(shù)據(jù)、隱變量、缺失掩碼變量及高斯混合類別變量的四元聯(lián)合概率分布,推導出了新的變分推斷證據(jù)下界。該算法在Mnist手寫數(shù)字數(shù)據(jù)集和UCI-Adult異構數(shù)據(jù)集上做了對比驗證,實驗結果表明,該算法在兩種數(shù)據(jù)集上均顯著提高了模型的證據(jù)下界收斂速度和推理效果及置信度。將缺失數(shù)據(jù)還原平均準確率提升10%左右,具有良好的魯棒性。
變分自編碼器是一種典型的無監(jiān)督生成網(wǎng)絡模型,它將貝葉斯網(wǎng)絡變分推斷和深度學習結合用于數(shù)據(jù)的概率推理及生成。其基本網(wǎng)絡結構如圖1所示。
圖1 變分自編碼器網(wǎng)絡結構圖
該模型將復雜的觀測數(shù)據(jù)空間映射到相對簡單的低維隱變量空間上,則的邊際概率為
(1)
其中,為生成網(wǎng)絡參數(shù)且未知,隱變量的真實后驗分布難以計算:
(2)
為了解決該問題,該模型構建了一個推理網(wǎng)絡(|),為推理網(wǎng)絡參數(shù),運用變分推斷方法去逼近真實后驗分布(|),則觀測數(shù)據(jù)的邊際似然對數(shù)函數(shù)可以寫為
log()=
~(|)[log()]=
[(|)||(|)]+~(|)[log(|)]-
[(|)||()]
(3)
結果的后兩項即為觀測數(shù)據(jù)邊際似然函數(shù)的證據(jù)下界(ELBO),將其作為損失函數(shù),迭代優(yōu)化網(wǎng)絡的和參數(shù)。如公式(4)、(5)所示:
(,;)=-[(|)||()]+
~(|)[log(|)]
(4)
其中:
(5)
如圖1所示,該模型通過推理網(wǎng)絡擬合出隱變量的均值和方差,并采樣構造出對應的單高斯分布的值,然而采樣過程不可導,為了能通過梯度下降算法優(yōu)化網(wǎng)絡參數(shù),采用重參數(shù)法從~(0,1)這個新的標準正態(tài)分布中采樣構造,對求導使梯度可求,如公式(6)所示:
=+·
(6)
傳統(tǒng)的VAE模型的隱變量的先驗分布為單高斯分布,工程上便于實現(xiàn),但是會在推理過程中丟失觀測數(shù)據(jù)的部分分布特征。本文引用高斯混合分布作為隱變量的先驗分布,該分布具有可以擬合任意概率分布的優(yōu)秀特性。記~π()為離散的高斯混合分布類別變量,將原本的連續(xù)隱變量先驗分布(),變?yōu)殡x散變量和連續(xù)變量的聯(lián)合概率分布(,)。
針對完全隨機缺失數(shù)據(jù),本文將缺失數(shù)據(jù)的位置記錄為張量,將缺失視為數(shù)據(jù)不可觀測,設
(7)
記為原本未缺失的完整數(shù)據(jù),為經(jīng)過隨機缺失處理后的可觀測數(shù)據(jù),則滿足:
=·
(8)
因為原數(shù)據(jù)是完全隨機缺失的,故可以假設隱變量與數(shù)據(jù)的缺失位置變量相互獨立:
(,)=(,|)
(9)
此時觀測變量的邊際對數(shù)似然函數(shù)為
log(|)=
[(,|,)||(,|,)]+
(,|,)[log(|,,)]-
[(,|,)||(,)]
(10)
同樣地,可得該似然估計的證據(jù)下界如公式(11)所示:
(,;,,)=(,|,)[log(|,,)]-
((,|,)||(,))
(11)
將該證據(jù)下界作為模型的損失函數(shù),用隨機梯度變分貝葉斯(SGVB, Stochastic Gradient Variational Bayes)估計器近似求解。首先用蒙特卡洛估計方法求損失函數(shù)第一項的重構損失期望,如公式12所示:
(,|,)[log(|,,)]≈
(12)
復原的數(shù)據(jù)對數(shù)似然函數(shù)一般為伯努利分布和高斯分布兩種形式,在實驗中不論是Mnist手寫數(shù)字數(shù)據(jù)集還是UCI.Adult二分類異構數(shù)據(jù)集均歸一化和離散化編碼為0~1的值,故采用伯努利分布,如公式(13)所示:
(13)
其中,為生成網(wǎng)絡輸出的還原數(shù)據(jù)∈{=1|},即只對可觀測數(shù)據(jù)計算重構損失。將不可觀測位置上生成的數(shù)據(jù)作為還原的缺失數(shù)據(jù)。在變分推斷理論中,隱變量分布的復雜性決定了整個優(yōu)化問題的復雜性,一般將其拆分為多組相互獨立的變量,如公式(14)所示:
(,|,)=(|,)(|,)
(14)
所以損失函數(shù)中的散度項可以展開為
-((,|,)||(,))=
(,|,)[log()+log(|)-
log(|,)-(|,)]
(15)
針對缺失數(shù)據(jù)還原問題,將類別的前后驗分布均設為均勻分布,即期望為1,不參與損失函數(shù)的計算。設(|)~(;,,),可用蒙特卡洛估計法將式(15)展開為:
(,|,)[log(|)]=
(16)
(,|,)[loglog(|,)]=
(17)
Mnist手寫數(shù)字數(shù)據(jù)集是非常常用的算法驗證數(shù)據(jù)集,共有0~9這10類數(shù)字,具有樣本均衡、維度適中、易于驗證等特點。實驗中在原數(shù)據(jù)集的圖像上構造了完全隨機缺失(MCAR, Missing Completely At Random),缺失類型分為像素點缺失和像素塊缺失。如圖2所示,從左到右列依次為原數(shù)據(jù)集、缺失塊和缺失點處理示意圖、處理后效果示意圖及均值填補示意圖。
圖2 圖像完全隨機缺失和均值填補
在圖像像素隨機缺失處理的基礎上,先對其做插值預處理,常見的基于統(tǒng)計的插值預處理方法分為零插值法、均值插值法、眾數(shù)插值法等。實驗中采用均值插值法,記為缺失處理后的觀測數(shù)據(jù),為原觀測數(shù)據(jù)的均值(即所有圖片同一像素點的均值),如公式(18)所示:
(18)
模型網(wǎng)絡先將缺失圖像輸入經(jīng)過卷積層處理后再池化,降維成128維的向量,將高斯混合分布的類別數(shù)目定在8~12類之間,在經(jīng)過softmax層得到高斯混合的類別概率向量后,依次擬合出每一類的高斯分布均值方差,用重參數(shù)法組合出隱變量值后再按概率向量組合出最后高斯混合分布的值,設置隱變量為10維向量,之后經(jīng)過卷積層擴維,將推理還原出圖像原來的完整數(shù)據(jù)與輸入數(shù)據(jù)進行重構損失和KL散度計算,不斷迭代優(yōu)化網(wǎng)絡參數(shù),最后,推理出相對良好的缺失數(shù)據(jù)值。實驗中的Index-GMVAE網(wǎng)絡結構如圖3所示。
圖3 Index-GMVAE處理Mnist網(wǎng)絡結構圖
在整個模型推理的過程中,觀測數(shù)據(jù)的對數(shù)似然函數(shù)證據(jù)下界(ELBO, Evidence Lower Bound)的收斂性和逼近0值的性能是判斷網(wǎng)絡推理性能好壞的重要指標,Index-GMVAE與VAE對比的ELBO迭代變化如圖4所示。
圖4 Index-GMVAE和VAE證據(jù)下界收斂對比
因為Index-GMVAE比VAE的ELBO多一項(,|,)[log(|)]類別重構期望,所以收斂最小值要比VAE大,但是收斂速度明顯比VAE快很多。
將隨機缺失圖像用均值填補,傳統(tǒng)VAE算法填補及index-GMVAE算法填補后圖像的還原的效果對比和推理分類結果的ROC曲線對比如圖5所示,從左到右列依次為圖像均值填補示意圖、VAE算法推理還原示意圖及本文提出的Index-GMVAE算法推理還原示意圖。
圖5 圖像均值填補、VAE推理和Index-GMVAE推理
從圖5可以看出,Index-GMVAE算法的圖像缺失推理還原能力明顯強于傳統(tǒng)VAE算法,具有更高的整體辨識度和低錯誤率。由圖6中兩種模型對數(shù)據(jù)類別推理的ROC曲線對比可知,Index-GMVAE算法顯著提高了模型的概率推理性能,使模型推理具有更高的推理置信度。
圖6 Index-GMVAE和VAE的ROC曲線對比
由圖7最終得到的缺失數(shù)據(jù)還原的均方差對比可知,Index-GMVAE算法在還原精度上明顯高于VAE算法,體現(xiàn)了算法在還原圖像數(shù)據(jù)缺失時的有效性。
圖7 Index-GMVAE和VAE推理缺失數(shù)據(jù)MSE對比
UCI數(shù)據(jù)庫中的Adult數(shù)據(jù)集是一個典型的異構二分類數(shù)據(jù)集,它有48 842個樣本點,每個樣本有14個特征,有兩種不同類型的數(shù)據(jù)特征。具體如表1所示。
表1 Adult數(shù)據(jù)集的特征展示
由表1可知,數(shù)據(jù)特征分為數(shù)值型和類別型兩種類型,實驗中為了便于記錄缺失位置,將數(shù)值型數(shù)據(jù)等頻分桶之后,兩種類型的數(shù)據(jù)均進行One-Hot Enbedding編碼,輸入由14維變成133維的二值向量,將Mnist數(shù)據(jù)集模型中的卷積層變成全連接層來做隱變量的編碼和解碼,實驗中設計任意1~3個特征的完全隨機缺失。具體的網(wǎng)絡結構如圖8所示。
圖8 Index-GMVAE處理Adult網(wǎng)絡結構圖
實驗將高斯混合的分布的類別設為6類,設置隱變量為10維向量,與Mnist實驗類似,Index-GMVAE收斂速度較快,但下界略高于VAE。Index-GMVAE和VAE的證據(jù)下界收斂對比如圖9所示。
圖9 Index-GMVAE和VAE證據(jù)下界收斂對比
將測試集數(shù)據(jù)的PCA降維分布、VAE和Index-GMVAE隱變量分布,兩個模型推理結果的ROC曲線以及進行缺失數(shù)據(jù)還原的準確率進行仿真實驗對比,結果如圖10,11及表2所示。
圖10 測試集數(shù)據(jù)分布及模型隱變量分布對比
圖11 Index-GMVAE和VAE的ROC曲線對比
表2 Adult數(shù)據(jù)集的特征展示
由測試集數(shù)據(jù)的降維分布和兩個模型的隱變量分布對比以及兩個模型推理結果的ROC曲線對比可知,Index-GMVAE對數(shù)據(jù)分布的降維推理能力明顯強于VAE,能學習到更為精確的數(shù)據(jù)分布,并且Index-GMVAE模型的推理置信度要優(yōu)于VAE,這說明引入高斯混合分布及位置掩碼后提高了模型的貝葉斯推理性能??芍疚奶岢龅腎ndex-GMVAE模型比傳統(tǒng)VAE算法在缺失還原平均準確率指標上提升約10%,明顯具有更好的缺失數(shù)據(jù)還原能力。這與在Mnist圖像數(shù)據(jù)集上仿真得出的結論一致。
本文針對數(shù)據(jù)集的部分特征完全隨機缺失問題,提出了一種基于高斯混合后驗分布和缺失數(shù)據(jù)位置掩碼的Index-GMVAE概率網(wǎng)絡模型,用高斯混合分布替代原來的單高斯分布來提高從觀測數(shù)據(jù)中提取分布特征的能力,并將缺失位置掩碼也作為一種變量建立了觀測數(shù)據(jù)、隱變量、缺失掩碼變量及高斯混合類別變量的四元聯(lián)合概率分布,推導出了新的變分推斷證據(jù)下界(ELBO),提高了網(wǎng)絡的收斂速度和概率推理性能。
算法在手寫數(shù)字圖像數(shù)據(jù)集Mnist和異構二分類數(shù)據(jù)集Adult上均取得了比VAE和傳統(tǒng)聚類方法更好的推理還原能力,體現(xiàn)了算法的魯棒性。但是本文方法只涉及了完全隨機缺失情況下的數(shù)據(jù)還原,對于非隨機缺失問題還沒設計更好的應對策略,這將是下一步研究的重點。