李 麗(沈陽職業(yè)技術學院,遼寧 沈陽 110015)
?
數(shù)據(jù)缺失及處理方法探析
李 麗
(沈陽職業(yè)技術學院,遼寧 沈陽 110015)
摘 要:發(fā)生數(shù)據(jù)的缺失會使得任務分析難度增加,使得結果產(chǎn)生偏差,會使統(tǒng)計工作效率降低,因此必須找到有效的數(shù)據(jù)填補方法。本文總結了缺失數(shù)據(jù)產(chǎn)生的原因及數(shù)據(jù)缺失的類型,分析討論了針對不同缺失數(shù)據(jù)類型的處理方法、策略及優(yōu)缺點,給出了缺失數(shù)據(jù)填補的使用原則。
關鍵詞:缺失數(shù)據(jù);數(shù)據(jù)填補
隨著科學技術的發(fā)展,軟計算技術的提出;粗糙集、模糊邏輯、神經(jīng)網(wǎng)絡等軟計算的工具迅速發(fā)展,使研究人員發(fā)現(xiàn)過去所積累的大量經(jīng)驗數(shù)據(jù)的重要性。而最常見的問題就是數(shù)據(jù)缺失,發(fā)生缺失數(shù)據(jù)之后需要進行及時的數(shù)據(jù)填補,然后進行深入分析。在國際上很多專家都對缺失數(shù)據(jù)的填補方法進行了研究,為存在缺失的數(shù)據(jù)問題進行了解決,以此保證了相關工作的正常開展。
在不同領域的研究中,一般會因為一些已知或未知的原因影響造成數(shù)據(jù)的缺失,從而增加了數(shù)據(jù)分析工作的困難,對于最終的分析結果也會存在不準確。數(shù)據(jù)缺失的原因主要有以下幾種:暫時不能獲取信息,信息是被遺漏的,某個或某些屬性是不可用的,有意隱瞞或歷史局限,注定放棄獲取信息,系統(tǒng)實時性較強數(shù)據(jù)缺失等方面。
要解決數(shù)據(jù)缺失的問題,就需對其形成的具體程序與特性開展研究,Little與Rubin對缺失數(shù)據(jù)的隨機性開展了不同數(shù)據(jù)缺失機制的定義[1]。
第一種是完全隨機缺失,在數(shù)據(jù)缺失的發(fā)生幾率與其他數(shù)據(jù)不存在關聯(lián)的情況下,也就是說數(shù)據(jù)缺失的發(fā)生是獨立完成的,這種數(shù)據(jù)的類型就可以稱為“MCAR”,數(shù)據(jù)缺失的發(fā)生與其他存在的不完全變量或完全變量都沒有直接的關系。第二種數(shù)據(jù)缺失機制叫做隨機缺失,其概念與第一種缺失形式是相對存在的,數(shù)據(jù)缺失存在不完全隨機性,其缺失條件得到了放寬,這種類型數(shù)據(jù)缺失情況的發(fā)生需依賴其他的完全變量。第三種數(shù)據(jù)缺失機制叫做非隨機、不可忽略缺失,這一概念之下上面兩種缺失機制可以被叫做可忽略缺失,它屬于非隨機的一種數(shù)據(jù)缺失狀態(tài),其不完全變量中數(shù)據(jù)的缺失是需要依賴上述兩種變量本身的,具有不可忽略性。
3.1按照完整觀測單位形式的處理方法
完整的觀測單位是涵蓋任何調查項目均有觀測的總的稱謂,也可以成為在分析目的相似的調查項目上有著“無回答”情況的單位,在對數(shù)據(jù)有缺失的單位進行處理之后,進行的相關常規(guī)統(tǒng)計分析[2]。
(1)直接刪除法。這種對數(shù)據(jù)缺失的個案進行直接刪除的方法屬于較為原始的一種方式,在一些數(shù)據(jù)中的變量在一些單元中未被記錄時,而且單元數(shù)目所占比例較大,就可以對不完整的單元進行直接的丟棄。然后對其中具備完整記錄的單元進行分析,直接進行數(shù)據(jù)缺失的刪除實施起來比較方便,并且這一手段對于有小部分數(shù)據(jù)缺失的情況時能夠比較有效的解決。但同時這種方法也屬于一種較為極端的解決策略,使用后的風險很大,對于數(shù)據(jù)缺失相對來說比較嚴重的情況,使用刪除的方式就容易造成數(shù)據(jù)估算方面的偏差,進而得出一個錯誤的結果。所以,一般在數(shù)據(jù)缺失很多時,不建議使用這種方法進行處理。
(2)數(shù)據(jù)缺失處理中的加權法。在數(shù)據(jù)缺失的處理過程中,加權法也屬于其中比較常見的方式之一,當數(shù)據(jù)缺失屬于非完全隨機缺失這一類型時,能夠利用完整的數(shù)據(jù)加權來使其中的偏差一定程度的減小。對數(shù)據(jù)不完整的個案實行標記處理,將其中完整的個案進行不同權重的設置。在變量解釋中能出現(xiàn)對權重估計產(chǎn)生直接影響的因素變量,則在這一方法的使用中就能夠顯著的減小估算的偏差。但解釋變量與權重如果沒有關系,則這一偏差不會減小。對于其中多個屬性都有缺失的現(xiàn)象,應對不同屬性的缺失組織賦不同的權重,相應計算的也會增加一些難度,預測的正確率也會降低,獲得的權重法會不符合條件。
3.2可能值的填補方法
這一方法的使用是以最可能的值或經(jīng)驗值對缺失數(shù)據(jù)進行填補,這種類型的填補方法比樣本的刪除所產(chǎn)生的信息丟失情況要少,按照所組成的替代值的數(shù)量可分為單一填補及多重填補。
(1)數(shù)據(jù)缺失的單一填補法。單一填補在數(shù)據(jù)缺失處理中是以估算為基礎的一種方法,主要是將缺失數(shù)據(jù)進行替代之后,對新合成的數(shù)據(jù)開展的統(tǒng)計研究,形成數(shù)據(jù)信息的充分利用。主要有:均值填補法、非數(shù)值型、隨機填補法、隨機回歸插補幾種方法。這種單一填補的方法對原有的方法是一種革新,重新開始重視了缺失值這一項目,這也使不同的統(tǒng)計分析都能在插補之后,通過完整數(shù)據(jù)集進行呈現(xiàn)。但這其中的每種手段都具有扭曲樣本分布這一問題,雖然隨機誤差項已經(jīng)被引入,可以對這種問題進行緩解,但確定隨機誤差項較為困難,真正實現(xiàn)難度大。
(2)多重填補法。多重填補的方法主要利用兩個以上的侯選集來進行填補,其應用彌補了單一填補法存在的一些問題。首先這一方法實施過程會產(chǎn)生多個中間填補值,其次,多重填補可以對缺失數(shù)據(jù)的分布進行模擬,維持關系變量穩(wěn)定。
數(shù)據(jù)缺失使用多重填補方法進行處理主要有三個程序:①對數(shù)據(jù)中的空值提供一套符合要求的填補數(shù)值,使其可以反映無響應模型的不確定特點;相關值都可以來對數(shù)據(jù)集的缺失進行填補,使其可以達到完整的目的。②填補數(shù)據(jù)集合最后用完整數(shù)據(jù)集的統(tǒng)計手段來分析。③填補數(shù)據(jù)集中的各種結果,按照評分函數(shù)選擇,獲得最后的填補值。
一組數(shù)據(jù)有三個變量Y1、Y2、Y3,其聯(lián)合分布屬于正態(tài),將數(shù)據(jù)分為3組,A組維持原始數(shù)據(jù),B組缺失Y3,C組缺失Y1和Y2。在多值填補方法中,不對A組處理,B組會產(chǎn)生Y3的估計值,C組則會產(chǎn)生Y1與Y2的一組估計值。
如果使用多值填補,對A組將不做處理,對B、C組讓完整的樣本進行隨機抽取作為m組使用。在m組觀測值的基礎上,對產(chǎn)生關于參數(shù)的m組估計值進行預測。B組要估計出Y3的值,C組要通過Y1、Y2、Y3聯(lián)合分布為正態(tài)分布的前提,估計出一組(Y1、Y2)。
多重填補后的綜合推斷哪種填補方法都要讓數(shù)據(jù)集填補m次(m 〉 1) , 使數(shù)據(jù)集完整, 再用完整數(shù)據(jù)集的處理方法分析綜合結果。目前研究出了針對線性以及 logistic回歸模型的綜合統(tǒng)計模式,因子分析、結構方程模型等還處于研究之中。
總之,在插補中,由于使用的人為方法干涉,這使得每一種填補方法對變量間的相互作用都會產(chǎn)生不同的影響,既要對其中不完整的信息進行補齊,而且還要一定程度上對原始的數(shù)據(jù)的信息體系進行改良。
參考文獻:
[1]王國胤.Rough 集理論與知識獲取[M].西安: 西安交通大學出版社,2003.
[2]張星,郝偉.不完備或缺失數(shù)據(jù)及其填補方法研究[J].福建電腦,2007(14):125-126.
(責任編輯:吳湘銀)
中圖分類號:N37
文獻標識碼:A
doi:10.3969/j.issn.1672-7304.2016.01.056
文章編號:1672–7304(2016)01–0118–02
作者簡介:李麗(1981-),女,遼寧營口人,講師,研究方向:計算機信息安全理論與技術。
Data is missing and fill method in this paper
LI Li
(Shenyang Polytechnic College, Shenyang Liaoning 110015)
Abstract:The lack of data will make more task analysis, makes the result deviation, will lower the efficiency of statistical work, therefore must find effective data packing method. This paper summarizes the causes of missing data and the type of data missing, missing for different types of data processing were discussed by the method, strategies, and the advantages and disadvantages, missing data fill the use of the principle is presented.
Keywords:Missing data; Data fill