国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于三支決策的缺失數(shù)據(jù)處理綜述

2020-11-25 08:49:40竺凡超李紅宇
電子技術(shù)與軟件工程 2020年3期
關(guān)鍵詞:聚類對象決策

竺凡超 李紅宇

(哈爾濱師范大學(xué) 黑龍江省哈爾濱市 150025)

1 引言

在進入大數(shù)據(jù)應(yīng)用時代的背景下,隨著當(dāng)前我國計算科學(xué)與信息技術(shù)的快速發(fā)展,數(shù)據(jù)存儲及獲取能力有了很大的提高,數(shù)據(jù)整體規(guī)模呈現(xiàn)急速增長姿態(tài)。然而由于諸多人為因素,數(shù)據(jù)分析獲取時間限制等諸多技術(shù)方面上的原因,出現(xiàn)了大量具有缺失性的數(shù)據(jù)在企業(yè)數(shù)據(jù)的采集分析和數(shù)據(jù)研究結(jié)果推論上都將會帶來比較大的困難,往往容易直接造成數(shù)據(jù)分析推論結(jié)果出現(xiàn)偏差,影響數(shù)據(jù)決策者的正確性。缺失大量數(shù)據(jù)的采集處理已經(jīng)成為一個非常具有巨大挑戰(zhàn)且?guī)缀醪豢杀苊獾募夹g(shù)難題。目前已經(jīng)提出了很多正確處理缺失數(shù)據(jù)的有效方法,如何更有效的正確處理這些具有缺失性的數(shù)據(jù),隨著三支決策思想的引入后也得到了很大程度的改善。

2 三支決策理論概念

三支決策理論是由著名的加拿大華人中國學(xué)者姚一豫等人于上世紀九十年代研究并提出的,在二支決策基礎(chǔ)上的一種新的決策理論與方法。三支決策與傳統(tǒng)的二支決策相比,大大減少了失敗決策帶來的風(fēng)險。二支決策強制的對數(shù)據(jù)劃分為正域、負域,而三支決策在此基礎(chǔ)上增加了第三種域,即不確定域。它作為當(dāng)信息來源不足以做出接受或者拒絕時的一種過渡的決策行為。其目的是快速、低成本、高收益的決策,并具有一定的容錯能力。這種方法將一個整體分成三個部分,然后對這三個部分中的一部分或全部采取行動。在許多實際情況下,能夠?qū)?fù)雜的問題處理簡單化,是最符合現(xiàn)在人類社會普遍認知的一種決策處理模式。

3 數(shù)據(jù)缺失概念及原因

數(shù)據(jù)缺失是指因為各種原因?qū)е碌臄?shù)據(jù)不完整。在現(xiàn)實情況中,存儲及管理數(shù)據(jù)中經(jīng)常存在這類問題,幾乎在各種領(lǐng)域科學(xué)研究中也是普遍存在,也是各種實用數(shù)據(jù)庫在大多數(shù)情況下存在的不可避免地問題。主要原因如下:

(1)人為原因造成。數(shù)據(jù)的使用和轉(zhuǎn)錄很大程度上受人為因素影響。人為的錯誤的操作、人為的判定數(shù)據(jù)重要性、對數(shù)據(jù)的錯誤理解,往往會導(dǎo)致無法挽回的影響。

(2)存儲設(shè)備的限制導(dǎo)致。數(shù)據(jù)采集到使用,都是依靠設(shè)備轉(zhuǎn)移和存儲??紤]技術(shù)原因和設(shè)備的自有限制,容易導(dǎo)致數(shù)據(jù)丟失。

(3)數(shù)據(jù)屬性導(dǎo)致的必然缺失。數(shù)據(jù)的信息在不同維度不可能做到完全獨立不相關(guān),所以在相關(guān)維度的某些數(shù)據(jù)不存在。例如,在未婚女性的丈夫信息必然是空缺的。

(4)歷史的原因?qū)е?。隨著我國科技的進步,每一個領(lǐng)域都有不停更新的信息維度,導(dǎo)致以往獲取的數(shù)據(jù)無法滿足最新的信息維度。在新的維度下,數(shù)據(jù)就是缺失的。

(5)索取這些信息的代價太大。

(6)系統(tǒng)實時性能要求較高。即在求得到這些信息前迅速做出判斷或決策。

4 數(shù)據(jù)缺失機制

在對缺失數(shù)據(jù)進行處理前,我們先來了解數(shù)據(jù)缺失的機制以及形式。

(1)完全變量—不含缺失值的變量(屬性)的數(shù)據(jù)集。

(2)不完全變量—含有缺失值的變量的數(shù)據(jù)集。

缺失機制描述的是缺失數(shù)據(jù)與未缺失數(shù)據(jù)之間的關(guān)系,有助于幫助完整數(shù)據(jù)來解決缺失數(shù)據(jù)問題。在專家、學(xué)者系統(tǒng)探討和深入研究了目標變量與缺失數(shù)據(jù)的基本相關(guān)性之后,分別重新地定義出了完全隨機數(shù)據(jù)缺失、隨機數(shù)據(jù)缺失和非隨機數(shù)據(jù)缺失(不可忽略缺失)這三種不同的數(shù)據(jù)缺失的情況。

(1)完全隨機缺失—某個變量是否缺失與它自身的值無關(guān),也與其他任何一個變量的值無關(guān)。例如,由于測量設(shè)備故障導(dǎo)致某些值的缺失。

(2)隨機缺失—在控制了其他變量已觀測到的值后,某個變量是否確實與它自身的值無關(guān)。例如,人們是否投入收入可能與性別、教育程度、職業(yè)等有關(guān)系。

(3)非隨機缺失—即使控制了其他變量已觀測到的值,某個變量是否缺失仍然與它自身的值有關(guān)。例如,在控制了性別、教育程度、職業(yè)等已觀測因素之后,如果收入本身的值是否存在缺失還需要依賴于收入本身的值,那么收入就是非隨機缺失的。

5 缺失數(shù)據(jù)的處理

5.1 刪除法

刪除法是最簡單的方法,常用的刪除法有列表刪除、個案刪除和配對刪除。如果數(shù)據(jù)集對象符合以下兩個特征,一是該數(shù)據(jù)集對象出現(xiàn)多個缺失的變量,二是被刪除的該含缺失值的數(shù)據(jù)量對象在整個樣本數(shù)據(jù)集中所占有的數(shù)據(jù)比例很小的情況下,刪除法將會是缺失數(shù)據(jù)處理眾多方法中更加簡單和有效的方法??墒沁@種方法有很大的局限性,它減少了原始數(shù)據(jù)的樣本個數(shù),造成樣本資源的浪費,且被刪除的對象在樣本集中的缺失和隱藏數(shù)據(jù)將沒有再獲取的可能。在面對樣本數(shù)據(jù)集中樣本不多的情況,用刪除法將對數(shù)據(jù)信息的客觀性和結(jié)果的正確性造成嚴重的影響;而且很可能得到錯誤的結(jié)果,尤其當(dāng)每個變量缺失的比例很大的情況下。

5.2 數(shù)據(jù)填補法

5.2.1 平均值填補

平均值填充屬于單一填補法的一種,其主要針對兩種不同屬性類型的樣本缺失數(shù)據(jù),分別是離散型數(shù)據(jù)和連續(xù)型數(shù)據(jù)。把所有不缺失該屬性的樣本的均值對缺失值進行填充的方法常常出現(xiàn)在數(shù)據(jù)屬性連續(xù)的情況下;把所有不缺失該屬性數(shù)據(jù)中取值頻率最多的值進行缺失值填充則常常用來處理屬性離散的數(shù)據(jù)。這種方法的主要思想是根據(jù)數(shù)據(jù)集的完整屬性推測缺失屬性,將出現(xiàn)次數(shù)最多或者所有取值中心點作為填充值,優(yōu)點很明顯就是速度快效率高,但也導(dǎo)致了所有的填充值集中樣本之間的差異減小,樣本缺失數(shù)據(jù)的屬性分布在一定程度上受到了改變。一般情況下對于比較簡單的完全隨機缺失的數(shù)據(jù)集則很適合用平均值填補進行處理,但對于處理復(fù)雜情況,平均值填補效果并不好。

5.2.2 期望最大化法

期望最大化法即所謂的EM算法,是常常用來處理大量的不完整數(shù)據(jù)的一種迭代求精算法。期望步和最大化步是期望最大化法每一次迭代都包含的步驟。期望最大化法有一個基本的思想就是先預(yù)估缺失數(shù)據(jù)初值,然后計算出模型參數(shù)的值,接著再對期望步和最大化步的數(shù)據(jù)進行迭代,不斷更新缺失數(shù)據(jù)的值,直到整個算法完全收斂。這種數(shù)據(jù)填充方法在穩(wěn)定的計算步驟下就已經(jīng)能找到一個全局最優(yōu)的解,不僅簡單快速而且有很高的精度。但這種方法沒有充分考慮數(shù)據(jù)局部的相似性,在數(shù)據(jù)填充上用的是整個的數(shù)據(jù)集樣本,當(dāng)原始樣本數(shù)據(jù)量很大的時候往往直接影響整個算法執(zhí)行的速度,且算法的穩(wěn)定性及收斂速度與初值的選擇有很大的關(guān)系。

5.2.2 聚類填補

聚類指的是通過一系列方法,例如常見的k-means聚類算法,最大最小距離聚類算法等等。把具有類似的元素的樣本分類成一個集合,在數(shù)據(jù)分類中有著多方面的應(yīng)用。另外這些數(shù)據(jù)組本身沒有類別,它作為對象的集合叫做簇。聚類即是對每一個這樣的簇都進行描述的過程

目前主流的聚類填補方法主要是兩種。第一種方法是,只對缺失數(shù)據(jù)中完整的數(shù)據(jù)來進行聚類,然后把缺失的數(shù)據(jù)對象和聚類中心分別進行相似度對比,然后將缺失數(shù)據(jù)對象劃分到這幾個聚類的簇中,再根據(jù)簇中的整體信息進行填補。這種處理方法的最大缺點主要是沒有很好的考慮到缺失數(shù)據(jù)的信息和缺失數(shù)據(jù)的整體分布情況,對聚類的準確性有影響。第二種方法是,對缺失數(shù)據(jù)進行簡單的填補或不處理,直接進行聚類,根據(jù)缺失的數(shù)據(jù)對象所屬的簇進行填補。這種處理方法則沒有很好的考慮到缺失數(shù)據(jù)帶來的信息干擾,影響聚類的準確度,同時增加了聚類的難度。

在大多數(shù)聚類模型中算法沒有充分考慮各屬性在數(shù)據(jù)聚類中可能發(fā)揮作用不同的實際情況。蘇婷等人首先提出了一個針對缺失數(shù)據(jù)的考慮屬性權(quán)重信息的三支決策聚類模型。這個模型根據(jù)當(dāng)前數(shù)據(jù)對象屬性的缺失率和當(dāng)前數(shù)據(jù)對象屬性的重要性不同,并按照信息量下降的順序劃分成了四類:充分數(shù)據(jù)、有價值數(shù)據(jù)、不充分數(shù)據(jù)和無效數(shù)據(jù)。然后引入三支決策思想對這四個分類進行相應(yīng)的處理,模型將當(dāng)前信息不足,不能分類的數(shù)據(jù)對象做不承諾處理,也就相當(dāng)于劃分到類簇的邊界域。接著提出了一個基于鄰域?qū)ο蟮娜笔?shù)據(jù)區(qū)間描述方法,使用領(lǐng)域內(nèi)數(shù)據(jù)對象屬性值的區(qū)間形式,從而來估計缺失的數(shù)據(jù),這種區(qū)間形式表示的缺失數(shù)據(jù)比數(shù)據(jù)近鄰的平均值表示更具有魯棒性。在針對不同的分類進行不完備數(shù)據(jù)的填充,符合三支決策的思想,也帶來了比以往二支決策處理下更理想的結(jié)果。

聚類在缺失數(shù)據(jù)填充中發(fā)揮著不可忽視的作用,類似的將三支決策思想引入聚類,在對缺失數(shù)據(jù)進行填充,對聚類填補的準確性有很大好處,但聚類填補也有在面對缺失的特征不做處理,過分依賴不缺失的數(shù)據(jù)。

5.2.3 多重填補法

多重插補法也是處理缺失數(shù)據(jù)的一種有效的策略。它分為三個步驟:先為每個缺失值產(chǎn)生一個可能的填充值,然后用針對完整數(shù)據(jù)集的統(tǒng)計方法對填補數(shù)據(jù)集合都準確的進行分析,最后綜合所有數(shù)據(jù)集的結(jié)果,分析推斷出最終的值。比較常用的多重填補法有PMM法、趨勢得分法和馬爾科夫鏈蒙特卡羅法等等。

多重填補法的優(yōu)勢體現(xiàn)在以下三個方面:

(1)多重填補法將輔助信息合理的利用起來,提供m個值來代替的方法,保持了原數(shù)據(jù)集的不確定性。

(2)多重填補法可以做到盡可能真實的情況下去模擬缺失數(shù)據(jù)的分布,這樣就能夠盡可能地保持變量之間的原始關(guān)系。

(3)多重填補法能夠相對準確地給出信息,用于衡量實際估計結(jié)果的各種不確定性,彌補了單一插補法估計結(jié)果過于簡單的這個缺陷。

當(dāng)然多重填補法也同樣存在一些不足,多重填補法需要比單一填補法做更多的工作,大量因數(shù)據(jù)填補而產(chǎn)生的數(shù)據(jù)集需要有更大的存儲空間,且需要更多的精力去落實到工作上。

5.3 不處理法

不處理法主要指的是貝葉斯網(wǎng)絡(luò)和人工神經(jīng)網(wǎng)絡(luò)等。貝葉斯網(wǎng)絡(luò)僅在對領(lǐng)域知識具有一定了解且對變量間的依賴關(guān)系較清楚的情況下可以使用。人工神經(jīng)網(wǎng)絡(luò)可以有效的對付缺失值,但人工神經(jīng)網(wǎng)絡(luò)在這方面的具體研究還有待進一步深入展開。

6 總結(jié)

上述簡單介紹了在數(shù)據(jù)缺失時的3大類缺失數(shù)據(jù)處理方式,根據(jù)鮑曉蕾[3]等人對缺失數(shù)據(jù)填補方法的研究,在缺失率分別為10%、20%、30%、40%和50%做出對比。當(dāng)缺失率(10%)時,缺失數(shù)據(jù)所有方法的處理結(jié)果均較好,當(dāng)隨著原始數(shù)據(jù)缺失率增大,只有多重填補法能取得較為理想的效果??紤]到多重填補法的復(fù)雜性等缺點及時間成本,我們可以引入三支決策思想來對缺失的數(shù)據(jù)進行更合理的填補處理。面對實際數(shù)據(jù)的缺失率(10%)時,我們可以采用刪除法達到更加簡單有效的處理。當(dāng)數(shù)據(jù)缺失率(10%)時且(M%)時,采用合適的填充法。當(dāng)數(shù)據(jù)缺失率(M%)時,選用多重填補法來填充數(shù)據(jù),達到更理想的處理。M值的選定根據(jù)對數(shù)據(jù)處理結(jié)果的具體要求和客觀條件來酌情選擇,將大大減少處理復(fù)雜度。最終根據(jù)數(shù)據(jù)缺失的不同類型,選擇不同的方法才是關(guān)鍵,三支決策思想無疑會對未來確屬數(shù)據(jù)處理這一方面提供巨大幫助。

猜你喜歡
聚類對象決策
神秘來電
睿士(2023年2期)2023-03-02 02:01:09
為可持續(xù)決策提供依據(jù)
決策為什么失誤了
攻略對象的心思好難猜
意林(2018年3期)2018-03-02 15:17:24
基于DBSACN聚類算法的XML文檔聚類
電子測試(2017年15期)2017-12-18 07:19:27
基于熵的快速掃描法的FNEA初始對象的生成方法
區(qū)間對象族的可鎮(zhèn)定性分析
基于改進的遺傳算法的模糊聚類算法
一種層次初始的聚類個數(shù)自適應(yīng)的聚類方法研究
自適應(yīng)確定K-means算法的聚類數(shù):以遙感圖像聚類為例
台北县| 克山县| 永登县| 洛浦县| 江口县| 色达县| 土默特左旗| 龙井市| 伊宁市| 寿光市| 阿尔山市| 彭州市| 永清县| 茶陵县| 蓝田县| 鄂温| 林西县| 铜陵市| 星子县| 仙游县| 乌拉特后旗| 青浦区| 张家口市| 新巴尔虎右旗| 湘阴县| 高青县| 右玉县| 保德县| 奇台县| 北流市| 彰武县| 尼玛县| 建昌县| 黑水县| 金山区| 饶平县| 元氏县| 资阳市| 宕昌县| 台北市| 天水市|