国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

MIC與傳統(tǒng)相關(guān)分析方法比較研究*

2019-05-10 11:28
山西青年 2019年9期
關(guān)鍵詞:互信息離群適用范圍

梁 珊

(華南理工大學(xué)廣州學(xué)院,廣東 廣州 510800)

大數(shù)據(jù)時(shí)代,傳統(tǒng)的相關(guān)分析方法已不能滿足對(duì)數(shù)據(jù)的探索以及認(rèn)知需求,隨著計(jì)算機(jī)技術(shù)的提升,大量新的相關(guān)分析方法產(chǎn)生,MIC作為目前為止最具有代表性,發(fā)展最快,認(rèn)同度最高的大數(shù)據(jù)相關(guān)分析方法被廣泛使用。本文總結(jié)相關(guān)分析的發(fā)展史,在此基礎(chǔ)上比較研究MIC的適用范圍、測(cè)度效果、解釋能力及計(jì)算速度,分析其優(yōu)缺點(diǎn),以避免使用過(guò)程中的誤用。

一、MIC概述

Reshef(2011)指出大數(shù)據(jù)中度量相關(guān)性的統(tǒng)計(jì)量應(yīng)該具有“普遍性”和“均等性”。并給出MIC方法。MIC主要思想是:如果兩個(gè)變量之間存在著相關(guān)關(guān)系,那么在變量的散點(diǎn)圖中可以繪制網(wǎng)格線,通過(guò)網(wǎng)格線將隨機(jī)變量數(shù)據(jù)集進(jìn)行劃分,形成網(wǎng)格,計(jì)算變量之間的相關(guān)關(guān)系就是在每種網(wǎng)格劃分方式下,計(jì)算變量數(shù)據(jù)集的互信息,然后歸一化互信息來(lái)確保在不同劃分方式下的互信息值可以做比較。最大相關(guān)系數(shù)就是在各種網(wǎng)格劃分方式下,互信息的最大值。

可以證明MIC具有如下性質(zhì):(1)MIC是互信息歸一化后的最大值,因此MIC取值范圍在[0,1]之間;(2)由于互信息具有對(duì)稱性,因此,MIC(X,Y)=MIC(Y,X);(3)I{x,y}的取值僅依賴于數(shù)據(jù)點(diǎn)的排序分布,對(duì)隨機(jī)變量進(jìn)行單調(diào)變換,其數(shù)據(jù)點(diǎn)的排序分布不會(huì)發(fā)生變化,故MIC在隨機(jī)變量的單調(diào)變換下具有不變性;(4)大數(shù)據(jù)樣本下,對(duì)于無(wú)噪音的相關(guān)關(guān)系,MIC趨近于1;當(dāng)兩個(gè)變量獨(dú)立時(shí),MIC趨近于0。

在大數(shù)據(jù)相關(guān)分析方法中,MIC最具有代表性,發(fā)展最快,認(rèn)同度最高,因此,本文將MIC作為大數(shù)據(jù)相關(guān)分析方法的典型代表與傳統(tǒng)相關(guān)分析方法進(jìn)行比較。

二、適用范圍比較

表1 適用范圍比較

注:*表示該方法對(duì)變量的維度沒(méi)有限制。

比較可知:分布要求方面,Pearson相關(guān)系數(shù)、典型相關(guān)分析要求變量服從正態(tài)分布,其他方法則沒(méi)有此要求;測(cè)度的相關(guān)關(guān)系類型方面,Pearson相關(guān)系數(shù)和經(jīng)典的典型相關(guān)系數(shù)只能度量隨機(jī)向量間的線性相關(guān)關(guān)系;Copula函數(shù)、HHG、MIC可以測(cè)度線性相關(guān),也可以測(cè)度非線性相關(guān);測(cè)度維度方面,典型相關(guān)分析、Copula函數(shù)、HHG可以測(cè)度多維數(shù)據(jù)相關(guān)性。

適用范圍的綜合比較來(lái)看,MIC對(duì)于兩維數(shù)據(jù)之間的相關(guān)關(guān)系顯現(xiàn)出明顯優(yōu)勢(shì),對(duì)隨機(jī)變量的分布沒(méi)有要求,測(cè)度的相關(guān)關(guān)系類型涵蓋了線性相關(guān)和非線性相關(guān),缺點(diǎn)是不能測(cè)度多維數(shù)據(jù)的相關(guān)程度。

三、測(cè)度效果比較

(一)對(duì)非線性相關(guān)關(guān)系的測(cè)度

取X={xi:i=1:500}~U(-1,1),按照表2-4中的各個(gè)相關(guān)關(guān)系類型模擬變量Y,計(jì)算變量X與Y之間的Pearson相關(guān)系數(shù)與MIC得分。

表2 MIC與Pearson相關(guān)系數(shù)對(duì)比表

結(jié)果表明,MIC可以準(zhǔn)確度量變量之間的線性關(guān)系以及非線性關(guān)系,而Pearson相關(guān)系數(shù)則僅能識(shí)別線性相關(guān)關(guān)系。

(二)對(duì)異常值的敏感程度

取X={xi:i=1:30}~U(0,1),ε={εi:i=1:30}~N(0,1),Y=2X+ε。在模擬得到數(shù)據(jù)(X,Y)基礎(chǔ)上增加四個(gè)離群點(diǎn),增加離群點(diǎn)后的數(shù)據(jù)設(shè)為(X′,Y′)。左圖為數(shù)據(jù)(X,Y)的散點(diǎn)圖,增加離群點(diǎn)后,得到右圖,為數(shù)據(jù)(X′,Y′)的散點(diǎn)圖。

圖1 MIC穩(wěn)定性示意圖

分別計(jì)算(X,Y)和(X′,Y′)的Pearson相關(guān)系數(shù)與MIC值,MIC(X,Y)=0.26,ρ(X,Y)=0.33;MIC(X′,Y′)=0.26,ρ(X′,Y′)=0.60。去掉離群點(diǎn)前后數(shù)據(jù)的MIC得分相同,而ρ(X′,Y′)-ρ(X,Y)=0.27,表明MIC具有穩(wěn)定性,而Pearson相關(guān)系數(shù)易受異常值的影響。

四、相關(guān)關(guān)系的解釋能力比較

Copula函數(shù)、HHG、MIC三者均可以度量變量之間的非線性相關(guān)關(guān)系,除HHG方法之外,Copula函數(shù)和MIC都可以對(duì)相關(guān)關(guān)系進(jìn)行進(jìn)一步的描述和解釋。Copula函數(shù)能夠刻畫不同邊緣分布之間的連接結(jié)構(gòu),因此能夠全面地描述相關(guān)關(guān)系結(jié)構(gòu),在金融時(shí)間序列中被廣泛使用。而MIC方法則衍生出諸多統(tǒng)計(jì)量,可以通過(guò)這些統(tǒng)計(jì)量對(duì)變量之間的相關(guān)關(guān)系類型做出逐步推斷。例如:MIC-ρ2可以檢驗(yàn)變量之間的相關(guān)關(guān)系類型是否為非線性相關(guān)關(guān)系,最大非對(duì)稱得分(maximal asymmetry score,MAS)用來(lái)度量?jī)蓚€(gè)變量間的單調(diào)性,最大值(maximum edge value,MEV)可以用來(lái)判斷變量間的關(guān)系是否是函數(shù)關(guān)系,最小網(wǎng)格單元數(shù)(minimum cell number,MCN)可以用來(lái)衡量相關(guān)性的復(fù)雜程度。

五、計(jì)算速度比較

研究對(duì)象從樣本到類總體的轉(zhuǎn)變,對(duì)相關(guān)分析方法的計(jì)算能力與計(jì)算速度提出了較高要求,將MIC與HHG相關(guān)關(guān)系計(jì)算方法相比較,MIC的計(jì)算時(shí)間較短,滿足數(shù)據(jù)流挖掘中算法時(shí)間復(fù)雜度低的原則。

圖2 HHG與MIC計(jì)算時(shí)長(zhǎng)比較

六、結(jié)論

通過(guò)比較研究發(fā)現(xiàn),MIC具有以下優(yōu)點(diǎn):對(duì)于兩維數(shù)據(jù)的復(fù)雜相關(guān)關(guān)系測(cè)度適用范圍廣、結(jié)果測(cè)度準(zhǔn)確,不易受異常值影響、解釋能力強(qiáng)、計(jì)算快,能夠滿足大數(shù)據(jù)挖掘需求;缺點(diǎn)方面:MIC只能測(cè)度兩變量之間的相關(guān)關(guān)系,不能測(cè)度多變量的相關(guān)關(guān)系,因此,對(duì)MIC方法的改進(jìn)可以從測(cè)度變量的個(gè)數(shù)入手。

猜你喜歡
互信息離群適用范圍
一種基于鄰域粒度熵的離群點(diǎn)檢測(cè)算法
一種相似度剪枝的離群點(diǎn)檢測(cè)算法
從數(shù)學(xué)的角度初步看離群點(diǎn)檢測(cè)算法
基于改進(jìn)互信息和鄰接熵的微博新詞發(fā)現(xiàn)方法
企業(yè)價(jià)值評(píng)估方法分析
刑事和解適用范圍探究
候鳥
基于互信息的圖像分割算法研究與設(shè)計(jì)
基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
基于增量式互信息的圖像快速匹配方法
宿州市| 鄯善县| 九江县| 衡南县| 嘉祥县| 丰镇市| 凤翔县| 海盐县| 甘洛县| 铁岭市| 临洮县| 绥化市| 郯城县| 扶绥县| 特克斯县| 库伦旗| 夏津县| 蒙自县| 西盟| 青冈县| 化隆| 施甸县| 金乡县| 松阳县| 黔西| 从化市| 东乡县| 尚志市| 西贡区| 延寿县| 华容县| 房产| 赤壁市| 花莲市| 即墨市| 得荣县| 寿阳县| 怀集县| 东方市| 昌乐县| 山东省|