国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

對有關(guān)聯(lián)數(shù)據(jù)缺失填補(bǔ)方法的改進(jìn)

2017-11-08 22:36:11程理張楠
科技創(chuàng)新導(dǎo)報(bào) 2017年26期
關(guān)鍵詞:聚類分析

程理++張楠

摘 要:本文根據(jù)生物樣本數(shù)據(jù)之間有關(guān)聯(lián)性的特點(diǎn),對一種最基本的缺失數(shù)據(jù)填補(bǔ)辦法進(jìn)行逐步優(yōu)化。首先對數(shù)據(jù)進(jìn)行預(yù)處理,摘取部分R統(tǒng)計(jì)軟件中自帶的iris鳶尾花數(shù)據(jù),每一行代表一株花的記錄,并人為隨機(jī)挖空。其次,使用最基本的均值填補(bǔ)對缺失數(shù)據(jù)進(jìn)行填補(bǔ)。然后,針對均值填補(bǔ)法的主要缺點(diǎn),提出改進(jìn)方法:對樣本數(shù)據(jù)進(jìn)行系統(tǒng)聚類,再對分類后的各組數(shù)據(jù)分別進(jìn)行均值填補(bǔ)??紤]樣本數(shù)據(jù)之間的關(guān)聯(lián)性,對分類之后的填補(bǔ)方法再一次進(jìn)行優(yōu)化,采用回歸填補(bǔ)法填補(bǔ)缺失數(shù)據(jù)。比較基本的均值填補(bǔ)、分類后的均值填補(bǔ)、分類后的回歸填補(bǔ),發(fā)現(xiàn)三者的誤差率逐步遞減,證明本文提出的優(yōu)化方法是可行的。最后,由于仍然存在相當(dāng)大的誤差,考慮到分類方法是基于歐氏距離,沒有考慮指標(biāo)間的相關(guān)性,本文提出馬氏距離作為改進(jìn)。

關(guān)鍵詞:填補(bǔ)缺失數(shù)據(jù) 聚類分析 回歸填補(bǔ) 馬氏距離

中圖分類號(hào):TP31 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-098X(2017)09(b)-0138-03

基因芯片是分子生物學(xué)、微電子學(xué)和信息學(xué)等學(xué)科交叉形成的一種新型生物技術(shù),目前已經(jīng)廣泛應(yīng)用于分子生物學(xué)、生物醫(yī)學(xué)等研究領(lǐng)域,如DNA測序、基因調(diào)控網(wǎng)絡(luò)和癌癥檢測等[1]。由于實(shí)驗(yàn)中存在很多變異來源,基因表達(dá)數(shù)據(jù)矩陣通常含有缺失,比普通缺失數(shù)據(jù)更為復(fù)雜的是,涉及到基因表達(dá)譜的相似性度量。對于缺失數(shù)據(jù),先將缺失值填充,然后對產(chǎn)生的完全數(shù)據(jù)用標(biāo)準(zhǔn)方法進(jìn)行分析。對于完全數(shù)據(jù)處理,有很多經(jīng)典的統(tǒng)計(jì)方法,所以重難點(diǎn)在于如何填補(bǔ)數(shù)據(jù)。

本文首先對數(shù)據(jù)進(jìn)行預(yù)處理,摘取部分R統(tǒng)計(jì)軟件中自帶的iris鳶尾花數(shù)據(jù),每一行代表一株花的記錄,并人為隨機(jī)挖空。其次,使用最基本的均值填補(bǔ)對缺失數(shù)據(jù)進(jìn)行填補(bǔ)。然后,針對均值填補(bǔ)法的主要缺點(diǎn),提出改進(jìn)方法:對樣本數(shù)據(jù)進(jìn)行系統(tǒng)聚類,再對分類后的各組數(shù)據(jù)分別進(jìn)行均值填補(bǔ)??紤]樣本數(shù)據(jù)之間的關(guān)聯(lián)性,對分類之后的填補(bǔ)方法再一次進(jìn)行優(yōu)化,采用回歸填補(bǔ)法填補(bǔ)缺失數(shù)據(jù)。比較基本的均值填補(bǔ)、分類后的均值填補(bǔ)、分類后的回歸填補(bǔ),發(fā)現(xiàn)三者的誤差率逐步遞減,證明優(yōu)化方法是可行的。最后,由于仍然存在相當(dāng)大的誤差,分析其原因,是因?yàn)榍懊娴母倪M(jìn)都是基于最基本的統(tǒng)計(jì)方法結(jié)合其他交叉學(xué)科,例如張磊等人關(guān)于的KNN-RVM分類器的研究[2]中采用的KNN法是將統(tǒng)計(jì)方法與模式識(shí)別相結(jié)合,卻沒有考慮到這些分類方法都是基于歐氏距離,沒有考慮指標(biāo)間的相關(guān)性,可能不太適用于有關(guān)聯(lián)的生物樣本數(shù)據(jù)研究,因此本文提出馬氏距離作為改進(jìn)。

1 數(shù)據(jù)預(yù)處理

為了證明方法的優(yōu)劣,直接用缺失數(shù)據(jù)是不妥的,因?yàn)闊o法進(jìn)行驗(yàn)證。所以先找一些有相關(guān)性的完整數(shù)據(jù)進(jìn)行隨機(jī)挖空,然后用不同的方法模型對得到的缺失數(shù)據(jù)進(jìn)行填補(bǔ),最后和原始數(shù)據(jù)進(jìn)行比較,衡量填補(bǔ)的精確度。筆者摘取了部分R統(tǒng)計(jì)軟件中自帶的iris鳶尾花數(shù)據(jù),每一行代表一株花的記錄,并人為隨機(jī)挖空,從上往下空缺部分的原數(shù)據(jù)分別為1.4,1.7,2.5。

2 原始模型

均值填補(bǔ)是一種簡單有效的處理指標(biāo)值缺失的方法[3],可以將它看作最基本的缺失值填補(bǔ)方法,即在數(shù)據(jù)中每一行為一個(gè)紀(jì)錄單元,設(shè)Yij是單元i的Yj值,則用有記錄的Yj取平均值來替代缺失值,從上往下得到的NA值分別為3.9,1.2,3.1。

但是這種方法并沒有考慮數(shù)據(jù)間的關(guān)聯(lián)性,估計(jì)的準(zhǔn)確度大受影響。尤其在基因數(shù)據(jù)中,需要消除不相似基因?qū)虮磉_(dá)譜中缺失值估計(jì)的影響,直接均值填補(bǔ)得到的偏差是很大的,我們可以對該方法進(jìn)行適當(dāng)改進(jìn),例如先對數(shù)據(jù)進(jìn)行分類再填補(bǔ),考慮數(shù)據(jù)間的相關(guān)性的缺失填補(bǔ)方法,將會(huì)更適用于生物統(tǒng)計(jì)中。

3 模型改進(jìn)

3.1 分類填補(bǔ)

關(guān)于分類,可用聚類分析[4],聚類分析又稱群分析,它是研究對樣品或指標(biāo)進(jìn)行分類的一種多元統(tǒng)計(jì)方法。但這些統(tǒng)計(jì)方法都是基于完全數(shù)據(jù),對于本身具有缺失值的數(shù)據(jù),不能直接分類,而應(yīng)先刪去不完全記錄,然后對完全記錄的數(shù)據(jù)聚類分析。

系統(tǒng)聚類法,即一開始每個(gè)對象自成一類,然后每次將最相似的兩類合并,合并后重新計(jì)算新類與其他類的距離或相近性測度,一直繼續(xù)直到所有對象歸為一類為止,并類的過程可用一張譜系聚類圖描述[5]。

3.1.1 系統(tǒng)聚類

先將含NA的行刪去,因?yàn)槊恳粋€(gè)指標(biāo)的單位不盡相同,所以需要對數(shù)據(jù)進(jìn)行變換,變換方法有中心化變換、標(biāo)準(zhǔn)化變換、極差標(biāo)準(zhǔn)化變換、對數(shù)變換等,此處我們采用標(biāo)準(zhǔn)化變換,使得變換后每個(gè)變量的樣本均值為0,標(biāo)準(zhǔn)差為1,且標(biāo)準(zhǔn)化后的數(shù)據(jù)與變量的量綱無關(guān)。

然后用系統(tǒng)聚類法進(jìn)行聚類分析,在聚類過程中采用Ward法[6],也稱為離差平方和法。它基于方差分析思想,如果類分得正確,則同類樣品之間的離差平方和應(yīng)當(dāng)較小,不同類樣品之間的離差平方和應(yīng)當(dāng)較大,得到譜系聚類圖(見圖1)。

記上圖中框線標(biāo)出的3類從左往右依次為第1、2、3類。

3.1.2 分類后的均值填補(bǔ)

第一個(gè)NA值所在記錄為7號(hào),對應(yīng)數(shù)據(jù)為4.6,3.4,NA,0.3,將此行加入到第一步處理的完全數(shù)據(jù)中,運(yùn)用類似思想,將NA值所在的列刪去,僅考慮另外3個(gè)指標(biāo)對這28條記錄進(jìn)行聚類分析。得到7號(hào)記錄歸為第1類,則取第一類中9條完全記錄的第三個(gè)指標(biāo)的平均值作為7號(hào)記錄所缺失的值,計(jì)算得到1.4。

同理,第二個(gè)NA值所在的78號(hào)記錄數(shù)據(jù)分別為6.7,3,5,NA,將此行加入第一步的完整數(shù)據(jù)中并將第四個(gè)指標(biāo)值都去掉后聚類分析,得到78號(hào)記錄歸為第3類,求得缺失值為1.9;第三個(gè)NA值所在的114號(hào)記錄數(shù)據(jù)分別為5.7,NA,5,2,得到114號(hào)記錄歸為第3類,缺失值為3。

3.1.3 分類后的回歸填補(bǔ)

回歸填補(bǔ)即考慮單個(gè)變量的不響應(yīng)[7],變量Y1,…,YK-1全都有觀測,Yk對前r個(gè)有觀測而丟失了后n-r個(gè)觀測。回歸借補(bǔ)基于r個(gè)完全個(gè)體計(jì)算Yk關(guān)于Y1,…,YK-1的回歸,然后用回歸的預(yù)測值填充缺失值。即與分類填補(bǔ)中思想類似,逐個(gè)對每個(gè)NA值進(jìn)行填補(bǔ),則K值為3,n為28,n-r為1。endprint

記iris數(shù)據(jù)集的4個(gè)指標(biāo)Sepal.Length,Sepal Width,Petal.Length,Petal.Width分別為X1,X2,X3,X4,例如填補(bǔ)7號(hào)記錄中的NA,刪去78、114號(hào)兩行記錄,則剩下的28行數(shù)據(jù)中,指標(biāo)量X1,X2,X4全都有觀測,X3指標(biāo)量缺失7號(hào)記錄的數(shù)據(jù)。用27條完全數(shù)據(jù),計(jì)算X3關(guān)于X1,X2,X4的回歸,得到方程為:X3=-0.2763+0.7391X1-0.6483X2+1.4184X3,回歸系數(shù)與回歸方程都是顯著的,所以可以預(yù)測,當(dāng)X1=4.6,X2=3.4,X4=0.3時(shí),X3=1.3;同理對78號(hào)的NA值處理,計(jì)算X4關(guān)于X1,X2,X3的回歸,得到方程:X4=-0.23557-0.27041X1+0.28417X2+0.57135X3,回歸系數(shù)與回歸方程顯著,預(yù)測NA值為1.7;對于114號(hào)NA值,計(jì)算X2關(guān)于X1,X3,X4的回歸,得到方程:X2=0.6256+0.7141X1-0.7030X3+0.7650X4,回歸系數(shù)與回歸方程顯著,預(yù)測NA值為2.7。

與分類后均值填補(bǔ)比較,回歸填補(bǔ)準(zhǔn)確度更高。

3.2 分類方法的距離改進(jìn)

對偏差產(chǎn)生原因進(jìn)行分析,在聚類分析中默認(rèn)計(jì)算距離的方法都是用歐氏距離[8],但歐式距離與各變量的量綱有關(guān),且沒有考慮指標(biāo)間的相關(guān)性,也沒有考慮各變量方差的不同,即變差大的變量在距離中的貢獻(xiàn)就會(huì)大。所以很有可能會(huì)造成填補(bǔ)結(jié)果出現(xiàn)較大偏差[9]。

馬氏距離是歐幾里德空間中非均勻分布的歸一化距離[10],不用考慮各個(gè)變量的量綱,它引入?yún)f(xié)方差來描述變量之間的相關(guān)性。例如樣品Xi和樣品Xj的馬氏距離為:

其中S-1為樣本協(xié)差陣的逆矩陣。馬氏距離既排除了變量間相關(guān)性的干擾,而且還不受各項(xiàng)指標(biāo)量綱的影響,還對線性變換具有不變性[11]。

dij(M)=(Xi-Xj)S-1(Xi-Xj)

但在運(yùn)算過程中,同一類樣品間的馬氏距離要用這一類的協(xié)差陣來計(jì)算。但類的形成卻要依賴樣品間的距離,而樣品間合理的馬氏距離又依賴于類,這就形成了一個(gè)循環(huán)。且馬氏距離會(huì)夸大變化微小的變量的作用,而且受到方差矩陣不穩(wěn)定的影響[12],我們不一定能順利計(jì)算出馬氏距離。

4 方法評(píng)價(jià)與推廣

均值法沒有考慮數(shù)據(jù)間的關(guān)聯(lián)性,準(zhǔn)確性會(huì)大大降低,分類后再使用均值法,效果優(yōu)于分類前。分類后的回歸填補(bǔ)考慮到各指標(biāo)間的相關(guān)性,其效果有比分類后的均值填補(bǔ)更優(yōu)。但是這些經(jīng)典統(tǒng)計(jì)方法都是基于歐氏距離計(jì)算和分類,沒有考慮指標(biāo)間的相關(guān)性,可能會(huì)造成填補(bǔ)結(jié)果出現(xiàn)較大偏差,使用馬氏距離進(jìn)行改進(jìn),可能會(huì)得到更精確的結(jié)果。

本文所使用的生物樣本數(shù)據(jù)指標(biāo)數(shù)較少,如果遇到指標(biāo)數(shù)過多的情況,就要先使用主成分分析法或因子分析法對數(shù)據(jù)進(jìn)行降維,再進(jìn)行缺失數(shù)據(jù)的填補(bǔ)。

參考文獻(xiàn)

[1] 胡昇.基于生物信息學(xué)技術(shù)篩選慢性乙型肝炎血液相關(guān)基因的研究[D].南方醫(yī)科大學(xué),2013.

[2] 張磊,劉建偉,羅雄麟.基于KNN和RVM的分類方法——KNN-RVM分類器[J].模式識(shí)別與人工智能,2010(3):376-384.

[3] 李偉棟,劉慧燕,肖晚晴,等.衛(wèi)生項(xiàng)目評(píng)價(jià)指標(biāo)缺失值均值填補(bǔ)的效果評(píng)價(jià)[J].中國婦幼保健,2014(24):3871-3874.

[4] 張麟,潘紅巖.聚類分析算法應(yīng)用研究[J].數(shù)字技術(shù)與應(yīng)用,2016(10):143,145.

[5] 高惠璇.應(yīng)用多元統(tǒng)計(jì)分析[M].北京大學(xué)出版社,2005.

[6] 李瓊.系統(tǒng)聚類分析中的遺傳算法[J].武漢交通科技大學(xué)學(xué)報(bào),2000(3):301-304.

[7] Little R J A,Rubin D B.Statistical Analysis with Missing Data, Second Edition[M]// Statistical Analysis with Missing Data, 2002:200-220.

[8] 張大克,王玉杰.隨機(jī)平均歐氏距離的統(tǒng)計(jì)性質(zhì)與分類閾值[J].天津科技大學(xué)學(xué)報(bào),2008(4):85-88.

[9] 鄒凌君.流數(shù)據(jù)的聚類分類算法研究[D].揚(yáng)州大學(xué),2008.

[10] 陳加順.海洋環(huán)境下聚類算法的研究[D].南京航空航天大學(xué),2014.

[11] 王振麗.基于加權(quán)馬氏距離的方法研究[D].南京理工大學(xué),2016.

[12] 陶建波.基于嶺估計(jì)的馬田系統(tǒng)分類方法研究及其應(yīng)用[D].南京理工大學(xué),2016.endprint

猜你喜歡
聚類分析
基于譜聚類算法的音頻聚類研究
基于Weka的江蘇13個(gè)地級(jí)市溫度聚類分析
我國中部地區(qū)農(nóng)村居民消費(fèi)行為階段特征分析
基于多元統(tǒng)計(jì)方法的高校科研狀況評(píng)價(jià)分析
基于聚類分析的無須人工干預(yù)的中文碎紙片自動(dòng)拼接
淺析聚類分析在郫縣煙草卷煙營銷方面的應(yīng)用
基于聚類分析研究貴州省各地區(qū)經(jīng)濟(jì)發(fā)展綜合評(píng)價(jià)
商情(2016年39期)2016-11-21 08:45:54
新媒體用戶行為模式分析
農(nóng)村居民家庭人均生活消費(fèi)支出分析
基于省會(huì)城市經(jīng)濟(jì)發(fā)展程度的實(shí)證分析
中國市場(2016年33期)2016-10-18 12:16:58
崇州市| 抚顺县| 林芝县| 巴青县| 西昌市| 宿州市| 石家庄市| 班玛县| 开阳县| 商都县| 临澧县| 格尔木市| 赣州市| 济宁市| 夹江县| 社会| 平潭县| 辉县市| 奉新县| 澄迈县| 聂荣县| 聂拉木县| 襄垣县| 阿克陶县| 石家庄市| 宽甸| 苗栗县| 西充县| 伊金霍洛旗| 辰溪县| 大安市| 中西区| 昌乐县| 怀来县| 舞阳县| 建平县| 罗田县| 墨竹工卡县| 泰来县| 乌兰察布市| 海宁市|