典型相關(guān)分析綜述

2017-04-21 05:25:46李有梅

中國(guó)計(jì)量大學(xué)學(xué)報(bào) 2017年1期

關(guān)鍵詞：典型變量樣本

李有梅,梁珣

(中國(guó)計(jì)量大學(xué) 理學(xué)院,浙江杭州 310018)

典型相關(guān)分析綜述

李有梅,梁珣

(中國(guó)計(jì)量大學(xué) 理學(xué)院,浙江杭州 310018)

數(shù)據(jù)之間的相關(guān)性分析是大數(shù)據(jù)處理的重要組成部分,典型相關(guān)分析及其擴(kuò)展方法在多個(gè)領(lǐng)域得到了廣泛應(yīng)用.主要有用于解決多數(shù)據(jù)集特征融合的多集合典型相關(guān)分析,用于處理特征之間非線性關(guān)系的核典型相關(guān)分析,用于處理有類別特征數(shù)據(jù)時(shí)的判別典型相關(guān)分析,用于處理有噪聲數(shù)據(jù)時(shí)的稀疏典型相關(guān)分析等擴(kuò)展方法.本文全面綜述了典型相關(guān)分析原理及其各種擴(kuò)展方法,最后對(duì)這一方法的研究前景給出討論和展望.

典型相關(guān)分析;多變量特征融合;廣義特征值問題

1 簡(jiǎn) 介

當(dāng)前的科學(xué)技術(shù)使得研究人員能夠比較容易獲得所關(guān)注對(duì)象的大量數(shù)據(jù).如何從海量的數(shù)據(jù)中挖掘出具有可解釋性的結(jié)論信息是當(dāng)前研究熱點(diǎn),特征融合和數(shù)據(jù)降維是其中一個(gè)重要環(huán)節(jié).典型相關(guān)分析(CCA,Canonical Correlation Analysis)就是這樣一種被廣泛研究和應(yīng)用的數(shù)學(xué)方法.其最早由Hotelling[1]在1936年提出,是研究?jī)山M變量之間相關(guān)關(guān)系的一種多元統(tǒng)計(jì)方法.

求解第一對(duì)典型變量的問題轉(zhuǎn)化為在典型變量方差為1條件下的下列優(yōu)化問題[2]:

(1)

對(duì)應(yīng)的特征向量,且corr(U(1),U(2))=λ.

可以看到,傳統(tǒng)的CCA只能用于發(fā)現(xiàn)兩組變量間的線性相關(guān)關(guān)系.在不同的應(yīng)用領(lǐng)域,我們往往需要面對(duì)更加復(fù)雜多樣的數(shù)據(jù),且變量間的關(guān)系也可能是非線性關(guān)系.

解決實(shí)際問題的需求刺激了CCA方法的蓬勃發(fā)展.例如,為了分析變量之間的非線性相關(guān)關(guān)系,AKAHO[3]首先將核方法與傳統(tǒng)CCA結(jié)合,提出了核典型相關(guān)分析(KCCA);Y.Yamanishi[4]等人在生物醫(yī)學(xué)研究中,面對(duì)多數(shù)據(jù)特征集情形,將KCCA推廣到multiple KCCA;在基因組數(shù)據(jù)分析中,由于基因數(shù)據(jù)的特征數(shù)目一般都遠(yuǎn)遠(yuǎn)超過可觀測(cè)的數(shù)目,PARHJOMENKO等[5]提出了稀疏典型相關(guān)分析(SCCA),并用于討論基因的位點(diǎn)與該基因表達(dá)類型之間的相關(guān)關(guān)系;在人臉識(shí)別和手寫數(shù)據(jù)識(shí)別研究中,SUN[6]等人提出了判別典型相關(guān)分析(DCCA),利用離散類別特征數(shù)據(jù),實(shí)現(xiàn)更有效的特征抽取;當(dāng)數(shù)據(jù)存在噪音時(shí),傳統(tǒng)CCA便不能很好的對(duì)數(shù)據(jù)進(jìn)行分析,對(duì)此,WANG[7]在FRANCIS[8]基礎(chǔ)上提出了貝葉斯典型相關(guān)分析(BCCA),隨后SEPPO[9]對(duì)其進(jìn)一步改進(jìn),并將方法應(yīng)用于神經(jīng)數(shù)據(jù),分析了大腦激素的變化和自然音樂刺激之間的關(guān)系.

許多的應(yīng)用研究表明,典型相關(guān)分析的思想方法是一種靈活有效的、可擴(kuò)展能力強(qiáng)的數(shù)據(jù)分析方法.下文將對(duì)主要的幾種擴(kuò)展方法給出描述總結(jié).

2 CCA的幾種主要推廣

2.1 多集合典型相關(guān)分析(MCCA)

MCCA(Multiset Canonical Correlation Analysis)有兩種形式,第一種是直接應(yīng)用CCA的思想,將問題表述為在典型變量方差為1條件下的任意兩組典型變量之間的相關(guān)關(guān)系之和達(dá)到最大的優(yōu)化問題,即:

利用Lagrange乘數(shù)法,可知此優(yōu)化問題等同于下面方程組:

顯然,當(dāng)m=2時(shí),上式即為傳統(tǒng)CCA.然而上式中因?yàn)棣薸的不同取值,并非一廣義特征值問題,求解時(shí)需要進(jìn)行數(shù)據(jù)變換.

MCCA的第二種擴(kuò)展方式,是只附加一個(gè)總約束條件下的優(yōu)化問題:

該問題等價(jià)于求解下面實(shí)對(duì)稱的廣義特征值問題:

這一問題可利用Horst-Jacobi算法[10],迭代求解a(i).求解的簡(jiǎn)便性使得第二種方法得到更多的應(yīng)用.Kettenring[11]系統(tǒng)地總結(jié)介紹了幾種不同約束下的MCCA的模型.

2.2 核典型相關(guān)分析(KCCA)

當(dāng)變量間呈現(xiàn)非線性關(guān)系時(shí),傳統(tǒng)CCA對(duì)數(shù)據(jù)融合效果不好.解決問題的思路是將原空間的非線性問題轉(zhuǎn)換為高維空間中的線性問題,同時(shí)保持所有計(jì)算在原問題空間實(shí)現(xiàn).實(shí)現(xiàn)這一目的的途徑就是核方法.S.Akaho[12]首先將核方法與CCA相結(jié)合得到了KCCA(Kernel Canonical Correlation Analysis),KCCA也成為目前常用的分析變量間非線性相關(guān)關(guān)系的一種方法.首先我們給出核函數(shù)的定義:

設(shè)Z是Rs中的一個(gè)子集,稱定義在Z×Z上的函數(shù)k(z1,z2)是核函數(shù),如果存在一個(gè)從Z到Hilbert空間H的映射φ,使得對(duì)任意的z1,z2∈Z,都有

k(z1,z2)=<φ(z1),φ(z2)>成立.其中<,>表示Hilbert空間H的內(nèi)積運(yùn)算.

那么典型變量U(1)、U(2)就表示為X(1)、X(2)的如下非線性組合:

則優(yōu)化問題可寫為如下形式:

s.t.β(1)′K1′K1β(1)=β(2)′K2′K2β(2)=1.

或等價(jià)表示為下列廣義特征值問題:

核矩陣的維數(shù)與樣本個(gè)數(shù)相同.在實(shí)際應(yīng)用中,若維數(shù)太高或者數(shù)據(jù)是非獨(dú)立樣本,將導(dǎo)致不能計(jì)算出合適的結(jié)果.如何選擇樣本，使KCCA可行，也是需要研究的一個(gè)問題.

類似的,KCCA可被推廣到多集合KCCA. Yamanishi[4]等人首先將多集合核典型相關(guān)分析應(yīng)用于分析大腸桿菌控制分子結(jié)構(gòu)和異構(gòu)基因組數(shù)據(jù)之間的相互關(guān)系分析,Nicholas[13]等人應(yīng)用KCCA得到了卵巢癌風(fēng)險(xiǎn)和控制基因之間的關(guān)系,因而確定了對(duì)卵巢癌有風(fēng)險(xiǎn)的重要基因?qū)?該方法已被廣泛應(yīng)用于生物醫(yī)學(xué)領(lǐng)域.同KCCA,典型變量U(i)被表示為X(i)如下非線性組合:

則優(yōu)化問題轉(zhuǎn)化為尋找系數(shù)β(i),使得兩兩相關(guān)系數(shù)之和達(dá)到最大.利用核矩陣,多集合KCCA表示為下面優(yōu)化問題:

或等價(jià)的廣義特征值求解問題:

2.3 判別典型相關(guān)分析(DCCA)

傳統(tǒng)典型相關(guān)分析不考慮樣本數(shù)據(jù)類別.當(dāng)變量組有額外的類別信息時(shí),若舍棄類別信息按照傳統(tǒng)CCA方法求解典型變量,無疑是一種信息損失.Sun[6]等人在研究人臉識(shí)別和手寫數(shù)據(jù)識(shí)別問題時(shí),改進(jìn)了傳統(tǒng)CCA提出了DCCA(Discriminant Canonical Correlation Analysis),充分考慮了同類樣本之間的相關(guān)性與不同類樣本之間的相關(guān)性及其對(duì)模式分類的影響,并實(shí)驗(yàn)證明該方法有效提高了分類識(shí)別率.之后Sun[14]等人又對(duì)DCCA進(jìn)行了改進(jìn),使得數(shù)據(jù)有缺失時(shí)也能得到很好的效果.Peng[15]等人考慮將數(shù)據(jù)的局部性質(zhì)和類別性質(zhì)相結(jié)合,提出了局部判別典型相關(guān)分析,并將該方法應(yīng)用于人臉識(shí)別研究.

設(shè)兩組變量X(1),X(2)的樣本集共分c類,則樣本集合表示為:

令類內(nèi)相關(guān)矩陣∑w和類間相關(guān)矩陣∑b分別定義如下:

其中:I1=diag(1n1×n1,…,1nc×nc)∈Rn×n為分塊對(duì)角矩陣.

DCCA的目標(biāo)是尋找典型變量表示系數(shù)a(1)和a(2),使得典型變量類內(nèi)相關(guān)系數(shù)a(1)′∑wa(2)最大,同時(shí)類間相關(guān)系數(shù)a(1)′∑ba(2)最小.可以證明∑w和∑b互為相反數(shù),則簡(jiǎn)化后DCCA可以表示為下面的優(yōu)化問題:

或等價(jià)的如下廣義特征值問題:

當(dāng)分類數(shù)據(jù)集多于兩組時(shí),DCCA可推廣至下述模型[16].

其中,

k=1,2,…ni,l=1,2,…nj.或等價(jià)地:

2.4 稀疏典型相關(guān)分析(SCCA)

在基因數(shù)據(jù)分析中,樣本的特征數(shù)p遠(yuǎn)遠(yuǎn)大于可觀測(cè)樣本數(shù)目n,此時(shí)協(xié)方差矩陣奇異導(dǎo)致應(yīng)用傳統(tǒng)CCA的效果不理想.Sriperumbudur[17]等人將正則稀疏化的思想融入到傳統(tǒng)CCA中,提出了SCCA(Sparse Canonical Correlation Analysis).該方法提高了模型的穩(wěn)定性,已經(jīng)廣泛應(yīng)用于基因表達(dá)等數(shù)據(jù)分析中,例如Parkhomenko等[5]將SCCA用于討論基因的位點(diǎn)與該基因表達(dá)類型之間的關(guān)系;Waaijenborg等[18]將SCCA用于討論DNA水平上基因網(wǎng)絡(luò)變化與一些復(fù)雜疾病的關(guān)系.

SCCA的主要思想,是通過附加系數(shù)收斂的約束條件使得典型變量系數(shù)中某些分量收斂為0,從而去掉一些對(duì)分析結(jié)果意義不大的數(shù)據(jù)變量.SCCA優(yōu)化形式為:

maxa(1)′∑12a(2)

s.t.a(1)′∑11a(1)=a(2)′∑22a(2)=1,

‖a(1)‖0≤ρ1,‖a(2)‖0≤ρ2.

其中:ρ1和ρ2為常數(shù).

當(dāng)數(shù)據(jù)集多于兩組時(shí),可表示為如下優(yōu)化問題:

這類優(yōu)化問題為NP-hard問題,要通過轉(zhuǎn)化求得一個(gè)好的近似解.

Witten等人[19]基于LASSO方法用‖a(i)‖1來代替上式中的‖a(i)‖0,將優(yōu)化問題轉(zhuǎn)化為:

maxa(1)′∑12a(2)

s.t.a(1)′∑11a(1)=a(2)′∑22a(2)=1,

‖a(1)‖1≤ρ1,‖a(2)‖1≤ρ1.

上式為懲罰性矩陣分解問題(PMD),即可迭代求解,算法見[19].

s.t.a(1)′∑11a(1)≤1,a(2)′∑22a(2)≤1.

上式為一個(gè)D.C.約束優(yōu)化問題,算法見[21].

對(duì)SCCA模型的有效求解算法,也是一個(gè)需要研究的問題.Kitajima等[22]利用貪婪算法求解稀疏典型相關(guān)分析;Colin等[23]應(yīng)用貝葉斯方法求解稀疏典型相關(guān)分析,表明用不同的先驗(yàn)概率模型均可得到稀疏解.

3 結(jié)論與展望

從上節(jié)的幾種CCA擴(kuò)展方法我們可以看到,典型相關(guān)分析的基本思想具備很強(qiáng)的可移植性.在不同的應(yīng)用場(chǎng)景,表達(dá)為不同約束條件下的優(yōu)化問題,新的CCA應(yīng)用拓展也不斷涌現(xiàn).比如,在多媒體檢索、圖像注釋和醫(yī)療數(shù)據(jù)分析領(lǐng)域,有標(biāo)號(hào)樣本和無標(biāo)號(hào)樣本同時(shí)存在,研究人員便發(fā)展出了半監(jiān)督CCA(Semi-supervised CCA)[24]方法;針對(duì)具備時(shí)間序列特征的樣本數(shù)據(jù),研究人員提出了灰度CCA(Gray CCA)[25],強(qiáng)調(diào)新信息優(yōu)先,以期準(zhǔn)確及時(shí)反映時(shí)間樣本的變化趨勢(shì);在視頻人物動(dòng)作的分類研究中,人們發(fā)展了張量CCA(Tensor CCA)[26],,將傳統(tǒng)CCA擴(kuò)展到多維數(shù)據(jù)張量上.

在典型相關(guān)分析的實(shí)際應(yīng)用中,還會(huì)面臨協(xié)方差矩陣奇異的問題,因此人們提出魯棒CCA(Robust CCA)[27]和互信息CCA(Informational CCA)[28].這里不再一一列舉.

從應(yīng)用效果看,文獻(xiàn)中的實(shí)驗(yàn)結(jié)論也證明了各種CCA方法的有效性,這也正是近幾年來CCA應(yīng)用拓展層出不窮的原因.隨著大數(shù)據(jù)云計(jì)算的蓬勃發(fā)展,CCA作為一種重要的數(shù)據(jù)融合的方法,在多種類數(shù)據(jù)、海量樣本、數(shù)據(jù)存在噪音、奇異值和缺失值等情形下,CCA應(yīng)用背景變得更加復(fù)雜,人們對(duì)CCA求解算法的時(shí)效性有著更高的要求.我們期望很快出現(xiàn)更高效、適應(yīng)面更廣的數(shù)據(jù)融合CCA方法.

[1] HOTELLING H. Relations between two sets of variates[J].Biometrika,1936,28:321-377.

[2] RICHARD A J, DEAN W W.實(shí)用多元統(tǒng)計(jì)分析[M].陸璇，葉俊，譯.6版.北京:清華大學(xué)出版社,2008:420-440.

[3] AKAHO S. A kernel method for canonical correlation analysis[J].In Proceedings of the International Meeting of the Psychometric Society,2006,40(2):263-269.

[4] YAMANISHI Y, VERT J P, NAKAYA A, et al. Extraction of correlated gene clusters from multiple genomic data by generalized kernel canonical correlation analysis[J].Bioinformatics,2003,19(Suppl1):323-330.

[5] PARHJOMENKO E,TRITCHLER D, BEYENE J. Genome-wide sparse canonical correlation of gene expression with genotypes[J].BMC Proceedings,2007,1(Suppl1):S119.[6] SUN T K, CHEN S G, YANG J Y, et al. A novel method of combined feature extraction for recognition[C]// 2008 Eighth IEEE International Conference on Data Mining. Portugal:[s.n.],2008:1043-1048.

[7] WANG C. Variational Bayesian approach to canonical correlation analysis[J].IEEE Transactions on Neural Networks,2007,18(3):905-910.

[8] FRANCIS R B, MICHAEL I J. A probabilistic interpretation of canonical correlation analysis[R].Berkeley: Department of Statistics, University of California,2005.

[9] VIRTANEN S, KLAMI A, KASKI S. Bayesian CCA via group sparsity[C]// International Conference on Machine Learning. Washington：DBLP,2011:457-464.

[10] ZHANG L H, LIAO L Z, SUN L M. Towards the global solution of the maximal correlation problem[J].J Glob Optim,2011,49(1):91-107.

[11] KETTENRING J R. Canonical analysis of several sets of variables[J].Biometrika,1969(3):433-451.

[12] AKAHO S. A kernel method for canonical correlation analysis[J].In Proceedings of the International Meeting of the Psychometric Society,2006,40(2):263-269.

[13] NICHOLAS B L, GREGORY D J, MELISSA C L, et al. Kernel canonical correlation analysis for assessing gene-gene interactions and application to ovarian cancer[J].European Journal of Human Genetics,2014,22,126-131.

[14] SUN T K, CHEN S G, YANG J Y, et al. Discriminative canonical correlation analysis with missing samples[C]// Wri World Congress on Computer Science and Information Engineering. Portugal:[s.n.],2009:95-99.

[15] PENG Y, ZHANG D Q, ZHANG J C. A new canonical correlation snalysis slgorithm with local discrimination[J].Neural Processing Letters,2010,31(1):1-15.[16] 王磊,史亞,姬紅兵.基于多集典型相關(guān)分析的雷達(dá)輻射源指紋識(shí)別[J].西安電子科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2013,40(2):164-171. WANG L, SHI Y, JI H B. Specific radar emitter identification using multiset canonical correlation analysis[J].Journal of Xidian University(Natural Science Edition),2013,40(2):164-171.

[17] SRIPERUMBUDUR B K, TORRES D A, LANCKRIET G R G. Sparse eigen methods by D.C. programming[C]// International Conference on Machine Learning. Portugal:[s.n.],2007:831-838.

[18] WAAIJENBORG S, PC V D W H, ZWINCLERMAN A H. Quantifying the association between gene expressions and DNA-markers by penalized canonical correlation analysis[J].Statistical Applications in Genetics & Molecular Biology,2008,7(1):1-29.

[19] WITTEN D M, ROBERT T, TREVOR H. A penalized matrix decomposition, with applications to sparse principal components and canonical correlation analysis[J].Biostatistics,2009,10(10):515-34.

[20] TORRES D A, TURNBULL D, SRIPERUMBUDUR B K, et al. Finding musically meaningful words by dparse CCA[C]// Neural Information Processing Systems. Portugal:[s.n.],2007:1-8.

[21] YAN J J, ZHENG W M, ZHOU X Y, et al. Sparse 2-D canonical correlation analysis via low rank matrix approximation for feature extraction[J].IEEE Signal Processing Letters,2012,19(1):51-54.

[22] KITAJIMA M, KITAGAWA Y, OHMORI T, et al. A greedy approach to sparse canonical correlation analysis[J].Fems Microbio-logy Letters,1991,66(2):203-208.

[23] COLIN F, GAYEL L. Two Methods for sparsifying probabilistic canonical correlation analysis[C]//Neural Information Processing, International Conference. Portugal:[s.n.],2006:361-367.

[24] ZHOU Z H, ZHAN D C, YANG Q. Semisupervised learning with very few labeled training examples[C]//AAAI Conference on Artificial Intelligence. Vancouver, Canada: DBLP,2007:675-680.

[25] 李雪,林和平,李迎斌.灰典型相關(guān)分析研究與應(yīng)用[J].計(jì)算機(jī)工程與科學(xué),2009,31(6):121-125. LI X, LIN H P, LI Y B. Research and application of grey canonical correlation analysis[J].Computer Engineering and Science,2009,31(6):121-125.

[26] KIM T K, WONG K Y K, CIPOLLA R. Tensor canonical correlation analysis for action classification[C]// IEEE Conference on Computer Vision & Pattern Recognition. Portugal:[s.n.],2007:1-8.

[27] AN L, YANG S F, BHANU B. Person re-identification by robust canonical correlation analysis[J].Signal Processing Letters IEEE,2015,22(8):1103-1107.

[28] YIN X R. Canonical correlation analysis based on information theory[J].Journal of Multivariate Analysis,2004,91(2):161-176.

Survey on canonical correlation analysis

LI Youmei, LIANG Xun
(College of Sciences, China Jiliang University, Hangzhou 310018, China)

Correlation analysis between data has become an important part of large data processing. The canonical correlation analysis method and its extensions have been widely used in various fields. The multiple canonical correlation analysis is used to solve the feature fusion for multi-data sets. The kernel canonical correlation analysis is used to find out the non-linear relationship between the data. The discriminant canonical correlation analysis is used to analyze the data which carry category information. The sparse canonical correlation analysis is used to solve the data with too many characteristics. In this paper, the principles of the canonical correlation analysis method and its various extensions are introduced. At the end of this paper, the prospects and outlook of the canonical correlation analysis are discussed.

canonical correlation analysis; multivariate feature fusion; Lagrange multiplier method

2096-2835(2017)01-0113-06

10.3969/j.issn.2096-2835.2017.01.020

2016-12-19 《中國(guó)計(jì)量大學(xué)學(xué)報(bào)》網(wǎng)址：zgjl.cbpt.cnki.net

國(guó)家自然科學(xué)基金資助項(xiàng)目(No.11301494).

李有梅(1965- ),女,山西省大同人，教授，主要研究方向?yàn)閿?shù)據(jù)統(tǒng)計(jì)分析.E-mail:li_youmei@cjlu.edu.cn

TP181;O212.4

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

典型相關(guān)分析綜述

1 簡(jiǎn) 介

2 CCA的幾種主要推廣

3 結(jié)論與展望