馬倩茹,冶繼民
西安電子科技大學(xué) 數(shù)學(xué)與統(tǒng)計學(xué)院,西安710126
主成分分析(Principal Component Analysis,PCA)[1]是一種被廣泛使用的統(tǒng)計方法,但它是基于二階統(tǒng)計量展開的,只能估計模型的某一方面。本文主要討論另一種統(tǒng)計方法,獨立成分分析(Independent Component Analysis,ICA)[2-3]。ICA基于高階統(tǒng)計量,可以更加全面地分析和處理相關(guān)實際問題。最初提出ICA 是為了解決雞尾酒會問題,后來隨著大量學(xué)者對ICA 的研究,它也被應(yīng)用到很多其他領(lǐng)域,比如:語音信號、生物醫(yī)學(xué)信號、圖像信號等。其中,主要被用于處理盲信號分離問題。ICA是假設(shè)未知源信號相互獨立,從源信號的線性混合(觀測信號)中分離出未知源信號的方法,整個混合過程只有觀測信號是已知的(混合過程和源信號均未知)。自從Hyv?rinen 和Oja 提出ICA 這個概念以來,無數(shù)的學(xué)者對該統(tǒng)計方法展開研究,包括:算法的變形、性質(zhì)、應(yīng)用等。截止目前為止,已經(jīng)出現(xiàn)了很多種ICA 方法,例如:極小化互信息法、信息極大化法(Informax)、快速ICA法(FastICA)等。本文主要研究的是FastICA[4-5]算法,實驗證明,它在收斂速度方面優(yōu)于大多數(shù)ICA算法。
FastICA 算法分為兩種:(1)one-unit(或deflation)FastICA,一次只能分離一個源信號;(2)對稱FastICA,可以同時分離多個所需的源信號,等價于幾個one-unit FastICA并行。針對這兩個版本的FastICA算法,很多學(xué)者做出了相應(yīng)的研究。文獻[6]中將源信號的先驗知識作為參考信號,附加到FastICA算法中,減少估計所得的源信號與真實源信號之間的誤差,并將其應(yīng)用于處理生物醫(yī)學(xué)信號問題。其實文獻[6]的改進是可行的,因為對現(xiàn)實生活中的信號并不都是一無可知的,所以可以把已知的相關(guān)信息作為參考信號加入到信號估計中。文獻[7-8]將FastICA 算法擴展到復(fù)數(shù)領(lǐng)域,用以處理復(fù)值信號。文獻[9]中的FastICA 算法允許使用不同的非線性提取不同的獨立成分,減少了因非線性的選取對估計效率和魯棒性的影響(此處的非線性并非數(shù)學(xué)意義上的非線性,在第2 章有詳細的定義)。文獻[10]和文獻[11]使用HuberM-估計和改進的M-估計作為非線性函數(shù),以提高算法的魯棒性。近年來,除以上的研究以外,對FastICA算法收斂性、漸進性、一致性等統(tǒng)計及數(shù)學(xué)性質(zhì)的相關(guān)研究更是不少。文獻[12]表明了歸一化引起的額外旋轉(zhuǎn)不會影響算法的收斂速度,而文獻[13]則是使用主纖維束的概念,證明了算法局部二階收斂到正確的分離。文獻[14]證明算法可以達到Cramér-Rao 下界。由此可見,F(xiàn)astICA研究相當(dāng)廣泛,本文將研究擴展到樣本領(lǐng)域。
本文主要給出FastICA 算法的收斂性與一致性分析。第2章和第3章是基礎(chǔ),主要介紹了ICA算法、全集FastICA 算法以及基于樣本的FastICA 算法的數(shù)學(xué)模型。第4章證明了FastICA算法的相關(guān)收斂性質(zhì)。首先證明了全集FastICA 算法的收斂性質(zhì),主要包括定理1所述的不動點定理,以及對比函數(shù)局部極大值和全集FastICA算法迭代函數(shù)不動點的關(guān)系。緊接著通過構(gòu)造狄拉克函數(shù),并且利用依概率收斂定理和大數(shù)定律,給出了基于樣本的FastICA算法收斂性條件和相關(guān)收斂性質(zhì),證明了基于樣本的fastICA 算法給出分離向量的估計是無偏的。在第5 章,證明了FastICA 算法給出的估計具有一致性。無偏性、一致性是評判估計方法的兩個重要標(biāo)準,無偏性保證了FastICA 算法給出的分離向量的估計無系統(tǒng)偏差,一致性保證了在獲得較多樣本的條件下,能夠得到更準確的估計值。
2012年,學(xué)者Reyhani N使用經(jīng)驗過程的相關(guān)理論和P-Donsker,以及P-Glivenko-Cantelli的性質(zhì)證明FastICA的一致性[15]。本文通過比較直觀的統(tǒng)計方式證明FastICA的一致性,并且通過仿真模擬證實隨著樣本數(shù)目增加,F(xiàn)astICA估計所得源信號更加接近真實的源信號。
經(jīng)典的ICA數(shù)學(xué)模型如下:
(1)si(i=1,2,…,m)期望為0,方差為1,即Cov(s)=I。
(2)A 是非奇異的正交方陣,即假設(shè)m=n。
ICA的基本思路是尋找分離矩陣使得y=Wx 盡可能相互獨立。W 稱為分離矩陣,W 的行向量w 稱為分離向量。因為A=(a1,a2,…,an)是正交的,所以行向量w 是分離向量當(dāng)且僅當(dāng)存在i ∈{1,2,…,n}使得w=ai或w=-ai。
文獻[2-3]提出通過極大化wTx 的負熵來求解w,負熵J(·)∝E(G(·)-G(v))2,其中,G(·):R →R 被稱為非線性,通常假設(shè)為二階連續(xù)可導(dǎo)的非二次偶函數(shù),且v服從標(biāo)準正態(tài)分布N(0,1)。所以:
其中,Sn-1:={w ∈Rn|‖ ‖w =1},E{·}表示對觀測信號x取數(shù)學(xué)期望,實際中用樣本均值替代。上述優(yōu)化問題進一步等價于極大化或極小化對比函數(shù)M(wTx)=E[G(wTx)],本文以極大化為例,即:
文獻[2]中提出3 種可選的非線性,峭度:x4/4 ,gauss:-exp(-x2/2),tanh:lg cosh(x)。
通過使用拉格朗日乘子法求解上述優(yōu)化問題,得到全集FastICA算法如下所示:
迭代式(2)中的g(·)和g′(·)分別表示非線性G(·)的一階導(dǎo)數(shù)和二階導(dǎo)數(shù)。文獻[2]中提供了上述FastICA算法的詳細推導(dǎo)過程。推導(dǎo)采用的是牛頓迭代的方式求解拉格朗日方程。整個推導(dǎo)過程中采取了兩次逼近。2017年,S.Basiri等學(xué)者[16]根據(jù)源信號的獨立性,給出了新的推導(dǎo)方式,沒有用到兩次逼近,同樣得到上述結(jié)果。本文中將式(2)稱為全集FastICA。
式(1)是經(jīng)典的ICA 模型,但是在實際中可以得到的是如下的樣本形式:
文獻[2]中已經(jīng)提出了模型(3)所示的樣本ICA 模型,本文主要研究其相關(guān)性質(zhì)。與模型(1)類似,對模型(3)也做如下的說明和假設(shè):
(1)每次樣本實現(xiàn)是獨立同分布的。
(3)A 是未知的非奇異正交方陣。
(4)觀測信號x(t)同樣需要白化。白化過程中的期望和協(xié)方差陣分別用樣本均值和樣本協(xié)差陣估計,即:
假設(shè)模型(3)的x(t)已經(jīng)被白化過,不難驗證,白化后的x(t)樣本均值為零向量,樣本協(xié)差陣為單位陣,稱模型(3)為基于樣本的ICA 模型。同樣的,用樣本均值代替式(2)中的數(shù)學(xué)期望,得到的算法稱為基于樣本的FastICA算法。
近年來,很多學(xué)者研究了FastICA算法的收斂性,比如文獻[2,12-13]。為了下文對基于樣本的FastICA算法收斂性進行探討,首先以更加簡潔的方式證明全集FastICA 算法收斂性能的相關(guān)內(nèi)容。將全集FastICA 算法式(2)分解為兩個函數(shù),并定義一個新函數(shù):
可以看出R(·)和T(·)是根據(jù)全集FastICA 算法式(2)定義的,而U(·)則是根據(jù)文獻[2]中全集FastICA算法局部收斂性條件定義的,收斂條件敘述如下。
引理1(收斂條件)假定輸入數(shù)據(jù)符合ICA模型,數(shù)據(jù)z=VAs 是白化過的隨機向量(其中V 是白化矩陣),而G(·)是一個足夠光滑的偶函數(shù)。那么在約束下,混合矩陣VA 的逆矩陣中某行使得E{G(wTz)}取相應(yīng)的局部極大值(或極小值,是極大值或極小值由下面公式中對應(yīng)的“>”或“<”確定),當(dāng)且僅當(dāng)相應(yīng)行對應(yīng)的獨立成分si滿足:
式中,g(·)是函數(shù)G(·)的導(dǎo)數(shù),而g′(·)是g(·)的導(dǎo)數(shù)。
由表1可知,棚內(nèi)溫度要小于棚外溫度,綠棚溫度高于黑棚溫度;濕度以棚外最高,并且黑棚的濕度高于綠棚;光照度以棚外最高,綠棚高于黑棚,并且棚內(nèi)直射光線明顯減少,而漫射光線增多。
不等式(7)與U(·)的定義一致。引理1 表明,任何非二次函數(shù)G(·)只要滿足E{sig(si)-g′(si)}≠0,就可以將概率密度空間分為兩個半空間,而兩個半空間分別對應(yīng)式(7)取正負的兩種取值。分布落在其中一個半空間的獨立成分,可以通過極大化對比函數(shù)E{G(wTz)}來估計,而落在另一個空間中的分布,則可以通過極小化相同的函數(shù)進行估計。當(dāng)U(w)≠0 時,全集FastICA算法可以收斂到混合矩陣的第i 個列向量ai。不失一般性,本文以極大化空間為例,即假設(shè)U(ai)>0 ,此時ai是E{G(wTz)}的極大值。基于上面的假設(shè),定理1成立。
定理1(不動點定理)混合矩陣A 屬于正交矩陣集合O(n):={A ∈Rn×n|ATA=I},ai是混合矩陣A 的第i列,U(ai)>0,則ai是函數(shù)T(·)的不動點。
證明設(shè)矩陣A 有如下形式:A=(a1,a2,…,an),則:,此處。將ai帶入式(4),得:
上述推導(dǎo)中應(yīng)用了si的相互獨立性和E[si]=0 。且
由于定理1是基于ai可以實現(xiàn)正確分離,即達到對比函數(shù)M(wTx)的極大值成立的,所以,如下的定理2成立。
定理2 如果x*是M(wTx)=E{G(wTx)}的局部極大值,則它是函數(shù)T(·)的一個不動點。
為了分析基于樣本FastICA 算法的收斂性,以及描述和證明FastICA 估計的一致性,參照文獻[17]中M-估計和Z-估計的定義和一致性定理,引入對比函數(shù)M(wTx)的一個近似。首先構(gòu)建一個觀測樣本x(t)的概率密度函數(shù)(8):
其中,δ(x)被稱為狄拉克δ 函數(shù),是一個廣義函數(shù),該函數(shù)在除了零以外的點取值都等于0,而在整個定義域上積分等于1,即:。顯然,δ(x)滿足概率密度函數(shù)的充要條件:(1)非負可積;(2)正則性,在整個實軸上積分等于1。且函數(shù)δ(x)具有如下的性質(zhì):
因此,對于式(8)的pN取函數(shù)期望,可以得到:
本文中EN(·)表示對于概率密度函數(shù)式(8)取數(shù)學(xué)期望。所以,可以重寫式(4)~(6)為如下樣本形式:
并且,對比函數(shù)M(w)也可以定義為如下樣本形式:
此處的MN即為M(wTx)的近似。為了方便下文的證明,在此假設(shè)E∞,且:
式中c 和p 是正常數(shù)。文獻[18]中采取了類似的假設(shè),并且解釋了該假設(shè)的可行性。對于第2章的3個經(jīng)典非線性函數(shù),峭度:x4/4,gauss:-exp(-x2/2),tanh:lg cosh(x),至少存在p=4 的情形使得不等式(13)成立??梢宰C明,4.1 節(jié)的引理1、定理1、定理2 推廣到基于樣本的FastICA 算法依然成立。分析可知,只需要證明UN一致收斂到U 即可。首先引用文獻[19]的依概率一致收斂定理。
引理2 假設(shè)x(t),t=1,2,…,N 是一個n 維變量分布的樣本,θ 是緊集Θ ∈Rn上的隨機向量。 h(x,θ) 是Rn×Θ 上的Borel 可測函數(shù),使得?x,h(x,θ)是連續(xù)函數(shù),且E<∞,則:
引理2其實是加強版的強大數(shù)定律,該引理的具體相關(guān)內(nèi)容可以在參考文獻[18]中找到。根據(jù)引理2很容易證得式(9)~(12)均依概率一致收斂到式(4)~(6)和M(wTx)。
定理3 假設(shè)w ∈Sn-1,且G(·)是連續(xù)函數(shù),以下依概率一致收斂成立:
證明只需證明式(14)、(15)滿足引理2 的條件即可。顯然,Sn-1是緊集。由于G(·)的連續(xù)性,所以第二個條件也滿足?,F(xiàn)在只需證明期望有界即可。
當(dāng)然也可以將函數(shù)G 看成算子,因為連續(xù)算子與有界算子等價,所以
因此,式(14)成立。同理
所以式(15)成立。
由于引理1、定理1 以及定理2 都是基于條件:U(w)>0,根據(jù)定理3中式(15),顯然它們可以擴展到基于樣本的FastICA算法。所以基于樣本的FastICA算法也是收斂的。在下一章一致性分析中,會用到式(14)的結(jié)論。引理1的擴展如定理4所示。
定理4 假設(shè)輸入數(shù)據(jù)符合模型(3),數(shù)據(jù)x(t)已經(jīng)白化過。在約束‖ ‖w =1 下,混合矩陣A 的某列ai可以使取得相應(yīng)的局部極大值(或極小值):當(dāng)且僅當(dāng)對應(yīng)的獨立成分si(t)滿足:UN(ai)>0(resp.<0)。
定理1和定理2可類似推廣。
文獻[15]討論了FastICA 估計的一致性,但是是從經(jīng)驗過程的相關(guān)理論和P-Donsker,以及P-Glivenko-Cantelli 的性質(zhì)討論的。本文從概率論角度重新證明FastICA 算法得到估計的一致性。文獻[17]中有經(jīng)驗過程的具體介紹。一致估計是指當(dāng)樣本數(shù)量充分大時,抽樣樣本指標(biāo)充分接近總體指標(biāo)。換句話說,一致估計等價于估計依概率收斂到真實值。
如文獻[15]所述,F(xiàn)astICA 算法得到的估計是一種M-估計,或Z-估計。文獻[17]第5章詳細介紹了M-估計和Z-估計,極大似然估計是最常見的M-估計。從文獻[2]關(guān)于FastICA 算法過程,可以看到,分離向量的估計w^是通過類牛頓法求解方程:Ψ(w):=E[xg(wTx)]=0,所以該估計可以看做Z-估計。引用文獻[17]定理5.9來證明FastICA估計的一致性,具體內(nèi)容如引理3所述。
引理3 假設(shè)Ψn(θ)是隨機向量函數(shù),Ψ(θ)是固定向量函數(shù),且?ε >0,下列兩式成立:則:任意估計序列θ^n依概率收斂到θ0且Ψn(θ^n)=op(1)。
結(jié)合引理3與文獻[17]可知,隨機序列Ψn(θ)的零點依概率收斂到固定序列Ψ(θ)的零點。引理3 中符號op(1)表示依概率收斂,具體內(nèi)容和運算可以參考文獻[17]的2.2節(jié)。本文取:
定理5(FastICA 的一致性)假設(shè)ai可以分離得到正確的源信號si,且E[g′(si)]≠0、,則由Ψn(w):=En[x(t)g(wTx(t))]產(chǎn)生的FastICA估計是一致的,p
證明根據(jù)引理3,證明一致性,只需證明式(16)、(17)成立即可。根據(jù)引理2,式(16)成立只需證明:E<∞。同定理3證明:
本文假設(shè)函數(shù)G(·)為偶函數(shù),則E[g′(si)]≠0 、0。因此,上式成立。FastICA 估計的一致性得證。
此部分仿真主要分為兩方面,一方面驗證FastICA算法具有良好的分離效果,另一方面驗證FastICA 估計的一致性。
為了驗證分離效果,采取如圖1(a)所示的3張512×512的灰度圖像作為源信號,使用matlab2017b隨機產(chǎn)生混合矩陣,進而得到圖1(b)混合信號。采用經(jīng)典FastICA算法(2)分離源信號,得到圖1(c)。式(2)中出現(xiàn)的數(shù)學(xué)期望用樣本均值mean代替,非線性選取tanh:lg cosh(x)。由于ICA算法估計出的圖像信號的幅值存在不確定性,會出現(xiàn)圖像偏白或偏黑的情況。為了給出逼真的圖像效果,將ICA 給出的圖像估計的灰度值進行放縮變換,使變換后灰度值最大的像素點的灰度值為255,灰度值最小的像素點對應(yīng)的灰度值為0。避免了圖像偏白或偏黑的情況。從圖1可以看出,源信號和分離信號除去順序不一致,基本可以分辨出相互之間的對應(yīng)關(guān)系。由此可見,F(xiàn)astICA的良好分離性能。
圖1 圖像分離效果
一致性指隨著樣本數(shù)目增加,分離信號與源信號之間的差距逐漸變小。為了驗證FastICA 的一致性,選取4種波形信號:正弦波信號、方波信號、鋸齒信號、隨機噪聲作為實驗對象,并且不同的樣本數(shù)目為200 和2 000。實驗結(jié)果如圖2和圖3所示。圖2和圖3分別為N=200與N=2 000 的情形,兩個實驗對應(yīng)的源信號選取均為上述4 種波形信號,源信號相同,只有樣本數(shù)目不同。明顯可以看出,圖3的分離信號更加接近源信號。而圖2的分離信號,尤其是鋸齒形信號,很明顯與源信號相差較遠,源信號是光滑的,但分離信號則不是。由此可見,當(dāng)樣本數(shù)目增加時,分離矩陣可以更好地被估計,分離得到的源信號與真實的源信號更加接近。由此,驗證了FastICA估計的一致性。
為了更進一步說明一致性,引入FastICA 評估的性能指標(biāo)(Performance Index,PI)。文獻[20]中有關(guān)于指標(biāo)PI 的詳細介紹及計算公式。等距樣本數(shù)目區(qū)間為[0,500]、[500,1 000]、[1 000,1 500]、[1 500,2 000]、[2 000,2 500]、[2 500,3 000]、[3 000,3 500]、[3 500,4 000]、[4 000,4 500]、[4 500,5 000],對于每一個樣本區(qū)間,運行100次,隨機產(chǎn)生100 個樣本數(shù),并取整,計算每次的PI 值,并且求得平均的PI 值,運行結(jié)果如表1 所示。根據(jù)文獻[20],PI值達到10-2,一般可以達到較好的分離效果,且PI 值越小,分離效果越好。觀察表1 中的PI 值,隨著樣本數(shù)目的增加,PI 值明顯遞減。因此,一致性又一次得到證明。
大量的實驗結(jié)果表明,當(dāng)樣本數(shù)目大于等于獨立分量數(shù)目的10 倍以上時,一般均可以達到較好的分離結(jié)果,而自適應(yīng)類的ICA算法達到收斂時需要的樣本數(shù)目遠遠大于獨立分量數(shù)目的10倍。例如,在本實驗中,選取樣本數(shù)目為40時,PI值已經(jīng)可以達到0.001 663 94,此時,F(xiàn)astICA算法具有良好的分離效果。
圖2 樣本N=200 分離效果
圖3 樣本N=2 000 分離效果
本文將FastICA 算法寫成樣本形式,并且分別分析了全集FastICA算法和基于樣本的FastICA算法的收斂性。證明了FastICA算法對比函數(shù)局部極大值和迭代函數(shù)不動點之間的關(guān)系,并且通過引理2 的大數(shù)定律,將其擴展到基于樣本的FastICA算法。本文的另一個重要內(nèi)容是運用概率論的方法證明FastICA估計的一致性。
表1 不同樣本數(shù)目PI均值對比