延安大學(xué)數(shù)學(xué)與計算機科學(xué)學(xué)院 石美麗
在信息化炙熱的時代, 對大量及大規(guī)模數(shù)據(jù)進行壓縮往往是研究事物的第一步, 而主成分分析作為信息壓縮的重要手段之一,在模式識別、推薦系統(tǒng)、圖像及視頻處理等方面發(fā)揮著重要作用。本文在以方差代表信息量的基礎(chǔ)上,分別構(gòu)造了向量、矩陣、張量情形下的主成分,并分析了其特征向量在對應(yīng)Hilbert空間的正交展開過程。且進一步討論了三種情形下樣本PCA的過程,探究重構(gòu)過程中矩陣SVD和張量Tucker分解與矩陣PCA和張量PCA的關(guān)系。
當(dāng)今社會是信息爆炸的時代, 我們所感興趣的東西背后常蘊含著大量及大規(guī)模的數(shù)據(jù), 而數(shù)據(jù)壓縮往往是進行分析的第一步,因此信息壓縮一直是研究熱點。主成分分析法作為一種發(fā)展成熟、運用廣泛的數(shù)據(jù)壓縮辦法,分析其內(nèi)在本質(zhì)是非常必要的,尤其是在大規(guī)模數(shù)據(jù)(高階張量)方面的運用。
主成分分析法(PCA)作為一種建立在統(tǒng)計最優(yōu)原則基礎(chǔ)上的分析方法,具有較長的發(fā)展歷史。它最早是由Pearson[1]在1901年提出的,1933年Hotelling[2]在此基礎(chǔ)上加以發(fā)展。Hotelling運用拉格朗日乘數(shù)法對主成分進行標(biāo)準(zhǔn)的代數(shù)推導(dǎo),他是以相關(guān)系數(shù)矩陣為基礎(chǔ),而不是協(xié)方差矩陣,且沒有用矩陣符號表示。Pearson更注重的是計算結(jié)果,且此方法要比計算機的廣泛運用還早50多年,盡管對于4個及4個以上的變量計算冗長,但依舊可行。雖然計算機發(fā)展迅速,但對大量數(shù)據(jù)的計算還是耗時耗力的。因此奇異值分解(SVD)[3]大大減小了計算量。當(dāng)然,隨著信息時代的不斷發(fā)展,需要處理的數(shù)據(jù)規(guī)模也不斷擴大。Kirby[4]直接將人臉圖像拉伸為向量數(shù)據(jù),然后運用傳統(tǒng)的PCA辦法進行特征提取,這不僅破壞了矩陣結(jié)構(gòu)故有的特征信息,還容易發(fā)生“小樣本問題”。2DPCA[5-6]通過對矩陣進行按行或按列投影,從而實現(xiàn)直接從矩陣提取特征。當(dāng)然可以同時進行按行和按列投影,即雙向PCA[7]的方法,彌補了2DPCA的相對不足之處。隨著科技不斷進步,張量主成分分析的研究越來深入[8,9],且不同條件下其應(yīng)用相當(dāng)廣泛,如推薦系統(tǒng)[10]、聚類分析[11]等。
本文一共包括三個部分。第一部分對一些重要運算符號及概念進行說明;第二部分解釋向量空間、矩陣空間、張量空間構(gòu)成Hilbert空間,并描述各種數(shù)據(jù)在其Hilbert空間中的主成分,以及從總體到樣本的介紹與求解過程;第三部分是對本文的總結(jié)。
2.1.1 總體版向量PCA
在統(tǒng)計學(xué)中方差表示變異性, 方差的解釋程度衡量了對信息的提取大小。PCA過程是一個線性變換的過程,這個變換將原始變量轉(zhuǎn)換到一個新的坐標(biāo)體系中,使得數(shù)據(jù)投影的第一大方差在第一主成分上,第二大方差在第二主成分上,以此類推,也就是新的坐標(biāo)基底按信息量大小來排序,因此我們按變異率最大的方向來找正交基,即
2.1.2 樣本版向量PCA
2.2.1 總體版矩陣PCA
2.2.2 樣本版矩陣PCA
2.3.1 總體版張量PCA
自從Tucker在1963年提出張量Tucker分解后,有關(guān)于張量的研究越來深入,而其中在數(shù)據(jù)壓縮方面淵源已久。由于張量Tucker分解是SVD的推廣,所以將2DPCA與GPCA可以運用到高階張量中,即多線性主成分分析(MPCA)。
本文講述從本質(zhì)上理解PCA過程,討論特征向量在Hilbert空間的正交展開。將最大化主成分這一本質(zhì)依次推廣到2DPCA、GPCA與MPCA中,分別探討了在總體以及樣本情形下特征提取與信息壓縮問題, 以及討論了重構(gòu)過程中矩陣SVD和張量Tucker分解與矩陣主成分分析和張量主成分分析的關(guān)系。此文對PCA統(tǒng)計意義以及幾何意義展開討論,接下來要深入此方面的研究,尤其張量方面,這有助于對實際意義的理解。
引用
[1] PEARSON K.On Lines and Planes of Closest Fit to System of Points in Space[J].Philosophical Magazine,1901,2(11):559-572.
[2] HOTELLING H.Analysis of a Complex of Statistical Variables into Principal Components[J].Educational Psychology,1933,24(6): 417-441+498-520.
[3] HAO F Z,MA L B,ZHANG J M,et al.Distribution Systems Data Compression Based on SVD Method[C]//International Conference on Green Energy and Sustainable Development,2019.
[4] KIRBY M,SIROVICH L.Application of the Karhunen-Loeve Procedure for the Characterization of Human Faces[J].IEEE Transactions on Pattern Analysis and Machine Intelligence,2002,12(1):103-108.
[5] 張彬,帥小應(yīng),錢進,等.改進的2DPCA方法在掌紋識別中應(yīng)用[J].電腦知識與技術(shù),2021,17(29):99-101.
[6] WANG M L,JIANG X W,GAO J B,et al.Minimum Unbiased Risk Estimate Based 2DPCA for Color Image Denoising[J].Neurocomputing, 2021,440(14):127-144.
[7] 何春,郭科.基于雙向2DPCA算法的高分五號衛(wèi)星圖像降維研究[J].樂山師范學(xué)院學(xué)報,2020,35(12):1-7.
[8] 夏志明,徐宗本.基于PCA的信息壓縮:從一階到高階[J].中國科學(xué)(信息科學(xué)),2018,48(12):1622-1633.
[9] 夏志明,趙文芝,徐宗本.張量主成分分析與高維信息壓縮方法[J].工程數(shù)學(xué)學(xué)報,2017,34(6):571-590.
[10] 廖亮,葉海昌,王新強.張量主成份分析算法在腦醫(yī)學(xué)圖像上的應(yīng)用[J].影像研究與醫(yī)學(xué)應(yīng)用,2018,2(19):63-66.
[11] 許榮海,王昌棟,基于異構(gòu)信息網(wǎng)絡(luò)元路徑作張量分解的深度學(xué)習(xí)推薦系統(tǒng)[J].信息安全學(xué)報,2021,6(5):77-87.