周紅波
(北京工業(yè)大學(xué) 體育教學(xué)部,北京 100124)
在信息爆炸的大數(shù)據(jù)時(shí)代,處理海量數(shù)據(jù)并從中獲得有用信息是所有領(lǐng)域的共同需求。大量的高維數(shù)據(jù)給人們利用帶來了許多困難。(1)維數(shù)災(zāi)難:要讓智能系統(tǒng)有足夠的學(xué)習(xí)能力,需要樣本個(gè)數(shù)至少比樣本維數(shù)高出一個(gè)數(shù)量級。然而當(dāng)樣本維數(shù)過高時(shí),人們很難收集到足夠的樣本;(2)算法失效:高維數(shù)據(jù)的運(yùn)算可能使得運(yùn)算得次數(shù)幾何級數(shù)增長,從而導(dǎo)致算法失效。要解決這些問題,如何對高維數(shù)據(jù)進(jìn)行降維顯得尤其重要。
由于矩陣SVD分解(Singular Value Decomposition,奇異值分解)具有全局最優(yōu)的數(shù)據(jù)重構(gòu)能力,且具有轉(zhuǎn)置不變性、位移不變性、旋轉(zhuǎn)不變性和鏡像變換不變性等重要性質(zhì),因此,在眾多研究領(lǐng)域都被作為非常有效的降維方法。其中PCA(Principal Components Analysis,主成分分析)方法又稱Karhunen-Loeve變換或Hotelling變換,它是以矩陣SVD分解為基礎(chǔ)的有效特征提取方法之一。
對于任意m×n矩陣,想要將其對角化,SVD分解是一個(gè)很好的選擇。下文首先介紹矩陣的SVD分解。
定義1.1[2]設(shè)A為n×n方陣,α為一非零向量,若存在常數(shù)λ使Aα=λα成立,則稱λ為A的一個(gè)特征值,α為A的對應(yīng)于特征值λ的特征向量。
對于任意的n×n對稱矩陣必可以由其特征值與特征向量對角化[2],而對于非對稱的m×n矩陣A,可以考慮ATA,由于其必定為n×n的對稱矩陣,從而可以對角化。
設(shè)A為m×n的矩陣,令v1,v2,…,vn為ATA的單位正交的特征向量,對應(yīng)的特征值分別為λ1,λ2,…,λn,則有:
即ATA所有特征值均非負(fù),從而可以將其由小到大重新排序,排序后使得特征值滿足:
λ1≥λ2≥…≥λn≥0。
定義1.2[3]矩陣A的奇異值是ATA的特征值的平方根,記為σ1,σ2,…,σn。
定理1.1[3]設(shè)A是的m×n的矩陣,那么存在一個(gè)m×m的正交矩陣U和一個(gè)n×n的正交矩陣V使得A=UΣVT,其中Σ=diag{σ1,σ2,…,σr,0…,0}為一對角陣,r為矩陣A的秩。其中,矩陣U和V分別稱為A的左奇異向量矩陣與右奇異向量矩陣,且不由A唯一確定。
主成分分析的具體方法是對變量的協(xié)方差矩陣或相關(guān)系數(shù)矩陣求奇異值和奇異向量,從下面的定理將看到,對應(yīng)最大奇異值的奇異向量,其方向正是協(xié)方差矩陣變異最大的方向,依次類推,第二大奇異值對應(yīng)的奇異向量,是與第一個(gè)特征奇異正交、且能最大程度解釋數(shù)據(jù)剩余變異的方向,而每個(gè)奇異值的大小則能夠衡量各方向上變異的程度。
關(guān)于上述定義,容易得到:
(1)規(guī)范性條件D(αTX)=D(βTY)=1不影響ρ(αTX,βTY)的最大值。
若ΣX,ΣY,ΣXY分別表示隨機(jī)向量
X=(X1,…,Xp1)T∈Rp1,
Y=(Y1,…,Yp2)T∈Rp2
的方差矩陣及X與Y間的協(xié)方差矩陣為兩個(gè)隨機(jī)向量,且滿足ΣX,ΣY>0,則下述定理表明典型相關(guān)方向、典型相關(guān)變量、典型相關(guān)系數(shù)是存在的。
有關(guān)主成分分析理論上有如下結(jié)論。
其中U=(u1,…,up1)∈Op1,V=(v1,…,vp2)∈Op2分別為S左、右奇異矩陣,r為S的秩,則
X*=C(X-μ1),Y*=G(Y-μ2)則有
下述定理表明,從相關(guān)矩陣出發(fā),一方面可以求出標(biāo)準(zhǔn)化之后的隨機(jī)向量X*,Y*間的典型相關(guān)方向、典型相關(guān)系數(shù)、典型相關(guān)變量。另一方面,也可以據(jù)此推出標(biāo)準(zhǔn)化之前X,Y的典型相關(guān)方向、典型相關(guān)系數(shù)、典型相關(guān)變量。
例3.1某班有20名學(xué)生,設(shè)X1:平均每周鍛煉的時(shí)間,X2:平均每周玩游戲的時(shí)間,X3:平均起床是晚于7:30的時(shí)間,Y1:體育課成績大于90分,Y2:體育課成績小于75分。目標(biāo)是研究鍛煉時(shí)間、玩游戲時(shí)間、起床時(shí)間與體育課成績之間的關(guān)系。
數(shù)據(jù)分析如下的矩陣計(jì)算將由Matlab具體實(shí)現(xiàn)[4-5]。
根據(jù)所測數(shù)據(jù)計(jì)算隨機(jī)變量X1X2X3Y1Y2之間相關(guān)系數(shù)矩陣為
R=
從而令
進(jìn)一步,求得S的奇異值分解為
S:=UΔVT=
因此,典型相關(guān)方向構(gòu)成的矩陣為
(1)由S的表達(dá)式看出:第一對典型變量V1,W1的相關(guān)系數(shù)為0.8549,說明相關(guān)性非常顯著。且第一對典型相關(guān)變量V1,W1的表達(dá)式為:
V1=-1.2862X1+0.2720X2-0.4893X3,W1=-0.9306Y1+0.2324Y2。
從上述表達(dá)式中可以看出:X1和X2的系數(shù)絕對值分別最大且符號相同,這表明每周鍛煉時(shí)間越長體育成績越優(yōu)秀。
(2)第二對典型變量V2,W2的相關(guān)系數(shù)為0.6732, 說明相關(guān)性比較顯著。且第二對典型相關(guān)變量V2,W2的表達(dá)式為:
V2=-0.1983X1-0.9768X2+0.1347X3,W2=-0.4116Y1-0.9907Y2。
由于V2,W2表達(dá)式中X2和Y2系數(shù)絕對值最大且符號相同,表明玩游戲時(shí)間越長體育課成績不及格的可能性越大。
例3.2為了解家庭的情況與學(xué)生成績之間的關(guān)系,為此調(diào)查了20個(gè)學(xué)生。假設(shè)X1:體育測試成績,X2:體育課成績,Y1:在校月支出(百元),Y2:來自城市(1表示來自一線城市、2表示來自二線城市、3表示來自三線城市、4來自農(nóng)村),Y3: 家庭的年收入(萬元)。
數(shù)據(jù)分析如下的矩陣計(jì)算由Matlab實(shí)現(xiàn)[4-5]。根據(jù)所測數(shù)據(jù)計(jì)算隨機(jī)變量X1,X2,Y1,Y2,Y3之間相關(guān)系數(shù)矩陣為
由上述矩陣R可計(jì)算:
從而,
進(jìn)一步, 矩陣S的奇異值分解為
S:=UΔVT=
(1)由S的表達(dá)式可看出:第一對典型變量V1,W1的相關(guān)系數(shù)為0.6879, 相關(guān)性較顯著.另外,第一對典型相關(guān)變量V1,W1的表達(dá)式為
V1=0.7689X1+0.2721X2,W1=0.0491Y1+0.8975Y2+0.1900Y3。
從上述表達(dá)式可以看出:X1和Y2的系數(shù)的絕對值在第一對典型變量V1,W1的系數(shù)很大,而且符號是一樣的,說明家庭年收入較高者,體育測試成績相對較好。這可能由于體育測試成績主要側(cè)重考察學(xué)生的耐力、力量等方面,而不是有關(guān)某些技巧。
(2)由于第二對典型相關(guān)變量V2,W2的相關(guān)系數(shù)為0.1869,說明變量間相關(guān)性幾乎沒有。
矩陣的SVD分解具有全局最優(yōu)意義上的數(shù)據(jù)處理能力,主要體現(xiàn)在兩個(gè)方面:一是SVD分解可以有效提取信息的主要部分,即能達(dá)到降維目的又可以最大限度地保證原始數(shù)據(jù)的完整性;二是SVD分解無任何參數(shù)限制,在計(jì)算過程中不需要進(jìn)行干預(yù),這樣得到的結(jié)果僅與數(shù)據(jù)相關(guān)而與用戶獨(dú)立。
鑒于上述優(yōu)點(diǎn),本文基于矩陣SVD分解,利用PCA分析方法,把理論結(jié)果與實(shí)際案例相結(jié)合,分析有關(guān)因素在大學(xué)生體育成績中的作用,所得結(jié)果對實(shí)際教學(xué)具有一定的指導(dǎo)作用。
合肥師范學(xué)院學(xué)報(bào)2021年3期