尹小艷, 潘銘櫻
(西安電子科技大學(xué) 數(shù)學(xué)與統(tǒng)計(jì)學(xué)院, 西安 710071)
矩陣的奇異值及奇異值分解(SVD)在工程問題中應(yīng)用廣泛,比如控制理論中的頻率法,圖像處理中的圖像壓縮與特征提取,數(shù)據(jù)分析中主成分分析法使用SVD檢測(cè)數(shù)據(jù)間依賴和冗余信息等.因此奇異值分解不僅是矩陣?yán)碚摗?shù)值代數(shù)、線性代數(shù)等課程的一個(gè)重點(diǎn)和難點(diǎn)內(nèi)容,也是各工科學(xué)生及相關(guān)科技工作者探討和應(yīng)用的熱點(diǎn)問題[1-4].
奇異值分解在矩陣論的諸多教材,比如在清華大學(xué)出版社出版的經(jīng)典的《矩陣論》[1]中都是做為矩陣多種分解形式的一種而直接給出分解定理的.這無(wú)疑割裂了奇異值分解與線性變換及其矩陣簡(jiǎn)化這一重要數(shù)學(xué)思想的內(nèi)在聯(lián)系,初學(xué)的學(xué)生往往感到非常突兀,難以接受.本文分別從引入、計(jì)算、注記三方面討論矩陣奇異值分解定理的教學(xué)過程,側(cè)重于揭示奇異值分解的深層含義,指出教材[1]中關(guān)于奇異值分解計(jì)算的例題中存在的問題,總結(jié)奇異值分解的計(jì)算方法,并對(duì)該定理進(jìn)行幾點(diǎn)注記,推廣奇異值與奇異向量的相關(guān)性質(zhì).幫助學(xué)生全方位、多角度深刻理解奇異值分解這一重要的矩陣技巧及其所蘊(yùn)涵的數(shù)學(xué)思想.
為了引導(dǎo)學(xué)生自然地理解奇異值分解的內(nèi)涵,從大家熟知的矩陣相似對(duì)角化入手,從線性映射的角度闡釋Hermite矩陣的酉對(duì)角化,從而自然地過渡和引出奇異值分解定理,水到渠成,易于接受.
眾所周知,矩陣是有限維空間上線性變換的數(shù)學(xué)模型.而同一線性空間有不同的基,同一線性變換在不同基下的矩陣相似.那么對(duì)任意線性變換σ,能否以及如何找到V的一組基,使σ在該基下的矩陣形式最簡(jiǎn)單,這是線性代數(shù)、高等代數(shù)及相關(guān)課程的一個(gè)基本問題.什么樣的矩陣形式最簡(jiǎn)單——對(duì)角矩陣.于是討論了矩陣的相似對(duì)角化問題,得到了任意方陣可相似于對(duì)角矩陣的若干等價(jià)條件.
矩陣相似簡(jiǎn)化的一個(gè)核心和精華內(nèi)容是實(shí)對(duì)稱(Hermite)矩陣的正交(酉)相似對(duì)角化.對(duì)任意A∈n×n,A*=A,存在酉矩陣P=(p1,…,pn),使得
P*AP=P-1AP=diag(λ1,…,λn).
從映射的角度來(lái)看,將A理解為n到n上的線性映射,則上述命題表示,可找到空間n的標(biāo)準(zhǔn)正交基p1,…,pn,使得A將原像空間的基向量pi映到像空間的基向量pi所在直線上,且有一個(gè)比值為λi的伸縮,即Api=λipi,i=1,…,n.
事實(shí)上,對(duì)任意m×n復(fù)矩陣,也有類似的結(jié)論:
Avi=σiui,i=1,2,…,r;Avi=0,i=r+1,…,n.
記U=(u1,…,um),V=(v1,…,vn),寫成矩陣的形式,即為如下奇異值分解定理:
(1)
其中Δ=diag(σ1,…,σr),σ1≥σ2≥…≥σr>0為A的所有正奇異值.
不難看出,若A*=A∈n×n半正定,則有σi(A)=λi(A),i=1,2,…,n.此時(shí)A的奇異值分解即為其酉對(duì)角化A=Udiag(λ1,λ2,…,λn)U*.從這個(gè)角度來(lái)講,奇異值分解的確可以理解為Hermite矩陣特征值分解在一般m×n的復(fù)矩陣上的推廣.
奇異值分解定理的證明在教材[1]中給出,在此不再贅述.
關(guān)于奇異值分解的計(jì)算,關(guān)鍵是如何求出符合條件的酉矩陣U和V.不難發(fā)現(xiàn)
結(jié)論1酉矩陣U(V)的列分別為矩陣AA*(A*A)的單位正交的特征向量.
基于上述結(jié)論,文獻(xiàn)[1]給出了如下例子及解法:
例[1]求矩陣A的奇異值分解,其中
問題1這是怎么回事呢?
事實(shí)上,奇異值分解中酉矩陣U,V的列ui,vi不是相互孤立的,而是有著密切的聯(lián)系:
知Avi=σiui,i=1,…,r.(故稱ui,i=1,…,r為矩陣A的右奇異向量,vi,i=1,…,r為矩陣A的左奇異向量)寫成矩陣形式,即U1=AV1Δ-1;同理,由
知A*ui=σivi,i=1,…,r.寫成矩陣形式,即V1=A*U1Δ-1.即有
結(jié)論2U1=AV1Δ-1, 且V1=A*U1Δ-1.
問題3任給秩為r的m×n矩陣,該如何計(jì)算其奇異值分解呢?
第一步 確定Δ=diag(σ1,…,σr): 求AA*的特征值λ1,…,λr>0,λr+1=…=λm=0,令
第二步 確定U: 求酉矩陣U=[u1,…,ur,ur+1,…,um],使
即求AA*的屬于λi的單位正交特征向量ui,i=1,2,…,m,即
由AA*ui=0?A*ui=0知,ui=0(i=r+1,…,m)也可由求解齊次線性方程組A*x=0的基礎(chǔ)解系, 再正交化、單位化得到.
第四步 代入驗(yàn)證,可知必有
當(dāng)然, 也可以先求矩陣V, 再求U.一般取AA*和A*A中階數(shù)較小的,計(jì)算其單位正交特征向量來(lái)確定先計(jì)算U還是V.
奇異值分解除了是高年級(jí)本科生矩陣論需掌握的一種重要的矩陣分解,還是各專業(yè)研究生矩陣計(jì)算相關(guān)課程的基礎(chǔ)知識(shí)和基本技能.對(duì)研究生課程來(lái)說,除基礎(chǔ)理論知識(shí)外,還需強(qiáng)化知識(shí)的應(yīng)用和創(chuàng)新拓展,提升學(xué)生的研究能力[5].因此補(bǔ)充幾點(diǎn)注記,從多角度探討奇異值分解中所蘊(yùn)含的信息, 深入剖析奇異值、奇異向量及奇異值分解的內(nèi)涵和精髓.這些性質(zhì)正是奇異值分解之所以被廣泛應(yīng)用的理論基礎(chǔ).
注1 矩陣A的近似計(jì)算(低秩逼近)
奇異值分解(1)也常寫成如下形式
(2)
稱之為矩陣A的截尾/滿秩奇異值分解.
(2)式表明可用若干秩-1矩陣的線性組合表示矩陣A,其組合系數(shù)恰為所有正奇異值.由此可見,值比較大的奇異值及對(duì)應(yīng)的左右奇異向量包含了矩陣A的更多的信息,這種表達(dá)式常被用來(lái)近似計(jì)算矩陣A,即
這是利用奇異值分解進(jìn)行圖像處理的理論依據(jù).
另一方面,上述近似的誤差為‖A-Ak‖=σk+1, 即
這一結(jié)論的證明見文獻(xiàn)[2],僅作如下解釋,幫助學(xué)生理解.上式表明, 矩陣A的奇異值刻畫了A與比其低秩的矩陣之靠近程度.特別地,若m=n=r,則A的最小奇異值σn(A)表示從A到奇異矩陣集合的距離.從這些意義上來(lái)講,“奇異值”這個(gè)數(shù)字特征刻畫了矩陣的“奇異程度”,這也可理解為是“奇異值”得名的原因.如矩陣
計(jì)算知
σ1(A)=4.7775,σ2(A)=0.4186,σ3(A)=0;
σ1(B)=5.7161,σ2(B)=1.5251,σ3(B)=0.
因此盡管A,B均為秩-2的奇異矩陣,但由σ2(A)<σ2(B)知,矩陣A更接近秩-1矩陣,因此可以說矩陣A的“奇異程度更高”.
注2 奇異向量的幾何意義
結(jié)合維數(shù)關(guān)系
dimR(A)=r, dimN(A*)=m-r(A*)=m-r(A)=m-r,
可知右奇異向量u1,…,ur為R(A)的標(biāo)準(zhǔn)正交基,且ur+1,…,um為N(A*)的標(biāo)準(zhǔn)正交基;同理,左奇異向量v1,…,vr為R(A*)的標(biāo)準(zhǔn)正交基,而vr+1,…,vn為N(A)的標(biāo)準(zhǔn)正交基.也可以寫成如下形式
注3 奇異值的幾何意義
借助奇異值分解定理,可以更好地理解矩陣奇異值的幾何含義.設(shè)
為A的奇異值分解,則由
Avi=σiui(i=1,…,r),Avi=0(i=r+1,…,n)
可得, 對(duì)?x=k1v1+…+krvr∈L(v1,v2,…,vr)滿足‖x‖2=|k1|2+…+|kr|2=1,有
Ax=k1σ1u1+…+krσrur∈L(u1,…,ur)=R(A),
記Ax=l1u1+…+lrur, 則有
可見A把r維子空間L(v1,v2,…,vr)=N(A)⊥中的單位超球面映成R(A)中的超橢球面,其中A的奇異值σ1,…,σr即為該超橢球面的r個(gè)半軸長(zhǎng).
特別地,若A列滿秩,即r=n,N(A)={0},則A把整個(gè)空間n中的單位超球面映成R(A)中的超橢球面,且A的n個(gè)正奇異值σ1,…,σn即為該超橢球面的r個(gè)半軸長(zhǎng).
注4 奇異值的極性
與Hermite矩陣的特征值類似,奇異值也有如下極值性質(zhì).
?x∈R(A*),x=k1v1+k2v2+…+knvr, ‖x‖=1,
有
|k1|2+|k2|2+…+|kn|2=1,
Ax=k1Av1+k2Av2+…+knAvr=k1σ1u1+k2σ2u2+…+krσrur,
從而
又
于是
同理
且一般地,當(dāng)1≤i,j≤r,類似可證
當(dāng)然,針對(duì)授課對(duì)象的不同,以上結(jié)論可以采取靈活的方式教學(xué),比如對(duì)本科的線性代數(shù)或矩陣論,可以僅就3中的特殊情況加以展示或解釋說明, 而對(duì)研究生,則需引導(dǎo)學(xué)生發(fā)現(xiàn)、猜測(cè)、理解、證明和應(yīng)用.如注1,可以讓學(xué)生利用自拍圖或標(biāo)準(zhǔn)測(cè)試圖像,選取不同的k值進(jìn)行壓縮和還原,提升興趣,激發(fā)熱情.奇異值及奇異值分解還有許多性質(zhì)和應(yīng)用,可以作為開放性題目,讓學(xué)生結(jié)合自己的專業(yè)方向探究和發(fā)現(xiàn).
本文從奇異值分解的引入、計(jì)算和拓展幾個(gè)方面深入討論了奇異值分解的理論及方法,指出經(jīng)典的矩陣論教材[1]中關(guān)于奇異值分解計(jì)算的一個(gè)例題中存在的問題,推廣了奇異值、奇異向量的相關(guān)性質(zhì),幫助學(xué)生更加深刻地理解和掌握奇異值分解這一重要的矩陣技巧,也為相關(guān)科技工作者提供有益參考.
致謝作者非常感謝相關(guān)文獻(xiàn)對(duì)本文的啟發(fā)以及審稿專家提出的寶貴意見.