国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于低秩表示的判別特征提取算法

2019-01-24 04:00:36蘇雅茹許智杰吳小惠
關(guān)鍵詞:關(guān)聯(lián)矩陣特征提取類別

蘇雅茹,許智杰,吳小惠

(1.福州大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院,福建 福州 350108; 2.廈門大學(xué)航空航天學(xué)院,福建 廈門 361005)

0 引言

隨著數(shù)據(jù)類型越來越豐富,數(shù)據(jù)結(jié)構(gòu)也越來越復(fù)雜.比如,數(shù)據(jù)庫文本、Web 數(shù)據(jù)、各種各樣的圖像數(shù)據(jù)和視頻數(shù)據(jù)等,這給數(shù)據(jù)的分析、處理和應(yīng)用帶來了困難與挑戰(zhàn).這些數(shù)據(jù)往往具有很高的維數(shù)和復(fù)雜的結(jié)構(gòu),數(shù)據(jù)形式通常是稀疏的,帶有大量的冗余信息,數(shù)據(jù)的這些特點(diǎn)不僅增加了分析處理負(fù)擔(dān),使得時間和空間復(fù)雜度迅速上升從而導(dǎo)致算法性能下降,甚至容易掩蓋數(shù)據(jù)的真實(shí)結(jié)構(gòu)從而導(dǎo)致錯誤的分析處理結(jié)果.高維復(fù)雜數(shù)據(jù)的諸多應(yīng)用需求使得對高維數(shù)據(jù)的分析處理在科學(xué)研究領(lǐng)域占據(jù)著越來越重要的地位.

充分利用高維復(fù)雜數(shù)據(jù)的結(jié)構(gòu)對學(xué)習(xí)問題進(jìn)行建模是利用數(shù)據(jù)信息的關(guān)鍵所在.關(guān)聯(lián)矩陣是描述數(shù)據(jù)結(jié)構(gòu)的一種形式,用于度量樣本和樣本之間的相關(guān)性.相關(guān)性高的樣本通常會被聚集到一塊,關(guān)聯(lián)矩陣的理想表現(xiàn)是假設(shè)樣本按類別排好,其對應(yīng)的關(guān)聯(lián)矩陣是塊對角矩陣.近年來,利用低秩表示構(gòu)造的關(guān)聯(lián)矩陣被應(yīng)用于聚類[1-6]、維數(shù)約簡[7-9]、噪聲人臉識別[10]、閉塞人臉識別[11-12]等問題,并取得很好的效果.

本研究提出一種低秩表示判別映射(low-rank representation discriminant projections,LRDP),基于低秩表示(low-rank representation, LRR)構(gòu)造關(guān)聯(lián)矩陣并用于判別特征提取,并利用人臉數(shù)據(jù)集的實(shí)驗(yàn)證明了LRDP的特征提取有效性.

1 低秩判別映射

首先,給定一組來自若干相鄰子空間的樣本,低秩表示把樣本向量看成其它所有樣本向量的線性組合,并尋找最低秩表示,低秩表示的構(gòu)造特點(diǎn)決定了LRDP的良好數(shù)據(jù)全局結(jié)構(gòu)表達(dá)能力和判別結(jié)構(gòu)表達(dá)能力[1].然后,基于表達(dá)數(shù)據(jù)關(guān)系結(jié)構(gòu)的低秩表示引入充分利用數(shù)據(jù)判別信息的判別準(zhǔn)則,這些特點(diǎn)使得LRDP很好地利用了數(shù)據(jù)樣本信息.

1.1 低秩表示

低秩表示的數(shù)學(xué)描述如下[1]:

給定一個樣本集X=[X1,X2, …,Xn]∈Rd×n,n表示樣本個數(shù),d表示樣本維數(shù),每個樣本Xi∈Rd都可以表示為“字典”A=[a1,a2, …,am]中的基的線性組合,則模型描述為:

X=AZ

(1)

其中:Z=[Z1,Z2, …,Zm]是一個由系數(shù)向量組成的系數(shù)矩陣,系數(shù)向量Zi對應(yīng)著樣本Xi.

因?yàn)锳的復(fù)雜性,樣本集X的系數(shù)矩陣Z通常有多個可行解,上述模型可以通過以下的優(yōu)化問題來求解:

其中: “最低秩表示”Z*表示最優(yōu)解.

由秩rank(Z)的非凸性,上述模型的優(yōu)化問題通常很難解決.于是,采用矩陣計(jì)算方法[13-14],優(yōu)化問題(2)可以替換為以下凸優(yōu)化問題:

(4)

經(jīng)過理論證明[1],當(dāng)滿足兩個條件: 樣本數(shù)據(jù)充足,即nk>rank(Xk)=dk,且子空間獨(dú)立時,優(yōu)化問題(4)可以得到一個塊對角陣解:

(5)

低秩表示用樣本自身來表示數(shù)據(jù)向量,其原因是解空間為I-null(X),當(dāng)rank(X)

1.2 目標(biāo)函數(shù)

給定樣本集X=[X1,X2, …,Xn]∈Rd×n,假定均值為零,包含K個類別的樣本,并得到最低秩表示Z*:

(6)

定義樣本Xi的最低秩表示向量:Zi=[Zi, 1,Zi, 2, …,Zi, n]T,并設(shè)k個類別中的第l個樣本的最低秩表示向量為Zkl.

給定線性映射Y=VTX,對于單個樣本Xi∈Rd,可以從d維空間映射到dr維空間,得到Y(jié)i∈Rdr; 對于樣本集X,也可以從d維空間映射到dr維空間,得到Y(jié),其中dr<

定義映射空間樣本集的類內(nèi)殘差:

(7)

其中:δk(Zkl)實(shí)現(xiàn)只保留最低秩表示向量Zkl中第k個類別的所有樣本系數(shù)的功能. 同時, 定義映射空間樣本集的類間殘差:

(8)

其中:δk′(Zkl)實(shí)現(xiàn)只保留最低秩表示向量Zkl中第k′個類別的所有樣本系數(shù)的功能.

判別準(zhǔn)則的目標(biāo)是盡量減小類內(nèi)殘差并盡量增大類間殘差,通過最大化以下目標(biāo)函數(shù)來實(shí)現(xiàn):

(9)

其中:β系數(shù)用于平衡類內(nèi)殘差和類間殘差.

(10)

(11)

J(V)=tr(VT(βRB-RW)V)

(12)

(13)

采用拉格朗日乘子法求解上述目標(biāo)函數(shù):

(14)

(15)

其中,λ是拉格朗日乘數(shù).那么

(βRB-RW)Vi=λiVi

(16)

其中:λi(i=1, 2, …,d)是(βRB+RW)和XXT的廣義特征值,Vi(i=1, 2, …,d)是相應(yīng)的廣義特征向量.

1.3 低秩判別映射(LRDP)

表1 低秩判別映射

低秩判別映射(LRDP)的算法步驟如表1所示.

為了對比低秩表示和稀疏表示對數(shù)據(jù)結(jié)構(gòu)的表達(dá)能力,提出一種基于稀疏表示的判別特征提取算法-稀疏表示判別映射(sparse representation discriminant projections, SRDP).SRDP和LRDP的不同在于,SRDP的樣本關(guān)聯(lián)矩陣是基于稀疏表示構(gòu)造的, 而LRDP基于低秩表示.稀疏表示可以通過以下的凸優(yōu)化問題求解[16-17]:

(17)

2 實(shí)驗(yàn)結(jié)果與分析

表2 Yale、UMIST數(shù)據(jù)集

本實(shí)驗(yàn)采用Yale和UMIST人臉數(shù)據(jù)集, 數(shù)據(jù)集信息如表2所示.實(shí)驗(yàn)數(shù)據(jù)集被分為訓(xùn)練集和測試集兩部分,假設(shè)實(shí)驗(yàn)為P-train,則每類隨機(jī)取P個樣本作為訓(xùn)練樣本,其余作為測試樣本.實(shí)驗(yàn)要選擇合適的P值,因?yàn)镻值太大信息不充分,太小容易過擬合.

對每組實(shí)驗(yàn)數(shù)據(jù),分別采用主成分分析(PCA)、線性判別分析(LDA)、譜回歸判別分析(SRDA)、邊沿Fisher分析(MFA)、SRDP、LRDP六種算法進(jìn)行特征提取,統(tǒng)一采用SRC分類方法的分類準(zhǔn)確率來評價各種特征提取算法的性能.為了準(zhǔn)確地評估六種算法的性能,對每個P值進(jìn)行20次隨機(jī)實(shí)驗(yàn),并取20次隨機(jī)實(shí)驗(yàn)的分類準(zhǔn)確率的平均值作為分類準(zhǔn)確率.

假設(shè)樣本類別數(shù)為K,樣本數(shù)為n,則LDA和SRDA最多可以取K-1個特征,而其它算法的特征數(shù)可以達(dá)到n-1.實(shí)驗(yàn)結(jié)果給出了分類準(zhǔn)確率(分類性能)隨特征數(shù)變化的曲線圖(詳見圖1~2),并在表3~4中給出最佳分類準(zhǔn)確率(最佳分類性能)、相應(yīng)的標(biāo)準(zhǔn)差和特征數(shù).

圖1 Yale數(shù)據(jù)上分類性能隨特征數(shù)變化的曲線Fig.1 Recognition accuracy vs.feature dimension on Yale data set

算法4-train5-train6-train7-trainPCA69.19±4.44(58)73.42±3.99(73)77.80±3.40(87)79.50±4.96(97)LDA67.67±6.11(14)72.83±3.13(14)75.93±5.24(14)78. 02±3.80(14)SRDA68.76±4.91(12)73.37±2.97(14)78.40±5.07(14)80.01±4.04(14)MFA67.86±4.37(12)71.94±5.56(16)73.87±4.25(16)75.17±5.16(20)SRDP68.86±4.34(59)73.49±3.95(74)78.13±4.06(89)79.25±3.88(96)LRDP73.81±4.31(47)77.50±3.66(65)82.47±3.46(66)84.03±4.81(94)

從圖1~2可以看出,LRDP的性能幾乎總是優(yōu)于其它的算法.對各個P值,各個算法在特征數(shù)比較少時,分類性能隨著特征數(shù)的增加而快速上升,當(dāng)特征數(shù)達(dá)到一定值后,性能上升變得緩慢甚至有少許下降,說明隨著特征數(shù)的增加,判別信息的增加變得不明顯,其原因?yàn)槭艿饺哂嗵卣鞯呢?fù)面影響.隨著P值的增加,即訓(xùn)練樣本數(shù)的增加,各個算法的性能都有一定的提高,說明訓(xùn)練樣本的特征是判別信息的主要來源.從表3~4可以看出,LRDP最佳性能總是優(yōu)于其它算法(包括MFA).

圖2 UMIST數(shù)據(jù)上分類性能隨特征數(shù)變化的曲線Fig.2 Recognition accuracy vs.feature dimension on UMIST data set

算法6-train8-train10-train12-trainPCA84.44±2.34(91)92.84±2.15(119)95.60±1.21(67)96.81±1.53(103)LDA85.40±1.98(19)89.49±2.65(19)92.16±1.46(19)94.09±1.86(19)SRDA88.09±2.08(19)92.84±2.16(19)96.00±1.24(19)96.73±1.61(19)MFA90.32±2.35(34)93.83±2.18(33)95.77±1.49(59)96.85±1.27(39)SRDP88.48±2.23(115)93.10±2.46(33)96.12±1.37(49)97.15±1.36(67)LRDP90.34±2.15(23)94.68±2.34(29)97.23±1.20(39)98.05±1.42(31)

3 小結(jié)

本研究利用低秩表示和判別準(zhǔn)則,提出低秩表示判別映射LRDP.經(jīng)過理論分析和對比實(shí)驗(yàn),發(fā)現(xiàn)存在以下三個因素: 1) 在子空間獨(dú)立的假設(shè)下,通過低秩表示獲得關(guān)聯(lián)圖,其類內(nèi)關(guān)聯(lián)系數(shù)大,類間關(guān)聯(lián)系數(shù)小,表現(xiàn)出一定的判別結(jié)構(gòu)表達(dá)能力; 2) LRDP和SRDP都不是采用標(biāo)準(zhǔn)基作為基函數(shù),而是利用樣本自身作為基函數(shù),稀疏表示單獨(dú)為每個樣本尋找稀疏表示,而低秩表示對所有樣本尋找低秩表示,因此,低秩表示對數(shù)據(jù)全局結(jié)構(gòu)的表達(dá)能力比稀疏表示更強(qiáng); 3) 采用縮小類內(nèi)殘差和增大類間殘差的判別準(zhǔn)則,更好地利用了樣本的類別信息.有鑒于此, 本研究認(rèn)為LRDP具有良好的穩(wěn)定性和魯棒性.總之,LRDP是一種有效的特征提取算法,是一種全局性算法,同時還有較強(qiáng)的判別性,能夠比較準(zhǔn)確地描述數(shù)據(jù)集的全局結(jié)構(gòu)和數(shù)據(jù)樣本的判別關(guān)系.下一步工作將考慮引入一些約束,用非凸替換來求解目標(biāo)函數(shù),或者從矩陣擴(kuò)展到張量形式的分析.

猜你喜歡
關(guān)聯(lián)矩陣特征提取類別
n階圈圖關(guān)聯(lián)矩陣的特征值
單圈圖關(guān)聯(lián)矩陣的特征值
基于Daubechies(dbN)的飛行器音頻特征提取
電子制作(2018年19期)2018-11-14 02:37:08
基于關(guān)聯(lián)矩陣主對角線譜理論的歐拉圖研究
Bagging RCSP腦電特征提取算法
n階圈圖的一些代數(shù)性質(zhì)
服務(wù)類別
新校長(2016年8期)2016-01-10 06:43:59
基于MED和循環(huán)域解調(diào)的多故障特征提取
論類別股東會
商事法論集(2014年1期)2014-06-27 01:20:42
中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
广汉市| 曲水县| 阜平县| 志丹县| 肥东县| 鞍山市| 丹江口市| 林西县| 阜康市| 建始县| 古交市| 临邑县| 象州县| 乳源| 张掖市| 固阳县| 筠连县| 金川县| 万源市| 城口县| 丹棱县| 卢氏县| 昌乐县| 宾阳县| 尤溪县| 丰镇市| 定西市| 明溪县| 安龙县| 佳木斯市| 静海县| 井冈山市| 津南区| 邵东县| 合水县| 大埔区| 英山县| 兴业县| 永州市| 丹棱县| 岑溪市|