徐光生,王士同
1.江南大學(xué) 人工智能與計(jì)算機(jī)學(xué)院,江蘇 無錫 214122
2.江南大學(xué) 江蘇省媒體設(shè)計(jì)與軟件技術(shù)重點(diǎn)實(shí)驗(yàn)室,江蘇 無錫 214122
近年來,遷移學(xué)習(xí)[1]在機(jī)器學(xué)習(xí)和計(jì)算機(jī)視覺等領(lǐng)域引起了廣泛的關(guān)注和研究。遷移學(xué)習(xí)是運(yùn)用已存有的知識(shí)對(duì)不同但相關(guān)領(lǐng)域問題進(jìn)行求解的一種新的機(jī)器學(xué)習(xí)方法,它有望解決稀疏標(biāo)記數(shù)據(jù)的問題。根據(jù)采用的技術(shù)的劃分,遷移學(xué)習(xí)可以分為半監(jiān)督學(xué)習(xí)[2-3]方法、基于特征選擇[4-6]方法、基于特征映射[7-9]方法和基于權(quán)重[10-11]方法。本文主要關(guān)注于半監(jiān)督學(xué)習(xí)與基于特征映射方法的交叉應(yīng)用場(chǎng)景。
基于特征映射的遷移學(xué)習(xí)是把各個(gè)領(lǐng)域的數(shù)據(jù)從原始高維特征空間映射到低維特征空間,在該低維空間下,源域數(shù)據(jù)與目標(biāo)域數(shù)據(jù)擁有相同的分布。本文基于此思路從一個(gè)或兩個(gè)域中尋找數(shù)據(jù)的新的特征表示,以便在兩個(gè)域之間建立橋梁來減少邊緣分布差異和條件分布差異。考慮到現(xiàn)實(shí)應(yīng)用場(chǎng)景下,尤其是當(dāng)數(shù)據(jù)是多模態(tài)時(shí),在算法的訓(xùn)練階段目標(biāo)域的數(shù)據(jù)并不總是完整的,僅有部分?jǐn)?shù)據(jù)是可獲得的。因此本文主要關(guān)注不完整模態(tài)場(chǎng)景下的遷移學(xué)習(xí)問題。
低秩約束[12-13]已經(jīng)在遷移學(xué)習(xí)等相關(guān)領(lǐng)域中得到了廣泛的應(yīng)用,它可以對(duì)源域或目標(biāo)域的重構(gòu)系數(shù)矩陣施加低秩約束來揭示它們的內(nèi)在的數(shù)據(jù)結(jié)構(gòu)。此外,源域和目標(biāo)域的投影子空間結(jié)構(gòu)也可以通過低秩約束的感知位置重構(gòu)特性被挖掘,從而達(dá)到減輕兩域之間的邊緣分布差異的效果。這種低秩重建[14]可以指導(dǎo)常規(guī)的子空間遷移學(xué)習(xí),整個(gè)遷移過程被描述為迭代更新重建系數(shù)和子空間投影。此外,Liu等人[15]還使用稀疏誤差項(xiàng)來補(bǔ)償異常值,避免了一定程度上的負(fù)遷移?;诘椭燃s束的重構(gòu)在人臉、物體、視頻等基準(zhǔn)數(shù)據(jù)庫上都取得了良好的結(jié)果,這證明其是行之有效的數(shù)據(jù)對(duì)齊工具,因此可以應(yīng)用于遷移學(xué)習(xí)過程中的源域與目標(biāo)域之間的數(shù)據(jù)對(duì)齊。一般來說,對(duì)于常規(guī)的低秩子空間遷移學(xué)習(xí),它們關(guān)注的核心問題是如何在遷移學(xué)習(xí)過程中獲得使源域數(shù)據(jù)和目標(biāo)域數(shù)據(jù)耦合效果更好的子空間投影,這導(dǎo)致它們大都需要一個(gè)必要的前提條件:在訓(xùn)練階段需要完整的源域信息和目標(biāo)域信息參與算法的訓(xùn)練。然而,當(dāng)源域信息或目標(biāo)域信息不完整時(shí),這些常規(guī)的低秩子空間遷移學(xué)習(xí)算法則效果較差甚至失敗。不幸的是,許多現(xiàn)實(shí)應(yīng)用場(chǎng)景是條件苛刻的,例如本文關(guān)注的不完整模態(tài)問題,它的目標(biāo)域數(shù)據(jù)就是殘缺的。常規(guī)的低秩子空間遷移學(xué)習(xí)算法無法很好地解決該問題,幸運(yùn)的是,Ding 等人[16]提出在模態(tài)信息完全丟失的情況下可以考慮借鑒其他與目標(biāo)數(shù)據(jù)集相似的具有完整模態(tài)數(shù)據(jù)的其他數(shù)據(jù)集,這為本文的不完整模態(tài)問題提供了一個(gè)很好的解決思路。例如,目標(biāo)數(shù)據(jù)集中具有完整的低分辨率(low resolution,LR)圖像和不完整的高分辨率(high resolution,HR)圖像,輔助數(shù)據(jù)集中具有完整的相關(guān)但略有不同的低分辨率(LR)圖像和高分辨率(HR)圖像,在理想情況下,從輔助數(shù)據(jù)集的低分辨率(LR)圖像與高分辨率(HR)圖像之間的遷移學(xué)習(xí)過程中獲得的知識(shí)可以應(yīng)用到不完整的目標(biāo)數(shù)據(jù)集的遷移學(xué)習(xí)中。然而,現(xiàn)實(shí)中存在許多因素導(dǎo)致兩個(gè)數(shù)據(jù)集不同,這就導(dǎo)致不能保證輔助數(shù)據(jù)集總是起著有益的作用,也有可能會(huì)帶來負(fù)遷移。因此,如何減小輔助數(shù)據(jù)集和目標(biāo)數(shù)據(jù)集之間的差異也是本文使用此解決思路重點(diǎn)關(guān)注的問題。
為了克服上述挑戰(zhàn),本文提出了一種基于潛在的低秩約束的不完整模態(tài)遷移學(xué)習(xí)算法(incomplete modality transfer learning algorithm via latent lowrank constraint,IMTL),所提的算法可以解決不完整模態(tài)遷移問題。算法的主要思想是基于潛在的低秩約束來學(xué)習(xí)共享子空間[17],同一數(shù)據(jù)集內(nèi)的不同模態(tài)和不同數(shù)據(jù)集之間的數(shù)據(jù)投影到該子空間中可以取得良好的對(duì)齊。此外,本文還利用了不完整目標(biāo)域中少量的標(biāo)記數(shù)據(jù)來保持目標(biāo)域在學(xué)習(xí)過程中的流形結(jié)構(gòu)[18]。本文的主要貢獻(xiàn)可以總結(jié)歸納如下:
(1)拓展了基于潛在的低秩約束的丟失模態(tài)遷移學(xué)習(xí)的應(yīng)用場(chǎng)景,在該框架中引入不完整目標(biāo)域信息以解決不完整模態(tài)問題,充分利用了不完整目標(biāo)域的標(biāo)記信息來提升共享子空間的耦合能力。
(2)通過借助相似的具有完整模態(tài)的輔助數(shù)據(jù)集,探索了跨模態(tài)方向(cross-modality direction transfer,TM)和跨數(shù)據(jù)集(cross-datasets direction transfer,TD)方向的不完整模態(tài)信息遷移。
(3)利用不完整目標(biāo)域中的少量標(biāo)記數(shù)據(jù)進(jìn)行監(jiān)督信息對(duì)齊,從而不完整目標(biāo)域的內(nèi)在結(jié)構(gòu)在遷移學(xué)習(xí)過程中得以保持。
(4)在人臉識(shí)別、物體分類等數(shù)據(jù)集上大量的實(shí)驗(yàn)驗(yàn)證了所提算法的有效性,超越或競(jìng)爭(zhēng)于一些傳統(tǒng)的遷移學(xué)習(xí)算法。
本文主要關(guān)注基于特征映射的遷移學(xué)習(xí)。遷移學(xué)習(xí)已經(jīng)被證明是圖像分類、協(xié)作推薦和情感分析等許多現(xiàn)實(shí)應(yīng)用場(chǎng)景下一種有效的技術(shù),根據(jù)采用的技術(shù)劃分,可以將其分為半監(jiān)督學(xué)習(xí)方法、基于特征選擇方法、基于特征映射方法和基于權(quán)重方法。本文旨在尋找不同模態(tài)和不同數(shù)據(jù)集的共享子空間,因此屬于基于特征映射的遷移學(xué)習(xí),但是傳統(tǒng)的基于特征映射的遷移學(xué)習(xí)方法都沒有明確解決不完整模態(tài)問題。
在特征適應(yīng)方面,子空間學(xué)習(xí)引起了廣泛的關(guān)注,具體而言,子空間學(xué)習(xí)本質(zhì)上是試圖找到一個(gè)合適的子空間,在該子空間中盡可能地保留原始特征的區(qū)分性表示。子空間學(xué)習(xí)被引入遷移學(xué)習(xí)框架中以彌合公共特征空間中兩個(gè)域之間的分布差距,通過常規(guī)子空間學(xué)習(xí)方法獲得公共特征空間,可以解決維數(shù)詛咒和源域與目標(biāo)域之間分布差異的問題。本文旨在尋找合適的共享子空間以減輕不同模態(tài)和不同數(shù)據(jù)集之間的邊緣分布(marginal distribution,MD)[19]差異和條件分布(conditional distribution,CD)差異。
低秩約束在矩陣分析、數(shù)據(jù)恢復(fù)和耐噪數(shù)據(jù)表示等方面取得了較為不錯(cuò)的效果,它有效地將低秩約束引入數(shù)據(jù)矩陣,可以幫助構(gòu)建判別性特征空間并消除異常值。低秩約束已經(jīng)在遷移學(xué)習(xí)中得到了廣泛的利用,它力求尋找源域和目標(biāo)域之間的關(guān)系,并揭示源域和目標(biāo)域的內(nèi)在的數(shù)據(jù)結(jié)構(gòu)。但是,當(dāng)數(shù)據(jù)在恢復(fù)底層結(jié)構(gòu)方面受到限制時(shí),從不足的觀測(cè)數(shù)據(jù)中挖掘潛在的知識(shí)就變得很必要。潛在因子[20-22]在許多數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)應(yīng)用場(chǎng)景中起著關(guān)鍵作用,它通過使用貪婪搜索、推斷或近似算法來試圖找尋一些人或機(jī)器無法觀測(cè)到的隱藏變量。在本文中,潛在因素被引入低秩約束子空間遷移學(xué)習(xí)框架中以幫助恢復(fù)目標(biāo)域中丟失的模態(tài)信息,這與傳統(tǒng)的子空間遷移學(xué)習(xí)方法或不具有任何潛在因素的低秩遷移學(xué)習(xí)方法區(qū)分開來。
在不完整模態(tài)遷移學(xué)習(xí)場(chǎng)景下,給定一個(gè)輔助數(shù)據(jù)集和目標(biāo)數(shù)據(jù)集,它們分屬于不同的特征空間。輔助數(shù)據(jù)集中具有完整的模態(tài)信息,目標(biāo)數(shù)據(jù)集中的目標(biāo)數(shù)據(jù)丟失大部分模態(tài)信息,保留了少量的模態(tài)數(shù)據(jù)及其標(biāo)簽信息。算法的目的就是借助輔助數(shù)據(jù)集中的完整模態(tài)信息和少量帶有標(biāo)簽信息的目標(biāo)數(shù)據(jù)來將源域的知識(shí)傳遞到目標(biāo)域。
假定存在輔助數(shù)據(jù)集A和目標(biāo)數(shù)據(jù)集B,每個(gè)數(shù)據(jù)集都包含兩種模態(tài):和,其中d是原始特征維數(shù),na代表數(shù)據(jù)集A中的樣本數(shù)量,nb代表數(shù)據(jù)集B中的樣本數(shù)量。如圖1所示,在該模型中一共有四個(gè)數(shù)據(jù)集,分別是輔助數(shù)據(jù)集中的源域SA與目標(biāo)域TA和目標(biāo)數(shù)據(jù)集中的源域SB和不完整目標(biāo)域TB,TB中保留的圖像為少量標(biāo)記的目標(biāo)數(shù)據(jù),而空白處則表示TB中丟失的數(shù)據(jù)。源域和目標(biāo)域分別具有不同的模態(tài),傳統(tǒng)的遷移學(xué)習(xí)算法關(guān)注的是同一個(gè)數(shù)據(jù)集內(nèi)的兩種模態(tài)之間的知識(shí)遷移或者同一種模態(tài)的不同數(shù)據(jù)集之間的知識(shí)遷移,例如SA→TA和SB→TB或SA→SB和TA→TB。然而,當(dāng)目標(biāo)域數(shù)據(jù)不完整時(shí),單一的只關(guān)注同一數(shù)據(jù)集內(nèi)或同一種模態(tài)之間的知識(shí)遷移并不足夠幫助取得較好的實(shí)驗(yàn)效果,尤其如果目標(biāo)域數(shù)據(jù)大量缺少,殘缺信息散亂的目標(biāo)域數(shù)據(jù)甚至可能導(dǎo)致失敗。因此選擇借鑒輔助數(shù)據(jù)集中的知識(shí)遷移對(duì)于解決不完整模態(tài)問題至關(guān)重要,本文基于低秩約束的子空間遷移學(xué)習(xí)框架,引入潛在因子挖掘目標(biāo)域數(shù)據(jù)中丟失的信息,然后探索了跨模態(tài)方向與跨數(shù)據(jù)集方向的知識(shí)遷移。致力于尋找不同數(shù)據(jù)集和不同模態(tài)的共享子空間來傳遞源域中的判別性區(qū)分能力并緩解源域與目標(biāo)域之間的分布差異。在下文中,IMTL 的具體實(shí)現(xiàn)將被詳細(xì)呈現(xiàn)。
在不完整模態(tài)問題中,如何恢復(fù)丟失部分的目標(biāo)域數(shù)據(jù)是解決該問題的重點(diǎn),丟失部分的目標(biāo)域數(shù)據(jù)在知識(shí)遷移過程中起著至關(guān)重要的作用。在下文中,為方便推導(dǎo)解釋起見,以跨模態(tài)方向(TM)為例。
為了恢復(fù)丟失部分的目標(biāo)域數(shù)據(jù),本文首先假定丟失部分的目標(biāo)域數(shù)據(jù)是可觀測(cè)的,因此目標(biāo)數(shù)據(jù)集的目標(biāo)域可以定義為為保留的目標(biāo)數(shù)據(jù),則為丟失部分的數(shù)據(jù)。在低秩約束子空間遷移學(xué)習(xí)框架下,輔助數(shù)據(jù)集和目標(biāo)數(shù)據(jù)集可分別構(gòu)建各自的子空間,并傳遞源域中的模態(tài)信息至目標(biāo)域:SA→TA和SB→TB。因此,針對(duì)輔助數(shù)據(jù)集和目標(biāo)數(shù)據(jù)集,引入低秩約束子空間遷移學(xué)習(xí)公式:
將式(5)的約束條件轉(zhuǎn)化為:(I-L)PTS=PT(TAZA+TBZB),I∈Rp×p,顯然,TA和TB通過共享子空間P重構(gòu)了低維源域特征PTS。從幾何角度來分析,式(5)實(shí)際上提出了在兩個(gè)方向上重構(gòu)低維源域特征PTS:列(PTTA和PTTB)重構(gòu)[24]和行(PTS)重構(gòu)[25],列重構(gòu)通常被認(rèn)為是字典學(xué)習(xí),行重構(gòu)則被稱之為潛在因子。在數(shù)據(jù)矩陣中,列空間代表主要特征,行空間代表關(guān)鍵對(duì)象部分,當(dāng)數(shù)據(jù)中的某些樣本丟失(即數(shù)據(jù)矩陣中的某些列為空),通過行重構(gòu)來恢復(fù)數(shù)據(jù)是非常行之有效的。因此,本文旨在沿著PTTA和PTTB的列空間和PTS的行空間來恢復(fù)不完整的目標(biāo)域數(shù)據(jù)。
此外,本文為了使所提算法更加穩(wěn)定,遵循Ding等人[25]的設(shè)定,選擇預(yù)先學(xué)習(xí)源域數(shù)據(jù)的低維特征來保持低維源域特征固定,因此,上述目標(biāo)函數(shù)可以被改寫為如下形式:
式中,D為源域低維特征,并由SA和SB經(jīng)P投影降維得D=[DA,DB]=[PTSA,PTSB]=PTS。
在不完整模態(tài)的問題中,有輔助數(shù)據(jù)集中的兩種模態(tài)和目標(biāo)數(shù)據(jù)集中的兩種模態(tài)共四個(gè)數(shù)據(jù)集,而上述于潛在的低秩約束的遷移子空間框架只考慮了如何恢復(fù)丟失部分的數(shù)據(jù),既沒有闡述不同數(shù)據(jù)集之間的潛在關(guān)系,也沒有充分利用不完整目標(biāo)域數(shù)據(jù)中的標(biāo)簽信息。在跨模態(tài)(TM)方向下,SA和SB構(gòu)成源域,但是由于SA和SB分屬于不同的數(shù)據(jù)集,標(biāo)簽信息各不相同,本文采用無監(jiān)督度量方法——最大均值差異(maximum mean discrepancy,MMD)[26],通過計(jì)算SA和SB投影后的特征均值之間的差值來促使它們?cè)诠蚕碜涌臻g中特征對(duì)齊[27],于是定義了正則項(xiàng)如下所示:
此外,不完整的目標(biāo)域數(shù)據(jù)TB中的標(biāo)記信息也需被充分利用,本文采用了監(jiān)督的正則項(xiàng)來將TB中的不同類別的數(shù)據(jù)分別對(duì)齊。TB包含了多個(gè)類別的數(shù)據(jù),這些類別的數(shù)據(jù)應(yīng)位于對(duì)應(yīng)類別的子空間中,重構(gòu)系數(shù)矩陣ZB完成與源域?qū)?yīng)的同一類別數(shù)據(jù)的領(lǐng)域到領(lǐng)域的重構(gòu),因此,分別耦合TB中的不同類別的類內(nèi)數(shù)據(jù)至關(guān)重要。于是,本文提出了監(jiān)督的正則項(xiàng)如下:
這里,C表示TB中的類別數(shù)量,代表TB中的第i類的第j個(gè)樣本,μi代表TB中的第i類的樣本平均值。上述正則項(xiàng)促使同類別的數(shù)據(jù)彼此接近,這為不同類別數(shù)據(jù)各自對(duì)齊提供了保證,也有益于TB在遷移學(xué)習(xí)過程中保持內(nèi)在結(jié)構(gòu)[28]。
為了放松原始問題,本文將稀疏項(xiàng)E∈Rp×n引入目標(biāo)函數(shù),這樣不僅將原本的硬約束轉(zhuǎn)換為軟約束,避免了潛在的過擬合問題,而且如果能使E的l1范數(shù)最小化,則可以補(bǔ)償數(shù)據(jù)噪聲。另一方面,為了學(xué)習(xí)到的共享子空間投影P更具有效性,選擇對(duì)P施加l2,1范數(shù)并求其最小化以借其全局結(jié)構(gòu)稀疏性來幫助尋找最重要的特征部分,這樣既避免了過多的差異性較大的特征來擾亂源域與目標(biāo)域之間的數(shù)據(jù)對(duì)齊,也讓具有一定稀疏性的共享子空間投影P降低了存儲(chǔ)上的負(fù)擔(dān)。至此,基于潛在的低秩約束的不完整模態(tài)遷移學(xué)習(xí)的目標(biāo)函數(shù)可以被定義為:
式中,λ、α、β和γ是四個(gè)平衡參數(shù),正交約束PTP=Ip被施加可以避免共享子空間P的任意小的平凡解。
問題可以通過已有的算法——增廣拉格朗日方法(augmented Lagrange methods,ALM)解決,于是本文引入四個(gè)變量JA、JB、K和Q將式(9)轉(zhuǎn)化為如下最小化問題:
式(10)的拉格朗日函數(shù)形式如下:
這里,F(xiàn)1、F2、F3、F4和F5是五個(gè)拉格朗日乘子,μ>0 是懲罰參數(shù),表示矩陣的內(nèi)積,=tr(ATB)。不難看出,無法同時(shí)更新優(yōu)化JA、JB、ZA、ZB、L、K、E、P和Q。幸運(yùn)的是,可以通過交替方向乘子法(alternating direction method of multipliers,ADMM)依次地解決每個(gè)子問題,并不斷地迭代更新優(yōu)化這些參數(shù)直至收斂。具體而言,當(dāng)更新其中的一個(gè)參數(shù)時(shí),需要固定其他參數(shù)。假設(shè)當(dāng)前迭代次數(shù)為t(t>0),t+1次迭代具體各項(xiàng)的更新如下:
(1)固定JB、ZA、ZB、L、K、E、P和Q,將它們視為常數(shù)項(xiàng),從而得到如下JA的更新公式:
(2)固定JA、ZA、ZB、L、K、E、P和Q,將它們視為常數(shù)項(xiàng),從而得到如下JB的更新公式:
(3)固定JA、JB、ZB、L、K、E、P和Q,將它們視為常數(shù)項(xiàng),從而Γ對(duì)ZA進(jìn)行求導(dǎo)得:
化簡(jiǎn)得:
(4)固定JA、JB、ZA、L、K、E、P和Q,將它們視為常數(shù)項(xiàng),從而Γ對(duì)ZB進(jìn)行求導(dǎo)得:
(5)固定JA、JB、ZA、ZB、L、E、P和Q,將它們視為常數(shù)項(xiàng),從而得到如下K的更新公式:
(6)固定JA、JB、ZA、ZB、K、E、P和Q,將它們視為常數(shù)項(xiàng),從而Γ對(duì)L進(jìn)行求導(dǎo)得:
(7)固定JA、JB、ZA、ZB、L、K、P和Q,將它們視為常數(shù)項(xiàng),從而得到如下E的更新公式:
(8)固定JA、JB、ZA、ZB、L、K、E和P,將它們視為常數(shù)項(xiàng),從而得到如下Q的更新公式:
(9)固定JA、JB、ZA、ZB、L、K、E和Q,將它們視為常數(shù)項(xiàng),從而Γ對(duì)P進(jìn)行求導(dǎo)得:
式(12)、式(13)和式(18)可通過奇異值閾值(singular value thresholding,SVT)[29]運(yùn)算解得,式(21)和式(22)可通過收縮算子進(jìn)行求解,詳細(xì)的算法流程在算法1中列出。參數(shù)μ、ρ、ε、maxμ和maxt參考了相關(guān)的遷移學(xué)習(xí)算法MMTL(missing modality transfer learning)[22]給出。其他的四個(gè)參數(shù)λ、α、β和γ則在實(shí)驗(yàn)中調(diào)節(jié),并在實(shí)驗(yàn)章節(jié)中給出分析。
算法1IMTL算法
為方便解釋起見,假設(shè)SA、TA、SB和TB都是維度為d×n的矩陣,共享子空間投影P是維度為d×p的矩陣,這里,d為原始特征維數(shù),n為源域或目標(biāo)域的樣本大小,p為降維的維數(shù)。步驟2、3、6的核范數(shù)計(jì)算與步驟4、5、7、10的矩陣乘法和逆運(yùn)算是所提算法的主要耗時(shí)部分。顯而易見,步驟2、3中的奇異值分解(singular value decomposition,SVD)計(jì)算的時(shí)間復(fù)雜度為O(n3),步驟6 中的SVD 計(jì)算的時(shí)間復(fù)雜度為O(p3),如果在實(shí)驗(yàn)中選擇較小的降維維數(shù),可以加速步驟6 的計(jì)算。步驟4 的時(shí)間復(fù)雜度取決于式(15):式(15)的第一項(xiàng)為,包括了矩陣乘法運(yùn)算和逆運(yùn)算,可以推導(dǎo)出其時(shí)間復(fù)雜度為O(2pdn+dn2+n3),通常在實(shí)驗(yàn)中設(shè)置p?n且p?d,因此,時(shí)間復(fù)雜度為O(2pdn+dn2+n3)≈O(dn2+n3) ;式(15)的第二項(xiàng)為P(D-PTTBZBLD-E)+JA+(1-F2)/μ,由此可推導(dǎo)出其時(shí)間復(fù)雜度為O(pdn+2pn2+2p2n+pdn+2pn2+pdn+2pn2)≈O(3pdn+6pn2)。最后,第一項(xiàng)與第二項(xiàng)的乘法運(yùn)算的時(shí)間復(fù)雜度為O(2n3)。因此,步驟4的時(shí)間復(fù)雜度為O(dn2+n3+3pdn+6pn2+2n3)≈O(dn2+3n3)。同理,步驟5的時(shí)間復(fù)雜度取決于式(17),式(17)采用式(15)同樣的解法,因此步驟5 的時(shí)間復(fù)雜度為O(dn2+3n3)。類比推導(dǎo)出步驟7 與步驟10 的時(shí)間復(fù)雜度分別為O(2pdn+4pn2)、O(4dn2+2d2n+d3)。最后,步驟8 和步驟9 都采用收縮算子進(jìn)行求解,因此步驟8 和步驟9 的時(shí)間復(fù)雜度分別為O(2pn) 和O(pd) 。綜上所述,所提算法的時(shí)間復(fù)雜度為O(Τ(n3+n3+p3+dn2+3n3+dn2+3n3+2pdn+4pn2+4dn2+2d2n+d3+2pn+pd))≈O(Τ(8n3+6dn2+d3+2d2n)),Τ為所提算法的迭代次數(shù)。
本文分別在3 組多模態(tài)數(shù)據(jù)集上驗(yàn)證了所提算法的實(shí)驗(yàn)效果,它們分別是人臉數(shù)據(jù)集BUAA[30]和Oulu,人臉數(shù)據(jù)集CMU-PIE 和Yale B,物體數(shù)據(jù)集ALOI-100和COIL-100。
BUAA 和Oulu 都是人臉數(shù)據(jù)集,BUAA 數(shù)據(jù)集包含了150類,Oulu 數(shù)據(jù)集包含了80類,它們中的每類都包含兩種模態(tài)圖像:近紅外人臉圖像和可見光人臉圖像。實(shí)驗(yàn)中,對(duì)于BUAA 數(shù)據(jù)集,隨機(jī)選擇75類對(duì)應(yīng)的近紅外人臉圖像作為一個(gè)模態(tài)數(shù)據(jù)集,剩下的75類對(duì)應(yīng)的可見光人臉圖像作為另一個(gè)模態(tài)數(shù)據(jù)集。對(duì)于Oulu 數(shù)據(jù)集,隨機(jī)選擇40類對(duì)應(yīng)的近紅外人臉圖像作為一個(gè)模態(tài)數(shù)據(jù)集,剩下的40 類對(duì)應(yīng)的可見光人臉圖像作為另外一個(gè)模態(tài)數(shù)據(jù)集。這4個(gè)模態(tài)數(shù)據(jù)集之間既沒有樣本重復(fù),也沒有標(biāo)簽重復(fù),它們中的圖像尺寸都設(shè)為30×30。
CMU-PIE 和Yale B 都是人臉數(shù)據(jù)集,CMU-PIE數(shù)據(jù)集包含了68 類,Yale B 數(shù)據(jù)集包含了38 類。由于CMU-PIE 和Yale B 中都只包含一種模態(tài)圖像,需要將其轉(zhuǎn)換為高分辨率(HR)圖像和低分辨率(LR)圖像。對(duì)于CMU-PIE 數(shù)據(jù)集,采用其中的Pose C27人臉圖像,對(duì)于Yale B 數(shù)據(jù)集,采用裁剪后的人臉圖像,先將這兩個(gè)數(shù)據(jù)集中的人臉圖像的尺寸調(diào)整為32×32 作為高分辨率(HR)圖像,然后將HR 圖像降采樣為8×8的尺寸,再內(nèi)插回32×32的尺寸,將其作為低分辨率(LR)圖像。模態(tài)數(shù)據(jù)集設(shè)置可參考BUAA和Oulu數(shù)據(jù)集設(shè)置。
ALOI-100 和COIL-100 都是一個(gè)物體數(shù)據(jù)集,ALOI-100 數(shù)據(jù)集包含了100 類,COIL-100 數(shù)據(jù)集包含了100 類。由于ALOI-100 和COIL-100 都是旋轉(zhuǎn)角度來采樣的,每類中的圖像都相隔5°,共有72張圖像。本文選擇兩種視圖view1[0°,85°]和view2[90°,175°],模態(tài)數(shù)據(jù)集設(shè)置可參考BUAA 和Oulu 數(shù)據(jù)集設(shè)置。
在實(shí)驗(yàn)部分,每組數(shù)據(jù)集都有4 個(gè)數(shù)據(jù)集,隨機(jī)選擇其中的一個(gè)數(shù)據(jù)集作為不完整模態(tài)數(shù)據(jù),對(duì)于不完整模態(tài)數(shù)據(jù),隨機(jī)采樣20%與其他的3個(gè)數(shù)據(jù)集作為訓(xùn)練數(shù)據(jù),剩下的不完整模態(tài)數(shù)據(jù)作為測(cè)試數(shù)據(jù)。本文從測(cè)試數(shù)據(jù)中每類隨機(jī)選擇一個(gè)樣本作為參考數(shù)據(jù),參考數(shù)據(jù)與測(cè)試數(shù)據(jù)之間沒有樣本重復(fù),學(xué)習(xí)到的投影P用于對(duì)參考數(shù)據(jù)和測(cè)試數(shù)據(jù)降維,然后采用KNN 作為分類器重復(fù)上述操作10 次取平均結(jié)果。此外,本文旨在探討兩個(gè)方向上的低秩重構(gòu)——跨模態(tài)(TM)和跨數(shù)據(jù)集(TD)。在跨模態(tài)方向下,源域的數(shù)據(jù)結(jié)構(gòu)有助于發(fā)現(xiàn)潛在的標(biāo)簽和丟失數(shù)據(jù)的結(jié)構(gòu),設(shè)置相同模態(tài)的數(shù)據(jù)集在同個(gè)域中如S=[SA,SB],T=[TA,TB]。在跨數(shù)據(jù)集方向下,完整的模態(tài)信息從輔助數(shù)據(jù)集傳遞到目標(biāo)數(shù)據(jù)集,設(shè)置同個(gè)數(shù)據(jù)集的不同模態(tài)在同個(gè)域中如S=[SA,TA],T=[SB,TB]。在此基礎(chǔ)上,本文還進(jìn)行了TM和TD交替方向的實(shí)驗(yàn)對(duì)比:TMD 和TDM,先學(xué)習(xí)一個(gè)方向上的投影P,再利用嵌入該投影子空間中的數(shù)據(jù)學(xué)習(xí)另一方向上的投影。
本文采用RDALR(domain adaptation with low rank reconstruction)[31]、GFK(geodesic flow kernel)[32]、DASA(subspace alignment)[33]、MEDA(manifold embedded distribution alignment)[34]和MMTL 這5 個(gè)算法作為對(duì)比算法,并采用了主成分分析(principal component analysis,PCA)[35]、線性判別分析(linear discriminant analysis,LDA)[36]和局部保留投影(locality preserving projection,LPP)[37]這3 種子空間方法進(jìn)行評(píng)估。由于RDALR、GFK 和DASA 都是域自適應(yīng)算法,實(shí)驗(yàn)中遵循它們的原始實(shí)驗(yàn)設(shè)置。具體而言,對(duì)于RDALR,首先學(xué)習(xí)源域的旋轉(zhuǎn)轉(zhuǎn)換矩陣W,然后將旋轉(zhuǎn)后的源域與目標(biāo)域結(jié)合來訓(xùn)練子空間以在訓(xùn)練階段提取特征;對(duì)于GFK和DASA,使用不同的子空間方法從源域和目標(biāo)域?qū)W習(xí)映射矩陣G和子空間對(duì)齊矩陣M,然后應(yīng)用于測(cè)試階段;對(duì)于MEDA,首先使用不同的子空間方法習(xí)得流形特征,然后進(jìn)行自適應(yīng)因子與分類器的迭代優(yōu)化,最后將該分類器應(yīng)用于測(cè)試階段。而MMTL與本文是同樣的方法迭代求解,即在訓(xùn)練階段從源域和目標(biāo)域中學(xué)習(xí)子空間投影矩陣,然后應(yīng)用于測(cè)試階段。對(duì)于DASA、GFK、RDALR和MEDA,采用TD(跨數(shù)據(jù)集)方向?yàn)槔鴮?duì)于MMTL 和IMTL,則遵循它們的原始設(shè)定,學(xué)習(xí)不同方向的共享子空間投影。
在BUAA 和Oulu 人臉數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表1所示。由表1可知,所提算法在BUAA 和Oulu 人臉數(shù)據(jù)集上的大部分測(cè)試任務(wù)中都排名第一。對(duì)于傳統(tǒng)的對(duì)比算法DASA 和GFK,它們只關(guān)注了如何將源域和目標(biāo)域投影到各自的低維特征空間并使特征空間彼此盡量接近,忽略了源域和目標(biāo)域中不同類別數(shù)據(jù)之間的差異,而低秩約束在一定程度上指導(dǎo)了源域與目標(biāo)域之間對(duì)應(yīng)類別數(shù)據(jù)的重構(gòu),因此,基于低秩約束子空間學(xué)習(xí)的所提算法的性能是優(yōu)于DASA 和GFK 的,這也證明了施加低秩約束策略的有效性。對(duì)于算法RDALR,它與所提算法都采用了低秩約束策略,但是在不完整模態(tài)問題中,目標(biāo)域中的數(shù)據(jù)是部分丟失的,這隨之帶來的問題是在源域到目標(biāo)域的低秩重構(gòu)過程中,目標(biāo)域中某些類別數(shù)據(jù)的丟失會(huì)導(dǎo)致源域中的對(duì)應(yīng)類別數(shù)據(jù)重構(gòu)失準(zhǔn)或失敗,因此,RDALR 算法的性能是遠(yuǎn)小于本文所提算法的。對(duì)于算法MEDA,它所關(guān)注的是如何減輕源域與目標(biāo)域的邊緣分布差異與條件分布差異,并評(píng)估不同應(yīng)用場(chǎng)景下邊緣分布差異與條件分布差異的重要性,缺少了對(duì)不完整數(shù)據(jù)的處理,這就導(dǎo)致了在不完整模態(tài)應(yīng)用場(chǎng)景下性能較差的表現(xiàn)。最后對(duì)于算法MMTL,它與所提算法都是基于潛在的低秩約束子空間遷移學(xué)習(xí)框架,而不同的是它們的應(yīng)用場(chǎng)景并不同,MMTL 針對(duì)的是完全丟失的目標(biāo)域數(shù)據(jù),而所提算法則是關(guān)注部分丟失的目標(biāo)域數(shù)據(jù),因此,對(duì)于部分殘缺的目標(biāo)域數(shù)據(jù)進(jìn)行了監(jiān)督信息對(duì)齊的所提算法的性能是優(yōu)于MMTL的。
表1 在BUAA和Oulu人臉數(shù)據(jù)集上各算法的分類精度Table 1 Accuracy of algorithms on BUAA and Oulu face datasets 單位:%
在ALOI-100 和COIL-100 數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如圖2所示,顯然所提算法在PCA和LPP子空間方法的評(píng)估下的平均性能好于所有對(duì)比算法,并且受不同子空間方法的擾動(dòng)影響較小。
圖2 在ALOI-100和COIL-100數(shù)據(jù)集上各算法的分類精度Fig.2 Accuracy of algorithms on ALOI-100 and COIL-100 datasets
在CMU-PIE和Yale B人臉數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果如表2 所示。對(duì)于CMU-PIE 和Yale B 數(shù)據(jù)集,由于降采樣維度設(shè)置為8×8,所提算法設(shè)置TM(TD)方向的子空間維數(shù)為64,然后學(xué)習(xí)維度為60 的TD(TM)方向的子空間。由表2 可知,盡管所提算法在第一個(gè)方向無法設(shè)置更高的維度,基于潛在的低秩約束子空間遷移學(xué)習(xí)仍保證了所提算法的性能遠(yuǎn)優(yōu)于DASA、GFK、RDALR 和MEDA。對(duì)此,原因可能是CMU-PIE 和Yale B 這兩個(gè)人臉數(shù)據(jù)集差異性較大,DASA、GFK、RDALR和MEDA在TD(跨數(shù)據(jù)集)方向上無法從源域上學(xué)習(xí)到足夠有用的知識(shí),而所提算法從不同的方向完成源域到目標(biāo)域的重構(gòu)保證了源域的判別性區(qū)分能力的傳遞。
表2 在CMU-PIE和Yale B人臉數(shù)據(jù)集上各算法的分類精度Table 2 Accuracy of algorithms on CMU-PIE and Yale B datasets 單位:%
本節(jié)將分析算法的收斂性和模型的共享子空間維度對(duì)于不完整模態(tài)遷移學(xué)習(xí)效果的影響,同時(shí)也會(huì)通過分析源域信息對(duì)齊項(xiàng)和目標(biāo)數(shù)據(jù)信息對(duì)齊項(xiàng)等正則化參數(shù)來驗(yàn)證它們的有效性。在本節(jié)中,主要評(píng)估以下參數(shù):子空間維度參數(shù)p、稀疏項(xiàng)參數(shù)λ、全局結(jié)構(gòu)稀疏項(xiàng)參數(shù)α、源域信息對(duì)齊項(xiàng)參數(shù)β和目標(biāo)數(shù)據(jù)信息對(duì)齊項(xiàng)參數(shù)γ。這里采用PCA子空間方法進(jìn)行評(píng)估,以COIL-view1作為測(cè)試案例,通過固定其他參數(shù)來逐一測(cè)試它們對(duì)于算法的意義。
圖3(a)展示了所提算法以COIL-view1和CMULR作為測(cè)試案例,隨著迭代次數(shù)的變化算法精度的變化效果。顯而易見,所提算法在不同的場(chǎng)景下以不同的速度收斂,但大致都在45 次迭代后收斂穩(wěn)定。此外,對(duì)于不同的場(chǎng)景,不同方向的遷移學(xué)習(xí)的效果也不盡相同。對(duì)于COIL-view1,TM(跨模態(tài))和TD(跨數(shù)據(jù)集)最終取得的效果差別不大,而對(duì)于CMULR,TM(跨模態(tài))相較于TD(跨數(shù)據(jù)集)則有較大的優(yōu)勢(shì),原因可能是CMU-PIE 和Yale B 之間由于不同的照明條件、主體身份和捕獲設(shè)備等因素導(dǎo)致了相似度很低,因此,TD(跨數(shù)據(jù)集)只能遷移少量的有用知識(shí)到不完整模態(tài)。
圖3 參數(shù)分析Fig.3 Parameter analysis
圖3(b)展示了所提算法以COIL-view1為測(cè)試案例隨著子空間維度p的變化,算法精度的變化效果。本文分別采用了PCA、LPP 和LDA 三種子空間方法來評(píng)估子空間維度p對(duì)于所提算法的影響。由圖3(b)可知,不同子空間評(píng)估的算法效果隨著維度變化而趨向于平穩(wěn),并且最高精度也不一定在最高維度處取得。
圖4(a)~圖4(d)展示了所提算法以COIL-view1為測(cè)試案例,隨著不同參數(shù)的變化算法精度的變化效果。由圖4可知,這些參數(shù)通常在較小的值時(shí)取得的效果較好,且隨著參數(shù)值的增大算法精度趨向于穩(wěn)定或一定的下降。此外,對(duì)于參數(shù)λ、α、β和γ,本文依次設(shè)置它們?yōu)?并固定其他參數(shù),由圖4可以看出,對(duì)于絕大部分測(cè)試任務(wù),當(dāng)參數(shù)設(shè)置為0 時(shí)效果較差,這驗(yàn)證了這些參數(shù)對(duì)于所提算法的有效性。
圖4 正則化參數(shù)分析Fig.4 Regularization parameter analysis
為了解決不完整模態(tài)遷移學(xué)習(xí)問題,本文提出了一種基于潛在的低秩約束的不完整模態(tài)遷移學(xué)習(xí)算法。所提算法基于低秩子空間遷移學(xué)習(xí)框架,引入潛在因素挖掘丟失的模態(tài)信息,并利用監(jiān)督信息來促進(jìn)數(shù)據(jù)對(duì)齊。此外,所提算法借用完整的輔助數(shù)據(jù)集探索了跨數(shù)據(jù)集和跨模態(tài)兩個(gè)不同方向的遷移學(xué)習(xí)。通過潛在的低秩約束學(xué)習(xí)適當(dāng)?shù)淖涌臻g,可以更好地從兩個(gè)方向恢復(fù)模態(tài)缺失信息。在三對(duì)數(shù)據(jù)集上的實(shí)驗(yàn)效果證明了所提算法的優(yōu)越性。