張潤(rùn)江,郭杰龍,俞 輝,蘭 海,王希豪,魏 憲*
(1.福州大學(xué) 電氣工程與自動(dòng)化學(xué)院,福建 福州 350108;2.中國(guó)科學(xué)院 福建物質(zhì)結(jié)構(gòu)研究所,福建 福州 350002;3.中國(guó)科學(xué)院 海西研究院 泉州裝備制造研究中心,福建 泉州 362000)
深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN)已經(jīng)在許多機(jī)器學(xué)習(xí)任務(wù)中取得了巨大的成功[1-3],這些任務(wù)都是基于獨(dú)立同分布(Independent Identically Distributed,IID)數(shù)據(jù)。這一設(shè)定違反了實(shí)際應(yīng)用中所面臨的非平穩(wěn)數(shù)據(jù)分布,如自動(dòng)駕駛、智能對(duì)話系統(tǒng)、智慧醫(yī)療和其他實(shí)時(shí)應(yīng)用。面對(duì)非IID 數(shù)據(jù),當(dāng)DNN 對(duì)新任務(wù)進(jìn)行再訓(xùn)練時(shí),神經(jīng)網(wǎng)絡(luò)在過去任務(wù)中的性能表現(xiàn)會(huì)迅速下降,這被稱為災(zāi)難性遺忘[4]。增量學(xué)習(xí)(Incremental Learning,IL)[5]的出現(xiàn) 使DNN 能夠在 學(xué)習(xí)新知識(shí)的同時(shí)保留先前獲得的知識(shí),使模型具有可塑性-穩(wěn)定性[6]。
傳統(tǒng)的增量學(xué)習(xí)大都是以離線的方式訓(xùn)練模型,即通過重復(fù)訓(xùn)練多批次當(dāng)前任務(wù)的數(shù)據(jù)來增加模型的擬合效果。然而,由于隱私問題或者內(nèi)存限制,離線的設(shè)定不再適用。本文考慮了一項(xiàng)具有挑戰(zhàn)性的單次數(shù)據(jù)流任務(wù),即在線類增量學(xué) 習(xí)(Online Class-Incremental Learning,OCIL)[7]。OCIL 限制每個(gè)訓(xùn)練任務(wù)的樣本流只能看到一次,并且是非IID 的。
以往IL 和OCIL 的研究對(duì)象都是具有固定姿態(tài)的樣本流,即每個(gè)樣本都預(yù)先進(jìn)行了矯正。這種設(shè)定對(duì)自動(dòng)駕駛等實(shí)時(shí)應(yīng)用是不負(fù)責(zé)任的,它們?cè)谡鎸?shí)情況中所面臨的數(shù)據(jù)流是各個(gè)姿態(tài)的,即樣本特征存在平移、旋轉(zhuǎn)對(duì)稱變換[8]。常用的數(shù)據(jù)擴(kuò)充方法[9]在面對(duì)OCIL 這種單次數(shù)據(jù)流時(shí)也變得不再適用,特別是3D 目標(biāo)姿態(tài)的高復(fù)雜性對(duì)網(wǎng)絡(luò)提出了更嚴(yán)格的要求。傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)只具有平移等變性[10]而不具備旋轉(zhuǎn)等變性。在IL 任務(wù)中,除了新任務(wù)帶來的影響外,造成遺忘的另一個(gè)重要原因是網(wǎng)絡(luò)沒能提取到目標(biāo)足夠的幾何信息,而更多地關(guān)注到了一些無關(guān)特征,如固定的位置信息而不是目標(biāo)本身之間的結(jié)構(gòu)信息。保證遺忘率盡可能低首先要保證能夠?qū)W到更豐富的幾何特征,為此,我們基于李群引入旋轉(zhuǎn)等變機(jī)制[11-13]降低網(wǎng)絡(luò)受目標(biāo)姿態(tài)的影響。同時(shí),使用點(diǎn)云數(shù)據(jù)以坐標(biāo)和特征值的形式出現(xiàn),即,此設(shè)定可以方便網(wǎng)絡(luò)提取目標(biāo)的幾何信息,且通用于2D 和3D 的數(shù)據(jù)。
常見的類增量學(xué)習(xí)方法大致分為3 大類:參數(shù)隔離方法[14-16]、正則化方法[17-19]和記憶重放方法[20-22]。參數(shù)隔離方法是通過擴(kuò)展網(wǎng)絡(luò)模型為代價(jià)提高網(wǎng)絡(luò)的可塑性,以適應(yīng)新的學(xué)習(xí)任務(wù)。隨著新類別的增加,該方法將會(huì)導(dǎo)致參數(shù)量線性增長(zhǎng),從而變得不可持續(xù)。正則化方法通過添加正則項(xiàng),在學(xué)習(xí)新的別類時(shí)約束參數(shù)的更新方向來避免災(zāi)難性遺忘。但正則化通常以犧牲可塑性為代價(jià),不僅會(huì)降低對(duì)新知識(shí)的接納程度,還增加了先前知識(shí)的遺忘率,往往表現(xiàn)不佳[23]。相比之下,記憶重放的方法已經(jīng)比較成熟,將舊任務(wù)數(shù)據(jù)流中的少量樣本存儲(chǔ)在存儲(chǔ)器中,并在新任務(wù)的訓(xùn)練中重放它們。該方法在許多具有挑戰(zhàn)性的場(chǎng)景中都具有最優(yōu)的表現(xiàn),在IL 中發(fā)揮著關(guān)鍵的作用。本文在研究中采用基于記憶重放的方法。
基于以上問題,本文提出無視姿態(tài)重放方法,主要工作有:
(1)考慮更符合現(xiàn)實(shí)情況的復(fù)雜設(shè)定,即面向多姿態(tài)目標(biāo)的在線類增量學(xué)習(xí)。
(2)提出一個(gè)通用于2D 和3D 數(shù)據(jù)的OCIL模型?;诶钊阂胄D(zhuǎn)平移等變機(jī)制,使網(wǎng)絡(luò)能夠提取更豐富的幾何信息,減弱目標(biāo)姿態(tài)的影響,從而緩解災(zāi)難性遺忘。
(3)提出基于損失變化的記憶重放策略,在圖像分類基準(zhǔn)數(shù)據(jù)集MNIST、RotMNIST、CIFAR-10 和trCIFAR-10,3D 點(diǎn)云基準(zhǔn)數(shù)據(jù)集ModelNet40 和trModelNet40 上進(jìn)行了實(shí)驗(yàn)。本文方法在目標(biāo)多姿態(tài)的設(shè)定下顯著優(yōu)于對(duì)比方法。
一般情況下,類增量學(xué)習(xí)是涉及T個(gè)任務(wù)的順序?qū)W習(xí),這些任務(wù)由不同的類集組成,在不同學(xué)習(xí)階段逐漸增加,且須在任何一個(gè)訓(xùn)練任務(wù)t中對(duì)前t-1 個(gè)任務(wù)中所看到過的類能夠準(zhǔn)確分類[24-27],可以按以下方式設(shè)定:
其中:C表示所有類別的集合;Tt表示C中分配給任務(wù)t的子集,其由分配函數(shù)Ψ決定表示類別c的樣本集;則表示任務(wù)t的樣本集,且=?。值得注意的是,不同類別c的樣本集數(shù)量Mc可以相同也可以不同,本文考慮Mc相同情況下的場(chǎng)景。
等變性:當(dāng)一個(gè)函數(shù)f:X→Y的定義域X被對(duì)稱群G作用,然后計(jì)算函數(shù)f所得到的結(jié)果等同于先計(jì)算函數(shù)f,然后計(jì)算應(yīng)用群G作用得到的結(jié)果一樣時(shí),我們稱函數(shù)f關(guān)于變換G是等變的,如公式(2)所示:
其中,g∈G是對(duì)稱群G的一個(gè)群元素。
不變性:同理,當(dāng)一個(gè)函數(shù)f:X→Y的定義域X被對(duì)稱群G作用,然后計(jì)算函數(shù)f所得到的結(jié)果同直接計(jì)算函數(shù)f得到的結(jié)果一樣時(shí),我們稱函數(shù)f關(guān)于變換G是不變的,如公式(3)所示:
在分類任務(wù)中,我們期待的是對(duì)輸入進(jìn)行任何對(duì)稱變換,最終得到的結(jié)果不發(fā)生變化,即不變性。通常的解決辦法是將具有不變性的函數(shù)f與等變函數(shù)fk組合在一起,最終達(dá)到不變性。證明過程如式(4)所示[28]:
其中:群表示π1,…,πK分別作用于函數(shù)f1,…,fK上,且fk關(guān) 于πk,πk-1等 變,即fk°πk-1=πk°fk,k∈{1,2,…,K},函數(shù)f關(guān)于πk不變,即f°πk=f,因此f°fK°…°f1是不變函數(shù)。
群等變:深度學(xué)習(xí)中最常見的等變是卷積層的平移等變性,即Lt f(x)=f(x+t),然而卻不具備旋轉(zhuǎn)等變性,即Lr f(x)≠f(r°x)。為了能處理多姿態(tài)數(shù)據(jù),最初的辦法是數(shù)據(jù)擴(kuò)充[29-30]。2016 年,文獻(xiàn)[8]基于p4 群和p4m 群首次提出了具有旋轉(zhuǎn)對(duì)稱性的群等變卷積神經(jīng)網(wǎng)絡(luò)。從此,關(guān)于群等變性的研究吸引了許多學(xué)者的注意。例如文獻(xiàn)[11,31-32]提出基于SO(3)的三維旋轉(zhuǎn)群,文獻(xiàn)[33-34]提出基于SE(d)的平移旋轉(zhuǎn)群,文獻(xiàn)[35]提出基于R*×T(2)的平移放縮群等。
本文使用通用于圖像和點(diǎn)云的點(diǎn)卷積網(wǎng)絡(luò)[36-37],其定義如公式(5)所示:
其中:gθ:Rd→為卷積濾波器,f(·):Rd→為輸入特征圖,h(·):Rd→為輸出。
離散化后如公式(6)所示:
其中:V為積分空間體積,n為正交點(diǎn)的數(shù)量。在例如圖像的3×3 卷積層中,gθ對(duì)每個(gè)落在3×3網(wǎng)格上的點(diǎn):(-1,-1),(-1,0),…,(1,1)都有獨(dú)立的參數(shù)。
我們考慮一個(gè)單次數(shù)據(jù)流的類增量場(chǎng)景,它模擬了一個(gè)實(shí)際的設(shè)置,模型必須對(duì)每個(gè)傳入的示例執(zhí)行在線更新,而無需重復(fù)多次訓(xùn)練。在每個(gè)任務(wù)t到來時(shí),系統(tǒng)從數(shù)據(jù)流中接收一組新的樣本:其 中,bs 為每組 的樣本 個(gè)數(shù),xi為原輸入樣本,yi為樣本的標(biāo)簽??紤]到目標(biāo)的多姿態(tài)時(shí),其輸入表示為Tg xi,意為原樣本發(fā)生幾何變換(旋轉(zhuǎn)、平移)后的結(jié)果;g為SE(d)(d=2,3)群的一個(gè)群元素,是對(duì)應(yīng)幾何變換的群表示。
模型結(jié)構(gòu)如圖1 所示,主要包含兩部分:(1)可以提取豐富的幾何特征的分類器θ;(2)基于損失變化的記憶重放。
圖1 模型結(jié)構(gòu)圖Fig.1 Model structure diagram
為了降低OCIL 任務(wù)中網(wǎng)絡(luò)受目標(biāo)姿態(tài)的影響,同時(shí)提取更豐富的幾何特征,減少災(zāi)難性遺忘,我們提出具有抗旋轉(zhuǎn)平移幾何變換能力的分類器,即圖1 中的θ。分類器為在骨干網(wǎng)絡(luò)PointNet++[38]上進(jìn)行的改造,主要加入3 部分:點(diǎn)云化處理、群等變點(diǎn)卷積層和群全局池化層。
點(diǎn)云化處理負(fù)責(zé)將原輸入轉(zhuǎn)換成點(diǎn)云數(shù)據(jù),其過程如公式(7)所示:
其中:x是原始輸入,當(dāng)輸入是圖像數(shù)據(jù)時(shí)d=2,當(dāng)輸入是3D 數(shù)據(jù)時(shí)d=3;y是原始輸入映射到高維空間后的點(diǎn)云化結(jié)果,即,xi是點(diǎn)云坐標(biāo),其原點(diǎn)為輸入樣本的幾何中心,fi為每個(gè)點(diǎn)所對(duì)應(yīng)的特征值。例如,在CIFAR-10 數(shù)據(jù)集中,xi為(-16,16),(-15,16),…,(16,-16),對(duì)應(yīng)原樣本圖片從左上角到右下角的坐標(biāo);fi是為原樣本圖片從左上角到右下角每個(gè)像素點(diǎn)所對(duì)應(yīng)的特征值。點(diǎn)云化處理后的高維信息同時(shí)包含了幾何位置和每個(gè)點(diǎn)的特征信息,使得數(shù)據(jù)特征更加豐富,從而能夠更好地提取幾何特征。
群等變點(diǎn)卷積層負(fù)責(zé)對(duì)網(wǎng)絡(luò)進(jìn)行平移旋轉(zhuǎn)等變性改進(jìn)。將點(diǎn)云化信息映射到更高維的空間以提取特征,是使網(wǎng)絡(luò)抗旋轉(zhuǎn)平移幾何變換的關(guān)鍵,其定義由公式(8)和公式(9)給出:
其 中:g∈SE(d),d=2 適用于xi∈R2,d=3 適用 于xi∈R3,{ui∈SE(d):u0=x},ni=|nbhd(i)|為每個(gè)點(diǎn)鄰域中的點(diǎn)數(shù)。公式(8)只適用于點(diǎn)卷積的第一層,其將輸入從歐式空間映射到了SE(d)所在的李代數(shù)空間,即:Z2?SE(d);公式(9)適用于除第一層以外的所有點(diǎn)卷積層,其在李代數(shù)空間進(jìn)行映射,即SE(d)?SE(d)。值得注意的是,在考慮姿態(tài)的在線類增量學(xué)習(xí)設(shè)定下,xi在不同時(shí)刻表現(xiàn)為不同的Tg xi,即同一個(gè)樣本每次出現(xiàn)都會(huì)表現(xiàn)為不同的姿態(tài)(發(fā)生了不同的平移和旋轉(zhuǎn))。另外,由于SE(d)群是連續(xù)群,并不能窮舉g的所有的情況,我們使用哈爾測(cè)度μ進(jìn)行均勻采樣。
點(diǎn)云化處理后,顯式地蘊(yùn)含了位置信息和特征信息。而群等變點(diǎn)卷積層則能夠?qū)⑤斎胗成涞絊E(d)所在的李代數(shù)空間,該空間融合了樣本不同位置和角度的特征,能夠使網(wǎng)絡(luò)不受目標(biāo)姿態(tài)的影響。同時(shí),點(diǎn)卷積能夠使每個(gè)點(diǎn)鄰域范圍內(nèi)的特征進(jìn)行聚合,表征一定范圍內(nèi)的幾何信息,從而使網(wǎng)絡(luò)能夠提取更豐富的幾何特征。
群等變點(diǎn)卷積層的具體實(shí)現(xiàn)算法流程如算法1 所示,其關(guān)于旋轉(zhuǎn)和平移變換是等變的,證明過程如式(10)所示:
其中:Lt f表示對(duì)輸入進(jìn)行t(旋轉(zhuǎn)平移)變換,第一行到第二行令x=tx。證明結(jié)果滿足公式(2)中等變性的定義。
群全局池化層與普通的池化層類似,包括最大池化和平均池化等,本文使用了全局最大池化(GlobalMaxPooling,GP),其定義如公式(11)所示:
其中,gU是SE(d)的子群U上的一個(gè)g變換。對(duì)GP 層的輸入進(jìn)行對(duì)稱變化,其輸出總是不變的,即GP 具有不變性,滿足公式(3),放在網(wǎng)絡(luò)的最后用來使模型整體達(dá)到不變性的效果,相當(dāng)于公式(4)中的f,其示意圖如圖2 所示,ki∈gU。
圖2 全局最大池化層Fig.2 Global maximum pooling layer
為了應(yīng)對(duì)OCIL 挑戰(zhàn),基于記憶重放的方法在固定內(nèi)存中儲(chǔ)存少量訪問過的數(shù)據(jù),并在未來的任務(wù)中進(jìn)行回放,都取得了很好的成效[7,39-40]。我們分配一個(gè)固定內(nèi)存大小的記憶存儲(chǔ)器M(容量為M),當(dāng)樣本流到達(dá)時(shí),使用隨機(jī)采樣[41]來保證記憶的多樣性,同時(shí),儲(chǔ)存了每個(gè)樣本最近一次的損失L,即存儲(chǔ)器中為為了保證M 中的樣本均衡,在每個(gè)新類到達(dá)時(shí)舍棄一部分舊樣本來儲(chǔ)存新樣本,并保證每個(gè)類別的數(shù)量相同。
記憶重放涉及的關(guān)鍵一步是回放樣本的選擇,我們采用與[7,42]類似的假設(shè),即模型應(yīng)該優(yōu)先回放被忘記的樣本,以減少對(duì)早期任務(wù)類別的災(zāi)難性遺忘。算法2 描述了具體的重放過程。在時(shí)刻t,舊模型θold從數(shù)據(jù)流D中接收一批數(shù)據(jù),根據(jù)損失L1執(zhí)行更新產(chǎn)生臨時(shí)模型θtemp,如公式(12)和公式(13)所示:
其中:?為交叉熵?fù)p失函數(shù),α為學(xué)習(xí)率。接著從存儲(chǔ)器中抽取n2≥n1組數(shù)據(jù),根據(jù)臨時(shí)模型θtemp計(jì)算損失L2,并與Lm進(jìn)行比較,挑出損失變化最大的n1組L2用于更新θtemp,從而產(chǎn)生新模型θnew,如公式(14)和公式(15)所示:
我們使用MNIST[43]、RotMNIST[44]、CIFAR-10[45]、trCIFAR-10、ModelNet40[46]和trModel-Net40 數(shù)據(jù)集來評(píng)估本文提出的方法。其中,Rot-MNIST 數(shù)據(jù)集由62 000個(gè)隨機(jī)旋轉(zhuǎn)的MNIST 數(shù)字組成,旋轉(zhuǎn)角度從SO(2)中均勻采樣。trCIFAR-10 和trModelNet40 為我們對(duì)CIFAR-10 和Model-Net40 進(jìn)行隨機(jī)的平移和旋轉(zhuǎn)的幾何變換,模擬真實(shí)多姿態(tài)場(chǎng)景。MNIST、CIFAR-10、Model-Net40 用于固定姿態(tài)目標(biāo)實(shí)驗(yàn),如圖3(a)所示。RotMNIST、trCIFAR-10、trModelNet40 用于多姿態(tài)目標(biāo)的實(shí)驗(yàn),如圖3(b)所示。我們列出了每個(gè)數(shù)據(jù)集的實(shí)驗(yàn)設(shè)置:
圖3 固定姿態(tài)目標(biāo)(a)與多姿態(tài)目標(biāo)(b)Fig.3 Fixed posture target(a)and multi-posture target(b)
(1)MNIST 和RotMNIST:按照每2 類為一個(gè)任務(wù),分為5 個(gè)不同的任務(wù);將圖片轉(zhuǎn)為特征值為像素值的2D 點(diǎn)云輸入,即,其中xi∈R2,fi∈R。遵從文獻(xiàn)[7]的設(shè)定,每項(xiàng)任務(wù)分配1 000 個(gè)樣本用于訓(xùn)練。
(2)CIFAR-10 和trCIFAR-10:按照每2 類為一個(gè)任務(wù),分為5 個(gè)不同的任務(wù)。將圖片轉(zhuǎn)為特征值為像素值的2D 點(diǎn)云輸入,即其中xi∈R2,fi∈R3。遵從文獻(xiàn)[7]的設(shè)定,每項(xiàng)任務(wù)分配9 500 個(gè)樣本用于訓(xùn)練。
(3)ModelNet40 和trModelNet40:按照每4 類為一個(gè)任務(wù),分為10 個(gè)不同的任務(wù);點(diǎn)云輸入為其 中xi∈R3,fi=1。由 于Model-Net40 數(shù)據(jù)集不同類的樣本數(shù)量不同,故取每類的80%用于訓(xùn)練,即共有9 843 個(gè)數(shù)據(jù)流用于訓(xùn)練。
本文所有實(shí)驗(yàn)都在同一學(xué)習(xí)環(huán)境下進(jìn)行,如表1 所示。
表1 實(shí)驗(yàn)環(huán)境Tab.1 Experimental environment
對(duì)于固定姿態(tài)目標(biāo)和多姿態(tài)目標(biāo)的實(shí)驗(yàn),我們考慮了以下設(shè)定作為評(píng)價(jià)基線:
(1)finte-tuning:微調(diào),在新任務(wù)到達(dá)時(shí)連續(xù)訓(xùn)練,不采用任何防遺忘策略,作為實(shí)驗(yàn)對(duì)照下限;
(2)iid online:所有任務(wù)數(shù)據(jù)同時(shí)出現(xiàn)并訓(xùn)練一次;
(3)iid offline:允許數(shù)據(jù)多次出現(xiàn)重復(fù)訓(xùn)練,作為實(shí)驗(yàn)的上限。
這些基線所使用的分類器都是3.1 節(jié)中具有多姿態(tài)識(shí)別能力的分類器。為了評(píng)估不同方法的效果,我們引入兩個(gè)評(píng)價(jià)指標(biāo):最終平均準(zhǔn)確率(AvgACC)和平均遺忘率(AvgF)[41]。
我們?cè)?D 數(shù)據(jù)集上進(jìn)行了評(píng)估,即MNIST、RotMNIST、CIFAR-10 和trCIFAR-10。除 了4.3 節(jié)中提到的基線外,本節(jié)還使用了其他兩種基于記憶重放的類增量學(xué)習(xí)方法作為面向2D 數(shù)據(jù)的對(duì)照實(shí)驗(yàn):ER[41]和ER-MIR[7]。我們統(tǒng)一了記憶存儲(chǔ)器的容量M=500,且每批數(shù)據(jù)只迭代1 次。每組實(shí)驗(yàn)進(jìn)行了20 次并取平均值,結(jié)果如表2 所示。
表2 2D 圖像數(shù)據(jù)上的實(shí)驗(yàn)結(jié)果Tab.2 Experimental results on 2D image data
可以看到,當(dāng)面對(duì)固定姿態(tài)目標(biāo)MNIST 時(shí),本文方法的AvgACC 和AvgF 分別為88.0%和4.1%,均優(yōu)于ER 和ER-MIR 方法,且AvgACC 與基線iid online 接近,說明本文方法可以有效緩解災(zāi)難性遺忘,實(shí)現(xiàn)任務(wù)之間的穩(wěn)定性。當(dāng)面對(duì)固定姿態(tài)目標(biāo)CIFAR-10時(shí),本文方法的AvgACC 明顯優(yōu)于ER,與ER-MIR 相比也僅差3.7%,但AvgF明顯優(yōu)于ER 和ER-MIR,證明本文方法可以很大程度緩解災(zāi)難性遺忘。
而當(dāng)面對(duì)多目標(biāo)姿態(tài)RotMNIST 時(shí),ER 和ER-MIR 與它們?cè)贛NIST 中的表現(xiàn)相比具有顯著的變化,AvgACC分別下降了59.0%和56.9%,AvgF 也分別增加了24.6%和23.4%,說明ER和ER-MIR 在面對(duì)多姿態(tài)目標(biāo)時(shí)均不能學(xué)習(xí)到有效信息,且遺忘率明顯增加,并不適用于真實(shí)場(chǎng)景。而本文方法與在MNIST 中的表現(xiàn)相比,AvgACC只下降了約1.9%,AvgF只增加了0.4%。在20 次的實(shí)驗(yàn)中,本文方法的AvgACC 均保持在85%以上,證明本文方法可以有效抵抗目標(biāo)姿態(tài)所帶來的影響,且對(duì)災(zāi)難遺忘有明顯的緩解作用。當(dāng)面對(duì)多目標(biāo)姿態(tài)trCIFAR-10 時(shí),本文方法的表現(xiàn)與上面所述一致,受目標(biāo)姿態(tài)影響很小,AvgACC 只降低了約2.2%,AvgF 只增加了1%。而ER 和ER-MIR 在面對(duì)多姿態(tài)目標(biāo)trCIFAR-10時(shí)的AvgACC 不及它們?cè)诠潭ㄗ藨B(tài)目標(biāo)CIFAR-10 中表現(xiàn)的1/2。雖然AvgF 并沒有很大變化,甚至ER 在trCIFAR-10 中的AvgF 要略低于在CIFAR-10 中的AvgF,但這是由于ER 本身在學(xué)習(xí)中的最高準(zhǔn)確率很低所導(dǎo)致。
圖4中列出了本文方法和ER-MIR方法中每個(gè)任務(wù)在不同時(shí)期的分類精度對(duì)比。如圖4(a~d)所示,當(dāng)面對(duì)數(shù)據(jù)集MNIST 時(shí),本文方法和ERMIR 的表現(xiàn)不相上下,每類任務(wù)的最終準(zhǔn)確率都與最初的準(zhǔn)確率相比并沒有太大變化,說明本文方法和ER-MIR 在面對(duì)固定姿態(tài)目標(biāo)時(shí)都能提取有效的特征,并對(duì)災(zāi)難性遺忘有很好的抵抗力,面對(duì)OCIL 這種嚴(yán)格的設(shè)定能保證穩(wěn)定性。而當(dāng)面對(duì)RotMNIST 時(shí),ER-MIR 變得不再穩(wěn)定,在后續(xù)任務(wù)中發(fā)生了災(zāi)難性遺忘,每類任務(wù)的最終準(zhǔn)確率與初始準(zhǔn)確率相比有明顯的差距,下降到了20%~45%,遠(yuǎn)不及它在MNIST 中的表現(xiàn)。相比之下,本文方法在面對(duì)RotMNIST 時(shí)仍能保證最終準(zhǔn)確率與初始準(zhǔn)確率很小的差距,維持在76%~97%,且與在MNIST 中的表現(xiàn)相差無幾,證明本文方法并不受目標(biāo)姿態(tài)的影響,在OCIL 任務(wù)中有效緩解災(zāi)難性遺忘,具有很好的穩(wěn)定性。
如圖4(e~h)所示,當(dāng)面對(duì)CIFAR-10 這種更有挑戰(zhàn)的數(shù)據(jù)集時(shí),本文方法和ER-MIR 雖然都有一定的遺忘,但它們的最終準(zhǔn)確率也都能保持在33%以上。而當(dāng)面對(duì)trCIFAR-10 時(shí),ERMIR 的第一個(gè)任務(wù)和第二個(gè)任務(wù)的最終準(zhǔn)確率下降至10%以下,第三個(gè)任務(wù)的準(zhǔn)確率也下降到了20%以下,均發(fā)生了嚴(yán)重的遺忘。相比之下,本文方法依舊能和在CIFAR-10 中的表現(xiàn)一樣,有效地消除了目標(biāo)姿態(tài)所帶來的影響,具有相對(duì)較好的穩(wěn)定性。
從圖4 中還可以看到,本文方法在這4 種數(shù)據(jù)集中每類任務(wù)的最終準(zhǔn)確率相差不超過22%(分別為12%,22%,19%,18%),并沒有出現(xiàn)由于單任務(wù)準(zhǔn)確率高而提高平均準(zhǔn)確率的現(xiàn)象,說明本文方法在OCIL 任務(wù)中不僅不受目標(biāo)姿態(tài)的影響,還有很好的平衡性。
為了驗(yàn)證本文方法性能,我們進(jìn)一步在3D數(shù)據(jù)集ModelNet40 上進(jìn)行了實(shí)驗(yàn)。在我們的了解中,并沒有發(fā)現(xiàn)面向3D 數(shù)據(jù)的OCIL 的相關(guān)研究,因此,本部分的對(duì)照實(shí)驗(yàn)只采用3.3 節(jié)中所提到的基線實(shí)驗(yàn)。同時(shí),設(shè)定記憶存儲(chǔ)器的容量M=4 000,即每個(gè)任務(wù)存儲(chǔ)200 個(gè)樣本,且每批數(shù)據(jù)依舊只迭代1 次來保持online 的設(shè)定。每組實(shí)驗(yàn)進(jìn)行了20 次并取平均值,結(jié)果如表3 所示??梢钥吹剑疚姆椒ㄔ诿鎸?duì)多姿態(tài)目標(biāo)trModel-Net40 時(shí)的性能與固定姿態(tài)目標(biāo)ModelNet40 的AvgACC 和AvgF 都相差不大,分別約為4%和2%,且AvgACC 超過了基線idd online 的結(jié)果,證明本文方法在面對(duì)3D 目標(biāo)時(shí)也可以做到無視目標(biāo)的姿態(tài),同時(shí)對(duì)災(zāi)難性遺忘有很大程度的緩解。
表3 3D 數(shù)據(jù)上的實(shí)驗(yàn)結(jié)果對(duì)比Tab.3 Experimental results on 3D data
為了評(píng)估不同姿態(tài)對(duì)OCIL 任務(wù)的影響,我們?cè)贛NIST 數(shù)據(jù)集上進(jìn)行了補(bǔ)充實(shí)驗(yàn),如圖5 所示。其中,橫軸表示樣本的姿態(tài)變化范圍,如“60”表示數(shù)據(jù)流在[-60°,60°]范圍內(nèi)隨機(jī)旋轉(zhuǎn),以此類推,來模擬樣本姿態(tài)的豐富程度。從圖5 可以明顯看到,隨著角度變化范圍的增大,ER 方法和ER-MIR 方法的AvgACC 逐漸下降,尤其在60°后有顯著的下降,并最終下降到基線fine-tuning附近,可見樣本姿態(tài)對(duì)傳統(tǒng)方法有較大的影響。相比之下,本文方法的AvgACC 隨著角度變化范圍的增大只有較小的波動(dòng),波動(dòng)范圍保持在3%以內(nèi),證明本文方法可以在很大程度上降低目標(biāo)姿態(tài)的影響,有很好的穩(wěn)定性。
圖5 MNIST 不同姿態(tài)的結(jié)果Fig.5 Results of MNIST with different postures
與傳統(tǒng)增量學(xué)習(xí)不同,本文考慮了更切合實(shí)際的復(fù)雜場(chǎng)景,即面向多姿態(tài)目標(biāo)的在線類增量學(xué)習(xí),該設(shè)定加劇了災(zāi)難性遺忘。為了解決這個(gè)問題,本文提出了通用于2D 和3D 數(shù)據(jù)的在線類增量學(xué)習(xí)方法。該算法的網(wǎng)絡(luò)框架基于SE(d)李群引入旋轉(zhuǎn)平移等變機(jī)制,使網(wǎng)絡(luò)可以更好地提取目標(biāo)的幾何信息,從而使模型不受目標(biāo)姿態(tài)的影響,增加模型的可塑性。本文還提出了基于損失變化的記憶重放方法,能夠配合我們的分類器緩解災(zāi)難性遺忘,在穩(wěn)定性和可塑性直接得到很好的權(quán)衡。本文方法在MNIST、RotMNIST、CIFAR-10、trCIFAR-10、ModelNet40 和trModel-Net40 數(shù)據(jù)集上進(jìn)行多次實(shí)驗(yàn)并獲得了有競(jìng)爭(zhēng)力的結(jié)果,其中AvgACC 除了在CIFAR-10 表現(xiàn)略低于ER-MIR 外,其余都取得了最好的結(jié)果,分別為88.0%,86.1%,42.6%,40.4%,52.8%,48.8%;AvgF 則在所有情況下都為最優(yōu),分別為4.1%,4.5%,19.3%,20.3%,22.0%,24.0%。實(shí)驗(yàn)結(jié)果驗(yàn)證了本文方法的有效性,能夠同時(shí)做到不受目標(biāo)姿態(tài)的影響并緩解災(zāi)難性遺忘。