莫建文 朱彥橋 袁華 林樂平 黃晟洋
(桂林電子科技大學(xué) 信息與通信學(xué)院,廣西 桂林 541004)
快速適應(yīng)環(huán)境變化的能力是衡量深度學(xué)習(xí)模型性能的重要指標(biāo)之一,但一般的深度學(xué)習(xí)模型往往缺乏這樣的能力。當(dāng)它們不能一次性地訪問所有訓(xùn)練數(shù)據(jù),而只能按順序處理分布在變化的連續(xù)數(shù)據(jù)時,它們會在反向傳播過程中調(diào)整學(xué)習(xí)到的參數(shù)以適應(yīng)新的數(shù)據(jù),從而遺忘了先前學(xué)習(xí)到的知識,這樣的現(xiàn)象可稱為災(zāi)難性遺忘??朔?zāi)難性遺忘是當(dāng)今人工智能領(lǐng)域的重點和難點之一[1]。目前,克服災(zāi)難性遺忘問題的方法主要分為3類:基于樣本回放的方法、基于參數(shù)隔離的方法以及基于正則化的方法[2]。
基于樣本回放的方法通過保留從舊樣本集中抽取的原始樣本,將它們和新任務(wù)的樣本進行聯(lián)合訓(xùn)練來達到記憶的目的,如Rebuff等[3]通過篩選出最接近類均值的樣本并存儲。當(dāng)原始樣本無法隨時獲取時,一個替代方案是利用生成模型合成與原始樣本相似的偽樣本[4-5]。
基于參數(shù)隔離的方法則是將模型參數(shù)劃分為不同的子集,每個子集都對應(yīng)特定的數(shù)據(jù)集,在訓(xùn)練過程中只對當(dāng)前任務(wù)的數(shù)據(jù)集所屬的參數(shù)集進行訓(xùn)練。若模型容量沒有限制,則可以在原始架構(gòu)基礎(chǔ)上為新任務(wù)增加新的網(wǎng)絡(luò)分支[6-7]。當(dāng)無法對模型進行擴展時,則可以在學(xué)習(xí)新任務(wù)時使用二進制掩碼隔離那些用于識別舊圖像樣本的參數(shù)[8-9]。
基于正則化的方法不需要保存原始樣本。它通過在損失函數(shù)中添加額外的正則項來控制參數(shù)的調(diào)整幅度,避免與舊樣本關(guān)聯(lián)較大的參數(shù)被過度優(yōu)化。這方面最早的工作為Kirkpatrick等[10]提出的EWC。之后的SI[11]、MAS[12]、Rwalk[13]等也沿用了EWC的思想,主要區(qū)別在于衡量參數(shù)重要性的方式。貝葉斯增量學(xué)習(xí)是該類方法的另一種應(yīng)用場景,它的基本框架從傳統(tǒng)神經(jīng)網(wǎng)絡(luò)變?yōu)樨惾~斯神經(jīng)網(wǎng)絡(luò),在這樣的框架下,網(wǎng)絡(luò)權(quán)值不再是定值,而是由均值和方差定義的概率分布。Blundell等[14]詳細闡述了如何將貝葉斯推理應(yīng)用于神經(jīng)網(wǎng)絡(luò),而后很多工作在此基礎(chǔ)上將貝葉斯推理推廣到增量式場景。Ebrahimi等[15]提出了以權(quán)值的不確定性為重要性判別標(biāo)準(zhǔn)的持續(xù)學(xué)習(xí)算法UCB;Li等[16]為每個任務(wù)訓(xùn)練一個獨立模型,通過整合各模型的相似部分并保留各自的不同部分來合成一個能記憶所有知識的通用模型。
上述方法在增量學(xué)習(xí)領(lǐng)域都取得了很好的效果,但也存在一些可改進的地方。首先,基于正則化的方法[10-13,15]和基于參數(shù)隔離的方法[7]大多是對單個權(quán)值的重要性進行判別并執(zhí)行正則或隔離操作,而基于單個權(quán)值的操作會出現(xiàn)重要性不同的權(quán)值共享同一神經(jīng)元的現(xiàn)象,這種現(xiàn)象會使得舊任務(wù)中樣本重要性較低的權(quán)值在訓(xùn)練新樣本時發(fā)生改變,進而導(dǎo)致神經(jīng)元從舊樣本中學(xué)習(xí)到的重要特征也發(fā)生改變,從而造成遺忘;相反,當(dāng)將正則操作提升到節(jié)點層面后,模型對數(shù)據(jù)變化的敏感度會顯著降低,在新任務(wù)的訓(xùn)練中可以通過開發(fā)重要性較低的神經(jīng)元來減少對舊任務(wù)的干擾,從而緩解遺忘問題。其次,以上方法并沒能進一步發(fā)掘模型的學(xué)習(xí)能力,因為在容量有限的模型中,優(yōu)先訓(xùn)練的樣本總是能獲得更多的資源,但這些資源由于已經(jīng)被施加了較強的正則化或被顯式地隔離,它們對于新任務(wù)來說是難以訓(xùn)練的,所以隨著可訓(xùn)練資源的減少,未來任務(wù)的性能會因此而大幅度下降。
針對以上問題,本文提出了一種基于神經(jīng)元正則和資源釋放機制的貝葉斯增量學(xué)習(xí)算法NR-RRM。首先,NR-RRM算法將權(quán)值的標(biāo)準(zhǔn)差以節(jié)點為單位進行統(tǒng)一,然后將這個統(tǒng)一的標(biāo)準(zhǔn)差作為同一節(jié)點下所有權(quán)值進行調(diào)整時的正則強度因子,在不引入額外操作的前提下完成對整個節(jié)點的約束。另外,為了更充分地發(fā)掘模型的持續(xù)學(xué)習(xí)能力,引入一個資源釋放機制,通過有選擇地釋放部分節(jié)點來為未來任務(wù)提供更大的學(xué)習(xí)空間。
首先以深度貝葉斯全連接神經(jīng)網(wǎng)絡(luò)為例對本文涉及到的變量進行概述,如圖1所示,L為神經(jīng)網(wǎng)絡(luò)層數(shù),Il為第l(l∈{1,2,…,L})層的神經(jīng)元數(shù),i∈{1,2,…,Il}表示第l層的第i個神經(jīng)元,如果是卷積神經(jīng)網(wǎng)絡(luò),則表示第i個卷積核,z為網(wǎng)絡(luò)權(quán)值矩陣的集合,zl?z為第l層權(quán)值的集合,zl,(i,j)∈zl為第l層第i個神經(jīng)元的第j個權(quán)值。由于在貝葉斯神經(jīng)網(wǎng)絡(luò)中權(quán)值z都是以概率分布的形式存在,故θ=(μ,σ)定義為權(quán)值概率分布的參數(shù)(均值μ、標(biāo)準(zhǔn)差σ)集合。
圖1 貝葉斯神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)Fig.1 Structure of Bayesian neural network
貝葉斯推理過程需要一個完整的概率模型,其中包括數(shù)據(jù)集D(X,Y)及其先驗P(D)、數(shù)據(jù)的似然P(D|z)和模型的先驗P(z),然后根據(jù)貝葉斯公式求出模型的后驗分布:
(1)
但在增量式場景下,數(shù)據(jù)變?yōu)榘错樞蜉斎刖W(wǎng)絡(luò):D(X,Y)={(x1,y1),(x2,y2),…,(xk,yk)},網(wǎng)絡(luò)也只能按順序觀測相應(yīng)數(shù)據(jù),且對于已經(jīng)觀測過的數(shù)據(jù)無法再次訪問,在這樣的場景下,貝葉斯公式表示為
(2)
式中,Dk-1和Dk分別表示模型已經(jīng)觀測到的先前任務(wù)的舊數(shù)據(jù)和即將要觀測的當(dāng)前任務(wù)的新數(shù)據(jù),P(Dk|z)、P(z|Dk)和P(z|Dk-1)分別表示新數(shù)據(jù)的似然、模型訓(xùn)練新任務(wù)后形成的后驗分布以及模型只觀測到舊數(shù)據(jù)時的后驗分布。
由于在現(xiàn)實中,直接計算后驗分布非常困難,因此,精確高效地近似后驗分布是貝葉斯推理的關(guān)鍵。Blundell等[14]使用變分近似的方法來優(yōu)化一個貝葉斯神經(jīng)網(wǎng)絡(luò),與標(biāo)準(zhǔn)變分貝葉斯推理類似,增量式的變分貝葉斯推理,其核心在于為當(dāng)前模型構(gòu)建一個基于參數(shù)簇θ=(μ,σ)的高斯分布:
(3)
然后通過最小化Qk(z|θ)與P(z|Dk)的KL散度求出一個近似P(z|Dk)的分布:
dKL[Qk(z|θ)‖P(z|Dk)]=
(4)
式中,logaP(Dk)是一個與參數(shù)無關(guān)的常數(shù)(a>1),若保持logaP(Dk)不變,則可以將最小化KL散度的問題轉(zhuǎn)化為求解最佳變分參數(shù)的優(yōu)化問題:
Ez~Qk(z|θ)[logaP(Dk|z)]
(5)
式中:Fdata(θ)=Ez~Qk(z|θ)[logaP(Dk|z)],是當(dāng)前數(shù)據(jù)的對數(shù)似然;在Freg(θ)=dKL[Qk(z|θ)‖P(z|Dk-1)]中舊任務(wù)的后驗P(z|Dk-1)取代了P(z)作為新任務(wù)的先驗。
(6)
KL散度的計算是變分推理的關(guān)鍵,UCB[15]采用了將Fdata(θ)和Freg(θ)一起進行蒙特卡洛采樣后得到的近似形式,但這里采用文獻[19]的方法,將KL散度項轉(zhuǎn)化為均值與方差的形式,由于貝葉斯推理通??梢约僭O(shè)所有變量之間相互獨立,因此可以將KL散度項分解為多個一元高斯函數(shù)后再進行解析計算:
dKL[Q(z|θk)‖P(z|Dk-1)]=F(μk)+F(σk)=
(7)
式(7)的正則化操作仍然停留在權(quán)值層面,為了實現(xiàn)將正則化操作提升到神經(jīng)元層面的目標(biāo),這里采用對每個神經(jīng)元的權(quán)值進行統(tǒng)一限制的方法。
以第l層為例,在重參數(shù)化階段將標(biāo)準(zhǔn)差矩陣σl中的元素以節(jié)點為單位分為I組,并將每組元素都限制為一個相同的值:
(8)
然后用這I個值構(gòu)成一個新向量:
(9)
根據(jù)式(9)將F(μk)改寫為
(10)
前面的操作雖然能有效緩解災(zāi)難性遺忘,但卻對未來任務(wù)非常不利,因為模型限制了大部分資源的更新,所以留給后續(xù)任務(wù)的可訓(xùn)練資源會急劇減少。為了讓資源得到更合理的分配,本文在前面操作的基礎(chǔ)上引入一個資源釋放機制(RRM)。
1.4.1 權(quán)值篩選
資源釋放機制首先涉及到一個權(quán)值篩選的過程。同樣以第l層為例,在訓(xùn)練之前,首先將第l層中的權(quán)值根據(jù)方差的大小進行排序:
(11)
然后將I組權(quán)值中方差大于該閾值的i組視為重要性較低的權(quán)值,釋放它們對舊任務(wù)性能造成的影響較小,而對于其余I-i組權(quán)值,則認為其重要性相對較高,不進行釋放。
唯一的例外是第一個任務(wù),如1.2節(jié)所述,由于已經(jīng)將第一個任務(wù)的先驗指定為固定的高斯分布,所以對于第l層中的權(quán)值,它們的先驗方差都相等,無法比較大小,故在訓(xùn)練第一個任務(wù)時,根據(jù)比例r隨機選擇rI組權(quán)值進行釋放,其余未被選擇到的權(quán)值按照常規(guī)步驟進行訓(xùn)練。
1.4.2 釋放操作
根據(jù)前面計算出的閾值t,引入資源釋放機制,用數(shù)學(xué)公式表述如下:
(12)
(13)
至此,經(jīng)過改進后的損失函數(shù)為
(14)
基于神經(jīng)元正則化和資源釋放的貝葉斯增量學(xué)習(xí)算法的描述如下:
{輸入:數(shù)據(jù)訓(xùn)練集D(X,Y)={(x1,y1),…,(xk,yk)}
初始化:將先驗指定為均值為0、方差為2/Il-1的高斯分布
fork=1,2,…,Kdo
ifk=1 then
根據(jù)r隨機選擇rI組權(quán)值,令η>1;
其余(1-r)I組權(quán)值,令η=1;
根據(jù)式(12)優(yōu)化模型;
else
根據(jù)r確定釋放閾值t;
η>1;
else
η=1;
根據(jù)式(12)優(yōu)化模型;
end for}
本文使用3個公開的數(shù)據(jù)集MNIST、Fashion-MNIST和CIFAR10進行實驗,并從多個角度來驗證算法的效果。
MNIST數(shù)據(jù)集由手寫數(shù)字組成,共有10個類別,包括6萬個訓(xùn)練樣本和1萬個測試樣本,每幅圖像尺寸為28×28。在多任務(wù)設(shè)置中,通常按照Kirkpatrick等[10]提出的處理方法,以固定的排列方式將圖像的像素重新排列,形成多個分布不同的數(shù)據(jù)集,經(jīng)過改動后的數(shù)據(jù)集稱為Perturbation-MNIST。
Fashion-MNIST數(shù)據(jù)集由10類標(biāo)記服裝圖像組成,每幅圖像尺寸為28×28。相較于MNIST數(shù)據(jù)集,F(xiàn)ashion-MNIST數(shù)據(jù)集更貼近真實場景,更能反映模型的分類性能。在多任務(wù)設(shè)置中,可以以相同的方式對像素進行重排列,形成數(shù)據(jù)集Perturbation-Fashion。
CIFAR10數(shù)據(jù)集由10類彩色圖像組成,每幅圖像尺寸為32×32,每個類別各有6萬幅圖像,其中5萬幅為訓(xùn)練圖像,1萬幅為測試圖像。
為分析神經(jīng)元正則化和資源釋放機制對模型性能的影響,使用Perturbation-MNIST與Perturbation-Fashion數(shù)據(jù)集,在如圖1所示的3層全連接神經(jīng)網(wǎng)絡(luò)上進行實驗,以確定模型中每個部分的貢獻。對于Perturbation-MNIST數(shù)據(jù)集,每層節(jié)點數(shù)設(shè)為256,對于較難訓(xùn)練的Perturbation-Fashion數(shù)據(jù)集,節(jié)點數(shù)增加到400,并將WR(不對權(quán)值的標(biāo)準(zhǔn)差進行分組統(tǒng)一,直接根據(jù)單個權(quán)值的重要性進行正則的方法)作為參考。實驗結(jié)果如表1所示。從表中可知,在3種模型中,WR在兩個數(shù)據(jù)集上的分類精度均最低,當(dāng)對權(quán)值的正則化強度進行統(tǒng)一后,分類精度有了較明顯的提升,達到了89.67%和78.70%,最后加入資源釋放機制后,分類精度進一步提升,達到94.75%和82.11%。這表明,在模型容量固定的環(huán)境下,以神經(jīng)元為單位執(zhí)行正則化的模型能獲得比對單個權(quán)值進行正則化的模型更好的分類精度,而資源共享機制則進一步提高了模型的持續(xù)學(xué)習(xí)能力。
表1 3種模型的消融分析結(jié)果Table 1 Ablation analysis results of three models
以Perturbation-MNIST數(shù)據(jù)集為例,圖2展示了單個任務(wù)的分類精度隨著訓(xùn)練任務(wù)量的增加所發(fā)生的變化情況。由圖中可知,引入RRM后,模型在前3個任務(wù)上的分類精度略低于不增加RRM的模型,但在后續(xù)幾個任務(wù)上的分類精度明顯高于后者。這是因為不引入RRM時,模型為了記憶舊任務(wù)的信息而限制了權(quán)值的調(diào)整,所以前幾個任務(wù)都保持著較高的分類精度,但隨著訓(xùn)練任務(wù)量的增加,網(wǎng)絡(luò)中的可訓(xùn)練資源逐漸減少,導(dǎo)致后續(xù)任務(wù)的分類精度急劇下降。加入RRM后,后續(xù)任務(wù)因為獲得了更多可訓(xùn)練資源而使得分類精度大大提高,而且通過合理調(diào)節(jié)釋放比例和釋放強度,又能使舊任務(wù)的分類精度不會受到太大的影響。
圖2 單個任務(wù)的分類精度變化情況Fig.2 Variation of classification accuracy for a single task
為了理解模型的運行過程,本文對模型參數(shù)的變化進行分析。
首先將一層中的每組權(quán)值的標(biāo)準(zhǔn)差在每次訓(xùn)練后的取值以散點圖的形式展示,如圖3所示。從圖中可知:當(dāng)不加入資源釋放機制時,標(biāo)準(zhǔn)差的取值呈單調(diào)減小趨勢,這是因為模型的訓(xùn)練過程也是一個降低標(biāo)準(zhǔn)差令權(quán)值的取值趨于穩(wěn)定的過程;當(dāng)加入資源釋放機制后,標(biāo)準(zhǔn)差的取值分布不再呈嚴(yán)格的單調(diào)趨勢,這是因為有部分標(biāo)準(zhǔn)差的取值會因為釋放機制的作用而提高。
圖3 兩個模型權(quán)值的標(biāo)準(zhǔn)差分布Fig.3 Standard deviation distribution of the weights of two models
選取一組具有代表性的權(quán)值,分別在基于神經(jīng)元正則(NR)和加入RRM的模型(NR-RRM)中進行訓(xùn)練后,該組權(quán)值標(biāo)準(zhǔn)差的變化如圖4所示,在各個訓(xùn)練階段該組權(quán)值的均值變化量Δμl,(i).的范數(shù)‖Δμl,(i).‖2如圖5所示,因為向量的范數(shù)在一定程度上反映了向量中的元素大小,所以‖Δμl,(i).‖2可以反映出權(quán)值的變化幅度。
由圖4(b)可以觀察到,加入RRM后,權(quán)值的標(biāo)準(zhǔn)差在前幾個階段可能會有所提高,但在之后的某些階段,這些權(quán)值的標(biāo)準(zhǔn)差會有較大幅度的下降,同時,對應(yīng)階段的均值變化量也會比其他階段更大(見圖5(b)加粗部分),這說明權(quán)值可以為了更好地適應(yīng)新任務(wù)而進行較大幅度的調(diào)整。相反,如果模型沒有引入RRM(見圖4(a)),那么在訓(xùn)練的前期階段權(quán)值的標(biāo)準(zhǔn)差便會下降至接近于0,之后標(biāo)準(zhǔn)差的變化也都比較平穩(wěn),而均值的變化幅度也一直保持在較小的狀態(tài),這說明權(quán)值一旦被施加了很強的正則化,便很難進行調(diào)整以適應(yīng)新的樣本。
圖4 單組權(quán)值的標(biāo)準(zhǔn)差變化趨勢Fig.4 Trend of standard deviation of single group weights
圖5 兩個模型權(quán)值的均值變化趨勢Fig.5 Trends of the mean weights of two models
2.4.1 不同強度因子和選擇比例對模型性能的影響
分別選取3種釋放強度(η=2,3,4)和4種篩選比例(r=50%,70%,80%,100%),也將2.2節(jié)中提及的僅將正則化提升至神經(jīng)元層面卻不引入釋放機制(即η=1,r=100%)的方法與其他參數(shù)配置結(jié)果進行了比較,結(jié)果如表2所示。從表中可知:①僅將正則化提升至神經(jīng)元層面卻不引入釋放機制(即η=1,r=100%)的方法,在兩個數(shù)據(jù)集上獲得的分類精度均比大部分的配置要低,這進一步說明,釋放操作的引入對模型性能有著積極的影響。②對于任何一個釋放強度,令r=100%都很難使模型的分類精度達到最優(yōu),例如在Perturbation-MNIST數(shù)據(jù)集上,當(dāng)η等于2或3時,模型的分類精度都隨著釋放比例的增大而提高,但在r=100%時出現(xiàn)下降;而在Perturbation-Fashion上,當(dāng)η等于2或3且r=100%時的分類精度是最低的。這是因為資源釋放雖然對未來任務(wù)的學(xué)習(xí)有幫助,但不加選擇地進行釋放可能會使舊任務(wù)丟失重要性極高的資源,從而降低舊任務(wù)的分類精度,并不能令模型的性能有實質(zhì)性提高。
表2 NR-RRM模型在不同配置下的分類精度Table 2 Classification accuracy of NR-RRM model under different combinations
2.4.2 平衡系數(shù)配置對模型性能的影響
圖6 、γ對NR-RRM模型分類精度的影響Fig.6 Effects of and γ on the classification accuracy of NR-RRM model
2.5.1 多任務(wù)測試
將NR-RRM與目前最常使用的幾種增量學(xué)習(xí)方法進行性能比較。實驗采用與2.2節(jié)相同的3層全連接神經(jīng)網(wǎng)絡(luò),但對網(wǎng)絡(luò)的規(guī)模進行了不同設(shè)置,在不同網(wǎng)絡(luò)規(guī)模下幾種方法對Perturbation-MNIST和Perturbation-Fashion數(shù)據(jù)集的分類精度如圖7所示。從圖中可以看到,不管是在Perturbation-MNIST還是在Perturbation-Fashion數(shù)據(jù)集上,NR-RRM在不同網(wǎng)絡(luò)規(guī)模下都能獲得最高的分類精度。
圖7 多任務(wù)場景下幾種方法的分類精度比較Fig.7 Comparison of classification accuracy among several methods in multi-task scenarios
2.5.2 類增量測試
為了測試NR-RRM在類增量場景下的性能,分別將3個數(shù)據(jù)集內(nèi)的樣本按類別劃分為5個獨立的子集,每個子集包含兩個不同的類別,然后將這5個子集按順序輸入網(wǎng)絡(luò)進行二分類測試,其中Split-MNIST和Split-Fashion數(shù)據(jù)集繼續(xù)沿用多任務(wù)測試時的網(wǎng)絡(luò)結(jié)構(gòu),而Split-CIFAR10數(shù)據(jù)集則分別使用5種網(wǎng)絡(luò)(記為Net1、Net2、Net3、Net4和Net5)進行訓(xùn)練,這5種網(wǎng)絡(luò)的結(jié)構(gòu)均為3個卷積層加1個全連接層,每層的卷積核或神經(jīng)元數(shù)目從Net1至Net5依次減少。實驗結(jié)果如圖8所示,與其他方法相比,NR-RRM在幾種網(wǎng)絡(luò)結(jié)構(gòu)中都保持著最高的分類精度,說明NR-RRM同樣適用于類增量場景。
圖8 類增量場景下幾種方法的分類精度比較Fig.8 Comparison of classification accuracy among several methods in class incremental scenarios
2.5.3 網(wǎng)絡(luò)規(guī)模適用范圍分析
從圖7和圖8可知,NR-RRM所適用的網(wǎng)絡(luò)規(guī)模的范圍比其他增量學(xué)習(xí)方法更大。例如,對于多任務(wù)場景,在資源充足時,HAT方法[8]在兩個數(shù)據(jù)集上的分類精度與NR-RRM差別不大,但當(dāng)節(jié)點數(shù)分別減少到150和200時,其分類精度在兩個數(shù)據(jù)集上都出現(xiàn)了較明顯的下降,而NR-RRM只在節(jié)點數(shù)縮減到50和100時,其分類精度才會出現(xiàn)明顯的下降。
同樣的現(xiàn)象也出現(xiàn)在類增量場景中,在Split-MNIST和Split-Fashion數(shù)據(jù)集上,需要將每層節(jié)點數(shù)分別減少到30和50,在Split-CIFAR10數(shù)據(jù)集上需要使用Net5訓(xùn)練,NR-RRM的分類性能才會出現(xiàn)明顯的下降,而這一現(xiàn)象其他方法均會提前出現(xiàn)。而且當(dāng)NR-RRM的分類性能出現(xiàn)明顯下滑時,其分類性能仍然能保持優(yōu)于其他方法。
針對深度學(xué)習(xí)系統(tǒng)在增量式場景下進行圖像分類時容易產(chǎn)生災(zāi)難性遺忘的問題,本文提出了一種基于神經(jīng)元正則和資源釋放的增量學(xué)習(xí)算法NR-RRM,該算法在處理連續(xù)任務(wù)時不需要額外計算神經(jīng)元的信息量,而是將權(quán)值的方差以神經(jīng)元為單位進行分組統(tǒng)一,然后將方差的倒數(shù)作為重要性對每組權(quán)值施加相應(yīng)的正則化,并以適當(dāng)?shù)谋壤土Χ冉档筒糠謾?quán)值的重要性,使模型能更好地適應(yīng)新任務(wù)的資源釋放。實驗結(jié)果表明,資源釋放機制能明顯提升模型的分類精度,同時能使舊任務(wù)保持較小的性能損失。特別是在網(wǎng)絡(luò)資源較少的環(huán)境下,與目前較常用的方法相比,本文方法的分類性能能維持在一個相對較高的水平。