易 未,鄭沫利,趙艷軻,毛 力,孫 俊
(1.江南大學(xué) 物聯(lián)網(wǎng)工程學(xué)院,江蘇 無錫 214122;2.國貿(mào)工程設(shè)計院,北京 100037)
數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)技術(shù)在許多知識工程(例如分類、回歸和聚類)等領(lǐng)域取得了有意義的成就[1]。但是,很多機(jī)器學(xué)習(xí)算法只有在訓(xùn)練集與測試集數(shù)據(jù)來源于單一場景、具有相同的特征空間和數(shù)據(jù)分布以及樣本數(shù)量充足時,才能取得讓人滿意的實(shí)驗(yàn)結(jié)果。特別地,當(dāng)樣本數(shù)量不足時,容易出現(xiàn)過擬合現(xiàn)象,會顯著地降低學(xué)習(xí)算法的效果[2]。然而在現(xiàn)實(shí)生活中,得到目標(biāo)場景中的大量樣本數(shù)據(jù)是很困難的,例如待觀測的目標(biāo)本身數(shù)量較少且不支持多次觀測;或者是觀測一次成本過高,只能使用現(xiàn)有的少量數(shù)據(jù)。
加權(quán)ε支持向量回歸(ε-WSVR)算法具有扎實(shí)的理論基礎(chǔ)和較好的泛化能力,應(yīng)用在眾多領(lǐng)域[3-5]。該算法為不同的樣本設(shè)置不同的權(quán)值,給予樣本不同的精度要求和偏離精度要求的懲罰參數(shù),減輕標(biāo)準(zhǔn)支持向量機(jī)對孤立點(diǎn)或噪聲數(shù)據(jù)的敏感性,抑制過擬合現(xiàn)象的產(chǎn)生。
Bagging算法通過對目標(biāo)數(shù)據(jù)集進(jìn)行數(shù)次有放回地抽樣,形成多個不同的子數(shù)據(jù)集。然后在各個子數(shù)據(jù)集上使用基學(xué)習(xí)器,再將這些基學(xué)習(xí)器進(jìn)行結(jié)合。對于分類任務(wù)采用簡單投票法,對回歸任務(wù)采用簡單平均法,產(chǎn)生一個具有較強(qiáng)泛化能力的模型[6]。
遷移學(xué)習(xí)技術(shù)把目標(biāo)任務(wù)稱為目標(biāo)域(target),與目標(biāo)任務(wù)相關(guān)聯(lián)的其他任務(wù)稱為源域(domain),通過使用源域的數(shù)據(jù)或者知識來輔助建立目標(biāo)域模型,提高模型的泛化能力[7]。針對分類任務(wù),目前已經(jīng)提出了很多基于遷移學(xué)習(xí)的研究成果,例如Dai等人借用AdaBoosting算法的思想提出了TrAdaBoosting算法,將源域中適合目標(biāo)域模型訓(xùn)練的樣本權(quán)重增加、其他樣本權(quán)重減少[8];Liu等人借用Bagging算法的思想提出了BETL算法,在自助采樣后的子數(shù)據(jù)集上訓(xùn)練的初始分類器對未標(biāo)示數(shù)據(jù)進(jìn)行標(biāo)示,然后用擴(kuò)充了的標(biāo)示數(shù)據(jù)訓(xùn)練未標(biāo)示數(shù)據(jù)[9];Lin等人提出Double-bootstrapping算法,在訓(xùn)練集上使用自助采樣之后又再測試集上使用自助采樣,兩次自助采樣提升模型分類精度[10]。針對回歸任務(wù),史熒中等人使用支持向量回歸機(jī)(SVR)在歷史數(shù)據(jù)和目標(biāo)數(shù)據(jù)上構(gòu)建兩個盡可能相似的回歸超平面,但該方法一旦運(yùn)用到源域數(shù)據(jù)不為目標(biāo)域的歷史數(shù)據(jù)場景時,會給生成模型帶來一定干擾[11];Yu等人提出了改進(jìn)的RMTL算法,使用SVR在源域與目標(biāo)域數(shù)據(jù)上建立兩個回歸超平面模型,組合使用這兩個模型提升泛化能力[12]。
但以上研究并沒有對小樣本(樣本數(shù)小于30)情況下的遷移回歸進(jìn)行研究。文中針對小樣本數(shù)據(jù)情況下的回歸系統(tǒng)建模問題,提出了一種小樣本數(shù)據(jù)的遷移學(xué)習(xí)支持向量回歸機(jī)方法,以加權(quán)ε支持向量回歸機(jī)為Bagging算法的基學(xué)習(xí)器,使用與目標(biāo)任務(wù)相關(guān)聯(lián)的源域數(shù)據(jù)來彌補(bǔ)當(dāng)前場景數(shù)據(jù)不足的問題。實(shí)驗(yàn)證明,該方法減少了回歸誤差,提高了目標(biāo)模型的泛化能力。
對于ε支持向量回歸(ε-SVR)算法來說,設(shè)給定的訓(xùn)練樣本集合為D={(x1,y1),…,(xi,yj),…,(xm,ym)},xi∈RN,yi∈R,ε-SVR算法的基本思想是得到一個形如式(1)的回歸模型:
f(x)=ωT·Φ(x)+b
(1)
其中,ω與b是模型的參數(shù),Φ是一個非線性映射,將有限維x映射到一個高維特征空間使訓(xùn)練樣本線性可分,Φ(x)為將x映射后的特征向量。可以使用適當(dāng)?shù)暮撕瘮?shù)κ(xi,xj),使xi與xj在高維特征空間的內(nèi)積等于其在原始樣本空間上內(nèi)積的結(jié)果。
傳統(tǒng)回歸模型通常當(dāng)且僅當(dāng)模型的輸出f(x)與真實(shí)值y相等時,損失才為零,但是ε-SVR僅當(dāng)|f(x)-y|<ε時,損失才為零。于是ε-SVR可形式化為式(2):
(2)
約束條件為:
f(xi)-yi≤ε+ξi
(3)
加權(quán)ε支持向量回歸(ε-WSVR)算法[13]在式(2)的基礎(chǔ)上添加權(quán)值μ,得到式(4):
(4)
式(4)可以使用SMO(sequential minimal optimization)算法求解,算法的時間復(fù)雜度為Ο(n2.3)[14]。
源域中的樣本數(shù)據(jù)與目標(biāo)域中的樣本數(shù)據(jù)越相似,則輔助建立的目標(biāo)域模型泛化能力越好[8]。文中使用樣本間的標(biāo)準(zhǔn)化歐氏距離來定義樣本數(shù)據(jù)的相似情況,則ε-WSVR算法權(quán)值μ按照式(5)來計算:
(5)
其中,l為源域中樣本xi到目標(biāo)域中樣本標(biāo)準(zhǔn)化歐氏距離的列向量,min(l)為該列向量中的距離最小值。所以權(quán)值μ的取值范圍是(0,1]。
設(shè)源域樣本集合為s,目標(biāo)域樣本集合為t,改進(jìn)的RMTL問題可形式化為:
(6)
約束條件為:
fs(xs,i)-ys,i≤εs+ξs,i
ft(xt,i)-yt,i≤εt+ξt,i
(7)
其中λ>0為常數(shù),當(dāng)λ較大時,將會導(dǎo)致源域與目標(biāo)域的回歸向量ω相似;當(dāng)λ較小時,將會導(dǎo)致源域與目標(biāo)域的回歸向量ω不同。
求解式(6)與式(7)的對偶問題,可得該算法模型為:
(8)
小樣本數(shù)據(jù)的遷移學(xué)習(xí)支持向量回歸算法的主要思想是將ε-WSVR算法作為Bagging算法的基學(xué)習(xí)器,使用自助采樣(bootstrap)方法從源域和目標(biāo)域數(shù)據(jù)集中進(jìn)行采樣,得到一系列子數(shù)據(jù)集。然后計算子數(shù)據(jù)集各個樣本到目標(biāo)域數(shù)據(jù)集中的標(biāo)準(zhǔn)化歐氏距離,得到子數(shù)據(jù)集到目標(biāo)域數(shù)據(jù)集的最小距離,并把這個距離加一的倒數(shù)作為ε-WSVR算法的權(quán)值。最后使用這一系列子學(xué)習(xí)器對測試數(shù)據(jù)進(jìn)行計算,把子學(xué)習(xí)器結(jié)果的簡單平均值作為小樣本數(shù)據(jù)的遷移學(xué)習(xí)支持向量回歸算法的結(jié)果。
輸入:源域數(shù)據(jù)集source,目標(biāo)域數(shù)據(jù)集target,Bagging算法的基學(xué)習(xí)器個數(shù)T,ε-WSVR算法ζ。
過程:
1:fort=1,2,…,Tdo
2:C=standardizedEuclideanDist(Dbs,target)
Dbs是source與target上自助采樣產(chǎn)生的樣本集合
3:C'=min(C)
C'是Dbs到target數(shù)據(jù)集距離的最小值
4:ht=ζ(Dbs,target,C')
5:end forhi
假設(shè)source數(shù)據(jù)集大小為n,target數(shù)據(jù)集大小為m。Bagging算法的基學(xué)習(xí)器ε-WSVR算法的復(fù)雜度為O((m+n)2.3),自助采樣過程的復(fù)雜度為O(m+n),計算到target數(shù)據(jù)集距離復(fù)雜度為O(mn),計算權(quán)值復(fù)雜度為O(m+n)。小樣本數(shù)據(jù)的遷移學(xué)習(xí)支持向量回歸算法的復(fù)雜度為T*(2*O(m+n)+O(mn)+O((m+n)2.3)),考慮到T通常是一個不太大的常數(shù),因此,小樣本數(shù)據(jù)的遷移學(xué)習(xí)支持向量回歸算法的時間復(fù)雜度為O((m+n)2.3),與直接使用ε-WSVR算法的復(fù)雜度同階。
文中實(shí)驗(yàn)將使用遼寧、陜西、山西、安徽、江蘇、湖北、湖南、四川和廣東一共九個省份的大米與玉米儲藏環(huán)節(jié)損失情況調(diào)查數(shù)據(jù),以及三個UCI Machine Learning Repository數(shù)據(jù)集(分別是Wine Quality、Student Performance、PM2.5 Data of Five Chinese Cities)對提出的小樣本數(shù)據(jù)的遷移學(xué)習(xí)支持向量回歸算法進(jìn)行實(shí)驗(yàn),其中將四個目標(biāo)域數(shù)據(jù)集按照2∶1的比例劃分為訓(xùn)練集與測試集。將分別構(gòu)建以下回歸模型進(jìn)行對比:(1)只使用目標(biāo)域數(shù)據(jù)和標(biāo)準(zhǔn)ε-SVR算法建立的回歸模型(SVR-t);(2)利用源域數(shù)據(jù)和目標(biāo)域數(shù)據(jù)與標(biāo)準(zhǔn)ε-SVR算法建立的回歸模型(SVR-s,t);(3)使用改進(jìn)的RMTL算法基于源域數(shù)據(jù)和目標(biāo)域數(shù)據(jù)建立的回歸模型(RMTL-s,t);(4)使用文中方法基于源域數(shù)據(jù)和目標(biāo)域數(shù)據(jù)建立的回歸模型(bagg-WSVR)。以上四種回歸模型采用式(9)均方誤差[15]進(jìn)行比較:
(9)
實(shí)驗(yàn)環(huán)境:實(shí)驗(yàn)硬件為Intel Core i5-2430M CPU,主頻2.40 GHz,內(nèi)存8 GB,編程環(huán)境為Matlab R2016b與MyEclipse2015。
Wine Quality數(shù)據(jù)集使用白葡萄酒當(dāng)作源域數(shù)據(jù)集,從紅葡萄酒數(shù)據(jù)集中隨機(jī)選擇30條樣本數(shù)據(jù)作為目標(biāo)域數(shù)據(jù)集,quality屬性作為輸出變量;Student Performance數(shù)據(jù)集使用GP學(xué)校的Math當(dāng)作源域數(shù)據(jù)集,從MS學(xué)校的Math數(shù)據(jù)集中隨機(jī)選擇30條樣本數(shù)據(jù)作為目標(biāo)域數(shù)據(jù)集,G1、G2與G3屬性的數(shù)值之和作為輸出變量;PM2.5 Data of Five Chinese Cities數(shù)據(jù)集使用北京2014年8月刪除時間屬性當(dāng)作源域數(shù)據(jù)集,從沈陽2014年8月刪除時間屬性數(shù)據(jù)集中隨機(jī)選擇30條樣本數(shù)據(jù)作為目標(biāo)域數(shù)據(jù)集,PM_USPost屬性作為輸出變量;糧食儲藏數(shù)據(jù)集使用大米數(shù)據(jù)當(dāng)作源域數(shù)據(jù)集,玉米數(shù)據(jù)作為目標(biāo)域數(shù)據(jù)集,儲藏環(huán)節(jié)損失率作為輸出變量。四個數(shù)據(jù)集描述如表1所示。
表1 四個數(shù)據(jù)集描述
wine數(shù)據(jù)集上各個模型的性能比較如表2所示。
student數(shù)據(jù)集上各個模型的性能比較如表3所示,
pm2.5數(shù)據(jù)集上各個模型的性能比較如表4所示。
糧食儲藏數(shù)據(jù)集上各個模型的性能比較如表5所示。
表2 wine數(shù)據(jù)集上各個模型的性能比較
表3 student數(shù)據(jù)集上各個模型的性能比較
表5 糧食儲藏數(shù)據(jù)集上各個模型的性能比較
由表2到表5可以看出:(1)當(dāng)源域與目標(biāo)域數(shù)據(jù)關(guān)聯(lián)程度很大時,利用源域數(shù)據(jù)和目標(biāo)域數(shù)據(jù)與標(biāo)準(zhǔn)ε-SVR算法建立的回歸模型較只使用目標(biāo)域數(shù)據(jù)和標(biāo)準(zhǔn)ε-SVR算法泛化性能好;當(dāng)源域與目標(biāo)域數(shù)據(jù)有關(guān)聯(lián),但是關(guān)聯(lián)程度不太大時,利用源域數(shù)據(jù)和目標(biāo)域數(shù)據(jù)與標(biāo)準(zhǔn)ε-SVR算法建立的回歸模型較只使用目標(biāo)域數(shù)據(jù)和標(biāo)準(zhǔn)ε-SVR算法泛化性能差,出現(xiàn)了“負(fù)遷移”現(xiàn)象。(2)改進(jìn)的RMTL算法在小樣本數(shù)據(jù)情況下的算法性能很不穩(wěn)定,原因是目標(biāo)域樣本較少,導(dǎo)致標(biāo)準(zhǔn)ε-SVR算法建立的回歸模型過擬合。(3)文中提出的算法在四個數(shù)據(jù)集上有著更好的泛化性能,因?yàn)槲闹兴惴ǜ鶕?jù)源域中與目標(biāo)域樣本的相似程度,給相似樣本賦予更大的權(quán)重數(shù)值;同時訓(xùn)練樣本數(shù)目較大,防止生成模型過擬合現(xiàn)象產(chǎn)生,從而提高了泛化性能。
針對小樣本數(shù)據(jù)情況下的回歸系統(tǒng)建模問題,提出了一種小樣本數(shù)據(jù)的遷移學(xué)習(xí)支持向量回歸機(jī)建模方法。以加權(quán)ε支持向量回歸機(jī)為Bagging算法的基學(xué)習(xí)器,使用與目標(biāo)任務(wù)相關(guān)聯(lián)的源域數(shù)據(jù),通過自助采樣生成多個子回歸模型,采用簡單平均法合成一個總回歸模型。通過UCI數(shù)據(jù)集與現(xiàn)實(shí)數(shù)據(jù)集——玉米棒與花生粒儲藏環(huán)節(jié)損失數(shù)據(jù)集的驗(yàn)證,結(jié)果表明該算法較標(biāo)準(zhǔn)ε-SVR算法與改進(jìn)的RMTL算法在小數(shù)據(jù)樣本上有更好的表現(xiàn)。但該算法也有一些不足之處:由于采用Bagging算法思想,有放回的抽樣產(chǎn)生子數(shù)據(jù)集造成算法回歸結(jié)果不穩(wěn)定。下一階段將改進(jìn)子數(shù)據(jù)集產(chǎn)生的抽取方法,使源域中與目標(biāo)域相似的樣本更容易被選取,降低結(jié)果的不穩(wěn)定性。