国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于強(qiáng)化學(xué)習(xí)的超參數(shù)優(yōu)化方法

2020-04-10 05:15陳森朋陳修云
關(guān)鍵詞:集上貝葉斯性能

陳森朋,吳 佳,陳修云

(電子科技大學(xué) 信息與軟件工程學(xué)院,成都 610054)

1 引 言

近年來(lái),機(jī)器學(xué)習(xí)算法已成功應(yīng)用于眾多領(lǐng)域,但同時(shí)也面臨著巨大挑戰(zhàn).諸如隨機(jī)森林(Random Forest)[1]、XGBoost[2]和支持向量機(jī)(Support Vector Machines)[3]等機(jī)器學(xué)習(xí)算法在實(shí)際應(yīng)用的過(guò)程中存在繁瑣的超參數(shù)優(yōu)化過(guò)程.

超參數(shù)優(yōu)化對(duì)機(jī)器學(xué)習(xí)算法的性能起著至關(guān)重要的作用,然而機(jī)器學(xué)習(xí)算法的性能和超參數(shù)之間的函數(shù)關(guān)系尚不明確.在實(shí)際應(yīng)用中,往往通過(guò)不斷調(diào)整超參數(shù)的值來(lái)提高機(jī)器學(xué)習(xí)算法的實(shí)踐性能.當(dāng)機(jī)器學(xué)習(xí)算法的超參數(shù)空間較大時(shí),優(yōu)化過(guò)程將非常耗時(shí)和低效.因此,超參數(shù)優(yōu)化成為了機(jī)器學(xué)習(xí)算法應(yīng)用中的難點(diǎn)之一.

針對(duì)上述問(wèn)題,本文提出了一種基于強(qiáng)化學(xué)習(xí)的超參數(shù)優(yōu)化方法(圖1).該方法將超參數(shù)優(yōu)化問(wèn)題抽象為序列決策過(guò)程,即分步選擇待優(yōu)化算法的超參數(shù),這樣超參數(shù)選擇過(guò)程可建模為馬爾科夫決策過(guò)程(Markov Decision Process-MDP),進(jìn)而采用強(qiáng)化學(xué)習(xí)來(lái)求解.具體的,該方法利用長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(Long Short-Term Memory Neural Network,LSTM)[4]構(gòu)建一個(gè)智能體(agent)來(lái)代替算法使用者設(shè)置超參數(shù)的值;然后,agent在訓(xùn)練集上訓(xùn)練算法模型,并在驗(yàn)證數(shù)據(jù)集上得到該算法模型的驗(yàn)證集性能,并以此為獎(jiǎng)賞信號(hào),利用策略梯度算法(Policy Gradient)[5]優(yōu)化agent的決策.

本文結(jié)構(gòu)如下:第2節(jié)介紹了超參數(shù)優(yōu)化問(wèn)題的定義及相關(guān)工作;第3節(jié)詳細(xì)描述了本文所提出的超參數(shù)優(yōu)化方法以及如何減小訓(xùn)練方差;第4節(jié)針對(duì)兩個(gè)具有代表性的機(jī)器學(xué)習(xí)算法,將本文所提出的方法與五種常用超參數(shù)優(yōu)化方法進(jìn)行對(duì)比,并且討論了agent結(jié)構(gòu)和數(shù)據(jù)引導(dǎo)池的有效性;第5節(jié)總結(jié)全文并展望未來(lái)工作.

圖1 基于強(qiáng)化學(xué)習(xí)的超參數(shù)優(yōu)化方法Fig.1 Hyperparameter optimization method basedon deep reinforcement learning

2 背景及相關(guān)工作

超參數(shù)優(yōu)化問(wèn)題(HPO)的通常定義為:假設(shè)一個(gè)機(jī)器學(xué)習(xí)算法M有N個(gè)超參數(shù),第n個(gè)超參數(shù)空間為Λn,那么算法的超參數(shù)搜索空間為Λ= Λ1×Λ2×…ΛN.Mλ表示超參數(shù)為λ的算法,其中向量λ∈Λ為算法M的一個(gè)超參數(shù)組合.當(dāng)給定數(shù)據(jù)集D,HPO問(wèn)題的優(yōu)化目標(biāo)為最優(yōu)的超參數(shù)組合λ*:

λ*=argminE(Dtrain,Dvalid)~DL(Mλ,Dtrain,Dvalid)

(1)

其中,Dtrain和Dvalid分別表示訓(xùn)練集和驗(yàn)證集;L(Mλ,Dtrain,Dvalid)表示算法Mλ在數(shù)據(jù)集D上的交叉驗(yàn)證誤差,以此作為損失函數(shù)值.

近年來(lái),具有代表性的超參數(shù)優(yōu)化方法有隨機(jī)搜索(Random Search)、貝葉斯優(yōu)化(Bayesian Optimization),TPE(Tree-structured Parzen Estimator)以及自適應(yīng)協(xié)方差矩陣進(jìn)化策略(CMA-ES)算法.隨機(jī)搜索方法[6]在超參數(shù)搜索空間中隨機(jī)采樣,執(zhí)行效率高且操作簡(jiǎn)單,經(jīng)過(guò)多次搜索可以獲得性能較好的超參數(shù)組合.然而,隨機(jī)搜索方法穩(wěn)定性較差,且只有在達(dá)到或接近最優(yōu)值的超參數(shù)組合的比重超過(guò)5%時(shí),搜索效率較高.自適應(yīng)協(xié)方差矩陣進(jìn)化策略(CMA-ES)算法[7]是一種基于進(jìn)化算法的改進(jìn)算法,主要用來(lái)解決非線(xiàn)性、非凸的優(yōu)化問(wèn)題,但算法運(yùn)行具有一定的隨機(jī)性,優(yōu)化性能不穩(wěn)定.貝葉斯優(yōu)化[8,9]方法使用高斯過(guò)程對(duì)代理函數(shù)進(jìn)行建模,以一組超參數(shù)λ為條件對(duì)優(yōu)化目標(biāo)y進(jìn)行建模,形成先驗(yàn)?zāi)P蚉(y|λ).雖然該方法能夠達(dá)到很好優(yōu)化結(jié)果,但是隨著迭代次數(shù)增加,優(yōu)化過(guò)程耗費(fèi)大量時(shí)間.文獻(xiàn)[10]實(shí)驗(yàn)證明了基于高斯過(guò)程的貝葉斯優(yōu)化方法在一些標(biāo)準(zhǔn)任務(wù)上優(yōu)于隨機(jī)搜索方法.另一種貝葉斯優(yōu)化的變體是基于序列模型的優(yōu)化方法(SMAC)[11],該方法使用隨機(jī)森林對(duì)代理函數(shù)進(jìn)行建模.與基于高斯過(guò)程的貝葉斯優(yōu)化方法類(lèi)似,TPE[12]是一種基于樹(shù)狀結(jié)構(gòu)Parzen密度估計(jì)的非標(biāo)準(zhǔn)貝葉斯優(yōu)化算法,也能達(dá)到很好的優(yōu)化性能.

相比于上述工作,本文的創(chuàng)新點(diǎn)主要有以下幾點(diǎn):

1)將超參數(shù)優(yōu)化問(wèn)題抽象為序列決策問(wèn)題并建模為MDP,分步選擇超參數(shù),提高優(yōu)化效率;

2)采用強(qiáng)化學(xué)習(xí)智能體(agent),并使用策略梯度算法進(jìn)行訓(xùn)練以避免直接求解超參數(shù)優(yōu)化的黑盒目標(biāo)函數(shù),從而搜索到最優(yōu)超參數(shù)組合;

3)提出數(shù)據(jù)引導(dǎo)池技術(shù),降低訓(xùn)練方差,提高方法穩(wěn)定性.

3 基于強(qiáng)化學(xué)習(xí)的超參數(shù)優(yōu)化方法

3.1 整體結(jié)構(gòu)

針對(duì)超參數(shù)優(yōu)化問(wèn)題(HPO),本文提出了一種基于強(qiáng)化學(xué)習(xí)的優(yōu)化方法.該方法將超參數(shù)優(yōu)化問(wèn)題抽象為序列決策問(wèn)題(即每次決策只選擇一個(gè)超參數(shù))是基于以下原因:

1)一個(gè)復(fù)雜問(wèn)題通常通過(guò)分解成多個(gè)易于求解的子問(wèn)題來(lái)解決.由于一個(gè)復(fù)雜機(jī)器學(xué)習(xí)算法具有巨大的超參數(shù)空間,同時(shí)進(jìn)行所有超參數(shù)的選擇極具困難.

2)相反的,如果agent分步進(jìn)行超參數(shù)選擇,整個(gè)搜索空間可大大縮小,從而提高搜索效率.

我們將上述的序列決策過(guò)程建模為MDP,即M=(S,A,P,R):

·S表示狀態(tài)集合,st∈S,st表示t時(shí)刻環(huán)境的狀態(tài),即agent的輸入;

·A表示動(dòng)作集合,at∈A,at表示t時(shí)刻的agent選擇的動(dòng)作,即超參數(shù)選擇;

·P表示在當(dāng)前狀態(tài)s下,執(zhí)行動(dòng)作a后,環(huán)境轉(zhuǎn)移到下一狀態(tài)的概率.在HPO問(wèn)題中它是未知的;

·R表示reward函數(shù),R:S×A→R,R表示在當(dāng)前狀態(tài)s下執(zhí)行動(dòng)作a的獎(jiǎng)勵(lì)值,即為超參數(shù)配置的驗(yàn)證集準(zhǔn)確度.

Agent的目標(biāo)是找到一個(gè)策略π:S→A使得累積收益最大化.Agent工作流程如下:對(duì)每一次迭代,agent以概率P為算法模型選擇一組超參數(shù)λ;然后在訓(xùn)練數(shù)據(jù)集Dtrain上訓(xùn)練算法模型Mλ;最后將Mλ在驗(yàn)證數(shù)據(jù)集Dvalid上的準(zhǔn)確率作為獎(jiǎng)賞值,并利用策略梯度算法[5]來(lái)更新策略.經(jīng)過(guò)多次訓(xùn)練,agent會(huì)以更高的概率選擇準(zhǔn)確率高的超參數(shù)配置.為了確保該方法具有更好的穩(wěn)定性,提出了數(shù)據(jù)引導(dǎo)池以減小訓(xùn)練方差.

3.2 詳細(xì)設(shè)計(jì)

3.2.1 Agent結(jié)構(gòu)設(shè)計(jì)

根據(jù)3.1節(jié),我們將超參數(shù)優(yōu)化問(wèn)題看作一個(gè)序列決策問(wèn)題,即每個(gè)時(shí)刻針對(duì)某個(gè)超參數(shù)進(jìn)行選擇,因此不同時(shí)刻優(yōu)化了不同的超參數(shù),這樣可以大大減少每次決策的搜索空間.為了更加清晰的說(shuō)明序列選擇超參數(shù)的優(yōu)勢(shì),我們將進(jìn)一步分析超參數(shù)優(yōu)化的搜索空間.假設(shè)一個(gè)算法具有N個(gè)待優(yōu)化的超參數(shù).一種簡(jiǎn)單的方法是將超參數(shù)優(yōu)化問(wèn)題看作一個(gè)多臂機(jī)問(wèn)題(multi-armed bandit problem),直接在整個(gè)超參數(shù)搜索空間中選擇整個(gè)超參數(shù)配置,則決策的搜索空間為:Λ=Λ1×Λ2×…ΛN(×表示笛卡爾乘積).相反,如果我們將超參數(shù)優(yōu)化問(wèn)題作為序列決策問(wèn)題,基于前一次決策順序的選擇每一個(gè)超參數(shù),則決策的搜索空間為:Λ=Λ1∪Λ2∪…ΛN.顯然,后者能夠大大縮減超參數(shù)優(yōu)化問(wèn)題的搜索空間,從而提高優(yōu)化效率.

為了適應(yīng)順序選擇超參數(shù)的方法,我們將agent設(shè)計(jì)為自循環(huán)的結(jié)構(gòu).每次循環(huán)時(shí),我們將agent上一次的輸出作為agent下一次的輸入,以保持超參數(shù)優(yōu)化的整體性.同時(shí),由于超參數(shù)之間可能存在相關(guān)性,也就是每個(gè)時(shí)刻的選擇可能是相互關(guān)聯(lián)的.若只將超參數(shù)優(yōu)化問(wèn)題分步進(jìn)行,而不考慮超參數(shù)之間的內(nèi)部關(guān)系,超參數(shù)的優(yōu)化順序則會(huì)成為一個(gè)影響因素.基于上述特點(diǎn),我們利用LSTM構(gòu)造了一個(gè)強(qiáng)化學(xué)習(xí)agent(圖2).使用LSTM網(wǎng)絡(luò)作為agent的核心結(jié)構(gòu)的主要原因在于:LSTM網(wǎng)絡(luò)獨(dú)特的內(nèi)部設(shè)計(jì)能夠使agent保留或遺忘超參數(shù)之間的內(nèi)在聯(lián)系,從而有利于超參數(shù)選擇,也避免了由于超參數(shù)優(yōu)化順序而造成的影響.盡管LSTM 網(wǎng)絡(luò)的訓(xùn)練比較困難,但是LSTM網(wǎng)絡(luò)被認(rèn)為是解決時(shí)序問(wèn)題的最好結(jié)構(gòu).

圖2 Agent結(jié)構(gòu)圖Fig.2 Structure of agent

圖2展示了agent內(nèi)部結(jié)構(gòu),圖中左邊部分表示agent整體結(jié)構(gòu),右邊部分 (“=”右)表示按時(shí)間步展開(kāi)的agent結(jié)構(gòu).Agent的核心結(jié)構(gòu)由3層LSTM網(wǎng)絡(luò)構(gòu)成,且輸入、輸出與LSTM網(wǎng)絡(luò)之間各有一個(gè)全連接層,該全連接層用來(lái)調(diào)整前后輸入和輸出的維度.在每一時(shí)刻t(t∈[1,T],T為待優(yōu)化模型的超參數(shù)個(gè)數(shù)),agent選擇一個(gè)超參數(shù)at,并將at的one-hot編碼作為下一時(shí)刻agent的輸入,也就是t+1時(shí)刻狀態(tài)st+1為at.在t=1時(shí)刻,agent輸入狀態(tài)s1為全1向量.

通過(guò)這樣的設(shè)計(jì),agent在不同時(shí)刻只需選擇對(duì)應(yīng)的超參數(shù),減小了超參數(shù)的搜索空間.同時(shí),由于將前一時(shí)刻的輸出作為下一時(shí)刻的輸入,使得采用LSTM網(wǎng)絡(luò)作為核心結(jié)構(gòu)的agent能夠?qū)W習(xí)超參數(shù)之間的潛在關(guān)系.

3.2.2 Agent訓(xùn)練

策略梯度方法[5]使用逼近器(函數(shù))來(lái)近似表示策略,通過(guò)不斷計(jì)算策略期望的總獎(jiǎng)賞并基于梯度來(lái)更新策略參數(shù),最終收斂于最優(yōu)策略.它的優(yōu)點(diǎn)非常明顯:能夠直接優(yōu)化策略的期望總獎(jiǎng)賞,并以端對(duì)端的方式直接在策略空間中搜索最優(yōu)策略,省去了繁瑣的中間環(huán)節(jié).因此,本文采用策略梯度方法訓(xùn)練agent.

假設(shè)θ表示agent的模型參數(shù);R表示agent在每次選擇超參數(shù)組合a1:T后,與所選擇的超參數(shù)組合結(jié)合的待優(yōu)化模型在驗(yàn)證數(shù)據(jù)集上的準(zhǔn)確率.定義期望的總獎(jiǎng)賞值為:

J(θ)=EP(a1:T;θ)[R]

(2)

其中,P(a1:T;θ)表示表示參數(shù)為θ的agent輸出超參數(shù)組合a1:T的概率.

Agent的訓(xùn)練目標(biāo)是找到一個(gè)合理的參數(shù)θ使得期望獎(jiǎng)賞值J(θ)最大化:

(3)

(4)

(5)

其中,T為待優(yōu)化算法的超參數(shù)個(gè)數(shù);Ri為在第i個(gè)超參數(shù)組合下模型的k-折交叉驗(yàn)證結(jié)果;b是基準(zhǔn)值,即模型交叉驗(yàn)證結(jié)果的指數(shù)移動(dòng)平均值.

3.2.3 數(shù)據(jù)引導(dǎo)池(Boot Pool)模塊

在使用本文所提出的方法進(jìn)行超參數(shù)優(yōu)化時(shí),雖然添加了基線(xiàn)函數(shù)b減小訓(xùn)練誤差,但是仍存在訓(xùn)練方差較大的問(wèn)題,造成其優(yōu)化結(jié)果穩(wěn)定性較差.為此,我們提出了數(shù)據(jù)引導(dǎo)池模塊.

數(shù)據(jù)引導(dǎo)池是一個(gè)固定大小的存儲(chǔ)區(qū)域,用來(lái)保存最優(yōu)的K條(top-K)超參數(shù)組合及對(duì)應(yīng)獎(jiǎng)勵(lì)值.在agent訓(xùn)練過(guò)程中,引導(dǎo)池中的數(shù)據(jù)會(huì)根據(jù)新的采樣數(shù)據(jù)進(jìn)行實(shí)時(shí)更新,并定期提供給agent進(jìn)行學(xué)習(xí).若K過(guò)大,則使得引導(dǎo)過(guò)強(qiáng),陷入前期較差的局部最優(yōu)值;若K過(guò)小,則引導(dǎo)力度變?nèi)?,策略更多的進(jìn)行探索,從而導(dǎo)致訓(xùn)練不穩(wěn)定.事實(shí)上,通過(guò)對(duì)參數(shù)K的調(diào)整來(lái)平衡策略的利用和探索.

4 實(shí)驗(yàn)結(jié)果及分析

在實(shí)驗(yàn)中,我們將隨機(jī)森林和XGBoost兩種算法作為超參數(shù)優(yōu)化對(duì)象,使用UCI數(shù)據(jù)庫(kù)中的五個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù)集(表1).為了驗(yàn)證本文提出方法的性能,我們將本文所提出的方法與隨機(jī)搜索優(yōu)化方法、基于貝葉斯的優(yōu)化方法、TPE優(yōu)化方法、CM-AES優(yōu)化方法和SMAC優(yōu)化方法進(jìn)行了對(duì)比.此外,通過(guò)一系列消融實(shí)驗(yàn)來(lái)驗(yàn)證agent結(jié)構(gòu)和數(shù)據(jù)引導(dǎo)池的有效性.

4.1 實(shí)驗(yàn)細(xì)節(jié)

數(shù)據(jù)集:實(shí)驗(yàn)中,我們選擇五個(gè)大小各異的UCI數(shù)據(jù)集作為優(yōu)化任務(wù)(詳細(xì)信息見(jiàn)表1).UCI數(shù)據(jù)集是常用的、種類(lèi)豐富的數(shù)據(jù)集.在實(shí)驗(yàn)中,每個(gè)數(shù)據(jù)集按照8:2的比例分成訓(xùn)練集和測(cè)試集兩部分.實(shí)驗(yàn)在訓(xùn)練集下采用5-折交叉驗(yàn)證的方法訓(xùn)練待優(yōu)化模型;訓(xùn)練完成后,使用測(cè)試集測(cè)試超參數(shù)優(yōu)化方法的最終性能.

參數(shù)設(shè)置:在實(shí)驗(yàn)中,所有參數(shù)均是選擇多個(gè)隨機(jī)種子中的最優(yōu)參數(shù).針對(duì)不同的優(yōu)化任務(wù),我們?cè)O(shè)置了不同的學(xué)習(xí)率α和數(shù)據(jù)引導(dǎo)池大小K(詳細(xì)信息見(jiàn)表1).基準(zhǔn)函數(shù)的折扣系數(shù)γ設(shè)置為0.8.以-0.2與0.2之間的隨機(jī)值對(duì)網(wǎng)絡(luò)中的權(quán)重進(jìn)行初始化.

搜索空間:實(shí)驗(yàn)中我們選擇對(duì)隨機(jī)森林(6個(gè)超參數(shù))和XGBoost(10個(gè)超參數(shù))兩種分類(lèi)算法進(jìn)行超參數(shù)優(yōu)化(詳細(xì)信息見(jiàn)表2),隨機(jī)森林和XGBoost算法的具體實(shí)現(xiàn)基于scikit-learn[13].選擇上述兩種算法進(jìn)行優(yōu)化主要是由于:

1)文獻(xiàn)[14]中評(píng)估了179種機(jī)器學(xué)習(xí)分類(lèi)算法在UCI數(shù)據(jù)集上的表現(xiàn),實(shí)驗(yàn)結(jié)果表明隨機(jī)森林分類(lèi)算法是最優(yōu)的分類(lèi)器;XGBoost算法具有更多的待優(yōu)化超參數(shù),并且解決分類(lèi)任務(wù)具有很大的潛力;

表1 數(shù)據(jù)集信息及對(duì)應(yīng)參數(shù)設(shè)置表
Table 1 Data sets information and parameter settings

編號(hào)數(shù)據(jù)集樣本量特征數(shù)K學(xué)習(xí)率UCI-1Breast Cancer569280.0007UCI-2Optdigits5,6206480.0008UCI-3Crowdsourced Mapping10,8462880.001UCI-4Letter Recognition20,00016160.001UCI-5HTRU_217,898980.001

2)兩種算法均屬于先進(jìn)的分類(lèi)算法,廣泛應(yīng)用在數(shù)據(jù)科學(xué)競(jìng)賽和工業(yè)界.

表2 隨機(jī)森林算法和XGBoost算法的超參數(shù)搜索空間
Table 2 Hyperparameters search spaces of the random forest
and the XGBoost

算法超參數(shù)范圍間隔類(lèi)型Random Forestn_estimators[100,1200]100intmax_depth[3,30]3intmin_samples_split[0,100]5intmin_samples_leaf[0,100]5intmax_features[0.1,0.9]0.1floatbootstrapTrue,False-boolXGBoostmax_depth[3,25]2intlearning_rate[0.01,0.1]0.01floatn_estimators[100,1200]100intgamma[0.05,1.0]0.01floatmin_child_weight[1,9]2intsubsample[0.5,1.0]0.1floatcolsample_bytree[0.5,1.0]0.1floatcolsample_bylevel[0.5,1.0]0.1floatreg_alpha[0.1,1.0]0.1floatreg_lambda[0.01,1.0]0.01float

4.2 Agent結(jié)構(gòu)的有效性

本小節(jié)中,我們將驗(yàn)證agent結(jié)構(gòu)的有效性,即驗(yàn)證將超參數(shù)優(yōu)化問(wèn)題作為序列決策問(wèn)題的正確性.實(shí)驗(yàn)中,我們所提出的方法簡(jiǎn)稱(chēng)為BP-Agent,同時(shí)也設(shè)計(jì)了對(duì)比方法BP-FC:該方法使用全連接網(wǎng)絡(luò)(FC)作為agent的核心結(jié)構(gòu),并且直接使用全連接網(wǎng)絡(luò)一次輸出所有超參數(shù)的選擇,而不是逐步選擇超參數(shù).為了滿(mǎn)足對(duì)比實(shí)驗(yàn)的公平性,我們確保BP-FC方法中的全連接網(wǎng)絡(luò)的可訓(xùn)練參數(shù)的數(shù)量與本文提出的方法的可訓(xùn)練參數(shù)量大致相等.另外,該方法也采用了引導(dǎo)池技術(shù)(BP)來(lái)減小訓(xùn)練過(guò)程的方差.為充分利用計(jì)算資源,我們?cè)赨CI-(1-4)數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn),每組對(duì)比實(shí)驗(yàn)獨(dú)立執(zhí)行3次,每種優(yōu)化方法每次獨(dú)立運(yùn)行300分鐘.實(shí)驗(yàn)結(jié)果如圖3和圖4所示.圖中,分別展示了本文所提出的方法(BP-Agent)和對(duì)比方法(BP-FC)在驗(yàn)證集上的訓(xùn)練過(guò)程.我們可以看出:BP-FC方法使用全連接網(wǎng)絡(luò)直接輸出所有超參數(shù)的選擇,在部分任務(wù)上具有優(yōu)化效果,但優(yōu)化效果較差,并且優(yōu)化效率低;相比于BP-Agent方法,BP-Agent方法具有更好的優(yōu)化效果和穩(wěn)定性,也具有更高的優(yōu)化效率.因此,上述實(shí)驗(yàn)證明將超參數(shù)優(yōu)化問(wèn)題序列化.并逐步選擇超參數(shù)的agent設(shè)計(jì)有利于提高優(yōu)化性能.

圖3 不同agent結(jié)構(gòu)在四個(gè)UCI數(shù)據(jù)集上優(yōu)化隨機(jī)森林的性能比較圖Fig.3 Performance comparison of agents with different structures for optimizing Random forests on four UCI datasets

圖4 不同agent結(jié)構(gòu)在四個(gè)UCI數(shù)據(jù)集上優(yōu)化XGBoost的性能比較圖Fig.4 Performance comparison of agents with different structures for optimizing XGBoost on four UCI datasets

4.3 數(shù)據(jù)引導(dǎo)池模塊對(duì)優(yōu)化結(jié)果的影響

為了驗(yàn)證數(shù)據(jù)引導(dǎo)池的有效性,我們?cè)O(shè)計(jì)了BP-Agent方法(含有BP模塊)與Agent方法(不含有BP模塊)的對(duì)比實(shí)驗(yàn).我們?cè)赨CI-(1-4)數(shù)據(jù)集下對(duì)隨機(jī)森林和XGBoost算法的超參數(shù)進(jìn)行優(yōu)化,每種優(yōu)化方法在每個(gè)優(yōu)化任務(wù)上獨(dú)立運(yùn)行5次,對(duì)比5次優(yōu)化的平均性能.

圖5 BP-Agent和Agent方法在四個(gè)UCI數(shù)據(jù)集上優(yōu)化隨機(jī)森林的性能比較圖Fig.5 Performance comparison of the BP-Agent and the Agent for optimizing Random forests on four UCI datasets

實(shí)驗(yàn)結(jié)果以箱型圖的形式展示,如圖5和圖6所示.通過(guò)觀察可以發(fā)現(xiàn):Agent方法能夠達(dá)到很好優(yōu)化效果(即箱型圖的中位數(shù)),但是其穩(wěn)定性較差(即箱型圖的觸須);相比于Agent方法,BP-Agent方法具有更好的優(yōu)化結(jié)果,并且其穩(wěn)定性較好.因此,可以得出以下結(jié)論:添加方向引導(dǎo)池能夠把握優(yōu)化方向,增強(qiáng)方法的穩(wěn)定性.

圖6 BP-Agent和Agent方法在四個(gè)UCI數(shù)據(jù)集上優(yōu)化XGBoost的性能比較圖Fig.6 Performance comparison of the BP-Agent and the Agent for optimizing XGBoost on four UCI datasets

4.4 對(duì)比BP-Agent方法與其他優(yōu)化方法

為了進(jìn)一步驗(yàn)證本文所提出的方法,我們將其與常用的且具有代表性的五種優(yōu)化方法(隨機(jī)搜索,TPE,貝葉斯優(yōu)化,CM-AES,SMAC)進(jìn)行對(duì)比.除此之外,我們也將對(duì)比隨機(jī)森林和XGBoost兩個(gè)算法默認(rèn)超參數(shù)配置的性能,默認(rèn)的超參數(shù)配置基于scikit-learn[13].實(shí)驗(yàn)在UCI-(1-5)數(shù)據(jù)集上分別優(yōu)化隨機(jī)森林和XGBoost兩個(gè)分類(lèi)算法的超參數(shù),因此共包含10個(gè)優(yōu)化任務(wù).同樣的,為充分利用計(jì)算資源,每組對(duì)比實(shí)

1https://github.com/hyperopt/hyperopt-sklearn

2https://github.com/AIworx-Labs/chocolate

3https://github.com/mlindauer/SMAC3

驗(yàn)獨(dú)立執(zhí)行3次,每種優(yōu)化方法每次獨(dú)立運(yùn)行300分鐘.隨機(jī)搜索、TPE和貝葉斯優(yōu)化三種方法的具體實(shí)現(xiàn)基于Hyperopt1,CM-AES方法的具體實(shí)現(xiàn)基于Chocolate2,SMAC方法的具體實(shí)現(xiàn)基于SMAC33.

對(duì)比指標(biāo)選取的是待優(yōu)化模型在測(cè)試集上的錯(cuò)誤率(如表“Err”所示).實(shí)驗(yàn)結(jié)果以3次對(duì)比實(shí)驗(yàn)的Err平均值和方差進(jìn)行展示(詳細(xì)實(shí)驗(yàn)結(jié)果見(jiàn)表3),不僅能夠表示待優(yōu)化模型在測(cè)試集上的準(zhǔn)確度,還能夠反映優(yōu)化方法的穩(wěn)定性.通過(guò)觀察表中實(shí)驗(yàn)數(shù)據(jù),可以看出:所有的優(yōu)化方法在大部分優(yōu)化任務(wù)上都能得到優(yōu)于默認(rèn)參數(shù)性能的超參數(shù)配置.具體的,在10個(gè)優(yōu)化任務(wù)中,貝葉斯優(yōu)化、CM-AES和SMAC三種優(yōu)化方法都達(dá)到了很好優(yōu)化結(jié)果,且具有很好的穩(wěn)定性,而隨機(jī)搜索和TPE兩種優(yōu)化方法的優(yōu)化性能相對(duì)較差;相比之下,BP-Agent方法在8個(gè)優(yōu)化任務(wù)中分別達(dá)到了最好的優(yōu)化結(jié)果和穩(wěn)定性.

表3 六種超參數(shù)優(yōu)化方法的性能對(duì)比表
Table 3 Performance comparison of five
HPO optimization methods

數(shù)據(jù)集優(yōu)化算法隨機(jī)森林ErrXGBoostErrUCI-1隨機(jī)搜索0.0774±0.02120.0862±0.0198TPE0.0594±0.01490.0563±0.0101貝葉斯優(yōu)化0.0507±0.00610.0477±0.0096CM-AES0.0521±0.0050.0473±0.0083SMAC0.0479±0.0160.0561±0.037BP-Agent0.0472±0.00210.0452±0.0019默認(rèn)參數(shù)0.05480.0523UCI-2隨機(jī)搜索0.0725±0.01800.0443±0.0098TPE0.0562±0.01870.0403±0.0078貝葉斯優(yōu)化0.0553±0.00220.0419±0.0028CM-AES0.0561±0.00690.0547±0.0041SMAC0.0566±0.00310.0434±0.0047BP-Agent0.0544±0.00150.0393±0.0016默認(rèn)參數(shù)0.08110.0593UCI-3隨機(jī)搜索0.0187±0.01910.0169±0.0098TPE0.0186±0.01650.0179±0.0078貝葉斯優(yōu)化0.0169±0.00390.0160±0.0028CM-AES0.0165±0.00570.0167±0.0017SMAC0.0171±0.01030.0154±0.0035BP-Agent0.0160±0.00470.0151±0.0016默認(rèn)參數(shù)0.03700.0214UCI-4隨機(jī)搜索0.0520±0.07280.0619±0.0250TPE0.1239±0.07020.0570±0.0111貝葉斯優(yōu)化0.0530±0.02940.0596±0.0045CM-AES0.0473±0.00690.0588±0.0057SMAC0.0471±0.00610.0603±0.0039BP-Agent0.0499±0.00550.0564±0.0028默認(rèn)參數(shù)0.10110.1293UCI-5隨機(jī)搜索0.0191±0.01020.0204±0.0157TPE0.0196±0.00790.0174±0.0103貝葉斯優(yōu)化0.0153±0.00810.0162±0.0076CM-AES0.0141±0.00410.0159±0.0044SMAC0.0157±0.00490.0160±0.0053BP-Agent0.0131±0.00360.0128±0.0039默認(rèn)參數(shù)0.02190.0202

另外,我們對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行統(tǒng)計(jì)檢驗(yàn).假設(shè)顯著性水平α=0.05,檢驗(yàn)結(jié)果顯示:在具有優(yōu)勢(shì)的8個(gè)優(yōu)化任務(wù)中,BP-Agent的性能提升均具有顯著性差異(P<0.05).

上述實(shí)驗(yàn)表明本文所提的BP-Agent方法能夠得到更好優(yōu)化結(jié)果,且具有最好的穩(wěn)定性.

4.5 討論與分析

對(duì)于超參數(shù)優(yōu)化問(wèn)題,當(dāng)前工作主要分類(lèi)三類(lèi):基礎(chǔ)搜索方法[10]、基于采樣的方法[15,16]和基于梯度的方法[17-19].雖然當(dāng)前新方法層出不窮,超參數(shù)優(yōu)化問(wèn)題仍面臨以下難點(diǎn):

1)優(yōu)化目標(biāo)屬于黑盒函數(shù).對(duì)于給定任務(wù),超參數(shù)選擇與性能表現(xiàn)之間的函數(shù)無(wú)法顯式表達(dá).

2)搜索空間巨大.由于每種待優(yōu)化算法都有相應(yīng)的超參數(shù)空間,選擇的可能性是指數(shù)級(jí)的.

3)耗費(fèi)巨大的資源.當(dāng)評(píng)估所選擇的超參數(shù)配置時(shí),需要進(jìn)行完整的訓(xùn)練過(guò)程并在測(cè)試集上測(cè)試最終性能,整個(gè)優(yōu)化過(guò)程耗費(fèi)大量計(jì)算資源和時(shí)間.

通過(guò)實(shí)驗(yàn)可以看出,本文所提出的方法能夠在大部分任務(wù)達(dá)到最好的優(yōu)化結(jié)果,并具有很好的穩(wěn)定性.我們認(rèn)為主要原因在于:在超參數(shù)選擇過(guò)程中,由于逐個(gè)選擇超參數(shù),因此每次選擇只需針對(duì)當(dāng)前超參數(shù)的搜索空間進(jìn)行探索,而不需要搜索整個(gè)超參數(shù)空間,這樣可以極大地提高搜索效率;同時(shí),我們選擇LSTM網(wǎng)絡(luò)作為agent的核心結(jié)構(gòu),使agent能夠在分步?jīng)Q策過(guò)程中學(xué)習(xí)超參數(shù)選擇的內(nèi)在聯(lián)系;另外,訓(xùn)練過(guò)程中添加了數(shù)據(jù)引導(dǎo)池(BP)模塊,在一定程度上平衡了策略的探索和利用,使得優(yōu)化方法性能更加穩(wěn)定.

5 結(jié)束語(yǔ)

隨著機(jī)器學(xué)習(xí)的廣泛應(yīng)用,快速高效的解決超參數(shù)優(yōu)化問(wèn)題(HPO)越來(lái)越重要.針對(duì)超參數(shù)優(yōu)化問(wèn)題(HPO),本文提出了一種基于強(qiáng)化學(xué)習(xí)的超參數(shù)優(yōu)化方法.該方法將超參數(shù)優(yōu)化問(wèn)題看作序列決策問(wèn)題,即將復(fù)雜問(wèn)題分解為多個(gè)易于求解的子問(wèn)題來(lái)解決.進(jìn)一步將該問(wèn)題抽象為MDP,利用強(qiáng)化學(xué)習(xí)算法來(lái)求解該問(wèn)題.具體的,以LSTM網(wǎng)絡(luò)為核心構(gòu)造agent,逐步為待優(yōu)化的機(jī)器學(xué)習(xí)算法選擇超參數(shù).Agent的動(dòng)作(action)為超參數(shù)的選擇;agent的輸入,即狀態(tài)(state)為上一時(shí)刻的動(dòng)作選擇;待優(yōu)化算法在驗(yàn)證數(shù)據(jù)集上的準(zhǔn)確率作為獎(jiǎng)賞值(reward).

為了驗(yàn)證所提出方法的有效性,我們選擇了五個(gè)UCI數(shù)據(jù)集,分別對(duì)隨機(jī)森林和XGBoost這兩種算法的超參數(shù)進(jìn)行優(yōu)化.通過(guò)對(duì)比隨機(jī)搜索、TPE、貝葉斯優(yōu)化、CM-AES和SMAC五種具有代表性的超參數(shù)優(yōu)化方法,我們發(fā)現(xiàn)本文提出的方法在優(yōu)化結(jié)果和穩(wěn)定性上均優(yōu)于對(duì)比方法.同時(shí),一系列消融實(shí)驗(yàn)驗(yàn)證了agent結(jié)構(gòu)和數(shù)據(jù)引導(dǎo)池的有效性.

猜你喜歡
集上貝葉斯性能
UIO-66熱解ZrO2負(fù)載CoMoS對(duì)4-甲基酚的加氫脫氧性能
夏季五招提高種鵝繁殖性能
關(guān)于短文本匹配的泛化性和遷移性的研究分析
保暖襪透濕性能測(cè)定的不確定度分析
基于互信息的多級(jí)特征選擇算法
桌面端,GTX 1650并不是千元價(jià)位的顯卡好選擇
基于貝葉斯網(wǎng)絡(luò)的海盜襲擊事件影響因素
租賃房地產(chǎn)的多主體貝葉斯博弈研究
租賃房地產(chǎn)的多主體貝葉斯博弈研究
貝葉斯公式的應(yīng)用和推廣
垣曲县| 苗栗县| 道真| 财经| 慈溪市| 巴里| 洪雅县| 西华县| 巴马| 磐安县| 汶川县| 阜康市| 定结县| 泸西县| 黔西县| 弥勒县| 雅江县| 北流市| 海阳市| 正安县| 花莲市| 邳州市| 梅河口市| 华容县| 宿迁市| 于田县| 临沭县| 娱乐| 阿拉善盟| 林甸县| 萨迦县| 广州市| 宾川县| 定襄县| 万安县| 安化县| 遵义市| 阳江市| 罗江县| 新密市| 长宁区|