国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

非光滑強(qiáng)凸情形Adam型算法的最優(yōu)收斂速率

2022-11-09 07:11張澤東
電子學(xué)報(bào) 2022年9期
關(guān)鍵詞:步長對數(shù)情形

隴 盛,陶 蔚,張澤東,陶 卿

(1.國防科技大學(xué)信息系統(tǒng)工程重點(diǎn)實(shí)驗(yàn)室,湖南長沙 410073;2.軍事科學(xué)院戰(zhàn)略評(píng)估咨詢中心,北京 100091;3.陸軍炮兵防空兵學(xué)院信息工程系,安徽合肥 230031)

1 引言

在線學(xué)習(xí)(online learning)是用來分析迭代算法的流行框架,后悔界(regret bound)則是衡量在線優(yōu)化算法性能的重要指標(biāo)[1].針對一般凸優(yōu)化問題,Zinkevich提出的OGD(Online Gradient Decent)[2]方法達(dá)到了最壞情況下O()的后悔界,其中T是總迭代次數(shù).而在非光滑強(qiáng)凸情形中,Hazan等人在OGD基礎(chǔ)上調(diào)整步長階為得到了更好的O(logT)對數(shù)階后悔界[3],其中t=1,2,···,T.

雖然在線學(xué)習(xí)理論和應(yīng)用方面都取得成功,但是實(shí)驗(yàn)中模擬在線流程較為復(fù)雜,算法往往需要更簡單的隨機(jī)實(shí)驗(yàn)環(huán)境[4].因此,本文關(guān)注OGD經(jīng)過標(biāo)準(zhǔn)的online-to-batch技巧轉(zhuǎn)換后,得到的隨機(jī)算法SGD(Stochastic Gradient Decent).兩者本質(zhì)上是同一算法,區(qū)別在于應(yīng)用場景不同,OGD用后悔界度量其在線學(xué)習(xí)性能,SGD靠收斂速率評(píng)價(jià)在隨機(jī)優(yōu)化中的表現(xiàn).在強(qiáng)凸情形中,SGD得到了O(logT/T)的收斂速率.與之相比,Agarwal等人證明了在最好情況下,一階隨機(jī)優(yōu)化算法解非光滑強(qiáng)凸問題的收斂速率是Ω(1/T)[5].為達(dá)到與之匹配的最壞情況下的最優(yōu)收斂速率O(1/T),許多算法在分析中引入了光滑條件(例如梯度Lipschitz連續(xù)、高階可微等).但是這些假設(shè)往往是不平凡的,并且無法應(yīng)用于非光滑目標(biāo)函數(shù)(例如hinge損失).文獻(xiàn)[6]提出一種結(jié)合了COMID(Composite Objective Mirror Descent)的非光滑隨機(jī)坐標(biāo)下降方法,不僅保持了正則化結(jié)構(gòu),而且計(jì)算代價(jià)極低,遺憾的是在強(qiáng)凸情形中未能達(dá)到最優(yōu).因此長期以來,SGD都無法跨過對數(shù)階的鴻溝,達(dá)到非光滑強(qiáng)凸情形的最優(yōu)收斂速率.

為了解決這個(gè)問題,研究者通常采取兩種方案:其一是改進(jìn)SGD算法本身,結(jié)合各種加速技巧提升算法收斂速率.2011年,Hazan等人提出著名的Epoch-GD(Epoch Gradient Descent)[7],該算法其實(shí)是在SGD基礎(chǔ)上引入了“多階段循環(huán)”這個(gè)新的概念.雖然Epoch-GD達(dá)到了最優(yōu)收斂速率O(1/T),但Rakhlin等人認(rèn)為,大幅修改算法不足以證明SGD徹底突破了強(qiáng)凸優(yōu)化中對數(shù)因子的阻礙,因此提出了第二種方案——修改算法輸出方式.在以往收斂性分析中,SGD輸出全部T次迭代平均結(jié)果,Rakhlin提出在不改變算法的前提下,用α-suffix[8]方式(輸出后半部分迭代平均)進(jìn)行替換,最終達(dá)到了O(1/T)收斂速率.然而,α-suffix技巧也存在問題,首先它給收斂性分析增加了難度,其次不能以on-the-fly的模式存儲(chǔ)歷史迭代結(jié)果,從而增加了計(jì)算開銷.幸運(yùn)的是,文獻(xiàn)[9~11]中采用的加權(quán)平均輸出方式克服了這個(gè)缺點(diǎn).該方法對理論分析十分友好,且只需對SGD每次迭代結(jié)果賦予權(quán)重值最后進(jìn)行平均輸出,就可以在支持on-the-fly計(jì)算方式的同時(shí),保證最優(yōu)的收斂速率.

近年來,在SGD基礎(chǔ)上使用自適應(yīng)梯度調(diào)整步長,并且用動(dòng)量搜索方向的算法稱為Adam型算法,例如Adam[12]、NAdam(Nesterov-accelerated Adaptive moment estimation)[13]、PAdam(Partially Adaptive moment estimation)[14]、Adaptive HB(Adaptive Polyak’s Heavy-Ball)[15]等.這類算法在非光滑凸情形中保證的收斂速率,并且具有適合稀疏優(yōu)化、體現(xiàn)不同維度差異等優(yōu)點(diǎn).然而文獻(xiàn)[16]指出,在某些簡單的凸環(huán)境中,所有基于指數(shù)移動(dòng)平均(Exponential Moving Average,EMA)的Adam型算法都不收斂,這就是著名的Reddi問題.針對該問題,Reddi等人提出了改進(jìn)算法AMSGrad[16]和AdamNC[16].另一方面,Adam型算法在強(qiáng)凸優(yōu)化中的應(yīng)用也逐漸發(fā)展起來.2017年Mukkamala等人提出了SC-Adagrad(Strongly Convex Adagrad)[17]和SC-RMSProp(Strongly Convex RMSProp)[17]算法,應(yīng)對在線學(xué)習(xí)問題得到了數(shù)據(jù)依賴(處理稀疏數(shù)據(jù)時(shí)表現(xiàn)更好)的對數(shù)階后悔界.2018年,Chen等人在Epoch-GD基礎(chǔ)上結(jié)合AdaGrad[18]提出了SadaGrad[19],雖然在隨機(jī)情形下得到了O(1/T)的最優(yōu)收斂速率,但是只適用于弱強(qiáng)凸環(huán)境.2019年,Wang等人提出SAdam[20],盡管在處理稀疏數(shù)據(jù)時(shí)得到比OGD更好的后悔界,體現(xiàn)出自適應(yīng)步長方法的優(yōu)勢,但是轉(zhuǎn)換為隨機(jī)算法時(shí)只能得到O(logT/T)的收斂速率,因此沒有體現(xiàn)動(dòng)量的加速作用,與最優(yōu)收斂速率依然存在對數(shù)階的間隙.

面對非光滑強(qiáng)凸優(yōu)化問題,SGD能夠得到最優(yōu)收斂速率O(1/T),但是到目前為止,SGD改良產(chǎn)生的Adam型算法反而無法達(dá)到上述目標(biāo).因此,如何使Adam型算法達(dá)到最優(yōu)收斂亟待解決.正如文獻(xiàn)[20]中所說,寄希望于SAdam與Epoch-GD技巧結(jié)合是不平凡的.綜上所述,本文旨在基于動(dòng)量法和自適應(yīng)步長,結(jié)合修改輸出方式這一技巧提出新的Adam型算法,保證其在非光滑強(qiáng)凸情形中達(dá)到最優(yōu)收斂速率O(1/T).

本文的主要貢獻(xiàn)如下:

(1)提出了一種名為WSAdam的Adam型算法,該算法在SAdam基礎(chǔ)上進(jìn)行改進(jìn),采用加權(quán)平均的輸出方式,設(shè)置了與以往強(qiáng)凸算法同階的步長超參數(shù).既保持了Adam型算法體現(xiàn)不同維度差異的優(yōu)點(diǎn),又通過on-the-fly計(jì)算降低了運(yùn)行成本;

(2)針對約束的非光滑強(qiáng)凸優(yōu)化問題,證明了本文所提的WSAdam隨機(jī)情形下具有O(1/T)的最優(yōu)收斂速率(見定理1).據(jù)我們所知,這一結(jié)果消去了強(qiáng)凸優(yōu)化中常見的對數(shù)階因子,填補(bǔ)了Adam型算法強(qiáng)凸最優(yōu)收斂性方面的缺失;

(3)證明了在導(dǎo)致Adam發(fā)散的優(yōu)化問題[16]上,WSAdam仍能保持收斂,表明WSAdam可以解決Reddi問題.另外,選擇了典型的l2范數(shù)約束下的hinge損失函數(shù)強(qiáng)凸優(yōu)化問題,通過與幾種常見強(qiáng)凸算法進(jìn)行比較實(shí)驗(yàn),驗(yàn)證了理論分析的正確性,也表明所提算法優(yōu)于現(xiàn)有的強(qiáng)凸Adam型算法.

2 相關(guān)工作

本文主要考慮求解如下非光滑約束優(yōu)化問題:

其中Q∈Rd是閉凸集,為式(1)的一個(gè)最優(yōu)解,f是Q上的非光滑強(qiáng)凸函數(shù),定義如下:

那么稱函數(shù)f為λ-強(qiáng)凸.

在線學(xué)習(xí)的目標(biāo)是最小化后悔界(Regret bound),定義如下:

其中ft(t=1,2,···,T)均為強(qiáng)凸函數(shù),ft(wt)表示ft在wt處的損失.常用優(yōu)化器是OGD,見算法1.

算法1中αt代表步長,gt表示ft(wt)的次梯度,PQ表示在Q上投影算子.

然而在線設(shè)置中,不可預(yù)見整體目標(biāo)函數(shù),需要學(xué)習(xí)環(huán)境響應(yīng)上一輪迭代結(jié)果后提供損失ft,然后才能觀察到當(dāng)前迭代的次梯度gt,因此不適用于算法的實(shí)驗(yàn)驗(yàn)證.

通常用SGD解得上述隨機(jī)情形中的收斂速率,具體形式見算法2.

算法2中αt代表步長,ξt?ξ表示第t次迭代時(shí)隨機(jī)抽取的樣本表示f(wt,ξt)的次梯度.

SGD計(jì)算次梯度只與每輪隨機(jī)抽取的樣本相關(guān),當(dāng)假設(shè)全體樣本獨(dú)立同分布時(shí),在第t次迭代時(shí)刻,關(guān)于部分樣本的目標(biāo)函數(shù)f(wt,ξt)的次梯度?是整個(gè)目標(biāo)函數(shù)f(wt,ξ)次梯度的無偏估計(jì),也就是

其中α∈(0,1),令αT為整數(shù).但是,這種方式需要將所有的迭代結(jié)果存入內(nèi)存或者提前知道總迭代次數(shù)T,這極大增加了計(jì)算開銷.

針對這個(gè)問題,一種能夠on-the-fly計(jì)算的加權(quán)平均輸出方式被提出:

除了改進(jìn)輸出方式,升級(jí)為Adam型算法也是提高SGD性能的主要途徑之一,其具體描述見算法3.

在算法3中,動(dòng)量由歷史梯度緩沖器mt承載,自適應(yīng)步長由構(gòu)成.Adam型算法的自動(dòng)調(diào)整步長機(jī)制,關(guān)鍵技術(shù)是平方梯度的指數(shù)移動(dòng)平均(Exponential Moving Average,EMA):

雖然該策略可以摒棄過早的梯度,并且避免訓(xùn)練提前終止,但是不能保證是單調(diào)非增的.迭代后期過大的步長可能導(dǎo)致算法不收斂,從而陷入Reddi問題(詳細(xì)例子在第4節(jié)實(shí)驗(yàn)中描述).

解決方案是AMSGrad和AdamNC兩種算法,SAdam在AdamNC基礎(chǔ)上改進(jìn)而來也有效避免了不收斂問題.不同的αt,mt,Vt設(shè)定方案對應(yīng)不同Adam型算法,我們將常見的幾種列舉出來,后悔界和隨機(jī)情形下收斂速率對比如表1所示.其中前三種算法針對一般凸函數(shù),后三種針對強(qiáng)凸函數(shù).

表1 常見Adam型算法對比

表1中α為某一固定參數(shù),向量或矩陣間運(yùn)算都是基于元素的,diag(·)是取對角矩陣運(yùn)算,Id是d維單位矩陣,δ是平滑系數(shù).

3 WSAdam算法

對于非光滑強(qiáng)凸優(yōu)化問題,為了構(gòu)造達(dá)到最優(yōu)收斂速率O(1/T)的新算法,我們的思路是在SAdam基礎(chǔ)上,重新設(shè)計(jì)與以往強(qiáng)凸算法同階的步長超參數(shù)(即最終步長滿足O(1/t)),摒棄以往的標(biāo)準(zhǔn)平均輸出方式,用加權(quán)平均輸出方式取代之.本文提出的WSAdam算法見算法4.

算法4 WSAdam算法輸入:w1=0 For t=1 to T Compute g?t=?f(wt,ξt)Update mt=β1,tmt-1+(1-β1,t)g?t Update Vt=β2,tVt-1+(1-β2,t)diag(g?2 t)Update V?t=Vt+δId Update wt+1=PV?t Q[wt-αtmtV?-1t]End for輸出:wˉw T=2 Ttwt T+1∑t=1 T( )

由式(7)可知,WSAdam的有效步長為O(1/t),與以往強(qiáng)凸算法步長同階.由于Vt,i+δ積累矩陣第i維度數(shù)值,算法步長因此在不同維度上得到加權(quán)區(qū)分,從而在不同待訓(xùn)參數(shù)之間體現(xiàn)出差異性.

另一方面,WSAdam采用加權(quán)平均的輸出方式,保持了on-the-fly計(jì)算的優(yōu)點(diǎn),更為重要的一點(diǎn)是,所加權(quán)重消去了導(dǎo)致以往算法產(chǎn)生對數(shù)階的結(jié)構(gòu),因此能夠達(dá)到最優(yōu)收斂,這將在下一節(jié)中展開說明.

4 WSAdam算法收斂速率分析

為了達(dá)到非光滑強(qiáng)凸情形的最優(yōu)收斂速率,我們首先尋找SGD產(chǎn)生對數(shù)階的原因,然后介紹加權(quán)平均輸出技巧解決此問題的原理.

首先,我們需要給出一些假設(shè)條件,這些假設(shè)在以往收斂性分析中普遍存在.

假設(shè)1存在常數(shù)G>0和G∞>0使得:

假設(shè)2存在常數(shù)D>0和D∞>0使得:

然后,根據(jù)文獻(xiàn)[9]中對強(qiáng)凸SGD的分析得下式:

其中,αt是步長,λmin是強(qiáng)凸系數(shù)λ中的最小元素值.令上式得:

對上式從t=1到t=T求和得:

從上式第二行可以觀察到,前一項(xiàng)為負(fù)數(shù)可以放縮消去,第二項(xiàng)導(dǎo)致了對數(shù)因子的產(chǎn)生.

因此我們著重處理后一項(xiàng),采用權(quán)重為t的加權(quán)平均輸出方式,令上式不等號(hào)兩邊同時(shí)乘t得到:

觀察上式最后一行,發(fā)現(xiàn)后一項(xiàng)上的1t已被消去,此時(shí)從t=1到t=T求和不會(huì)再產(chǎn)生對數(shù)因子,做加權(quán)平均可得如下最優(yōu)收斂速率:

本文將上述原理遷移到WSAdam算法的收斂性分析中,此外,還需要如下引理.

引理1假設(shè)1≤t≤T,0<ν<1,f(ν)表示關(guān)于ν的函數(shù),(f(ν))'表示f(ν)的導(dǎo)函數(shù),則有下式成立:

證明

引理1證畢.

定理1令假設(shè)1和假設(shè)2成立由算法4產(chǎn)生,f滿足定義1中的λ-強(qiáng)凸性質(zhì),w*∈Q為問題式(1)的一個(gè)最優(yōu)解,結(jié)合引理1,隨機(jī)WSAdam能夠保證如下收斂速率:

注意,上式表明WSAdam具有O(1/T)的最優(yōu)收斂速率.與SAdam達(dá)到O(logT/T)次優(yōu)收斂速率相比,WSAdam體現(xiàn)出了動(dòng)量方法的加速性,填補(bǔ)了Adam型算法在非光滑強(qiáng)凸情形最優(yōu)收斂性方面的缺失.

證明根據(jù)算法5中步驟7,由投影非擴(kuò)張性可得:

上式移項(xiàng),兩邊除以2at(1-β1,t)得:

因?yàn)閒(wt,ξt)滿足λ-強(qiáng)凸,聯(lián)立上式得:

上式不等號(hào)兩邊同時(shí)取期望得:

上式不等號(hào)兩邊同乘以t,并從t=1到t=T求和得:

首先處理P1:

即:

然后處理P2,由m0=0,β1,t≤1,β1,t≤β1,t-1得:

將mt和展開得:

最后處理P3:

上式結(jié)合引理1得:

聯(lián)立P1,P2,P3得:

由凸函數(shù)基本性質(zhì)得最終加權(quán)平均收斂速率:

定理1證畢.

5 實(shí)驗(yàn)

本節(jié)分兩部分對上一節(jié)中最優(yōu)收斂速率的理論分析進(jìn)行實(shí)驗(yàn)驗(yàn)證.第一部分驗(yàn)證WSAdam算法能夠解決Reddi問題;第二部分驗(yàn)證WSAdam在非光滑強(qiáng)凸情形優(yōu)于現(xiàn)有算法.

5.1 Reddi問題的實(shí)驗(yàn)結(jié)果與分析

2018年,Reddi等人證明了Adam算法在優(yōu)化一個(gè)經(jīng)過特殊構(gòu)造的一般凸函數(shù)時(shí)發(fā)散.事實(shí)上,所有基于EMA技巧的Adam型算法都有可能存在這個(gè)問題,也被稱為Reddi問題:

考慮如下定義域?yàn)閇-1,+1]的線性函數(shù)序列:

其中C=3.在這個(gè)函數(shù)序列中,可以明顯看出當(dāng)w=-1時(shí)得到最小的后悔界.然而,Adam錯(cuò)誤地將參數(shù)指向+1方向進(jìn)行更新,導(dǎo)致不收斂.

本文實(shí)驗(yàn)設(shè)置初始w=1,t=[1,5000],將WSAdam與其他4種經(jīng)典Adam型算進(jìn)行比較,觀察它們解上述在線優(yōu)化問題的表現(xiàn).為公平起見,所有算法統(tǒng)一設(shè)置參數(shù)α=0.5,β1=0,δ=1e-8,Adam和AMSGrad均設(shè)置β2=0.1,AdamNC、SAdam和WSAdam均設(shè)置β2,t=1-0.1t.實(shí)驗(yàn)結(jié)果如圖1所示,其中圖1(a)的橫坐標(biāo)代表迭代次數(shù)(t),縱坐標(biāo)代表平均后悔界(Regret boundt);圖1(b)的橫坐標(biāo)代表迭代次數(shù)(t),縱坐標(biāo)代表參數(shù)(w).如圖1所示,在迭代5000次后,Adam參數(shù)值w=+1是次優(yōu)解,平均后悔界無法收斂到0,從而證實(shí)了Reddi問題.AMSGrad、AdamNC、SAdam和WSAdam的參數(shù)值w=-1達(dá)到了最優(yōu)解,且平均后悔界均收斂到0,證實(shí)了這些算法改進(jìn)Adam是有效的,成功解決了Reddi問題.

另外,從圖1(a)中還可以看出,強(qiáng)凸算法SAdam、WSAdam比一般凸算法Adam、AMSGrad、AdamNC收斂更快,說明SAdam、WSAdam對一般凸函數(shù)同樣適用,并且本文所提WSAdam收斂最快,優(yōu)于現(xiàn)有的Adam型算法.

圖1 Reddi問題實(shí)驗(yàn)結(jié)果

5.2 非光滑強(qiáng)凸情形標(biāo)準(zhǔn)數(shù)據(jù)集的實(shí)驗(yàn)結(jié)果與分析

本文第二個(gè)實(shí)驗(yàn)繼承文獻(xiàn)[21]中隨機(jī)設(shè)置環(huán)境,考慮典型的二分類強(qiáng)凸支持向量機(jī)(SVM)問題,假設(shè)全體樣本集目標(biāo)函數(shù)f(w,ξ)由l2范數(shù)結(jié)構(gòu)項(xiàng)和非光滑hinge損失組成,描述如下:

第t次迭代時(shí),抽取樣本子集ξt參與計(jì)算的次梯度?f(wt,ξt)可以寫成如下形式:

采用6個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集,分別是cod-rna、ijcnn1、gisette、madelon、a9a和live-disorders.這些數(shù)據(jù)集均來自于LIBSVM網(wǎng) 站(https://www.csie.ntu.edu.tw/~cjlin/libsvmtools/datasets/),具體描述可見表2.

表2 標(biāo)準(zhǔn)數(shù)據(jù)庫描述

實(shí)驗(yàn)選擇了著名的解SVM問題的pegasos[21]算法,以及幾種典型的強(qiáng)凸Adam型算法作為比較對象.為公平起見,所有算法設(shè)置參數(shù)α=1.另外,pegasos根據(jù)文獻(xiàn)[21]所述無其他預(yù)設(shè)參數(shù);SAdam根據(jù)文獻(xiàn)[20]設(shè)置β1=0.9,β2,t=1-0.9t,δ=1e-2;WSAdam根據(jù)算法4設(shè) 置β1=0.9,ν=0.999,β2,t=1-0.9t,δ=1e-8;SCAdagrad根據(jù)文獻(xiàn)[17]設(shè)置ε1=0.1,ε2=1;SC-RMSProp根據(jù)文獻(xiàn)[17]設(shè)置β2,t=1-0.9t,ε1=0.1,ε2=1.

所有算法在每個(gè)數(shù)據(jù)集上運(yùn)行10次并取平均值繪制收斂曲線errorbar對比圖.如圖2所示,橫坐標(biāo)表示迭代次數(shù)t=[1,5000],縱坐標(biāo)為相對目標(biāo)函數(shù)值,即當(dāng)前迭代目標(biāo)函數(shù)值與目標(biāo)函數(shù)最優(yōu)值(最優(yōu)值取所有迭代結(jié)果中的最小值)之差的對數(shù)值,4種比較算法的相對目標(biāo)函數(shù)值形式為WSAdam的相對目標(biāo)函數(shù)值形式為藍(lán)色實(shí)線代表pegasos算法的收斂趨勢;綠色實(shí)線代表SAdam算法的收斂趨;紅色實(shí)現(xiàn)代表WSAdam算法的收斂趨;黑色實(shí)線代表SC-Adagrad算法的收斂趨;青綠色實(shí)現(xiàn)代表SC-RMSProp算法的收斂趨.

從圖2可以看出,沒有使用自適應(yīng)步長和動(dòng)量技巧的pegasos十次平均曲線波動(dòng)較大、方差大也大,收斂速率平緩,總體性能要差于其他4種Adam型算法.而本文所提出的WSAdam十次平均曲線非常平滑(這是更改為加權(quán)平均輸出所導(dǎo)致的),方差也較小.在6個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集上,WSAdam與現(xiàn)有流行的強(qiáng)凸Adam型算法均表現(xiàn)出基本相同的收斂趨勢,甚至在一些訓(xùn)練集上(cod-rna)性能遠(yuǎn)超現(xiàn)有算法.并且在同一精度要求下,WSAdam的收斂速度總體上是最快的.這與理論分析中,WSAdam能達(dá)到優(yōu)于其他算法的O(1/T)收斂速率結(jié)果相吻合.

圖2 目標(biāo)函數(shù)收斂速率比較圖

表3和表4分別給出了算法在6個(gè)數(shù)據(jù)集上訓(xùn)練所得模型的訓(xùn)練準(zhǔn)確率(以及十次結(jié)果方差)、測試準(zhǔn)確率(以及十次結(jié)果方差).容易看出:WSAdam在所有訓(xùn)練數(shù)據(jù)集上的準(zhǔn)確率均為最高,方差較其他算法處于較低的層次.WSAdam在絕大部分測試數(shù)據(jù)集上準(zhǔn)確率最高(在cod-rna上SAdam算法準(zhǔn)確率最高)).一定程度上說明了WSAdam比其他幾種算法訓(xùn)練的模型泛化性能更好,并且在訓(xùn)練和測試集上都保持較小實(shí)驗(yàn)方差,反映出其出色的穩(wěn)定性.

表3 訓(xùn)練準(zhǔn)確率和方差比較

表4 測試準(zhǔn)確率和方差比較

6 結(jié)論

本文提出了一種名為WSAdam的Adam型算法,證明了在非光滑強(qiáng)凸情形,WSAdam能達(dá)到O(1T)的最優(yōu)收斂速率,體現(xiàn)了動(dòng)量方法的加速性.據(jù)我們所知這是第一個(gè)被證明具有最優(yōu)收斂速率的自適應(yīng)步長策略與動(dòng)量方法結(jié)合的算法.與SAdam算法相比,WSAdam改用了加權(quán)平均的輸出方式,使算法在保持on-the-fly計(jì)算特點(diǎn)的同時(shí),直接去掉了理論收斂速率上的對數(shù)階因子.實(shí)驗(yàn)驗(yàn)證了所提算法成功避免Reddi提出的不收斂問題,并在解決非光滑強(qiáng)凸優(yōu)化問題時(shí)比現(xiàn)有算法性能更優(yōu).

另一方面,自適應(yīng)步長算法利用對角矩陣中記錄的歷史數(shù)據(jù)幾何知識(shí),緩和了對超參數(shù)的依賴性,因此非常適合訓(xùn)練深度神經(jīng)網(wǎng)絡(luò).將WSAdam與動(dòng)量方法[22]結(jié)合,探索其瞬時(shí)收斂速率[23]并推廣到深度學(xué)習(xí)[24,25]中,將是我們下一步研究的方向.

猜你喜歡
步長對數(shù)情形
明晰底數(shù)間的區(qū)別,比較對數(shù)式的大小
比較底數(shù)不同的兩個(gè)對數(shù)式大小的方法
犧牲
董事長發(fā)開脫聲明,無助消除步長困境
步長制藥50億元商譽(yù)肥了誰?
起底步長制藥
探究一道課本習(xí)題的一般情形
活用對數(shù)換底公式及推論
神奇的對數(shù)換底公式
步長制藥
——中國制藥企業(yè)十佳品牌
团风县| 小金县| 驻马店市| 盐边县| 资溪县| 遂平县| 黑水县| 满洲里市| 武城县| 桓仁| 焦作市| 祥云县| 乌拉特后旗| 连南| 顺义区| 娄烦县| 金昌市| 青河县| 保亭| 泾源县| 宜宾市| 五大连池市| 集安市| 阿拉善右旗| 社会| 康马县| 高州市| 大庆市| 丽江市| 台安县| 无棣县| 革吉县| 梅河口市| 丹寨县| 石河子市| 梁山县| 潼关县| 左云县| 邢台县| 塔城市| 紫阳县|