羅 霖
(中國人民解放軍73232部隊 舟山 316200)
近年來,隨著數(shù)據(jù)采集手段的飛速發(fā)展以及數(shù)據(jù)來源的日益豐富,尤其是互聯(lián)網(wǎng)的大規(guī)模使用,我們所能獲得的數(shù)據(jù)規(guī)模已經(jīng)從十年前的數(shù)萬、數(shù)十萬到今天的動輒上千萬、甚至是數(shù)億,知識量成“爆炸式”增長,如文本分類數(shù)據(jù)庫達(dá)到107樣本個數(shù),109樣本維數(shù)。如何學(xué)習(xí)和處理這些大規(guī)模海量數(shù)據(jù)是當(dāng)前值得關(guān)注而又亟需解決的問題。
目前,機(jī)器學(xué)習(xí)(Machine Learning)已經(jīng)被公認(rèn)是處理和學(xué)習(xí)這些數(shù)據(jù)最為有效的手段之一。將機(jī)器學(xué)習(xí)問題的求解歸結(jié)為優(yōu)化問題是當(dāng)前機(jī)器學(xué)習(xí)界主流的做法。實際上,優(yōu)化理論已經(jīng)成為機(jī)器學(xué)習(xí)研究的核心內(nèi)容之一,可以用經(jīng)驗風(fēng)險最小化、最大似然、最大熵和最小描述長度等方法來表示,它是機(jī)器學(xué)習(xí)算法設(shè)計的根本依據(jù)。批處理(Batch)方法是優(yōu)化理論早期的算法形式,如梯度下降法、(擬)牛頓法和內(nèi)點法等,其每一步迭代都要遍歷所有的樣本信息甚至需要處理海森(Hesse)矩陣。如果處理規(guī)模較小的數(shù)據(jù),可以直接用經(jīng)典的批處理優(yōu)化方法很容易對其求解,但是如果面臨的是大規(guī)模海量數(shù)據(jù),整個求解過程就發(fā)生了重大轉(zhuǎn)變。以文本分類的數(shù)據(jù)庫為例(規(guī)模為107個數(shù),109維數(shù)),光存儲數(shù)據(jù)本身所需要的內(nèi)存空間為107×109×4Byte=4×107GB,當(dāng)前64位計算機(jī)的內(nèi)存總量也就是264Byte=16GB,即便全部拿來存儲數(shù)據(jù),其容量還是杯水車薪,更不要說去處理和分析數(shù)據(jù)。雖然這些年來計算機(jī)硬件也相應(yīng)地有著快速發(fā)展,但仍跟不上數(shù)據(jù)集規(guī)模增大所帶來的計算需求爆炸式增長的步伐。
因此,在實際應(yīng)用中,對于大規(guī)模問題的學(xué)習(xí)算法的研究就是非常必要和迫切的。本文以大規(guī)模機(jī)器學(xué)習(xí)問題的研究為主線,圍繞坐標(biāo)優(yōu)化和在線優(yōu)化算法,綜述近幾年來求解大規(guī)模機(jī)器學(xué)習(xí)問題的相關(guān)理論和研究進(jìn)展。
機(jī)器學(xué)習(xí)最初的研究動機(jī)是為了讓計算機(jī)系統(tǒng)具有人的學(xué)習(xí)能力[1~2],以便實現(xiàn)人工智能。上世紀(jì)四、五十年代興起的神經(jīng)網(wǎng)絡(luò)和感知機(jī)算法在一些特殊領(lǐng)域取得了良好效果[3],但Vapnik指出“這些理論成果并沒有對一般的學(xué)習(xí)理論帶來多大貢獻(xiàn)[4]?!弊陨鲜兰o(jì)九十年代以來,具有堅實理論基礎(chǔ)和良好應(yīng)用效果的 SVM[5]、adaBoost[6]等算法吸引了人們極大的興趣,統(tǒng)計機(jī)器學(xué)習(xí)理論從此也進(jìn)入了蓬勃發(fā)展期。
自1995年以來,機(jī)器學(xué)習(xí)理論經(jīng)歷了“間隔”和“損失函數(shù)”兩個重要的發(fā)展階段。在損失函數(shù)具有貝葉斯一致性的前提條件下[7],大多數(shù)機(jī)器學(xué)習(xí)問題都可以表示成為“正則化項+損失函數(shù)”[8]形式的優(yōu)化問題。以二分類為例,對于獨立同分布的訓(xùn)練樣本集 S={(X1,y1),...,(Xm,ym)}∈Rn×{+1,-1},求解下述優(yōu)化問題:
最初的機(jī)器學(xué)習(xí)算法主要考慮如何進(jìn)行核最優(yōu)化以提高決策函數(shù)的泛化能力,傳統(tǒng)的算法難以高效地對大規(guī)模數(shù)據(jù)進(jìn)行處理。實際上,機(jī)器學(xué)習(xí)理論關(guān)注可以實現(xiàn)的,行之有效的學(xué)習(xí)算法。很多推論問題屬于無程序可循難度,所以部分的機(jī)器學(xué)習(xí)研究是開發(fā)容易處理的近似算法。大量實驗表明線性分類決策函數(shù)能夠有效地分類高維數(shù)據(jù)。沒有先驗知識告訴我們最優(yōu)化問題的精確解對應(yīng)的分類面就一定是泛化能力最強(qiáng)的,而諸多實驗卻表明近似最優(yōu)解通常比精確解提供更好的分類面,因此專門針對線性核的訓(xùn)練算法受到廣泛關(guān)注。從近五年機(jī)器學(xué)習(xí)頂級會議ICML和NIPS發(fā)表論文的質(zhì)量和數(shù)量,足以看出研究者對這一熱點問題的關(guān)注程度,也涌現(xiàn)出一些高效實用的海量數(shù)據(jù)分析方法。比較著名的方法主要有[9~11]:隨機(jī)(次)梯度下降算法(Stochastic Gradient Descent,SGD);割平面方法(SVMperf)[12],bundle 方 法[13]和 置 信 域 牛 頓 方 法(TRON)[14]以及坐標(biāo)優(yōu)化算法[15~16]。這些算法能夠較為有效解地決大規(guī)模線性問題,獲得快速而穩(wěn)定的收斂結(jié)果。
本文介紹近年來機(jī)器學(xué)習(xí)的一些代表性算法、發(fā)展趨勢以及分析常用方法和技巧,進(jìn)而對大規(guī)模機(jī)器學(xué)習(xí)問題的應(yīng)用機(jī)理進(jìn)行分析探討。
大規(guī)模數(shù)據(jù)的學(xué)習(xí)問題給機(jī)器學(xué)習(xí)帶來了新的挑戰(zhàn)。因此,對于這類問題的求解就不再是一般意義上的優(yōu)化問題,隨之轉(zhuǎn)化為機(jī)器學(xué)習(xí)問題。經(jīng)典優(yōu)化方法花費大量時間尋找給定精度下的最優(yōu)解。與經(jīng)典方法不同的是,大規(guī)模數(shù)據(jù)的優(yōu)化不再要求是精確解,而是要突破計算機(jī)存儲空間的瓶頸和計算開銷的負(fù)擔(dān),讓算法既快又準(zhǔn)確地運行,尋找最具有測未知樣本的決策函數(shù)并得到理想的分類器。傳統(tǒng)的批處理算法由于無法突破計算機(jī)存儲空間的瓶頸和計算開銷的負(fù)擔(dān)而失效。下面主要圍繞線性核的形式,在“正則化項+損失函數(shù)”框架下介紹當(dāng)前求解此類大規(guī)模機(jī)器學(xué)習(xí)問題的研究和發(fā)展的現(xiàn)狀。
直到2007年,Shalev-Shwartz等人[10]提出的投影次梯度算法Pegasos,第一次在大規(guī)模數(shù)據(jù)上取得了實質(zhì)性的成功,處理來自路透社的文本分類rcv1問題(800,000訓(xùn)練樣本)只需不到5秒鐘時間,這對于以前的算法是無法想象的。與其它算法相比,在線算法的優(yōu)勢明顯。至此,在線算法的研究無論是在理論還是應(yīng)用上都取得了比較成功的第一步,也引起了眾多學(xué)者的強(qiáng)烈關(guān)注。
Pegasos在L2正則化問題(SVM)上取得相當(dāng)?shù)某晒?,人們自然想拓廣這種方法求解一般形式的正則化損失函數(shù)優(yōu)化問題,即“L1正則化項+損失函數(shù)”的形式。針對L1正則化大規(guī)模在線算法的求解,2008年Duchi提出了高效的L1投影算子[19],可以將L1正則化問題轉(zhuǎn)化為L1投影的梯度方法來解,但同時付出了klogn的計算代價(k是解向量非零特征個數(shù)),實現(xiàn)起來也很復(fù)雜。2009年,著名學(xué)者Langford[20]指出,隨機(jī)梯度(SGD)方法在實際使用過程中并不具有稀疏性。為避免L1投影算子的計算復(fù)雜性問題,同時為確保在線算法解的稀疏性,他提出了截斷梯度(Truncated Gradient)的方法[20]。該方法是一種為達(dá)到稀疏性目的而強(qiáng)制在梯度上進(jìn)行的一種截斷,并不具有明確的機(jī)器學(xué)習(xí)含義。盡管在形式上與Duchi的L1投影算子很相像,并且文獻(xiàn)[20]在一定條件下也證明了這種方法的regret bound,但此時我們并不知道算法優(yōu)化的目標(biāo)函數(shù)是什么,這可能會涉及到復(fù)雜的非凸優(yōu)化問題,同時也使得收斂速度難以分析,這使得L1的正則化的在線算法陷入了嚴(yán)重的困境。
研究人員越來越意識到,正則化項和損失函數(shù)往往有著機(jī)器學(xué)習(xí)的特殊含義。同時,一些在線算法往往不能保證機(jī)器學(xué)習(xí)問題的結(jié)構(gòu),如在求解L1正則化學(xué)習(xí)問題時得不到稀疏性,收斂速度也緩慢。如何高效求解大規(guī)模機(jī)器學(xué)習(xí)問題并保證問題的結(jié)構(gòu)是研究中的難點。早在1983年,Y.Nesterov[21]就指出如果能充分優(yōu)化問題本身特殊的結(jié)構(gòu),可達(dá)到O(1/t)的收斂速率。隨后Nesterov得到了多種形式的O(1/t)收斂速率的結(jié)構(gòu)優(yōu)化算法,比直接使用梯度的“黑箱(Black-Box)”方法要快一個數(shù)量級。結(jié)構(gòu)優(yōu)化的研究成果在優(yōu)化領(lǐng)域產(chǎn)生了重要的影響,該方法又稱為Proximal Gradient Method(PG)。所謂“黑箱”方法將正則化項和損失函數(shù)組成的目標(biāo)函數(shù)作為一個整體來考慮,而不考慮各部分的細(xì)節(jié),是凸優(yōu)化方法在機(jī)器學(xué)習(xí)領(lǐng)域的直接應(yīng)用。Y.Nesterov甚至曾經(jīng)說過,“黑箱方法在凸優(yōu)化問題上的重要性將不可逆轉(zhuǎn)地消失,徹底地取而代之的是巧妙運用問題結(jié)構(gòu)的新算法?!碑?dāng)然,并非所有問題的結(jié)構(gòu)都能為我們所熟知,但至少機(jī)器學(xué)習(xí)問題的結(jié)構(gòu)越來越明了地呈現(xiàn)在了研究者面前。
目前,結(jié)構(gòu)優(yōu)化算法已經(jīng)被成功地應(yīng)用解決一些機(jī)器學(xué)習(xí)問題,產(chǎn)生了極大的成功和極其重要的影響。2009年,Xiao的L1正則化在線學(xué)習(xí)算法(RDA)[22],不僅能夠保證與批處理同等的稀疏性,算法的收斂速度也得到了保證,這是將結(jié)構(gòu)優(yōu)化思想與機(jī)器學(xué)習(xí)問題相結(jié)合的第一篇文章。機(jī)器學(xué)習(xí)結(jié)構(gòu)優(yōu)化方法的研究已經(jīng)初現(xiàn)端倪,它為機(jī)器學(xué)習(xí)的研究注入了新的活力,一種新的機(jī)器學(xué)習(xí)優(yōu)化問題求解模式由此展開篇章。而文獻(xiàn)[23]的FOBOS則是RDA方法的一個特例。2009年Amir Beck等人[24]在Y.Nesterov的基礎(chǔ)上對PG算法的理論進(jìn)行了統(tǒng)一和完善,并在將其運用到圖像復(fù)原正則化技術(shù)中,取得了很好的效果,不論是速度上還是圖像復(fù)原度上均優(yōu)于以往的算法。2010年Duchi[25]在Xiao RDA結(jié)構(gòu)學(xué)習(xí)的框架內(nèi)引入鏡面下降(Mirror Descent,MD)方法求解大規(guī)模在線學(xué)習(xí)問題,并將其稱之為復(fù)合目標(biāo)鏡面下降(Composite Objective Mirror Descent,Comid)。與RDA方法類似,Comid不僅保證了問題的結(jié)構(gòu),而且適用于光滑和非光滑的損失函數(shù);但不同的是,Comid以瞬時梯度替代了RDA的平均梯度,使得Comid比RDA方法更加簡潔和易操作[25]。Comid的在線算法做了充分的理論證明,得出不同損失和正則化項情況下的收斂速度。文獻(xiàn)[22]和[25]成功的關(guān)鍵在于在優(yōu)化過程中將正則化項和損失函數(shù)分別看待,對損失函數(shù)進(jìn)行近似展開,對涉及正則化項的優(yōu)化問題進(jìn)行解析求解,從而減少了計算代價并保證了正則化項的結(jié)構(gòu)。在理論上,文獻(xiàn)[22]和[25]通過regret bound建立了在線優(yōu)化和批處理優(yōu)化之間的密切聯(lián)系。
在大規(guī)模數(shù)據(jù)處理方面,除了在線優(yōu)化方法,另一個值得關(guān)注的方法就是坐標(biāo)優(yōu)化算法。坐標(biāo)優(yōu)化方法的思路非常簡單直觀,主要是對高維優(yōu)化問題采取各個擊破的方法分而治之。具體的計算步驟就是固定其它維坐標(biāo),一次僅對選中的一維坐標(biāo)進(jìn)行優(yōu)化求解。在線算法和坐標(biāo)優(yōu)化的主要區(qū)別是前者每一步迭代需要解單個樣本關(guān)于所有維數(shù)的優(yōu)化問題而后者每一步迭代需要解單維關(guān)于所有樣本的優(yōu)化問題。
Paul Tseng是坐標(biāo)優(yōu)化算法研究方面的著名學(xué)者,他從優(yōu)化理論的角度對多種不同光滑性和凸性條件下的優(yōu)化問題建立了坐標(biāo)優(yōu)化算法[26],其中也包括了機(jī)器學(xué)習(xí)正則化損失函數(shù)的優(yōu)化問題。但Tseng的研究工作偏重于理論分析,缺乏解決實際問題和說明算法性能的實驗。機(jī)器學(xué)習(xí)的一些研究者分別針對具體的學(xué)習(xí)問題提出了一些實用的坐標(biāo)優(yōu)化算法,并在真實數(shù)據(jù)庫進(jìn)行了大量的實驗。
坐標(biāo)優(yōu)化方法來源于梯度下降原理,其主要思路是對一維優(yōu)化子問題,根據(jù)偏導(dǎo)數(shù)得出下降方向,并根據(jù)目標(biāo)函數(shù)的光滑性或者線搜策略進(jìn)一步求出下降步長,通過在每個坐標(biāo)方向上使目標(biāo)函數(shù)不斷遞減,得到收斂性。在損失函數(shù)導(dǎo)數(shù)為Lipschitz連續(xù)的情形下可以根據(jù)Lipschitz常數(shù)求出步長,進(jìn)而可以使用軟閾值方法[24]得出單維子問題的下降步長,由于高維數(shù)據(jù)固有的稀疏性,這類方法適合求解L1正則化光滑損失函數(shù)的優(yōu)化問題。
為了驗證坐標(biāo)優(yōu)化算法在處理大規(guī)模實際問題的性能,一些研究者進(jìn)行了廣泛的實驗比較,實驗結(jié)果表明坐標(biāo)優(yōu)化是處理大規(guī)模稀疏數(shù)據(jù)特別是文本數(shù)據(jù)的首選算法[27]。鑒于坐標(biāo)優(yōu)化在解決大規(guī)模問題中如此重要的地位,林智仁教授繼開發(fā)了著名的支持向量機(jī)軟件包LibSVM[28]之后,又針對大規(guī)模稀疏數(shù)據(jù)的線性分類問題專門開發(fā)了Liblinear[29]軟件包,Liblinear中的主要算法就是坐標(biāo)優(yōu)化算法。2010年,Nesterov對坐標(biāo)優(yōu)化方法進(jìn)行了重新審視,指出坐標(biāo)優(yōu)化方法成功的關(guān)鍵在于利用了數(shù)據(jù)的稀疏性和使用了計算代價低的偏導(dǎo)數(shù)求取方法,在更新部分坐標(biāo)的基礎(chǔ)上使用最小化或梯度下降更新下一個坐標(biāo)融入了更多的信息。因此,與全導(dǎo)數(shù)方法相比,坐標(biāo)優(yōu)化方法在不增加計算代價的基礎(chǔ)上,往往會使目標(biāo)函數(shù)下降得更快[32]。在這些分析的基礎(chǔ)上,Nesterov提出了隨機(jī)坐標(biāo)優(yōu)化方法,證明了隨機(jī)坐標(biāo)優(yōu)化比使用全導(dǎo)數(shù)方法概率意義下收斂的速度會更快,具有處理海量數(shù)據(jù)(hugescale)的能力。
回顧大規(guī)模機(jī)器學(xué)習(xí)優(yōu)化問題的發(fā)展歷程,在線和坐標(biāo)優(yōu)化兩種方法在求解高維大樣本問題時,各有優(yōu)勢和特點。在線方法主要利用大規(guī)模數(shù)據(jù)獨立同分布的統(tǒng)計規(guī)律,而坐標(biāo)優(yōu)化主要利用高維數(shù)據(jù)稀疏的特性,可以認(rèn)為這兩種算法是機(jī)器學(xué)習(xí)的主流優(yōu)化方法。單變量子問題解析解和結(jié)構(gòu)優(yōu)化策略是對在線和坐標(biāo)優(yōu)化算法的豐富和拓展。在線和坐標(biāo)優(yōu)化方法能夠充分地利用了機(jī)器學(xué)習(xí)問題自身的特點,很好地滿足了機(jī)器學(xué)習(xí)問題大規(guī)模和結(jié)構(gòu)的實際需求。因此,求解具有結(jié)構(gòu)特點的大規(guī)模機(jī)器學(xué)習(xí)優(yōu)化問題是當(dāng)前機(jī)器學(xué)習(xí)發(fā)展中的關(guān)鍵性科學(xué)性問題之一,是時代發(fā)展的迫切需求,對機(jī)器學(xué)習(xí)的發(fā)展也會產(chǎn)生深遠(yuǎn)的影響。
[1]邊肇祺,張學(xué)工,等.模式識別 [M].北京:清華大學(xué)出版社,2000:18-26.
[2]周志華.機(jī)器學(xué)習(xí)[J].中國計算機(jī)學(xué)會通訊,2009,5(8):6-6.
[3]R.O.Duda,P.E.Hart,D.G.Stork.Pattern Classification[M].Second ed.New York:Wiley,2001.
[4]V.Vapnik.統(tǒng)計學(xué)習(xí)理論的本質(zhì) [M].張學(xué)工,譯.北京:清華大學(xué)出版社,2000:32-36.
[5]B.E.Boser,I.Guyon,and V.N.Vapnik.A training algorithm for optimal margin classifers C//In proceedings of the Fifth Annal Workshop of Computational Learning Theory,PittsburgACM,1992,5:144-152.
[6]Friedman,J.,Hastie,T.and Tibshirani,R.Additive logistic regression:A statistical view of boosting(with discussion)[J].The Annals of Statistics,2000,28:337-407.
[7]T.Zhang.Statistical behavior and consistency of classification methods based on convex risk minimization[J].The Annals of Statistics,2004,32:56-85.
[8]Tong Zhang.Adaptive forward-backward greedy algorithm for sparse learning with linear models[C]//In Advances in Neural Information Processing Systems,2008.
[9]Zhang,T.Solving large scale linear prediction problems using stochastic gradient descent algorithms[C]//Proc of the 21th International Conference on Machine Learning,2004:919-926.
[10]Shalev-Shwartz,S.,Singer,Y.,& Srebro,N.Pegasos:primal estimated sub-gradient solver for SVM[C]//Proc of the 24th International Conference on Machine Learning,2007:807-814.
[11]Bordes,A.and Bottou,L.Careful quasi-Newton stochastic gradient descent[J].Journal of Machine Learning Research.2009(10):1737-1754.
[12]Joachims,T..Training linear SVMs in linear time[C]//Proc of the of the 12th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,2006,33:82-95.
[13]Smola,A.J.,Vishwanathan,S.V.N.,& Le,Q..Bundle methods for machine learning[C]//Advances in Neural Information Processing Systems 20,Cambridge MA,2007,20:1377-1384.
[14]Lin,C.-J.,Weng,R.C.,& Keerthi,S.S.Trust region Newton method for large-scale logistic regression[J].Journal of Machine Learning Research,2008(9):627-650.
[15]Chang,K.-W.,Hsieh,C.-J.,& Lin,C.-J..Coordinate descent method for large-scale L2-loss linear SVM[J].Journal of Machine Learning Research,2008(9):1369-1398.
[16]Hsieh,C.J.,Chang,K.W.,Lin,C.J.,Keerthi,S.S.,and Sundararajan,S.A dual coordinate descent method for largescale linear SVM[C]//Proc of the 25th International Conference on Machine Learning,2008:408-415.
[17]M.Zinkevich.Online convex programming and generalized infinitesimal gradient ascent[C]//Proc of the 20th Interna-tional Conference on Machine Learning,2003.
[18]Hazan,E.,Kalai,A.,Kale,S.,&Agarwal,A..Logarithmic regret algorithms for online convex optimization[J].COLT,2006.
[19]Duchi,J.,Shalev-Shwartz,S.,& Singer,Y.Efficient projections onto the l1-ball for learning in high dimensions[C]//Proc of the 25th International Conference on Machine Learning,2008:272-279.
[20]J.Langford,L Li and T.Zhang.Sparse online learning via truncated gradient[J].Journal of Machine Learning Research,2009,10:777-801.
[21]Nesterov,Y.A method of solving a convex programming problem with convergence rate O(1/k2)[J].In Soviet Mathematics Doklady,1983,27:372-376.
[22]Xiao,L.Dual averaging methods for regularized stochastic learning and online optimization[J].Journal of Machine Learning Research,2010,11:2543-2596.
[23]J.Duchi and Y.Singer.Efficient online and batch learning using forward backward splitting[J].Journal of Machine Learning Research,2009,10:2899-2934.
[24]Beck and M.Teboulle.Mirror descent and nonlinear projected subgradient methods for convex optimization[J].Operations Research Letters,2003,31:167-175.
[25]John Duchi,Shai Shalev-Shwartz,Yoram Singer,and Ambuj Tewari.Composite objective mirror descent[J].In COLT,2010b.
[26]Z.-Q.Luo and P.Tseng[J].On the convergence of coordinate descent method for convex differentiable minimization[J].Journal of Optimization Theory and Applications,1992,72(1):7-35.
[27]Chang C C,Lin C J.A Library for Support Vector Machines[DB/OL].http://www.csie.ntu.edu.tw/~cjlin/libsvm/
[28]C.-H.Ho and C.-J.Lin.LIBLINEAR—A Library for Large LinearClassification[DB/OL].http://www.csie.ntu.edu.tw/~cjlin/liblinear/
[29]Yuan,G.X.,Chang,K.W.,Hsieh,C.J.,and Lin,C.A comparison of optimization methods for large-scale L1-regularized linear classification [J].Methods,2010,1:1-51.
[30]楊凌霄,武建平.機(jī)器學(xué)習(xí)方法在人臉檢測中的應(yīng)用[J].計算機(jī)與數(shù)字工程,2008,36(3).
[31]魯慶明,徐東平.基于支持向量機(jī)和紋理特征的人臉識別[J].計算機(jī)與數(shù)字工程,2010,38(10).
[32]Nesterov,Y.Efficiency of coordinate descent methods on huge-scale optimization problems.[R].Belgium:University catholique de Louvain,Center for Operations Research and E-conometrics(CORE),2010:02-20.http://130.104.5.100/cps/ucl/doc/core/documents/coredp2010_2web.pdf.