王楠鑫 蔣玉婷
摘要:本文主要介紹了一種常用的機(jī)器學(xué)習(xí)方法——度量學(xué)習(xí)。度量學(xué)習(xí)旨在學(xué)得一個(gè)合適的距離來(lái)優(yōu)化分類(lèi)器的性能,提高分類(lèi)器的效率。本文對(duì)度量學(xué)習(xí)的基本概念做簡(jiǎn)介,并分析5E38見(jiàn)的度量學(xué)習(xí)形式和方法,最后討論了一些度量學(xué)習(xí)研究中的前沿問(wèn)題。
關(guān)鍵詞:度量學(xué)習(xí)
一、度量學(xué)習(xí)簡(jiǎn)介
在機(jī)器學(xué)習(xí)任務(wù)中,樣本之間的距離是一個(gè)十分重要的因素,絕大多數(shù)機(jī)器學(xué)習(xí)模型和算法都直接或間接地使用了樣本之間的距離。比如,在常見(jiàn)的“K近鄰”分類(lèi)器中,樣本間的距離很大程度上影響了最終分類(lèi)效果的好壞[1]。實(shí)際上,幾乎所有分類(lèi)算法都可以在某個(gè)特定的距離下等價(jià)于“近鄰分類(lèi)器”。在機(jī)器學(xué)習(xí)任務(wù)中,我們也常常通過(guò)特征選擇、特征提取等手段來(lái)對(duì)尋找數(shù)據(jù)更好的表示,或是達(dá)到降維的目的,而尋求數(shù)據(jù)更好的表示或降維最終是為了在得到的子空間中學(xué)習(xí),這本質(zhì)上就是基于子空間中的距離進(jìn)行學(xué)習(xí)。既然如此,我們完全可以直接尋找一個(gè)合適的距離,并利用這個(gè)學(xué)到的距離來(lái)完成各種任務(wù)??梢哉f(shuō),各種特征選擇、特征提取和表示學(xué)習(xí)方法都相當(dāng)于是在做度量學(xué)習(xí)。總而言之,度量學(xué)習(xí)的目的就是尋找一個(gè)合適的距離定義,使得在這種距離定義下,相似樣本離得較近,而不相似樣本離得較遠(yuǎn),進(jìn)而來(lái)優(yōu)化某個(gè)機(jī)器學(xué)習(xí)任務(wù)。
距離往往用來(lái)衡量對(duì)象之間的相關(guān)性。常見(jiàn)的距離有歐幾里得距離、馬氏距離[2]、余弦距離、曼哈頓距離等。一般來(lái)講,距離度量是一個(gè)二元函數(shù),它需要滿足四個(gè)條件:非負(fù)性、自反性、對(duì)稱(chēng)性和三角不等式。若某個(gè)二元函數(shù)d滿足非負(fù)性、對(duì)稱(chēng)性和三角不等式,且,則稱(chēng)d為一個(gè)“偽距離度量”,它具有距離度量的大部分性質(zhì),也常用于機(jī)器學(xué)習(xí)任務(wù)。
二、基于馬氏距離的度量學(xué)習(xí)
為了能夠?qū)W得一個(gè)合適的距離,首先必須將距離“參數(shù)化”,即使用某些參數(shù)來(lái)定義一個(gè)距離函數(shù)。最常用的選擇是“馬氏距離”,它相當(dāng)于考慮樣本各個(gè)特征權(quán)重和特征間相關(guān)性的歐式距離,定義為:
其中我們要求矩陣是一個(gè)半正定矩陣,即學(xué)到的馬氏距離實(shí)際上是一個(gè)“偽度量”。要學(xué)一個(gè)馬氏距離,實(shí)際上就是要學(xué)一個(gè)矩陣。如此一來(lái),我們就可以依據(jù)這樣一種距離的定義形式來(lái)構(gòu)造各種優(yōu)化問(wèn)題,從而完成各種機(jī)器學(xué)習(xí)任務(wù)。一般來(lái)說(shuō),基于馬氏距離的度量學(xué)習(xí)任務(wù)可以以?xún)?yōu)化問(wèn)題的形式描述為:
其中L是某個(gè)關(guān)于的目標(biāo)函數(shù)。比如說(shuō),訓(xùn)練樣本給我們提供了一些弱監(jiān)督信息,即某些樣本是相似的,某些樣本是不相似的。設(shè)P表示相似樣本對(duì)構(gòu)成的集合,即若y)∈P本X和Y是相似的;設(shè)N表示不相似樣本對(duì)構(gòu)成的集合,即若y)∈N本X和Y是不相似的?,F(xiàn)在我們希望在學(xué)到的距離下,相似樣本間的距離較小而不相似樣本間的距離較大,那么可以將優(yōu)化問(wèn)題構(gòu)造為:
上式表示我們希望尋找一個(gè)矩陣,使得在這種馬氏距離下,相似樣本的距離之和盡量小,而不相似樣本的就離之和盡量大。有時(shí),我們只需要不相似樣本之間的距離達(dá)到某個(gè)既定的閾值即可,而不需要其盡量大,那么優(yōu)化問(wèn)題可以寫(xiě)為:
這相當(dāng)于對(duì)原優(yōu)化問(wèn)題的第二項(xiàng)取“hinge”損失。由于通過(guò)這樣一種方式學(xué)得的距離考慮了數(shù)據(jù)提供的弱監(jiān)督信息,使得相似樣本距離小而不相似樣本距離大,所以往往可以提高分類(lèi)器的性能。
前文說(shuō)到,使用降維方法本質(zhì)上是在學(xué)習(xí)某種特定的距離度量,而馬氏距離也可以認(rèn)為是對(duì)原空間的樣本做映射之后的歐式距離。設(shè)原數(shù)據(jù)樣本∈R^D,矩陣,那么它可以將數(shù)據(jù)樣本映射為R維。在映射后的空間中,兩個(gè)樣本X和Y之間的歐式距離為:
若將替換為一個(gè)矩陣,那么就得到了與馬氏距離相同的形式。我們可以將直接使用馬氏距離表示的度量學(xué)習(xí)問(wèn)題稱(chēng)為“Mahalanobis Distance Metric Learning”,簡(jiǎn)稱(chēng)為“MDML”[3],而將基于映射矩陣的度量學(xué)習(xí)問(wèn)題稱(chēng)為“Projection Distance Metric Learning”,簡(jiǎn)稱(chēng)為“PDML”。我們可以看出,一旦學(xué)得了映射矩陣就可以獲得相應(yīng)的馬氏距離矩陣,也就是說(shuō)這兩種表示之間是相通的,但在使用時(shí)仍有一些區(qū)別。從優(yōu)化的角度來(lái)講,若使用“MDML”,則目標(biāo)函數(shù)往往是關(guān)于矩陣的線性函數(shù),雖然相似樣本間的距離和不相似樣本間的距離符號(hào)相反,但線性函數(shù)必定是凸函數(shù),這使得我們往往可以構(gòu)造關(guān)于矩陣的凸優(yōu)化問(wèn)題。若使用“PDML”,目標(biāo)函數(shù)往往是關(guān)于矩陣P的二次函數(shù),而且相似樣本間的距離和不相似樣本間的距離符號(hào)相反,雖然凸函數(shù)的非負(fù)線性加權(quán)仍是凸函數(shù),但前后兩部分的凹凸性相反,從而整個(gè)優(yōu)化問(wèn)題的凸性得不到保證。凸優(yōu)化問(wèn)題在求解時(shí)有很好的性質(zhì),比如必定可以找到全局最優(yōu)解等。也就是說(shuō),使用“MDML”更方便于優(yōu)化。但是,從映射矩陣的角度考慮問(wèn)題也有其意義,比如可以考慮映射的正交性,可以降低計(jì)算開(kāi)銷(xiāo)等。
三、度量學(xué)習(xí)中的前沿問(wèn)題
度量學(xué)習(xí)是一個(gè)十分值得研究的話題,度量學(xué)習(xí)領(lǐng)域中也存在一些待解決的問(wèn)題。本部分將介紹一些關(guān)于度量學(xué)習(xí)可能的研究主題。
考慮多個(gè)度量的學(xué)習(xí)。度量學(xué)習(xí)的最終目的是提高分類(lèi)器的性能,一個(gè)具體的距離度量就好比是一種空間變換,或是一種特征提取的方法。我們知道,某個(gè)單一的簡(jiǎn)單的學(xué)習(xí)器可能不會(huì)具有特別號(hào)的效果,受此啟發(fā),我們可以在度量學(xué)習(xí)中引入多個(gè)不同的距離,對(duì)不同類(lèi)的樣本設(shè)計(jì)不同的距離度量,甚至對(duì)每一個(gè)樣本都設(shè)計(jì)一個(gè)特定的距離度量。實(shí)際上這一思路在機(jī)器學(xué)習(xí)中十分常見(jiàn),比如“Gaussian Mixture”,比如“Ensemble”??梢赃@樣的角度來(lái)理解多度量學(xué)習(xí):不同的類(lèi)的樣本會(huì)來(lái)自不同的分布,而不同的分布會(huì)具有不同的規(guī)律,也就具有不同的適用于分類(lèi)的特征,所以使用多度量是合理的。另外,從映射矩陣的角度來(lái)考慮,學(xué)習(xí)一個(gè)馬氏距離相當(dāng)于學(xué)習(xí)一個(gè)線性映射,而簡(jiǎn)單的線性關(guān)系未必能很好地刻畫(huà)數(shù)據(jù)之間的聯(lián)系,通過(guò)引入多個(gè)線性變換,可以使得模型具有更強(qiáng)的表示能力。
參考文獻(xiàn):
[1]彭凱,汪偉,楊煜普.基于余弦距離度量學(xué)習(xí)的偽K近鄰文本分類(lèi)算法[J],上海交通大學(xué)自動(dòng)化系系統(tǒng)控制與信息處理教育部重點(diǎn)實(shí)驗(yàn)室,2014
[2]梅江元.基于馬氏距離的度量學(xué)習(xí)算法研究及應(yīng)用[J],哈爾濱工業(yè)大學(xué),2016
[3]楊緒兵,王一雄,陳斌.馬氏度量學(xué)習(xí)中的幾個(gè)關(guān)鍵問(wèn)題研究及幾何解釋[J],南京林業(yè)大學(xué)信息科學(xué)技術(shù)學(xué)院,揚(yáng)州大學(xué)信息工程學(xué)院,2013