二維歐氏空間內(nèi)線性凸區(qū)域概念的PAC學(xué)習(xí)算法

2019-09-10 07:22許道云

貴州大學(xué)學(xué)報(bào)（自然科學(xué)版） 2019年1期

許道云

摘要：實(shí)例空間X的一個(gè)子集規(guī)定一個(gè)概念，表現(xiàn)為一個(gè)函數(shù)c：X→{0，1}。給定X上一個(gè)分布D，可能近似正確（PAC）學(xué)習(xí)算法的目的是基于獨(dú)立同分布樣本S，由算法產(chǎn)生一個(gè)近似函數(shù)hS，以高概率保證它與目標(biāo)函數(shù)c的誤差不超過(guò)給定誤差值。如果存在這樣的算法其樣本復(fù)雜性及時(shí)間復(fù)雜性受多項(xiàng)式界，則認(rèn)為目標(biāo)概念可以有效PAC學(xué)習(xí)。本文討論二維歐氏空間上有界線性凸區(qū)域定義的目標(biāo)概念的學(xué)習(xí)理論和方法，證明了有界線性凸區(qū)域定義的目標(biāo)概念是有效PAC可學(xué)習(xí)的，其方法可以推廣到n維歐氏空間上由超平面界定的有界凸區(qū)域?qū)?yīng)的目標(biāo)概念學(xué)習(xí)。

關(guān)鍵詞：

二維歐氏空間;線性凸區(qū)域;概念學(xué)習(xí);PAC算法

中圖分類(lèi)號(hào)：TP301.6

文獻(xiàn)標(biāo)識(shí)碼： A

在機(jī)器學(xué)習(xí)中，對(duì)給定實(shí)例進(jìn)行分類(lèi)是一種基本處理方法，其中二分類(lèi)是重要而基礎(chǔ)的分類(lèi)問(wèn)題。當(dāng)實(shí)例空間較大或復(fù)雜時(shí)，精準(zhǔn)分類(lèi)變得復(fù)雜或困難，依采樣進(jìn)行近似分類(lèi)顯得有效和實(shí)用?？赡芙普_（Probably Approximately Correct， PAC）算法提供了一種學(xué)習(xí)架構(gòu)，其原理來(lái)源于依概率收斂假設(shè)。假定實(shí)例空間依賴(lài)于某個(gè)分布，通過(guò)獨(dú)立取樣得到容量為m的樣本S，如果存在一個(gè)算法A能夠產(chǎn)生一個(gè)輸出函數(shù)hS，當(dāng)m趨于無(wú)窮大時(shí)，hS依概率收斂于目標(biāo)函數(shù)c是PAC可學(xué)習(xí)的。形式上，對(duì)于任意給的誤差參數(shù)0<ε<1以及可靠性參數(shù)0<δ<1，存在一個(gè)正整數(shù)M，當(dāng)樣本容量m超過(guò)M時(shí)，算法輸出一個(gè)近似分類(lèi)函數(shù)hS，至少以概率為（1-δ）確保hS與目標(biāo)分類(lèi)函數(shù)c的誤差不超過(guò)ε。如果存在這樣的算法，其樣本復(fù)雜性M和算法的時(shí)間復(fù)雜性受1/ε，1/δ的多項(xiàng)式界，則稱(chēng)目標(biāo)概念c是可以有效PAC學(xué)習(xí)的。PAC學(xué)習(xí)中，往往加強(qiáng)到對(duì)目標(biāo)概念集C、任意分布D下尋找有效PAC學(xué)習(xí)算法。如果這樣的算法存在，則稱(chēng)概念集C是可以有效PAC學(xué)習(xí)的。

在本文中，假定實(shí)例空間X為二維歐氏空間R2，R2的一個(gè)子集的特征函數(shù)c：R2→{0，1}規(guī)定一個(gè)概念。文章重點(diǎn)討論有界線性凸區(qū)域規(guī)定的概念的PAC學(xué)習(xí)理論和方法，線性凸區(qū)域是由一組線性不等式界定的區(qū)域{（x，y）：aix+biy≤ci（i=1，2，……，k）}，有界性指區(qū)域內(nèi)的點(diǎn)被一個(gè)有界矩形（或圓）包含，目標(biāo)概念c定義為：c（x，y）=1aix+biy≤ci（i=1，2，……，k）成立。本文給出了這類(lèi)概念學(xué)習(xí)的理論和方法，并證明了它是可以有效PAC學(xué)習(xí)的。相關(guān)的理論和方法容易推廣到n維歐氏空間由超平面界定的有界凸區(qū)域規(guī)定的目標(biāo)概念的PAC學(xué)習(xí)。

這類(lèi)概念的學(xué)習(xí)可以用于大范圍線性規(guī)劃問(wèn)題可行解的近似識(shí)別。

1 PAC學(xué)習(xí)基礎(chǔ)知識(shí)

假定X為實(shí)例（數(shù)據(jù)）空間，有限集Y作為數(shù)據(jù)標(biāo)記集，通常取Y={0，1}（或{-1，+1}）。一個(gè)函數(shù)f：X→Y決定X中數(shù)據(jù)一個(gè)劃分（分類(lèi)）：f（x）=f（y）當(dāng)且僅當(dāng)x，y屬于同一類(lèi)。X的一個(gè)子集稱(chēng)為一個(gè)概念，可用其特征函數(shù)表示該子集。因此，形式上一個(gè)函數(shù)c：X→{0，1}表示一個(gè)概念，由概念構(gòu)成的集合C稱(chēng)為概念集。本文中相關(guān)的基本知識(shí)來(lái)自于文獻(xiàn)[1]，更多的實(shí)例和應(yīng)用可參考文獻(xiàn)[2-4]。

5 結(jié)語(yǔ)

本文將軸對(duì)齊矩形概念的有效PAC學(xué)習(xí)方法一般化到歐氏平面上有界線性凸區(qū)域規(guī)定的概念學(xué)習(xí)，其思想和方法在于有界線性凸區(qū)域是由有限條（k條）直線圍成的多邊形區(qū)域，在Pr[A]>ε條件下，幾何上可以構(gòu)造目標(biāo)區(qū)域A的邊界內(nèi)側(cè)的一條ε/k-環(huán)帶，該環(huán)帶由k個(gè)概率是ε/k區(qū)域構(gòu)成。并且，在條件Pr[A]>ε下，依樣本S從算法產(chǎn)生的目標(biāo)區(qū)域AS與其中之一不相交，此時(shí)有PrS～Dm[er（A，AS）>ε]≤k（1-εk）m≤kexp（-mεk）成立，由此估計(jì)算法的樣本復(fù)雜性。文中的方法對(duì)于n維歐氏空間中由超平面界定的有界線性凸區(qū)域的PAC學(xué)習(xí)方法與分析是有效的。

文中的方法適用于數(shù)據(jù)集中的數(shù)據(jù)按預(yù)定凸區(qū)域聚類(lèi)及誤差分析，也可通過(guò)適當(dāng)變換在非歐空間中討論P(yáng)AC學(xué)習(xí)算法。

參考文獻(xiàn)：

[1]MOHRI M，ROSTAMIZADEH A，TALWAKAR A.Foundations of Machine Learning[M].Cambridge：The MIT Press，2012.

[2]MITCHELL T M.機(jī)器學(xué)習(xí)[M].曾華軍，等譯.北京：機(jī)械工業(yè)出版社，2012.

[3]周志華.機(jī)器學(xué)習(xí)[M].北京：清華大學(xué)出版社，2016.

[4]GOODFELLOW I，BENGIO Y，COURVILLE A.深度學(xué)習(xí)[M].趙申劍，等譯.北京：中國(guó)工信出版集團(tuán)，2017.

（責(zé)任編輯：周曉南）

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

二維歐氏空間內(nèi)線性凸區(qū)域概念的PAC學(xué)習(xí)算法