基于Adaboost算法在葡萄酒酒品分類中的實(shí)際應(yīng)用

2017-08-30 17:04羅士鈞北京師范大學(xué)附屬實(shí)驗(yàn)中學(xué)

科學(xué)中國人 2017年17期

關(guān)鍵詞：貝葉斯分類器樸素

羅士鈞北京師范大學(xué)附屬實(shí)驗(yàn)中學(xué)

羅士鈞
北京師范大學(xué)附屬實(shí)驗(yàn)中學(xué)

在我們的生活中，常常會(huì)把一定數(shù)目的物品按一定要求分類的問題。目前，Adaboost算法在分類算法十分成熟，得到廣泛應(yīng)用。本文就Adaboost算法在葡萄酒酒品分類中的實(shí)際應(yīng)用展開研究。

Adaboost算法；樸素貝葉斯算法；Parzen窗估計(jì)；分類器

一、背景分析

在我們的生活中，常常會(huì)把一定數(shù)目的物品按一定要求分類的問題。目前，Adaboost算法在分類算法十分成熟，得到廣泛應(yīng)用。本文就Adaboost算法在葡萄酒酒品分類中的實(shí)際應(yīng)用展開研究。我們依據(jù)已有的葡萄酒樣本，通過讓計(jì)算機(jī)學(xué)習(xí)這些樣本，在這些樣本之間總結(jié)規(guī)律，學(xué)習(xí)如何分類。最終使得當(dāng)我們?cè)俅谓o它一瓶酒后，他可以以較高的準(zhǔn)確率判斷出這瓶酒更可能屬于哪一種品質(zhì)。

本算法需要的算法及原理：Adaboost算法，樸素貝葉斯算法，核方法，Parzen窗估計(jì)，Adaboost算法的弱分類器由樸素貝葉斯分類器組成，而貝葉斯公式用到的概率密度需要Parzen窗估計(jì)。下面分別對(duì)其分析。

二、Parzen窗估計(jì)

Parzen窗估計(jì)是一種概率密度估計(jì)的非參數(shù)方法，即非參數(shù)估計(jì)。

所謂非參數(shù)估計(jì)是指，已知樣本所屬的類別，但未知總體概率密度函數(shù)的形式，要求我們直接推斷概率密度函數(shù)本身。也就是說，Parzen窗估計(jì)實(shí)際是一個(gè)學(xué)習(xí)過程。它負(fù)責(zé)由給定的n個(gè)樣本生成隨機(jī)變量的分布密度函數(shù)。

對(duì)于我們的葡萄酒樣本來說，每個(gè)樣本都包括這瓶酒的顏色，各種成分含量，酒精度，以及它的等級(jí)。（均由數(shù)字表示）

將它們對(duì)應(yīng)于一個(gè)高維空間中的向量x。有了這些樣本，我們希望在這些樣本里找到一定的分布規(guī)律。由于我們想知道未知的那瓶酒是哪一類的概率大，也就是希望知道它是每一類的概率分別是多少，即我們要求出樣本每一點(diǎn)的概率密度。

基本操作就是：以空間每個(gè)點(diǎn)中心，構(gòu)造一個(gè)超立方體小艙，其中超立方體小艙的棱長hn是由樣本總數(shù)N確定的。采用滑動(dòng)小艙估計(jì)每一點(diǎn)的概率密度。

定義單位方艙函數(shù)

此時(shí)，小艙內(nèi)包含的樣本數(shù)

依據(jù)概率密度P（x）的基本公式：

P（x）=（kn/N）/VN

kn代表區(qū)域內(nèi)樣本數(shù)，N為樣本總數(shù)，VN代表區(qū)域內(nèi)的體積?？梢院唵蔚剡@樣理解，kn/N為概率，再除以“體積”就成了概率密度了。

三、樸素貝葉斯算法

首先來看貝葉斯公式

設(shè)A和B是兩個(gè)事件，根據(jù)全概率公式：

我們用具體的例子來解釋一下這個(gè)貝葉斯公式是怎么用的。對(duì)于一瓶測試酒，設(shè)事件A為這瓶酒的酒精含量小于20%，事件B為這瓶酒屬于6等酒。假設(shè)有一個(gè)葡萄酒廠，P（A）=1/4表示這個(gè)酒廠生產(chǎn)的酒有20%酒精含量小于有1/4。P（B）=1/10表示生產(chǎn)的酒有1/10是屬于6等酒。P（A|B）=1/3表示一瓶6等酒的酒精含量小于20%的概率是1/3。有這些數(shù)據(jù)，并由貝葉斯公式就可以得出P（B|A）=P（A|B）*P（B）*/P（A）=（1/3*1/10）/（1/4）=2/ 15。這表示一瓶酒精含量小于20%的測試酒是屬于6等酒的概率是2/15。

由上面這個(gè)例子，我們小結(jié)一下：

設(shè)X表示一個(gè)葡萄酒樣本，Y是這個(gè)樣本的類別，分類問題就是在知道X的情況下計(jì)算Y

對(duì)于葡萄酒來說，如果葡萄酒有9個(gè)等級(jí)，那么Y有9種Y1, Y2,...,Y9，也就是

公式的原理明白了，那么如何用這個(gè)公式求出這瓶測試酒應(yīng)該屬于哪一個(gè)類別呢？只需要分別計(jì)算貝葉斯公式中每個(gè)因子后按公式計(jì)算即可：

1、算P（Yi）：計(jì)算各個(gè)類別出現(xiàn)的概率。

2、算P（X|Yi）：計(jì)算每個(gè)獨(dú)立特征在各分類中出現(xiàn)的條件概率。

3、代入貝葉斯公式：對(duì)于特定的特征輸入，計(jì)算其相應(yīng)屬于特定分類的條件概率。

4、選擇條件概率最大的類別作為該輸入類別進(jìn)行返回，說明這瓶測試酒最可能是哪一類的。

（由于在計(jì)算每個(gè)類別時(shí)，分母P（X）都是一樣的，所以可以不用計(jì)算）。

P（Yi）就是樣本中Yi這一類出現(xiàn)的概率，是相對(duì)好算的。而P（X|Yi）是十分難算的，因?yàn)閄是一個(gè)高維向量，P（X|Yi）是個(gè)高維度的條件分布。樸素貝葉斯模型在此大膽假設(shè)：各特征相互獨(dú)立，且地位相等。這樣轉(zhuǎn)而計(jì)算

也就是說，樸素貝葉斯算法提前假設(shè)特征之間相互獨(dú)立，且同等重要。雖然這個(gè)假設(shè)在一些情況下不太適用，強(qiáng)行使用會(huì)降低準(zhǔn)確率，但是這可以大大簡化算法的復(fù)雜度這一點(diǎn)還是很誘人的。

四、Adaboost算法

1、初始化所有訓(xùn)練樣例的權(quán)重，例如有N個(gè)樣例，每個(gè)樣例權(quán)重就是1/N。

2、for m=1,2,...,M（M事先給定，或者所有樣本被正確分類后終止循環(huán)）。

對(duì)于第m輪訓(xùn)練，訓(xùn)練弱分類器Ym（X），使其最小化權(quán)重誤差函數(shù)。

接下來計(jì)算該弱分類器的話語權(quán)α：

更新權(quán)重：

其中Zm是一個(gè)

是規(guī)范化因子，使所有w的和為1。

3、得到最后的分類器

整個(gè)過程可以看出，自適應(yīng)的具體體現(xiàn)在于：每一個(gè)分類器Ym（X）的分完類后會(huì)影響這個(gè)分類器在總分類器的話語權(quán)αm，同時(shí)“告訴”下一個(gè)分類器Ym+1（X）需要更加注重（通過增加權(quán)重）那些被分錯(cuò)的樣本，相應(yīng)地，被正確分類的樣本的權(quán)重就被降低了。

五、結(jié)果分析

經(jīng)過實(shí)際數(shù)據(jù)處理測試，此算法表現(xiàn)出正確率達(dá)到97.98%。數(shù)據(jù)來自http∶//archive.ics.uci.edu/ml/。

[1]蔣良孝.樸素貝葉斯分類器及其改進(jìn)算法研究.（Doctoral dissertation,中國地質(zhì)大學(xué)（武漢）），2009

[2]王國才.樸素貝葉斯分類器的研究與應(yīng)用.（Doctoral disser?tation,重慶交通大學(xué)），2010

[3]曹瑩,苗啟廣,劉家辰,&高琳.Adaboost算法研究進(jìn)展與展望.自動(dòng)化學(xué)報(bào),2013，39（6）,745-758.

[4]李亞軍,劉曉霞,&陳平.改進(jìn)的adaboost算法與svm的組合分類器.計(jì)算機(jī)工程與應(yīng)用,2008，44（32）,140-142.

[5]擺玉龍,&楊志民.基于parzen窗法的貝葉斯參數(shù)估計(jì).計(jì)算機(jī)工程與應(yīng)用,2007，43（7）,55-58.

羅士鈞，現(xiàn)就讀于北京師范大學(xué)附屬實(shí)驗(yàn)中學(xué)高三年級(jí)。愛好數(shù)學(xué)，從小喜歡各種數(shù)學(xué)書籍、科普讀物，有時(shí)喜歡看一些數(shù)學(xué)史、有趣的數(shù)學(xué)問題，與生活密切相關(guān)的數(shù)學(xué)定理等。中學(xué)開始學(xué)習(xí)數(shù)學(xué)競賽和信息學(xué)競賽，獲得兩次全國高中數(shù)學(xué)聯(lián)賽二等獎(jiǎng)。有時(shí)會(huì)對(duì)平時(shí)遇到的數(shù)學(xué)問題進(jìn)行推廣、思考、延伸。對(duì)于某一個(gè)數(shù)學(xué)問題，它常常會(huì)讓我思考它的深層次的原理，和它的應(yīng)用價(jià)值。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于Adaboost算法在葡萄酒酒品分類中的實(shí)際應(yīng)用

一、背景分析

二、Parzen窗估計(jì)

三、樸素貝葉斯算法

四、Adaboost算法

五、結(jié)果分析

三、樸素貝葉斯算法

四、Adaboost算法

五、結(jié)果分析