羅士鈞北京師范大學(xué)附屬實(shí)驗(yàn)中學(xué)
基于Adaboost算法在葡萄酒酒品分類中的實(shí)際應(yīng)用
羅士鈞
北京師范大學(xué)附屬實(shí)驗(yàn)中學(xué)
在我們的生活中,常常會(huì)把一定數(shù)目的物品按一定要求分類的問題。目前,Adaboost算法在分類算法十分成熟,得到廣泛應(yīng)用。本文就Adaboost算法在葡萄酒酒品分類中的實(shí)際應(yīng)用展開研究。
Adaboost算法;樸素貝葉斯算法;Parzen窗估計(jì);分類器
在我們的生活中,常常會(huì)把一定數(shù)目的物品按一定要求分類的問題。目前,Adaboost算法在分類算法十分成熟,得到廣泛應(yīng)用。本文就Adaboost算法在葡萄酒酒品分類中的實(shí)際應(yīng)用展開研究。我們依據(jù)已有的葡萄酒樣本,通過讓計(jì)算機(jī)學(xué)習(xí)這些樣本,在這些樣本之間總結(jié)規(guī)律,學(xué)習(xí)如何分類。最終使得當(dāng)我們?cè)俅谓o它一瓶酒后,他可以以較高的準(zhǔn)確率判斷出這瓶酒更可能屬于哪一種品質(zhì)。
本算法需要的算法及原理:Adaboost算法,樸素貝葉斯算法,核方法,Parzen窗估計(jì),Adaboost算法的弱分類器由樸素貝葉斯分類器組成,而貝葉斯公式用到的概率密度需要Parzen窗估計(jì)。下面分別對(duì)其分析。
Parzen窗估計(jì)是一種概率密度估計(jì)的非參數(shù)方法,即非參數(shù)估計(jì)。
所謂非參數(shù)估計(jì)是指,已知樣本所屬的類別,但未知總體概率密度函數(shù)的形式,要求我們直接推斷概率密度函數(shù)本身。也就是說,Parzen窗估計(jì)實(shí)際是一個(gè)學(xué)習(xí)過程。它負(fù)責(zé)由給定的n個(gè)樣本生成隨機(jī)變量的分布密度函數(shù)。
對(duì)于我們的葡萄酒樣本來說,每個(gè)樣本都包括這瓶酒的顏色,各種成分含量,酒精度,以及它的等級(jí)。(均由數(shù)字表示)
將它們對(duì)應(yīng)于一個(gè)高維空間中的向量x。有了這些樣本,我們希望在這些樣本里找到一定的分布規(guī)律。由于我們想知道未知的那瓶酒是哪一類的概率大,也就是希望知道它是每一類的概率分別是多少,即我們要求出樣本每一點(diǎn)的概率密度。
基本操作就是:以空間每個(gè)點(diǎn)中心,構(gòu)造一個(gè)超立方體小艙,其中超立方體小艙的棱長hn是由樣本總數(shù)N確定的。采用滑動(dòng)小艙估計(jì)每一點(diǎn)的概率密度。
定義單位方艙函數(shù)
此時(shí),小艙內(nèi)包含的樣本數(shù)
依據(jù)概率密度P(x)的基本公式:
P(x)=(kn/N)/VN
kn代表區(qū)域內(nèi)樣本數(shù),N為樣本總數(shù),VN代表區(qū)域內(nèi)的體積??梢院唵蔚剡@樣理解,kn/N為概率,再除以“體積”就成了概率密度了。
首先來看貝葉斯公式
設(shè)A和B是兩個(gè)事件,根據(jù)全概率公式:
我們用具體的例子來解釋一下這個(gè)貝葉斯公式是怎么用的。對(duì)于一瓶測試酒,設(shè)事件A為這瓶酒的酒精含量小于20%,事件B為這瓶酒屬于6等酒。假設(shè)有一個(gè)葡萄酒廠,P(A)=1/4表示這個(gè)酒廠生產(chǎn)的酒有20%酒精含量小于有1/4。P(B)=1/10表示生產(chǎn)的酒有1/10是屬于6等酒。P(A|B)=1/3表示一瓶6等酒的酒精含量小于20%的概率是1/3。有這些數(shù)據(jù),并由貝葉斯公式就可以得出P(B|A)=P(A|B)*P(B)*/P(A)=(1/3*1/10)/(1/4)=2/ 15。這表示一瓶酒精含量小于20%的測試酒是屬于6等酒的概率是2/15。
由上面這個(gè)例子,我們小結(jié)一下:
設(shè)X表示一個(gè)葡萄酒樣本,Y是這個(gè)樣本的類別,分類問題就是在知道X的情況下計(jì)算Y
對(duì)于葡萄酒來說,如果葡萄酒有9個(gè)等級(jí),那么Y有9種Y1, Y2,...,Y9,也就是
公式的原理明白了,那么如何用這個(gè)公式求出這瓶測試酒應(yīng)該屬于哪一個(gè)類別呢?只需要分別計(jì)算貝葉斯公式中每個(gè)因子后按公式計(jì)算即可:
1、算P(Yi):計(jì)算各個(gè)類別出現(xiàn)的概率。
2、算P(X|Yi):計(jì)算每個(gè)獨(dú)立特征在各分類中出現(xiàn)的條件概率。
3、代入貝葉斯公式:對(duì)于特定的特征輸入,計(jì)算其相應(yīng)屬于特定分類的條件概率。
4、選擇條件概率最大的類別作為該輸入類別進(jìn)行返回,說明這瓶測試酒最可能是哪一類的。
(由于在計(jì)算每個(gè)類別時(shí),分母P(X)都是一樣的,所以可以不用計(jì)算)。
P(Yi)就是樣本中Yi這一類出現(xiàn)的概率,是相對(duì)好算的。而P(X|Yi)是十分難算的,因?yàn)閄是一個(gè)高維向量,P(X|Yi)是個(gè)高維度的條件分布。樸素貝葉斯模型在此大膽假設(shè):各特征相互獨(dú)立,且地位相等。這樣轉(zhuǎn)而計(jì)算
P(X|Yi)=P(x1=a1,x2=a2,...,xn=an|Yi)=P(x1=a1|Yi)*P(x1= a1|Yi)*...*P(x1=a1|Yi)
也就是說,樸素貝葉斯算法提前假設(shè)特征之間相互獨(dú)立,且同等重要。雖然這個(gè)假設(shè)在一些情況下不太適用,強(qiáng)行使用會(huì)降低準(zhǔn)確率,但是這可以大大簡化算法的復(fù)雜度這一點(diǎn)還是很誘人的。
1、初始化所有訓(xùn)練樣例的權(quán)重,例如有N個(gè)樣例,每個(gè)樣例權(quán)重就是1/N。
2、for m=1,2,...,M(M事先給定,或者所有樣本被正確分類后終止循環(huán))。
對(duì)于第m輪訓(xùn)練,訓(xùn)練弱分類器Ym(X),使其最小化權(quán)重誤差函數(shù)。
接下來計(jì)算該弱分類器的話語權(quán)α:
更新權(quán)重:
其中Zm是一個(gè)
是規(guī)范化因子,使所有w的和為1。
3、得到最后的分類器
整個(gè)過程可以看出,自適應(yīng)的具體體現(xiàn)在于:每一個(gè)分類器Ym(X)的分完類后會(huì)影響這個(gè)分類器在總分類器的話語權(quán)αm,同時(shí)“告訴”下一個(gè)分類器Ym+1(X)需要更加注重(通過增加權(quán)重)那些被分錯(cuò)的樣本,相應(yīng)地,被正確分類的樣本的權(quán)重就被降低了。
經(jīng)過實(shí)際數(shù)據(jù)處理測試,此算法表現(xiàn)出正確率達(dá)到97.98%。數(shù)據(jù)來自http∶//archive.ics.uci.edu/ml/。
[1]蔣良孝.樸素貝葉斯分類器及其改進(jìn)算法研究.(Doctoral dissertation,中國地質(zhì)大學(xué)(武漢)),2009
[2]王國才.樸素貝葉斯分類器的研究與應(yīng)用.(Doctoral disser?tation,重慶交通大學(xué)),2010
[3]曹瑩,苗啟廣,劉家辰,&高琳.Adaboost算法研究進(jìn)展與展望.自動(dòng)化學(xué)報(bào),2013,39(6),745-758.
[4]李亞軍,劉曉霞,&陳平.改進(jìn)的adaboost算法與svm的組合分類器.計(jì)算機(jī)工程與應(yīng)用,2008,44(32),140-142.
[5]擺玉龍,&楊志民.基于parzen窗法的貝葉斯參數(shù)估計(jì).計(jì)算機(jī)工程與應(yīng)用,2007,43(7),55-58.
羅士鈞,現(xiàn)就讀于北京師范大學(xué)附屬實(shí)驗(yàn)中學(xué)高三年級(jí)。愛好數(shù)學(xué),從小喜歡各種數(shù)學(xué)書籍、科普讀物,有時(shí)喜歡看一些數(shù)學(xué)史、有趣的數(shù)學(xué)問題,與生活密切相關(guān)的數(shù)學(xué)定理等。中學(xué)開始學(xué)習(xí)數(shù)學(xué)競賽和信息學(xué)競賽,獲得兩次全國高中數(shù)學(xué)聯(lián)賽二等獎(jiǎng)。有時(shí)會(huì)對(duì)平時(shí)遇到的數(shù)學(xué)問題進(jìn)行推廣、思考、延伸。對(duì)于某一個(gè)數(shù)學(xué)問題,它常常會(huì)讓我思考它的深層次的原理,和它的應(yīng)用價(jià)值。