国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于樸素貝葉斯對(duì)Wine數(shù)據(jù)集分類

2017-11-14 12:16:48夏趙建杜友福
電腦知識(shí)與技術(shù) 2017年29期

夏趙建+杜友福

摘要:為了解決由于葡萄酒的組成成分十分復(fù)雜與多樣而導(dǎo)致它的類型分類與品質(zhì)劃分困難的問題,減少由于感官評(píng)審法對(duì)葡萄酒的評(píng)測(cè)周期長(zhǎng)、影響因素多,主觀性強(qiáng)和重復(fù)性差以及近紅外光譜和三維熒光光譜等重復(fù)性差、人的感官長(zhǎng)時(shí)間易出現(xiàn)適應(yīng)性疲勞而導(dǎo)致對(duì)葡萄酒的口感、質(zhì)量評(píng)測(cè)造成不可估計(jì)的經(jīng)濟(jì)影響。通過對(duì)178個(gè)葡萄酒樣品化學(xué)分析數(shù)據(jù)進(jìn)行分析處理, 其中有13個(gè)葡萄酒屬性,使用樸素貝葉斯分類算法對(duì)其屬性進(jìn)行分析來確定葡萄酒品質(zhì)的分類。

關(guān)鍵詞:葡萄酒分類;葡萄酒評(píng)測(cè);樸素貝葉斯;數(shù)據(jù)集;葡萄酒樣品

中圖分類號(hào):TP399 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2017)29-0224-03

Abstract: In order to solve the problem of type classification and difficulty in quality division due to the composition of the wine is very complex and diverse, reduced due to the sensory evaluation method for wine evaluation period is long, the influencing factors are too strong, the subjectivity is strong and the repeatability is poor and the near infrared spectrum and the three-dimensional fluorescence spectrum are reproducible, the human senses are prone to adaptive fatigue for a long time and lead to the taste of the wine , Quality assessment results in unpredictable economic impact. The chemical analysis data of 178 wine samples were analyzed and analyzed, among which there were 13 wine attributes, and the properties of wine were analyzed by using naive Bayesian classification algorithm to analyze the classification of wine quality.

Key words:Classification of wines; Wine evaluation; Naive Bayesian; data set; Sample of wine

1 概述

隨著經(jīng)濟(jì)的發(fā)展和生活質(zhì)量的提高,葡萄酒越來越受到大家的歡迎,它的產(chǎn)量和需求量迅速增長(zhǎng),但是它在不適宜的環(huán)境中保存容易變質(zhì),不僅保存的技術(shù)需要復(fù)雜的化學(xué)知識(shí),造成繁瑣、 費(fèi)時(shí)和費(fèi)用較高, 而且不能對(duì)它的組成成分進(jìn)行全面的分析[1]。感官評(píng)測(cè)的影響因素多、 主觀性比較強(qiáng),沒有統(tǒng)一的參考標(biāo)準(zhǔn),其重復(fù)性差是一個(gè)很嚴(yán)重的問題,這種方法對(duì)葡萄酒的質(zhì)量評(píng)測(cè)及分類造成了難以估量的經(jīng)濟(jì)影響[2-3]。葡萄酒的口感與質(zhì)量是它組成成分的綜合反映,由于葡萄酒的組成成分十分的復(fù)雜與多樣,所以對(duì)葡萄酒的類型分類與品質(zhì)劃分比較困難。采用樸素貝葉斯根據(jù)酒的13種成分來對(duì)酒的種類進(jìn)行分類。

2 實(shí)驗(yàn)數(shù)據(jù)與樸素貝葉斯的應(yīng)用

2.1 實(shí)驗(yàn)數(shù)據(jù)來源

該實(shí)驗(yàn)的數(shù)據(jù)源是Wine data,這是對(duì)位于意大利同一地區(qū)生產(chǎn)的三種不同類型的葡萄酒做大量分析所得出的數(shù)據(jù),如圖1所示。這些數(shù)據(jù)包括了三種酒中13種不同成分的具體數(shù)量。13種成分分別為:Alcohol,Malic acid,Ash,Alcalinity of ash,Magnesium,Total phenols,F(xiàn)lavanoids,Nonflavanoid phenols,Proanthocyanins,Color intensity,Hue,OD280/OD315 of diluted wines,Proline。在 “wine.data”文件中,每行代表一種酒的樣本,共有178個(gè)樣本;一共有14列,其中,第一列為類標(biāo)志屬性,共有三類,分別記為“1”,“2”,“3”;后面的13列為每個(gè)樣本的對(duì)應(yīng)屬性的樣本值。其中第1類有59個(gè)樣本,第2類有71個(gè)樣本,第3類有48個(gè)樣本。

2.2 算法的選取

經(jīng)過對(duì)數(shù)據(jù)集以及分類算法的學(xué)習(xí), 認(rèn)真分析了樸素貝葉斯分類器和其他算法, 包括決策樹和神經(jīng)網(wǎng)絡(luò)等等[4]。 同時(shí)由于這個(gè)數(shù)據(jù)集有 13 個(gè)屬性, 用決策樹實(shí)現(xiàn)起來會(huì)很復(fù)雜。 因而選擇了用樸素貝葉斯分類算法來實(shí)現(xiàn)。 編程的時(shí)候采用 c++語言實(shí)現(xiàn)分類的功能。將 178 個(gè)樣本分成 130 個(gè)訓(xùn)練樣本和 48個(gè)測(cè)試樣本, 采用樸素貝葉斯分類算法, 計(jì)算出先驗(yàn)概率和后驗(yàn)概率, 通過比較概率的最大值, 判別出測(cè)試樣本所屬于的酒的類型, 同時(shí)輸出測(cè)試樣本計(jì)算的正確率和錯(cuò)誤率。

2.3 樸素貝葉斯分類器

2.3.1 原理介紹

樸素貝葉斯分類器( Naive Bayes Classifier, NBC) , 是貝葉斯分類器中應(yīng)用最為廣泛的模型之一。 該模型描述如圖 2 所示。

假設(shè)有一個(gè)變量集,其中包括個(gè)條件屬性。包含個(gè)類標(biāo)簽。樸素貝葉斯分類模型假設(shè)所有的條件屬性都作為類變量的孩子節(jié)點(diǎn)。將給定的一個(gè)待分類樣本,分配給類,當(dāng)且僅當(dāng):。根據(jù)貝葉斯定理[5-6],有:endprint

如果事先不清楚類在數(shù)據(jù)集中的概率情況時(shí),可以假設(shè)每個(gè)類別的概率相等。即有:

并根據(jù)這個(gè)對(duì)最大化。否則,最大化。因?qū)τ谒械念悇e均為常數(shù),故有:

由樸素貝葉斯分類算法的條件屬性相互獨(dú)立的假設(shè),有:

其中,是類在訓(xùn)練樣本中的實(shí)例數(shù),是訓(xùn)練樣本總數(shù)。則NBC模型的公式表達(dá)式為:

概率可由訓(xùn)練樣本估值,其中:

1) 如果屬性是離散型的,則是在屬性上具有值的類的訓(xùn)練樣本個(gè)數(shù)。

2) 如果屬性是連續(xù)值,則一般假定它服從高斯分布。因而,

其中是屬性的高斯密度函數(shù),,分別為平均值和標(biāo)準(zhǔn)方差。

3) 對(duì)于待分類樣本,我們分別計(jì)算每個(gè)類別的條件概率。

當(dāng)且僅當(dāng)時(shí),樣本屬于類別。

2.3.2 算法步驟

1) 對(duì)所需的數(shù)據(jù)集進(jìn)行預(yù)處理,包括屬性值離散化和缺失值填補(bǔ);

2) 統(tǒng)計(jì)訓(xùn)練樣本的個(gè)數(shù)、類為的樣本數(shù)、類的樣本中屬性取值為的樣本個(gè)數(shù);

3) 計(jì)算和

4) 利用分類模型:得出待分類樣本的判定結(jié)果。

3 實(shí)驗(yàn)方案

3.1 樸素貝葉斯分類算法

每個(gè)數(shù)據(jù)樣本用一個(gè)維特征向量表示,分別描述對(duì)個(gè)屬性樣本的個(gè)度量。假定有個(gè)類對(duì)于數(shù)據(jù)樣本,分類法將預(yù)測(cè)屬于類,當(dāng)且僅當(dāng)條件成立,根據(jù)貝葉斯定理式(1)。由于對(duì)于所有類都是常數(shù),需最大化,計(jì)算,樸素貝葉斯分類假設(shè)類條件獨(dú)立。即給定樣本屬性值相互條件獨(dú)立,即在使用中,常用頻度代替[7]。

3.2 樸素貝葉斯分類流程

對(duì)于給出的待分類項(xiàng),求解在此項(xiàng)出現(xiàn)的條件下各個(gè)類別出現(xiàn)的概率,概率最大,就認(rèn)為此待分類項(xiàng)屬于哪個(gè)類別。在沒有其他可用信息下,選擇條件概率最大的類別,這就是樸素貝葉斯的思想基礎(chǔ)。那么現(xiàn)在的關(guān)鍵就是如何計(jì)算第3步中的各個(gè)條件概率[8-9]。其步驟為:

1) 找到一個(gè)已知分類的待分類項(xiàng)集合,這個(gè)集合叫做訓(xùn)練樣本集。

2) 統(tǒng)計(jì)得到在各類別下各個(gè)特征屬性的條件概率估計(jì)。

3) 如果各個(gè)特征屬性是條件獨(dú)立的,則根據(jù)貝葉斯定理式(1)。

因?yàn)榉帜笇?duì)于所有類別為常數(shù),只要將分子最大化皆可。又因?yàn)楦魈卣鲗傩允菞l件獨(dú)立的,所以有 。

根據(jù)上述分析,樸素貝葉斯分類的流程可以由下圖表示:

4 實(shí)驗(yàn)步驟

4.1 數(shù)據(jù)集的下載

在http://archive.ics.uci.edu/ml/網(wǎng)頁上下載實(shí)驗(yàn)所用的Wine數(shù)據(jù)集。點(diǎn)擊Wine數(shù)據(jù)集,在頁面上,點(diǎn)擊Data Folder,下載wine.data數(shù)據(jù),即為實(shí)驗(yàn)所需的數(shù)據(jù)集。

4.2 樸素貝葉斯算法實(shí)現(xiàn)

首先,將Wine數(shù)據(jù)集分成130個(gè)訓(xùn)練樣本和48個(gè)測(cè)試樣本,分別保存在“Ttrainingwine.data”和“testwine.data”中。用Data Read從文件中讀取數(shù)值。

然后用樸素貝葉斯算法的思想:

1) 統(tǒng)計(jì)三類紅酒數(shù)據(jù)的數(shù)量,各自求和,各自類的數(shù)量除以總數(shù),求出它們的先驗(yàn)概率,保存在數(shù)組中的。

2) 分別求中,中和中的個(gè)數(shù)。

3) 計(jì)算概率,計(jì)算,同樣的方法去計(jì)算概率,,,,把這三個(gè)計(jì)算出來的概率值,,保存在數(shù)組gailv中的gailv[0],gailv[1],gailv[2]。

4) 比較gailv[0],gailv[1],gailv[2],找出最大值,最大值所對(duì)應(yīng)的那個(gè)類即為要找的wine的分類。

4.3 結(jié)果分析

在運(yùn)行環(huán)境為Microsoft Visual Studio 2013下運(yùn)行的實(shí)驗(yàn)結(jié)果如下面的截圖所示。通過比較gailv[0],gailv[1],gailv[2],找出最大值,最大值所對(duì)應(yīng)的那個(gè)類即為要找的wine的分類與測(cè)試樣本數(shù)據(jù)作比較后的正確率為81.25%,從結(jié)果上看有效的對(duì)紅酒的類型進(jìn)行了分類,總體說明此方法的可行性。相應(yīng)的提高訓(xùn)練樣本與測(cè)試樣本比例或者把離散化算法的區(qū)間劃得更小一點(diǎn)可以進(jìn)一步提高分類的正確率。

參考文獻(xiàn):

[1] 杜婷.基于屬性選擇的樸素貝葉斯分類研究與應(yīng)用[D].中國科學(xué)技術(shù)大學(xué),2016.

[2] 盧龍,王靜宇,王超.面向云計(jì)算的數(shù)據(jù)挖掘分類算法研究[J/OL].微型機(jī)與應(yīng)用,2017,36(06):7-9+12.(2017-03-31)[2017-09-11].http://kns.cnki.net/kcms/detail/11.5881. TP.20170331. 1929.003.htmlDO:10.19358/j.issn.1674-7720.2017.06.003

[3] 喻凱西.樸素貝葉斯分類算法的改進(jìn)及其應(yīng)用[D].北京林業(yè)大學(xué),2016.

[4] 趙文濤,孟令軍,趙好好,王春春.樸素貝葉斯算法的改進(jìn)與應(yīng)用[J].測(cè)控技術(shù),2016,35(02):143-147.[2017-09-11].

[5] 徐會(huì).基于貝葉斯理論的網(wǎng)絡(luò)輿情主題分類模型研究[D].江蘇科技大學(xué),2014.

[6] 周霞.基于云計(jì)算的太陽風(fēng)大數(shù)據(jù)挖掘分類算法的研究[D].成都理工大學(xué),2014.

[7] 余民杰.貝葉斯網(wǎng)絡(luò)分類器與應(yīng)用[D].云南財(cái)經(jīng)大學(xué),2012.

[8] 彭興媛.樸素貝葉斯分類改進(jìn)算法的研究[D].重慶大學(xué),2012.

[9] 劉沛騫,馮晶晶.一種改進(jìn)的樸素貝葉斯文本分類算法[J].微計(jì)算機(jī)信息,2010,26(27):187-188.endprint

玉屏| 祁门县| 芦山县| 禄劝| 灵武市| 新宁县| 荆州市| 太仆寺旗| 高青县| 卓尼县| 响水县| 永康市| 东山县| 二连浩特市| 临汾市| 嵊州市| 古蔺县| 格尔木市| 晋宁县| 都兰县| 改则县| 昭平县| 灌阳县| 台山市| 东明县| 宜黄县| 阳曲县| 万州区| 莱西市| 乌苏市| 突泉县| 临桂县| 通化市| 团风县| 和硕县| 建平县| 安溪县| 齐河县| 濉溪县| 四子王旗| 定远县|