謝小軍,陳光喜
(1.桂林電子科技大學(xué) 數(shù)學(xué)與計(jì)算科學(xué)學(xué)院,廣西 桂林 541004;2.桂林電子科技大學(xué) 廣西高校圖像處理實(shí)驗(yàn)室,廣西 桂林 541004)
基于多屬性聯(lián)合的樸素貝葉斯分類算法
謝小軍1,陳光喜2
(1.桂林電子科技大學(xué) 數(shù)學(xué)與計(jì)算科學(xué)學(xué)院,廣西 桂林 541004;2.桂林電子科技大學(xué) 廣西高校圖像處理實(shí)驗(yàn)室,廣西 桂林 541004)
樸素貝葉斯分類算法由于條件獨(dú)立性假設(shè)對(duì)屬性施加了一定的限制,這可能會(huì)降低分類性能。針對(duì)此問(wèn)題,為了削弱條件獨(dú)立性假設(shè)對(duì)分類結(jié)果帶來(lái)的負(fù)面影響,從結(jié)構(gòu)擴(kuò)展的角度提出了一種基于多屬性聯(lián)合的樸素貝葉斯分類算法。該算法通過(guò)計(jì)算條件屬性組合相對(duì)于決策屬性依賴度的大小,選擇最大相對(duì)屬性依賴度的屬性組合進(jìn)行聯(lián)合作為新的條件屬性。通過(guò)實(shí)驗(yàn)仿真,結(jié)果表明該方法可行而且有效,特別是對(duì)一些屬性之間關(guān)聯(lián)性比較強(qiáng)的數(shù)據(jù)集,分類效果提高尤為明顯。
樸素貝葉斯;分類;粗糙集理論;相對(duì)屬性依賴度;屬性聯(lián)合
樸素貝葉斯分類器是一種基于貝葉斯統(tǒng)計(jì)理論的有監(jiān)督學(xué)習(xí)方法,對(duì)已標(biāo)記訓(xùn)練樣本進(jìn)行分類時(shí),基于一個(gè)強(qiáng)有力的假設(shè),即訓(xùn)練樣本中的所有屬性均獨(dú)立于訓(xùn)練樣本。然而此假設(shè)在現(xiàn)實(shí)中往往不成立,因此,研究人員做了大量工作來(lái)削弱樸素貝葉斯獨(dú)立性假設(shè)。Jiang等[1]對(duì)改進(jìn)樸素貝葉斯的方法做了綜述,這些改進(jìn)方法粗略分為:結(jié)構(gòu)擴(kuò)展、特征選擇、數(shù)據(jù)擴(kuò)展、局部學(xué)習(xí)和屬性加權(quán)五大類?;趯傩约訖?quán)的思想,國(guó)內(nèi)許多研究人員做了大量研究工作。文獻(xiàn)[2-5]分別使用粗糙集屬性重要度、屬性之間互信息、屬性之間相關(guān)系數(shù)、分類概率等建立了加權(quán)樸素貝葉斯分類模型。Wu Jia等[6]提出了一種自適應(yīng)屬性加權(quán)的樸素貝葉斯算法(AISWNB),該算法通過(guò)使用人工免疫系統(tǒng)里的免疫理論來(lái)搜索最優(yōu)權(quán)重值,并能夠自我調(diào)整權(quán)重值,從而得到更精確的條件概率。Lee C H等[7]提出了一種梯度下降的特征值加權(quán)的樸素貝葉斯分類學(xué)習(xí)方法(VWNB),該算法通過(guò)梯度下降法計(jì)算特征值的最優(yōu)權(quán)重,為每一個(gè)特征值分配不同的權(quán)重。Tütüncü G Y等[8]提出一種聚合的模糊樸素貝葉斯分類。從結(jié)構(gòu)擴(kuò)展的角度,Kononenko[9]于1991年提出的半樸素貝葉斯分類模型就是一種經(jīng)典的通過(guò)結(jié)構(gòu)擴(kuò)展改進(jìn)樸素貝葉斯算法,該算法將獨(dú)立性放寬到了屬性的子集之間,從而有效減少了屬性的獨(dú)立性假設(shè)對(duì)分類性能的不良影響。Friedman[10]于1997年提出樹(shù)增強(qiáng)樸素貝葉斯分類模型(TAN),它要求屬性節(jié)點(diǎn)除了類節(jié)點(diǎn)可以作為父節(jié)點(diǎn)外,至多只能擁有一個(gè)其他的非類屬性作為其父節(jié)點(diǎn),故保留了其結(jié)構(gòu)的特點(diǎn),并放松了獨(dú)立性假設(shè),從而使屬性之間有著簡(jiǎn)單的依賴關(guān)系。Webb等[11]提出了一種平均單依賴估計(jì)(AODE)的方法來(lái)削弱屬性獨(dú)立性假設(shè),該方法為分類器的所有屬性平均分配同一個(gè)約束類,弱化了獨(dú)立性假設(shè),擴(kuò)充了算法結(jié)構(gòu),而且大多數(shù)情況下具有較好的綜合性能。但是存在如下缺陷:
(1)在AODE模型中,所有的結(jié)構(gòu)擴(kuò)展的樸素貝葉斯分類模型中,所有的屬性節(jié)點(diǎn)對(duì)分類的影響是相同的,這往往并不成立,使用不同的屬性節(jié)點(diǎn)為父節(jié)點(diǎn)的擴(kuò)展樸素貝葉斯分類模型在分類測(cè)試中的影響程度應(yīng)該是不同的。
(2)AODE算法屬于組合學(xué)習(xí)的分類算法,在進(jìn)行訓(xùn)練時(shí)需要訓(xùn)練出多個(gè)模型,然后將訓(xùn)練得到的多個(gè)模型對(duì)測(cè)試實(shí)例進(jìn)行分類。故該算法在時(shí)間和簡(jiǎn)潔性方面要遜色于單個(gè)模型的分類算法。
針對(duì)問(wèn)題(1),文獻(xiàn)[12]提出一種加權(quán)平均的單依賴估計(jì)模型(WAODE),并設(shè)計(jì)了四種加權(quán)的方法;針對(duì)問(wèn)題(2),文中提出一種多屬性聯(lián)合的樸素貝葉斯分類算法,該算法也是從結(jié)構(gòu)上擴(kuò)充了樸素貝葉斯分類算法,削弱了條件獨(dú)立性假設(shè),并且結(jié)構(gòu)擴(kuò)展更加靈活,最終只要學(xué)習(xí)一個(gè)模型進(jìn)行分類測(cè)試。
基于粗糙集理論[13-14],通過(guò)計(jì)算條件屬性組合相對(duì)于決策屬性的依賴度大小,給出了一種基于屬性最大依賴度的聯(lián)合屬性組的方法。通過(guò)實(shí)驗(yàn)證明,該方法在一定程度上能夠有效提高分類效果。
樸素貝葉斯分類模型是貝葉斯分類模型中結(jié)構(gòu)最為簡(jiǎn)單的模型。由一個(gè)父節(jié)點(diǎn)和多個(gè)子節(jié)點(diǎn)構(gòu)成的樹(shù)狀結(jié)構(gòu),如圖1所示。
圖1 樸素貝葉斯分類模型
它假設(shè)在類屬性變量已知時(shí),各條件屬性變量是相互獨(dú)立的。然而現(xiàn)實(shí)生活中,此假設(shè)在很多情況下并不成立,即當(dāng)屬性之間有很強(qiáng)的依賴時(shí),這個(gè)假設(shè)會(huì)對(duì)樸素貝葉斯分類模型的分類準(zhǔn)確率產(chǎn)生負(fù)面影響,但另一方面也大大簡(jiǎn)化了貝葉斯分類模型構(gòu)建的復(fù)雜性,故樸素貝葉斯分類模型具有簡(jiǎn)單和高效等特點(diǎn),從而得到了廣泛應(yīng)用[15-18]。
假定輸入訓(xùn)練數(shù)據(jù)集D={X1,X2,…,Xp},其中A1,A2,…,An表示n個(gè)屬性,C表示m個(gè)類別C1,C2,…,Cm。待分類樣本X=〈x1,x2,…,xn〉,其中xi為屬性Ai的值,則X屬于類別Ck的概率為:
(1)
由于計(jì)算P(X|Ck)過(guò)于復(fù)雜,所以假定n個(gè)屬性變量是相互獨(dú)立的,得:
(2)
由于P(X)為常數(shù),因此只要最大化P(X|Ck)P(Ck),則根據(jù)極大后驗(yàn)假設(shè)得樸素貝葉斯分類模型為:
(3)
其中,概率P(Ck)和P(xi|Ck)的計(jì)算公式如下:
(4)
(5)
其中,n為訓(xùn)練實(shí)例個(gè)數(shù);Cj為實(shí)例j的類標(biāo)記;xji表示第j個(gè)訓(xùn)練實(shí)例的第i個(gè)屬性的值,其中:
(6)
整個(gè)樸素貝葉斯分類模型的實(shí)現(xiàn)主要分三個(gè)步驟:
(1)數(shù)據(jù)預(yù)處理。此過(guò)程的目的是為NBC的分類做鋪墊,將獲取的數(shù)據(jù)全部轉(zhuǎn)化為數(shù)值型,并將缺失數(shù)據(jù)進(jìn)行補(bǔ)齊,若是連續(xù)數(shù)據(jù)則需要對(duì)其離散化。最后將數(shù)據(jù)分為兩部分:訓(xùn)練數(shù)據(jù)與測(cè)試數(shù)據(jù)。
(2)構(gòu)造分類模型。此過(guò)程的任務(wù)就是學(xué)習(xí)分類模型,統(tǒng)計(jì)各類別在訓(xùn)練實(shí)例中出現(xiàn)頻率和條件屬性變量出現(xiàn)在各類別的條件概率值。其輸入是訓(xùn)練樣本,輸出是分類模型。
(3)測(cè)試分類模型。此過(guò)程的任務(wù)是利用分類模型對(duì)測(cè)試數(shù)據(jù)集進(jìn)行分類,其輸入是分類模型和測(cè)試數(shù)據(jù)集,輸出是測(cè)試數(shù)據(jù)集的分類結(jié)果。
結(jié)構(gòu)擴(kuò)展的樸素貝葉斯分類模型(AugmentedNaiveBayesian,ANB),是基于樸素貝葉斯分類模型中的全部屬性變量都是類屬性的馬爾可夫覆蓋,對(duì)最初的樸素貝葉斯分類模型的結(jié)構(gòu)進(jìn)行擴(kuò)展?;驹恚簩傩宰兞恐g的關(guān)聯(lián)關(guān)系通過(guò)有限的有向邊表示,從而從結(jié)構(gòu)上擴(kuò)展了樸素貝葉斯分類模型的結(jié)構(gòu)。該思想放松了樸素貝葉斯分類模型的條件獨(dú)立性假設(shè),并且擴(kuò)展了樸素貝葉斯分類模型的網(wǎng)絡(luò)結(jié)構(gòu)。ANB的關(guān)鍵是如何設(shè)計(jì)一個(gè)高效的結(jié)構(gòu)擴(kuò)展算法。關(guān)鍵點(diǎn)是要無(wú)約束地構(gòu)造出所有屬性節(jié)點(diǎn)的父節(jié)點(diǎn),必須要學(xué)習(xí)由條件屬性變量A1,A2,…,An組成的結(jié)構(gòu)。然而,學(xué)習(xí)無(wú)限制的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)己被證明是一個(gè)NP-難問(wèn)題。于是,比較現(xiàn)實(shí)的方法是學(xué)習(xí)有限制條件貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)。為此,廣大研究者提出許多經(jīng)典的模型和算法。這里主要研究分析了AODE?;舅枷胧浅悓傩怨?jié)點(diǎn)外為所有的其他屬性平均分配同一個(gè)約束類。圖2給出了一個(gè)AODE結(jié)構(gòu)的例子。
圖2 AODE結(jié)構(gòu)實(shí)例
對(duì)于測(cè)試實(shí)例X=〈x1,x2,…,xn〉,ANB使用式(7)進(jìn)行分類測(cè)試:
(7)
應(yīng)用乘法規(guī)則有:
(8)
應(yīng)用馬爾可夫原理可得到:
(9)
ANB的構(gòu)造步驟如下:
算法:ANB(D,X)。
輸入:訓(xùn)練實(shí)例集D和測(cè)試實(shí)例X;
輸出:C(X)。
Step1:對(duì)于訓(xùn)練實(shí)例集D,應(yīng)用結(jié)構(gòu)學(xué)習(xí)算法找到所有屬性節(jié)點(diǎn)的父節(jié)點(diǎn);
Step2:根據(jù)式(9)預(yù)測(cè)測(cè)試實(shí)例X的類標(biāo)記C(X);
Step3:返回C(X)。
3.1 粗糙集相關(guān)概念
(1)在信息系統(tǒng)S=(U,Q,D,V,f)中,任何屬性P?Q,知識(shí)P的不可分辨關(guān)系定義為:
(10)
其中,U為論域。
記I為U中一組等價(jià)關(guān)系。對(duì)于X?U,集合X關(guān)于I的下近似是根據(jù)已有知識(shí)斷定,那些一定是屬于X的對(duì)象所組成的最大集合,有時(shí)也稱為X的正區(qū)(positiveregion),記做POS(X)[16-17]:
(11)
集合X關(guān)于I的上近似(Upperapproximation)是指可能屬于X的一些元素所組成的最小集合:
(12)
(2)屬性依賴度:對(duì)于任意屬性qi∈Q,類屬性變量集合D與條件屬性變量qi的重要性是由D集合與qi之間的相互依賴程度所決定。D集合與qi之間的相互依賴程度定義為:
(13)
3.2 基于粗糙集屬性依賴度的多屬性聯(lián)合
文中基于結(jié)構(gòu)擴(kuò)展的思想,其中半樸素貝葉斯分類模型主要考慮如何有效而快速構(gòu)成“組合屬性”,當(dāng)目標(biāo)數(shù)據(jù)集過(guò)于龐大,或者數(shù)據(jù)集中的屬性太多,那么進(jìn)行屬性組合的時(shí)間將呈指數(shù)級(jí)增長(zhǎng),對(duì)運(yùn)行環(huán)境有一定的要求,否則可能會(huì)造成系統(tǒng)的崩潰,因此半樸素貝葉斯分類模型在使用上有一定的局限性,最好是針對(duì)規(guī)模較小的數(shù)據(jù)集;而AODE算法則需要構(gòu)造多個(gè)模型進(jìn)行學(xué)習(xí)訓(xùn)練,故在時(shí)間上和簡(jiǎn)潔性上要遜色于單個(gè)模型的分類算法??偨Y(jié)以上兩種算法的不足,文中基于粗糙集中屬性依賴度的概念,提出了一種能夠快速對(duì)屬性進(jìn)行組合的方法,實(shí)際上也是從結(jié)構(gòu)上擴(kuò)展了樸素貝葉斯算法,并且最終只要通過(guò)學(xué)習(xí)一個(gè)模型對(duì)測(cè)試實(shí)例進(jìn)行預(yù)測(cè)。
對(duì)于信息系統(tǒng)S=(U,Q,D,V,f),Q={q1,q2,…,qn},n為屬性個(gè)數(shù),k為選擇進(jìn)行聯(lián)合的屬性個(gè)數(shù),1≤k≤n,記A為經(jīng)過(guò)聯(lián)合后得到的新屬性組集合。當(dāng)k=1時(shí)即為樸素貝葉斯分類模型。文中主要是研究當(dāng)k=2,3時(shí)的屬性聯(lián)合算法,即基于雙屬性聯(lián)合與三屬性聯(lián)合的樸素貝葉斯分類算法。在選擇聯(lián)合屬性時(shí),基于聯(lián)合條件屬性相對(duì)于決策屬性依賴度的大小,選擇最大相對(duì)依賴度作為聯(lián)合條件屬性。這是有意義的。因?yàn)閷傩缘南鄬?duì)依賴度的大小反映了聯(lián)合條件屬性相對(duì)于決策屬性的一致程度,相對(duì)依賴度越大,在一定程度上說(shuō)明該聯(lián)合條件屬性相對(duì)于決策屬性一致性就越強(qiáng),也就說(shuō)明該聯(lián)合條件屬性相對(duì)于決策屬性越重要。
首先給出k=2時(shí)屬性聯(lián)合后屬性組的值的定義,k=3時(shí)可以類比得到。
由式(2)可知:
其中
(14)
下面給出k=2時(shí)屬性聯(lián)合實(shí)現(xiàn)的過(guò)程。
算法1:雙屬性聯(lián)合的樸素貝葉斯分類算法(TwoPropertiesCombinedNaiveBayesianClassification,Two-PCNBC)。
輸入:決策表S=(U,Q,D,V);
Step1:令j=1,qj∈Q,A=?;
Step2:對(duì)?qi∈Q,i=1,2,…,n,利用式(13)計(jì)算所有的γ(qj,qi)(D),選擇滿足γaj(D)=max{(γ(qj,qi)(D))}的聯(lián)合屬性組合aj=(qj,qi)加入到A,即令A(yù)=A∪{aj};
Step3:令j=j+1;
Step4:如果j>n,則終止,否則轉(zhuǎn)Step2。
通過(guò)上述過(guò)程最終得到新的屬性組集合A={a1,a2,…,an'},1≤n'≤n,可以發(fā)現(xiàn),此方法對(duì)兩個(gè)屬性進(jìn)行聯(lián)合后的屬性個(gè)數(shù)最多為n,對(duì)?ai都有ai=(qi,q0)。其中q0∈Q時(shí),即為AODE算法,此時(shí)的q0即為所有條件屬性除去決策屬性另一個(gè)父節(jié)點(diǎn),即約束類。
當(dāng)k=3時(shí),屬性聯(lián)合的實(shí)現(xiàn)過(guò)程如下:
算法2:三個(gè)屬性聯(lián)合的樸素貝葉斯分類算法(ThreePropertiesCombinedNaiveBayesianClassification,Three-PCNBC)。
輸入:決策表S=(U,Q,D,V);
Step1:令j=1,j'=1,qj∈Q,A=?;
Step2:對(duì)?qi,qt∈Q,i=j+1,…,n,t=1,2,…,n,利用式(13)計(jì)算γ(qj,qi,qt)(D),選擇滿足γ(qj,qi,qt0)(D)=max{γ(qj,qi,qt)(D)}的聯(lián)合屬性組合(qj,qi,qt0),記為新的屬性aj',若聯(lián)合屬性組合(qj,qi,qt0)已在A中存在,則直接轉(zhuǎn)Step3,否則將aj'加入到新的屬性集合中,令A(yù)=A∪{ai},j'=j'+1;
Step3:令i=i+1;
Step4:如果i
Step5:令j=j+1;
Step6:如果j≥n-1,則終止,否則轉(zhuǎn)向Step2。
下面給出基于粗糙集屬性依賴度的多屬性聯(lián)合樸素貝葉斯算法的步驟:
Step1:數(shù)據(jù)預(yù)處理。將數(shù)據(jù)全部轉(zhuǎn)化為數(shù)值型,并將缺失數(shù)據(jù)進(jìn)行補(bǔ)齊,若是連續(xù)數(shù)據(jù)則將數(shù)據(jù)進(jìn)行離散化。
Step2:確定k值,若k=2則使用算法1進(jìn)行條件屬性聯(lián)合;若k=3則使用算法2進(jìn)行屬性聯(lián)合。通過(guò)聯(lián)合后得到新信息系統(tǒng)S'=(U',A,D,V',f)。
Step3:將得到的新信息系統(tǒng)S'中數(shù)據(jù)集分成訓(xùn)練樣本和待分類樣本,對(duì)訓(xùn)練樣本的每一個(gè)樣本對(duì)象X進(jìn)行遍歷,利用式(14)計(jì)算所有的先驗(yàn)概率值,即P(xi/Ck)以及在類別Ci下各個(gè)條件屬性xi的取值概率P(xi/Ck)。
Step4:根據(jù)式(1)計(jì)算待分類樣本中待分類對(duì)象X屬于其他各類別的后驗(yàn)概率,并通過(guò)式(3)得出最終分類結(jié)果。
為了驗(yàn)證算法的可行性和有效性,下面將比較傳統(tǒng)的樸素貝葉斯分類算法(NB)、樹(shù)增強(qiáng)型樸素貝葉斯分類模型(TAN)、加權(quán)的平均單依賴估計(jì)(WAODE)以及文中提出的屬性聯(lián)合算法(Two-PCNBC和Three-PCNBC)在分類精度之間的差別。選用UCI機(jī)器學(xué)習(xí)庫(kù)中的8個(gè)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)仿真測(cè)試,數(shù)據(jù)集見(jiàn)表1,所有數(shù)據(jù)都經(jīng)過(guò)預(yù)處理。
表1 預(yù)處理后的數(shù)據(jù)集
首先對(duì)數(shù)據(jù)集的順序進(jìn)行隨機(jī)打亂,采用分割數(shù)據(jù)集的方法進(jìn)行測(cè)試,其中訓(xùn)練集為70%,測(cè)試集為30%,以十折交叉驗(yàn)證的分類精度來(lái)評(píng)價(jià)這7種算法的分類效果。實(shí)驗(yàn)仿真結(jié)果見(jiàn)表2。
表2 實(shí)驗(yàn)結(jié)果
從表2可以看出,文中提出的基于粗糙集屬性依賴度的屬性聯(lián)合樸素貝葉斯算法是可行的,可以從數(shù)據(jù)中挖掘更多的信息,特別是相對(duì)于數(shù)據(jù)集Tic-tac-toe和Iris中屬性之間關(guān)聯(lián)性比較強(qiáng)的數(shù)據(jù)集,分類效果提高尤為明顯。從算法Two-PCNB和Three-PCNB的比較發(fā)現(xiàn),并不是聯(lián)合的屬性個(gè)數(shù)越多就越好,有的數(shù)據(jù)集選擇兩個(gè)屬性進(jìn)行聯(lián)合比選擇三個(gè)屬性進(jìn)行聯(lián)合的效果反而要更好些。而對(duì)數(shù)據(jù)集Wine,發(fā)現(xiàn)對(duì)屬性聯(lián)合時(shí)反而降低了它的分類精度,這是因?yàn)樵陔x散化時(shí)得到的單個(gè)屬性的屬性值個(gè)數(shù)比較多,導(dǎo)致屬性聯(lián)合時(shí)對(duì)應(yīng)的屬性值域大大增加,從而增加了屬性的復(fù)雜度,在一定程度上對(duì)分類效果產(chǎn)生了負(fù)面影響。所以文中算法更適合屬性個(gè)數(shù)相對(duì)較小、屬性對(duì)應(yīng)的屬性值域比較集中的數(shù)據(jù)集。
總體上,通過(guò)圖3可以看出,文中算法的改進(jìn)效果還是相當(dāng)不錯(cuò)的。
圖3 8個(gè)數(shù)據(jù)集的平均分類準(zhǔn)確率比較
文中基于粗糙集理論,結(jié)合粗糙集中屬性相對(duì)依賴度的概念,提出了一種基于最大相對(duì)屬性依賴度的屬性聯(lián)合樸素貝葉斯分類算法。通過(guò)平均選擇適當(dāng)?shù)膶傩詡€(gè)數(shù)進(jìn)行聯(lián)合,在8個(gè)數(shù)據(jù)集進(jìn)行了仿真測(cè)試實(shí)驗(yàn),并與最新提出的相關(guān)算法進(jìn)行比較,表明了該方法的有效性和可行性。如何改進(jìn)在進(jìn)行屬性聯(lián)合時(shí)屬性值增加的問(wèn)題,以及將算法應(yīng)用到現(xiàn)實(shí)中一些特定的數(shù)據(jù)都將作為下一步的研究工作。
[1]JiangL,ZhangH,CaiZ.AnovelBayesmodel:hiddenNaiveBayes[J].IEEETransactionsonKnowledge&DataEngineering,2008,21(10):1361-1371.
[2] 鄧維斌,王國(guó)胤,王 燕.基于RoughSet的加權(quán)樸素貝葉斯分類算法[J].計(jì)算機(jī)科學(xué),2007,34(2):204-206.
[3] 張明衛(wèi),王 波,張 斌,等.基于相關(guān)系數(shù)的加權(quán)樸素貝葉斯分類算法[J].東北大學(xué)學(xué)報(bào):自然科學(xué)版,2008,29(7):952-955.
[4] 鄭 默,劉瓊蓀.一種屬性相關(guān)性的加權(quán)貝葉斯分類算法研究[J].微型機(jī)與應(yīng)用,2011,30(7):96-98.
[5] 張步良.基于分類概率加權(quán)的樸素貝葉斯分類方法[J].重慶理工大學(xué)學(xué)報(bào):自然科學(xué)版,2012,26(7):81-83.
[6]WuJ,PanS,ZhuX,etal.Self-adaptiveattributeweightingforNaiveBayesclassification[J].ExpertSystemswithApplications,2015,42(3):1487-1502.
[7]LeeCH.AgradientapproachforvalueweightedclassificationlearninginnaiveBayes[J].Knowledge-BasedSystems,2015,85(C):71-79.
[8]TütüncüGY,KayaalpN.AnaggregatedfuzzynaiveBayesdataclassifier[J].JournalofComputational&AppliedMathematics,2015,286(C):17-27.
[9]KononenkoI.Semi-naiveBayesianclassifier[C]//EWSL-91.Berlin:Springer,1991:206-219.
[10]FriedmanN,GeigerD,GoldszmidtM.Bayesiannetworkclassifiers[J].MachineLearning,1997,29(2):131-163.
[11]WebbGI,BoughtonJR,WangZ.NotsonaiveBayes:aggregatingone-dependenceestimators[J].MachineLearning,2005,58(1):5-24.
[12]JiangLiangxiao,ZhangH,CaiZhihua,etal.Weightedaverageofone-dependenceestimators[J].JournalofExperimental&TheoreticalArtificialIntelligence,2012,24(2):219-230.
[13]Grzymaa-BusseJW,PawlakZ,SowiskiR,etal.Roughset[J].CommunicationsoftheACM,1995,38(11):800-805.
[14] 王國(guó)胤,姚一豫,于 洪.粗糙集理論與應(yīng)用研究綜述[J].計(jì)算機(jī)學(xué)報(bào),2009,32(7):1229-1246.
[15] 馬小龍.一種改進(jìn)的貝葉斯算法在垃圾郵件過(guò)濾中的研究[J].計(jì)算機(jī)應(yīng)用研究,2012,29(3):1091-1094.
[16] 張 輪,楊文臣,劉 拓,等.基于樸素貝葉斯分類的高速公路交通事件檢測(cè)[J].同濟(jì)大學(xué)學(xué)報(bào):自然科學(xué)版,2014,42(4):558-563.
[17] 朱克楠,尹寶林,冒亞明,等.基于有效窗口和樸素貝葉斯的惡意代碼分類[J].計(jì)算機(jī)研究與發(fā)展,2014,51(2):373-381.
[18] 蘇 中,張宏江,馬少平.基于貝葉斯分類器的圖像檢索相關(guān)反饋算法[J].軟件學(xué)報(bào),2002,13(10):2001-2006.
Naive Bayes Classification Algorithm Based on United Multi-attribute
XIE Xiao-jun1,CHEN Guang-xi2
(1.School of Mathematics and Computer Science,Guilin University of Electronic Technology,Guilin 541004,China;2.Guangxi University Image Processing Laboratory,Guilin University of Electronic Technology,Guilin 541004,China)
Naive Bayes classification algorithm imposes certain restrictions on the properties due to the conditional independence assumption,which may reduce the classification performance.Aiming at this problem,in order to weaken the negative influence of conditional independence assumption on the classification results,a new Naive Bayesian classification algorithm based on multi attributes is proposed from the point of view of structure expansion.In this algorithm,the combination of the maximum relative attribute dependency is selected as a new condition attribute by computing the size of the combination of the conditional attributes with respect to the decision attribute.The experiment results show that it is feasible and effective,especially for some of the properties between the correlation stronger data sets,classification effect is particularly obvious.
Naive Bayes;classification;rough set theory;relative attribute dependency;attribute combination
2016-02-26
2016-06-15
時(shí)間:2016-11-22
廣西壯族自治區(qū)自然科學(xué)基金(2013GXNSFC019330);廣西壯族自治區(qū)高??蒲匈Y助項(xiàng)目(2013YB086)
謝小軍(1990-),男,碩士研究生,研究方向?yàn)閿?shù)值計(jì)算與軟件應(yīng)用;陳光喜,教授,研究方向?yàn)榭尚庞?jì)算、圖像處理。
http://www.cnki.net/kcms/detail/61.1450.TP.20161122.1228.038.html
TP181
A
1673-629X(2016)12-0077-05
10.3969/j.issn.1673-629X.2016.12.017