国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

改進的樸素貝葉斯增量算法研究

2016-11-24 08:29曾誰飛張笑燕杜曉峰陸天波
通信學(xué)報 2016年10期
關(guān)鍵詞:貝葉斯增量語料

曾誰飛,張笑燕,杜曉峰,陸天波

(1. 北京郵電大學(xué)軟件學(xué)院,北京 100876;2. 北京郵電大學(xué)計算機學(xué)院,北京 100876)

改進的樸素貝葉斯增量算法研究

曾誰飛1,張笑燕1,杜曉峰2,陸天波1

(1. 北京郵電大學(xué)軟件學(xué)院,北京 100876;2. 北京郵電大學(xué)計算機學(xué)院,北京 100876)

提出了一種新增特征的樸素貝葉斯增量算法。在無標(biāo)注語料增量樣本的選擇上,借助傳統(tǒng)的類置信度閾值,構(gòu)建一個最小后驗概率作為樣本選擇的雙閾值,當(dāng)識別到增量語料中有新的特征時,會將該特征加入到特征空間,并對分類器進行相應(yīng)的更新,發(fā)現(xiàn)對類置信度閾值起到很好的補充作用,最后利用了無標(biāo)注和有標(biāo)注語料驗證所提算法。實驗結(jié)果表明,改進的樸素貝葉斯增量算法較傳統(tǒng)增量算法表現(xiàn)出了更優(yōu)的增量學(xué)習(xí)效果。

樸素貝葉斯;增量算法;特征空間;評價指標(biāo)

1 引言

伴隨人工智能技術(shù)的快速發(fā)展,市場對智能機器人的熱度持續(xù)升溫,谷歌阿爾法狗大戰(zhàn)、蘋果Siri、IBM waston等更加推動了這一產(chǎn)業(yè)的深度發(fā)展,目前,市場上出現(xiàn)了各種各樣的智能機器人。

智能機器人一方面給人們生活帶來巨大的便利,另一方面也引出了一些新的技術(shù)課題,如問答系統(tǒng)、對話系統(tǒng)對文本分類算法。使用文本分類技術(shù),能對大規(guī)模的文本信息進行處理,方便計算機對這些信息的學(xué)習(xí)。在文本分類算法中,樸素貝葉斯算法是經(jīng)典的文本分類算法之一[1],近來,對樸素貝葉斯算法的研究熱度不減,如 Escalante等[2]將增量樸素貝葉斯算法應(yīng)用到視頻的手勢識別中,取得了較不錯的效果;Dimkovski等[3]把樸素貝葉斯增量算法與神經(jīng)網(wǎng)絡(luò)進行相應(yīng)的結(jié)合,提出了對生物學(xué)行為信號進行處理,并取得了預(yù)期的實驗效果;Feng等[4]淺析了樸素貝葉斯增量算法基于詞頻關(guān)系集和主動學(xué)習(xí)理論,探討了一種新的電子郵件分類方法,并通過在線應(yīng)用證明了該理論的實用價值;董立巖等[5]分析了一種新的增量學(xué)習(xí)方法,通過將無標(biāo)簽文本加入到訓(xùn)練集中作為新的訓(xùn)練集,測試新訓(xùn)練集并訓(xùn)練所得的分類器有更好的分類效果,論證了該方法的有效性。這些最新的研究成果與關(guān)注說明了增量學(xué)習(xí)的樸素貝葉斯算法在相關(guān)領(lǐng)域依然有廣泛的應(yīng)用前景和研究焦點。

為了鞏固和進一步強化樸素貝葉斯增量算法的研究,本文利用了樸素貝葉斯算法具有穩(wěn)健性和簡單高效的顯著特點,這一算法的分類效果很大程度上依賴或受限于訓(xùn)練集樣本的完備性。為了解決這一問題,學(xué)者們提出了一種增量學(xué)習(xí)方法[6~17],目的是提升樸素貝葉斯算法的分類效果與學(xué)習(xí)能力。當(dāng)有新的樣本出現(xiàn)時,可以通過增量學(xué)習(xí)對分類器進行更新,而不用重新對分類器進行訓(xùn)練。在充分利用與發(fā)揮樸素貝葉斯理論適應(yīng)性前提下,合理應(yīng)用增量學(xué)習(xí)算法屬于動態(tài)的過程。在此基礎(chǔ)上,本文提出了一種改進的樸素貝葉斯增量學(xué)習(xí)方法,將進一步提高增量學(xué)習(xí)的效果。此外,針對大量的未標(biāo)注語料的增量學(xué)習(xí),本文探討了一個新的增量樣本選擇閾值,結(jié)合傳統(tǒng)的增量樣本選擇閾值一起使用,使其起到更好的增量樣本選擇效果。

本文的主要貢獻包括以下3個方面。

1) 在傳統(tǒng)增量算法的基礎(chǔ)上,提出一種對特征空間進行更新的改進增量算法,實驗表明,改進的增量算法較傳統(tǒng)的增量算法表現(xiàn)出更好的增量學(xué)習(xí)能力。

2) 在對無標(biāo)注文檔的增量樣本選擇中,提出了一個最小后驗概率作為樣本選擇閾值,實驗證明,該閾值結(jié)合類置信度閾值一起使用,能起到更好的增量樣本選擇效果。

3) 在對增量算法和增量樣本選擇方法的評價上,根據(jù)算法的設(shè)計目的和其他文獻中的一些評價方法,總結(jié)并提出了增量算法和增量樣本選擇方法的幾個評價指標(biāo),為衡量這些方法的效果提出了有效的評價方式。

2 相關(guān)方法與概念

為了后面章節(jié)內(nèi)容的描述與算法及其理論應(yīng)用,這里先介紹本文應(yīng)用了的相關(guān)方法和概念,具體如下。

2.1 樸素貝葉斯算法

要確定文檔d={t1, t2,…,tn}屬于哪個類別,就計算d屬于各個類別的概率。若哪個類別的概率較大,則d的分類結(jié)果就是對應(yīng)的那個類別。在計算d屬于各個類別的概率時,P(d)都是一樣的。所以要使式(1)最大,只需要使分子最大即可。將其展開,結(jié)果所得如式(2)所示,這就是樸素貝葉斯分類器表達(dá)式。

綜合上述可知,在計算文檔d屬于哪個類別的概率時,只需要分別計算類別概率和特征的類條件概率。而目前主要有2種方法計算這2個概率,對應(yīng)地分別產(chǎn)生了2種模型即多項式模型和伯努利模型。

2.2 多項式模型

因多項式模型的粒度是基于詞的,其優(yōu)點是考慮到每個詞的出現(xiàn)次數(shù),當(dāng)對一個文檔類別進行分類時,這個信息能夠衡量與判斷不同類別的文檔關(guān)于詞頻率上的差異,因此,該模型對問句與文檔分類有重要的參考價值。在使用多項式模型計算條件概率時,對應(yīng)的 2個概率計算方法分別為式(3)和式(4)。類別概率為

特征的類條件概率為

其中,count( ci )是類別ci的文檔數(shù),count( D) 是訓(xùn)練集的總文檔數(shù),TFci(tj)是特征tj在類別ci中出現(xiàn)的頻次,TFci是類別ci的總詞數(shù),count(feature)是特征空間的維數(shù)。為了避免其他屬性含有的信息在訓(xùn)練集中未出現(xiàn)的屬性值被“抹去”,在計算概率值時通常進行“平滑”,則對分子加一和分母加特征維數(shù)都是對該概率計算的修正,以免出現(xiàn)分子或分母為0的情況。

2.3 伯努利模型

伯努利模型的粒度是基于文檔的。伯努利模型的類別概率計算方式與多項式模型是一致的。不同的是特征的類條件概率計算方式。伯努利模型的特征類條件概率計算方式如式(5)所示。

其中,DFci(tj)是類別ci中出現(xiàn)特征tj的文檔數(shù),DFci是類別ci的文檔總數(shù)。類似于多項式模型,分子上加0.01是對該概率計算的修正。本文改進的貝葉斯增量算法就是使用伯努利模型進行計算的。

2.4 樸素貝葉斯增量算法

樸素貝葉斯分類算法是一種有監(jiān)督的學(xué)習(xí)分類算法,貝葉斯分類算法的預(yù)測能力與訓(xùn)練語料的完備程度息息相關(guān),訓(xùn)練語料越完備,其預(yù)測能力越強,泛化能力也越強。在實際應(yīng)用中,分類器的訓(xùn)練語料集有一個逐漸完備的過程,很難一蹴而就。對于這種情況,傳統(tǒng)的做法是采用一批已經(jīng)清洗和標(biāo)注完成的語料對分類器進行訓(xùn)練,在訓(xùn)練集語料有更新的時候,就對分類器重新進行訓(xùn)練。但是這種做法導(dǎo)致時間與計算成本浪費較多。

針對樸素貝葉斯分類算法存在上述的不足,學(xué)者們提出了一種增量學(xué)習(xí)的樸素貝葉斯算法來進行彌補。增量學(xué)習(xí)算法一般有2種形式:1) 有標(biāo)注語料的增量,在初次訓(xùn)練后,再次收集一批新的人工標(biāo)注語料,然后將這批語料批量新增用于更新分類器;2) 無標(biāo)注語料的增量,在分類器使用過程中,對未識別的語料進行分類,根據(jù)自動分類的類別將該語料加入到訓(xùn)練集以更新分類器。

在無標(biāo)注語料的增量中,顯然并不是所有的未識別語料都能用來更新分類器的,因為分類器初始分類效果不好,肯定會有分類錯誤的情況出現(xiàn),用分類錯誤的語料更新分類器只會使分類效果更差。因此,需要對這些分類語料進行合理篩選,篩選用于更新分類器的語料。對此,本文方法借鑒了羅福星[6]提出的置信度閾值,根據(jù)該閾值判斷某文檔是否適合進行增量學(xué)習(xí)。置信度閾值也叫類置信度,也就是在分類完成時,計算所得該文檔屬于每個類別的概率。要使該文檔屬于分類結(jié)果類別的概率大于屬于其他類別的概率和的某個倍數(shù),才是可信、可增量的。倍數(shù)越大,要求越嚴(yán)格,此倍數(shù)在本文中稱為增量系數(shù)。一般來講,當(dāng)初始訓(xùn)練樣本較少時,分類效果一般,可以將增量系數(shù)設(shè)置地較大,以篩選更為可信的樣本;當(dāng)訓(xùn)練樣本較多時,分類效果更好,可以將增量系數(shù)設(shè)置得較小,也可以篩選出可信的樣本,以擴大樣本數(shù)量。本文參考和借鑒羅福星等[6~17]的計算公式,如式(6)所示,iθ是語料屬于類別i的概率,tθ是分類器分類結(jié)果類別的概率。

在篩選所需要進行增量更新的樣本后,將該樣本添加到訓(xùn)練集中,并對分類器進行增量更新。假設(shè)增量的文本屬于類別ci,需要更新各類的類別概率和特征的類條件概率計算式分別為式(7)和式(8)[6~17],文檔數(shù)量更新定義為式(9)和式(10)。

其中,D為訓(xùn)練集文檔總數(shù),DC為類別C的文檔數(shù)量,DC(tc)為類別C中出現(xiàn)特征tc的文檔數(shù)量。本文僅對概率和文檔數(shù)量進行更新的增量方法稱為傳統(tǒng)增量學(xué)習(xí)方法。

3 改進的樸素貝葉斯增量算法

現(xiàn)有的樸素貝葉斯增量學(xué)習(xí)算法在進行增量學(xué)習(xí)時,僅對類先驗概率和原有的屬性概率進行修改。但在新增的文本當(dāng)中,非??赡軙行碌奶卣鞔嬖冢纭懊让葒}”一詞是網(wǎng)絡(luò)類文章非常好的一個辨別特征,如果在訓(xùn)練集中沒有這個詞的存在,這個詞當(dāng)然不會被選為特征的;而若增量的文本中含有這個詞,這個詞將對分類產(chǎn)生較好的影響,因此,有必要在增量時將這個詞添加到特征列表中,然后對相關(guān)概率進行重新計算。

基于此,本文對現(xiàn)有增量學(xué)習(xí)算法進行改進和優(yōu)化,在對類概率和原有屬性概率進行修改的同時,將新出現(xiàn)的特征加入到特征空間。選擇初次訓(xùn)練時沒有考慮的優(yōu)秀特征,擴大分類的特征空間,對全新語料有更好的適應(yīng)能力,提高問句分類準(zhǔn)確率,以其達(dá)到更好的增量學(xué)習(xí)效果。

3.1 新增特征選擇

在改進的樸素貝葉斯增量算法中,本文所采用方法與其他研究方法的最大區(qū)別是對特征空間進行更新。本文對特征空間進行更新的增量方法稱為改進的增量學(xué)習(xí)方法,對于新增特征的更新方法如下所示。

1) 在改進的增量學(xué)習(xí)算法中,需要分別更新類別概率、特征的類條件概率。假設(shè)增量的文本屬于類別ci,類別概率、特征的類條件概率更新計算公式分別與式(7)~式(10)一致。

2) 若有新增特征選擇,則更新新增特征的類條件概率。本文假設(shè)增量的文檔含有新的特征,則該新特征的類條件概率計算式如式(2)所示。

下面分析在什么情況下進行更新。對于新增特征的選擇,本文認(rèn)為當(dāng)分類器進行學(xué)習(xí)時,與特征選擇的依據(jù)有關(guān)。在學(xué)習(xí)分類器時需要對新文本中的特征進行相應(yīng)判斷和篩選,若條件符合,則把新文本作為新特征加入特征空間。本文將以問題集語料作為實驗數(shù)據(jù)進行驗證,由于在對問題集分類的特征空間進行構(gòu)建時,沒有對特征空間進行降維處理,而對于特征的選擇,與特征出現(xiàn)的頻率或其文檔頻率無關(guān)。因此,在新的問題語料進入分類時,只需要判斷處理后的語料是否存在特征空間中沒有的特征。如存在,則進行特征空間的更新,再對相應(yīng)的參數(shù)進行修改;否則,僅需對特定特征和類別的參數(shù)進行修改。

3.2 無標(biāo)注增量文本選擇

對于無標(biāo)注語料中增量文本的選擇,本文參考了羅福星[6]提出的置信度判斷方法。該方法將貝葉斯分類器的分類概率作為判斷依據(jù),稱為類置信度,類置信度的計算方法與公式詳見2.4節(jié)。本文提出了一個以最小后驗概率作為另一個閾值對文本進行篩選,使用了類置信度作為閾值篩選增量文本。最小后驗概率的計算方法為式(11)。本文在借助類置信度閾值對增量文本進行篩選時,該方法不但充分地利用了類別區(qū)分度進行判斷,而且解決了其他方法中未考慮單類別分類概率的不足與缺陷。

此閾值的計算方法是以貝葉斯分類器計算文本屬于各類的后驗概率公式為基礎(chǔ)的。其中avg(maxIndexTermCount)是分類器所分類別的特征平均文檔頻次;termNum是待分類句子中含有特征空間中特征的數(shù)量;allcount是文檔總數(shù);class(maxIndex)是分類器所分類別的文檔數(shù)量;β是最小后驗概率方法的增量系數(shù),通過β來調(diào)整閾值的大小。考慮到選擇增量樣本時,直接按照特征平均文檔頻次來進行計算顯然是不夠的,因特征的文檔頻次越高,樣本屬于該類的概率也就越大,所以將通過改變增量系數(shù)選擇對應(yīng)的樣本進行增量學(xué)習(xí)。

3.3 無標(biāo)注語料增量算法

本文提出的無標(biāo)注語料增量算法思想與實現(xiàn)流程如下,參閱了張智敏等[7~16]的增量學(xué)習(xí)思路。

假設(shè)輸入:訓(xùn)練集D,測試集Dt。

Step1使用訓(xùn)練集D貝葉斯分類器進行學(xué)習(xí)。

Step2使用學(xué)習(xí)好的貝葉斯分類器對測試集Dt的每個文本進行分類。若分類結(jié)果符合設(shè)定閾值,則轉(zhuǎn) Step3;否則,返回分類結(jié)果并進行下一個文本的分類。

Step3將新增文檔表示為:d={t1, t2,…,tn, tn+1},t1至tn為原特征空間t={t1, t2,…,tn}存在的特征,tn+1為符合條件的新增特征。若tn+1不為空,則轉(zhuǎn)Step4;否則,跳過Step4直接轉(zhuǎn)Step5。

Step4將新增特征添加到特征列表中,計算該特征在每個類別中的條件概率P( tn+1|ci),并且后續(xù)分類語料需考慮新增特征的影響。

Step5分別更新測試集。文本中存在與原特征列表中特征的條件概率P(tn|ci)、類別概率P(ci)、訓(xùn)練文檔數(shù)量和類別文檔數(shù)量。

Step6算法結(jié)束。

3.4 有標(biāo)注語料增量算法

本文構(gòu)建的有標(biāo)注語料增量算法思想與實現(xiàn)流程如下,參閱了張智敏等[7~16]的增量學(xué)習(xí)思路。

假設(shè)輸入:訓(xùn)練集D,增量集Dt。

Step1使用訓(xùn)練集D對貝葉斯分類器進行學(xué)習(xí)。

Step2對于增量集Dt文檔逐個進行處理,執(zhí)行 Step3~Step5。

Step3將增量集Dt文檔表示為:d={t1,t2,…,tn, tn+1},t1至tn為原特征空間t={t1,t2,…,tn}存在的特征,tn+1為符合條件的新增特征。若tn+1不為空,則轉(zhuǎn)Step4;否則,跳過Step4直接轉(zhuǎn)Step5。

Step4將新增特征添加到特征列表中,計算該特征在每個類別中的條件概率P(tn+1|ci)。

Step5分別更新測試文本中存在與原特征列表中特征的條件概率P(tn|ci)、類別概率P(ci)、訓(xùn)練文檔數(shù)量和類別文檔數(shù)量。

Step6 算法結(jié)束。

3.5 增量算法評價指標(biāo)

據(jù)悉,學(xué)術(shù)界至今未形成一套標(biāo)準(zhǔn)和規(guī)范化的增量算法評價方法,大部分研究者都是以增量算法的效率評價增量算法可行性,但未以增量算法的效果評價增量算法優(yōu)越性。本文要評估增量算法的優(yōu)劣性,需要從增量算法的設(shè)計初衷考慮。首先,增量算法在算法運行過程中對算法進行增量學(xué)習(xí),因此,必須考慮算法的效率,否則將影響分類算法的運行效率。其次,在保證時間與空間效率的前提下,增量算法的運行效率采用盡可能多的信息對分類器進行優(yōu)化,即使用增量算法進行增量是通過對原有算法的訓(xùn)練集進行擴展,從而提高分類器對更多待分類文本的識別能力,并提高分類器的泛化能力。本文從2個維度淺析增量算法的評價指標(biāo)。

1) 有標(biāo)注語料增量方法評價指標(biāo)。首先,定義并說明如下概念與參數(shù)。① P(all)定義為直接用所有訓(xùn)練文檔訓(xùn)練出的分類器對測試集進行分類所得的準(zhǔn)確率。② P(orignal)定義為用部分訓(xùn)練集語料訓(xùn)練出的分類器對測試集進行分類所得的準(zhǔn)確率。③ P(increment)定義為用初始訓(xùn)練后剩余的訓(xùn)練集語料對分類器進行增量學(xué)習(xí)后對測試集進行分類所得的準(zhǔn)確率。

針對有標(biāo)注語料增量方法評價指標(biāo),本文設(shè)計2個評價指標(biāo):① 比較使用增量算法進行增量學(xué)習(xí)前后對待分類信息的識別程度,通過計算增量學(xué)習(xí)前后的準(zhǔn)確率的差值進行評價,本文稱之為增量學(xué)習(xí)力(ILB, incremental learning ability),數(shù)學(xué)計算式表示為ILB=P(increment)?P(orignal)。ILB值越高,表示增量學(xué)習(xí)能力越強;② 比較使用增量算法進行學(xué)習(xí)和直接使用所有語料對分類器進行訓(xùn)練的信息差別,通過計算直接訓(xùn)練和增量學(xué)習(xí)分類準(zhǔn)確率的差值進行評價,(DLB, difference learning ability),數(shù)學(xué)計算式表示為:DLB=abs(P(all)?P(increment))。DLB值越小,說明增量學(xué)習(xí)與直接訓(xùn)練得到的分類器越接近,表明增量學(xué)習(xí)丟失或損失的信息就越少。

通過本文實驗驗證和數(shù)據(jù)分析,本文發(fā)現(xiàn)第 1個評價指標(biāo)直觀反應(yīng)了增量學(xué)習(xí)前后分類器的識別信息能力變化,但是忽略了分類器通過擬合可能性的存在,證明了增量學(xué)習(xí)對于初始訓(xùn)練集數(shù)據(jù)信息的過渡學(xué)習(xí),但第2個評價指標(biāo)能較好地避免出現(xiàn)此情況。因此,綜合這2個評價指標(biāo),能較好和有效地對增量學(xué)習(xí)算法進行評價。

2) 無標(biāo)注語料增量方法評價指標(biāo)。本文采用閾值對未標(biāo)注文本進行增量選擇,這直接關(guān)系到未標(biāo)注語料增量算法的準(zhǔn)確率。為達(dá)到更好效果,需判斷選擇效果的優(yōu)劣,首先需要考慮選擇的文本是否準(zhǔn)確,因為在進行增量學(xué)習(xí)時,使用閾值進行增量選擇后再根據(jù)分類器對分類文本的類別劃分,將文本增量學(xué)習(xí)到某個具體類別中。因此,需盡量選擇分類器分類準(zhǔn)確的文本進行增量學(xué)習(xí)。這樣可以借用分類器中的2個通用概念即準(zhǔn)確率和召回率對閾值的選擇正確性進行判斷。為了更好地與其他文獻進行區(qū)分,本文將這2個具體概念稱為增量準(zhǔn)確率(用P表示)和增量召回率(用R表示)。

通過后面實驗驗證與數(shù)據(jù)分析可知,在選擇增量文本時,增量準(zhǔn)確率是首要考慮因素。在本文實驗驗證過程中,當(dāng)一個文本被選為增量文本時,對比其增量目標(biāo)類別和實際的類別(即標(biāo)注的類別),若兩者一致,則認(rèn)為增量選擇是正確的。如果在增量準(zhǔn)確率一致的情況下,哪種方法的效果更好。在使用不同閾值對增量文本進行選擇時,既要考慮到增量文本選擇的準(zhǔn)確性,又要保證增量召回率盡可能高。若增量召回率越高,則說明在同等情況下學(xué)習(xí)到的樣本就越多,增量學(xué)習(xí)的效果就越好。因此,在同樣增量準(zhǔn)確率前提下,必須對增量召回率的大小進行比較。

4 實驗方法與數(shù)據(jù)分析

傳統(tǒng)增量算法普遍都是僅對概率和文檔數(shù)量進行更新的增量算法,基于此,本文提出了改進的增量算法除了對概率和文檔數(shù)量進行更新外,還對特征空間進行更新。為了證明本文改進的樸素貝葉斯增量算法優(yōu)越性,本文分別設(shè)計了有標(biāo)注語料增量算法實驗和無標(biāo)注語料增量算法實驗這2組實驗數(shù)據(jù)進行驗證和分析,其中,有標(biāo)注語料增量算法實驗是通過增量算法進行增量學(xué)習(xí)的分類器和直接采用所有訓(xùn)練集進行學(xué)習(xí)的分類器差別與傳統(tǒng)的增量算法和改進的增量算法的差別進行比較與分析;無標(biāo)注語料增量算法實驗是通過傳統(tǒng)的增量算法與改進的增量算法的增量準(zhǔn)確率和增量召回率進行比較與分析。

4.1 有標(biāo)注語料增量算法驗證

4.1.1 實驗設(shè)計

本文使用哈爾濱工業(yè)大學(xué)的問題分類語料進行實驗驗證,根據(jù)哈爾濱工業(yè)大學(xué)信息檢索實驗室提供的數(shù)據(jù),該語料共劃分為7大類和85小類,總語料數(shù)達(dá)到6294條,其中,1314條為測試語料,4980條為訓(xùn)練語料。

本文就增量算法進行實驗過程中直接訓(xùn)練是指將4980條語料全部作為訓(xùn)練集對分類器進行學(xué)習(xí),而后使用1314條測試語料進行分類實驗,從而得出分類準(zhǔn)確率。而增量學(xué)習(xí)實驗,以訓(xùn)練語料按照 9∶1比例進行劃分而進行實驗,實驗隨機對4980條語料按類均分為10份,其中,9份作為初始訓(xùn)練集,1份作為增量學(xué)習(xí)數(shù)據(jù)集,具體各類別語料數(shù)量如表1所示。實驗先使用初始訓(xùn)練集對分類器進行學(xué)習(xí),而后使用1314條測試語料進行測試實驗,從而得出分類準(zhǔn)確率。再分別使用傳統(tǒng)增量和改進增量2種方法進行實驗,使用增量學(xué)習(xí)數(shù)據(jù)集對分類器進行增量學(xué)習(xí),然后再一次性使用1314條測試語料進行測試實驗,從而得出增量學(xué)習(xí)后的分類準(zhǔn)確率。在 1∶9比例進行劃分中,1份作為初始訓(xùn)練集,9份作為增量學(xué)習(xí)數(shù)據(jù)集。

4.1.2 實驗數(shù)據(jù)

采用 4.1.1節(jié)中的實驗設(shè)計方法,采用多種訓(xùn)練語料進行比例劃分,接著分別進行實驗,各實驗問句數(shù)量分布如表1所示。實驗中使用各種方法進行分類所得的準(zhǔn)確率如表2。將表2中實驗數(shù)據(jù)繪制折線圖則如圖1所示,橫坐標(biāo)表示表2中的9個實驗數(shù)據(jù),數(shù)據(jù)順序與表2一致。將初始訓(xùn)練、傳統(tǒng)增量和改進增量分類準(zhǔn)確率與直接訓(xùn)練所得分類準(zhǔn)確率的差值如圖2所示。

4.1.3 數(shù)據(jù)分析

實驗設(shè)計的數(shù)據(jù)即如表1所示是按照初始訓(xùn)練語料數(shù)量由多到少進行排序的,從表1和圖1中的初始訓(xùn)練數(shù)據(jù)文本發(fā)現(xiàn),在使用樸素貝葉斯分類器進行分類時,初始訓(xùn)練語料越多,分類準(zhǔn)確率越高,反之初始訓(xùn)練語料較少,則分類器的效果明顯受到影響;在增量學(xué)習(xí)的分類器準(zhǔn)確率與直接訓(xùn)練的越接近時,則說明了增量學(xué)習(xí)算法所得到分類模型與直接訓(xùn)練的分類模型越接近,增量效果越好。本文增量學(xué)習(xí)算法實驗基于此前提進行驗證和設(shè)計的。

表1各實驗問句數(shù)量分布

圖1有標(biāo)注語料增量學(xué)習(xí)準(zhǔn)確率折線

表2有標(biāo)注語料增量學(xué)習(xí)結(jié)果

圖2分類準(zhǔn)確率差值對比

首先,從第一個評價指標(biāo)進行分析,根據(jù)表2和圖1數(shù)據(jù)發(fā)現(xiàn),對比2種增量學(xué)習(xí)算法增量后所得的分類準(zhǔn)確率和初始訓(xùn)練所得的分類準(zhǔn)確率。在初始訓(xùn)練集數(shù)量較少的時候,如表2后 5個實驗和圖1所示,每個數(shù)據(jù)的增量算法都對分類器起到了很好的增量學(xué)習(xí)效果,并且改進后的增量算法增量學(xué)習(xí)效果更佳,顯然初始訓(xùn)練集語料越少,增量學(xué)習(xí)效果越明顯。因此,說明了改進增量算法的增量學(xué)習(xí)效果較傳統(tǒng)增量方法更好。

如表2前4個實驗數(shù)據(jù)和圖1所示,增量學(xué)習(xí)后分類器分類效果比初始訓(xùn)練分類器分類效果更差的數(shù)據(jù),下面分析該現(xiàn)象導(dǎo)致的原因和第2個有標(biāo)注語料增量算法評價指標(biāo)。樸素貝葉斯分類算法的預(yù)測能力很大程度上依賴于其訓(xùn)練集的優(yōu)劣,若訓(xùn)練集越優(yōu)秀,其語料越豐富,貝葉斯分類算法的預(yù)測能力也就越強。但是在實際應(yīng)用中,假設(shè)訓(xùn)練集的語料都是優(yōu)質(zhì)的,這樣保證了所有訓(xùn)練分類器的分類效果盡可能得好,選擇的語料也盡可能優(yōu)秀。因此,優(yōu)質(zhì)語料越多,訓(xùn)練出來的模型就越好,泛化能力越強。在本組實驗過程中,直接訓(xùn)練使用了全部的訓(xùn)練語料進行訓(xùn)練,則直接訓(xùn)練所得到的模型也是最優(yōu)的。

其次,分析圖2的初始訓(xùn)練、傳統(tǒng)增量和改進增量方法與直接訓(xùn)練的分類準(zhǔn)確率差值柱形圖,差值是用直接訓(xùn)練所得的分類準(zhǔn)確率減去其他方法所得的分類準(zhǔn)確率。若差值為正值,則說明直接訓(xùn)練所得的分類準(zhǔn)確率更高差值,若差值為負(fù)值,則說明非直接訓(xùn)練的分類準(zhǔn)確率更高。上述已闡述了直接訓(xùn)練所得的模型是本組實驗中最優(yōu)的模型,其他模型與該模型的差距越小,則說明該模型越好,在圖2中具體表現(xiàn)為柱形的長度越小,則說明該模型與最優(yōu)模型的差距越小。從圖2中發(fā)現(xiàn):1) 改進增量方法與最優(yōu)模型的準(zhǔn)確率差值基本上是最小的,準(zhǔn)確率差值均在0.05%以下;2) 傳統(tǒng)增量算法對分類器起到較好的增量學(xué)習(xí)作用,在一定程度上縮小了使用部分訓(xùn)練集進行學(xué)習(xí)的分類器與最優(yōu)分類器的差距,該結(jié)論在后面實驗中表現(xiàn)效果更為明顯。由此可見,改進的增量學(xué)習(xí)算法較傳統(tǒng)的增量學(xué)習(xí)算法增量學(xué)習(xí)效果更好。

再次對訓(xùn)練語料 4∶1份和訓(xùn)練語料 9∶1份的 2個實驗進一步分析并且可知,初始訓(xùn)練的語料數(shù)量較直接訓(xùn)練要少,所得分類準(zhǔn)確率卻更高,從圖 2中發(fā)現(xiàn)對應(yīng)的柱形是負(fù)值。但是假設(shè)直接訓(xùn)練的語料越多,其訓(xùn)練所得的模型應(yīng)當(dāng)是更好。由于直接訓(xùn)練的模型較初始訓(xùn)練的模型更好,初始訓(xùn)練所得的模型在測試實驗中分類準(zhǔn)確率卻更高,則有可能是初始訓(xùn)練的模型對測試集產(chǎn)生了過擬合的現(xiàn)象,也就是初始訓(xùn)練的模型雖然在測試集測試中表現(xiàn)更好的預(yù)測能力,但是其泛化能力卻有所欠缺。此時,增量算法對其進行糾正。雖然在實驗中的增量算法分類準(zhǔn)確率較初始訓(xùn)練要低,但是從圖2中發(fā)現(xiàn),增量學(xué)習(xí)后的模型與最優(yōu)模型的差距較初始訓(xùn)練的差距已經(jīng)縮小了。因此,說明了增量算法對樸素貝葉斯分類器的過擬合問題能起到較好的修正作用。同樣表明,改進后的增量學(xué)習(xí)算法的修正作用較傳統(tǒng)增量算法更好。

4.2 無標(biāo)注語料增量算法驗證

4.2.1 實驗設(shè)計

本文同樣使用哈爾濱工業(yè)大學(xué)的問題分類語料進行實驗驗證,根據(jù)哈工大信息檢索實驗室提供的數(shù)據(jù),該語料共劃分為7大類和85小類,總語料數(shù)達(dá)到6294條,其中,1314條為測試語料,4980條為訓(xùn)練語料。

在本組實驗設(shè)計中,需要根據(jù)閾值選擇的不同分別進行3個實驗:1) 使用類置信度為閾值進行實驗;2) 使用最小后驗概率為閾值進行實驗;3) 同時結(jié)合類置信度和最小后驗概率為閾值(本文稱為雙閾值)進行實驗。在各實驗中,本文將對增量學(xué)習(xí)算法測試在各閾值就不同的取值情況下的增量準(zhǔn)確率和增量召回率進行計算,然后對其所得的實驗結(jié)果進行對應(yīng)的分析。

4.2.2 實驗數(shù)據(jù)

1) 使用類置信度為閾值進行實驗。類置信度的計算如式(6)所示,本實驗中對增量系數(shù)α選擇不同的取值,則得到不同的增量樣本選擇結(jié)果,具體實驗結(jié)果如表3所示。

2) 使用最小后驗概率為閾值進行實驗。最小后驗概率的計算如式(11)所示,本實驗中對增量系數(shù)β選擇不同的取值,則得到不同的增量樣本選擇結(jié)果,具體實驗結(jié)果如表4所示。

3) 同時結(jié)合類置信度和最小后驗概率為閾值(即雙閾值)進行實驗??紤]到類置信度和最小后驗概率這2個系數(shù)組合與選擇有多種不同形式,本實驗僅以其中一些組合為例進行驗證,選擇最小后驗概率的增量系數(shù)β固定取值為3,類置信度的增量系數(shù)α隨機定為不同的取值為例,具體實驗結(jié)果如表5所示。

表3類置信度閥值增量樣本選擇情況

表4最小后驗概率閾值增量樣本選擇情況

表5雙閾值增量樣本選擇情況

4) 當(dāng)類置信度、最小后驗概率和雙閾值的增量準(zhǔn)確率分別達(dá)到 98%、99%和 100%進行實驗時,其所得的最高增量召回率數(shù)據(jù)詳見具體實驗結(jié)果如表6所示。

表6增量召回率比較

4.2.3 實驗分析

首先,從表3類置信度的實驗數(shù)據(jù)發(fā)現(xiàn),使用類置信度作為增量樣本選擇閾值起到較好的效果作用,使增量準(zhǔn)確率較高和增量召回率保持在一個理想狀態(tài)值。當(dāng)增量系數(shù)達(dá)到一定值時,其增量準(zhǔn)確率達(dá)到近 100%,這對增量樣本的選擇起到不錯的效果,并且作為單獨的增量樣本選擇閾值也起到較好的效果。

其次,從表4可以看出以最小后驗概率作為樣本選擇閾值的實驗數(shù)據(jù)可知,使用最小后驗概率作為增量閾值選擇增量樣本的效果較類置信度閾值差,增量準(zhǔn)確率大多數(shù)保持在 80%~90%。當(dāng)增量準(zhǔn)確率保持較高值時,其增量召回率下降較明顯,但是當(dāng)增量系數(shù)達(dá)到一定程度時,其增量準(zhǔn)確率也達(dá)到100%。因此,說明最小后驗概率本身可以單獨作為一種增量閾值進行使用,僅是增量召回率不太理想。

再者,為了解決最小后驗概率本身單獨使用效果不理想的問題,本文一方面將采用最小后驗概率與類置信度兩者進行組合的方法解決該問題?,F(xiàn)選擇最小后驗概率的增量系數(shù) β=3,類置信度的增量系數(shù)α值為變量時的實驗結(jié)果數(shù)據(jù)如表5所示,這2個增量閾值結(jié)合使用的效果較為理想,最低的增量準(zhǔn)確率達(dá)到98.66%,并且對錯誤文本的選擇有很好的識別效果。

本文另一方面也將采用雙閾值的方法進行增量樣本選擇并且與類置信度單獨使用作為閾值進行相比較。首先比較兩者之間的增量準(zhǔn)確率和增量召回率,當(dāng)雙閾值最低增量準(zhǔn)確率為98.66%時,其增量召回率為28.80%,然而當(dāng)單獨使用類置信度閾值增量準(zhǔn)確率為 98.67%時,其增量召回率為21.84%。反之,當(dāng)選擇以98%作為單獨的一檔時,并且單獨使用類置信度閾值進行增量樣本選擇,所得的增量準(zhǔn)確率達(dá)到 98%,增量召回率最高為27.13%,略低于雙閾值的增量召回率。當(dāng)選擇使用雙閾值進行增量樣本選擇時,一旦增量準(zhǔn)確率保持99%以上,增量召回率也均保持20%以上,但是單獨使用類置信度作為閾值增量召回率均低于20%。本文發(fā)現(xiàn),在實驗中對分類算法的增量樣本進行選擇時,增量準(zhǔn)確率非常最重要,只要增量樣本中有一個錯誤樣本,則這個錯誤樣本會一直伴隨分類算法,對其分類結(jié)果產(chǎn)生副作用。當(dāng)增量學(xué)習(xí)的樣本選擇增量準(zhǔn)確率達(dá)到 100%時,再比較兩者之間的增量召回率。從表6中的數(shù)據(jù)發(fā)現(xiàn),當(dāng)增量準(zhǔn)確率達(dá)到 100%時,使用雙閾值進行增量樣本選擇的增量召回率為最高且達(dá)到了18.61%,說明這個增量準(zhǔn)確率值已取得非常好的效果并足以在實際業(yè)務(wù)中應(yīng)用;而單獨使用類置信度作為閾值的增量召回率達(dá)到13.42%;僅以最小后驗概率作為閾值的增量召回率僅是1.76%,即該效果較不理想。

綜合上述實驗結(jié)果與分析表明,使用雙閾值的增量樣本選擇方法效果最佳,比單獨使用類置信度作為閾值對未標(biāo)注語料增量算法的識別效果更好。即使以最小后驗概率作為單獨增量樣本選擇閾值效果較差,但是最小后驗概率對類置信度仍起到較好的補充作用。當(dāng)過濾含有極少部分類置信度的增量系數(shù)較小時不能識別的錯誤樣本,并且采用不同的類置信度閾值的樣本選擇機制,將有效提高增量召回率。

5 相關(guān)工作

隨著人工智能技術(shù)的快速發(fā)展,產(chǎn)業(yè)界對智能機器人的持續(xù)升溫,為了提升問答系統(tǒng)準(zhǔn)確率,作為高效而簡單實用的算法之一,樸素貝葉斯增量算法作吸引了大量科研工作者的關(guān)注,并產(chǎn)生了一批與樸素貝葉斯增量算法相關(guān)的研究。

在樸素貝葉斯增量算法方面,Read等[17]提出了批量增量算法和單篇增量算法這2種對分類算法的增量方法,并將兩者進行了相關(guān)比較,分析了2種增量算法的優(yōu)劣特點與適用范圍,對這2種增量方法的具體應(yīng)用提出了有益的參考觀點,本文的有標(biāo)注語料增量算法即屬于批量增量算法,而無標(biāo)注語料增量算法則屬于單篇增量算法。Gu等[18]分析了本文中除了特征詞之外的其他信息,比如語義信息與語法信息,并且提出了在對分類器進行增量學(xué)習(xí)時,這些信息也需要考慮納入范圍之內(nèi),從而提高了增量學(xué)習(xí)的效果。

在增量樣本和組合分類器方面,近幾年,不但許多學(xué)者關(guān)注對機器學(xué)習(xí)組合分類器相關(guān)研究,而且對增量學(xué)習(xí)如何進行增量文本的選擇研究也持續(xù)走高。Muhlbaier等[19]即使發(fā)現(xiàn)了一種新的組合分類器增量學(xué)習(xí)方法,而且有效地解決了原有增量方法存在的問題,特別是對無標(biāo)注語料增量樣本的選擇起到更好的效果作用。Bouguelia等[20]應(yīng)用了組合分類器理論,通過實驗證明與發(fā)揮了組合分類器的優(yōu)勢。還有一些學(xué)者將研究內(nèi)容與精力聚焦在增量學(xué)習(xí)算法的其他相關(guān)方面研究。比如Fong等[21]探討了增量學(xué)習(xí)之前對增量學(xué)習(xí)內(nèi)容進行預(yù)處理。他們關(guān)注了分類器訓(xùn)練前需要對訓(xùn)練內(nèi)容進行預(yù)處理,同樣也關(guān)注了增量學(xué)習(xí)前對增量學(xué)習(xí)的內(nèi)容進行預(yù)處理的效果,并且提出了增量學(xué)習(xí)算法預(yù)處理的實用方法與注意事項。

但是,以上這些研究都有一定局限性,例如像Eyheramendy、Lewis、Madigan 等[22~26]對樸素貝葉斯分類器在某些假設(shè)情況下得到不錯的性能與分類效果。然而,他們僅是側(cè)重于增量學(xué)習(xí)算法本身的某個方面,并沒有涉及到對特征空間的增量樣本更新、無標(biāo)注語料增量算法閾值選擇策略的研究;在對增量算法進行實驗驗證與分析時,絕大多數(shù)實驗分析僅是從分類的準(zhǔn)確率角度進行比較,而沒有從增量學(xué)習(xí)算法目的層面進行深入著手和深度分析。本文對上述內(nèi)容進行了重點研究,這些研究對樸素貝葉斯增量算法對于自然語言處理技術(shù)應(yīng)用于智能機器人這一工作將有重要的實用意義。

6 結(jié)束語

本文從樸素貝葉斯分類算法出發(fā),尋找對其進行增量學(xué)習(xí)的改進方法。改進的增量學(xué)習(xí)方法在傳統(tǒng)增量算法的基礎(chǔ)上引入了新增特征的增量學(xué)習(xí)。實驗證明,改進的增量學(xué)習(xí)方法在一定程度上解決了樸素貝葉斯分類算法的過擬合問題,增量學(xué)習(xí)接近與直接使用所有文本進行分類的分類器,學(xué)習(xí)效果較傳統(tǒng)方法更好。

此外,本文針對無標(biāo)注文本的增量學(xué)習(xí),提出了以一個最小后驗概率作為增量樣本選擇閾值。實驗證明,雖然該閾值單獨使用時增量召回率較低,效果較不理想,但是該閾值能對傳統(tǒng)的類置信度閾值起到較好的補充作用,而且結(jié)合類置信度閾值,在同樣達(dá)到 100%增量準(zhǔn)確率情況下,使用雙閾值進行增量樣本選擇增量召回率比單獨使用類置信度閾值提高了5個百分點,取得了較好的效果。雖然樸素貝葉斯增量學(xué)習(xí)算法學(xué)術(shù)界研究起步早且取得一些成果,但是在適應(yīng)性與產(chǎn)業(yè)化方面尚有更深入的研究空間,其中,對改進的增量學(xué)習(xí)方法,現(xiàn)有處理方法僅適用于問題分類中,對于使用特征選擇用于特征空間進行處理的方法,是否包括不限于特征的增量選擇還有待探討。而對于未標(biāo)注語料選擇方面,如使用服務(wù)領(lǐng)域的航空常見問題集與答案集進行增量樣本的選擇,如何在保證增量準(zhǔn)確率的同時提高增量召回率也是下一步研究的方向之一,這些研究將進一步鞏固和延伸樸素貝葉斯增量算法的科研實用價值。

[1]CHRISTOPHER M. Pattern recognition and machine learning[M].New York: Springer, 2006.

[2]ESCALANTE H J, MORALES E F, SUCAR L E. A Naive Bayes baseline for early gesture recognition[J]. Pattern Recognition Letters,2016, 73: 91-99.

[3]DIMKOVSKI M,AN A. A Bayesian model for canonical circuits in the neocortex for parallelized and incremental learning of symbol representations[J]. Neurocomputing, 2015, 149: 1270-1279.

[4]FENG L,WANG Y,ZUO W. Quick online spam classification method based on active and incremental learning[J].Journal of Intelligent amp;Fuzzy Systems,2015,30(1):17-27.

[5]董立巖, 隋鵬, 孫鵬, 等. 基于半監(jiān)督學(xué)習(xí)的樸素貝葉斯分類新算法[J]. 吉林大學(xué)學(xué)報: 工學(xué)版, 2016(03).DONG L Y, SUI P, SUN P, et al. Novel Naive Bayes classification algorithm based on semi-supervised learning[J]. Journal of Jilin University, Engineering and Technology Edition, 2016(03).

[6]羅福星.增量學(xué)習(xí)樸素貝葉斯中文分類系統(tǒng)的研究[D].長沙:中南大學(xué),2008.LUO F X. Research on incremental learning naive Bayesian classification system[D]. Changsha: Central South University, 2008.

[7]張智敏. 基于增量學(xué)習(xí)的分類算法研究[D]. 廣州: 華南理工大學(xué),2010.ZHANG Z M. The study of classification based on incremental learning[D]. Guangzhou: South China University of Technology, 2010.

[8]侯凱. 加權(quán)貝葉斯增量學(xué)習(xí)中文文本分類研究[D]. 長沙: 長沙理工大學(xué), 2013.HOU K. The weighted Bayesian incremental learning Chinese text classification study[D]. Changsha: Changsha University of Science amp;Technology, 2013.

[9]李金華, 梁永全, 呂芳芳. 一種加權(quán)樸素貝葉斯分類增量學(xué)習(xí)模型[J]. 計算機與現(xiàn)代化, 2010, 2010(5): 30-32.LI J H,LIANG Y Q, LV F F. An incremental learning model of weighted Naive Bayesian cassification[J].Computer and Modernization, 2010, 2010(5): 30-32.

[10]羅福星, 劉衛(wèi)國. 一種樸素貝葉斯分類增量學(xué)習(xí)算法[J]. 微計算機應(yīng)用, 2008, 29(6): 107-112.LUO F X,LIU W G.An incremental learning algorithm based on weighted Naive Bayes classification[J].Microcomputer Applications,2008, 29(6): 107-112

[11]宮秀軍, 劉少輝, 史忠植. 一種增量貝葉斯分類模型[J]. 計算機學(xué)報, 2002, 25(6): 645-650.GONG X J,LIU S H,SHI Z Z. An incremental Bayes classification model[J]. Chinese Journal of Computers, 2002, 25(6): 645-650

[12]高潔, 吉根林. 一種增量式Bayes文本分類算法[J]. 南京師范大學(xué)學(xué)報(工程技術(shù)版), 2004, 4(3): 49-52.GAO J, JI G L. Incremental Bayes text categorization algorithm[J].Journal of Nanjing Normal University(Engineering and Technology),2004, 4(3): 49-52.

[13]王小林, 鎮(zhèn)麗華, 楊思春, 等. 基于增量式貝葉斯模型的中文問句分類研究[J]. 計算機工程, 2014, 40(9): 238-242.WANG X L, ZHEN L H,YANG S C, et al. Chinese question classification research based on incremental Bayes model[J]. Computer Engineering, 2014, 40(9): 238-242.

[14]段華. 支持向量機的增量學(xué)習(xí)算法研究[D]. 上海: 上海交通大學(xué), 2008.DUAN H. Study on the incremental learning algorithms for support vector machines[D]. Shanghai: Shanghai Jiao Tong University, 2008.

[15]姜卯生, 王浩, 姚宏亮. 樸素貝葉斯增量學(xué)習(xí)序列算法研究[J]. 計算機工程與應(yīng)用, 2004, 40(14): 57-59.JIANG M S, WANG H, YAO H L. Studies on incremental learning sequence algorithm of Naive Bayesian classifier[J]. Computer Engineering and Applications, 2004, 40(14): 57-59

[16]ZHANG H, SHENG S. Learning weighted Naive Bayes with accurate ranking[C]//Fourth IEEE International Conference on Data Mining.2004: 567-570.

[17]READ J, BIFET A, PFAHRINGER B, et al. Batch-in cremental versus instance-incremental learning in dynamic and evolving data[C]// International Symposium on Intelligent Data Analysis. Springer Berlin Heidelberg, 2012: 313-323

[18]GU P,ZHU Q S,ZHANG C.A multi-view approach to semi-supervised document classification with incremental Naive Bayes[J]. Computersamp; Mathematics with Applications, 2009, 57(6): 1030-1036.

[19]MUHLBAIER M D, TOPALIS A, POLIKARO R. NC: combining ensemble of classifiers with dynamically weighted consult-and-vote for efficient incremental learning of new classes[J].IEEE Transactions on Neural Networks, 2009, 20(1): 152-168.

[20]BOUGUELIA M R, BELA?D Y, BELA?D A. A stream-based semi-supervised active learning approach for document classification[C]//201312th International Conference on Document Analysis and Recognition.IEEE, 2013: 611-615.

[21]FONG S, BIUK-AGHAI R P, SI Y, et al. A lightweight data preprocessing strategy with fast contradiction analysis for incremental classifier learning[J]. Mathematical Problems in Engineering, 2015, 2015:1-11.

[22]EYHERAMENDY S, LEWIS D D, MADIGAN D. On the Naive Bayes model for text categorization[J/OL]. https://core.ac.uk/display/21543464, 2003.

[23]PEDRO D, MICHAEL P. On the optimality of the simple Bayesian classifier under zero-one loss[J]. Machine Learning, 1997, 29:103-130.

[24]ANDREW M C, KAMAL N. A comparison of event models for Naive Bayes text classification[J]. In AAAI-98 Workshop on Learning for Text Catego, 2009, 62(2): 41-48.

[25]AY N, JORDAN M. On discriminative vs generative classifiers: a comparison of logistic regression and Naive Bayes[J]. Advances in Neural Information Processing Systems, 2002, 2(3): 169-187.

[26]ZHANG H. The optimality of Naive Bayes[C]//The Seventeenth International Florida Artificial Intelligence Research Society Conference. Miami Beach, Florida, USA, 2004: 562-567.

Improved incremental algorithm of Naive Bayes

ZENG Shui-fei1, ZHANG Xiao-yan1,DU Xiao-feng2, LU Tian-bo1
(1. School of Software Engineer,Beijing University of Posts and Telecommunications,Beijing 100876, China;2. School of Computer,Beijing University of Posts and Telecommunications,Beijing 100876, China)

A novel Naive Bayes incremental algorithm was proposed, which could select new features. For the incremental sample selection of the unlabeled corpus, a minimum posterior probability was designed as the double threshold of sample selection by using the traditional class confidence. When new feature was detected in the corpus, it would be mapped into feature space, and then the corresponding classifier was updated. Thus this method played a very important role in class confidence threshold. Finally, it took advantage of the unlabeled and annotated corpus to validate improved incremental algorithm of Naive Bayes. The experimental results show that an improved incremental algorithm of Naive Bayes significantly outperforms traditonal incremental algorithm.

Naive Bayes, incremental algorithm, feature space, evaluation index

TP181

A

10.11959/j.issn.1000-436x.2016199

2016-05-11;

2016-08-01

曾誰飛(1978-),男,江西廣昌人,北京郵電大學(xué)博士生,主要研究方向為智能信息處理、機器學(xué)習(xí)、深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)等。

張笑燕(1973-),女,山東煙臺人,博士,北京郵電大學(xué)教授,主要研究方向為軟件工程理論、移動互聯(lián)網(wǎng)軟件、ad hoc和無線傳感器網(wǎng)絡(luò)。

杜曉峰(1973-),男,陜西韓城人,北京郵電大學(xué)講師,主要研究方向為云計算與大數(shù)據(jù)分析。

陸天波(1977-),男,貴州畢節(jié)人,博士,北京郵電大學(xué)副教授,主要研究方向為網(wǎng)絡(luò)與信息安全、安全軟件工程和P2P計算。

猜你喜歡
貝葉斯增量語料
導(dǎo)彈增量式自適應(yīng)容錯控制系統(tǒng)設(shè)計
提質(zhì)和增量之間的“辯證”
基于歸一化點向互信息的低資源平行語料過濾方法*
全現(xiàn)款操作,年增量1千萬!這家GMP漁藥廠為何這么牛?
基于貝葉斯解釋回應(yīng)被告人講述的故事
“價增量減”型應(yīng)用題點撥
基于貝葉斯估計的軌道占用識別方法
基于互信息的貝葉斯網(wǎng)絡(luò)結(jié)構(gòu)學(xué)習(xí)
《苗防備覽》中的湘西語料
國內(nèi)外語用學(xué)實證研究比較:語料類型與收集方法