基于貝葉斯分類器的中文文本分類

2016-12-26 12:56:34鐘磊

電子技術(shù)與軟件工程 2016年22期

鐘磊

摘要

在數(shù)據(jù)挖掘領(lǐng)域中，文本分類備受關(guān)注。本文研究了基于貝葉斯分類器的中文文本分類的相關(guān)問(wèn)題，提出了一種以遺傳算法為基礎(chǔ)的樸素貝葉斯分類器，分析了分類器的設(shè)計(jì)流程和功能實(shí)現(xiàn)過(guò)程，驗(yàn)證表明，本文提出的貝葉斯分類器在中文文本分類中的應(yīng)用效果良好，分類精度較高。

【關(guān)鍵詞】貝葉斯分類器文本分類遺傳算法

貝葉斯分類器在文本分類中有著重要的應(yīng)用，其中樸素貝葉斯分類器是一種簡(jiǎn)單有效的概率分類方法。但需要注意的是，樸素貝葉斯分類器模型在實(shí)際應(yīng)用的過(guò)程中往往會(huì)出現(xiàn)一定的問(wèn)題，例如條件假設(shè)難以實(shí)現(xiàn)，屬性約簡(jiǎn)影響分類效果等。

1 文本分類

事先定義好文本類別，以文本內(nèi)容為基礎(chǔ)，計(jì)算機(jī)根據(jù)相關(guān)自動(dòng)分類算法，對(duì)文本進(jìn)行預(yù)先定義好的類別劃分就是文本分類。文本分類一般可以分為三個(gè)步驟，分別是文本向量模型表示、選擇文本特征及分類器訓(xùn)練。

2 遺傳算法基本思想

遺傳算法是以遺傳思想為基礎(chǔ)的一種算法，一定數(shù)量的個(gè)體經(jīng)過(guò)基因編碼之后會(huì)組成一個(gè)種群，而遺傳算法就從代表問(wèn)題可能潛在解集的種群開(kāi)始。

3 基于遺傳算法的樸素貝葉斯分類器

本文提出了一種應(yīng)用于中文文本分類的貝葉斯分類器，其以自適應(yīng)遺傳算法為基礎(chǔ)，具體設(shè)計(jì)方案如下：

3.1 設(shè)計(jì)思路

（1）進(jìn)行數(shù)據(jù)采樣、收集、整理等預(yù)處理工作，必要時(shí)進(jìn)行數(shù)據(jù)的離散化。

（2）對(duì)實(shí)體樣本數(shù)據(jù)進(jìn)行分類，之后將其隨機(jī)劃分為兩個(gè)集合，分別是驗(yàn)證集和訓(xùn)練集，在訓(xùn)練集中生成S個(gè)子集，每一個(gè)子集的屬性隨機(jī)，針對(duì)每一個(gè)隨機(jī)屬性子集，對(duì)應(yīng)的構(gòu)建一個(gè)NBC。

（3）將構(gòu)建的NBC作為初始種群，以上文中提到的遺傳算法選擇最優(yōu)解，在整個(gè)遺傳操作中，選擇的最優(yōu)解就是要求的gNBC，gNBC對(duì)應(yīng)的屬性集則是所需要的最優(yōu)屬性集。

3.2 gNBC設(shè)計(jì)

3.2.1 數(shù)據(jù)預(yù)處理

在知識(shí)獲取系統(tǒng)中，數(shù)據(jù)預(yù)處理是關(guān)鍵步驟，這是因?yàn)槿〉玫脑紨?shù)據(jù)不能夠直接進(jìn)行知識(shí)獲取，需要進(jìn)行一定的預(yù)處理加工才能夠滿足知識(shí)獲取條件，原始數(shù)據(jù)的采樣、收集及整理等都屬于數(shù)據(jù)預(yù)處理的范疇。

3.2.2 編碼

在遺傳算法中，編碼的過(guò)程就是基因型與表現(xiàn)型的映射工作，保證二者的一一對(duì)應(yīng)，實(shí)質(zhì)上就是解的遺傳表示過(guò)程。

3.2.3 分類器差異度

差異度指的是空間中分布程度，將分類精度設(shè)為R，數(shù)據(jù)集中分類精度數(shù)量為m，則有R1，R2，…，Rm，用P代表數(shù)據(jù)集記錄個(gè)數(shù)，則每一類記錄數(shù)為P1，P2，…，Pm，則可以得出以下公式：

P=P1+P2…+Pm

R=P1R1+P2R2…+PmRm/P

Ri為第i類正確分類記錄數(shù)與所有劃分到第i類的記錄數(shù)之間的比值，則可以得出分類器差異度D的計(jì)算公式：

D=R1R2…Rm/Rm

由上述公式可知，分類器差異度D的取值范圍為（0，1），D的值越大，即越接近于1，代表分類器差異性越好。

3.2.4 適應(yīng)度函數(shù)

適應(yīng)度是度量群體中個(gè)體優(yōu)化計(jì)算中接近找到最優(yōu)解的優(yōu)良程度的重要標(biāo)準(zhǔn)，利用適應(yīng)度函數(shù)能夠?qū)€(gè)體適應(yīng)度進(jìn)行評(píng)估，從而對(duì)群體中個(gè)體優(yōu)良程度進(jìn)行評(píng)價(jià)。

3.2.5 遺傳操作

（1）選擇操作，即個(gè)體的優(yōu)勝劣汰，選擇適應(yīng)性更強(qiáng)的染色體，將這些染色體組成新的種群。

（2）遺傳運(yùn)算，主要包括交叉運(yùn)算和變異運(yùn)算，形成新的個(gè)體并產(chǎn)生相應(yīng)后代。

4 算法驗(yàn)證

4.1 數(shù)據(jù)預(yù)處理

為了對(duì)本文提出方法的有效性和可行性進(jìn)行驗(yàn)證，本文以搜狗實(shí)驗(yàn)室文本分類數(shù)據(jù)為語(yǔ)料庫(kù)，選取五類中文文檔，分別是汽車類、教育類、體育類、文化類及旅游類，每類文檔中包含新聞報(bào)1990篇，文檔數(shù)量為9950。

4.2 驗(yàn)證結(jié)果分析

將數(shù)據(jù)庫(kù)分為驗(yàn)證集和訓(xùn)練集，前者30%，后者70%，測(cè)試驗(yàn)證集，對(duì)NBC和gNBC的分類精度進(jìn)行比較，結(jié)果如表1所示。

由表1可知，相較于NBC來(lái)說(shuō)，gNBC分類精度普遍更優(yōu)良，在同一數(shù)據(jù)集中，差異度影響系數(shù)取值不同，gNBC分類精度也有著一定多個(gè)差異性，因此，適當(dāng)對(duì)差異度進(jìn)行考慮有助于提升文本分類能力。但同時(shí)也需要注意，實(shí)驗(yàn)過(guò)程中，如果增加特征數(shù)目，會(huì)一定程度影響分查速度，在應(yīng)用的過(guò)程中需要平衡速度和效率，這是本方法需要改進(jìn)之處。

5 結(jié)論

綜上所述，貝葉斯分類器在中文文本分類中有著重要的應(yīng)用，本文提出了一種以遺傳算法為基礎(chǔ)的樸素貝葉斯分類器，分析了分類器的設(shè)計(jì)流程和功能實(shí)現(xiàn)，通過(guò)實(shí)例驗(yàn)證表明，本文提出的貝葉斯分類器在中文文本分類中的應(yīng)用效果良好，分類精度較高，但在實(shí)際應(yīng)用的過(guò)程中需要平衡分類效率和速度，這也是需要進(jìn)一步改善之處。

參考文獻(xiàn)

[1]羅海蛟.數(shù)據(jù)挖掘中分類算法的研究及其應(yīng)用[J].微機(jī)發(fā)展，2013，13（02）：48-50.

[2]王灝，黃厚寬，田盛豐.文本分類實(shí)現(xiàn)技術(shù)[J].廣西師范大學(xué)學(xué)報(bào)：自然科學(xué)版，2013，21（01）：173-179.

[3]秦進(jìn)，陳笑蓉，汪維家，等.文本分類中的特征抽取[J].計(jì)算機(jī)應(yīng)用，2015，23（02）：45-46.

作者單位

杭州電子科技大學(xué)通信工程學(xué)院浙江省杭州市 310002

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于貝葉斯分類器的中文文本分類