国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于N-gram特征的加權(quán)樸素貝葉斯文本分類算法

2021-09-27 16:26:20王瑛,榮麒,王勇
電腦知識與技術(shù) 2021年19期
關(guān)鍵詞:文本分類

王瑛,榮麒,王勇

摘要:樸素貝葉斯算法由于其具有簡單、穩(wěn)定和高效的優(yōu)點(diǎn),被廣泛運(yùn)用在文本分類領(lǐng)域,但由于算法所涉及屬性的獨(dú)立性和同等重要性,算法的文本分類效果并不理想。針對以上問題,該文采用一種基于N-gram特征的加權(quán)樸素貝葉斯文本分類算法的模型對5種文本進(jìn)行分類實(shí)驗(yàn),然后將實(shí)驗(yàn)得到的準(zhǔn)確率、召回率、F1值等評價(jià)標(biāo)準(zhǔn)對模型進(jìn)行評估,并與傳統(tǒng)的樸素貝葉斯模型分類算法得到的結(jié)果進(jìn)行比較,結(jié)果表明分類效果得到較大的提升。

關(guān)鍵詞:樸素貝葉斯;N-Gram;加權(quán);文本分類

中圖分類號:TP393? ? ? 文獻(xiàn)標(biāo)識碼:A

文章編號:1009-3044(2021)19-0136-03

Weighted Naive Bayes Text Classification Algorithm Based on N-gram Features

WANG Ying, RONG Qi, WANG Yong

(School of Computers, Guangdong University of Technology, Guangzhou 510006, China)

Abstract: The Naive Bayes algorithm is widely used in the field of text classification because of its simplicity, stability and efficiency. However, due to the independence and equal importance of the attributes involved in the algorithm, the text classification effect of the algorithm is not ideal. In response to the above problems, this paper uses a weighted naive Bayesian text classification algorithm model based on N-gram features to classify five types of texts, and then compare the accuracy, recall, F1 value and other evaluation criteria obtained from the experiment to the model It is evaluated and compared with the results obtained by the traditional Naive Bayes model classification algorithm. The results show that the classification effect has been greatly improved.

Key words: Na?ve Bayes; N-Gram; weighted; text classification

1 背景

樸素貝葉斯是一種簡單又高效的分類算法,并且有強(qiáng)大的數(shù)學(xué)理論背景做支撐,其在分類過程中效率穩(wěn)定,在很多領(lǐng)域表現(xiàn)出非常好的性能,被廣泛應(yīng)用于文本分類領(lǐng)域,但其用于文本分類的效果不夠理想,有很大的改進(jìn)空間。本文采用N-gram特征提取方法結(jié)合加權(quán)后的樸素貝葉斯分類算法對文本進(jìn)行分類,本文第2部分介紹了傳統(tǒng)的樸素貝葉斯文本分類算法的理論及其實(shí)現(xiàn)原理;第3部分主要介紹利用N-gram模型對文本進(jìn)行特征詞提取和利用TF-IDF模型對特征詞進(jìn)行加權(quán);第4部分介紹了本文的實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明基于N-gram特征的加權(quán)樸素貝葉斯模型相比于傳統(tǒng)的樸素貝葉斯有更好的文本分類效果。

2 樸素貝葉斯算法

樸素貝葉斯算法是一種典型以貝葉斯算法為基礎(chǔ)的分類算法,其所涉及的各個(gè)特征必須相互獨(dú)立,主要思想就是:對于給定的文本類標(biāo)簽集合C = {[c1],[ c2],[ c3],….,[ cn] }以及一個(gè)待分類的文本d,計(jì)算出輸入各個(gè)類別的條件概率[Pci|d(i=1,2,…,n)],選出最大值,其對應(yīng)的類別就是該文本所屬的類別。樸素貝葉斯文本分類公式如下:

[pci|d=argmax pcik=1m pwk|ci]

其中,先驗(yàn)概率[pci]表示文本訓(xùn)練集中[ci] 類文本的數(shù)量在所有文本訓(xùn)練集數(shù)量中所占的比重,[pwk|ci]計(jì)算公式如下:

[ pwk|ci=l=1|D|Nwk,? dl +1s=1|V|l=1|D|Nwk,? dl+∣V∣]

其中[wk]表示某一特征詞,[m]表示測試文本[d]包含的特征詞數(shù)目,文本[dl]表示文本類[ci]中的某一訓(xùn)練文本,[i=1|D|Nwk,? ci ]表示[wk]在類型為[ci]文本中的出現(xiàn)的次數(shù),[i=1|D|Nwk,? ci]表示在類型為[ci]的文本中出現(xiàn)特征詞[wk]的總次數(shù),[∣V∣]表示特征詞總數(shù)目,[∣D∣]表示[ci]中文本數(shù)目。其為了防止0次的特征詞對分類決策的影響,采用“拉普拉斯修正”,進(jìn)行+1平滑操作。

3 N-gram特征提取和加權(quán)

3.1 N-gram特征提取

N-gram模型是基于統(tǒng)計(jì)語言的模型,它的基本思想是將文本內(nèi)容滑動(dòng)到N個(gè)字節(jié)大小的滑動(dòng)窗口中,形成N個(gè)字節(jié)長度的片段序列。 每個(gè)字節(jié)片稱為一個(gè)gram,對所有g(shù)ram片段執(zhí)行詞頻統(tǒng)計(jì),并根據(jù)設(shè)置的閾值將詞頻較低的特征進(jìn)行過濾操作,最后形成關(guān)鍵字gram列表,即文本的特征向量空間。

猜你喜歡
文本分類
基于樸素貝葉斯的Web文本分類及其應(yīng)用
基于組合分類算法的源代碼注釋質(zhì)量評估方法
基于貝葉斯分類器的中文文本分類
基于蟻群智能算法的研究文本分類
基于樸素貝葉斯分類的Java課程網(wǎng)絡(luò)答疑反饋系統(tǒng)
基于K—means算法的文本分類技術(shù)研究
文本分類算法在山東女子學(xué)院檔案管理的應(yīng)用
科技視界(2016年24期)2016-10-11 09:36:57
不同情境下中文文本分類模型的表現(xiàn)及選擇
基于內(nèi)容的英語錄音教材標(biāo)注研究與應(yīng)用
多核SVM文本分類研究
軟件(2015年5期)2015-08-22 08:02:45
太康县| 鱼台县| 潞城市| 肥乡县| 辛集市| 滦平县| 兴仁县| 浮梁县| 康乐县| 武冈市| 策勒县| 涿州市| 衡阳县| 屏东县| 新巴尔虎左旗| 余庆县| 门源| 沙湾县| 汽车| 塔城市| 嘉义市| 民和| 保康县| 莱阳市| 利辛县| 兴隆县| 永胜县| 虎林市| 大埔区| 贵阳市| 桦川县| 河西区| 郯城县| 循化| 汨罗市| 灌南县| 正定县| 辽阳县| 滨州市| 芜湖县| 嘉善县|