国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

并行化改進(jìn)的樸素貝葉斯算法在中文文本分類上的應(yīng)用

2020-09-04 07:56:10彭子豪
科學(xué)技術(shù)創(chuàng)新 2020年26期
關(guān)鍵詞:特征詞詞頻樸素

彭子豪 譚 欣

(湖北第二師范學(xué)院計(jì)算機(jī)學(xué)院,湖北 潛江433100)

1 概述

互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,使文本信息的體量乘上了增長(zhǎng)的快車。為了有效的對(duì)海量文本信息進(jìn)行數(shù)據(jù)挖掘,文本分類成為了研究的熱點(diǎn)。文本分類在新聞主題分類、情感分析、輿情分析和智能信息推薦中都應(yīng)用廣泛。尤其是大數(shù)據(jù)海量文本數(shù)據(jù)而言,對(duì)其進(jìn)行高效高精度的文本分類是一個(gè)重要的研究?jī)?nèi)容。樸素貝葉斯算法是公認(rèn)經(jīng)典的分類算法,普遍用于文本分類。樸素貝葉斯最核心的部分是貝葉斯法則,用后驗(yàn)概率和聯(lián)合概率來(lái)計(jì)算先驗(yàn)概率。

文獻(xiàn)[1]在樸素貝葉斯算法文本分類算法中去掉了對(duì)先驗(yàn)概率的計(jì)算,并在后驗(yàn)概率的計(jì)算中引入了一個(gè)放大系數(shù),提升了計(jì)算精度。

文獻(xiàn)[2] 提出一種基于詞向量間余弦相似度的改進(jìn)樸素貝葉斯算法,有效的降低了特征向量的數(shù)據(jù)冗余和計(jì)算復(fù)雜性。

文獻(xiàn)[3]實(shí)現(xiàn)了基于MapReduce 實(shí)現(xiàn)樸素貝葉斯算法,使在大數(shù)據(jù)量的情況下, 并行化的貝葉斯算法較傳統(tǒng)的貝葉斯算法具有更好的執(zhí)行效率和較高的擴(kuò)展性。在基于樸素貝葉斯的文本分類時(shí),首先需要通過(guò)詞頻統(tǒng)計(jì)獲取文本特征,之后利用貝葉斯對(duì)屬性以同權(quán)的形式進(jìn)行模型計(jì)算。

而上述文獻(xiàn)沒(méi)有考慮到對(duì)于文本屬性而言,不同的屬性在表征類別時(shí)貢獻(xiàn)可能是不同的,而在傳統(tǒng)貝葉斯文本分類方法中,認(rèn)為特征項(xiàng)在分類時(shí)對(duì)決策的貢獻(xiàn)相同,對(duì)不具有代表性的、噪聲污染的特征和高頻出現(xiàn)特征屬性進(jìn)行同權(quán)處理,導(dǎo)致分類精確度降低。

為區(qū)分文本單詞特征屬性在分類時(shí)的權(quán)重差異,提升文本大數(shù)據(jù)的分類精度及效率,本文首先利用改進(jìn)的TFIDFCF 算法進(jìn)行文本詞頻統(tǒng)計(jì),獲取不同單詞的詞頻,該算法解決了TFIDF算法在計(jì)算特征詞權(quán)重時(shí)忽略類間關(guān)系的問(wèn)題。其次將文本特征詞的詞頻統(tǒng)計(jì)結(jié)果,作為樸素貝葉斯模型的屬性特征權(quán)重輸入,進(jìn)行加權(quán)分類。此外為了提高算法對(duì)海量大數(shù)據(jù)文本分類的處理能力,基于MapReduce 編程理念,在分布式框架上進(jìn)行改進(jìn)的算法的并行化處理,并通過(guò)計(jì)算召回率,精確率,f1-score等對(duì)算法性能進(jìn)行評(píng)價(jià)。

實(shí)驗(yàn)結(jié)果表明,本文提出的基于改進(jìn)的TFIDF 詞頻處理及并行框架下的樸素貝葉斯文本分類算法,較傳統(tǒng)方法在分類精度及效率上均有提升。

2 基于TFIDF 算法的詞頻統(tǒng)計(jì)

2.1 TFIDF 算法簡(jiǎn)介

2.2 傳統(tǒng)的TFIDF 算法的改進(jìn)

3 樸素貝葉斯分類算法

3.1 樸素貝葉斯算法介紹

樸素貝葉斯的主要思想是在假設(shè)特征在互相條件獨(dú)立的情況下,基于貝葉斯公式用先驗(yàn)概率的值來(lái)計(jì)算后驗(yàn)概率。

3.2 特征加權(quán)文本分類樸素貝葉斯算法

傳統(tǒng)的樸素貝葉斯算法認(rèn)為所有特征屬性對(duì)分類決策的貢獻(xiàn)是相同的。文獻(xiàn)[5]表明,在文本分類中,得冗余的、與分類無(wú)關(guān)的、相互影響的以及被噪聲污染的特征和其他特征具有相同的地位,并使得分類的正確性降低。針對(duì)傳統(tǒng)的樸素貝葉斯在文本分類上認(rèn)為特征詞貢獻(xiàn)相同,提出了基于TFIDFCF 特征加權(quán)的樸素貝葉斯算法。

其中Wk,d為特征項(xiàng)Xk詞在d 文本中的TFIDFCF 權(quán)值。將詞頻,逆文檔頻率和類別區(qū)分度兼顧,較好的反應(yīng)了詞語(yǔ)的重要程度。這樣將此權(quán)重加權(quán)到樸素貝葉斯模型中,會(huì)根據(jù)詞的重要程度優(yōu)化樸素貝葉斯假定特征詞都條件獨(dú)立的情況。

4 MapReduce 實(shí)現(xiàn)并行TFIDFCF 特征加權(quán)貝葉斯算法流程

4.1 算法實(shí)現(xiàn)流程圖

算法實(shí)現(xiàn)總體可以分為兩大步驟。第一個(gè)步驟為計(jì)算每個(gè)文章中詞的TFIDFCF 值,第二個(gè)步驟為計(jì)算語(yǔ)料庫(kù)中類別出現(xiàn)的概率及每個(gè)詞在每個(gè)類別下的出現(xiàn)的條件概率。最終輸出到NewBayesCalCulateMap 中即可進(jìn)行類別預(yù)測(cè)(在實(shí)際預(yù)測(cè)中,由于樸素貝葉斯是由先驗(yàn)概率和聯(lián)合概率來(lái)估計(jì)后驗(yàn)概率,所以第二步驟在預(yù)測(cè)時(shí)不需要計(jì)算,按照訓(xùn)練出來(lái)的模型帶入即可)。由于MapReduce 并行計(jì)算框架支持有向圖計(jì)算,按照上面的拓?fù)鋱D進(jìn)行會(huì)進(jìn)行有序的輸入輸出形成MapReduce 鏈。雖然并行計(jì)算提高了計(jì)算的速度,但mapreduce 需要頻繁的落盤,磁盤IO 開銷大。而spark 基于內(nèi)存的運(yùn)算方式可能可以在此基礎(chǔ)上更快。

MapReduce 實(shí)現(xiàn)并行TFIDFCF 特征加權(quán)貝葉斯算法流程圖

4.2 實(shí)現(xiàn)算法中需要注意的幾點(diǎn)

防止下溢出:在實(shí)現(xiàn)貝葉斯公式計(jì)算時(shí)。若進(jìn)行浮點(diǎn)數(shù)運(yùn)算,因?yàn)楦↑c(diǎn)數(shù)精確度不夠,會(huì)導(dǎo)致乘積為零的情況,對(duì)改進(jìn)的貝葉斯算法取對(duì)后公式如下:

5 文本分類結(jié)果分析

為驗(yàn)證算法的可行性,本文選取了清華大學(xué)自然語(yǔ)言處理實(shí)驗(yàn)室THUCNews 新聞文本部分?jǐn)?shù)據(jù)和兩組測(cè)試數(shù)據(jù)進(jìn)行分類試驗(yàn);并以傳統(tǒng)貝葉斯文本分類結(jié)果對(duì)比對(duì)比試驗(yàn),進(jìn)行算法有效性分析。

THUCNews 新聞文本數(shù)據(jù)分類:

(1)THUCNews 數(shù)據(jù)介紹

THUCNews 新聞文本數(shù)據(jù)是根據(jù)新浪新聞RSS 訂閱頻道2005~2011 年間的歷史數(shù)據(jù)篩選過(guò)濾生成, 包含74 萬(wàn)篇新聞文檔,包含14 個(gè)候選分類類別:財(cái)經(jīng)、彩票、房產(chǎn)、股票、娛樂(lè)等。本文節(jié)選了7 類每類5000 篇文檔進(jìn)行模型訓(xùn)練和測(cè)試。

(2)實(shí)驗(yàn)步驟

①對(duì)文本數(shù)據(jù)進(jìn)行分詞。去除停用詞后,通過(guò)特征工程提取特征詞,作為詞庫(kù)。

②根據(jù)詞庫(kù)把輸入的文本數(shù)據(jù)轉(zhuǎn)化為詞向量。

③訓(xùn)練樸素貝葉斯模型。

④基于1.2 介紹的TFIDFCF 算法計(jì)算每篇文章中特征詞的權(quán)重。

⑤將TFIDFCF 權(quán)重值加權(quán)到訓(xùn)練好的樸素貝葉斯分類模型中,取計(jì)算出的最大值所屬類別為預(yù)測(cè)結(jié)果。

(3)THUCNews 新聞文本分類結(jié)果分析

分類預(yù)測(cè)結(jié)果對(duì)比表

本文中使用準(zhǔn)確率、召回率、F1-score 三個(gè)指標(biāo)來(lái)評(píng)估算法效果。

①精確率(Precision):分類結(jié)果中正確分類為Ci 的樣本數(shù)占分類結(jié)果中所有分為Ci 類別的樣本數(shù),衡量分類的查準(zhǔn)率

②召回率(Recall):分類結(jié)果中正確分類為Ci 的樣本數(shù)占所有Ci 類的樣本數(shù)的比例,衡量分類的查全率

③F1-score:在精確率和召回率的基礎(chǔ)上提出了F1 值的概念,來(lái)對(duì)精確率和召回率進(jìn)行整體評(píng)價(jià)

本文基于如上實(shí)驗(yàn)步驟在并行框架的計(jì)算優(yōu)勢(shì)下實(shí)現(xiàn)了這兩種算法,提取了大量特征詞。由于特征詞多,數(shù)據(jù)量大,分類模型都建立的很準(zhǔn)確。實(shí)驗(yàn)結(jié)果表明兩種方法都有很好的文本分類能力。根據(jù)分類結(jié)果對(duì)比表可以發(fā)現(xiàn),基于TFIDFCF 特征加權(quán)的樸素貝葉斯算法對(duì)于傳統(tǒng)的樸素貝葉斯算法在大部分新聞?lì)悇e中分類效果上有一定提升。

6 結(jié)論

在本文中,通過(guò)研究,對(duì)樸素貝葉斯應(yīng)用在文本分類認(rèn)為特征詞之間相互條件獨(dú)立提出了不同的觀點(diǎn)。首先研究了TFIDFCF 算法,消除了TFIDF 算法在類間的偏差,并加權(quán)到樸素貝葉斯算法模型中。這樣使那些重要的詞相較于傳統(tǒng)的樸素貝葉斯算法擁有更合理的權(quán)重。最后通過(guò)實(shí)驗(yàn)結(jié)果表明并行的TFIDFCF 特征加權(quán)的樸素貝葉斯算法是高效,合理,準(zhǔn)確的。

猜你喜歡
特征詞詞頻樸素
基于詞頻分析法的社區(qū)公園歸屬感營(yíng)建要素研究
園林科技(2021年3期)2022-01-19 03:17:48
隔離樸素
樸素的安慰(組詩(shī))
他是那樣“笨拙”和樸素——30多年后,我們?yōu)槭裁催€需要讀路遙?
最神奇最樸素的兩本書
基于改進(jìn)TFIDF算法的郵件分類技術(shù)
產(chǎn)品評(píng)論文本中特征詞提取及其關(guān)聯(lián)模型構(gòu)建與應(yīng)用
詞頻,一部隱秘的歷史
面向文本分類的特征詞選取方法研究與改進(jìn)
云存儲(chǔ)中支持詞頻和用戶喜好的密文模糊檢索
潼关县| 建瓯市| 灯塔市| 溧水县| 常山县| 分宜县| 山阴县| 宣威市| 潍坊市| 镶黄旗| 尼勒克县| 兴国县| 武山县| 汶川县| 和平区| 韶山市| 城市| 淄博市| 马山县| 江口县| 莎车县| 彰武县| 侯马市| 鄱阳县| 夏邑县| 宿松县| 丹东市| 昌吉市| 尼玛县| 大悟县| 宜章县| 武义县| 军事| 白银市| 内黄县| 河津市| 和平县| 镇康县| 营山县| 察隅县| 萨嘎县|