陳鵬 郭小燕
摘? 要: 樸素貝葉斯分類器過分依賴分類數(shù)據(jù)的質量,當待分類數(shù)據(jù)呈現(xiàn)復雜多元屬性時,其分類的效果急劇下降,利用adaboost算法組合多個樸素貝葉斯分類器設計A_B模型。將3600份原始數(shù)據(jù)經(jīng)過中文分詞、句法分析、文本向量化后將A_B模型訓練成一個A_B分類器。解決了分類器對于待分類數(shù)據(jù)敏感的問題,兩個A_B分類器協(xié)同工作將二分類器轉換為三分類器,解決了將原始農(nóng)業(yè)文本信息分為農(nóng)業(yè)新聞類,農(nóng)業(yè)技術類,農(nóng)業(yè)經(jīng)濟類三種類型的問題。分別利用600份標準數(shù)據(jù)與加了30%干擾信息的復雜數(shù)據(jù)測試分類器的分類效果,實驗結果表明A_B分類器不僅對標準分類數(shù)據(jù)具有良好的分類效果,面對復雜多元的分類數(shù)據(jù)是仍然表現(xiàn)出較好的分類性能。利用不同的測試數(shù)據(jù)對A_B分類器測試發(fā)現(xiàn):A_B分類器均具有良好的收斂性,其分類效果不依賴分類數(shù)據(jù)特征,具有分類效果的穩(wěn)定性。
關鍵詞: 貝葉斯;Adaboost;農(nóng)業(yè)短文本;分類
中圖分類號: S24;TP3? ? 文獻標識碼: A? ? DOI:10.3969/j.issn.1003-6970.2020.09.004
本文著錄格式:陳鵬,郭小燕. 基于Adaboost與樸素貝葉斯的農(nóng)業(yè)短文本信息分類[J]. 軟件,2020,41(09):1318
【Abstract】: Naive Bayes classifier relies too much on the quality of classification data. When the classified data presents complex multivariate attributes, whose classification effect decreases sharply. Adaboost algorithm is used to combine multiple Naive Bayesian classifiers to design A_B model. After Chinese word segmentation, parsing and text vectorization, the A_B model is trained as an A_B classifier based the 3600 sets of original data. The problem that classifier is sensitive to data to be classified is solved. Two A_B classifiers work together to convert two two-category classifiers into one three-category classifiers, and solve the problem that the original agricultural text information is divided into three types: agricultural news, agricultural technology and agricultural economy. Using 600 sets of standard data and complex data with 30% disturbed information to test the classification effect of the classifier, the experimental results show that the A_B classifier not only has a good classification effect on the standard classification data, but also has a good classification performance to complex and multivariate classification data. Using different test data to test A_B classifier, it is found that A_B classifier has good convergence, whose classification effect does not depend on the characteristics of classification data, and has the stability of classification effect.
【Key words】: Bayes; Adaboost; Agricultural short text; Classification
0? 引言
隨著農(nóng)業(yè)信息化進程的加快,農(nóng)業(yè)新聞網(wǎng)站,農(nóng)產(chǎn)品銷售網(wǎng)站,農(nóng)業(yè)技術網(wǎng)站和農(nóng)業(yè)數(shù)據(jù)庫等農(nóng)業(yè)信息平臺也隨之出現(xiàn),農(nóng)業(yè)數(shù)據(jù)隨時間呈爆發(fā)式增長,海量的農(nóng)業(yè)類數(shù)據(jù)需要處理。文本是網(wǎng)絡信息的主要載體、BBS、博客、新聞評論中往往包含著諸如農(nóng)業(yè)政策法規(guī),農(nóng)民的消費需求以及農(nóng)村的發(fā)展趨勢等數(shù)據(jù)信息。為了洞察農(nóng)村、農(nóng)業(yè)的發(fā)展規(guī)律,以及農(nóng)民的消費規(guī)律,對這些文本信息進行合理地分析與挖掘顯得非常必須。文本自動分類技術能夠將海量非結構化文本信息規(guī)范歸類,幫助人們更好地管理、利用和挖掘信息[1],為農(nóng)業(yè)信息的服務對象提供更加精準的信息,把分散在網(wǎng)絡中的信息進行整合,為用戶提供個性化信息推送服務[2]。
近年來,國內(nèi)許多研究機構對文本分類工作開展了研究工作,其中有代表性的有:中科院的史忠植、李曉黎把網(wǎng)絡概念推理植入到文本分析中[3]。上海交通大學王永成將神經(jīng)網(wǎng)絡模型運用到了中文自動分類系統(tǒng)[4],山西大學劉開瑛開發(fā)金融自動分類系統(tǒng)[5],南京大學計算機系的劉靜等對文本分類進行了研究,將分類規(guī)則和貝葉斯方法相結合放寬了貝葉斯對強獨立性假設條件的要求[6]。目前文本分類的主要研究方法主要有:機器學習方法[7]和深度學習[8] 方法。對于高維數(shù)據(jù)以及抽象數(shù)據(jù),已經(jīng)有許多學者開始嘗試使用深度
學習的方法并取得了一定的成果[9]。研究發(fā)現(xiàn),深度學習在圖像數(shù)據(jù)及語音數(shù)據(jù)中的優(yōu)勢表現(xiàn)明顯,但是在短文本分析與計算中還未見突破性成果[10]。相比之下,傳統(tǒng)的深度學習則表現(xiàn)出優(yōu)越的性能[11]。傳統(tǒng)機器學習常用模型有樸素貝葉斯模型(Naive Bayes)[12]、支持向量機模型(Support Vector Machine)[13]、邏輯回歸模型(Logistic Regression)[14]和K近鄰模型(K Nearest Neighbors)[15]等。樸素貝葉斯模型在文本特征提取,文本分類方面優(yōu)勢明顯[16],傳統(tǒng)的貝葉斯分類模型由于采用單分類器分類,使得分類的效果不理想[17]。通過Adaboost訓練若干個弱分類器組合成強分類器,可大幅提升分類的準確率。楊麗麗利用Adaboost創(chuàng)建SVM分類器,解決棉葉螨危害的等級識別問題[18],胡祝華采用Adaboost進行魚眼識別[19],顧玉萍將Ada boost應用于不平衡數(shù)據(jù)的分類問題中,以上研究都取得了較好的效果[20]。本文采用Adaboost算法將多個貝葉斯分類器(弱分類器)組合訓練成一個強分類器(A_B分類器),解決農(nóng)業(yè)網(wǎng)絡短文本分類問題,分別使用規(guī)范數(shù)據(jù)以及加入干擾數(shù)據(jù)的復雜多元數(shù)據(jù)對A_B分類器測試發(fā)現(xiàn),A_B分類器可以有效地進行農(nóng)業(yè)短文本分類,對于待分類數(shù)據(jù)有一定的包容性,解決了復雜多元文本數(shù)據(jù)的分類問題,目前在國內(nèi)尚未有這方面的研究探索成果發(fā)現(xiàn)。
1? 材料與方法
1.1? 原始語料預處理
采用網(wǎng)絡爬蟲技術分別從農(nóng)業(yè)新聞網(wǎng),農(nóng)業(yè)技術網(wǎng),和農(nóng)業(yè)經(jīng)濟網(wǎng),抓取4000份數(shù)據(jù)組成原始語料。由于html頁面中抓取的原始語料存在干擾詞組或者符號,為保證數(shù)據(jù)的有效性與準確性、降低冗余,需要對原始數(shù)據(jù)進行清洗,這主要包括:刪除無效或者冗余信息、對缺失值進行處理(刪除/填補)、對離群值進行處理(刪除/均值填補)。為了降低數(shù)據(jù)的維度、提高分類的效率需對清洗后的數(shù)據(jù)進行中文分詞和句法分析。
(1)中文分詞
中文語法中單個的字往往沒有特定的含義,為有效獲取文本信息,需對清洗后的文本進行分詞處理,即把連續(xù)的字序分解成詞序。中文分詞結果的好壞直接影響最后分類的結果,本文采用GitHub上開源的jieba分詞技術進行分詞處理[21-22],采用停用詞庫過濾技術去除無效詞匯對待分類文本的干擾,從而對分詞后所得的稀疏矩陣進行降維,提高分類的效率。
(2)句法分析與泛化
在對農(nóng)業(yè)文本進行分詞處理的基礎上,為了統(tǒng)計高頻詞語,簡化文本結構,降低分析的復雜度,需要對文本分詞后的結果進行句法分析與泛化。本文利用哈工大社會計算與信息檢索研究中心的語言技術平臺()進行句法分析,并基于句法路徑進行精確匹配[23],為了更準確地分析句子結構,本文歸納出常用的程度副詞及常用詞,如表2所示,利用該表能快速有效地泛化原始句法,重構網(wǎng)絡短文本的句法結構。
將“蔬菜/價格/很快/回落”泛化后的結果為“蔬菜/價格/回落”,“很快”增強了“回落”得程度,但對分類結果沒有影響,因此可以刪除。
通過對原始語料進行清洗、中文分詞、句法分析等預處理操做,消除了原始文本中的無效數(shù)據(jù),空白數(shù)據(jù),冗余數(shù)據(jù),將短文分解成立離散的分詞序列,以提高數(shù)據(jù)的有效性以及可操作性,降低數(shù)據(jù)的維度,原始語料預處理示例數(shù)表3所示。
1.2? 文本向量化
(1)建立特征空間
經(jīng)過數(shù)據(jù)清洗,文本分詞技術,停用詞過濾,句法分析后,將連續(xù)原始語料轉換成離散的有效詞匯信息,這些離散的有效詞匯信息將作為文本分類的基礎數(shù)據(jù)其中n為每份基礎數(shù)據(jù)有效分詞的個數(shù),為有效詞匯,。在基礎數(shù)據(jù)中尋找具有代表性的特征詞匯構成特征空間D(d1,d2…dm)作為分類的依據(jù), 其中,m為特征空間中特征詞的個數(shù),為特征空間中詞匯,。在本文中選取基礎數(shù)據(jù)詞頻在前20%的詞匯組成特征空間。
(2)向量化
對于每一份基礎數(shù)據(jù),映射到特征空間,形成m(m為特征詞個數(shù))維的向量空間,若基礎文本中的某一個詞在D中出現(xiàn)(一次或多次),在相應的位置的值設置為1,否則設置為0,如下式所示。
經(jīng)過向量化后,每一份基礎數(shù)據(jù)轉換為一個與特征空間相應的m維0,1向量,所有的樣本基礎數(shù)據(jù)組成樣本數(shù)據(jù)空間,在本文中數(shù)據(jù)空間分為:農(nóng)業(yè)新聞類,農(nóng)業(yè)技術類,農(nóng)業(yè)經(jīng)濟類三種類型。
2? 文本分類模型
將樣本數(shù)據(jù)空間的數(shù)據(jù)分為兩部分:訓練空間和測試空間,其中為訓練樣本數(shù)量,為測試樣本數(shù)量。對于訓練空間中的數(shù)據(jù)做好類別標記,表示新聞類,農(nóng)業(yè)技術類,農(nóng)業(yè)經(jīng)濟類三種類別。樣本數(shù)據(jù)用于訓練分類模型,測試數(shù)據(jù)用來檢測訓練好的效果。
2.1? 樸素貝葉斯文本分類器
貝葉斯分類器是基于貝葉斯定理,依據(jù)統(tǒng)計學實現(xiàn)分類的方法。將貝葉斯分類器用于文本分類時,其主要思想是將文章看做獨立的單詞集合,通過訓練集,得到每個單詞在不同類的概率大小,從而實現(xiàn)分類的效果。本文利用訓練樣本以及其所屬的類別,計算每一個類別在訓練空間中出現(xiàn)的概率,以及每一個訓練樣本中特征詞在每個類別中出現(xiàn)的概率?,如公式2,3所示。
式(2),(3)中,表示類在測試樣本所有類別中所出現(xiàn)的頻次,表示特征詞在中出現(xiàn)的頻次。為避免,本文采用轉換,如式(3)所示,并取,V取所有詞的權值總和。
訓練完成后,利用測試樣本測試所屬的類別,計算方法為:
式中,為測試樣本屬于類的概率,為樣本屬于類的概率最大時的取值,即所屬的類別。
2.2? AdaBoost算法
Adaboost是一種迭代算法[24],其核心思想是針對同一個訓練集訓練不同的分類器(弱分類器),將多個弱分類器集合起來,構成一個更強的最終分類器(強分類器)[25],算法流程如下。
2.3? ?AdaBoost-Bayes分類器
(1)A_B分類模型
為提升單個Bayes分類器的分類性能,本文設計A_B分類模型,利用Adaboost算法將多個Bayes分類器訓練成強分類器(A_B分類器),其基本思想是對于同一個訓練樣本空間訓練出T個有不同權值的Bayes分離器,這些分類器協(xié)同工作以照顧每一個樣本的特征,從而達到提高分類效果的作用。A_B強分類器生成原理為:將標記好類別的訓練樣本輸入到第一個Bayes分類器T1,輸出分類結果,根據(jù)分類結果,得出此Bayes分類器的權值,從而計算每個訓練樣本的權值(分錯的樣本權值增大以便下一個分類器對其特別關注,分對的樣本權值會減?。乖嫉挠柧毤兂梢粋€帶權訓練集,利用帶權訓練集再次訓練出下一個新的Bayes分類器T2并計算其權重,更新訓練集中每個樣本的權重產(chǎn)生新的訓練集,再訓練出新的Bayes分類器T3,一直往復,直到總誤差率小于一定的值則訓練結束,原理如果圖2所示。
(2)多分類問題
在本文中,將樣本空間分為3種類別,農(nóng)業(yè)發(fā)展類(I類),農(nóng)業(yè)技術類(II類),農(nóng)業(yè)經(jīng)濟類(III類),傳統(tǒng)的Adaboost分類器是一個將樣本分為正類和負類的二分類器[18],為將二分類問題轉化成三分類問題,設計以下轉換方案進行二級分類的策略,將一個二分類問題轉換為一個三分類問題,如圖3所示。
2.4? 分類流程
(1)設計分類詞典,構建特征空間。
(2)將分類樣本和分類詞典進行比對,形成特征向量,從而產(chǎn)生樣本空間。
(3)將樣本空間劃分為訓練空間和測試空間。
(4)利用訓練樣本訓練A_B模型,獲得模型的參數(shù)值:Bayes分類器個數(shù)n,每個Bayes分類器的權重whi(i=1,2…,n),生成A_B分類器。
(5)將測試樣本輸入到訓練好的A_B分類器,獲得分類輸出。
3? 實驗及結果分析
實驗環(huán)境為intel i7處理器,12 GB機器內(nèi)存。操作系統(tǒng)采用Windows 10企業(yè)版。軟件開發(fā)環(huán)境為python2.7,PyCharm,采用sklearn的模型庫進行算法的實現(xiàn)[17],采用scrapy爬蟲框架爬取4000份數(shù)據(jù)組成原始語料,如表4所示。
其中,是分類為并且正確的文檔數(shù),是屬于的文檔數(shù),為分類為的文檔數(shù)。
本文首先利用樸素bayes,SVM,決策樹對4000份經(jīng)過預處理的標準數(shù)據(jù)進行30次分類實驗,分類結果如表5所示。
從表5可以看出,使用樸素Bayes進行分類時準確率,召回率,F(xiàn)1檢測值分別為92.01%,91.12%,91.62%,相比于SVM和決策樹分類,樸素Bayes有一定的優(yōu)勢。為了測試以上算法對于多樣性數(shù)據(jù)的魯棒性,在測試數(shù)據(jù)中加入30%的干擾數(shù)據(jù),使得數(shù)據(jù)中出現(xiàn)較多的離群值,從而增加測試數(shù)據(jù)的復雜性與多樣性。實驗結果表明,用Bayes,SVM,決策樹進行復雜文本數(shù)據(jù)的分類時,其準確率、召回率、F1值都有大幅下降,證明基本Bayes,SVM,決策樹在分類中對于待分類數(shù)據(jù)質量有很大程度的依賴,如果有離群數(shù)據(jù)或者不規(guī)范數(shù)據(jù)出現(xiàn)時分類的效果并不理想。
利用A_B分類器,以及A_S分類器(弱分類器采用SVM的Adaboost分類器),A_J分類器(弱分類器采用決策樹的Adaboost分類器)分別采用規(guī)范數(shù)據(jù)與加30%干擾數(shù)據(jù)進行30次分類實驗,實驗結果如表6所示。從實驗結果來看,采用標準規(guī)范測試數(shù)據(jù)測試發(fā)現(xiàn)分類的準確率、召回率、F1值都有所提升,其中表現(xiàn)最為明顯的是A_J分類器,其準確率和基本決策樹分類器相比提升了39.18%,召回率提升了33.12%,F(xiàn)1值提升了31.44%,說明利用Adaboost將弱分類器優(yōu)化成強分類器對于文本分類有效可行。為測試分類器的魯棒性,仍然加入30%的干擾數(shù)據(jù)測試發(fā)現(xiàn),分類準確率、召回率,F(xiàn)1仍然有所下降,但下降的幅度和基本分類器相比已經(jīng)有所降低,說明優(yōu)化后的分類器對于測試數(shù)據(jù)質量已經(jīng)有了某種程度的免疫性。對于復雜多樣文本數(shù)據(jù)的分類結果發(fā)現(xiàn),A_B分類器分類的準確率為89.12%,和普通bayes相比提升了9.01%,A_S分類器分類準確率為87.17%,和普通SVM相比提升了3.83%,A_J分類器準確率82.13%,和普通決策樹分類相比提升了33.57%,從提升的幅度來看,A_J分類器表現(xiàn)明顯,從分類的效果和準確率來看,A_B分類器占一定的優(yōu)勢,如圖7所示。
通過加入干擾測試數(shù)據(jù)的實驗結果來看,普通的分類器過分依賴數(shù)據(jù)的質量,如果數(shù)據(jù)中出現(xiàn)離群值等多元數(shù)據(jù),則對分類效果有較大的影響。當利用Adaboost將多個普通分類器優(yōu)化成強分類器后,分類準確率有一定的提升,從加入干擾數(shù)據(jù)對于分類效果的影響來看,利用Adaboost優(yōu)化普通分類器,可以增加分類器的魯棒性。從圖7所示的實驗結果來看,A_B分類器對分文本數(shù)據(jù)質量有較強的獨立性,不會過分依賴待分類文本數(shù)據(jù)的質量以及特征,因此具有較好的普遍適用性。
為了測試A_B分類器對于不同質量數(shù)據(jù)分類的穩(wěn)定性,跟蹤利用不同待分類數(shù)據(jù)訓練不同強分類器的過程發(fā)現(xiàn),隨著bayes基本分類器數(shù)目的增加,A_B分類器的分類準確率,召回率,F(xiàn)1值均在逐漸增加,通過30次試驗取平均值發(fā)現(xiàn),當bayes基本的數(shù)目達到15個左右時,分類準確率,召回率,F(xiàn)1值開始收斂,到達18個左右時分類準確率,召回率,F(xiàn)1值開始趨于一個穩(wěn)定值,如圖8a所示。跟蹤A_S分類器的訓練過程發(fā)現(xiàn),基本分類器的個數(shù)對整個分類器的分類效果并沒有很大的影響,隨著基本SVM分類器個數(shù)的增加,A_S分類器并沒有出現(xiàn)明顯收斂的趨勢如圖8b所示。跟蹤A_J分類器則發(fā)現(xiàn),基本決策樹分類器的個數(shù)增加到3個的時候,A_J分離器出現(xiàn)收斂程度趨勢,因此其訓練速度和A_B分類器相比占有一定的優(yōu)勢,但是觀察其收斂值發(fā)現(xiàn),A_B分類器分類準率、召回率、F1值發(fā)現(xiàn),A_B分類效果優(yōu)勢明顯。
從圖8中可以看出,A_B分類器在經(jīng)過訓練后可以穩(wěn)定地收斂,將其應用于農(nóng)業(yè)文本類以及其他短文本分類時針對不同質量的數(shù)據(jù)均可以獲得穩(wěn)定的分類結果,同時A_B分類器對于待分數(shù)據(jù)有一定的包容性,多元復雜數(shù)據(jù)仍然可以獲得較好分類效果。
4? 結論
(1)設計了一種基于Adaboost算法的多個樸素貝葉斯分類模型A_B模型,提取樣本數(shù)據(jù)出現(xiàn)頻次前20%的詞匯創(chuàng)建特征空間,3600份原始語料通過預處理,中文結巴分詞,句法分析向量化為訓練空間,將A_B模型訓練為A_B分類器,將兩個A_B分類器組合來解決三分類問題,實現(xiàn)將待分類文本分為農(nóng)業(yè)新聞類,農(nóng)業(yè)技術類,農(nóng)業(yè)經(jīng)濟類三種類型分類的準確率,召回率F1值分別為:94.33%,91.27%,91.92%。
(2)將標準測試數(shù)據(jù)加入30%的干擾數(shù)據(jù)發(fā)現(xiàn),和樸素貝葉斯分類器相比,A_B分類器對于數(shù)據(jù)質量有較大的包容性,對于復雜的多元數(shù)據(jù)而言仍然表現(xiàn)出較好的分類性能。將A_B分類器與A_S分類器,A_J分類器相比表現(xiàn)出較好的分類性能。
(3)通過30次試驗測試發(fā)現(xiàn),當在訓練過程中當樸素貝葉斯分離器的數(shù)目增加到18個左右時,分類效果趨于穩(wěn)定,證明A_B分類器具有良好的收斂性能,利用不同質量的測試數(shù)據(jù)測試分類器效果,均得到穩(wěn)定的分類效果。但和A_J分類器相比,其收斂的速度較慢,今后可以從樸素貝葉斯權重更新算法等方面尋找突破。
參考文獻
[1]趙明, 杜會芳, 董翠翠. 基于word2vec和LSTM的飲食健康文本分類研究[J]. 農(nóng)業(yè)機械學報, 2017(10): 207-213.
[2]徐朝輝, 施叢叢, 呂超賢, 等. 基于結構化支持向量機的泄洪聯(lián)動設計[J]. 軟件, 2015, 36(9): 62-65.
[3]李志欣, 鄭永哲, 張燦龍, 等. 結合深度特征與多標記分類的圖像語義標注[J]. 計算機輔助設計與圖形學學報, 2018, 30(02): 318-326.
[4]刁倩, 王永成, 張惠惠. 基于神經(jīng)網(wǎng)絡的中文信息概念聯(lián)想構造算法[J]. 情報學報, 2000(02): 170-175.
[5]谷波, 李濟洪, 劉開瑛. 基于COSA算法的中文文本聚類[J]. 中文信息學報, 2007(06): 65-70.
[6]劉靜, 尹存燕, 陳家駿. 一種規(guī)則和貝葉斯方法相結合的文本自動分類策略[J]. 計算機應用研究, 2005(07): 84- 86+89.
[7]Lewis D D. Challenges in machine learning for text classification[C]//Conference on Computational Learning Theory. 1996.
[8]Liu J, Chang W C, Wu Y, et al. Deep Learning for Extreme Multi-label Text Classification[C]//International Acm Sigir Conference on Research & Development in Information Retrieval. ACM, 2017.
[9]Shen F, Luo X, Chen Y. Text classification dimension reduction algorithm for Chinese web page based on deep learning[C]// International Conference on Cyberspace Technology. IET, 2014.
[10]He Y, Xie J, Xu C. An improved naive Bayesian algorithm for web page text classification[C]//Eighth International Conference on Fuzzy System & Knowledge Discovery. 2011.
[11]Tong S, Koller D. Support Vector Machine Active Learning with Applications to Text Classification[J]. Journal of Machine Learning Research, 2002, 2(1): 999-1006.
[12]張潔琳. 試論貝葉斯網(wǎng)絡在用戶信用評估中的應用[J]. 軟件, 2018, 39(12): 194-197.
[13]Manne S, Kotha S K, Hyderabad O. A Query based Text Categorization using K-Nearest Neighbor Approach[J]. International Journal of Computer Applications, 2013, 32(7): 16-21.
[14]李曉燃. 基于深度學習的傾斜車牌矯正識別[J]. 軟件, 2018, 39(10): 215-219.
[15]王子牛, 吳建華, 高建瓴, 等. 基于深度神經(jīng)網(wǎng)絡和 LSTM 的文本情感分析[J]. 軟件, 2018, 39(12): 19-22.
[16]Yang G, Lin Z Y, Chang Y X, et al. Comparative analysis on feature selection based Bayesian text classification[C]// International Conference on Computer Science & Network Technology. IEEE, 2013.
[17]吳文俊, 殷恒輝, 陳麟. 基于 AdaBoost 算法的人臉檢測系統(tǒng)設計[J]. 軟件, 2018, 39(10): 145-149.
[18]楊麗麗, 張大衛(wèi), 羅君. 基于SVM和AdaBoost的棉葉螨危害等級識別[J]. 農(nóng)業(yè)機械學報, 2019. 50(2): 14-20.
[19]胡祝華, 張逸然, 趙瑤池, 等. 權重約束AdaBoost魚眼識別及改進Hough圓變換瞳孔智能測量[J]. 農(nóng)業(yè)工程學報, 2017, 33(23): 226-232.
[20]顧玉萍, 程龍生. 基于MTS-AdaBoost的不平衡數(shù)據(jù)分類研究[J]. 計算機應用研究, 2018, 35(02): 346-348+353.
[21]張永軍. 一種改進的高效貝葉斯短信文本分類器[J], 南京師范大學學報(工程技術版), 2014, 14(3):
[22]林江豪. 一種基于樸素貝葉斯的微博情感分類[J], 計算機工程與科學, 2012, 34(9):
[23]張潔琳. 試論貝葉斯網(wǎng)絡在用戶信用評估中的應用[J]. 軟件, 2018, 39(12): 194-197.
[24]徐凱, 陳平華, 劉雙印. 基于AdaBoost-Bayes算法的中文文本分類系統(tǒng)[J]. 微電子學與計算機, 2016, 33(6): 63-67.
[25]Iwakura T, Saitou T, Okamoto S. An AdaBoost for Efficient Use of Confidences of Weak Hypotheses on Text Categorization[C]// Pacific Rim International Conference on Artificial Intelligence. Springer International Publishing, 2014.