国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于Spark框架XGBoost的林業(yè)文本并行分類方法研究

2019-06-27 06:06:40崔曉暉師棟瑜陳志泊
關(guān)鍵詞:特征詞類別標(biāo)簽

崔曉暉 師棟瑜 陳志泊 許 福

(北京林業(yè)大學(xué)信息學(xué)院, 北京 100083)

0 引言

信息資源的開發(fā)利用是國(guó)家信息化的核心,隨著我國(guó)信息化建設(shè)的深入,物聯(lián)網(wǎng)、大數(shù)據(jù)等技術(shù)與林業(yè)快速融合,大量涉林的信息網(wǎng)站、數(shù)據(jù)庫、林業(yè)監(jiān)測(cè)與評(píng)估系統(tǒng)等涌現(xiàn),從而積累了豐富的林業(yè)文本信息,亟待挖掘。但是,各系統(tǒng)間的信息缺乏規(guī)劃與共享,導(dǎo)致林業(yè)文本的信息整合水平不足、利用率低下[1]。因此,對(duì)互聯(lián)網(wǎng)中海量林業(yè)文本自動(dòng)進(jìn)行精準(zhǔn)、快速的分類將有助于推進(jìn)林業(yè)信息化進(jìn)程,為林業(yè)信息的挖掘、熱點(diǎn)提取、輿情分析、智能信息推送等研究提供科學(xué)的理論與技術(shù)支持。

文本分類[2]考慮的首要問題是如何準(zhǔn)確判斷未知樣本的類別,常用于文本分類的算法包括K最近鄰(K-nearest neighbor,KNN)[3]、樸素貝葉斯(Naive Bayesian,NB)[4]、最大熵[5]、支持向量機(jī)(Support vector machine,SVM)[6]、決策樹[7]、深度神經(jīng)網(wǎng)絡(luò)[8]等。文獻(xiàn)[9]將SVM算法應(yīng)用于Web農(nóng)業(yè)文本,依據(jù)數(shù)據(jù)采集源將文本分為8個(gè)產(chǎn)品類別,結(jié)果顯示SVM分類性能優(yōu)于NB、決策樹等算法。

文本分類算法中的另一個(gè)問題是如何提高算法的執(zhí)行效率,目前較可靠的優(yōu)化方式是將算法并行化,而基于Spark環(huán)境實(shí)現(xiàn)算法的并行化是較為常見的解決方案[10]。

在林業(yè)文本分類領(lǐng)域,文獻(xiàn)[11]提出使用TF-IDF方法結(jié)合差分演化算法對(duì)ELM極端學(xué)習(xí)機(jī)優(yōu)化的分類算法,文獻(xiàn)[12]則使用高斯混合的分類算法,文獻(xiàn)[13]引入LM模糊神經(jīng)網(wǎng)絡(luò)優(yōu)化的分類算法,三者以花、樹、蟲、土壤和水作為分類標(biāo)簽進(jìn)行實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果證明,三者使用的算法在其數(shù)據(jù)集上的表現(xiàn)均較好。但其數(shù)據(jù)采集不夠全面,標(biāo)簽設(shè)定不夠科學(xué),導(dǎo)致其分類模型無法適用于互聯(lián)網(wǎng)中現(xiàn)有的林業(yè)文本的分類,且算法均在單機(jī)環(huán)境中實(shí)現(xiàn),未考慮算法的并行性,難以應(yīng)對(duì)大批量數(shù)據(jù)分類[14]。

由相關(guān)文獻(xiàn)可知,林業(yè)文本分類的相關(guān)研究尚不成熟,其亟待解決的問題可概述為兩點(diǎn):① 分類標(biāo)簽設(shè)置不科學(xué),其分類體系與林業(yè)結(jié)合程度低、領(lǐng)域覆蓋面不足,無法直接應(yīng)用于互聯(lián)網(wǎng)中的涉林文本的分類。②分類算法多在單機(jī)環(huán)境下實(shí)現(xiàn),缺乏算法并行方面的考慮,不具備應(yīng)對(duì)實(shí)際大規(guī)模數(shù)據(jù)場(chǎng)景的能力。為解決上述林業(yè)文本分類問題,本文建立一套較為科學(xué)、完善的林業(yè)文本分類標(biāo)簽,提出一種Spark框架下的XGBoost算法的并行實(shí)現(xiàn)方式,基于該設(shè)計(jì)構(gòu)建并行化分類器,衡量不同數(shù)據(jù)集下該算法的效率和準(zhǔn)確率,探索其在海量林業(yè)文本分類問題上的有效性。

1 相關(guān)技術(shù)

1.1 文本預(yù)處理流程

預(yù)處理是文本分類中最為重要的步驟之一,其處理結(jié)果直接影響到后續(xù)的分類精度。預(yù)處理步驟可概括如下:

(1)采用爬蟲技術(shù)獲取相應(yīng)的涉林文本,去除異常數(shù)據(jù)后進(jìn)行內(nèi)容解析,使用正則表達(dá)式對(duì)網(wǎng)頁標(biāo)簽進(jìn)行過濾,建立符合條件的標(biāo)題與正文。

(2)引入開源工具ANSJ包進(jìn)行中文分詞。該分詞工具基于n-Gram+CRF+HMM并使用Java實(shí)現(xiàn),分詞速度達(dá)到200萬字/s,準(zhǔn)確率可達(dá)到96%以上,適用于當(dāng)前對(duì)分詞效果要求較高的各類項(xiàng)目,其分詞效果如圖1所示。

(3)使用停用詞集合過濾無用的詞匯,構(gòu)建文本的特征詞集合。

圖1 林業(yè)文本的分詞結(jié)果Fig.1 Word segmentation result of forestry text

1.2 基于TF-IDF的特征工程

高維度和高稀疏的向量矩陣給計(jì)算機(jī)的計(jì)算量和學(xué)習(xí)訓(xùn)練過程增加機(jī)器負(fù)擔(dān),且會(huì)影響分類精度,為進(jìn)一步實(shí)現(xiàn)特征矩陣降維,需要對(duì)文本特征進(jìn)行特征選擇。

向量空間模型(Vector space model,VSM)[15]是文本分類中最常見的特征標(biāo)識(shí)形式。通過使用這種模型,每篇文檔被表示為一組特征向量D={(w1,f1),(w2,f2),…,(wi,fi),…,(wn,fn)},其中wi表示在D中出現(xiàn)的特征詞,fi是特征詞wi的權(quán)值。其中,i的取值為1,2,…,n,wi經(jīng)由特征詞篩選得到,本文中的fi值將通過經(jīng)典的詞頻-逆文件頻率算法(Term frequency-inverse document frequency,TF-IDF)[16]進(jìn)行計(jì)算。

TF-IDF是文本挖掘中常用的加權(quán)技術(shù)之一,用于衡量一個(gè)字或詞在語料庫中的重要程度,其計(jì)算公式為

VTF-IDF=VTFVIDF

(1)

式中VTF——特征詞在文本中出現(xiàn)的頻率

VIDF——特征詞的逆向文檔頻率

1.3 XGBoost算法原理

XGBoost[17]是基于Gradient Boosting算法的一個(gè)優(yōu)化版本,其通過將多個(gè)回歸樹模型集成在一起,形成一個(gè)強(qiáng)分類器,具有訓(xùn)練速度快、可并行處理和泛化能力強(qiáng)等優(yōu)勢(shì)。

該算法的基本思想[18-19]是選擇部分樣本和特征生成一個(gè)簡(jiǎn)單模型作為基本分類器,在生成新模型時(shí),學(xué)習(xí)以前模型的殘差,最小化目標(biāo)函數(shù)并生成新模型,此過程重復(fù)執(zhí)行,最終產(chǎn)生由成百上千的線性或樹模型,組合為準(zhǔn)確率很高的綜合模型。它的目標(biāo)函數(shù)Oobj經(jīng)過泰勒公式展開后,最終化簡(jiǎn)為

(2)

式中γ——學(xué)習(xí)率λ——正則化參數(shù)

T——回歸樹的葉子數(shù)量

Gj——一階導(dǎo)數(shù)Hj——二階導(dǎo)數(shù)

其中,Oobj的大小依賴于Gj和Hj的值,Oobj值越小,XGBoost模型的預(yù)測(cè)和泛化能力就越強(qiáng)。

1.4 Spark框架

Apache Spark[20]是UC Berkeley開源、類Hadoop MapReduce的通用并行計(jì)算框架,不同的是,Spark的Job中間結(jié)果可以保存在內(nèi)存中,而不需要讀寫HDFS,因此,Spark是基于內(nèi)存的并行化計(jì)算框架,其執(zhí)行效率較Hadoop快數(shù)十倍乃至百倍。Spark通過基于彈性分布式數(shù)據(jù)集(Resilient distributed dataset,RDD)的編程模式,使得大部分?jǐn)?shù)據(jù)并行算法均可運(yùn)行于Spark集群中。

2 Spark下林業(yè)文本分類算法的并行化

2.1 林業(yè)分類標(biāo)簽的設(shè)定

文獻(xiàn)[21]經(jīng)調(diào)研將林業(yè)信息中各個(gè)類別的內(nèi)容具體化,設(shè)計(jì)出科技、生產(chǎn)資料、市場(chǎng)、花卉、政策等類別,經(jīng)過對(duì)爬蟲獲取數(shù)據(jù)的相似性比對(duì),生產(chǎn)資料類與市場(chǎng)類文本存在大量的信息重疊,故將兩者合并為林業(yè)市場(chǎng)與產(chǎn)業(yè)類。根據(jù)文獻(xiàn)[22]提出林業(yè)科技類成果所具有的特點(diǎn),將科技類報(bào)道與技術(shù)類成果組合為林業(yè)科學(xué)與技術(shù)類(包含林業(yè)論文、林業(yè)專利和科學(xué)類新聞等)。文獻(xiàn)[23]指出林業(yè)資源監(jiān)管中主要包含森林資源、濕地資源以及生物多樣性資源等,而花卉植被屬植物類,占生物多樣性較大比重,因此,將生物多樣性資源分類為動(dòng)物類與植物類。至此,在總結(jié)前人研究的基礎(chǔ)上,將整體樣本分為林業(yè)新聞與政策類(A類)、林業(yè)科學(xué)與技術(shù)類(B類)、林業(yè)市場(chǎng)與產(chǎn)業(yè)類(C類)以及林業(yè)資源類(D類)4類,并將采集到樣本量最多的林業(yè)資源類文本分成4個(gè)子類,即森林類(D1類)、植物類(D2類)、動(dòng)物類(D3類)、濕地類(D4類)。相較以往分類體系,該體系分類標(biāo)簽設(shè)定更為科學(xué)、全面,使得分類模型與林業(yè)領(lǐng)域結(jié)合更為緊密,也有利于未來更細(xì)層面的林業(yè)文本分類研究。

根據(jù)文獻(xiàn)[24]提供的爬蟲思路,從互聯(lián)網(wǎng)中采集原始數(shù)據(jù),爬蟲語料中約75%的文本來源于中國(guó)林業(yè)新聞網(wǎng)、中國(guó)林業(yè)政府網(wǎng)、林業(yè)信息網(wǎng)、林業(yè)產(chǎn)業(yè)網(wǎng)等林業(yè)相關(guān)網(wǎng)站,其余約25%來源于新聞刊物,如新華網(wǎng)、綠色時(shí)報(bào)、百度新聞等綜合型新聞網(wǎng)站。隨后,從每類中提取3 000篇文章,即所有實(shí)驗(yàn)樣本數(shù)為21 000,將數(shù)據(jù)按各自標(biāo)簽存入Hadoop Hive數(shù)據(jù)倉(cāng)庫作林業(yè)語料。

2.2 基于Spark文本分類的并行化設(shè)計(jì)

基于Spark的林業(yè)文本分類流程主要分為預(yù)處理過程、訓(xùn)練與測(cè)試過程。其中,文本預(yù)處理中的預(yù)處理、特征值計(jì)算以及特征詞的選取均基于RDD并行化實(shí)現(xiàn)(圖2)。該預(yù)處理程序由Driver模塊、Mapper模塊以及Reducer模塊組成。Driver用于與底層溝通,初始化集群組件;Mapper模塊用于將包含原始文本的RDD_data進(jìn)行去噪、分詞形成新的RDD_words,隨后執(zhí)行Reducer模塊,基于CHI值進(jìn)行篩選并使用TD-IDF進(jìn)行各個(gè)特征詞的權(quán)重計(jì)算,隨后生成詞向量形式的RDD_vec。

圖2 文本預(yù)處理的并行化實(shí)現(xiàn)Fig.2 Parallelization of text preprocessing

基于Spark框架下XGBoost的并行化思想是通過RDD算子與框架的內(nèi)存迭代機(jī)制提高算法的執(zhí)行效率來實(shí)現(xiàn)的。其中,Spark集群各節(jié)點(diǎn)讀取訓(xùn)練數(shù)據(jù)RDD_vec存于內(nèi)存中。Mapper部分主要完成決策樹的學(xué)習(xí)過程:在選取分裂節(jié)點(diǎn)時(shí),并行計(jì)算各個(gè)特征的增益,選取增益最大的特征進(jìn)行分裂以進(jìn)行樹的構(gòu)建;樹的各分支的節(jié)點(diǎn)選取都通過并行化進(jìn)行訓(xùn)練,在達(dá)到建樹的最大深度或分類增益小于設(shè)定閾值后停止建樹,從而完成一次算法中的多個(gè)樹模型的生成工作;隨后由Reducer比較并構(gòu)建準(zhǔn)確率相對(duì)更高的樹模型,輸出一輪迭代的結(jié)果,隨后將迭代結(jié)果輸入到下次迭代中,直到選取出最優(yōu)模型。

林業(yè)文本的訓(xùn)練與測(cè)試過程主要分為如下步驟(圖3):

(1)對(duì)語料中的文本進(jìn)行自動(dòng)分詞,去除低頻詞與停用詞,構(gòu)建為〈標(biāo)簽,(文本,特征詞集)〉的鍵值對(duì)形式,存入RDD_data。

(2)通過利用TF-IDF進(jìn)行特征詞的權(quán)重計(jì)算并進(jìn)行特征向量化,形成〈標(biāo)簽,(文本,特征詞集,TF-IDF權(quán)值)〉鍵值對(duì)形式的RDD_vec。

(3)提取RDD_vec中的〈標(biāo)簽,(特征詞集,TF-IDF權(quán)值)〉,通過Spark提供的轉(zhuǎn)換算子與執(zhí)行算子構(gòu)造XGBoost與其他4種算法的并行分類器。

(4)以隨機(jī)選取的方式將90%的鍵值對(duì)作為訓(xùn)練集RDD_train傳入分類器,分類器進(jìn)行迭代訓(xùn)練,并將結(jié)果與模型保存。

(5)將余下10%的鍵值對(duì)作為測(cè)試集RDD_test對(duì)保存模型的精準(zhǔn)率進(jìn)行驗(yàn)證。

(6)重復(fù)步驟(4)~(5),選取最優(yōu)參數(shù)組合,將最優(yōu)模型保存在Hive數(shù)據(jù)倉(cāng)庫中;基于此,模型將不斷進(jìn)行新數(shù)據(jù)的訓(xùn)練,從而積累較為科學(xué)的林業(yè)語料。

圖3 基于Spark的文本分類處理流程圖Fig.3 Process of forestry text classification based on Spark

3 實(shí)驗(yàn)與結(jié)果分析

3.1 實(shí)驗(yàn)環(huán)境與評(píng)價(jià)指標(biāo)

采用的硬件環(huán)境是Centos7、Hadoop 2.7.0、Spark 2.2.0、Hive 2.1.1構(gòu)成的仿真平臺(tái)。實(shí)驗(yàn)環(huán)境共由5臺(tái)主機(jī)構(gòu)成Spark計(jì)算集群,其中1臺(tái)為Master 節(jié)點(diǎn),其余4臺(tái)為 Slave節(jié)點(diǎn),各工作節(jié)點(diǎn)的運(yùn)行內(nèi)存為4 GB。

對(duì)分類效果的評(píng)價(jià)采用精準(zhǔn)率P(precision)、召回率R(recall)、綜合評(píng)價(jià)指標(biāo)F1(F1-measure)、準(zhǔn)確率A(accuracy)等指標(biāo),其計(jì)算公式為[25]

(3)

(4)

(5)

(6)

式中TP——將正類預(yù)測(cè)為正類的樣本數(shù)

TN——將正類預(yù)測(cè)為負(fù)類的樣本數(shù)

FP——將負(fù)類預(yù)測(cè)為正類的樣本數(shù)

FN——將負(fù)類預(yù)測(cè)為負(fù)類的樣本數(shù)

精準(zhǔn)率衡量類別的查準(zhǔn)率,召回率衡量類別的查全率,F(xiàn)1則綜合了P和R的結(jié)果,所以F1越高則說明實(shí)驗(yàn)方法越有效,分類器的分類性能越好。

3.2 語料的特征詞分析

對(duì)預(yù)處理后的21 000個(gè)林業(yè)文本語料進(jìn)行分詞統(tǒng)計(jì),共計(jì)4 402 145個(gè)有用詞條,無重復(fù)詞集共計(jì)264 423個(gè),平均一篇文章中影響分類的詞數(shù)約為209個(gè);篇幅最長(zhǎng)的樣本包含詞數(shù)為11 806個(gè),最短一篇包含詞數(shù)為34個(gè)?,F(xiàn)分別為每個(gè)類別計(jì)算候選詞的TF-IDF值,并選取每個(gè)類別的前10個(gè)特征詞,如表1所示。

由表1可見,語料中各類別中最為靠前的10個(gè)特征詞頻中,僅存在少量交集,且與該標(biāo)簽對(duì)應(yīng)的林業(yè)專題動(dòng)態(tài)信息的主題相符,“改革”與“林權(quán)”等詞匯高頻出現(xiàn)與國(guó)家推動(dòng)林業(yè)改革的情形相符,說明該分類體系可用于進(jìn)一步提取林業(yè)領(lǐng)域的“熱詞”;而科學(xué)與技術(shù)類、市場(chǎng)與產(chǎn)業(yè)類以及植物類的高頻詞匯,一定程度上反映出林業(yè)研究多集中于花卉、林木,出現(xiàn)這些詞頻的樣本在結(jié)合“花瓣”、“花種”等領(lǐng)域?qū)倜~集合時(shí),即可為挖掘文章主題、提取信息主干等研究提供新思路。因此,本文設(shè)計(jì)的分類標(biāo)簽相比原有分類標(biāo)簽更為科學(xué),且有益于林業(yè)文本的拓展研究。

表1 各類別林業(yè)文本的前10個(gè)特征詞Tab.1 Top 10 characteristic entries of each category

3.3 各并行算法評(píng)價(jià)指標(biāo)的對(duì)比

使用前文中敘述的分類實(shí)驗(yàn)方法,從Hive數(shù)據(jù)倉(cāng)庫中,每類調(diào)取3 000個(gè)樣本作為實(shí)驗(yàn)數(shù)據(jù),隨機(jī)選取其中90%樣本為訓(xùn)練集,其余10%的樣本為測(cè)試集。為驗(yàn)證并行化環(huán)境下,XGBoost與傳統(tǒng)機(jī)器學(xué)習(xí)算法、基于神經(jīng)網(wǎng)絡(luò)的算法的性能,實(shí)驗(yàn)選取了NB、GBDT決策樹代表傳統(tǒng)機(jī)器學(xué)習(xí),選用ELM極端學(xué)習(xí)機(jī)和BP神經(jīng)網(wǎng)絡(luò)(Back propagation neural network,BPNN)作為神經(jīng)網(wǎng)絡(luò)算法的代表,將經(jīng)過網(wǎng)格搜索獲取其最優(yōu)參數(shù)的5種并行化算法測(cè)試結(jié)果的F1記錄為表2。

圖4 各算法的準(zhǔn)確率與訓(xùn)練時(shí)間對(duì)比Fig.4 Comparison of accuracy value and training time of each parallel algorithm on 100% data

由表2可知,在100%的數(shù)據(jù)集下,XGBoost在每個(gè)類別上的F1均高于其他4種機(jī)器學(xué)習(xí)算法。模型訓(xùn)練過程與XGBoost相似的GBDT的性能僅次于XGBoost算法。在面對(duì)海量文本的分類場(chǎng)景中,兩種基于神經(jīng)網(wǎng)絡(luò)的算法ELM與BPNN整體分類效果不如其他3種算法。

XGBoost算法在A、C、D4這3類上的F1分別為0.998 4、0.982 9和0.945 6,尤其A類與C類的F1幾乎達(dá)到1.0,說明林業(yè)新聞與政策類和林業(yè)市場(chǎng)與產(chǎn)業(yè)類的文本較其他5個(gè)類別更易被區(qū)分,其次更易被分類的是動(dòng)物類文本,而在B、D1、D2、D3類別上的表現(xiàn)并不突出,其值均在0.85~0.9之間,即科學(xué)與技術(shù)類、森林類、植物類、濕地類文章的部分樣本具有相似性,這也與實(shí)際情況相符,林業(yè)的研究多集中于森林與濕地兩大生態(tài)系統(tǒng),并以林木花草等為研究主體,而在表1中也可以明顯看到,“花卉”、“林木”、“研究”等詞在類別中有交叉,與當(dāng)前的實(shí)驗(yàn)結(jié)果相吻合。

表2 各文本分類算法的F1對(duì)比Tab.2 Comparison of F1 values of each text classification parallel algorithm

在其他4種算法的結(jié)果中,GBDT在A和C類的F1高于0.9,但在D1類低于0.7;NB算法在A、D2、D4類上的F1達(dá)到0.8以上;ELM與BPNN在各類別上的精度略有差距,兩者整體的分類精度不高,說明在應(yīng)對(duì)海量數(shù)據(jù)的分類場(chǎng)景時(shí),兩分類算法需進(jìn)一步優(yōu)化。

顯然,XGBoost算法在各個(gè)類別數(shù)據(jù)上的精準(zhǔn)度、召回率以及F1上有明顯的優(yōu)勢(shì),在優(yōu)勢(shì)類別中的文本分類精度極高,且該算法訓(xùn)練的模型更符合實(shí)際場(chǎng)景,從而驗(yàn)證了XGBoost在海量林業(yè)文本分類問題上的有效性。

圖4是基于Spark并行環(huán)境下的各分類算法的準(zhǔn)確率與執(zhí)行效率的對(duì)比,其準(zhǔn)確率與表2中F1的分布一致:XGBoost算法的分類準(zhǔn)確率最高,為0.923 4。從圖4b可看出,BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練時(shí)間最長(zhǎng),為2 182 s,其次是ELM算法,這與神經(jīng)網(wǎng)絡(luò)算法的執(zhí)行時(shí)間常高于傳統(tǒng)機(jī)器學(xué)習(xí)算法的情形相符。因此,XGBoost在保持極高準(zhǔn)確率的情況下,時(shí)間執(zhí)行效率方面遠(yuǎn)優(yōu)于兩種神經(jīng)網(wǎng)絡(luò)算法,略慢于傳統(tǒng)機(jī)器學(xué)習(xí)算法。

3.4 不同訓(xùn)練集對(duì)分類結(jié)果的影響

依照林業(yè)文本分類流程,從語料的各個(gè)類別中分別隨機(jī)取數(shù)量為90、150、300、600、1 200、1 800、2 400、2 700、3 000的樣本構(gòu)成信息量不同的實(shí)驗(yàn)數(shù)據(jù)集;其中,90%用于模型訓(xùn)練,10%用于測(cè)試,由交叉驗(yàn)證求取不同訓(xùn)練集下XGBoost最優(yōu)分類結(jié)果如表3所示,并以同樣流程求取其他算法的分類結(jié)果進(jìn)行對(duì)比分析,對(duì)比結(jié)果如圖5所示。

表3 訓(xùn)練樣本量對(duì)XGBoost算法F1的影響Tab.3 Influence of number of training samples on XGBoost classification F1 value

圖5 訓(xùn)練數(shù)量對(duì)各并行算法分類結(jié)果的影響Fig.5 Influence of number of training samples on results of each parallel algorithm

由表3與圖5可以看出,樣本數(shù)量對(duì)分類算法的精準(zhǔn)率影響較大,在低于600(20%)個(gè)訓(xùn)練樣本下,各算法分類精度均不穩(wěn)定,某些類別上的分類精準(zhǔn)率會(huì)低于0.7。隨著訓(xùn)練樣本數(shù)量的增加,XGBoost精度穩(wěn)定提升,而兩類神經(jīng)網(wǎng)絡(luò)算法對(duì)新數(shù)據(jù)的支持能力較差,導(dǎo)致其精度不穩(wěn)定。當(dāng)樣本文本數(shù)量增加到約2 400(80%)個(gè)后,繼續(xù)增加樣本文本的數(shù)量,XGBoost分類精準(zhǔn)率提升緩慢直至趨于穩(wěn)定;而GBDT和NB在多數(shù)類別上逐漸趨于穩(wěn)定,少數(shù)類別伴隨有輕微下減的趨勢(shì)。由圖5h可見,隨著樣本的繼續(xù)增加,XGBoost算法的準(zhǔn)確率扔保持緩慢上升的趨勢(shì)。

最后,為驗(yàn)證XGBoost算法模型的實(shí)用性,選取中國(guó)林業(yè)網(wǎng)的20條最新新聞進(jìn)行模型驗(yàn)證,驗(yàn)證集的準(zhǔn)確率為0.95,說明該分類器在實(shí)際場(chǎng)景下的林業(yè)文本分類應(yīng)用性好,可直接用于互聯(lián)網(wǎng)中的涉林文本的分類。

3.5 加速比

加速比通常用于衡量平臺(tái)的計(jì)算節(jié)點(diǎn)數(shù)量對(duì)算法并行效率的影響。實(shí)驗(yàn)將計(jì)算節(jié)點(diǎn)數(shù)由單機(jī)模式逐漸增加工作節(jié)點(diǎn)到4個(gè),將2.1萬條、4.2萬條、8.4萬條訓(xùn)練集下的實(shí)驗(yàn)結(jié)果記錄為表4。

表4 Spark集群不同節(jié)點(diǎn)數(shù)對(duì)加速比的影響Tab.4 Effect of number of distributed nodes on speedup ratio

由表4可以看出,在僅有一個(gè)工作節(jié)點(diǎn)的集群模式下,Spark集群運(yùn)行效率不及單機(jī)算法,原因在于Spark本身的資源調(diào)度需占用一部分資源和時(shí)間。在數(shù)據(jù)集僅有2.1萬條時(shí),加速比僅為2.13,并不夠明顯;而增加1倍數(shù)據(jù)時(shí),加速比提升至3.47;增加至4倍時(shí),加速比提升為3.82。其中,當(dāng)數(shù)據(jù)為2.1萬條時(shí),從單機(jī)至4個(gè)節(jié)點(diǎn)的運(yùn)行時(shí)間分別為902、930、423 s??梢钥闯?,隨著節(jié)點(diǎn)數(shù)的增加,實(shí)驗(yàn)所需要的訓(xùn)練時(shí)間呈下降趨勢(shì)。

綜上,該并行算法較單機(jī)版本效率提升明顯,且數(shù)據(jù)量越大,該算法的并行效率越高。

4 結(jié)論

(1)針對(duì)現(xiàn)有林業(yè)分類研究中暴露出的分類標(biāo)簽設(shè)定不科學(xué)、實(shí)驗(yàn)訓(xùn)練產(chǎn)出的模型不具有實(shí)用性的問題,借鑒林業(yè)專家提出的林業(yè)主題信息種類,重新進(jìn)行分類標(biāo)簽的設(shè)定;基于林業(yè)爬蟲技術(shù)采集涉林文本,從林業(yè)需求出發(fā),設(shè)計(jì)出分類粒度更細(xì)致的分類體系,使得分類模型可直接用于互聯(lián)網(wǎng)中的海量涉林文本分類;將分類后的樣本以統(tǒng)一的格式保存后,可逐漸積累林業(yè)語料,為后續(xù)層次更為細(xì)致的林業(yè)文本分類研究做鋪墊。

(2)針對(duì)傳統(tǒng)林業(yè)文本分類中執(zhí)行效率低、精準(zhǔn)度不高的問題,提出一種基于Spark計(jì)算環(huán)境的XGBoost并行化方法。各算法的對(duì)比結(jié)果表明,在包含不同比例的數(shù)據(jù)集上,該并行設(shè)計(jì)XGBoost算法較其他算法的優(yōu)勢(shì)表現(xiàn)在3個(gè)方面:① 各個(gè)類別的精度均高于其他算法,在優(yōu)勢(shì)類別上的F1可達(dá)到0.998 4。② 模型通過訓(xùn)練達(dá)到精度峰值所需的樣本量較其他算法相對(duì)更少。③ 模型的精準(zhǔn)率趨于穩(wěn)定后,隨著樣本的增加,其精準(zhǔn)率保持穩(wěn)定緩慢增長(zhǎng),并未呈現(xiàn)出明顯的下降趨勢(shì),適用于未來更多新語料加入模型進(jìn)行訓(xùn)練的場(chǎng)景。此外,由加速比實(shí)驗(yàn)可以看出,該并行化算法較單機(jī)算法提升明顯,且數(shù)據(jù)量越大,并行效率越高。綜上,并行XGBoost算法可有效解決海量林業(yè)文本的高效、精準(zhǔn)分類問題。

(3)本文的分類結(jié)果并未達(dá)到完全正確的水平,除受算法本身的限制外,類別之間的少量樣本存在交叉現(xiàn)象也是原因之一。因此,本文建立的分類體系仍可以從細(xì)化分類粒度的層面加以改進(jìn)。

猜你喜歡
特征詞類別標(biāo)簽
無懼標(biāo)簽 Alfa Romeo Giulia 200HP
車迷(2018年11期)2018-08-30 03:20:32
基于改進(jìn)TFIDF算法的郵件分類技術(shù)
不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
海峽姐妹(2018年3期)2018-05-09 08:21:02
產(chǎn)品評(píng)論文本中特征詞提取及其關(guān)聯(lián)模型構(gòu)建與應(yīng)用
標(biāo)簽化傷害了誰
服務(wù)類別
基于多進(jìn)制查詢樹的多標(biāo)簽識(shí)別方法
面向文本分類的特征詞選取方法研究與改進(jìn)
論類別股東會(huì)
商事法論集(2014年1期)2014-06-27 01:20:42
中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
宁晋县| 太和县| 巨野县| 门头沟区| 高邑县| 西贡区| 利津县| 云和县| 石棉县| 秦安县| 怀宁县| 龙门县| 塔河县| 瑞金市| 岑溪市| 台安县| 神农架林区| 乐东| 吉林省| 大城县| 枣庄市| 呼伦贝尔市| 山西省| 保德县| 连山| 丘北县| 三门峡市| 三明市| 边坝县| 濮阳县| 霍林郭勒市| 丘北县| 安图县| 拉萨市| 平湖市| 会泽县| 徐汇区| 方城县| 墨竹工卡县| 都兰县| 昌黎县|