国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于LDA 模型融合Catboost 算法的文本自動分類系統(tǒng)設(shè)計與實現(xiàn)

2023-12-22 09:34:46劉愛琴郭少鵬張卓星
國家圖書館學(xué)刊 2023年5期
關(guān)鍵詞:語料類別分類器

劉愛琴 郭少鵬 張卓星

1 研究背景

知識經(jīng)濟(jì)時代文本信息獲取模式的改變對知識發(fā)現(xiàn)提出了新挑戰(zhàn)[1],網(wǎng)絡(luò)數(shù)字資源的深層知識挖掘以及信息資源與用戶個性化需求的強關(guān)聯(lián)成為更為智能、與用戶交互性更強的Web3.0的根本要求[2]。隨著學(xué)科交叉研究活動的不斷深入,智能化、自動化的知識分析與文本分類成為信息資源管理當(dāng)前面臨的緊要問題[3]。與此同時,在機器學(xué)習(xí)技術(shù)迅速發(fā)展的當(dāng)下,通過機器學(xué)習(xí)算法對文本進(jìn)行分類獲得了顯著效果[4],尤其是通過有監(jiān)督的學(xué)習(xí)算法對文本進(jìn)行特征抽取。

普林斯頓大學(xué)的Blei 等于2015 年首先提出的LDA(隱含狄利克雷分布)模型,可以從大量文檔中發(fā)現(xiàn)隱含的主題結(jié)構(gòu)信息,有效解決了PLSA模型中出現(xiàn)的問題[5]。隨后,國內(nèi)外學(xué)者基于LDA 模型對文檔分類開展了一系列算法研究,如Xiong 等提出了一種基于LDA 的加權(quán)混合文檔摘要模型,使用FCNNM(細(xì)粒度卷積神經(jīng)網(wǎng)絡(luò)模型)提取語義特征[6];Li 等提出了一種附加類別標(biāo)簽的LDA 模型,即在傳統(tǒng)LDA 中融入類別信息,最終達(dá)到全部類別的隱含主題在文檔中的協(xié)同分配[7];Ma 提出了一種基于LDA-Gibbs 模型的加權(quán)算法來提高策略文本聚類的準(zhǔn)確性[8];姚全珠等針對傳統(tǒng)降維算法的缺陷,利用LDA 建模,結(jié)合SVM 分類算法進(jìn)行文本模型表示[9];李湘東等采用LDA 模型對文本材料進(jìn)行主題建模,并結(jié)合SVM 算法構(gòu)建分類器,實現(xiàn)混合文本的自動分類[10];張志飛等提出了基于LDA 模型融合K 近鄰分類算法的短文本分類方法[11];胡朝舉等利用LDA 模型得到文檔的主題分布后,融合SVM分類算法對特定的短文本進(jìn)行分類并與傳統(tǒng)的SVM 算法進(jìn)行比較,發(fā)現(xiàn)可以有效地克服傳統(tǒng)方法特征稀疏的問題,使文本在多個類別的查全率、查準(zhǔn)率和F1 值上得到有效提高[12];劉愛琴等用LDA 模型對文本內(nèi)容進(jìn)行切分,根據(jù)詞頻對主題詞進(jìn)行提取、聚類,構(gòu)建了共現(xiàn)矩陣的短文本自動分類系統(tǒng)[13];楊洋等選取新聞話題數(shù)據(jù),在LDA 模型基礎(chǔ)上加入時序和語義因素,構(gòu)建了自適應(yīng)最優(yōu)新聞話題主題確定的算法,有效提升了新聞話題中最優(yōu)主題的查準(zhǔn)率及F 值[14]。

當(dāng)前學(xué)者在基于LDA 模型探索文本分類的過程中,存在多類別文本特征的局限性和理論技術(shù)上的不完善,沒有構(gòu)建出適用范圍更加廣泛、性能更加優(yōu)越、通用性更強、穩(wěn)健性更好的文本自動分類系統(tǒng)。而本研究基于LDA 模型融合Catboost 算法構(gòu)建的文本自動分類系統(tǒng)正是為克服這些問題所做的嘗試與努力,目的是提高知識聚類與關(guān)聯(lián)自動分類效率,進(jìn)而滿足用戶更加便捷地尋找、挖掘新知識的訴求。

2 理論基礎(chǔ)

2.1 LDA 概率主題模型

主題模型能夠自動將文本語料庫編碼為一組具有實質(zhì)意義的類別,這些類別稱為主題,典型代表是LDA 主題模型。LDA 模型的基礎(chǔ)是將一篇文檔視為由若干個主題詞構(gòu)成的組合,從而在文本全局的泊松分布中提取出可以代表文本本質(zhì)的多個主題。每個主題可以產(chǎn)生多個詞語,同一個詞語可能屬于多個主題,但其歸屬概率不同。在LDA 模型中,每篇文本可以表示為主題的混合分布,每個主題是詞的概率分布。其模型結(jié)構(gòu)為“文檔—主題—詞”的三層貝葉斯產(chǎn)生式模型,結(jié)構(gòu)如圖1 所示。

圖1 “文檔—主題—詞”三層模型

LDA 是一個典型的詞袋模型[15],不考慮詞語在文本中出現(xiàn)的先后順序,可以將文本表示為多個主題的混合隨機分布、將主題表示為多個詞語的混合概率分布。LDA 最典型的特征是它能將若干文檔自動編碼為一定數(shù)量的主題,操作者僅需確定主題的數(shù)量。在選擇好最優(yōu)主題數(shù)量后,運行LDA 模型就會得到每個主題下詞語的分布概率以及文檔對應(yīng)的主題概率,如圖2 所示。其中,α 和β 分別控制一個迪利克雷分布,方框表示重復(fù)抽樣。該模型的訓(xùn)練采用的是Gibbs 采樣。

圖2 LDA 模型

LDA 模型主題提取步驟如下:

第一步:α 隨機生成文檔對應(yīng)主題的多項式分布θ;

第二步:θ 隨機生成一個主題z;

第三步:β 隨機生成主題對應(yīng)詞語的多項式分布φ;

第四步:綜合主題z 和主題對應(yīng)詞語分布情況φ 生成詞語w,如此循環(huán)生成一個包含N 個詞語的文檔,最終生成k 個主題下的M 篇文檔。

對語料集中的文本,重復(fù)執(zhí)行以上過程。根據(jù)所使用的LDA 模型,可以得出變量所有的聯(lián)合分布,見式(1):

將以上所有變量聯(lián)合分布得到式(2):

據(jù)此得到整個語料集中的詞項w 的分布,如式(3):

主題詞是LDA 最關(guān)鍵的要素,建模前需要根據(jù)文本找到最優(yōu)的主題詞并確定其數(shù)量。語言模型即最優(yōu)主題詞優(yōu)劣的評價指標(biāo)主要為困惑度(perplexity),它和概率主題生成模型直接關(guān)系到生成文本的優(yōu)劣。LDA 模型作為一種文檔生成模型,其困惑度越低,表明經(jīng)過訓(xùn)練的模型文檔聚類效果越好。若表示對文檔d 所屬主題的困惑度,計算方法如式(4):

其中,Nd 表示第d 篇文本的詞袋長度,M 表示語料集中文本數(shù)目,p(w)表示該模型生成文本的概率。

2.2 Catboost 算法和SVM 算法

Catboost 算法是由Yandex 公司提出的一種基于對稱決策樹的算法,具有參數(shù)少、準(zhǔn)確性高和支持類別型變量的梯度提升決策樹(Gradient Boosting Decision Tree,GBDT)算法等優(yōu)勢。作為Boosting 族主流算法之一,它是一種可以有效提高模型泛化能力的開源機器學(xué)習(xí)庫。該算法通過數(shù)據(jù)集進(jìn)行整體訓(xùn)練,對組合類別特征有效識別,可以生成更高效的策略以避免數(shù)據(jù)過度擬合,從而有效解決類別特征表示問題以及數(shù)據(jù)偏移問題,保證數(shù)據(jù)集的信息均能被有效利用。

首先,對于類別特征,原有的GBDT 算法框架以對應(yīng)的類別特征標(biāo)簽均值表示,為避免由于數(shù)據(jù)集結(jié)構(gòu)與分布改變而導(dǎo)致的預(yù)測偏移問題,Catboost 算法添加先驗分布項,將分類特征值轉(zhuǎn)化為數(shù)值進(jìn)行處理。轉(zhuǎn)化處理過程如下:

第一步:隨機排列輸入數(shù)據(jù)集合,生成隨機序列;

第二步:將給定序列類別特征值替換為訓(xùn)練集標(biāo)簽均值;

第三步:根據(jù)式(5)將類別特征轉(zhuǎn)化為數(shù)值。

設(shè)σ= (σ1,σ2,…σn) ,則有

其中,P 為先驗項,a 為權(quán)重系數(shù)(a>0),添加權(quán)重可減少噪聲數(shù)據(jù),避免過擬合問題。

其次,為預(yù)測偏移問題和克服梯度偏差,Catboost 提出了Ordered Boosting 算法。以決策樹為基礎(chǔ),由不包含xi訓(xùn)練集進(jìn)行訓(xùn)練得到針對xi的子模型Mi,并且使用Mi得到數(shù)據(jù)集的梯度估計,進(jìn)而得到最終的分類器。Catboost 算法僅通過極其微小的參數(shù)調(diào)整甚至使用原有參數(shù)就可以獲得良好的分類效果,具有很強的穩(wěn)健性,在文本分類領(lǐng)域有廣闊前景。

SVM(Support Vector Machine,支持向量機)是在分類與回歸分析中分析數(shù)據(jù)的監(jiān)督式學(xué)習(xí)模型與相關(guān)的學(xué)習(xí)算法[16]。其特點是在保證稀疏性的同時兼顧穩(wěn)健性,并具有模型泛化能力和小樣本學(xué)習(xí)能力強等特性,適用于文本分類。

基于LDA 模型可以有效避免高維特征矩陣稀疏弱點的情況,但是SVM 算法由于數(shù)據(jù)復(fù)雜會導(dǎo)致選擇函數(shù)時出現(xiàn)敏感性,而Catboost 算法不僅能有效解決SVM 算法尋求最優(yōu)區(qū)分?jǐn)?shù)據(jù)的超平面收斂速度慢的問題,同時可以彌補SVM 分類算法在解決多分類問題上存在的缺陷。

2.3 指標(biāo)評價

在文本分類問題的研究中,評判分類器性能優(yōu)劣的常用模型為混淆矩陣,也稱可能性表格,是一種呈現(xiàn)分類算法性能的可視化工具,如表1。根據(jù)文本樣例的真實類別與分類器預(yù)測類別劃分為TP、FP、TN、FN 四種情形,數(shù)據(jù)表示該分類中樣本的實際數(shù)目。其中,TP(True Positive)表示真實為正例且被正確預(yù)測為正例的樣本數(shù)量,FN(False Negative)表示真實為正例但被錯誤預(yù)測為負(fù)例的樣本數(shù)量,FP(False Positive)表示真實為負(fù)例但被錯誤預(yù)測為正例的樣本數(shù)量,TN(True Negative)表示真實為負(fù)例且被正確預(yù)測為負(fù)例的樣本數(shù)量。

表1 混淆矩陣

混淆矩陣各分類中的一級指標(biāo)表示分類器對于測試集的基本統(tǒng)計結(jié)果,最終以可視化矩陣展示各分類中所包含的樣本數(shù)量。但如需進(jìn)一步判斷二分類模型性能,仍需在一級指標(biāo)的基礎(chǔ)上進(jìn)行延伸計算,進(jìn)而獲得模型的準(zhǔn)確率(Accuracy),即整體模型的預(yù)測精度;預(yù)測精確度(Precision)是指已被劃分的目標(biāo)文本集內(nèi)文本確屬該分類的比率;召回率(Recall)指文本分類器對應(yīng)屬于目標(biāo)文檔集內(nèi)文本正確劃分的比率。同時采用F-score 指標(biāo)對P(精確度)與R(召回率)進(jìn)行調(diào)和平均,進(jìn)一步提高對于分類器分類效果的要求,如式(6):

本研究涉及多分類任務(wù),將生成n 個二分類混淆矩陣,因此需綜合評估整體的分類性能,引入宏平均評價指標(biāo)(Maro-average)與微平均評價指標(biāo)(Micro-average),在局部評估單個二分類模型性能的基礎(chǔ)上,將F1 值合并綜合考察最終模型的分類效果,如式(7):

3 研究框架

本研究通過構(gòu)建由LDA 模型與集成學(xué)習(xí)Catboost 算法相融合的文本分類系統(tǒng),通過具體的文本分類實驗來進(jìn)一步對比分析傳統(tǒng)的機器學(xué)習(xí)算法SVM 與新型集成學(xué)習(xí)算法Catboost 的分類效率。首先,通過網(wǎng)絡(luò)爬蟲獲取數(shù)據(jù)集,并將其分為訓(xùn)練集和測試集;其次,運用LDA 概率主題模型建模,獲得文檔在主題上的概率分布;隨后,利用訓(xùn)練集提取出的隱含主題文本矩陣進(jìn)行分類器訓(xùn)練,最終構(gòu)建融合文本分類系統(tǒng)。該系統(tǒng)分為文本預(yù)處理、LDA 建模、訓(xùn)練分類器、文本分類及分類效果評估五個模塊,系統(tǒng)設(shè)計框架如圖3 所示。

圖3 文本分類系統(tǒng)框架

(1)系統(tǒng)文本預(yù)處理。由于文獻(xiàn)資源格式存在差異,需要將多種格式的數(shù)據(jù)進(jìn)行轉(zhuǎn)化,使其成為能夠被計算機處理的格式。在此過程中,首先要對所獲取的數(shù)據(jù)進(jìn)行清洗,對于數(shù)據(jù)集中所包含的重復(fù)文本或無效文本進(jìn)行篩選,同時剔除對于文本無意義的數(shù)據(jù)(如標(biāo)點符號、空格等)以免影響實驗效果。其次,在文檔處理之后進(jìn)行分詞處理。利用正向最大匹配及CRF 方法相互結(jié)合的方法,對文本中的詞逐一進(jìn)行掃描,將各個詞語相互匹配,對文本集語料進(jìn)行切分,形成詞的集合。再次,為排除如“一個”“的”“一些”“一天”等導(dǎo)致分類效率低下、系統(tǒng)運行速率降低、對分類效果產(chǎn)生負(fù)面影響的無意義詞語,系統(tǒng)載入開源停用詞表《百度停用詞表》、哈爾濱工業(yè)大學(xué)以及四川大學(xué)所提供的停用詞表作為過濾停用詞的基本詞表。同時根據(jù)實驗過程中的情況進(jìn)行不斷修正,過濾處理停用詞。最后將文檔分解獲得的詞列表按照詞頻進(jìn)行統(tǒng)計,存儲在本地磁盤中。

(2)LDA 建模特征抽取。首先將經(jīng)預(yù)處理的文本集加載到內(nèi)存,運用LDA 主題模型對訓(xùn)練集文本進(jìn)行建模,用Gibbs 采樣進(jìn)行參數(shù)推理,當(dāng)?shù)銐虼螖?shù)之后,利用困惑度得到最優(yōu)主題數(shù),此時模型與語料庫擬合程度達(dá)到最佳。其次,建模生成文檔-主題矩陣和主題-詞矩陣(訓(xùn)練集)。然后根據(jù)訓(xùn)練過的訓(xùn)練集數(shù)據(jù)對測試集進(jìn)行模型推斷,得到文檔-主題矩陣和主題-詞矩陣(測試集)。

(3)分類器訓(xùn)練。用上一步得到的訓(xùn)練集文檔訓(xùn)練Catboost 算法和SVM 算法文本分類,構(gòu)造文本分類器。

(4)文本分類模塊與性能評估模塊。首先加載訓(xùn)練好的分類器,導(dǎo)入文獻(xiàn)特征,使用文檔-主題矩陣對分類測試集分別進(jìn)行Catboost 算法和SVM 算法文本分類,并將分類結(jié)果序列化到本地磁盤。最終在分類器性能評價模塊運用混淆矩陣和相應(yīng)的評價指標(biāo),對得出的結(jié)果進(jìn)行性能評估。

4 實證分析

4.1 數(shù)據(jù)采集

為構(gòu)造能夠廣泛應(yīng)用于不同類型及來源的語料集合的文本分類器,本文所選取的實驗語料集合均來自于公開信息源,包括網(wǎng)頁以及學(xué)術(shù)文獻(xiàn)兩種不同類型。同時為保證可選取的文本資源類別足以支持實驗的開展,本文依照《中國圖書館分類法》(以下稱《中圖法》)中所劃分的文獻(xiàn)類別選取語料類別,并且根據(jù)網(wǎng)頁文本與學(xué)術(shù)文獻(xiàn)資源分類類別的交集來進(jìn)行實驗語料的抽取。

為保證實驗?zāi)軌虮M量模擬真實情況下的分類需求,網(wǎng)頁文本部分來源于百度新聞,經(jīng)與《中圖法》分類名稱進(jìn)行對比篩選,抽取該語料庫中IT、金融、體育三大類作為《中圖法》中計算機、經(jīng)濟(jì)、體育類別的相似選項。同時在對網(wǎng)頁信息進(jìn)行爬取時,保留文章Url(以判斷文章所屬類別)、標(biāo)題、關(guān)鍵字、內(nèi)容描述等信息,作為網(wǎng)頁文本語料集的構(gòu)成內(nèi)容。

在學(xué)術(shù)文獻(xiàn)語料中,為保證信息及時性并反映研究熱點,本研究選擇期刊信息作為學(xué)術(shù)文獻(xiàn)的語料集構(gòu)成內(nèi)容。期刊語料信息來源于維普期刊資源網(wǎng),選取關(guān)鍵詞、標(biāo)題、摘要信息等作為分類樣本,以計算機、經(jīng)濟(jì)、體育為關(guān)鍵詞,按照相關(guān)度的疏密情況進(jìn)行排序,對期刊文獻(xiàn)資源進(jìn)行信息不重復(fù)抽取,與網(wǎng)頁文本信息共同構(gòu)成文本分類所需的語料集合,見表2。學(xué)術(shù)類型文本抽取1214 篇,其中訓(xùn)練集文本數(shù)1000 篇,測試集文本數(shù)214 篇;網(wǎng)頁新聞類型文本抽取1020 篇,其中訓(xùn)練集文本數(shù)900 篇,測試集文本數(shù)120 篇。且集合的交集均為空。

表2 維普學(xué)術(shù)期刊資源與網(wǎng)頁百度新聞數(shù)據(jù)集

4.2 LDA 主題建模

利用基于Python 實現(xiàn)的網(wǎng)絡(luò)爬蟲對百度新聞網(wǎng)頁以及維普學(xué)術(shù)期刊資源網(wǎng)站分別進(jìn)行數(shù)據(jù)爬取,構(gòu)建語料集合,為實驗結(jié)果的普適性提供數(shù)據(jù)基礎(chǔ)。在數(shù)據(jù)預(yù)清洗階段,文本集使用jieba 開源中文分詞工具進(jìn)行分詞,該工具能夠?qū)崿F(xiàn)較為精確的語料句子切分。進(jìn)行中文分詞之后,為減少高頻率出現(xiàn)的無意義詞匯對于分類結(jié)果的影響,本研究系統(tǒng)載入百度、哈爾濱工業(yè)大學(xué)以及四川大學(xué)提供的開源停用詞表進(jìn)行停用詞過濾,對切分好的詞表進(jìn)行儲存。以下實驗過程均以學(xué)術(shù)語料集為例進(jìn)行展示。

采用LDA 概率主題模型對語料庫進(jìn)行主題建模,使用困惑度確定最優(yōu)主題數(shù),在不同主題數(shù)下進(jìn)行Gibbs 運算得到困惑度變化曲線如圖4 所示??纱_定當(dāng)特征數(shù)目為6 時,模型擬合效果最好,因此后續(xù)實驗的主題數(shù)K 設(shè)置為6。

圖4 學(xué)術(shù)語料集困惑度值

在用Gibbs 抽樣確定LDA 模型參數(shù)時,根據(jù)經(jīng)驗,令α= 50/K,β= 0.01,K 值取6。Gibbs 算法迭代1000 次得到在6 個不同主題上的文檔概率混合分布結(jié)果,生成文檔集的隱含主題-文檔矩陣,部分?jǐn)?shù)據(jù)如表3 所示。

表3 文本集的隱含主題-文本矩陣數(shù)據(jù)(部分)

4.3 分類預(yù)測

為比較傳統(tǒng)的機器學(xué)習(xí)算法SVM 與新型集成學(xué)習(xí)算法Catboost 對于文本分類性能的差異,使用訓(xùn)練集來訓(xùn)練分類器利用LDA 概率主題模型進(jìn)行特征選擇后所生成的主題-文本矩陣,并根據(jù)相同測試集的預(yù)測分類效果進(jìn)行最終的分類器性能評估,以對比兩種不同算法的文本分類效果。本實驗選取Python 作為Catboost 與SVM的實驗環(huán)境。

將表3 中訓(xùn)練集的數(shù)據(jù)分別輸入Catboost 與SVM 進(jìn)行建模,在Python 環(huán)境下進(jìn)行訓(xùn)練,并通過測試集對模型進(jìn)行測試,結(jié)果分別見圖5、圖6。

圖5 Catboost 測試樣本預(yù)測結(jié)果

圖6 SVM 測試樣本預(yù)測結(jié)果

4.4 模型評價

由圖5、圖6 可知,對于學(xué)術(shù)語料測試集的214 個測試樣本,Catboost 分類器正確預(yù)測了0 類(計算機)76 個樣本中屬于此類的文本數(shù)量為70;1 類(經(jīng)濟(jì))74 個樣本中屬于此類的文本數(shù)量為55;2 類(體育)64 個樣本中屬于此類的文本數(shù)量為51。而SVM 分類器正確預(yù)測了0 類(計算機)76 個樣本中屬于此類的文本數(shù)量為61;1 類(經(jīng)濟(jì))74 個樣本中屬于此類的文本數(shù)量為52;2類(體育)64 個樣本中屬于此類的文本數(shù)量為52。根據(jù)式(6)評估標(biāo)準(zhǔn)計算單獨二分類模型的評估指標(biāo),如圖7、圖8 所示。根據(jù)式(7)評估標(biāo)準(zhǔn)綜合計算兩種分類模型的評估指標(biāo)見表4。

表4 學(xué)術(shù)文本測試集上兩種分類方法的綜合比較

圖7 Catboost 學(xué)術(shù)文本測試集三類文本評估指標(biāo)

圖8 SVM 學(xué)術(shù)文本測試集三類文本評估指標(biāo)

按照相同的流程,在網(wǎng)頁新聞?wù)Z料集所劃分出的測試集上對兩種分類器分別進(jìn)行測試,計算得出兩者的綜合評估指標(biāo)如表5 所示。

表5 網(wǎng)頁新聞測試集上兩種分類方法的綜合比較

當(dāng)K=6 時,在LDA 模型抽取出的學(xué)術(shù)文本的隱含主題-文檔矩陣(訓(xùn)練集)上分別訓(xùn)練構(gòu)建LDA+Catboost 與LDA+SVM 分類器,并通過測試集對其進(jìn)行分類預(yù)測。然后利用評估指標(biāo)對Catboost 算法在經(jīng)過LDA 特征提取后構(gòu)建分類器的分類性能與SVM 算法在經(jīng)過相同處理后所構(gòu)建的分類器進(jìn)行對比,發(fā)現(xiàn)在文本集中各小類上的分類結(jié)果評估前者普遍高于后者,證明Catboost算法在局部構(gòu)架單獨二分類模型時具備良好的穩(wěn)定性與優(yōu)于SVM 算法的分類性能。同時在綜合評估兩者分類性能階段,Catboost 算法的綜合分類準(zhǔn)確度(Acc)、Macro-F1 以及Micro-F1 在學(xué)術(shù)文本與網(wǎng)頁文本的測試集上分別平均達(dá)到82%與80%,均高于SVM 分類算法在兩種文本測試集上達(dá)到的77%與65%,表明LDA+Catboost 分類器模型在文本分類上取得的效果更好。

5 結(jié)論

本研究以維普學(xué)術(shù)期刊資源與網(wǎng)頁百度新聞作為基礎(chǔ)語料集,使用LDA 模型進(jìn)行文本集特征抽取,實現(xiàn)高維文本的降維。在此基礎(chǔ)上分別應(yīng)用新型集成學(xué)習(xí)算法Catboost 與文本分類領(lǐng)域經(jīng)典分類算法SVM 構(gòu)建分類器,對二者的分類效果進(jìn)行比較,以研究Catboost 在文本分類領(lǐng)域的應(yīng)用前景。實驗表明,在LDA 作為文本表示方法的模型環(huán)境中,在不影響分類效率的前提下,Catboost 算法最終呈現(xiàn)的分類效果較SVM 而言,精度與準(zhǔn)確度都得到了提升,并且以其本身所具備的穩(wěn)健性和多類別特征均適用的優(yōu)點,在文本分類領(lǐng)域是一種能夠提高文本分類性能與保證分類效率的實用性算法。然而,由于現(xiàn)行語料庫規(guī)模有限,訓(xùn)練模型仍存在改進(jìn)空間。未來構(gòu)建范圍更廣的語料庫后,小樣本的特征詞存在散落于大樣本分類中的風(fēng)險,可能導(dǎo)致較小語料的分類出現(xiàn)偏差。因此,在后續(xù)研究中將持續(xù)推進(jìn)對適用規(guī)模更大的語料庫的文本分類模型的優(yōu)化。

猜你喜歡
語料類別分類器
BP-GA光照分類器在車道線識別中的應(yīng)用
電子測試(2018年1期)2018-04-18 11:52:35
基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
加權(quán)空-譜與最近鄰分類器相結(jié)合的高光譜圖像分類
結(jié)合模糊(C+P)均值聚類和SP-V-支持向量機的TSK分類器
服務(wù)類別
新校長(2016年8期)2016-01-10 06:43:59
華語電影作為真實語料在翻譯教學(xué)中的應(yīng)用
《苗防備覽》中的湘西語料
論類別股東會
商事法論集(2014年1期)2014-06-27 01:20:42
國內(nèi)外語用學(xué)實證研究比較:語料類型與收集方法
基于LLE降維和BP_Adaboost分類器的GIS局部放電模式識別
峨山| 华阴市| 博客| 白朗县| 察雅县| 澎湖县| 揭西县| 全椒县| 娱乐| 平江县| 金昌市| 乌审旗| 吉安市| 长春市| 汉中市| 平陆县| 翁源县| 德州市| 海伦市| 牙克石市| 井陉县| 刚察县| 工布江达县| 瑞安市| 桦南县| 浦江县| 井陉县| 东兰县| 武邑县| 资阳市| 奉贤区| 普安县| 丰镇市| 潍坊市| 墨竹工卡县| 乐陵市| 威信县| 娱乐| 汽车| 淳化县| 姚安县|