摘要:隨著信息技術(shù)的發(fā)展,政務(wù)服務(wù)的水平也得到了提升,各級(jí)政府部門(mén)都開(kāi)通了網(wǎng)上問(wèn)政服務(wù),留下了大量的群眾留言,只通過(guò)后臺(tái)人工對(duì)留言進(jìn)行分類(lèi),效率低下,費(fèi)時(shí)費(fèi)力。本文提出基于機(jī)器學(xué)習(xí)的方法,對(duì)網(wǎng)上問(wèn)政的文本進(jìn)行分類(lèi),利用自然語(yǔ)言處理的技術(shù)對(duì)文本進(jìn)行合理的預(yù)處理操作,利用詞向量工具Word2vec將文本表示成向量的形式,通過(guò)機(jī)器學(xué)習(xí)算法支持向量機(jī)(SVM)的方法進(jìn)行文本分類(lèi)。實(shí)驗(yàn)表明,在基于機(jī)器學(xué)習(xí)的文本分類(lèi)中,經(jīng)過(guò)預(yù)處理和詞向量模型表示后的文本,使用SVM分類(lèi)方法對(duì)網(wǎng)上問(wèn)政文本進(jìn)行所屬機(jī)構(gòu)類(lèi)別取得了90%以上的準(zhǔn)確率。
關(guān)鍵詞:自然語(yǔ)言處理;機(jī)器學(xué)習(xí);網(wǎng)上問(wèn)政;文本分類(lèi);SVM
中圖分類(lèi)號(hào):TP311? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2023)06-0022-03
開(kāi)放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID)
0引言
智慧政府的建設(shè)為群眾提供了更多樣的政務(wù)服務(wù)途徑,開(kāi)通網(wǎng)上問(wèn)政方便群眾可以通過(guò)互聯(lián)網(wǎng)完成對(duì)相關(guān)問(wèn)題和政策的咨詢(xún),不受時(shí)間地點(diǎn)限制,方便群眾辦事,拓寬了政府服務(wù)渠道。對(duì)于網(wǎng)上問(wèn)政的問(wèn)題和留言,需要根據(jù)問(wèn)題的類(lèi)型分類(lèi)以便歸口到對(duì)應(yīng)的政府機(jī)構(gòu)進(jìn)行回復(fù)與處理,而有不少群眾對(duì)于自己所需要咨詢(xún)的問(wèn)題并不能準(zhǔn)確劃分歸口部門(mén),導(dǎo)致問(wèn)題不能及時(shí)得到有效處理[1]。通過(guò)自然語(yǔ)言處理對(duì)網(wǎng)上問(wèn)政的留言文本進(jìn)行分類(lèi)可以更加高效地對(duì)留言進(jìn)行分類(lèi),對(duì)群眾關(guān)切的問(wèn)題進(jìn)行及時(shí)回應(yīng),提高政務(wù)服務(wù)的水平。
自然語(yǔ)言處理就是將人類(lèi)語(yǔ)言轉(zhuǎn)換成計(jì)算機(jī)可以理解和處理的語(yǔ)言,利用計(jì)算機(jī)技術(shù)實(shí)現(xiàn)更加智能的機(jī)器理解與后續(xù)處理。自然語(yǔ)言就是人類(lèi)溝通交流所使用的語(yǔ)言,根據(jù)地域和種族的不同,不同國(guó)家和民族都會(huì)有自己的語(yǔ)言,主要有英語(yǔ)、漢語(yǔ)、俄語(yǔ)、法語(yǔ)等。不同的語(yǔ)言類(lèi)型也有不同的語(yǔ)法結(jié)構(gòu),需要采用不同的處理才能達(dá)到理想的效果,針對(duì)中文的文本預(yù)處理,目前主要有中文分詞、去除停用詞、詞性標(biāo)注、向量表示等,根據(jù)不同的文本特征進(jìn)行預(yù)處理可以大大提高文本處理的準(zhǔn)確率。支持向量機(jī)模型在多個(gè)自然語(yǔ)言處理問(wèn)題中都取得了較好的實(shí)驗(yàn)結(jié)果,本文利用SVM的算法對(duì)網(wǎng)上問(wèn)政文本分類(lèi),采集網(wǎng)絡(luò)上公開(kāi)的、實(shí)際的網(wǎng)上問(wèn)政文本,通過(guò)文本預(yù)處理對(duì)網(wǎng)絡(luò)文本進(jìn)行分詞,去除停用詞得到更加規(guī)整的文本形式,采用詞向量模型Word2vec將文本轉(zhuǎn)換成計(jì)算機(jī)更容易處理的向量形式,最后采用SVM分類(lèi)方法對(duì)文本向量進(jìn)行分類(lèi),并驗(yàn)證分類(lèi)的準(zhǔn)確率,同時(shí)還驗(yàn)證了采用不同的預(yù)處理操作,以及詞向量模型對(duì)于分類(lèi)準(zhǔn)確率的影響。
1 文本采集與預(yù)處理
1.1數(shù)據(jù)采集與清洗
從某市政府網(wǎng)上問(wèn)政平臺(tái)公開(kāi)的政務(wù)留言數(shù)據(jù)中,采集網(wǎng)上問(wèn)政留言數(shù)據(jù),并按群眾留言數(shù)量排序得到問(wèn)政數(shù)量最多的前五個(gè)政府機(jī)構(gòu),分別為:人社、醫(yī)保、市場(chǎng)監(jiān)管、公安、教育。由于采集到的網(wǎng)絡(luò)文本存在著網(wǎng)絡(luò)符號(hào),重復(fù)文字,需要對(duì)采集后的原始網(wǎng)上留言數(shù)據(jù)進(jìn)行清洗、規(guī)整、補(bǔ)錄和統(tǒng)計(jì)。第一,針對(duì)采集到的留言數(shù)據(jù)進(jìn)行清洗,刪除針對(duì)研究沒(méi)有意義的符號(hào)、重復(fù)和缺失留言數(shù)據(jù);第二,對(duì)采集到的部分半格式化的信息進(jìn)行格式化,如將包含中文的留言數(shù)據(jù)字段規(guī)整為整型字段。數(shù)據(jù)清洗流程為之后的數(shù)據(jù)分析和分類(lèi)提供優(yōu)質(zhì)的基礎(chǔ)數(shù)據(jù)。最終清洗后得到共計(jì)127000條留言數(shù)據(jù),5個(gè)留言數(shù)量較高的機(jī)構(gòu)數(shù)據(jù)數(shù)量如圖1所示。
1.2 中文分詞
中文句子的最小單位是字,而詞才是具有語(yǔ)義的最小單位,并且具有非常豐富的語(yǔ)義及結(jié)構(gòu)特征。在對(duì)文本進(jìn)行文本分類(lèi),對(duì)文本語(yǔ)句進(jìn)行按詞的劃分具有決定性作用,因此分詞的準(zhǔn)確性是保證分類(lèi)結(jié)果準(zhǔn)確的基礎(chǔ)。相比英文每個(gè)單詞都以空格結(jié)尾,對(duì)句子進(jìn)行了天然的切分,所以中文文本不具有良好的切分標(biāo)志,所以需要對(duì)句子按照詞語(yǔ)進(jìn)行切分,只有正確地按照詞句進(jìn)行切分才能對(duì)句子進(jìn)行分析。對(duì)句子的正確切分就是自然語(yǔ)言處理領(lǐng)域的分詞,準(zhǔn)確的中文分詞也是目前的研究難點(diǎn)。
目前針對(duì)中文的分詞工具有很多種,國(guó)內(nèi)比較常用的分詞系統(tǒng)包括:jieba分詞、中科院的 NLPIR中文分詞系統(tǒng),哈爾濱工業(yè)大學(xué)語(yǔ)言技術(shù)平臺(tái)(LTP)分詞系統(tǒng)等。jieba分詞是一種常用的開(kāi)源分詞庫(kù)。它提供了一種非常適合文本細(xì)分的分析模式-精確模式[2]。主要是因?yàn)樗軌蚋鶕?jù)分割模型以最精確的方式分離句子。同時(shí),jieba 還支持用戶(hù)自定義的詞庫(kù),可以有效地提高準(zhǔn)確率。本文采用比較常用的jieba分詞來(lái)進(jìn)行分詞處理。
1.3 去除停用詞
停用詞(Stop Words)是指在自然語(yǔ)言處理中可以過(guò)濾掉的一些沒(méi)有實(shí)際意義的功能詞,這些詞在文本中出現(xiàn)的頻率較高,但對(duì)文本表達(dá)沒(méi)有實(shí)際意義,中文常用的停用詞有代詞“這”“那”,助詞“的”“了”,介詞“在”,語(yǔ)氣助詞“呢”“啊”等[3]。去除這些無(wú)實(shí)義的高頻停用詞可以降低特征向量的空間維度,提高分類(lèi)的準(zhǔn)確率,本文使用哈工大的停用詞表來(lái)對(duì)文本中的停用詞進(jìn)行處理。
1.4 詞向量表示
網(wǎng)上留言屬于非結(jié)構(gòu)化文本,不便于使用計(jì)算機(jī)處理和理解,需要將其按一定的規(guī)則把文本轉(zhuǎn)換成數(shù)值模型的詞向量,使計(jì)算機(jī)能理解并加以處理。這也是文本處理的一個(gè)重要問(wèn)題,如果可以準(zhǔn)確合理地將文本表示成數(shù)值類(lèi)型,將會(huì)大大提高計(jì)算機(jī)的處理和分析難度。利用最簡(jiǎn)單的想法,對(duì)每個(gè)詞語(yǔ)進(jìn)行賦值,句子就是每個(gè)詞語(yǔ)數(shù)值的集合,但是這些散亂的數(shù)值便不能有效地表示出語(yǔ)義信息,因此采用一種神經(jīng)網(wǎng)絡(luò)的語(yǔ)言模型,CBOW(Continuous Bag-of-Words)模型是一種經(jīng)過(guò)改進(jìn)的神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型,主要通過(guò)映射層替代隱層,實(shí)現(xiàn)了輸入層詞向量的相加,從而降低了模型的計(jì)算量。CBOW模型是由預(yù)知的上下文來(lái)得出單詞出現(xiàn)的概率。主要結(jié)構(gòu)是由輸入層、投影層和輸出層三層結(jié)構(gòu)組成,模型的學(xué)習(xí)目標(biāo)是根據(jù)輸入層輸入的信息和輸出層輸出的條件概率最大化對(duì)數(shù)似然函數(shù):
[L=w∈Cl))]? ? ? ? ? ? ? ? ? ? ? ? ? ? (1)
其中,[W]是從語(yǔ)料庫(kù)[C]輸入的詞語(yǔ)。 CBOW 模型的原理可以解釋為,假設(shè)已知上下文,通過(guò)上下文來(lái)預(yù)測(cè)中間最可能出現(xiàn)的詞。因此模型的輸入是上下文詞向量,經(jīng)過(guò)投影層簡(jiǎn)單求和,再輸入輸出層,輸出出現(xiàn)概率最大的詞[W]。
本文將使用 Word2vec訓(xùn)練詞向量,Word2vec詞向量模型包含了 CBOW 模型,用高維向量表示詞語(yǔ),并把相近意思的詞語(yǔ)放在相近的位置,并且使用實(shí)數(shù)向量(不局限于整數(shù))只需要用大量的某種語(yǔ)言的語(yǔ)料,就可以用它來(lái)訓(xùn)練模型,獲得詞向量。在本文的實(shí)驗(yàn)中,對(duì)采用不同的預(yù)處理進(jìn)行實(shí)驗(yàn)對(duì)比,驗(yàn)證預(yù)處理操作對(duì)文本分類(lèi)結(jié)果的影響。
2 SVM 文本分類(lèi)
支持向量機(jī)是一種監(jiān)督學(xué)習(xí)算法,是一種廣泛使用的機(jī)器學(xué)習(xí)方法,SVM算法具有泛化能力強(qiáng),能夠很好地處理高維數(shù)據(jù),無(wú)局部極小值問(wèn)題。SVM算法利用核函數(shù)將詞向量映射到高維的空間中,使在低維空間中不可分的特征在高維空間中變得可分,從而完成分類(lèi)的任務(wù),利用 SVM 分類(lèi)模型對(duì)詞向量提供的數(shù)據(jù)特征進(jìn)行文本分類(lèi),根據(jù)訓(xùn)練集數(shù)據(jù)將模型參數(shù)學(xué)習(xí)到最優(yōu),然后利用訓(xùn)練好的模型對(duì)測(cè)試集數(shù)據(jù)中文本類(lèi)型作出預(yù)測(cè),最后根據(jù)預(yù)測(cè)結(jié)果判斷訓(xùn)練模型的好壞[4]。針對(duì)文本二分類(lèi)任務(wù),SVM模型分類(lèi)的原理是將通過(guò)預(yù)處理階段生成的文本詞向量經(jīng)過(guò)核函數(shù)的映射作用,分布到更高維度的空間中,然后將問(wèn)題轉(zhuǎn)化為在高維空間中的線(xiàn)性分類(lèi)問(wèn)題,找到可以分隔的最大區(qū)間超平面,并且兩個(gè)最大的超平面中的每一個(gè)超平面在每一側(cè)都有兩個(gè)其他超平面。兩個(gè)超平面彼此平行,并且最大化兩個(gè)超平面的間距就是最優(yōu)的分隔超平面。支持向量機(jī)模型如圖 2所示。最大間隔超平面表示為:
[Wx+b=0]? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(1)
兩個(gè)平行的超平面為:
[Wx+b=1]? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(2)
[Wx+b=-1]? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(3)
y表示數(shù)據(jù)的分類(lèi)標(biāo)簽,-1表示屬于機(jī)構(gòu)1的數(shù)據(jù),+1表示屬于機(jī)構(gòu)2的數(shù)據(jù)。令:
[f(x)=Wx+b]? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?(4)
將兩個(gè)相互平行的超平面上的點(diǎn)稱(chēng)為支持向量,滿(mǎn)足:
[|Wx+b|=1]? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? (5)
因此,從支持向量到最大間隔超平面的距離為:
[Wx+bW=1W]? ? ? ? ? ? ? ? ? ? ?(6)
設(shè)間隔的大小為[M],那么:
[M=1W]? ? ? ? ? ? ? ? ? ? ? ? ? ?(7)
最大化[M]等價(jià)于:
[max1W→minW2]? ? ? ? ? ? ? (8)
因此,滿(mǎn)足最大間隔超平面所需的條件是:
[minW2]? ? ? ? ? ? ? ? ? ? ? ? ? (9)
滿(mǎn)足于:
[yiWxi+b≥1;i=1,2,...,N]? ? ? ? ? ?(10)
轉(zhuǎn)化為拉格朗日優(yōu)化問(wèn)題,利用拉格朗日乘數(shù)法進(jìn)行計(jì)算得到式(11):
[LW2,b,α=12W2-i=1NαiyiWTxi+b-1](11)
其中,[αi]是拉格朗日乘子。
SVM算法的特性對(duì)于二分類(lèi)問(wèn)題可以較好地處理,而對(duì)于多分類(lèi)問(wèn)題就要對(duì)SVM算法進(jìn)行改進(jìn),目前針對(duì)多分類(lèi)的問(wèn)題,SVM算法的改進(jìn)方法主要有兩種,第一種是對(duì)每?jī)蓚€(gè)類(lèi)別之間都構(gòu)造一個(gè)SVM 二分類(lèi)器,對(duì)每一個(gè)分類(lèi)器判別出的所屬類(lèi)別計(jì)數(shù),最終計(jì)數(shù)最大的那個(gè)類(lèi)別就是該文本所屬的類(lèi)別;第二種是對(duì)于M個(gè)分類(lèi),對(duì)一個(gè)類(lèi)別和剩余的M-1個(gè)類(lèi)別之間構(gòu)造一個(gè)二分類(lèi)進(jìn)行分類(lèi)判別,如果不屬于第一個(gè)類(lèi)別,就繼續(xù)在剩余的M-1個(gè)類(lèi)別中繼續(xù)構(gòu)造分類(lèi)器進(jìn)行判別。由于第二種方法中M-1個(gè)類(lèi)別的數(shù)據(jù)量會(huì)明顯大于某個(gè)單一類(lèi)別的數(shù)據(jù)量,造成數(shù)據(jù)失衡,導(dǎo)致一個(gè)樣本可能屬于多個(gè)類(lèi),因此本文中采用第一種方法構(gòu)建多分類(lèi)的SVM分類(lèi)器。
本文對(duì)需要分類(lèi)的五個(gè)樣本類(lèi)別,每?jī)蓚€(gè)分類(lèi)之間構(gòu)造一個(gè)SVM分類(lèi)器模型,共需要訓(xùn)練出10個(gè)SVM二分類(lèi)器。在進(jìn)行測(cè)試時(shí),將測(cè)試樣例分別輸入每個(gè)分類(lèi)器中,分別進(jìn)行二分類(lèi),最終的分類(lèi)類(lèi)別取計(jì)數(shù)最大那個(gè)類(lèi)別作為最終分類(lèi)結(jié)果。機(jī)器學(xué)習(xí)工具包scikit-learn 包中已經(jīng)集成了SVM算法模型,因此可以直接導(dǎo)入工具包來(lái)完成文本分類(lèi),本文的SVM算法中的核函數(shù)選用線(xiàn)性核函數(shù)來(lái)進(jìn)行實(shí)驗(yàn)。
基于機(jī)器學(xué)習(xí)的SVM算法搭建網(wǎng)上問(wèn)政文本分類(lèi)模型如圖3所示。
3實(shí)驗(yàn)分析
本文利用SVM算法對(duì)網(wǎng)上問(wèn)政的留言文本分屬機(jī)構(gòu)分類(lèi)進(jìn)行實(shí)驗(yàn),并對(duì)不同的預(yù)處理操作進(jìn)行對(duì)比實(shí)驗(yàn)。先對(duì)采集的網(wǎng)上問(wèn)政留言文本數(shù)據(jù)使用jieba 分詞工具做中文分詞處理后,將數(shù)據(jù)隨機(jī)切分為測(cè)試集和訓(xùn)練集,測(cè)試集和訓(xùn)練集的占比為 2:8,訓(xùn)練集用于訓(xùn)練SVM 模型,測(cè)試集用于測(cè)試分類(lèi)模型的分類(lèi)效果。針對(duì)實(shí)驗(yàn)結(jié)果的評(píng)價(jià)也是實(shí)驗(yàn)中非常關(guān)鍵的一步。因此在本章的實(shí)驗(yàn)中,采用統(tǒng)一的評(píng)價(jià)指標(biāo)來(lái)描述分類(lèi)模型的效果。主要有兩個(gè)評(píng)價(jià)指標(biāo),即準(zhǔn)確率和召回率。
準(zhǔn)確率(Precision)可以簡(jiǎn)記為P。就是評(píng)價(jià)模型的準(zhǔn)確率,對(duì)于分類(lèi)算法模型來(lái)說(shuō),準(zhǔn)確率是最直觀(guān)的評(píng)價(jià)標(biāo)準(zhǔn),簡(jiǎn)單明了地展示出模型的效果,計(jì)算標(biāo)準(zhǔn)就是分類(lèi)正確的比例。計(jì)算公式如式(12)所示:
[準(zhǔn)確率=判斷正確的類(lèi)別數(shù)目該類(lèi)別所有評(píng)論文本的數(shù)目]? ? ? ? (12)
召回率( Recall):簡(jiǎn)記為 R,作為對(duì)模型準(zhǔn)確率的補(bǔ)充,考查分類(lèi)結(jié)果是否完備??梢灾甘境龇诸?lèi)指標(biāo)指定的效果,不能單從準(zhǔn)確性就判斷模型的好壞,模型是否完善也是一個(gè)重要因素,召回率就是為人們?cè)谠u(píng)價(jià)模型時(shí)提供一個(gè)更加完善的指標(biāo)??梢酝ㄟ^(guò)式(13)計(jì)算得到:
[召回率=判斷正確的類(lèi)別數(shù)目該類(lèi)別實(shí)際應(yīng)包含的評(píng)論文本數(shù)目] ? (13)
對(duì)于一個(gè)文本分類(lèi)數(shù)據(jù)集D,屬于類(lèi)別1且被正確分類(lèi)到該類(lèi)別的留言數(shù)量記為RR,分類(lèi)為類(lèi)別1但不屬于該類(lèi)別的文本的數(shù)量被標(biāo)記為 RN,并且屬于類(lèi)別1但未被分類(lèi)到該類(lèi)別的文本的數(shù)量被標(biāo)記為NR,其他不相關(guān)并且也沒(méi)有任何分類(lèi)的文本數(shù)量標(biāo)記為NN。此時(shí),準(zhǔn)確率和召回率可分別按照式(14)和式(15)計(jì)算:
[Precision=RRRR+RN]? ? ? ? ? ? ? ? ? ? (14)
[Recall=RRRR+NR]? ? ? ? ? ? ? ? ? ? ?(15)
相關(guān)研究表明,準(zhǔn)確率和召回率兩項(xiàng)指標(biāo)在某種程度上存在著相互制約的關(guān)系,兩者之間的相互制約使得在選擇模型時(shí)無(wú)法取舍。因此需要綜合度量?jī)身?xiàng)指標(biāo)的變化情況。F-Measure就是可以同時(shí)關(guān)注準(zhǔn)確性和召回率的一個(gè)指標(biāo), F-Measure均衡地制約著準(zhǔn)確率和召回率,可以綜合這兩個(gè)指標(biāo)的影響效果,其計(jì)算公式如式(16)所示:
[F-Measure=2*Recall*PrecisionRecall+Precision] ? (16)
F-Measure也稱(chēng)為 F1 值,常作為評(píng)價(jià)指標(biāo)用于衡量情感分類(lèi)的整體效果,表明準(zhǔn)確率和召回率對(duì)于模型的評(píng)價(jià)具有相同的參考價(jià)值。F1 的取值在 0 到 1 之間,最好的情況就是當(dāng)F1值取1時(shí)表明準(zhǔn)確率和召回率都為1,此時(shí)的模型才是最為理想的模型。
實(shí)驗(yàn)一對(duì)分詞后的文本數(shù)據(jù)直接輸入SVM算法模型進(jìn)行文本分類(lèi),實(shí)驗(yàn)取得了84.3%準(zhǔn)確率;實(shí)驗(yàn)二將中文分詞后的文本數(shù)據(jù)利用停用詞表進(jìn)行去除停用詞處理后輸入SVM算法模型,實(shí)驗(yàn)取得了86.5% 的準(zhǔn)確率;實(shí)驗(yàn)三將經(jīng)過(guò)分詞和去除停用詞處理的文
本數(shù)據(jù),再通過(guò)Word2vec詞向量模型生成詞向量表達(dá)后,輸入SVM模型中,取得了91.2%的準(zhǔn)確率。實(shí)驗(yàn)結(jié)果如表1所示,實(shí)驗(yàn)結(jié)果表明,SVM 算法可以較好地完成網(wǎng)上問(wèn)政文本分類(lèi)任務(wù),采用合理的文本預(yù)處理操作比單純的使用SVM算法可以取得更高文本分類(lèi)的準(zhǔn)確率。本文采用的經(jīng)過(guò)分詞及去除停用詞處理后的Word2vec+SVM算法文本分類(lèi)模型取得了最高的準(zhǔn)確率,由此可以說(shuō)明,本文提出的方法可以較好地完成網(wǎng)上問(wèn)政文本分類(lèi)任務(wù)。
4結(jié)束語(yǔ)
本文提出了采用機(jī)器學(xué)習(xí)SVM算法模型對(duì)網(wǎng)上問(wèn)政群眾留言的文本按機(jī)構(gòu)部門(mén)分類(lèi),并采用了中文分詞和去除停用詞的文本預(yù)處理操作,同時(shí)利用了Word2vec詞向量表達(dá)模型取得了較高的分類(lèi)準(zhǔn)確率,相比于人工后臺(tái)分類(lèi)更加高效省時(shí),也解決了群眾在問(wèn)題咨詢(xún)中不確定問(wèn)題歸屬部門(mén)的問(wèn)題。后續(xù)工作中可以加入更多的機(jī)器學(xué)習(xí)算法來(lái)進(jìn)一步提高分類(lèi)模型的各項(xiàng)指標(biāo)[6]。
參考文獻(xiàn):
[1] 朱文峰.基于支持向量機(jī)與神經(jīng)網(wǎng)絡(luò)的文本分類(lèi)算法研究[D].南京:南京郵電大學(xué),2019.
[2] 胡玉蘭,趙青杉,陳莉,等.面向中文新聞文本分類(lèi)的融合網(wǎng)絡(luò)模型[J].中文信息學(xué)報(bào),2021,35(3):107-114.
[3] 何鎧,管有慶,龔銳.基于深度學(xué)習(xí)和支持向量機(jī)的文本分類(lèi)模型[J].計(jì)算機(jī)技術(shù)與發(fā)展,2022,32(7):22-27.
[4] 於雯,周武能.基于LSTM的商品評(píng)論情感分析[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2018,27(8):159-163.
[5] 趙延平,王芳,夏楊.基于支持向量機(jī)的短文本分類(lèi)方法[J].計(jì)算機(jī)與現(xiàn)代化,2022(2):92-96.
[6] 劉婧,姜文波,邵野.基于機(jī)器學(xué)習(xí)的文本分類(lèi)技術(shù)研究進(jìn)展[J].電腦迷,2018(6):26.
【通聯(lián)編輯:唐一東】