国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

關(guān)于Word2Vec文本分類(lèi)效果若干影響因素的分析

2024-04-14 21:18:56謝慶恒
現(xiàn)代信息科技 2024年1期
關(guān)鍵詞:文本分類(lèi)影響因素

DOI:10.19850/j.cnki.2096-4706.2024.01.026

收稿日期:2023-03-21

摘? 要:Word2Vec向量模型參數(shù)眾多,在不同情景下分類(lèi)效果不一,分析其影響因素很有必要。從Word2Vec模型基本原理出發(fā),分析討論了預(yù)訓(xùn)練語(yǔ)料、詞向量預(yù)訓(xùn)練參數(shù)以及分類(lèi)模型參數(shù)三大因素對(duì)模型分類(lèi)效果的影響。結(jié)果表明限定域預(yù)料效果好于廣域預(yù)料;預(yù)訓(xùn)練參數(shù)中向量維度越大,效果越好,窗口大小存在最優(yōu)值,分類(lèi)算法影響不大;分類(lèi)模型參數(shù)中學(xué)習(xí)率、激活函數(shù)、批次大小對(duì)模型分類(lèi)效果影響較大,訓(xùn)練輪次相對(duì)較小。

關(guān)鍵詞:Word2Vec;文本分類(lèi);模型效果;影響因素

中圖分類(lèi)號(hào):TP391? 文獻(xiàn)標(biāo)識(shí)碼:A? 文章編號(hào):2096-4706(2024)01-0125-05

Analysis of Several Influencing Factors on Word2Vec Text Classification Effect

XIE Qingheng

(National Library of China, Beijing? 100081, China)

Abstract: The Word2Vec vector model has numerous parameters, and its classification effect varies in different scenarios. It is necessary to analyze its influencing factors. Starting from the basic principles of the Word2Vec model, this paper analyzes and discusses the impact of three major factors of pre trained corpus, pre trained parameters of word vectors, and classification model parameters on the model's classification effect. The results indicate that the effect of limited domain prediction is better than that of wide domain prediction. And the larger the vector dimension in the pre trained parameters, the better the effect. There is an optimal value in window size, and the classification algorithm has little impact. The learning rate, activation function and batch size of the classification model parameters have a greater impact on the classification effect of the model, and the training round is relatively small.

Keywords: Word2Vec; text classification; model effect; influencing factor

0? 引? 言

文本分類(lèi)是自然語(yǔ)言處理領(lǐng)域的經(jīng)典問(wèn)題,2003年Bengio提出的NNLM[1]是早期使用神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)語(yǔ)言模型的經(jīng)典模型。2013年,Word2Vec模型[2]借鑒NNLM的思想,提出用語(yǔ)言模型訓(xùn)練得到詞向量。盡管GPT2、BERT、XLNet等深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)模型在分類(lèi)效果上取得了突破性進(jìn)展,但這些模型的預(yù)訓(xùn)練對(duì)硬件要求較高,一般用戶(hù)難以承受。相對(duì)而言,Word2Vec模型對(duì)硬件要求不高,并且在近義詞分析,相近詞的關(guān)聯(lián)分析中仍有不錯(cuò)的表現(xiàn),因此Word2Vec模型至今仍在大量使用。有的學(xué)者關(guān)注Word2Vec詞向量的優(yōu)化與改進(jìn)。張克君等[3]從訓(xùn)練詞向量的語(yǔ)言模型入手,提出了一種基于關(guān)鍵詞改進(jìn)的語(yǔ)言模型,在查準(zhǔn)率和相似度方面有一定優(yōu)化。彭俊利等[4]通過(guò)融合單詞貢獻(xiàn)度與Word2Vec詞向量提出一種新的文檔表示方法,使得模型的準(zhǔn)確率、召回率和F1值均有所提升;有的關(guān)注其與其他模型的結(jié)合使用。唐煥玲等[5]針對(duì)文本表示中的語(yǔ)義缺失問(wèn)題,基于LDA主題模型和Word2vec模型,提出一種新的文本語(yǔ)義增強(qiáng)方法,較其他經(jīng)典模型效果均有所改善。席笑文等[6]針對(duì)傳統(tǒng)LDA主題模型忽略專(zhuān)利文本上下文間語(yǔ)義關(guān)聯(lián)的問(wèn)題,提出了基于word2vec和LDA主題模型的技術(shù)相似性可視化研究方法,實(shí)驗(yàn)證明了該模型在技術(shù)相似性測(cè)度分析中具有較好的效果;有的則基于Word2Vec詞向量探討行業(yè)應(yīng)用問(wèn)題,開(kāi)拓模型的應(yīng)用場(chǎng)景。周豐等[7]基于Word2Vec大數(shù)據(jù)語(yǔ)義分析工具,通過(guò)大數(shù)據(jù)分析各種瓶裝水的評(píng)論信息,挖掘其深層印象,從而指導(dǎo)瓶裝水的設(shè)計(jì)實(shí)踐。謝爽等[8]針對(duì)體檢數(shù)據(jù)中文本型數(shù)據(jù)特征提取問(wèn)題,提出利用Word2vec和卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合的方法對(duì)數(shù)據(jù)中的文本特征進(jìn)行特征提取,建立高血壓和高血脂疾病的預(yù)測(cè)模型??梢?jiàn)Word2Vec模型在自然語(yǔ)言處理領(lǐng)域仍有自身優(yōu)勢(shì)和存在價(jià)值。然而,Word2Vec模型參數(shù)較多,在不同場(chǎng)合表現(xiàn)出的效果差異較大,到底哪些因素影響了模型分類(lèi)效果?是如何影響的?影響有多大?如何改進(jìn)提升模型效果?帶著這些問(wèn)題,本文將從模型原理出發(fā),通過(guò)數(shù)據(jù)分析實(shí)驗(yàn)找出模型分類(lèi)效果的影響因素,以期為模型的后期使用提升提供一些參考。

1? 模型原理

Word2Vec是由Google的Mikolov等[2]人提出的一個(gè)詞向量計(jì)算模型。基本模式是輸入大量已分詞的文本,輸出稠密表示的詞向量。詞向量的重要意義在于將自然語(yǔ)言轉(zhuǎn)換成了計(jì)算機(jī)能夠理解的向量。詞向量就是用來(lái)將語(yǔ)言中的詞進(jìn)行數(shù)學(xué)化的一種方式,顧名思義,詞向量就是把一個(gè)詞表示成一個(gè)向量,One-Hot編碼和分布式編碼是其常見(jiàn)的兩種編碼方式。相對(duì)于詞袋模型、TF-IDF等模型,詞向量能抓住詞的上下文、語(yǔ)義,衡量詞與詞的相似性,在文本分類(lèi)、情感分析等許多自然語(yǔ)言處理領(lǐng)域有重要作用。由于One-Hot編碼存在維度災(zāi)難、詞匯鴻溝、強(qiáng)稀疏性等缺陷,Word2Vec主要采用分布式編碼方式。Word2Vec是輕量級(jí)的神經(jīng)網(wǎng)絡(luò),主要包括CBOW(圖1)和Skip-gram(圖2)兩種模式,它們的最大區(qū)別是Skip-gram是通過(guò)中心詞去預(yù)測(cè)中心詞周?chē)脑~,而CBOW是通過(guò)周?chē)脑~去預(yù)測(cè)中心詞,二者本質(zhì)上區(qū)別不大。

以CBOW模式為例,其訓(xùn)練過(guò)程如下:

1)將中心詞的上下文詞語(yǔ)x1,x2,…,xc的one-hot編碼形式輸入到輸入層。

2)將x1,x2,…,xc分別乘以同一個(gè)矩陣WV×N后分別得到各自1×N的向量。

3)將這些1×N向量取平均得到一個(gè)1×N隱藏向量hi。

4)將隱藏向量hi乘以矩陣 ,得到1×V預(yù)測(cè)向量。

5)將1×V向量進(jìn)行softmax歸一化處理。

6)將概率值最大的數(shù)對(duì)應(yīng)的詞作為預(yù)測(cè)詞yj。

7)將預(yù)測(cè)結(jié)果yj向量和真實(shí)標(biāo)簽? 向量進(jìn)行交叉熵誤差計(jì)算。

8)在每次前向傳播之后反向傳播誤差,不斷更新調(diào)整WV×N和? 矩陣的值直至誤差達(dá)到預(yù)先設(shè)定的某個(gè)值。

訓(xùn)練結(jié)束后WV×N權(quán)重矩陣就是詞向量的集合,每行對(duì)應(yīng)一個(gè)詞向量。比如第n個(gè)詞對(duì)應(yīng)WV×N中的第n行,這樣,就把詞向量從V維的稀疏向量表示轉(zhuǎn)換成N維的稠密向量表示,便于后續(xù)進(jìn)一步的處理計(jì)算。

2? 影響因素

2.1? 數(shù)據(jù)來(lái)源

2.1.1? 語(yǔ)料數(shù)據(jù)

百度百科中文數(shù)據(jù)來(lái)自互聯(lián)網(wǎng)公開(kāi)數(shù)據(jù),文件大小1.42 GB,涵蓋科技、音樂(lè)、醫(yī)學(xué)、文學(xué)等社會(huì)各方面的各類(lèi)數(shù)據(jù)共計(jì)4 410 426條;R73類(lèi)摘要數(shù)據(jù)來(lái)自萬(wàn)方在線學(xué)位論文數(shù)據(jù)庫(kù)。具體處理過(guò)程是,采集萬(wàn)方官網(wǎng)學(xué)位論文欄目下近十年來(lái)中圖分類(lèi)號(hào)為R733.7、R734.2、R735.1、R735.2、R735.3、R735.7、R737.1、R737.3、R737.9的9類(lèi)學(xué)位論文摘要數(shù)據(jù),每類(lèi)5 000條,共45 000條;同樣的,S5類(lèi)摘要數(shù)據(jù)也來(lái)自萬(wàn)方在線學(xué)位論文數(shù)據(jù)庫(kù),采集萬(wàn)方官網(wǎng)學(xué)位論文欄目下近十年來(lái)中圖分類(lèi)號(hào)S511、S512、S513、S52、S53、S54、S562、S565.1、S565.2、S566、S567的11類(lèi)論文摘要數(shù)據(jù)共32 118條。

2.1.2? 分類(lèi)數(shù)據(jù)

分類(lèi)數(shù)據(jù)來(lái)自萬(wàn)方在線學(xué)位論文數(shù)據(jù)庫(kù),如表1所示。其中R73類(lèi)標(biāo)題數(shù)據(jù)采集萬(wàn)方官網(wǎng)學(xué)位論文欄目下近十年來(lái)中圖分類(lèi)號(hào)為R733.7、R734.2、R735.1、R735.2、R735.3、R735.7、R737.1、R737.3、R737.9的9類(lèi)學(xué)位論文標(biāo)題數(shù)據(jù)。去除純英文標(biāo)題樣本,有多分類(lèi)號(hào)的論文數(shù)據(jù)則確保只使用一次,經(jīng)過(guò)數(shù)據(jù)清洗去重后,篩選出每類(lèi)5 000條數(shù)據(jù),并從中分別隨機(jī)抽取10%作為驗(yàn)證數(shù)據(jù),10%作為評(píng)價(jià)數(shù)據(jù)。故訓(xùn)練樣本集共9類(lèi)36 000條數(shù)據(jù),評(píng)價(jià)樣本集為9類(lèi)4 500條數(shù)據(jù),驗(yàn)證樣本集為9類(lèi)4 500條數(shù)據(jù),并且各數(shù)據(jù)集之間不存在任何重復(fù)。同樣地,S5類(lèi)標(biāo)題數(shù)據(jù)采集自萬(wàn)方官網(wǎng)學(xué)位論文欄目下近十年來(lái)中圖分類(lèi)號(hào)S511、S512、S513、S52、S53、S54、S562、S565.1、S565.2、S566、S567的11類(lèi)學(xué)位論文標(biāo)題數(shù)據(jù),經(jīng)過(guò)刪除純英文標(biāo)題樣本、清洗去重、確保多分類(lèi)號(hào)的論文數(shù)據(jù)只使用一次等處理之后,得到非平衡數(shù)據(jù)樣本總量32 199條,其中樣本量最大的為S511類(lèi)共6 047條,最小的為S52類(lèi)共242條,同樣按照8:1:1的比例隨機(jī)劃分為訓(xùn)練集(25 763條)、驗(yàn)證集(3 215條)和測(cè)試集(3 221條)。

2.2? 實(shí)驗(yàn)環(huán)境

由于PyTorch在易用性與速度方面較優(yōu),因此本文采用PyTorch搭建深度學(xué)習(xí)框架,實(shí)驗(yàn)環(huán)境如表2所示。

2.3? 預(yù)訓(xùn)練語(yǔ)料

分別選取百度百科中文數(shù)據(jù)、R73類(lèi)摘要數(shù)據(jù)和S5類(lèi)摘要數(shù)據(jù)作為預(yù)訓(xùn)練語(yǔ)料,詞向量訓(xùn)練模型參數(shù)設(shè)置為:向量維數(shù)300,其他均采用gensim模塊中Word2Vec的默認(rèn)參數(shù)設(shè)置;分類(lèi)模型采用softmax線性分類(lèi)器,將分類(lèi)樣本詞向量(即基于詞向量模型的學(xué)位論文標(biāo)題數(shù)據(jù))直接輸入到線性分類(lèi)器中得到分類(lèi)結(jié)果,參數(shù)dropout率設(shè)置為0.5,損失函數(shù)采用交叉熵函數(shù)。

運(yùn)行結(jié)果如表3所示,R73類(lèi)中基于百度百科問(wèn)答資料訓(xùn)練語(yǔ)料的詞向量特征的分類(lèi)F1值比基于R73類(lèi)腫瘤學(xué)摘要數(shù)據(jù)訓(xùn)練語(yǔ)料得到的詞向量的分類(lèi)F1值低10.02個(gè)百分點(diǎn),后者分類(lèi)效果顯著高于前者,表明基于限定域語(yǔ)料預(yù)訓(xùn)練的詞向量表示的文本特征效果優(yōu)于廣域語(yǔ)料;從S5類(lèi)的分類(lèi)結(jié)果也可得出同樣結(jié)論,基于S5類(lèi)摘要數(shù)據(jù)語(yǔ)料的分類(lèi)結(jié)果比基于百度百科語(yǔ)料的分類(lèi)結(jié)果高出11.16個(gè)百分點(diǎn)。由此可見(jiàn),預(yù)訓(xùn)練語(yǔ)料在很大程度上影響了Word2Vec模型的詞向量訓(xùn)練效果,選取預(yù)訓(xùn)練語(yǔ)料對(duì)于Word2Vec模型分類(lèi)至關(guān)重要。限定領(lǐng)域語(yǔ)料相對(duì)于廣域語(yǔ)料針對(duì)性更強(qiáng),關(guān)注點(diǎn)更聚焦,訓(xùn)練出的詞向量在限定領(lǐng)域的表征能力更強(qiáng),從而使得模型分類(lèi)效果更好。表3顯示基于R73類(lèi)摘要數(shù)據(jù)的模型分類(lèi)效果最佳,故下文的實(shí)驗(yàn)數(shù)據(jù)集采用R73類(lèi)數(shù)據(jù)集,包括摘要數(shù)據(jù)和標(biāo)題分類(lèi)數(shù)據(jù)。

2.4? 詞向量預(yù)訓(xùn)練參數(shù)

Gensim中Word2Vec模型參數(shù)主要包括詞向量維度、窗口大小、算法選擇、是否采用負(fù)采樣、詞向量最小詞頻、最大迭代次數(shù)等。前三個(gè)是比較重要的參數(shù),如表4所示。詞向量維度表示詞向量的表達(dá)空間大小,維度越大,對(duì)文本的表征能力就越強(qiáng)。窗口大小表示詞向量上下文的最大距離,窗口越大,則與該詞產(chǎn)生上下文關(guān)系的詞的范圍就越廣。算法包括CBOW和Skip-gram兩種,主要區(qū)別在于前者是用周?chē)~去預(yù)測(cè)中心詞,后者是用中心詞去預(yù)測(cè)周?chē)~。默認(rèn)參數(shù)為:詞向量維度為300,窗口大小為5,算法為CBOW。

1)分別設(shè)置詞向量維度參數(shù)為100、200、300進(jìn)行實(shí)驗(yàn)(其他參數(shù)設(shè)為默認(rèn)),結(jié)果表明300維分類(lèi)結(jié)果高出200維0.65個(gè)百分點(diǎn),高出100維5.28個(gè)百分點(diǎn),可見(jiàn)維度越大,分類(lèi)效果越好;

2)分別設(shè)置窗口大小為4、5、6、7進(jìn)行實(shí)驗(yàn)(其他參數(shù)設(shè)為默認(rèn)),結(jié)果表明窗口大小對(duì)分類(lèi)效果的影響呈現(xiàn)倒“U”型,窗口大小設(shè)為6時(shí)分類(lèi)效果最優(yōu),達(dá)到96.81%,可見(jiàn)窗口大小設(shè)置存在一個(gè)最優(yōu)值;

3)分別設(shè)置算法參數(shù)分別為0(CBOW)和1(Skip-gram),其他參數(shù)設(shè)為默認(rèn),實(shí)驗(yàn)結(jié)果表明CBOW算法效果略?xún)?yōu)于Skip-gram,效果幾乎相當(dāng)。

2.5? 分類(lèi)模型參數(shù)

1)分別設(shè)置學(xué)習(xí)率參數(shù)為0.000 01、0.000 1、0.001、0.002、0.005、0.008、0.01、0.1、0.15、0.2、0.25,選取300維詞向量模型,訓(xùn)練輪次為3,批次大小為128,采用Softmax線性分類(lèi)器,結(jié)果表明(圖3),F(xiàn)1值在0.000 01時(shí)最小為0.145 3,0.000 1處陡增至0.763 8,在0.001處再次增至0.929 3,之后平緩增加,直至0.008處達(dá)到最大值0.938 1,之后保持在最大值附近上下微小波動(dòng),說(shuō)明學(xué)習(xí)率的選取對(duì)模型分類(lèi)效果影響較大。學(xué)習(xí)率主要影響損失函數(shù)后向傳播中對(duì)權(quán)重系數(shù)的更新(式(1))。學(xué)習(xí)率lr過(guò)小則可能出現(xiàn)權(quán)重系數(shù)w′更新不充分,使模型陷入局部最優(yōu)陷阱,找不到全局最優(yōu)解。圖4顯示學(xué)習(xí)率在0.12時(shí)模型具有較好的收斂性。

(1)

2)分別設(shè)置激活函數(shù)為ReLU、Sigmoid、Tanh,選取300維詞向量,學(xué)習(xí)率設(shè)為0.12,訓(xùn)練輪數(shù)為3,批次大小為128進(jìn)行實(shí)驗(yàn),結(jié)果(表5)顯示Tanh激活函數(shù)的F1值最高為93.51%,其次是Sigmoid的93.27,最小是ReLU的91.57%,表明Tanh為激活函數(shù)分類(lèi)效果最佳,優(yōu)于在大多數(shù)任務(wù)中表現(xiàn)突出的ReLU函數(shù)。這也說(shuō)明激活函數(shù)的選取需要根據(jù)特定任務(wù)進(jìn)行調(diào)整,并非一成不變,需要具體問(wèn)題具體分析。

3)設(shè)置批次大小分別為50、60、80、100、140、160、180,選取300維詞向量,學(xué)習(xí)率設(shè)為0.12,訓(xùn)練輪數(shù)為3進(jìn)行實(shí)驗(yàn),結(jié)果(圖5)顯示F1值呈現(xiàn)雙波峰形態(tài),在80和160處取到波峰值,在50、128、180處取得波谷值,表明批次大小并非越大越好,也并非越小越好,而是存在一個(gè)中間值使模型效果最優(yōu)。批次大小表示每批數(shù)據(jù)量的大小,決定了每次迭代用來(lái)更新模型權(quán)重的數(shù)據(jù)樣本量,值越小,隨機(jī)性越大,越便于模型尋找全局最優(yōu),但缺點(diǎn)是模型不易收斂;值越大,越能夠表征全體數(shù)據(jù)的特征,其確定的梯度下降方向越準(zhǔn)確,且迭代次數(shù)少,總體速度更快,缺點(diǎn)是相對(duì)來(lái)講缺乏隨機(jī)性,容易使梯度始終向單一方向下降,陷入局部最優(yōu)。

4)設(shè)置訓(xùn)練輪次分別為3、4、5、6、7、8,選取300維詞向量,學(xué)習(xí)率設(shè)為0.12,批次大小128,softmax作為分類(lèi)器,損失函數(shù)為交叉熵函數(shù)。結(jié)果(圖6)顯示F1值呈現(xiàn)“鋸齒”形態(tài),在3處取到最小值93.48%,在6處取得最大值94.06%,整體是呈上升趨勢(shì)。表明在一定范圍內(nèi),訓(xùn)練輪數(shù)越大,模型效果越好,但模型整體效果相差不大,考慮到時(shí)間經(jīng)濟(jì)性,選取較小輪數(shù)比較合適。

3? 結(jié)? 論

本文討論了影響Word2Vec文本分類(lèi)效果的3大主要因素,即預(yù)訓(xùn)練語(yǔ)料、詞向量預(yù)訓(xùn)練參數(shù)以及分類(lèi)模型參數(shù),得出以下結(jié)論:

1)相對(duì)于廣域預(yù)訓(xùn)練語(yǔ)料,限定域(專(zhuān)業(yè)領(lǐng)域)預(yù)訓(xùn)練語(yǔ)料針對(duì)性更強(qiáng)、關(guān)注點(diǎn)更聚焦,因此基于限定域訓(xùn)練得到的詞向量表征能力更強(qiáng),能更準(zhǔn)確的表達(dá)文本語(yǔ)義,語(yǔ)料的選取對(duì)模型分類(lèi)效果影響較大。

2)詞向量預(yù)訓(xùn)練參數(shù)中向量維度越大,表征能力越強(qiáng),分類(lèi)效果越好;窗口大小則呈現(xiàn)到“U”型影響效果,即存在一個(gè)最優(yōu)窗口使得向量表達(dá)效果最佳,可見(jiàn)窗口大小選擇對(duì)模型效果影響較大;而分類(lèi)算法在本實(shí)驗(yàn)中則表現(xiàn)出幾乎相當(dāng)?shù)男Ч?,算法選取對(duì)模型分類(lèi)效果影響不大。

3)分類(lèi)模型參數(shù)中學(xué)習(xí)率對(duì)模型效果的影響存在突變現(xiàn)象,可見(jiàn)學(xué)習(xí)率選取對(duì)模型影響較大;不同激活函數(shù)在分類(lèi)效果是存在差異,本實(shí)驗(yàn)中Tanh函數(shù)效果最佳,優(yōu)于在大多數(shù)任務(wù)中表現(xiàn)突出的ReLU函數(shù),說(shuō)明激活函數(shù)的選取需要根據(jù)特定任務(wù)進(jìn)行調(diào)整,并非一成不變,需要具體問(wèn)題具體分析;批次大小對(duì)模型效果的影響呈現(xiàn)雙波峰形態(tài),即批次大小不宜過(guò)大過(guò)小,需合理選取,說(shuō)明批次大小對(duì)模型分類(lèi)效果影響較大;訓(xùn)練輪次對(duì)模型的影響則呈“鋸齒”狀緩慢上升,但整體差異較小,考慮到時(shí)間經(jīng)濟(jì)性,選取較小輪數(shù)比較合適,也說(shuō)明訓(xùn)練輪次對(duì)模型分類(lèi)效果影響不大。

參考文獻(xiàn):

[1] BENGIO Y ,DUCHARME R,VINCENT P,et al. A Neural Probabilistic Language Models [J]. Journal of Machine Learning Research ,2003,3:1137-1155.

[2] MIKOLOV T,CHEN K,CORRADO G,et al. Efficient Estimation of Word Representations in Vector Space [J/OL].arXiv: 1301.3781 [cs.CL].(2023-01-16).https://arxiv.org/abs/1301.3781.

[3] 張克君,史泰猛,李偉男,等.基于統(tǒng)計(jì)語(yǔ)言模型改進(jìn)的Word2Vec優(yōu)化策略研究 [J].中文信息學(xué)報(bào),2019,33(7):11-19.

[4] 彭俊利,谷雨,張震,等.融合單詞貢獻(xiàn)度與Word2Vec詞向量的文檔表示 [J].計(jì)算機(jī)工程,2021,47(4):62-67.

[5] 唐煥玲,衛(wèi)紅敏,王育林,等.結(jié)合LDA與Word2vec的文本語(yǔ)義增強(qiáng)方法 [J].計(jì)算機(jī)工程與應(yīng)用,2022,58(13):135-145.

[6] 席笑文,郭穎,宋欣娜,等.基于word2vec與LDA主題模型的技術(shù)相似性可視化研究 [J].情報(bào)學(xué)報(bào),2021,40(9):974-983.

[7] 周豐,殷麗麗,沈瓊,等.基于word2vec的瓶裝水線上評(píng)論智能分析 [J].包裝工程,2022,43(S1):48-55.

[8] 謝爽,范會(huì)敏.基于Word2vec和卷積神經(jīng)網(wǎng)絡(luò)特征提取的雙高疾病預(yù)測(cè) [J].計(jì)算機(jī)應(yīng)用與軟件,2021,38(2):93-96+125.

作者簡(jiǎn)介:謝慶恒(1988—),男,漢族,江西豐城人,館員,碩士,研究方向:文獻(xiàn)編目。

猜你喜歡
文本分類(lèi)影響因素
基于組合分類(lèi)算法的源代碼注釋質(zhì)量評(píng)估方法
基于貝葉斯分類(lèi)器的中文文本分類(lèi)
基于蟻群智能算法的研究文本分類(lèi)
基于樸素貝葉斯分類(lèi)的Java課程網(wǎng)絡(luò)答疑反饋系統(tǒng)
基于K—means算法的文本分類(lèi)技術(shù)研究
水驅(qū)油效率影響因素研究進(jìn)展
突發(fā)事件下應(yīng)急物資保障能力影響因素研究
環(huán)衛(wèi)工人生存狀況的調(diào)查分析
農(nóng)業(yè)生產(chǎn)性服務(wù)業(yè)需求影響因素分析
商(2016年27期)2016-10-17 07:09:07
村級(jí)發(fā)展互助資金組織的運(yùn)行效率研究
商(2016年27期)2016-10-17 04:40:12
眉山市| 行唐县| 阳东县| 闽清县| 丰台区| 扎囊县| 静安区| 五指山市| 青州市| 历史| 土默特左旗| 香格里拉县| 海伦市| 通海县| 屏东县| 大同市| 淮北市| 章丘市| 双流县| 西昌市| 安塞县| 锦屏县| 渝中区| 仁寿县| 荔浦县| 张家港市| 肇州县| 沙雅县| 新泰市| 东至县| 宁强县| 获嘉县| 宜兰县| 桐柏县| 富平县| 安平县| 桓台县| 申扎县| 汉源县| 汝州市| 高淳县|