国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合單詞貢獻(xiàn)度與Word2Vec 詞向量的文檔表示

2021-04-29 03:21:00彭俊利耿小航
計(jì)算機(jī)工程 2021年4期
關(guān)鍵詞:貢獻(xiàn)度文檔語義

彭俊利,谷 雨,張 震,耿小航

(杭州電子科技大學(xué)通信信息傳輸與融合技術(shù)國防重點(diǎn)學(xué)科實(shí)驗(yàn)室,杭州 310000)

0 概述

隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展,文檔表示方法已由基于詞頻信息的詞袋模型(Bag-of-Word,BOW)[1-2]逐漸轉(zhuǎn)向基于詞嵌入(Word Embedding)的表示法。詞袋模型將文檔視為多個(gè)詞的集合,其不考慮詞的順序和語義等信息,使用與詞集合相同維度的向量來表示文檔,向量中每一維所包含的數(shù)值即為該位置所表示詞的權(quán)重[3-4]。雖然詞袋模型在支持向量機(jī)(Support Vector Machine,SVM)、貝葉斯分類器和邏輯回歸分類器中可得到較好效果,但仍存在一些問題[5-6]。當(dāng)數(shù)據(jù)集較大時(shí),采用詞袋模型獲得的文檔向量維度會很高,從而導(dǎo)致維度災(zāi)難,而且文檔中出現(xiàn)的詞語數(shù)量較多,但在表示為高維向量時(shí)只有極少數(shù)的維度存在有效權(quán)重[7-8]。例如,文檔中出現(xiàn)1 000個(gè)詞,詞向量維度為10萬,但其中僅有1 000 個(gè)維度存在有效權(quán)重。此外,詞袋模型僅考慮了詞語的頻次信息,沒有在詞語與上下文之間建立聯(lián)系,導(dǎo)致詞語的語義信息不足,從而無法區(qū)分一詞多義或多詞一義的情況。

以詞嵌入為代表的基于深度學(xué)習(xí)的詞向量表示法在詞語與上下文之間建立聯(lián)系,把維數(shù)為所有詞語數(shù)量的高維空間嵌入到一個(gè)維數(shù)較低的連續(xù)向量空間中,每個(gè)詞語都被映射為實(shí)數(shù)域上的向量,彌補(bǔ)了詞頻統(tǒng)計(jì)法存在的不足[9-10]。MIKOLOV 等人于2013 年構(gòu)建Word2Vec 詞嵌入模型[11],其利用詞語與上下文的關(guān)系將詞語轉(zhuǎn)化為一個(gè)低維實(shí)數(shù)向量,從而有效地區(qū)分了一詞多義或多詞一義的情況。此后,EMLO、BERT 等詞嵌入模型相繼出現(xiàn)。雖然這些模型在多項(xiàng)自然語言處理任務(wù)中均獲得了性能提升,但由于Word2Vec 能夠簡單、高效地獲取詞語的語義向量,因此其依然被廣泛應(yīng)用于分類任務(wù)、推薦系統(tǒng)和中文分詞等方面。

文檔由大量詞語構(gòu)成,但其中只有少數(shù)詞語能代表文檔,而大部分為噪聲詞語,如何去除噪聲詞語,充分利用具有表征性詞語的語義信息構(gòu)建文檔向量是一個(gè)難題?,F(xiàn)有研究多將詞頻-逆文檔頻率(Term Frequency-Inverse Document Frequency,TF-IDF)算法[12]和Word2Vec 相結(jié)合構(gòu)建文檔向量。文獻(xiàn)[3]通過考慮詞語的重要性,提出一種融合Word2Vec詞向量與TF-IDF權(quán)重的文檔表示法,并在搜狗中文文本語料庫上驗(yàn)證了方法的有效性。文獻(xiàn)[13]采用Word2Vec對微博文本進(jìn)行擴(kuò)展后以TF-IDF方法表示句向量,將句子中每個(gè)詞的詞向量相加形成句向量。文獻(xiàn)[14]將詞性引入TF-IDF算法,結(jié)合Word2Vec生成文本向量,并在復(fù)旦大學(xué)中文文本分類數(shù)據(jù)集上驗(yàn)證方法的有效性。文獻(xiàn)[15]通過融合Word2Vec模型與改進(jìn)TF-IDF算法獲取文本向量,利用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行分類,并在THUCNews數(shù)據(jù)集上驗(yàn)證方法的有效性。

上述方法結(jié)合了詞語的TF-IDF 權(quán)重與Word2Vec詞向量,但均未考慮文檔中只有少數(shù)詞語具有表征性的事實(shí),影響了分類性能。針對該問題,本文提出一種新的文檔表示方法。設(shè)計(jì)改進(jìn)的單詞貢獻(xiàn)度(Term Contribution,TC)算法篩選具有表征性的詞語集合,將其中所有詞語的單詞貢獻(xiàn)度與Word2Vec 詞向量相結(jié)合構(gòu)建文檔向量。為驗(yàn)證該方法的有效性,在搜狗中文文本語料庫、復(fù)旦大學(xué)中文文本分類語料庫和IMDB英文語料庫上進(jìn)行實(shí)驗(yàn),并與相關(guān)方法進(jìn)行對比。

1 相關(guān)工作

1.1 詞的量化表示

1.1.1 TF-IDF 算法

TF-IDF 算法以概率統(tǒng)計(jì)為基礎(chǔ),計(jì)算一個(gè)詞語在數(shù)據(jù)集中的重要程度。當(dāng)一個(gè)詞語在某篇文檔中出現(xiàn)的頻率越高而在數(shù)據(jù)集其他文檔中出現(xiàn)的頻率越低,則該詞語的表征性越強(qiáng),其TF-IDF 值越大。在TF-IDF 算法中,TF 指詞頻,即詞語在文檔中出現(xiàn)的頻率,IDF 指逆文檔頻率。TF 和IDF 的計(jì)算公式分別如式(1)和式(2)所示:

其中,|wi|表示詞語wi在文檔dj中出現(xiàn)的次數(shù),|dj|表示文檔dj中所有詞語的總數(shù),|D|表示數(shù)據(jù)集中的文檔總數(shù),nw表示包含詞語wi的文檔數(shù)目。由此可以得出詞語wi在文檔dj中歸一化后的TF-IDF 權(quán)重計(jì)算公式,如式(3)所示:

然而,TF-IDF 權(quán)重只考慮了詞語在數(shù)據(jù)集中的頻次信息,無法表達(dá)詞語的語義信息。例如,“番茄”和“西紅柿”表示的意義相同,若在數(shù)據(jù)集中出現(xiàn)的頻次不同,則其TF-IDF 權(quán)重可能會相差很大。

1.1.2 Word2Vec 模型

受文獻(xiàn)[16]提出的NNLM 模型啟發(fā),MIKOLOV等人[11]提出了Word2Vec 模型。Word2Vec 與NNLM 的區(qū)別在于:NNLM 是一個(gè)語言模型,詞向量只是“副產(chǎn)品”,而Word2Vec是一種用于獲取詞向量的詞嵌入模型。

Word2Vec 主要包括CBOW 和Skip-gram 兩種模型[17]:CBOW 模型利用詞wt的前后各c個(gè)詞來預(yù)測當(dāng)前詞,如圖1(a)所示;Skip-gram 模型利用wt預(yù)測其前后各c個(gè)詞,如圖1(b)所示。

圖1 Word2Vec 模型示意圖Fig.1 Schematic diagram of Word2Vec model

CBOW模型的輸入層是詞wt的前后2c個(gè)one-hot詞向量,投影層將這2c個(gè)詞向量累加求和,輸出層是一棵以訓(xùn)練數(shù)據(jù)中所有的詞作為葉子節(jié)點(diǎn),以各詞在數(shù)據(jù)中出現(xiàn)的次數(shù)作為權(quán)重的Huffman 樹[3],此模型應(yīng)用隨機(jī)梯度上升法預(yù)測投影層的結(jié)果作為輸出。Skip-gram模型與之類似。當(dāng)獲得所有詞的詞向量后,可發(fā)現(xiàn)類似如下規(guī)律:“king”?“man”+“woman”=“queen”[18],可見詞向量能夠有效表達(dá)詞語的語義信息。

1.2 單詞貢獻(xiàn)度

單詞貢獻(xiàn)度[19]用于計(jì)算數(shù)據(jù)集中特征詞t 對于文本相似性的貢獻(xiàn)程度,計(jì)算公式如式(4)所示:

其中,f(w,d)表示單詞w 在文檔d 中的TF-IDF 權(quán)重。

詞語的文檔頻數(shù)越高其IDF 值越低,當(dāng)所有文檔都包含該特征詞時(shí),其IDF 值為0。而那些在大部分文本中出現(xiàn)的特征詞因?yàn)镮DF 值非常小,所以TC值也會較小。當(dāng)特征詞只出現(xiàn)在一個(gè)文本或所有文本中,其TC 值為0。在文檔頻數(shù)適中的情況下,TF-IDF 權(quán)重較大的特征詞具有較大的TC 值。

1.3 文檔的量化表示

文檔的量化表示就是將非結(jié)構(gòu)化的文本信息轉(zhuǎn)化為計(jì)算機(jī)可處理的數(shù)字信息[20],本文主要介紹以下兩種表示方法。

1.3.1 基于詞頻信息的表示方法

經(jīng)典的文檔量化方法是BOW 模型,主要原理是詞one-hot 編碼的疊加[3],如數(shù)據(jù)集中共9 個(gè)詞語,其中,“番茄”的one-hot 編碼是[0,0,0,1,0,0,0,0,0],“西紅柿”的one-hot 編碼是[0,1,0,0,0,0,0,0,0],若一篇文檔僅包含“番茄”和“西紅柿”,則文檔向量表示為[0,1,0,1,0,0,0,0,0]。BOW 模型中僅體現(xiàn)了詞語是否出現(xiàn)在文檔中,可以看出很難利用該向量計(jì)算出與實(shí)際相符的文檔相似度。因此,研究者提出了許多改進(jìn)方法。應(yīng)用詞的TF-IDF 權(quán)重代替BOW 模型中的非“0”值是最常用的一種方法,它能夠有效計(jì)算文本間的相似度,但這種基于詞頻統(tǒng)計(jì)的方法容易導(dǎo)致向量的高維性和稀疏性。

1.3.2 基于Word2Vec 的表示方法

基于Word2Vec 的文檔表示方法解決了傳統(tǒng)詞向量高維性和稀疏性的問題,并引入了語義信息,因此其被廣泛應(yīng)用。此類方法的基本流程是先獲取文檔中所有詞的詞向量,再通過聚類或取平均值的方法進(jìn)行文檔向量表示[3]。很多研究者考慮到單詞的重要性,將TF-IDF 權(quán)重與Word2Vec 相結(jié)合,這樣雖然可以使性能得到提升,但很多無區(qū)分度的詞語依然會影響文檔向量的表征性。

2 融合改進(jìn)TC 算法與Word2Vec 的文檔表示

考慮到文檔中無區(qū)分度詞語對文檔向量表征性的影響以及詞語在文檔中的重要性,本文對傳統(tǒng)單詞貢獻(xiàn)度算法進(jìn)行改進(jìn),在Word2Vec 詞向量的基礎(chǔ)上,結(jié)合改進(jìn)算法提出一種新的文檔向量表示方法。

2.1 改進(jìn)的單詞貢獻(xiàn)度算法

由式(4)可知,傳統(tǒng)的單詞貢獻(xiàn)度算法是將不同文本中相同單詞的TF-IDF 值兩兩相乘再相加,這樣會嚴(yán)重弱化IDF 值所包含的語義信息,即弱化單詞在整個(gè)數(shù)據(jù)集中的重要程度。為解決這一問題,本文提出一種新的計(jì)算方法:先將每篇文檔中相同單詞的TF 值進(jìn)行兩兩相乘再相加的操作,得到根據(jù)TF 值計(jì)算出的單詞權(quán)值,再將該值與IDF 相乘。這樣得到的單詞貢獻(xiàn)度不僅保留了由TF 值計(jì)算得到的權(quán)值,同時(shí)也保留了IDF 值包含的完整語義信息,提高了特征詞與噪聲詞的區(qū)分度。單詞貢獻(xiàn)度的計(jì)算公式如式(5)所示:

其中,tfii和tfij表示單詞wi在第i篇文檔和第j篇文檔中的文檔頻率TF 值,idfi表示wi的逆文檔頻率IDF 值。

2.2 Word2Vec 詞向量與改進(jìn)單詞貢獻(xiàn)度的融合

設(shè)數(shù)據(jù)集D中包含M個(gè)文檔,首先將M個(gè)文檔中的內(nèi)容采用分詞工具進(jìn)行分詞,利用Word2Vec 模型進(jìn)行訓(xùn)練,獲取每個(gè)詞語對應(yīng)的n維詞向量V=(v1,v2,…,vn),同時(shí)應(yīng)用改進(jìn)的單詞貢獻(xiàn)度算法計(jì)算每個(gè)單詞的貢獻(xiàn)度。對所有單詞按貢獻(xiàn)度大小進(jìn)行降序排列,設(shè)置貢獻(xiàn)度閾值x,選出貢獻(xiàn)度大于x的前W個(gè)單詞構(gòu)建單詞集合T。

對于文檔dj(j=1,2,…,M),找出集合T中存在的單詞,文檔向量可表示為:

其中,Vwi表示詞語wi的詞向量,TCwi表示詞語wi的單詞貢獻(xiàn)度。通過改進(jìn)TC 與Word2Vec 的融合,能夠?qū)卧~對文檔的重要性權(quán)值融入包含語義信息的詞向量,使詞向量更具表征性。本文方法流程如圖2 所示。

圖2 本文方法流程Fig.2 Procedure of the proposed method

3 實(shí)驗(yàn)

3.1 分類性能評價(jià)指標(biāo)

本文采用的是分類任務(wù)最常用的評價(jià)指標(biāo)準(zhǔn)確率、召回率和F1值。

準(zhǔn)確率是指分類結(jié)果中某類被正確分類的文檔數(shù)目與所有被分入該類文檔總數(shù)的比值,計(jì)算公式如式(7)所示:

召回率是指某類被正確分類的文檔數(shù)與該類實(shí)際文檔數(shù)的比值,計(jì)算公式如式(8)所示:

F1值是綜合準(zhǔn)確率與召回率的評價(jià)指標(biāo),計(jì)算公式如式(9)所示:

在上述評價(jià)指標(biāo)中,TP 表示分入A 類實(shí)際也為A 類的文檔數(shù),F(xiàn)N 表示未分入A 類而實(shí)際為A 類的文檔數(shù),F(xiàn)P 表示分入A 類而實(shí)際不為A 類的文檔數(shù)。

3.2 實(shí)驗(yàn)結(jié)果與分析

選用搜狗實(shí)驗(yàn)室整理的中文文本分類語料庫作為實(shí)驗(yàn)數(shù)據(jù)集,語料庫內(nèi)文本被分為9類,分別為財(cái)經(jīng)(C1)、互聯(lián)網(wǎng)(C2)、健康(C3)、教育(C4)、軍事(C5)、旅游(C6)、體育(C7)、文化(C8)和招聘(C9),每類包含1 990 篇文檔。

分別采用TF-IDF、均值Word2Vec、TF-IDF 加權(quán)Word2Vec、TC 加權(quán)Word2Vec 模型構(gòu)建的文檔向量與本文模型構(gòu)建的文檔向量進(jìn)行分類結(jié)果對比。經(jīng)過多次試驗(yàn),在計(jì)算單詞貢獻(xiàn)度時(shí)將貢獻(xiàn)度閾值設(shè)置為效果最佳的0.009,本文模型提取19 082 個(gè)具有表征性的詞語。選用lib-svm 作為分類器,所有實(shí)驗(yàn)采用五折交叉驗(yàn)證。各模型的分類性能對比如表1~表5 所示。

由表1、表2和表5可以看出,本文模型的分類性能優(yōu)于TF-IDF模型和均值Word2Vec模型,表明TF-IDF與Word2Vec融合后生成的詞向量包含更豐富的語義信息,能夠更準(zhǔn)確地進(jìn)行分類。由表3、表4和表5可以看出,本文模型在SVM 分類器上平均準(zhǔn)確率、召回率和F1值較TF-IDF 加權(quán)Word2Vec 模型分別提升2.27%、2.24%和2.26%,較TC加權(quán)Word2Vec模型分別提升1.32%、1.29%和1.25%。通過比較5種模型分類性能評價(jià)的平均值可以看出,本文模型在準(zhǔn)確率、召回率、F1值指標(biāo)上均獲得了最佳的效果,驗(yàn)證了本文方法在中文文檔表示方面的有效性。

表1 TF-IDF 模型分類性能Table 1 Classification performance of TF-IDF model %

表2 均值Word2Vec 模型分類性能Table 2 Classification performance of average Word2Vec model %

表3 TF-IDF 加權(quán)Word2Vec 模型分類性能Table 3 Classification performance of TF-IDF weighted Word2Vec model %

表4 TC 加權(quán)Word2Vec 模型分類性能Table 4 Classification performance of TC weighted Word2Vec model %

表5 本文模型分類性能Table 5 Classification performance of the proposed model %

此外,采用復(fù)旦大學(xué)中文文本分類語料庫中文檔數(shù)目較多的Art類、Agriculture類、Economy類和Politics類數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),將本文模型與文獻(xiàn)[13]提出的PTF-IDF 加權(quán)Word2Vec 模型進(jìn)行對比,如圖3 所示??梢钥闯?,本文模型在準(zhǔn)確率、召回率和F1值上均具有優(yōu)勢,進(jìn)一步驗(yàn)證了本文方法的有效性

圖3 本文模型與文獻(xiàn)[13]模型的分類性能對比Fig.3 Classification performance comparison of the proposed model and the model in literature[13]

上述實(shí)驗(yàn)均采用了中文語料,僅驗(yàn)證了本文方法在中文文本表示方面的有效性。為驗(yàn)證其對英文文本表示的有效性,選取IMDB 文本情感分類語料庫作為英文實(shí)驗(yàn)數(shù)據(jù)集,其中包括積極和消極兩類數(shù)據(jù),從每類中選取2 500 篇英文數(shù)據(jù),采用五折交叉驗(yàn)證。結(jié)果表明,本文模型的分類準(zhǔn)確率為76.26%,驗(yàn)證了其在英文文本表示方面的有效性。但由結(jié)果可知,英文文本分類準(zhǔn)確率低于中文文本分類,這可能有兩點(diǎn)原因:1)由于英文數(shù)據(jù)集較少,本文僅用3 萬多篇英文文本訓(xùn)練Word2Vec 模型,訓(xùn)練語料的不足導(dǎo)致模型無法學(xué)習(xí)到單詞較為準(zhǔn)確的語義信息;2)由于英文存在各類語態(tài)的表達(dá)方法,單詞在不同語態(tài)下需要添加不同后綴,使得多詞一義的情況進(jìn)一步加重,Word2Vec 模型可能會將加了不同后綴的單詞理解為不同的單詞,單詞貢獻(xiàn)度的計(jì)算也因此受到影響。

4 結(jié)束語

針對當(dāng)前文檔向量表示方法存在的不足,本文綜合考慮單詞的重要程度和語義信息,將計(jì)算出的貢獻(xiàn)度權(quán)值與Word2Vec 詞向量進(jìn)行融合,提出一種新的文檔表示方法。實(shí)驗(yàn)結(jié)果表明,應(yīng)用于中文文本分類任務(wù)時(shí),本文模型較基于TF-IDF 模型、均值Word2Vec 模型、TF-IDF加權(quán)Word2Vec模型和傳統(tǒng)TC加權(quán)Word2Vec模型效果更好,并且其對英文文本也可實(shí)現(xiàn)有效分類。后續(xù)將從降低單詞貢獻(xiàn)度算法的時(shí)間復(fù)雜度出發(fā),進(jìn)一步優(yōu)化本文方法。

猜你喜歡
貢獻(xiàn)度文檔語義
有人一聲不吭向你扔了個(gè)文檔
語言與語義
充分把握教育對經(jīng)濟(jì)社會發(fā)展的貢獻(xiàn)度
基于貢獻(xiàn)度排序的腎透明細(xì)胞癌串?dāng)_通路分析
基于RI碼計(jì)算的Word復(fù)制文檔鑒別
“上”與“下”語義的不對稱性及其認(rèn)知闡釋
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
需求側(cè)資源促進(jìn)可再生能源消納貢獻(xiàn)度綜合評價(jià)體系
認(rèn)知范疇模糊與語義模糊
中國對外貿(mào)易對經(jīng)濟(jì)增長貢獻(xiàn)度探索——基于VAR模型的分析
正镶白旗| 通江县| 南川市| 滦南县| 顺义区| 安多县| 璧山县| 青河县| 平舆县| 冀州市| 武城县| 从江县| 定边县| 滨海县| 龙海市| 博罗县| 盐亭县| 沐川县| 中江县| 县级市| 宁河县| 和静县| 曲靖市| 新乡市| 南京市| 策勒县| 治多县| 武宣县| 上高县| 南和县| 陆川县| 瑞丽市| 井研县| 高安市| 卓尼县| 资兴市| 衡水市| 调兵山市| 汤阴县| 冕宁县| 托里县|