国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

注意力機制改進信息增益模型

2022-11-10 05:04:36黃思佳鄭肇謙
長春工業(yè)大學學報 2022年2期
關(guān)鍵詞:特征詞特征選擇增益

黃思佳, 鄭 虹, 鄭肇謙

(長春工業(yè)大學 計算機科學與工程學院, 吉林 長春 130102)

0 引 言

自機器學習發(fā)展以來,文本分類一直是重要的研究領(lǐng)域。隨著互聯(lián)網(wǎng)行業(yè)技術(shù)的成熟,文本分類研究也越來越成熟。特征選擇是特征工程的重要組成部分,不僅在文本分類中得到廣泛應用,而且在計算機視覺等領(lǐng)域也得到了廣泛應用。特征選擇的主要工作過程一般是按照規(guī)定的準則去除一些低相關(guān)性的特征后,選取合理有效的特征,以降低特征空間的維數(shù)過程。有效的特征選擇有助于減少噪聲數(shù)據(jù),提高工作效率。文本分類中的特征選擇是指選擇與類別相關(guān)度高、冗余度小的特征。目前,常見的特征選擇方法有:皮爾遜相關(guān)系數(shù)(PCCs)、信息增益(IG)、基尼系數(shù)(Gini index)等。大量的研究數(shù)據(jù)表明,信息增益算法在一般情況下的分類效率優(yōu)于其他特征選擇算法。

近幾年,很多學者對信息增益算法進行研究并對其改進。張方釗[1]提出一種基于類信息的信息增益算法,并與LDA主題模型相結(jié)合,以解決信息增益在詞頻和語義信息上的缺陷。董露露等[2]在傳統(tǒng)信息增益中引入了最大詞頻比因子和離散度因子解決信息增益算法在不平衡數(shù)據(jù)集上分類性能下降的問題。郭頌等[3]提出一種基于特征分布加權(quán)的信息增益改進算法,克服信息增益的缺陷問題。

由上述已取得的成果可以看出,以往學者改進信息增益算法主要是從算法忽略詞頻因素對特征的影響和算法在不平衡數(shù)據(jù)集上分類效果不好這兩方面著手。而針對信息增益算法忽略詞性因素和上下文相關(guān)語義的問題改進較少。為了解決這一問題,文中提出一種基于注意力機制的改進信息增益模型,實驗表明,改進后的特征選擇模型在分類性能上有所提升。

1 相關(guān)理論

1.1 信息增益

信息增益[4]在概率學上是指在一個條件下,信息復雜度也就是信息的不確定性減少的程度,就是信息熵與條件上的差值。熵是不確定性或隨機變量的一種度量,假設一個隨機變量

X={x1,x2,…,xn},

其概率分布為p(x),則該隨機變量的熵為

H(x)=-Σx?Xp(x)logp(x)。

(1)

在文本分類[5]中,信息增益通過一個特征詞能給整個分類提供信息量來評價其重要性,是沒有特征的文本的熵與采用特征后的文本的熵之間的差值,IG的計算公式為

IG(x)=H(C)-H(C|x)=

(2)

式中:P(Ci)----Ci類文檔在語料庫中出現(xiàn)的頻率;

P(x)----含特征x的文檔的頻率;

P(Ci|x)----含特征x的文檔屬于Ci類的概率;

M----類別數(shù)。

1.2 注意力機制

簡單來說,注意力機制就是關(guān)注重點,而忽略其他不重要的因素是否重要這一點取決于應用程序場景的不同。在生活中也是如此,當我們在讀一篇文章的時候,通常會潛意識里記住重要的關(guān)鍵詞或者是關(guān)鍵的句子,最快速地理解一句話或一段話的意思。而每個人的注意力又不同,也就“每個人看到的世界都是不一樣的”這個說法。在面對數(shù)據(jù)時,要表現(xiàn)出的關(guān)注程度是不一樣的,需要為重要性不一致的數(shù)據(jù)信息分配不同的關(guān)注度,這也是注意力機制應用的意義所在。

根據(jù)不同的應用場景,Attention分為空間注意力(用于圖像處理)和時間注意力(用于自然語言處理),Attention的原理是計算當前輸入序列和輸出向量之間的匹配程度,高度匹配是注意力集中點,相對分數(shù)也就越高。

2 基于注意力機制的改進特征選擇模型

針對傳統(tǒng)信息增益算法的不足,文中對其進行相關(guān)改進:針對忽略詞性題,為算法引入詞性標注過濾;針對忽略上下文相關(guān)語義,引入注意力機制。提出一種基于注意力機制的改進特征選擇模型,如圖1所示。

該模型主要包括詞性過濾模塊、注意力機制模塊、全連接輸出模塊。模型的輸入部分是原始文本,經(jīng)過簡單的預處理后,首先進行詞性標注過濾,這一步主要根據(jù)詞性對特征詞篩選過濾,去除冗余詞。

通過IG(信息增益)特征選擇[6]算法選出特征詞,生成詞向量。同時使用Bert預處理模型生成語義向量,將詞向量與語義向量融合,連接注意力模塊。最后連接全連接層,通過softmax得到最后的分類結(jié)果。

引入注意力模塊的主要目的就是更好地聯(lián)系上下文語義特征,為與類別有較強關(guān)聯(lián)的特征詞可以分配更多的注意力。

2.1 詞性標注

與大多數(shù)傳統(tǒng)特征選擇算法一樣,信息增益算法在特征選擇時沒有考慮特征詞詞性對分類的影響。

通常文本經(jīng)過去停用詞后,剩下的文本大部分都為有價值的信息。傳統(tǒng)的特征選擇算法通常會直接將預處理后的詞送入算法中進行篩選。但實際上,大部分有價值的特征詞是以名詞、形容詞和副詞等為主。雖然預處理步驟也會對英文文本進行詞根還原,但是處理后的文本還是會存在大量的其他形式。

圖1 基于注意力機制的改進特征選擇模型結(jié)構(gòu)

因此,文中在將文本送入信息增益算法之前,采用了雙重保險模式,根據(jù)詞性對特征詞又進行了一次過濾。nltk[7]為我們提供了文本特征詞的詞性,文本對其進行篩選,篩選后留下′JJ′,′JJR′,′JJS′,′NN′,′NNS′,′RB′,′RBR′,′RBS′,′RP′,′VB′,′VBD′,′VBG′,′WRB′幾種詞性的詞作為特征詞進行選擇。

2.2 Bert預訓練模型

引入Bert模型主要是為了將IG算法選擇出來的詞向量與Bert模型訓練得到的語義向量相結(jié)合。Bert模型[7]是一種基于雙向Transformer[8]編譯器的實現(xiàn)自然語言處理的模型。主要有Embedding模塊、Transformer模塊和輸出的預微調(diào)模塊[9]。詞嵌入、段嵌入以及位置嵌入三個嵌入信息都是由Bert模型訓練得到的,將這三部分的嵌入信息相加,即可得到最后的文本輸入表征。BERT中只使用了經(jīng)典Transformer架構(gòu)中的Encoder部分,完全舍棄了Decoder部分。經(jīng)過Transformer層的處理,Bert模型的最后一次會根據(jù)任務的不同需求進行調(diào)整。

2.3 注意力機制的引入

引入多頭注意力機制[9]來更有效地提取特征,主要目的是為與類別相關(guān)性強的特征分配更多的權(quán)重,從而更有效地提升特征選擇的能力。

將原始文本分別進行文本分詞和輸入到Bert模型中,進行文本分詞后,經(jīng)過特征詞性過濾后進行文本表示,得到特征詞向量

Cm=(c1,c2,…,cm),

輸入到Bert模型后得到句子向量

Sm=(s1,s2,…,sm)。

將得到的特征向量與句子向量進行矩陣拼接。通過隨機Embedding[10-11]生成融合向量

Em=Con(Cm,Sm)。

多頭注意力機制可以有效地捕捉上下文依賴關(guān)系,準確捕捉詞法和句法語義特征。將融合向量Em送入Q,K,V一般框架下的標準Attention。其計算過程為

Attention(Q,K,V)=softmax(fatt(Q,K))V,

(3)

式中:fatt----概率對齊函數(shù)。

采用Scaled Dot Product,

(4)

式中:dk----矩陣的維度。

在多頭注意力機制中,使用不同的權(quán)重矩陣將輸入特征線性化為不同的信息子空間,并在每個子空間中執(zhí)行相同的注意力計算,以充分提取文本上下文相關(guān)語義。 i-head注意力的計算過程為

(5)

最后,將各head合并,得到多頭自注意力機制的輸出,設多頭注意力的頭數(shù)為n。

則Ek經(jīng)過多頭注意力計算得到A:

MHS(Q,K,V)=concat(Q1,Q2,…,Qn),

(6)

A=MHS(Ek,Ek,Ek),

(7)

完成特征選擇過程。將經(jīng)過注意力機制得到的特征向量送入全連接層,再經(jīng)過最后softmax分類器得到文本所屬類別的概率,以驗證特征選擇過程的有效性。

ρ=Linear(A),

(8)

ρ*=argmax(ρ),

(9)

式中:ρ----用來預測文本所屬類別;

ρ*----經(jīng)過函數(shù)argmax計算,導致概率值最大的文本類別標簽。

3 實驗及結(jié)果分析

3.1 實驗環(huán)境

操作系統(tǒng):win11;

GPUNVIDIA TITAN XP*4;

編程語言python;

深度學習框架為pytorch。

3.2 數(shù)據(jù)集介紹

文中使用的實驗數(shù)據(jù)集是國外來源的影評文本數(shù)據(jù)集,數(shù)據(jù)集包含20 000多條真實的電影影評,共分為兩個類別:好評和差評。

數(shù)據(jù)集包含兩個標簽內(nèi)容,分別是content和category。

整體數(shù)據(jù)集按7∶3分為訓練集和測試集。

3.3 參數(shù)聲明

模型中的參數(shù)設置見表1。

表1 實驗中的參數(shù)設置

3.4 評價指標

目前,在自然語言處理領(lǐng)域的評價指標[12]多種多樣,但在文本分類領(lǐng)域一般使用準確率P、召回率R和F1值作為評價指標,具體計算公式為:

(10)

(11)

(12)

表2 評價指標中變量含義

3.5 實驗結(jié)果與分析

為了驗證文中提出的基于注意力機制的改進信息增益模型的有效性,文本做了對比實驗,前人提出的其他模型[13]與文中改進的特征選擇模型在相同條件下進行,分別與Bert、CNN、Seq2Seq_Att和transformer進行了對比,文中改進模型在準確率上略有提升,損失值上也略有進步。不同模型與文中提出的模型在影評文本的驗證集上效果見表3。

表3 不同模型的不同評價指標

通過表3中模型準確率對比可以看出,引入Bert模型的句子向量,并加入Attention機制后的改進特征選擇模型在準確率上有了提升。從上述實驗數(shù)據(jù)結(jié)果可以得出,文中改進模型在同等條件下與前人提出的模型在分類任務上有不錯的提升,傳統(tǒng)的IG算法在加入詞性過濾和Attention機制后,整個特征選擇結(jié)果更加準確,改進模型在特征選擇上有效果。

在準確率、召回率和F1值的表現(xiàn)上看,文中準確率與只使用Bert模型時僅提升約2%,召回率有所增長,表明在傳統(tǒng)特征選擇算法與Bert模型結(jié)果是存在效果的,但Bert模型的預訓練對語義信息的捕捉能力更強??傮w來說,文中提出的改進模型在特征選擇上效果良好,且在分類效果上表現(xiàn)也具有優(yōu)勢。

4 總結(jié)與展望

提出的基于注意力機制的改進特征選擇模型,其主要創(chuàng)新點在于為IG算法引入了Bert模型和注意力機制,又改進了傳統(tǒng)特征選擇算法不考慮詞性對分類效果的這一問題。這種詞性過濾的創(chuàng)新,大大降低了特征選擇算法的計算開銷,減少了冗余;Bert模型與傳統(tǒng)IG算法結(jié)合,提升特征選擇的能力,注意力機制的引入,為與類別相關(guān)性強的特征分配更大的特征權(quán)重。對比實驗結(jié)果表明,文中提出的改進模型效果優(yōu)于其他模型。

雖然本模型在準確率上稍有提升,在文中重點數(shù)據(jù)集上也展現(xiàn)出較好的分類效果,但是,文本的工作仍有很多不足,例如,在結(jié)合IG算法與Bert模型時,仍存在一些特征詞向量丟失的情況,對于影評數(shù)據(jù)集中短文本特征空間稀疏的問題沒有得到良好的解決,對影評中一些口語、俚語詞判斷不準確等。因此,要繼續(xù)對深度學習模型進行研究,并對IG算法的公式進行改進,爭取進一步提升文中模型的效果。

猜你喜歡
特征詞特征選擇增益
基于增益調(diào)度與光滑切換的傾轉(zhuǎn)旋翼機最優(yōu)控制
基于單片機的程控增益放大器設計
電子制作(2019年19期)2019-11-23 08:41:36
基于Multisim10和AD603的程控增益放大器仿真研究
電子制作(2018年19期)2018-11-14 02:37:02
基于改進TFIDF算法的郵件分類技術(shù)
產(chǎn)品評論文本中特征詞提取及其關(guān)聯(lián)模型構(gòu)建與應用
Kmeans 應用與特征選擇
電子制作(2017年23期)2017-02-02 07:17:06
聯(lián)合互信息水下目標特征選擇算法
面向文本分類的特征詞選取方法研究與改進
基于特征選擇和RRVPMCD的滾動軸承故障診斷方法
基于二元搭配詞的微博情感特征選擇
計算機工程(2014年6期)2014-02-28 01:26:36
滁州市| 合阳县| 门源| 南涧| 元谋县| 宁陵县| 香河县| 吴川市| 囊谦县| 额济纳旗| 个旧市| 深水埗区| 颍上县| 石台县| 安仁县| 南部县| 安达市| 北票市| 通化县| 彭水| 白水县| 凌云县| 临海市| 深水埗区| 从江县| 淮北市| 三门县| 申扎县| 富裕县| 浦县| 宁武县| 田林县| 阳泉市| 潜江市| 云南省| 吉水县| 邛崃市| 宝山区| 长岭县| 浑源县| 红桥区|