朱 燁,陳世平,2
1(上海理工大學(xué) 光電信息與計(jì)算機(jī)工程學(xué)院,上海 200093)2(上海理工大學(xué) 信息化辦公室,上海 200093)
隨著互聯(lián)網(wǎng)的大規(guī)模應(yīng)用,信息資源不斷增加,文本信息成為一種十分重要的信息資源.如何快速、準(zhǔn)確、全面的獲得有效信息是當(dāng)前研究的熱點(diǎn)問題.近年來,文本分類技術(shù)作為自然語言處理和機(jī)器學(xué)習(xí)中的一項(xiàng)基本任務(wù),在情感分析、垃圾郵件識(shí)別以及輿情分析中受到了人們的高度重視.
目前文本分類方法主要包括決策樹、K近鄰(KNN)、支持向量機(jī)、樸素貝葉斯、神經(jīng)網(wǎng)絡(luò)以及粗糙集等方法[1].但是在傳統(tǒng)算法中文本數(shù)據(jù)存在高維稀疏、特征表達(dá)能力較弱、特征項(xiàng)之間易相互影響的缺點(diǎn),故可能會(huì)導(dǎo)致分類時(shí)間較長(zhǎng)且分類結(jié)果較差.
卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)是近年來最流行的深度學(xué)習(xí)算法之一.其顯著特點(diǎn)在于:不同卷積核設(shè)置不同權(quán)重,提取多維特征,通過卷積層和池化層獲取文本敏感信息;卷積獨(dú)特的網(wǎng)絡(luò)結(jié)構(gòu)使得降維(特征提取)速度更快,結(jié)合權(quán)值共享使得訓(xùn)練的參數(shù)相對(duì)較少;網(wǎng)絡(luò)結(jié)構(gòu)高效簡(jiǎn)單適應(yīng)性強(qiáng)[2].
2014年,Kim[3]首先提出卷積神經(jīng)網(wǎng)絡(luò)對(duì)句子級(jí)文本分類,將單詞轉(zhuǎn)化為定長(zhǎng)詞向量,然后采用多尺寸卷積核對(duì)詞向量卷積,最后進(jìn)行池化、分類.但該文的不足之處是卷積和池化操作丟失了文本詞匯的順序和位置信息,使語義特征更難捕獲.2015年,Lai[4]使用卷積神經(jīng)網(wǎng)絡(luò)結(jié)合循環(huán)神經(jīng)網(wǎng)絡(luò)構(gòu)造網(wǎng)絡(luò)結(jié)構(gòu),提出循環(huán)卷積神經(jīng)網(wǎng)絡(luò)(Recurrent Convolutional Neural Networks,RCNN),將雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Bi-directional Long Short-Term Memory,BiLSTM)生成的上下文信息與詞向量進(jìn)行拼接并映射到低維空間,最后通過池化獲取有效特征,但其主要缺點(diǎn)就是重復(fù)計(jì)算.2016年,Conneau[5]在Kim的卷積神經(jīng)網(wǎng)絡(luò)基礎(chǔ)上實(shí)現(xiàn)了非常深層次的卷積結(jié)構(gòu),即使用小卷積和池化,池化層使用的K-MaxPooling可以獲得特征值中最具代表性的Top-K個(gè)值,保留了更多的信息.此模型卷積層多達(dá)29層,并且成功應(yīng)用于句子分類.但深層次的神經(jīng)網(wǎng)絡(luò)會(huì)使模型退化,分類效果降低.
近年來,許多學(xué)者通過研究深度神經(jīng)網(wǎng)絡(luò)和注意力機(jī)制,構(gòu)建網(wǎng)絡(luò)模型,獲得文本隱含的特征信息,使之具有更好的分類效果.2015年,Yin W[6]引入注意力機(jī)制對(duì)卷積神經(jīng)網(wǎng)絡(luò)加權(quán)計(jì)算,分別在卷積前加入注意力、池化層加入注意力、輸入層和池化層同時(shí)加入注意力,將句子和詞語間的相互影響通過注意力機(jī)制加權(quán)到卷積神經(jīng)網(wǎng)絡(luò)模型中,并運(yùn)用在語句模型創(chuàng)建上,取得了不錯(cuò)的分類效果.2017年,Pappas[7]提出分層注意力模型對(duì)段落進(jìn)行分類,使用雙向GRU獲得詞語和句子的表征,以及兩個(gè)級(jí)別的注意力機(jī)制,使模型獲取不同級(jí)別的信息,但是沒有考慮文本對(duì)象信息對(duì)分類結(jié)果的影響.2017年,Wang Z[8]提出使用最近鄰算法增強(qiáng)神經(jīng)網(wǎng)絡(luò)對(duì)文本進(jìn)行分類.首先使用BiLSTM對(duì)文本進(jìn)行訓(xùn)練,融合KNN算法計(jì)算注意力機(jī)制對(duì)K個(gè)文本加權(quán),并取得了不錯(cuò)的效果.但是BiLSTM的時(shí)間復(fù)雜度較高,導(dǎo)致訓(xùn)練速度較慢.
從整體上來看,目前的注意力機(jī)制模型大多采用獨(dú)特的網(wǎng)絡(luò)結(jié)構(gòu)對(duì)輸入文本建模,但并未考慮文本實(shí)例對(duì)象對(duì)整體分類效果的影響.本文提出最近鄰注意力和卷積神經(jīng)網(wǎng)絡(luò)的文本分類模型,通過最近鄰注意力機(jī)制增強(qiáng)卷積神經(jīng)網(wǎng)絡(luò)的分類能力,使得用于分類的特征更加準(zhǔn)確.首先通過改進(jìn)的最近鄰算法從訓(xùn)練集中獲得文本的對(duì)象信息,基于文本相似度構(gòu)建文本對(duì)象注意力.然后將注意力機(jī)制與卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合實(shí)現(xiàn)全局特征和局部特征的融合.最后通過softmax函數(shù)進(jìn)行文本分類.本文通過采用搜狗新聞?wù)Z料庫、中山大學(xué)語料庫以及英文新聞?wù)Z料庫AG_news進(jìn)行實(shí)驗(yàn).結(jié)果表明,本文采用的改進(jìn)算法相較于基準(zhǔn)算法效果更優(yōu).
最近鄰算法是模式識(shí)別和數(shù)據(jù)挖掘中最常用的算法之一.其算法思想相對(duì)簡(jiǎn)單,并且對(duì)噪聲具有一定的魯棒性.采用KNN算法進(jìn)行文本分類,首先使用詞向量模型將訓(xùn)練集和測(cè)試集的文本表示為向量,然后采用距離公式計(jì)算待分類文本和訓(xùn)練集中每個(gè)文本的相似度,選出相似度最高的K個(gè)文本,則待分類文本的類別被預(yù)測(cè)為K個(gè)文本中出現(xiàn)概率最大的文本類別標(biāo)簽,其中距離相似度通常采用歐氏距離、余弦距離、馬氏距離、曼哈頓距離等.
給定文本訓(xùn)練集:N={X1,X2,…,Xm},對(duì)應(yīng)類別標(biāo)簽為:L={y1,y2,…,ym}.
最近鄰算法距離相似度公式為:
(1)
公式(1)中:Xi是待分類文本,Xj是文本訓(xùn)練集N中的一個(gè)文本,Xiz是Xi的第z個(gè)特征,Xj是文本訓(xùn)練集N中的一個(gè)文本,Xjz是Xj的第z個(gè)特征,d是文本向量的特征維數(shù).
對(duì)于給定的輸入文本,采用距離公式計(jì)算相似度,從訓(xùn)練集中找出K個(gè)距離最小最相似的文本:{X1,X2,…,Xk},其對(duì)應(yīng)類別標(biāo)簽為:{y1,y2,…,yk}.
文本分類是根據(jù)給定文本數(shù)據(jù),預(yù)測(cè)每個(gè)測(cè)試文本對(duì)應(yīng)的類別[9].每個(gè)文本由文本之間的局部特征和全局特征相互作用決定.針對(duì)文本內(nèi)部相互作用的關(guān)系,采用由多個(gè)尺寸卷積核組成的卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行實(shí)驗(yàn),提取文本特征項(xiàng)之間的復(fù)雜關(guān)系.
Mikolov[10]等人提出word2vec模型,根據(jù)給定的語料庫,經(jīng)過優(yōu)化后的訓(xùn)練模型可以快速有效地將一個(gè)詞語表示成對(duì)應(yīng)的詞向量.本文利用word2vec模型訓(xùn)練文本語料庫,得到詞向量.單個(gè)文本的最大詞語數(shù)目為v個(gè):{t1,t2,…,tv},每個(gè)詞語的詞向量為d維,組成一個(gè)v*d維的矩陣,作為文本分類模型的輸入,傳入多尺寸卷積神經(jīng)網(wǎng)絡(luò)模型(MCNN)(如圖1所示).
圖1 多尺寸卷積神經(jīng)網(wǎng)絡(luò)模型Fig.1 Multi-size convolution neural network model
卷積神經(jīng)網(wǎng)絡(luò)文本分類模型由卷積層、池化層、全連接層、softmax分類函數(shù)組成.
1)卷積層
將文本向量作為卷積神經(jīng)網(wǎng)絡(luò)模型的輸入,使用多尺寸卷積核進(jìn)行卷積,提取不同類型的多維特征.每個(gè)卷積核都設(shè)有一個(gè)固定的滑動(dòng)窗口,每次對(duì)窗口內(nèi)的特征進(jìn)行卷積,并使用激活函數(shù)激活.本文使用的卷積核高度h分別為3、4、5,滑動(dòng)步長(zhǎng)為1,每個(gè)尺寸的卷積核數(shù)目為128個(gè).
{t1:h,t2:h+1,…,tv-h+1:v}
(2)
公式(2)表示輸入文本的窗口.
每個(gè)窗口ts:s+h-1卷積特征值的計(jì)算公式為:
(3)
其中Wh為卷積核的權(quán)重Wh∈Rh*d,h為卷積核的高度,bh∈R為偏置,s代表卷積核的滑動(dòng)窗口的參數(shù),?為卷積計(jì)算,f(x)為激活函數(shù),常用的激活函數(shù)為Sigmoid、Tanh和Relu等,本文采用Relu函數(shù)激活,Relu函數(shù)能夠更好地學(xué)習(xí)優(yōu)化.
滑動(dòng)窗口經(jīng)過一個(gè)卷積核卷積后的特征圖為:
(4)
2)池化層
每個(gè)尺寸都有128個(gè)卷積核,則尺寸h=3卷積后的特征圖為:
(5)
尺寸h=4卷積后的特征圖為:
(6)
尺寸h=5卷積后的特征圖為:
(7)
將經(jīng)過Max-pooling后的不同尺寸特征圖進(jìn)行拼接,構(gòu)建文本的全局特征圖:
C=[C3,C4,C5]=[T1,T2,…,T384]
(8)
共提取出384個(gè)特征,作為全連接層的輸入.
3)全連接層
將384個(gè)特征輸入至全連接層,隱藏層節(jié)點(diǎn)數(shù)為128,輸出層節(jié)點(diǎn)數(shù)為類別數(shù),全連接神經(jīng)網(wǎng)絡(luò)的計(jì)算公式為:
C′=f(W1C+b1)
(9)
C″=f(W2C′+b2)
(10)
其中W1、W2為全連接層的兩層權(quán)重,b1、b2為偏置,f(x)采用激活函數(shù)Relu激活.
4)分類函數(shù)softmax預(yù)測(cè)
(11)
多尺寸卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行一次前向傳播后,利用反向傳播來對(duì)卷積核的權(quán)重進(jìn)行更新,進(jìn)行多次更新后,取得最優(yōu)的預(yù)測(cè)模型.
最近鄰算法通常采用歐式距離作為相似度衡量.但歐氏距離只考慮了各個(gè)特征項(xiàng)之間的絕對(duì)距離,而忽略了相對(duì)距離.在分類問題中,往往采用特征項(xiàng)的相對(duì)距離來作為距離的衡量標(biāo)準(zhǔn).卡方距離通過卡方統(tǒng)計(jì)量衡量個(gè)體特征之間的差異性,從而體現(xiàn)特征項(xiàng)之間的相對(duì)關(guān)系,因此本文使用基于特征屬性加權(quán)的卡方距離計(jì)算相似度.
(12)
本文提出基于卡方距離結(jié)合屬性空間分布的特征值加權(quán):
1)公式(13)的第一部分分母表示沿特征項(xiàng)方向測(cè)試文本和所有文本的卡方距離之和以及對(duì)應(yīng)的訓(xùn)練文本和所有文本的卡方距離之和,分子為測(cè)試文本與所有訓(xùn)練文本之間沿特征項(xiàng)方向的卡方距離之和,整體表示測(cè)試文本與所有文本的相對(duì)位置影響.
2)公式(13)的第二部分分母表示該待分類訓(xùn)練文本和其他訓(xùn)練文本之間沿特征項(xiàng)方向的卡方距離之和,分子表示測(cè)試文本與所有訓(xùn)練文本之間沿特征項(xiàng)方向的卡方距離之和,整體表示測(cè)試文本與所有訓(xùn)練文本的相對(duì)位置影響.
(13)
通過加權(quán)的卡方距離計(jì)算文本相似度,找出K個(gè)最近鄰文本為:{X1,X2,…,Xk},其對(duì)應(yīng)類別標(biāo)簽為:{y1,y2,…,yk}.
本文首先使用上述改進(jìn)的KNN算法提取與類別實(shí)例相關(guān)的K個(gè)文本.然后對(duì)相關(guān)文本進(jìn)行注意力加權(quán),以此獲取文本隱含的特征信息.最后將注意力權(quán)重與卷積神經(jīng)網(wǎng)絡(luò)池化層的輸出進(jìn)行拼接,一起輸入至全連接層,對(duì)模型(如圖2所示)更好的訓(xùn)練.
利用上述改進(jìn)的AKNN算法得到每個(gè)文本的K個(gè)訓(xùn)練文本,并定義其文本向量表示為{X1,X2,…,Xk},其對(duì)應(yīng)標(biāo)簽為{y1,y2,…,yk}.
使用相似度函數(shù)分別計(jì)算待分類文本X和得到K個(gè)訓(xùn)練文本的相似度:
Si=sim(X,Xi)
(14)
S={S1,S2,…,Sk}
(15)
其中i∈{1,2,…,k},Si表示待分類文本X與第i個(gè)文本的相似度,S是由K個(gè)訓(xùn)練文本構(gòu)建的注意力權(quán)重,分別使用注意力權(quán)重S對(duì)改進(jìn)KNN算法輸出的標(biāo)簽和文本向量加權(quán).
對(duì)AKNN算法輸出的文本標(biāo)簽加權(quán)的計(jì)算公式為:
(16)
利用S對(duì)標(biāo)簽加權(quán)得到加權(quán)文本標(biāo)簽y′,其中yk是文本實(shí)際標(biāo)簽.
對(duì)AKNN算法輸出的文本向量加權(quán)的計(jì)算公式為:
(17)
利用S對(duì)文本向量加權(quán)得到加權(quán)文本向量X′.
將基于神經(jīng)網(wǎng)絡(luò)的模型和基于實(shí)例的學(xué)習(xí)相結(jié)合,可以獲得良好的效果.將上述注意力加權(quán)的訓(xùn)練文本標(biāo)簽和注意力加權(quán)的訓(xùn)練文本向量拼接后融入到卷積神經(jīng)網(wǎng)絡(luò)的全連接層.
模型訓(xùn)練環(huán)節(jié)使用隨機(jī)梯度下降法Adma算法[12]對(duì)權(quán)重進(jìn)行更新.定義交叉熵函數(shù)為訓(xùn)練目標(biāo)的損失函數(shù):
(18)
圖2 最近鄰注意力和卷積神經(jīng)網(wǎng)絡(luò)的文本分類模型Fig.2 Text classification model based on nearest neighbor attention and convolution neural network
實(shí)驗(yàn)環(huán)境如表1所示.
表1 實(shí)驗(yàn)環(huán)境
Table 1 Lab environment
實(shí)驗(yàn)環(huán)境環(huán)境配置操作系統(tǒng)Windows10GPU1050ti 4 GB內(nèi)存8GB編程語言Python3.6分詞工具Jieba,nltk詞向量訓(xùn)練工具Word2Vec深度學(xué)習(xí)框架Tensorflow
本文選取來源于搜狗實(shí)驗(yàn)室、中山大學(xué)兩個(gè)中文新聞數(shù)據(jù)集以及英文新聞數(shù)據(jù)集AG_news,三個(gè)數(shù)據(jù)集均是中英文文本分類中最常用的新聞?wù)Z料庫.選取搜狗數(shù)據(jù)集10個(gè)類別(體育、財(cái)經(jīng)、房產(chǎn)、家居、教育、科技、時(shí)尚、時(shí)政、游戲、娛樂)共20000條數(shù)據(jù),中山大學(xué)數(shù)據(jù)集8個(gè)類別(交通、健康、娛樂、教育、文化、科技、游戲、經(jīng)濟(jì))共18000條數(shù)據(jù).AG_news數(shù)據(jù)集4個(gè)類別(World、Sports、Business、Sci/Tech)共27200條數(shù)據(jù).具體實(shí)驗(yàn)信息如表2所示.
本文的參數(shù)主要設(shè)置如下.
使用Word2vec訓(xùn)練詞向量,詞向量維數(shù)200,詞語個(gè)數(shù)6000,得到文本向量的尺寸大小為6000*200.
表2 數(shù)據(jù)集的統(tǒng)計(jì)信息
Table 2 Statistics of data set
名稱訓(xùn)練集驗(yàn)證集測(cè)試集類別數(shù)共計(jì)搜狗10000500050001020000中山大學(xué)1000040004000818000AG_NEWS1200076007600427200
設(shè)置不同尺寸的卷積核,第一種卷積核的個(gè)數(shù)128,尺寸大小為3*200,第二種卷積核的個(gè)數(shù)128,尺寸大小為4*200,第三種卷積核的個(gè)數(shù)128,尺寸大小為5*200.全連接層隱藏節(jié)點(diǎn)數(shù)為128.
丟棄率dropout為0.5,學(xué)習(xí)率為0.001,學(xué)習(xí)率指數(shù)衰減率為0.9,梯度閾值為5.0,迭代次數(shù)為20,批次數(shù)為64.改進(jìn)最近鄰算法,K設(shè)置范圍為[1,20].
本文采用最近鄰注意力和卷積神經(jīng)網(wǎng)絡(luò)的文本分類模型,對(duì)文本進(jìn)行分類.選取部分實(shí)驗(yàn)結(jié)果作為展示,本文采用四個(gè)實(shí)驗(yàn)對(duì)模型的分類結(jié)果進(jìn)行衡量.
實(shí)驗(yàn)1.為了驗(yàn)證模型的預(yù)測(cè)性能,本文采用基準(zhǔn)模型:卷積神經(jīng)網(wǎng)絡(luò)(CNN)[13]、字符集卷積神經(jīng)網(wǎng)絡(luò)(Char Convolutional Neural Network,CharCNN)[14]、循環(huán)卷積神經(jīng)網(wǎng)絡(luò)(RCNN)[4]、長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Long Short-Term Memory,LSTM)[15]、雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(BiLSTM)[16]、最近鄰注意力和卷積神經(jīng)網(wǎng)絡(luò)(CNN_KNN)、加權(quán)卡方最近鄰注意力機(jī)制和卷積神經(jīng)網(wǎng)絡(luò)(CNN_AKNN).其中CNN_KNN模型采用傳統(tǒng)的KNN算法和多尺寸卷積神經(jīng)網(wǎng)絡(luò)構(gòu)建網(wǎng)絡(luò)模型,CNN_AKNN模型采用加權(quán)卡方距離改進(jìn)的AKNN算法和多尺寸卷積神經(jīng)網(wǎng)絡(luò)結(jié)合構(gòu)建網(wǎng)絡(luò)模型.本文分別采用準(zhǔn)確率(Accuracy)、召回率(Recall)、精確率(Precision)、宏F1值對(duì)模型評(píng)價(jià).TP表示預(yù)測(cè)為正樣本且分類正確的樣本數(shù),TN表示預(yù)測(cè)為負(fù)樣本且分類正確的樣本數(shù),F(xiàn)P表示實(shí)際為負(fù)且分類錯(cuò)誤的樣本數(shù),F(xiàn)N表示實(shí)際為正且分類錯(cuò)誤的樣本數(shù).
(19)
(20)
(21)
(22)
表3為不同數(shù)據(jù)集上各個(gè)模型的準(zhǔn)確率、精確率、召回率、宏F1值的比較結(jié)果.從表3看出,相比CNN、CharCNN、RCNN、LSTM、BiLSTM,本文模型在三種數(shù)據(jù)集上都表現(xiàn)出了良好的性能,相比傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)模型分類效果分別提高了2.96%,1.34%,1.81%.這是因?yàn)楸疚脑谀P椭芯C合考慮了文本詞語的隱含特征,更適合文本分類的實(shí)際特點(diǎn),獲取文本特征提高分類準(zhǔn)確率.本文采用的改進(jìn)AKNN算法比傳統(tǒng)的KNN算法分類效果更好,這是因?yàn)楸疚牟捎梦谋咎卣鲗傩詫?duì)文本相似度加權(quán),更好的衡量相對(duì)距離.
表3 各模型準(zhǔn)確率對(duì)比
Table 3 Comparison of accuracy rate of models
模型數(shù)據(jù)集AccuracyPrecisionRecallF1CNN中山大學(xué)93.7793.7993.7793.76搜狗96.9697.0296.9696.96AG_NEWS86.2086.7786.4286.47CharCNN中山大學(xué)93.293.2693.293.19搜狗95.195.3995.195.09AG_NEWS84.3784.3684.3884.37RCNN中山大學(xué)92.7392.7692.6392.63搜狗95.8595.9195.8595.81AG_NEWS86.2786.7986.2886.19LSTM中山大學(xué)84.8284.0884.883.93搜狗95.895.795.6695.64AG_NEWS87.0987.5987.5387.53BiLSTM中山大學(xué)88.0288.4288.0287.84搜狗95.6595.7395.6595.62AG_NEWS87.3587.8487.7687.75CNN_KNN中山大學(xué)96.496.496.496.39搜狗97.8497.8597.8497.84AG_NEWS87.5287.5287.5387.52CNN_AKNN中山大學(xué)96.7396.7296.7396.71搜狗98.398.3698.398.28AG_NEWS88.0188.1888.0188.05
實(shí)驗(yàn)2.為了測(cè)試AKNN算法中K的取值對(duì)模型分類準(zhǔn)確率的影響,本文選取K的變化范圍為[1,20],步長(zhǎng)為1,并比較三個(gè)不同數(shù)據(jù)集上K的變化范圍對(duì)本文模型準(zhǔn)確率的影響.
從圖3可以看出,K取0時(shí)表示多尺寸卷積神經(jīng)網(wǎng)絡(luò)模型(MCNN),其中搜狗實(shí)驗(yàn)室數(shù)據(jù)集準(zhǔn)確率達(dá)到96.96%,中山大學(xué)語料庫達(dá)到93.77%,英文新聞?wù)Z料庫AG_news達(dá)到86.2%.當(dāng)多尺寸神經(jīng)網(wǎng)絡(luò)模型結(jié)合改進(jìn)的最近鄰算法得到CNN-AKNN模型時(shí),三個(gè)數(shù)據(jù)集的準(zhǔn)確率均有顯著的提升.當(dāng)K取6時(shí),搜狗實(shí)驗(yàn)室數(shù)據(jù)集的準(zhǔn)確率達(dá)到98.3%,當(dāng)K取9時(shí),中山大學(xué)語料庫的準(zhǔn)確率達(dá)到96.73%, 當(dāng)K取6時(shí),英文新聞數(shù)據(jù)集AG_news的準(zhǔn)確率達(dá)到88.01%.從圖3中的三條曲線的變化規(guī)律可以看出,當(dāng)K值增加時(shí),模型的分類準(zhǔn)確率在上升,但是當(dāng)K上升到一定程度時(shí),由于過多的相似文本導(dǎo)致特征冗余,過多的噪聲干擾分類的準(zhǔn)確率,導(dǎo)致準(zhǔn)確率下降.從實(shí)驗(yàn)2可以看出,合適的K確實(shí)可以增大實(shí)驗(yàn)的準(zhǔn)確率.
圖3 K的不同取值對(duì)結(jié)果的影響Fig.3 Influence of different values of K
實(shí)驗(yàn)3.為了驗(yàn)證最近鄰注意力和卷積神經(jīng)網(wǎng)絡(luò)的文本分類模型(CNN-AKNN)和多尺寸神經(jīng)網(wǎng)絡(luò)模型(MCNN)在不同卷積核尺寸作用下,對(duì)文本分類準(zhǔn)確率的影響.本文共設(shè)置了7組不同的卷積核,卷積核尺寸分別為3、4、5、(3,4)、(3,5)、(3,4,5),并測(cè)試兩個(gè)模型在三個(gè)不同數(shù)據(jù)集上的準(zhǔn)確率.
表4 不同卷積窗口尺寸的效果
Table 4 Effects of different convolution window sizes
卷積尺寸和個(gè)數(shù)數(shù)據(jù)集CNN-AKNNMCNN3中山大學(xué)95.9792.77搜狗97.996.45AG_NEWS87.4785.434中山大學(xué)96.2893.4搜狗97.8694.78AG_NEWS87.2485.895中山大學(xué)96.4592.92搜狗97.9696.43AG_NEWS87.6885.313,4中山大學(xué)96.493.45搜狗98.0496.83AG_NEWS87.9886.053,5中山大學(xué)96.2593.35搜狗97.996.56AG_NEWS87.8185.924,5中山大學(xué)96.4593.58搜狗97.9496.6AG_NEWS87.9186.063,4,5中山大學(xué)96.7393.77搜狗98.396.96AG_NEWS88.0186.20
表4為兩個(gè)模型在不同卷積核尺寸作用下的分類準(zhǔn)確率.由表4可知,卷積核尺寸為(3,4,5)的分類結(jié)果均優(yōu)于其他的卷積核尺寸,在多尺寸卷積核的相互作用下,分類準(zhǔn)確率比單尺寸卷積核的分類準(zhǔn)確率高,證明多尺寸卷積核可以提取出更多的文本特征,對(duì)提高分類算法的準(zhǔn)確率有正向促進(jìn)作用.
實(shí)驗(yàn)4.為了測(cè)試加權(quán)文本標(biāo)簽以及加權(quán)文本向量對(duì)模型分類效果的影響,本文設(shè)計(jì)了加權(quán)文本標(biāo)簽(CNN-Label)、加權(quán)文本向量(CNN-Text)以及結(jié)合加權(quán)文本標(biāo)簽和加權(quán)文本向量(CNN-AKNN)的實(shí)驗(yàn),驗(yàn)證本文模型的有效性.
表5 加權(quán)文本標(biāo)簽和加權(quán)文本向量對(duì)結(jié)果的影響
Table 5 Influence of weighted text labels and
weighted text vectors
模型數(shù)據(jù)集AccuracyPrecisionRecallF1CNN-Label中山大學(xué)96.1296.1296.1396.11搜狗98.298.2198.298.18AG_NEWS87.9287.9087.9287.91CNN-Text中山大學(xué)96.3596.3596.3596.34搜狗97.5697.5797.5797.56AG_NEWS87.8987.8787.8987.88CNN-AKNN中山大學(xué)96.7396.7296.7396.71搜狗98.398.3698.398.28AG_NEWS88.0188.1888.0188.05
表5為加權(quán)文本標(biāo)簽和加權(quán)文本向量對(duì)分類效果的影響.由表5可知,三個(gè)實(shí)驗(yàn)結(jié)果都優(yōu)于實(shí)驗(yàn)1中基準(zhǔn)算法的分類結(jié)果.由此可見,由AKNN計(jì)算得到的加權(quán)文本標(biāo)簽和加權(quán)文本向量通過構(gòu)建注意力機(jī)制能夠獲得文本的全局特征.另外,由于結(jié)合了加權(quán)文本標(biāo)簽和加權(quán)文本向量,模型的分類效果要優(yōu)于只加了一種改進(jìn)變量的模型.可以看出,在加權(quán)文本標(biāo)簽和文本向量的共同作用下,本文模型的預(yù)測(cè)效果最優(yōu),可以更好地捕獲文本特征之間的依賴關(guān)系,證明了多尺寸卷積神經(jīng)網(wǎng)絡(luò)結(jié)合AKNN算法進(jìn)行加權(quán)的可行性.
由于目前的注意力機(jī)制大多采用獨(dú)特的網(wǎng)格結(jié)構(gòu)對(duì)文本建模,并未考慮文本對(duì)象對(duì)分類結(jié)果的影響.故提出了最近鄰注意力和卷積神經(jīng)網(wǎng)絡(luò)的文本分類模型.
本文的分類模型有兩個(gè)創(chuàng)新之處:一是使用多尺寸的卷積神經(jīng)網(wǎng)絡(luò)結(jié)合改進(jìn)KNN算法得到的實(shí)例信息,能夠提取更加豐富的文本特征.二是考慮到文本特征屬性空間分布對(duì)特征值的影響,使用加權(quán)卡方距離的最近鄰改進(jìn)算法,利用文本的空間屬性值對(duì)距離加權(quán),從而對(duì)文本進(jìn)行分類,其效果優(yōu)于傳統(tǒng)的KNN算法.其中多尺寸卷積神經(jīng)網(wǎng)絡(luò)模型的參數(shù)和KNN的參數(shù)均具有一定的魯棒性,使模型適合各種不同的數(shù)據(jù)集.本文通過四個(gè)實(shí)驗(yàn)的對(duì)比,表明本文的模型相比其他基準(zhǔn)的深度學(xué)習(xí)模型效果有明顯的提高,為文本分類提供的一個(gè)新的思路.
今后的研究將嘗試以下工作:KNN算法由于其需要計(jì)算測(cè)試文本和每個(gè)訓(xùn)練文本的相似度,導(dǎo)致時(shí)間復(fù)雜度較高.考慮使用特征結(jié)構(gòu)存儲(chǔ)KD-Tree與神經(jīng)網(wǎng)絡(luò)結(jié)合,減少計(jì)算距離的次數(shù),從而降低時(shí)間復(fù)雜度和空間復(fù)雜度.