国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于加權(quán)詞向量和LSTM-CNN的微博文本分類研究

2018-10-22 01:48:40馬遠(yuǎn)浩曾衛(wèi)明石玉虎徐鵬
現(xiàn)代計算機 2018年25期
關(guān)鍵詞:博文偏置卷積

馬遠(yuǎn)浩,曾衛(wèi)明,石玉虎,徐鵬

(上海海事大學(xué)信息工程學(xué)院,上海201306)

0 引言

隨著信息時代的來臨,各種社交媒體得到了迅速發(fā)展。其中,微博作為一種通過關(guān)注機制分享簡短實時信息的社交網(wǎng)絡(luò)平臺,越來越多的網(wǎng)民選擇利用微博來發(fā)表自己的觀點情感。由于微博文本內(nèi)容的長度限定在140個字符以內(nèi),與傳統(tǒng)的評論內(nèi)容長度相差較大,內(nèi)容簡短,其原創(chuàng)性特別強。因此,對微博文本數(shù)據(jù)進行分析挖掘,從中發(fā)掘出用戶的興趣愛好、發(fā)現(xiàn)熱點話題、以及開發(fā)個性化推薦系統(tǒng)都具有非常大的研究價值。然而,由于微博其龐大的數(shù)據(jù)信息量以及文本語言信息不規(guī)范性等原因,使得要從這些龐大的文本信息中去分析判斷人們的情感態(tài)度變得非常困難,所以僅僅依靠傳統(tǒng)的人工方法進行挖掘分析顯然不夠準(zhǔn)確。因此,想要在最短的時間內(nèi)挖掘出有價值的文本信息,就需要一些自動化的文本信息挖掘技術(shù)的幫助。其中,自然語言處理技術(shù)(NLP)是目前解決該類問題的重要途徑,通過對微博上用戶發(fā)表的評論進行分析,可從中判斷出用戶的主觀情感傾向。

自上世紀(jì)50年代開始就已經(jīng)開始了對文本分類的研究。Zhang等[1]利用One-hot Representation對文本進行向量化表示的基礎(chǔ)上,借助支持向量機(Sup?port Vector Machine,SVM)和反向傳播(Back Propaga?tion,BP)神經(jīng)網(wǎng)絡(luò)實現(xiàn)對文本的高效分類。Hinton等人[2]提出了Distributed Representation概念,通稱詞向量(Word Embedding)。龔靜等人[3]利用改進的TF-IDF算法提取文本特征,并利用樸素貝葉斯分類器進行文本分類。豆孟寰[4]基于N-Gram統(tǒng)計語言模型對文本分類,N-Gram模型根據(jù)每個詞出現(xiàn)在其前面n個詞的概率來表示文本。Bengio等人[5]提出用神經(jīng)網(wǎng)絡(luò)來構(gòu)建語言模型,一定程度上解決了N-Gram模型的問題。上述方法分析過程中對文本進行數(shù)值化表示時面臨數(shù)據(jù)稀疏以及建模之間語義相似度較大等問題。

針對上述問題,本文首先利用Google提出的一個NLP工具Word2Vec進行微博文本詞向量訓(xùn)練,同時通過TF-IDF模型對詞向量進行加權(quán)賦值,判斷出詞語之間的重要程度。其次,對于輸入樣本數(shù)據(jù)的序列化,循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)能夠有效地對鄰近位置信息進行整合。其中,RNN的子類LSTM(Long Short-Term Memory)模型是為了解決RNN的Gradient Vanish的問題所提出的。因此,本文在上述詞向量的基礎(chǔ)上,借助LSTM與CNN混合模型對微博文本內(nèi)容進行自動選擇特征,進而實現(xiàn)準(zhǔn)確分類。

1 方法

1.1方法流程

首先,文本分類需要對數(shù)據(jù)集進行必要的預(yù)處理。然后,利用Word2Vec模型與TF-IDF模型進行詞向量訓(xùn)練;最后,采用LSTM與CNN神經(jīng)網(wǎng)絡(luò)進行特征提取,最后用Softmax分類器進行分類預(yù)測。其分析流程圖如圖1所示。

圖1 方法流程圖

1.2文本預(yù)處理

微博上的文本數(shù)據(jù)帶有大量的噪聲,例如不規(guī)范的字符、標(biāo)點等,這些噪聲會干擾我們對文本信息的挖掘,所以在文本分類前首先要將數(shù)據(jù)集進行預(yù)處理。

因為中文與英文不同,中文以字為單位,單獨的字不能表達意思,因此對中文文本分類要進行分詞處理。本文采用Python的結(jié)巴(Jieba)分詞模塊,以精確模式進行分詞。中文停用詞對文本研究沒有太大價值,故需將文本中介詞、代詞、虛詞等停用詞以及特殊符號去除。

1.3詞向量訓(xùn)練

Word2Vec是一款Google開源的詞向量計算工具,通常采用CBOW和Skip-Gram兩種模型。與傳統(tǒng)的詞向量相比,Word2Vec詞向量的維度通常在100-300維之間,減少了計算的復(fù)雜度。

本文采用Skip-Gram模型,Skip-Gram與CBOW正相反,給定input word來預(yù)測上下文,而COBW是給定上下文,來預(yù)測input word。該模型包括三個層:輸入層、投影層和輸出層,如圖2所示。

圖2 Skip-Gram模型

Skip-Gram模型的訓(xùn)練目標(biāo)就是使得下式的目標(biāo)值最大:

其中,c>0是窗口的大小,T是訓(xùn)練文本的大小。并利用梯度下降法對其進行優(yōu)化?;镜腟kip-gram模型計算條件概率如下式:

其中,vw和v′w分別是詞w的輸入和輸出向量。

1.4 LSTM分類算法

LSTM是長短期記憶網(wǎng)絡(luò),是一種時間遞歸神經(jīng)網(wǎng)絡(luò),屬于RNN的一個變種,主要就是在它的算法中加入一個判斷信息是否有用的“處理器”,這個結(jié)構(gòu)被稱為cell,通過精心設(shè)計的結(jié)構(gòu)來去除或者增加信息到細(xì)胞狀態(tài)的能力。如圖3所示。

圖3 LSTM cell結(jié)構(gòu)

LSTM的第一步是決定我們要從細(xì)胞狀態(tài)中扔掉哪些信息。該決定由一個叫做“遺忘門”的Sigmoid層控制。首先讀取ht-1和xt,使用Sigmoid函數(shù)輸出一個在0-1之間的數(shù)。0表示“完全舍棄”,1表示“完全保留”,ft的計算公式為:

式中σ表示sigmoid函數(shù),Wf遺忘門權(quán)重,bf遺忘門偏置。

更新值為it,它決定我們要更新什么值。另一部分是tanh層創(chuàng)造了一個新的候選值向量Cˉt,該值會被加入到細(xì)胞狀態(tài)中去。

式中σ為sigmoid函數(shù),wi更新門權(quán)重,bi更新門偏置,tanh雙曲正切函數(shù),wc更新候選值,bc更新候選值偏置,候選值

最后將舊狀態(tài)與ft相乘,丟棄我們確定要丟棄的信息,根據(jù)我們所需要的狀態(tài)變化。

其中,Ct表示新狀態(tài)。最后,我們決定最后的輸出,公式如下所示:

式中wo更新輸出值的權(quán)重,bc更新輸出值偏置,ht最終確定輸出的那部分。LSTM通過梯度下降法實現(xiàn)損失函數(shù)最小化的參數(shù)估計。

1.5 LSTM-CNN混合模型

為了有效提高微博文本分類的準(zhǔn)確率,本文提出了一個LSTM-CNN的混合模型,模型結(jié)構(gòu)如圖4所示:

(1)卷積層

首先,卷積層接受大小為n×d的微博詞向量特征矩陣X,矩陣X的每一行為句子中一個詞的詞向量。然后選取尺寸為m×d的卷積核w∈Rm×d對矩陣X進行卷積操作得到向量值vi。卷積過程如下式所示:

式中f表示ReLU(Rectified Linear Units)激活函數(shù),m表示卷積計算滑動窗口大小,b為偏置項,Xi:i+m-1表示在X的第i行到第i+m-1行范圍內(nèi)抽取的局部特征。ReLU激活函數(shù)如下式所示:

(2)池化層

最大池化(max pooling)采用Pooling窗口中最大值作為采樣值,能夠有效的降低網(wǎng)絡(luò)訓(xùn)練參數(shù)及模型的過擬合程度。因此,在完成卷積計算后采用最大池化的方法。

(3)Softmax層

最后將LSTM層的輸出送入Softmax分類器進行分類,公式如下所示:

其中,p(y=i|x;θ)為樣本x屬于i類的概率。

2 實驗結(jié)果分析

2.1實驗數(shù)據(jù)

本文所采用的數(shù)據(jù)來自CSDN(https://www.csdn.net/)下載的微博文本數(shù)據(jù),該數(shù)據(jù)集經(jīng)過繁簡轉(zhuǎn)換、去重、去掉4字以下過短評論,形成最終的數(shù)據(jù)集。數(shù)據(jù)集提供了3000條已標(biāo)注立場類別的訓(xùn)練數(shù)據(jù),1000條已知立場標(biāo)簽的測試數(shù)據(jù)。數(shù)據(jù)集共分為五個描述主體,分別是:#春節(jié)放鞭炮,#深圳禁摩限電,#俄羅斯在敘利亞的反恐行動,#iPhone SE,#開放二胎。

2.2分類評價標(biāo)準(zhǔn)

為了評價本文提出的模型對分類結(jié)果的準(zhǔn)確性,實驗采用了常用的分類評價標(biāo)準(zhǔn)——精確率對模型進行檢驗,根據(jù)實驗結(jié)果建立兩分類結(jié)果混合矩陣如下表1所示:

表1 兩類分類結(jié)果混合矩陣

文本分類評價標(biāo)準(zhǔn)繼承信息檢索評價指標(biāo),一般采用精度(precision)、召回率(recall)、F-score和準(zhǔn)確率(accuracy)。根據(jù)表(1)可得它們的計算公式如下:

實際應(yīng)用中,通常使用precision和recall加權(quán)調(diào)和平均作為一個綜合的評價標(biāo)準(zhǔn),稱之為F-score:

2.3實驗結(jié)果

為了驗證本文提出的LSTM-CNN混合模型的有效性,本文進行了四組實驗,分別是基于Word2Vec和SVM,基于Word2Vec和LSTM,基于Word2Vec加權(quán)詞向量和LSTM以及基于Word2Vec加權(quán)詞向量和LSTM-CNN,得到了如表2所示的實驗結(jié)果。

表2 實驗結(jié)果

從表2中實驗結(jié)果可知,相比于傳統(tǒng)機器學(xué)習(xí)SVM,LSTM具有更高的準(zhǔn)確率。而將Word2Vec詞向量加權(quán)后準(zhǔn)確率提高了3%左右。但是基于本文提出的LSTM-CNN混合模型要比LSTM分類效果更高。由此可以得到,基于Word2Vec與TF-IDF合并模型,可以很好地降低向量的維度和高稀疏性。然后利用LSTM-CNN混合模型對文本特征進行提取,進行微博文本分類具有良好的效果。

3 結(jié)語

本文的Word2Vec模型加上TF-IDF模型相比于傳統(tǒng)模型,解決了傳統(tǒng)向量空間模型的高維稀疏特征,還解決了傳統(tǒng)模型所不具有的語義特征,但是因為Word2Vec模型無法識別詞的權(quán)重,所以引入TF-IDF模型計算詞向量的權(quán)重,結(jié)合兩種模型,最后用LSTMCNN混合模型進行特征提取,最后利用Softmax分類器進行分類,取得了較好的結(jié)果。但是本文對數(shù)據(jù)的大小,數(shù)據(jù)的復(fù)雜性沒有進行更深層次的研究,還有更多的影響因素影響文本分類的準(zhǔn)確性。

猜你喜歡
博文偏置卷積
基于40%正面偏置碰撞的某車型仿真及結(jié)構(gòu)優(yōu)化
基于雙向線性插值的車道輔助系統(tǒng)障礙避讓研究
中國信息化(2022年5期)2022-06-13 11:12:49
第一次掙錢
基于3D-Winograd的快速卷積算法設(shè)計及FPGA實現(xiàn)
從濾波器理解卷積
電子制作(2019年11期)2019-07-04 00:34:38
基于傅里葉域卷積表示的目標(biāo)跟蹤算法
誰和誰好
一級旋流偏置對雙旋流杯下游流場的影響
Review on Tang Wenzhi’s The Gist of Chinese Writing Gamut
打電話2
女性| 和田县| 垣曲县| 穆棱市| 土默特左旗| 汝城县| 安徽省| 长白| 瑞金市| 正宁县| 双牌县| 连城县| 盐津县| 河西区| 尼木县| 新营市| 扬州市| 无棣县| 裕民县| 浮山县| 葫芦岛市| 星子县| 昌黎县| 横山县| 子长县| 广水市| 大庆市| 青龙| 长寿区| 铁力市| 册亨县| 平度市| 克什克腾旗| 布尔津县| 洛宁县| 博湖县| 原阳县| 精河县| 深水埗区| 阿图什市| 略阳县|