騫恒源 孟彩霞
(西安郵電大學(xué)計(jì)算機(jī)學(xué)院 西安 710061)
情感分析,又被稱為意向挖掘、傾向性分析等[1],其主要任務(wù)是針對(duì)人們?cè)诰W(wǎng)絡(luò)社交或者產(chǎn)品評(píng)論等日常網(wǎng)絡(luò)行為中產(chǎn)生的主觀性文本進(jìn)行分析、挖掘,以獲得其中的情感信息,是自然語(yǔ)言處理領(lǐng)域的研究熱點(diǎn)。
傳統(tǒng)的針對(duì)于文本情感極性分析處理的技術(shù)主要分為兩類。1)基于規(guī)則的情感分析技術(shù):從語(yǔ)言學(xué)角度出發(fā),根據(jù)經(jīng)驗(yàn)或者專家的知識(shí)和意見(jiàn)構(gòu)建特征、情感詞典和模板,進(jìn)而完成對(duì)文本情感極性的分析。這個(gè)過(guò)程需要大量的人工干預(yù)[2~3],構(gòu)建特征需要花費(fèi)極大的代價(jià)。2)基于機(jī)器學(xué)習(xí)的情感分析技術(shù):人為地對(duì)數(shù)據(jù)集進(jìn)行情感標(biāo)注,標(biāo)注過(guò)的數(shù)據(jù)集即為訓(xùn)練集。接著在訓(xùn)練集上進(jìn)行特征的提取和學(xué)習(xí),得到機(jī)器學(xué)習(xí)模型。最后,通過(guò)訓(xùn)練完成的機(jī)器學(xué)習(xí)模型對(duì)文本的情感極性進(jìn)行判斷[4~5]。然而,該方法面臨特征稀疏,維度爆炸,特征提取較為困難等問(wèn)題。
近來(lái),深度學(xué)習(xí)的技術(shù)越來(lái)越多地被應(yīng)用到自然語(yǔ)言處理的領(lǐng)域,且深度學(xué)習(xí)的技術(shù)在不斷的發(fā)展和完善[6~7]。Kim 等[8]采用卷積神經(jīng)網(wǎng)絡(luò)(CNN)完成了對(duì)電影評(píng)論的情感分類,Wang 等[9]利用長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)對(duì)文本情感進(jìn)行分析,都取得了比傳統(tǒng)分類器更好的效果。但上述模型無(wú)法挖掘到文本更多的隱藏信息,從而導(dǎo)致對(duì)文本中包含的大量語(yǔ)義信息利用不充分。劉龍飛等[10]提出了一種將不同粒度的CNN 模型相結(jié)合來(lái)獲得到更多的語(yǔ)義信息。但該模型沒(méi)有對(duì)現(xiàn)有的情感資源,包括情感詞典、情感規(guī)則等進(jìn)行有效利用,忽略了情感信息對(duì)于情感分類的影響。陳釗等[11]提出將情感特征與深度學(xué)習(xí)模型相結(jié)合,使得模型在訓(xùn)練過(guò)程中充分利用文本所包含的情感信息,提升了分類的準(zhǔn)確率。然而該模型難以表征每個(gè)詞對(duì)分類的重要程度。陳珂[12]等提出基于多通道卷積神經(jīng)網(wǎng)絡(luò)的模型,將詞性映射為連續(xù)的值向量,對(duì)詞語(yǔ)在句子中的位置進(jìn)行取值并進(jìn)行向量化操作來(lái)表示詞語(yǔ)在句子中的重要程度,最后將其與詞向量、情感向量相互拼接作為卷積神經(jīng)網(wǎng)絡(luò)中不同通道的輸入。盡管該模型考慮到了每個(gè)詞的重要性對(duì)于分類結(jié)果的影響,但是用詞語(yǔ)在句子中的位置特征表示詞語(yǔ)重要性的方法明顯不能準(zhǔn)確地體現(xiàn)出詞語(yǔ)對(duì)于句子以及分類的重要程度。
針對(duì)以上問(wèn)題,本文提出一種基于權(quán)重分配的多通道卷積神經(jīng)網(wǎng)絡(luò)與雙向長(zhǎng)短期記憶網(wǎng)絡(luò)特征相結(jié)合的模型(WAMCCNN-BILSTM)。首先,針對(duì)陳珂[12]等提出的MCCNN 模型進(jìn)行改進(jìn)并提出基于權(quán)重分配的多通道卷積神經(jīng)網(wǎng)絡(luò)模型(WAMCCNN),該模型使用詞語(yǔ)的特征權(quán)重表征每個(gè)詞對(duì)于句子的重要程度,句子中每個(gè)詞語(yǔ)的特征權(quán)重通過(guò)TF-IDF特征權(quán)重算法計(jì)算得出。將其與其他特征結(jié)合形成不同的通道作為卷積神經(jīng)網(wǎng)絡(luò)的輸入,充分利用文本的情感信息以及詞對(duì)于分類重要性等信息學(xué)習(xí)出文本的局部特征。相較于原模型,該模型在降低輸入向量維度的同時(shí)也提高了模型的訓(xùn)練效率。接著,針對(duì)卷積神經(jīng)網(wǎng)絡(luò)無(wú)法充分利用文本的上下文關(guān)系,提出雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(BILSTM)來(lái)獲取包含文本上下文信息的全局特征。最后將兩種模型提取出的特征相結(jié)合作為全連接層的輸入完成對(duì)文本的分類。在京東評(píng)論數(shù)據(jù)集和微博評(píng)論數(shù)據(jù)集上的實(shí)驗(yàn)顯示本方法相較之前基于神經(jīng)網(wǎng)絡(luò)模型的情感分析方法取得了更好的效果。
如圖1 所示,本文所提出的WAMCCNN-BILSTM模型由五部分組成。
圖1 WAMCCNN-BILSTM模型
1)輸入層,將不同特征組合形成不同通道作為WAMCCNN模型的輸入,將文本映射為詞向量的形式作為BILSTM模型的輸入。
2)特征提取層,使用WAMCCNN 模型提取出包含豐富語(yǔ)義信息和隱藏信息的文本局部特征,使用BILSTM模型學(xué)習(xí)包含文本上下文信息的全局特征。
3)合并層,將通過(guò)WAMCCNN 模型挖掘到的包含豐富語(yǔ)義信息和大量隱藏信息的局部特征和經(jīng)過(guò)BILSTM模型提取到的包含文本上下文信息的全局特征進(jìn)行拼接并將其作為合并層的輸入。
4)隱藏層,本文在合并層和輸出層之間加入一個(gè)隱藏層,目的在于對(duì)合并層得到的特征向量進(jìn)行學(xué)習(xí),挖掘出局部特征和全局特征之間的聯(lián)系,提高分類的準(zhǔn)確率。
5)輸出層,利用softmax 函數(shù)輸出文本情感極性。
和普通卷積神經(jīng)網(wǎng)絡(luò)相比,本文提出的WAMCCNN 模型充分利用了文本中所隱藏的情感信息且有效突出了詞語(yǔ)對(duì)于分類的貢獻(xiàn)度。通過(guò)將不同特征結(jié)合形成不同的輸入通道,使得模型在訓(xùn)練過(guò)程中充分學(xué)習(xí)不同特征間的聯(lián)系,獲取到更多的語(yǔ)義信息。因?yàn)閷⒉煌奶卣飨嘟Y(jié)合不但可以生成新的特征,也使得不同特征間相互聯(lián)系和影響。同時(shí),WAMCCNN 模型的輸入通道獨(dú)立存在,在對(duì)模型進(jìn)行訓(xùn)練時(shí),可以在模型的不同輸入通道中區(qū)別設(shè)置各自的卷積核和激活函數(shù),使得模型能夠更加全面地對(duì)文本隱藏信息進(jìn)行挖掘。在此基礎(chǔ)上,本文通過(guò)引入雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)模型所構(gòu)建的WAMCCNN-BILSTM 模型能夠通過(guò)WAMCCNN 模型對(duì)包含豐富語(yǔ)義信息和大量隱藏信息的文本局部特征進(jìn)行挖掘,利用BILSTM 模型對(duì)包含特征之間依賴關(guān)系的文本上下文信息進(jìn)行學(xué)習(xí),之后將通過(guò)BILSTM 模型得到的文本全局特征與通過(guò)WAMCCNN 模型得到的文本局部特征合并,從而使得模型在情感分析過(guò)程中能夠有效地利用到文本的上下文信息,進(jìn)一步提高分類準(zhǔn)確率。
本文通過(guò)python 爬蟲(chóng)爬取京東評(píng)論文本和微博評(píng)論文本進(jìn)行實(shí)驗(yàn),對(duì)本文所提模型的有效性進(jìn)行驗(yàn)證。爬取不同領(lǐng)域10000 條評(píng)論文本,作為京東評(píng)論數(shù)據(jù)集(JD-comment dataset,JDC),包括5000條正面評(píng)論和5000條負(fù)面評(píng)論。爬取新浪微博的10000 條評(píng)論文本作為微博評(píng)論數(shù)據(jù)集(Weibo-comment dataset,WBC),包括 正 向情緒 評(píng) 論5000條,負(fù)面情緒評(píng)論5000條。此外,從微博評(píng)論數(shù)據(jù)集和京東評(píng)論數(shù)據(jù)集各抽出3000 條數(shù)據(jù)形成混合數(shù)據(jù)集,驗(yàn)證本文所提方法在混合數(shù)據(jù)集上的有效性。
本文使用JIEBA 分詞對(duì)實(shí)驗(yàn)數(shù)據(jù)進(jìn)行分詞處理并且進(jìn)行詞性標(biāo)注。通過(guò)Google 開(kāi)源的word2vec[13]的Skip-gram 模型,利用京東評(píng)論數(shù)據(jù)集對(duì)詞向量和詞性向量進(jìn)行訓(xùn)練。實(shí)驗(yàn)中,詞向量維度為30 維,詞性向量維度為30 維。本文所提模型卷積神經(jīng)網(wǎng)絡(luò)部分參數(shù)設(shè)置如表1 所示,對(duì)本文所提模型中BILSTM 模型的參數(shù)設(shè)置如表2 所示,在模型的訓(xùn)練階段,本文采用Zeiler[14]提出的隨地梯度下降法對(duì)模型的參數(shù)進(jìn)行迭代更新。
表1 卷積神經(jīng)網(wǎng)絡(luò)參數(shù)
表2 BILSTM網(wǎng)絡(luò)參數(shù)
將本文所提出的WAMCCNN-BILSTM 模型與其它深度學(xué)習(xí)的模型在不同的數(shù)據(jù)集上進(jìn)行對(duì)比實(shí)驗(yàn),驗(yàn)證本文所提出的情感分析模型在分類準(zhǔn)確率上得到提高,以下對(duì)各實(shí)驗(yàn)進(jìn)行介紹。
1)CNN。文獻(xiàn)[7]提出的普通卷積神經(jīng)網(wǎng)絡(luò)模型。
2)BILSTM。雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)模型。
3)MCCNN。文獻(xiàn)[11]提出的MCCNN 模型,將不同特征組合形成不同的通道作為卷積神經(jīng)網(wǎng)絡(luò)的輸入。
4)CNN-BILSTM[15]。文獻(xiàn)[15]提出的CNNBILSTM 模型,將使用卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)到的局部特征與使用雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)學(xué)習(xí)到的全局特征結(jié)合,作為融合模型的輸入。
5)WAMCCN。本文提出的WAMCCNN模型。
6)WAMCCNN-BILSTM。本文提出的WAMC CNN-BILST模型。
7)SWCNN。文獻(xiàn)[11]提出的SWCNN 模型,將文本的情感特征映射為詞向量加入卷積神經(jīng)網(wǎng)絡(luò)。
8)WFCNN 模型。文獻(xiàn)[10]提出的WFCNN 模型,對(duì)情感特征進(jìn)行二值化操作,將二值形式的情感特征加入卷積神經(jīng)網(wǎng)絡(luò)。
在本文所提數(shù)據(jù)集上進(jìn)行8 組不同的實(shí)驗(yàn)對(duì)比驗(yàn)證本文所提模型的,對(duì)比結(jié)果如表3所示。
表3 不同模型情感分類性能對(duì)比
根據(jù)表3 結(jié)果可以看出,本文所提WAMCCNN-BILSTM 模型在三種不同數(shù)據(jù)集上均取得了最好的結(jié)果,其中在最好的JDC數(shù)據(jù)集上取得了86.75%的正確率,相比于MCCNN 模型的85.10%和CNN-BILSTM 模型的83.35%分別提高了1.65%和3.40%,驗(yàn)證了本文所提方法的有效性。對(duì)比文獻(xiàn)[10]提出的將詞性特征加入卷積神經(jīng)網(wǎng)絡(luò)的WFCNN 模型和文獻(xiàn)[7]提出的CNN 模型,在三種不同數(shù)據(jù)集上WFCNN 模型分別取得了82.79%、83.55%、82.40%的準(zhǔn)確率,相較于CNN 模型的82.42%、82.92%、82.20%分別提升了0.37%、0.63%、0.2%,說(shuō)明文本情感信息的加入可以使得模型取得更好的分類效果。對(duì)比將情感特征映射為詞向量形式加入到網(wǎng)絡(luò)的SWCNN 模型和WFCNN 模型可以看出,SWCNN 模型分類效果較之WFCNN 模型得到了提升,說(shuō)明將詞性特征映射為詞向量的形式加入卷積神經(jīng)網(wǎng)絡(luò)使得文本的情感特征在網(wǎng)絡(luò)中被充分利用,分類準(zhǔn)確率得到提升。對(duì)比文獻(xiàn)[11]提出MCCNN 模型和WFCNN 模型可以看出,將不同的特征組合形成不同的通道作為卷積神經(jīng)網(wǎng)絡(luò)輸入的MCCNN 模型相較于WFCNN 模型在3 種數(shù)據(jù)集上的準(zhǔn)確率均有大幅度提高,說(shuō)明將不同特征結(jié)合形成不同的通道作為卷積神經(jīng)網(wǎng)絡(luò)的輸入使得模型能夠充分學(xué)習(xí)到文本不同特征之間的聯(lián)系,文本中更多的語(yǔ)義信息得到發(fā)掘,進(jìn)而提升了模型分類的準(zhǔn)確率。
此外,從表3 結(jié)果可以看出,融合模型相較于單模型有更好的分類效果,結(jié)合表3 實(shí)驗(yàn)結(jié)果,在三種不同數(shù)據(jù)集上完成3 組對(duì)比實(shí)驗(yàn)來(lái)進(jìn)一步說(shuō)明融合模型在情感分類任務(wù)中的有效性,對(duì)比結(jié)果如圖2所示。
圖2 融合模型與單模型對(duì)比結(jié)果
如圖2 結(jié)果可以看出,CNN-BILSTM 模型在三種不同數(shù)據(jù)集上取得的分類效果較之CNN、BILSTM 均有所提升,同時(shí),本文所提出的WAMCCNN-BILSTM 模型在不同數(shù)據(jù)集上較之其WAMCCNN、BISTM 單獨(dú)模型也取得了更好的情感分類效果。該結(jié)果表明,更過(guò)的語(yǔ)義信息的加入可以使得模型取得更好的分類效果。此外,對(duì)實(shí)驗(yàn)結(jié)果進(jìn)一步分析可以看出結(jié)合文本上下文信息的CNN-BILSTM 模 型和WAMCCNN-BILSTM 模型 在3 種數(shù)據(jù)集上相較于CNN、WAMCCNN 模型分類準(zhǔn)確率均有提高。對(duì)比結(jié)果表明,本文提出的結(jié)合文本上下文信息的方法可以使得模型在訓(xùn)練過(guò)程中充分利用到文本的上下文信息,有效地解決了卷積神經(jīng)網(wǎng)絡(luò)無(wú)法充分利用上下文信息的問(wèn)題,提高了分類的準(zhǔn)確率。
本文提出一種WAMCCNN 和BILSTM 模型相結(jié)合的情感分析模型,該模型利用WAMCCNN 對(duì)文本的各個(gè)特征之間的聯(lián)系進(jìn)行學(xué)習(xí)和挖掘,獲取到了更多的語(yǔ)義信息和隱藏信息,同時(shí)利用長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)獲取文本中包含的上下文信息,將通過(guò)WAMCCNN 提取到的包含豐富語(yǔ)音信息和隱藏信息的局部特征和通過(guò)BILSTM提取到的包含文本上下文信息的全局特征相結(jié)合作為WAMCCNNBILST 模型全連接層的輸入,經(jīng)過(guò)隱藏層后得到分類結(jié)果。 實(shí)驗(yàn)結(jié)果表明,本文提出的WAMCCNN-BILST 模型在情感分析中相較于之前的深度學(xué)習(xí)模型取得了更好的分類效果。
在接下來(lái)的工作中,可以考慮引入更多的文本特征并將其組合形成不同的通道作為卷積神經(jīng)網(wǎng)絡(luò)的輸入,使得模型可以學(xué)習(xí)到更多特征之間的聯(lián)系。同時(shí)考慮在不同的通道采用不同的激活函數(shù),使得模型可以學(xué)習(xí)到更多的隱藏信息,提高分類準(zhǔn)確率。