孫緒瑞 常遠(yuǎn) 舒言 劉川 戴心雨
摘要:本文提出了一種基于Bi-LSTM和CNN的混合模型,并引入自注意力機制,使模型更好地理解幽默文本的語義,完成幽默計算的兩個任務(wù)。通過實驗,本文模型將中文幽默計算兩個任務(wù)的F1值分別提高了近2%和5%。
關(guān)鍵詞:幽默計算;長短時記憶網(wǎng)絡(luò);自注意力機制;卷積神經(jīng)網(wǎng)絡(luò);文本分類
中圖分類號:TP391.1;TP181 ? 文獻(xiàn)標(biāo)識碼:A ?文章編號:1007-9416(2020)06-0000-00
1研究背景
幽默可以分為不同的類型,如反轉(zhuǎn)、諧音、諧義等,并且幽默往往還存在著強弱之分。雖然主觀性較強,仍可以以一定的規(guī)則進(jìn)行計算。幽默計算可以進(jìn)一步揭示人類使用幽默的方式和機制,形成涵蓋幽默機制的認(rèn)知模型,實現(xiàn)更為智能的人機交互。同時,建立基于幽默的計算模型,有助于賦予計算機更深層次的人類認(rèn)知。
2相關(guān)工作
本文對中文幽默的計算任務(wù)主要有兩個,一是將包含有幽默的語料分成諧音,諧義,反轉(zhuǎn)這三個基本類別,二是將一條幽默語料按照幽默強度進(jìn)行二等級劃分,即分為強幽默或者弱幽默。
對于傳統(tǒng)的文本分類方法目前已經(jīng)比較成熟,祁小軍等人[1]將貝葉斯,KNN以及SVM算法這幾種方法成功應(yīng)用到海量新聞抓取有用信息上來,并對比分析了這幾種方法的效果;丁世濤等人[2]以文本標(biāo)題作為突破口,并使用word2vec進(jìn)行分詞詞向量的訓(xùn)練,快速將文本對應(yīng)到分類標(biāo)簽上。但是這幾種方法都難以避免人工提取規(guī)則的開銷,而且遷移性差也成為傳統(tǒng)文本分類任務(wù)的瓶頸。
因此,利用神經(jīng)網(wǎng)絡(luò)來自動提取特征的方法逐漸過渡到文本分類任務(wù)上來。孫明敏[3]使用改進(jìn)的TF-IDF算法提取文本特征,將其與FastText模型結(jié)合,一定程度上提高了分類準(zhǔn)確率,但是其提取文本特征依舊局限于詞語級別,而忽略了句子之間的依賴關(guān)系;孫嘉琪等人[4]先使用了RNN來解決文本語義的長期依賴問題,但是由于RNN所存在的梯度消失這一問題,又使用了LSTM的方法加以改進(jìn)。朱文峰[5]為了提升算法時間效率并兼顧準(zhǔn)確度,結(jié)合卷積模型中的注意力機制并行連接長短時記憶網(wǎng)絡(luò)以及門控循環(huán)單元構(gòu)建一個深度模型。
注意力機制模擬了人腦在觀察事物時會重點關(guān)注某些特定區(qū)域以精準(zhǔn)快速地獲取需要的信息的機制。2017年Google團(tuán)隊的Vaswani等人[6]提出一種基于多頭自注意力機制的編碼器-解碼器模型用于機器翻譯任務(wù),取得出色的效果。自注意力機制對于序列化的文本輸入來說通過詞語對周圍詞分配不同的權(quán)重來進(jìn)行詞的表示學(xué)習(xí),能更好地捕獲到詞與詞之間的關(guān)聯(lián),因此本文中引入了一層自注意力機制來捕獲詞與詞之間的關(guān)系。
基于以上研究,我們發(fā)現(xiàn),不同的神經(jīng)網(wǎng)絡(luò)對文本的不同粒度特征的提取各有優(yōu)勢。因此,本文構(gòu)建了一種組合式的神經(jīng)網(wǎng)絡(luò)模型,模型主要由嵌入層、雙向長短時記憶層、自注意力層、卷積神經(jīng)網(wǎng)絡(luò)層和輸出層五個部分組成。
3本文模型
本文結(jié)合了長短時記憶網(wǎng)絡(luò)捕獲文本上下文全局特征的特性,自注意力機制調(diào)整詞與詞之間權(quán)重分配的特性和卷積神經(jīng)網(wǎng)絡(luò)捕獲文本不同位置的局部相關(guān)性的特性,提出基于Bi-LSTM,Self-Attention和CNN的組合模型。
模型的嵌入層將輸入的幽默文本序列映射為詞向量序列,這些向量將與模型一起參與訓(xùn)練;雙向長短時記憶層負(fù)責(zé)對詞向量序列提取上下文的長距離依賴特征,使模型能夠識別幽默文本序列存在的全局上下文模式,有助于模型辨別諸如前后反轉(zhuǎn)造成的幽默效果,同時使模型具有識別文本中是否存在加強幽默效果的關(guān)鍵句的能力。自注意力層在雙向長短時記憶層的基礎(chǔ)上,通過文本序列中每個位置的詞語對其他位置詞語分配注意力權(quán)重,動態(tài)地調(diào)整詞向量序列,使每個詞語更加關(guān)注文本序列中有限的若干個詞語,對模型捕獲文本中存在的諧音、諧義和反義等關(guān)系有重要作用。卷積神經(jīng)網(wǎng)絡(luò)層中通過卷積操作進(jìn)一步提取文本中的局部相關(guān)性特征,并通過平均池化來整合特征以及降低特征維度。輸出層經(jīng)過全連接層與卷積神經(jīng)網(wǎng)絡(luò)層相連,用于輸出分類類別。
4實驗
4.1實驗數(shù)據(jù)
本文實驗所使用的數(shù)據(jù)為CCL2018 Task4由大連理工大學(xué)信息檢索實驗室提供的的評測數(shù)據(jù)集。任務(wù)一數(shù)據(jù)集共有9123條幽默文本,任務(wù)二數(shù)據(jù)集共有10058條幽默文本,其中幽默文本的類別分布與現(xiàn)實情況基本一致。
對于輸入模型的語料,需要進(jìn)行一些預(yù)處理的工作:使用正則表達(dá)式去除語料中的標(biāo)點符號、特殊符號,并使用python中的jieba庫對文本進(jìn)行分詞處理,將每個幽默文本轉(zhuǎn)化為詞語序列的表示。
4.2實驗結(jié)果及分析
本文實驗中,選取CNN和Bi-LSTM模型作為對比模型,用以證明本文模型在幽默計算任務(wù)中的有效性。我們使用F1值、準(zhǔn)確率和召回率作為評價指標(biāo)。由于任務(wù)一為三分類任務(wù),因此均使用宏平均的指標(biāo)。
在任務(wù)一中,經(jīng)過對比我們可以發(fā)現(xiàn),CNN模型對于幽默識別任務(wù)來說能達(dá)到一個相對較高的準(zhǔn)確率,而在召回率上表現(xiàn)較差。而Bi-LSTM模型在召回率上有所提升,但是準(zhǔn)確率卻相對于CNN有所下降。本文模型在達(dá)到了較高召回率的同時,也保持了相對高的準(zhǔn)確率,并在宏平均F1值上相較于其他兩個模型提高了近2%。在任務(wù)二中,經(jīng)過對比我們可以發(fā)現(xiàn)Bi-LSTM在準(zhǔn)確率和召回率上相較于CNN均有提升,本文模型在準(zhǔn)確率上相較于Bi-LSTM略有提升,而在召回率上提升幅度較大,并在F1值上達(dá)到3%-5%的提升。
5結(jié)語
對于本文的幽默類型及幽默等級分類任務(wù),我們通過使用Bi-LSTM與CNN組合,并加入自注意力機制調(diào)整詞語對周圍詞的注意力權(quán)重的方法,更好地捕捉到了幽默文本中的語義信息以及長距離諧音、諧義、反轉(zhuǎn)的特征信息,從而在原有的使用簡單神經(jīng)網(wǎng)絡(luò)分類基礎(chǔ)上準(zhǔn)確率進(jìn)一步提高。
目前將機器識別幽默運用到實際中還需要更深入的研究。在未來的學(xué)習(xí)與工作中,我們將嘗試將外部知識庫融入模型中,輔助模型進(jìn)行幽默的識別和分類,從而能實現(xiàn)幽默機制真正意義上的現(xiàn)實應(yīng)用。
參考文獻(xiàn)
[1] 祁小軍,蘭海翔,盧涵宇,等.貝葉斯、KNN和SVM算法在新聞文本分類中的對比研究[J].電腦知識與技術(shù),2019,15(25):220-222.
[2] 丁世濤,盧軍,洪鴻輝,等.基于SVM的文本多選擇分類系統(tǒng)的設(shè)計與實現(xiàn)[J].計算機與數(shù)字工程,2020,48(1):147-152.
[3] 孫明敏.基于TF-IDF的FastText文本分類算法研究[D].揚州:揚州大學(xué),2019.
[4] 孫嘉琪,王曉曄,周曉雯.基于神經(jīng)網(wǎng)絡(luò)模型的文本分類研究綜述[J].天津理工大學(xué)學(xué)報,2019,35(5):29-33.
[5] 朱文峰.基于支持向量機與神經(jīng)網(wǎng)絡(luò)的文本分類算法研究[D].南京:南京郵電大學(xué),2019.
[6] Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[C]//Advances in neural information processing systems,2017:5998-6008.
收稿日期:2020-05-06
作者簡介:孫緒瑞,男,江蘇連云港人,本科,研究方向:人工智能與大數(shù)據(jù)處理。