吐妮可·吐爾遜,閔昶榮,林鴻飛,張冬瑜,楊 亮
(1. 大連理工大學(xué) 計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,遼寧 大連 116024;2. 大連理工大學(xué) 軟件學(xué)院,遼寧 大連 116620)
幽默作為一種修辭手法,是人類交際中不可或缺的一部分,在使得人與人之間的溝通更加流暢的同時(shí),營造了輕松愉悅的交流氛圍。得益于社交媒體飛速發(fā)展所帶來的海量文本數(shù)據(jù),自然語言處理領(lǐng)域的文本幽默識別研究在近年來取得了長足進(jìn)展。文本幽默識別的主要目標(biāo)是通過計(jì)算方法來理解文本中的幽默表達(dá)并判斷該文本是否為幽默。幽默識別不僅能夠應(yīng)用于文本生成、機(jī)器翻譯以及隱喻識別等任務(wù),還能夠賦予機(jī)器理解幽默的能力,提升現(xiàn)實(shí)中人機(jī)交互的效果。因此,從文本中理解幽默產(chǎn)生的機(jī)制并識別幽默文本變得尤為重要。
從語言學(xué)與心理學(xué)的角度,主要存在三種觀點(diǎn)來解釋幽默的產(chǎn)生,分別是: 優(yōu)越論[1]、寬慰論[2]以及乖訛論[3]。其中,優(yōu)越論認(rèn)為幽默是一種表達(dá)并強(qiáng)調(diào)自我價(jià)值與地位的方式,它強(qiáng)調(diào)通過取笑、諷刺或嘲笑他人來獲取優(yōu)越感;寬慰論認(rèn)為幽默有助于緩解人們的壓力和緊張情緒;乖訛論又稱為不一致性理論,它的表達(dá)中通常會包含一些出人意料的不一致性,通過產(chǎn)生違背人們常識和期望的事物的感知,來引發(fā)人們的笑聲和關(guān)注?;谏鲜隼碚?研究者們從多個角度提取文本中的幽默特征,同時(shí)通過設(shè)計(jì)不同結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)模型來學(xué)習(xí)幽默的深層次語義,基于此判斷該文本是否為幽默。例如,Chauhan等人[4]認(rèn)為幽默與情感和情緒密切相關(guān),提出了利用Transformer和情緒感知嵌入(SE-Embedding)的多任務(wù)框架來進(jìn)行幽默檢測。Liu等人[5]基于“優(yōu)越論”和“寬慰論”的觀點(diǎn),結(jié)合情感特征對語篇單元中的情感關(guān)系建模,證明了情感信息能更有效地解決對話幽默識別問題。Li等人[6]使用“樂觀幽默類型”和“悲觀幽默類型”的情感極性來標(biāo)注數(shù)據(jù)集中“積極”和“消極”情緒類別,采用雙向長短時(shí)記憶網(wǎng)絡(luò)結(jié)合注意力網(wǎng)絡(luò)的方法,捕捉俚語和微博表情符號在情感分析中的影響,為深入了解俚語和微博表情符號對中文情感分析提供了新視角。
從上述工作中可知,文本內(nèi)蘊(yùn)含的情感特征對于識別幽默表達(dá)十分重要,這些工作主要通過外部詞典匹配的方式來捕捉文本內(nèi)的情感特征。然而,本文發(fā)現(xiàn)在幽默表達(dá)中很多情緒往往是隱式表達(dá)的,如表1所示,其中第二個幽默樣本表達(dá)了“悲傷”或者“憤怒”的情緒,但是該樣本并沒有包含直接表達(dá)情緒的詞匯,而是通過短語“got fired”來表達(dá),這種方式稱為隱式情感表達(dá)?,F(xiàn)存的幽默識別方法主要采用外部情感詞典來捕捉文本內(nèi)的情感信息。顯然,這種方式無法有效識別出這些隱式情感表達(dá),降低了模型識別文本幽默的能力。
表1 幽默樣本以及包含的情緒信息
從認(rèn)知角度,理解這些隱式情緒表達(dá)不僅需要結(jié)合上下文信息,還需要充分利用外部常識。盡管現(xiàn)有的預(yù)訓(xùn)練語言模型(PLM)能夠高效地捕捉文本的上下文信息, 但是由于其是在大規(guī)模通用語料上訓(xùn)練,因此無法有效感知這些文本背后的隱式情緒。
為了解決這一問題,本文提出一種動態(tài)常識與多維語義特征驅(qū)動的幽默識別方法(Commonsense and Multi-dimensional Semantics Based Humor Detector,CMSOR)。該方法主要是利用外部常識,根據(jù)文本的上下文信息,動態(tài)地推斷文本中的隱式情緒,并將其作為文本情緒特征的一部分,參與幽默識別。
具體地,該方法首先根據(jù)文本內(nèi)容利用預(yù)訓(xùn)練常識推理工具COMET[7]根據(jù)上下文信息動態(tài)推斷文本的內(nèi)蘊(yùn)情感信息,然后將文本內(nèi)容與推斷出的情感信息拼接融合,通過預(yù)訓(xùn)練語言模型BERT進(jìn)一步將顯式情感融入到文本語義當(dāng)中,形成顯式情感增強(qiáng)的文本表示。同時(shí),利用外部詞典WordNet[8]計(jì)算語義距離以及同義詞數(shù)量,分別形成文本的不一致性特征以及模糊性特征。最后,將上述三種特征進(jìn)行結(jié)合,形成多維幽默語義表示,輸入到分類器中,得到幽默預(yù)測結(jié)果。
本文研究工作主要內(nèi)容如下:
(1) 提出了一種動態(tài)常識驅(qū)動的幽默識別方法CMSOR,利用外部常識動態(tài)捕捉文本的隱式情感特征,同時(shí)利用外部詞典建模模糊性與不一致性特征,從多個維度構(gòu)建幽默語義,實(shí)現(xiàn)幽默識別。
(2) 在Pun of the Day、SemEval21以及ColBERT三個公開數(shù)據(jù)集上進(jìn)行了實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果表明,本文所提出的CMSOR模型相比于現(xiàn)有方法在四項(xiàng)評價(jià)指標(biāo)上有明顯提升,證明了方法的有效性。
由于幽默表達(dá)本身的復(fù)雜性,幽默識別在近些年來一直是一項(xiàng)極具挑戰(zhàn)性的任務(wù)。早期的幽默識別方法主要是基于特征工程,將統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法作為分類器,在幽默理論的基礎(chǔ)上設(shè)計(jì)不同的幽默特征提取方案。這些人工提取的特征包括通用語言學(xué)特征以及面向幽默的文本特征。例如,Mihalcea和Strapparova[9]定義了頭韻、反義詞和成人俚語三種幽默特征,通過實(shí)驗(yàn)證明了他們在one-liner數(shù)據(jù)集中幽默識別的有效性。Mihalcea等人[10]將幽默文本分為“鋪墊”和“笑點(diǎn)”兩部分,通過計(jì)算兩者的語義相關(guān)性進(jìn)行幽默識別。Yang等人[11]深入探討幽默潛在語義特征,構(gòu)造了四種幽默特征,分別是語音特征、歧義特征、不一致性特征和情感特征。Morales 和Zhai[12]針對Yelp評論使用概率模型結(jié)合背景文本資源進(jìn)行幽默識別。Cattle和Ma[13]利用單詞關(guān)聯(lián)的語義關(guān)聯(lián)特征進(jìn)行幽默識別。上述這些工作大多是利用統(tǒng)計(jì)或者匹配的方法來提取文本中的淺層幽默特征,無法對幽默的深層次潛在語義進(jìn)行表示,從而限制了幽默識別的性能。
隨著計(jì)算能力的提高以及社交媒體數(shù)據(jù)的增長,深度學(xué)習(xí)在不同領(lǐng)域被廣泛用于輔助或替代傳統(tǒng)的特征工程。與其他領(lǐng)域相比,深度學(xué)習(xí)在幽默識別任務(wù)中應(yīng)用較晚。這些基于深度神經(jīng)網(wǎng)絡(luò)的幽默識別方法主要是利用預(yù)訓(xùn)練語言模型表示文本,然后設(shè)計(jì)不同結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)對于幽默特征的深層次提取。例如,Bertero等人[14]認(rèn)為幽默情景劇是一種具有獨(dú)特特點(diǎn)的喜劇形式,背景笑聲可以視為觀眾對于搞笑場景的反應(yīng),自動標(biāo)注這些笑聲可以有效地識別笑點(diǎn),便在此基礎(chǔ)上使用長短時(shí)記憶網(wǎng)絡(luò)(LSTM)對幽默情景劇中的對話進(jìn)行建模,同時(shí)提取對話語義特征和聲音特征來識別笑點(diǎn)。Cuza和Buenod等人[15]針對西班牙推文結(jié)合了語言特征和基于注意力的遞歸神經(jīng)網(wǎng)絡(luò)進(jìn)行幽默識別。Blinov等人[16]收集大量笑話和趣味對話構(gòu)造俄語數(shù)據(jù)集,并微調(diào)語言模型用于幽默識別。Kao 和Levy 等人[17]提出模糊性和獨(dú)特性兩個特征,使用語言模型識別幽默語句。Weller和Seppi[18]使用Transformer架構(gòu)識別幽默。Hasan等人[19]使用循環(huán)神經(jīng)網(wǎng)絡(luò)進(jìn)行多模態(tài)幽默識別。Diao等人[20]提出一種基于不一致性、模糊性、情感因素和語言學(xué)潛在語義結(jié)構(gòu)的識別模型。Fan等人[21]基于Bi-GRU網(wǎng)絡(luò)融合語音特征和歧義性特征進(jìn)行幽默檢測。Annamoradnejad和Zoghi[22]改進(jìn)BERT模型在自創(chuàng)建的幽默數(shù)據(jù)集ColBERT上進(jìn)行實(shí)驗(yàn),證實(shí)了提出的模型能夠有效地檢測幽默。Zhang等人[23]利用卷積神經(jīng)網(wǎng)絡(luò)結(jié)合標(biāo)簽轉(zhuǎn)移關(guān)系提出多任務(wù)學(xué)習(xí)模型識別幽默。Ren等人[24]結(jié)合幽默和雙關(guān)語識別任務(wù),提出一種基于注意力的多任務(wù)學(xué)習(xí)模型來進(jìn)行幽默檢測。Ren等人[25]提出一種基于注意力機(jī)制的神經(jīng)網(wǎng)絡(luò)來驗(yàn)證發(fā)音、句法與詞法特征對于幽默識別任務(wù)的重要性。
與上述工作類似,本文同樣考慮了情感特征在幽默表達(dá)中的重要作用。不同的是,本文針對幽默文本中隱式情感表達(dá)難以被詞典有效識別的問題,采用動態(tài)常識推理,從文本中推斷內(nèi)蘊(yùn)的隱式情感,并結(jié)合模糊特征與不一致特征,從多個維度對于文本的幽默語義進(jìn)行刻畫。
本文所提出的基于動態(tài)常識推理與多維語義特征的幽默識別(CMSOR)模型如圖1所示。該模型主要由三個部分組成: 情感特征提取層、語義特征提取層、模糊性特征提取層。其中,情感特征提取層主要是考慮到幽默表達(dá)中存在大量隱式情感表達(dá),利用外部常識推斷文本中的隱式情感表達(dá),充分挖掘文本中的情感特征;語義特征提取層主要是通過計(jì)算句子內(nèi)部詞對之間的語義關(guān)聯(lián)來學(xué)習(xí)文本內(nèi)部的不一致性特征;模糊性特征提取層主要是利用外部詞典捕捉文本中存在歧義性的詞匯,通過循環(huán)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)其模糊性特征。最后,將幽默的三個維度特征進(jìn)行拼接,通過分類器獲得文本的幽默預(yù)測結(jié)果。
圖1 CMSOR模型框架圖
幽默表達(dá)與情感有著極大的關(guān)聯(lián)。一些帶有強(qiáng)烈感情色彩的詞會增加受眾對于作者表述的認(rèn)同感,使得讀者的情緒被更為充分地調(diào)動,從而達(dá)到幽默的效果[26]。然而幽默內(nèi)存在的隱式情感表達(dá)使得通過外部詞典捕捉文本情感特征變得十分困難。為了解決這一問題,本文采用預(yù)訓(xùn)練常識推理模塊COMET根據(jù)上下文信息動態(tài)推斷文本內(nèi)所蘊(yùn)含的情感特征。COMET作為一種常識推理工具,在給定上下文的情況下,能夠根據(jù)不同的事件關(guān)系來推理相應(yīng)的結(jié)果。COMET是以Transformer為基礎(chǔ)架構(gòu),并在ATOMIC[27]數(shù)據(jù)集上訓(xùn)練得到。該數(shù)據(jù)集共提供23種事件關(guān)系,而本文主要采用[xReact]這一關(guān)系。它的功能是根據(jù)上下文推斷句子中主語的內(nèi)心情緒,并以文本形式輸出。
具體地,以幽默文本序列x=(w1,w2,…,wm)作為輸入,COMET能夠根據(jù)x推理出說話者可能的內(nèi)心情緒。在這里,本文選擇概率最高的前l(fā)個可能結(jié)果,并得到說話者情緒候選集K={k1,k2,…,kl}。其中,ki表示第i個情緒詞。然后,將初始文本序列x與情緒候選集拼接,得到顯式情緒增強(qiáng)的幽默文本序列,如式(1)所示。
xe={w1,w2,…,wm,[SEP],k1,k2,…,kl}
(1)
其中,[SEP]為句子分割符。本文采用BERT對xe進(jìn)行上下文編碼。具體計(jì)算如式(2)所示。
其中,ve為編碼后得到的句子表示,W0為BERT的可學(xué)習(xí)參數(shù)。
一方面,BERT能夠有效地捕捉上下文信息,將幽默文本x中的單詞wi與情緒候選集K中的情緒單詞ki從語義層面上關(guān)聯(lián)起來,進(jìn)而有效捕捉文本內(nèi)的情緒特征。另一方面,BERT內(nèi)的多頭注意力機(jī)制能夠?yàn)槲谋局械拿總€單詞賦予不同的權(quán)重,通過降低與幽默文本無關(guān)的情緒詞的權(quán)重,來避免引入過多噪聲信息。在得到上下文編碼后,采用雙向長短時(shí)記憶神經(jīng)網(wǎng)絡(luò)(Bi-LSTM)對于上下文語義信息進(jìn)行進(jìn)一步學(xué)習(xí),最后通過注意力機(jī)制獲取潛在情感特征ze,其計(jì)算公式如式(3)、式(4)所示。
其中,ue∈R1×p為輸出的幽默文本表示,p為Bi-LSTM的隱藏層維度。W1為Bi-LSTM的可學(xué)習(xí)參數(shù),W2為注意力機(jī)制的可學(xué)習(xí)參數(shù)。
一些語言學(xué)研究[28]認(rèn)為幽默的本質(zhì)在于表現(xiàn)出兩種不一致的思想或概念。同樣的,Raskin等人[29]也指出幽默的產(chǎn)生往往借助于一些有意義但含義不同或相反的詞語或短語的組合,通過制造錯覺或矛盾感而達(dá)到幽默的效果。例如,
例1I am deeply aware that I am a superficial person.
例1中“deeply”可以翻譯成“深刻”,“superficial”可以翻譯成“膚淺”。這個句子的中文翻譯是“我深刻地意識到我是個膚淺的人”,其中“深刻”和“膚淺”有相反的含義,從而達(dá)到幽默效果。上述例子也可以說明幽默中的不一致特征具有隱晦和抽象的特點(diǎn),并與深層次語義關(guān)聯(lián)緊密。從聽者角度,需要具有背景知識才能夠推斷出詞匯或者短語之間的隱含關(guān)系。因此,需要引入外部知識更好地捕捉幽默的不一致性特征。
具體地,給定一個輸入文本序列x=(w1,w2,…,wm),本文首先通過預(yù)訓(xùn)練語言模型將文本序列中的每個詞進(jìn)行向量化表示并得到V=(v1,v2,…,vm)∈Rm×d。 其中d表示詞向量維度。然后,針對于x中的每個詞wi,利用WordNet獲取其詞義特征,并得到H=(h1,h2,…,hm)∈Rm×d′,d′表示其詞義特征維度。將詞義信息H與深層次語義信息V進(jìn)行拼接,得到V′=(v′1,v′2,…,v′m)∈Rm×(d+d′)。 為了計(jì)算詞級語義不一致性,首先采用兩個平行語義編碼器對文本表示V′進(jìn)行壓縮。編碼器由全連接神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn),具體計(jì)算如式(5)、式(6)所示。
Reyes和Rosso[30]認(rèn)為幽默是一個單詞的多個含義令句子產(chǎn)生不同的理解,借助語義和語境的歧義來產(chǎn)生的。Miller和Gurevych[31]指出,模糊性是幽默的關(guān)鍵因素,是幽默中常見的語言現(xiàn)象。隨之Reyes等人[32]得出結(jié)論: 幽默的表達(dá)往往伴隨著語義的模棱兩可。如下例:
例2Why did the tomato turn red? Because it saw the salad dressing!
例3My trip to the grand canyon cost a hole lot of money and gorged my bank account butte it was worth it.
例2中“salad”一詞既可以被解釋為用于沙拉的一種醬汁,也可以表示“穿衣服”的意思,從而導(dǎo)致句子產(chǎn)生兩種截然不同的意義來產(chǎn)生幽默效果。例3中,首先“hole”的字面含義為“洞”,但在口語中也可表示為“大量”或“很多”,其次“butte”的字面含義為“丘陵”,但在句中被用作雙關(guān)詞,與“but”相呼應(yīng)。句子通過“hole”和“butte”的雙關(guān)含義,使得例3既可描述為旅行花費(fèi)了大量的錢,也可暗示這個花銷像一個巨大的洞一樣,吞噬了大量的資金。結(jié)合上述例子,幽默通過詞匯的多個含義來創(chuàng)造幽默,達(dá)到幽默效果。由此可見,模糊性是判斷文字是否幽默的重要因素之一,是幽默文本的重要組成部分。綜上所述,本文為提高幽默識別的性能,利用外部資源WordNet捕獲句子中的歧義詞。
在WordNet數(shù)據(jù)庫中,名詞、動詞、形容詞和副詞都被存儲為同義詞集合的形式,每一個同義詞集合被稱為一個Synset,包含一組具有相似意義的單詞。不同的Synset之間可以通過語義關(guān)系和詞性關(guān)系等邊相連接,這些關(guān)系可以幫助人們理解這些單詞之間的聯(lián)系和含義。
針對于輸入文本序列x=(w1,w2,…,wm),首先利用WordNet中的同義詞集合Synset計(jì)算每個單詞wi的同義集數(shù)量n。 本文認(rèn)為單詞的同義詞數(shù)量越多,會導(dǎo)致句子理解存在很多歧義,從而模糊性程度就會增加,因此本文將同義集數(shù)量最多的詞匯設(shè)置為最容易出現(xiàn)歧義的詞匯,停用詞在句子中不承載實(shí)際的語義信息,因此可以被移除或忽略,從同義詞集合和同義詞數(shù)量中刪除停用詞匯及其個數(shù)。針對于同義詞集的數(shù)量,定義如式(7)所示的規(guī)則來描述每個詞的模糊程度。
由式(7)得到x的模糊程度序列c=(c1,c2,…,cm),其中,0表示模糊程度最低,4表示模糊程度最高,對于文本中的停用詞,其模糊程度統(tǒng)一設(shè)定為0。然后,將該序列c進(jìn)行one-hot表示,得到模糊程度矩陣Vc=[c1,c2,…,cm]∈Rm×d。將Vc與文本表示V=[v1,v2,…,vm]∈Rm×d通過拼接方式進(jìn)行融合,并利用模糊特征編碼器Gfuz學(xué)習(xí)包含模糊特征的文本表示,該編碼器由Bi-LSTM及注意力機(jī)制實(shí)現(xiàn)。其計(jì)算如式(8)所示。
其中,zf為模糊性特征表示,W5為可學(xué)習(xí)參數(shù),⊕表示拼接操作。
在獲得幽默文本的情感特征ze、不一致性特征zs=MaxPooling(S)以及模糊性特征zf之后,將三種特征通過拼接方式進(jìn)行融合,得到多維度融合幽默特征z=ze⊕zs⊕zf。 通過注意力機(jī)制進(jìn)一步學(xué)習(xí)三種特征之間的內(nèi)在關(guān)聯(lián),具體計(jì)算如式(9)所示。
其中,W6表示注意力機(jī)制層的可學(xué)習(xí)參數(shù)。在此基礎(chǔ)上,將其輸入到由全連接層構(gòu)成的幽默分類器fh中,獲得文本x的幽默標(biāo)簽預(yù)測。具體計(jì)算如式(10)所示。
最后,CMSOR在分類中采用交叉熵(Cross Entropy)作為損失函數(shù)。其損失計(jì)算如式(11)所示。
本節(jié)首先詳細(xì)描述數(shù)據(jù)集、實(shí)驗(yàn)數(shù)據(jù)和實(shí)驗(yàn)設(shè)置,然后對比了基線方法和本文提出的CMSOR方法的幽默識別性能,最后結(jié)合對比實(shí)驗(yàn)以及消融實(shí)驗(yàn)結(jié)果來討論模型的性能,并驗(yàn)證本文模型方法的有效性。
為了證明方法的有效性,本文實(shí)驗(yàn)中使用了三個公開的數(shù)據(jù)集,其統(tǒng)計(jì)信息如表2所示。具體介紹如下:
表2 數(shù)據(jù)集統(tǒng)計(jì)信息
PunofTheDay[33]: 該數(shù)據(jù)集的構(gòu)建是Yang等人通過在互聯(lián)網(wǎng)上收集幽默文本而完成的,包括了各種類型的幽默,如雙關(guān)語、笑話、俏皮話等等。為確保數(shù)據(jù)的準(zhǔn)確性和可靠性,通過人工標(biāo)注和質(zhì)量控制的方式對數(shù)據(jù)進(jìn)行了篩選和整理。該數(shù)據(jù)集目前廣泛使用于幽默識別中。
SemEval 2021 Task7-1a[34]: 該任務(wù)是一項(xiàng)國際評測,Task7子任務(wù)一是識別文本是否為幽默文本,該數(shù)據(jù)集可以用來進(jìn)行幽默檢測,本文利用Task7子任務(wù)一涉及數(shù)據(jù)來判斷是否為幽默文本。
ColBERT[22]: 該數(shù)據(jù)集是一個大規(guī)模的幽默數(shù)據(jù)集,它包含了20萬個來自網(wǎng)絡(luò)的英文幽默文本,其中10萬正樣本由Reddite收集得到,另外10萬負(fù)樣本來源于新聞頭條。
實(shí)驗(yàn)在Python 3.7和Keras 2.2.4環(huán)境下進(jìn)行。對于本文提出的CMSOR模型,其中常識知識層本文采用12層的BERT-base-cased(1)https://huggingface.co/bert-base-cased作為預(yù)訓(xùn)練語言模型編碼,其中向量維度為768,共110M個參數(shù);語義特征提取以及模糊性特征提取采用GloVe,維度為100,詞嵌入在訓(xùn)練的過程中固定,不在詞匯表中出現(xiàn)的單詞使用(-0.01,0.01)上的平均分布隨機(jī)初始化;使用WordNet獲取單詞同義詞集合;Bi-LSTM的神經(jīng)元數(shù)量為128;Dropout為0.3;Batch大小為64;模型采用Adam Optimzation優(yōu)化算法更新模型參數(shù);采用了學(xué)習(xí)率衰減和早停機(jī)制以防止過擬合現(xiàn)象。此外,采用準(zhǔn)確度(Accuracy)、精確率(Precision)、召回率(Recall)和F1值(F1-Score)作為實(shí)驗(yàn)結(jié)果的評價(jià)指標(biāo),并且所有實(shí)驗(yàn)均進(jìn)行五倍交叉驗(yàn)證,取平均值作為實(shí)驗(yàn)結(jié)果。
本文采用如下基線模型進(jìn)行對比:
(1) LSTM[35]: 通過經(jīng)典LSTM模型提取幽默特征進(jìn)行幽默識別。
(2) Bi-LSTM: 利用可以更好地捕捉雙向語義依賴關(guān)系的Bi-LSTM模型。
(3) Bi-LSTM+ATT: 使用Bi-LSTM模型結(jié)合注意力機(jī)制提取幽默特征進(jìn)行幽默識別。
(4) CNN: 采用卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network, CNN)獲取幽默語句的潛在語義及模糊性特征進(jìn)行幽默識別。
(5) BERT[36]: 使用預(yù)訓(xùn)練BERT模型在幽默數(shù)據(jù)集上進(jìn)行微調(diào)。
(6) IEANN[21]: 通過結(jié)合內(nèi)部及外部注意力神經(jīng)網(wǎng)絡(luò)構(gòu)建兩種注意力機(jī)制,以捕捉幽默文本中的不一致性和模糊性特征。
(7) ABML[24]: 通過聯(lián)合幽默和雙關(guān)語檢測的多任務(wù)學(xué)習(xí)模型進(jìn)行幽默識別。
(8) ANPLS[25]: 通過結(jié)合發(fā)音、詞匯和句法幽默特征的注意力網(wǎng)絡(luò),提取幽默特征進(jìn)行幽默識別。
實(shí)驗(yàn)結(jié)果如表3所示,對實(shí)驗(yàn)結(jié)果進(jìn)行具體分析可以得到如下結(jié)論:
表3 對比實(shí)驗(yàn)結(jié)果
(1) 本文提出的CMSOR方法在三個數(shù)據(jù)集上均取得了最好的結(jié)果,在三個數(shù)據(jù)集上的F1值相比于現(xiàn)存的最優(yōu)結(jié)果分別提升了0.25%、0.31%、0.67%,證明了從情感、不一致性以及模糊性三個維度構(gòu)建幽默語義并應(yīng)用于幽默識別是有效的。
(2) 從表中可以看出,相比于基于CNN的幽默識別方法,基于Transformer的方法(BERT以及CMSOR)在四項(xiàng)評價(jià)指標(biāo)上有明顯性能提升,這說明Transformer能夠通過全局注意力機(jī)制更好地捕捉幽默文本的上下文信息。
(3) CMSOR方法能夠通過深度神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),在外部知識驅(qū)動下,自動構(gòu)建幽默特征,相比于BERT在Pun of The Day數(shù)據(jù)集上取得了明顯的性能提升(F1值提高2.79%)。這也驗(yàn)證了深度學(xué)習(xí)模型結(jié)合外部知識能夠在幽默理論約束下學(xué)習(xí)到幽默相關(guān)特征。
(4) 相比于基于RNN的方法, 基于CNN的方法在Pun of The Day和SemEval數(shù)據(jù)集上F1值取得了明顯的提升,如在SemEval數(shù)據(jù)集上, CNN相比于BI-LSTM+ATT在F1值提高了1.18%。這說明幽默表達(dá)可能與局部語義信息(Ngram)有著一定的關(guān)聯(lián)。
(5) 與采用情感詞典捕捉文本內(nèi)部情感信息的IEANN相比,本文提出的CMSOR方法在Pun of The Day、SemEval以及ColBERT數(shù)據(jù)集上F1值分別提升了1.35%、1.32%和1.6%。這說明利用動態(tài)外部常識信息能夠更準(zhǔn)確地推斷文本內(nèi)部情感。
(6) ABML模型在Pun of The Day和SemEval數(shù)據(jù)集上ACC值高于IEANN和ANPLS。ACC值達(dá)到最高。ABML模型不僅考慮雙關(guān)語的特點(diǎn),還考慮了幽默和雙關(guān)語之間共同的潛在語義信息。這意味著模型能夠更好地理解雙關(guān)語的雙重含義,并將其與幽默特征聯(lián)系起來,有效地增強(qiáng)模型對幽默的識別能力。
為了驗(yàn)證CMSOR中不同組件的有效性,本文在三個數(shù)據(jù)集上進(jìn)行消融實(shí)驗(yàn),并設(shè)計(jì)以下模型變體: CMSOR-C表示僅使用情感特征;CMSOR-I表示僅使用語義不一致性特征;CMSOR-A表示僅使用模糊性特征;CMSOR-CI表示融合情感特征和語義不一致性特征;CMSOR-CA表示融合情感特征和模糊性特征;CMSOR-IA表示融合語義不一致性特征和模糊性特征。
三個數(shù)據(jù)集上的消融實(shí)驗(yàn)結(jié)果如表4所示。從表中可以得到如下結(jié)論:
表4 消融實(shí)驗(yàn)結(jié)果
(1) 當(dāng)分別移除情感特征(CMSOR-IA)、模糊特征(CMSOR-CI)以及不一致性特征(CMSOR-CA)之后,模型在SemEval 2021 Task7-1a數(shù)據(jù)集上的四項(xiàng)指標(biāo)均有明顯下降(F1值分別下降3.26%,1.82%,1.45%),這說明三種情感特征在幽默識別任務(wù)中的有效性。然而,在Pun of The Day數(shù)據(jù)集上,當(dāng)移除情感特征后,模型在召回率R上有了提升,這可能是因?yàn)锽ERT在學(xué)習(xí)情感增強(qiáng)的文本表示時(shí),將錯誤的情緒信息融入到語義表示當(dāng)中,所以導(dǎo)致該指標(biāo)下降。而在ColBERT數(shù)據(jù)集上,精確率P得到了提升,這可能是因?yàn)榍楦刑卣髋c其他特征存在冗余,即它們所攜帶的信息在一定程度上是重疊的。當(dāng)移除情感特征時(shí),模型可能更加依賴于其他更為關(guān)鍵的特征,從而提高了精確率。
(2) 當(dāng)只保留模糊性特征的時(shí)候,模型在Pun of The Day 和ColBERT數(shù)據(jù)集上的表現(xiàn)相比于CMSOR下降得最少,在Pun of The Day數(shù)據(jù)集上精確率P得到了提升,這說明模糊性特征在構(gòu)建幽默語義的過程中相比于情感特征以及不一致性特征更加重要。然而,對于SemEval 2021 Task7-1a數(shù)據(jù)集,情感特征更加重要。
圖2展示了不用數(shù)量的常識信息對于模型性能的影響。從圖中可以觀察到,在Pun of The Day和ColBERT數(shù)據(jù)集上,當(dāng)知識數(shù)量為1時(shí),模型效果最差。隨著候選知識數(shù)量的不斷增加,模型的表現(xiàn)逐漸提升,并且在l=5時(shí)取得最好的結(jié)果。這說明有效處理隱式情感表達(dá)對于CMSOR建模幽默語義具有重要作用,并且顯式情感信息的增加會提升模型對于文本情感特征的捕捉效果。對于SemEval 2021 Task7-1a數(shù)據(jù)集而言,變化趨勢與其他兩個數(shù)據(jù)集不同。隨著知識數(shù)量的增加,模型表現(xiàn)在性能略微提升之后,呈現(xiàn)出下降趨勢,并且在l=4時(shí)取得最差的結(jié)果,但是l=5時(shí)結(jié)果最優(yōu)。這可能是因?yàn)楫?dāng)將知識數(shù)量增加到5時(shí),一些樣本的隱式情感表達(dá)才能夠被COMET有效推理出來。
圖2 不同數(shù)量的知識候選對模型性能的影響
針對于現(xiàn)有幽默識別方法沒有充分捕捉文本內(nèi)部的情感特征,忽略了幽默文本中的隱式情感表達(dá)這一問題,本文提出一種動態(tài)常識與多維語義特征驅(qū)動的幽默識別方法CMSOR。該方法首先利用外部常識信息從文本中動態(tài)推理出說話者的隱式情感表達(dá),然后引入外部詞典WordNet計(jì)算文本內(nèi)部詞級語義距離,進(jìn)而捕捉不一致性,同時(shí)計(jì)算文本的模糊性特征。最后,根據(jù)上述三個特征維度構(gòu)建幽默語義,實(shí)現(xiàn)幽默識別。本文在三個公開數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn),結(jié)果表明本文所提方法 CMSOR相比于當(dāng)前基準(zhǔn)模型性能有明顯提升。未來,本文將嘗試把常識信息應(yīng)用到幽默生成、多模態(tài)幽默識別等任務(wù)當(dāng)中。