施憶雪,余正濤,相 艷,張亞飛
(1.昆明理工大學(xué) 信息工程與自動化學(xué)院,云南 昆明 650500;2.昆明理工大學(xué) 云南省人工智能重點實驗室,云南 昆明 650500)
互聯(lián)網(wǎng)的快速發(fā)展推動了中越兩國交流,對越南語的網(wǎng)絡(luò)評論進(jìn)行情感極性分析有助于了解民眾對特定事件的態(tài)度,是越南語事件觀點分析的基礎(chǔ)。越南語情感詞典、標(biāo)注數(shù)據(jù)等資源的稀缺阻礙了其情感分類研究,可通過跨語言情感分類(Cross-Lingual Sentiment Classification,CLSC)方法,利用中文作為源語言的情感資源,解決越南語作為目標(biāo)語言的情感分類問題。目前常用的跨語言情感分類方法有三類: 一是基于雙語對齊資源的方法,利用平行語料、情感詞典等,將源語言中的情感資源直接遷移到目標(biāo)語言中,彌補語言之間的語義鴻溝[1-4]。二是基于機器翻譯技術(shù),將兩種語言翻譯至同一語言,最終將跨語言情感分類轉(zhuǎn)變?yōu)閱握Z任務(wù)[5-8]。三是基于特征遷移[9-13],將源語言與目標(biāo)語言的特定語言特征和語言無關(guān)特征映射到統(tǒng)一空間中,使得兩種語言在語義空間下共享同一表示,以實現(xiàn)情感分類任務(wù)。
目前基于特征遷移的方法主要解決的是兩種語言的語義表征對齊問題,而未關(guān)注文本所蘊含的主題對于情感分類的作用。實際上,無論是中文還是越南語,用戶通常都會針對特定主題發(fā)表評論,主題信息將有助于推斷情感狀態(tài)[14]。以下將以圖1和圖2所示評論為例,分析主題在評論中的作用。
圖1 中文評論句樣例
圖2 越南語評論句樣例
圖1所示的中文新冠疫情數(shù)據(jù)集中,有關(guān)于“疫苗接種”和“疫情防控”兩種不同主題的評論句。針對“疫苗接種”主題的評論句中,常用的觀點詞為“相信”,“最好的”,“保障”等,表示對接種疫苗的支持和鼓勵;而針對“疫情防控”主題的評論句中,觀點詞常用“理解”,“遵守”,“控制”等,表達(dá)疫情防控的必要性??梢钥闯鲈u論在針對某一主題表達(dá)觀點時,所使用的觀點詞具有特定性,而不同主題的觀點表述存在差異。這一特性也體現(xiàn)在圖2所示的越南語新冠疫情數(shù)據(jù)集上。因此,不論是中文還是越南語,評論句所使用的觀點詞通常是與特定主題高度相關(guān)的,情感極性也會與主題信息相關(guān)聯(lián)。
根據(jù)上述分析,本文認(rèn)為在進(jìn)行跨語言情感分類任務(wù)中,加入主題信息能夠更準(zhǔn)確地判斷用戶表達(dá)的情感狀態(tài),提高分類性能。因此,本文提出一種融入主題信息的對抗學(xué)習(xí)模型,實現(xiàn)對越南語評論的情感分類。本文貢獻(xiàn)如下:
(1)提出將中文和越南語的主題詞分布作為外部知識引入模型,利用主題信息更好地構(gòu)建雙語評論在同一特征空間下的對應(yīng)關(guān)系。
(2)提出選擇門控機制將主題表征與語義表征進(jìn)行融合,并利用對抗學(xué)習(xí)使模型語言分布差異最小,從而可以利用中文情感極性標(biāo)簽,實現(xiàn)對越南語情感極性的判別。
(3)在所構(gòu)建的中越評論數(shù)據(jù)集和公共的英中數(shù)據(jù)集上進(jìn)行了實驗,相比已有的基準(zhǔn)模型,本文模型的性能都有較大提升。
跨語言情感分析旨在利用源語言資源豐富的情感知識解決目標(biāo)語言資源稀缺的問題,按策略可分為以下三類方法:
(1)基于雙語對齊資源的方法利用雙語情感詞典等雙語資源,實現(xiàn)詞粒度信息的對齊,以此判斷兩種語言的文本是否包含相同情感極性。例如,Wan[1-2]提出協(xié)同訓(xùn)練的方法,應(yīng)用雙語資源來提升分類器的性能;Balamurali等人[3]將多語言知識庫中對齊連接詞的語義信息作為監(jiān)督信號,訓(xùn)練情感分類器;Barnes等人[4]利用雙語詞典,將源語言和目標(biāo)語言的語義相似度及情感信息映射到同一空間中,通過聯(lián)合學(xué)習(xí)預(yù)測目標(biāo)語言的情感極性。
(2)基于機器翻譯的方法這是跨語言情感分類中常用的方法,該方法主要利用翻譯引擎將兩種語言翻譯至同一語言,最終將跨語言情感分類任務(wù)轉(zhuǎn)變?yōu)閱握Z情感分類分析任務(wù)。例如,文獻(xiàn)[5~8]利用機器翻譯工具獲得雙語平行語料,建立跨語言文本間語義的對應(yīng)關(guān)系;Meng等人[8]通過捕獲跨語言的語義相似性構(gòu)建平行句的共享表示;Li等人[6]利用機器翻譯工具獲取雙語間的樞軸特征,并利用單詞的分布式表示構(gòu)建樞軸特征的一對多映射;Zhou等人[7]利用機器翻譯獲取目標(biāo)語言的標(biāo)簽,并利用語義與情感的相關(guān)性完成同一嵌入空間下的雙語信息映射。
(3)基于特征遷移的方法其主要思想是將雙語中特定語言特征和語言無關(guān)特征映射到統(tǒng)一的特征空間中。Chandar等人[9]利用平行句對,提出了一種用于學(xué)習(xí)共享表示的預(yù)測性自動編碼器;Hermann和Blunsom 等人[10]提出的方法能學(xué)習(xí)到一種組合的分布式語義;Zhou等人[11]則提出一種雙語嵌入,用于跨語言情感分析。上述方法學(xué)習(xí)的特征難以解釋,并且算法時間復(fù)雜度高。對此,Chen等人[12]提出基于特征編碼器和語言判別器的對抗訓(xùn)練模型,利用源語言標(biāo)簽訓(xùn)練情感分類器,最后應(yīng)用在目標(biāo)語言上進(jìn)行情感分類;Chen等人[13]將語言通用的表情符號作為跨語言知識遷移的“橋梁”,提出了基于表情符號的跨語言情感分析模型,提高了目標(biāo)語言情感分析的性能。
與前期工作不同的是,本文不僅關(guān)注跨語言語義差距的問題,同時也關(guān)注不同主題下觀點表達(dá)差異的問題。因此本文提出一種融入主題分布的特征編碼器,通過選擇門控機制進(jìn)行特征融合,利用對抗學(xué)習(xí)實現(xiàn)兩種語言特征在特征空間下的對齊。
融入主題特征的中越跨語言情感分類的任務(wù)定義如下: 給定中文評論句SS={s1,s2,…,sns},中文情感標(biāo)簽yS,以及越南語評論句St={s1,s2,…,snt},模型的目標(biāo)是預(yù)測中文和越南語評論句的情感極性y∈{0,1},其中,si表示詞序列中一個詞,0表示消極,1表示積極。
模型主要分為評論特征編碼、對抗學(xué)習(xí)和情感分類三個部分,具體結(jié)構(gòu)包括語義特征編碼器F、主題特征編碼器T、選擇門控機制G、語言鑒別器Q、情感分類器P,如圖3所示。
圖3 融入主題信息的跨語言情感分類模型
首先,利用語義特征編碼器F對評論文本進(jìn)行語義表征,表示為hc,利用主題特征編碼器T進(jìn)行主題表征,表示為ht′,二者通過門控機制G進(jìn)行融合,得到評論的綜合表征hf;然后對語言鑒別器Q進(jìn)行迭代的對抗訓(xùn)練,使雙語評論綜合表征在情感特征空間下得到對齊;最后,利用中文評論的情感極性標(biāo)簽訓(xùn)練情感分類器P,用來預(yù)測越南語評論的情感極性。
2.2.1 語義表征
語義表征由語義特征編碼器F獲得,其具體操作為:
(1)對于給定的評論數(shù)據(jù),使用雙語詞嵌入將其轉(zhuǎn)換為序列嵌入。評論句表示為一個詞序列S={s1,s2,…,sn},其中n表示輸入文本對應(yīng)的詞數(shù)。單個詞嵌入為si∈Rd,則輸入序列嵌入為S∈Rd×n。
(2)采用三種不同寬度的核,其窗口大小為lk。通過卷積操作后得到向量fk∈Rl×(n-lk+1)。
(3)采用最大池化操作,獲取每個卷積特征中的最大值,經(jīng)過拼接和線性轉(zhuǎn)換,得到卷積后的語義表征hc∈Rm,其中m為線性變換后的隱層維度。
2.2.2 主題表征
本文將主題詞分布引入到跨語言情感分類任務(wù)中,利用主題特征編碼器T進(jìn)行主題表征,其具體操作為:
(1)使用LDA主題模型預(yù)訓(xùn)練源語言和目標(biāo)語言數(shù)據(jù)集,得到每個評論在其最大主題概率下的前K個主題詞。
(2)利用雙語詞嵌入,得到K個主題詞的嵌入序列ht∈RK×d,其中d是嵌入維度。
(3)將評論的嵌入序列經(jīng)過平均池化操作,并通過多層感知機MLP進(jìn)行維度轉(zhuǎn)換,得到其主題向量ht′∈Rm,m是變換后的維度。
ht′=MLP(avg_pooling(ht))
(1)
2.2.3 選擇門控機制
在獲取到語義表征hc和主題表征ht′后,由于兩者的貢獻(xiàn)程度并不相同,因此設(shè)計一種選擇門控機制G,利用一個語義特征門和一個主題門對兩個表征進(jìn)行融合,得到綜合表征。門控機制的計算如式(2)~式(4)所示。
其中,gt是主題門,gc是語義特征門,W(gt),U(gt)、b(gc)是可學(xué)習(xí)的參數(shù),hc、ht′、hf維度均為Rm。門控機制允許網(wǎng)絡(luò)自適應(yīng)地學(xué)習(xí)語義表征和主題表征的重要性,組成評論的綜合表征hf∈Rm。
2.2.4 對抗學(xué)習(xí)
使用對抗學(xué)習(xí)對兩種語言融入主題信息后的特征進(jìn)行空間下的對齊。對抗學(xué)習(xí)過程包括生成器和鑒別器兩部分,其中生成器是由評論綜合表征中的語義特征編碼器F、主題特征編碼器T和選擇門控機制G融合構(gòu)成的,語言鑒別器Q由多層感知機構(gòu)成,輸出近似為語言分布。本文采用Chen[13]等人提出的Wasserstein距離方法減小源語言和目標(biāo)語言分布距離,能夠用于更穩(wěn)定的超參數(shù)選擇。鑒別器Q的損失函數(shù)表示如式(5)所示。
(5)
其中,hf表示源語言的綜合表征,hf′表示目標(biāo)語言的綜合表征,θq表示語言鑒別器的參數(shù)。
2.2.5 情感分類
(6)
其中,W(l)∈Re,b∈Re是最后一個線性層的待訓(xùn)練參數(shù)。
最終模型的整體目標(biāo)函數(shù)由鑒別器損失和情感分類器損失構(gòu)成如式(7)所示。
(7)
其中,λ是平衡情感分類器P和鑒別器Q的超參數(shù),θf表示語義特征編碼器F,主題特征編碼器T和選擇門控機制G的參數(shù),由θf參數(shù)化的F、T和Q力求最小化鑒別器損失和情感分類器損失。
2.2.6 模型訓(xùn)練
之前的研究發(fā)現(xiàn),對抗訓(xùn)練時生成器和鑒別器的訓(xùn)練可能不完全同步[15],因此訓(xùn)練時先對鑒別器進(jìn)行迭代訓(xùn)練,用來協(xié)調(diào)生成器和鑒別器的訓(xùn)練效果。訓(xùn)練鑒別器時利用梯度反轉(zhuǎn)層[16]將其與生成器相連接,在反向傳播的過程中利用超參數(shù)λ平衡P和Q對F、G和T的影響,讓整個網(wǎng)絡(luò)使用標(biāo)準(zhǔn)的反向傳播進(jìn)行完整訓(xùn)練。因此首先訓(xùn)練鑒別器Q,再對F、T、G和P進(jìn)行訓(xùn)練,訓(xùn)練的完整偽代碼如算法1所示。
算法1 訓(xùn)練過程輸入:有標(biāo)注的源語言語料Χsrc;無標(biāo)注的目標(biāo)語言語語料Χtgt;超參數(shù):設(shè)置平衡參數(shù)λ>0,設(shè)置鑒別器Q迭代次數(shù)k∈NN;輸出:源語言評論句和目標(biāo)語言評論句的情感傾向y^s;1:forepochinEpochdo2:鑒別器Q訓(xùn)練迭代過程:3:forqiter=1tokdo4: 采樣無標(biāo)注的源語言批次數(shù)據(jù)xsrc~Χsrc5: hsrcf=G(F(xsrc),T(xsrc))6: htgtf=G(F(xtgt),T(xtgt)),得到源語言和目標(biāo)語言語數(shù)據(jù)的特征向量7: lossq=-Q(hsrcf)+Q(htgtf),通過更新Q的參數(shù)來減小lossq8:end9:采樣有標(biāo)注的源語言批次數(shù)據(jù)(xsrc,ys)~Χsrc10:采樣無標(biāo)注的目標(biāo)語言語批次數(shù)據(jù)xtgt~Χtgt11:hsrcf=G(F(xsrc),T(xsrc))12:htgtf=G(F(xtgt),T(xtgt)),得到源語言和目標(biāo)語言語數(shù)據(jù)的特征向量13:y^s=p(hsrcf),得到源語言的情感預(yù)測標(biāo)簽14:loss=Lp(y^s,ys)+λlossq,ys為源語言的真實情感標(biāo)簽。通過更新F、T、G和P的參數(shù)來減小loss15:end
為了證明實驗的有效性,本文在中越實驗數(shù)據(jù) 集上進(jìn)行實驗,驗證情感分類的結(jié)果,通過爬蟲技術(shù) 在twitter(2)https://twitter.com/home和新浪微博(3)https://weibo.com上爬取新冠疫情相關(guān)評論 作為實驗數(shù)據(jù)。本文對收集到的中文評論數(shù)據(jù)集進(jìn)行劃分,選取5 000條標(biāo)注評論用于訓(xùn)練情感分類器,選取1 000條標(biāo)注評論進(jìn)行驗證。對收集到的越南語評論數(shù)據(jù)集進(jìn)行劃分,選取4 600條評論用于訓(xùn)練,選取1 200條標(biāo)注評論用于驗證和測試,越南語的訓(xùn)練數(shù)據(jù)用于對抗學(xué)習(xí),不需要進(jìn)行標(biāo)注。數(shù)據(jù)集的具體信息如表1所示。
表1 中越實驗數(shù)據(jù)集
為了驗證融入主題信息模型的泛化能力,本文 同時在英中公開數(shù)據(jù)集上進(jìn)行了實驗驗證,該實驗 以英文作為源語言,中文作為目標(biāo)語言,其中英文數(shù)據(jù)集由 Datafiniti(4)https://datafiniti.co/products/business-data/1 000家酒店的列表以及評論,使用評論數(shù)據(jù)并將評論星級4、5映射為情感極性積極,將星級1、2映射為情感極性消極。中文數(shù)據(jù)集使用酒店評論[17]。將英文作為源語言,中文作為目標(biāo)語言,在目標(biāo)語言上選擇相同規(guī)模的數(shù)據(jù)進(jìn)行驗證和測試,該數(shù)據(jù)集的具體信息如表2所示。
表2 英中實驗數(shù)據(jù)集
與其他情感分類任務(wù)類似,本文的實驗評價標(biāo)準(zhǔn)使用測試數(shù)據(jù)集上準(zhǔn)確度A(Accuracy)、精確度P(Precision)、召回率R(Recall)和F1值的宏平均值結(jié)果作為評價指標(biāo),從而衡量模型的性能,如式(8)~式(11)所示。
其中,TP表示正類被正確預(yù)測,F(xiàn)P表示負(fù)類被錯誤預(yù)測,F(xiàn)N表示正類被錯誤預(yù)測,TN表示負(fù)類被正確預(yù)測。
本文選取了以下6種模型作為基準(zhǔn)模型,所有基準(zhǔn)模型的訓(xùn)練集、驗證集和測試集劃分均與本文提出的模型一致。
LR(Logistic Regression): 是監(jiān)督學(xué)習(xí)中經(jīng)典的分類方法,以線性回歸為理論支持,通過Sigmoid()函數(shù)引入了非線性因素,解決分類任務(wù)。使用源語言中文訓(xùn)練的基線模型,并僅依靠雙語詞嵌入對目標(biāo)進(jìn)行分類。
CNN(Convolutional Neural Networks)[18]: 采用 textCNN模型,使用源語言中文訓(xùn)練的基準(zhǔn)模型,并僅依靠雙語詞嵌入對目標(biāo)進(jìn)行分類。設(shè)置卷積核大小為{3,4,5}。
LR+MT: 使用機器翻譯的方式,首先將目標(biāo)語言文本翻譯成源語言,再利用邏輯回歸模型對目標(biāo)語言進(jìn)行情感分類。
CNN+MT: 同樣使用機器翻譯的方式,將目標(biāo)語言文本翻譯成源語言,再利用CNN對目標(biāo)語言進(jìn)行情感分類。設(shè)置卷積核大小為{3,4,5}。
mSDA[19]: 采用基于Auto Encoder的方法,通過非線性降維,使得源域和目標(biāo)域的數(shù)據(jù)分布在同一個子空間里面。設(shè)置去噪自編碼器層數(shù)為3。
ADAN(Adversarial Deep Averaging Networks)[13]: 使用CNN作為特征編碼器,利用對抗學(xué)習(xí)來彌合源語言和目標(biāo)語言的差異,設(shè)置特征編碼中使用的卷積核大小為{3,4,5},平衡超參λ為0.1,對抗迭代次數(shù)k=5。
利用Adam優(yōu)化器對F、P和T、G進(jìn)行聯(lián)合優(yōu)化,用相同學(xué)習(xí)率的Adam優(yōu)化器訓(xùn)練Q。實驗使用xlmr[20]預(yù)訓(xùn)練模型獲得兩種語言的跨語言詞嵌入向量,向量維度為1 024,使用dropout防止過擬合。模型訓(xùn)練30個批次后,在驗證集上選擇最佳模型。具體信息如表3所示。
表3 參數(shù)設(shè)置
表4列出了本文模型與基準(zhǔn)模型在中越數(shù)據(jù)集上的對比結(jié)果。
表4 中越跨語言情感分類方法性能對比 (單位: %)
從表4實驗結(jié)果可以看出,本文模型與其他基準(zhǔn)模型相比有較大優(yōu)勢,具體分析如下:
(1)將本文模型與LR和CNN進(jìn)行對比,可以看出本文模型結(jié)果的macroF1提升了大約18%,原因在于只使用雙語詞嵌入的方法尚不具備將中文評論中所含有的情感知識轉(zhuǎn)移到越南語評論中的能力。
(2)對比LR、CNN和LR+MT、CNN+MT時,也可以看出LR+MT的結(jié)果要優(yōu)于LR,macroF1提高了5%,原因是通過機器翻譯的方式能夠減小語義鴻溝。而在對比本文模型與LR+MT,CNN+MT時,可以看出本文模型要優(yōu)于基于機器翻譯的方法,macroF1值提高了7%,原因可能是翻譯過程中丟失特定語言包含的語義特征。本文采用的對抗學(xué)習(xí)策略可以在不丟失特定語義特征情況下,實現(xiàn)兩種語言情感表征在同一特征空間下的對齊。
(3)mSDA的結(jié)果在所有對比實驗中效果最差,macroF1僅為50.22%,推測原因是這種基于詞袋特征的方式不適用于跨語言的任務(wù),兩種語言具有完全不同的詞匯表,使語言間的差異過大。
(4)分析本文模型與ADAN的結(jié)果,本文模型的macroF1提高了3.1%。通過分析認(rèn)為,利用對抗學(xué)習(xí)能夠縮小兩種語言之間的語義差距,而對于描述同一事件的兩種不同語言評論,本文方法能更好地學(xué)習(xí)到二者的對應(yīng)關(guān)系,從而可以使分類性能得以提升。
為了驗證模型的泛化能力,本文還進(jìn)行了英中跨語言情感分類實驗,結(jié)果如表5所示。
表5 英中跨語言情感分析方法性能對比 (單位: %)
根據(jù)表5的實驗結(jié)果,可以驗證本文模型在英文和中文數(shù)據(jù)集上同樣適用,這表明本文模型在英中跨語言情感分類上也有較好的表現(xiàn)。
為了驗證本文模型組成結(jié)構(gòu)中主題特征、門控機制和對抗學(xué)習(xí)三種不同組件對模型最終性能的影響,針對這三個部分進(jìn)行實驗驗證。實驗結(jié)果如表6所示。其中,our_model表示本文提出的模型;-topic module表示沒有融入主題特征的模型;-gate module表示模型融入主題特征后,沒有利用選擇門控機制作為融合策略,而是將語義特征和主題特征直接拼接;-adversarial module表示模型沒有進(jìn)行對抗訓(xùn)練,直接將所得特征用于訓(xùn)練情感分類器。
表6 不同組件對情感分類結(jié)果的影響 (單位: %)
實驗結(jié)果表明,-adversarial module的性能效果在四個方法中最差,說明在本文提出的模型中對抗訓(xùn)練的重要性,對抗訓(xùn)練模塊使雙語評論表征在情感特征空間下得到對齊,利用中文情感極性標(biāo)簽,實現(xiàn)對越南語情感極性的判別;再對比融入對抗訓(xùn)練模塊后的幾組模型,-topic module的性能要低于-gate module的性能,說明主題特征融入的有效性,能夠豐富雙語評論的情感特征;-gate module模型性能要低于本文提出的模型,說明選擇門控機制進(jìn)行特征融合,能夠?qū)W習(xí)到更好的評論綜合表征,最終提高情感分類的結(jié)果。
為了驗證融入主題特征的有效性,本文針對主題特征部分做進(jìn)一步的驗證,實驗結(jié)果如圖4所示。其中,“-topic”、“+topic”分別表示不包含主題特征、包含主題分布特征。
圖4 語言鑒別loss對比
語言鑒別器的作用是實現(xiàn)源語言和目標(biāo)語言的特征在同一空間下的對齊。從“-topic”曲線可以看到,語言鑒別損失在前25個批次較大,到第30批次時才有所減小。從“+topic”曲線上可以看到,前25個批次語言鑒別損失比“-topic”小,并且在25到30批次時,語言鑒別損失再次減小并趨于零。因此可以得出以下結(jié)論: 融入主題特征信息,可以更快縮小兩種語言評論在特征空間下的距離。
主題數(shù)的大小決定了主題劃分的粒度。本文針對主題數(shù)進(jìn)行實驗,觀察不同的主題數(shù)對模型在中越數(shù)據(jù)集上的分類效果影響,如圖5所示。
圖5 不同主題數(shù)目下的性能比較
對折線圖進(jìn)行分析可以看出,當(dāng)主題數(shù)小于15時,模型的macroF1變化處于上升趨勢,在主題數(shù)為15時macroF1值達(dá)到最高,而當(dāng)主題數(shù)大于15后,模型的macroF1值變化趨于穩(wěn)定。因此根據(jù)實驗分析的結(jié)果可以看出,主題的融入可以使得分類效果得到提升,并且當(dāng)主題數(shù)為15時,模型在中越數(shù)據(jù)集上的性能最高。
利用主題模型可以得到評論的主題概率分布和主題詞分布兩種不同的特征。將式(1)中所使用的主題詞嵌入平均池化替換為主題概率分布ht1∈RN,其中,N表示主題數(shù),然后通過多層感知機進(jìn)行線性變換,得到另一種主題表征ht′∈Rm,其中,m為隱層維度,如式(12)所示。
ht′=MLP(ht1)
(12)
本文測試了兩種不同的主題表征方式對于模型性能的影響,實驗結(jié)果如圖6所示。
圖6 不同主題表征的模型性能比較
對實驗結(jié)果分析可得,利用主題概率分布和主題詞分布均可以提升模型性能。對比兩種主題表征方式,主題詞分布的性能在不同主題數(shù)目時均優(yōu)于主題概率分布,表明主題詞分布的表征方式能更好解釋不同主題的觀點表述差異。
以往的跨語言情感分類工作更多地關(guān)注于解決不同語言語義差異的問題,而忽略主題信息對于跨語言表征的作用。針對這一問題,本文提出一種融入主題特征的跨語言情感分類模型,利用門控機制有效地將主題表征與語義表征進(jìn)行融合,并通過對抗學(xué)習(xí)將不同語言更好地映射至同一空間。通過實驗驗證了所提模型在中越跨語言情感分類上的有效性,同時證明主題詞作為融入信息能更快擬合出語言分布差異。未來工作中,我們將進(jìn)一步研究如何利用雙語評論之間的對應(yīng)關(guān)系,如評論中的觀點對象等輔助跨語言情感分類任務(wù)。