林思琦,余正濤,郭軍軍,高盛祥
(昆明理工大學(xué) 信息工程與自動(dòng)化學(xué)院,云南 昆明 650504)
在自然語(yǔ)言處理領(lǐng)域中,觀點(diǎn)分析主要解決的是對(duì)文本情感極性的判別。但新聞文本有較多與觀點(diǎn)無(wú)關(guān)的信息,導(dǎo)致了新聞情感分類(lèi)效果不足。普遍的解決方法是先對(duì)新聞的觀點(diǎn)句進(jìn)行抽取,然后基于觀點(diǎn)句對(duì)新聞的情感進(jìn)行判別。在越南語(yǔ)方面,越南語(yǔ)新聞的觀點(diǎn)句標(biāo)記語(yǔ)料較少,導(dǎo)致了越南語(yǔ)新聞的觀點(diǎn)句抽取效果較差。而中文的觀點(diǎn)句標(biāo)記語(yǔ)料較為豐富,因此本文使用豐富的中文標(biāo)記語(yǔ)料緩解越南語(yǔ)標(biāo)記資源缺失的問(wèn)題。
在漢越雙語(yǔ)新聞?dòng)^點(diǎn)句抽取任務(wù)中,首先解決漢語(yǔ)和越南語(yǔ)之間的跨語(yǔ)言問(wèn)題。Zhou[1-3]等解決跨語(yǔ)言情感分析的方式是通過(guò)機(jī)器翻譯將源語(yǔ)言翻譯為目標(biāo)語(yǔ)言。但是基于機(jī)器翻譯的方法只能解決大語(yǔ)種之間語(yǔ)料資源不平衡的問(wèn)題。對(duì)于越南語(yǔ)小語(yǔ)種來(lái)說(shuō),機(jī)器翻譯效果的不足導(dǎo)致了觀點(diǎn)句抽取模型的效果較差。本文使用跨語(yǔ)言表示學(xué)習(xí)的方法來(lái)解決跨語(yǔ)言的問(wèn)題。跨語(yǔ)言表示學(xué)習(xí)的觀點(diǎn)是不同語(yǔ)言的詞向量表示可以共享一個(gè)向量空間,不同語(yǔ)言中語(yǔ)義相近的詞在該空間中的距離相近。Mikolov等[4]提出將雙語(yǔ)單詞進(jìn)行對(duì)齊,并訓(xùn)練得到了源語(yǔ)言詞向量空間到目標(biāo)語(yǔ)言詞向量空間的線(xiàn)性映射。Faruqui等[5]提出將源語(yǔ)言和目標(biāo)語(yǔ)言的詞嵌入映射到同一個(gè)向量空間。Klementiev等[6]提出在單語(yǔ)詞嵌入的目標(biāo)函數(shù)中添加跨語(yǔ)言正則項(xiàng)的方法來(lái)得到雙語(yǔ)詞向量。Sarath等[7]提出通過(guò)自編碼器對(duì)源語(yǔ)言進(jìn)行編碼,同時(shí)源語(yǔ)言和目標(biāo)語(yǔ)言進(jìn)行解碼來(lái)得到雙語(yǔ)的詞向量。
在觀點(diǎn)句抽取任務(wù)中,現(xiàn)有的方法主要是基于觀點(diǎn)句特征來(lái)對(duì)文檔中的觀點(diǎn)句進(jìn)行抽取。劉培玉等[8]提出了通過(guò)隱馬爾可夫模型對(duì)句子進(jìn)行序列標(biāo)注,給句子不同的權(quán)重來(lái)實(shí)現(xiàn)觀點(diǎn)句的識(shí)別。趙虹杰等[9]定義了句子位置、情感詞、特征詞等屬性,并通過(guò)集成學(xué)習(xí)進(jìn)行觀點(diǎn)句識(shí)別。Kim等[10]通過(guò)詞典的方式獲得觀點(diǎn)詞和非觀點(diǎn)詞的詞集,然后計(jì)算觀點(diǎn)詞的強(qiáng)度,最后通過(guò)句子中所有詞的觀點(diǎn)詞強(qiáng)度來(lái)對(duì)觀點(diǎn)句進(jìn)行判別。羅文兵等[11]提出對(duì)詞權(quán)重和情感信息進(jìn)行綜合排序來(lái)抽取觀點(diǎn)句。Riloff等[12]使用Booststraping算法來(lái)訓(xùn)練觀點(diǎn)句的特征并對(duì)觀點(diǎn)句進(jìn)行分類(lèi)。劉榮等[13]提出一種基于語(yǔ)義模式的半監(jiān)督中文觀點(diǎn)句識(shí)別方法,通過(guò)融入語(yǔ)義特征對(duì)觀點(diǎn)句進(jìn)行分類(lèi)。田海龍等[14]提出了一種基于三支決策分類(lèi)器的微博觀點(diǎn)句識(shí)別方法。但是上述方法只考慮了觀點(diǎn)句的特征,較少考慮句子的語(yǔ)義信息。隨著深度學(xué)習(xí)在自然語(yǔ)言處理領(lǐng)域的廣泛應(yīng)用,本文提出將特征和文本理解結(jié)合的思想對(duì)觀點(diǎn)句進(jìn)行抽取。
首先采用跨語(yǔ)言表示學(xué)習(xí)的方法構(gòu)建漢越雙語(yǔ)詞嵌入模型。該模型通過(guò)對(duì)中文和越南文的詞嵌入進(jìn)行聯(lián)合訓(xùn)練,得到漢越雙語(yǔ)詞向量。然后提出一種融入多特征的觀點(diǎn)句抽取方法。該方法首先定義了句子主題、情感和位置特征,然后將這些特征融入編碼層和注意力機(jī)制中,得到了句子在主題、情感和位置等方面的表征。最后根據(jù)得到的句子表征進(jìn)行觀點(diǎn)句分類(lèi)。
雙語(yǔ)詞嵌入模型可以使不同語(yǔ)言中語(yǔ)義相似的詞在雙語(yǔ)詞向量空間中的距離接近。現(xiàn)有的雙語(yǔ)詞嵌入模型主要是使用大量的雙語(yǔ)平行語(yǔ)料進(jìn)行構(gòu)建,但漢越平行語(yǔ)料同樣難以獲取。因此,本文通過(guò)對(duì)單語(yǔ)詞嵌入模型進(jìn)行聯(lián)合訓(xùn)練的方式,構(gòu)建漢越雙語(yǔ)詞向量。
本文構(gòu)建漢越詞曲嵌入模型如圖1所示,主要分為2部分內(nèi)容。
(1) 用大量的中文語(yǔ)料和越南語(yǔ)語(yǔ)料分別訓(xùn)練漢語(yǔ)和越南語(yǔ)的詞嵌入模型。
(2) 用少量的中文和越南語(yǔ)平行句子對(duì)漢語(yǔ)和越南語(yǔ)詞嵌入模型進(jìn)行聯(lián)合訓(xùn)練。
圖1 漢越雙語(yǔ)詞嵌入模型
在聯(lián)合訓(xùn)練過(guò)程中,漢語(yǔ)和越南語(yǔ)的目標(biāo)函數(shù)L如式(1)所示。
(1)
其中,L(wt,h;θl)表示單語(yǔ)詞嵌入模型的目標(biāo)函數(shù),正則項(xiàng)Ω(θc,θv)則表示中文詞語(yǔ)和越南語(yǔ)詞語(yǔ)的關(guān)聯(lián)程度。我們用漢越雙語(yǔ)的正則化項(xiàng)Ω(θc,θv)對(duì)單語(yǔ)模型進(jìn)行約束,不僅可以學(xué)習(xí)到單語(yǔ)環(huán)境下不同詞匯的關(guān)聯(lián)關(guān)系,同時(shí)還可以學(xué)習(xí)到中文詞語(yǔ)和越南語(yǔ)詞語(yǔ)之間的關(guān)聯(lián)關(guān)系。
本文不僅考慮到中文和越南語(yǔ)詞語(yǔ)之間的語(yǔ)義關(guān)聯(lián),還考慮到它們之間的情感關(guān)聯(lián),并賦予這兩種關(guān)聯(lián)約束不同的權(quán)重。漢越雙語(yǔ)正則項(xiàng)約束Ω(·)的定義如式(2)所示。
Ω(Rc,Rv)=λ1Ωtranslation(Rc,Rv)+λ2Ωemotion(Rc,Rv)
(2)
其中,λ1和λ2分別表示語(yǔ)義關(guān)聯(lián)和情感關(guān)聯(lián)這兩種關(guān)聯(lián)約束在訓(xùn)練過(guò)程中的權(quán)重。Rc和Rv分別表示漢語(yǔ)和越南語(yǔ)的詞向量。
漢越雙語(yǔ)正則化約束Ω(·)的具體計(jì)算如式(3)所示。
(3)
現(xiàn)有觀點(diǎn)句抽取方法是基于觀點(diǎn)句特征對(duì)句子進(jìn)行分類(lèi),但該方法沒(méi)有考慮句子的語(yǔ)義信息。本文將基于注意力機(jī)制的LSTM網(wǎng)絡(luò)用于觀點(diǎn)句分類(lèi)的任務(wù)中。LSTM網(wǎng)絡(luò)可以識(shí)別句子的語(yǔ)義信息,注意力機(jī)制可以對(duì)觀點(diǎn)句相關(guān)的信息進(jìn)行表征。句子位置特征、主題相關(guān)度特征和句子情感特征對(duì)判定該句子是否為觀點(diǎn)句有重要作用。但是傳統(tǒng)的LSTM網(wǎng)絡(luò)和注意力機(jī)制無(wú)法識(shí)別這些信息。因此,本文將句子的情感、主題、位置等觀點(diǎn)句相關(guān)特征融入編碼層和注意力機(jī)制中,來(lái)提升觀點(diǎn)句抽取的效果。具體的觀點(diǎn)句抽取模型如圖2所示。
圖2 漢越觀點(diǎn)句抽取模型
在新聞文檔中,新聞的標(biāo)題很大程度上能反映這篇新聞的主題。因此本文將新聞的標(biāo)題作為該新聞的主題。句子主題相關(guān)度score1的計(jì)算如式(4)所示。
(4)
其中,ST表示新聞標(biāo)題的向量表征,S表示新聞中每個(gè)句子的向量表征。
句子位置特征主要考慮的是句子在文檔中的位置。因?yàn)樾侣勎臋n的開(kāi)頭或結(jié)尾一般能體現(xiàn)作者的觀點(diǎn),所以句子在文檔中的位置打分score2如式(5)所示。
(5)
其中,n表示文檔中的句子數(shù)目,i表示當(dāng)前句子是文檔中的第i句話(huà)。
句子的情感特征主要是用來(lái)識(shí)別句子是否具有情感傾向。我們通過(guò)情感詞典來(lái)計(jì)算句子的情感打分。句子si的情感打分score3如式(6)所示。
(6)
其中,emotion(wi,k)表示詞wi,k是否為情感詞,如果該詞是情感詞,則emotion(wi,k)的值為1;否則為0。m表示句子中詞的個(gè)數(shù)。
在詞嵌入層中,我們首先用漢越雙語(yǔ)詞嵌入模型將中文或越南語(yǔ)的詞映射為雙語(yǔ)詞向量。然后在雙語(yǔ)詞向量后拼接詞所在句子的主題相關(guān)度特征、情感特征和位置特征。圖2中,Wi表示第i個(gè)詞的雙語(yǔ)詞向量。vi是第i個(gè)詞的主題、情感和位置的表征。
由于LSTM網(wǎng)絡(luò)無(wú)法識(shí)別隱狀態(tài)中哪些部分對(duì)觀點(diǎn)句抽取是有用的。因此,本文引入了注意力機(jī)制。注意力機(jī)制的核心思想是: 對(duì)重要的內(nèi)容分配較多的注意力,對(duì)其他部分分配較少的注意力。在觀點(diǎn)句抽取任務(wù)中,位置信息、情感信息和主題相關(guān)度對(duì)判斷觀點(diǎn)句具有重要作用。因此,我們將這些特征融入注意力機(jī)制中,通過(guò)注意力機(jī)制來(lái)捕捉與觀點(diǎn)句抽取任務(wù)相關(guān)的信息。注意力機(jī)制的公式如式(7)~式(10)所示。
(7)
式(7)中,H是LSTM網(wǎng)絡(luò)中每個(gè)神經(jīng)元輸出的隱向量組成的矩陣。V是詞編碼層中每個(gè)詞所在句子的主題、情感、位置特征向量組成的特征矩陣。Wh和Wv是參數(shù)矩陣。在式(8)中,計(jì)算得到的α是注意力機(jī)制的權(quán)重向量。在式(9)中,計(jì)算得到的r是主題相關(guān)度、位置信息和情感信息在句子表征中的權(quán)重。在式(10)中,h*是句子在主題、位置、情感等方面的表征。
為了對(duì)句子進(jìn)行分類(lèi),要添加一個(gè)隱藏層,將句子壓縮為一個(gè)二維向量。然后,通過(guò)softmax分類(lèi)器將二維句子表征變?yōu)闂l件概率分布的形式,如式(11)所示。
y=softmax(Wsh*+bs)
(11)
我們定義模型的損失函數(shù)為交叉熵?fù)p失,如式(12)所示。
(12)
本文從漢越新聞?wù)Z料庫(kù)中選擇35 000篇漢語(yǔ)、越南語(yǔ)新聞,以及10 W條漢越平行句對(duì)來(lái)訓(xùn)練漢越雙語(yǔ)詞向量。手動(dòng)挑選并標(biāo)記了1 367篇越南語(yǔ)新聞?dòng)^點(diǎn)句和8 552篇漢語(yǔ)新聞的觀點(diǎn)句作為漢越新聞?dòng)^點(diǎn)句抽取的數(shù)據(jù)集。訓(xùn)練集、測(cè)試集、驗(yàn)證集在數(shù)據(jù)集中的占比分別為90%,5%,5%。在采用的漢越雙語(yǔ)情感詞典中,中文情感詞典規(guī)模為4 626,越南文情感詞典規(guī)模為2 939。
使用skip-gram訓(xùn)練單語(yǔ)詞嵌入模型。在訓(xùn)練漢越雙語(yǔ)詞嵌入模型時(shí)采用異步隨機(jī)梯度下降的方法,分別為單語(yǔ)詞嵌入損失計(jì)算和漢越雙語(yǔ)正則化誤差計(jì)算設(shè)置不同的線(xiàn)程。將式(2)中的λ1和λ2分別設(shè)置為0.7和0.3,雙語(yǔ)詞嵌入模型的學(xué)習(xí)率設(shè)置為0.1。由于中文和越南文的詞表規(guī)模較大,因此在詞表中過(guò)濾掉在文檔中出現(xiàn)次數(shù)少于兩次的詞,來(lái)加速模型的訓(xùn)練。本文設(shè)定訓(xùn)練得到的雙語(yǔ)詞向量維度為200維。在訓(xùn)練雙語(yǔ)觀點(diǎn)句抽取模型的過(guò)程中,采用了Adagrad優(yōu)化方法,設(shè)定交叉熵?fù)p失中的L2正則化權(quán)重為0.01,模型的學(xué)習(xí)率為0.1。
本文采用準(zhǔn)確率、召回率、F1值作為評(píng)價(jià)指標(biāo)。準(zhǔn)確率P、召回率R和F1值的計(jì)算如式(13)所示。
(13)
式(13)中,a表示模型將觀點(diǎn)句預(yù)測(cè)正確的個(gè)數(shù),b表示模型將非觀點(diǎn)句預(yù)測(cè)為觀點(diǎn)句的個(gè)數(shù),c表示模型將觀點(diǎn)句預(yù)測(cè)為非觀點(diǎn)句的個(gè)數(shù)。
為了驗(yàn)證在越南語(yǔ)標(biāo)記語(yǔ)料缺失的情況下,是否可以通過(guò)訓(xùn)練漢越雙語(yǔ)詞嵌入模型,使用中文標(biāo)記語(yǔ)料來(lái)提升越南語(yǔ)觀點(diǎn)句抽取的效果,設(shè)置了第一組實(shí)驗(yàn)。在實(shí)驗(yàn)1中,對(duì)比了越南語(yǔ)觀點(diǎn)句抽取模型和漢越雙語(yǔ)觀點(diǎn)句抽取模型的效果。
實(shí)驗(yàn)結(jié)果如表1所示,漢越雙語(yǔ)觀點(diǎn)句抽取模型在準(zhǔn)確率P、召回率R和F1值上更高。該實(shí)驗(yàn)證明了漢越雙語(yǔ)詞嵌入模型和觀點(diǎn)句抽取模型可以緩解越南語(yǔ)標(biāo)記缺失的問(wèn)題,提升越南語(yǔ)新聞?dòng)^點(diǎn)句抽取的效果。
表1 越南語(yǔ)觀點(diǎn)句抽取和漢越雙語(yǔ)觀點(diǎn)句抽取效果對(duì)比
為了驗(yàn)證在漢越雙語(yǔ)詞嵌入模型中使用不同規(guī)模的平行句子對(duì)下游觀點(diǎn)句抽取的影響,設(shè)置了第2組實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如圖3所示,橫坐標(biāo)表示的是漢越平行句對(duì)的規(guī)模,縱坐標(biāo)表示的是越南語(yǔ)觀點(diǎn)句抽取模型的準(zhǔn)確率。本文認(rèn)為隨著漢越平行語(yǔ)料規(guī)模的擴(kuò)大,漢越詞對(duì)齊的規(guī)模也在擴(kuò)大,那么漢越雙語(yǔ)詞嵌入模型就能更好地捕捉漢語(yǔ)和越南語(yǔ)之間的關(guān)聯(lián)關(guān)系,對(duì)于下游越南語(yǔ)觀點(diǎn)句抽取的效果也有所提升。圖3的實(shí)驗(yàn)數(shù)據(jù)也證明了該猜想。
圖3 不同平行句子規(guī)模的效果對(duì)比
為了驗(yàn)證將主題相關(guān)度特征、位置特征、情感特征融入詞向量和注意力機(jī)制的效果,設(shè)置了第3組實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表2所示。
表2 不同位置上融入不同觀點(diǎn)句特征的效果對(duì)比
從表2中可以發(fā)現(xiàn)以下幾點(diǎn): 首先,相比較句子主題特征和位置特征,融入句子情感特征更能提升觀點(diǎn)句抽取的準(zhǔn)確率。其次,相比較在詞向量中融入句子主題、位置和情感特征,同時(shí)在詞向量和注意力機(jī)制中融入這些特征的準(zhǔn)確率更高。這一點(diǎn)說(shuō)明了同時(shí)在詞向量和注意力機(jī)制中進(jìn)行融入的方法更能表征句子中的觀點(diǎn)句相關(guān)信息。最后,同時(shí)在詞向量和注意力機(jī)制中同時(shí)融入主題、位置和情感特征的方法取得了最好的效果。
本文提出了一種漢越雙語(yǔ)新聞?dòng)^點(diǎn)句抽取方法,該方法針對(duì)越南語(yǔ)標(biāo)記語(yǔ)料缺失的問(wèn)題,提出了使用漢越雙語(yǔ)詞嵌入模型來(lái)構(gòu)建漢語(yǔ)和越南語(yǔ)之間的聯(lián)系。然后針對(duì)現(xiàn)有觀點(diǎn)句抽取模型沒(méi)有同時(shí)考慮句子語(yǔ)義信息和觀點(diǎn)句特征的問(wèn)題,提出了融入情感、主題和位置等多特征的觀點(diǎn)句抽取模型。下一步工作將研究如何使用觀點(diǎn)句來(lái)提升越南語(yǔ)新聞?dòng)^點(diǎn)分類(lèi)的效果。