基于貝葉斯網(wǎng)的跨領(lǐng)域情感分析方法

2020-12-14 10:22劉慧清郭延哺李維華

計(jì)算機(jī)應(yīng)用與軟件 2020年12期

劉慧清郭延哺李維華

(云南大學(xué)信息學(xué)院云南昆明 650500)

0 引言

隨著社會(huì)化媒體和社交網(wǎng)絡(luò)的迅速發(fā)展，越來越多的人在各種網(wǎng)頁及應(yīng)用上發(fā)表和分享自己的觀點(diǎn)和看法，產(chǎn)生了大量的文本信息。這些觀點(diǎn)和看法往往潛在地表達(dá)了他們的情感或者情緒，如何從這些海量的評論數(shù)據(jù)中挖掘出用戶的情感信息，分析出用戶的情感傾向成為近年來自然語言處理和數(shù)據(jù)挖掘領(lǐng)域的一個(gè)研究熱點(diǎn)[1-2]。

情感分析，又稱情感分類或意見挖掘，就是基于人們發(fā)表的文本分析人們的意見、情緒、態(tài)度、情感[3-4]?；跈C(jī)器學(xué)習(xí)的情感分析方法依賴于大量的高質(zhì)量標(biāo)簽樣本，而人工標(biāo)注樣本的方式顯然不能完全滿足情感分析的需求。文本情感表達(dá)與描述的對象或者語義概念(領(lǐng)域)密切相關(guān)，不同領(lǐng)域的情感描述有著明顯的差別，且數(shù)據(jù)特征分布也不同，直接使用其他領(lǐng)域訓(xùn)練的情感分類器進(jìn)行情感分析就存在適應(yīng)性不佳的問題。因此，利用帶標(biāo)簽的源領(lǐng)域提高情感分類器在目標(biāo)領(lǐng)域適應(yīng)性的跨領(lǐng)域情感分析成為新的研究關(guān)注點(diǎn)[5-7]。

跨領(lǐng)域情感分析是遷移學(xué)習(xí)的一個(gè)重要研究方向，遷移學(xué)習(xí)是從源任務(wù)中提取知識，并將其運(yùn)用在目標(biāo)任務(wù)中的一種新機(jī)器學(xué)習(xí)方法[8]?？珙I(lǐng)域情感分析領(lǐng)域常用到的遷移方法有：基于特征空間的遷移方法，基于實(shí)例的遷移方法。前者包括基于特征選擇和特征映射兩類?；谔卣鬟x擇的跨領(lǐng)域情感遷移方法是通過一些策略尋找源領(lǐng)域和目標(biāo)領(lǐng)域間的共享特征，然后利用這些特征進(jìn)行知識遷移。賈熹濱等[9]借助已有的情感詞典和改進(jìn)的互信息技術(shù)對領(lǐng)域間無歧義的共享特征進(jìn)行選擇，然后通過句法分析和關(guān)聯(lián)規(guī)則算法提取領(lǐng)域間專有特征詞進(jìn)行詞典擴(kuò)展和領(lǐng)域間信息分布對齊。李鼎宇等[10]通過譜聚類選擇領(lǐng)域間相似的特征詞進(jìn)行特征擴(kuò)展來提升情感分類效果。基于特征映射的跨領(lǐng)域情感遷移方法是把各個(gè)領(lǐng)域的特征映射到一個(gè)統(tǒng)一的特征表示空間中，建立各個(gè)域特征之間的關(guān)聯(lián)，從而減少領(lǐng)域信息分布的差異。SCL(Structural Correspondence Learning)方法[7]、SFA(Spectral Feature Alignment)方法[11]是基于該方法的典型代表。它們利用領(lǐng)域間樞紐特征，通過特征變換將源領(lǐng)域和目標(biāo)領(lǐng)域特征映射到同一個(gè)空間，達(dá)到縮小領(lǐng)域間語義距離的目的。特征映射與特征選擇的區(qū)別在于，這些映射得到的特征不在原始的特征當(dāng)中，是全新的特征?；趯?shí)例的跨領(lǐng)域情感遷移方法主要從源領(lǐng)域已標(biāo)記數(shù)據(jù)中選取那些對目標(biāo)領(lǐng)域分類有價(jià)值的實(shí)例，用于輔助目標(biāo)領(lǐng)域情感分類。例如：廖祥文等[12]通過選取高質(zhì)量的樣例對訓(xùn)練集進(jìn)行擴(kuò)充，以減少領(lǐng)域間的特征分布差異；趙傳君等[13]將源領(lǐng)域帶標(biāo)簽數(shù)據(jù)等量分割，并分別與目標(biāo)領(lǐng)域帶標(biāo)簽數(shù)據(jù)組合，訓(xùn)練多個(gè)分類器來提升跨領(lǐng)域分類精度。

隨著深度學(xué)習(xí)逐漸成為自然語言處理領(lǐng)域研究熱點(diǎn)，利用深度學(xué)習(xí)的方法解決情感分析問題的技術(shù)飛速發(fā)展[14]，基于深度學(xué)習(xí)的方法主要利用深度神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力和詞向量在語法和語義上同時(shí)表達(dá)的優(yōu)點(diǎn)。例如：Bollegala等[15]通過嵌入學(xué)習(xí)方法構(gòu)造三個(gè)目標(biāo)函數(shù)來對領(lǐng)域特征進(jìn)行建模；Zhao等[16]提出一個(gè)兩階段雙向長短時(shí)記憶(Bi-LSTM)和參數(shù)傳輸框架，通過使用少量的目標(biāo)領(lǐng)域訓(xùn)練樣本共享Bi-LSTM網(wǎng)絡(luò)的底層參數(shù)并重新訓(xùn)練高層參數(shù)，將其用于短文本跨領(lǐng)域情感分類任務(wù)中；Li等[17]提出一種端到端對抗記憶網(wǎng)絡(luò)(AMN)，構(gòu)建兩個(gè)參數(shù)共享記憶網(wǎng)絡(luò)分別用于情感分類和領(lǐng)域分類。然而，基于深度學(xué)習(xí)的方法往往依賴于大量的標(biāo)簽樣本，而且已有的方法并沒有充分考慮到領(lǐng)域間的差異。

貝葉斯網(wǎng)(Bayesian Network,BN)[18]是每個(gè)節(jié)點(diǎn)都有一張概率表(也稱參數(shù))的有向無環(huán)圖(Directed Acyclic Graph，DAG)，可以直觀地表示節(jié)點(diǎn)間的定量依賴關(guān)系，并為這些依賴關(guān)系提供有效的推理方法。貝葉斯網(wǎng)是不確定知識表示和推理最有效的模型之一，已經(jīng)成功應(yīng)用于預(yù)測[19]、決策[20]、可視化分析[21]等問題中。此外，貝葉斯網(wǎng)還提供多種靈活的學(xué)習(xí)方法[22]，既可以從大數(shù)據(jù)樣本中學(xué)習(xí)BN，也可以根據(jù)專家知識構(gòu)建BN，這不僅可以為多源、甚至異構(gòu)的數(shù)據(jù)源提供統(tǒng)一的表示形式，也為跨領(lǐng)域情感分析中領(lǐng)域間情感知識的建模和遷移提供基礎(chǔ)。

本文從跨領(lǐng)域情感分析所面臨的困難出發(fā)，利用貝葉斯網(wǎng)在知識表示和推理方面的優(yōu)勢，結(jié)合知識遷移，提出一種基于貝葉斯網(wǎng)的跨領(lǐng)域情感分析方法。基于特征詞之間的相似度來確定特征詞的依賴關(guān)系，對源領(lǐng)域和目標(biāo)領(lǐng)域建立基于貝葉斯網(wǎng)的特征模型，并設(shè)計(jì)特征模型的融合規(guī)則，對局部模型進(jìn)行融合，得到全局特征模型，讓源和目標(biāo)域特征表示在一個(gè)統(tǒng)一的特征空間中，建立各個(gè)域特征之間的關(guān)聯(lián)。在此基礎(chǔ)上，利用BN推理建立情感特征的遷移方法，在新的特征空間中實(shí)現(xiàn)源和目標(biāo)領(lǐng)域的情感知識遷移，以減小領(lǐng)域間的特征分布差異，提升分類效果。

1 問題和基本框架

文本情感表達(dá)和描述的對象或者語義概念(領(lǐng)域)密切相關(guān)，不同領(lǐng)域的情感描述有著明顯的差別。

表1是一個(gè)關(guān)于電子領(lǐng)域和書籍領(lǐng)域的評論樣本集，其中每個(gè)域都有積極(+)和消極(-)兩種情感。在電子領(lǐng)域中，excellent、high pixel、high-resolution、run fast表達(dá)積極情緒，blurred sound、high noise、horrible表達(dá)消極情緒。在書籍領(lǐng)域，excellent、printed well表達(dá)積極情緒，horrible、waste表達(dá)消極情緒。

表1 電子和書籍領(lǐng)域的情感評論

可以看出，excellent、horrible都出現(xiàn)在兩個(gè)領(lǐng)域中，但high resolution、run fast很少出現(xiàn)在書籍領(lǐng)域，printed well很少出現(xiàn)在電子產(chǎn)品領(lǐng)域。所以，直接使用電子領(lǐng)域訓(xùn)練的情感分類器，對書籍領(lǐng)域評論進(jìn)行情感預(yù)測就存在適應(yīng)性不佳的問題。此外，專有詞high resolution和共有詞excellent可能存在共現(xiàn)關(guān)系，這表明領(lǐng)域間共有的詞匯往往是連接兩個(gè)領(lǐng)域的橋梁。

針對情感分類器存在的領(lǐng)域適應(yīng)性，以及目標(biāo)領(lǐng)域缺少標(biāo)簽樣本的問題，本文提出一種基于貝葉斯網(wǎng)的跨領(lǐng)域情感分析方法。該方法充分利用貝葉斯網(wǎng)在知識表示和推理方面優(yōu)勢，為源領(lǐng)域和目標(biāo)領(lǐng)域建立一個(gè)統(tǒng)一的框架，將目標(biāo)領(lǐng)域的情感知識遷移到源領(lǐng)域中，達(dá)到提高分類器在目標(biāo)領(lǐng)域中適應(yīng)性的目的。

基于貝葉斯網(wǎng)的跨領(lǐng)域情感分析的基本框架如圖1所示，該方法主要包括四個(gè)模塊：局部模塊，融合模塊，遷移模塊和預(yù)測模塊。局部模塊就是在特征提取的基礎(chǔ)上，定量度量特征詞之間的依賴關(guān)系，構(gòu)建源和目標(biāo)的局部特征模型。融合模塊基于局部特征模型，從結(jié)構(gòu)和參數(shù)兩方面構(gòu)建全局特征模型。遷移模塊基于全局特征模型，通過特征擴(kuò)展進(jìn)行領(lǐng)域間情感知識的遷移。預(yù)測模塊基于擴(kuò)展后的特征空間訓(xùn)練分類器，完成目標(biāo)領(lǐng)域的情感預(yù)測。

圖1 基本框架

2 局部特征模型

局部特征模型就是基于貝葉斯網(wǎng)定量度量源和目標(biāo)領(lǐng)域特征之間的依賴，為進(jìn)一步的模型融合和特征擴(kuò)展提供支持。

2.1 特征模型定義

貝葉斯網(wǎng)是一個(gè)二元組(G,P)，G是一個(gè)有向無環(huán)圖，每個(gè)節(jié)點(diǎn)表示一個(gè)變量，有向邊表示變量之間的直接依賴關(guān)系；P是貝葉斯網(wǎng)的參數(shù)，每個(gè)節(jié)點(diǎn)u包含一個(gè)該節(jié)點(diǎn)在其父節(jié)點(diǎn)pa(u)條件下的條件概率表。下面給出特征模型的定義。

定義1文本集D的特征詞為W={u1,u2,…,um},D上構(gòu)建的特征模型是滿足下面條件的(G,P)：

(1)G=(U,E)是一個(gè)有向無環(huán)圖，U為圖中的節(jié)點(diǎn)，每個(gè)節(jié)點(diǎn)表示W(wǎng)中的一個(gè)特征詞，且取值空間為{0,1}，分別表示特征詞不出現(xiàn)和出現(xiàn)，E表示節(jié)點(diǎn)之間的有向邊集合，若存在有向邊(u,v)，則稱u是v的父節(jié)點(diǎn)。

(2)P={p(u|pa(u))|u∈U}表示特征模型的參數(shù)，p(u|pa(u))表示每個(gè)節(jié)點(diǎn)u在其父節(jié)點(diǎn)pa(u)條件下的條件概率表。

在特征模型中，節(jié)點(diǎn)和特征是一一對應(yīng)的，因此本文后續(xù)的描述中不再區(qū)分節(jié)點(diǎn)和特征。

2.2 局部特征模型構(gòu)建

根據(jù)特征模型的定義，分別對源領(lǐng)域和目標(biāo)領(lǐng)域構(gòu)建局部特征模型的DAG和參數(shù)。

源領(lǐng)域特征模型的節(jié)點(diǎn)為US={us1,us2,…,usp}，目標(biāo)領(lǐng)域特征模型的節(jié)點(diǎn)為UT={ut1,ut2,…,utq}；分兩步確定特征模型的DAG，首先確定特征詞之間是否有邊，再確定邊的方向。

用相似度來度量特征詞之間是否有邊。考慮到兩個(gè)特征的點(diǎn)互信息越大則它們越相關(guān)，所以兩個(gè)特征詞u和v之間的相似程度計(jì)算式表示為：

(1)

式中：p(·)=c(·)/N是特征詞的聯(lián)合概率函數(shù)，c(·)為文檔頻度，N為文本數(shù)；p(u=1,v=1)表示u、v都出現(xiàn)的聯(lián)合概率。

如果I(u,v)>ω，則u和v之間存在一條邊，否則節(jié)點(diǎn)u和v之間不存在邊，其中ω是相似閾值。

節(jié)點(diǎn)順序可以簡化方向的確定[22]，并減少模型融合的沖突。本文在UT∩US的節(jié)點(diǎn)之間定義一個(gè)優(yōu)先順序，在UT∩US優(yōu)先于其他節(jié)點(diǎn)的條件下，對任意u∈US∩UT，f(u)=g(fS(u)+fT(u))，且fS(u)和fT(u)分別是源領(lǐng)域和目標(biāo)領(lǐng)域的IDF值。在有序的條件下，如果兩個(gè)節(jié)點(diǎn)u和v之間有邊，且u優(yōu)于v，則該邊的方向是u指向v，反之為v指向u。

得到特征模型的結(jié)構(gòu)之后，通過樣本集中特征詞的頻度c(u,pa(u))和c(pa(u))估計(jì)每個(gè)節(jié)點(diǎn)的條件概率表p(u|pa(u))=c(u,pa(u))/c(pa(u))。

3 全局特征模型

利用貝葉斯網(wǎng)可以有效地進(jìn)行知識表示和推理的優(yōu)點(diǎn)，通過領(lǐng)域特征模型融合、構(gòu)建全局特征模型，將所有特征詞之間依賴關(guān)系表示在一個(gè)知識網(wǎng)絡(luò)中，并利用貝葉斯網(wǎng)的推理將這些知識結(jié)合進(jìn)行特征擴(kuò)展，為縮小領(lǐng)域間的差異提供有效的支持。

3.1 模型構(gòu)建

針對特征模型的特點(diǎn)，本文分別對模型的結(jié)構(gòu)和參數(shù)進(jìn)行融合，構(gòu)建U=US∪UT上的全局特征模型。節(jié)點(diǎn)序簡化了BN的融合方法[23]，算法1描述全局特征模型結(jié)構(gòu)的構(gòu)建方法。

算法1全局結(jié)構(gòu)的構(gòu)建

輸入：局部特征模型的結(jié)構(gòu)GS=(US,ES)和GT=(UT,ET)。

輸出：全局模型的結(jié)構(gòu)G。

1.U=US∪UT；

2. for each pairu,v∈U-UT∩USdo

if(u,v)∈ES∨ETthen(u,v)∈E

else if(v,u)∈ES∨ETthen(v,u)∈E；

3. for each pairu,v∈UT∩USdo

if(u,v)∈ES∧ETthen(u,v)∈E

else if(v,u)∈ES∧ETthen(v,u)∈E；

4. return(U,E)

例1設(shè)源領(lǐng)域和目標(biāo)領(lǐng)域的特征模型結(jié)構(gòu)分別如圖2所示，其節(jié)點(diǎn)集分別為US={u1,u2,u3,u4}和UT={u1,u2,u3,u5,u6}。按照算法1中步驟2，E={(u2,u4),(u3,u4),(u1,u5),(u1,u6),(u2,u5)}；按照算法1中步驟3，E=E∪{(u1,u3),(u2,u3)}。最后得到圖3所示的全局特征模型結(jié)構(gòu)。

圖2 源域與目標(biāo)領(lǐng)域特征模型結(jié)構(gòu)

圖3 全局特征模型結(jié)構(gòu)

算法1在進(jìn)行結(jié)構(gòu)融合的過程中，只會(huì)在公共節(jié)點(diǎn)的父節(jié)點(diǎn)發(fā)生改變，且變化后的父節(jié)點(diǎn)是該公共節(jié)點(diǎn)在局部模型上父節(jié)點(diǎn)的交集，定理1說明了該事實(shí)。

定理1設(shè)G、GS和GT是結(jié)點(diǎn)集U、US和UT上的三個(gè)有向無環(huán)圖，并且U=US∪UT。G是按照算法1得到的DAG，如果在U上存在節(jié)點(diǎn)序，該序滿足US∩UT優(yōu)先于其他節(jié)點(diǎn)，則在G中，任意u∈UT∩US，pa(u)=paT(u)∩paS(u)?UT∩US。

證明(1)按照確定方向的原則，paT(u)中的節(jié)點(diǎn)優(yōu)先于u。因?yàn)閡∈UT∩US且UT∩US優(yōu)于其他節(jié)點(diǎn)，所以paT(u)?UT∩US。同理，paS(u)?UT∩US，所以，paT(u)∩paS(u)?UT∩US。(2)因?yàn)镮F(u,v)∈ES∧ETthen(u,v)∈E或者IF(v,u)∈ES∧ETthen(v,u)∈E，所以pa(u)=paT(u)∩paS(u)。

局部特征模型的參數(shù)融合可以按照算法2進(jìn)行。

算法2全局參數(shù)的計(jì)算

輸入：局部特征的參數(shù)PS、PT。

輸出：全局模型的參數(shù)P。

1. for each nodeu∈U

2. ifu∈US-UTthenp(u|pa(u))=pS(u|paS(u))；

3. ifu∈UT-USthenp(u|pa(u))=pT(u|paT(u))；

4. ifu∈UT∩USthen

(1)V=paT(u)∩paS(u);

(2)p(u|pa(u))=βpT(u|V)+(1-β)pS(u|V)

5. returnP

算法2中β是控制融合的權(quán)重。通過參數(shù)融合，最后可以得到全局特征模型。

3.2 情感知識遷移

知識遷移不僅能夠減小領(lǐng)域之間的差異性，同時(shí)能夠提高機(jī)器學(xué)習(xí)方法在小數(shù)據(jù)集上的適應(yīng)性。全局特征模型為源領(lǐng)域和目標(biāo)領(lǐng)域提供了一個(gè)統(tǒng)一的知識表示模型。BN為特征之間的關(guān)聯(lián)推理提供了高效的方法。本文基于BN推理，在全局特征模型的基礎(chǔ)上選擇與源領(lǐng)域相關(guān)的特征并與源領(lǐng)域帶標(biāo)簽的特征一起構(gòu)建新的特征空間，在目標(biāo)領(lǐng)域完全無監(jiān)督的條件下，學(xué)習(xí)情感分類器。

后驗(yàn)概率可以體現(xiàn)一個(gè)特征對其他特征的依賴程度，關(guān)聯(lián)度在后驗(yàn)概率的基礎(chǔ)上形式化地描述了特征選擇的方法。

定義2設(shè)u為全局模型中的一個(gè)節(jié)點(diǎn)，d∈DS是源領(lǐng)域中一個(gè)文本，且其特征詞集為V={u1,u2,…,uα}，u與d的關(guān)聯(lián)度score(u,d)定義為：

(2)

算法3概括地描述了基于全局模型進(jìn)行特征選擇和特征空間構(gòu)建的過程。

算法3特征空間的構(gòu)建

1.for eachdi∈DSdo

2.di的特征詞V={u1,u2,…,uα}；

3.di的標(biāo)簽為ysi

4.for eachu∈U-Vdoscore(u,di)；

5.ifscore(u,di)>ε，thenV=V∪{u}

6.xi=V,yi=ysi

4 實(shí) 驗(yàn)

4.1 數(shù)據(jù)集與評價(jià)指標(biāo)

本文實(shí)驗(yàn)采用在跨領(lǐng)域情感分類中經(jīng)常采用的英文多領(lǐng)域數(shù)據(jù)集Amazon評論數(shù)據(jù)集[24]，包括DVD評論(D)、書籍評論(B)、電子評論(E)、廚房和家庭用具評論(K)。每種產(chǎn)品代表一個(gè)領(lǐng)域，為了方便與現(xiàn)有方法進(jìn)行對比，各選擇2 000條評論，其中積極評論和消極評論各1 000條。

本文使用支持向量機(jī)(SVM)作為分類器，采用分類準(zhǔn)確度(Accuracy)作為主要評價(jià)指標(biāo)。

4.2 實(shí)驗(yàn)設(shè)計(jì)

本文設(shè)計(jì)四組實(shí)驗(yàn)來分析本文方法的可行性和有效性。

實(shí)驗(yàn)一：為了驗(yàn)證特征遷移對提高情感分類器適應(yīng)性的必要性，本實(shí)驗(yàn)在其他條件相同的情況下，分別對擴(kuò)展前的源領(lǐng)域數(shù)據(jù)和擴(kuò)展后的新特征空間學(xué)習(xí)分類器，并對目標(biāo)領(lǐng)域進(jìn)行分類，對比分類準(zhǔn)確率。結(jié)果如表2所示。

表2 擴(kuò)展前后跨領(lǐng)域分類準(zhǔn)確率

實(shí)驗(yàn)二：控制融合的權(quán)重β決定了全局模型中共有特征詞的參數(shù)，間接影響了特征擴(kuò)展部分中關(guān)聯(lián)度的大小。本實(shí)驗(yàn)通過對β的不同取值測試其對分類結(jié)果的影響。β的取值范圍是0到1，不同取值對分類準(zhǔn)確率的影響如圖4所示。為了避免擴(kuò)展閾值對結(jié)果的影響，本實(shí)驗(yàn)中擴(kuò)展閾值ε取0。

圖4 不同融合權(quán)重下的分類準(zhǔn)確率

實(shí)驗(yàn)三：為了分析擴(kuò)展閾值ε對本文方法的影響，本文在0.4～2.0范圍內(nèi)選取了5個(gè)ε值，相鄰單位取值相差0.4。在保證其他參數(shù)相同的條件下，采用不同閾值進(jìn)行擴(kuò)展，不同ε下的分類準(zhǔn)確率如圖5所示。

圖5 不同擴(kuò)展閾值下的分類準(zhǔn)確率

實(shí)驗(yàn)四：為了驗(yàn)證本文方法的有效性，本文使用幾個(gè)基準(zhǔn)模型：SCL[7]，SCL-MI[24], LP-based[25]，WAAR[26]，WEEF[27]。對基準(zhǔn)模型和本文模型在12種跨領(lǐng)域情況(B→D, B→E, B→K, D→B, D→E, D→K, E→B, E→D, E→K, K→B, K→D, K→E)進(jìn)行了對比分析，結(jié)果如圖6所示。

圖6 不同方法的分類準(zhǔn)確率

4.3 結(jié)果分析

實(shí)驗(yàn)一：從表2可以看出，在擴(kuò)展后的特征空間上訓(xùn)練分類器可以提高對目標(biāo)領(lǐng)域的情感分類。其中E→D、D→E兩種情況的準(zhǔn)確率提升較多，提高的原因可能是源領(lǐng)域和目標(biāo)領(lǐng)域語義比較相近。

實(shí)驗(yàn)二：從圖4數(shù)據(jù)走向可以看出，參數(shù)β對分類結(jié)果有一定的影響。目標(biāo)領(lǐng)域不同，對分類結(jié)果的影響也不同。當(dāng)目標(biāo)領(lǐng)域?yàn)锽時(shí)，β在0～0.5范圍內(nèi)變化比較平緩，0.5之后開始下降。目標(biāo)領(lǐng)域?yàn)镈時(shí)，β=0.5時(shí)分類效果最好，之后呈下降趨勢，其中E→D任務(wù)下降較多。目標(biāo)領(lǐng)域?yàn)镋時(shí)，總體呈現(xiàn)一個(gè)拋物線趨勢，在0.4～0.6范圍內(nèi)的分類效果較好。目標(biāo)領(lǐng)域?yàn)镵時(shí)，E→K任務(wù)變化較為平緩，B→K、D→K這兩個(gè)任務(wù)在0.4之后出現(xiàn)下降，0.6之后又趨于平緩?？傮w來看，β在0.4～0.6這個(gè)范圍內(nèi)大部分分類任務(wù)都能取得較好的分類效果。因此，本實(shí)驗(yàn)令β=0.5。

實(shí)驗(yàn)三：通過觀察圖5中數(shù)據(jù)點(diǎn)的分布和走向，可以得出無論哪個(gè)領(lǐng)域作為目標(biāo)領(lǐng)域，擴(kuò)展閾值都會(huì)對分類精度有所影響。不同的擴(kuò)展閾值，分類準(zhǔn)確率上下浮動(dòng)5%左右；此外，目標(biāo)領(lǐng)域不同，閾值對分類效果的影響也不同。目標(biāo)領(lǐng)域?yàn)锽時(shí)，ε的大小對D→B的影響較大，且當(dāng)ε=1.6時(shí)效果最好，其余兩個(gè)任務(wù)相對比較平穩(wěn)；目標(biāo)領(lǐng)域?yàn)镈時(shí)，ε在1.2～1.8之間有最好的準(zhǔn)確率，閾值大于1.6時(shí)，分類準(zhǔn)確率有下降趨勢；目標(biāo)領(lǐng)域?yàn)镋時(shí)，最好的分類效果在ε=0.4處，當(dāng)K作為源領(lǐng)域時(shí)，有最高的準(zhǔn)確率；目標(biāo)領(lǐng)域?yàn)镵時(shí)，其余三個(gè)領(lǐng)域作為源領(lǐng)域，ε對其分類效果的影響大致相同，擴(kuò)展后的分類效果，E→K任務(wù)較好。由此可以說明，通過有效設(shè)置擴(kuò)展閾值，可在一定程度上提高分類器在目標(biāo)領(lǐng)域的適應(yīng)性。

實(shí)驗(yàn)四：從圖6可以觀察到，較其他幾種方法，本文方法的分類準(zhǔn)確率整體優(yōu)于其他5種算法。與算法SCL和SCL-MI相比，K→B、B→D這兩個(gè)跨領(lǐng)域分類任務(wù)準(zhǔn)確率提高較明顯，最大提高了近10%。與算法WEEF相比，E→B、K→B、E→D、D→E 4個(gè)分類任務(wù)都有較高的提升，最大提高了12%，因此，本文方法在相關(guān)性不是很大的領(lǐng)域之間也能有較好的分類效果。與LP-based、WAAR方法相比，本文方法在B→E和D→K這兩個(gè)任務(wù)中準(zhǔn)確率提升最多，最大提高了7.7%。可見，利用BN建立全局特征模型并利用其進(jìn)行特征擴(kuò)展能有效縮小領(lǐng)域之間的距離，并提高跨領(lǐng)域的分類準(zhǔn)確率。

5 結(jié) 語

本文基于貝葉斯網(wǎng)對跨領(lǐng)域情感分析問題進(jìn)行建模，充分利用貝葉斯網(wǎng)在知識表示和推理上的優(yōu)勢，通過融合得到全局特征模型，為源和目標(biāo)領(lǐng)域建立統(tǒng)一的知識框架。實(shí)驗(yàn)結(jié)果表明，本文方法可以取得良好的預(yù)測效果，在目標(biāo)領(lǐng)域完全無監(jiān)督的基礎(chǔ)上提高分類器的適應(yīng)性?；谪惾~斯網(wǎng)多種學(xué)習(xí)方式，建立在多源、異構(gòu)數(shù)據(jù)上的跨領(lǐng)域情感分析將是下一步改進(jìn)研究的方向。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡