劉慧清 郭延哺 李維華
(云南大學(xué)信息學(xué)院 云南 昆明 650500)
隨著社會(huì)化媒體和社交網(wǎng)絡(luò)的迅速發(fā)展,越來越多的人在各種網(wǎng)頁及應(yīng)用上發(fā)表和分享自己的觀點(diǎn)和看法,產(chǎn)生了大量的文本信息。這些觀點(diǎn)和看法往往潛在地表達(dá)了他們的情感或者情緒,如何從這些海量的評論數(shù)據(jù)中挖掘出用戶的情感信息,分析出用戶的情感傾向成為近年來自然語言處理和數(shù)據(jù)挖掘領(lǐng)域的一個(gè)研究熱點(diǎn)[1-2]。
情感分析,又稱情感分類或意見挖掘,就是基于人們發(fā)表的文本分析人們的意見、情緒、態(tài)度、情感[3-4]?;跈C(jī)器學(xué)習(xí)的情感分析方法依賴于大量的高質(zhì)量標(biāo)簽樣本,而人工標(biāo)注樣本的方式顯然不能完全滿足情感分析的需求。文本情感表達(dá)與描述的對象或者語義概念(領(lǐng)域)密切相關(guān),不同領(lǐng)域的情感描述有著明顯的差別,且數(shù)據(jù)特征分布也不同,直接使用其他領(lǐng)域訓(xùn)練的情感分類器進(jìn)行情感分析就存在適應(yīng)性不佳的問題。因此,利用帶標(biāo)簽的源領(lǐng)域提高情感分類器在目標(biāo)領(lǐng)域適應(yīng)性的跨領(lǐng)域情感分析成為新的研究關(guān)注點(diǎn)[5-7]。
跨領(lǐng)域情感分析是遷移學(xué)習(xí)的一個(gè)重要研究方向,遷移學(xué)習(xí)是從源任務(wù)中提取知識,并將其運(yùn)用在目標(biāo)任務(wù)中的一種新機(jī)器學(xué)習(xí)方法[8]??珙I(lǐng)域情感分析領(lǐng)域常用到的遷移方法有:基于特征空間的遷移方法,基于實(shí)例的遷移方法。前者包括基于特征選擇和特征映射兩類?;谔卣鬟x擇的跨領(lǐng)域情感遷移方法是通過一些策略尋找源領(lǐng)域和目標(biāo)領(lǐng)域間的共享特征,然后利用這些特征進(jìn)行知識遷移。賈熹濱等[9]借助已有的情感詞典和改進(jìn)的互信息技術(shù)對領(lǐng)域間無歧義的共享特征進(jìn)行選擇,然后通過句法分析和關(guān)聯(lián)規(guī)則算法提取領(lǐng)域間專有特征詞進(jìn)行詞典擴(kuò)展和領(lǐng)域間信息分布對齊。李鼎宇等[10]通過譜聚類選擇領(lǐng)域間相似的特征詞進(jìn)行特征擴(kuò)展來提升情感分類效果。基于特征映射的跨領(lǐng)域情感遷移方法是把各個(gè)領(lǐng)域的特征映射到一個(gè)統(tǒng)一的特征表示空間中,建立各個(gè)域特征之間的關(guān)聯(lián),從而減少領(lǐng)域信息分布的差異。SCL(Structural Correspondence Learning)方法[7]、SFA(Spectral Feature Alignment)方法[11]是基于該方法的典型代表。它們利用領(lǐng)域間樞紐特征,通過特征變換將源領(lǐng)域和目標(biāo)領(lǐng)域特征映射到同一個(gè)空間,達(dá)到縮小領(lǐng)域間語義距離的目的。特征映射與特征選擇的區(qū)別在于,這些映射得到的特征不在原始的特征當(dāng)中,是全新的特征?;趯?shí)例的跨領(lǐng)域情感遷移方法主要從源領(lǐng)域已標(biāo)記數(shù)據(jù)中選取那些對目標(biāo)領(lǐng)域分類有價(jià)值的實(shí)例,用于輔助目標(biāo)領(lǐng)域情感分類。例如:廖祥文等[12]通過選取高質(zhì)量的樣例對訓(xùn)練集進(jìn)行擴(kuò)充,以減少領(lǐng)域間的特征分布差異;趙傳君等[13]將源領(lǐng)域帶標(biāo)簽數(shù)據(jù)等量分割,并分別與目標(biāo)領(lǐng)域帶標(biāo)簽數(shù)據(jù)組合,訓(xùn)練多個(gè)分類器來提升跨領(lǐng)域分類精度。
隨著深度學(xué)習(xí)逐漸成為自然語言處理領(lǐng)域研究熱點(diǎn),利用深度學(xué)習(xí)的方法解決情感分析問題的技術(shù)飛速發(fā)展[14],基于深度學(xué)習(xí)的方法主要利用深度神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力和詞向量在語法和語義上同時(shí)表達(dá)的優(yōu)點(diǎn)。例如:Bollegala等[15]通過嵌入學(xué)習(xí)方法構(gòu)造三個(gè)目標(biāo)函數(shù)來對領(lǐng)域特征進(jìn)行建模;Zhao等[16]提出一個(gè)兩階段雙向長短時(shí)記憶(Bi-LSTM)和參數(shù)傳輸框架,通過使用少量的目標(biāo)領(lǐng)域訓(xùn)練樣本共享Bi-LSTM網(wǎng)絡(luò)的底層參數(shù)并重新訓(xùn)練高層參數(shù),將其用于短文本跨領(lǐng)域情感分類任務(wù)中;Li等[17]提出一種端到端對抗記憶網(wǎng)絡(luò)(AMN),構(gòu)建兩個(gè)參數(shù)共享記憶網(wǎng)絡(luò)分別用于情感分類和領(lǐng)域分類。然而,基于深度學(xué)習(xí)的方法往往依賴于大量的標(biāo)簽樣本,而且已有的方法并沒有充分考慮到領(lǐng)域間的差異。
貝葉斯網(wǎng)(Bayesian Network,BN)[18]是每個(gè)節(jié)點(diǎn)都有一張概率表(也稱參數(shù))的有向無環(huán)圖(Directed Acyclic Graph,DAG),可以直觀地表示節(jié)點(diǎn)間的定量依賴關(guān)系,并為這些依賴關(guān)系提供有效的推理方法。貝葉斯網(wǎng)是不確定知識表示和推理最有效的模型之一,已經(jīng)成功應(yīng)用于預(yù)測[19]、決策[20]、可視化分析[21]等問題中。此外,貝葉斯網(wǎng)還提供多種靈活的學(xué)習(xí)方法[22],既可以從大數(shù)據(jù)樣本中學(xué)習(xí)BN,也可以根據(jù)專家知識構(gòu)建BN,這不僅可以為多源、甚至異構(gòu)的數(shù)據(jù)源提供統(tǒng)一的表示形式,也為跨領(lǐng)域情感分析中領(lǐng)域間情感知識的建模和遷移提供基礎(chǔ)。
本文從跨領(lǐng)域情感分析所面臨的困難出發(fā),利用貝葉斯網(wǎng)在知識表示和推理方面的優(yōu)勢,結(jié)合知識遷移,提出一種基于貝葉斯網(wǎng)的跨領(lǐng)域情感分析方法。基于特征詞之間的相似度來確定特征詞的依賴關(guān)系,對源領(lǐng)域和目標(biāo)領(lǐng)域建立基于貝葉斯網(wǎng)的特征模型,并設(shè)計(jì)特征模型的融合規(guī)則,對局部模型進(jìn)行融合,得到全局特征模型,讓源和目標(biāo)域特征表示在一個(gè)統(tǒng)一的特征空間中,建立各個(gè)域特征之間的關(guān)聯(lián)。在此基礎(chǔ)上,利用BN推理建立情感特征的遷移方法,在新的特征空間中實(shí)現(xiàn)源和目標(biāo)領(lǐng)域的情感知識遷移,以減小領(lǐng)域間的特征分布差異,提升分類效果。
文本情感表達(dá)和描述的對象或者語義概念(領(lǐng)域)密切相關(guān),不同領(lǐng)域的情感描述有著明顯的差別。
表1是一個(gè)關(guān)于電子領(lǐng)域和書籍領(lǐng)域的評論樣本集,其中每個(gè)域都有積極(+)和消極(-)兩種情感。在電子領(lǐng)域中,excellent、high pixel、high-resolution、run fast表達(dá)積極情緒,blurred sound、high noise、horrible表達(dá)消極情緒。在書籍領(lǐng)域,excellent、printed well表達(dá)積極情緒,horrible、waste表達(dá)消極情緒。
表1 電子和書籍領(lǐng)域的情感評論
可以看出,excellent、horrible都出現(xiàn)在兩個(gè)領(lǐng)域中,但high resolution、run fast很少出現(xiàn)在書籍領(lǐng)域,printed well很少出現(xiàn)在電子產(chǎn)品領(lǐng)域。所以,直接使用電子領(lǐng)域訓(xùn)練的情感分類器,對書籍領(lǐng)域評論進(jìn)行情感預(yù)測就存在適應(yīng)性不佳的問題。此外,專有詞high resolution和共有詞excellent可能存在共現(xiàn)關(guān)系,這表明領(lǐng)域間共有的詞匯往往是連接兩個(gè)領(lǐng)域的橋梁。
針對情感分類器存在的領(lǐng)域適應(yīng)性,以及目標(biāo)領(lǐng)域缺少標(biāo)簽樣本的問題,本文提出一種基于貝葉斯網(wǎng)的跨領(lǐng)域情感分析方法。該方法充分利用貝葉斯網(wǎng)在知識表示和推理方面優(yōu)勢,為源領(lǐng)域和目標(biāo)領(lǐng)域建立一個(gè)統(tǒng)一的框架,將目標(biāo)領(lǐng)域的情感知識遷移到源領(lǐng)域中,達(dá)到提高分類器在目標(biāo)領(lǐng)域中適應(yīng)性的目的。
基于貝葉斯網(wǎng)的跨領(lǐng)域情感分析的基本框架如圖1所示,該方法主要包括四個(gè)模塊:局部模塊,融合模塊,遷移模塊和預(yù)測模塊。局部模塊就是在特征提取的基礎(chǔ)上,定量度量特征詞之間的依賴關(guān)系,構(gòu)建源和目標(biāo)的局部特征模型。融合模塊基于局部特征模型,從結(jié)構(gòu)和參數(shù)兩方面構(gòu)建全局特征模型。遷移模塊基于全局特征模型,通過特征擴(kuò)展進(jìn)行領(lǐng)域間情感知識的遷移。預(yù)測模塊基于擴(kuò)展后的特征空間訓(xùn)練分類器,完成目標(biāo)領(lǐng)域的情感預(yù)測。
圖1 基本框架
局部特征模型就是基于貝葉斯網(wǎng)定量度量源和目標(biāo)領(lǐng)域特征之間的依賴,為進(jìn)一步的模型融合和特征擴(kuò)展提供支持。
貝葉斯網(wǎng)是一個(gè)二元組(G,P),G是一個(gè)有向無環(huán)圖,每個(gè)節(jié)點(diǎn)表示一個(gè)變量,有向邊表示變量之間的直接依賴關(guān)系;P是貝葉斯網(wǎng)的參數(shù),每個(gè)節(jié)點(diǎn)u包含一個(gè)該節(jié)點(diǎn)在其父節(jié)點(diǎn)pa(u)條件下的條件概率表。下面給出特征模型的定義。
定義1文本集D的特征詞為W={u1,u2,…,um},D上構(gòu)建的特征模型是滿足下面條件的(G,P):
(1)G=(U,E)是一個(gè)有向無環(huán)圖,U為圖中的節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)表示W(wǎng)中的一個(gè)特征詞,且取值空間為{0,1},分別表示特征詞不出現(xiàn)和出現(xiàn),E表示節(jié)點(diǎn)之間的有向邊集合,若存在有向邊(u,v),則稱u是v的父節(jié)點(diǎn)。
(2)P={p(u|pa(u))|u∈U}表示特征模型的參數(shù),p(u|pa(u))表示每個(gè)節(jié)點(diǎn)u在其父節(jié)點(diǎn)pa(u)條件下的條件概率表。
在特征模型中,節(jié)點(diǎn)和特征是一一對應(yīng)的,因此本文后續(xù)的描述中不再區(qū)分節(jié)點(diǎn)和特征。
根據(jù)特征模型的定義,分別對源領(lǐng)域和目標(biāo)領(lǐng)域構(gòu)建局部特征模型的DAG和參數(shù)。
源領(lǐng)域特征模型的節(jié)點(diǎn)為US={us1,us2,…,usp},目標(biāo)領(lǐng)域特征模型的節(jié)點(diǎn)為UT={ut1,ut2,…,utq};分兩步確定特征模型的DAG,首先確定特征詞之間是否有邊,再確定邊的方向。
用相似度來度量特征詞之間是否有邊。考慮到兩個(gè)特征的點(diǎn)互信息越大則它們越相關(guān),所以兩個(gè)特征詞u和v之間的相似程度計(jì)算式表示為:
(1)
式中:p(·)=c(·)/N是特征詞的聯(lián)合概率函數(shù),c(·)為文檔頻度,N為文本數(shù);p(u=1,v=1)表示u、v都出現(xiàn)的聯(lián)合概率。
如果I(u,v)>ω,則u和v之間存在一條邊,否則節(jié)點(diǎn)u和v之間不存在邊,其中ω是相似閾值。
節(jié)點(diǎn)順序可以簡化方向的確定[22],并減少模型融合的沖突。本文在UT∩US的節(jié)點(diǎn)之間定義一個(gè)優(yōu)先順序,在UT∩US優(yōu)先于其他節(jié)點(diǎn)的條件下,對任意u∈US∩UT,f(u)=g(fS(u)+fT(u)),且fS(u)和fT(u)分別是源領(lǐng)域和目標(biāo)領(lǐng)域的IDF值。在有序的條件下,如果兩個(gè)節(jié)點(diǎn)u和v之間有邊,且u優(yōu)于v,則該邊的方向是u指向v,反之為v指向u。
得到特征模型的結(jié)構(gòu)之后,通過樣本集中特征詞的頻度c(u,pa(u))和c(pa(u))估計(jì)每個(gè)節(jié)點(diǎn)的條件概率表p(u|pa(u))=c(u,pa(u))/c(pa(u))。
利用貝葉斯網(wǎng)可以有效地進(jìn)行知識表示和推理的優(yōu)點(diǎn),通過領(lǐng)域特征模型融合、構(gòu)建全局特征模型,將所有特征詞之間依賴關(guān)系表示在一個(gè)知識網(wǎng)絡(luò)中,并利用貝葉斯網(wǎng)的推理將這些知識結(jié)合進(jìn)行特征擴(kuò)展,為縮小領(lǐng)域間的差異提供有效的支持。
針對特征模型的特點(diǎn),本文分別對模型的結(jié)構(gòu)和參數(shù)進(jìn)行融合,構(gòu)建U=US∪UT上的全局特征模型。節(jié)點(diǎn)序簡化了BN的融合方法[23],算法1描述全局特征模型結(jié)構(gòu)的構(gòu)建方法。
算法1全局結(jié)構(gòu)的構(gòu)建
輸入:局部特征模型的結(jié)構(gòu)GS=(US,ES)和GT=(UT,ET)。
輸出:全局模型的結(jié)構(gòu)G。
1.U=US∪UT;
2. for each pairu,v∈U-UT∩USdo
if(u,v)∈ES∨ETthen(u,v)∈E
else if(v,u)∈ES∨ETthen(v,u)∈E;
3. for each pairu,v∈UT∩USdo
if(u,v)∈ES∧ETthen(u,v)∈E
else if(v,u)∈ES∧ETthen(v,u)∈E;
4. return(U,E)
例1設(shè)源領(lǐng)域和目標(biāo)領(lǐng)域的特征模型結(jié)構(gòu)分別如圖2所示,其節(jié)點(diǎn)集分別為US={u1,u2,u3,u4}和UT={u1,u2,u3,u5,u6}。按照算法1中步驟2,E={(u2,u4),(u3,u4),(u1,u5),(u1,u6),(u2,u5)};按照算法1中步驟3,E=E∪{(u1,u3),(u2,u3)}。最后得到圖3所示的全局特征模型結(jié)構(gòu)。
圖2 源域與目標(biāo)領(lǐng)域特征模型結(jié)構(gòu)
圖3 全局特征模型結(jié)構(gòu)
算法1在進(jìn)行結(jié)構(gòu)融合的過程中,只會(huì)在公共節(jié)點(diǎn)的父節(jié)點(diǎn)發(fā)生改變,且變化后的父節(jié)點(diǎn)是該公共節(jié)點(diǎn)在局部模型上父節(jié)點(diǎn)的交集,定理1說明了該事實(shí)。
定理1設(shè)G、GS和GT是結(jié)點(diǎn)集U、US和UT上的三個(gè)有向無環(huán)圖,并且U=US∪UT。G是按照算法1得到的DAG,如果在U上存在節(jié)點(diǎn)序,該序滿足US∩UT優(yōu)先于其他節(jié)點(diǎn),則在G中,任意u∈UT∩US,pa(u)=paT(u)∩paS(u)?UT∩US。
證明(1)按照確定方向的原則,paT(u)中的節(jié)點(diǎn)優(yōu)先于u。因?yàn)閡∈UT∩US且UT∩US優(yōu)于其他節(jié)點(diǎn),所以paT(u)?UT∩US。同理,paS(u)?UT∩US,所以,paT(u)∩paS(u)?UT∩US。(2)因?yàn)镮F(u,v)∈ES∧ETthen(u,v)∈E或者IF(v,u)∈ES∧ETthen(v,u)∈E,所以pa(u)=paT(u)∩paS(u)。
局部特征模型的參數(shù)融合可以按照算法2進(jìn)行。
算法2全局參數(shù)的計(jì)算
輸入:局部特征的參數(shù)PS、PT。
輸出:全局模型的參數(shù)P。
1. for each nodeu∈U
2. ifu∈US-UTthenp(u|pa(u))=pS(u|paS(u));
3. ifu∈UT-USthenp(u|pa(u))=pT(u|paT(u));
4. ifu∈UT∩USthen
(1)V=paT(u)∩paS(u);
(2)p(u|pa(u))=βpT(u|V)+(1-β)pS(u|V)
5. returnP
算法2中β是控制融合的權(quán)重。通過參數(shù)融合,最后可以得到全局特征模型。
知識遷移不僅能夠減小領(lǐng)域之間的差異性,同時(shí)能夠提高機(jī)器學(xué)習(xí)方法在小數(shù)據(jù)集上的適應(yīng)性。全局特征模型為源領(lǐng)域和目標(biāo)領(lǐng)域提供了一個(gè)統(tǒng)一的知識表示模型。BN為特征之間的關(guān)聯(lián)推理提供了高效的方法。本文基于BN推理,在全局特征模型的基礎(chǔ)上選擇與源領(lǐng)域相關(guān)的特征并與源領(lǐng)域帶標(biāo)簽的特征一起構(gòu)建新的特征空間,在目標(biāo)領(lǐng)域完全無監(jiān)督的條件下,學(xué)習(xí)情感分類器。
后驗(yàn)概率可以體現(xiàn)一個(gè)特征對其他特征的依賴程度,關(guān)聯(lián)度在后驗(yàn)概率的基礎(chǔ)上形式化地描述了特征選擇的方法。
定義2設(shè)u為全局模型中的一個(gè)節(jié)點(diǎn),d∈DS是源領(lǐng)域中一個(gè)文本,且其特征詞集為V={u1,u2,…,uα},u與d的關(guān)聯(lián)度score(u,d)定義為:
(2)
算法3概括地描述了基于全局模型進(jìn)行特征選擇和特征空間構(gòu)建的過程。
算法3特征空間的構(gòu)建
1.for eachdi∈DSdo
2.di的特征詞V={u1,u2,…,uα};
3.di的標(biāo)簽為ysi
4.for eachu∈U-Vdoscore(u,di);
5.ifscore(u,di)>ε,thenV=V∪{u}
6.xi=V,yi=ysi
本文實(shí)驗(yàn)采用在跨領(lǐng)域情感分類中經(jīng)常采用的英文多領(lǐng)域數(shù)據(jù)集Amazon評論數(shù)據(jù)集[24],包括DVD評論(D)、書籍評論(B)、電子評論(E)、廚房和家庭用具評論(K)。每種產(chǎn)品代表一個(gè)領(lǐng)域,為了方便與現(xiàn)有方法進(jìn)行對比,各選擇2 000條評論,其中積極評論和消極評論各1 000條。
本文使用支持向量機(jī)(SVM)作為分類器,采用分類準(zhǔn)確度(Accuracy)作為主要評價(jià)指標(biāo)。
本文設(shè)計(jì)四組實(shí)驗(yàn)來分析本文方法的可行性和有效性。
實(shí)驗(yàn)一:為了驗(yàn)證特征遷移對提高情感分類器適應(yīng)性的必要性,本實(shí)驗(yàn)在其他條件相同的情況下,分別對擴(kuò)展前的源領(lǐng)域數(shù)據(jù)和擴(kuò)展后的新特征空間學(xué)習(xí)分類器,并對目標(biāo)領(lǐng)域進(jìn)行分類,對比分類準(zhǔn)確率。結(jié)果如表2所示。
表2 擴(kuò)展前后跨領(lǐng)域分類準(zhǔn)確率
實(shí)驗(yàn)二:控制融合的權(quán)重β決定了全局模型中共有特征詞的參數(shù),間接影響了特征擴(kuò)展部分中關(guān)聯(lián)度的大小。本實(shí)驗(yàn)通過對β的不同取值測試其對分類結(jié)果的影響。β的取值范圍是0到1,不同取值對分類準(zhǔn)確率的影響如圖4所示。為了避免擴(kuò)展閾值對結(jié)果的影響,本實(shí)驗(yàn)中擴(kuò)展閾值ε取0。
圖4 不同融合權(quán)重下的分類準(zhǔn)確率
實(shí)驗(yàn)三:為了分析擴(kuò)展閾值ε對本文方法的影響,本文在0.4~2.0范圍內(nèi)選取了5個(gè)ε值,相鄰單位取值相差0.4。在保證其他參數(shù)相同的條件下,采用不同閾值進(jìn)行擴(kuò)展,不同ε下的分類準(zhǔn)確率如圖5所示。
圖5 不同擴(kuò)展閾值下的分類準(zhǔn)確率
實(shí)驗(yàn)四:為了驗(yàn)證本文方法的有效性,本文使用幾個(gè)基準(zhǔn)模型:SCL[7],SCL-MI[24], LP-based[25],WAAR[26],WEEF[27]。對基準(zhǔn)模型和本文模型在12種跨領(lǐng)域情況(B→D, B→E, B→K, D→B, D→E, D→K, E→B, E→D, E→K, K→B, K→D, K→E)進(jìn)行了對比分析,結(jié)果如圖6所示。
圖6 不同方法的分類準(zhǔn)確率
實(shí)驗(yàn)一:從表2可以看出,在擴(kuò)展后的特征空間上訓(xùn)練分類器可以提高對目標(biāo)領(lǐng)域的情感分類。其中E→D、D→E兩種情況的準(zhǔn)確率提升較多,提高的原因可能是源領(lǐng)域和目標(biāo)領(lǐng)域語義比較相近。
實(shí)驗(yàn)二:從圖4數(shù)據(jù)走向可以看出,參數(shù)β對分類結(jié)果有一定的影響。目標(biāo)領(lǐng)域不同,對分類結(jié)果的影響也不同。當(dāng)目標(biāo)領(lǐng)域?yàn)锽時(shí),β在0~0.5范圍內(nèi)變化比較平緩,0.5之后開始下降。目標(biāo)領(lǐng)域?yàn)镈時(shí),β=0.5時(shí)分類效果最好,之后呈下降趨勢,其中E→D任務(wù)下降較多。目標(biāo)領(lǐng)域?yàn)镋時(shí),總體呈現(xiàn)一個(gè)拋物線趨勢,在0.4~0.6范圍內(nèi)的分類效果較好。目標(biāo)領(lǐng)域?yàn)镵時(shí),E→K任務(wù)變化較為平緩,B→K、D→K這兩個(gè)任務(wù)在0.4之后出現(xiàn)下降,0.6之后又趨于平緩??傮w來看,β在0.4~0.6這個(gè)范圍內(nèi)大部分分類任務(wù)都能取得較好的分類效果。因此,本實(shí)驗(yàn)令β=0.5。
實(shí)驗(yàn)三:通過觀察圖5中數(shù)據(jù)點(diǎn)的分布和走向,可以得出無論哪個(gè)領(lǐng)域作為目標(biāo)領(lǐng)域,擴(kuò)展閾值都會(huì)對分類精度有所影響。不同的擴(kuò)展閾值,分類準(zhǔn)確率上下浮動(dòng)5%左右;此外,目標(biāo)領(lǐng)域不同,閾值對分類效果的影響也不同。目標(biāo)領(lǐng)域?yàn)锽時(shí),ε的大小對D→B的影響較大,且當(dāng)ε=1.6時(shí)效果最好,其余兩個(gè)任務(wù)相對比較平穩(wěn);目標(biāo)領(lǐng)域?yàn)镈時(shí),ε在1.2~1.8之間有最好的準(zhǔn)確率,閾值大于1.6時(shí),分類準(zhǔn)確率有下降趨勢;目標(biāo)領(lǐng)域?yàn)镋時(shí),最好的分類效果在ε=0.4處,當(dāng)K作為源領(lǐng)域時(shí),有最高的準(zhǔn)確率;目標(biāo)領(lǐng)域?yàn)镵時(shí),其余三個(gè)領(lǐng)域作為源領(lǐng)域,ε對其分類效果的影響大致相同,擴(kuò)展后的分類效果,E→K任務(wù)較好。由此可以說明,通過有效設(shè)置擴(kuò)展閾值,可在一定程度上提高分類器在目標(biāo)領(lǐng)域的適應(yīng)性。
實(shí)驗(yàn)四:從圖6可以觀察到,較其他幾種方法,本文方法的分類準(zhǔn)確率整體優(yōu)于其他5種算法。與算法SCL和SCL-MI相比,K→B、B→D這兩個(gè)跨領(lǐng)域分類任務(wù)準(zhǔn)確率提高較明顯,最大提高了近10%。與算法WEEF相比,E→B、K→B、E→D、D→E 4個(gè)分類任務(wù)都有較高的提升,最大提高了12%,因此,本文方法在相關(guān)性不是很大的領(lǐng)域之間也能有較好的分類效果。與LP-based、WAAR方法相比,本文方法在B→E和D→K這兩個(gè)任務(wù)中準(zhǔn)確率提升最多,最大提高了7.7%。可見,利用BN建立全局特征模型并利用其進(jìn)行特征擴(kuò)展能有效縮小領(lǐng)域之間的距離,并提高跨領(lǐng)域的分類準(zhǔn)確率。
本文基于貝葉斯網(wǎng)對跨領(lǐng)域情感分析問題進(jìn)行建模,充分利用貝葉斯網(wǎng)在知識表示和推理上的優(yōu)勢,通過融合得到全局特征模型,為源和目標(biāo)領(lǐng)域建立統(tǒng)一的知識框架。實(shí)驗(yàn)結(jié)果表明,本文方法可以取得良好的預(yù)測效果,在目標(biāo)領(lǐng)域完全無監(jiān)督的基礎(chǔ)上提高分類器的適應(yīng)性?;谪惾~斯網(wǎng)多種學(xué)習(xí)方式,建立在多源、異構(gòu)數(shù)據(jù)上的跨領(lǐng)域情感分析將是下一步改進(jìn)研究的方向。