高 偉,王中卿,李壽山
(蘇州大學(xué) 計算機(jī)科學(xué)與技術(shù)學(xué)院,江蘇 蘇州 215006)
隨著互聯(lián)網(wǎng)的迅猛發(fā)展,人們越來越習(xí)慣于在網(wǎng)絡(luò)上表達(dá)自己的觀點,從而使網(wǎng)絡(luò)上涌現(xiàn)出大量帶情感的文本。作為自動處理和分析這些文本一項基本任務(wù),情感分類漸漸受到重視,并逐漸發(fā)展為自然語言處理中一項越來越受關(guān)注的研究課題[1-3]。情感分類是指對用戶發(fā)出的主觀性文本進(jìn)行分析和挖掘,判斷其表達(dá)的情感色彩是褒義(Positive)或貶義(Negative)。目前,關(guān)于情感分類的研究,主要集中在監(jiān)督學(xué)習(xí)方面。盡管監(jiān)督學(xué)習(xí)方法在情感分類中已經(jīng)取得了非常好的效果[4-5],但是由于監(jiān)督學(xué)習(xí)需要大量人工標(biāo)注的訓(xùn)練樣本,從而使得監(jiān)督學(xué)習(xí)的分類系統(tǒng)需要一定的人工標(biāo)注和時間代價。一種解決方案是采取無需標(biāo)注樣本的分類方法,即非監(jiān)督學(xué)習(xí)方法。然而,非監(jiān)督學(xué)習(xí)方法的分類效果與實際要求相比還存在一定差距[6-7]。另外一種解決方案是采取綜合利用少量已標(biāo)注樣本和大量的未標(biāo)注樣本來提高學(xué)習(xí)性能的半監(jiān)督情感分類方法[8-10]。本文主要圍繞半監(jiān)督情感分類方法進(jìn)行展開。
在半監(jiān)督情感分類方法中,存在多種不同類型的分類方法。其中一類方法是通過少量標(biāo)注樣本在大量未標(biāo)注樣本中進(jìn)行學(xué)習(xí),從而自動獲得未標(biāo)注樣本的標(biāo)簽,然后用這些自動標(biāo)注樣本去更新訓(xùn)練模型。例如,這類方法中常用的協(xié)同訓(xùn)練(Co-training)方法和標(biāo)簽傳播(Label Propagation)方法。然而,情感分類中的半監(jiān)督學(xué)習(xí)是一件比較困難的事情,在使用這類方法對未標(biāo)注樣本進(jìn)行標(biāo)注的過程中,會產(chǎn)生很多的誤標(biāo)注樣本。誤標(biāo)注樣本的產(chǎn)生通常會對最終的分類結(jié)果造成不良影響。
本文提出了一種基于集成學(xué)習(xí)的半監(jiān)督情感分類方法,通過不同的半監(jiān)督學(xué)習(xí)方法針對未標(biāo)注樣本進(jìn)行標(biāo)注,最終選取各個半監(jiān)督學(xué)習(xí)方法標(biāo)注一致的樣本加入標(biāo)注樣本中更新訓(xùn)練模型。這種方法的優(yōu)勢在于其舍棄那些標(biāo)簽不一致的樣本,從而減少誤標(biāo)注的非標(biāo)注樣本對分類性能產(chǎn)生的不良影響。具體實現(xiàn)過程中,我們選取改進(jìn)的協(xié)同訓(xùn)練算法[11]以及標(biāo)簽傳播算法[12]作為基本的半監(jiān)督學(xué)習(xí)算法,并在上述兩種算法生成的分類器針對未標(biāo)注樣本進(jìn)行標(biāo)注之后,選取兩者標(biāo)注一致的樣本加入標(biāo)注樣本中集中訓(xùn)練分類模型。理論和實驗分析都表明,本文提出的基于集成學(xué)習(xí)的半監(jiān)督情感分類方法能夠有效降低對未標(biāo)注樣本的誤標(biāo)注率。實驗結(jié)果表明,本文方法的分類性能明顯優(yōu)于各個單獨的半監(jiān)督學(xué)習(xí)方法。
本文其他部分安排如下:第2節(jié)詳細(xì)介紹情感分類的相關(guān)工作;第3節(jié)提出基于集成學(xué)習(xí)的半監(jiān)督情感分類方法;第4節(jié)給出實驗結(jié)果及分析;第5節(jié)給出相關(guān)結(jié)論,并對下一步工作進(jìn)行展望。
早期的情感分類研究主要集中在無監(jiān)督學(xué)習(xí)方法。無監(jiān)督學(xué)習(xí)一般是通過兩個詞之間的關(guān)系以及一些資源比如WordNet/HowNet或者未標(biāo)注數(shù)據(jù)來判斷文本的情感傾向[13]。這類基于詞典的無監(jiān)督學(xué)習(xí)方法的分類效果往往較差,并不能很好地滿足實際應(yīng)用的需求。
基于監(jiān)督學(xué)習(xí)的情感分類方法是當(dāng)前的主流方法,最早由文獻(xiàn)[5]將多種分類方法引入情感分類任務(wù)中并取得了很好的分類效果。后續(xù)的大量研究工作都致力于通過各種途徑來改善基于監(jiān)督學(xué)習(xí)情感分類的性能。已有學(xué)者將集成學(xué)習(xí)引入到監(jiān)督學(xué)習(xí)中,并成功提高了分類器的性能[14]。
近幾年來,基于半監(jiān)督學(xué)習(xí)的情感分類漸漸受到廣大研究者們的重視。Wan將兩種不同語言(英語和漢語)作為兩個不同的視圖,采用協(xié)同訓(xùn)練方法進(jìn)行半監(jiān)督情感分類[15];Li等則是把評價語句分為個人視圖(Personal View)和非個人視圖(Impersonal View)并同樣采用協(xié)同訓(xùn)練方法進(jìn)行半監(jiān)督情感分類[16]。Dasgupta和Ng將譜聚類、主動學(xué)習(xí)、直推學(xué)習(xí)和集成學(xué)習(xí)引入到半監(jiān)督學(xué)習(xí)中[8],但仍未獲得較高的分類準(zhǔn)確率(在初始標(biāo)注樣本為100時,Book和DVD領(lǐng)域的準(zhǔn)確率只有60%)。蘇艷等對協(xié)同訓(xùn)練方法進(jìn)行改進(jìn),提出了基于動態(tài)隨機(jī)特征子空間的協(xié)同訓(xùn)練算法,并實驗驗證了當(dāng)特征子空間數(shù)目為4左右的時候,該半監(jiān)督分類方法能夠取得最佳性能[11]。半監(jiān)督的情感分類方法還存在一種特殊的實現(xiàn)方式:少量標(biāo)注樣本結(jié)合情感詞典的方法。例如,Sindhwani和Melville提出了基于二部圖的半監(jiān)督學(xué)習(xí)方法,同時實現(xiàn)了篇章級和詞語級的情感分類[17];Li等則基于限制性非負(fù)矩陣分解(Constrained Non-negative Tri-factorization)的方法實現(xiàn)了這種方式的半監(jiān)督學(xué)習(xí)情感分類任務(wù)[18]。
本文提出的方法不同于以上任何一種半監(jiān)督分類方法,是一種集成方法,即在已有幾種半監(jiān)督分類方法的基礎(chǔ)上,利用多種半監(jiān)督學(xué)習(xí)方法的融合進(jìn)一步提高分類性能。據(jù)我們所知,本文是首次提出面向情感分類的半監(jiān)督集成學(xué)習(xí)方法,即使在傳統(tǒng)的主題文本分類中,也沒有關(guān)于半監(jiān)督方法的集成學(xué)習(xí)的相關(guān)研究。
半監(jiān)督集成學(xué)習(xí)是指融合多種半監(jiān)督學(xué)習(xí)方法的一種學(xué)習(xí)機(jī)制。在給定標(biāo)注樣本和未標(biāo)注樣本的情況下,不同的半監(jiān)督學(xué)習(xí)方法可以通過各種融合算法,形成一種新的基于集成學(xué)習(xí)的半監(jiān)督學(xué)習(xí)方法。圖1為半監(jiān)督集成學(xué)習(xí)的一個總體框架。
圖1 半監(jiān)督集成學(xué)習(xí)總體框架圖
通常來講,差異性是影響集成學(xué)習(xí)性能的一個重要因素。參與融合的方法差別越大,集成學(xué)習(xí)的性能提高會越明顯。因此,我們選用不同的半監(jiān)督學(xué)習(xí)方法進(jìn)行集成學(xué)習(xí)。目前存在很多的半監(jiān)督學(xué)習(xí)方法,其中由Blum和Mitchell提出的協(xié)同訓(xùn)練算法,已有很多研究者對其進(jìn)行了研究和改進(jìn),并取得了進(jìn)展,使得協(xié)同訓(xùn)練成為半監(jiān)督學(xué)習(xí)中非常經(jīng)典的一種方法[19]。此外,標(biāo)簽傳播算法(LP)也是一種常用的半監(jiān)督學(xué)習(xí)方法。我們將選取這兩種半監(jiān)督學(xué)習(xí)方法進(jìn)行集成學(xué)習(xí)研究,下面簡單地介紹這兩種算法。
3.2.1 基于隨機(jī)動態(tài)特征子空間生成的協(xié)同訓(xùn)練算法
Co-training算法需要兩個獨立視圖從而訓(xùn)練兩個分類器, 然后采用互助方式迭代地擴(kuò)充帶標(biāo)記數(shù)據(jù)集并重新訓(xùn)練。為了獲得兩個獨立視圖,蘇艷等提出了一種基于隨機(jī)特征子空間的方法用于產(chǎn)生兩個不同的特征子空間[11]。具體實現(xiàn)中,基于動態(tài)隨機(jī)特征子空間生成的協(xié)同訓(xùn)練算法,是將每一個特征子空間作為文本的一個表示視圖,多個特征子空間對應(yīng)多個文本表示的不同視圖。在這些視圖下,應(yīng)用協(xié)同訓(xùn)練算法進(jìn)行半監(jiān)督學(xué)習(xí)。下面詳細(xì)介紹了基于隨機(jī)動態(tài)特征子空間生成的協(xié)同訓(xùn)練算法流程。
輸入:
已標(biāo)注初始樣本集合L,包含n+個正類樣本和n-個負(fù)類樣本;
未標(biāo)注樣本集合U;
輸出:
更新后的標(biāo)注樣本集合L;
程序:
進(jìn)行N次迭代,直到U=?結(jié)束循環(huán):
(1)B=?,B表示每次迭代后從U中挑選出自信度最高的標(biāo)注樣本;
(2) 將L和U的特征空間隨機(jī)分成m個特征子空間;
(3) 訓(xùn)練m個子空間分類器F1,F2, …,Fm;
(4) 分別使用F1,F2, …,Fm對未標(biāo)注樣本集U進(jìn)行分類;
(5) 對于每個子空間分類器,從分類結(jié)果中選擇出自信度最高的一個正類樣本和一個負(fù)類樣本,添加到B中;
(6) 將B添加到標(biāo)注樣本中(L=L∪B),從U中刪除B(U=U-B)。
3.2.2 標(biāo)簽傳播算法(LP)
在許多關(guān)于情感分類的研究中,文檔通常用詞袋(Bag-of-words)模型化并用向量形式描述。在這些設(shè)置中,單詞與文檔間的關(guān)聯(lián)是不清晰的。為了更好地捕捉單詞和文檔之間的關(guān)系,本文采用基于文檔—詞的二部圖表述文檔與單詞的關(guān)系。文檔—詞的二部圖的連接關(guān)系由文檔和詞的連接矩陣表示,即n×V矩陣X:n為文檔數(shù)目,V為詞的數(shù)目。文檔—詞的二部圖僅存在文檔到詞及詞到文檔的連接關(guān)系。具體來講,文檔到詞及詞到文檔的轉(zhuǎn)移概率計算如下:
輸入:
已標(biāo)注初始樣本集合L,包含n+個正類樣本和n-個負(fù)類樣本;
未標(biāo)注樣本集合U;
輸出:
更新后的標(biāo)注樣本集合L;
程序:
(1) 初始化:
P:n×r標(biāo)注矩陣,同時Pij標(biāo)識文檔i(i=0…n)屬于類別j(j=1…r)的概率
PL:P0的前m行對應(yīng)的m個標(biāo)注實例L
PU:P0的后n-m行對應(yīng)的n-m個未標(biāo)注實例U
(2) 循環(huán)迭代N次直到收斂;
由于在半監(jiān)督學(xué)習(xí)中,只存在少量的標(biāo)注樣本,每個基分類器無法獲得較高的準(zhǔn)確率,因此對于每個未標(biāo)注樣本所屬類別的預(yù)測概率并不準(zhǔn)確。為了加入正確率更高的非標(biāo)注樣本,我們提出了一種基于一致性標(biāo)簽的樣本融合方式,用于融合以上兩種不同的半監(jiān)督情感分類方法。具體來講,給定標(biāo)注樣本和未標(biāo)注樣本,首先利用兩種不同的半監(jiān)督學(xué)習(xí)方法對未標(biāo)注樣本進(jìn)行標(biāo)注,然后對標(biāo)注結(jié)果進(jìn)行融合,選取標(biāo)注一致的未標(biāo)注樣本加入標(biāo)注樣本中。用更新后的標(biāo)注樣本對測試樣本進(jìn)行分類。值得一提的是,我們僅選用兩種不同的半監(jiān)督學(xué)習(xí)方法進(jìn)行集成學(xué)習(xí),對于多個半監(jiān)督學(xué)習(xí)方法來說,我們的方法可以很容易推廣,即考慮對其中任意兩種方法進(jìn)行一致性標(biāo)簽融合。直觀上,這種方法能夠在一定程度上降低半監(jiān)督學(xué)習(xí)中對未標(biāo)注樣本的誤標(biāo)注率,從而改進(jìn)半監(jiān)督情感分類方法的性能。下面詳細(xì)介紹了這種基于集成學(xué)習(xí)的半監(jiān)督情感分類訓(xùn)練集產(chǎn)生的流程。
輸入:
已標(biāo)注初始樣本集合L,包含n+個正類樣本和n-個負(fù)類樣本;
未標(biāo)注樣本集合U;
輸出:
更新后的標(biāo)注樣本集合L;
程序:
(1)B=?,B表示最終選擇的標(biāo)注一致的樣本集合;
(2) 用不同的半監(jiān)督學(xué)習(xí)算法Fi(i=1, 2) 對U中的每個樣本X進(jìn)行標(biāo)注,標(biāo)注結(jié)果為
Li(X)(Li(X)=c1, …,cm);
(3) 依次取出U中的每個樣本X:
若L1(X)=L2(X)=c
將未標(biāo)注樣本X標(biāo)注為類別c且將標(biāo)注后的X添加到B中;
(4) 將B添加到標(biāo)注樣本中(L=L∪B),并從U中移除。
基于一致性標(biāo)簽融合的半監(jiān)督情感分類方法降低了由于未標(biāo)注樣本被誤標(biāo)注,引入大量噪聲數(shù)據(jù)對半監(jiān)督學(xué)習(xí)性能產(chǎn)生的負(fù)面影響,對未標(biāo)注樣本的標(biāo)注準(zhǔn)確率高于每一個參與集成學(xué)習(xí)的半監(jiān)督學(xué)習(xí)方法。
下面是關(guān)于一致性標(biāo)簽融合方法能夠提高未標(biāo)注樣本的分類正確率的理論分析。首先,我們定義兩個函數(shù),其中Li(X)為半監(jiān)督學(xué)習(xí)算法Fi對未標(biāo)注樣本X的分類結(jié)果:
根據(jù)上面的算法流程,我們可以得到式(1)。
其中LES(X)為集成學(xué)習(xí)系統(tǒng)對未標(biāo)注樣本的標(biāo)注(即選擇各個子半監(jiān)督學(xué)習(xí)方法一致性的標(biāo)注),real(X)為樣本X的真實標(biāo)簽。
其中E1(X)=1并且LES(X)=c(c為某一類別)
每一個子半監(jiān)督學(xué)習(xí)算法Fi對未標(biāo)注樣本的分類準(zhǔn)確率,也可以用其對每個未標(biāo)注樣本正確分類的概率表示,即P(Li(X)=real(X)),簡單表示為Pi。我們假設(shè)每個半監(jiān)督學(xué)習(xí)算法對未標(biāo)注樣本的分類過程是相互獨立的,則:
P(LES(X)=real(X))=P1×P2
(3)
P(E1(X)=1)=P(L1(X)=L2(X)=real(X))
+P(L1(X)=L2(X)≠real(X))
(4)
由于情感分類的結(jié)果只有兩種類別,正極性或是負(fù)極性,我們又可得到式(5)。
結(jié)合式(1)、(3)、(4)、(5)得式(6)。
設(shè)Pbest=MAX(P1,P2),為了證明基于集成學(xué)習(xí)的半監(jiān)督情感分類方法降低了子半監(jiān)督學(xué)習(xí)方法的誤標(biāo)記率,即其加入的樣本有更高的標(biāo)記準(zhǔn)確率,我們需要證明式(7)。
我們不妨假設(shè)Pbest=P1, 則式(7)又可寫成式(8)。
進(jìn)一步化簡得式(9)。
即證P2>0.5,也就是說每個子半監(jiān)督分類算法的準(zhǔn)確率要超過一個隨機(jī)分類器(每個樣本只可能屬于兩種類別,隨機(jī)分類器準(zhǔn)確率可達(dá)0.5),這個條件對一個半監(jiān)督分類算法是很容易滿足的。所以我們認(rèn)為基于集成學(xué)習(xí)的半監(jiān)督情感分類方法可獲得比各個子半監(jiān)督分類方法更低的誤標(biāo)注率,從而控制了噪聲數(shù)據(jù)的負(fù)面影響,進(jìn)一步獲得對測試樣本更高的分類準(zhǔn)確率。
本實驗數(shù)據(jù)包括兩個數(shù)據(jù)集:四個領(lǐng)域的產(chǎn)品評論語料,具體包括Books、DVD、Electronics和Kitchen四種不同的產(chǎn)品評論和電影(Movie)領(lǐng)域語料[5]。每個領(lǐng)域包含1 000篇正類和1 000篇負(fù)類評論。實驗采用MALLET機(jī)器學(xué)習(xí)工具包中的最大熵分類器*http://mallet.cs.umass.edu/,分類算法的所有參數(shù)都設(shè)置為默認(rèn)值。分類選取詞的一元特征(Unigram)作為特征。數(shù)據(jù)方面,我們給出兩個不同的實驗設(shè)置: (1)隨機(jī)選取5%樣本作為初始標(biāo)注樣本,85%樣本作為未標(biāo)注樣本,剩余10%樣本作為測試樣本;(2)隨機(jī)選取10%樣本作為初始標(biāo)注樣本,80%樣本作為未標(biāo)注樣本,剩下10%樣本作為測試樣本。其中子半監(jiān)督學(xué)習(xí)方法為上文介紹的基于動態(tài)隨機(jī)特征子空間生成的協(xié)同訓(xùn)練算法和標(biāo)簽傳播算法(LP)。考慮到隨機(jī)特征子空間生成的隨機(jī)性問題,每次實驗我們?nèi)?0次實驗結(jié)果的平均值作為最終結(jié)果。
表1 兩類問題的混淆矩陣
表1中的數(shù)據(jù)用來評估分類效果。其中,TP和TN代表了被正確分類的正類樣本和負(fù)類樣本,F(xiàn)P和FN代表了被錯誤分類的正類樣本和負(fù)類樣本。在情感分類問題中,通常使用準(zhǔn)確率(A-ccuracy,Acc.)衡量分類效果。
為了更好地體現(xiàn)我們的方法對噪聲數(shù)據(jù)的控制程度,我們引入誤標(biāo)注率(Mistakenly Labeled Rate,MLR),用來衡量加入到標(biāo)注樣本中的錯誤標(biāo)注樣本所占的比例。
其中A為所有加入到標(biāo)注樣本中的樣本,F(xiàn)A為加入到標(biāo)注樣本中的錯誤標(biāo)注樣本。
我們實現(xiàn)以下常見的半監(jiān)督學(xué)習(xí)方法的比較研究:
(1)Baseline:對未標(biāo)注樣本不做任何處理,直接使用標(biāo)注樣本訓(xùn)練分類模型。
(2)Co-training:基于隨機(jī)動態(tài)特征子空間生成的協(xié)同訓(xùn)練算法,已有文章證明,將m設(shè)置為4,即將特征空間分成四個特征子空間,能夠獲得的分類效果已經(jīng)優(yōu)于Li et al.(2010)提出的Personal/Impersonal視圖的co-training算法[10],可以認(rèn)為是目前情感分類半監(jiān)督學(xué)習(xí)中最好的方法之一。具體算法流程參見3.2.1節(jié)。
(3)LabelPropagation:標(biāo)簽傳播算法,具體算法流程參見3.2.2節(jié)。
(4)我們的方法:對每個子半監(jiān)督學(xué)習(xí)算法進(jìn)行一致性標(biāo)簽融合,選擇標(biāo)注一致的未標(biāo)注樣本更新初始標(biāo)注樣本,即本文重點提出的方法,實驗中兩個子半監(jiān)督學(xué)習(xí)方法分別為Co-training和Label Propagation。
圖2顯示當(dāng)初始標(biāo)注樣本5%時,各種半監(jiān)督學(xué)習(xí)方法的分類性能比較。從圖中結(jié)果可以看出,我們的方法獲得的分類效果明顯優(yōu)于其他方法,分類準(zhǔn)確率比單獨使用Co-training和LP算法分別平均提高了3.1%和5.2%。圖3顯示當(dāng)初始標(biāo)注樣本10%時,各種半監(jiān)督學(xué)習(xí)方法的分類性能比較。從圖中結(jié)果可以看出,我們的方法同樣獲得最佳的分類效果,分類準(zhǔn)確率比單獨使用Co-training和LP算法分別平均提高了2.1%和3.8%。
圖2 初始標(biāo)注樣本5%時不同半監(jiān)督分類方法情感分類性能比較
圖3 初始標(biāo)注樣本10%時不同半監(jiān)督分類方法情感分類性能比較
表2初始標(biāo)注樣本5%時各種半監(jiān)督學(xué)習(xí)算法誤標(biāo)注率比較
表2和表3分別顯示當(dāng)初始標(biāo)注樣本為總樣本的5%和10%的時候,各種半監(jiān)督學(xué)習(xí)方法誤標(biāo)注率結(jié)果。從表中可以看出,融合后的算法對未標(biāo)注樣本的誤標(biāo)注率有明顯下降。Co-training方法的樣本誤標(biāo)注率平均超過25%,LP的誤標(biāo)注率平均超過35%,而我們的方法的平均誤標(biāo)注率僅在13%左右。
表3初始標(biāo)注樣本10%時各種半監(jiān)督學(xué)習(xí)算法誤標(biāo)注率比較
領(lǐng)域Co-trainingLP我們的方法Book0.250.410.12DVD0.260.390.11Electronic0.230.360.10Kitchen0.230.350.10Movie0.220.320.08
本文研究基于集成學(xué)習(xí)的半監(jiān)督情感分類問題,提出了一種基于一致性標(biāo)簽融合的半監(jiān)督集成學(xué)習(xí)方法用于情感分類任務(wù)。該方法能夠降低半監(jiān)督學(xué)習(xí)算法對未標(biāo)注樣本的誤標(biāo)注率,具有一定的噪聲過濾功能。實驗結(jié)果表明,我們的方法能夠進(jìn)一步提高半監(jiān)督情感分類的分類準(zhǔn)確率,性能明顯優(yōu)于各個單獨的半監(jiān)督情感分類方法。
本文實驗中,所使用的特征是詞的一元特征(Unigram)。我們計劃在下一步工作將嘗試把詞的二元特征(Bigram)應(yīng)用到半監(jiān)督情感分類中,進(jìn)一步提高分類性能。此外,本文實驗中只用了兩個子分類器進(jìn)行標(biāo)簽一致性融合,直覺上,多個分類器進(jìn)行標(biāo)簽一致性融合勢必導(dǎo)致參與融合的樣本數(shù)目減少,分類器性能與子分類器數(shù)目并非成正比關(guān)系,在下一步工作中,我們將探索多分類器融合問題,我們也將嘗試將其他的半監(jiān)督學(xué)習(xí)方法參與集成,進(jìn)一步對集成學(xué)習(xí)方式進(jìn)行探索。
[1] 黃萱菁, 趙軍. 中文文本情感分析[J]. 中國計算機(jī)學(xué)會通訊, 2008, 4(2).
[2] 趙軍,許洪波,黃萱菁,等. 中文傾向性分析評測技術(shù)報告[C]//第一屆中文傾向性分析評測會議, 2008.
[3] 劉鴻宇,趙妍妍,秦兵,等. 評價對象抽取及其傾向性分析[J]. 中文信息學(xué)報, 2010, 24(1): 84-88.
[4] 唐慧豐, 譚松波, 程學(xué)旗. 基于監(jiān)督學(xué)習(xí)的中文情感分類技術(shù)比較研究[J]. 中文信息學(xué)報, 2007, 6(2).
[5] Pang B, L Lee, S Vaithyanathan. Thumbs up? Sentiment Classification using Machine Learning Techniques[C]//Proceedings of EMNLP-02,2002.
[6] Zagibalov T, J Carroll. Automatic Seed Word Selection for Unsupervised Sentiment Classification of Chinese Test[C]//Proceedings of COLING-08,2008.
[7] Yarowsky D. Unsupervised Word Sense Disambiguation Rivaling Supervised Methods[C]//Proceedings of ACL-95:189-196.
[8] Dasgupta S, V Ng. Mine the Easy, Classify the Hard: A Semi-Supervised Approach to Automatic Sentiment Classification[C]//Proceedings of ACL-IJCNLP-09,2009.
[9] Wan X. Co-Training for Cross-Lingual Sentiment Classification[C]//Proceedings of ACL-IJCNLP-09,2009.
[10] Li S., C. Huang, G. Zhou, and S. Lee. 2010. Employing Personal/Impersonal Views in Supervised and Semi-supervised Sentiment Classification[C]//Proceedings of ACL-10.
[11] 蘇艷,王中卿,居勝峰,等.基于隨機(jī)特征子空間的半監(jiān)督情感分類方法研究[J].中文信息學(xué)報,2012,26(4): 85-92.
[12] Zhu X. and Z. Ghahramani. 2002. Learning from Labeled and Unlabeled Data with Label Propagation. CMU CALD Technical Report.CMU-CALD-02-107.
[13] Turney P. Thumbs up or Thumbs down? Semantic Orientation Applied to Unsupervised Classification of reviews[C]//Proceedings of ACL.2002.
[14] 李壽山, 黃居仁.基于 Stacking組合分類方法的中文情感分類研究[J].中文信息學(xué)報,2010,24(5): 56-61.
[15] Wan X. Co-Training for Cross-Lingual Sentiment Classification[C]//Proceedings of ACL-IJCNLP-09.
[16] Li S, C Huang, G Zhou, et al. Employing Personal/Impersonal Views in Supervised and Semi-supervised Sentiment Classification[C]//Proceedings of ACL-10,2010.
[17] Sindhwani V, P Melville. Document-Word Co-regularization for Semi-supervised Sentiment Analysis[C]//Proceedings of ICDM-08,2008.
[18] Li T, Y Zhang, V Sindhwani. A Non-negative Matrix Tri-factorization Approach to Sentiment Classification with Lexical Prior Knowledge[C]//Proceedings of ACL-IJCNLP-09,2009.
[19] Blum A, T Mitchell. Combining Labeled and Unlabeled Data with Co-training[C]//Proceedings of COLT-98,1998.