劉德喜,聶建云,張 晶,劉曉華,萬常選,廖國瓊
(1. 江西財經(jīng)大學(xué) 信息管理學(xué)院,江西 南昌 330013;2. 蒙特利爾大學(xué) 計算機(jī)科學(xué)與運籌學(xué)系,蒙特利爾 加拿大 H3C3J7;3. 華南理工大學(xué) 計算機(jī)科學(xué)與工程學(xué)院,廣東 廣州 510641)
中文微博情感詞提?。?N-Gram為特征的分類方法
劉德喜1,聶建云2,張 晶3,劉曉華2,萬常選1,廖國瓊1
(1. 江西財經(jīng)大學(xué) 信息管理學(xué)院,江西 南昌 330013;2. 蒙特利爾大學(xué) 計算機(jī)科學(xué)與運籌學(xué)系,蒙特利爾 加拿大 H3C3J7;3. 華南理工大學(xué) 計算機(jī)科學(xué)與工程學(xué)院,廣東 廣州 510641)
情感詞典是文本情感分析的基礎(chǔ)資源,但采用手工方式構(gòu)建工作量大,且覆蓋有限。一種可行的途徑是從新情感詞傳播的重要媒介-微博數(shù)據(jù)-中自動抽取情感詞。該文以COAE 2014評測任務(wù)3提供的中文微博數(shù)據(jù)為統(tǒng)計對象,發(fā)現(xiàn)傳統(tǒng)的基于共現(xiàn)的方法,如點互信息等,對中文微博數(shù)據(jù)中的新情感詞發(fā)現(xiàn)是無效的。為此,設(shè)計一組基于上下文詞匯的分類特征,即N-Gram特征,以刻畫情感詞的用詞環(huán)境和用詞模式,并以已知情感詞為訓(xùn)練數(shù)據(jù)訓(xùn)練分類器,對候選情感詞進(jìn)行分類。實驗結(jié)果表明,該方法較傳統(tǒng)基于共現(xiàn)的方法要好。實驗還發(fā)現(xiàn),與英語不同的是,中文情感詞通常會以名詞詞性出現(xiàn),而基于共現(xiàn)的方法無法有效地區(qū)分該類情感詞,這是造成其失效的主要原因,而該文提出的分類特征能解決這一問題。
情感詞提取;中文微博;分類方法;N-Gram特征
文本情感傾向性分析是對信息發(fā)布者的態(tài)度(或稱觀點、情感)進(jìn)行分析,廣泛應(yīng)用于輿情監(jiān)督、產(chǎn)品評論分析等領(lǐng)域,近些年持續(xù)成為自然語言處理領(lǐng)域研究的熱點問題之一。構(gòu)建一部覆蓋廣、質(zhì)量高的情感詞典是文本情感傾向性分析的基礎(chǔ),因為很多方法直接或間接地基于文本中出現(xiàn)的情感詞來判斷文本的情感傾向性。
盡管手工方式構(gòu)建的情感詞典比較準(zhǔn)確,但代價大,得到的情感詞典覆蓋面不夠,并且針對領(lǐng)域相關(guān)的情感詞,還需要相應(yīng)的領(lǐng)域知識。特別是隨著Web 2.0和移動設(shè)備的普及,用戶在互聯(lián)網(wǎng)上陳述觀點、發(fā)布評論、表達(dá)情感更便捷、更頻繁,使得網(wǎng)絡(luò)新詞的更新和傳播日益迅速,其中就有很多新詞是帶有情感傾向性的,例如,“給力”、“吐槽”、“白富美”、“飄紅”(用于描述股票呈漲勢)等。這些新詞并未在現(xiàn)有的同義詞典等詞典資源中出現(xiàn),因此其情感傾向性很難用基于詞典的方法獲取。
新浪、Twitter等作為互聯(lián)網(wǎng)用戶發(fā)泄情緒、表達(dá)情感、發(fā)布、接收和傳播觀點的微博平臺,擁有數(shù)以億計的用戶,是新情感詞的重要來源之一。自動抽取新情感詞并判斷它們的極性近年來也得到了一些學(xué)者的關(guān)注,但仍然面臨著巨大挑戰(zhàn),特別是對于中文微博數(shù)據(jù)。這些挑戰(zhàn)具體表現(xiàn)在:
(1) 微博數(shù)據(jù)主題復(fù)雜。與從商品評價中抽取情感詞不同,大量微博數(shù)據(jù)不是針對一種或幾種產(chǎn)品的評價,而是包括產(chǎn)品評價、時事評論、生活瑣事、心情表達(dá)、商家廣告等復(fù)雜多樣主題,導(dǎo)致很多研究較早、較成熟的用于商品評價情感分析的方法無法直接用于微博數(shù)據(jù)。
(2) 微博數(shù)據(jù)不規(guī)范,語法分析困難。經(jīng)典的基于規(guī)則的新情感詞抽取方法通常需要利用語法分析的結(jié)果,然而微博數(shù)據(jù)不規(guī)范的表達(dá)使得語法分析準(zhǔn)確率嚴(yán)重下降,阻礙了基于規(guī)則的方法在微博數(shù)據(jù)上的運用。
(3) 中文情感詞詞性分布廣。經(jīng)典的新情感詞抽取方法大都以形容詞、動詞、副詞作為候選新情感詞。然而對于中文數(shù)據(jù),很多情感詞是以名詞詞性出現(xiàn)在句子中。例如,“這款手機(jī)是垃圾”中的“垃圾”。如果不考慮名詞,會丟失大量新情感詞,如果考慮名詞,又會引入大量噪音,因為絕大部分的名詞并非情感詞。
(4) 共現(xiàn)的情感詞之間極性相互矛盾情況嚴(yán)重。相比Twitter微博長度140個字符的要求,新浪等中文微博長度上限為140個漢字,可以表達(dá)的內(nèi)容非常豐富。因此,同一微博中出現(xiàn)多個極性不同的情感詞的現(xiàn)象非常普遍。因此,經(jīng)典的新情感詞識別中"共現(xiàn)的兩個情感詞極性相同"這一假設(shè)不再成立。
鑒于從中文微博數(shù)據(jù)中抽取新情感詞所面臨的挑戰(zhàn),COAE 2014新增一項任務(wù)(任務(wù)3),要求參賽系統(tǒng)從千萬級規(guī)模的中文微博數(shù)據(jù)中抽取不在給定通用詞典中的新情感詞,并標(biāo)出這些情感詞的極性?;贑OAE 2014任務(wù)3提供的數(shù)據(jù),本文分析了中文微博中情感詞的分布特征,充分利用已有的情感詞典資源和微博數(shù)據(jù)量大的特點,提出基于分類的中文微博新情感詞抽取方法NGC (N-Gram based Classification)。NGC將候選情感詞擴(kuò)大到名詞詞性上,并從(候選)情感詞上下文詞匯中抽取用于刻畫情感詞用詞環(huán)境和用詞模式的特征。與基于共現(xiàn)的點互信息-Pointwise Mutual Information (PMI)等方法相比,NGC方法效果更好,在COAE 2014的評測中也顯示了很強(qiáng)的競爭力。
本文的主要貢獻(xiàn)包括: (1)通過比較詳盡的統(tǒng)計結(jié)果分析了中文微博中情感詞的分布特點(第三節(jié)),發(fā)現(xiàn)在中文微博中,大量情感詞以名詞形式出現(xiàn),共現(xiàn)的情感詞極性矛盾現(xiàn)象比較普遍,并且點互信息等共現(xiàn)特征無法區(qū)分情感詞與非情感詞,致使以共現(xiàn)為基礎(chǔ)的各類經(jīng)典情感詞識別方法在中文微博上失效。據(jù)我們了解,目前還沒有文獻(xiàn)涉及這些基礎(chǔ)的分析工作。(2)針對中文微博中情感詞分布的特點,提出基于分類的中文微博新情感詞抽取算法NGC (第四節(jié))。盡管有文獻(xiàn)采用分類的方法抽取情感詞,但其處理對象多為表述規(guī)范的Wordnet或網(wǎng)頁數(shù)據(jù),亦或商品評論數(shù)據(jù),候選情感詞多為形容詞,有些方法還需要以句法分析的結(jié)果為特征。NGC將名詞也納入候選情感詞,選擇的特征可以刻畫蘊含在數(shù)據(jù)集中的情感詞用詞環(huán)境和用詞模式,無需句法分析,簡單有效,適合主題復(fù)雜多樣且表達(dá)不規(guī)范的中文文本。(3) 除參與COAE 2014的評測外,另外設(shè)計了多組實驗,并從平均精度和Bpref兩個指標(biāo)評價和分析了NGC方法的有效性。
對文本情感分析的研究成果比較豐富[1-3],包括對產(chǎn)品評論及評論對象(又被稱為特征)的情感極性判斷、微博情感極性的判斷、情感摘要等。在對文本進(jìn)行情感分析時,情感詞典通常扮演著重要的角色[4-5],因此,如何自動從數(shù)據(jù)集中抽取情感詞并判斷其極性受到研究者的重視,除了在理論和方法上取得大量成果外,也產(chǎn)生了不少用于情感分析的情感詞典,如SentiWordNet*http://sentiwordnet.isti.cnr.it/,MPQA*http://mpqa.cs.pitt.edu/等。
情感詞典的自動構(gòu)建方法可歸為以下五類,它們所需要的資源和針對的對象不盡相同。
利用詞匯或語法規(guī)則。該類方法的基本依據(jù)是共現(xiàn)的兩個情感詞之間通常存在一些顯式規(guī)則。例如,Hatzivassiloglou等[6]認(rèn)為,用“and”或“but”等詞匯連接起來的兩個形容詞的極性存在關(guān)聯(lián)性,因此,在其中一個極性已知的情況下,利用邏輯回歸來預(yù)測另一個,逐漸擴(kuò)展情感詞匯。該類方法的不足是比較明顯的,因為很多情況下共現(xiàn)的形容詞間并沒有顯示的規(guī)則存在,并且對于中文文本,這種規(guī)則更加模糊。
計算候選詞與已知情感詞的相似性。這類方法假設(shè)同極性的情感詞之間相似性高,極性相異的情感詞之間相似性小,而無極性的詞與正、負(fù)極性的情感詞之間相似性相當(dāng)。因此,給定一個較小規(guī)模的情感詞典,對于候選詞,計算它與情感詞典中正、負(fù)極性情感詞的相似性之差。差值越大,該候選詞是情感詞的可能性越大。相似性的計算時,有基于共現(xiàn)的PMI[7-9]、基于上下文的相似度[10]、基于詞匯在Wordnet中的語義距離[11]等。該類方法簡單有效,通用性強(qiáng),針對的數(shù)據(jù)可以是Wordnet這樣的詞典資源[12]、商品的評論集合[10]、網(wǎng)頁數(shù)據(jù)[8]、或者用戶發(fā)布的微博數(shù)據(jù)[9]等。這類方法在英文文本上表現(xiàn)良好,因為英文中大都以形容詞、動詞、副詞為候選情感詞,但在下一節(jié)的統(tǒng)計分析中我們發(fā)現(xiàn),當(dāng)把目標(biāo)轉(zhuǎn)向中文微博這類數(shù)據(jù)時,名詞的引入所帶來的噪聲,很難僅用共現(xiàn)等相似度計算的方法來消除。
利用情感極性在詞匯圖中的傳播。該類方法通常構(gòu)建以詞匯為節(jié)點、以詞匯之間關(guān)系(如相似性、共現(xiàn)等)為邊的圖,從人工選擇的少量種子情感詞節(jié)點出發(fā),通過圖中的邊將極性逐漸傳播到候選詞匯,以此決定候選詞匯的情感極性。這類方法類似于計算候選詞與已知情感詞的相似性,只是基于詞匯圖的方法不單可以考察候選詞與已知情感詞之間的直接聯(lián)系,還通過圖的形式考察它們之間的間接聯(lián)系。盡管構(gòu)建圖時連接兩節(jié)點的邊的權(quán)重計算方法不同,情感極性傳播方式也不相同,但該類方法大都基于Wordnet中的詞條及對詞條的解釋來構(gòu)建圖[13-16],候選詞的選擇及數(shù)據(jù)的規(guī)模非常有限。Velikovich等[17]沒有考慮候選詞的詞性,通過不到400個種子情感詞,從40億Web面頁中抽取了約18萬新情感詞(短語),目的是將這些新情感詞用于文本的情感分類,這與構(gòu)建情感詞典的任務(wù)是不同的,因為盡管得到的新情感詞規(guī)模是參考情感詞典WordNet LP的30余倍,其對WordNet LP中情感詞的召回不到50%。此外,有助于情感分類的詞并不一定就是情感詞,例如,在COAE 2014微博情感分類數(shù)據(jù)集中,大部分關(guān)于“蒙牛”的微博都是負(fù)面的,因此“蒙牛”一詞有助于微博的情感分類,但它卻不是情感詞。Peng等[18]充分利用了Wordnet詞典資源和社交媒體數(shù)據(jù),但其候選情感詞依然是社交媒體數(shù)據(jù)中的形容詞。
情感詞和情感對象協(xié)同抽取。該類方法假定情感詞和情感對象(特征)之間存在修飾與被修飾的關(guān)系,因此可將情感詞的抽取與情感對象的抽取結(jié)合起來,協(xié)同抽取[19-22]。該類方法主要針對評論數(shù)據(jù),其情感表達(dá)的對象比較明確。但這類方法并不適合微博數(shù)據(jù),因為微博數(shù)據(jù)充滿噪聲,很多句子無情感,只是陳述事實,或者情感并不針對某一對象,只是表達(dá)某一種心情,并未對人、事或物進(jìn)行評論。
將候選詞極性識別視為分類問題。該類方法視候選詞可能屬于三個類別: 正向極性、負(fù)向極性、無極性,然后利用已有的種子詞典,或者候選詞所在文檔的極性,對候選詞進(jìn)行分類。這類方法大部分是對Wordnet中的詞條或同義詞集作情感極性分類,以Wordnet的同義詞集[23]或?qū)υ~的注釋[24]為特征。也有以用戶對產(chǎn)品的打分為訓(xùn)練目標(biāo),對產(chǎn)品評論中的候選詞極進(jìn)行判別,目標(biāo)是使得利用判別結(jié)果對產(chǎn)品的打分與用戶打分盡量一致[25]。
本文的思想與Esuli等[24]比較相近,文獻(xiàn)[24]是針對Wordnet數(shù)據(jù),利用對詞的注解(gloss)作為特征進(jìn)行分類。但針對中文微博數(shù)據(jù),選擇什么特征進(jìn)行分類還需要有豐富的實驗數(shù)據(jù)作為支撐。另外,文獻(xiàn)[24]的實驗結(jié)果顯示,形容詞和副詞被分類為情感詞的頻率遠(yuǎn)遠(yuǎn)超過動詞和名詞,分別為39.66%,35.7% 和11.04%,9.98%,因此很多文獻(xiàn)不考慮名詞性的情感詞。我們在英文tweet數(shù)據(jù)上的統(tǒng)計發(fā)現(xiàn),不考慮名詞仍可以覆蓋85%以上的英文情感詞,但中文微博中這個比例卻不到60%。最核心的區(qū)間在于,在文獻(xiàn)[24]中,候選情感詞都是Wordnet詞典中的詞條,對詞的解釋比較規(guī)范,同義或反義等意義相關(guān)的詞的解釋有很多相似之處。然而這些特點在中文微博數(shù)據(jù)中并不存在,這給新情感詞發(fā)現(xiàn)帶來更大難度。
Wiebe等[26-27]從Wall Street Journal數(shù)據(jù)集中抽取主觀詞(情感詞),但僅考慮形容詞為候選情感詞,要求候選詞所在的句子是主觀句,并且需要對句子進(jìn)行語法分析。Riloff等[28]抽取帶有主觀傾向的名詞,其中用到的關(guān)鍵特征“候選詞的詞干”是不適合中文的。與本文從中文微博中抽取新情感詞類似,Volkova[29]從英文Twitter中抽取新情感詞。首先根據(jù)種子情感詞判斷tweet的極性,再考察候選詞與各極性的tweet的共現(xiàn)關(guān)系,判斷候選詞的極性,每次生成數(shù)個情感詞,不斷擴(kuò)展。該方法假設(shè)共現(xiàn)在相同tweet中的情感詞極性相同,極性不同的情感詞不會共現(xiàn)在同一tweet中,這與第三節(jié)在中文微博上的統(tǒng)計分析不符。
基于微博數(shù)據(jù)集自動構(gòu)建中文情感詞典的文獻(xiàn)并不多見。Xu等[30]采用基于詞匯圖的方法構(gòu)建中文情感詞典,圖中的節(jié)點來自同義詞林、漢語詞典和《人民日報》數(shù)據(jù)集,候選情感詞限定于形容詞、成詞和習(xí)慣用詞,不考慮名詞。Du等[31]通過已知領(lǐng)域的情感詞典構(gòu)建新領(lǐng)域的情感詞典,除了需要極性標(biāo)注的文檔集外,仍然只考慮了中文評論數(shù)據(jù)中的形容詞、副詞及形容詞-名詞短語。當(dāng)考慮名詞為候選詞性時,文章的基本假設(shè)“出現(xiàn)在很多正(負(fù))極性文檔中的候選詞極性為正(負(fù))”就不再成立了。例如,對“蒙牛”的評論多是負(fù)向的,但“蒙牛”本身不能作為情感詞。同樣地,文獻(xiàn)[32]分析了名詞屬性的產(chǎn)品可能蘊含情感,但這些產(chǎn)品不能作為情感詞。
以上方法存在一些共性,通常規(guī)定候選情感詞為形容詞,也有部分考慮動詞或副詞等,這對中文新情感詞的抽取是不夠的。另外,已有文獻(xiàn)中對新情感詞的評測通常是間接的,即考察新情感詞對文本情感分類的影響,但如前面例子所述,這與新情感詞抽取的任務(wù)還是有區(qū)別的。再者,這些方法通常假設(shè)已知的情感詞典規(guī)模為數(shù)十或上百條,通過多次迭代或傳播,逐步擴(kuò)展(propagation)。雖然這一方法能找出一些情感性較強(qiáng)的詞,但它們很多時候都已經(jīng)被人工納入了相對大的情感詞典,用它來發(fā)現(xiàn)情感詞典不包含的新情感詞就困難很多。實際應(yīng)用中我們發(fā)現(xiàn),不論英語還是中文,都已經(jīng)存在多部規(guī)模過萬的情感詞典。如何充分利用這樣的資源去發(fā)現(xiàn)新情感詞是一個有意義的工作,這也正是本文的研究內(nèi)容。
本節(jié)以COAE 2014 任務(wù)3提供的中文微博數(shù)據(jù)集COAET3Corpus*http://pan.baidu.com/s/1nCafe為數(shù)據(jù)源,以大連理工大學(xué)發(fā)布的情感詞典DUTSD*http://ir.dlut.edu.cn/EmotionOntologyDownload.aspx[33]為統(tǒng)計對象,分析情感詞在中文微博中的詞性分布、情感詞之間的點互信息、Dice系數(shù)和Jaccard系數(shù),以及共現(xiàn)在同一微博中的情感詞的極性差異等,主要目的是分析經(jīng)典的、用于英文微博或產(chǎn)品評論的新情感詞提取方法中所采用的一些特征是否同樣適用于中文微博。
3.1 數(shù)據(jù)準(zhǔn)備
中文微博數(shù)據(jù)集 COAET3Corpus包含9 999 626條中文微博,不是針對某一種或多種產(chǎn)品評論的集合,而是包含廣告、個人評論、日常心情傾述、生活瑣事記錄等,是真實微博的一個縮影。該數(shù)據(jù)集只包含微博內(nèi)容,不含諸如作者、發(fā)布時間等信息。對該數(shù)據(jù)集,首先利用中國科學(xué)院ICTCLAS2013*http://ictclas.nlpir.org分詞工具進(jìn)行分詞和詞性標(biāo)注,再用Stanford的NLP工具CoreNLP*http://nlp.stanford.edu/software/corenlp.shtml對切分后的微博進(jìn)行詞性標(biāo)。選擇ICTCLAS2013進(jìn)行分詞的原因是,該工具考慮了中文微博的一些特點,并且可以發(fā)現(xiàn)并標(biāo)注新詞。
情感詞典 情感詞典基于DUTSD,并根據(jù)任務(wù)需要進(jìn)行一些必要的過濾。過濾規(guī)則: (1) COAE任務(wù)3要求從中文微博中發(fā)現(xiàn)新情感詞并判斷它的極性,極性強(qiáng)且無歧義的情感詞應(yīng)該是首選,因此,實驗中去掉DUTSD中有極性歧義(不同詞性或不同場合時極性不一致)的情感詞及情感極性標(biāo)為“0”的情感詞;(2) 沒有出現(xiàn)在COAET3Corpus中的情感詞對本節(jié)的統(tǒng)計和后面的分類學(xué)習(xí)沒有幫助,無需保留;(3)考慮到微博分詞時不太可能把一個較長的短語或句子劃分為一個詞,因此,去掉長度超過四的情感詞或短語;(4) 很少在COAET3Corpus中出現(xiàn)的情感詞,其統(tǒng)計意義不明顯,因此去掉文檔頻率(每條微博視為一個文檔)小于三的情感詞。通過上述四條過濾規(guī)則過濾后的情感詞典稱為DUTSD-,包含情感詞10 681條,其中正、負(fù)極性分別為5 476條和5 205條。盡管DUTSD-無法涵蓋所有的情感詞,但大多數(shù)常用的情感詞都被納入,因此DUTSD-包含的情感詞的分布能大致反映所有情感詞的分布。
3.2 情感詞的詞性分布
在DUTSD-中,情感詞的詞性分布如表1所示。其中idiom(慣用語)的比例最大,但無論是 ICTCLAS2013還是CoreNLP,都將該類詞標(biāo)為其他的詞性。另外,同一個詞,在不同的句子中也可能會標(biāo)為不同的詞性。
表1 情感詞詞性在DUTSD中的分布
表2和表3分別是DUTSD-中的情感詞在COAET3Corpus中的詞性分布,其中NS和PS分別表示標(biāo)注為某種詞性的情感詞的總數(shù)(以K為單位)及其所占總情感詞的比例,NT表示標(biāo)為該詞性的全部詞數(shù),包含其他不在情感詞典中的詞。需要說明的是,由于一個情感詞在數(shù)據(jù)集中可能會以不同的詞性出現(xiàn), 因此, 表2和表3中的總詞數(shù)大于DUTSD-中的總詞數(shù)。表2和表3顯示,有40%以
上的情感詞在中文微博中以名詞詞性(ICTCLAS2013標(biāo)為{“n”,“nl”,“nr”,“nz”,“nr2”,“n_new”, “ns”}或CoreNLP標(biāo)為{“NN”, “NR”, “NT”})出現(xiàn)過??紤]到部分情感詞會以多種不同的詞性出現(xiàn)在數(shù)據(jù)集中,我們統(tǒng)計了那些只以名詞詞性出現(xiàn)的情感詞,發(fā)現(xiàn)在英文tweets*英文微博數(shù)據(jù)來自文獻(xiàn)[29]提供的1M tweet ids,下載后得到991 248條tweets,用Stanford CoreNLP進(jìn)行詞性標(biāo)。中,只以名詞詞性出現(xiàn)過的情感詞占情感詞典MPQA*本文在統(tǒng)計時,采用MPQA中主觀性強(qiáng)的詞為情感詞,如果是名詞則添加其復(fù)數(shù)形式,如果是動詞、形容詞或副詞,則添加其曲折變化形式,并且只考慮那些在數(shù)據(jù)集中出現(xiàn)的情感詞。的15%,但在中文微博COAET3Corpus中,該比例高達(dá)40%。此外,tweets中以動詞、形容詞或副詞出現(xiàn)過的情感詞占84%,但COAET3Corpu中這一比例只有56%。結(jié)合文獻(xiàn)[24]的實驗結(jié)果,即英文中被分類為情感詞的頻率依次是形容詞、副詞、動詞和名詞,在綜合考慮精度和召回率的情況下,在從英文微博中抽取新情感詞時僅考慮動詞、形容詞和副詞是合理的。但從中文微博中抽取新情感詞時,考慮名詞則非常必要。
表2 COAET3Corpus中情感詞詞性分布- ICTCLAS2013標(biāo)注
表3 COAET3Corpus中情感詞詞性分布-CoreNLP標(biāo)注
然而,如果將所有名詞全部作為候選情感詞,又會引入大量的噪音,因為大量被標(biāo)為名詞的詞并非情感詞。例如,在ICTCLAS2013標(biāo)注結(jié)果中,48.38K個詞標(biāo)注為“n”,但僅有4.7K個是DUTSD-中的情感詞,而CoreNLP標(biāo)注的比較粗糙,8.25K個標(biāo)為“NN”的情感詞散布在335.90K個詞中。
3.3 情感詞的共現(xiàn)分析
諸如基于PMI及詞匯圖的方法大都假設(shè)情感詞與情感詞之間有較高的共現(xiàn),并且同一微博中,情感詞的極性是一致的?;诖思僭O(shè),然后通過已知的種子情感詞,擴(kuò)展得到新情感詞。COAET3Corpus中情感詞在微博中共現(xiàn)的情況如表4所示。
表4顯示,在COAET3Corpus中,超過36%的微博中沒有包含DUTSD-中的情感詞,包含兩個以上情感詞的微博數(shù)也僅為36%。當(dāng)然,情感詞典越大, 出現(xiàn)多個情感詞的微博 數(shù)會越多。但當(dāng)考察那
表4 COAET3Corpus中情感詞的共現(xiàn)統(tǒng)計
些有多個情感詞共現(xiàn)的微博時,有近40% (14.15/36.09)的微博中出現(xiàn)的情感詞極性是沖突的。進(jìn)一步的統(tǒng)計顯示,對于DUTSD-中的10 681條情感詞,有10 669條與其他的情感詞在同一條微博中共現(xiàn)過,其中,有10 604條與相同極性的情感詞共現(xiàn)過,而10 482與不同極性的情感詞共現(xiàn)過。
從上面的分析可以看出,共現(xiàn)在同一條微博中的多個情感詞的極性并不完全一致。為了進(jìn)一步考察這種不一致性的統(tǒng)計特性,本文對情感詞之間的PMI、Dice系數(shù)及Jaccard系數(shù)的平均值進(jìn)行了分析,如表5所示。其中“+”,“-”分別代表正、負(fù)向極性的情感詞,“0”表示非情感詞。此處的非情感詞是用所有不在DUTSD-中且標(biāo)注為名詞的詞表示,盡管其中還包括一些潛在的待發(fā)現(xiàn)的情感詞,但表2和表3顯示,絕大多數(shù)這類詞并非情感詞。
表5顯示,負(fù)向情感詞之間的PMI,Dice系數(shù)和Jaccard系數(shù)明顯高于該指標(biāo)在其他極性詞之間的值。然而,正向情感詞之間、負(fù)向情感詞與正向情感詞之間、以及非情感詞與正向情感詞之間的PMI、Dice系數(shù)和Jaccard系數(shù)區(qū)別不大。因此,可以推測,用PMI、Dice系數(shù)和Jaccard系數(shù)并不能很好地評估潛在的正向情感詞,進(jìn)而影響到整個情感詞的抽取,特別是采用Propagation方法時,極性的錯誤判斷會傳播給后續(xù)的抽取過程。
此外,當(dāng)把名詞作為候選情感詞時,這些名詞與已知情感詞的PMI,Dice系數(shù)和Jaccard系數(shù)并不低于這些指標(biāo)在情感詞之間的值。例如,非情感詞與正向情感詞之間的PMI為3.25,反而高于正向情感詞之間的PMI (2.47)。因此,與正向情感詞共現(xiàn)較高的更可能是非情感詞(特別是名詞),而非潛在的正向情感詞。當(dāng)然,名詞與負(fù)向情感詞也存在較強(qiáng)的共現(xiàn),因此,在實際計算候選情感詞的極性時,需要考慮候選情感詞與正、負(fù)向情感詞共現(xiàn)之間的差異,但可以肯定的是,名詞的加入,勢必帶來更多的噪聲。
表5 情感詞間的PMI、Dice系數(shù)和Jaccard系數(shù)
4.1 動機(jī)
3.2節(jié)和3.3節(jié)的分析表明,從中文微博中抽取新情感詞時,不能僅考慮形容詞、動詞、副詞等,名詞也有必要作為候選情感詞。另外,經(jīng)典的基于共現(xiàn)的新情感詞發(fā)現(xiàn)方法對于中文也不完全適用。原因之一是共現(xiàn)的情感詞極性存在大量矛盾;其二是引入名詞后,增加了大量的噪聲,使得基于共現(xiàn)的思路不再有效。
在從中文微博中抽取新情感詞時,兩個資源的價值應(yīng)該得到充分的利用,包括現(xiàn)有的情感詞典和數(shù)億計的微博數(shù)據(jù)?;谠~匯圖的方法和基于Propagation的方法通常是從數(shù)十條或上百條情感詞典出發(fā),通過極性傳播或多次迭代,逐步擴(kuò)展得到新情感詞,適用于已知情感詞極少的情況。然而,目前已有的中文情感詞典非常豐富,除前面提到的DUTSD-外,還有清華大學(xué)的THUSD*http://www.datatang.com/data/44522、知網(wǎng)的HNSD*http://www.keenage.com/html/c_bulletin_2007.htm、臺灣大學(xué)的NTUSD*http://nlg18.csie.ntu.edu.tw:8080/opinion/pub1.html等多部情感詞典資源,規(guī)模都在萬條左右,為基于機(jī)器學(xué)習(xí)的方法抽取新情感詞奠定了良好的基礎(chǔ)。此外,微博數(shù)據(jù)量大,可以為新情感詞的學(xué)習(xí)提供大量的訓(xùn)練樣本。因此,基于機(jī)器學(xué)習(xí)的新情感詞提取方法是比較適合中文微博數(shù)據(jù)的。
根據(jù)以上分析,本文提出以N-Gram為特征的分類方法NGC,該方法以已知情感詞為訓(xùn)練樣本,以情感詞上下文的N-Gram為特征,訓(xùn)練SVM分類器,對候選情感詞進(jìn)行分類,并統(tǒng)計分類結(jié)果,得到新情感詞。需要說明的是,本文的主要目的是在統(tǒng)計中文微博中情感詞分布的基礎(chǔ)上,探索一種適合從中文微博中抽取新情感詞的方法-基于分類思想。我們相信,采用優(yōu)化的特征對分類更有利,但探索這些特征是另一項復(fù)雜的工作,我們將其放在后續(xù)的研究任務(wù)中,而本文在分類時,僅采用了非常簡化的特征。盡管分類特征簡單,但仍較經(jīng)典的基于共現(xiàn)的新情感詞抽取方法要好。
4.2 分類特征
盡管有文獻(xiàn)將詞、詞性、依存關(guān)系等豐富的特征用于情感詞提取[26],但考慮到中文微博的不規(guī)范性,本文除了將詞性用于候選情感詞的初步過濾外,分類特征只取決于微博中所含的詞,不依賴其他語言處理工具。為簡化問題并突出本文的思想,對微博中的詞和標(biāo)記都不做任何進(jìn)一步的處理。
上下文是判斷一個詞是否是情感詞、以及確定其情感極性的重要依據(jù),本文采用的分類特征基于以下三個假設(shè):
假設(shè)1 上下文中所用的詞匯越一致,候選詞的情感傾向性也越接近。例如,表6文檔DOC458072中的“給力”和DOC76210文檔中的“到位”的上下文都是“太……了”。
假設(shè)2 上下文中所含的詞匯位置不同,候選詞的情感傾向性也不同。例如,文檔DOC458318中非情感詞“感覺”和情感詞“孤獨”,左右窗口為1時,兩詞上下文相同,即{“很”,“,”},但它們與(候選)情感詞的相對位置不同。此外,只考慮上下文用詞與(候選)情感詞前后關(guān)系是不夠的,還需要考慮上下文用詞之間的位置關(guān)系,例如,{“是”,“只”}在DOC113527中“有”和DOC76691中“徒勞”的前面,但前者用“是只”,后者用“只是”。
假設(shè)3 上下文的用詞模式越一致,候選詞的情感傾向性越接近。例如,DOC458318中的“孤獨”、DOC76691中的“糟糕”、DOC76872中的“不適”,其上下文中都存在“感覺*&”這種用詞模式,其中“*”為任意詞,“&”為(候選)情感詞。另外,“浪漫”、“孤獨”和“糟糕”有相同用詞模式“很&”,盡管它們的極性不同,但它們之間也有共性,即都是情感詞。顯然,假設(shè)2和假設(shè)3也可以捕捉到否定和修辭等對情感極性識別至關(guān)重要的信息。
表6 來自COAET3Corpus的微博樣本
基于上述三個假設(shè),使用公式(1)所示的N-Gram為特征,使得這些特征不僅包含上下文中的詞,還包括詞之間的序及用詞模式。對于微博s=
(1)
其中,n是可調(diào)節(jié)參數(shù), “*”表示此處為任意詞或標(biāo)點。例如,當(dāng)n=2時,表6微博DOC458072中“給力”的特征為:F(“給力”)={“太_&”,“。_太_&”,“&_了”,“&_了_哈哈”,“。_*_&”,“&_*_哈哈”}。
盡管公式(1)基本滿足了上述三種假設(shè),但仍然存在極性判斷錯誤的可能性,因此,還需要利用微博數(shù)據(jù)量大的特征,在分類結(jié)束后對分類結(jié)果進(jìn)行投票計分并排序。例如,利用投票,如果在多數(shù)情況下將“孤獨”分類為負(fù)向情感詞,則最終認(rèn)定“孤獨”的情感傾向為負(fù),并且將其分類為“有情感”的比例越大,認(rèn)為其“有情感”的可能性越大。
我們有理由相信,恰當(dāng)?shù)念A(yù)處理和更加豐富的上下文詞匯特征會改善分類的效果。例如,將標(biāo)點符號“?!薄?,”“;”等視為同一種標(biāo)記、利用依存分析考慮長距離依賴、挖掘和解釋更有效的用詞模式等。此外,融合其他用于中文微博情感分類的特征也可能提高新情感詞提取的效果,這是我們將來的主要工作之一。
4.3 算法
NGC算法主要包括以下六步。
Step 1 構(gòu)建情感詞詞典SD和非情感詞詞典NSD。通過以下兩個假設(shè)來構(gòu)建情感詞典和非情感詞典: (1)情感詞要求沒有歧義,本文選用DUTSD-作為情感詞典;(2)所有可能存在情感的詞、以及未登錄詞都不應(yīng)該作為非情感詞,本文用公式(2)來構(gòu)建非情感詞詞典。
NSD = CommonDict-MixSD
(2)
其中CommonDict是一個通用的詞典,包含情感詞及非情感詞,本文選用COAE任務(wù)3提供的通用詞典;混合情感詞典MixSD(共38 445條)中,DUTSD、HNSD、THSD、NTUSD分別為來自大連理工大學(xué)、知網(wǎng)、清華大學(xué)、臺灣大學(xué)的情感詞典,新浪微博表情符號為部分標(biāo)注過的符號,如“[c傷心]”標(biāo)注為負(fù)極性情感詞。
Step 2 對中文微博數(shù)據(jù)集進(jìn)行分詞和詞性標(biāo)注。本文選擇ICTCLAS2013作分詞及詞性標(biāo)注。
Step 3 根據(jù)SD和NSD構(gòu)建訓(xùn)練樣本。對于來自微博s的詞t,如果t∈ SD,則t的標(biāo)簽為t在SD中的極性,"+1"表示情感傾向為正,"-1"表示情感傾向為負(fù);如果t∈ NSD,則t的標(biāo)簽為"0"。t的特征如公式(1)所示。
相比情感詞,數(shù)據(jù)集中更多的是非情感詞,這導(dǎo)致樣本分布嚴(yán)重失衡。設(shè)被貼上標(biāo)簽“0”的樣本數(shù)為C0,為平衡樣本分布,本文隨機(jī)選擇βC0個樣本參與訓(xùn)練,其中參數(shù)0<β<1。
Step 4 抽取候選新情感詞。微博數(shù)據(jù)集中所有未通過step 3貼上標(biāo)簽的詞,如果滿足以下條件,則被視為候選新情感詞,參與后續(xù)的分類過程: (1)詞長在2至4之間;(2)文檔頻率大于等于3;(3)被標(biāo)注的詞性屬于指定的候選詞性集合POS。作為對比,本文在實驗部分考慮了不同的候選詞性對新情感詞提取的影響。
Step 5 訓(xùn)練分類器并對候選新情感詞分類。利用Step 3得到的樣本訓(xùn)練SVM分類器,并對候選新情感詞進(jìn)行分類。本文選擇libleaner 1.94*http://www.csie.ntu.edu.tw/~cjlin/liblinear/完成訓(xùn)練與分類任務(wù),訓(xùn)練參數(shù)設(shè)置為: “-s 4 -e 0.1”。
(3)
其中參數(shù)α為用于調(diào)節(jié)正向與負(fù)向情感詞樣本不均導(dǎo)致的分類偏差(在COAET3Corpus中,正負(fù)極性樣本比例為3.5∶1),本文在實驗的基礎(chǔ)上設(shè)置其值為2.5。該分值大于0,表示情感傾向性為正,小于0,表示傾向性為負(fù),其絕對值越大,表示對該詞情感傾向性的劃分越可信。在返回結(jié)果時,去掉Score值為0的候選詞,并對剩余的候選新情感詞按Score的絕對值排序(不限制返回結(jié)果的個數(shù))。
除參與COAE 2014 任務(wù)3評測外,本節(jié)組織了更詳細(xì)的實驗、評測和分析。中文微博數(shù)據(jù)集選用COAET3Corpus,情感詞詞典SD和非情感詞詞典NSD來自第四節(jié)的Step 1。將SD均分為兩份SDTrain和SDTest,分別用于訓(xùn)練和測試。
5.1 評測方法
以SDTest為理想結(jié)果,采用兩組評測指標(biāo),Bpref[34]以及插值后11點平均精度AP。選擇Bpref作為評測指標(biāo)的原因在于,對于新情感詞發(fā)現(xiàn)任務(wù),"理想"的新情感詞詞典SDTest規(guī)模非常有限,不在SDTest及NSD中的詞未必不是新情感詞。因此,對于這些不能確定是否為情感詞的部分,Bpref不將它們納入考慮范圍。此外,Bpref還考慮了新情感詞在返回結(jié)果中的位置,越靠前越好。然而,如果返回大量不在SDTest及NSD中的非情感詞,Bpref同樣無法檢測到,但AP指標(biāo)可以探測到。因此,結(jié)合Bpref和AP是必要的。實驗觀察到召回為0時的精度極易受到首個返回詞是否來自SDTest的影響,波動較大,超出了該詞對整個評測結(jié)果的影響,因此本文中的AP不考慮召回為0時的情況。另外,評測結(jié)果是將SD進(jìn)行三次均分,然后進(jìn)行三次訓(xùn)練、測試得到的結(jié)果的平均值。
5.2 結(jié)果與分析
按照第三節(jié)的分析,除形容詞外,名詞作為候選新情感詞是必要的。為了驗證該假設(shè),本文對比了四組候選新情感詞的詞性集合,分別為:
PosAll = 全部詞性集合,即所有詞都作為候選情感詞。
PosAVDN = {n, vl, a, v, vn, vi, an, nl, z, al, ad, d, b, dl, vd, bl },即根據(jù)表2中統(tǒng)計的情感詞詞性分布,從最頻繁的詞性開始依次選取,直到覆蓋98%以上的情感詞為止。
PosAVD = { vl, a, v, vn, vi, an, z, al, ad, d, b, dl, vd, bl },即去掉PosAVDN中的名詞。
PosA = {a, an, al, ad},即只保留PosAVDN中的形容詞。
實驗結(jié)果如表7所示。其中PMI,Dice,Jaccard為文獻(xiàn)[9]采用的情感詞識別方法;Bpref和AP不考慮極性判斷是否正確,只看新情感詞是否在情感詞詞典中;而Bpref_PN和AP_PN要求新情感詞的極性判斷也要正確;Bprf_P和AP_P表示對正向新情感詞的評測結(jié)果,Bprf_N和AP_N表示對負(fù)向情感詞的評測結(jié)果。
表7顯示,不論是基于共現(xiàn)的PMI,Dice,Jaccard方法,還是基于分類的NGC方法,將名詞加入候選情感詞集合中,結(jié)果的Bpref和AP值都更高。相比PosADVN,PosAll將全部詞作為候選情感詞,其AP得分遠(yuǎn)低于PosADVN的得分。對于NGC方法,那些不在情感詞典或非情感詞典中的詞,由于極性無法判斷因此被Bpref忽略,所以Bpref值并沒明顯下降。但進(jìn)一步觀察NGC在PosAll上的返回結(jié)果發(fā)現(xiàn),的確有大量形如“贏美食卷”“美顏之”“秋冬里”之類的難以定性的詞(或者根本不能稱之為詞),但在Bpref和AP指標(biāo)上仍高于PMI等基于共現(xiàn)的方法。這一方面說明了NGC相比PMI的優(yōu)勢依然存在,另一方面也體現(xiàn)了增加候選詞的確給新情感詞的抽取帶來挑戰(zhàn)。
表7 情感詞抽取結(jié)果評測
表7同時也顯示,如果只考慮形容詞,經(jīng)典的基于共現(xiàn)的方法與NGC方法效果是相當(dāng)?shù)?,并無明顯差異。但考慮更多候選詞性后,NGC方法遠(yuǎn)好于基于共現(xiàn)的方法。
在3.3節(jié)中提到,在中文微博中,負(fù)極性的情感詞之間的PMI、Dice系數(shù)和Jaccard系數(shù)要明顯高于這些指標(biāo)在其他類型詞之間的值,說明負(fù)極性情感詞之間的共現(xiàn)更強(qiáng)烈,從而使得負(fù)極性的新情感詞更容易被抽取,這與表7中的評測結(jié)果是一致的: 當(dāng)情感詞不局限在形容詞時,Jaccard和Dice方法對負(fù)極性新情感詞抽取結(jié)果的得分都明顯高于對正極性新情感詞的抽取。另外,當(dāng)候選詞僅為形容詞時,由于其中的負(fù)向情感詞太少使得召回率無法達(dá)到0.1,導(dǎo)致相應(yīng)的AP_N得分為0。
Bpref和AP體現(xiàn)了各種方法的總體效果,而圖1展示了基于共現(xiàn)的方法PMI與基于分類的方法NGC在不同候選詞性上的11點精度插值曲線。
圖1 11點精度插值曲線: PMI vs. NGC (β=0.2, n=4)
圖1顯示,基于共現(xiàn)的PMI方法可以比較準(zhǔn)確地判斷一個形容詞是否是情感詞,但隨著更多詞性的候選情感詞加入,這種準(zhǔn)確性越來越低。另外,當(dāng)只考慮形容詞為候選情感詞時,召回率為0時精度(插值后)非常高,說明對排名靠前的這些形容詞的情感傾向性判斷是非常準(zhǔn)確的。這從另一個側(cè)面說明,如果只考慮形容詞,基于共現(xiàn)及Propagation的英文新情感詞發(fā)現(xiàn)方法不僅對英文有效,對中文也同樣有效。對比圖1中NGC方法與PMI方法在不同詞性上的表現(xiàn),結(jié)論是,無論是否考慮名詞詞性,NGC方法不僅在召回率為0時的精度比較高,并且在召回率較高時,發(fā)現(xiàn)新情感詞的精確度遠(yuǎn)遠(yuǎn)高于PMI方法。
圖2顯示了平衡非情感詞樣本的參數(shù)β對新情感詞抽取效果的影響。當(dāng)β=0.2左右時,訓(xùn)練數(shù)據(jù)中標(biāo)簽為“0”的樣本約占總樣本數(shù)量的70%。之所以減少非情感詞的樣本數(shù)量,目的在于將更多的候選情感詞分類到正、負(fù)極性集合中,然后再采用投票的辦法對其打分。如果太多的候選詞都被分類為無極性,則對這部分詞的投票打分結(jié)果都為0,無區(qū)分性。當(dāng)然,標(biāo)簽為“0”的樣本也不能過少,否則會影響到分類的準(zhǔn)確性。
圖2 參數(shù)β對NGC的影響(PosADVN, n=4)
圖3 參數(shù)n對NGC的影響(PosADVN,β=0.2)
圖3給出了N-Gram特征中參數(shù)n的影響。可以看出,當(dāng)n從2增加到3時,新情感詞的抽取效果明顯提高。如果n繼續(xù)增加到4時,盡管有改善,但效果已不明顯。也就是說,如果僅以定長窗口為上下文,窗口大小設(shè)定為3就比較合適了。當(dāng)然,如4.2節(jié)所述,基于語法分析結(jié)果的長距離依賴是否有效,還有待進(jìn)一步探討。
4.2節(jié)中給出了用于確定NGC分類特征的三個假設(shè),作為對比,圖4中給出了特征選擇對新情感詞抽取的效果。其中UGC只考慮假設(shè)1,以上下文中的一元(unigram)信息為特征,即FUGC(ti) = {ti-n,…,ti-1,ti+1,…,ti+n};UGCL同時指定一元信息位于候選(情感詞)的前或者后,即FUGC(ti)= {ti-n_&, ...,ti_&, &_ti+1, ..., &_ti+n};NGCL考慮上下文的用詞及詞匯位置,但不考慮其中的用詞模式,即:FNGC-L(ti) = {ti-1_&,&_ti+1,
ti-2_ti-1_&,&_ti+1_ti+2, …,ti-n_..._ti-1_&,&_ti+1_..._ti+n};NGC+UGCL除采用式NGC在公式(1)中的特征外,增加了UGCL的特征,因為UGCL中的特征可以看成是另一種用詞模式。很顯然,只考慮上下文中的unigram是不夠的,但考慮unigram位于(候選)情感詞的前或后是有幫助的。僅用(候選)情感詞前后N-Gram的NGCL效果已經(jīng)比較理想,增加用詞模式后的NGC的確可以進(jìn)一步改善抽取效果,但并不意味著越多的用詞模式(NGC+UGCL)就會越好。
圖4 不同詞匯特征對分類的影響(β=0.2, n=4)
5.3 COAE 2014 任務(wù)3評測結(jié)果
COAE 2014任務(wù)3要求從COAET3Corpus中選擇不出現(xiàn)在CommonDict詞典中的新情感詞一萬條,26支參賽系統(tǒng)中排名前十的評測結(jié)果如表8所示。我們提交的兩個系統(tǒng)中,UdeM-t3-1是采用NGC算法。由于該任務(wù)要求提交的新情感詞不在給定詞典CommonDict中即可,因此,作為UdeM-t3-1的參照,在UdeM-t3-2中,先從混合情感詞典MixSD中選擇出現(xiàn)在COAET3Corpus中但不在CommonDict中的詞8 246條作為新情感詞,不足的1 754 條再根據(jù)Score值從NGC算法得到的結(jié)果中選取。對于MixSD中存在極性歧義的情感詞(在同一情感詞典或不同的情感詞典中標(biāo)注的極性不同),其情感極性為情感詞所在微博中,極性最強(qiáng)的那條微博的極性。微博的極性則用libleaner的線性回歸
表8 COAE 2014任務(wù)3中排名前十的參賽系統(tǒng)及評測結(jié)果
方法,在COAE 2013*http://ccir2013.sxu.edu.cn/COAE.aspx和NLP&CC 2012*http://tcci.ccf.org.cn/conference/2013/pages/page04_tdata.html提供的微博情感分類數(shù)據(jù)集上訓(xùn)練得到。
表8顯示,盡管UdeM-t3-2從已知的混合詞典中選取了8 000余詞條,但如果不考慮極性,僅從情感詞的召回和精度看,F(xiàn)值只有0.168 0,而最好系統(tǒng)的F值也僅為0.207 0。一個可能的原因是,微博中的情感詞遠(yuǎn)不止10 000條,這樣盡管所提交結(jié)果中的80%詞條來自已知的情感詞典,但它與參考答案給出的情感詞相互覆蓋率仍然很低。普遍較低的F值也說明從中文微博中提取新情感詞是一項具極具挑戰(zhàn)性的任務(wù)。另外,采用NGC方法的Ude-M-t3-1 與UdeM-t3-2的評測結(jié)果并沒有明顯的差距,這反映出NCG方法的性能接近直接從已知情感詞典中選擇情感詞的效果,其在整個參賽系統(tǒng)中也表現(xiàn)出很強(qiáng)的競爭力。
由于在輿情分析和產(chǎn)品評論分析等領(lǐng)域有著重要的應(yīng)用價值,文本情感分析近年來受到國內(nèi)外學(xué)術(shù)界和企業(yè)界的普遍關(guān)注。情感詞典作為文本情感分析的重要資源,需要覆蓋全、更新快、標(biāo)注準(zhǔn)。人工構(gòu)建情感詞典盡管標(biāo)注準(zhǔn)確,但覆蓋有限,更新困難,特別在Web 2.0環(huán)境下,新情感詞層出不窮、傳播迅速,因此,需要采用自動或半自動的方式從各種網(wǎng)絡(luò)數(shù)據(jù)中抽取新情感詞,而微博就是可用于新情感詞抽取的重要網(wǎng)絡(luò)數(shù)據(jù)之一。
本文利用手工構(gòu)建的情感詞典,分析了中文微博數(shù)據(jù)中情感詞分布的特點,包括其情感詞的詞性分布、情感詞共現(xiàn)情況、共現(xiàn)的情感詞間極性沖突情況,以及這些特點給新情感詞抽取帶來的挑戰(zhàn)?;谝陨戏治?,提出了基于分類的新情感詞抽取方法NGC。NGC充分利用已有的情感詞典資源和微博數(shù)據(jù)量大的特點,將候選情感詞擴(kuò)大到名詞詞性上,并以已知情感詞或候選情感詞上下文的N-Gram組合為特征,訓(xùn)練SVM分類器并對候選情感詞進(jìn)行分類,最后再采用投票的方式確定情感詞的極性及該極性的可信度。在AP和Bpref兩個指標(biāo)上的評測結(jié)果都顯示,考慮名詞對中文微博新情感詞抽取是必要的??紤]名詞意味著加入了大量的非情感詞作為候選,加大了抽取的難度。實驗結(jié)果顯示,考慮名詞后,NGC方法比基于共現(xiàn)的PMI等方法更有效,其在COAE 2014 任務(wù)3中也表現(xiàn)出很強(qiáng)的競爭力。
目前,NGC采用的特征非常簡單,僅考慮了已知情感詞和候選情感詞定長窗口內(nèi)的上下文,并且沒有做任何進(jìn)一步的處理。對于中文新情感詞的抽取,還有哪些特征可以利用,這些特征在中英文等不同語種上有何異同,在微博或新聞類數(shù)據(jù)上有何異同,都值得我們進(jìn)一步探討。此外,分詞是從中文微博中抽取新情感詞需要克服的一大障礙,在COAE 2014任務(wù)3提供的參考答案中,有正負(fù)極性的詞條共3 468個,其中2 469個都沒有被ICTCLAS2013正確分詞。
[1] Pang B, L Lee. Opinion Mining and Sentiment Analysis[J]. Foundations and Trends in Information Retrieval. 2008, 2(1-2): 1-135.
[2] 趙妍妍, 秦兵, 劉挺. 文本情感分析[J]. 軟件學(xué)報, 2010,21(8): 1834-1848.
[3] Liu B. Sentiment Analysis and Opinion Mining. Morgan & Claypool. 2012.
[4] Jiang L, et al. Target-dependent Twitter sentiment classification[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies. Association for Computational Linguistics: Portland, Oregon. 2011: 151-160.
[5] Bravo-Marquez F, M Mendoza, B Poblete. Combining strengths, emotions and polarities for boosting Twitter sentiment analysis[C]//Proceedings of the Second International Workshop on Issues of Sentiment Discovery and Opinion Mining. ACM: Chicago, Illinois. 2013: 1-9.
[6] Hatzivassiloglou V, K R McKeown. Predicting the semantic orientation of adjectives[C]//Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics and Eighth Conference of the European Chapter of the Association for Computational Linguistics. Association for Computational Linguistics: Madrid, Spain. 1997: 174-181.
[7] Turney P D, M L Littman. Measuring praise and criticism: Inference of semantic orientation from association[J] Acm Transaction on Information System. 2003, 21(4): 315-346.
[8] Kaji N, M Kitsuregawa. Building Lexicon for Sentiment Analysis from Massive Collection of HTML Documents[C]//Proceedings of EMNLP-CoNLL. 2007: 1075-1083.
[9] Feng S, et al. Is Twitter A Better Corpus for Measuring Sentiment Similarity?[C]//Proceedings of EMNLP2013. 2013: 897-902.
[10] Yu H, Z H Deng, S Li. Identifying Sentiment Words Using an Optimization-based Model without Seed Words[C]//Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics. 2013: 855-859.
[11] Kamps J, et al. Using wordnet to measure semantic orientations of adjectives[C]//Proceedings of 4th International Conference on Language Resources and Evaluation. 2004: 1115-1118.
[12] Andreevskaia A, S Bergler. Mining WordNet for a Fuzzy Sentiment: Sentiment Tag Extraction from WordNet Glosses[C]//Proceedings of EACL. 2006: 209-215.
[13] Rao D, D Ravichandran. Semi-supervised polarity lexicon induction[C]//Proceedings of the 12th Conference of the European Chapter of the Association for Computational Linguistics. Association for Computational Linguistics: Athens, Greece. 2009: 675-682.
[14] Esuli A, F Sebastiani. Pageranking wordnet synsets: An application to opinion mining[C]//Proceedings of ACL. 2007: 442-431.
[15] Hassan A, D Radev. Identifying text polarity using random walks[C]//Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics: Uppsala, Sweden. 2010: 395-403.
[16] Hassan A, et al. Identifying the semantic orientation of foreign words[C]//Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies: short papers-Volume 2. Association for Computational Linguistics: Portland, Oregon. 2011: 592-597.
[17] Velikovich L, et al. The viability of web-derived polarity lexicons, in Human Language Technologies: The 2010 Annual Conference of the North American Chapter of the Association for Computational Linguistics. Association for Computational Linguistics: Los Angeles, California. 2010: 777-785.
[18] Peng W, D H Park. Generate adjective sentiment dictionary for social media sentiment analysis using constrained nonnegative matrix factorization[C]//Proceedings of ICWSM. 2011.
[19] Qiu G, et al. Expanding Domain Sentiment Lexicon through Double Propagation[C]//Proceedings of IJCAI. 2009: 1199-1204.
[20] Zhao W X, et al. Jointly modeling aspects and opinions with a MaxEnt-LDA hybrid[C]//Proceedings of the 2010 Conference on Empirical Methods in Natural Language Processing. Association for Computational Linguistics: Cambridge, Massachusetts.2010:56-65.
[21] Lazaridou A, I Titov, C Sporleder. A bayesian model for joint unsupervised induction of sentiment, aspect and discourse representations[C]//Proceedings of ACL. 2013: 1630-1639.
[22] Xu L, et al. Walk and learn: a two-stage approach for opinion words and opinion targets co-extraction[C]//Proceedings of the 22nd international conference on World Wide Web companion. International World Wide Web Conferences Steering Committee: Rio de Janeiro, Brazil. 2013: 95-96.
[23] Kim S-M, E Hovy. Determining the sentiment of opinions[C]//Proceedings of the 20th international conference on Computational Linguistics. Association for Computational Linguistics: Geneva, Switzerland. 2004: 1367-1373.
[24] Esuli A, F Sebastiani. Sentiwordnet: A publicly available lexical resource for opinion mining[C]//Proceedings of LREC. 2006.
[25] Mohtarami M, M Lan, C L Tan. Probabilistic Sense Sentiment Similarity through Hidden Emotions[C]//Proceedings of The 51st Annual Meeting of the Association for Computational Linguistics.2013:983-992.
[26] Wiebe J. Learning subjective adjectives from corpora[C]//Proceedings of AAAI/IAAI. 2000: 735-740.
[27] Hatzivassiloglou V, J M Wiebe. Effects of adjective orientation and gradability on sentence subjectivity[C]//Proceedings of the 18th conference on Computational linguistics-Volume 1. Association for Computational Linguistics. 2000: 299-305.
[28] Riloff E, J Wiebe, T Wilson. Learning subjective nouns using extraction pattern bootstrapping[C]//Proceedings of the 7th Conference on Natural Language Learning at HLT-NAACL 2003-Volume 4. Association for Computational Linguistics: Edmonton, Canada. 2003: 25-32.
[29] Volkova S, T Wilson, D Yarowsky. Exploring sentiment in social media: Bootstrapping subjectivity clues from multilingual twitter streams[C]//Proceedings of Association for Computational Linguistics (ACL). 2013: 505-510.
[30] Xu G, X Meng, H Wang. Build Chinese emotion lexicons using a graph-based algorithm and multiple resources[C]//Proceedings of the 23rd International Conference on Computational Linguistics. Association for Computational Linguistics: Beijing, China. 2010: 1209-1217.
[31]DuW,etal.Adaptinginformationbottleneckmethodforautomaticconstructionofdomain-orientedsentimentlexicon[C]//Proceedingsofthe3rdACMInternationalConferenceonWebSearchandDataMining.ACM:NewYork,NewYork,USA. 2010: 111-120.
[32]ZhangL,BLiu.Identifyingnounproductfeaturesthatimplyopinions[C]//Proceedingsofthe49thAnnualMeetingoftheAssociationforComputationalLinguistics:HumanLanguageTechnologies:shortpapers-Volume2.AssociationforComputationalLinguistics:Portland,Oregon. 2011: 575-580.
[33] 徐琳宏,等. 情感詞匯本體的構(gòu)造[J]. 情報學(xué)報, 2008. 27(2): 180-185.
[34]BuckleyC,EMVoorhees.Retrievalevaluationwithincompleteinformation[C]//Proceedingsofthe27thAnnualInternationalACMSIGIRConferenceonResearchandDevelopmentinInformationRetrieval. 2004: 25-32.
Extracting Sentimental Lexicons from Chinese Microblog: a Classification Method using N-Gram Features
LIU Dexi1, NIE Jianyun2, ZHANG Jing3, LIU Xiaohua2, WAN Changxuan1, LIAO Guoqiong1
(1. School of Information Technology, Jiangxi University of Finance and Economics, Nanchang, Jiangxi 330013, China;2. Department of Computer Science and Operations Research, University of Montreal, Montreal, H3C3J7,Canada;3. School of Computer Science and Engineering, South China University of Technology, Guangzhou, Guangdong 510641, China)
Sentimental analysis heavily relies on resources such as sentimental dictionaries. However, it is difficult to manually build such resources with a satisfactory coverage. A promising avenue is to automatically extract sentimental lexicons from microblog data. In this paper, we target the problem of identifying new sentimental words in a Chinese microblog collection provided at COAE 2014. We observe that traditional measures based on co-occurrences, such as pointwise mutual information, are not effective in determining new sentimental words. Therefore, we propose a group of context-based features, N-Gram features, for classification, which can capture the lexical surroundings and lexical patterns of sentimental words. Then, a classifier trained on the known sentimental words is employed to classify the candidate words. We will show that this method works better than the traditional approaches. In addition, we also observe that, different from English, many sentimental words in Chinese are nouns, which cannot be discriminated using co-occurrence-based measures, but can be better determined by our classification method.
sentimental lexicon extracting; Chinese microblog; classification method; N-Gram features
劉德喜(1975—),博士,教授,主要研究領(lǐng)域為社會媒體處理、信息檢索、自然語言處理等。E-mail:dexi.liu@163.com聶建云(1963—),博士,教授,主要研究領(lǐng)域為信息檢索、自然語言處理等。E-mail:nie@iro.umontreal.ca張晶(1973—),博士,講師,主要研究領(lǐng)域為自然語言處理。E-mail:zhjing@scut.edu.cn
1003-0077(2016)04-0193-13
2014-09-15 定稿日期: 2015-03-20
國家自然科學(xué)基金(61363039, 61173146, 61363010);國家社會科學(xué)基金(12CTQ042)
TP391
A