国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

微博觀點句識別的話題影響研究

2014-02-25 05:37:38羅凌陳毅東曹茂元
電腦知識與技術(shù) 2014年1期
關(guān)鍵詞:話題機(jī)器學(xué)習(xí)規(guī)則

羅凌 陳毅東 曹茂元

摘要:為了從海量的網(wǎng)絡(luò)信息中迅速準(zhǔn)確地獲取評價信息,觀點句識別已經(jīng)成了自然語言處理的一個研究熱點?,F(xiàn)在觀點句識別系統(tǒng)大都是基于機(jī)器學(xué)習(xí)的方法,一般使用機(jī)器學(xué)習(xí)的方法來進(jìn)行分類會受到領(lǐng)域差異性影響。針對這個問題,該文對微博觀點句識別系統(tǒng)是否會受到微博話題影響做了經(jīng)驗性研究,同時為了彌補(bǔ)訓(xùn)練數(shù)據(jù)的不足,該文通過規(guī)則方法自動標(biāo)注網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行了訓(xùn)練集的擴(kuò)充。實驗結(jié)果表明,微博話題間存在差異,進(jìn)行分話題模型訓(xùn)練可以提升微博觀點句識別系統(tǒng)的性能。

關(guān)鍵詞:觀點句識別;機(jī)器學(xué)習(xí);話題;規(guī)則

中圖分類號:TP18 文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2014)01-0123-05

1 概述

隨著網(wǎng)絡(luò)信息量的日益增長,人們想要從巨大的冗余信息中準(zhǔn)確、迅速地獲取對一個事物或?qū)ο蟮脑u價,這就需要快速的識別出語段中的觀點句。目前,觀點句識別已經(jīng)成為自然語言處理領(lǐng)域中的一個研究熱點,對于觀點句這種不受語言表達(dá)約束的非規(guī)范文本,很難使用規(guī)則方法將觀點句全面地識別出來,機(jī)器學(xué)習(xí)的方法在這方面體現(xiàn)出了一定優(yōu)勢,所以現(xiàn)今的觀點句識別系統(tǒng)大多是基于機(jī)器學(xué)習(xí)的方法來進(jìn)行二元分類[1]。但是,缺乏標(biāo)注訓(xùn)練數(shù)據(jù)和話題間差異性一直都是機(jī)器學(xué)習(xí)分類的研究難點?;跈C(jī)器學(xué)習(xí)的觀點句識別系統(tǒng)也同樣存在著這樣的問題,網(wǎng)絡(luò)上并沒有這種大量用于觀點句識別的標(biāo)注數(shù)據(jù)集,若要進(jìn)行人工標(biāo)注,這需要花費大量的人力和物力。而且由于不同話題間的差異性,使用同一個分類器對不同話題去進(jìn)行觀點句識別,識別效果會有所影響。針對這些問題,我們首先通過一些人工規(guī)則對網(wǎng)絡(luò)上獲取的資源進(jìn)行自動標(biāo)注,然后將這部分自動標(biāo)注的語料加入到原有的少量訓(xùn)練語料中,以擴(kuò)充訓(xùn)練語料,再進(jìn)行分類器分類,并做了一些常用分類器的性能比較。同時為了驗證話題會影響觀點句的識別,我們針對話題做了經(jīng)驗研究,對比了通用分類模型和分話題分類模型的性能。該文中的實驗使用NLP&CC 2012中文微博情感分析評測中的數(shù)據(jù)集, 該數(shù)據(jù)集來自于20個微博話題,實驗中定義的觀點句只限定于對特定事物或?qū)ο蟮脑u價,不包括內(nèi)心自我情感、意愿或心情。實驗結(jié)果表明,加入基于規(guī)則的自動標(biāo)注數(shù)據(jù),對機(jī)器學(xué)習(xí)分類模型的訓(xùn)練是有幫助的,微博話題間也存在著差異性,分話題模型比通用模型有更好的效果。

文章其他部分安排如下:第二節(jié)將進(jìn)行相關(guān)工作的介紹,對觀點句識別進(jìn)行概述,介紹觀點句的概念和觀點句識別的研究現(xiàn)狀;第三節(jié)將介紹規(guī)則與機(jī)器學(xué)習(xí)相結(jié)合的觀點句識別方法;第四節(jié),針對微博話題差異性做了經(jīng)驗研究,話題會影響觀點句的識別;第五節(jié)給出在NLP&CC 2012中文微博情感分析評測數(shù)據(jù)集上的實驗數(shù)據(jù),并進(jìn)行分析討論;第六節(jié)是進(jìn)行總結(jié)和展望。

2 相關(guān)工作

觀點句,即在表達(dá)的過程中帶有某種情感和觀點的句子,它是對特定事物或?qū)ο蟮脑u價,這種觀點可以是作者本人的、引用于他人的、或是某群體、組織發(fā)表的[1]。國外對觀點句的研究起步較早,較有代表性的工作有:Wiebe [2]選擇某些詞類(代詞、形容詞、序數(shù)詞、情態(tài)動詞和副詞)、標(biāo)點和句子位置作為特征,實現(xiàn)對觀點句識別。Riloff [3]等人利用boot-strapping算法學(xué)習(xí)得到主觀性名詞,單獨使用主觀性名詞為特征,采用樸素貝葉斯分類器對觀點句識別。Wiebe和Riloff [4]他們依靠先前研究中確定的主觀特征,分別建立了主觀分類器和客觀分類器,自動從未標(biāo)注的文本中獲得大量主觀句和客觀句,再從這些句子中得到更多主觀性詞語搭配,再用準(zhǔn)確性很高的詞語搭配更新原始的主觀特征。Yu和Hatzivassiloglou[5]利用相似性方法、樸素貝葉斯分類和多重樸素貝葉斯分類等三種統(tǒng)計方法進(jìn)行觀點句識別研究。近幾年,由于微博的興起,針對微博數(shù)據(jù),Alexander Pak等人[6]選取n-gram和微博中的詞性標(biāo)注作為特征,利用樸素貝葉斯分類器對微博中的觀點句進(jìn)行識別研究,Luciano Barbosa等人[7]采用微博中的詞性信息、詞本身的主觀性、詞的情感極性以及否定詞作為特征,訓(xùn)練分類器,對微博主客觀性進(jìn)行分類。D. Davidiv等人[8]提取Twitter 中的標(biāo)簽和表情符號作為訓(xùn)練集,訓(xùn)練了一個類似KNN的分類器,對微博情感極性進(jìn)行分類。

國內(nèi)較早開始該工作的是姚天昉和彭思威 [9]使用了機(jī)器學(xué)習(xí)的方法進(jìn)行分類識別。葉強(qiáng)等 [10]提出了一種根據(jù)連續(xù)雙詞詞類組合模式(2-POS)自動判斷句子主觀性程度的方法。王根和趙軍 [11]提出了一種基于多重冗余標(biāo)記的CRFs進(jìn)行觀點句識別。蒙新泛和王厚峰 [12]通過對比試驗,分析了上下文信息對于主客觀分類的影響。張博[9]使用模塊串行的方法進(jìn)行觀點句識別。宋樂等人[13]在2009年的第二屆COAE評測中文觀點句抽取的任務(wù)中使用了一種類似最小圖個的方法。在2011年第三屆COAE評測中,徐瑞峰等人[14]提出一種基于圖的句子排序算法SentenceRank。

3 觀點句識別系統(tǒng)框架

3.1 方法概述

對于基于機(jī)器學(xué)習(xí)的觀點句識別系統(tǒng),需要一定量的標(biāo)注數(shù)據(jù)進(jìn)行訓(xùn)練,如果標(biāo)注數(shù)據(jù)很少,這將會大大降低分類器的性能。針對沒有標(biāo)注訓(xùn)練數(shù)據(jù)這個問題,張文文和王挺[15]通過基于詞典和基于規(guī)則的方法自動構(gòu)造訓(xùn)練樣例,再使用SVM分類器進(jìn)行觀點句識別。我們借鑒了這篇文章的工作,通過一些人工規(guī)則,先對未標(biāo)注的網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行自動標(biāo)注,加入到原始的訓(xùn)練集中以擴(kuò)充訓(xùn)練集,提高分類器的效果。此外,考慮到不同話題的數(shù)據(jù)在分類特征方面可能存在差異,除了通用的分類模型外,該文引入了分話題模型進(jìn)行對比,我們對分類器是否受話題差異性影響做了經(jīng)驗研究,實驗結(jié)果表明話題會影響觀點句識別,分話題模型比通用模型有更好的效果。該文實驗訓(xùn)練和分類流程如圖1所示:

圖 1 規(guī)則與機(jī)器學(xué)習(xí)相結(jié)合的觀點句識別方法流程圖

可以看到,系統(tǒng)的主體采用了機(jī)器學(xué)習(xí)的方法,但為了彌補(bǔ)分類器訓(xùn)練集大小的不足,在訓(xùn)練前,我們利用規(guī)則模塊對從網(wǎng)絡(luò)中自動挖掘的微博數(shù)據(jù)進(jìn)行標(biāo)注以擴(kuò)充訓(xùn)練集。在通用分類模型中,我們將規(guī)則自動標(biāo)注的補(bǔ)充數(shù)據(jù)和原來的標(biāo)注數(shù)據(jù)融合在一起作為通用分類模型的訓(xùn)練數(shù)據(jù),再由分類訓(xùn)練模塊訓(xùn)練分類模型,再對評測數(shù)據(jù)進(jìn)行分類;在分話題模型中,我們將規(guī)則自動標(biāo)注的補(bǔ)充數(shù)據(jù)按話題分類,在各自加上原始的標(biāo)注集去分別作為相應(yīng)分類子模型的訓(xùn)練數(shù)據(jù),由分類訓(xùn)練模塊訓(xùn)練出分類子模型,然后把測試集也按話題分類,再使用相應(yīng)的分類子模型進(jìn)行分類,得出分類結(jié)果。

3.2基于規(guī)則的自動訓(xùn)練集標(biāo)注

如前所述,在本系統(tǒng)中,使用了規(guī)則方法對從網(wǎng)絡(luò)中挖掘的微博數(shù)據(jù)進(jìn)行自動觀點句識別。通過對標(biāo)注數(shù)據(jù)的分析,我們制定了如下的規(guī)則來進(jìn)行觀點句識別。在規(guī)則中需要用到情感詞典,該詞典來源于HowNet情感詞典和清華褒貶義詞典去重合并而得,共16007個詞。

觀點句規(guī)則:

l…+(代詞|人名|地名|專有名詞)+….+是+名詞+….

l…+(代詞|人名|地名|專有名詞)+….+副詞+形容詞+….

l...+副詞+情感詞+(代詞|人名|地名|專有名詞)

l...+比較詞+(代詞|人名|地名|專有名詞)+情感詞

l(代詞|人名|地名|專有名詞)+比較動詞+(代詞|人名|地名|專有名詞)

l(代詞|人名|地名|專有名詞)+指示性動詞+(代詞|人名|地名|專有名詞)+...+情感詞

非觀點句規(guī)則:

l僅包含hashtag,表情符合,標(biāo)點符號的句子判定為非觀點句。

l僅包含網(wǎng)址,無實際信息。

l不滿足觀點句規(guī)則且以動詞開頭的短句。

l只包含愿望詞。

l在單句中不含網(wǎng)絡(luò)新聞,且不是反問句式判定為非觀點句。

我們對從網(wǎng)絡(luò)上挖掘的微博數(shù)據(jù)進(jìn)行規(guī)則匹配,凡是滿足上面規(guī)則的句子我們將其抽取出來進(jìn)行標(biāo)注,作為訓(xùn)練語料的補(bǔ)充。

3.3基于機(jī)器學(xué)習(xí)方法的觀點句識別

觀點句識別可以看成一個二元分類問題,我們使用成熟的機(jī)器學(xué)習(xí)分類算法進(jìn)行分類。我們在進(jìn)行分類訓(xùn)練時采用了通用和分話題兩種訓(xùn)練方法。通用模型是通過將所有話題的訓(xùn)練數(shù)據(jù)全部拿給分類器訓(xùn)練出一個通用模型;話題模型是通過該話題相關(guān)的訓(xùn)練數(shù)據(jù)給分類器分別訓(xùn)練出20個話題模型。這兩種方法我們采用的特征都是在姚天防[5],張博[9]使用的特征基礎(chǔ)上,加入了主題相關(guān)的人名特征,并進(jìn)行了特征組合實驗,最終選取了如下的特征:

1.情感詞,我們整合了知網(wǎng)和清華的情感詞典,總共約16000個詞。

2.指示性動詞,我們使用了張博論文[9]中的指示性動詞表和根據(jù)數(shù)據(jù)集自己添加的一些動詞,總共約100個詞。

3.人稱代詞、專有名詞、人名、地名。

4.嘆詞和語氣詞。

5.副詞。

6.主題中的對象名。

7.標(biāo)點符號。

8.N-POS,N-POS是指語句中N個連續(xù)詞性的順序組合,系統(tǒng)中我們采用了1-pos和2-pos。

我們進(jìn)行了不同分類器的效果對比實驗,實驗中使用了以下5種分類器進(jìn)行了結(jié)果分類:(1)樸素貝葉斯分類算法(Na?ve Bayes)(2)支持向量機(jī)分類算法(SVM)(3)用于支持向量分類的連續(xù)最小優(yōu)化算法(SMO)(4)隨機(jī)森林算法(Random Forest)(5)分類與回歸樹算法(Classification Via Regression)。

4 話題差異性

領(lǐng)域適應(yīng)性問題一直是自然語言處理領(lǐng)域的一個研究重點,在文本分類,問答系統(tǒng),自動文摘,機(jī)器翻譯,文本情感分析等都存在領(lǐng)域適應(yīng)問題。因為不同的領(lǐng)域數(shù)據(jù)會有不同的特點,使用同一個模型去處理不同領(lǐng)域的同一個問題,效果也并不理想。對于領(lǐng)域適應(yīng)性問題,在不同的方向已經(jīng)有了很多相關(guān)研究。在文本情感分類研究中,相同的詞語在不同的領(lǐng)域中可能指示著不同的情感傾向,已經(jīng)有許多研究證明了情感文本分類在分類的精確率上是會受到領(lǐng)域的影響,研究者們也提出了一些方法來解決此類問題[16]。觀點句識別作為文本情感分類的基礎(chǔ)工作,我們認(rèn)為也是存在領(lǐng)域差異性的。

本次實驗使用的測試數(shù)據(jù)來自于20個微博話題,我們根據(jù)分類器提取的特征對數(shù)據(jù)進(jìn)行觀察和對比,發(fā)現(xiàn)不同話題間的數(shù)據(jù)是存在著差異性的,下面我們通過對微博話題數(shù)據(jù)的舉例分析來說明這個問題。

1)在不同的話題中,情感傾向偏向不同,導(dǎo)致情感詞在不同的話題中分布是不一致的。比如,在話題“90后當(dāng)教授”里面,總共有觀點句123句,其中110句是正面的情感,13句是負(fù)面的情感,里面“聰明”、“佩服”、“崇拜”等正面的情感詞出現(xiàn)的比較多。而在話題“90后暴打老人”里面,總共有觀點句97句,其中3句是正面的情感,94句是負(fù)面的情感,里面“畜牲”、“失敗”、“流氓”等負(fù)面的情感詞出現(xiàn)的比較多。由于話題的情感傾向性有差異,有的話題偏向正面情感,有的話題偏向負(fù)面情感,那么對于情感詞的分布就有所不同。

2)在不同的話題中,與主題相關(guān)的人名、地名、專有名詞和人稱代詞有明顯的差異。觀點句是對一個對象的評價,所以與主題相關(guān)的人名、人稱代詞作為觀點句分類系統(tǒng)中的特征是有比較大意義的,但是不同的話題,圍繞的對象是不同的,比如在話題“瘋狂的大蔥”里,“大蔥”,“物價局”等出現(xiàn)得比較頻繁,而在話題“名古屋市長否認(rèn)南京大屠殺”里,“名古屋市長”、“日本”等出席得比較頻繁。不同的話題評價的對象是不同的。

3)在不同的話題中,使用的句式是有比較大的區(qū)別的,所以N-POS在不同話題中是存在著差異的。比如在話題“90后當(dāng)教授”中,觀點句的句式大多是對這個90后的贊揚(yáng),“人才!”,“像劉路學(xué)習(xí)?!?,“牛人!”等多是些名詞性的短句。而在“彭宇承認(rèn)撞了南京老太”話題中,多是“說實話,我不太信。”,“這件事絕對不是這樣,很可能就是南京市政府搞的鬼!”,“面對政治壓力,我覺他是不得已才這樣做?!钡葘@件事的一個看法和評論,基本都是多詞性的復(fù)合句式。由于在不同話題中表達(dá)的句式不一樣,抽取出來的N-POS也就存在著很大的差異。

根據(jù)上面對測試集數(shù)據(jù)的分析,可以看出觀點句分類器要抽取的文本特征,在不同的話題中,數(shù)據(jù)分布是存在著差異的,如果我們把所有標(biāo)注訓(xùn)練數(shù)據(jù)一起用來訓(xùn)練一個通用的分類器,然后對所有話題進(jìn)行觀點句識別,可能會由于這些數(shù)據(jù)差異,導(dǎo)致特征稀疏,影響分類器的精確度。針對該問題,我們根據(jù)不同的話題,使用相應(yīng)的話題訓(xùn)練數(shù)據(jù)去訓(xùn)練話題子模型,對相應(yīng)的測試集進(jìn)行觀點句識別,以解決話題間差異性的問題,后面的實驗結(jié)果也表明話題間是存在差異的,我們的分話題訓(xùn)練也是對觀點句識別有幫助的。

5 實驗結(jié)果及討論

5.1 實驗設(shè)置

本文實驗使用了由中國計算機(jī)學(xué)會主辦的NLP&CC 2012中文微博情感分析評測中任務(wù)一的數(shù)據(jù)集,還有我們從網(wǎng)絡(luò)上爬取的與評測數(shù)據(jù)相關(guān)主題的微博數(shù)據(jù),并與測試集去重后作為補(bǔ)充數(shù)據(jù)。具體數(shù)據(jù)信息如下:

1.標(biāo)注數(shù)據(jù):NLP&CC 2012中文微博情感分析評測提供的標(biāo)注數(shù)據(jù)。共包含已標(biāo)注毀容案話題約240句和Ipad話題約220句。

2.測試數(shù)據(jù):NLP&CC 2012中文微博情感分析評測提供的測試數(shù)據(jù),共包含菲軍艦惡意撞擊、瘋狂的大蔥等20個話題,每個話題約200句。

3.補(bǔ)充數(shù)據(jù):從騰訊微博上爬取的與評測數(shù)據(jù)相關(guān)主題的微博。共包含菲軍艦惡意撞擊、瘋狂的大蔥等20個話題,每個話題約2000句。接著使用基于規(guī)則的方法對其進(jìn)行了自動標(biāo)注,標(biāo)注后每個話題約600句。

本文使用了weka平臺中的機(jī)器學(xué)習(xí)分類算法來進(jìn)行實驗[17]。

本文的實驗設(shè)置如下:

1. 規(guī)則與機(jī)器學(xué)習(xí)實驗。在標(biāo)注數(shù)據(jù)集中,使用毀容案話題數(shù)據(jù)集作為訓(xùn)練集,Ipad話題數(shù)據(jù)集作為測試集,進(jìn)行只使用毀容案直接分類和加入補(bǔ)充數(shù)據(jù)后再進(jìn)行分類的對比實驗。以驗證本文提出的基于規(guī)則對機(jī)器學(xué)習(xí)數(shù)據(jù)集補(bǔ)充的有效性。

2. 通用模型和分話題模型實驗。使用標(biāo)注數(shù)據(jù)和補(bǔ)充數(shù)據(jù)一起作為訓(xùn)練集,測試數(shù)據(jù)作為測試集,進(jìn)行實驗比較通用模型和分話題模型的性能。

3. 分類器性能實驗。使用不同的分類器進(jìn)行前面2個實驗,對比不同分類器在該問題上的性能。

5.2 實驗結(jié)果

本文進(jìn)行了多個分類器比較,為了方便下面用標(biāo)號來表示各個分類器:(1)標(biāo)準(zhǔn)概率樸素貝葉斯分類算法(NB)(2)支持向量機(jī)分類算法(SVM)(3)用于支持向量分類的連續(xù)最小優(yōu)化算法(SMO)(4)隨機(jī)森林算法(RF)(5)分類與回歸樹算法(CVR)

在進(jìn)行分類器訓(xùn)練時,由于提供的標(biāo)注訓(xùn)練語料過少,這會影響到分類結(jié)果,我們通過上面提出的規(guī)則方法自動標(biāo)注了從網(wǎng)絡(luò)中挖掘的微博數(shù)據(jù),并將這部分?jǐn)?shù)據(jù)作為擴(kuò)充語料加入到原來的標(biāo)注集里作為訓(xùn)練集進(jìn)行分類器的訓(xùn)練。為了證明我們加入這些規(guī)則方法自動標(biāo)注的語料對分類器訓(xùn)練是有幫助的,我們按照實驗設(shè)置1做了下面的實驗。我們用原來標(biāo)注集中的毀容案話題數(shù)據(jù)作為訓(xùn)練,和加上了自動標(biāo)注的擴(kuò)充數(shù)據(jù)作為訓(xùn)練,對同樣的Ipad話題測試集進(jìn)行測試,得到了如下各個分類器的對比結(jié)果,見表1:

表1 加入擴(kuò)充數(shù)據(jù)后對比結(jié)果

[標(biāo)號\&正確率\&召回率\&F值\&+/-\&NB\&0.645\&0.396\&0.491\&\&NB+Extra\&0.578\&0.515\&0.545\&+0.084\&SVM\&0.560\&0.782\&0.653\&\&SVM+Extra\&0.575\&0.762\&0.655\&+0.002\&SMO\&0.578\&0.515\&0.545\&\&SMO+Extra\&0.583\&0.733\&0.649\&+0.104\&CVR\&0.538\&0.624\&0.578\&\&CVR+Extra\&0.570\&0.802\&0.667\&+0.089\&RF\&0.560\&0.644\&0.599\&\&RF+Extra\&0.549\&0.782\&0.645\&+0.046\&]

沒有“Extra”表示訓(xùn)練集中只包含了毀容案的標(biāo)注數(shù)據(jù),“+Extra”表示在原來毀容案的標(biāo)注數(shù)據(jù)上,還加入了使用規(guī)則自動標(biāo)注的Ipad話題補(bǔ)充數(shù)據(jù)。

從表1的結(jié)果我們可以看出加入了自動標(biāo)注的擴(kuò)充數(shù)據(jù)進(jìn)行訓(xùn)練后,基本每個分類器都有或多或少的提升,其中SMO分類器提高的最多,提高了0.104,而CVR分類器在所有分類器中表現(xiàn)最好,F(xiàn)值達(dá)到0.667,這表明我們加入的這部分自動標(biāo)注數(shù)據(jù),對訓(xùn)練集數(shù)據(jù)缺乏的分類器訓(xùn)練是有很大幫助的。

為了實驗話題間是否存在差異性,比較通用模型和分話題模型的性能差異。我們按照實驗設(shè)置2做了下面的實驗,這次實驗使用標(biāo)注數(shù)據(jù)和補(bǔ)充數(shù)據(jù)一起作為訓(xùn)練集,測試數(shù)據(jù)作為測試集,對于通用模型,我們直接使用訓(xùn)練集訓(xùn)練出1個通用模型,然后對所有測試集直接進(jìn)行分類,得出結(jié)果;對于分話題模型,我們將補(bǔ)充數(shù)據(jù)按照20個話題進(jìn)行分類,每個話題補(bǔ)充集加上原來的標(biāo)注集作為改話題的訓(xùn)練集,分別訓(xùn)練20個話題子模型,然后測試集也分成同樣的20個話題,分別使用相對應(yīng)的子模型進(jìn)行分類,得出結(jié)果在合并起來進(jìn)行評測。為了以示區(qū)分,我們在分類器簡寫前加ALL-表示通用模型結(jié)果,加Topic-的表示分話題模型的結(jié)果,實驗結(jié)果如表2:

表2 通用模型和話題模型對比結(jié)果

[標(biāo)號\&正確率\&召回率\&F值\&ALL-NB\&0.742\&0.376\&0.499\&Topic-NB\&0.744\&0.432\&0.547\&ALL-SVM\&0.735\&0.675\&0.704\&Topic-SVM\&0.735\&0.682\&0.708\&ALL-SMO\&0.737\&0.609\&0.667\&Topic-SMO\&0.747\&0.623\&0.679\&ALL-RF\&0.727\&0.657\&0.690\&Topic-RF\&0.728\&0.684\&0.705\&ALL-CVR\&0.720\&0.657\&0.687\&Topic-CVR\&0.725\&0.720\&0.722\&]

從表2結(jié)果可以看出分話題進(jìn)行訓(xùn)練得到的分類結(jié)果都比通用模型的分類結(jié)果要好,最高的是NB分類器,高出了0.048個點,但是和其他分類器相比,NB比其他分類器低了很多,可能是由于特征選擇的問題,導(dǎo)致了NB分類器的性能比較差。所以分類器中CVR分類器性能最好,分話題模型的F值為0.722比通用的高出了0.035。這些實驗數(shù)據(jù)說明領(lǐng)域間存在著話題差異,使用分話題的訓(xùn)練模型比通用模型更能體現(xiàn)出話題的差異,在性能上也有更好的表現(xiàn)。

6 總結(jié)與展望

本文針對基于機(jī)器學(xué)習(xí)的觀點句識別系統(tǒng)存在訓(xùn)練語料不足的問題,引人了基于規(guī)則的方法,通過使用規(guī)則的方法對從網(wǎng)絡(luò)上挖掘的數(shù)據(jù)進(jìn)行了自動標(biāo)注來擴(kuò)充訓(xùn)練數(shù)據(jù),經(jīng)過實驗證明,加入使用我們規(guī)則自動標(biāo)注的數(shù)據(jù)對訓(xùn)練分類模型有很大幫助,這解決了在機(jī)器學(xué)習(xí)訓(xùn)練過程中語料不足的問題。實驗中使用的數(shù)據(jù)分了20個話題,我們針對話題進(jìn)行了分話題模型的訓(xùn)練,5種分類算法結(jié)果都表明分話題模型比通用模型分類的結(jié)果要理想,這說明了話題間的分類特征是存在差異的,使用分話題模型比通用模型效果更好。

本次實驗使用的數(shù)據(jù)來自于NLP&CC 2012中文微博情感分析評測,處理的數(shù)據(jù)都是來自于微博,微博的最大特點是簡短,不規(guī)范,里面不僅包含了大量的網(wǎng)絡(luò)術(shù)語,表情,還有很多錯別字,病句,這對我們進(jìn)行分詞,提取特征都有很大的影響。如今,由于網(wǎng)絡(luò)的迅速發(fā)展,微博等形式的網(wǎng)絡(luò)數(shù)據(jù)大量出現(xiàn),對微博這種網(wǎng)絡(luò)文本如何進(jìn)行更有效的處理,需要我們更深入的研究。通過多個分類器的性能比較,發(fā)現(xiàn)各個分類器有各自的特點,如何利用他們自己的特點,進(jìn)行融合以提高觀點句識別的效果,也是我們未來的工作。

參考文獻(xiàn):

[1] 張博. 基于SVM的中文觀點句抽取[D]. 北京:北京郵電大學(xué)計算機(jī)學(xué)院,2011.

[2] Wiebe J, Bruce R, Bell M, et al. A corpus study of evaluative and speculative language[C]. acm, 2001.

[3] Riloff E, Wiebe J, Wilson T. Learning Subjective Nouns using Extraction Pattern Bootstrapping[C]. CoNLL-03, 2003:25-32.

[4] Riloff E, Wiebe J. Learning Extraction Patterns for Subjective Expressions[C]. EMNLP-03, 2003:105-112.

[5] Hong Yu, Hatzivassiloglou V. Towards Answering Opinion Questions: Separating Facts from Opinions and Identifying the Polarity of Opinion Sentences[C]. EMNLP, 2003.

[6] Alexander P, Patrick P. Twitter as a Corpus for Sentiment Analysis and Opinion Mining[C]. Proceedings of International Conference on Language Resource and Evaluation. Lisbon, 2010:1320-1326.

[7] Barbosa Luciano, Feng Junlan. Robust Sentiment Detection on Twitter from Biased and Noisy Data[C]. Proceedings of the 23rd International Conference on Computational Linguistics. Beijing, 2010:36-44.

[8] Davidiv D,Tsur O,Rappoport A. Enhanced Sentiment Learning Using Twitter Hashtags and Smileys[C]. Proceedings of the 23rd International Conference on Computational Linguistics. Beijing, 2010:241-249.

[9] 姚天昉,彭思威. 漢語主客觀文本分類方法的研究[C]. 第三屆全國信息檢索與內(nèi)容安全學(xué)術(shù)會議論文集, 2007:117-123.

[10] 葉強(qiáng),張紫瓊,羅振雄. 面向互聯(lián)網(wǎng)評淪情感分析的中文主觀性自動判別方法研究[J]. 信息系統(tǒng)學(xué)報, 2007,1(1):79-91.

[11] 王根,趙軍. 基于多重冗余標(biāo)記CRFs的句子情感分析研究[J]. 中文信息學(xué)報, 2007,21(5):51-55

[12] 蒙新泛,王厚峰.主客觀識別中的上下文因素的研究[C]. 中國計算機(jī)語言學(xué)研究前沿進(jìn)展(2007-2009), 2009:594-599

[13] 徐睿峰,王亞偉,徐軍,等. 基于多知識源融合和多分類器表決的中文觀點分析[C]. 第三屆中文傾向性分析評測會議(COAE), 濟(jì)南, 2011:77-87.

[14] 宋樂,何婷婷,王倩,等. 中文情感詞句識別及文本觀點抽取研究[C]. 第二屆中文傾向性分析評測會議(COAE). 上海, 2009:30-37.

[15] 張文文,王挺. 不規(guī)范文本的無監(jiān)督觀點句抽取[J]. 計算機(jī)與數(shù)字工程, 2013,41(1):64-68.

[16] 任德斌. 主觀性文本的情感極性分析研究[D]. 東北大學(xué)信息科學(xué)與工程學(xué)院, 2009.

[17] 李德有,李凌霞,郭瑞波. 基于Weka平臺的機(jī)器學(xué)習(xí)方法探究[J]. 電腦知識與技術(shù),2012,8(10):2334-2337.

猜你喜歡
話題機(jī)器學(xué)習(xí)規(guī)則
撐竿跳規(guī)則的制定
數(shù)獨的規(guī)則和演變
讓規(guī)則不規(guī)則
Coco薇(2017年11期)2018-01-03 20:59:57
TPP反腐敗規(guī)則對我國的啟示
話題與主語研究
未來英才(2016年22期)2016-12-28 13:34:14
再論漢語話題與主語
《曉松奇談》話題選擇及啟示意義
基于機(jī)器學(xué)習(xí)的圖像特征提取技術(shù)在圖像版權(quán)保護(hù)中的應(yīng)用
小學(xué)語文口語交際教學(xué)研究
基于網(wǎng)絡(luò)搜索數(shù)據(jù)的平遙旅游客流量預(yù)測分析
時代金融(2016年27期)2016-11-25 17:51:36
巴里| 宁明县| 右玉县| 鄂尔多斯市| 平顺县| 彭州市| 印江| 湖南省| 乌拉特后旗| 广西| 鄂伦春自治旗| 永靖县| 星子县| 镇宁| 建阳市| 泌阳县| 芒康县| 富川| 清徐县| 武乡县| 治多县| 杂多县| 拉孜县| 宜良县| 南阳市| 阳曲县| 威信县| 邵武市| 永年县| 丘北县| 霍山县| 临夏市| 临清市| 海伦市| 溆浦县| 湾仔区| 启东市| 沈丘县| 马龙县| 新平| 砀山县|