国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于SVM和詞向量的Web新聞傾向性分析

2016-06-22 09:18:00肖宇倫歐陽(yáng)純萍劉志明南華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院衡陽(yáng)421000
現(xiàn)代計(jì)算機(jī) 2016年14期
關(guān)鍵詞:傾向性語(yǔ)料關(guān)鍵

肖宇倫,歐陽(yáng)純萍,劉志明(南華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,衡陽(yáng) 421000)

?

基于SVM和詞向量的Web新聞傾向性分析

肖宇倫,歐陽(yáng)純萍,劉志明
(南華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,衡陽(yáng)421000)

摘要:

關(guān)鍵詞:

0 引言

隨著互聯(lián)網(wǎng)的普及,網(wǎng)絡(luò)上的信息量與日俱增,而這些信息多是以文本方式產(chǎn)生的,因此利用計(jì)算機(jī)對(duì)文本進(jìn)行有效、準(zhǔn)確的傾向性分析是一項(xiàng)非常有意義的研究課題。例如對(duì)商品評(píng)論進(jìn)行褒貶分析,可以反映該商品是否受到消費(fèi)者的青睞。新聞作為輿情的一個(gè)重要來(lái)源,反映了公眾對(duì)某一事件的關(guān)注度,同時(shí)隨著新聞的傳播容易誘發(fā)網(wǎng)絡(luò)輿情。從而對(duì)Web新聞傾向性進(jìn)行全面、有效和準(zhǔn)確地分析可以幫助有關(guān)部門(mén)對(duì)突發(fā)的輿情進(jìn)行預(yù)警。

在對(duì)于篇章級(jí)的新聞文本進(jìn)行傾向性分類(lèi)上,黃萱菁等[1]認(rèn)為若將篇章作為一個(gè)整體籠統(tǒng)地進(jìn)行傾向性分析存在很大的局限,其主要缺陷在于文本中包含多個(gè)對(duì)象,而不同對(duì)象涉及到的主觀信息是有差異的。因此目前針對(duì)篇章級(jí)文本的傾向分類(lèi)的方法主要是對(duì)文本進(jìn)行降維,降維后再以基于語(yǔ)義或基于機(jī)器學(xué)習(xí)的方法進(jìn)行篇章傾向性分析。

在基于語(yǔ)義的篇章性分析中,左維松[2]等在進(jìn)行分析時(shí),將篇章拆分為句子,通過(guò)對(duì)句子的情感分析,得出篇章的情感傾向性。申曉曄等[3]在分析Web新聞傾向性時(shí),選取文本中每個(gè)段落的情感傾向性強(qiáng)度最高的句子,作為代表該段的關(guān)鍵句。再根據(jù)關(guān)鍵句的位置及關(guān)鍵句所在段落位置計(jì)算關(guān)鍵句的權(quán)值,最后結(jié)合關(guān)鍵句的傾向值和權(quán)值得到篇章的傾向性。尤建清等[4]提出了基于主題句抽取的新聞文本傾向性分析方法,該方法通過(guò)分析新聞文本中的高頻詞、新聞標(biāo)題、句子位置和傾向詞等特征提取出文本的主題句,由主題句的傾向性作為整個(gè)篇章的傾向性。

基于機(jī)器學(xué)習(xí)的傾向性分析主要分為兩個(gè)階段:特征選擇階段和機(jī)器學(xué)習(xí)階段。昝紅英等[5]在特征選擇時(shí),將詞匯的IDF與Χ2統(tǒng)計(jì)量結(jié)合起來(lái),并采用SVM進(jìn)行分類(lèi)。在語(yǔ)料不平衡的情況下取得了較高的正確率。徐軍等[6]在特征選擇時(shí),不僅考慮了詞匯的TF和Binary一些統(tǒng)計(jì)特征,還結(jié)合了詞匯的詞性和否定詞。分類(lèi)器采用Naive Bayes和Maximum Entropy。實(shí)驗(yàn)結(jié)果表明在結(jié)合了文本的語(yǔ)義后,分類(lèi)的正確率有一定的提高。Dongwen Zhang等[7]在對(duì)商品評(píng)價(jià)的分類(lèi)上,將語(yǔ)料通過(guò)Word2Vec進(jìn)行訓(xùn)練后,獲取詞匯的上下文信息,然后將詞匯的上下文信息及詞性作為特征,使用SVM進(jìn)行分類(lèi)。這種方法同樣取得了較高的正確率。此外Google公司在2013年發(fā)布的一款用于訓(xùn)練詞向量[8]的軟件工具——Word2Vec。它可以根據(jù)給定的語(yǔ)料庫(kù),快速的將一個(gè)詞語(yǔ)表示為向量形式。Word2Vec訓(xùn)練出的詞向量的形式為distributed representation。一個(gè)distributed representation是一個(gè)稠密、低維的實(shí)值向量,它的每一維表示詞語(yǔ)的一個(gè)潛在特征,該特征捕獲了有用的句法和語(yǔ)義特性。由于詞向量具有良好的語(yǔ)義特征,因此我們選取詞向量和SVM來(lái)進(jìn)行Web新聞的傾向性分析。

1 Web新聞的傾向性分析框架設(shè)計(jì)

對(duì)Web新聞文本的傾向性分析是指利用分類(lèi)算法分析出該新聞的情感主題是褒義還是貶義,我們圍繞這一目標(biāo)主要完成以下工作:第一,對(duì)收集到的新聞?wù)Z料進(jìn)行分詞,并通過(guò)Word2Vec進(jìn)行訓(xùn)練,獲得詞語(yǔ)的詞向量表示。第二,對(duì)需要分類(lèi)的新聞文本,依次進(jìn)行以下三個(gè)步驟:提取關(guān)鍵句、分詞及詞性標(biāo)注及通過(guò)SVM進(jìn)行分類(lèi)。最后得到由SVM分類(lèi)后的新聞?lì)悇e。具體框架如圖1所示。

圖1 系統(tǒng)功能框圖

2 特征抽取及情感分類(lèi)

2.1關(guān)鍵句的提取

由于新聞文本的特殊性,可以從文本中提取到一些其他文本所不具有的信息。因此以下三個(gè)影響因素被確定為選取關(guān)鍵句的標(biāo)準(zhǔn)。

(1)含有新聞文本標(biāo)題中實(shí)詞的句子

Web新聞標(biāo)題不同于傳統(tǒng)的報(bào)紙一樣,講究各種修辭表達(dá)方法、講究生動(dòng)形象和講究對(duì)稱(chēng)有韻味等,而是以最簡(jiǎn)潔的語(yǔ)言以最直接的方式把主要新聞事實(shí)敘述出來(lái)。因此含有新聞文本標(biāo)題中實(shí)詞的句子跟新聞主題有一定的關(guān)聯(lián)度,含有新聞標(biāo)題中的實(shí)詞越多的句子與新聞主題的關(guān)聯(lián)度越大。

(2)含有主張?jiān)~的句子

對(duì)Web新聞進(jìn)行觀察后,發(fā)現(xiàn)有這樣的一類(lèi)詞,例如“認(rèn)為”,“覺(jué)得”等,我們把這些詞稱(chēng)為主張?jiān)~。含有主張?jiān)~的句子往往代表觀點(diǎn)持有者的一種態(tài)度,具有強(qiáng)烈的傾向性。特別是在評(píng)論性的新聞文本中,例如:“我認(rèn)為,事情到了今天這個(gè)地步,必須要回答下列問(wèn)題——除了山西,別的地方還有多少類(lèi)似的人道主義危機(jī)”。

(3)句子在文本中所處的位置

申曉曄等[3]在處理句子位置權(quán)值時(shí),認(rèn)為處于文章開(kāi)頭和結(jié)尾的句子相較于文本中的其他句子具有較高的權(quán)值。本文采取同樣的方式。計(jì)算方式如下:

其中i是句子在文本中的位置,a是文本中所有的句子總數(shù)。

2.2傾向性句子的識(shí)別

(1)預(yù)處理階段

由于要獲取到某個(gè)詞語(yǔ)在大多數(shù)文本中的句法和語(yǔ)義特性,因此本文預(yù)先選擇大規(guī)模的新聞文本語(yǔ)料,然后通過(guò)Word2Vec進(jìn)行訓(xùn)練,獲得詞語(yǔ)的詞向量表示。在實(shí)驗(yàn)中,采用默認(rèn)參數(shù)對(duì)新聞文本語(yǔ)料進(jìn)行訓(xùn)練。

(2)特征選擇

在分類(lèi)算法中,詞語(yǔ)的詞性通常用來(lái)作為分類(lèi)特征。不同詞性的選擇可能會(huì)導(dǎo)致分類(lèi)結(jié)果的不同[9]。例如,如果只以形容詞作為特征,分類(lèi)結(jié)果并不會(huì)好于以名詞、動(dòng)詞和形容詞同時(shí)作為特征。這是由于不同的詞性有不同的語(yǔ)義傾向[7]。因此,本文在對(duì)新聞文本進(jìn)行分詞和詞性標(biāo)注后,保留名詞、動(dòng)詞、形容詞和副詞,以這些文本中出現(xiàn)頻率最高的詞性作為特征。

(3)SVM訓(xùn)練和分類(lèi)

SVM(支持向量機(jī))目前廣泛運(yùn)用于模式識(shí)別、知識(shí)發(fā)現(xiàn)、計(jì)算機(jī)視覺(jué)與圖像識(shí)別和自然語(yǔ)言處理等技術(shù)中。在自然語(yǔ)言處理中SVM廣泛運(yùn)用于短語(yǔ)識(shí)別、詞義消歧、文本自動(dòng)分類(lèi)、信息過(guò)濾等方面。本文采用臺(tái)灣大學(xué)林智仁教授等開(kāi)發(fā)的LIBSVM用于模型的訓(xùn)練和新聞文本的分類(lèi),訓(xùn)練采用LIBSVM提供的默認(rèn)參數(shù)。核函數(shù)選擇徑向基核函數(shù),以保證分類(lèi)時(shí)不會(huì)出現(xiàn)太大的偏差,在無(wú)參調(diào)優(yōu)的情況下能同時(shí)保證準(zhǔn)確率和召回率[10]。

3 實(shí)驗(yàn)結(jié)果與系統(tǒng)實(shí)現(xiàn)

3.1實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)中訓(xùn)練詞向量的語(yǔ)料和句子級(jí)的傾向性分析實(shí)驗(yàn)數(shù)據(jù)均來(lái)自于譚松波博士提供的10 000篇中文酒店評(píng)論語(yǔ)料。選取6000條評(píng)論語(yǔ)料,其中褒義類(lèi)3000篇,貶義類(lèi)3000篇,將訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)按2:1隨機(jī)分配。實(shí)驗(yàn)結(jié)果如表1所示。

表1 基于詞性特征的實(shí)驗(yàn)結(jié)果

從表2中可以看出,以名詞、動(dòng)詞、形容詞和副詞作為特征進(jìn)行分類(lèi),比單一特征具有較高的F值。同時(shí)又發(fā)現(xiàn)只以形容詞做特征時(shí),正面情感分類(lèi)的正確率和負(fù)面情感分類(lèi)的召回率都比較高,但F值相較于其他結(jié)果卻比較低。這是由于大多數(shù)形容詞具有明顯的語(yǔ)義傾向,是傾向性分類(lèi)的一個(gè)重要依據(jù)。但在形容詞與否定副詞結(jié)合后,原有的語(yǔ)義傾向發(fā)生了改變。因此只以形容詞作為特征時(shí),分類(lèi)的綜合性能較差。

3.2系統(tǒng)實(shí)現(xiàn)

本方法已在南華大學(xué)輿情監(jiān)測(cè)系統(tǒng)傾向分析模塊中實(shí)現(xiàn),系統(tǒng)預(yù)先通過(guò)信息提取模塊采集到2002年至2015年之間所有針對(duì)南華大學(xué)的新聞,新聞分別來(lái)自于人民網(wǎng)、騰訊網(wǎng)、新浪網(wǎng)、鳳凰網(wǎng)等主流新聞媒體。然后對(duì)所有新聞進(jìn)行傾向性分析,并按網(wǎng)站進(jìn)行分類(lèi),分別得出每個(gè)網(wǎng)站在這段時(shí)間內(nèi)對(duì)對(duì)南華大學(xué)有關(guān)報(bào)道的正負(fù)面新聞。

(1)獲取文章關(guān)鍵句

傾向性分析模塊每次從新聞中抽取3句話作為代表該新聞的關(guān)鍵句。以發(fā)表于新華網(wǎng)的《南華大學(xué)分專(zhuān)業(yè)靠抓鬮引質(zhì)疑回應(yīng)稱(chēng)院領(lǐng)導(dǎo)醞釀?dòng)懻摿季谩沸侣劄槔?,分析得到關(guān)鍵句如圖2所示。

圖2 新聞關(guān)鍵句SVM分類(lèi)

例如圖2內(nèi)三個(gè)句子進(jìn)行分在獲得新聞關(guān)鍵句之后,再通過(guò)特征提取,獲取關(guān)鍵句的詞向量表示,最后通過(guò)SVM進(jìn)行分類(lèi),就可以得到每個(gè)關(guān)鍵句的傾向性。分類(lèi)后,傾向性分別是1.0,-1.0,1.0,以1.0表示正面,-1.0表示負(fù)面。由此得出該篇新聞是一篇總體傾向?yàn)橹行缘男侣劇?/p>

(2)新聞傾向性分析結(jié)果

在對(duì)搜狐、紅網(wǎng)論壇、新浪等網(wǎng)站進(jìn)行傾向性分析后,統(tǒng)計(jì)各個(gè)網(wǎng)站在一段時(shí)間內(nèi)對(duì)南華大學(xué)褒、中、貶三種傾向的新聞報(bào)道的數(shù)量,分析結(jié)果展示如圖3所示。

圖3 新聞傾向性分析結(jié)果

4 結(jié)語(yǔ)

本文研究了對(duì)Web新聞傾向性分析問(wèn)題,通過(guò)提取文章關(guān)鍵句,在大規(guī)模新聞文本下構(gòu)建詞向量反映詞語(yǔ)的上下文含義,選擇傾向性詞語(yǔ)常用詞性作為特征,采用SVM對(duì)關(guān)鍵句傾向性進(jìn)行分類(lèi),最后以關(guān)鍵句傾向性反映Web新聞的傾向性。由于詞語(yǔ)的詞性不足以反應(yīng)詞語(yǔ)的語(yǔ)義傾向,下一步的工作將對(duì)特征選擇的方法進(jìn)行改進(jìn),進(jìn)一步提高關(guān)鍵句的分類(lèi)正確率。

參考文獻(xiàn):

[1]黃萱菁,趙軍.中文文本情感傾向性分析[J].中國(guó)計(jì)算機(jī)學(xué)會(huì)通訊,2008,4(2):41-46.

[2]左維松.規(guī)則和統(tǒng)計(jì)相結(jié)合的篇章情感傾向性分析研究[D].碩士學(xué)位論文].鄭州:鄭州大學(xué),2010.

[3]申曉曄,封化民,毋非.基于語(yǔ)義理解的Web新聞傾向性分析.in第四屆全國(guó)信息檢索與內(nèi)容安全學(xué)術(shù)會(huì)議論文集(上).2008.

[4]尤建清,張仰森,童毅軒.基于主題句抽取的新聞文本傾向性分析方法.第十五屆漢語(yǔ)詞匯語(yǔ)義學(xué)國(guó)際研討會(huì).2014.中國(guó)澳門(mén).

[5]Zan H Y,Guo M,Chai Y M,et al.Research on News Report Text Sentiment Tendency[J].Jisuanji Gongcheng/ Computer Engineering,2010,36(15).

[6]徐軍,丁宇新,王曉龍.使用機(jī)器學(xué)習(xí)方法進(jìn)行新聞的情感自動(dòng)分類(lèi)[J].中文信息學(xué)報(bào),2007,21(6):95-100.

[7]Zhang,D.,et al.,Chinese Comments Sentiment Classification Based on Word2vec and SVM perf.Expert Systems with Applications,2015.42(4):p.1857-1863.

[8]Turian J,Ratinov L,Bengio Y.Word Representations:a Simple and General Method for Semi-Supervised Learning[C].Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics.Association for Computational Linguistics,2010:384-394.

[9]Liu B,Zhang L.A Survey of Opinion Mining and Sentiment Analysis[M].Mining text data.Springer US,2012:415-463.

[10]劉銘,昝紅英,原慧斌.基于SVM與RNN的文本情感關(guān)鍵句判定與抽取[J].山東大學(xué)學(xué)報(bào)(理學(xué)版),2014,49(11):68-73.

Web News Sentiment Analysis Based on SVM and Word Embedding

XIAO Yu-lun,OUYANG Chun-ping,LIU Zhi-ming
(School of Computer Science and Technology,University of South China,Hengyang 421000)

Abstract:

Proposes an approach for classifying the sentiment of news text based on SVM and Word Embedding.Firstly,word embedding is achieved by training the pre-collected news corpus with word2vec.Secondly,key sentences are constructed from some key words in news text.At last,the word embedding and key words' part-of-speech are selected as combination features to apply in SVM algorithm,and then the sentiment classification of news text is obtained.Experimental results show that SVM based on combination features has high F value in sentiment classification.

Keywords:

提出一種通過(guò)提取詞向量,并利用機(jī)器學(xué)習(xí)對(duì)新聞文本進(jìn)行分類(lèi)的方法。首先,通過(guò)對(duì)預(yù)先收集好的新聞?wù)Z料進(jìn)行分析,獲取到詞的向量表示形式;然后通過(guò)新聞中的一些關(guān)鍵詞提取出新聞的關(guān)鍵句;最后把詞向量和關(guān)鍵句當(dāng)中的關(guān)鍵詞詞性作為組合特征,采用SVM算法進(jìn)行分類(lèi),得到新聞的傾向性類(lèi)別。實(shí)驗(yàn)表明,基于組合特征的SVM文本分類(lèi)方法具有較高的F值。

新聞傾向性分析;SVM;詞向量;詞性特征

基金項(xiàng)目:

湖南省哲學(xué)社會(huì)科學(xué)基金(No.14YBA335)

文章編號(hào):1007-1423(2016)14-0052-04

DOI:10.3969/j.issn.1007-1423.2016.14.011

作者簡(jiǎn)介:

肖宇倫(1995-),男,湖南懷化人,本科,研究方向?yàn)樽匀徽Z(yǔ)言處理

歐陽(yáng)純萍(1979-),女,湖南衡陽(yáng)人,副教授,碩士生導(dǎo)師,研究方向?yàn)樽匀徽Z(yǔ)言處理、語(yǔ)義網(wǎng)

劉志明(1972-),男,湖南瀏陽(yáng)人,教授,碩士生導(dǎo)師,研究方向?yàn)榇髷?shù)據(jù)分析、知識(shí)工程

收稿日期:2016-03-17修稿日期:2016-05-10

News Sentiment Analysis;SVM;Word Embedding;Part-of-Speech Feature

猜你喜歡
傾向性語(yǔ)料關(guān)鍵
基于模糊數(shù)學(xué)法的阿舍勒銅礦深部巖體巖爆傾向性預(yù)測(cè)
高考考好是關(guān)鍵
基于語(yǔ)料調(diào)查的“連……都(也)……”出現(xiàn)的語(yǔ)義背景分析
關(guān)于醫(yī)患沖突報(bào)道的傾向性分析——以“湘潭產(chǎn)婦死亡案”為例
華語(yǔ)電影作為真實(shí)語(yǔ)料在翻譯教學(xué)中的應(yīng)用
“沒(méi)準(zhǔn)兒”“不一定”“不見(jiàn)得”和“說(shuō)不定”的語(yǔ)義傾向性和主觀性差異
《苗防備覽》中的湘西語(yǔ)料
國(guó)內(nèi)外語(yǔ)用學(xué)實(shí)證研究比較:語(yǔ)料類(lèi)型與收集方法
一種面向博客群的主題傾向性分析模型
獲勝關(guān)鍵
NBA特刊(2014年7期)2014-04-29 00:44:03
登封市| 泗洪县| 本溪| 栖霞市| 湖南省| 定襄县| 亳州市| 新巴尔虎右旗| 巴彦县| 永平县| 林州市| 临猗县| 舞钢市| 九龙县| 新源县| 睢宁县| 含山县| 称多县| 玉龙| 观塘区| 紫阳县| 错那县| 祥云县| 娄底市| 阿拉善盟| 新巴尔虎右旗| 兴安盟| 鲁甸县| 南昌市| 和平县| 教育| 广德县| 铜梁县| 若羌县| 克山县| 樟树市| 仪陇县| 锡林郭勒盟| 太白县| 榆林市| 芦山县|