国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于輿論數(shù)據(jù)的中文情感分析研究

2016-03-09 10:52:28寇凱
無線互聯(lián)科技 2016年1期
關(guān)鍵詞:情感分析模型

寇凱

摘要:隨著互聯(lián)網(wǎng)高速發(fā)展,人們通過網(wǎng)絡(luò)社交平臺對于社會輿論發(fā)表自己的觀點。對這些輿論數(shù)據(jù)進行情感分析研究,識別出情感傾向,為企業(yè)、政府制定戰(zhàn)略決策提供重要支持。文章首先對情感分析的研究現(xiàn)狀進行說明;然后根據(jù)處理數(shù)據(jù)的不同,將情感分析方法歸為四種模型;最后總結(jié)中文情感分析的不足和面臨的挑戰(zhàn),并對前景進行展望。

關(guān)鍵詞:情感分析;情感傾向;模型

隨著Web2.0的興起,越來越多的網(wǎng)民利用微博等社交平臺發(fā)布信息。2015年7月23日,CNNIC發(fā)布了最新中國互聯(lián)網(wǎng)報告,報告顯示,我國網(wǎng)民規(guī)模達6.68億,互聯(lián)網(wǎng)普及率為48.8%,大量的輿論成為重要的數(shù)據(jù)來源。本文將重點對情感分析模型進行總結(jié)。

1.情感分析概述

情感分析又稱情感挖掘。通過計算機技術(shù)對數(shù)據(jù)進行分析,挖掘出人們對于社會輿論表達積極(Pos)、消極(Neg)或中性的(Neu)情感。數(shù)據(jù)類別不同采用方法不同,提取情感特征也不同。目前情感分析模型大致分為4類,分別是基于情感詞典、詞句、文檔和主題模型。以下分別從這4類模型進行整理。

2.基于情感詞典模型

情感詞又稱帶有情感傾向性的詞語。確定一個詞是積極還是消極,用情感詞典把對應(yīng)的情感詞用數(shù)值表示出來,正值為積極,負值為消極,零為中性。這種方法簡單易行。

劉坤林將情感詞表與人工選擇的規(guī)則相結(jié)合,統(tǒng)計待分析文本中積極情感詞和消極情感詞的個數(shù)直接判斷。李鈺將傳統(tǒng)基礎(chǔ)情感詞典和微博表情符號詞典相結(jié)合,得到微博正向情感詞數(shù)加上正向表情符號數(shù)與負向情感詞數(shù)加上負向表情符號數(shù)相互比較確定情感極性。杜振雷提出多特征融合的情感分析,在計算中加入多個特征,利用SVM分類器進行分析。劉楠用詞典的主客觀方法和統(tǒng)計方法相結(jié)合,將含有情感詞或情感表情符號的微博短文本判別為觀點句。通過特征項是否在情感詞典中出現(xiàn),以及出現(xiàn)的頻率判別情感。王志濤利用現(xiàn)有詞典,將句型句間關(guān)系、詞語多元組和主題詞相關(guān)性等規(guī)則相結(jié)合。

3.基于詞句模型

詞句情感分析是把一篇文檔分成多個詞語或句子,采用基于情感詞典方法和基于機器學(xué)習(xí)方法對詞句進行分析是積極、消極還是中性。

李巖建立親和力傳播算法詞語義傾向性方法。先利用文本激活力模型對具體數(shù)據(jù)集進行建模;然后找到詞親和力網(wǎng)絡(luò)抽取候選觀點詞;最后檢測候選觀點詞的語義傾向性并生成語義傾向性詞典。Meng等提出一種跨語言的混合模型,選取相互匹配的雙語料似然最大化的參數(shù)學(xué)習(xí)法,來獲取情感詞典中從來沒有出現(xiàn)過的詞匯來提高情感詞典的覆蓋。劉楠將加權(quán)投票與AdaBoost方法組合成VoteAdaBoost模型,對樣本進行迭代訓(xùn)練形成分類器對情感分類。姚天叻等提出標注詞性搜索依存關(guān)系判斷詞性的方法。李婷婷等提出基于SVM和CRF多特征組合的微博情感分析方法。

4.基于文檔模型

文檔的情感分析是分析整個文本的情感傾向性。早期的文檔情感分析是在詞語和句子的基礎(chǔ)上進行。隨著網(wǎng)絡(luò)的快速發(fā)展,文檔的情感也變得多樣化和復(fù)雜化,所以分析起來相比基于詞典的方法和基于詞句的方法更具有挑戰(zhàn)性。

李巖根據(jù)情感鑒別算法計算情感親和力值,將SDA和SSC線性組合,根據(jù)正傾向和負傾向情感特征的整體得分情況對文檔的情感傾向性進行分析。王文等提出基于文本語義和表情傾向的微博情感分析方法,構(gòu)建四元組Q(A,S,F(xiàn),E)。王根等提出多重冗余標記CRFs的句子情感分析研究,利用冗余信息能夠?qū)⒍鄠€互相關(guān)聯(lián)的任務(wù)統(tǒng)一起來。馮時等根據(jù)博文特點,構(gòu)建博文情感傾向性識別算法計算結(jié)果,給定閾值參數(shù)作為最終的評價標準。李景玉等利用SVM的候選評價對象篩選模型和加權(quán)的候選評價對象篩選模型,對特征的語義、最小距離和詞頻進行篩選評鑒對象。葉強等根據(jù)連續(xù)雙詞詞類組合模式(2-POS)自動判斷句子主觀性程度的方法,利用加權(quán)后的主觀詞類組合模式,計算語句主觀性。張浩將CRF和EM融合的方法對語料進行情感分析。張想在SVM的基礎(chǔ)上,構(gòu)建TSVM分類器模型,對評價對象特征進行抽取與合并,對詞語覆蓋率的純度上有很好的改進。

5.基于主題模型

主題又稱為評價對象。一篇文檔往往含有一個或者多個主題,每個主題對應(yīng)相應(yīng)的概率分布。通過將概率分布可以大致確定情感傾向為積極、消極或中性的。

劉坤林將人工標注的數(shù)據(jù)和噪聲標注的數(shù)據(jù)的機器學(xué)習(xí)算法進行集成,構(gòu)建基于ESLAM。通過集成的表情符號平滑的語言模型不僅可以判別積極和消極的情感,也可以主觀性的分類。TSENG H等依靠SBV極性傳遞算法,尋找所有含有SBV結(jié)構(gòu)的關(guān)系對,記錄主題打上標簽,最后判斷情感極性。謝麗星等構(gòu)建層次結(jié)構(gòu)的多策略分析框架,將網(wǎng)絡(luò)用語詞典進行匹配識別,以及否定詞的轉(zhuǎn)移處理,深入研究主題相關(guān)特征。陳永恒等利用SAA SSW貝葉斯網(wǎng)絡(luò)模型對主題種子詞及句子進行重構(gòu)。GRIFFITHS T等將詞典情感傾向性與LDA話題模型與滑動窗口的多方面集成,形成的情感分析模型,可以有效地識別和劃分話題。

6.結(jié)語

隨著互聯(lián)網(wǎng)的發(fā)展,輿論熱點越來越受到人們關(guān)注。針對這些數(shù)據(jù)進行研究,挖掘其中含有的情感,是具有深遠意義的。除了以上的方法外,中文的意思多義,在不同情景下表達的情感也有所不同,不但要考慮其本身意思,也要根據(jù)上下文考慮語義傾向性。本文對情感分析的相關(guān)研究成果進行綜述,總結(jié)了情感分析的模型,確定下一步研究重點,為未來情感分析的研究提供幫助。

猜你喜歡
情感分析模型
一半模型
p150Glued在帕金森病模型中的表達及分布
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
基于語義的互聯(lián)網(wǎng)醫(yī)院評論文本情感分析及應(yīng)用
基于雙向循環(huán)神經(jīng)網(wǎng)絡(luò)的評價對象抽取研究
基于SVM的產(chǎn)品評論情感分析系統(tǒng)的設(shè)計與實現(xiàn)
基于詞典與機器學(xué)習(xí)的中文微博情感分析
在線評論情感屬性的動態(tài)變化
預(yù)測(2016年5期)2016-12-26 17:16:57
3D打印中的模型分割與打包
丰城市| 广水市| 大理市| 广安市| 冕宁县| 孟津县| 阳高县| 营山县| 邢台市| 德庆县| 彩票| 石楼县| 中方县| 格尔木市| 阳春市| 翁源县| 大埔县| 肇庆市| 韶关市| 三亚市| 屯昌县| 云安县| 清新县| 甘南县| 财经| 留坝县| 莎车县| 成都市| 辽宁省| 蒲江县| 山西省| 那坡县| 读书| 海阳市| 隆子县| 农安县| 罗甸县| 安达市| 井陉县| 本溪| 恭城|