国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

PMI與Hownet結合的中文微博情感分析

2021-06-17 12:08:40陳臨強
電子科技 2021年7期
關鍵詞:博文極性詞典

郝 苗,陳臨強

(杭州電子科技大學 計算機學院,浙江 杭州 310018)

近年來,隨互聯網技術、移動終端技術的迅速發(fā)展,我國微博用戶數量激增,尤其以新浪微博為主,產生的微博文本數量也迅速增長。Web2.0的提出與興起使互聯網賦予網民更多主動,社交媒體成為用戶獲取、分享、發(fā)表信息的平臺。據第43次“中國互聯網發(fā)展統計報告”,到2018年12月為止,中國網民數量高達8.29億,滲透率約59.6%,移動互聯網用戶數達到8.17億,網民接入互聯網比例高達98.6%,移動互聯網已滲透到生活的各個方面[1]。2019年3月中旬,相關部門發(fā)布“2018年微博用戶發(fā)展報告”,報告顯示,截至2018年4月底,微博中每月活躍人口總數為4.62億,每日活躍用戶則達到2億,相比較去年同期增長了25%[2]。數量龐大的微博文本,已經能夠作為情感分析的重要數據來源?!扒楦蟹治觥币卜Q意見挖掘,通過處理文本獲得情感傾向,從而獲得人群網絡文本的情感傾向,為輿情監(jiān)控、預測、引導提供了重要指導意見,也有助于改進產品服務及預測信息走勢。情感分析研究所面臨的困難源于兩個方面:(1)文本情感分析技術涉及領域廣,例如數據挖掘、自然語言處理、機器學習等,這些技術理論知識復雜,難以掌握;(2)現有文本情感分析技術準確度不高。因此,有必要提出一個準確、有效的方法來提高文本情感分析準確性。

本文的主要貢獻有:利用 Hownet 相似度整合現有詞典;利用 PMI(Pointwise Mutual Information) 算法對現有詞典擴充,構建符合新浪微博短文本表達特點的微博專用情感詞典;收集新浪微博“熱點”部分微博,對微博進行清洗、過濾、分詞等預處理;結合微博專用情感詞典訓練Bayes分類器得到情感分析模型。

1 相關工作

情感分析是對公眾在社交媒體中發(fā)表的評論性文本進行主觀意見挖掘,情感分析的結果能夠判斷研究對象的情感傾向。最早的情緒分析研究始于國外,基于情感詞典的分析方法,其結果準確性取決于詞典涵蓋某領域的完整程度,以及詞典標注的準確程度。微博文本中的新詞是無窮無盡的,新的在線詞匯迅速出現對情緒分析的準確性產生了重要影響。同時中文表達的含義豐富多樣,僅依靠情感詞典難以得到準確的情感分析結果。基于監(jiān)督學習的方法能夠避免人工帶來的誤差,其準確性依賴于文本特征的提取,但是需要大量標注訓練集才能得到準確的訓練結果[3-5]。文本情感分析的關鍵是找到情感詞提取關鍵字并建立情感分析模型,最后對文本進行情感傾向的分析。

文本情感分析從3個層次出發(fā),分別是詞語級、句子級、篇章級。對于詞語級別的情感分析,文獻[6]提出形容詞在句子情感分析中占主導,在句子級的極性傾向計算中有較好的體現。例如句子是由詞語組成的,通過提取其中的關鍵詞,進行語義情感分析,從而得到詞語的極性傾向值,這個傾向值就是整個句子的語義極性傾向。但實際上對于句子級情感分析,僅通過對單個詞語分析來確定句子整體傾向并不是最好的方式。文獻[7]提出通過詞組進行分析,因為相對于單一詞語,用詞組表現情感更準確、直觀。他們也通過相關的實驗,如抽取語料庫中的詞組,系統根據這些詞組進行分析,得出對應的語義傾向,最后計算這些傾向值的平均值,用均值代表整句情感。除此之外,文獻[8]提出另外一種基于情感詞典的無監(jiān)督方法。該方法最初應用于句子的情感分析[9],通過計算情感詞典中情感強度和情感詞匯的關聯度獲得情感分值,以及文本情感分析。

文獻[10]在文本情感分析方面做了大量實驗。實驗以表情符號為基礎,首先采集大量的表情符號構建情感詞典,然后將詞典應用于社交網絡平臺,最后經試驗得到較準確的分析結果。利用傳統的特征提取方法,或者詞向量與機器學習算法相的組合,是情感分析領域的熱點問題之一。文獻[11]針對網上在線招聘廣告,建立薪水預測模型幫助求職者選擇合適職位,利用文本深度表示模型Doc2vec計算文本的特征向量,更深入地表示文本語義特征。此外,其結合隨機森林、支持向量機(Support Vector Machine, SVM),例如使用SVM建立薪資預測模型,將 Doc2vec模型與詞頻逆向文件頻率模型(Term Frequency-Inverse Document Frequency,TF-IDF)、Word2vec 進行比較,發(fā)現Doc2vec 可以在薪資預測中取得更令人滿意的預測效果。文獻[12]使用 Word2vec 模型,并在此基礎上將其與TF-IDF 權重計算方法相結合,將微博轉換為文本向量的形式,用 K-means 聚類算法對微博數據聚類處理,得到文本的相關主題。文獻[13]提出了詞向量(Word Embedding 或者 Distributed Representation)的思想?!霸~向量”是一個向量,是低維稠密的特征表達形式,用于解決維數災難問題。由于向量本身具有信息量,使用詞向量時,可使用向量余弦距離表示詞語之間的語義距離[14]。

2 整體框架

本文所提出解決微博文本情感分析問題的整體框架,由兩部分組成:第一構建微博專用情感詞典;第二結合貝葉斯分類算法訓練分類器對微博文本進行情感分析。整體框架如圖1所示。

圖1 微博情感分析整體框架

2.1 構建專用詞典

情感分析研究中常用的詞典有:近義詞及其褒貶詞詞典、清華大學褒貶義詞典、NTUSD臺灣大學中文情感詞典、知網Hownet情感詞典[15]、情感詞典及其分類、漢語極性詞極值表、情感詞匯本體,各詞典特征如表1所示。本文將5個標注極性分類的詞典直接合并,沒有極性標注的詞典利用下述規(guī)則合并,并添加網絡新詞構建完整詞典。

表1 情感詞典

2.2 算法原理

(1)利用知網(Hownet)相似度合并詞典。對于多類別情感詞典,使用Hownet相似度進行合并,文獻 [16]是對中英文單詞所代表的概念的描述。Hownet提供很多有關文本處理的功能,例如詞性標注、文本相似度計算等,其中語義相似度計算和語義相關場的計算在本研究中尤為重要,且使用語義相似度計算文本情緒值準確度更高?!罢Z義相似度”反映語義的近似程度,可以理解為兩個詞語在不同語句中能夠相互替換且不改變句子原本意義的程度。詞語的情感傾向由它與基準詞的語義相似度決定,與積極詞典中的基準詞相似度大表示傾向積極,反之傾向于消極。

待分析詞語計算得到的情感值用so_Hownet(Word)表示,調用Hownet相似度接口計算詞語相似度,情感傾向計算式為式(1)。

(1)

用Hownet相似度計算情感值,首先選取褒義詞、貶義詞兩組基準詞,調用Hownet API計算相似度,根據相似度對詞語進行情感極性判斷。其中,sim(Word,posi)和sim(Word,negi)代表Word與褒義詞、貶義詞的相似度。so_Hownet(Word)的值為“正”表示詞語褒義。為“負”表示貶義,設置相似度閾值為θ1,以詞語相似度為標準將詞語劃分進詞典;

(2)利用PMI添加網絡新詞。將PMI用在情感極性計算上,擴充情感詞典,PMI是一種基于統計的計算方法。該算法計算語料庫中目標詞與基準詞之間的關聯程度,并計算目標詞的情感值[17-18]。情緒基準詞集合為Pi={P1,P2,P3,…,Pn}(i= 1,2,3,…),n表示基準詞個數。目標詞集合為C,其中每個目標詞cj(j=1,2,3,…)與基準詞的PMI值計算式為

(2)

計算詞語概率

(3)

(4)

(5)

其中,count(pi,cj)、count(pi)、count(cj)分別表示cj與pi共同出現的次數、pi出現的次數,cj出現的次數、q表示語料庫文本總條數。將式(3)~式(5)帶入式(2)得式(6)。

(6)

為防止目標詞與基準詞在同一文本中次數為0沒有意義,引入拉普拉斯平滑因子

(7)

引入平滑因子后PMI計算式如下。

(8)

SO_PMI(pi,Bi)=PMI(pi,Bpi)-PMI(pi,Bni)

(9)

計算目標詞與兩極性基準詞Bpi及Bni的PMI,求得的差值結果為正,表示待計算網絡詞為積極詞語,為負表示該網絡詞為消極詞語,差值的絕對值大小表示傾向強度。設傾向性閾值θ2,將閾值劃分的詞語分別加入pos詞典(褒義詞典)、neg詞典(貶義詞典)。專用詞典構建流程如圖2所示。

圖2 情感詞典構建流程

2.3 訓練貝葉斯分類器

樸素貝葉斯分類器[18]算法簡單,對待分類項目給定輸出,將各類別出現概率的大小認定為分類項目所屬類別。樸素貝葉斯分類模型參數少,且對缺失值不敏感,適應微博短文本表達特點,適合用于微博情感分析中。貝葉斯算法原理如下

(10)

其中,w表示文本,由文本特征值{F1,F2,F3,…}描述,特征值由TF-IDF統計得到;c表示文本所屬類別;P(C)表示某一類別出現的概率;P(W|C)表示某類別情況下文本出現的概率。計算式如下

P(W|Ci)=P(F1|Ci)P(F2|Ci)P(F3|Ci)…

P(Fi|Ci)

(11)

(12)

(13)

式中,Nj表示特征文本在Ci類中出現的次數;N表示屬于Ci類的文本出現的總次數;Mj表示某種類別出現的次數;M表示所有類別出現的總次數。另外,由于進行分類時只比較概率大小,不再對分母P(W)進行計算。

貝葉斯算法對文本分類問題的描述為

(14)

式中,Fi表示微博文本特征詞語。為避免在計算特征詞類別概率為0的情況,概率公式引入Laplace平滑因子

(15)

其中,α表示特征的個數,同理可得式(16)。

(16)

2.4 結合詞典與監(jiān)督學習方法計算情緒值

(1)微博文本進行分詞預處理,本文采用Jieba分詞技術獲取中文分詞結果;

(2)逐個查找并匹配詞典中分詞的結果,在相應詞典中找到詞語以及標簽,直到句子結束;

(3)根據識別到的情緒詞計算微博情感值,根據情感值的大小判斷微博所屬分類。

3 微博數據準備

將情感分析的研究用于解決文本情感識別和分類問題時,需要大量真實微博數據進行試驗。本文使用八爪魚(Octopus)數據采集器設置采集字段進行數據采集,并刪除沒有情感分析價值的微博。

3.1 數據采集

收集微博文本是情緒分類實驗的數據基礎,采集新浪微博 “熱門”部分的微博,采集字段為 “微博內容” 、“微博發(fā)布時間”、 “點贊數”、 “轉發(fā)數”、“評論數”等,按照設置規(guī)則獲取“熱門”部分的全部微博。

由于獲得的微博數量龐大,采集時適當延長數據返回時間,設置自動翻頁循環(huán),減少操作次數和時間。如圖3所示,微博文本按照指定字段得到采集結果,并導出采集結果。

圖3 數據采集過程

3.2 數據預處理

獲取到新浪微博“熱點”部分的微博不能直接被使用,需要對這些數據進行清洗、分詞等預處理。首先,清除含有異常字符的微博;然后清除沒有情感分析價值的微博,例如用于營銷、活動推廣的帶有網絡鏈接的博文,出現“領取”“紅包”等詞語的微博,或者單純圖片轉發(fā)微博等。經過清洗與篩選之后得到的一部分數據,如表2所示。

表2 微博數據清洗結果

數據清洗部分完成對微博數據的粗略篩選,去掉沒有分析價值的微博;然后進行分詞處理,本文使用Python版本 Jieba進行分詞。

為增加網絡詞的識別情況,載入網絡詞典,載入詞典的核心代碼:jieba.load_userdict(“%vlogdic.txt”)。分詞處理得到的結果如表3所示。

表3 分詞結果

載入網絡詞典之后,微博文本網絡詞識別能力有所提高,應用在情感極性計算上也更加合理。

4 實驗結果

本實驗用3個真實微博數據集來測試情感分析模型的性能,數據集包括:4月上旬連續(xù)半個月的微博數據、4月下旬連續(xù)半個月的微博數據及標準集(NLPCC2013會議提供的微博情感測試數據集)。本文從準確率和網絡詞識別度來評價模型性能。實驗環(huán)境為Intel(R)Core(TM)i7-2600 ,Windows 7系統, 4 GB內存。

4.1 構建微博專用情感詞典

將現有的基礎詞典融合構建微博專用情感詞典,其中二分類詞典包括積極、消極兩種詞典;多分類詞典按照其分類標準分成多個類。對詞典中詞語的信息進行統計,具體內容如表4所示。

表4 基礎詞典內容

首先合并二分類詞典;然后合并多分類詞典,調用Hownet詞語相似度接口。先計算“類別詞”與基準情緒詞的相似度,將相似度大于0.95的直接劃分進詞典中,若類別詞相似度低,則逐個計算分類中詞語相似度,直接舍棄相似度低于0.95的詞語。然后添加網絡詞,篩選出有情感傾向的網絡新詞添加到詞典中。從情感詞中分別挑選積極、消極情緒值絕對值最大的12對詞,并將有情感傾向的網絡詞作為基準詞,在語料庫中計算從網詞網獲取的400個詞語情緒傾向(語料庫使用的是“網詞網”中所有網絡詞的解析數據)。最后,按照計算結果將網絡詞添加到詞典中。

4.2 數據集

對微博主題情感分析的研究是當前研究的熱點問題。微博平臺上數據量巨大,然而,在科學研究中用于實驗比較的標準數據集很少,因此,本實驗自行構造了數據集擴充數據。

使用NLPCC2013會議提供的微博情感測試數據集以及采集得到的4月微博文本(分為上半月、下半月)兩類數據進行試驗,3個數據集記為First-Three、Mid- Three、Last- Three。

4.3 情緒分類正確率分析

本文采用最直接的準確率作為分析指標,并特別抽出具有網絡詞的微博文本,使用不同詞典以及純監(jiān)督學習方法進行情感分析準確率比較。訓練模型對文本進行情感分析得到的結果為(0,1)范圍的情感值,情感值絕對值越大表明極性越積極,反之消極。根據情緒值大小將情緒細分為“重度積極”、“ 一般積極”、“ 中性”、“一般消極”以及“重度消極”。然后計算分析的準確率。載入不同情感詞典,比較準確率,其中“dic1”代表褒貶義及其近義詞詞典,“dic2”表示清華大學中文詞典,“dic3” 表示NTUSD臺灣大學中文詞典,“dic4”代表知網Hownet詞典,“dic5”代表變形極性詞匯本體,“dic6”代表本文提出的微博專用詞典,實驗結果如圖4所示。

圖4 不同詞典準確率比較

使用6個不同詞典測試同一數據集情感并分析結果的準確性,實驗表明用文本提出方法構建的微博專用情感詞典(“dic6”)準確性最好。

針對文本情感分析問題研究標準數據集(NLPCC2013會議提供的情感分析數據集),使用5-折交叉驗證的方式,比較結合詞典和貝葉斯分類算法與單獨使用貝葉斯分類算法訓練得到的分類效果,實驗結果如圖5所示。

圖5 監(jiān)督學習和詞典結合方法與監(jiān)督學習方法準確率比較

圖5中詞典和貝葉斯結合的分類方法效果優(yōu)于單獨使用貝葉斯分類。使用采集得到的3條極性不同且?guī)в芯W絡詞的微博文本,以及情感極性明顯的3條微博文本進行試驗,載入不同詞典得到的試驗結果如表5所示。

表5 文本分析樣例

其中,“文本1”代表“我很高興”(重度積極,用“++”表示),“文本2”代表“我很難過”(重度消極,用“--”),“文本3”代表“好嗨呦,離開閔行已經十天了”( 重度積極,用“++”表示),“文本4”代表“藍瘦,剪頭發(fā)第一天”(消極,用“-”表示),“文本5”代表“高數考試啊,使出洪荒之力了”( 消極,用“-”表示),“文本6”代表“造飛機導彈尼瑪當玩具???!”(消極,用“-”表示)。

對比上述6種詞典的分析結果,“文本4”顯然是消極的,但是由于常用詞典對網絡詞沒有識別能力,對情感判斷存在誤差。僅用本文提出的方法構建專用情感詞典對含有網絡詞的微博具有識別能力,得到了更為準確的分析結果。

4.4 微博文本情緒測試

實驗所用的數據采集自新浪微博“熱點”部分,用本文提出的微博文本情感分析方法計算博文情感值,并將結果記錄下來。實驗以天為單位記錄整月微博的文本情緒分析情況,如圖6所示。

圖6 整月熱點微博文本情緒走向

通過對微博文本進行情緒分析能夠了解網民情緒趨勢,可以作為輿情監(jiān)控的基礎,情緒正負的極值點表明當日有特殊事件發(fā)生。

5 結束語

本文對數據量龐大的微博“熱點”部分真實數據進行情感分析,使用Hownet相似度計算方法整合現有詞典,采用PMI算法構建網絡詞典,識別網絡詞的情緒傾向,使所構建詞典更加適應微博文本短小、新穎、時代性強的特點。本文利用Bayes算法,將詞典與Bayes相結合,詳細介紹了詞典構建的過程,并對多種詞典進行文本情感分析的結果進行比較。實驗結果表明,采用本文所提方法進行情緒分析可以有效提高準確度。情感分析在輿情分析等方面具有重要的理論和應用價值,其中分類的準確性作為重要基礎,有決定性作用。未來有兩個方向還需要繼續(xù)研究:一個是收集網絡新詞,完善現有詞典;另一個是訓練細粒度的分類模型,使分析模型細化為多種情緒模型,從而產生更加直觀的效果。

猜你喜歡
博文極性詞典
第一次掙錢
米沃什詞典
文苑(2019年24期)2020-01-06 12:06:50
跟蹤導練(四)
誰和誰好
評《現代漢語詞典》(第6版)
詞典例證翻譯標準探索
表用無極性RS485應用技術探討
Review on Tang Wenzhi’s The Gist of Chinese Writing Gamut
一種新型的雙極性脈沖電流源
電源技術(2015年5期)2015-08-22 11:18:28
打電話2
旺苍县| 寿光市| 巴塘县| 定结县| 德保县| 巴楚县| 云南省| 广水市| 东港市| 炉霍县| 辽宁省| 衡南县| 漾濞| 揭阳市| 澄江县| 岐山县| 扎鲁特旗| 綦江县| 南涧| 南投县| 垣曲县| 娄烦县| 金昌市| 崇明县| 黄梅县| 临江市| 勐海县| 徐闻县| 舒兰市| 辛集市| 广汉市| 集贤县| 城口县| 凌源市| 丽江市| 闸北区| 昭觉县| 临洮县| 阿克陶县| 阳西县| 安岳县|