国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于機(jī)器學(xué)習(xí)的“攜號轉(zhuǎn)網(wǎng)”微博評論情感分析

2021-06-01 09:47:00
中國科技縱橫 2021年3期
關(guān)鍵詞:攜號語料庫負(fù)面

(中國電信北京分公司,北京 100010)

0.引言

本文基于機(jī)器學(xué)習(xí)的方法,圍繞“攜號轉(zhuǎn)網(wǎng)”話題的微博評論進(jìn)行情感分析,考慮到各類媒體圍繞“攜號轉(zhuǎn)網(wǎng)”主題發(fā)布的微博文字稿件會影響到情感分析結(jié)果,并且媒體賬號數(shù)量很多,不易全部剔除,故僅選取微博評論作為分析文本,不包括微博原文。

1.研究概述

1.1 研究思路

本文分為兩個實驗步驟,第一部分是尋找可靠的開源語料庫,將帶有情感標(biāo)注的語料庫按照7:3的比例分成訓(xùn)練集和測試集,經(jīng)分詞、去停詞處理并轉(zhuǎn)化為詞向量后,使用訓(xùn)練集構(gòu)建情感分類模型,使用測試集對模型進(jìn)行情感分析測試。本文選用github上公開發(fā)布的開源語料庫對情感分類的模型進(jìn)行訓(xùn)練[1],該語料庫是對一定數(shù)量的微博評論文本進(jìn)行正負(fù)面情感分類的數(shù)據(jù)集,經(jīng)過人工核驗,過濾掉了廣告、過短或過長、表意不明等語料,可靠性較強(qiáng),語料庫內(nèi)容如表1所示,其中0為負(fù)面情緒,1為正面情緒。

表1 開源語料庫節(jié)選

第二部分首先要爬取微博評論數(shù)據(jù),將2019年11月至2021年3月19日(剔除3月21日“大量肖戰(zhàn)粉絲攜號轉(zhuǎn)網(wǎng)事件”對實驗結(jié)果的影響)期間微博平臺關(guān)于“攜號轉(zhuǎn)網(wǎng)”相關(guān)評論進(jìn)行爬取,對獲取到的數(shù)據(jù)進(jìn)行篩選,去除運營商客服標(biāo)準(zhǔn)化回復(fù)以及類似的無效評論,利用篩選后的文本數(shù)據(jù),進(jìn)行文本處理、詞語向量化,然后運用第一步得到的分類模型進(jìn)行情感分析。

1.2 理論概述

1.2.1 詞語向量化

本文使用的Word2vec是一種無監(jiān)督式方式學(xué)習(xí)語義知識的方法,通過將文本轉(zhuǎn)換為詞向量的方式來表示詞語信息,即將詞語嵌入數(shù)據(jù)空間,使得語義上相似的單詞在該空間內(nèi)距離很近。Word2Vec模型中,主要有Skip-Gram和CBOW兩種模型,從原理上說,Skip-Gram是給定輸入詞語來預(yù)測上下文。而CBOW是通過上下文,反過來推測要輸入的詞語,在本文中是使用CBOW方法來生成詞向量的[2]。

1.2.2 情感分析理論

當(dāng)前機(jī)器學(xué)習(xí)的主流算法有支持向量機(jī)算法、隨機(jī)森林算法、K近臨算法、樸素貝葉斯等,本文使用支持向量機(jī)(SVM)以及隨機(jī)森林(RF)算法開展對比實驗[3]。

(1)支持向量機(jī)算法。支持向量機(jī)是一種基于統(tǒng)計學(xué)習(xí)理論的機(jī)器學(xué)習(xí)方法,其最大的特點就是可以在不同類別的樣本點之中找到最優(yōu)的分界線或者分界面。在二維空間中,兩種類型的數(shù)據(jù)點分別位于決策分界線的兩側(cè),該分界線使兩類數(shù)據(jù)之間的分類間隔最大。在現(xiàn)實情況中,數(shù)據(jù)往往是非線性的,實踐中可將二維數(shù)據(jù)空間拓展至多維,進(jìn)而找到一個最優(yōu)決策面,將不同類型的數(shù)據(jù)點進(jìn)行分割。

(2) 隨機(jī)森林算法。隨機(jī)森林算法是通過組合多個弱分類器進(jìn)行投票或求均值的方法,來提高最終結(jié)果的準(zhǔn)確性。該方法首先在該數(shù)據(jù)集上隨機(jī)有放回地抽樣重新選出K個新數(shù)據(jù)集來訓(xùn)練分類器。它將使用訓(xùn)練出來的分類器對新樣本進(jìn)行分類,然后用多數(shù)投票或者對輸出求均值的方法統(tǒng)計所有分類器的分類結(jié)果,結(jié)果最高的類別定位最終類別[4]。

2.用戶評論情感分析

2.1 文本數(shù)據(jù)預(yù)處理

本文采用python進(jìn)行微博評論數(shù)據(jù)爬取,觀察收集到的數(shù)據(jù),可以看出數(shù)據(jù)中存在較大數(shù)量的運營商客服回復(fù),比如“您好,您反映的問題我們已經(jīng)詳細(xì)記錄并反饋至相關(guān)部門……”,對情感分析的結(jié)果產(chǎn)生干擾,故予以剔除,最終得出了本次的實驗數(shù)據(jù)集。

2.2 模型的建立與測試

對于用來訓(xùn)練模型的開源數(shù)據(jù)集,共有10000余條微博評論文本,開源作者已為所有文本逐條標(biāo)記了情感傾向,0為負(fù)面情感,1為正面情感。取其中7000個作為訓(xùn)練集,3000個作為測試集。

2.3 對采集到的文本數(shù)據(jù)進(jìn)行分詞以及停用詞處理

本文利用jieba詞庫進(jìn)行分詞,將句子拆解成詞語,并把獲得的詞語數(shù)據(jù)集與哈工大停用詞表進(jìn)行比對,剔除掉重復(fù)的詞語,從而達(dá)到去除停用詞的目的。

2.4 利用Word2vec生成詞向量

本文使用Word2vec模型生成詞向量時,采用了gensim包中的CBOW算法。為保證詞向量的準(zhǔn)確度,在生成過程中選擇了窗口值為5,并將詞向量維度調(diào)整為300,如表2所示。

表2 “想“詞向量節(jié)選

2.5 情感分析的各項指標(biāo)

(1)混淆矩陣(Confusion Matrix),也稱誤差矩陣。以二分類模型為例,最終需要判斷樣本的結(jié)果是0還是1,或者說是正向還是負(fù)向。

通過樣本的采集,在真實結(jié)果已知的前提下,通過比對真實結(jié)果和分類模型的結(jié)果,可以一定程度上判斷模型的可靠性,如表3所示。

表3 混淆矩陣(0代表負(fù)向,1代表正向)

真實值為正向,模型輸出的預(yù)測結(jié)果是正向的數(shù)量(True Positive=TP)。

真實值為正向,模型輸出的預(yù)測結(jié)果為負(fù)向的數(shù)量(False Negative=FN)。

真實值為負(fù)向,模型輸出的預(yù)測結(jié)果為正向的數(shù)量(False Positive=FP)。

真實值為負(fù)向,模型輸出的預(yù)測結(jié)果為負(fù)向的數(shù)量(True Negative=TN)。

(2)準(zhǔn)確率(Accuracy),代表分類模型中所有判斷正確的結(jié)果占總觀測值的比重,是對于整個模型的評估項[5]。

Accuracy= (TP+TN)/(TP+TN+FP+FN)

(3)精確率(Precision),代表分類模型預(yù)測結(jié)果為正向的所有結(jié)果中,預(yù)測正確的數(shù)量。

Precision= TP/(TP+FP)

(4)靈敏度(Sensitivity),又稱召回率(Recall),代表在真實值為正向的所有結(jié)果中,模型預(yù)測結(jié)果正確的數(shù)量。

Sensitivity=Recall= TP/(TP+FN)

(5)F1-Score,F(xiàn)1-Score指標(biāo)是對分類模型的整體精度進(jìn)行衡量的評價指標(biāo),該指標(biāo)綜合了Precision與Recall的產(chǎn)出的結(jié)果,取值范圍從0到1的,1代表模型的輸出最好,0代表模型的輸出結(jié)果最差。

F1 Score= 2PR/(P+R)

2.6 模型測試

實驗中對于測試集的測試結(jié)果下:

(1)支持向量機(jī)方法下,真實為1預(yù)測為1的是729個,真實為0預(yù)測為1的是673個,真實為1預(yù)測為0的是320個,真實為0預(yù)測為0的是1276個,如表4、表5所示。

表4 支持向量機(jī)混淆矩陣

表5 支持向量機(jī)指標(biāo)

(2)隨機(jī)森林方法下,真實為1預(yù)測為1的是898個,真實為0預(yù)測為1的是504個,真實為1預(yù)測為0的是426個,真實為0預(yù)測為0的是1170個,如表6、表7所示。

表6 隨機(jī)森林法混淆矩陣

表7 隨機(jī)森林法指標(biāo)

從數(shù)值上看,綜合各項指標(biāo),隨機(jī)森林方法進(jìn)行測試的結(jié)果更貼近真實值,故使用隨機(jī)森林方法對“攜號轉(zhuǎn)網(wǎng)”相關(guān)微博評論文本進(jìn)行情感分析。

2.7 模型應(yīng)用

實驗中,共爬取到30184條與“攜號轉(zhuǎn)網(wǎng)”關(guān)鍵詞相關(guān)的微博評論,經(jīng)篩選客服留言、去重后,共15273條有效樣本數(shù)據(jù),表8所示。

表8 有效數(shù)據(jù)情感分析列表節(jié)選

3.結(jié)語

使用訓(xùn)練好的隨機(jī)森林模型來對該數(shù)據(jù)集進(jìn)行情感分析,得到以下結(jié)果:

正面情感6461條,占比42.31%;

負(fù)面情感8812條,占比57.69%。

從實驗結(jié)果上看,微博用戶對于攜號轉(zhuǎn)網(wǎng)的正負(fù)面情感認(rèn)知較為均衡,約42.31%的微博評論對于“攜號轉(zhuǎn)網(wǎng)”話題持正面情緒,57.69%持有負(fù)面情緒。

負(fù)面情緒的原因主體可以歸結(jié)如下三方面:

第一,部分微博網(wǎng)友并非對于攜號轉(zhuǎn)網(wǎng)業(yè)務(wù)本身帶有負(fù)面情緒,而是覺得某個運營商的服務(wù)欠佳,在微博中抱怨遇到了不開心的事情,想要去轉(zhuǎn)到其他運營商,本次實驗的學(xué)習(xí)模型無法對此類微博評論進(jìn)行剔除,故而這一類的評論會被判斷帶有負(fù)面情感。經(jīng)后續(xù)人工核查,此類微博評論以及其他無效負(fù)面情感評論占所有負(fù)面情感評論的21.4%。

第二,部分微博網(wǎng)友反映,辦理攜號轉(zhuǎn)網(wǎng)業(yè)務(wù)后,會出現(xiàn)無法收到第三方App的驗證碼等問題,這也使得想要攜轉(zhuǎn)的用戶們望而卻步。雖然目前相關(guān)技術(shù)已經(jīng)成熟,但是面對成千上萬的第三方App,攜轉(zhuǎn)的銜接完善過程極為繁重,并非短時間內(nèi)可以完成[6]。

第三,攜號轉(zhuǎn)網(wǎng)的過程較為復(fù)雜,需要攜入攜出兩家運營商合作完成,在任何步驟中遇到問題都可能導(dǎo)致轉(zhuǎn)網(wǎng)困難。建議運營商間積極協(xié)調(diào)配合,不斷優(yōu)化攜號轉(zhuǎn)網(wǎng)業(yè)務(wù)流程,保證用戶攜號轉(zhuǎn)網(wǎng)順利、暢通。

猜你喜歡
攜號語料庫負(fù)面
工信部:已有1700萬用戶攜號轉(zhuǎn)網(wǎng)
電腦報(2020年49期)2020-12-31 07:26:53
工信部:已為940萬人次提供“攜號轉(zhuǎn)網(wǎng)”服務(wù)
工信部:1700萬用戶已完成攜號轉(zhuǎn)網(wǎng)
《語料庫翻譯文體學(xué)》評介
負(fù)面清單之后的電改
能源(2018年8期)2018-09-21 07:57:22
遠(yuǎn)離負(fù)面情緒
把課文的優(yōu)美表達(dá)存進(jìn)語料庫
基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現(xiàn)
語言與翻譯(2015年4期)2015-07-18 11:07:45
新聞頭條
語料庫語言學(xué)未來發(fā)展趨勢
海南省| 弋阳县| 昭苏县| 武川县| 永德县| 威海市| 柳河县| 白银市| 东方市| 塘沽区| 微山县| 那曲县| 信丰县| 普格县| 伽师县| 河津市| 拜泉县| 扬中市| 萝北县| 休宁县| 南昌县| 林州市| 寻乌县| 德兴市| 泗洪县| 油尖旺区| 彭山县| 招远市| 海宁市| 台湾省| 青州市| 鄂托克旗| 安康市| 鹰潭市| 大名县| 安徽省| 和田市| 信丰县| 鹤壁市| 鄂州市| 望江县|