国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于情感字典的輿情監(jiān)測與傾向分析研究

2022-04-29 22:05張盛然趙恩興
客聯(lián) 2022年2期
關(guān)鍵詞:網(wǎng)絡(luò)輿情

張盛然 趙恩興

摘 要:隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展和使用人群的快速增加,越來越多的人群通過互聯(lián)網(wǎng)來表達自己觀點。網(wǎng)絡(luò)輿情作為社會輿情的網(wǎng)絡(luò)反映,成為社會輿情的最主要的構(gòu)成之一。如何對輿情的情感傾向分析,并正確引導(dǎo)輿情,給政府和企業(yè)帶來了前所未有的挑戰(zhàn)。針對網(wǎng)絡(luò)一些輿情,引入一套基于Python爬蟲,設(shè)計數(shù)據(jù)抓取算法。建立情感字典,主要基于Hownet基礎(chǔ)情感字典、互聯(lián)網(wǎng)網(wǎng)絡(luò)情感字典表情符號情感字典3類。在此基礎(chǔ)上進行相關(guān)的情感監(jiān)測與傾向分析,對政府和微博意見主流之間的微分博弈進行Stackelberg 均衡判斷同一個話題用戶評價的正向積極的比例。最后根據(jù)政府是否實施合理管控后對輿情的發(fā)展趨勢進行對比判斷。

關(guān)鍵詞:網(wǎng)絡(luò)輿情;情感字典;微分博弈

一、Python爬蟲

建立的輿情數(shù)據(jù)抓取模型基于其爬蟲技術(shù)。在垂直領(lǐng)域獲得輿情數(shù)據(jù)或有明確的輿情導(dǎo)向需求時,過濾掉無用的數(shù)據(jù)并挖掘有價值的輿情信息。網(wǎng)絡(luò)爬蟲是一種從互聯(lián)網(wǎng)抓取數(shù)據(jù)信息的自動化程序。對各種異常進行相應(yīng)處理與應(yīng)對、錯誤重試等系列操作,使得爬取能夠可持續(xù)高效的運行,最后形成一個互聯(lián)網(wǎng)內(nèi)容的鏡像備份。首先對要爬取數(shù)據(jù)界面,獲取網(wǎng)頁的源代碼,采用正則表達式提取信息。根據(jù)網(wǎng)頁節(jié)點屬性、CSS 選擇器或XPath來提取輿情網(wǎng)頁信息的庫,如 Requests、pyquery、lxml等,高效快速地從中提取網(wǎng)頁輿情信息。最終將其保存為 CSV 格式文件。由于 HTTP 協(xié)議是無狀態(tài)的,而服務(wù)器端的業(yè)務(wù)必須是要有狀態(tài)的。通過獲取服器端生成的Cookie,以key/value 保存到制定目錄下的文本文件內(nèi),添加在請求頭部。具體實例選取了微博作為對象,針對微博熱門話題、微博熱門評論和微博熱門用戶3部分進行輿情信息抓取,其中針對微博熱門話題,設(shè)計抓取了用戶 ID、用戶名、轉(zhuǎn)發(fā)數(shù)、評論數(shù)、點贊量、發(fā)表時間、來源設(shè)備;針對微博熱門評論,設(shè)計抓取了評論時間、用戶 ID 、用戶名、評論內(nèi)容、用戶年齡、用戶性別、用戶所在地。

二、輿情信息篩選模型

在提取了網(wǎng)民評論的特征向量時,建立特征向量空間的訓(xùn)練集。SVM 具有根據(jù)有限樣本找到最優(yōu)解的能力,能夠避免神經(jīng)網(wǎng)絡(luò)中的局部極值問題而得到全局最優(yōu)點和高維特征處理能力。選擇支持向量機作為區(qū)分輿情篩選的分類器。最后利用最佳分類參數(shù)所構(gòu)成的超平面對待所測文本中的特征向量進行判別。特征空間中線性可分,然后再利用線性分類進行求解,即非線性分類是建立在線性分類基礎(chǔ)上的。構(gòu)建SVM支持向量機的過程一共分為5部分。分別為獲取語料庫、文本分詞處理、構(gòu)建特征向量、算法設(shè)計和生成分類器模型。

三、情感字典建立與情感分析

在建立輿情控制模型前,首先需要判斷輿情的情感傾向。通常情況下,情感是對外界事物是否滿足自己的所需從而產(chǎn)生的態(tài)度體驗。其核心部分由一系列情感詞和情感短語以及它們的情感極性和強度組成。然而,現(xiàn)有的情感詞典并不適用于最新的情感分析。用戶經(jīng)常使用非正式的新詞,如“好颯”,“ 666 ”等詞匯。這些用于傳達了豐富的情感信息,對情感分析尤為重要。因此首先針對目前主流的網(wǎng)絡(luò)討論平臺建立特定的情感詞典,主要可以分為正面情感詞典、負(fù)面情感詞典這兩類。避免了人工檢測和注釋等方法的成本高,耗時長的弊端。建立的情感成本字典主要分為 Hownet 基礎(chǔ)情感字典、互聯(lián)網(wǎng)網(wǎng)絡(luò)情感字典表情符號情感字典、程度副詞情感字典和否定詞情感字典 5 種。根據(jù)董振東教授所建立的知網(wǎng)體系,建立Hownet基礎(chǔ)情感字典;互聯(lián)網(wǎng)飛速發(fā)展隨之產(chǎn)生了許許多多的網(wǎng)絡(luò)詞匯。這些新興詞匯具有精簡且口語化的特點。與傳統(tǒng)詞匯不同但卻體現(xiàn)很強烈的感情色彩,匯集的網(wǎng)絡(luò)新詞主要來源于網(wǎng)站“小雞詞典”,整理出該網(wǎng)站中網(wǎng)絡(luò)詞匯及其詞匯釋義 3562個,通過將爬取下來的詞匯與其釋義轉(zhuǎn)化,構(gòu)建互聯(lián)網(wǎng)網(wǎng)絡(luò)情感字典;網(wǎng)絡(luò)用戶傾向于利用表情標(biāo)記來表達或加強自己的情感表達,因此,通過整理將表情符號的“[]”去除后,提出其中的漢字,并將提取出的漢字與之前構(gòu)造的情感詞典匹配。結(jié)果得到正面表情標(biāo)記 70個,負(fù)面表情標(biāo)記 85個。最后將得到的表情標(biāo)記分別加入本文的輿情正面情感詞典與負(fù)面情感詞典。

四、基于微分博弈模型的輿情控制方法

在分析輿情傳播中,本文主要以重大話題或突發(fā)事件來進行研究分析。當(dāng)話題熱度足夠時,傳播的速度趨勢也會較之其他話題更加明顯。通常政府在突發(fā)事件的應(yīng)急管理中占據(jù)主動地位。政府先采取措施和行為,而微博的輿論主體根據(jù)政府的行為和制定的措施與政策來選擇自己的輿論策略和期望要求,微博意見主流在做出決策之前,是能夠預(yù)先了解政府的行為和制定的政策與措施的。由此可知,政府與微博意見主流之間存在一個不完全信息動態(tài)博弈,同時,政府能夠了解微博意見主流的輿論策略和期望要求。政府和微博意見主流之間的微分博弈存在一個Stackelberg均衡。

五、基于線性加權(quán)的輿情等級處理

使用線性加權(quán)和法作為網(wǎng)民評論的輿情評價函數(shù),對于每一個輿情目標(biāo)賦權(quán)系數(shù),權(quán)系數(shù)取決于當(dāng)下輿情目標(biāo)的重要性覺得,使用之前對輿情信息模型進行篩選和輿情數(shù)據(jù)抓取模型進行數(shù)據(jù)爬取,整理得到數(shù)據(jù)集后,按各目標(biāo)的重要性賦予它相應(yīng)的權(quán)系數(shù):一共選取共5個熱門話題,輸入變量為輿情傳播時間(根據(jù)發(fā)表時間進行計算)、規(guī)模量(評論數(shù)、點贊數(shù)、轉(zhuǎn)發(fā)數(shù))、情感得分(由評論計算獲得)、評論地區(qū)(主流一線城市與其它城市)。通過對這六個變量進行線性加權(quán)計算得到輿情綜合得分,并進行輿論分級劃分。

六、結(jié)語

支持向量機具有完善的理論基礎(chǔ),具有魯棒性好,適應(yīng)性強和全局優(yōu)化的優(yōu)點,被廣泛用于小尺寸和高尺寸樣本的目標(biāo)模式識別。SVM 理論提供了一種避免高維空間復(fù)雜性的方法,可以直接使用該空間的內(nèi)積函數(shù)(它是一個核函數(shù)),然后在線性可分性的情況下使用求解方法直接解決高維空間的決策。相應(yīng)的高維空間問題。當(dāng)內(nèi)核函數(shù)已知時,它可以簡化解決高維空間問題的難度。同時,支持向量機基于小樣本的統(tǒng)計理論,這與機器學(xué)習(xí)的目的是一致的。本情感分析過程中,發(fā)現(xiàn)情感詞典是最重要的資源??梢酝ǔY(jié)果和相應(yīng)的分析產(chǎn)生決定性的影響。但是很難構(gòu)建一個適合所有領(lǐng)域的通用情緒字典,因為情感詞通常只適用于它所適用的領(lǐng)域。因此可以針對不同領(lǐng)域進行情感詞典的推廣,這當(dāng)在不同的情況下使用時,修改模型的輿情情感詞,可以使情感詞可以有相反的表達,從而適應(yīng)不同的話題領(lǐng)域。

參考文獻:

[1]汪蘭蘭. 基于anaconda環(huán)境下的通用微博評論抓取算法. 電子世界,2020,第24期

[2] 李一嘯,羅春華. 標(biāo)簽與情感性對政務(wù)微博網(wǎng)民參與度的影響研究. 知識管理論壇(網(wǎng)絡(luò)版),2019,第6期

[3] 陳藝揚,郭子雄,何文. 基于Python的信息采集系統(tǒng)的分析與設(shè)計. 精品,2018,第7期

作者簡介:張盛然(2001-),男,安徽省亳州市蒙城縣人,本科,研究方向:數(shù)據(jù)挖掘,機器學(xué)習(xí)。趙恩興(2001-),男,安徽省合肥市肥東縣人,本科,研究方向:數(shù)據(jù)挖掘,機器學(xué)習(xí)。

基金項目:宿州學(xué)院省級大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計劃項目資助。

猜你喜歡
網(wǎng)絡(luò)輿情
新媒體環(huán)境下網(wǎng)絡(luò)輿情預(yù)警體系研究
微博問政與回應(yīng)中的政府形象塑造
試論高校大學(xué)生網(wǎng)絡(luò)輿情引導(dǎo)方略
自媒體時代下高校網(wǎng)絡(luò)輿情預(yù)警指標(biāo)體系構(gòu)建
新媒介生態(tài)環(huán)境下高職院校網(wǎng)絡(luò)輿情特點及研判機制思考
網(wǎng)絡(luò)輿情編輯能力構(gòu)成因素淺析
數(shù)據(jù)挖掘技術(shù)在網(wǎng)絡(luò)輿情管理中的研究
“互聯(lián)網(wǎng)+”背景下高校平安校園建設(shè)研究
淺析網(wǎng)絡(luò)輿情治理
基于社會穩(wěn)定視角的網(wǎng)絡(luò)輿情預(yù)警機制構(gòu)建的思考