国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于自然語(yǔ)言處理與智能語(yǔ)義識(shí)別的輿情監(jiān)測(cè)預(yù)警模型研究

2022-09-14 08:20:06張君第
電子設(shè)計(jì)工程 2022年17期
關(guān)鍵詞:爬蟲輿情神經(jīng)網(wǎng)絡(luò)

張君第

(陜西鐵路工程職業(yè)技術(shù)學(xué)院,陜西渭南 714000)

隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,用戶數(shù)量與日俱增?;ヂ?lián)網(wǎng)規(guī)模增長(zhǎng)的一個(gè)重要體現(xiàn)就是社交媒體平臺(tái)的增加,互聯(lián)網(wǎng)用戶通過社交媒體平臺(tái)發(fā)表自身對(duì)某新聞的看法已成為常態(tài),而社交媒體也已成為當(dāng)前最為重要的輿情采集平臺(tái)。輿情指的是用戶對(duì)另外的人、事件或者物體所持有的態(tài)度、看法和意見[1-2]。

高校學(xué)生為互聯(lián)網(wǎng)用戶的主力,學(xué)生群體活躍度較高,上網(wǎng)時(shí)間也更長(zhǎng)。高校輿情數(shù)據(jù)具有海量性和突發(fā)性兩大特征,同時(shí),由于部分學(xué)生年齡偏小,心智尚未成熟,而不良信息通常會(huì)通過極端主義或者道德綁架等形式散播[3],學(xué)生極易被謠言輿情煽動(dòng),更有甚者會(huì)受到不良意識(shí)形態(tài)的影響走向歧途,這會(huì)對(duì)學(xué)生的管理和學(xué)校的形象造成負(fù)面影響。因此高校需建立輿情監(jiān)測(cè)系統(tǒng)和輿情預(yù)警系統(tǒng),及時(shí)發(fā)現(xiàn)偽輿情,并進(jìn)行必要的辟謠和疏導(dǎo),對(duì)高校意識(shí)形態(tài)的建設(shè)具有重要作用。

1 網(wǎng)絡(luò)輿情分析研究

網(wǎng)絡(luò)輿情的分析是社會(huì)各界密切關(guān)注的問題之一。網(wǎng)絡(luò)輿情分析主要是對(duì)輿情文本的情感進(jìn)行分析,分析時(shí)需要對(duì)輿情數(shù)據(jù)進(jìn)行數(shù)學(xué)計(jì)算,通過一定的數(shù)值來判斷輿情真?zhèn)巍?/p>

目前常見的輿情分析方法有3 種:

1)傳統(tǒng)方法。傳統(tǒng)的網(wǎng)絡(luò)輿情分析方法依靠人工檢測(cè),大部分算法均是主觀算法,例如文獻(xiàn)[4]中提到的層次分析算法,該算法使用主觀權(quán)重因子對(duì)輿情的真?zhèn)芜M(jìn)行分辨,費(fèi)時(shí)費(fèi)力,僅適用于數(shù)據(jù)量較少的情形。

2)統(tǒng)計(jì)學(xué)方法。常見的統(tǒng)計(jì)算法為意見領(lǐng)袖模型[5-6],實(shí)際為馬爾科夫過程模型。其在所有輿情評(píng)論中尋找出影響力最高的用戶,將其權(quán)重調(diào)高,再對(duì)所有用戶分類,從而實(shí)現(xiàn)輿情的監(jiān)測(cè)和預(yù)警。

3)深度學(xué)習(xí)方法。隨著機(jī)器學(xué)習(xí)的不斷發(fā)展,互聯(lián)網(wǎng)的海量數(shù)據(jù)已經(jīng)實(shí)現(xiàn)了機(jī)器自動(dòng)化訓(xùn)練,而無需人工干預(yù)。如文獻(xiàn)[7]中構(gòu)建的SVM 模型,使用基于詞向量的神經(jīng)網(wǎng)絡(luò)模型對(duì)Twitter 輿情進(jìn)行分析和判斷。

由此看出,傳統(tǒng)方法費(fèi)時(shí)費(fèi)力且準(zhǔn)確性較低,統(tǒng)計(jì)學(xué)方法準(zhǔn)確性較前者有所提高,但無法處理目前的海量數(shù)據(jù)。而深度學(xué)習(xí)方法可對(duì)海量的數(shù)據(jù)進(jìn)行訓(xùn)練,更無需人工干預(yù),其準(zhǔn)確性高。因此,該文使用深度學(xué)習(xí)的相關(guān)算法進(jìn)行輿情模型的構(gòu)建。

2 網(wǎng)絡(luò)輿情監(jiān)測(cè)預(yù)警模型設(shè)計(jì)

2.1 模型總體框架

該文構(gòu)建的網(wǎng)絡(luò)輿情監(jiān)測(cè)預(yù)警模型如圖1 所示。整個(gè)模型分為3 個(gè)模塊:數(shù)據(jù)爬取、數(shù)據(jù)預(yù)處理和數(shù)據(jù)分析。數(shù)據(jù)爬取模塊使用數(shù)據(jù)爬蟲腳本,對(duì)指定網(wǎng)頁(yè)的內(nèi)容按照需求進(jìn)行爬取,然后存儲(chǔ)到某文件中供后續(xù)使用;隨后使用預(yù)處理模塊對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,預(yù)處理部分使用詞向量化算法對(duì)抓取到的內(nèi)容進(jìn)行歸一化處理,主要是去重和去噪,以保證計(jì)算機(jī)可以識(shí)別到文本向量;接著將處理好的數(shù)據(jù)文件傳輸至模型分析模塊,使用語(yǔ)義關(guān)聯(lián)特征算法對(duì)文本內(nèi)容進(jìn)行分析,并送入至RBF 神經(jīng)網(wǎng)絡(luò)模型中進(jìn)行訓(xùn)練,再對(duì)輿情的真?zhèn)芜M(jìn)行判斷;最終,輸出判斷結(jié)果并預(yù)警。

圖1 網(wǎng)絡(luò)輿情監(jiān)測(cè)預(yù)警模型

2.2 數(shù)據(jù)爬取模塊

數(shù)據(jù)爬蟲種類繁多,但大部分爬蟲的功能是按照一定的規(guī)則對(duì)互聯(lián)網(wǎng)的網(wǎng)頁(yè)信息進(jìn)行自動(dòng)探測(cè),高效率的數(shù)據(jù)爬蟲可以有效地采集目標(biāo)消息。

該文使用的數(shù)據(jù)爬蟲基于Scrapy 框架,由該框架搭建的爬蟲使用Python 語(yǔ)言編寫,可以快速地根據(jù)用戶需求進(jìn)行網(wǎng)站數(shù)據(jù)遍歷。其與傳統(tǒng)爬蟲程序不同的是,Scrapy 爬蟲還可對(duì)網(wǎng)站的API 數(shù)據(jù)接口進(jìn)行爬取,從而大幅提高爬取信息的速度[8-10]。

基于Scrapy 框架的爬蟲結(jié)構(gòu)包括爬蟲腳本主體、爬蟲引擎、調(diào)度插件、下載模塊、爬蟲中間件和管道。爬蟲腳本主體的目標(biāo)就是URL 地址,爬蟲將目標(biāo)URL 地址的內(nèi)容送入管道中進(jìn)行存儲(chǔ);爬蟲引擎負(fù)責(zé)內(nèi)容數(shù)據(jù)在所有模塊中傳遞;調(diào)度插件是將引擎所需的資源請(qǐng)求進(jìn)行調(diào)度;下載模塊受爬蟲腳本的控制,當(dāng)爬蟲需要下載網(wǎng)頁(yè)內(nèi)容時(shí),會(huì)調(diào)用下載器進(jìn)行下載。

2.3 數(shù)據(jù)預(yù)處理模塊

數(shù)據(jù)預(yù)處理模塊分為3 個(gè)部分,分別為數(shù)據(jù)分類模塊、文本分詞模塊以及文本過濾模塊。

數(shù)據(jù)分類模塊即對(duì)采集得來的數(shù)據(jù)進(jìn)行標(biāo)注,例如負(fù)面評(píng)論標(biāo)注a、中性評(píng)論標(biāo)注b、正面評(píng)論標(biāo)注c,這種分類數(shù)據(jù)作為驗(yàn)證數(shù)據(jù)集使用;文本分詞模塊可以使用中文分詞腳本,該文使用Jieba 第三方分詞工具,該工具基于Python 語(yǔ)言開發(fā),可以將文本進(jìn)行準(zhǔn)確的切分。此外,Jieba 有多種模式,文中使用Jieba.lcut 方法,該方法中的cut 和HMM 參數(shù)使用默認(rèn)值。

2.4 數(shù)據(jù)分析模塊

2.4.1 基于TF-IDF的文本特征提取算法

TF-IDF 算法意為詞頻-逆向文本頻率,該算法中的TF 為詞頻,通常用于對(duì)某一詞語(yǔ)在整個(gè)文本出現(xiàn)的頻率進(jìn)行衡量。算法中的IDF 為逆文本頻率,即在文本中出現(xiàn)次數(shù)的倒數(shù)。該算法可以表示某一詞語(yǔ)在文本中的重要程度[11-12]。TF 的計(jì)算公式如式(1)所示:

式中,TF 即為詞頻,ni,j為第i個(gè)詞語(yǔ)在第j個(gè)文本中出現(xiàn)的次數(shù),分母為第j個(gè)文本中所有詞匯的個(gè)數(shù)。IDF 的計(jì)算公式如式(2)所示:

式中,IDF 為逆向文本頻率,nd為所有文本的個(gè)數(shù),df(d,wi)為所有文本中包含有特定單詞的文本個(gè)數(shù)。最終的TF-IDF 公式如式(3)所示:

由式(3)可知,TF-IDF 傳統(tǒng)算法只考慮了某一特定單詞在文本中出現(xiàn)的頻率,并未考慮單詞所屬類別問題,由此會(huì)導(dǎo)致在模型訓(xùn)練時(shí)對(duì)某一冷門類別有貢獻(xiàn)的單詞丟失。因此還需在TF-IDF 算法中加入統(tǒng)計(jì)學(xué)算法,對(duì)單詞所屬類別問題進(jìn)行修正。文中加入方差因子,得到改進(jìn)后的算法如下所示:

式中,γi為方差因子,N為文本的特征種類數(shù)目。可以看到,當(dāng)某一特殊單詞在文本中波動(dòng)時(shí),γi便會(huì)發(fā)生變化。因此,加入方差因子的TF-IDF 算法如下所示:

2.4.2 基于徑向基函數(shù)的神經(jīng)網(wǎng)絡(luò)模型

使用神經(jīng)網(wǎng)絡(luò)模型可對(duì)文本特征數(shù)據(jù)進(jìn)行訓(xùn)練。徑向基函數(shù)也被稱為RBF,由該函數(shù)組成的神經(jīng)網(wǎng)絡(luò)包括輸入層、隱藏層以及輸出層[13-14]。RBF 神經(jīng)網(wǎng)絡(luò)模型如圖2 所示。

圖2 RBF神經(jīng)網(wǎng)絡(luò)模型

由圖2 可知,輸入層X為文本數(shù)據(jù),數(shù)據(jù)向量可表示為:

輸出層Y為模型的預(yù)測(cè)結(jié)果,可表示為:

隱藏層函數(shù)可定義為:

式中,Ci為隱藏層中的中心向量;m為隱藏層中神經(jīng)元的個(gè)數(shù);δi為隱藏層寬度。

由式(8)可知,輸入層神經(jīng)元和中心向量相隔越遠(yuǎn),隱藏層作用函數(shù)的值就越低。同時(shí)還可以觀察出,X和R(X)之間的映射關(guān)系屬于非線性的。而輸出層數(shù)據(jù)和R(X)的關(guān)系是線性的,則有:

式中,wkp為輸出向量權(quán)重值。按照權(quán)重值對(duì)輸出數(shù)據(jù)進(jìn)行排序,即可得到輿情數(shù)據(jù)的分析結(jié)果。

2.5 評(píng)價(jià)指標(biāo)

在機(jī)器學(xué)習(xí)領(lǐng)域,常見的模型精度評(píng)價(jià)指標(biāo)共有3 種,分別為準(zhǔn)確率P、召回率R以及F1值[15-16]。準(zhǔn)確率是指模型輸出結(jié)果中正確數(shù)據(jù)占總數(shù)據(jù)的比例;召回率是指模型輸出結(jié)果中正確數(shù)據(jù)占實(shí)際正確數(shù)據(jù)的比例;而F1 值是準(zhǔn)確率和召回率的綜合計(jì)算結(jié)果。評(píng)價(jià)指標(biāo)的公式如下所示:

3 實(shí)驗(yàn)分析

3.1 數(shù)據(jù)處理與環(huán)境配置

首先使用該文設(shè)計(jì)的Scrapy 爬蟲對(duì)該校學(xué)生在微博、貼吧等社交平臺(tái)的發(fā)言進(jìn)行爬取,此次共爬取了20 000 條學(xué)生對(duì)于時(shí)事熱點(diǎn)的發(fā)言。其中使用16 000 條作為訓(xùn)練樣本集,使用4 000 條作為測(cè)試樣本集合。表1 為此次測(cè)試的數(shù)據(jù)環(huán)境配置。

表1 數(shù)據(jù)環(huán)境配置

3.2 數(shù)據(jù)分類

對(duì)抓取到的數(shù)據(jù)進(jìn)行預(yù)警監(jiān)控,首先需要對(duì)數(shù)據(jù)的主題進(jìn)行分類。分類后對(duì)句子的情感進(jìn)行判斷,篩選出負(fù)面消息進(jìn)行輿情真假判別。

對(duì)句子的主題情感進(jìn)行分類,共篩選出9 個(gè)與政治相關(guān)的輿情話題,按照大類共分為國(guó)家安全、政府執(zhí)政以及社會(huì)穩(wěn)定3 個(gè)主題。對(duì)上述話題按照一定次序排列,如表2 所示。

表2 部分?jǐn)?shù)據(jù)分類特征

3.3 算法對(duì)比分析

首先對(duì)模型的分類能力進(jìn)行測(cè)試,分類數(shù)據(jù)集合按照表2 的主題進(jìn)行分類。使用訓(xùn)練數(shù)據(jù)集對(duì)模型進(jìn)行訓(xùn)練,然后對(duì)可行性進(jìn)行驗(yàn)證。

例如,爬蟲抓取到的輿情發(fā)言為“臺(tái)灣是中國(guó)不可分割的一部分”、“今年就業(yè)太難”以及“這項(xiàng)政策對(duì)學(xué)生是有利的”,將這3 句話以編號(hào)T1、T2、T3 進(jìn)行指代。模型的分類結(jié)果如表3 所示。

由表3 可知,該文的神經(jīng)網(wǎng)絡(luò)模型可以對(duì)訓(xùn)練集中的句子進(jìn)行恰當(dāng)?shù)膬?nèi)容分類。下面驗(yàn)證輿論情感判斷的性能,該文使用其他神經(jīng)網(wǎng)絡(luò)模型進(jìn)行相關(guān)指標(biāo)對(duì)比,使用到的對(duì)比算法為CNN、KNN 和BP神經(jīng)網(wǎng)絡(luò)模型。評(píng)價(jià)指標(biāo)為準(zhǔn)確率、召回率以及F1值。對(duì)比測(cè)試結(jié)果如表4 所示。

表3 分類能力驗(yàn)證

表4 數(shù)據(jù)集測(cè)試結(jié)果

由表4 可知,該文模型的準(zhǔn)確率、召回率以及F1值三項(xiàng)指標(biāo)均為最優(yōu)。在F1 值指標(biāo)中,相較其他算法提高0.077、0.246 以及0.038,說明該文算法在輿情敏感話題中有較大優(yōu)勢(shì)。

除了對(duì)算法準(zhǔn)確率進(jìn)行對(duì)比外,還需對(duì)算法的運(yùn)行時(shí)間進(jìn)行分析,進(jìn)而得到算法的效率。該文以算法訓(xùn)練樣本所需時(shí)間對(duì)算法的效率進(jìn)行判斷,文中訓(xùn)練集合共有16 000 條,不同訓(xùn)練樣本數(shù)量的訓(xùn)練時(shí)間如表5 所示。

表5 訓(xùn)練時(shí)間對(duì)比

由表5 可以看出,該文模型在相同樣本數(shù)量下所需要的訓(xùn)練時(shí)間最短,說明該算法同時(shí)兼具有高效性。因此,該文模型的綜合性能良好,說明所構(gòu)建的輿情預(yù)警模型可以滿足設(shè)計(jì)需求。

4 結(jié)束語(yǔ)

高校輿情數(shù)據(jù)具有海量和突發(fā)兩大特點(diǎn),學(xué)生極易被謠言輿情所煽動(dòng),因此針對(duì)高校的輿情管理極為重要。該文針對(duì)傳統(tǒng)輿情分析方法的不足,基于自然語(yǔ)言技術(shù)和深度學(xué)習(xí)技術(shù)設(shè)計(jì)了高校網(wǎng)絡(luò)輿情分析預(yù)警系統(tǒng)。該系統(tǒng)設(shè)計(jì)了TF-IDF 文本分類算法,同時(shí)還使用RBF 對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練。訓(xùn)練測(cè)試結(jié)果表明,所設(shè)計(jì)模型的準(zhǔn)確率和效率指標(biāo)均優(yōu)于其他對(duì)比方法。

猜你喜歡
爬蟲輿情神經(jīng)網(wǎng)絡(luò)
利用網(wǎng)絡(luò)爬蟲技術(shù)驗(yàn)證房地產(chǎn)灰犀牛之說
基于Python的網(wǎng)絡(luò)爬蟲和反爬蟲技術(shù)研究
神經(jīng)網(wǎng)絡(luò)抑制無線通信干擾探究
電子制作(2019年19期)2019-11-23 08:42:00
利用爬蟲技術(shù)的Geo-Gnutel la VANET流量采集
大數(shù)據(jù)環(huán)境下基于python的網(wǎng)絡(luò)爬蟲技術(shù)
電子制作(2017年9期)2017-04-17 03:00:46
輿情
輿情
基于神經(jīng)網(wǎng)絡(luò)的拉矯機(jī)控制模型建立
輿情
復(fù)數(shù)神經(jīng)網(wǎng)絡(luò)在基于WiFi的室內(nèi)LBS應(yīng)用
兴山县| 富宁县| 神池县| 嵊州市| 枞阳县| 浮山县| 庄浪县| 简阳市| 汝阳县| 左贡县| 濮阳市| 当雄县| 白城市| 翁源县| 澎湖县| 梅州市| 金乡县| 浮梁县| 将乐县| 腾冲县| 大邑县| 贵阳市| 烟台市| 张家口市| 五大连池市| 江都市| 大石桥市| 永宁县| 石阡县| 鄂伦春自治旗| 遂川县| 潞西市| 双牌县| 呼图壁县| 龙口市| 海南省| 通州区| 元氏县| 大港区| 图木舒克市| 清河县|