国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于改進(jìn)XLNet算法的震后輿情分析研究

2024-01-01 00:00:00鄭通彥王尅豐黃猛張淞周文濤游巧劉帥
地震工程學(xué)報(bào) 2024年4期

摘要:震后對網(wǎng)絡(luò)輿情信息的監(jiān)控與分析,對于相關(guān)部門開展震災(zāi)應(yīng)急救援、掌握救災(zāi)動(dòng)態(tài)、穩(wěn)定民眾情緒具有重要意義。為解決震后輿情信息數(shù)據(jù)量大、語言多義性等問題,文章使用自回歸模型(XLNet)作為文本向量化表示層,將社交媒體地震數(shù)據(jù)文本轉(zhuǎn)化為包含上下文語義信息的媒體數(shù)據(jù)詞向量,同時(shí),使用雙向門控循環(huán)單元(BiGRU)網(wǎng)絡(luò)作為特征提取層,把詞向量序列輸入到BiGRU層,提取社交媒體地震數(shù)據(jù)的文本特征;將初步提取特征的文本輸入到注意力機(jī)制層(Attention),進(jìn)一步提取更為重要的情感類別特征,并對重要特征進(jìn)行權(quán)重強(qiáng)化,構(gòu)建基于網(wǎng)絡(luò)地震應(yīng)急處置信息改進(jìn)的XLNet-BiGRU-Att地震輿情情感分析模型;最終,獲得社交媒體地震數(shù)據(jù)的輿情態(tài)勢。相比傳統(tǒng)的XLNet模型,文章模型在甘肅積石山縣6.2級與新疆烏什縣7.1級地震的輿情情感分析中能夠準(zhǔn)確,快速捕捉長短文本數(shù)據(jù)特征,分析輿情態(tài)勢,情感分析準(zhǔn)確率分別提升到92.45%和93.42%。

關(guān)鍵詞:輿情分析; XLNet; BiGRU; 甘肅積石山; 新疆烏什

中圖分類號: P315.9文獻(xiàn)標(biāo)志碼:A文章編號: 1000-0844(2024)04-0955-10

DOI:10.20000/j.1000-0844.20240228002

Post-earthquake public opinion analysis based on improved XLNet

algorithm: a case study of the Jishishan, Gansu M6.2,

and Wushi, Xinjiang M7.1 earthquakesZHENG Tongyan WANG Kefeng HUANG Meng ZHANG Song

ZHOU Wentao YOU Qiao LIU Shuai

(1.China Earthquake Networks Center, Beijing 100045, China;

2.Institute of Disaster Prevention, Sanhe 065201, Hebei, China)Abstract:

The monitoring and analysis of public opinions on online platforms after earthquake aid is highly significant in emergency rescues, understanding disaster relief dynamics, and stabilizing public emotions. However, it is difficult to quickly gather and categorize these opinions given the large volume of post-earthquake public opinion data and polysemy of language. To address these problems, we employed the autoregressive model (XLNet) as a text vectorization layer, which converted the text of earthquake-related data on social media platforms into word vectors containing contextual semantic information. The bidirectional gated recurrent unit (BiGRU) network was used as the feature extraction layer, and the word vector sequence was input into the BiGRU layer to extract text features from these data. These texts were then input into the attention mechanism layer to extract features that are categorized based on sentiments that are highly important. The weights of important features were enhanced to construct an improved XLNet-BiGRU-Att sentiment analysis model based on the information gathered from online earthquake emergency responses. Finally, the public opinion situation of these data was obtained using the model. Compared with the traditional XLNet model, the proposed model yields higher accuracy and can more quickly capture the characteristics of both short and long text data gathered from the public opinion sentiment analysis of the Jishishan and Wushi earthquakes. We successfully increased the sentiment analysis accuracy to 92.45% and 93.42% for the Jishishan and Wushi earthquakes, respectively.

Keywords:public opinion analysis; XLNet; BiGRU; Jishishan in Gansu; Wushi in Xinjiang

0引言

地震災(zāi)害具有突發(fā)性和不可預(yù)測性,嚴(yán)重威脅人類生命財(cái)產(chǎn)安全和經(jīng)濟(jì)社會(huì)穩(wěn)定[1-2]。地震發(fā)生后,通常會(huì)產(chǎn)生很多地震相關(guān)輿情,例如震感強(qiáng)弱、傷亡情況、余震情況和救援情況等[3]。將民眾對地震災(zāi)害的認(rèn)知、感知和響應(yīng)、適應(yīng)進(jìn)行研究,是減輕災(zāi)害損失與影響的重要途徑[4-5]。因此,震后社會(huì)輿情信息的監(jiān)控、分析、處置和引導(dǎo)對相關(guān)部門開展震災(zāi)應(yīng)急救援和穩(wěn)定社會(huì)情緒具有重要意義。

近年來,伴隨移動(dòng)互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,蘊(yùn)含海量數(shù)據(jù)的社交媒體平臺為開展地震輿情監(jiān)測與分析提供了豐富的數(shù)據(jù)源[6]。社交媒體平臺具有實(shí)時(shí)性、互動(dòng)性、強(qiáng)擴(kuò)散及空間分布廣泛等特點(diǎn),如微博評論已成為地震災(zāi)害輿情分析的主要數(shù)據(jù)源[7]。國內(nèi)外學(xué)者基于社交媒體數(shù)據(jù),對不同地震事件開展了地震輿情時(shí)空變化分析及情感分析等方面的研究。薄濤等[1]以微博為數(shù)據(jù)源,通過機(jī)器學(xué)習(xí)中的人工神經(jīng)網(wǎng)絡(luò)模型,建立了基于社交媒體數(shù)據(jù)的地震烈度快速評估方法。 Kryvasheyeu等[8]以2012年美國桑迪颶風(fēng)為例,利用Twitter數(shù)據(jù)進(jìn)行了颶風(fēng)災(zāi)害損失評估,發(fā)現(xiàn)災(zāi)害損失越大,Twitter用戶活躍程度越高。徐敬海等[9]提出基于位置的微博地震災(zāi)情提取流程,并以云南永善地震為例進(jìn)行應(yīng)用,取得較好效果。楊天青等[10]提出一種基于公眾速報(bào)災(zāi)情信息的地震災(zāi)情過濾與推理方法,并以蘆山地震為案例進(jìn)行了方法驗(yàn)證。曹彥波等[11-12]以2014年景谷6.6級地震為例,基于微博輿情信息進(jìn)行震后有感范圍快速判定研究,并采用情感詞典和規(guī)則相結(jié)合的方法,以2013年四川蘆山7.0級和2017年九寨溝7.0級地震為例,基于震后24 h微博數(shù)據(jù)分析了地震災(zāi)區(qū)民眾情緒反應(yīng)特點(diǎn)。齊珉等[7]以2017年四川九寨溝7.0級地震為例,基于微博數(shù)據(jù)分析了社會(huì)民眾對此次地震事件的情感傾向,并研究了影響網(wǎng)民情感波動(dòng)的主要因素。鄭嶸等[13]以2017年九寨溝地震和林芝地震為例,提出災(zāi)害微博的實(shí)時(shí)處理框架,并驗(yàn)證了原型系統(tǒng)的可用性。Qu等[14]對2010年玉樹地震的新浪微博數(shù)據(jù)進(jìn)行分類統(tǒng)計(jì),并分析了民眾對地震事件的情感。李亞芳等[3]分析了新疆伽師6.4級地震后48 h新浪微博相關(guān)的博文和評論,并將其可視化。陳昱杉等[15]以新浪微博關(guān)于“九寨溝地震”事件為例,提取響應(yīng)時(shí)間、響應(yīng)強(qiáng)度、傳播強(qiáng)度、主題分布等輿情擴(kuò)散特征的指標(biāo),研究了地理空間距離對網(wǎng)絡(luò)輿情信息擴(kuò)散的影響。

從社交媒體數(shù)據(jù)輿情持續(xù)時(shí)間與文本特點(diǎn)角度進(jìn)行分析的研究還比較少。針對震后社交媒體數(shù)據(jù)集文本特點(diǎn),本文結(jié)合震后72 h持續(xù)輿情變化,克服震后社交媒體數(shù)據(jù)集與通用數(shù)據(jù)集情感處理不同的困難,準(zhǔn)確把握震后輿情傳播趨勢。通過分析研判輿情動(dòng)向,強(qiáng)化網(wǎng)絡(luò)輿情監(jiān)測,提出輿情的引導(dǎo)建議,為震后環(huán)境下的應(yīng)急機(jī)制提供參考依據(jù)。

具體來說,本文以2023年12月18日甘肅積山縣6.2級和2024年1月23日新疆烏什縣7.1級地震為例,采集了兩次震后72 h內(nèi)網(wǎng)絡(luò)信息數(shù)據(jù)近20萬條,其中包含震感信息、救援信息、人員傷亡信息等地震信息。為解決震后輿情信息數(shù)據(jù)量大和語言多義性等問題,擬采用XLNet模型作為預(yù)訓(xùn)練模型來捕捉短文本的數(shù)據(jù)特征,并結(jié)合雙向GRU和注意力機(jī)制模型,分別捕捉網(wǎng)絡(luò)剩余長序列文本和重要信息特征,構(gòu)建一個(gè)基于雙向上下文語義信息提取和自注意力機(jī)制的動(dòng)態(tài)地震微博情感分析模型XLNet-BiGRU-Att,進(jìn)一步提高地震案例分析的速度和準(zhǔn)確率,以期為科學(xué)有效的地震應(yīng)急管理提供輔助參考。

1研究對象與數(shù)據(jù)處理

1.1甘肅積石山縣6.2級地震

2023年12月18日23時(shí)59分,在甘肅臨夏州積石山縣(35.7°N,102.79°E)發(fā)生6.2級地震,震源深度10 km,蘭州、定西、臨夏等地震感強(qiáng)烈。甘肅積石山6.2級地震最大烈度為Ⅷ度,Ⅵ度區(qū)及以上面積8 364 km2。震后泥石流、滑坡、崩塌等次生災(zāi)害隨之發(fā)生,地震還造成多處交通中斷。

1.2新疆烏什縣7.1級地震

2024年1月23日2時(shí)9分,在新疆維吾爾自治區(qū)阿克蘇地區(qū)烏什縣(41.26°N,78.63°E)發(fā)生7.1級地震,震源深度22 km。截至當(dāng)日8時(shí)統(tǒng)計(jì)顯示,全縣范圍內(nèi)房屋共倒塌房屋47間、受損78間。截至2024年1月26日8時(shí),共記錄到余震4 216次,其中,3.0級以下4 067次,3.0級及以上149次:3.0~3.9級121次,4.0~4.9級21次,5.0~5.9級7次。最大余震5.7級,距主震震中約22 km。地震最大烈度為Ⅸ度,Ⅵ度區(qū)及以上面積27 926 km2。

1.3數(shù)據(jù)采集

地震應(yīng)急數(shù)據(jù)包括地震行業(yè)官網(wǎng)數(shù)據(jù)、主流新聞媒體網(wǎng)站數(shù)據(jù)、微博數(shù)據(jù)、論壇以及貼吧數(shù)據(jù)等,如圖1、2所示。本文從數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的角度出發(fā),采用基于Python的Selenium自動(dòng)化技術(shù),結(jié)合高級調(diào)度器模塊多時(shí)段分布式任務(wù)調(diào)度[16],從央視網(wǎng)、人民網(wǎng)、新浪新聞、網(wǎng)易新聞、搜狐新聞、新浪微博、抖音、快手等主流媒體網(wǎng)站中分別獲取了震后72 h內(nèi)甘肅積石山縣6.2級地震和新疆烏什縣7.1級地震應(yīng)急處置信息相關(guān)數(shù)據(jù)113 000條和91 800條,構(gòu)建地震應(yīng)急事件相關(guān)的輿情分析數(shù)據(jù)集,為模型實(shí)驗(yàn)提供了數(shù)據(jù)支持。社交媒體地震評論有其自身的數(shù)據(jù)特點(diǎn),如表1所列。

從社交媒體與新聞網(wǎng)站上采集到海量的震后相關(guān)輿情信息后,對數(shù)據(jù)進(jìn)行預(yù)處理:首先,對海量的數(shù)據(jù)進(jìn)行清洗與去重操作,例如在數(shù)據(jù)中會(huì)包含“@XXX”、“#XX”等字符,對這類文本進(jìn)行正則化,去除文本中的特殊字符、空格以及非中文字符;然后,處理地震社交媒體數(shù)據(jù)文本中的停用詞,提高文本處理的效率和準(zhǔn)確性,同時(shí)由于多數(shù)輿情評論文本中存在emoji表情,采用emoji-switch庫將emoji表情轉(zhuǎn)換為相應(yīng)的中文文本,與文本信息一起構(gòu)成數(shù)據(jù)集;最終,形成初步清洗后的地震網(wǎng)絡(luò)信息數(shù)據(jù)集,包含150 083條震后社交媒體數(shù)據(jù)。

之后,對清洗過的地震網(wǎng)絡(luò)信息數(shù)據(jù)集進(jìn)行情感標(biāo)注,以大連理工大學(xué)林鴻飛團(tuán)隊(duì)整理的中文情感詞匯本體庫作為模型的情感標(biāo)注來源,將“樂”“好”等定義為正向情感[積極],將“怒”“哀”“懼”“驚”等定義為負(fù)向情感[消極],其余為[中性];對這些數(shù)據(jù)進(jìn)行情感三分類的標(biāo)注后,最終得到了經(jīng)過清洗、標(biāo)注、增強(qiáng)預(yù)處理的120 567條地震社交媒體數(shù)據(jù)。

2研究方法

2.1預(yù)訓(xùn)練語言模型

與基于自回歸語言建模的預(yù)訓(xùn)練處理方法相比,基于自編碼的預(yù)訓(xùn)練處理方法具有較強(qiáng)的雙向上下文建模能力,例如雙向編碼器表征法(Bidirectional Encoder Representations from Transformers,BERT)。然而,BERT模型使用掩碼破壞輸入的方式,更容易忽略掩碼位置之間的依賴性,會(huì)導(dǎo)致預(yù)訓(xùn)練-微調(diào)(pretrain-finetune)的差異。在2019年,谷歌提出了一種新的自然語言處理(Natural Language Processing,NLP)預(yù)訓(xùn)練模型XLNet,這是一種廣義的自回歸預(yù)訓(xùn)練模型方法。它實(shí)現(xiàn)了雙向的上下文學(xué)習(xí),通過最大化因子分解順序中所有排列的預(yù)期期望可能性進(jìn)行學(xué)習(xí)。XLNet通過自回歸公式克服了BERT依賴掩碼位置的局限性,并將Transformer-XL的思想結(jié)合到預(yù)訓(xùn)練模型中,在文本表示語言任務(wù)中表現(xiàn)出色。自回歸語言模型(AutoRegressive Language Modeling,AR)方法只能學(xué)習(xí)單詞之間的依賴關(guān)系,自編碼語言模型(AutoEncoding Language Modeling,AE)方法只能學(xué)習(xí)深度雙向語義信息,這兩種模型單獨(dú)使用時(shí)都有各自的優(yōu)點(diǎn)和劣勢問題。而XLNet正是將AR和AE方法的優(yōu)勢結(jié)合起來,基于AR模型融入雙向語言模型,提出一種隨機(jī)排序語言模型(Permutation Language Modeling,PLM),避免了原始的自回歸模型不能結(jié)合上下文信息,以及自編碼語言模型由于mask導(dǎo)致的獨(dú)立性和數(shù)據(jù)分布一致性等缺點(diǎn)。

XLNet的核心思想是以排列組合的方式重構(gòu)輸入的社交媒體地震數(shù)據(jù)文本,引入PLM的訓(xùn)練目標(biāo)并對全排序的序列進(jìn)行采樣優(yōu)化,在自回歸語言模型上實(shí)現(xiàn)了雙向預(yù)測,并通過對上下文進(jìn)行語義特征雙向表示,可以解決在社交媒體地震數(shù)據(jù)文本中的詞語在不同語境下存在的多義性問題。

接著使用XLNet模型中的Attention掩碼機(jī)制,其原理是在Transformer內(nèi)部遮蓋不需要的部分,使這部分在預(yù)測時(shí)不起作用。但從模型外部看,文本順序與輸入時(shí)一致,都為從左向右的單向輸入。圖3所示為XLNet掩碼機(jī)制實(shí)現(xiàn)方式舉例。圖中原始輸入句子為地震社交媒體數(shù)據(jù)文本[樓,蹦,迪,一,樣,嚇,死],假設(shè)隨機(jī)生成序列為[樓,蹦,迪,一,樣,嚇,死],但輸入到XLNet中的句子仍然是[樓,蹦,迪,一,樣,嚇,死],那么在XLNet內(nèi)部是以圖中掩碼矩陣實(shí)現(xiàn)的。對于排列后的“樓”字來說,由于在首位無參考信息,因此第一行無陰影,假設(shè)當(dāng)排列后的“迪”字位于最后一個(gè)位置,可以參考的信息有[樓,蹦,一,樣,嚇,死]。以此類推,因此序列的真實(shí)的輸入順序并沒有改變,只是通過掩碼的操作展示出隨機(jī)排序的效果。

XLNet模型中PLM與Attention掩碼機(jī)制結(jié)合可以解決AR方法中不能看到上下文語義的問題,具體是通過上下文雙向語義的特征表示,更加全面了解詞語在語境中的意思。但是在PLM模型中,全排序語序隨機(jī)打亂也帶來了原Transformer無法解決的問題:例如輸入序列為[樓,蹦,迪,一,樣,嚇,死],給定一種排列方式為[死,樣,樓,迪,一,蹦,嚇],當(dāng)要預(yù)測第三個(gè)位置時(shí),即“樓”,其概率為P(樓|死,樣),如果此時(shí)給定另一種排列為[死,樣,蹦,一,樓,嚇,迪],當(dāng)要預(yù)測第三個(gè)位置,即“蹦”,其概率為P(蹦|死,樣),此時(shí)預(yù)測“樓” 和“蹦”的概率相等,但實(shí)際是表示了不同的詞義。這是由于原AR方法是按順序基于上文進(jìn)行預(yù)測,不需要考慮位置信息,但PLM為全排列方式,當(dāng)位置打亂后就無法辨別出原始位置,即在PLM模型中不能將位置信息與要預(yù)測的內(nèi)容信息分離開來進(jìn)行預(yù)測。

XLNet模型中的雙流自注意力模型可以解決這個(gè)問題:雙流可以分為ContentStream和QueryStream,ContentStream用于表示每個(gè)token的內(nèi)容信息,QueryStream表示每個(gè)token在原始輸入句子中的位置信息。雙流自注意力模型的工作原理為:在ContentStream中,對于圖3,若要預(yù)測“樓”,需要編碼上下文的位置和內(nèi)容信息,以及“樓”本身的位置和內(nèi)容信息;在QueryStream中,若要預(yù)測“樓”,需要編碼其上下文信息以及“樓”本身的位置信息。圖4為XLNet模型的雙流模型圖。

式中:m為網(wǎng)絡(luò)層的數(shù)量;Q、K和V為注意力機(jī)制的Query、Key和Value,Query用于指定要關(guān)注的內(nèi)容或?qū)傩?,Key包含與查詢相關(guān)的信息,主要用于與查詢進(jìn)行比較,Value為包含實(shí)際的信息或?qū)傩?,我們希望從注意力機(jī)制中獲取這些值。一般情況下,內(nèi)容隱藏狀態(tài)會(huì)被初始化為e(x),表示隨機(jī)初始化的詞向量,查詢隱藏狀態(tài)會(huì)被初始化為一個(gè)變量w。XLNet預(yù)訓(xùn)練語言模型以Transformer-XL框架為核心,引入循環(huán)機(jī)制和相對位置編碼,充分利用了上下文語義信息,用模型學(xué)到的知識計(jì)算出文本的向量表達(dá),以解決社交媒體地震數(shù)據(jù)文本中出現(xiàn)的詞語在不同語境信息下語義不同的問題。在XLNet-BiGRU-Att模型中,XLNet層將輸入序列轉(zhuǎn)化為可被BiGRU層接收的詞向量序列,進(jìn)行特征提取。

2.2注意力機(jī)制

注意力機(jī)制主要來源于人類視覺的處理過程,通過瀏覽信息獲取人類視覺的注意力焦點(diǎn),提取出文本所想表達(dá)的當(dāng)前任務(wù)中的關(guān)鍵信息。人類的視覺生理就是一種Attention機(jī)制,將有限的注意力放在重要信息上,節(jié)省資源,以便快速獲得最有效的信息。注意力機(jī)制的本質(zhì)為許多Query、Key、Value所組成的函數(shù),通過關(guān)注輸入權(quán)重的分配,使模型可以得到更準(zhǔn)確的語義信息,以式(3)為注意力機(jī)制的目標(biāo)函數(shù):

注意力機(jī)制應(yīng)用于不同社交媒體地震數(shù)據(jù)進(jìn)行情感分析任務(wù)時(shí),將經(jīng)過XLNet模型向量化和BiGRU網(wǎng)絡(luò)提取后的地震評論文本特征輸入到其中,對地震評論文本序列中重要特征增加權(quán)重值,使模型更加注重于重要特征中的內(nèi)容,以此提升BiGRU網(wǎng)絡(luò)的特征提取能力。之后通過Softmax歸一化對加權(quán)后的向量進(jìn)行處理,得到句子的情感傾向值,至此模型的訓(xùn)練任務(wù)完成。

2.3情感分析方法

本文主要對震后輿情評論進(jìn)行情感分析,情感分析為傾向性分析和意見挖掘,是對帶有情感色彩的主觀性文本進(jìn)行自動(dòng)解釋和分類情感(通常是積極、消極或中立)的分析過程。目前地震災(zāi)情獲取方法基本形成了基于遙感的方法、基于地震臺網(wǎng)方法和基于社會(huì)網(wǎng)絡(luò)(如短消息等)的方法等[16-18]。地震發(fā)生后,大量網(wǎng)友在新浪微博發(fā)布與地震相關(guān)的博文和評論,信息中包含民眾的各種情感色彩和情感傾向性的表達(dá),如高興、生氣、悲傷、贊揚(yáng)、譴責(zé)等。通過分析這些信息的主觀色彩,可以把握民眾輿論對于地震事件的看法和情感傾向。本文主要采用改進(jìn)的XLNet-BiGRU-Att地震輿情情感分析模型,對經(jīng)過預(yù)處理與標(biāo)注的數(shù)據(jù)進(jìn)行分析,針對輿情文本信息進(jìn)行情感評價(jià),即情感極性判定。其中,消極情緒主要是指民眾對地震表現(xiàn)出害怕、恐慌、悲觀等負(fù)面情緒;積極情緒主要是指民眾表現(xiàn)出樂觀、祝福、鼓勵(lì)等正面情緒;中性情緒是指其表達(dá)的正面和負(fù)面情緒相抵消,或未表現(xiàn)出主觀情緒。通過輿情情感分析結(jié)果,可視化表達(dá)民眾當(dāng)前的情感狀況。

3實(shí)驗(yàn)與模型評估

3.1XLNet-BiGRU-Att模型地震輿情情感分析

針對社交媒體地震數(shù)據(jù)的多義性和特征提取困難等問題,為更好地捕捉震后社交媒體數(shù)據(jù)的文本特征,使用XLNet模型作為文本向量化表示層,將媒體數(shù)據(jù)文本轉(zhuǎn)化為包含上下文語義信息的媒體數(shù)據(jù)詞向量,使用BiGRU 網(wǎng)絡(luò)作為特征提取層,并把詞向量序列輸入到BiGRU層提取媒體數(shù)據(jù)的文本特征,再將初步提取特征的文本輸入到注意力機(jī)制層,進(jìn)一步提取情感類別特征,對重要特征進(jìn)行權(quán)重強(qiáng)化,最終獲得媒體數(shù)據(jù)的情感傾向結(jié)果值。本文提出的XLNet-BiGRU-Att模型充分利用上下文的語境信息和與地震輿情相關(guān)的情感信息,在一定程度上解決了XLNet模型在媒體數(shù)據(jù)情感分析方面可提取特征少、未考慮單詞間句法依存導(dǎo)致的詞語多義性等問題。其中XLNet-BiGRU-Att模型的體系結(jié)構(gòu)如圖5所示,主要由以下6個(gè)部分組成:文本輸入層、XLNet層、BiGRU層、注意力機(jī)制層、Softmax層和輸出層。實(shí)驗(yàn)過程如下:

(1) 數(shù)據(jù)預(yù)處理。對震后網(wǎng)絡(luò)輿情信息進(jìn)行情感動(dòng)向分析的第一步,即將數(shù)據(jù)文本去重、去除特殊符號、空格等;去除文本信息中的停用詞以及將emoji表情轉(zhuǎn)為相應(yīng)的中文字符;最后對震后輿情評論進(jìn)行情感詞性標(biāo)注。

(2) 文本輸入。將數(shù)據(jù)預(yù)處理后的地震微博文本輸入到XLNet中,對輸入的地震社交媒體數(shù)據(jù)文本進(jìn)行序列化表示。輸入文本的長度為n,文本序列為X=(X1,X2,…,Xn),Xn表示文本數(shù)據(jù)的第n個(gè)字。

(3) 社交媒體地震數(shù)據(jù)文本向量化表示。針對XLNet模型中輸入的序列化媒體數(shù)據(jù)文本數(shù)據(jù),在查找字典后將每個(gè)詞轉(zhuǎn)化為對應(yīng)的字典編號,得到序列化媒體數(shù)據(jù)文本數(shù)據(jù)E,利用Transformer-XL自回歸編碼器進(jìn)行訓(xùn)練,將媒體數(shù)據(jù)文本數(shù)據(jù)進(jìn)行動(dòng)態(tài)表示,得到媒體數(shù)據(jù)文本詞向量表示g。在使用Transformer-XL自回歸編碼器時(shí),計(jì)算當(dāng)前媒體數(shù)據(jù)文本中每個(gè)詞與其他詞之間的相對位置關(guān)系,利用相對位置信息去調(diào)整每個(gè)詞的權(quán)重,從而獲得媒體數(shù)據(jù)文本句子中每個(gè)詞對應(yīng)的詞向量。通過這種方法學(xué)習(xí)到的詞向量g,充分利用了媒體數(shù)據(jù)文本中詞的上下文關(guān)系,使得媒體數(shù)據(jù)文本中每個(gè)詞在不同上下文語境中具有更好的表達(dá)。

(4) 提取社交媒體地震數(shù)據(jù)語義特征。將從XLNet層中學(xué)習(xí)到的媒體數(shù)據(jù)文本對應(yīng)的詞向量傳給BiGRU層,利用前向GRU層和后向GRU層:前向GRU順序提取深層的語義特征,后向GRU逆序提取,經(jīng)過多個(gè)GRU隱藏單元的訓(xùn)練,最終得到兩個(gè)文本向量的上下文語義特征,分別記作媒體數(shù)據(jù)文本向量F1和F2。

(5) 文本特征拼接及權(quán)重賦值。拼接正向語義特征社交媒體地震數(shù)據(jù)文本向量F1和反向語義特征社交媒體地震數(shù)據(jù)文本向量F2,并通過Attention層對媒體數(shù)據(jù)的特征向量進(jìn)行權(quán)重賦值,使模型對媒體數(shù)據(jù)文本向量中的重要特征提高注意力,最后通過softmax激活函數(shù)輸出對應(yīng)媒體數(shù)據(jù)文本的情感分類。

3.2模型評估

實(shí)驗(yàn)選取卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Network,RNN)、BERT、FastTest、BERT+BiLSTM、XLNet等模型為6個(gè)對照實(shí)驗(yàn)組,與本文提出的基于XLNet算法的震后網(wǎng)絡(luò)輿情分析模型(XLNet-BiGRU-Att)通過社交媒體地震數(shù)據(jù)集進(jìn)行對比訓(xùn)練,并對甘肅積山縣6.2級和新疆烏什縣7.1級地震震后社交媒體數(shù)據(jù)進(jìn)行模型測試評估。

由于在積石山縣與烏什縣地震中含有較多地震相關(guān)特殊情況,如積石山縣地震震級相對較小,但傷亡嚴(yán)重,烏什縣地震震級大,但損失較小。因此,震后輿情評價(jià)的結(jié)果可以對比實(shí)驗(yàn)得出最適合地震領(lǐng)域的情感分析模型。本文的評價(jià)指標(biāo)為情感分類模型性能常用指標(biāo),包括F1值(F1-score)、準(zhǔn)確率(Accuracy,ACC)。震后微博輿情數(shù)據(jù)實(shí)驗(yàn)的測試結(jié)果如表2、3所列。

通過表2、3中準(zhǔn)確率ACC值和F1值的實(shí)驗(yàn)結(jié)果可以看出,在甘肅積石山縣地震中,本文所提出的XLNet-BiGRU-Att模型的F1值與ACC最大,分別為91.37%與92.45%;在新疆烏什縣地震中,本文所提出的XLNet-BiGRU-Att模型的F1值與ACC最大,分別為93.52%與93.52%。其中BERT模型和XLNet模型是基于Transformer構(gòu)建的,在結(jié)合社交媒體地震數(shù)據(jù)上下文語義消除詞語多義性方面,優(yōu)于FastText、CNN模型的訓(xùn)練效果。XLNet模型在地震媒體數(shù)據(jù)領(lǐng)域文本的準(zhǔn)確率和F1值上更優(yōu)于BERT模型,尤其在地震特點(diǎn)明顯的震后社交媒體數(shù)據(jù)文本數(shù)據(jù)集中的實(shí)驗(yàn)結(jié)果更加突出。

實(shí)驗(yàn)表明,雖然XLNet方法的實(shí)驗(yàn)結(jié)果比較理想,但本文所提出的XLNet-BiGRU-Att模型在社交媒體地震數(shù)據(jù)文本中相較于基礎(chǔ)模型XLNet,準(zhǔn)確率及F1值都有一定程度的提升,表明在地震輿情分析領(lǐng)域,XLNet-BiGRU-Att模型具有良好的性能,彌補(bǔ)了其他對比模型在地震評論文本中詞語多義性和可提取特征少的問題,能根據(jù)社交媒體地震數(shù)據(jù)領(lǐng)域上下文文本的語義更好地提取震后輿情的特征,適用于震后社交媒體數(shù)據(jù)的情感分析。

3.3地震實(shí)例輿情分析

以上實(shí)驗(yàn)是對甘肅積山縣6.2級和新疆烏什縣7.1級這兩次地震進(jìn)行輿情情感分析概況,兩次地震產(chǎn)生的輿情聲量存在較大差距,積石山地震震級相對小,然而產(chǎn)生的破壞大,在人員傷亡與房屋破損上明顯嚴(yán)重。反觀新疆烏什縣地震震級高,但是多數(shù)地區(qū)為無人居住,人員傷亡相對較少。本文通過對微博震后72 h數(shù)據(jù)實(shí)時(shí)爬取,進(jìn)行數(shù)據(jù)處理和輿情分析,得出以下分析結(jié)果。

圖6為積石山地震震后72 h的各輿論場趨勢分析,積石山縣地震在震后1 h、8 h、24 h左右出現(xiàn)較多輿論信息,震后24 h達(dá)到峰值8 520條。

4結(jié)論

本文以甘肅積山縣6.2級和新疆烏什縣7.1級地震為例,結(jié)合基于雙向上下文語義信息提取和自注意力機(jī)制的動(dòng)態(tài)地震微博情感分析模型XLNet-BiGRU-Att,研究震后網(wǎng)絡(luò)輿情情感分析,得出如下結(jié)論:

(1) 積石山縣6.2級和烏什縣7.1級地震的輿情存在差異,相比其他模型,使用改進(jìn)的XLNet模型能夠更準(zhǔn)確地捕捉社交媒體地震數(shù)據(jù)中短文本數(shù)據(jù)特征,并分析不同地震的輿情特點(diǎn)。前者震級相對小,但產(chǎn)生較大的人員傷亡、房屋倒塌以及次生災(zāi)害,輿情聲量大,而烏什縣地震震級高達(dá)7.1級,造成損失反而較小。

(2) 使用改進(jìn)的XLNet與雙向GRU能更準(zhǔn)確地識別并捕捉海量網(wǎng)絡(luò)輿情信息中的長短文本特征,并結(jié)合自注意力機(jī)制對動(dòng)態(tài)地震輿情進(jìn)行情感分析。相比其他模型,在甘肅積石山縣地震中,本文所提出的XLNet-BiGRU-Att模型在震后社交媒體數(shù)據(jù)的F1值與ACC處于最大,分別為91.37%與92.45%。在新疆烏什縣地震中,本文所提出的XLNet-BiGRU-Att模型在震后社交媒體數(shù)據(jù)的F1值與ACC處于最大,分別為93.52%與93.52%。表明在地震輿情領(lǐng)域,XLNet-BiGRU-Att模型能夠更準(zhǔn)確地提取震后輿情特征,彌補(bǔ)了其余對比模型在社交媒體地震數(shù)據(jù)文本中詞語多義性和可提取特征少的問題。

(3) 通過輿情分析獲取到兩次地震的災(zāi)情相關(guān)信息??梢钥吹剑跃W(wǎng)絡(luò)輿情信息為基礎(chǔ)的AI提取分析模型雖然在輿情情感分析上取得了較好的結(jié)果,但是文本可能在震后輿情信息中覆蓋面過大,提取時(shí)會(huì)去除較多有用的信息。因此,特征提取模型在真實(shí)震例中應(yīng)不斷修正和積累,在之后的地震應(yīng)用中,不斷完善自主學(xué)習(xí)與更新修正過程。

參考文獻(xiàn)(References)

[1]薄濤,李小軍,陳蘇,等.基于社交媒體數(shù)據(jù)的地震烈度快速評估方法[J].地震工程與工程振動(dòng),2018,38(5):206-215.BO Tao,LI Xiaojun,CHEN Su,et al.Research of seismic intensity rapid assessment based on social media data[J].Earthquake Engineering and Engineering Dynamics,2018,38(5):206-215.

[2]劉磊,趙東升,朱瑜,等.1993—2017年我國大陸地震災(zāi)害損失的時(shí)空特征[J].自然災(zāi)害學(xué)報(bào),2021,30(3):14-23.LIU Lei,ZHAO Dongsheng,ZHU Yu,et al.Spatiotemporal characteristics of earthquake hazard losses in China's mainland during 1993-2017[J].Journal of Natural Disasters,2021,30(3):14-23.

[3]李亞芳,王新剛,梁慶云.基于新浪微博大數(shù)據(jù)的新疆伽師6.4級地震輿情分析及可視化研究[J].內(nèi)陸地震,2020,34(1):103-110.LI Yafang,WANG Xingang,LIANG Qingyun.Public opinion analysis and visualization of Xinjiang Jiashi MS6.4 earthquake based on Sina Weibo big data[J].Inland Earthquake,2020,34(1):103-110.

[4]蘇桂武,馬宗晉,王若嘉,等.汶川地震災(zāi)區(qū)民眾認(rèn)知與響應(yīng)地震災(zāi)害的特點(diǎn)及其減災(zāi)宣教意義:以四川省德陽市為例[J].地震地質(zhì),2008,30(4):877-894.SU Guiwu,MA Zongjin,WANG Ruojia,et al.General features and their disaster-reduction education implications of the earthquake disaster cognition and responses of the social public in MS8.0 Wenchuan earthquake-hit area:a case study from Deyang prefecture-level city,Sichuan Province[J].Seismology and Geology,2008,30(4):877-894.

[5]王若嘉,蘇桂武,張書維,等.云南普洱地區(qū)中學(xué)生認(rèn)知與響應(yīng)地震災(zāi)害特點(diǎn)的初步研究:以2007寧洱6.4級地震災(zāi)害為例[J].災(zāi)害學(xué),2009,24(1):133-138.WANG Ruojia,SU Guiwu,ZHANG Shuwei,et al.A preliminary study on the characteristics of cognition on and response to earthquake disaster of the middle school students in Puer area,Yunnan Province,China:a case study on the 2007 ninger earthquake with MS6.4[J].Journal of Catastrophology,2009,24(1):133-138.

[6]楊騰飛,解吉波,閆東川,等.基于深度學(xué)習(xí)的社交媒體情感信息抽取及其在災(zāi)情分析中的應(yīng)用研究[J].地理與地理信息科學(xué),2020,36(2):62-68.YANG Tengfei,XIE Jibo,YAN Dongchuan,et al.Extracting sentiment information from social media based on deep learning and the research on disaster reduction[J].Geography and Geo-Information Science,2020,36(2):62-68.

[7]齊珉,齊文華,蘇桂武.基于新浪微博的2017年四川九寨溝7.0級地震輿情情感分析[J].華北地震科學(xué),2020,38(1):57-63.QI Min,QI Wenhua,SU Guiwu.2017 Sichuan Jiuzhaigou M7.0 earthquake sentiment analysis based on Sina Weibo[J].North China Earthquake Sciences,2020,38(1):57-63.

[8]KRYVASHEYEU Y,CHEN H H,OBRADOVICH N,et al.Rapid assessment of disaster damage using social media activity[J].Science Advances,2016,2(3):e1500779.

[9]徐敬海,褚俊秀,聶高眾,等.基于位置微博的地震災(zāi)情提?。跩].自然災(zāi)害學(xué)報(bào),2015,24(5):12-18.XU Jinghai,CHU Junxiu,NIE Gaozhong,et al.Earthquake disaster information extraction based on location microblog[J].Journal of Natural Disasters,2015,24(5):12-18.

[10]楊天青,姜立新,席楠.地震速報(bào)災(zāi)情信息過濾與推漫方法研究:以蘆山7.0級地震為例[J].自然災(zāi)害學(xué)報(bào),2015,24(1):96-103.YANG Tianqing,JIANG Lixin,XI Nan.Filtering and deduction method of rapidly-report earthquake disaster information:taking Lushan 7.0 magnitude earthquake as an example[J].Journal of Natural Disasters,2015,24(1):96-103.

[11]曹彥波,吳艷梅,許瑞杰,等.基于微博輿情數(shù)據(jù)的震后有感范圍提取研究[J].地震研究,2017,40(2):303-310.CAO Yanbo,WU Yanmei,XU Ruijie,et al.Research about the perceptible area extracted after the earthquake based on the microblog public opinion[J].Journal of Seismological Research,2017,40(2):303-310.

[12]曹彥波.基于社交媒體的地震災(zāi)區(qū)民眾情緒反應(yīng)分析[J].地震研究,2019,42(2):245-256.CAO Yanbo.Analysis of People's emotional response in earthquake-stricken areas based on the social media[J].Journal of Seismological Research,2019,42(2):245-256.

[13]鄭嶸,張晨曉,樂鵬,等.基于微博的災(zāi)害信息快速提取方法研究[J].測繪地理信息,2020,45(5):133-137.ZHENG Rong,ZHANG Chenxiao,LE Peng et al.Disaster information extraction from microblog[J].Journal of Geomatics,2020,45(5):133-137.

[14]QU Y,HUANG C,ZHANG P Y,et al.Microblogging after a major disaster in China:a case study of the 2010 Yushu earthquake[C]//Proceedings of the ACM 2011 Conference on Computer Supported Cooperative Work.Hangzhou China:ACM,2011:25-34.

[15]陳昱杉,李鳳全,王天陽,等.網(wǎng)絡(luò)輿情信息擴(kuò)散中距離的影響:以新浪微博“九寨溝地震” 事件為例[J].浙江師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2020,43(1):77-84.CHEN Yushan,LI Fengquan,WANG Tianyang,et al.The role of distance in Internet public opinion diffusion:taking Sina microblog “Jiuzhaigou earthquake” as an example[J].Journal of Zhejiang Normal University (Natural Sciences),2020,43(1):77-84.

[16]趙福軍,蔡山,陳曦.遙感震害快速評估技術(shù)在汶川地震中的應(yīng)用[J].自然災(zāi)害學(xué)報(bào),2010,19(1):1-7.ZHAO Fujun,CAI Shan,CHEN Xi.Application of rapid seismic damage assessment based on remote sensing to Wenchuan earthquake [J].Journal of natural disasters,2010,19(1):1-7.

[17]帥向華,鄭向.防震減災(zāi)公益服務(wù)短信技術(shù)平臺設(shè)計(jì)與實(shí)現(xiàn)[J].自然災(zāi)害學(xué)報(bào),2011,20(6):40-44.SHUAI Xianghua,ZHENG Xiang.Design and realization of SMS technology platform for earthquake disaster mitigation public service[J].Journal of Natural Disasters,2011,20(6):40-44.

[18]AMIRI G G,KHORASANI M,MIRZA H R,et al.Ground motion prediction equations of spectral ordinates and arias intensity for Iran [J].Journal of Earthquake Engineering,2009,14(1):1-29.

(本文編輯:賈源源)

东兴市| 色达县| 巫山县| 囊谦县| 滦平县| 咸丰县| 昌都县| 来凤县| 鄄城县| 财经| 松桃| 个旧市| 东宁县| 肥乡县| 柳江县| 新余市| 临潭县| 胶州市| 遵义市| 同心县| 十堰市| 运城市| 梓潼县| 张家口市| 崇义县| 济阳县| 正阳县| 托里县| 朔州市| 明星| 景洪市| 苍梧县| 洪泽县| 禄劝| 尉犁县| 柞水县| 东阳市| 安顺市| 长岭县| 佳木斯市| 双流县|