国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

公路交通輿情監(jiān)測及系統(tǒng)開發(fā)

2021-02-22 04:00湯麗華吳星宇徐華健朱燕翔刁業(yè)敏吳建盛
關(guān)鍵詞:公路交通輿情公路

湯麗華,吳星宇,徐華健,朱燕翔,刁業(yè)敏,吳建盛

(1.南京郵電大學(xué)地理與生物信息學(xué)院,江蘇 南京 210023) (2.南京郵電大學(xué)通信與信息工程學(xué)院,江蘇 南京 210003) (3.南京仁面集成電路技術(shù)有限公司VeriMake實驗室,江蘇 南京 210088) (4.南京叁角加文化發(fā)展中心TP實驗室,江蘇 南京 210005)

目前,輿情分析方法已從人工分析輿情信息的情感傾向,過渡到了通過一系列文本情感分析算法進行輿情信息情感分析. 文本情感分析算法通過對網(wǎng)絡(luò)上的文本進行智能化分析,可以挖掘文本內(nèi)容蘊含的各種觀點、喜好等非內(nèi)容或非事實信息,提煉文本中蘊含的情感方向,明確文本傳播者的真實意圖. 文本情感分析主要分為基于語義的分析和基于機器學(xué)習(xí)的分析兩種類型. 基于語義的分析一般通過構(gòu)造傾向性詞典,借助語義分析工具如Word Net或 How Net等進行文本傾向性判別[1]. 但其較少考慮上下文語義聯(lián)系,難以適應(yīng)網(wǎng)絡(luò)輿情信息的動態(tài)演化性. 基于機器學(xué)習(xí)的分析采用機器學(xué)習(xí)方法,通過對大量標注傾向性詞匯的訓(xùn)練構(gòu)造一個褒貶兩類分類器,讓機器自動進行傾向性判別,更適合于網(wǎng)絡(luò)輿情信息的傾向性分析.

2013 年Google發(fā)布了Word2vec[2],深度學(xué)習(xí)方法在自然語言處理領(lǐng)域開始普及,情感分析進入快速發(fā)展階段. 借助機器學(xué)習(xí)特別是深入學(xué)習(xí)技術(shù),采集并整合社交媒體上的輿情信息,進而進行分析處理已經(jīng)成為當下的研究熱點[3]. 2009年,Go等[4]對民眾在Twitter上發(fā)布的文章進行情感分析. Mukherjee等[5]提出了一種輕量級的分析方法,充分結(jié)合了否定詞、連詞與情態(tài)動詞等詞語特性對于情感傾向的影響,考慮了N-gram、詞性等特征,使用SVM算法大幅度地提高了對Twitter的情感傾向分類準確率. Kaur等[6]將N-gram 用于特征提取并在句子后添加標記,結(jié)合KNN分類算法精確率達到 82%. Rathor等[7]結(jié)合字母加權(quán)對比分析了SVM、NB和ME 3種機器學(xué)習(xí)技術(shù). 深度學(xué)習(xí)是人工神經(jīng)網(wǎng)絡(luò)在使用多層網(wǎng)絡(luò)進行任務(wù)學(xué)習(xí)中的應(yīng)用,隨著深度學(xué)習(xí)在圖像和語音處理方面取得重大進展,其在情感分析領(lǐng)域也開始被廣泛應(yīng)用[8]. Mikolov等[2]提出CBOW和Skip-gram模型,前者是利用上下文詞來預(yù)測目標詞,后者是利用目標詞去預(yù)測周圍詞,對細粒度的語義有較好的表達. Zeng等[9]提出的Pos ATT-LSTM模型同時考慮了上下文詞和上下文位置關(guān)系的重要性. 對于結(jié)構(gòu)復(fù)雜的阿拉伯語,Heikal等[10]把最佳的CNN模型和雙向LSTM模型集成起來,提高了分類準確率. Du等[11]使用了分段池化策略,并對最大值拼接的向量做Tanh函數(shù)運算,同時引入了dropout算法. 馮興杰等[12]將CNN與注意力機制相結(jié)合,CNN考慮了不同的 N-gram 信息,注意力機制則考慮了文本句子與結(jié)果的相關(guān)性.

在交通輿情的文本挖掘領(lǐng)域,相關(guān)研究主要集中在交通事件與各種新型大數(shù)據(jù)媒體的分離、實時道路交通狀況跟蹤、游客感知、碰撞檢測和車輛設(shè)備故障診斷等方面,而交通領(lǐng)域輿情情感分析研究相對較少. Cao等[13]將交通輿情情感分析分為同義詞替換、主題識別、屬性提取和評估4個階段. Ardic等[14]基于結(jié)構(gòu)方程研究媒體報道對交通政策輿情影響,計算輿情情感與媒體的關(guān)系. Cao等[15]基于半監(jiān)督學(xué)習(xí)方法對中文微博用戶進行情感分析并預(yù)測交通擁堵道路和時間. Lu等[16]基于Word2vec事件融合模型并通過多渠道社交信息,感知檢測城市交通事故并對其進行可視化. 何夢嬌等[17]利用SVM模型進行交通輿情主題自動分類,基于Apriori算法利用關(guān)聯(lián)規(guī)則分析關(guān)鍵詞隱含的交通現(xiàn)象,并使用共現(xiàn)網(wǎng)絡(luò)分析方法深入挖掘輿情所反映的交通問題. Ali等[18]基于潛在狄利克雷函數(shù)方法和本體論進行交通情感分析,研究城市交通擁堵問題. 冒婷婷等[19]針對網(wǎng)民對關(guān)鍵基礎(chǔ)設(shè)施社會服務(wù)供應(yīng)能力的情感傾向,利用深度學(xué)習(xí)模型進行輿情分析,建立了基于情感挖掘的基礎(chǔ)設(shè)施社會韌性評價模型. 以上分析表明,通過網(wǎng)絡(luò)媒體監(jiān)測交通輿情信息、掌握情感傾向、反饋交通治理效果具有可行性.

我國公路四通八達,公路運輸行業(yè)與民眾生活息息相關(guān). 每年因公路交通而引發(fā)的輿情事件數(shù)量龐大,涉及內(nèi)容廣泛,事件歸因復(fù)雜,信息蔓延迅速,極易滋生輿情熱點[20]. 目前針對公路交通領(lǐng)域的輿情監(jiān)測和情感分析的研究很少. 江蘇省是公路交通大省,公路交通輿情監(jiān)測復(fù)雜且極其重要. 本文以江蘇省為例,采集了從2019年10月到2020年9月一整年間江蘇省公路交通相關(guān)網(wǎng)絡(luò)文本信息數(shù)據(jù),從季度、年度、重大事件3個角度分別進行了輿情監(jiān)測和分析,梳理了熱點輿情的內(nèi)容及走勢變化,設(shè)計了一種基于長短期記憶網(wǎng)絡(luò)(long short-term memory,LSTM)方法的公路交通輿情情感分析模型,并構(gòu)建了一套公路交通輿情監(jiān)測系統(tǒng).

1 數(shù)據(jù)集與方法

1.1 數(shù)據(jù)集

本文采集了從2019年10月到2020年9月一整年間江蘇省公路交通相關(guān)網(wǎng)絡(luò)文本信息數(shù)據(jù),主要包含:全省普通公路的建設(shè)、養(yǎng)護方面工作,具體指普通國省干線公路、農(nóng)村公路的施工現(xiàn)場、路面養(yǎng)護情況;全省普通公路的管理,生命防護工程管理和普通公路收費站管理;全省普通公路的服務(wù)管理,普通公路的服務(wù)區(qū)、公路驛站的服務(wù)管理,普通公路附屬服務(wù)設(shè)施的建設(shè)和管理;此外還包括全省普通公路所應(yīng)用的新技術(shù)等.

本文使用Python語言進行數(shù)據(jù)的爬取. 首先,將Python程序偽裝成瀏覽器,通過rsa加密模塊模擬登錄,爬取數(shù)據(jù);然后構(gòu)建所需的URL,發(fā)送爬蟲請求,在接收到請求后,網(wǎng)頁將判斷是否為通過機器人爬取數(shù)據(jù),如是則需輸入驗證碼;最后,程序判斷網(wǎng)頁返回的數(shù)據(jù)是否為空,若為空繼續(xù)構(gòu)建URL,反之則程序解析數(shù)據(jù)后將數(shù)據(jù)存儲到文件中去. 將上述數(shù)據(jù)存儲到excel文檔中,并進行數(shù)據(jù)的預(yù)處理. 預(yù)處理包含了分詞、去除停用詞和文本向量化. 本文采用中文分詞庫jieba中的精確模式,將句子中每個單詞精確地分割開. 由于某些詞語對于語義的影響不明顯,需過濾這些停用詞. 最后,采用Word2vec技術(shù)對完成分詞處理的文本進行向量化. 本實驗使用的數(shù)據(jù)庫為MySQL8.0.

1.2 方法

本文分別從季度、年度、重大事件3個角度進行了關(guān)鍵詞分析. 讀入文本數(shù)據(jù)后,使用jieba庫的精確模式進行分詞,再導(dǎo)入WordCloud庫. 通過關(guān)鍵詞的演變分析,可以準確地掌握主流的輿情.

本文采用LSTM模型進行情感分析. LSTM模型是一種特殊形式的循環(huán)神經(jīng)網(wǎng)絡(luò),是為了解決基于長文本序列的模型訓(xùn)練過程中梯度消失和梯度爆炸等問題而提出的,在自然語言處理的領(lǐng)域有著較好的效果. LSTM模型如圖1所示.

圖1 LSTM模型Fig.1 LSTM model

LSTM通過增添3個門控單元(輸入門、輸出門、遺忘門)的方式進行信息的選擇. 輸入門對當前數(shù)據(jù)及其上一個時間進行激活,然后對輸入到 LSTM 細胞中的信息進行選擇性控制,只通過對下一步進程有用的信息,阻擋無用的噪聲. 若輸入門的值為零,則斷開來自另一個節(jié)點的數(shù)據(jù);若輸入門的值為1,則所有的信息都將通過. 輸出門的目的是控制狀態(tài)的輸出,通過控制 LSTM 狀態(tài)來減少對輸出的不利影響. 遺忘門的目的是控制狀態(tài)的更新,通過抉擇上一時刻的狀態(tài)來保留對預(yù)測有用的信息,丟棄無用的信息. LSTM通過輸入門、遺忘門、輸出門來共同解決數(shù)據(jù)中的噪聲干擾,原理見式(1)-(6):

it=σ(Wi·[ht-1,xt]+bi),

(1)

ft=σ(Wf·[ht-1,xt]+bf),

(2)

(3)

ot=σ(Wo·[ht-1,xt]+bo),

(4)

(5)

ht=ot·tanh(Ct).

(6)

式中,ht-1表示上一時刻的輸出;bi、bf、bo、bc分別表示和門控函數(shù)及細胞狀態(tài)有關(guān)的偏置矩陣;xt為最新輸入;Wi、Wf、Wo、Wc分別表示和門控函數(shù)及細胞狀態(tài)有關(guān)的權(quán)重矩陣;σ代表門函數(shù),大多數(shù)情況下是 sigmoid 函數(shù),范圍為 0-1;it代表輸入門,ft代表遺忘門,ot代表輸出門;Ct-1表示舊的細胞狀態(tài);Ct表示新的細胞狀態(tài),實現(xiàn)長記憶;ht表示這一時刻的輸出,實現(xiàn)短記憶;ft控制在多大程度上丟棄老的記憶單元內(nèi)容;it控制在多大程度上將新信息存入當前記憶單元中;ot控制基于記憶單元Ct的輸出.

基于LSTM的文本情感分析方法實現(xiàn)流程如表1所示. 其中,Word2vec是Google推出的一個用于獲取詞向量的工具包,CBOW是其中一種網(wǎng)絡(luò)模型,使用上下文的詞匯來同時預(yù)測中間詞. 通過平均池化層來把詞向量集合H降維生成表達詞向量h,以及防止過擬合的發(fā)生. 邏輯回歸層用于將連續(xù)的多維輸出轉(zhuǎn)換為“類”.

表1 方法實現(xiàn)流程Table 1 Implementation flow of the method

2 結(jié)果和討論

2.1 輿情數(shù)據(jù)分析

通過對輿情監(jiān)測系統(tǒng)所爬取的輿情內(nèi)容分別從季度、年度、重大事件3個角度進行簡要的統(tǒng)計分析,梳理了熱點輿情的內(nèi)容及走勢變化.

(1)輿情數(shù)據(jù)季度分析

2019年第四季度,輿情內(nèi)容以一系列各地區(qū)公路中心動態(tài)為主,主要有公路養(yǎng)護、公路安全及各種保障整治工作等. 受無錫312事故影響,涉及橋梁安全、嚴查治超等相關(guān)報道也有一定的數(shù)量. 輿情報道大部分為正面;負面輿情較少,約占9%,大多與無錫312事故相關(guān).

2020年第一季度,輿情內(nèi)容主要涉及疫情防控、防疫保暢、公路養(yǎng)護、復(fù)工、春運等內(nèi)容.

2020年第二季度,輿情內(nèi)容以一系列各地區(qū)公路中心動態(tài)為主,主要有公路整治、公路養(yǎng)護及各種安全保障工作等. 輿情報道大部分為正面;負面輿情較少,約占8%,主要涉及一些道路交通小事故等.

2020年第三季度,輿情內(nèi)容以一系列各地區(qū)公路中心動態(tài)為主,主要有公路整治、公路養(yǎng)護、路面修復(fù)及各種安全保障工作等. 輿情報道大部分為正面;負面輿情較少,約占8%,主要涉及一些道路交通小事故和道路問題.

(2)輿情數(shù)據(jù)年度分析

2019年第四季度至2020年第三季度,輿情內(nèi)容以各地區(qū)公路中心日常工作動態(tài)為主,主要包括道路養(yǎng)護修建、道路安全保暢整治和安全檢查工作等. 同時,輿情內(nèi)容也和相關(guān)熱點事件有關(guān),如:受無錫312事故影響,涉及橋梁安全、嚴查治超等相關(guān)報道增多;隨著國慶假期的來臨,涉及道路安全檢查及道路保暢相關(guān)輿情報道增多. 輿情內(nèi)容正面居多,負面輿情主要涉及一些道路交通小事故和道路問題等.

(3)輿情數(shù)據(jù)重大事件分析

2019年10月10日,江蘇無錫312國道K135處、錫港路上跨橋發(fā)生橋面?zhèn)确鹿? 橋下共有3輛小車被壓,其中一輛系停放車輛(無人),事故共造成3人死亡,2人受傷. 以無錫312事故動態(tài)為例,輿情內(nèi)容主要有橋梁安全、嚴查治超等工作. 其中,針對該事故輿情存在以下幾點問題:(1)權(quán)威信息發(fā)布慢,發(fā)布水平需提升;(2)需要同媒體打好交道,展示出良好的政府形象;(3)要對超載進行進一步的整頓.

表2 LSTM方法與其他方法的比較Table 2 Comparison of LSTM with other methods

2.2 基于LSTM模型的輿情情感分析

本文按照8∶2的比例將數(shù)據(jù)集隨機劃分為訓(xùn)練集和測試集,對每組數(shù)據(jù)集,重復(fù)3次實驗,并取其Accuracy、Precision、Recall、AUC的平均值作為最終結(jié)果. LSTM模型的主要配置參數(shù)包含了訓(xùn)練最大輪數(shù)(epoch=10)、詞嵌入大小(embeddingSize=100).

將本文方法與支持向量機(support vector machine,SVM)和卷積神經(jīng)網(wǎng)絡(luò)(text convolutional neural network,textCNN)進行比較,如表2所示. textCNN通過一維卷積來獲取句子中N-gram的特征表示. textCNN對文本淺層特征的抽取能力很強,在短文本領(lǐng)域如搜索、對話領(lǐng)域?qū)W⒂谝鈭D分類時效果很好;對長文本領(lǐng)域,textCNN主要靠filter窗口抽取特征,在長距離建模方面能力受限,且對語序不敏感. LSTM可以捕捉到序列信息,在情感分析這種詞序很重要的應(yīng)用場景中效果更好. 在該數(shù)據(jù)集上,LSTM準確率、查準率、召回率達到了96.1%、84.2%、88.9%,AUC值達到了0.904(閾值=0.7). 與textCNN相比,準確率、查準率、召回率和AUC值分別提升了3.2%、0.9%、3.3%和0.053;與SVM相比,分別提升了7.2%、4.8%、7.7%和0.082 1. 可見,使用LSTM模型對于解決文本情感分析問題時效果要比SVM和textCNN更好,究其主要原因是LSTM模型具有一定的記憶能力,適合于處理和預(yù)測時間序列中間隔和延遲相對較長的重要事件.

本文分析了不同的詞向量維度大小對模型性能的影響,如圖2(a)所示. 對數(shù)據(jù)分別進行50、100、150、200維詞向量處理,然后用帶有標簽的文本對LSTM模型進行對比實驗,準確率分別可達到89.3%、89.9%、88.9%和88.6%. 結(jié)果顯示,當詞向量維度為100的時候,準確率會達到最大值89.9%,因此本文采取詞向量維度為100進行模型訓(xùn)練.

本文還考慮了LSTM模型的訓(xùn)練最大輪數(shù)對結(jié)果的影響,如圖2(b)所示. 訓(xùn)練的最大輪數(shù)epoch是影響模型性能的關(guān)鍵參數(shù),次數(shù)過大則會出現(xiàn)過擬合現(xiàn)象. 損失率可用來估量模型的預(yù)測值與真實值的不一致程度,損失率越小,模型的魯棒性就越好. 分別選取epoch為5、10、15、20、25進行測試,結(jié)果顯示,隨著epoch的增加,模型的損失率呈現(xiàn)先下降后上升的趨勢,當epoch為10時,模型的損失率達到最優(yōu)值16.8%,因此本文的訓(xùn)練最大輪數(shù)設(shè)置為10.

圖2 重要參數(shù)對實驗數(shù)據(jù)的影響Fig.2 Influence of important parameters on experimental data

圖3 系統(tǒng)模塊與功能Fig.3 System modules and functions

3 系統(tǒng)開發(fā)

本文構(gòu)建了一套公路交通輿情監(jiān)測系統(tǒng),主要包含了用戶管理模塊、輿情數(shù)據(jù)管理模塊、輿情數(shù)據(jù)分析模塊,功能如圖3所示. 系統(tǒng)代碼和附圖可以從https://github.com/RTPO中獲得.

用戶管理模塊包含用戶注冊、用戶登錄和用戶信息修改. 用戶填寫個人信息(包含用戶名、密碼、手機號、郵箱、生日)進行注冊,注冊完成后即可通過用戶名和密碼登錄系統(tǒng)查看個人信息,并可進入修改頁面進行相關(guān)信息的修改.

輿情數(shù)據(jù)管理模塊包含數(shù)據(jù)查詢、數(shù)據(jù)條數(shù)和數(shù)據(jù)增刪. 其中,數(shù)據(jù)查詢可按URL或按時間段兩種方式進行. 選擇查詢方式,點擊確認按鈕,向后端發(fā)送請求,系統(tǒng)將從數(shù)據(jù)庫中調(diào)用用戶所需要的數(shù)據(jù). 同時,用戶可以指定查詢的數(shù)據(jù)條數(shù),還可對輿情數(shù)據(jù)進行刪改操作.

輿情數(shù)據(jù)分析模塊包含本地文本分析模塊、選定時間段的多個文本分析和結(jié)果展示模塊. 在本地文本分析模塊,用戶點擊確認后,系統(tǒng)將會調(diào)用算法分析接口對上傳或拖拽至此的文件進行分析. 在選定時間段的多個文本分析模塊,用戶點擊確認后,將會調(diào)用算法分析接口對起止日期內(nèi)和指定條數(shù)的文件進行分析,對輿情情感進行分類. 在結(jié)果展示模塊,將會生成相應(yīng)的關(guān)鍵詞云圖和輿情情感傾向,同時也可查看輿情信息的詳細內(nèi)容.

4 結(jié)論

本文首先分別從季度、年度、重大事件3個角度對江蘇省公路交通輿情進行簡要的統(tǒng)計分析,梳理了熱點輿情的內(nèi)容及走勢變化,然后基于長短期記憶網(wǎng)絡(luò)(LSTM)設(shè)計了一種新的公路交通輿情情感分析方法,其準確率、查準率、召回率和AUC值分別達到了96.1%、84.2%、88.9%和0.904. 最后構(gòu)建了一套公路交通輿情監(jiān)測系統(tǒng),該系統(tǒng)可以展示公路交通輿情關(guān)鍵詞云圖,并分析輿情情感傾向,可為公路管理部門出臺相關(guān)措施、及時反饋治理效果、促進輿情正向循環(huán)提供參考.

猜你喜歡
公路交通輿情公路
我國建成第三條穿越塔克拉瑪干沙漠公路
公路養(yǎng)護嵌固抗滑磨耗層應(yīng)用研究
公路交通經(jīng)濟制約因素及對策
公路斷想
公路交通建設(shè)中的問題與對策分析
數(shù)字輿情
數(shù)字輿情
消費輿情
惡劣氣象環(huán)境下公路交通安全設(shè)施設(shè)計對策
父親的66號公路