郭 宇,甄云竹,閆琦若,李 晨,李英帥
(南京工業(yè)大學 交通運輸工程學院,江蘇 南京 211816)
新時代我國互聯(lián)網(wǎng)建設發(fā)展迅捷,信息技術一方面推動社會進步發(fā)展,造福人類社會,另一方面也會產生網(wǎng)絡輿情,給社會帶來不安定因素。網(wǎng)絡輿情是一種群體性意見,具有實時性及一定的傾向性和影響力。隨著網(wǎng)民規(guī)模逐年擴大,互聯(lián)網(wǎng)覆蓋率的提高,來源廣泛、發(fā)帖門檻低的網(wǎng)絡輿情在與社會轉型期敏感問題結合時可能產生負面內容。對2014年我國網(wǎng)絡輿情進行研究時,謝耕耘等發(fā)現(xiàn)互聯(lián)網(wǎng)領域多年來存在頂層設計不足、多頭管理、標準模糊等問題。來源廣泛、發(fā)帖門檻低的網(wǎng)絡輿情對社會公共治理、輿論引導等工作影響逐步加強,應重點關注并加以引導。
國外網(wǎng)絡輿情研究始于1936年,發(fā)展時間較長,Pawel Sobkowicz等提出將來自多個數(shù)據(jù)源的在線意見與傳統(tǒng)調查進行校準,開發(fā)了社會網(wǎng)絡輿情系統(tǒng)模型,加強了公共政策、營銷、金融等領域的決策。Rade開發(fā)了Simmons系統(tǒng),并應用于自然災害領域。
國內輿情研究起步較為遲緩,目前主要研究方面包括文本檢索、信息提取、情感分析、語義分類等。肖麗妍等從輿情影響力的廣度、強度、速度三個層面建立體系,并給出各個指標具體計算方法,衡量評價基于微博的網(wǎng)絡輿情社會影響力,為企業(yè)管理者提供決策層面的支持;劉毅利用MATLAB軟件,基于三角模糊數(shù)的模糊菲爾德法和模糊層次分析法,得到了關于具體某一熱點話題的網(wǎng)絡輿情預警指標體系;滕婕等運用Agent關系網(wǎng)絡,提出信任識別模型,識別惡意信息主體。
交通輿情主要以文本形式存在于新浪微博、相關論壇、微信、文章的回復、跟帖中,可利用交通輿情提煉交通信息,對交通工作加以完善。張恒才提出一種從微博文本中快速提煉獲得交通信息的技術,獲取各條路徑的運行狀況描述,得到交通流運行水平;崔健開發(fā)了基于微博的交通突發(fā)事件提取系統(tǒng),能夠迅速采集交通相關信息,評估參與人的情感狀態(tài);趙陽以故障文本信息為依據(jù),運用貝葉斯網(wǎng)絡作為故障分類方法,提出了高鐵信號系統(tǒng)車載設備的故障診斷方法;潘美瑜利用網(wǎng)絡爬蟲技術實時獲取與城市交通相關的文本數(shù)據(jù),提取交通事件特征并分析成因,研究數(shù)據(jù)背后的情感特點;鄭治豪等以新浪微博為主要數(shù)據(jù)來源,利用條件隨機場算法等,完成了微博數(shù)據(jù)的提取、識別和分類,開發(fā)了交通感知分析與可視化系統(tǒng);熊佳茜使用Python為主要開發(fā)語言,以條件隨機場算法與正則表達式相結合,達到了83%的提取準確率,為獲取交通大數(shù)據(jù)提供一種可行有效途徑。
當前研究大多針對交通大數(shù)據(jù)獲取、分析后對社會帶來的影響及應對措施,但結合區(qū)域發(fā)展特點,針對某一特定地區(qū)的交通輿情分析研究較少。何夢嬌獲取蘇州論壇“寒山聞鐘”、微信語音、電話投訴三種方式的投訴輿情,分析姑蘇區(qū)和高新區(qū)的交通現(xiàn)狀及早晚高峰擁堵規(guī)律,了解市民關心的熱點話題,對本文具有較高借鑒意義。
綜上,本文從南京市交通輿情角度出發(fā)。一方面了解2019年南京市交通秩序、交通事故輿情現(xiàn)狀,根據(jù)所得數(shù)據(jù)分析出相關事件發(fā)生地點及原因,另一方面按照時間劃分,統(tǒng)計不同季度南京市微博輿情焦點,貫徹落實“以人為本”交通理念。研究結果可在宏觀層面了解市民關注焦點、掌握南京市道路交通發(fā)展變化,改善現(xiàn)有交通現(xiàn)狀、制定群眾認可度高的交通政策。
本文采用文本挖掘技術進行交通輿情分析,利用爬蟲技術獲取微博交通輿情數(shù)據(jù),關鍵詞分別設置為:交通秩序、交通事故、標志標線。其中,交通秩序下分“堵車”、“繞行”、“禁左”、“修路”、“改建”;交通事故下分“追尾”、“刮擦”、“撞車”、“側翻”、“打滑”;標志標線下分“標志”、“標線”。得到用戶的微博原文、發(fā)布時間、用戶ID、定位地點、轉贊評數(shù)據(jù)等信息。
而后對獲得的文本進行數(shù)據(jù)處理,判斷出有效微博與無效微博。有效微博即含關鍵詞,且與交通有關,內容屬實的微博,無效微博為含關鍵詞,但與交通無關的微博。對獲取數(shù)據(jù)進行分詞,去除文本中與交通無關的語氣詞等,進行詞頻分析,了解市民關注度最高的話題。最后計算詞語間關聯(lián)度,獲得兩兩詞語的共現(xiàn)矩陣,完成交通事件與發(fā)生地點之間的匹配。數(shù)據(jù)處理流程如圖1所示。
圖1 數(shù)據(jù)處理流程圖
數(shù)據(jù)處理結束后,進行多層次評估及可視化展示。按交通事件與時間分類,進行輿情分析、季度輿情分析與微觀輿情分析,獲取2019年南京市民關注度較高話題與重點區(qū)域。最后結合地理位置、地域社會經濟發(fā)展狀況與輿情發(fā)布時間,分析輿情產生原因并提出對策。
經網(wǎng)絡爬蟲技術獲得的數(shù)據(jù)包含大量干擾內容,須對海量內容進行篩查和處理。先對獲得的微博數(shù)據(jù)進行分類,得到對本研究有用的文本信息,再對篩選出的內容進行分詞、共現(xiàn)分析等操作。
2.1 微博分類。本研究對于海量數(shù)據(jù)篩查和處理采用了半技術半人工的方法,即數(shù)據(jù)的獲取過程借助專業(yè)軟件幫助,數(shù)據(jù)預處理采用了人工篩查。面對大量數(shù)據(jù),在篩選過程中應注意以下方面:(1)合理保留有用數(shù)據(jù)。初始數(shù)據(jù)包含信息量巨大,對本研究無效的內容需予以刪除;(2)提前設定有效微博定義,并嚴格遵循。了解南京市內街道名稱,若描述的時間地點超出南京范圍需予以剔除;(3)對于同樣信息出現(xiàn)多次的情況,由于客觀事件的出現(xiàn)頻率并不代表民眾輿論,在考慮樣本精確性的前提下,應只保留一條。
經篩查后,對于本研究有用的微博數(shù)據(jù)共1 170條。其中標志標線類中,含大量高速公路的施工信息,對于交通輿情監(jiān)測意義較小。去除此類信息后,標志標線類數(shù)據(jù)樣本量僅有27條,代表性差,后續(xù)研究中不予考慮。
2.2 分詞與詞頻統(tǒng)計。文本分詞需將每個用戶發(fā)布的內容看作獨立的信息,把每條輿情處理為多個詞匯的組合,本文分詞借助GooSeeker分詞打標技術,詞頻代表輿情信息中單個詞語出現(xiàn)的次數(shù),詞頻越高代表在所有用戶的發(fā)布內容中,該詞的關注度越高。由于單條輿情信息包含的無關內容較多,分詞結束后刪除與交通無關和詞頻低于5的詞語。
2.3 關聯(lián)度計算。社會網(wǎng)絡圖在文本挖掘分析中可以顯示出詞匯間的關聯(lián)度,分析詞匯是否處于核心位置,其中共詞匹配用于計算兩兩詞語在原文中的共現(xiàn)次數(shù)。將事件發(fā)生地點與事件類型相匹配后,可定位到2019年南京市民所關注的交通現(xiàn)象。
共詞匹配完成后可生成匹配矩陣表,在表格中兩個詞語的共現(xiàn)次數(shù)由水平、豎直相交的單元格中的數(shù)字表示,值為正數(shù)就是有共現(xiàn)關系,值為零就是無共現(xiàn)關系;詞語的關聯(lián)度可以通過計算共現(xiàn)值為正數(shù)的單元格數(shù)量來表示,如表1所示。
表1 共現(xiàn)矩陣表
共詞匹配也可生成社會關系網(wǎng)絡圖,其默認展示共詞矩陣表里的所有詞語關系。在系統(tǒng)中輸入要展現(xiàn)的連線個數(shù),根據(jù)上述統(tǒng)計出的詞語之間的共現(xiàn)度,按由大到小的順序進行排列,位于核心地位的詞語會率先獲得連線,核心詞語與其余詞語之間的關聯(lián)度可以直觀表現(xiàn)出來。
在社會網(wǎng)絡關系圖里,用圓點大小代表詞語之間的共現(xiàn)度大小,即與該詞有關系的詞語個數(shù)。網(wǎng)絡圖使用的是無向箭頭,此處的共現(xiàn)度也能表示詞語的重要性,即是否處于核心地位。因此詞語的共現(xiàn)度越大,圓點就越大,詞語也越重要,如圖2所示。
圖2 交通秩序關系圖
從圖2中可以明顯看出核心詞語為“堵車”,由核心詞所輻射出的關聯(lián)詞語包括地點名詞、交通工具等,其中“玄武湖”、“秦淮(區(qū))”、“南京南站”等詞均與核心詞關聯(lián)密切,表明這些地區(qū)在2019年處于南京市內的秩序輿情重點地區(qū),而處于網(wǎng)絡關系外圍的“六合”、“浦口”、“安德門”等地的輿情反饋較少。
基于數(shù)據(jù)的處理整合,對2019年南京市微博交通輿情進行三方面分析:(1)南京市交通秩序與交通事故的評價;(2)按時間將全年劃分為四季度,評價每一季度輿情,挖掘出不同時間段的突出問題、重點地區(qū)并進行比較;(3)對季度輿情中突出地區(qū)進行微觀層次分析,進一步了解輿情背后的發(fā)生原因。
3.1 類別分析
3.1.1 交通秩序輿情分析。從交通秩序詞云圖(如圖3所示)中可以明顯看出,南京市在交通秩序方面的突出問題為擁堵。其646次的出現(xiàn)頻率顯著高于其余關鍵詞,繞行、修路、施工等詞仍較顯眼。在出現(xiàn)的地點名詞中,揚子江、秦淮河、長江大橋和長江二橋等地所受到的輿論關注較高。
圖3 交通秩序詞云圖
在對應的交通秩序匹配矩陣表中,共出現(xiàn)15處地點名詞,8處出現(xiàn)擁堵,4處出現(xiàn)繞行,各有1處進行修路和施工。出現(xiàn)頻率較高的地物名詞所對應的交通事件以擁堵、繞行為主。與長江大橋對應的“擁堵”詞條共有14條信息,長江二橋的“擁堵”共有19條信息,揚子江(隧道)的“繞行”共有9條信息,處于較高的頻率。說明市區(qū)內多地的擁堵現(xiàn)象較為嚴重,道路的改建修繕造成了市民的出行不便。
大橋、二橋均位于南京市東北部地區(qū),揚子江(隧道)位于西北部地區(qū),北部及中部區(qū)域包括鼓樓區(qū)等南京中心市區(qū)開發(fā)較早的一批地區(qū),以及以浦口區(qū)、六合區(qū)、棲霞區(qū)為主的發(fā)展迅速的江北新區(qū),土地利用更加綜合、多元化,開發(fā)密度高,產生了大量集中分布的交通需求,由其衍生出的擁堵現(xiàn)象也因此較為明顯。在此種背景下,應大力發(fā)展運載能力強的公共交通與之相適應,集聚帶來地價上升,相關部門也應當適當上調停車、通行費用,對私家車的運行進行限制,緩解交通壓力。
3.1.2 交通事故輿情分析。由于交通事故所含樣本數(shù)較少,其形成的詞云圖所含信息也較少,其中相撞、側翻等事故名詞出現(xiàn)頻率顯著高于其他名詞,發(fā)生事故的交通工具以貨車為主,說明南京市交通事故大多是由貨車產生,地點名詞中的二橋、三橋、應天(大街)出現(xiàn)頻率相似。
在對應的交通秩序匹配矩陣表中,貨車一詞共出現(xiàn)66次,匹配矩陣表中與貨車具有共現(xiàn)關系詞中聯(lián)系度較大的詞分別為“相撞”與“側翻”,前者共現(xiàn)16次,后者共現(xiàn)34次,并且“貨車”與“江北”共現(xiàn)14次,與三橋共現(xiàn)8次。三橋用于連接浦口區(qū)綠水灣南端與雨花臺區(qū)大勝關,雨花臺區(qū)在地理位置上緊鄰江北新區(qū),由此可見,2019年江北新區(qū)附近由貨車所造成的交通事故不容小覷,應得到交通運輸部門高度重視。
交通秩序匹配矩陣表中地點名詞共出現(xiàn)8處,按匹配矩陣中共現(xiàn)度觀察,5處發(fā)生相撞事件,3處發(fā)生側翻,1處發(fā)生肇事逃逸。其中雨花臺區(qū)較為嚴重,共統(tǒng)計到10條相撞信息與8條肇事逃逸信息,江北新區(qū)次之,統(tǒng)計到14條側翻信息,其中浦口區(qū)內文德西路統(tǒng)計有6條側翻信息。觀察上述交通事故發(fā)生區(qū)域的地理位置可知,大多數(shù)事件集中在南京市內的中部,以江北新區(qū)和雨花臺區(qū)最為嚴重。
南京中上部與中西部相連接關鍵在于江北新區(qū),其同樣作為輻射帶動長江中上游地區(qū)發(fā)展的重要節(jié)點,擁有便捷的公路、水路、鐵路及航空樞紐,吸引帶動的大批交通量是該地交通事故頻發(fā)的重要原因。長江大橋、二橋、三橋、四橋均連接或位于該區(qū)域內,在跨江大橋上行駛易受天氣和橋面影響,車輛應嚴格限速、遵守交通法規(guī)。雨花臺區(qū)是南京市主城八區(qū)之一,以軟件和信息服務為主導的中國軟件名城示范區(qū),且依托南京南站發(fā)展樞紐型經濟,推動南站與全市周邊區(qū)域的發(fā)展融合,同樣具有較大流量,在制定區(qū)域發(fā)展規(guī)劃中,應當著重考慮該區(qū)域內交通安全問題。
3.2 季度輿情分析。季度輿情用于分析交通輿情的事件類型與時間的關系。以時間為自變量將不同類型交通事件進行整合,尋求隨時間推移,市民關注熱點與南京交通問題的變化;季度輿情也可用于尋求不同季度間交通輿情相互關系。通過分析比較季度間存在的異同,為制定微觀交通戰(zhàn)略、城市交通規(guī)劃等提供參考。
結合輿情關注度較高的地區(qū),制成如表2所示的地點事件對應表(表格標黃地區(qū)為江北新區(qū))。從表中信息可以看出,交通事件“擁堵”與“側翻”在南京市處于輿論焦點,而多數(shù)事件的發(fā)生地點集聚在中北部地區(qū),其中江北新區(qū)和鼓樓區(qū)出現(xiàn)頻率較高,長江二橋位于江北新區(qū)內,它的建成使得南京“城內成網(wǎng),城外成環(huán)”的交通大格局基本形成,拉動了南京東北部地區(qū)經濟發(fā)展,加強省會與蘇北地區(qū)之間的聯(lián)系。由于二橋作為寧洛高速的重要組成部分,其所吸引交通量至少涵蓋兩個省份,在促進沿岸經濟快速發(fā)展的同時也隱含交通事故發(fā)生的可能,一方面橋面行車應嚴格遵守法律規(guī)定,另一方面雨雪天氣造成的路面濕滑也應當引起足夠重視。尤其在春運等特殊時段,進出城交通量大幅增長時期要做好預告和防范工作,提醒駕駛員繞行,減少造成的行程時間損失和避免交通事故的發(fā)生。
表2 地點事件對應表
江北新區(qū)作為南京都市圈、寧鎮(zhèn)揚同城化的核心區(qū)域之一,占到全市面積的37%,承接多數(shù)市民的日常工作出行需要,處于高密度開發(fā)狀態(tài),人口密集,交通發(fā)生量集中,交通流的自我調節(jié)能力與其他地區(qū)相比較弱,因此外在力量對交通流運行的影響較為明顯,這也是新區(qū)內頻繁發(fā)生擁堵,以及由于施工帶來的繞行現(xiàn)象的原因。
3.3 微觀輿情分析。以表2為依據(jù),觀測到一季度長江二橋頻發(fā)繞行現(xiàn)象,四季度長江二橋頻發(fā)擁堵現(xiàn)象以及玄武湖頻發(fā)擁堵現(xiàn)象,本節(jié)將針對以上交通現(xiàn)象進行微觀層次分析,經過查找匹配,共統(tǒng)計到32條有效文本,其中一季度7條,四季度25條,事件發(fā)生地點為長江二橋和玄武湖兩處。
對于一季度的7條小樣本數(shù)據(jù),其中5條微博指向寧杭高速(二橋方向),由于繞城車多,建議繞行,2條指向寧洛高速(二橋方向)交通管制,建議繞行。長江二橋處于南京出城交通要塞,連接江蘇省與其他省份之間的交通往來,其吸引的多數(shù)交通量都是市域出行,為使交通網(wǎng)絡處于平衡狀態(tài),盡量減少出行者的時間成本,除了在對橋上交通量進行及時疏導管控,通過改建來擴大交通容量,增加可達性外,對其周邊地區(qū)也應改善使其足夠承擔二橋的分流,使平均或總的出行成本最小,達到網(wǎng)絡的系統(tǒng)平衡。
四季度收集到樣本數(shù)據(jù)相較于一季度具有一定的多樣性,長江二橋共統(tǒng)計到12條相關數(shù)據(jù),其中9條指向國慶期間,出城擁堵,排隊數(shù)量較長,引發(fā)多數(shù)市民的不滿,2條敘述二橋至三橋方向的平良大街處發(fā)生交通事故追尾,導致較為嚴重的擁堵現(xiàn)象,1條敘述二橋至三橋方向的玉蘭路隧道發(fā)生廂式貨車與渣土車相撞,產生擁堵。四季度微觀數(shù)據(jù)再次指向二橋所處地理位置的重要性,承擔的市內外流量對其提出了更高的運載需求,不僅要保證市民出行的迅速、準時,更應該保證參與人的安全。作為連接市區(qū)間的道路,不可避免會吸引到各式交通工具。此時,車種全為小轎車的理想狀態(tài)下計算出的通行能力等已與實際狀況出現(xiàn)較大偏差,應將這部分考慮在城市交通規(guī)劃發(fā)展戰(zhàn)略內,對于危險系數(shù)較高的交通流要做好防范措施與突發(fā)事件應急措施,最大限度保障出行人的安全與時效。
玄武湖在四季度共統(tǒng)計到13條數(shù)據(jù),但該13條微博共同指向同一交通事件:國慶玄武湖煙火表演,該事件具有偶然性,但由于事件影響范圍廣,吸引大量非南京市內出行需求,其造成的市內道路交通負荷也不容小覷。
在大數(shù)據(jù)逐漸滲入各個行業(yè)的背景下,利用網(wǎng)絡爬蟲技術獲取微博交通輿情,通過分析高頻關鍵詞和共現(xiàn)矩陣,得到南京市2019年輿情熱點與問題地區(qū)。研究發(fā)現(xiàn):(1)多數(shù)用戶未形成在微博發(fā)布交通觀點的意愿。選取2019年整年的時間跨度所統(tǒng)計出的微博數(shù)據(jù)較少,對研究的進行不利。(2)不同地區(qū)市民關注輿情熱點不同。本文所采集出的數(shù)據(jù)中,多數(shù)輿情分布在南京市中北部,以江北新區(qū)和位于市中心的鼓樓區(qū)為主。(3)不同季度輿情關注度與重點地區(qū)不同。第一季度存在春運,長江二橋交通壓力大,關于“二橋”與“江北新區(qū)”相關詞條內容較多,第二季度二橋施工,大量交通流被迫繞行,第三、四季度交通逐漸趨于平穩(wěn)狀態(tài),市中心區(qū)域仍承擔大量交通負荷,因此鼓樓區(qū)相關地點名詞與“擁堵”出現(xiàn)頻率相對較高。(4)本文所使用的交通輿情來源單一。微博輿情數(shù)據(jù)樣本較少,進行輿情分析缺乏代表性,輿情的來源應當多樣化,分析比較不同來源的數(shù)據(jù)是否存在差異。后續(xù)可成立專業(yè)輿情發(fā)布平臺,方便注冊用戶完成實名認證,對于市民的投訴可以做到分類、分時、精準定位,且官方對于市民的輿情信息應做到及時反饋,及時監(jiān)測,鼓勵群眾發(fā)表個人意愿,促進市內交通平衡和相關政策的落實。