白玲瑋 魏莉
當(dāng)前,中國面臨嚴重的環(huán)境污染問題,其中空氣質(zhì)量問題日益突出,且已經(jīng)嚴重影響到人們的身體健康、生活水平甚至國民經(jīng)濟的發(fā)展??諝赓|(zhì)量的定性、定量分析能夠幫助公眾了解現(xiàn)狀,為政府制定環(huán)境政策并采取有效措施提供科學(xué)依據(jù),從而達到進一步改善空氣質(zhì)量的目的。而且空氣質(zhì)量問題一直以來都是微博熱搜話題。根據(jù)LDA網(wǎng)絡(luò)輿情,從微博文本中提出主要觀點,可以有效地擴大個人的思想和認知,同時為輿論監(jiān)督和指導(dǎo)提供了堅實的基礎(chǔ)。
一、實證分析
(一)全國主要城市2016年空氣質(zhì)量分析
首先,根據(jù)2016年1月1日至2017年1月1日全國367個城市平均AQI值繪制折線圖??梢钥闯?,1月份平均AQI較高,2月到10月總體呈下降趨勢,空氣質(zhì)量相對較好。11月份到12月份急劇上升,達到中度污染甚至重污染,這可能是受到北方地區(qū)進入供暖期后,煤炭等能源的燃燒增多的影響。緊接著研究發(fā)現(xiàn)我國六項空氣污染物指標(biāo)中首要污染物為PM2.5,其次為 、PM10、 以及復(fù)合污染物。最后,收集2014年、2015年和2016年中國五大主要城市(北京、上海、廣州、沈陽、成都)的PM2.5每小時觀測值。可知從2014 年到20016年,五個主要城市的PM2.5 觀測值均有所減小,且北京下降幅度最大。總體來看,我國PM2.5 治理成效明顯。
(二)基于主題模型的新浪微博數(shù)據(jù)輿情分析
本文數(shù)據(jù)來自新浪微博用戶“人民日報”和“環(huán)保北京”。
1.語料預(yù)處理。很多用戶的微博內(nèi)容字數(shù)較少,且部分含有大量無意義的信息,因此需要對數(shù)據(jù)進行篩選。本文篩選標(biāo)準(zhǔn)為:刪除字數(shù)少于兩個的、帶有廣告等與話題無關(guān)的微博,保留信息量較大的原創(chuàng)微博。篩選過后,對得到的470條微博數(shù)據(jù)進行預(yù)處理,利用R軟件進行分詞。首先提取名詞、動詞等具有實際意義的詞語,再去除標(biāo)點、停用詞及數(shù)字,構(gòu)建詞文檔矩陣,矩陣中共包括22305個分詞。
2.結(jié)果分析。根據(jù)得到的詞文檔矩陣,初步可以看出出現(xiàn)頻率較高的詞語有口罩、治理、北京、污染等。其中,口罩是出現(xiàn)頻率最高的詞語,以及防毒面具等關(guān)鍵詞說明在空氣質(zhì)量問題上人們對空氣質(zhì)量帶來的個人健康問題最為重視,尤其在2016年末,空氣污染最為嚴重的時候,口罩在熱點話題中的位置居高不下。還可以看出公眾對政府治理措施的高度關(guān)注,認為政府是否作為、監(jiān)管力度是否足夠在此事件中的影響很大。此外,關(guān)鍵詞房價值得注意,有國外學(xué)者認為房地產(chǎn)價格與空氣質(zhì)量有一定的相關(guān)關(guān)系,但是國內(nèi)此方面的研究還有待深入。
然后使用R軟件中的ida程序包進行訓(xùn)練,使用快速壓縮Gibbs抽樣方法。主題個數(shù)k對LDA模型的最終結(jié)果影響很大,經(jīng)過反復(fù)實驗比較和判斷,最終確定主題個數(shù)為5,參數(shù) 和 的初始值為0和1。實驗結(jié)果如下:
由表1可知,每個topic的關(guān)鍵詞都能較為清楚地反映主題的內(nèi)容。通過對比LDA模型提取的熱點主題與用于建模的470條微博內(nèi)容,可以認為LDA模型在提取“空氣質(zhì)量”熱點話題主題的應(yīng)用上有較好的效果。5個Topic的關(guān)鍵詞反映的主題內(nèi)容表明公眾對空氣質(zhì)量、身體健康、情緒狀態(tài)、污染地區(qū)、治理措施的關(guān)注。綜上所述,LDA模型在空氣質(zhì)量這一熱點微博主題挖掘中呈現(xiàn)了較好的效果,但是仍需進一步的完善和改進。
二、結(jié)語
從整體上看,2016年我國空氣質(zhì)量呈現(xiàn)較為良好狀態(tài),在時空上有較為明顯的分布特征,由內(nèi)陸向沿海地區(qū)、由北方向南方空氣質(zhì)量呈變好趨勢,夏天空氣質(zhì)量相對較好,且高污染城市易對周邊地區(qū)產(chǎn)生影響。第四季度特別是冬季的空氣質(zhì)量較差,且易出現(xiàn)極端污染情況。我國的首要污染物為PM2.5,2016年在東北、華北地區(qū)對PM2.5的治理效果顯著,由于原本空氣質(zhì)量污染嚴重,故采取治理措施后效果顯著。另外,LDA模型在空氣質(zhì)量微博評論主題挖掘這一實際問題中呈現(xiàn)了較好的效果。模型挖掘得到公眾對于空氣質(zhì)量這一熱點主題的關(guān)注主要表現(xiàn)在空氣質(zhì)量情況、污染嚴重城市、自我防護措施等方面。(作者單位為山西財經(jīng)大學(xué)統(tǒng)計學(xué)院)