蔡翹勵(lì) 梁瑩 陳思煒 吳凱 李攀攀
摘要:豆瓣網(wǎng)站是國(guó)內(nèi)具有較高熱度的社交網(wǎng)站之一,該文設(shè)計(jì)出針對(duì)豆瓣網(wǎng)站的信息采集與可視化分析系統(tǒng),基于Python語(yǔ)言實(shí)現(xiàn)了信息采集、信息分析與可視化三個(gè)功能模塊,能根據(jù)用戶指定關(guān)鍵詞實(shí)現(xiàn)對(duì)豆瓣網(wǎng)站信息的自動(dòng)采集及可視化展示等功能。
關(guān)鍵詞:信息采集;可視化;豆瓣網(wǎng)站
中圖分類(lèi)號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2018)13-0003-02
1 背景
目前,隨著Web2.0和移動(dòng)互聯(lián)網(wǎng)的飛速發(fā)展,網(wǎng)民數(shù)量屢創(chuàng)新高,社交互聯(lián)網(wǎng)平臺(tái)應(yīng)運(yùn)而生,網(wǎng)民可在社交網(wǎng)絡(luò)平臺(tái)上發(fā)表個(gè)人觀點(diǎn)、表達(dá)個(gè)人思想。然而,不恰達(dá)的言論極易成為社會(huì)不穩(wěn)定因素,因此非常有必要及時(shí)地了解和掌握社交網(wǎng)站網(wǎng)民所發(fā)表的信息,對(duì)網(wǎng)站的信息進(jìn)行全方位的了解,避免出現(xiàn)大規(guī)模網(wǎng)絡(luò)輿情攻擊、網(wǎng)絡(luò)謠言等惡性事件。
豆瓣網(wǎng)站作為社交網(wǎng)站的典型代表,積聚了大量的人氣,是國(guó)內(nèi)較具有影響力的社交網(wǎng)站,大量的網(wǎng)民可以在豆瓣網(wǎng)站上發(fā)布各種信息,這些信息帶有豐富的個(gè)人情感,特別是有些意見(jiàn)表達(dá)的觀點(diǎn)具有極強(qiáng)的主觀性和隨意性[1]。因此,該文研發(fā)了面向豆瓣網(wǎng)站的信息采集與分析系統(tǒng),能全面地掌握豆瓣網(wǎng)站的社交網(wǎng)絡(luò)信息,并能對(duì)所爬取的豆瓣網(wǎng)站數(shù)據(jù)進(jìn)行直觀的可視化展示,有助于及時(shí)、全面地了解豆瓣網(wǎng)民的思想表達(dá)、熱點(diǎn)關(guān)注事件等。
2 系統(tǒng)架構(gòu)設(shè)計(jì)
該系統(tǒng)采用基于Python的Scrapy開(kāi)源爬蟲(chóng)框架二次開(kāi)發(fā)而成,Scrapy框架提供了豐富的網(wǎng)頁(yè)抓取相關(guān)功能的API接口[2],該文基于此,實(shí)現(xiàn)了面向豆瓣網(wǎng)站的定向信息爬取、數(shù)據(jù)處理及其可視化,系統(tǒng)功能如圖1所示。
面向豆瓣網(wǎng)站的信息采集與可視化系統(tǒng)架構(gòu)主要分為三個(gè)關(guān)鍵功能模塊:
1)采集模塊,主要根據(jù)用戶指定的關(guān)鍵詞或URL對(duì)豆瓣網(wǎng)站的相關(guān)信息進(jìn)行爬??;
2)處理模塊,主要任務(wù)是將采集模塊所爬取的海量數(shù)據(jù)進(jìn)行處理和分析,并進(jìn)行格式化存儲(chǔ),以便于后續(xù)的可視化展示;
3)可視化模塊,該部分是系統(tǒng)分析功能的主要實(shí)現(xiàn)部分,是實(shí)現(xiàn)對(duì)所處理信息的可視化展示。
3 面向豆瓣網(wǎng)站的信息采集與可視化系統(tǒng)主要功能實(shí)現(xiàn)
3.1 信息采集模塊
信息采集模塊的主要功能是根據(jù)系統(tǒng)用戶指定的關(guān)鍵詞,啟動(dòng)爬蟲(chóng)程序通過(guò)網(wǎng)絡(luò)采集豆瓣網(wǎng)站的相關(guān)信息,并將采集到的信息持久化保存到本地?cái)?shù)據(jù)庫(kù)。此外,系統(tǒng)還部署了爬取信息的去重去噪策略,保障采集信息的準(zhǔn)確性。最后,對(duì)采集的信息進(jìn)行格式化轉(zhuǎn)換,將格式化的數(shù)據(jù)進(jìn)行保存。
為了保障對(duì)豆瓣網(wǎng)站采集信息的全面性,該系統(tǒng)采用廣度優(yōu)先的爬行搜索策略[3-4],主要流程是選擇的起始URL作為種子URL放入等待隊(duì)列中,爬蟲(chóng)根據(jù)URL隊(duì)列選擇URL進(jìn)行爬取解析,將已爬取的URL放入已爬取集合中,對(duì)解析下來(lái)的URL進(jìn)行選擇放入待爬取URL隊(duì)列中,直到待爬取的URL隊(duì)列為空為止,如圖2所示。
鑒于豆瓣網(wǎng)站的主動(dòng)反爬蟲(chóng)策略[5],該系統(tǒng)采用Cookie進(jìn)行模擬瀏覽器訪問(wèn),在豆瓣網(wǎng)站返回bin的Cookie時(shí),后續(xù)的爬取過(guò)程均攜帶該Cookie進(jìn)行訪問(wèn),為了防止頻繁的方位而觸發(fā)的反爬蟲(chóng)機(jī)制,在系統(tǒng)中設(shè)定了一定的時(shí)間閾值,為1分鐘,進(jìn)行間隔式爬取。
3.2 信息分析模塊
系統(tǒng)分析模塊的主要功能對(duì)豆瓣網(wǎng)站爬取信息數(shù)量的分析、熱點(diǎn)話題的跟蹤和識(shí)別、情感分析等。信息分析模塊的核心功能主要是通過(guò)基于Python的Jieba分詞器對(duì)所爬取的海量文本信息進(jìn)行處理,Jieba分詞器首先使用特征詞向量對(duì)文本進(jìn)行形式化描述,其原理是使用前綴數(shù)組的方式構(gòu)造了一個(gè)用于存儲(chǔ)數(shù)據(jù)的詞典,從內(nèi)存的詞典中構(gòu)建該句子的有向無(wú)環(huán)圖,并使用隱馬爾可夫模型處理詞典中尚未收錄的詞,等待全文分詞完畢,動(dòng)態(tài)規(guī)劃尋找DAG的最大概率路徑,最后輸出分詞結(jié)果。
該系統(tǒng)還使用K-means聚類(lèi)算法對(duì)該文本向量進(jìn)行匯總,并判斷其與關(guān)鍵話題的相關(guān)性[6]。為了提升算法的有效性,該系統(tǒng)中使用歐氏距離作為相似度度量的標(biāo)準(zhǔn)尺度,對(duì)相關(guān)性達(dá)到一定的閾值的待分類(lèi)話題則將其歸類(lèi)到同一話題中,最后分析關(guān)鍵話題的情感傾向性和熱點(diǎn)趨勢(shì)。此外,該系統(tǒng)中采用誤差平方和準(zhǔn)則函數(shù)作為聚類(lèi)準(zhǔn)則函數(shù),以提升系統(tǒng)的分類(lèi)性能。
3.3 信息可視化模塊
信息可視化模塊的功能是將所爬取信息的分析成果以圖表形式為用戶呈現(xiàn)在web界面上,該系統(tǒng)為用戶設(shè)計(jì)三種不同形式的圖表,包括熱點(diǎn)詞匯統(tǒng)計(jì)圖,信息數(shù)量趨勢(shì)圖,情感正負(fù)分析表。
該系統(tǒng)的信息圖表主要運(yùn)用的是可視化工具Plot.ly,Plot.ly是一個(gè)用于做分析和可視化的在線工具,將分析模塊得到的結(jié)果數(shù)據(jù)發(fā)到服務(wù)器,通過(guò)Web完成渲染,形成可交互的圖表,熱點(diǎn)詞頻的可視化展示使用詞云生成類(lèi)庫(kù)Wordcloud。具體來(lái)講,基于Plot.ly的數(shù)據(jù)可視化工作流程和基于Wordcloud的詞云圖工作流程分別如圖3和圖4所示。
4 實(shí)驗(yàn)結(jié)果與分析
為了驗(yàn)證該系統(tǒng)的功能,以豆瓣網(wǎng)的數(shù)據(jù)為例,選取最近熱門(mén)電影“頭號(hào)玩家”進(jìn)行信息分析,所采集的信息數(shù)據(jù)條目如表1所示。
從表1可以看出,該熱門(mén)詞匯的信息數(shù)量在各類(lèi)型中的情況,通過(guò)信息的數(shù)量可以清楚把信息在不同類(lèi)型的評(píng)論數(shù)量的差別顯著地表現(xiàn)出來(lái),這樣便于用戶用來(lái)分析問(wèn)題和研究問(wèn)題。
該系統(tǒng)通過(guò)時(shí)間的設(shè)置對(duì)該熱門(mén)詞匯的信息數(shù)量進(jìn)行分析,其數(shù)據(jù)趨勢(shì)如圖5所示,從圖5中,我們可以看出,隨著時(shí)間的積累,所爬取的數(shù)據(jù)量呈上升趨勢(shì),還可以進(jìn)一步的看出,在時(shí)間發(fā)生的初期,網(wǎng)民的關(guān)注程度呈現(xiàn)比較平穩(wěn)的態(tài)勢(shì),隨著某一事件的出發(fā),如新聞報(bào)道等,該時(shí)間的關(guān)注程度呈現(xiàn)爆炸式增長(zhǎng)。
測(cè)試該系統(tǒng)對(duì)上述數(shù)據(jù)進(jìn)行情感正負(fù)面分析方面的性能,分析結(jié)果如以圖6所示。在圖6中,可以看出,正面表達(dá)、負(fù)面表達(dá)和中立表達(dá)分別占53%、45%和2%,其主要原因是對(duì)影片進(jìn)行正面和負(fù)面發(fā)表意見(jiàn)的網(wǎng)民占大多數(shù),而對(duì)影片不持有主觀性意見(jiàn)表達(dá)或?qū)τ捌涣私獾木W(wǎng)民,則不愿意發(fā)表意見(jiàn),造成占比較少。
最后,該系統(tǒng)對(duì)該詞匯的熱門(mén)評(píng)論詞進(jìn)行統(tǒng)計(jì),生成了熱點(diǎn)詞匯統(tǒng)計(jì)圖,如圖7所示,其中,字號(hào)的大小表示該詞被網(wǎng)民所關(guān)注的熱度,字號(hào)越大表明該詞的熱度就越高,即網(wǎng)民的關(guān)注度就越高。
從圖7中,網(wǎng)民對(duì)“游戲”,“電影”“導(dǎo)演”等詞有較高的關(guān)注程度,這也契合了網(wǎng)民了解到一部影片后,最想通過(guò)網(wǎng)絡(luò)關(guān)注關(guān)于該影片的一些信息。
5 結(jié)束語(yǔ)
當(dāng)下,互聯(lián)網(wǎng)高速發(fā)展,以豆瓣網(wǎng)站為代表的社交網(wǎng)絡(luò)成為網(wǎng)民發(fā)表意見(jiàn)、表達(dá)思想的主要平臺(tái),也成為無(wú)數(shù)網(wǎng)民建立人際關(guān)系,分享信息和獲取信息的重要來(lái)源。該系統(tǒng)可以將豆瓣網(wǎng)站的信息以可視化的形式方便、直觀地展示出來(lái),從而量化地描述網(wǎng)站中情況,揭示其發(fā)展規(guī)律和趨勢(shì),具有重要的應(yīng)用價(jià)值。
參考文獻(xiàn):
[1] 王娜, 田曉蒙. 大眾分類(lèi)法對(duì)信息過(guò)載的影響及優(yōu)化策略研究—以豆瓣網(wǎng)為例[J]. 現(xiàn)代情報(bào), 2016, 36(9): 74-81, 87.
[2] 安子建. 基于Scrapy框架的網(wǎng)絡(luò)爬蟲(chóng)實(shí)現(xiàn)與數(shù)據(jù)抓取分析[D]. 長(zhǎng)春: 吉林大學(xué), 2017.
[3] 劉壽臣. 網(wǎng)頁(yè)爬蟲(chóng)技術(shù)的關(guān)鍵技術(shù)研究探索[J]. 電腦知識(shí)與技術(shù), 2016, 12(17): 16-17, 20.
[4] 王樺. 基于廣度優(yōu)先的主題爬蟲(chóng)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 上海: 復(fù)旦大學(xué), 2011.
[5] 呂小剛. 基于K-means文本聚類(lèi)算法研究[J]. 電腦編程技巧與維護(hù), 2014(24): 33-35.