丁青 蔡文杰 吉翔
摘 要: 以南京農(nóng)業(yè)大學(xué)工學(xué)院應(yīng)用為例,利用數(shù)據(jù)挖掘工具實(shí)現(xiàn)對(duì)計(jì)費(fèi)網(wǎng)關(guān)日志數(shù)據(jù)的采集,并對(duì)用戶群體行為即不同時(shí)間段的在線賬號(hào)數(shù)、用戶使用時(shí)長(zhǎng)與流量、用戶訪問目的地址三個(gè)方面進(jìn)行研究。對(duì)如何改進(jìn)高校網(wǎng)絡(luò)輿情監(jiān)控建設(shè),培育健康和諧的網(wǎng)絡(luò)輿論生態(tài)給出了若干對(duì)策與建議。
關(guān)鍵詞: 數(shù)據(jù)挖掘; 計(jì)費(fèi)網(wǎng)關(guān); 輿情監(jiān)控; 行為分析
中圖分類號(hào):G41 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1006-8228(2013)08-11-03
0 引言
輿情是“輿論情況”的簡(jiǎn)稱,是指在一定的社會(huì)空間內(nèi),圍繞中介性社會(huì)事件的發(fā)生、發(fā)展和變化,民眾對(duì)社會(huì)管理者產(chǎn)生和持有的社會(huì)政治態(tài)度[1]。網(wǎng)絡(luò)輿情是社會(huì)輿情的直接反映。高校的網(wǎng)絡(luò)輿情更有其特殊性,會(huì)在短時(shí)間內(nèi)迅速影響到大學(xué)生的態(tài)度和觀點(diǎn),甚至影響到他們?cè)诂F(xiàn)實(shí)中的行為,因此,需要及時(shí)采取措施,實(shí)施輿情監(jiān)控,以控制和引導(dǎo)事態(tài)發(fā)展。本文從校園網(wǎng)計(jì)費(fèi)網(wǎng)關(guān)系統(tǒng)日志分析入手,利用專業(yè)的數(shù)據(jù)挖掘軟件工具對(duì)校園網(wǎng)用戶行為日志進(jìn)行各個(gè)角度的詳細(xì)分析,再?gòu)亩鄠€(gè)方面對(duì)高校網(wǎng)絡(luò)輿情監(jiān)控給出對(duì)策和建議,以使管理者能夠牢牢把握輿論控制權(quán),引導(dǎo)網(wǎng)絡(luò)輿情,維護(hù)網(wǎng)絡(luò)信息安全。
1 研究背景與目的
網(wǎng)絡(luò)輿情研究,需要對(duì)高校學(xué)生用戶行為進(jìn)行深入挖掘和分析其行為產(chǎn)生的原因[2], 及時(shí)發(fā)現(xiàn)他們對(duì)學(xué)校和社會(huì)的意見、情緒和態(tài)度,進(jìn)而使管理者及時(shí)地改進(jìn)和創(chuàng)新各類管理辦法,形成網(wǎng)上、網(wǎng)下共同教育的和諧局面。因此,管理者應(yīng)該通過對(duì)大學(xué)生網(wǎng)絡(luò)輿情及時(shí)有效的管理,來(lái)控制不良網(wǎng)絡(luò)輿情,維護(hù)校園穩(wěn)定。本文力圖以最新時(shí)間點(diǎn),選擇相關(guān)的日志數(shù)據(jù),對(duì)用戶行為的特征項(xiàng)進(jìn)行總結(jié)分析,以實(shí)證研究的方法嘗試網(wǎng)絡(luò)輿情監(jiān)控新的探索。
2 研究方法
2.1 研究思路
行為分析研究方法主要有統(tǒng)計(jì)、聚類。統(tǒng)計(jì)方法多用于在模式己知的情況下快速的得出結(jié)果,而在模式未知的情況下,一般都使用聚類的方法[3]。此次實(shí)證研究的數(shù)據(jù)取自校園網(wǎng)計(jì)費(fèi)網(wǎng)關(guān),在真實(shí)網(wǎng)絡(luò)環(huán)境下,可以獲得的原始數(shù)據(jù)量通常都比較大,數(shù)據(jù)的復(fù)雜程度較高,以工學(xué)院為例,每天產(chǎn)生的原始記錄高達(dá)6GB的數(shù)據(jù)量。如何使用高效工具,做到對(duì)大量的數(shù)據(jù)進(jìn)行提取、過濾、轉(zhuǎn)換、集成,以便從中發(fā)現(xiàn)知識(shí),是對(duì)校園網(wǎng)用戶行為分析的關(guān)鍵所在。通過對(duì)底層數(shù)據(jù)的考察筆者發(fā)現(xiàn),用戶行為的各項(xiàng)參數(shù)之間存在著關(guān)聯(lián)性,例如,在線賬號(hào)數(shù)、在線時(shí)間、使用網(wǎng)絡(luò)的時(shí)長(zhǎng)、網(wǎng)絡(luò)流量、目的地址、網(wǎng)絡(luò)服務(wù)類型等之間都是有聯(lián)系的。在綜合分析結(jié)果的時(shí)候,我們把各參數(shù)中用戶模式己知的項(xiàng)進(jìn)行統(tǒng)計(jì)分析。
2.2 分析流程和使用工具
校園網(wǎng)用戶行為分析流程可以分為以下幾個(gè)部分。
⑴ 數(shù)據(jù)抽取部分,主要是采集工學(xué)院城市熱點(diǎn)計(jì)費(fèi)系統(tǒng)所保留的各項(xiàng)日志數(shù)據(jù),根據(jù)分析的重點(diǎn)對(duì)各字段進(jìn)行抽取,從源數(shù)據(jù)庫(kù)讀取所需要的數(shù)據(jù)部分。
⑵ 數(shù)據(jù)轉(zhuǎn)換和加載部分,按照最終形成的數(shù)據(jù)結(jié)構(gòu),對(duì)源系統(tǒng)每個(gè)記錄進(jìn)行轉(zhuǎn)換,轉(zhuǎn)換以后就可寫入數(shù)據(jù)倉(cāng)庫(kù),可采用SQL語(yǔ)句或批量加載,這一部分是為下一步統(tǒng)計(jì)準(zhǔn)備有用的數(shù)據(jù)。
⑶ 統(tǒng)計(jì)分析部分,這是整個(gè)行為分析的關(guān)鍵部分。通過從不同角度對(duì)用戶行為進(jìn)行統(tǒng)計(jì)和分析,幫助管理者及時(shí)掌握真實(shí)校園網(wǎng)用戶需求的變化,從中發(fā)現(xiàn)一些有趣的特點(diǎn)和規(guī)律,實(shí)現(xiàn)對(duì)現(xiàn)有校園網(wǎng)用戶輿情全面的把握。
⑷ 工具采用了SQLSever 2008的SSIS工具和EXCEL2010。
3 日志結(jié)果與分析
本文的分析工作主要針對(duì)用戶群體行為的三個(gè)方面進(jìn)行研究,即不同時(shí)間段的在線賬號(hào)數(shù)分析、用戶使用時(shí)長(zhǎng)和流量的分析、用戶訪問目的地址分析。
3.1 分時(shí)間段的在線人數(shù)分析
分析各個(gè)時(shí)段網(wǎng)絡(luò)的用戶在線賬號(hào)數(shù),可以從宏觀上了解大學(xué)生的網(wǎng)絡(luò)使用情況。根據(jù)最新時(shí)間點(diǎn),我們提取了2012年11月11日到11月17日一周的用戶數(shù)據(jù),一共48510條,將一周的分析結(jié)果生成線狀圖,如圖2所示。
圖2從縱向和橫向的角度清晰地反映了校園網(wǎng)用戶在線賬號(hào)數(shù)一天中的變化趨勢(shì),以及一周內(nèi)在線賬戶的變化趨勢(shì)。
從一天中的變化趨勢(shì)來(lái)看,第一個(gè)高峰在12點(diǎn)到13點(diǎn)中出現(xiàn),這個(gè)時(shí)間學(xué)生教師上課完畢,中午正好是午休期間,用戶上網(wǎng)人數(shù)最多。一天中的第二個(gè)高峰在16點(diǎn)到達(dá),因?yàn)?6點(diǎn)一般是學(xué)生下午兩節(jié)課結(jié)束后回到宿舍的時(shí)間,此時(shí)在線人數(shù)較多。一天中第三個(gè)小高峰在21點(diǎn)出現(xiàn),說(shuō)明學(xué)生大多數(shù)下晚自習(xí)的時(shí)間就在21點(diǎn)左右,回到宿舍他們又開始登錄網(wǎng)絡(luò),從圖上來(lái)看,基本上到了23點(diǎn),由于學(xué)生公寓停止供電,在線賬號(hào)數(shù)有一個(gè)明顯的回落。
同時(shí)從一周內(nèi)的變化可看出,周六在線人數(shù)最多,而周日在線人數(shù)最少,其余一周的數(shù)據(jù)則與日劇增,也說(shuō)明周六學(xué)校在線人數(shù)為最高。對(duì)在線人數(shù)的分析,主要是根據(jù)各個(gè)時(shí)間段在線賬號(hào)數(shù)的不同,可以對(duì)網(wǎng)絡(luò)輿情的監(jiān)控,網(wǎng)絡(luò)的策略變化給出一個(gè)合理的參考時(shí)段。
3.2 用戶在線時(shí)長(zhǎng)以及使用流量的分析
利用對(duì)比分析法,我們將校園網(wǎng)用戶分成不同類別的組,分別研究他們的上網(wǎng)行為差異,抽取了一個(gè)月的用戶日志數(shù)據(jù)并利用SSIS工具進(jìn)行聚類,形成下面的用戶行為模式。
⑴ 電子閱覽室用戶代表了機(jī)房用戶,基本上是以學(xué)生為主,由于開放時(shí)間所限,這類用戶使用時(shí)長(zhǎng)不會(huì)超過12個(gè)小時(shí),月流量在30G左右。
⑵ 家屬區(qū)用戶使用時(shí)長(zhǎng)在12個(gè)小時(shí)以內(nèi)的有132人,占到91.7%;而12個(gè)小時(shí)以上的有12人,占8.3%。大部分人月流量在100G以內(nèi)。
⑶ 辦公區(qū)用戶使用時(shí)長(zhǎng)在12小時(shí)以內(nèi)的占到了85.9%。但是這類用戶超過12小時(shí)的人數(shù)達(dá)41人,占14.1%,并且在23-24小時(shí)還有一個(gè)小的躍增,可以判斷這類用戶有經(jīng)常熬夜或者不關(guān)機(jī)的習(xí)慣,同時(shí)月流量也在500G以內(nèi),針對(duì)這類用戶管理者應(yīng)該予以提醒,使其不濫用各項(xiàng)資源,節(jié)約校園網(wǎng)帶寬。
對(duì)于用戶在線時(shí)長(zhǎng)和流量分析,目的是了解用戶占用網(wǎng)絡(luò)帶寬的情況,對(duì)于在線時(shí)間過長(zhǎng),占用帶寬過多的用戶,管理者應(yīng)該予以重點(diǎn)監(jiān)控,并采取措施進(jìn)行限制。
3.3 學(xué)生用戶訪問目的地址分析
首先提取學(xué)生區(qū)訪問的日志文件,對(duì)其每一行的訪問目的地址記錄進(jìn)行統(tǒng)計(jì)和分析,使用split函數(shù)以Tab為分隔符將行記錄劃分為各個(gè)字段,從而獲得URL字段;然后,使用spilt函數(shù)以反斜杠“\”為分隔符將URL字段進(jìn)行劃分;最后利用Perl的哈希結(jié)構(gòu)進(jìn)行分類統(tǒng)計(jì)。當(dāng)日志文件所有的記錄均按照上述過程處理之后,就可以輸出各個(gè)網(wǎng)站訪問的統(tǒng)計(jì)結(jié)果。通過該算法實(shí)現(xiàn)了用戶訪問10000次以上的網(wǎng)站都被記錄下來(lái),統(tǒng)計(jì)并生成圖表,如圖3所示。
在輿論監(jiān)督中要特別引起注意是對(duì)SNS網(wǎng)站、BBS網(wǎng)站和門戶網(wǎng)站進(jìn)行監(jiān)控,這幾類網(wǎng)站在工學(xué)院中訪問次數(shù)較高的分別是人人網(wǎng),西祠網(wǎng)和新浪網(wǎng),可見隨著高校網(wǎng)絡(luò)的普及,尤其是博客,微博,學(xué)生個(gè)人網(wǎng)站的出現(xiàn),在網(wǎng)絡(luò)上表達(dá)意見,態(tài)度,情緒和信念等,日益成為大學(xué)生活的重要內(nèi)容,對(duì)這類網(wǎng)站的監(jiān)控也必須予以加強(qiáng)。
4 網(wǎng)絡(luò)輿情建設(shè)對(duì)策和建議
4.1 出口部署網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)
目前不少高校都在校園網(wǎng)出口處部署了輿情監(jiān)測(cè)系統(tǒng),這類系統(tǒng)一般都具有比較強(qiáng)大的過濾功能,比如基于內(nèi)容的過濾手段,包括:過濾用戶通過搜索引擎搜索的指定關(guān)鍵字、過濾包含指定關(guān)鍵字的網(wǎng)頁(yè)、過濾含指定關(guān)鍵字的URL地址等,作為管理者應(yīng)將譬如包含色情、反動(dòng)、暴力或非法的網(wǎng)站過濾掉,屏蔽不利于大學(xué)生成才的信息,提高網(wǎng)絡(luò)出口的安全性。
但是,從輿情監(jiān)測(cè)軟件的調(diào)研情況看,大部分軟件只有網(wǎng)絡(luò)爬蟲模塊起主要作用,雖然在技術(shù)上部分實(shí)現(xiàn)了基于web頁(yè)面異構(gòu)數(shù)據(jù)的信息抽取與集成,然而他們對(duì)所采集到的信息的定性定量分析并不到位,還需要對(duì)所獲得的日志信息進(jìn)行科學(xué)篩選、智能分析與研判,同時(shí)管理人員要在某些敏感時(shí)間段密切跟蹤學(xué)校某區(qū)域的網(wǎng)上輿情動(dòng)態(tài),及時(shí)搜集具有前瞻性的信息,一旦出現(xiàn)校園網(wǎng)絡(luò)輿情危機(jī)苗頭,可在第一時(shí)間了解網(wǎng)絡(luò)輿情內(nèi)容,分析網(wǎng)絡(luò)輿情的性質(zhì),判斷網(wǎng)絡(luò)輿情的影響,科學(xué)應(yīng)對(duì)[4]。
4.2 全面實(shí)現(xiàn)實(shí)名用戶認(rèn)證
信息化的普及,使得目前很多高校都提供無(wú)線和有線接入方式,而無(wú)線接入的方式會(huì)導(dǎo)致在問題用戶定位上存在時(shí)間和地點(diǎn)的不確定性;同時(shí),高校越來(lái)越開放,很多臨時(shí)來(lái)高校的人員和臨時(shí)活動(dòng)要求連入校園網(wǎng)絡(luò),這就要求監(jiān)管部門制定嚴(yán)格的準(zhǔn)入機(jī)制。目前在高校校園網(wǎng)中全面實(shí)現(xiàn)實(shí)名用戶認(rèn)證是必要而緊迫的。以工學(xué)院為例,上網(wǎng)的賬號(hào)與學(xué)生的學(xué)號(hào)或教工的工號(hào)進(jìn)行捆綁,除教工生活區(qū)、服務(wù)器和特殊設(shè)備采用多元組綁定技術(shù)直連校園網(wǎng)外,其他所有用戶要進(jìn)入校園網(wǎng)均須進(jìn)行身份認(rèn)證,臨時(shí)賬號(hào)必須由各負(fù)責(zé)部門提出申請(qǐng)并定位到具體地點(diǎn),從而切斷非法用戶聯(lián)入校園網(wǎng)。
4.3 形成校園獨(dú)有的網(wǎng)絡(luò)輿情載體
高校網(wǎng)絡(luò)輿情建設(shè)要重視對(duì)校園門戶網(wǎng)站、校園新聞網(wǎng)和各類網(wǎng)絡(luò)文化的網(wǎng)站的投入,特別是對(duì)高校網(wǎng)絡(luò)輿情的重要載體BBS的建設(shè)[5]。通過多種手段凸顯引導(dǎo)信息,把重點(diǎn)新聞和重要觀點(diǎn)設(shè)置在論壇顯眼與強(qiáng)勢(shì)位置,在處理突發(fā)事件時(shí)決不能失聲,要形成高校輿論引導(dǎo)的強(qiáng)大聲勢(shì),搶占網(wǎng)絡(luò)輿論話語(yǔ)的主導(dǎo)權(quán)。
在構(gòu)建高校BBS論壇上的熱點(diǎn)話題時(shí),高校管理部門要把握高校網(wǎng)絡(luò)輿情話語(yǔ)的主動(dòng)權(quán);強(qiáng)化對(duì)突發(fā)事件重要信息的解讀,挖掘新聞深度,使大學(xué)生對(duì)突發(fā)事件的認(rèn)知建立在全面理性的基礎(chǔ)上,切忌千篇一律,要認(rèn)真聽取學(xué)校不同輿論的聲音;充分發(fā)揮輿論領(lǐng)袖的引領(lǐng)作用,轉(zhuǎn)移高校網(wǎng)絡(luò)輿情的焦點(diǎn),消除不良輿情信息的誤導(dǎo),逐步引導(dǎo)大學(xué)生朝著預(yù)期設(shè)定的方向發(fā)展,從而正確引導(dǎo)高校網(wǎng)絡(luò)輿論走向。
4.4 加強(qiáng)網(wǎng)絡(luò)輿情組織保障
宣傳部或網(wǎng)絡(luò)管理部門可設(shè)立日常辦公機(jī)構(gòu),配備專職人員,開展日常工作,同時(shí)加強(qiáng)建立高水平的輔導(dǎo)員隊(duì)伍。輿情引導(dǎo)的效果和成敗與引導(dǎo)主體密切相關(guān),輔導(dǎo)員是與大學(xué)生聯(lián)系最為緊密的引導(dǎo)主體,其輿情引導(dǎo)的效果決定了高校輿情引導(dǎo)的成敗[6]。同時(shí)要加強(qiáng)工作制度建設(shè),建立起新聞發(fā)言人,日常值班,工作研討等制度,建立行之有效的校園突發(fā)事件預(yù)防辦法和處置方案,并將網(wǎng)絡(luò)輿情作為其中重點(diǎn)內(nèi)容。
5 結(jié)束語(yǔ)
校園網(wǎng)用戶行為分析是改善校園網(wǎng)運(yùn)行質(zhì)量,提高高校網(wǎng)絡(luò)輿情管理效率的一個(gè)有效途徑,它能為網(wǎng)絡(luò)的管理者提供決策的必要依據(jù)。隨著網(wǎng)絡(luò)技術(shù)的普遍發(fā)展,高校輿情監(jiān)控工作將大有作為,另外隨著信息化的深入,對(duì)無(wú)線方式下的高校用戶行為分析以及輿情管理,將是高校網(wǎng)絡(luò)輿情監(jiān)控的重要發(fā)展方向。
參考文獻(xiàn):
[1] 王來(lái)華.輿情研究概念:理論方法和現(xiàn)實(shí)熱點(diǎn)[M].天津社會(huì)科學(xué)院出版社,2003.
[2] 丁青,周留根,朱愛兵.基于K-means聚類算法的校園網(wǎng)用戶行為分析研究[J].微計(jì)算機(jī)應(yīng)用,2010.31(6):74-80
[3] 梁循.數(shù)據(jù)挖掘算法與應(yīng)用[M].北京大學(xué)出版社,2006.
[4] 陳少平.高校網(wǎng)絡(luò)輿情危機(jī)的研究及處置對(duì)策[J].中國(guó)青年研究,2012.3:5-9
[5] 曹銀忠,許方圓.高校網(wǎng)絡(luò)輿情引導(dǎo)研究[J].毛澤東思想研究,2012.29(6):146-150
[6] 李宗琦,徐順鋒.高校輔導(dǎo)員輿情引導(dǎo)工作實(shí)證研究——以西安市部分高校為例[J].西安電子科技大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2012.22(5):121-124