国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于數(shù)據(jù)挖掘的高校網(wǎng)絡(luò)輿情分析系統(tǒng)設(shè)計與實現(xiàn)

2017-03-06 22:02:19陳藝卓
電子技術(shù)與軟件工程 2016年23期
關(guān)鍵詞:數(shù)據(jù)挖掘

摘 要

本文將數(shù)據(jù)挖掘技術(shù)引入輿情分析處理中,研究了網(wǎng)絡(luò)輿情從信息收集到傳播控制需要解決的重點問題,重點解決了分布式環(huán)境下海量數(shù)據(jù)的分析和處理難題,最終構(gòu)建了基于數(shù)據(jù)挖掘的高校網(wǎng)絡(luò)輿情分析系統(tǒng)。

【關(guān)鍵詞】數(shù)據(jù)挖掘 高校網(wǎng)絡(luò) 輿情系統(tǒng)

1 概述

目前計算機網(wǎng)絡(luò)已經(jīng)和學校的學習生活緊密的聯(lián)系在了一起,在給高校師生帶來便利的同時,也為高校的學生管理工作帶來諸多挑戰(zhàn)。目前在校的高校學生,年齡普遍不超過20歲,年紀小極容易受到網(wǎng)絡(luò)上不良信息的影響,比如國際國內(nèi)的新聞、社會熱點、關(guān)乎切身利益的問題、失實或反動的輿論等等,這些信息會促使他們在網(wǎng)絡(luò)上展開討論,形成網(wǎng)絡(luò)輿論,如果不及時進行干預(yù),就可能引起嚴重的群體事件。

為了解決高校的這種困境,本文設(shè)計了一個基于數(shù)據(jù)挖掘的網(wǎng)絡(luò)輿情分析系統(tǒng),該系統(tǒng)采用分布并行方式采集數(shù)據(jù),利用多線程、多任務(wù)分解處理海量數(shù)據(jù),能夠有效的對網(wǎng)絡(luò)輿情進行預(yù)警和應(yīng)對,一定程度上緩解了網(wǎng)絡(luò)輿情帶來的負面影響。

2 研究現(xiàn)狀和意義

網(wǎng)絡(luò)輿情監(jiān)控平臺主要是針對海量數(shù)據(jù)進行網(wǎng)絡(luò)輿情分析。網(wǎng)絡(luò)輿情分析一直都是數(shù)據(jù)挖掘研究的重點,目的是通過對海量網(wǎng)絡(luò)數(shù)據(jù)進行挖掘,分析出隱藏在數(shù)據(jù)背后的輿情觀點,核心的技術(shù)重點包括數(shù)據(jù)采集、文本分類、文本聚類、主題跟蹤等。

文本分類這里重點關(guān)注的是中文的文本分類,隨著研究的不斷深入,中文文本分類領(lǐng)域提出了很多優(yōu)秀的方法,如KNN算法、樸素Bayes算法、支持向量機(SVM)算法、決策樹算法等,其中中國科學院計算技術(shù)研究所在多年研究工作積累的基礎(chǔ)上,研制出了漢語詞法分析系統(tǒng)ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),該系統(tǒng)分詞速度單機996KB/s,分詞精度98.45%,API不超過200KB,各種詞典數(shù)據(jù)壓縮后不到3M,號稱當前世界上最好的中文文本分類工具。

文本聚類的目標是按照文本的相似度將文本進行聚合。文本聚類作為一種無監(jiān)督的機器學習方法,不需要訓(xùn)練過程,不需要預(yù)先對文檔進行標注,具有較高的靈活性和自動處理能力,成為組織文本信息、摘要的重要手段。文本聚類的算法非常多,有劃分法、層次法、基于密度的方法等,其中劃分法中的K-Means算法,在實現(xiàn)難度和計算速度方面都有不錯的表現(xiàn),尤其適合挖掘大數(shù)據(jù)集。

主題跟蹤的目標是跟蹤用戶感興趣的主題,在海量的信息里,找到屬于該主題的內(nèi)容。在主題跟蹤中訓(xùn)練樣本數(shù)、訓(xùn)練與分類的算法都是影響跟蹤質(zhì)量的重要因素。和文本分類問題類似,經(jīng)典的KNN算法、SVM算法、決策樹算法等都能夠發(fā)揮很好的作用。

目前,隨著核心技術(shù)的發(fā)展,網(wǎng)絡(luò)輿情監(jiān)控也得到了長足的發(fā)展,國內(nèi)外已經(jīng)開發(fā)出很多用于實際場景的商業(yè)平臺,但由于高校輿情的特殊情況,使得這些成熟的商用系統(tǒng)并不能很好的在高校發(fā)揮作用。

3 基于數(shù)據(jù)挖掘的高校輿情分析系統(tǒng)設(shè)計與實現(xiàn)

為了驗證系統(tǒng)的設(shè)計,測試系統(tǒng)的性能和效率,本文搭建的原型系統(tǒng)為:5臺PC機組成分布式計算平臺,操作系統(tǒng)選擇Fedora,軟件平臺使用JDK1.6,云平臺使用Hadoop。

輿情數(shù)據(jù)的來源主要源于論壇、微博、空間、新網(wǎng)網(wǎng)站等,采用API與網(wǎng)頁抽取相結(jié)合的采集方法。采集到的數(shù)據(jù)并不能直接用于挖掘,這些數(shù)據(jù)是有噪聲的、不完整的,數(shù)據(jù)預(yù)處理的工作就是將原始的數(shù)據(jù)進行提取、分離、合并,將其轉(zhuǎn)換成適合進行數(shù)據(jù)挖掘的數(shù)據(jù)格式,保存到關(guān)系數(shù)據(jù)庫表或數(shù)據(jù)倉庫中。

數(shù)據(jù)分析部分是系統(tǒng)的核心,這部分采用MapReduce模型搭建。MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集的并行運算。網(wǎng)絡(luò)輿情規(guī)模巨大、維度超高,如何降維、去噪就是文本聚類算法首先要解決的重要問題,聚類算法一般常用的算法有K-Means、 Canopy、BIRCH等,在本系統(tǒng)中為了解決數(shù)據(jù)量巨大的問題,首先使用了Canopy算法進行粗聚類,由于Canopy只用計算重疊部分的數(shù)據(jù)向量,所以能夠大大的降低運算量,而且使用Canopy算法粗聚類后的聚類個數(shù)可以直接確定K-Means算法的K值,然后就可以使用K-Means算法進行進一步的聚類了,由于實現(xiàn)方便,而且K值已經(jīng)比較準確,能夠達到較好的聚類效果。將Canopy-Kmeans算法在MapReduce中加以實現(xiàn),Map算法負責生成輸出Canopy中心點集合,Reduce算法負責生成中心點和區(qū)域半徑,最終由K-Means算法迭代調(diào)用Map和Reduce函數(shù),具體過程如圖1所示。

4 結(jié)束語

本文設(shè)計并實現(xiàn)了一個基于數(shù)據(jù)挖掘的高校網(wǎng)絡(luò)輿情分析系統(tǒng),系統(tǒng)采用分布式文件系統(tǒng)存儲數(shù)據(jù),結(jié)合云計算技術(shù),保證了系統(tǒng)的執(zhí)行效率和穩(wěn)定性,通過話題發(fā)現(xiàn)和輿情分析跟蹤,及時監(jiān)控和正確引導(dǎo)網(wǎng)絡(luò)輿情,對高校學生管理工作起到重要幫助。

參考文獻

[1]董堅峰.面向公共危機預(yù)警的網(wǎng)絡(luò)輿情分析研究[D].武漢:武漢大學,2013.

[2] 陳藝卓. Web日志挖掘中數(shù)據(jù)預(yù)處理的研究[J].信息與電腦:理論版,2011(02):94-94.

[3] 吳明友. 校園網(wǎng)絡(luò)輿情的應(yīng)對策略分析[J].中國教育信息化,2008(24).

[4]李瓊,張菁,馬素偉.微時代高校網(wǎng)絡(luò)輿情應(yīng)對路徑研究[J].青少年研究(山東省團校學報),2014(01).

[5]陳藝卓.基于數(shù)據(jù)挖掘的輿情觀點挖掘研究[J].電子技術(shù)與軟件工程,2015(14).

作者簡介

陳藝卓,男,副教授,現(xiàn)為海南軟件職業(yè)技術(shù)學院教師。主要研究方向為數(shù)據(jù)挖掘,云計算。

作者單位

海南軟件職業(yè)技術(shù)學院 海南省瓊海市 571400

猜你喜歡
數(shù)據(jù)挖掘
基于數(shù)據(jù)挖掘的船舶通信網(wǎng)絡(luò)流量異常識別方法
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
數(shù)據(jù)挖掘技術(shù)在打擊倒賣OBU逃費中的應(yīng)用淺析
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
數(shù)據(jù)挖掘在高校圖書館中的應(yīng)用
數(shù)據(jù)挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數(shù)據(jù)挖掘研究
利用數(shù)據(jù)挖掘技術(shù)實現(xiàn)LIS數(shù)據(jù)共享的開發(fā)實踐
双桥区| 英超| 晋州市| 峨山| 礼泉县| 枣阳市| 奇台县| 玉林市| 鲜城| 乌兰察布市| 廊坊市| 锦州市| 崇仁县| 商丘市| 康定县| 咸宁市| 聊城市| 双鸭山市| 金寨县| 法库县| 碌曲县| 洪洞县| 两当县| 凤庆县| 万年县| 观塘区| 九龙坡区| 如皋市| 昭觉县| 出国| 溆浦县| 绥德县| 邯郸市| 方正县| 旺苍县| 琼海市| 那曲县| 格尔木市| 灵川县| 二连浩特市| 鸡西市|