粱藝瓊
摘要:針對(duì)輿情分析系統(tǒng)而言,其對(duì)提升學(xué)校管理水平有著很大的意義和作用。當(dāng)前,隨著的信息化技術(shù)發(fā)展水平的不斷提升,網(wǎng)絡(luò)技術(shù)的發(fā)展也變得越來越穩(wěn)定。在這種背景下,本文即對(duì)基于數(shù)據(jù)挖掘技術(shù)的輿情分析系統(tǒng)的設(shè)計(jì)進(jìn)行了簡(jiǎn)單的研究和分析,希望可以為相關(guān)人員提供一定的幫助。
關(guān)鍵詞:數(shù)據(jù)挖掘技術(shù);輿情分析系統(tǒng);設(shè)計(jì)
中圖分類號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1009-3044(2020)03-0001-02
現(xiàn)階段,隨著信息技術(shù)發(fā)展速度的不斷加快,計(jì)算機(jī)網(wǎng)絡(luò)已經(jīng)逐漸與人們的生活以及工作結(jié)合在了一起,其為人們帶來一定便利的同時(shí),也為學(xué)校管理工作的開展帶來了很多挑戰(zhàn)。并且,由于經(jīng)濟(jì)全球化進(jìn)程推進(jìn)速度的不斷加快,信息的傳播速度也日益提升,很多關(guān)乎切身利益以及社會(huì)熱點(diǎn)問題使得越來越多的人在網(wǎng)上展開討論,從而形成了網(wǎng)絡(luò)輿論。如果不能及時(shí)地進(jìn)行干預(yù),那么就非常容易出現(xiàn)群體事件。因此,為了可以為學(xué)生營(yíng)造一個(gè)良好的學(xué)習(xí)環(huán)境,在今后的發(fā)展過程中,應(yīng)該強(qiáng)化對(duì)數(shù)據(jù)挖掘技術(shù)的應(yīng)用,合理的對(duì)輿情分析系統(tǒng)進(jìn)行設(shè)計(jì)。
1 基于數(shù)據(jù)挖掘技術(shù)的輿情分析系統(tǒng)設(shè)計(jì)的必要性分析
針對(duì)網(wǎng)絡(luò)輿情監(jiān)控平臺(tái)來說,其主要的作用就是針對(duì)海量數(shù)據(jù),科學(xué)的對(duì)網(wǎng)絡(luò)輿情進(jìn)行研究和分析。在實(shí)際的發(fā)展過程中,隨著信息技術(shù)發(fā)展速度的不斷提升,網(wǎng)絡(luò)輿情分析也逐漸成了數(shù)據(jù)挖掘的重點(diǎn)內(nèi)。并且,合理的開展網(wǎng)絡(luò)輿情分析,其主要的目的就是對(duì)海量數(shù)據(jù)信息進(jìn)行深入挖掘,有效地將隱藏在數(shù)據(jù)背后的輿情觀點(diǎn)分析出來[1]。針對(duì)這一環(huán)節(jié)而言,其核心技術(shù)具體涵蓋數(shù)據(jù)采集以及主體跟蹤等。
針對(duì)文本分類來說,主要的側(cè)重點(diǎn)就是中文的文本分類。近年來,由于研究進(jìn)程的不斷深入,在文本分類領(lǐng)域,應(yīng)用的先進(jìn)方法也變得越來越多,包括:KNN算法以及決策樹算法等。
一般情況下,文本聚類的主要目標(biāo)就是依照文本的相似程度,有效且精準(zhǔn)地對(duì)文本進(jìn)行聚合[2]。同時(shí),現(xiàn)階段,文本聚類屬于一種無監(jiān)督的機(jī)器學(xué)習(xí)方法,在應(yīng)用過程中,人們不需要訓(xùn)練過程,也不用事先對(duì)文檔進(jìn)行標(biāo)注,其靈活性非常高,自身的自動(dòng)處理能力也相對(duì)較強(qiáng)。因此,隨著技術(shù)的不斷發(fā)展,其也逐漸成了組織文本信息以及摘要的關(guān)鍵方法。通常而言,文本聚類具有很多的算法,包括:劃分法以及層次法等。其中,針對(duì)劃分法來說,其所涵蓋的K-Means算法,無論是在實(shí)現(xiàn)難度,還是在計(jì)算速度方面,其都有著十分不錯(cuò)的表現(xiàn),非常適合應(yīng)用在挖掘大數(shù)據(jù)集中[3]。
對(duì)于主題跟蹤來說,其主要的目的就是對(duì)用戶所感興趣的主題進(jìn)行跟蹤,在眾多其海量的數(shù)據(jù)信息中,找到屬于該主題的內(nèi)容。在主題跟蹤中,無論是訓(xùn)練與分類的算法,還是訓(xùn)練的樣本數(shù),都會(huì)在一定程度上對(duì)跟蹤的質(zhì)量造成非常嚴(yán)重的影響。同樣,與文本分類較為相同的是,KNN算法以及決策樹算法等都能夠在數(shù)據(jù)的挖掘中發(fā)揮著非常重要的作用和價(jià)值。
現(xiàn)階段,由于社會(huì)核心技術(shù)水平提升速度的不斷加快,網(wǎng)絡(luò)輿情監(jiān)控也得到了前所未有的發(fā)展。尤其是進(jìn)入21世紀(jì)以來,無論是國(guó)內(nèi),還是國(guó)外,都在強(qiáng)化對(duì)可以應(yīng)用實(shí)際場(chǎng)景的商業(yè)平臺(tái)的研究。但是,針對(duì)中職學(xué)校來說,由于其網(wǎng)絡(luò)輿情具有較強(qiáng)的特殊性,而這一情況的存在,也使得一些比較成熟的商用系統(tǒng)不能更好地在學(xué)校中應(yīng)用,其自身的價(jià)值以及作用也不能更好地發(fā)揮出來。綜合而言,在學(xué)校的實(shí)際發(fā)展過程中,為了可以為學(xué)生營(yíng)造一個(gè)良好的輿情環(huán)境,在今后的發(fā)展過程中,必須結(jié)合實(shí)際情況,加大基于數(shù)據(jù)挖掘技術(shù)的輿情分析系統(tǒng)設(shè)計(jì)力度,保證學(xué)校管理工作的開展可以更加有序和順利[4]。
2 基于數(shù)據(jù)挖掘技術(shù)的輿情分析系統(tǒng)的設(shè)計(jì)分析
2.1 輿情分析系統(tǒng)的設(shè)計(jì)思路
在對(duì)基于數(shù)據(jù)挖掘技術(shù)的輿情分析系統(tǒng)進(jìn)行具體的設(shè)計(jì)過程中,本系統(tǒng)強(qiáng)化了對(duì)數(shù)據(jù)挖掘技術(shù)以及智能處理技術(shù)等的應(yīng)用,實(shí)現(xiàn)了多種技術(shù)的有效融合。
在具體的系統(tǒng)設(shè)計(jì)期間,首先應(yīng)該對(duì)數(shù)據(jù)來源進(jìn)行明確,校園網(wǎng)的建立,當(dāng)前已經(jīng)成為中職學(xué)校的信息陣地,與其他的網(wǎng)站不同,校園網(wǎng)站自身所包含的內(nèi)容具有較強(qiáng)的多樣性,內(nèi)容涵蓋的方面非常多,甚至隨著信息技術(shù)水平的不斷提升,越來越多的中職學(xué)校也紛紛建立了學(xué)生互動(dòng)交流平臺(tái),學(xué)生可以通過這一平臺(tái),互相認(rèn)識(shí),自由的自身觀點(diǎn)進(jìn)行發(fā)布,也可以提出對(duì)學(xué)習(xí)管理的建議等[5]。
信息預(yù)處理模塊:對(duì)于這一模塊,其主要涵蓋了網(wǎng)頁(yè)凈化以及中文分詞等。
輿情分析模塊:這一模塊主要包含了話題評(píng)等。并且各個(gè)模塊是可以獨(dú)立存在的。
2.2 基于數(shù)據(jù)挖掘技術(shù)的輿情分析系統(tǒng)的總體設(shè)計(jì)分析
在具體的輿情分析系統(tǒng)設(shè)計(jì)工作進(jìn)行和開展過程中,其主要是針對(duì)學(xué)校輿情做出管理預(yù)警,科學(xué)應(yīng)用現(xiàn)代化先進(jìn)手段和技術(shù),有效且合理的對(duì)系統(tǒng)設(shè)計(jì)工作進(jìn)行完成。因?yàn)橹新殞W(xué)校輿情的特殊性不同于其他網(wǎng)站,所以,在系統(tǒng)設(shè)計(jì)階段,應(yīng)該綜合考量[6]。
第一,對(duì)數(shù)據(jù)來源進(jìn)行明確。一般情況下,在中職學(xué)校的實(shí)際發(fā)展過程中,其網(wǎng)絡(luò)輿情的表現(xiàn)具有較強(qiáng)的多元化,針對(duì)同一個(gè)問題,或者不同的領(lǐng)域的問題,其都會(huì)存在不同的態(tài)度以及看法。同時(shí),由于網(wǎng)絡(luò)空間的自由性,其也為學(xué)生提供了很多自由發(fā)表自身意見的平臺(tái)。所以,在實(shí)際的系統(tǒng)設(shè)計(jì)階段,針對(duì)學(xué)校存在的突發(fā)事件等,都會(huì)在一定程度上引發(fā)學(xué)生們的討論。故而,針對(duì)這一情況,學(xué)校應(yīng)該將社會(huì)熱點(diǎn)論壇等作為信息來源,以便可以有效對(duì)學(xué)校于輿情進(jìn)行管理和區(qū)分。
第二,信息采集以及網(wǎng)頁(yè)預(yù)處理。針對(duì)網(wǎng)頁(yè)預(yù)處理,其主要的目的就是可以有效地對(duì)信息資源進(jìn)行收集,同時(shí)利用網(wǎng)頁(yè)的分析采集,科學(xué)的將時(shí)間以及發(fā)帖人等信息精準(zhǔn)的進(jìn)行提取。而針對(duì)信息采集,其具體的作用就是對(duì)網(wǎng)絡(luò)爬蟲等工具進(jìn)行應(yīng)用,并讓其作為信息采集模塊,以便可以從指定的網(wǎng)站上獲取信息到本地,最后對(duì)相關(guān)數(shù)據(jù)進(jìn)行更新[7]。
第三,輿情分析。所謂的輿情分析,具體就是指網(wǎng)絡(luò)輿情管理的核心,同時(shí)也是較為煩瑣的一個(gè)環(huán)節(jié)。主要對(duì)信息進(jìn)行分類識(shí)別的前提下,有效跟蹤和記錄。
第四,輿情管理。依照上述輿情分析的最終結(jié)果,在對(duì)實(shí)際情況進(jìn)行了解以及明確的前提下,對(duì)進(jìn)行科學(xué)且有效的劃分,合理地進(jìn)行操作。如下為輿情分析系統(tǒng)總體設(shè)計(jì)模塊圖。
2.3 輿情分析系統(tǒng)的功能模塊設(shè)計(jì)
第一,信息采集模塊。在實(shí)際的輿情分析系統(tǒng)中,針對(duì)信息采集來說,其是非常關(guān)鍵的一部分內(nèi)容,可以達(dá)到對(duì)指定論壇網(wǎng)絡(luò)信息和相應(yīng)的學(xué)校社區(qū)的數(shù)據(jù)進(jìn)行采集的目的,也可以對(duì)這些信息進(jìn)行有效的存儲(chǔ),以保證后續(xù)的數(shù)據(jù)篩選工作可以有序進(jìn)行。通常情況下,在這一模塊中,比較長(zhǎng)應(yīng)用的工具為網(wǎng)絡(luò)爬蟲等,設(shè)定初始化種子樣本,并通過解析,在IP地址下載相對(duì)應(yīng)的網(wǎng)頁(yè),同時(shí)對(duì)已經(jīng)獲得的網(wǎng)頁(yè)進(jìn)行超鏈研究,盡可能多的將結(jié)構(gòu)等信息的分析出來,從而更加精準(zhǔn)的對(duì)網(wǎng)頁(yè)內(nèi)容是否重復(fù)進(jìn)行檢查和判斷,最后將網(wǎng)頁(yè)采集后,合理地將數(shù)據(jù)存儲(chǔ)到數(shù)據(jù)庫(kù)中。
第二,信息預(yù)處理模塊。針對(duì)這一模塊來說,具體涵蓋內(nèi)容如圖2所示。
第三,輿情分析模塊。針對(duì)這一模塊,具體涵蓋了話題識(shí)別模塊等。其中,話題識(shí)別模塊:新話題的實(shí)現(xiàn)應(yīng)用了改進(jìn)后的Single-Pass聚類算法,多中心的表現(xiàn)形式可以而更加直觀地將輿情話題的動(dòng)態(tài)變化展現(xiàn)出來。話題跟蹤模塊具體包含了構(gòu)造分類模型,模型評(píng)估及文章分類模塊。在具體的設(shè)計(jì)階段,先對(duì)分類模型進(jìn)行科學(xué)的構(gòu)建,在結(jié)合具體情況,合理的評(píng)估分類模型,在依照模型,對(duì)文章的相似度進(jìn)行精準(zhǔn)的計(jì)算,最終對(duì)其類別進(jìn)行明確。
第四,輿情管理模塊。這一模塊是系統(tǒng)的最后一個(gè)環(huán)節(jié),其包含了用戶管理以及權(quán)限管理等。其中,針對(duì)用戶管理,具體是指在系統(tǒng)中,設(shè)計(jì)用戶登錄以及退出等模塊,并有效地進(jìn)行增加和刪減操作,科學(xué)的設(shè)置用戶信息。對(duì)于權(quán)限管理,主要是在系統(tǒng)的實(shí)際應(yīng)用期間,由于角色的差異,其權(quán)限也會(huì)存在很大差別,在操作過程中,需要對(duì)角色進(jìn)行授權(quán)認(rèn)證等。
3 結(jié)束語(yǔ)
在具體的教學(xué)工作進(jìn)行和開展過程中,為了可以最大限度地降低網(wǎng)絡(luò)輿情問題出現(xiàn)幾率,科學(xué)對(duì)面臨的困境進(jìn)行規(guī)避,學(xué)校在各項(xiàng)工作進(jìn)行階段,應(yīng)該強(qiáng)化對(duì)數(shù)據(jù)挖掘技術(shù)的應(yīng)用,設(shè)計(jì)并實(shí)現(xiàn)一個(gè)基于數(shù)據(jù)挖掘技術(shù)的輿情分析系統(tǒng)。并且,通過對(duì)分布式文件系統(tǒng)存儲(chǔ)數(shù)據(jù)的合理應(yīng)用,同時(shí)將云計(jì)算技術(shù)進(jìn)行科學(xué)的結(jié)合,有效提升系統(tǒng)執(zhí)行的穩(wěn)定性以及效率。此外,通過話題發(fā)現(xiàn)以及輿情分析跟蹤,可以在第一時(shí)間對(duì)網(wǎng)絡(luò)輿情進(jìn)行監(jiān)控,正確地進(jìn)行引導(dǎo),保證中職學(xué)校學(xué)生管理工作可以順利且有效地進(jìn)行和開展。
參考文獻(xiàn):
[1]陳紀(jì)銘,卜曉.基于數(shù)據(jù)挖掘的城市旅游輿情分析系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].電子技術(shù)與軟件工程,2019(8):174-175.
[2]余宏.大數(shù)據(jù)環(huán)境下網(wǎng)絡(luò)輿情分析在企業(yè)管理中的應(yīng)用研究[J]現(xiàn)代計(jì)算機(jī):專業(yè)版,2018(32):62-66.
[3]徐明波,王群.我國(guó)“中考加分”問題的網(wǎng)絡(luò)輿情分析——基于五大綜合類門戶網(wǎng)站的研究[J].湖北師范大學(xué)學(xué)報(bào):哲學(xué)社會(huì)科學(xué)版,2018,38(5):124-129.
[4]吳欣怡,湯靜.新時(shí)代網(wǎng)絡(luò)輿情的大數(shù)據(jù)技術(shù)應(yīng)用與研究[J].計(jì)算機(jī)產(chǎn)品與流通,2018(9):81.
[5]王若宇.大數(shù)據(jù)下的網(wǎng)絡(luò)輿情分析研究——評(píng)《網(wǎng)絡(luò)輿情分析技術(shù)》[J].新聞戰(zhàn)線,2018(16):177.
[6]陳藝卓,基于數(shù)據(jù)挖掘的高校網(wǎng)絡(luò)輿情分析系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[J].電子技術(shù)與軟件工程,2016(23):189.
[7]袁鍵,田宏林,張濤.互聯(lián)網(wǎng)輿情搜索分析系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].計(jì)算機(jī)與數(shù)字工程,2012,40(1):93-96.