国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

高校網(wǎng)絡(luò)輿情監(jiān)測(cè)關(guān)鍵技術(shù)研究

2013-12-29 00:00:00吳曉倩陳誠(chéng)
電腦知識(shí)與技術(shù) 2013年16期

摘要:該文對(duì)高校BBS網(wǎng)絡(luò)輿情的形成、傳播特點(diǎn)和熱點(diǎn)分析的方法進(jìn)行探討,以高校網(wǎng)絡(luò)輿情監(jiān)控機(jī)制的需求為出發(fā)點(diǎn),從網(wǎng)絡(luò)爬蟲、文本挖掘、情感分析等技術(shù)入手,深入研究聚集爬蟲、信息處理、文本聚類等方面的技術(shù)實(shí)現(xiàn)方案,用統(tǒng)計(jì)的方法來計(jì)算輿情主題被關(guān)注的程度。

關(guān)鍵詞:高校BBS;網(wǎng)絡(luò)輿情;監(jiān)測(cè);熱點(diǎn)分析

中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2013)16-3688-04

1 概述

隨著互聯(lián)網(wǎng)的普及和高校信息化的建設(shè),各大高校都擁有自己的BBS網(wǎng)絡(luò),學(xué)生在網(wǎng)絡(luò)上進(jìn)行交流,發(fā)表自己的觀點(diǎn)和意見,表達(dá)思想等,輿情的影響和規(guī)律都不容忽視。然而,對(duì)敏感和突發(fā)事件的不實(shí)言論和惡意煽動(dòng),會(huì)誤導(dǎo)和欺騙學(xué)生,擴(kuò)大學(xué)生的不滿情緒,影響和破壞校園的和諧穩(wěn)定。因此,有必要對(duì)高校BBS網(wǎng)絡(luò)涉及意識(shí)形態(tài)安全的議題和言論進(jìn)行有效地監(jiān)管。采用數(shù)據(jù)挖掘技術(shù),對(duì)互聯(lián)網(wǎng)輿情進(jìn)行分析、整理,才能建立起全面、有效、快速的輿情監(jiān)測(cè)預(yù)警機(jī)制,使高校網(wǎng)絡(luò)得以健康、快速的發(fā)展,成為當(dāng)前研究和應(yīng)用的熱點(diǎn)。

在目前的校園網(wǎng)絡(luò)輿情監(jiān)測(cè)應(yīng)用中,還沒有比較成熟的網(wǎng)絡(luò)輿情產(chǎn)品,因此,針對(duì)高校BBS網(wǎng)絡(luò)的特點(diǎn),結(jié)合高校網(wǎng)絡(luò)輿情監(jiān)控機(jī)制和引導(dǎo)策略,開發(fā)高校網(wǎng)絡(luò)輿情監(jiān)測(cè)平臺(tái)有很大的現(xiàn)實(shí)意義和應(yīng)用價(jià)值。

2 輿情熱點(diǎn)分析方法

2.1網(wǎng)絡(luò)輿情的形成

2.2主題關(guān)注度分析

主題關(guān)注度是指過去某一時(shí)間段內(nèi),輿情主題被關(guān)注的程度,用該主題的相關(guān)帖子回復(fù)數(shù)或與該主題的相關(guān)網(wǎng)頁(yè)數(shù)進(jìn)行衡量[1]。在進(jìn)行輿情分析時(shí),要統(tǒng)計(jì)某一主題或事件被關(guān)注的程度,首先要明確事件或話題本身所處的階段;其次,應(yīng)該在分析某一輿情熱點(diǎn)之前對(duì)其進(jìn)行科學(xué)的類型界定。熱點(diǎn)事件主要分為突發(fā)自然災(zāi)害事件、生產(chǎn)安全事故、群體性事件、公共衛(wèi)生事件、公權(quán)力形象、司法事件、經(jīng)濟(jì)民生事件、社會(huì)思潮、境外涉華突發(fā)事件等。

2.3 主題熱度分析

主題熱度分析即在某一時(shí)同段內(nèi)相對(duì)更加被關(guān)注或集中關(guān)注的輿情主題,用該主題的關(guān)注度進(jìn)行衡量。統(tǒng)計(jì)所有輿情主題的關(guān)注度,在某一時(shí)間段內(nèi),對(duì)所有設(shè)為熱點(diǎn)的主題按關(guān)注度的降序進(jìn)行排列,生成某一時(shí)間段內(nèi)的熱點(diǎn)主題排行榜。排在榜首的主題網(wǎng)民的關(guān)注度最高,也就是熱點(diǎn)問題所在。

3 網(wǎng)絡(luò)輿情監(jiān)測(cè)關(guān)鍵技術(shù)

網(wǎng)絡(luò)輿情監(jiān)測(cè)技術(shù)主要集中在兩個(gè)方面,一是話題檢測(cè)與跟蹤技術(shù)(Topic Detection and Tracking),二是文體傾向性分析技術(shù)(Sentiment Classification)技術(shù)。主題檢測(cè)與跟蹤作為輿情分析的重要技術(shù)手段,是近十年自然語言處理和信息檢索領(lǐng)域的熱點(diǎn)研究課題[2]。要對(duì)高校網(wǎng)絡(luò)輿情進(jìn)行監(jiān)測(cè),就是運(yùn)用網(wǎng)絡(luò)爬蟲、文本挖掘和文本情感分析技術(shù),實(shí)現(xiàn)熱點(diǎn)話題發(fā)現(xiàn)、話題跟蹤、關(guān)聯(lián)分析、敏感信息監(jiān)測(cè)的功能。

3.1 主題爬蟲技術(shù)

3.1.1網(wǎng)絡(luò)爬蟲的分類

網(wǎng)絡(luò)爬蟲也叫網(wǎng)絡(luò)蜘蛛,是一個(gè)按照一定的規(guī)則自動(dòng)提取網(wǎng)頁(yè)的程序,這種技術(shù)可以檢查站點(diǎn)上所有的鏈接是否有效,并把相關(guān)的數(shù)據(jù)保存下來,成為搜索引擎[3]。

通用網(wǎng)絡(luò)爬蟲首先把網(wǎng)絡(luò)上的HTML文檔使用超鏈接連接起來,就像織了一張網(wǎng),爬蟲程序從一個(gè)或若干初始網(wǎng)頁(yè)的URL開始,獲得初始網(wǎng)頁(yè)上的URL列表,順著這張網(wǎng),不斷的抓取網(wǎng)頁(yè),將內(nèi)容抽取出來,直到滿足系統(tǒng)的停止條件為止。

聚焦爬蟲技術(shù)是根據(jù)一定的網(wǎng)頁(yè)分析算法地過濾與主題無關(guān)的鏈接,保留有用的鏈接放到待抓取的隊(duì)列中,通過一定的搜索策略從隊(duì)列中選擇下一步要抓取的URL,重復(fù)以上步驟,直到滿足程序的停止條件。

3.1.2爬行算法

基于主題的聚焦爬蟲搜索策略主要有人工預(yù)選策略、過濾策略、啟發(fā)式搜索策略。人工預(yù)選策略是由人工預(yù)先瀏覽各個(gè)站點(diǎn),從中選出與主題相關(guān)的網(wǎng)站,然后再用爬蟲程序?qū)@類網(wǎng)站進(jìn)行持續(xù)的訪問;過濾策略是將爬蟲抓取下來的網(wǎng)頁(yè),先進(jìn)行過濾,刪除與主題不相關(guān)的頁(yè)面,保留相關(guān)頁(yè)面;啟發(fā)式策略是考慮特定問題可應(yīng)用的知識(shí)地優(yōu)先選擇合適的操作算子,盡量減少不必要的搜索,以搜索效率。下面介紹比較有代表性的算法Fish Search算法。

Fish Search算法是模擬自然界中的魚群的行為來進(jìn)行最優(yōu)搜索,依據(jù)自然規(guī)律,魚群總是朝一個(gè)方向流動(dòng)來尋找食物并繁殖,子代魚群的數(shù)量和強(qiáng)壯程度取決于能找到的食物的數(shù)量。在Fish Search算法中,每一個(gè)URL看作是一條魚,當(dāng)一個(gè)Web頁(yè)面被抓取后,它包含的新的UEL也同時(shí)被解析出來。其中,有用的URL的數(shù)量取決于該頁(yè)面是否與主題相關(guān)以及它本身包含的鏈接數(shù)量。當(dāng)增加一個(gè)文檔,魚就繁殖一定數(shù)量的后代,若文檔相關(guān)也就是指魚兒找到了食物,可以繁殖出更多的后代,則再增加此文的鏈接深度;若文檔不相關(guān),魚就越來越少,后代也越少。在某一方向上經(jīng)過幾條鏈接仍未找到相關(guān)文檔,就表明此魚已死,就不再沿著這個(gè)方向進(jìn)行查找了,將此URL加入到完成隊(duì)列中。若一條魚讀取文檔的時(shí)間過長(zhǎng),說明該魚已進(jìn)入污染區(qū),則盡量少沿著這條URL搜索,以免出現(xiàn)死循環(huán)。

Fish Search算法不像傳統(tǒng)的搜索算法按照URL在父頁(yè)面中出現(xiàn)的順序來依次搜索,而是動(dòng)態(tài)的根據(jù)網(wǎng)頁(yè)的搜索深度值來決定搜索的順序,實(shí)現(xiàn)了可能的主題相關(guān)網(wǎng)頁(yè)優(yōu)先搜索。該算法的不足之處在于相關(guān)度的計(jì)算過于簡(jiǎn)單,容易使算法過早陷入局部最優(yōu)的陷阱,導(dǎo)致整體回報(bào)率不高[4]。

3.2 文本挖掘技術(shù)

3.2.1文本表示

文本表示包括兩個(gè)方面的問題:文本的表示和計(jì)算,文本的表示是指文本特征的提取,計(jì)算指權(quán)重的定義和語義相似度的定義。

目前,文本的表示通常采用布爾模型、向量空間模型、潛在語義模型和概率模型文本表示模型,用某種特定結(jié)構(gòu)去表達(dá)文本的語義。

3.2.2文本相似度計(jì)算

3.2.3文本聚類和分類

文本聚類通常對(duì)已有的文本集合進(jìn)行聚類,文本聚類技術(shù)是主題檢測(cè)技術(shù)的基礎(chǔ),它的目標(biāo)是將文檔集合分成若干個(gè)簇,要求同一簇內(nèi)文檔內(nèi)容的相似度盡可能的大,而不同簇之間的相似度則盡可能的小。

經(jīng)過多年研究,聚類算法已經(jīng)很成熟,主要可分為五類:以k-means為代表的劃分方法,利用同一聚類中的對(duì)象相似度高,不同類的對(duì)象相似度低的特性進(jìn)行分類;將類別看作是在層次的層次聚類方法,有兩種分類方法:整合法和分裂法;主要考慮數(shù)據(jù)空間的密度、連通性和邊界區(qū)的基于密度的方法;將數(shù)據(jù)的分割方法轉(zhuǎn)換成對(duì)空間的分割的基于網(wǎng)絡(luò)的算法;在高維空間進(jìn)行聚類的核聚類算法等。

不管采用哪一種聚類算法,文本聚類的流程如圖2所示,主要有以下步驟:

①將原始文本進(jìn)行預(yù)處理,抽取詞條,詞條選擇等其他處理;

②抽取文本特征,建立模型,例如向量空間模型、概率模型等其他模型;

③將維度進(jìn)行約減,需要用到的算法有層次算法、劃分算法等其他算法;

④得到聚類結(jié)果。

3.2.4 關(guān)鍵詞和摘要提取

由于網(wǎng)絡(luò)上的文檔信息量比較龐大,如果直接對(duì)全文進(jìn)行檢索,其檢索的速度會(huì)很慢,而且檢索的效率不高,經(jīng)常檢索出無關(guān)的內(nèi)容。因此為了提高檢索質(zhì)量和效率,必須對(duì)文檔建立關(guān)鍵詞和摘要。關(guān)于關(guān)鍵詞自動(dòng)提取的方法主要有主要包括基于統(tǒng)計(jì)、基于語義理解和基于機(jī)器學(xué)習(xí)三種方式。

關(guān)鍵詞的抽取過程非常復(fù)雜,設(shè)計(jì)思路是首先建立一個(gè)通用的主題詞表,然后基于這個(gè)主題表對(duì)處理后的頁(yè)面文檔進(jìn)行主題詞的抽取工作,主題詞的抽取過程主要包括預(yù)處理、選擇候選詞、計(jì)算關(guān)鍵詞權(quán)重、輸出關(guān)鍵詞等幾個(gè)主要步驟。

4 實(shí)驗(yàn)結(jié)果

5 結(jié)束語

本文立足于高校網(wǎng)絡(luò)輿情監(jiān)測(cè)的實(shí)際需求,研究了高校輿情監(jiān)控系統(tǒng)的關(guān)鍵技術(shù):網(wǎng)絡(luò)爬蟲、文本挖掘等多種信息技術(shù)。在多種技術(shù)的支撐下,開發(fā)出一套適用于高校BBS網(wǎng)絡(luò)的輿情監(jiān)測(cè)平臺(tái),實(shí)現(xiàn)了對(duì)新聞的實(shí)時(shí)跟蹤,校園熱點(diǎn)話題的監(jiān)控、敏感信息的監(jiān)測(cè)等功能是可以是實(shí)現(xiàn)的,這項(xiàng)研究還需要進(jìn)一步深入。

參考文獻(xiàn):

[1] 林興發(fā),肖照.基于大學(xué)生BBS論壇的輿情熱點(diǎn)分析——以武漢大學(xué)珞珈山水論壇為例[J].現(xiàn)代商貿(mào)工業(yè). 2010(18):188-189.

[2] Pimwadee Chaovalit,Lina Zhou,Movie Review Mining:a Comparison between Supervised and Unsupervised Classification Approaches,In Proceedings of the 38th Hawaii International Conference on System Sciences,2005.

[3] PINKERTON B.Finding what people want:Experiences with theweb crawler[A].Proceedings of the SecondWorld2WideWeb conference[C].Chicago,Illinois,1994.

[4] 曾元顯,關(guān)鍵詞自動(dòng)提取技術(shù)與相關(guān)詞回饋[J].中國(guó)圖書館學(xué)會(huì)會(huì)報(bào),1997,11(59):20-23.

[5] 黃萱菁,趙軍.中文文本情感分析[J].中國(guó)計(jì)算機(jī)學(xué)會(huì)通訊,2008,2(4):13-16.

凤翔县| 扶沟县| 治多县| 桃源县| 彰化市| 凌源市| 新营市| 清新县| 屯留县| 旌德县| 林西县| 阳春市| 桂林市| 林州市| 庆阳市| 绍兴市| 河东区| 潮州市| 伽师县| 建德市| 乐安县| 临澧县| 新邵县| 佛山市| 郓城县| 茶陵县| 伊春市| 静海县| 梅河口市| 秭归县| 焦作市| 和林格尔县| 德惠市| 精河县| 泸定县| 晋宁县| 枝江市| 融水| 永登县| 灵武市| 连云港市|