国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大數(shù)據(jù)與互聯(lián)網(wǎng)的輿情管控

2014-09-10 22:13黃斐一孫立軍孔繁盛劉建東
移動通信 2014年13期
關(guān)鍵詞:自然語言處理數(shù)據(jù)挖掘大數(shù)據(jù)

黃斐一+孫立軍+孔繁盛+劉建東

【摘 要】介紹了一種基于大數(shù)據(jù)基礎(chǔ)技術(shù)和應(yīng)用技術(shù)進(jìn)行互聯(lián)網(wǎng)輿情管控的方法。該方法將互聯(lián)網(wǎng)輿情管控分為大數(shù)據(jù)收集、輿情發(fā)現(xiàn)、信息源定位3個階段。當(dāng)有熱點(diǎn)事件發(fā)生并在互聯(lián)網(wǎng)上廣泛傳播的時候,利用互聯(lián)網(wǎng)輿情管控的基本方法就可以及時掌握該事件在互聯(lián)網(wǎng)上的傳播情況、判斷該事件是否被惡意引導(dǎo)或曲解并找出信息傳播的關(guān)鍵節(jié)點(diǎn),為互聯(lián)網(wǎng)輿情管理單位提供管控依據(jù)和有力支撐。

【關(guān)鍵詞】互聯(lián)網(wǎng)輿情 大數(shù)據(jù) 數(shù)據(jù)挖掘 自然語言處理

中圖分類號:TP393.4 文獻(xiàn)標(biāo)識碼:A 文章編號:1006-1010(2014)-13-0019-05

1 從“凈網(wǎng)”到互聯(lián)網(wǎng)輿情

從“凈網(wǎng)”說起:為依法嚴(yán)厲打擊利用互聯(lián)網(wǎng)制作傳播淫穢色情信息的行為,全國“掃黃打非”工作小組辦公室、國家互聯(lián)網(wǎng)信息辦公室、工業(yè)和信息化部、公安部決定:自2014年4月中旬至11月,在全國范圍內(nèi)統(tǒng)一開展打擊網(wǎng)上淫穢色情信息的“掃黃打非凈網(wǎng)2014”專項(xiàng)行動。從內(nèi)容和輿情管控的角度來分析,“凈網(wǎng)”不是一個孤立的行動,它的根本目標(biāo)是防止互聯(lián)網(wǎng)業(yè)務(wù)和互聯(lián)網(wǎng)工具成為不良信息和違規(guī)內(nèi)容的傳播渠道。

“凈網(wǎng)”行動“凈”什么?為了便于討論,我們將互聯(lián)網(wǎng)上的信息分為2大類:可信任源內(nèi)容(Trusted Resource Content,TRC)和用戶產(chǎn)生內(nèi)容(User Generated Content,UGC)。一方面,TRC指由可信任的媒體發(fā)布的信息,如人民日報社、新華社等,這類媒體需要具備信息采編、發(fā)布的資質(zhì),且有非常嚴(yán)格的內(nèi)容審核制度保證內(nèi)容的可信、新聞的真實(shí)。另一方面,UGC指由互聯(lián)網(wǎng)用戶自寫的內(nèi)容,這些內(nèi)容可以是文字、圖片、音頻、視頻,并通過論壇、BBS、微博、自制小網(wǎng)站或者其他互聯(lián)網(wǎng)媒介發(fā)布。它們具備一個最顯著的特征,即用戶自媒體特征。由于這些用戶一般沒有新聞采編和發(fā)布內(nèi)容的資質(zhì),且內(nèi)容可能未經(jīng)嚴(yán)格的審核,易造成其內(nèi)容失真、歪曲,甚至可能是淫穢或其他不良信息?!皟艟W(wǎng)”的主要目標(biāo)的就是保證UGC內(nèi)容的合法合規(guī)。

讓人又愛又恨的UGC:互聯(lián)網(wǎng)媒體正在成長為繼報紙、廣播、電視之后的“第四媒體”,除了TRC內(nèi)容以外,其推動力還包括以UGC形式出現(xiàn)的用戶互動。這種互動真正體現(xiàn)了互聯(lián)網(wǎng)的“互聯(lián)”、“互通”和“互動”。它一方面促進(jìn)了互聯(lián)網(wǎng)的迅猛發(fā)展,但另一方面,若惡意用戶利用UGC擴(kuò)散和傳播違規(guī)內(nèi)容,將會給社會帶來極大的負(fù)面影響。

UGC和互聯(lián)網(wǎng)輿情:互聯(lián)網(wǎng)輿情的組成元素是網(wǎng)民/公眾的互聯(lián)網(wǎng)UGC,它以互聯(lián)網(wǎng)為載體,以社會事件為核心,是社會事件的言論、觀點(diǎn)、態(tài)度、情感的集合體,且有較強(qiáng)影響力和傾向性。由于互聯(lián)網(wǎng)UGC有著發(fā)布隨意性、隱蔽性、高傳播性、偏差性和易受影響性等特點(diǎn),互聯(lián)網(wǎng)輿情并不能等同于社會輿情。但是它代表了很大一部分人群對某一問題、事件的傾向性意見,且這些意見和情緒容易受到影響,甚至引導(dǎo)煽動?;ヂ?lián)網(wǎng)輿情分析課題越來越受到重視,研究機(jī)構(gòu)、國家級重要媒體也紛紛成立互聯(lián)網(wǎng)輿情研究辦公室,如人民網(wǎng)輿情監(jiān)測室、清華輿情研究室等。

2 大數(shù)據(jù)基礎(chǔ)技術(shù)和應(yīng)用技術(shù)

維基百科對大數(shù)據(jù)的定義是“一個超大的、難以用現(xiàn)有常規(guī)的數(shù)據(jù)庫管理技術(shù)和工具處理的數(shù)據(jù)集”。IDC報告中指出“大數(shù)據(jù)技術(shù)描述了一種新一代技術(shù)和架構(gòu),以很經(jīng)濟(jì)的方式,以高速的捕獲、發(fā)現(xiàn)和分析技術(shù),從各種超大規(guī)模的數(shù)據(jù)中提取價值”。大數(shù)據(jù)尚處于行業(yè)發(fā)展的初期,所以對于大數(shù)據(jù)是一個數(shù)據(jù)集還是一個技術(shù)集尚有不少的爭論。我們認(rèn)為,它既是一個數(shù)據(jù)集也是一個技術(shù)集,它更是一個場景集。需要從海量非結(jié)構(gòu)化數(shù)據(jù)中去除噪聲獲取信息的場景都是大數(shù)據(jù)的場景;并行計算技術(shù)、分布式存儲技術(shù)、數(shù)據(jù)挖掘技術(shù)等都屬于處理海量數(shù)據(jù)的大數(shù)據(jù)技術(shù)。

大數(shù)據(jù)的基礎(chǔ)技術(shù)主要指對數(shù)據(jù)的計算和存儲技術(shù),如分布式計算技術(shù)(Mapreduce,Hive等),分布式存儲技術(shù)(HDFS,HBase等),這些技術(shù)用于對海量數(shù)據(jù)進(jìn)行計算、存儲以及綜合管理。但是大數(shù)據(jù)的場景各種各樣,除了基礎(chǔ)技術(shù)以外,還需要其他技術(shù)對各種不同場景下的數(shù)據(jù)進(jìn)行進(jìn)一步處理,我們稱之為大數(shù)據(jù)應(yīng)用技術(shù)。在本文討論的場景中,互聯(lián)網(wǎng)輿情數(shù)據(jù)的處理除了需要借用大數(shù)據(jù)基礎(chǔ)技術(shù)和平臺外,還需要利用適合本場景的大數(shù)據(jù)應(yīng)用技術(shù)加以處理,如數(shù)據(jù)挖掘技術(shù)、自然語言處理技術(shù)、漢語分詞技術(shù)等。本文不過多的探討大數(shù)據(jù)的基礎(chǔ)技術(shù),而著重研究大數(shù)據(jù)的應(yīng)用技術(shù)。

3 基于大數(shù)據(jù)的互聯(lián)網(wǎng)輿情管控

互聯(lián)網(wǎng)輿情管控是一個非常典型的大數(shù)據(jù)場景。首先,用戶在互聯(lián)網(wǎng)上產(chǎn)生的UGC數(shù)據(jù)量大;其次,這些數(shù)據(jù)的種類繁多,且以半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)為主,包括文字、圖片、數(shù)字、音頻、視頻等;第三,這些數(shù)據(jù)的價值密度低,需要在海量的信息中去除噪聲,找出有用的信息。

基于大數(shù)據(jù)的互聯(lián)網(wǎng)輿情管控的理想模式包括了數(shù)據(jù)采集、輿情發(fā)現(xiàn)和信息源定位3個步驟,如圖1所示。首先,作為大數(shù)據(jù)場景,需要有海量的數(shù)據(jù)作為輿情分析對象,且數(shù)據(jù)的獲取需要具備一定的實(shí)時性,否則將無法從中分析出熱點(diǎn)輿情。其次,對海量數(shù)據(jù)的分析處理、發(fā)現(xiàn)淹沒在噪聲中的有價值信息是輿情管控的重要步驟。在這個過程中,我們要發(fā)現(xiàn)最新的廣泛傳播、廣泛評論的熱點(diǎn),需要了解網(wǎng)民對熱點(diǎn)的基本態(tài)度、傾向,并初步判斷社會事件在網(wǎng)絡(luò)傳播過程中的真實(shí)性、準(zhǔn)確性以及判斷輿論是否被惡意引導(dǎo)和煽動。第三,若發(fā)現(xiàn)互聯(lián)網(wǎng)輿情有被惡意引導(dǎo)的趨勢時,需要準(zhǔn)確的找出哪些互聯(lián)網(wǎng)用戶在引導(dǎo)話題和輿論,定位信息擴(kuò)散的源頭和傳播的關(guān)鍵節(jié)點(diǎn)。

圖1 互聯(lián)網(wǎng)輿情管控的3個步驟

3.1 大數(shù)據(jù)采集

面向互聯(lián)網(wǎng)采集的海量信息是大數(shù)據(jù)分析的對象和基礎(chǔ)。由于互聯(lián)網(wǎng)輿情一般是在線的實(shí)時數(shù)據(jù),所以需要利用網(wǎng)頁爬蟲技術(shù)[1]將被監(jiān)控網(wǎng)站、微博的內(nèi)容全面抓取、存儲并索引。這是一種相對比較成熟的技術(shù)。它通過定義抓取目標(biāo),過濾無關(guān)鏈接確定待抓取的Web頁面URL隊(duì)列,并通過一定的抓取策略從隊(duì)列中選取下一個需抓取的URL,并重復(fù)直到某一條件時停止。抓取策略一般包括廣度優(yōu)先、深度優(yōu)先和最佳優(yōu)先3種。由于互聯(lián)網(wǎng)TRC、UGC有數(shù)量大、更新頻率快和頁面動態(tài)等特點(diǎn),所以在進(jìn)行互聯(lián)網(wǎng)輿情數(shù)據(jù)抓取的過程中需要注意設(shè)置抓取對象的優(yōu)先級,并且需要動態(tài)的對URL隊(duì)列進(jìn)行更新,以備新頁面的產(chǎn)生和舊頁面的失效。endprint

作為互聯(lián)網(wǎng)輿情管控的第一步,大數(shù)據(jù)采集還需要注意以下幾個方面。首先,采集的對象需要全面。從傳播范圍上說,需要關(guān)注傳播面廣的重要新聞網(wǎng)站、音視頻網(wǎng)站,網(wǎng)民參與度高的BBS、論壇、博客、其他社交工具等渠道;從地理位置上說,需關(guān)注大中城市、重點(diǎn)區(qū)域等地域的相關(guān)新聞;從行業(yè)角度看,需關(guān)注行業(yè)主管單位、協(xié)會等機(jī)構(gòu)的相關(guān)新聞。其次,信息采集要及時,盡量做到第一時間和高頻度。對于權(quán)威媒體發(fā)布的新聞及相關(guān)評論,用戶參與量大且活躍度高的論壇、BBS、微博或其他自媒體渠道需要第一時間抓取,且盡量提高信息抓取的頻度,以便及時了解互聯(lián)網(wǎng)輿論的變化趨勢。

3.2 大數(shù)據(jù)處理和輿情熱點(diǎn)發(fā)現(xiàn)

當(dāng)從互聯(lián)網(wǎng)上獲取了大量的輿情信息之后,我們需要迅速的從海量的數(shù)據(jù)中挖掘出熱點(diǎn)信息。在這個階段,我們需要利用大數(shù)據(jù)應(yīng)用技術(shù),包括信息檢索技術(shù)、數(shù)據(jù)挖掘技術(shù)和自然語言識別技術(shù)。信息檢索技術(shù)[2]和數(shù)據(jù)挖掘技術(shù)[3]都是對海量信息進(jìn)行信息查詢、挖掘和處理的技術(shù)。它們的區(qū)別在于信息檢索技術(shù)著眼于已知信息的查詢,而數(shù)據(jù)挖掘技術(shù)側(cè)重于未知信息的發(fā)現(xiàn)。

信息檢索技術(shù)是通過索引的方式從信息集合中找出所需信息的過程。它一般根據(jù)一系列的模型進(jìn)行索引和查詢,如神經(jīng)網(wǎng)絡(luò)模型、模糊集合模型、向量空間模型等。通過該技術(shù)可以對互聯(lián)網(wǎng)輿情數(shù)據(jù)進(jìn)行索引和歸類。比如將數(shù)據(jù)歸類為“時政”、“經(jīng)濟(jì)”、“娛樂”、“科技”等類別,也可以將數(shù)據(jù)根據(jù)發(fā)布者、行業(yè)、發(fā)布時間等不同的索引和屬性進(jìn)行歸類。這些數(shù)據(jù)的整理和歸類是對海量數(shù)據(jù)初步處理的必要步驟。

數(shù)據(jù)挖掘技術(shù)是從海量數(shù)據(jù)中通過算法發(fā)現(xiàn)并找出隱藏于其中且原先不了解的信息。其常用的方法包括分類、回歸分析、聚類、關(guān)聯(lián)規(guī)則、特征、變化和偏差分析。這些方法是從數(shù)據(jù)挖掘的不同角度出發(fā)的。比如分類方法是通過分類模型將數(shù)據(jù)映射到某個給定的類別;回歸分析主要面向數(shù)據(jù)組合和序列的趨勢特征,數(shù)據(jù)間的相關(guān)關(guān)系;聚類的處理目標(biāo)是將相似度大的數(shù)據(jù)放入同一類別中;關(guān)聯(lián)規(guī)則是分析數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系;特征重點(diǎn)在于表達(dá)某一數(shù)據(jù)集的總體特點(diǎn);變化和偏差分析是對分類中的反常樣本、無法歸類樣本進(jìn)行分析的技術(shù)。數(shù)據(jù)挖掘是在信息檢索的基礎(chǔ)上對信息的進(jìn)一步處理。比如新華社新發(fā)布一條關(guān)于房地產(chǎn)改革的新聞,被抓取和歸類到“經(jīng)濟(jì)”類,數(shù)據(jù)挖掘技術(shù)就可以在經(jīng)濟(jì)類數(shù)據(jù)中找出這條從未出現(xiàn)過的新聞。

另外,需要注意的是,輿情分析的對象是人類的語言。從大量的語言中分析出語義、情緒則是輿情分析與傳統(tǒng)的數(shù)據(jù)挖掘不同的地方。所以除了利用信息檢索和數(shù)據(jù)挖掘技術(shù)外,輿情分析還需要借助另外一個非常重要的技術(shù):自然語言處理[4]。自然語言處理是人工智能研究領(lǐng)域的一個分支,它是人機(jī)之間自然語言的互通。它的難點(diǎn)在于自然語言在各個場景下存在歧義和多義性,漢語尤為明顯。在漢語中,詞與詞之間沒有明確的分隔標(biāo)記,古時就有“句讀之不知,惑之不解”的困惑,現(xiàn)代漢語也是如此。比如“南京市長江大橋”就可以理解為“南京市——長江大橋”和“南京——市長——江大橋”2個不同的意思。所以我們需要利用中文分詞技術(shù)[5]對文字進(jìn)行處理,即借用計算機(jī)給中文語句進(jìn)行斷句、分詞。在中文分詞領(lǐng)域我國已經(jīng)有了多年的研究經(jīng)驗(yàn),有著基于詞典的分詞方法、基于概率統(tǒng)計的分詞方法等諸多分詞方案。一些分詞算法的準(zhǔn)確度能夠達(dá)到99%。比如ICTCLAS開源項(xiàng)目[6],單機(jī)分詞速率將近1Mbps,分詞準(zhǔn)確率達(dá)到98.45%。

利用信息檢索、數(shù)據(jù)挖掘和自然語言處理技術(shù),海量的、非結(jié)構(gòu)化的輿情數(shù)據(jù)則能夠得到歸類、索引,并找出其中重復(fù)出現(xiàn)的關(guān)鍵性詞語,并最終歸納成事件。那么,我們有理由認(rèn)為熱點(diǎn)事件、熱點(diǎn)輿情的屬性或模型的著眼點(diǎn)在于關(guān)鍵詞。通過一系列標(biāo)志性的關(guān)鍵詞的集合則可以很好地表達(dá)、歸納某一事件,并給事件建模。比如,對黨的十八大報告進(jìn)行分析,文中出現(xiàn)“中國特色社會主義”81次、“改革開放”19次、“科學(xué)發(fā)展觀”15次、“全面建成小康社會”13次,這些關(guān)鍵詞及其出現(xiàn)次數(shù)組成的向量空間,則是可以映射這一報告或某一熱點(diǎn)事件的最簡單的模型。我們稱之為基于關(guān)鍵詞的建模方法。

3.3 信息源定位

當(dāng)從海量的數(shù)據(jù)中找出熱點(diǎn)信息之后,在對有害信息的擴(kuò)散進(jìn)行限制的同時,需要對信息擴(kuò)散的源頭進(jìn)行定位。不同種類的社交工具和場景下,其信息擴(kuò)散的模型是不同的。如即時通信工具的信息傳播是嵌套式傳播,而微博類社交工具的傳播模型是嵌套式和疊加式的結(jié)合。以微博為例討論信息源的定位問題。首先,微博博主的屬性包括以下幾個方面:基本資料、關(guān)系網(wǎng)、行為數(shù)據(jù)、發(fā)布內(nèi)容和評論。其中博主的內(nèi)容發(fā)布、轉(zhuǎn)發(fā)、評論是反映其個性、觀點(diǎn)、傾向的重要內(nèi)容。通過分析博主發(fā)布的歷史內(nèi)容,可對某一博主進(jìn)行基于關(guān)鍵詞的個性建模。其次,利用模式識別技術(shù)[7]對熱點(diǎn)輿情的關(guān)鍵詞模型和微博博主關(guān)鍵詞模型進(jìn)行匹配,匹配相似度越高的博主就越接近熱點(diǎn)傳播的源頭或關(guān)鍵節(jié)點(diǎn)。

4 小結(jié)和探討

互聯(lián)網(wǎng)發(fā)展到今天,它在信息傳播和擴(kuò)散方面起著傳統(tǒng)媒體所不具備的作用效率。它正逐漸成為人們自由表達(dá)觀點(diǎn)的重要場所,也逐漸成為反映社會輿論的重要渠道。但是UGC內(nèi)容的多樣性、發(fā)布渠道的復(fù)雜性使得未經(jīng)證實(shí)和審核的不實(shí)新聞、別有用心的假新聞在互聯(lián)網(wǎng)上隨處可見。更有甚者,一些惡意的互聯(lián)網(wǎng)用戶利用互聯(lián)網(wǎng)媒體發(fā)布、傳播、擴(kuò)散各種有害信息,如淫穢、暴力、極端思想、恐怖主義等。在這種現(xiàn)實(shí)場景下,我們就更加需要第一時間了解互聯(lián)網(wǎng)上廣泛傳播的熱點(diǎn)信息,從而屏蔽不良信息和虛假信息,使得互聯(lián)網(wǎng)真正成為推動社會發(fā)展和信息交互的良性工具。

本文探討了一個利用大數(shù)據(jù)基礎(chǔ)技術(shù)和應(yīng)用技術(shù)處理海量互聯(lián)網(wǎng)輿情數(shù)據(jù)的場景。其中大數(shù)據(jù)基礎(chǔ)技術(shù)用于平臺的構(gòu)建,為計算和存儲提供最基本的功能支撐。大數(shù)據(jù)應(yīng)用技術(shù),包括網(wǎng)絡(luò)爬蟲技術(shù)、信息檢索技術(shù)、數(shù)據(jù)挖掘技術(shù)、自然語言處理技術(shù),是用于適配互聯(lián)網(wǎng)輿情這個大數(shù)據(jù)場景的應(yīng)用技術(shù)。通過信息獲取、輿情發(fā)現(xiàn)和信息源定位這3個步驟,我們可以從互聯(lián)網(wǎng)上抓取數(shù)據(jù)以供分析,可以從數(shù)據(jù)中找出熱點(diǎn)并發(fā)現(xiàn)在熱點(diǎn)擴(kuò)散中起到重要作用的用戶和節(jié)點(diǎn),為行業(yè)主管部門對互聯(lián)網(wǎng)輿情的管控提供依據(jù)和支撐。endprint

對互聯(lián)網(wǎng)輿情管控的研究目前尚處于初期階段,行業(yè)內(nèi)已有的輿情管控解決方案解決了有無的問題,但尚未達(dá)到高效和強(qiáng)大的程度。我們希望通過總結(jié)和研究為從業(yè)者提供一定的啟發(fā):在信息獲取階段能夠非常全面及時地找到待分析數(shù)據(jù);在輿情發(fā)現(xiàn)階段能夠準(zhǔn)確迅速地從海量數(shù)據(jù)中找出正在擴(kuò)散和傳播的熱點(diǎn)信息;在信息源定位階段能夠找到關(guān)鍵的擴(kuò)散節(jié)點(diǎn),從而對互聯(lián)網(wǎng)輿情實(shí)現(xiàn)有效的監(jiān)測和管理。

參考文獻(xiàn):

[1] 周立柱,林玲. 聚焦爬蟲技術(shù)研究綜述[J]. 計算機(jī)應(yīng)用, 2005(9): 1965-1969.

[2] David A, Grossman, Ophir Frieder. 信息檢索:算法與啟發(fā)式方法[M]. 張華平,李恒訓(xùn),劉治華,譯. 北京: 人民郵電出版社, 2010.

[3] Mehmed Kantardzic. Data Mining: Concepts, Models, Methods and Algorithms[M]. John Wiley & Sons, 2002.

[4] James Allen. 自然語言理解[M]. 劉群,譯. 北京: 電子工業(yè)出版社, 2005.

[5] 奉國和,鄭偉. 國內(nèi)中文自動分詞技術(shù)研究綜述[J]. 圖書情報工作, 2011(2): 41-45.

[6] 中國科學(xué)院計算技術(shù)研究所. ICTCLAS漢語分詞系統(tǒng)[EB/OL]. (2014-06-22). http://ictclas.org/.

[7] Richard O.Duda, Peter E.Hart, David G.Stork. 模式識別[M]. Wiley Press, 2001.

作者簡介

黃斐一:博士畢業(yè)于倫敦大學(xué)學(xué)院通信工程專業(yè),IEEE會員,CCF會員,現(xiàn)任中國移動互聯(lián)網(wǎng)基地業(yè)務(wù)二部高級運(yùn)營主管,主要職責(zé)涵蓋公司移動互聯(lián)網(wǎng)業(yè)務(wù)的安全管理與技術(shù)應(yīng)用等相關(guān)工作,擅長專業(yè)領(lǐng)域包括信息安全、移動互聯(lián)網(wǎng)業(yè)務(wù)運(yùn)營、大數(shù)據(jù)挖掘等。

孫立軍:博士畢業(yè)于華南理工大學(xué)通信與信息系統(tǒng)專業(yè),現(xiàn)任中國移動互聯(lián)網(wǎng)基地業(yè)務(wù)二部高級運(yùn)營主管,主要從事移動互聯(lián)網(wǎng)業(yè)務(wù)運(yùn)營中的信息安全管理工作。

孔繁盛:碩士畢業(yè)于南京郵電學(xué)院計算機(jī)軟件專業(yè),現(xiàn)任中國移動互聯(lián)網(wǎng)基地業(yè)務(wù)二部副總經(jīng)理,分管信息安全、互聯(lián)網(wǎng)業(yè)務(wù)平臺建設(shè)和運(yùn)維等工作。endprint

對互聯(lián)網(wǎng)輿情管控的研究目前尚處于初期階段,行業(yè)內(nèi)已有的輿情管控解決方案解決了有無的問題,但尚未達(dá)到高效和強(qiáng)大的程度。我們希望通過總結(jié)和研究為從業(yè)者提供一定的啟發(fā):在信息獲取階段能夠非常全面及時地找到待分析數(shù)據(jù);在輿情發(fā)現(xiàn)階段能夠準(zhǔn)確迅速地從海量數(shù)據(jù)中找出正在擴(kuò)散和傳播的熱點(diǎn)信息;在信息源定位階段能夠找到關(guān)鍵的擴(kuò)散節(jié)點(diǎn),從而對互聯(lián)網(wǎng)輿情實(shí)現(xiàn)有效的監(jiān)測和管理。

參考文獻(xiàn):

[1] 周立柱,林玲. 聚焦爬蟲技術(shù)研究綜述[J]. 計算機(jī)應(yīng)用, 2005(9): 1965-1969.

[2] David A, Grossman, Ophir Frieder. 信息檢索:算法與啟發(fā)式方法[M]. 張華平,李恒訓(xùn),劉治華,譯. 北京: 人民郵電出版社, 2010.

[3] Mehmed Kantardzic. Data Mining: Concepts, Models, Methods and Algorithms[M]. John Wiley & Sons, 2002.

[4] James Allen. 自然語言理解[M]. 劉群,譯. 北京: 電子工業(yè)出版社, 2005.

[5] 奉國和,鄭偉. 國內(nèi)中文自動分詞技術(shù)研究綜述[J]. 圖書情報工作, 2011(2): 41-45.

[6] 中國科學(xué)院計算技術(shù)研究所. ICTCLAS漢語分詞系統(tǒng)[EB/OL]. (2014-06-22). http://ictclas.org/.

[7] Richard O.Duda, Peter E.Hart, David G.Stork. 模式識別[M]. Wiley Press, 2001.

作者簡介

黃斐一:博士畢業(yè)于倫敦大學(xué)學(xué)院通信工程專業(yè),IEEE會員,CCF會員,現(xiàn)任中國移動互聯(lián)網(wǎng)基地業(yè)務(wù)二部高級運(yùn)營主管,主要職責(zé)涵蓋公司移動互聯(lián)網(wǎng)業(yè)務(wù)的安全管理與技術(shù)應(yīng)用等相關(guān)工作,擅長專業(yè)領(lǐng)域包括信息安全、移動互聯(lián)網(wǎng)業(yè)務(wù)運(yùn)營、大數(shù)據(jù)挖掘等。

孫立軍:博士畢業(yè)于華南理工大學(xué)通信與信息系統(tǒng)專業(yè),現(xiàn)任中國移動互聯(lián)網(wǎng)基地業(yè)務(wù)二部高級運(yùn)營主管,主要從事移動互聯(lián)網(wǎng)業(yè)務(wù)運(yùn)營中的信息安全管理工作。

孔繁盛:碩士畢業(yè)于南京郵電學(xué)院計算機(jī)軟件專業(yè),現(xiàn)任中國移動互聯(lián)網(wǎng)基地業(yè)務(wù)二部副總經(jīng)理,分管信息安全、互聯(lián)網(wǎng)業(yè)務(wù)平臺建設(shè)和運(yùn)維等工作。endprint

對互聯(lián)網(wǎng)輿情管控的研究目前尚處于初期階段,行業(yè)內(nèi)已有的輿情管控解決方案解決了有無的問題,但尚未達(dá)到高效和強(qiáng)大的程度。我們希望通過總結(jié)和研究為從業(yè)者提供一定的啟發(fā):在信息獲取階段能夠非常全面及時地找到待分析數(shù)據(jù);在輿情發(fā)現(xiàn)階段能夠準(zhǔn)確迅速地從海量數(shù)據(jù)中找出正在擴(kuò)散和傳播的熱點(diǎn)信息;在信息源定位階段能夠找到關(guān)鍵的擴(kuò)散節(jié)點(diǎn),從而對互聯(lián)網(wǎng)輿情實(shí)現(xiàn)有效的監(jiān)測和管理。

參考文獻(xiàn):

[1] 周立柱,林玲. 聚焦爬蟲技術(shù)研究綜述[J]. 計算機(jī)應(yīng)用, 2005(9): 1965-1969.

[2] David A, Grossman, Ophir Frieder. 信息檢索:算法與啟發(fā)式方法[M]. 張華平,李恒訓(xùn),劉治華,譯. 北京: 人民郵電出版社, 2010.

[3] Mehmed Kantardzic. Data Mining: Concepts, Models, Methods and Algorithms[M]. John Wiley & Sons, 2002.

[4] James Allen. 自然語言理解[M]. 劉群,譯. 北京: 電子工業(yè)出版社, 2005.

[5] 奉國和,鄭偉. 國內(nèi)中文自動分詞技術(shù)研究綜述[J]. 圖書情報工作, 2011(2): 41-45.

[6] 中國科學(xué)院計算技術(shù)研究所. ICTCLAS漢語分詞系統(tǒng)[EB/OL]. (2014-06-22). http://ictclas.org/.

[7] Richard O.Duda, Peter E.Hart, David G.Stork. 模式識別[M]. Wiley Press, 2001.

作者簡介

黃斐一:博士畢業(yè)于倫敦大學(xué)學(xué)院通信工程專業(yè),IEEE會員,CCF會員,現(xiàn)任中國移動互聯(lián)網(wǎng)基地業(yè)務(wù)二部高級運(yùn)營主管,主要職責(zé)涵蓋公司移動互聯(lián)網(wǎng)業(yè)務(wù)的安全管理與技術(shù)應(yīng)用等相關(guān)工作,擅長專業(yè)領(lǐng)域包括信息安全、移動互聯(lián)網(wǎng)業(yè)務(wù)運(yùn)營、大數(shù)據(jù)挖掘等。

孫立軍:博士畢業(yè)于華南理工大學(xué)通信與信息系統(tǒng)專業(yè),現(xiàn)任中國移動互聯(lián)網(wǎng)基地業(yè)務(wù)二部高級運(yùn)營主管,主要從事移動互聯(lián)網(wǎng)業(yè)務(wù)運(yùn)營中的信息安全管理工作。

孔繁盛:碩士畢業(yè)于南京郵電學(xué)院計算機(jī)軟件專業(yè),現(xiàn)任中國移動互聯(lián)網(wǎng)基地業(yè)務(wù)二部副總經(jīng)理,分管信息安全、互聯(lián)網(wǎng)業(yè)務(wù)平臺建設(shè)和運(yùn)維等工作。endprint

猜你喜歡
自然語言處理數(shù)據(jù)挖掘大數(shù)據(jù)
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
基于組合分類算法的源代碼注釋質(zhì)量評估方法
基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
面向機(jī)器人導(dǎo)航的漢語路徑自然語言組塊分析方法研究
漢哈機(jī)器翻譯中的文字轉(zhuǎn)換技術(shù)研究
HowNet在自然語言處理領(lǐng)域的研究現(xiàn)狀與分析
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
基于GPGPU的離散數(shù)據(jù)挖掘研究
中方县| 柘荣县| 班戈县| 镇宁| 平果县| 宝丰县| 阿坝| 宁国市| 金沙县| 章丘市| 长阳| 徐州市| 攀枝花市| 景洪市| 志丹县| 藁城市| 佳木斯市| 黄梅县| 萍乡市| 垦利县| 溧水县| 玛沁县| 崇左市| 即墨市| 绥滨县| 普定县| 平江县| 内黄县| 东辽县| 双流县| 阿拉善盟| 合阳县| 浑源县| 竹北市| 莱西市| 常宁市| 普定县| 丽江市| 罗江县| 恩施市| 天台县|