国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

淺析互聯(lián)網(wǎng)大數(shù)據(jù)在媒體業(yè)務(wù)的支撐應(yīng)用
——以人民公安報(bào)社輿情監(jiān)測(cè)系統(tǒng)為例

2019-01-29 14:12魏春光
中國(guó)傳媒科技 2019年6期
關(guān)鍵詞:結(jié)構(gòu)化輿情檢索

文/魏春光

隨著市場(chǎng)競(jìng)爭(zhēng)的日益加劇,如何開發(fā)信息資源、利用信息資源,并實(shí)現(xiàn)信息資源的最大利益化顯得尤為重要,越來越多的公眾已意識(shí)到信息是一種潛在的生產(chǎn)力。根據(jù)中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)發(fā)布的第43次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示,截至2018年12月,我國(guó)網(wǎng)民規(guī)模達(dá)8.29億,普及率達(dá)59.6%。[1]中國(guó)互聯(lián)網(wǎng)已經(jīng)進(jìn)入全新發(fā)展階段,各行各業(yè)也隨之經(jīng)歷了不同程度的變革。

在互聯(lián)網(wǎng)時(shí)代下,誰(shuí)重視信息安全誰(shuí)就發(fā)展穩(wěn)定,誰(shuí)重視網(wǎng)絡(luò)輿情監(jiān)測(cè)誰(shuí)就會(huì)實(shí)現(xiàn)更大社會(huì)效益。因此,本文試圖借助人民公安報(bào)社輿情監(jiān)測(cè)系統(tǒng)分析監(jiān)測(cè)信息的必要性,從而論證網(wǎng)絡(luò)輿情監(jiān)測(cè)對(duì)行業(yè)、對(duì)公眾、對(duì)社會(huì)具有重要意義。

1.政策梳理

黨的十八大以來,以習(xí)近平同志為核心的黨中央高度重視網(wǎng)絡(luò)安全和信息化工作,緊緊圍繞我國(guó)經(jīng)濟(jì)社會(huì)發(fā)展的總要求和大趨勢(shì),著力推動(dòng)我國(guó)網(wǎng)絡(luò)安全和信息化工作實(shí)現(xiàn)新發(fā)展,維護(hù)國(guó)家和人民安全。

2016年4月19日,在網(wǎng)絡(luò)安全和信息化工作座談會(huì)上,習(xí)近平總書記指出,要樹立正確的網(wǎng)絡(luò)安全觀,加快構(gòu)建關(guān)鍵信息基礎(chǔ)設(shè)施安全保障體系,全天候全方位感知網(wǎng)絡(luò)安全態(tài)勢(shì),增強(qiáng)網(wǎng)絡(luò)安全防御能力和威懾能力。同時(shí),習(xí)近平強(qiáng)調(diào),維護(hù)網(wǎng)絡(luò)安全是全社會(huì)的共同責(zé)任,需要政府、企業(yè)、社會(huì)組織、廣大網(wǎng)民共同參與,共筑網(wǎng)絡(luò)安全防線。[2]

2016年8月,國(guó)務(wù)院辦公廳印發(fā)《關(guān)于在政務(wù)公開工作中進(jìn)一步做好政務(wù)輿情回應(yīng)的通知》。該《通知》指出,隨著互聯(lián)網(wǎng)的迅猛發(fā)展,新型傳播方式不斷涌現(xiàn),政府的施政環(huán)境發(fā)生深刻變化,輿情事件頻發(fā)多發(fā),加強(qiáng)政務(wù)公開、做好政務(wù)輿情回應(yīng)日益成為政府提升治理能力的內(nèi)在要求。[3]

2018年4月,國(guó)務(wù)院辦公廳印發(fā)《2018年政務(wù)公開工作要點(diǎn)》提出,增強(qiáng)輿情風(fēng)險(xiǎn)防控意識(shí),密切監(jiān)測(cè)收集苗頭性輿情,特別是涉及經(jīng)濟(jì)社會(huì)重大政策、影響黨和政府公信力、沖擊道德底線等方面的政務(wù)輿情,做到及時(shí)預(yù)警、科學(xué)研判、妥善處置、有效回應(yīng)。[4]

當(dāng)今時(shí)代,網(wǎng)信事業(yè)正逐漸成為重塑國(guó)際經(jīng)濟(jì)、政治、文化、社會(huì)、生態(tài)、軍事發(fā)展新格局的主導(dǎo)力量。網(wǎng)絡(luò)安全關(guān)系著國(guó)家安危,可以說是“沒有網(wǎng)絡(luò)安全就沒有國(guó)家安全”,確保網(wǎng)絡(luò)安全成為確保國(guó)家安全的重要任務(wù)。

2.大數(shù)據(jù)技術(shù)

人民公安報(bào)社輿情監(jiān)測(cè)系統(tǒng)作為報(bào)社融媒體發(fā)展戰(zhàn)略的核心系統(tǒng)之一,將實(shí)現(xiàn)對(duì)全網(wǎng)的輿情監(jiān)控和分析,有效引導(dǎo)社會(huì)熱點(diǎn)和公眾輿論,有力發(fā)揮中央媒體優(yōu)勢(shì),為國(guó)家公安事業(yè)發(fā)展服務(wù)。系統(tǒng)的建設(shè)將基于全媒體的輿情監(jiān)測(cè)網(wǎng)絡(luò)和分析機(jī)制,利用大數(shù)據(jù)等信息技術(shù),科學(xué)、全面、高效地掌握網(wǎng)絡(luò)輿情,對(duì)指定范圍內(nèi)的網(wǎng)站信息發(fā)布進(jìn)行全面掌控,實(shí)現(xiàn)集“新聞、論壇、博客、微博、新聞客戶端等網(wǎng)絡(luò)信息實(shí)時(shí)監(jiān)控,輿情信息傳播渠道跟蹤,溯源和輿情導(dǎo)控指揮”三大功能為一體的輿情監(jiān)控分析平臺(tái)。最終形成和生產(chǎn)出具有鮮明行業(yè)特色的輿情監(jiān)測(cè)常規(guī)產(chǎn)品,包括行業(yè)的日、月、年度報(bào)告。

人民公安報(bào)社輿情監(jiān)測(cè)系統(tǒng)利用當(dāng)前最先進(jìn)的分布式計(jì)算技術(shù)、數(shù)據(jù)管理與檢索技術(shù)、數(shù)據(jù)智能分析技術(shù),采用傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)、分布式數(shù)據(jù)倉(cāng)庫(kù)、分布式文件數(shù)據(jù)庫(kù)相結(jié)合的方案,實(shí)現(xiàn)智能檢索和數(shù)據(jù)高效管理,深度挖掘和智能分析數(shù)據(jù),提供數(shù)據(jù)自動(dòng)分類、自動(dòng)聚類、自動(dòng)關(guān)聯(lián)、自動(dòng)標(biāo)引等一系列的智能分析,使數(shù)據(jù)得到最廣泛的關(guān)聯(lián),進(jìn)而挖掘知識(shí)。該輿情監(jiān)測(cè)系統(tǒng)的建設(shè)目標(biāo)是對(duì)互聯(lián)網(wǎng)上媒體反映的輿論與民意實(shí)現(xiàn)全面有效的采集、分析、研判和表達(dá),并及時(shí)有效響應(yīng)。

2.1 平臺(tái)特點(diǎn)

大數(shù)據(jù)是一種數(shù)據(jù)集合,其具有大容量、高精度和快速高效等特征。[4]本項(xiàng)目以實(shí)現(xiàn)對(duì)報(bào)社關(guān)注的互聯(lián)網(wǎng)相關(guān)信息采集、專題事件分析、社會(huì)熱點(diǎn)發(fā)現(xiàn)、重點(diǎn)內(nèi)容監(jiān)測(cè)、數(shù)據(jù)統(tǒng)計(jì)分析、輿情簡(jiǎn)報(bào)制作、檢索、管理等功能為目標(biāo),力求達(dá)到內(nèi)容全面、功能齊備、方便易用、開放兼容、安全可靠??傊瑢?duì)輿情的全面了解與掌握是輿情監(jiān)測(cè)系統(tǒng)的重要工作之一。

本系統(tǒng)的建設(shè)目的是:掌握網(wǎng)民主要觀點(diǎn)和視角態(tài)度;了解媒體的報(bào)道情況和關(guān)注重點(diǎn);自動(dòng)生成輿情簡(jiǎn)報(bào),及時(shí)響應(yīng)突發(fā)事件,提高工作效率;能對(duì)特定事件進(jìn)行持續(xù)性跟蹤和分析;形成統(tǒng)一的運(yùn)營(yíng)服務(wù)平臺(tái),作為新聞選題采編工作的業(yè)務(wù)支撐輔助平臺(tái)。

2.1.1 系統(tǒng)建設(shè)的必要性

建設(shè)輿情管理系統(tǒng),首先是確保國(guó)家長(zhǎng)治久安的需要,有利于建設(shè)好、利用好、管理好互聯(lián)網(wǎng),有利于維護(hù)改革發(fā)展的大局,有利于鞏固黨的執(zhí)政基礎(chǔ)。

其次是推動(dòng)建立正確輿論導(dǎo)向是前提,有利于密切聯(lián)系群眾,及時(shí)準(zhǔn)確掌握社情民意,有效引導(dǎo)網(wǎng)上輿論,把握輿情發(fā)展走向。

再次是適應(yīng)未來網(wǎng)絡(luò)輿論管理的迫切需要,有利于及時(shí)應(yīng)對(duì)各類網(wǎng)絡(luò)新媒體和移動(dòng)互聯(lián)網(wǎng)等媒介融合趨勢(shì),提高處理互聯(lián)網(wǎng)輿情問題的準(zhǔn)確性。

還有是運(yùn)用高新技術(shù)手段是提升管理工作能力的迫切需要,有利于適應(yīng)新時(shí)期信息化發(fā)展戰(zhàn)略,完善電子政務(wù)體系。

最后是適應(yīng)網(wǎng)絡(luò)宣傳工作與時(shí)俱進(jìn)、創(chuàng)新發(fā)展的需要,有利于提高互聯(lián)網(wǎng)從業(yè)人員管理能力和思想水平,發(fā)揮網(wǎng)絡(luò)媒體的行業(yè)自律機(jī)制。

2.1.2 詳細(xì)科學(xué)技術(shù)內(nèi)容

(1)分布式數(shù)據(jù)管理技術(shù):海貝大數(shù)據(jù)管理系統(tǒng)(Hybase)以存儲(chǔ)、檢索和統(tǒng)計(jì)為核心,采用彈性擴(kuò)展架構(gòu)設(shè)計(jì)的新一代大數(shù)據(jù)管理系統(tǒng),它融合了全文檢索、自然語(yǔ)言處理、索引分片、多副本機(jī)制、對(duì)等節(jié)點(diǎn)機(jī)制(去中心化)、列存儲(chǔ)、內(nèi)存索引等多項(xiàng)先進(jìn)技術(shù),為各類非結(jié)構(gòu)化大數(shù)據(jù)分析應(yīng)用提供非結(jié)構(gòu)化大數(shù)據(jù)高效管理和智能檢索。其具備以下優(yōu)勢(shì):

扁平化設(shè)計(jì):扁平化架構(gòu)使單個(gè)節(jié)點(diǎn)故障不會(huì)影響整個(gè)系統(tǒng)對(duì)外提供服務(wù);同時(shí),該架構(gòu)使系統(tǒng)具有良好的擴(kuò)展性,可在線增加新的節(jié)點(diǎn),擴(kuò)展系統(tǒng)容量和增加對(duì)外服務(wù)能力。

異常感知可以自動(dòng)恢復(fù):當(dāng)系統(tǒng)自動(dòng)感知服務(wù)器處于異常狀態(tài)時(shí),可以進(jìn)行自我修復(fù)。該系統(tǒng)是可以將硬件異常作為常見異常來處理的,不會(huì)因單個(gè)節(jié)點(diǎn)的異常導(dǎo)致整個(gè)系統(tǒng)不可使用。

柔性多引擎技術(shù):該系統(tǒng)通過定義一個(gè)標(biāo)準(zhǔn)的引擎接口,采用多引擎機(jī)制。對(duì)于不同的應(yīng)用需求,可使用不同的引擎,用戶甚至可以自己構(gòu)建引擎來擴(kuò)展系統(tǒng)的數(shù)據(jù)處理能力。

支持異構(gòu)數(shù)據(jù):該系統(tǒng)支持結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一檢索。

高效分區(qū)索引機(jī)制:根據(jù)查詢特點(diǎn),該系統(tǒng)可將數(shù)據(jù)自動(dòng)分區(qū)索引。

混合索引方式:該系統(tǒng)提供按詞、按字、字詞混合索引方式,滿足不同應(yīng)用場(chǎng)景對(duì)查全和查準(zhǔn)的不同需求。

內(nèi)存表:該系統(tǒng)支持在內(nèi)存中建立數(shù)據(jù)表,適應(yīng)數(shù)據(jù)量較少,但查詢并發(fā)與響應(yīng)速度要求很高的應(yīng)用需求。

列存儲(chǔ):該系統(tǒng)支持列存儲(chǔ),實(shí)現(xiàn)特定數(shù)據(jù)列的高效訪問,提高特定數(shù)據(jù)列的分類統(tǒng)計(jì)和排序的速度。

異步檢索:支持異步檢索模式,適應(yīng)大開發(fā)(高連接數(shù))的應(yīng)用場(chǎng)景要求,避免了同步檢索模式時(shí)消耗太多線程資源的問題。

多層次、多粒度的分布式CACHE:該系統(tǒng)具有單節(jié)點(diǎn)的檢索緩存和合并后的整體檢索緩存,可以大大提高緩存命中率,減輕高并發(fā)下的檢索節(jié)點(diǎn)壓力,從而大幅度提高系統(tǒng)在高并發(fā)情況下的數(shù)據(jù)檢索能力。

可擴(kuò)展的檢索模式:同根詞檢索、算法和詞典結(jié)合的英文詞根檢索,準(zhǔn)確率達(dá)到99.9%。同時(shí),支持基于同義詞、主題詞的擴(kuò)展檢索。

兼容Hadoop標(biāo)準(zhǔn):TRSHyBase和Haboop無縫集成,可以充分利用HDFS的可靠性,承擔(dān)圖像、音視頻等大對(duì)象的存儲(chǔ)。

(2)互聯(lián)網(wǎng)信息采集:海量互聯(lián)網(wǎng)數(shù)據(jù)實(shí)時(shí)監(jiān)測(cè),數(shù)據(jù)范圍涵蓋新聞、紙媒、論壇、博客、微博、微信、APP、搜索引擎等。輿情信息傳播渠道跟蹤,溯源和輿情導(dǎo)控指揮三大功能為一體的輿情監(jiān)控分析平臺(tái)。最終形成和生產(chǎn)出具有鮮明特色的輿情監(jiān)測(cè)常規(guī)產(chǎn)品,包括各行業(yè)的日、月、年度報(bào)告。

(3)互聯(lián)網(wǎng)信息智能處理:針對(duì)不同類型的輿情內(nèi)容,Hybase大數(shù)據(jù)管理系統(tǒng)利用先進(jìn)的統(tǒng)計(jì)技術(shù)和智能文本分析挖掘技術(shù)實(shí)現(xiàn)數(shù)據(jù)過濾。該系統(tǒng)具有多語(yǔ)種識(shí)別和自動(dòng)轉(zhuǎn)碼、自動(dòng)分詞、自動(dòng)分類、自動(dòng)聚類、自動(dòng)熱點(diǎn)發(fā)現(xiàn)、相似檢索、文章排重、自動(dòng)摘要、重點(diǎn)信息抽取等功能,可以根據(jù)實(shí)際工作需要,為輿情監(jiān)控平臺(tái)各項(xiàng)功能進(jìn)行基礎(chǔ)數(shù)據(jù)加工。

(4)全文檢索功能:該系統(tǒng)可以按來源、時(shí)間、境內(nèi)、信息源等多種分類檢索,提供智能分析的信息檢索服務(wù)。同時(shí),不同用戶,根據(jù)其權(quán)限檢索相關(guān)的內(nèi)容。如可對(duì)正文、標(biāo)題、時(shí)間、作者、網(wǎng)站等進(jìn)行高級(jí)檢索,檢索響應(yīng)速度平均不超過5秒。此外,系統(tǒng)對(duì)用戶可設(shè)置權(quán)限進(jìn)行相關(guān)內(nèi)容的檢索。

(5)互聯(lián)網(wǎng)信息分析應(yīng)用:系統(tǒng)實(shí)現(xiàn)對(duì)重點(diǎn)信息的預(yù)警提醒,重點(diǎn)事件的趨勢(shì)分析、網(wǎng)站分析、人物分析、熱點(diǎn)分析,及自動(dòng)生成輿情報(bào)告功能。權(quán)限上提供了完善用戶和權(quán)限管理機(jī)制,充分保證情報(bào)信息內(nèi)容的安全性。用戶分組、分類,權(quán)限分級(jí)。系統(tǒng)支持按照分類進(jìn)行權(quán)限控制,可控制用戶也可控制角色,提供系統(tǒng)數(shù)據(jù)的安全性及應(yīng)用性。提供多用戶登錄功能,對(duì)用戶功能權(quán)限、關(guān)鍵詞、欄目、專題、信息提供層級(jí)化管理設(shè)定。對(duì)文章進(jìn)行管理,如置頂、收藏、隱藏、錄入、編輯、審核,能對(duì)網(wǎng)頁(yè)痕跡進(jìn)行證據(jù)保留,并且利用探針功能發(fā)現(xiàn)原文連接是否有效。系統(tǒng)提供完整詳細(xì)的日志,根據(jù)日志能夠獲得用戶的登錄和管理情況;日志能夠根據(jù)條件進(jìn)行查詢,實(shí)現(xiàn)系統(tǒng)操作日志的詳細(xì)記錄及各部門、各用戶的應(yīng)用統(tǒng)計(jì)信息,方便審計(jì)管理員進(jìn)行應(yīng)用審計(jì)。

2.2 技術(shù)創(chuàng)新點(diǎn):大數(shù)據(jù)管理

網(wǎng)絡(luò)系統(tǒng)逐漸復(fù)雜化,這是技術(shù)應(yīng)用與發(fā)展的趨勢(shì),隨著數(shù)據(jù)量的持續(xù)增長(zhǎng),信息正在實(shí)現(xiàn)由TB級(jí)到PB級(jí)的跨越式前進(jìn),使數(shù)據(jù)分析的緯度指標(biāo)變得更加廣泛。[6]針對(duì)本項(xiàng)目研發(fā)的大數(shù)據(jù)管理系統(tǒng),一方面可以實(shí)現(xiàn)結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一管理和檢索;另一方面,還順應(yīng)了“非結(jié)構(gòu)化數(shù)據(jù)的結(jié)構(gòu)化處理、結(jié)構(gòu)化數(shù)據(jù)的非結(jié)構(gòu)化處理”的技術(shù)趨勢(shì)。

2.2.1 信息采集技術(shù)

本項(xiàng)目在采集方面的關(guān)注重點(diǎn)是搜索引擎技術(shù)很少涉及的深層次采集技術(shù)(面向DeepWeb)。網(wǎng)絡(luò)應(yīng)用技術(shù)快速發(fā)展,網(wǎng)絡(luò)信息呈現(xiàn)出一定的“異構(gòu)”特點(diǎn)。隨著互聯(lián)網(wǎng)社區(qū)化的發(fā)展、Web2.0的崛起,以HTTP為網(wǎng)絡(luò)傳輸協(xié)議,以HTML為展示格式的網(wǎng)絡(luò)信息已不能適應(yīng)發(fā)展所需,網(wǎng)頁(yè)所蘊(yùn)含的內(nèi)容正發(fā)生著深刻的變化。原來以網(wǎng)站/網(wǎng)頁(yè)內(nèi)容為主導(dǎo)的互聯(lián)網(wǎng),逐漸演變?yōu)榫W(wǎng)站、微博、微信、論壇(社區(qū))、博客等信息共存的局面。微博、微信、論壇、博客等平臺(tái)上蘊(yùn)含著大量的信息,已然成為互聯(lián)網(wǎng)上信息的重要來源,而且對(duì)行業(yè)搜索引擎建設(shè)來說,這些平臺(tái)上的信息比普通網(wǎng)站上的信息具有更重要的使用價(jià)值。

系統(tǒng)不僅對(duì)數(shù)據(jù)進(jìn)行智能分析及挖掘,還需在此基礎(chǔ)上充分利用數(shù)據(jù)智能分析技術(shù)獲取的知識(shí)標(biāo)簽,對(duì)知識(shí)進(jìn)行融合、加工,進(jìn)而構(gòu)建知識(shí)圖譜,使用戶能夠像使用百科全書一樣查詢、瀏覽知識(shí)詞條,以及具備廣泛關(guān)聯(lián)關(guān)系的知識(shí)圖譜。系統(tǒng)需充分利用文本挖掘獲取的元數(shù)據(jù)內(nèi)容創(chuàng)建“故事流”式的服務(wù),為新聞生產(chǎn)提供智能輔助。系統(tǒng)需從正負(fù)面信息、關(guān)注程度、傳播速度等方面對(duì)傳播內(nèi)容進(jìn)行傳播分析,獲取傳播效果,為報(bào)社智能決策奠定基礎(chǔ)。

綜上所述,輿情監(jiān)測(cè)系統(tǒng)具備承上啟下、兼容并包的作用,既可以滿足系統(tǒng)建設(shè)的功能需求,又能盤活新增的海量數(shù)據(jù)資產(chǎn),實(shí)現(xiàn)數(shù)據(jù)的增值及再利用,為報(bào)社的新聞發(fā)現(xiàn)和智能創(chuàng)作支撐,進(jìn)而促進(jìn)媒體融合發(fā)展,切實(shí)貫徹落實(shí)習(xí)近平總書記在黨的新聞?shì)浾摴ぷ髯剷?huì)上的重要講話精神。

2.2.2 與當(dāng)前國(guó)內(nèi)外同類研究、同類技術(shù)的綜合比較

分布式大數(shù)據(jù)管理系統(tǒng):實(shí)現(xiàn)海量數(shù)據(jù)的組織和管理需要一個(gè)可擴(kuò)展的存儲(chǔ)和處理框架。目前,采用廉價(jià)計(jì)算機(jī)的極具擴(kuò)展性的分布式云計(jì)算環(huán)境不僅引起了商業(yè)巨頭IBM、EMC、微軟等公司的重視,而且在Google、Amazon、Yahoo等公司已經(jīng)取得成功。云計(jì)算環(huán)境一般包括可擴(kuò)展的文件系統(tǒng)、并發(fā)處理的操作原語(yǔ)和可靠的數(shù)據(jù)存儲(chǔ)。由于對(duì)海量數(shù)據(jù)的管理需要采用全新的計(jì)算模式和存儲(chǔ)模式,因此,業(yè)界如Google、Yahoo、微軟和IBM等企業(yè)和科研機(jī)構(gòu)充分利用底層云計(jì)算環(huán)境所提供的數(shù)據(jù)存儲(chǔ)和并發(fā)處理的功能實(shí)現(xiàn)海量數(shù)據(jù)的存儲(chǔ)和管理。

分布式計(jì)算環(huán)境的發(fā)展為海量數(shù)據(jù)提供了存儲(chǔ)和處理基礎(chǔ)。各大公司開始構(gòu)建分布式計(jì)算環(huán)境的基于SOA的海量數(shù)據(jù)集成系統(tǒng)。從目前進(jìn)展情況看,存在的主要問題包括:目前的非結(jié)構(gòu)化數(shù)據(jù)中的元數(shù)據(jù)可能包括錨文字、日期等通用元數(shù)據(jù),或者用戶手工輸入的信息,尚未有效集成信息提取和非結(jié)構(gòu)化數(shù)據(jù)管理;分布式計(jì)算模型能夠方便應(yīng)用關(guān)鍵字查詢,但是對(duì)數(shù)據(jù)條件查詢并沒有很好的優(yōu)化,數(shù)據(jù)查詢處理的效率有待提高;海量非結(jié)構(gòu)化數(shù)據(jù)系統(tǒng)的Pay-as-you-go的方式需要進(jìn)一步支持,包括底層存儲(chǔ)對(duì)不同屬性合并、分解、優(yōu)化存儲(chǔ)等。

2.2.3 智能文本處理技術(shù)

國(guó)外開展文本挖掘和信息抽取等研究比較早,研究機(jī)構(gòu)眾多,比較著名的有:卡內(nèi)基梅隆大學(xué)、馬里蘭大學(xué)、加州大學(xué)伯克利分校、IBM公司等。國(guó)內(nèi)從80年代開始文本挖掘和信息抽取等研究,從事該領(lǐng)域研究的主要機(jī)構(gòu)有:北京大學(xué)、清華大學(xué)、哈工大、中科院計(jì)算所、微軟亞洲研究院等。我國(guó)對(duì)這方面的研究非常重視,國(guó)家863計(jì)劃等多次組織了對(duì)分詞、分類、摘要、關(guān)鍵詞標(biāo)引、信息抽取、褒貶分析等文本智能技術(shù)的專門評(píng)測(cè),這些評(píng)測(cè)的舉行極大地推動(dòng)了國(guó)內(nèi)的相關(guān)技術(shù)發(fā)展。

針對(duì)本項(xiàng)目研發(fā)的智能文本處理系統(tǒng),利用先進(jìn)的統(tǒng)計(jì)技術(shù)和智能文本分析挖掘技術(shù)針對(duì)不同類型的輿情實(shí)現(xiàn)數(shù)據(jù)內(nèi)容過濾,多語(yǔ)種識(shí)別和自動(dòng)轉(zhuǎn)碼、自動(dòng)分詞、自動(dòng)分類、自動(dòng)聚類、自動(dòng)熱點(diǎn)發(fā)現(xiàn)、相似檢索、文章排重、自動(dòng)摘要、重點(diǎn)信息抽取等功能,為輿情監(jiān)控平臺(tái)各項(xiàng)功能進(jìn)行基礎(chǔ)數(shù)據(jù)加工。

3.大數(shù)據(jù)技術(shù)帶來的社會(huì)效益

網(wǎng)絡(luò)已經(jīng)成為我國(guó)信息傳遞的主要方式,因此對(duì)網(wǎng)絡(luò)環(huán)境必須十分重視,只有維護(hù)好網(wǎng)絡(luò)環(huán)境才能夠真正發(fā)揮網(wǎng)絡(luò)的作用,更好地為用戶帶來便利,同時(shí)也對(duì)經(jīng)濟(jì)的發(fā)展和文化的發(fā)展帶來積極的影響。[7]本項(xiàng)目是全面貫徹落實(shí)習(xí)近平總書記在黨的新聞?shì)浾摴ぷ髯剷?huì)上重要講話精神的重要組成部分,是將大數(shù)據(jù)技術(shù)的研究成果應(yīng)用于媒體轉(zhuǎn)型實(shí)踐的重要步驟,具有重要的社會(huì)效益。

3.1 全面貫徹落實(shí)習(xí)近平總書記在黨的新聞?shì)浾摴ぷ髯剷?huì)上重要講話精神

本項(xiàng)目緊緊圍繞習(xí)近平總書記重要講話精神,堅(jiān)持正確的政治方向和輿論導(dǎo)向,緊抓信息化發(fā)展的歷史機(jī)遇,加速信息領(lǐng)域核心技術(shù)突破進(jìn)程,維護(hù)網(wǎng)絡(luò)社會(huì)安全,營(yíng)造風(fēng)清氣正的網(wǎng)絡(luò)空間,充分發(fā)揮信息技術(shù)對(duì)經(jīng)濟(jì)社會(huì)發(fā)展的引領(lǐng)作用。

3.2 有利于遏制有害信息及言論的傳播擴(kuò)散,以正確的輿論引導(dǎo)人

網(wǎng)絡(luò)輿情可以了解社情民意,對(duì)網(wǎng)絡(luò)民意的有效數(shù)據(jù)進(jìn)行科學(xué)篩選、量化統(tǒng)計(jì)和分析,并根據(jù)實(shí)踐經(jīng)驗(yàn),緊密結(jié)合歷史發(fā)展和中國(guó)國(guó)情進(jìn)行研判,對(duì)傾向性和苗頭性問題有超前預(yù)測(cè)作用。[8]通過本項(xiàng)目的建設(shè),可以加強(qiáng)對(duì)網(wǎng)絡(luò)輿論態(tài)勢(shì)的把握,做好輿情收集和綜合研判,為中央決策提供參考;還可以搭建政府與群眾間的“綠色通道”,不斷提高輿論引導(dǎo)的有效性,嚴(yán)防有害信息及言論的擴(kuò)散,牢牢把握輿論引導(dǎo)的主動(dòng)權(quán),為我國(guó)改革開放和現(xiàn)代化建設(shè)營(yíng)造良好的輿論氛圍。

3.3 有利于實(shí)現(xiàn)自主技術(shù)創(chuàng)新,推動(dòng)媒體轉(zhuǎn)型發(fā)展

本項(xiàng)目在技術(shù)上、功能上和服務(wù)上實(shí)現(xiàn)全面創(chuàng)新,這必將推動(dòng)我國(guó)大數(shù)據(jù)產(chǎn)業(yè)實(shí)現(xiàn)自主技術(shù)創(chuàng)新,從而推動(dòng)我國(guó)互聯(lián)網(wǎng)行業(yè)更加健康快速地發(fā)展。本項(xiàng)目的建設(shè),對(duì)國(guó)家信息安全和文化安全、對(duì)于抵御西方文化霸權(quán)、爭(zhēng)奪信息輿論話語(yǔ)權(quán)、引導(dǎo)社情民意,具有重大意義。

猜你喜歡
結(jié)構(gòu)化輿情檢索
促進(jìn)知識(shí)結(jié)構(gòu)化的主題式復(fù)習(xí)初探
改進(jìn)的非結(jié)構(gòu)化對(duì)等網(wǎng)絡(luò)動(dòng)態(tài)搜索算法
結(jié)構(gòu)化面試方法在研究生復(fù)試中的應(yīng)用
左顧右盼 瞻前顧后 融會(huì)貫通——基于數(shù)學(xué)結(jié)構(gòu)化的深度學(xué)習(xí)
瑞典專利數(shù)據(jù)庫(kù)的檢索技巧
一種基于Python的音樂檢索方法的研究
淺議專利檢索質(zhì)量的提升
數(shù)字輿情
數(shù)字輿情
消費(fèi)輿情
潍坊市| 密山市| 温州市| 河北区| 遵义县| 漳平市| 墨竹工卡县| 丰顺县| 原平市| 昆山市| 湖口县| 德江县| 古浪县| 永济市| 泰兴市| 吉隆县| 平顺县| 大宁县| 寿宁县| 靖江市| 太原市| 中卫市| 和田县| 珠海市| 色达县| 莱芜市| 隆尧县| 年辖:市辖区| 越西县| 霍林郭勒市| 凤山市| 宜黄县| 平罗县| 金溪县| 武山县| 松阳县| 惠州市| 洪雅县| 赤壁市| 遂平县| 柘城县|