国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

檔案學(xué)視角下網(wǎng)絡(luò)輿情大數(shù)據(jù)的采集、研判和歸檔研究

2018-01-13 00:33冉朝霞
檔案管理 2018年1期
關(guān)鍵詞:輿情資源信息

冉朝霞

摘 要:網(wǎng)絡(luò)輿情大數(shù)據(jù)信息與紙質(zhì)和實(shí)物檔案一樣具有檔案特質(zhì),是社會(huì)生產(chǎn)生活中形成的能夠反映社會(huì)原貌的文字、圖片、視頻、音頻等多種表現(xiàn)形式的歷史記錄,具有長久保存和歸檔價(jià)值。采集、研判和歸檔有價(jià)值的網(wǎng)絡(luò)輿情大數(shù)據(jù)信息是大數(shù)據(jù)時(shí)代對(duì)檔案工作提出的新要求。

關(guān)鍵詞:輿情大數(shù)據(jù);采集;歸檔

1 大數(shù)據(jù)背景下積極創(chuàng)新網(wǎng)絡(luò)輿情的采集機(jī)制

1.1 數(shù)據(jù)采集。運(yùn)用網(wǎng)站API、網(wǎng)絡(luò)爬蟲等技術(shù)獲取輿情信息。API從網(wǎng)站提供商獲取輿情數(shù)據(jù),網(wǎng)絡(luò)爬蟲設(shè)定目標(biāo)網(wǎng)站、爬行間隔和存儲(chǔ)位置,自動(dòng)批量化獲取網(wǎng)頁數(shù)據(jù)。整合各信息系統(tǒng),確保信息收集全面、及時(shí)、準(zhǔn)確,將輿情信息系統(tǒng)互聯(lián)互通,將種類繁多的數(shù)據(jù)整合轉(zhuǎn)化為可視化數(shù)據(jù)。

1.2 數(shù)據(jù)預(yù)處理。數(shù)據(jù)預(yù)處理是指對(duì)首次采集的原始數(shù)據(jù)進(jìn)行二次處理,刪除多余、重復(fù)、失真等輿情噪音,確保輿情真實(shí)、客觀、全面。數(shù)據(jù)預(yù)處理常用的技術(shù)手段有三種:第一是對(duì)文本進(jìn)行預(yù)處理。對(duì)通過輿情采集器獲取的未加工的 Web 文本進(jìn)行初步處理,以便后期對(duì)這些 Web 文本進(jìn)行建模、發(fā)現(xiàn)話題等。第二是對(duì)話題進(jìn)行檢測(cè)。經(jīng)過文本預(yù)處理,使得文本語料庫變成VSM向量集。話題檢測(cè)就是利用 VSM 向量之間的相似度,對(duì)文本進(jìn)行聚類。第三是利用話題綜合評(píng)價(jià)標(biāo)準(zhǔn)對(duì)話題進(jìn)行過濾。

1.3 數(shù)據(jù)存儲(chǔ)。數(shù)據(jù)存儲(chǔ)從本質(zhì)上說是一個(gè)分布式存儲(chǔ)系統(tǒng),它將網(wǎng)絡(luò)輿情大數(shù)據(jù)保存在多個(gè)遠(yuǎn)端服務(wù)器中,這樣本地存儲(chǔ)設(shè)備或者某個(gè)遠(yuǎn)端服務(wù)器出現(xiàn)故障,存儲(chǔ)信息出現(xiàn)丟失,另外存儲(chǔ)設(shè)備中的備份數(shù)據(jù)將會(huì)自動(dòng)提到恢復(fù)作用,從而增強(qiáng)了存儲(chǔ)系統(tǒng)的可靠性。

2 大數(shù)據(jù)背景下努力完善網(wǎng)絡(luò)輿情的研判機(jī)制

2.1 網(wǎng)絡(luò)輿情的定量研究判斷。網(wǎng)絡(luò)輿情由無數(shù)個(gè)輿情信息元素構(gòu)成,一般而言,一個(gè)完整的輿情信息具有多重元素,包括輿情信息文本、輿情信息發(fā)布者、輿情信息傳播者、輿情信息傳播平臺(tái)等。在輿情研究判斷的實(shí)踐方面,與輿情信息量化分析直接相關(guān)的帖子數(shù)量、跟帖數(shù)量等是研究判斷的重要指標(biāo)。

2.2 網(wǎng)絡(luò)輿情的定向研究判斷。對(duì)于突發(fā)性群體事件的網(wǎng)絡(luò)輿情治理來說,要關(guān)注它的形成過程,從網(wǎng)絡(luò)上出現(xiàn)輿情信息或意見時(shí)起,網(wǎng)民就通過點(diǎn)擊、發(fā)帖、跟帖等諸多形式參與其中,在傳播和評(píng)論過程中,分化出諸多觀點(diǎn),觀點(diǎn)之間既有聯(lián)系,也有沖突。對(duì)網(wǎng)絡(luò)輿論要有針對(duì)性地分析,判斷出是多數(shù)網(wǎng)民共同的意見和觀點(diǎn)還是某一特定群體的意見和觀點(diǎn)。

2.3 網(wǎng)絡(luò)輿情的定點(diǎn)研究判斷。從整體上看,網(wǎng)絡(luò)輿情是網(wǎng)民意見的反映,輿情的發(fā)生、發(fā)展、演變是網(wǎng)民總體推動(dòng)的結(jié)果,但其中一些關(guān)鍵網(wǎng)民,在輿情從量變到質(zhì)變的過程中發(fā)揮著關(guān)鍵作用,對(duì)突發(fā)性群體事件中網(wǎng)絡(luò)輿情的處置和溝通也起著關(guān)鍵作用。

2.4 網(wǎng)絡(luò)輿情的定性研究判斷。在網(wǎng)絡(luò)輿情向網(wǎng)絡(luò)輿論的轉(zhuǎn)化過程中,一般需要經(jīng)過輿情信息關(guān)注、引發(fā)討論、形成主導(dǎo)意見、輿論生成四個(gè)階段,其中每一個(gè)環(huán)節(jié)都離不開信息的傳播和意見的交流,厘清一些影響傳播和交流的關(guān)鍵性因素以及非正常因素是輿情研判過程的重點(diǎn)。

社會(huì)輿情的研判分析機(jī)制是對(duì)輿情的定性與定量、定點(diǎn)與定向給出的一種價(jià)值和趨向判斷的過程。 社會(huì)輿情的研判工作是一項(xiàng)系統(tǒng)工程,既是對(duì)社會(huì)輿情進(jìn)行日常性和持續(xù)性跟蹤與搜集,并在此基礎(chǔ)上建立網(wǎng)絡(luò)輿情信息庫,又是針對(duì)某一突發(fā)事件或某一特定任務(wù)進(jìn)行有針對(duì)性的研判工作,任務(wù)完成則輿情活動(dòng)便隨之結(jié)束。需要建立快速有效的研判分析機(jī)制,利用現(xiàn)代科技手段對(duì)網(wǎng)絡(luò)信息進(jìn)行科學(xué)采集、上報(bào)、歸并、整理、匯總、分析和研判。

3 檔案學(xué)視角下著力構(gòu)建網(wǎng)絡(luò)輿情的歸檔機(jī)制

3.1 網(wǎng)絡(luò)輿情大數(shù)據(jù)信息歸檔原則

3.1.1 分層定位原則。分層定位原則主要從兩方面入手:網(wǎng)絡(luò)輿情信息自身分層和歸檔機(jī)構(gòu)分層。網(wǎng)絡(luò)輿情分層源于信息自身復(fù)雜性和多樣性特點(diǎn),歸檔工作中對(duì)信息分層處理可以保證網(wǎng)絡(luò)信息歸檔的針對(duì)性和有效性,不同層別網(wǎng)絡(luò)輿情信息應(yīng)區(qū)別對(duì)待。依據(jù)歸檔信息重要性由小到大依次排序,可以將網(wǎng)絡(luò)輿情大數(shù)據(jù)信息分為鏈接級(jí)、鏡像級(jí)、服務(wù)級(jí)和檔案級(jí)等幾個(gè)級(jí)別。不同管理職能、不同類型的檔案機(jī)構(gòu)也應(yīng)當(dāng)根據(jù)其業(yè)務(wù)和服務(wù)對(duì)象有所側(cè)重,分別制定符合自身機(jī)構(gòu)網(wǎng)絡(luò)輿情信息資源存檔實(shí)施方案。地區(qū)性綜合檔案館是當(dāng)?shù)匦畔⒈4娣?wù)機(jī)構(gòu),網(wǎng)絡(luò)輿情信息資源歸檔也應(yīng)當(dāng)具有區(qū)域性,以本地區(qū)范圍內(nèi)網(wǎng)站信息或與本地區(qū)相關(guān)的網(wǎng)絡(luò)輿情信息作為歸檔重點(diǎn)。

3.1.2 信息鑒定原則。網(wǎng)絡(luò)輿情信息資源歸檔的對(duì)象是有選擇性的,因此信息鑒定甄別應(yīng)是重要的歸檔原則。信息鑒定原則主要包括信息價(jià)值鑒定和信息真?zhèn)舞b定。檔案價(jià)值主要依據(jù)網(wǎng)絡(luò)輿情信息是否具備保存和利用價(jià)值來判定,傳統(tǒng)文書檔案價(jià)值鑒定一般從時(shí)間、來源、形式和內(nèi)容等方面去綜合分析,網(wǎng)絡(luò)輿情信息資源價(jià)值鑒定亦可以借鑒此類方法。由于網(wǎng)絡(luò)信息資源數(shù)量龐大,內(nèi)容形式復(fù)雜,因此,網(wǎng)絡(luò)輿情信息真?zhèn)闻袛嗍且豁?xiàng)依托于科學(xué)性、客觀性、時(shí)效性、可理解性等一些定性指標(biāo)做出鑒定的工作。

3.1.3 權(quán)責(zé)明確原則。網(wǎng)絡(luò)輿情信息資源歸檔工作需要?dú)w檔主體之間劃分明確權(quán)責(zé),制定適合自身責(zé)任與權(quán)力的網(wǎng)絡(luò)信息資源選擇標(biāo)準(zhǔn),各司其職,履行機(jī)構(gòu)承擔(dān)的網(wǎng)絡(luò)信息資源歸檔保存的責(zé)任。基層檔案業(yè)務(wù)機(jī)構(gòu)負(fù)責(zé)對(duì)與本機(jī)構(gòu)業(yè)務(wù)相關(guān)的各類網(wǎng)絡(luò)信息資源進(jìn)行采集和歸檔,定期或不定期地向國家檔案館移交具有長久保存價(jià)值的網(wǎng)絡(luò)信息。地級(jí)檔案機(jī)構(gòu)承擔(dān)當(dāng)?shù)貐^(qū)域內(nèi)或者與當(dāng)?shù)叵嚓P(guān)的網(wǎng)絡(luò)輿情信息資源的采集歸檔任務(wù)。檔案館承擔(dān)了政府機(jī)關(guān)的政務(wù)活動(dòng)、企事業(yè)單位和民生問題等方面輿情大數(shù)據(jù)信息的歸檔工作,合作對(duì)象是政府機(jī)構(gòu)、企事業(yè)單位和個(gè)人,主要采集歸檔政府網(wǎng)站、企事業(yè)單位網(wǎng)站和微博、微信公眾號(hào)、電子郵件、網(wǎng)絡(luò)論壇等信息交流平臺(tái)的網(wǎng)絡(luò)輿情信息資源。

3.2 網(wǎng)絡(luò)輿情大數(shù)據(jù)信息歸檔方式

3.2.1 物理歸檔。物理歸檔是把系統(tǒng)采集到的網(wǎng)絡(luò)輿情信息資源集中傳輸至可獨(dú)立或者可脫機(jī)保存的載體后再移交給檔案部門的過程。物理歸檔又可分為介質(zhì)歸檔和在線歸檔。介質(zhì)歸檔是將采集到的網(wǎng)絡(luò)信息資源存儲(chǔ)在一定介質(zhì)上移交給檔案部門。在線歸檔是將要?dú)w檔的網(wǎng)絡(luò)輿情信息資源通過網(wǎng)絡(luò)直接傳輸?shù)綑n案部門系統(tǒng),或者加工后傳輸?shù)骄W(wǎng)絡(luò)部門規(guī)定的URL中,從而使得信息傳遞存儲(chǔ)在檔案部門載體中。endprint

3.2.2 邏輯歸檔。邏輯歸檔是利用網(wǎng)絡(luò)信息共享優(yōu)勢(shì),不改變網(wǎng)絡(luò)輿情大數(shù)據(jù)信息原有存儲(chǔ)方式和位置而實(shí)現(xiàn)網(wǎng)絡(luò)輿情大數(shù)據(jù)信息向歸檔部門移交的過程。邏輯歸檔在不實(shí)際擁有網(wǎng)絡(luò)信息資源的條件下實(shí)現(xiàn)對(duì)其安全保管和合法存取利用進(jìn)行有效監(jiān)控,簡(jiǎn)化了歸檔流程,發(fā)揮了計(jì)算機(jī)網(wǎng)絡(luò)的共享優(yōu)勢(shì)。然而,在網(wǎng)絡(luò)信息技術(shù)和規(guī)范尚未完善的情況下,采用邏輯歸檔須慎重,從歸檔部門角度而言,邏輯歸檔存儲(chǔ)位置并不在歸檔機(jī)構(gòu),歸檔機(jī)構(gòu)技術(shù)條件不成熟情況下,難以遠(yuǎn)程對(duì)歸檔網(wǎng)絡(luò)信息資源進(jìn)行安全管理和合法存??;從網(wǎng)絡(luò)信息形成者角度而言,存儲(chǔ)在其服務(wù)器和主機(jī)上的歸檔的網(wǎng)絡(luò)輿情信息資源,在形成單位技術(shù)不過硬的條件下受到非法攻擊,則會(huì)造成不可挽回的損失。為確保安全,歸檔部門需定期對(duì)邏輯歸檔的網(wǎng)絡(luò)輿情信息資源進(jìn)行脫機(jī)備份和物理歸檔。

3.2.3 網(wǎng)絡(luò)實(shí)時(shí)歸檔。網(wǎng)絡(luò)輿情大數(shù)據(jù)信息具有時(shí)效性和易消逝性等特點(diǎn),因此為保證歸檔信息的原始性、可靠性、系統(tǒng)性和完整性,在文件生成階段則需要對(duì)其進(jìn)行捕捉采集,利用計(jì)算機(jī)網(wǎng)絡(luò)對(duì)其進(jìn)行管理。網(wǎng)絡(luò)實(shí)時(shí)歸檔依托網(wǎng)絡(luò),存在不穩(wěn)定性,為保證網(wǎng)絡(luò)輿情大數(shù)據(jù)信息歸檔后能夠長期保存,后續(xù)還要依托介質(zhì)實(shí)體歸檔。這兩種方式相輔相成、缺一不可,采用介質(zhì)實(shí)體歸檔和網(wǎng)絡(luò)實(shí)時(shí)歸檔形成內(nèi)容相同的兩份檔案,網(wǎng)絡(luò)實(shí)時(shí)歸檔是基礎(chǔ),介質(zhì)實(shí)體歸檔是保障。網(wǎng)絡(luò)實(shí)時(shí)歸檔和介質(zhì)實(shí)體物理歸檔分屬兩個(gè)不同數(shù)據(jù)庫,在網(wǎng)絡(luò)輿情大數(shù)據(jù)信息捕捉采集階段,將采集到的網(wǎng)絡(luò)輿情大數(shù)據(jù)信息資源傳輸?shù)脚R時(shí)網(wǎng)絡(luò)實(shí)時(shí)歸檔數(shù)據(jù)庫,介質(zhì)歸檔臨時(shí)數(shù)據(jù)庫則接收網(wǎng)絡(luò)實(shí)時(shí)歸檔數(shù)據(jù)庫的網(wǎng)絡(luò)信息,兩者同時(shí)開展檔案鑒定工作,經(jīng)過鑒定有價(jià)值的網(wǎng)絡(luò)信息資源,則在線傳輸?shù)秸骄W(wǎng)絡(luò)實(shí)時(shí)歸檔數(shù)據(jù)庫和介質(zhì)歸檔數(shù)據(jù)庫,一式兩份,分別保存。

*本文系:

1.2017年度河南省社會(huì)科學(xué)規(guī)劃決策咨詢項(xiàng)目階段性成果,批準(zhǔn)號(hào):2017JC49。

2.共青團(tuán)河南省委、河南省社科聯(lián)2017年度專項(xiàng)調(diào)研課題階段性成果,立項(xiàng)編號(hào):QSNYJ2017360。

參考文獻(xiàn):

[1]維克托·邁爾-舍恩伯格,肯尼思·庫克耶.大數(shù)據(jù)時(shí)代:生活工作與思維的大變革[M].盛楊燕,周濤,譯.杭州:浙江人民出版社,2013.

[2]李國杰,程學(xué)旗.大數(shù)據(jù)研究:未來科技及經(jīng)濟(jì)社會(huì)發(fā)展的重大戰(zhàn)略領(lǐng)域——大數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考[J].中國科學(xué)院院刊,2016(6):647-657.

[3]李磊,劉繼,張雄魅.基于共現(xiàn)分析的網(wǎng)絡(luò)輿情話題發(fā)現(xiàn)及態(tài)勢(shì)演化研究[J].情報(bào)科學(xué),2016,34(1):44-47.

[4]孫慶慶.網(wǎng)絡(luò)社區(qū)話題特征提取及有價(jià)值話題識(shí)別方法[D].合肥工業(yè)大學(xué),2012.

[5]吉亞力,田文靜,董穎.基于關(guān)鍵詞共現(xiàn)和社會(huì)網(wǎng)絡(luò)分析法的我國智庫熱點(diǎn)主題研究[J].情報(bào)科學(xué),2015(03):108-111.

[6]丁潔.基于社會(huì)網(wǎng)絡(luò)的網(wǎng)絡(luò)輿情演化研充[D].南京理工大學(xué),2015.

[7]殷沈琴,張計(jì)龍,任磊.基于關(guān)鍵詞共現(xiàn)和社會(huì)網(wǎng)絡(luò)分析法的數(shù)字圖書館研究熱點(diǎn)分析[J].大學(xué)圖書館學(xué)報(bào),2011(4):25-30,38.

[8]吳曉秋,呂娜.基于關(guān)鍵詞共現(xiàn)頻率的熱點(diǎn)分析方法研究[J].情報(bào)理論與實(shí)踐,2012(8):115-119.

(作者單位:中共鄭州市委黨校公共管理教研部 來稿日期:2017-10-11)endprint

猜你喜歡
輿情資源信息
基礎(chǔ)教育資源展示
一樣的資源,不一樣的收獲
資源回收
資源再生 歡迎訂閱
輿情
輿情
輿情
微博的輿情控制與言論自由
健康信息
健康信息(九則)