国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于文本挖掘的公安院校公眾號(hào)主題類型挖掘研究

2020-09-15 16:30:34陳樂(lè)遙洪磊陳楊王川楊永舟劉姝文
計(jì)算機(jī)時(shí)代 2020年8期
關(guān)鍵詞:微信公眾號(hào)微博

陳樂(lè)遙 洪磊 陳楊 王川 楊永舟 劉姝文

摘要:旨在通過(guò)分析國(guó)內(nèi)各大公安院校官方公眾號(hào)和微博發(fā)布的數(shù)據(jù),得出每個(gè)院校的關(guān)鍵詞分布,在此基礎(chǔ)上對(duì)各校如何展開新媒體工作提出輔助性可視化幫助。文章運(yùn)用網(wǎng)絡(luò)爬蟲技術(shù)和LDA主題聚類算法,對(duì)互聯(lián)網(wǎng)上獲取的某警院數(shù)據(jù)進(jìn)行分析,然后使用Flask和Vue將分析出的結(jié)果可視化,使之呈現(xiàn)出警院的詞云圖,該結(jié)果可以對(duì)警院的新媒體建設(shè)提出輔助性建議。

關(guān)鍵詞:微博;微信公眾號(hào);LDA算法;Web可視化

中圖分類號(hào):G202 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1006-8228(2020)08-06-04

0引言

網(wǎng)絡(luò)技術(shù)的迅猛發(fā)展,讓新媒體、自媒體等詞不再是一個(gè)遙遠(yuǎn)陌生的概念,新媒體技術(shù)的高速推進(jìn)在為公安院校思想政治教育工作的創(chuàng)新帶來(lái)了契機(jī)。目前各大公安院?;径荚谂ψ龅揭劳鞋F(xiàn)代化模式下的新媒體矩陣來(lái)創(chuàng)新公安院校大學(xué)生的思想政治工作路徑,搭建好以微信、微博、今日頭條、抖音、B站等為主體的新媒體矩陣,更好地服務(wù)公安教育工作,不斷為新時(shí)代公安新媒體建設(shè)培養(yǎng)技能突出、政治可靠的接班人。為了更好的對(duì)現(xiàn)階段警院新媒體提出發(fā)展建議,我們選取了主流文字新媒體平臺(tái),從微信和微博來(lái)研究各大公安院校該如何在之后的新媒體文字工作中采取更貼合讀者需要,更能講好警院故事的方法?,F(xiàn)今網(wǎng)絡(luò)數(shù)據(jù)繁雜,我們可以借助人工智能算法建立模型,自動(dòng)化的處理數(shù)據(jù),并且借助當(dāng)下最流行的B\S架構(gòu)的Web服務(wù)來(lái)動(dòng)態(tài)地可視化呈現(xiàn)數(shù)據(jù)的處理結(jié)果。

1 研究現(xiàn)狀

在現(xiàn)階段針對(duì)新浪微博與微信公眾號(hào)的研究較多,但是限定發(fā)聲主體范圍,尤其是特定針對(duì)公安院校新媒體的研究目前還是少數(shù)[2-4]。目前針對(duì)新媒體主題的研究主流方向仍然是針對(duì)發(fā)布文字內(nèi)容的研究,從發(fā)文內(nèi)容中所含的情感傾向、關(guān)鍵詞、傳播方向趨勢(shì)預(yù)測(cè)等方面切入[1.5-7],并結(jié)合這些內(nèi)容對(duì)于人們的生活會(huì)造成什么樣的影響作為研究輸出點(diǎn),將研究結(jié)果通俗化,讓冷冰冰的數(shù)據(jù)更“接地氣”。其中使用LDA人工智能文本主題聚類算法的居多,這一算法讓文本的聚類處理更加便捷直觀,其結(jié)果對(duì)于后續(xù)的分析更具有說(shuō)服力。我們也依照這一想法從現(xiàn)階段的研究方向出發(fā),逐步深入,得出針對(duì)公安院校新媒體建設(shè)的主流趨勢(shì),并最終就研究結(jié)果在大方向上對(duì)各新媒體主體給予一定的建議。

2 研究設(shè)計(jì)

本項(xiàng)目的研究和實(shí)現(xiàn)主要分為三個(gè)階段:數(shù)據(jù)獲取,數(shù)據(jù)處理和科學(xué)的可視化數(shù)據(jù)呈現(xiàn)?,F(xiàn)就每一階段采取的研究方式和技術(shù)原理進(jìn)行描述,具體流程如圖1所示。

以下探討在數(shù)據(jù)處理階段我們主要采用的模型分析思維。

2.1 首先是選用的人工智能數(shù)據(jù)處理模型:LDA主題模型

LDA(Latent Dirichlet Allocation)是現(xiàn)階段比較風(fēng)靡和體系化的文本主題挖掘模型,它從本質(zhì)來(lái)看就是一個(gè)包括了主語(yǔ)、文檔和主題的嵌套了三層的貝葉斯模型,因?yàn)槠渫耆谪惾~斯的推理機(jī)制,所以擁有很好的解釋能力。但是,該模型僅僅提供了針對(duì)文本數(shù)據(jù)的主題模型提取,并沒(méi)有更多的涉及細(xì)化的演變機(jī)制和主題演化的解釋。它一開始就把概率分布與貝葉斯的先驗(yàn)理論帶入到有關(guān)主題的分析當(dāng)中,再去利用先驗(yàn)估計(jì)的超參數(shù)經(jīng)迭代計(jì)算來(lái)估計(jì)“文檔一主題”和“主題一特征詞”的概率分布這兩個(gè)參數(shù);由于采用Dirichlet分布進(jìn)行了模型簡(jiǎn)化,所以這種方法可以部分避免LSA和PLSA等模型中的過(guò)擬合問(wèn)題[8-11]。

模型生成過(guò)程如圖2所示。

(1)按照先驗(yàn)概率p(di)選擇一篇文檔di;

(2)在從Dirichlet分布的a中取出樣本生成文檔d的主題分布θi;

(3)從主題的多項(xiàng)式分布θi中取出樣本生成文檔d;第j個(gè)詞的主題z(i,j);

(4)從Dirichlet分布β中取出樣本生成主題z(i,j)對(duì)應(yīng)的詞語(yǔ)分布φz(i,j),詞語(yǔ)分布φz(i,j),由參數(shù)為B的Dirichlet分布生成;

(5)從詞語(yǔ)的多項(xiàng)式分布φz(i,j)中采集樣本,最終生成詞語(yǔ)ω(i,j)。

2.2 處理數(shù)據(jù)的整體思維

在針對(duì)具有更多指標(biāo)性數(shù)值的微博文本數(shù)據(jù)的處理中,我們充分參考了點(diǎn)贊量和轉(zhuǎn)發(fā)量這兩個(gè)指標(biāo)值,數(shù)據(jù)處理的最終目標(biāo)是既要得到文本關(guān)鍵詞也要能夠讓這些關(guān)鍵詞為新媒體主題提供對(duì)發(fā)布內(nèi)容的修改意見(jiàn)。所以我們先進(jìn)行文本內(nèi)容有無(wú)點(diǎn)贊量、閱讀量的第一批處理,將處理后的數(shù)據(jù)再放入LDA模型中進(jìn)行分析,得到熱門主題詞。與此同時(shí)將全樣本數(shù)據(jù)也進(jìn)行LDA模型的分析。最終的生成結(jié)果中進(jìn)行關(guān)鍵詞比對(duì),即從全樣本關(guān)鍵詞中去尋找熱門關(guān)鍵詞是否存在,如果存在則說(shuō)明文本的健全性有保障,繼續(xù)輸出得到的熱點(diǎn)關(guān)鍵詞和全樣本關(guān)鍵詞即可,其過(guò)程如圖3所示。

對(duì)于無(wú)指標(biāo)性數(shù)值的微信公眾號(hào)文本來(lái)說(shuō),則直接使用LDA模型進(jìn)行分析,得到全樣本數(shù)據(jù)的關(guān)鍵主題詞,然后與微博中出現(xiàn)的關(guān)鍵詞拼接以及去重。在總體層面上得出該新媒體主體的新媒體全樣本關(guān)鍵詞。

2.3 科學(xué)的可視化數(shù)據(jù)

對(duì)于數(shù)據(jù)的可視化,我們選擇了現(xiàn)在的主流開發(fā)模式,即B/S架構(gòu)的Web服務(wù)模式。在后端使用flask的基礎(chǔ)上,我們充分利用前端vue的開放性開發(fā)的特點(diǎn),與處理后的數(shù)據(jù)進(jìn)行結(jié)合,并最終使用詞云圖來(lái)展示經(jīng)處理過(guò)后的數(shù)據(jù)。采取更科學(xué)的數(shù)據(jù)可視化手段,在保證了數(shù)據(jù)結(jié)果展示準(zhǔn)確性的同時(shí)也使得后續(xù)的研究工作可以更高效的展開。

3 實(shí)證分析

在微博方面,首先我們基于scrapy框架定制開發(fā)了給予微博開發(fā)者接口的數(shù)據(jù)獲取程序。程序以深度優(yōu)先的原則,將共27個(gè)公開官方微博號(hào)上的歷史記錄都依據(jù)時(shí)間順序爬下,將十三個(gè)固定賬戶的微博uid輸入隊(duì)列程序中,隊(duì)列循環(huán)后依次爬取,共獲取316752條微博信息和相關(guān)的賬號(hào)粉絲人數(shù)以及其他賬戶信息。

通過(guò)觀察,我們將對(duì)獲取數(shù)據(jù)中的content(微博內(nèi)容)和repost_num(轉(zhuǎn)發(fā)數(shù))進(jìn)行研究分析,在此我們先對(duì)獲取的全部微博數(shù)據(jù)中的轉(zhuǎn)發(fā)數(shù)進(jìn)行平均數(shù)計(jì)算,算出全樣本平均數(shù)后,依據(jù)經(jīng)驗(yàn)可以嘗試劃定高轉(zhuǎn)發(fā)的閾值大于平均數(shù)并且不低于平均數(shù)的1.5倍。在此基礎(chǔ)上實(shí)現(xiàn)第一步的數(shù)據(jù)處理,得到高轉(zhuǎn)發(fā)微博數(shù)據(jù)樣本。

在這里我們只選擇江蘇警官學(xué)院一所院校的數(shù)據(jù)作為論證數(shù)據(jù),而且實(shí)際上我們?cè)趯?shí)驗(yàn)中從微博的樣本中得到了五處主題的概率分布,這里只舉例示意列舉具有高轉(zhuǎn)發(fā)特征的第1處主題概率分布,并且在實(shí)驗(yàn)過(guò)程中我們不斷調(diào)試主題數(shù)與單個(gè)主題內(nèi)詞語(yǔ)數(shù)量的關(guān)系,如表l所示,最終選擇了體現(xiàn)效果最佳的一個(gè)組合。

從總體的主題分布來(lái)看,樣本數(shù)據(jù)生成的所有主題的詞分布如表2。

對(duì)于微信公眾號(hào)的全樣本文本數(shù)據(jù)我們也同樣采取相應(yīng)的算法和措施來(lái)進(jìn)行分析,我們直接通過(guò)最終的可視化界面來(lái)分析這套實(shí)驗(yàn)的最終效果。

從微博的LDA模型處理后的結(jié)果,如圖4所示,我們可以看出,受到新型冠狀病毒的影響,即使是在2020年前四個(gè)月發(fā)布的內(nèi)容,且整體文本數(shù)量不多的情況下,新冠相關(guān)主題的微博依然能夠引起粉絲的高量轉(zhuǎn)發(fā)。但在微信公眾號(hào)中,我們選擇了2018和2019年兩年的全樣本數(shù)據(jù),從上述詞云圖中可以看到還是公安工作、學(xué)警學(xué)習(xí)這幾類主題是江蘇警官學(xué)院微信公眾號(hào)平臺(tái)最常發(fā)布的,同時(shí)因?yàn)闀r(shí)間跨度的問(wèn)題,沒(méi)有出現(xiàn)在微博內(nèi)容分布中被高度關(guān)注的防疫和抗疫的內(nèi)容。在這一實(shí)驗(yàn)的最后,我們通過(guò)得出的可視化圖片可以得出一些一般性結(jié)論。不論是什么樣的公眾自媒體或者新媒體形式,只要貼著社會(huì)的熱點(diǎn)話題來(lái)進(jìn)行一些發(fā)文,就可以獲得粉絲群體的高關(guān)注度和互動(dòng)性,這一點(diǎn)是毋庸置疑的。但是從抹除了社會(huì)熱點(diǎn)的高關(guān)注度話題后的數(shù)據(jù)來(lái)看,也就是從我們?cè)趯?shí)驗(yàn)中的微信公眾號(hào)數(shù)據(jù)來(lái)看,真正決定新媒體工作建設(shè)的方向還是建立在本身特色和發(fā)布內(nèi)容類型的基礎(chǔ)上的,從可視化平臺(tái)的大多數(shù)公安院校的結(jié)果中可以看出,省屬的公安院校的內(nèi)容更加貼近公安工作的底層,宣傳的事例或者一些行文風(fēng)格更樸素,宣傳方向更單一,而幾所部屬高校的微博則不同,他們的文章中體現(xiàn)的人文關(guān)懷和綜合性更強(qiáng),所以各公安院校應(yīng)當(dāng)積極把握自身建設(shè)中形成的特色,并就與公安工作或者學(xué)警教育工作有教育指導(dǎo)意義的社會(huì)熱點(diǎn)事件行文是每一個(gè)公眾號(hào)主體都要遵循的大前提。

4 結(jié)束語(yǔ)

在現(xiàn)階段針對(duì)公安院校的新媒體的建設(shè)特點(diǎn)分析中,新媒體平臺(tái)中的短文本就注定了使用LDA模型可以滿足絕大多數(shù)的分析情形。只需要在建模的過(guò)程中控制好主題數(shù)和詞數(shù)的關(guān)系,就一定能夠調(diào)試出一個(gè)合理科學(xué)的實(shí)驗(yàn)結(jié)果。公安院校的公眾號(hào)還是要在維持自身人文關(guān)懷與堅(jiān)持政治方向的基礎(chǔ)上,不斷發(fā)掘社會(huì)話題,弘揚(yáng)警院正能量,講好警院故事,為更多的青年一代的新時(shí)代預(yù)備警官夯實(shí)堅(jiān)固的思想政治基礎(chǔ)和紅色意識(shí)。以思想帶動(dòng)實(shí)踐,為建設(shè)四個(gè)“鐵一般”的公安鐵軍儲(chǔ)備優(yōu)良人才,為實(shí)現(xiàn)中華民族偉大復(fù)興奉獻(xiàn)力量。

參考文獻(xiàn)(References):

[1]王博,劉盛博,丁堃等.基于LDA i題模型的專利內(nèi)容分析方法[J].科研管理,2015.36(3):111-117

[2]趙翔宇.新媒體時(shí)代公安院校思想政治教育創(chuàng)新研究[J].遼寧警察學(xué)院學(xué)報(bào),2020.22(2):113-116

[3]秦大強(qiáng),熊猛.移動(dòng)互聯(lián)時(shí)代公安院校大學(xué)生思想政治教育工作路徑創(chuàng)新——以新媒體矩陣發(fā)展與運(yùn)維為視角[J].上海公安學(xué)院學(xué)報(bào),2019.29(5):90-96

[4]周殷玄.淺談新媒體為公安院校思想政治工作開創(chuàng)的新格局[J].才智,2018.17:138-139

[5]唐可.利用多種建模方法從社交媒體中挖掘短文本結(jié)構(gòu)[J].電腦編程技巧與維護(hù),2020.2:140-142

[6]韓肖赟,侯再恩,孫綿.基于i題模型及其擴(kuò)展的短文本算法評(píng)述[J].計(jì)算機(jī)應(yīng)用與軟件,2020.37(1):1-7

[7]吳廣建.面向政務(wù)微博的數(shù)據(jù)分析系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D].杭州師范大學(xué),2020.

[8]李牧南,王雯殊.基于文本挖掘的人工智能科學(xué)i題演進(jìn)研究[J].情報(bào)雜志:1-7[2020-04-20].http://kns.cnki.net/kcms/detaiV61. 1167.G3.20200319. 1351.019.html

[9] Latent Dirichlet allocation. Blei D M, Ng A Y,Jordan M I.Journal of Machine Learning Research,2003.

[10] Content analysis of e-petitions with topic modeling: Howto train and evaluate LDA models?[J]. Loni Hagen.Information Processing and Management,2018.

[11] Short text similarity based on probabilistic topics[J].Xiaojun Quan, Gang Liu, Zhi Lu, Xingliang Ni, LiuWenyin.Knowledge and Information Systems,2010.3.

★基金項(xiàng)目:江蘇省現(xiàn)代教育技術(shù)研究課題“基于現(xiàn)代信息技術(shù)的公安網(wǎng)絡(luò)輿情教學(xué)模式創(chuàng)新研究”(2017-R-59195);江蘇警官學(xué)院重點(diǎn)教改項(xiàng)目“互聯(lián)網(wǎng)信息巡查課程線上線下混合式‘金課教學(xué)體系的重塑研究”(2019A30);江蘇省大學(xué)生實(shí)踐創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃項(xiàng)目“大數(shù)據(jù)背景下的公安院校新媒體平臺(tái)影響力研究”( 201910329031Y)

作者簡(jiǎn)介:陳樂(lè)遙(1999-),男,江蘇連云港人,江蘇警官學(xué)院學(xué)生,主要研究方向:網(wǎng)絡(luò)安全與信息安全

猜你喜歡
微信公眾號(hào)微博
青少年數(shù)字素養(yǎng)的社會(huì)與文化內(nèi)涵及其教育啟示
采用開源路由器實(shí)現(xiàn)多功能智能監(jiān)控報(bào)警系統(tǒng)
江蘇生鮮產(chǎn)品微信公眾號(hào)營(yíng)銷問(wèn)題及對(duì)策研究
微信公眾號(hào)的運(yùn)營(yíng)模式研究
“985工程”高校圖書館閱讀推廣的調(diào)查與分析
微信公眾號(hào)在高校“Photoshop圖像處理”課程中的應(yīng)用
事實(shí)與流言的博弈
人間(2016年26期)2016-11-03 18:19:04
基于微博營(yíng)銷的企業(yè)推廣模式研究
試論“央視新聞”公眾號(hào)的成功運(yùn)行對(duì)傳統(tǒng)媒體轉(zhuǎn)型發(fā)展的借鑒意義
出版廣角(2016年15期)2016-10-18 00:30:30
個(gè)人微信公眾賬號(hào)運(yùn)營(yíng)優(yōu)化方案
商(2016年27期)2016-10-17 06:26:42
景德镇市| 湘西| 桐庐县| 万宁市| 开江县| 灵璧县| 天镇县| 岳池县| 西丰县| 克山县| 宁晋县| 渝北区| 太和县| 许昌县| 清徐县| 无为县| 奉贤区| 宝丰县| 浮山县| 兖州市| 合阳县| 夹江县| 沙湾县| 汽车| 沙河市| 定西市| 潞西市| 正阳县| 樟树市| 阳高县| 雅江县| 西藏| 志丹县| 广东省| 阿拉善左旗| 滦平县| 沾化县| 津南区| 鹤壁市| 泰安市| 十堰市|