国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于隨機(jī)森林的“廣西生態(tài)環(huán)境”微信公眾號(hào)信息傳播影響因素研究

2020-04-22 20:31:08梁煒
價(jià)值工程 2020年8期
關(guān)鍵詞:隨機(jī)森林信息傳播微信公眾號(hào)

梁煒

摘要:為更好地挖掘微信公眾號(hào)在政務(wù)服務(wù)領(lǐng)域的社交價(jià)值和媒體價(jià)值,以廣西壯族自治區(qū)生態(tài)環(huán)境廳微信公眾號(hào)2017年11月15日-2019年5月31日發(fā)布的827篇文章為基礎(chǔ),利用隨機(jī)森林模型,從文章的發(fā)布位置、文章來源、內(nèi)容分類、標(biāo)題字?jǐn)?shù)、內(nèi)容字?jǐn)?shù)、圖片數(shù)量、發(fā)布星期等方面探討影響政府服務(wù)微信公眾號(hào)信息傳播的因素。研究結(jié)果表明,“廣西生態(tài)環(huán)境”微信公眾號(hào)發(fā)布文章的發(fā)布星期、發(fā)布位置、內(nèi)容分類和來源分類等因子對(duì)文章傳播效益影響較大,內(nèi)容字?jǐn)?shù)、標(biāo)題字?jǐn)?shù)和圖片數(shù)量等因子對(duì)文章的傳播效益影響較小。

Abstract: In order to explore the social value and media value of WeChat subscription in the field of government services, the 827 articles issued by Department of ecology and environment of Guangxi Zhuang Autonomous Region from November 15, 2017 to May 31, 2019 were selected. Based on the random forest model, this paper discusses the factors that influence the information dissemination of the government service WeChat subscription from the perspectives of the publishing location, article source, content classification, number of title words, number of content words, number of pictures and publishing date of the articles. The research results show that factors such as the publishing date, location, content classification and source of the WeChat subscription of "Guangxi Ecology and Environment" had greater influence on the transmission benefit of the articles. The factors such as the number of content words, the number of title words and the number of pictures had less influence on the transmission benefit of the articles.

關(guān)鍵詞:廣西生態(tài)環(huán)境;微信公眾號(hào);隨機(jī)森林;信息傳播;影響因素

Key words: Guangxi Ecological Environment;WeChat subscription;random forest;information dissemination;influencing factors

中圖分類號(hào):F323.22 ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼:A ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ?文章編號(hào):1006-4311(2020)08-0247-03

0 ?引言

2016年3月5日,李克強(qiáng)總理代表國務(wù)院在十二屆全國人大四次會(huì)議上作《政府工作報(bào)告》中提出了“互聯(lián)網(wǎng)+政務(wù)服務(wù)”,標(biāo)志著我國政府職能正向著服務(wù)型轉(zhuǎn)變[1]。各級(jí)政府都在大力推動(dòng)“數(shù)字政府”建設(shè),不斷深化“放管服”改革。中國政務(wù)新媒體建設(shè)取得了空前的發(fā)展,中國政務(wù)微博微信賬號(hào)迅速增加,政務(wù)客戶端發(fā)展迅猛,“兩微一端”成為政務(wù)新媒體發(fā)展新模式。

政務(wù)服務(wù)微信公眾號(hào)以其豐富的內(nèi)容及多樣化的傳播形式成為政府部門為公眾提供信息服務(wù)的新平臺(tái)。如何使政務(wù)服務(wù)微信公眾號(hào)信息有效傳播,更好地挖掘微信公眾號(hào)在政務(wù)服務(wù)領(lǐng)域的社交價(jià)值和媒體價(jià)值,是一個(gè)值得政府網(wǎng)信部門深入研究的課題。本文根據(jù)微信公眾號(hào)信息傳播特征,利用隨機(jī)森林模型,從文章的發(fā)布位置、文章來源、內(nèi)容分類、標(biāo)題字?jǐn)?shù)、內(nèi)容字?jǐn)?shù)、圖片數(shù)量、發(fā)布日期等方面探討影響政府服務(wù)微信公眾號(hào)信息傳播的因素,以期為同類微信公眾號(hào)文章提供參考建議。

1 ?數(shù)據(jù)來源與方法

1.1 數(shù)據(jù)來源說明

本研究以廣西壯族自治區(qū)生態(tài)環(huán)境廳微信公眾號(hào)2017年11月15日-2019年5月31日發(fā)布的827篇文章為基礎(chǔ),統(tǒng)計(jì)出這827篇文章的發(fā)布位置、文章來源、內(nèi)容分類、標(biāo)題字?jǐn)?shù)、內(nèi)容字?jǐn)?shù)、圖片數(shù)量、發(fā)布日期7個(gè)影響因子數(shù)據(jù),并選取了閱讀量、點(diǎn)贊量和分享量組成評(píng)價(jià)因子。發(fā)布排位、來源分類、內(nèi)容分類和發(fā)布日期為分類型統(tǒng)計(jì)數(shù)據(jù),標(biāo)題字?jǐn)?shù)、內(nèi)容字?jǐn)?shù)和圖片數(shù)量為數(shù)值型統(tǒng)計(jì)數(shù)據(jù),如表1所示。

1.2 研究方法——隨機(jī)森林

隨機(jī)森林模型在bagging算法的基礎(chǔ)上演化而來由美國科學(xué)家Leo Breiman于2001年提出[2],它用Bootstrap方法生成M個(gè)訓(xùn)練集,再對(duì)每個(gè)訓(xùn)練集構(gòu)造CART決策樹,并且隨機(jī)選取特征,在其中尋找最優(yōu)解進(jìn)行分裂。隨機(jī)森林實(shí)際上相當(dāng)于對(duì)樣本個(gè)特征都進(jìn)行了采樣,所以可以避免過擬合。最后投票表決得出結(jié)果。隨機(jī)森林有一個(gè)重要優(yōu)點(diǎn)是沒必要對(duì)它進(jìn)行交叉驗(yàn)證或用一個(gè)獨(dú)立的測(cè)試集來獲得誤差的無偏估計(jì)。他可以在內(nèi)部進(jìn)行評(píng)估,在過程中可以對(duì)誤差建立一個(gè)無偏估計(jì)。(圖1)

隨機(jī)森林模型使用基尼指數(shù)(gini)或袋外數(shù)據(jù)(out-of-bag,oob)錯(cuò)誤率來評(píng)價(jià)每個(gè)特征對(duì)結(jié)果的影響程度(VIM)。

1.2.2 袋外數(shù)據(jù)錯(cuò)誤率

在隨機(jī)森林的Bootstrap方法中每次約有三分之一的樣本不會(huì)出現(xiàn)在采集樣本集合中,這些沒有參與決策樹建立的數(shù)據(jù)稱為袋外數(shù)據(jù)(out-of-bag,oob)。

對(duì)于隨機(jī)森林中的每一顆決策樹,使用相應(yīng)的oob(袋外數(shù)據(jù))數(shù)據(jù)來計(jì)算它的袋外數(shù)據(jù)誤差,記為erroob1。隨機(jī)地對(duì)袋外數(shù)據(jù)所有樣本的特征X加入噪聲干擾,再次計(jì)算它的袋外數(shù)據(jù)誤差,記為erroob2,假設(shè)隨機(jī)森林中有N棵決策樹,那么對(duì)于特征x的重要性計(jì)算表達(dá)式如下:

若給某個(gè)特征隨機(jī)加入噪聲之后,袋外的準(zhǔn)確率大幅度降低,則說明這個(gè)特征對(duì)于樣本的分類結(jié)果影響很大,也就是說它的重要程度比較高[4-6]。

2 ?預(yù)測(cè)模型構(gòu)建

本研究的模型構(gòu)建流程主要包括4個(gè)步驟:①采集樣本;②數(shù)據(jù)預(yù)處理與特征工程;③將樣本按7:3的比例分割為訓(xùn)練集與測(cè)試集,建立模型;④特征重要性評(píng)估。

2.1 數(shù)據(jù)預(yù)處理與特征工程

2.1.1 數(shù)據(jù)格式化

①獨(dú)熱編碼。

本研究部分選取因素具有離散特征,無法直接使用在分類器中。為解決分類器處理離散特征數(shù)據(jù)的問題,本研究對(duì)發(fā)布位置、文章來源、內(nèi)容分類、標(biāo)題字?jǐn)?shù)、發(fā)布星期進(jìn)行了獨(dú)熱編碼處理。經(jīng)過獨(dú)熱編碼處理后,影響因子由7維擴(kuò)充到26維。

②評(píng)價(jià)指標(biāo)構(gòu)建。

本研究選取了閱讀量、點(diǎn)贊量和分享量組成評(píng)價(jià)因子,這三個(gè)指標(biāo)分別從不同角度體現(xiàn)了發(fā)布文章的傳播影響效益。為綜合評(píng)價(jià)文章的傳播影響效益,利用SPSS軟件對(duì)三個(gè)指標(biāo)進(jìn)行主成分分析,提取出主成分。分析結(jié)果顯示,閱讀量的信息載荷為0.465,分享量的信息載荷為0.46,點(diǎn)贊數(shù)的信息載荷為0.252。

同時(shí)采用自然斷點(diǎn)分級(jí)法(Jenks)構(gòu)造出最終分類評(píng)價(jià)特征,構(gòu)成評(píng)價(jià)指標(biāo)level。該評(píng)價(jià)指標(biāo)為只包含0與1的二分類評(píng)價(jià)指標(biāo),其中0表示非熱點(diǎn)推送文章,1表示熱點(diǎn)推送文章。

2.1.2 數(shù)據(jù)平衡化

經(jīng)過數(shù)據(jù)預(yù)處理后數(shù)據(jù)中的熱點(diǎn)樣本26條,非熱點(diǎn)樣本801條,數(shù)據(jù)分布非常不均勻。為了提升模型擬合程度,本研究采用SMOTE方法利用小眾樣本在特征空間的相似性來生成新樣本。經(jīng)平衡化處理后,熱點(diǎn)與非熱點(diǎn)樣本均為801條。

2.2 模型實(shí)現(xiàn)與評(píng)價(jià)方法

本研究的隨機(jī)森林模型由Python平臺(tái)的機(jī)器學(xué)習(xí)庫sklearm構(gòu)建,使用默認(rèn)值參數(shù)進(jìn)行計(jì)算并生成預(yù)測(cè)集,然后采用混淆矩陣和袋外樣本來估計(jì)評(píng)估模型的準(zhǔn)確率與泛化能力。

混淆矩陣由測(cè)試集與預(yù)測(cè)集組成,其中正類(positive)表示為熱點(diǎn)推送文章,負(fù)類(negative)為非熱點(diǎn)推送文章。經(jīng)分析發(fā)現(xiàn),244條樣本在測(cè)試集與預(yù)測(cè)集中均表現(xiàn)為正類即熱點(diǎn)推送文章,為真正類(TP);221條樣本在測(cè)試集與預(yù)測(cè)集中都為負(fù)類即非熱點(diǎn)推送文章,則為真負(fù)類(TN);9條樣本在測(cè)試集中為正類,預(yù)測(cè)集中為負(fù)類,則為假負(fù)類(FN);7條樣本在測(cè)試集中為負(fù)類,預(yù)測(cè)集中為正類,則為假正類(FP)。

2.3 影響因子分析

運(yùn)用基尼指數(shù)方法對(duì)26個(gè)影響因子進(jìn)行重要性評(píng)估,分析其對(duì)發(fā)布文章傳播效益的影響程度,如表2所示。分析表2可知,研究選取的7個(gè)一級(jí)影響因子中,對(duì)文章傳播效益影響較大的為發(fā)布星期、發(fā)布位置、內(nèi)容分類和來源分類,四者重要程度合計(jì)達(dá)到82%;內(nèi)容字?jǐn)?shù)、標(biāo)題字?jǐn)?shù)和圖片數(shù)量對(duì)文章的傳播效益影響較小,重要程度合計(jì)僅為18%。進(jìn)一步分析二級(jí)影響因子發(fā)現(xiàn),在星期三推送、發(fā)布位置處于第二位、內(nèi)容分類為污染防治、來源為中央、內(nèi)容字?jǐn)?shù)較多的文章傳播效益影響程度較大,重要程度基本在8%至11%之間;同時(shí)也可以看到,星期六、星期日發(fā)布的文章傳播效益影響程度較小,發(fā)布位置靠后為第五、第六推送位置的文章幾乎沒有傳播效益影響,內(nèi)容為標(biāo)準(zhǔn)規(guī)范的文章受關(guān)注程度也較低。

3 ?結(jié)論

本文使用機(jī)器學(xué)習(xí)的方式,以“廣西生態(tài)環(huán)境”微信公眾號(hào)發(fā)布文章的相關(guān)統(tǒng)計(jì)數(shù)據(jù)為研究對(duì)象,從827個(gè)樣本中得到了高準(zhǔn)確率的隨機(jī)森林模型,并討論了影響推送文章傳播能力的各項(xiàng)因子。研究結(jié)果表明,“廣西生態(tài)環(huán)境”微信公眾號(hào)發(fā)布文章的發(fā)布星期、發(fā)布位置、內(nèi)容分類和來源分類等因子對(duì)文章傳播效益影響較大,內(nèi)容字?jǐn)?shù)、標(biāo)題字?jǐn)?shù)和圖片數(shù)量等因子對(duì)文章的傳播效益影響較小。

利用隨機(jī)森林模型可實(shí)現(xiàn)在不增加運(yùn)算量的前提下,提高分類和預(yù)測(cè)的準(zhǔn)確率,用于變量重要性評(píng)估上具有算法上的優(yōu)勢(shì)。本研究的主要?jiǎng)?chuàng)新點(diǎn)是將隨機(jī)森林模型應(yīng)用到微信公眾號(hào)傳播影響研究問題中,并且取得了較為滿意的結(jié)果,可為未來“廣西生態(tài)環(huán)境”微信公眾號(hào)運(yùn)營,提高政務(wù)信息傳播效益提供依據(jù)。

參考文獻(xiàn):

[1]中華人民共和國中央人民政府.政府工作報(bào)告[R/OL].(2016-03-17).http://www.gov.cn/guowuyuan/2016-03/17/content_5054901.htm.

[2]Breiman L. Random forests[J]. Machine Learning, 2001,45(1): 5-32.

[3]Raschka S. Python Machine Learning[M]. Packt Publishing, 2015: 80-90.

[4]Tibshiranni R. Bias, Variance and Prediction Error for Classification Rules[C]. Technical Report, Statistics Department, University of Toronto, 1996. http://utstat.toronto.edu/reports/tibs/biasvar.ps.

[5]Wolpert D H, Macready W G. An Efficient Method To Estimate Baggins Generalization Error[J].Machine Learning, 1999, 35(1): 41-55.

[6]Breiman L. Bagging Predictors[J]. Machine Learning, 1996,24(2): 123-140.

猜你喜歡
隨機(jī)森林信息傳播微信公眾號(hào)
隨機(jī)森林在棉蚜蟲害等級(jí)預(yù)測(cè)中的應(yīng)用
基于二次隨機(jī)森林的不平衡數(shù)據(jù)分類算法
軟件(2016年7期)2017-02-07 15:54:01
拱壩變形監(jiān)測(cè)預(yù)報(bào)的隨機(jī)森林模型及應(yīng)用
微信公眾號(hào)的運(yùn)營模式研究
微信公眾號(hào)在高校“Photoshop圖像處理”課程中的應(yīng)用
基于隨機(jī)森林算法的飛機(jī)發(fā)動(dòng)機(jī)故障診斷方法的研究
全媒體語境下體育新聞教育建設(shè)的思索
網(wǎng)絡(luò)輿論對(duì)公共政策制定的影響
試論“央視新聞”公眾號(hào)的成功運(yùn)行對(duì)傳統(tǒng)媒體轉(zhuǎn)型發(fā)展的借鑒意義
出版廣角(2016年15期)2016-10-18 00:30:30
媒介融合背景下對(duì)新聞?dòng)浾咚刭|(zhì)的要求
科技視界(2016年21期)2016-10-17 20:52:33
秦安县| 卓资县| 武陟县| 永胜县| 进贤县| 东至县| 花莲县| 太仓市| 易门县| 文水县| 古丈县| 改则县| 射阳县| 西昌市| 阳城县| 大城县| 镇沅| 藁城市| 廊坊市| 太仓市| 梅河口市| 滨州市| 韶山市| 如皋市| 枣强县| 南华县| 襄城县| 云和县| 游戏| 靖江市| 阳山县| 海伦市| 思南县| 邹平县| 乃东县| 隆林| 浑源县| 图们市| 旌德县| 历史| 察隅县|