陳俟伶 謝鵬
摘 要 本文是基于數(shù)據(jù)挖掘的微信公眾號(hào)關(guān)注趨勢分析。數(shù)據(jù)挖掘技術(shù)能夠在海量的數(shù)據(jù)信息中搜尋出更加有價(jià)值的信息,實(shí)現(xiàn)數(shù)據(jù)信息的價(jià)值。微信公眾平臺(tái)是微信旗下推出進(jìn)行信息推送與接收的平臺(tái),是自媒體時(shí)代的產(chǎn)物,依靠著微信這個(gè)大平臺(tái)展示出了良好的傳播效果,其傳播路徑和方式與以前的媒體形式有所不同。利用數(shù)據(jù)分析工具對(duì)這些數(shù)據(jù)進(jìn)行可視化展示,對(duì)產(chǎn)生的結(jié)果進(jìn)行分析。
關(guān)鍵詞 大數(shù)據(jù)時(shí)代 數(shù)據(jù)挖掘 微信公眾號(hào)
中圖分類號(hào):TP311文獻(xiàn)標(biāo)識(shí)碼:A
0緒論
(1)數(shù)據(jù)挖掘的意義。
在這個(gè)大數(shù)據(jù)的時(shí)代,每個(gè)人都可以被稱為是生產(chǎn)者或是傳播者,因此很多互聯(lián)網(wǎng)信息中都帶有這關(guān)于潛在消費(fèi)者的信息,通過對(duì)這些數(shù)據(jù)進(jìn)行挖掘利用,就能夠更加清楚的得知這些潛在客戶的真實(shí)需求。數(shù)據(jù)挖掘技術(shù)具有比較復(fù)雜的特征,無論是應(yīng)用對(duì)象還是應(yīng)用過程,都涉及到大量因素。因?yàn)閿?shù)據(jù)挖掘技術(shù)的特殊性,所以最終得到的結(jié)果也是存在特殊性質(zhì)的信息。
(2)數(shù)據(jù)挖掘的包含方面。
數(shù)據(jù)挖掘一般包含數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘、后處理這三個(gè)方面。
預(yù)處理的存在是為了提前將一些無用的數(shù)據(jù)剔除出去,這些“廢物”的存在很可能導(dǎo)致數(shù)據(jù)模型計(jì)算的失敗,所以說數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘過程中不可缺失的一部分,雖然這部分會(huì)占據(jù)數(shù)據(jù)挖掘的大部分時(shí)間,但還是值得我們認(rèn)真去完成。當(dāng)我們完成數(shù)據(jù)的預(yù)處理后,接下來的數(shù)據(jù)挖掘和后處理就變得簡單很多,只需要將特定的數(shù)據(jù)放到特定的模型中去計(jì)算,將最合適的移交給后處理。
1算法介紹
1.1數(shù)據(jù)挖掘的算法
1.1.1經(jīng)典算法
在如今的國際上認(rèn)同的算法有:
C2.5算法;Apriori算法;PageRank算法;AdaBoost算法;KNN算法;CART算法;SVM算法;EM算法;K-Means算法;NaiveBayes算法。
1.1.2算法舉例
(1)聚類:K均值(Kmeans)、最近鄰算法(KNN)、期望最大值算法(EM)、隱含狄利克雷分布(LDA)。
(2)分類:支持向量機(jī)(SVM)、邏輯回歸(LR)、梯度下降樹(GBDT)、隨機(jī)森林(RF)、樸素貝葉斯(NB)、深層神經(jīng)網(wǎng)絡(luò)(DNN)、卷積神經(jīng)網(wǎng)絡(luò)(CNN)、LSTM(Long Short-Term Memory)。
(3)回歸:普通最小二乘回歸(OLS)、梯度下降樹(GBDT)。
(4)降維:主成分分析(PCA)、因子分析(FA)、LDA。
(5)時(shí)間序列:自回歸模型(AR)、滑動(dòng)平均模型(MA)、自回歸移動(dòng)平均模型(ARMA)。
①Adaboost。Adaboost是將不同的幾個(gè)弱的分類器相互結(jié)合在一起成強(qiáng)分類器算法然后來加快算法的速度。
②PageRank。PageRank的核心最主要的思想是在從一些優(yōu)質(zhì)的網(wǎng)頁基礎(chǔ)上鏈接過來的網(wǎng)頁,所以還是優(yōu)質(zhì)網(wǎng)頁的回歸關(guān)系,來判定所有網(wǎng)頁的重要性。
1.2微信公眾號(hào)數(shù)據(jù)的獲取
1.2.1爬蟲抓取數(shù)據(jù)
微信在數(shù)據(jù)方面來說是一個(gè)比較封閉的一個(gè)平臺(tái),首先從微信的客戶端入手,然后通過抓包來進(jìn)行數(shù)據(jù)的分析請(qǐng)求,再者使用 Fiddler、Charles 代理工具來進(jìn)行抓包分析請(qǐng)求的構(gòu)造原理,然后 Requests 等網(wǎng)絡(luò)請(qǐng)求的板塊來模擬微信向服務(wù)器發(fā)出請(qǐng)求從而獲得響應(yīng)式數(shù)據(jù),接著把抓出來的數(shù)據(jù)過濾和清潔,最后就可以用 Pandas 來進(jìn)行數(shù)據(jù)分析然后就可視化展示出來了。
1.2.2數(shù)據(jù)挖掘的流程
(1)數(shù)據(jù)集選擇。一般來說數(shù)據(jù)集就是可獲得或者已存在的 (在網(wǎng)上過濾抓取需要的數(shù)據(jù)或者訪問網(wǎng)上的一些資料庫和使用軟件進(jìn)行主動(dòng)收集的數(shù)據(jù)等)。數(shù)據(jù)集的選擇對(duì)數(shù)據(jù)挖掘起著非常至關(guān)重要的作用。
(2)數(shù)據(jù)預(yù)處理。在數(shù)據(jù)集選取了后,接著就可以對(duì)數(shù)據(jù)進(jìn)行預(yù)處理,這樣可以讓數(shù)據(jù)可以被我們使用。數(shù)據(jù)預(yù)處理大大的提高了數(shù)據(jù)的質(zhì)量。
①數(shù)據(jù)清理。首先不看元祖,然后主動(dòng)填寫缺失的值,使用屬性的中心度量的填充,給定同一類所有樣本的屬性均值或中位數(shù)填充,最可能的值填充。
②數(shù)據(jù)集成。實(shí)體識(shí)別,冗余和相關(guān)分析(卡方檢驗(yàn),相關(guān)系數(shù),協(xié)方差等,用spss比較方便)。
③數(shù)據(jù)歸約。維規(guī)約(小波變換和主成分分析,最常用),數(shù)量規(guī)約(較小的數(shù)據(jù)替代原始數(shù)據(jù)),數(shù)據(jù)壓縮(有損無損兩種,尤其對(duì)于圖像視頻等多媒體常用)。
(3)數(shù)據(jù)分析算法。最經(jīng)典的莫過于頻繁模式挖掘了,對(duì)象為事物出現(xiàn)的次數(shù)。如著名的啤酒尿布。其中最典型的算法為Apriori算法,包括連接和剪枝。其中有置信度,支持度,頻繁項(xiàng)集最小置信度閾值等重要概念,到相關(guān)分析中還有提升度,全置信度,Kulczy和余弦等判斷標(biāo)準(zhǔn)和零不變度量考慮。
2結(jié)論
通過對(duì)微信公眾號(hào)推送內(nèi)容進(jìn)行數(shù)據(jù)分析,企業(yè)可以編輯與自己企業(yè)文化相關(guān)的內(nèi)容發(fā)布到微信公眾號(hào)上,同時(shí)也要滿足用戶的需求,推送用戶喜歡的內(nèi)容,正確認(rèn)識(shí)用戶的需求,以恰當(dāng)?shù)姆绞秸归_工作,結(jié)合讀者的需求為其推送更有價(jià)值的文章。同時(shí)從根本上提高微信公眾號(hào)的專業(yè)性,以此發(fā)揮微信公眾號(hào)的作用。
參考文獻(xiàn)
[1] JiaweiHan, MichelinKamber, JianPei,et al.數(shù)據(jù)挖掘:概念與技術(shù)(第三版)[M].機(jī)械工業(yè)出版社, 2012.
[2] 胡可云,田鳳,董偉峰.數(shù)據(jù)挖掘理論與應(yīng)用[M].北京:清華大學(xué)出版社, 2008.
[3] 王學(xué)鳴,黃秋波.微信公眾號(hào)的現(xiàn)狀、類型及發(fā)展趨勢研究[J].無線互聯(lián)科技,2018(05):60-61.
[4] 李平榮.大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘技術(shù)與應(yīng)用[J].重慶三峽學(xué)院學(xué)報(bào),2014(03): 45-47.
[5] 黃楚新,王丹.微信公眾號(hào)的現(xiàn)狀、類型及發(fā)展趨勢[J].新聞與寫作,2015(07): 5-9.
[6] 中國產(chǎn)業(yè)信息網(wǎng). 2017年中國微信公眾號(hào)發(fā)展現(xiàn)狀及發(fā)展趨勢分析【圖】[EB/OL]. http://www.chyxx.com/industry/201807/656197.html, 2018-07-06.