?
基于人工神經(jīng)網(wǎng)絡的社交網(wǎng)站文章熱度分類研究*
劉佳
(長春工業(yè)大學 基礎(chǔ)科學學院,吉林 長春 130012)
摘要:社交網(wǎng)站作為一種新時期的交流平臺,給人們的學習和生活帶來了無盡的便利,逐漸成為人們獲取知識,共享信息的主要渠道,但與此同時,網(wǎng)絡文章紛繁復雜,造成用戶瀏覽上的困擾,由此可見,對文章熱度進行分類十分必要.針對這一問題,以Mashable社交網(wǎng)站為例,利用UCI中Online News Popularity數(shù)據(jù)集,提取文章相關(guān)屬性,給出熱度的評價標準.對60項屬性進行了主成分分析,篩選出關(guān)鍵性影響因子.通過對BP神經(jīng)網(wǎng)絡和RBF神經(jīng)網(wǎng)絡兩種算法進行對比研究,旨在選擇一種速度更快、分類更精確的算法,結(jié)果表明,RBF神經(jīng)網(wǎng)絡的分類準確率達到94.5%,模型指標R2達到0.85,具有更好的分類表現(xiàn).
關(guān)鍵詞:社交網(wǎng)站;熱度;BP神經(jīng)網(wǎng)絡;RBF神經(jīng)網(wǎng)絡;主成分分析
隨著互聯(lián)網(wǎng)技術(shù)的迅速興起,涌現(xiàn)出大量的社交網(wǎng)站,這些網(wǎng)站已經(jīng)成為廣大網(wǎng)民獲取知識,交流信息的主要平臺,對人們的學習和生活方式產(chǎn)生了重大的影響[1].但是由于社交網(wǎng)站的文章質(zhì)量參差不齊,內(nèi)容紛亂繁雜,造成了很多用戶在瀏覽上的困擾.為了將高質(zhì)量、有價值、熱度高的文章推薦給用戶,方便用戶有方向、高效率地去瀏覽文章,避免浪費學習和交流時間,對文章熱度進行合理分類和預測是十分有必要的.近年來,針對該課題的研究已經(jīng)引起不同學科學者們的廣泛關(guān)注.由此可見,對網(wǎng)站文章的熱度進行分類有十分重要的研究價值.
本文在人工神經(jīng)網(wǎng)絡和網(wǎng)站文章熱度相關(guān)研究背景下[2],提出了基于人工神經(jīng)網(wǎng)絡的網(wǎng)站文章熱度分類技術(shù),在實際計算過程中,RBF神經(jīng)網(wǎng)絡模型對于網(wǎng)站文章熱度的預測和分類準確度較高,為網(wǎng)站文章熱度分類提供了更好的技術(shù)和方法.
1相關(guān)算法
人工神經(jīng)網(wǎng)絡作為一種基礎(chǔ)的適應性模型和算法,在機器學習中有廣泛的應用[3],是一種由大量簡單的處理單元組成的高度復雜的大規(guī)模非線性自適應系統(tǒng).神經(jīng)網(wǎng)絡是具有非線性特征且參數(shù)可以被調(diào)整的一種算法,利用這種算法可以廣泛地處理非線性復雜數(shù)據(jù)系統(tǒng).
1.1BP神經(jīng)網(wǎng)絡[4]
BP(Back Propagation)神經(jīng)網(wǎng)絡是一種誤差反饋型神經(jīng)網(wǎng)絡,這種網(wǎng)絡模型由三層構(gòu)成:輸入層,隱藏層和輸出層,在同一層上的節(jié)點之間沒有連接,相鄰的網(wǎng)絡層中所有節(jié)點全部相互連接.所有信息在各層中都是單向傳播,傳播從輸入層作為開端,經(jīng)過隱藏層,最終到達輸出層.
BP神經(jīng)網(wǎng)絡的應用包括三個階段[5]:訓練學習、驗證和預測.在網(wǎng)絡訓練中,同一數(shù)據(jù)集如果被處理多次,那么節(jié)點之間的權(quán)值會變得越來越精確.在網(wǎng)絡學習中,BP神經(jīng)網(wǎng)絡利用有監(jiān)督方式進行學習,模型可以自適應學習輸入和輸出之間的關(guān)系.在驗證步驟中,利用測試集來對BP神經(jīng)網(wǎng)絡的功能進行測試,這種測試集可以看作是普遍現(xiàn)象的代表性數(shù)據(jù).將測試集數(shù)據(jù)的特征輸入已完成訓練和學習的BP神經(jīng)網(wǎng)絡結(jié)構(gòu)中,則神經(jīng)網(wǎng)絡可以根據(jù)輸入自動地進行推理和對樣本屬性的識別.如果網(wǎng)絡在測試中表現(xiàn)良好,這意味著已訓練好的網(wǎng)絡也可用于一般的情況.
1.2RBF神經(jīng)網(wǎng)絡[6]
RBF(Radial Basis Function)神經(jīng)網(wǎng)絡是一種三層前饋網(wǎng)絡,包括一個輸入層、一個隱藏層和一個輸出層.輸入層有一些源節(jié)點,例如與外部環(huán)境相連接的傳感器單元.體系結(jié)構(gòu)只有一個隱藏層,其作用是實現(xiàn)從輸入空間到隱藏空間的非線性轉(zhuǎn)換和從隱藏空間到輸出空間的線性映射.
每個輸入向量的維度都與對應的輸入層神經(jīng)元有關(guān).輸入層神經(jīng)元對應連接到隱藏層神經(jīng)元,組成RBF函數(shù)的神經(jīng)系統(tǒng),并把最恰當位置稱為中心.中心點可以視為隱藏層中的節(jié)點,函數(shù)的中心和半徑在RBF神經(jīng)網(wǎng)絡預測的準確性上有重要的影響.
本文RBF神經(jīng)網(wǎng)絡的徑向基函數(shù)采用高斯函數(shù):[7]
Φ(xp,ci)=φ(‖xp-ci‖)=
(1)
xp其中‖xp-ci‖-歐式范數(shù);xp-第p個輸入樣本;p=1,2,…,p-樣本總數(shù);ci-網(wǎng)絡隱藏層節(jié)點中心;則線性函數(shù)作為輸出層的激活函數(shù)可作如下表示:(2)
(2)
其中c-函數(shù)中心;σ-函數(shù)方差;根據(jù)徑向基函數(shù)中心選取方法的不同,RBF有多種學習方法[8],其中本文選取的是自組織選取中心學習法.在這一學習方法下,網(wǎng)絡輸出可以表示為:
j=1,2,…,n
(3)
wij-隱含層到輸出層對應權(quán)值;i=1,2,…,h-節(jié)點數(shù);yj-第i個節(jié)點的實際輸出.
2數(shù)據(jù)來源及介紹
本文所用數(shù)據(jù)來源于UCI中的Online News Popularity數(shù)據(jù)集[9],該數(shù)據(jù)集是整合兩年內(nèi)刊登在Mashable (www.mashable.com)上的文章作為數(shù)據(jù)集,共計39 797條有效文章記錄,其中每篇文章特征屬性采集60項.
表1 社交網(wǎng)站文章主要屬性表
注:文章全體屬性詳見http://archive.ics.uci.edu/ml/datasets/Online+News+Popularity
3主成分分析
主成分分析是將眾多有相關(guān)性的屬性指標重組成一組新的不相關(guān)指標作為綜合評價指標的過程.由表1可以看出,影響社交網(wǎng)站文章熱度的因素過于繁多,在沒有進行深入地化簡和分析的情況下,預測結(jié)果并不理想.針對這一問題,本文對數(shù)據(jù)進行了主成分分析,對多變量的問題組合成一個綜合的評價指標,用這些綜合指標來描述這組數(shù)據(jù).
3.1利用SPSS軟件進行主成分分析
步驟一:對表1的原始數(shù)據(jù)采集p(p=60)維的隨機向量x=(x1,x2,…,xp)T的n(n=39 797)個樣本xi=(xi1,xi2,…,xip)Ti=1,2…,n,構(gòu)造樣本矩陣并進行如下標準化變換:
步驟四:將標準化后的指標變量轉(zhuǎn)換成主成分,其中Up對應第p個主成分.
步驟五:對主成分進行加權(quán)求和求得累計貢獻率(權(quán)數(shù)為每個成分的貢獻率).
結(jié)果如表2.
由表2可知,第一到第七主成分的累積貢獻率分別為75.92%,77.73%,79.47%,81.1%,82.62%,84.06%,85.41%,因此,只需m取7就能很好地概括這組數(shù)據(jù).由于8~60因子累計貢獻率皆超過85%,故在表2中省略,并未列出計算結(jié)果.
3.2決定網(wǎng)站文章熱度關(guān)鍵因素分析結(jié)果
本文利用SPSS軟件對數(shù)據(jù)屬性進行主成分分析后,結(jié)合網(wǎng)站文章熱度實際背景合理的給出影響網(wǎng)站文章熱度特征,經(jīng)計算發(fā)現(xiàn),60個因子中有53個因子的載荷接近于0,或很小可以忽略不計,因此,表3只列出主要影響因子.
表3 影響因子在各主成分上的載荷
由表3描述的主成分在不同因子上的載荷可知,7個主成分側(cè)重方面有所不同,其中7個因子對第一主成分瀏覽次數(shù)影響都很大.第二主成分引用次數(shù)側(cè)重于shares ,num_keywords因子,載荷分別為0.55、0.54,第三主成分跳轉(zhuǎn)次數(shù)與num_self_hrefs息息相關(guān), global_subjectivity,rate_positive_words兩個因子在第四主成分語句極性與第五主成分評論極性上占有很大載荷.第六主成分相似率則側(cè)重于num_keywords因子,第七主成分平均共享中num_hrefs因子載荷較大為0.64,shares因子與所有主成分都有密切關(guān)系.
3.2流行度評價標準[10]
本文對數(shù)據(jù)集共享數(shù)這一屬性進行25%、50%、75%的四分位處理,得到對于預測結(jié)果的分類標準,[1,944]對應預測數(shù)為1(文章熱度為差),[945,1400]對應預測數(shù)為2(文章熱度中等),[1401,2700]對應預測數(shù)為3(文章熱度良好),[2701,39465]對應預測數(shù)為4(文章熱度為優(yōu)).
4試驗與結(jié)果分析
本文Mashable文章數(shù)據(jù)集包含39 797個,選擇數(shù)據(jù)集中的85%為訓練樣本,剩下的15%為檢驗樣本,利用兩種神經(jīng)網(wǎng)絡對文章共享數(shù)進行預測分類對比結(jié)果如下.
表4 兩種算法性能對比
由表4可見,RBF神經(jīng)網(wǎng)絡算法在文章熱度分類中準確率達到了94.5%,模型指標R2達到了0.85,相比之下算法表現(xiàn)皆優(yōu)于BP神經(jīng)網(wǎng)絡.
5結(jié)論
通過以上BP神經(jīng)網(wǎng)絡和RBF神經(jīng)網(wǎng)絡對網(wǎng)站文章熱度的對比研究,結(jié)果表明,BP神經(jīng)網(wǎng)絡和RBF神經(jīng)網(wǎng)絡對訓練樣本皆有很好的仿真效果,但RBF神經(jīng)網(wǎng)絡算法在社交網(wǎng)站文章熱度分類中具有更快的分類速度和更高的準確率(準確率達到94.5%,速度達到35s),相比BP神經(jīng)網(wǎng)絡顯得更為優(yōu)越.本文結(jié)論為基于人工神經(jīng)網(wǎng)絡對社交網(wǎng)站文章熱度分類提供較好的技術(shù)和方法.
參考文獻:
[1]Corporation H P. Impact of Bursty Human Activity Patterns on the Popularity of Online Content [J]. Discrete Dynamics in Nature & Society,2012,31(4):1293-1309.
[2]Szabo G,Huberman B.Predicting the popularity of online content[J].Social Science Electronic Publishing,2008,53(8):80-88.
[3]Zhong L, Liu L, Zou C, et al. The application of neural network in lifetime prediction of concrete[J]. Journal of Wuhan University of Technology-Mater Sci Ed, 2002, 17(1):79-81.
[4]Zhou X, Zhang S, Xie X, et al. Application of BP Neutral Networks to Water Demand Prediction of Shenyang City Based on Principle Component Analysis[C]// Intelligent Computation Technology and Automation (ICICTA), 2014 7th International Conference on. IEEEs, 2014:912-915.
[5]蔡兵.BP神經(jīng)網(wǎng)絡隱層結(jié)構(gòu)的設計方法[J].通化師范學院學報,2007,28(2):18-19.
[6]袁景凌, 陶海征. Prediction of free lime content in cement clinker based on RBF neural network [J]. Journal of Wuhan University of Technology-Mater. Sci. Ed., 2012, 27(1):187-190.
[7]張德豐.MATLAB神經(jīng)網(wǎng)絡應用設計[M].2009.
[8]吳懋剛,潘永惠,范蕤.基于優(yōu)化RBF神經(jīng)網(wǎng)絡的縫紉平整度客觀評價[J].通化師范學院學報,2010,31(10):37-38.
[9]Szabo G,Huberman B A.Predicting the popularity of online content press,2008.
[10]De'Ath G,Fabricus K E.Classification and Regression Trees:A Powerful Yet Simple Technique for Ecological Data Analysis." Ecology[J].Ecology,2000,81(11):3178-3192.
(責任編輯:王前)
Research on Classification of the Popularity of Social Networking Sites' Articles
LIU Jia
(CollegeofBasicScience,ChangchunUniversityofTechnology,ChangChun,Jilin130012,China)
Abstract:In this paper,the social networking sites-Mashable is taken for an example.The Online News Popularity data-sets from UCI datasets is acquired and the relevant attributes is extracted. At the same time, the classification criteria is described. In order to analyze the correlations between the 60 features, the principal component analysis is used, and some most important features are extracted. In order to get the more accurate and faster algorithm, the two artificial neutral network separately is used and a comparison of the two algorithms is made. The experimental results indicate that RBF neutral network, whose classification accuracy rate is 94.5% and the R2 of the model is 0.85, get the better prediction performance .
Keywords:social networking
中圖分類號:TP274
文獻標志碼:A
文章編號:1008-7974(2015)06-0056-04
作者簡介:劉佳,女,吉林白城人,碩士研究生.
基金項目:國家自然科學基金項目 “基于三維隨機模擬的傍河型水源地污染物遷移規(guī)律研究” (51278065);吉林省科技計劃項目 “向量優(yōu)化問題的路徑跟蹤算法研究” (20130101061)
收稿日期:*2015-06-20
DOI:10.13877/j.cnki.cn22-1284.2015.12.018