国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于并行決策樹的微博互動(dòng)數(shù)預(yù)測

2017-07-03 15:28:29黃林昊郭昆
關(guān)鍵詞:博文級(jí)數(shù)決策樹

黃林昊, 郭昆

(1.福建廣播電視大學(xué) 電子信息與計(jì)算機(jī)系, 福建 福州 350012; 2.福州大學(xué) 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院, 福建 福州 350116)

基于并行決策樹的微博互動(dòng)數(shù)預(yù)測

黃林昊1, 郭昆2

(1.福建廣播電視大學(xué) 電子信息與計(jì)算機(jī)系, 福建 福州 350012; 2.福州大學(xué) 數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院, 福建 福州 350116)

社交網(wǎng)絡(luò)的快速發(fā)展,微博成為主要的社交媒體平臺(tái),針對(duì)如何預(yù)測微博文本的未來互動(dòng)數(shù),對(duì)微博進(jìn)行有效的分發(fā)控制的問題,提出一種基于并行決策樹的微博互動(dòng)數(shù)所屬級(jí)數(shù)預(yù)測的方法。首先,對(duì)用戶以往發(fā)表的微博進(jìn)行用戶特征和微博文本特征的處理;然后,使用并行決策樹分類算法對(duì)訓(xùn)練數(shù)據(jù)進(jìn)行分類模型的構(gòu)建;最后使用得到的分類模型對(duì)新微博文本的互動(dòng)數(shù)所屬級(jí)數(shù)進(jìn)行分類預(yù)測。通過對(duì)比算法的實(shí)驗(yàn),驗(yàn)證了所提方法具有較高的分類精度和較好的可擴(kuò)展性,能夠?qū)ξ⒉┧鶎偌?jí)數(shù)進(jìn)行有效的分類預(yù)測。

微博; 互動(dòng)數(shù); 并行; 決策樹; 預(yù)測

近年來,隨著互聯(lián)網(wǎng)技術(shù)、移動(dòng)端技術(shù)的快速發(fā)展,特別是移動(dòng)網(wǎng)絡(luò)為代表的移動(dòng)互聯(lián)網(wǎng)技術(shù)的迅速發(fā)展,根據(jù)第36次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》的報(bào)告,截止2015年6月,中國網(wǎng)民的規(guī)模已經(jīng)達(dá)到了6.68億,其中互聯(lián)網(wǎng)的普及率達(dá)到48.8%,這個(gè)發(fā)展速度還在不斷增加,其中手機(jī)網(wǎng)民規(guī)模達(dá)到了5.94億,是互聯(lián)網(wǎng)網(wǎng)民的主力軍。這也帶動(dòng)了社交網(wǎng)絡(luò)的迅速發(fā)展,而目前對(duì)于社交網(wǎng)絡(luò)的研究主要集中在個(gè)性化內(nèi)容推薦[1]、社群挖掘[2]、熱點(diǎn)話題檢測[3]等方面。

微博作為社交網(wǎng)絡(luò)中一個(gè)主要的社交媒體平臺(tái),可幫助用戶發(fā)布的公開內(nèi)容進(jìn)行快速傳播互動(dòng),它以較短的文字消息,在較短的時(shí)間內(nèi)通過用戶的傳播達(dá)到信息的快速傳播、共享,用以提高用戶和內(nèi)容的影響力,受到很多人的熱愛。以國內(nèi)主要的微博平臺(tái)——新浪微博為例,目前已經(jīng)超過5億個(gè)注冊(cè)用戶,截止2015年9月,其微博的月活躍用戶人數(shù)已經(jīng)達(dá)到2.22億,與2014年9月同比增長33%,而日活躍用戶達(dá)到了1億,比2014年同期增長30%。微博平臺(tái)的發(fā)展完善,使其使用率不斷提高,用戶量持續(xù)增長,每天產(chǎn)生數(shù)以億計(jì)的微博文本數(shù)量。如何對(duì)這些微博進(jìn)行快速的分析挖掘[4],找到受眾認(rèn)可度高的微博文本,對(duì)這些文本進(jìn)行有效的分發(fā)控制,以提高受眾認(rèn)可度高的微博文本的曝光量和內(nèi)容傳播的互動(dòng)量,具有重要的研究意義。

微博用一種短文本的形式表達(dá)用戶的狀態(tài)或心情,這些微博文本會(huì)被其他用戶進(jìn)行轉(zhuǎn)發(fā)分享提高其傳播量,同時(shí)用戶也可以對(duì)微博進(jìn)行評(píng)論、點(diǎn)贊等行為操作。一條微博若被用戶大量的轉(zhuǎn)發(fā)或評(píng)論或點(diǎn)贊等操作,可見其是一條比較有意義、有價(jià)值、受眾認(rèn)可度高的微博文本。若能提前發(fā)現(xiàn)這些互動(dòng)數(shù)即微博轉(zhuǎn)發(fā)數(shù)、微博評(píng)論數(shù)和微博點(diǎn)贊數(shù)高的微博文本,進(jìn)行有效的分發(fā)控制,這對(duì)提高這些微博文本的曝光量具有重要的意義。

近年來,國內(nèi)外專家、學(xué)者也對(duì)社交網(wǎng)絡(luò)中的微博文本的挖掘分析進(jìn)行了廣泛的研究。Boyd等人對(duì)Twitter即類似國內(nèi)的新浪微博的一個(gè)社交平臺(tái)進(jìn)行研究,研究人們對(duì)Twitter上的Retweet操作即轉(zhuǎn)發(fā)操作,研究其Retweet的動(dòng)機(jī),并對(duì)Retweet的文本內(nèi)容進(jìn)行主題傾向等方面的研究[5-6]。Zan 等人選取用戶名、關(guān)注人數(shù)、Twitter包含的單詞個(gè)數(shù)等特征,然后基于一種概率的協(xié)同過濾模型Matchbox[7],對(duì)用戶轉(zhuǎn)發(fā)Twitter的行為進(jìn)行預(yù)測[8],該方法簡單地將用戶特征和微博特征抽取出來進(jìn)行預(yù)測,沒有考慮用戶興趣和微博內(nèi)容之間的關(guān)系。楊子等對(duì)Twitter中用戶轉(zhuǎn)發(fā)行為提取了22個(gè)影響因素,使用因子圖模型進(jìn)行了轉(zhuǎn)發(fā)行為的預(yù)測,獲得了比較高的精度,但其對(duì)特征的量化處理過程比較簡單,導(dǎo)致信息傳播路徑預(yù)測的精度比較低[9]。Liben-Nowell等人對(duì)真實(shí)的社會(huì)網(wǎng)絡(luò)中的傳播特征和一些相關(guān)的問題進(jìn)行了比較全面的研究,明確指出想要精確地預(yù)測信息的傳播路徑是比較困難的,用簡單的模型進(jìn)行預(yù)測得到的結(jié)果與真實(shí)的結(jié)果相差比較大[10]。Fan等人通過對(duì)新浪微博的拓?fù)浣Y(jié)構(gòu)和信息擴(kuò)散情況進(jìn)行研究,指出新浪微博具有小世界和無標(biāo)度特性的拓?fù)浣Y(jié)構(gòu),其中熱門事件的擴(kuò)散拓?fù)浣Y(jié)構(gòu)呈現(xiàn)星形或兩級(jí)的結(jié)構(gòu)[11]。Webberley等人對(duì)微博中的傳播擴(kuò)散進(jìn)行研究,指出微博的信息傳播和擴(kuò)散主要是依靠用戶轉(zhuǎn)發(fā)產(chǎn)生的,且一條微博的轉(zhuǎn)發(fā)鏈具有一定的長度,隨著微博的一次次轉(zhuǎn)發(fā),其被轉(zhuǎn)發(fā)的概率隨著微博鏈的長度的增加而減小[12]。謝婧等人研究微博用戶中的轉(zhuǎn)發(fā)人群和未轉(zhuǎn)發(fā)人群的微博內(nèi)容、粉絲數(shù)、關(guān)注數(shù)等特征,基于貝葉斯預(yù)測模型提出一種新的預(yù)測用戶轉(zhuǎn)發(fā)行為的方法[13]??餂_等人根據(jù)貝葉斯個(gè)性化排序優(yōu)化標(biāo)準(zhǔn)和分解機(jī)制,提出了一種對(duì)微博轉(zhuǎn)發(fā)者進(jìn)行預(yù)測的方法[14]。

目前研究者對(duì)國外的Twitter研究比較多,而對(duì)國內(nèi)的微博研究相對(duì)較少,且更多的是對(duì)微博文本被轉(zhuǎn)發(fā)的行為進(jìn)行預(yù)測研究,對(duì)于微博本身的互動(dòng)數(shù)的研究相對(duì)較少。本研究以國內(nèi)的新浪微博為例,利用微博發(fā)表用戶的特征和微博文本自身的特征,提出一種基于決策樹的微博互動(dòng)數(shù)預(yù)測方法。同時(shí)為了適應(yīng)海量微博文本數(shù)據(jù)的挖掘分析,利用Spark框架將方法進(jìn)行并行化處理,以提高方法處理海量微博的能力。在真實(shí)的新浪微博數(shù)據(jù)上和對(duì)比不同算法進(jìn)行實(shí)驗(yàn)分析,驗(yàn)證所提出方法的有效性和可擴(kuò)展性。

1 相關(guān)理論基礎(chǔ)

1.1 新浪微博互動(dòng)行為

新浪微博是國內(nèi)主要的用戶進(jìn)行交流、分享的社交媒體平臺(tái),,受到大眾的喜愛。新浪微博文本以短信息的形式進(jìn)行傳播,其要求一條博文長度不能超過140個(gè)字符,用戶可以對(duì)微博進(jìn)行轉(zhuǎn)發(fā)、評(píng)論、點(diǎn)贊的操作。新浪微博文本的價(jià)值信息可以通過其他用戶對(duì)該微博文本的評(píng)價(jià)情況進(jìn)行體現(xiàn),而對(duì)微博文本的評(píng)價(jià)方面主要可以從微博的轉(zhuǎn)發(fā)數(shù)、評(píng)論數(shù)和點(diǎn)贊數(shù)3方面即微博的互動(dòng)數(shù)進(jìn)行體現(xiàn)。一條原創(chuàng)的微博,通過其轉(zhuǎn)發(fā)、評(píng)論、點(diǎn)贊等互動(dòng)行為能夠體現(xiàn)其他用戶對(duì)該原創(chuàng)微博內(nèi)容的興趣程度。

微博轉(zhuǎn)發(fā),用戶通過點(diǎn)擊轉(zhuǎn)發(fā)按鈕即可實(shí)現(xiàn)對(duì)原創(chuàng)微博的轉(zhuǎn)發(fā)。微博轉(zhuǎn)發(fā)行為是微博能夠快速傳播的主要原因,轉(zhuǎn)發(fā)時(shí)用戶可以對(duì)微博加以評(píng)論,形成新的微博文本,如圖1所示。同時(shí)轉(zhuǎn)發(fā)會(huì)使該微博的轉(zhuǎn)發(fā)數(shù)進(jìn)行累加,這樣微博被一個(gè)用戶接一個(gè)用戶地轉(zhuǎn)發(fā),形成一條轉(zhuǎn)發(fā)微博鏈,微博格式如://@username:微博內(nèi)容//@username:微博內(nèi)容。

圖1 微博轉(zhuǎn)發(fā)Fig.1 Micro-blog forwarding

微博評(píng)論,用戶可以直接在某條微博文本的下方進(jìn)行評(píng)論,表達(dá)自己對(duì)該微博文本的認(rèn)識(shí)。同時(shí)被評(píng)論微博的評(píng)論數(shù)會(huì)相應(yīng)地累加。

微博點(diǎn)贊,用戶可以直接點(diǎn)擊微博的“贊”的按鈕,即可對(duì)該微博進(jìn)行點(diǎn)贊,以表達(dá)用戶對(duì)該微博的認(rèn)可度。同時(shí)被點(diǎn)贊的微博的點(diǎn)贊數(shù)會(huì)相應(yīng)地累加。

1.2 Spark分布式并行計(jì)算

Spark是Apache的一個(gè)開源項(xiàng)目,是近年來發(fā)展較快的分布式并行數(shù)據(jù)處理框架,是伯克利大學(xué)在2012年提出的一種基于內(nèi)存的分布式計(jì)算框架[15],它允許重復(fù)地使用加載到內(nèi)存中的數(shù)據(jù),并且可以將計(jì)算的中間結(jié)果持久地保存在內(nèi)存中[16],從而減少磁盤IO操作,提高數(shù)據(jù)運(yùn)算效率。Spark采用了一種新的數(shù)據(jù)抽象模型即彈性分布式數(shù)據(jù)集(resilient distributed dataset,RDD),使其能夠在多次迭代計(jì)算過程中重復(fù)利用內(nèi)存數(shù)據(jù),這也是Spark的核心,是一個(gè)不可變的帶分區(qū)的記錄集合。RDD的基本操作包括Transformation和Action[17],其中Transformation是得到一個(gè)新的RDD,可以從數(shù)據(jù)源或是RDD中生成,而Action是得到一個(gè)結(jié)果。Transformation是采用懶策略,只有當(dāng)Action提交時(shí)才執(zhí)行相應(yīng)計(jì)算。

Spark廣泛應(yīng)用在計(jì)算量大、效率要求高的場景當(dāng)中,通常在互聯(lián)網(wǎng)廣告、報(bào)表、推薦系統(tǒng)等業(yè)務(wù)中做應(yīng)用分析、效果分析與優(yōu)化。例如騰訊大數(shù)據(jù)精準(zhǔn)推薦利用Spark快速迭代實(shí)現(xiàn)實(shí)時(shí)并行高維算法;淘寶技術(shù)團(tuán)隊(duì)將Spark應(yīng)用于淘寶推薦相關(guān)算法,還利用GraphX解決生產(chǎn)問題。

1.3 決策樹分類

決策樹分類方法是一個(gè)比較經(jīng)典的分類算法,它通過使用樹的結(jié)構(gòu)來記錄數(shù)據(jù)分類的規(guī)則,即每個(gè)樹的葉節(jié)點(diǎn)代表某個(gè)條件下的一個(gè)數(shù)據(jù)記錄集。根據(jù)數(shù)據(jù)屬性字段的不同取值建立樹的分支,然后在每個(gè)分支子集上重復(fù)建立下層的分支節(jié)點(diǎn),最終生成一顆樹。對(duì)生成的原始的決策樹進(jìn)行修剪,可以很快地得到具有商業(yè)價(jià)值的信息,以供決策者決策時(shí)參考。決策樹分類一般分為兩個(gè)步驟[18]:(1)使用訓(xùn)練數(shù)據(jù)集合進(jìn)行學(xué)習(xí),形成決策樹分類模型的構(gòu)建;(2)利用已經(jīng)得到的分類模型對(duì)未知的數(shù)據(jù)進(jìn)行分類。

決策樹分類最重要的是選擇屬性進(jìn)行樹的分裂。其中引用率較高的決策樹算法ID3算法使用信息增益來進(jìn)行屬性的劃分。信息增益是基于信息熵進(jìn)行屬性選擇的,一棵決策樹對(duì)一個(gè)記錄數(shù)據(jù)進(jìn)行判斷所需要的信息熵如式(1)所示:

(1)

其中D是用于存放數(shù)據(jù)記錄的,pi是數(shù)據(jù)記錄D中任意記錄屬于Ci的非零概率,用|Ci|/|D|進(jìn)行估計(jì)[19]。而信息增益是原來的信息需求與新的信息需求(對(duì)屬性A進(jìn)行劃分之后)之間的差,如式(2)所示:

(2)

信息增益的決策樹使用信息增益最大的屬性作為樹節(jié)點(diǎn)的劃分,即最小化InfoA(D)。

2 互動(dòng)數(shù)預(yù)測

2.1 數(shù)據(jù)描述與特征提取

數(shù)據(jù)選取天池大數(shù)據(jù)科研平臺(tái)(https://tianchi.shuju.aliyun.com)提供的新浪微博文本數(shù)據(jù),包含了2015-02-01~2015-07-31部分用戶發(fā)表的微博文本數(shù)據(jù),共計(jì)1 626 750條微博文本。其中微博數(shù)據(jù)包含的內(nèi)容如表1所示。微博文本互動(dòng)數(shù)預(yù)測是預(yù)測一條微博發(fā)表1周之后,被用戶轉(zhuǎn)發(fā)、評(píng)論、點(diǎn)贊的數(shù)量,同時(shí)對(duì)于數(shù)量的預(yù)測關(guān)注的是這個(gè)數(shù)量所屬的一個(gè)數(shù)量級(jí),高級(jí)別的互動(dòng)數(shù)受到大眾認(rèn)可度高,具有較高的價(jià)值。因此將微博的互動(dòng)數(shù)量分為5級(jí),分別是第1級(jí)互動(dòng)數(shù)最少,幾乎沒有互動(dòng)數(shù),即互動(dòng)數(shù)為0到5的微博;第2級(jí)互動(dòng)數(shù)較少,為6到10的微博;第3級(jí)互動(dòng)數(shù)一般為11到50的微博;第4級(jí)的互動(dòng)數(shù)較高,為51到100;第5級(jí)的互動(dòng)數(shù)最高,具有最高的大眾認(rèn)可度,即互動(dòng)數(shù)大于100的微博。

表1 微博數(shù)據(jù)格式

由于數(shù)據(jù)中只有微博文本的發(fā)表時(shí)間等信息,其所具有的特征信息比較稀少,難以直接進(jìn)行有效的分析,需要提取用戶發(fā)表的微博文本背后的一些特征信息,主要分為用戶特征和微博特征。用戶特征指的是用戶發(fā)表微博所得到的互動(dòng)數(shù)的特點(diǎn),而微博特征指的是微博文本本身的特點(diǎn)使其互動(dòng)數(shù)發(fā)生變化的特性。

用戶發(fā)表的微博特性,主要關(guān)注于用戶自身是否是一個(gè)比較受歡迎,被大量用戶關(guān)注的用戶,即其具有的粉絲數(shù)量等,可以從用戶以往發(fā)表的微博的互動(dòng)數(shù)情況進(jìn)行側(cè)面反映。本研究提取了用戶的11個(gè)特性如表2所示。

表2 用戶特征

微博文本的特征,主要是通過識(shí)別微博文本本身的特性,判斷其是否是一條受大眾認(rèn)可喜歡的微博文本,對(duì)以往的微博文本進(jìn)行挖掘提取,判斷微博是否是原創(chuàng)微博,微博中“@”符號(hào)的個(gè)數(shù),微博中是否有網(wǎng)頁鏈接等特點(diǎn)。本研究提取微博文本7個(gè)主要特征,如表3所示。

表3 微博文本特征

2.2 流程設(shè)計(jì)

基于Spark框架對(duì)所設(shè)計(jì)的微博互動(dòng)數(shù)預(yù)測流程如下:

(1)對(duì)原始數(shù)據(jù)進(jìn)行采集劃分,得到訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)兩個(gè)數(shù)據(jù)集;

(2)對(duì)數(shù)據(jù)進(jìn)行特征的提取轉(zhuǎn)化等預(yù)處理操作;

(3)使用基于Spark的分類算法對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行訓(xùn)練,得到分類模型;

(4)使用得到的分類模型對(duì)測試集數(shù)據(jù)進(jìn)行分類以預(yù)測其未來的互動(dòng)數(shù)所屬級(jí)數(shù);

(5)對(duì)分類得到的結(jié)果進(jìn)行驗(yàn)證,得到分類模型的準(zhǔn)確度,具體流程如圖2所示。

2.3 評(píng)估指標(biāo)

對(duì)分類模型的準(zhǔn)確性與有效性指標(biāo)的判定可以通過其混淆矩陣進(jìn)行計(jì)算得到[20]。通過混淆矩陣(表4)可以計(jì)算分類模型的正確率如公式3所示,正確率越高代表模型分類結(jié)果越好。

圖2 決策樹訓(xùn)練測試流程Fig.2 Parallel decision tree training testing process

表4 分類結(jié)果混淆矩陣

(3)

由于對(duì)微博文本的互動(dòng)數(shù)的預(yù)測是預(yù)測其所屬的級(jí)數(shù),通過不同的級(jí)數(shù)可看出該微博的一個(gè)受認(rèn)可度情況,對(duì)不同的微博文本預(yù)測結(jié)果更看重互動(dòng)數(shù)級(jí)數(shù)高的微博能否被分類正確。對(duì)微博互動(dòng)數(shù)預(yù)測結(jié)果根據(jù)不同的級(jí)數(shù)賦予不同的權(quán)重值如表5所示,最后計(jì)算所有微博的分類結(jié)果的加權(quán)分?jǐn)?shù),分?jǐn)?shù)越高代表分類結(jié)果越好,如公式4所示。

表5 權(quán)重系數(shù)

(4)

3 實(shí)驗(yàn)結(jié)果分析

3.1 精度分析

由于微博文本的時(shí)效性特征,對(duì)微博文本的互動(dòng)數(shù)預(yù)測,應(yīng)從距離微博文本較近的時(shí)間段內(nèi)的數(shù)據(jù)進(jìn)行用戶特征的提取,所以選取2015年4月到6月共3個(gè)月的微博文本數(shù)據(jù)作為訓(xùn)練集,用以構(gòu)建分類模型,用2015年7月份的數(shù)據(jù)作為測試數(shù)據(jù),以驗(yàn)證分類模型的準(zhǔn)確度。

通過與基于Spark的決策樹(decision trees,DT)、基于Spark的樸素貝葉斯(naive Bayes,NB)和基于Spark的邏輯回歸(logistic regression,LG)在訓(xùn)練數(shù)據(jù)集上進(jìn)行構(gòu)建分類模型,在測試集上驗(yàn)證分類模型得到的結(jié)果如表6所示。

表6 實(shí)驗(yàn)結(jié)果

圖3 互動(dòng)數(shù)平均實(shí)驗(yàn)結(jié)果Fig.3 The average of interaction experimental result

從實(shí)驗(yàn)結(jié)果可以看出,從微博文本中提出的用戶特征和微博文本特征,能夠使分類算法有效地對(duì)新的微博文本進(jìn)行預(yù)測分類,3個(gè)算法均有較高的正確率,但本研究所提出的基于決策樹的分類結(jié)果具有最高的正確率。同時(shí)通過對(duì)不同的微博文本級(jí)數(shù)的分類,本研究所提出的決策樹方法分類的結(jié)果的Score得分最高,能夠?qū)ξ⒉┗?dòng)數(shù)級(jí)數(shù)高的文本進(jìn)行正確的分類,而另外兩個(gè)分類算法雖然有較高的正確率,但在級(jí)數(shù)高的微博文本中未能有效地識(shí)別,導(dǎo)致其Score得分不高。

3.2 擴(kuò)展性實(shí)驗(yàn)

為進(jìn)一步驗(yàn)證算法的可擴(kuò)展性能力,通過使用不同的集群規(guī)模對(duì)所提出的方法進(jìn)行擴(kuò)展性實(shí)驗(yàn),計(jì)算算法運(yùn)行時(shí)的加速比,公式如5所示:

(5)

其中Ts表示單機(jī)版算法運(yùn)行所消耗的時(shí)間,Tp表示并行版算法運(yùn)行所消耗的時(shí)間,p表示并行的節(jié)點(diǎn)個(gè)數(shù)。算法的加速比結(jié)果如圖4所示。

圖4 不同集群規(guī)模加速比Fig.4 Different clusters scale acceleration ratios

從圖4不同集群規(guī)模加速比的實(shí)驗(yàn)結(jié)果可以發(fā)現(xiàn),隨著集群規(guī)模的增加,算法運(yùn)行的速度加快,加速比增加。當(dāng)集群規(guī)模從1增加到4時(shí),加速比增長迅速,因?yàn)樗惴▽?shù)據(jù)分散到各個(gè)節(jié)點(diǎn)進(jìn)行運(yùn)行,進(jìn)而減少了算法處理所需要的時(shí)間,大大提高了整體的運(yùn)行速度。但隨著集群規(guī)模的不斷增加,加速比的增長速度變慢,這是因?yàn)殡S著集群規(guī)模的增加,算法需要耗費(fèi)更多的時(shí)間在數(shù)據(jù)傳輸和調(diào)度上,從而導(dǎo)致了加速比增長緩慢??梢娝岢龅幕赟park的并行決策樹方法具有較好的可擴(kuò)展性能力。

4 結(jié)語

新浪微博作為國內(nèi)主要的社交媒體平臺(tái),如何對(duì)一條微博文本的互動(dòng)數(shù)進(jìn)行有效的預(yù)測,進(jìn)而根據(jù)互動(dòng)數(shù)級(jí)數(shù)對(duì)微博文本進(jìn)行有效的分發(fā)控制管理具有非常重要的意義。本研究首先通過對(duì)用戶發(fā)表的微博進(jìn)行有效的用戶特征和微博文本自身特征的提取。然后基于Spark分布式框架使用決策樹分類算法對(duì)數(shù)據(jù)進(jìn)行分類模型的構(gòu)建。最后在新的微博文本上使用分類模型進(jìn)行分類以驗(yàn)證分類模型的有效性。通過與并行的樸素貝葉斯和邏輯回歸分類算法的對(duì)比實(shí)驗(yàn),驗(yàn)證所提出的基于決策樹分類算法的微博互動(dòng)數(shù)預(yù)測的有效性與可擴(kuò)展性能力,能夠?qū)ξ⒉┪谋疚磥淼幕?dòng)數(shù)級(jí)數(shù)進(jìn)行正確的分類。接下來,將對(duì)微博的文本內(nèi)容進(jìn)行內(nèi)容挖掘分析研究,提取更多有價(jià)值的特征,以進(jìn)一步提高互動(dòng)數(shù)級(jí)數(shù)高的微博文本的分類正確率。

[1] 王潔,湯小春.基于社區(qū)網(wǎng)絡(luò)內(nèi)容的個(gè)性化推薦算法研究[J].計(jì)算機(jī)應(yīng)用研究,2011,28(4):1248-1250.

[2] Yang B, Cheung W, Liu J. Community mining from signed social networks[J].IEEE Transactions on Knowledge and Data Engineering,2007,19(10):1333-1348.

[3] Phuvipadawat S,Murata T.Breaking news detection and tracking in Twitter[C]//2010IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology (WI-IAT),Aug.31-Sept.3,2010,Toronto,Ontario,Canada.Washington:IEEE Computer Society,2010,3:120-123.

[4] 曹玖新,吳江林,石偉,等.新浪微博網(wǎng)信息傳播分析與預(yù)測[J].計(jì)算機(jī)學(xué)報(bào),2014,37(4):779-790.

[5] Boyd D, Golder S, Lotan G. Tweet, tweet, retweet: Conversational aspects of retweeting on twitter[C]//43rd Hawaii International Conference on System Sciences (HICSS),Koloa, Kauai,Havaii.Jan 5-8,2010.Washington:IEEE,2010:1-10.

[6] Kwak H, Lee C, Park H, et al.What is Twitter, a social network or a news media?[C]//Proceedings of the 19th International Conference on World Wide Web. Apr 26-30,2010, Raleigh,North Carolina,USA.New York:ACM,2010:591-600.

[7] Stern D H, Herbrich R, Graepel T. Matchbox: large scale online Bayesian recommendations[C]//Proceedings of the 18th International Conference on World Wide Web. Apr 20-24,2009, Madrid,Spain. New York:ACM,2009:111-120.

[8] Zaman T R, Herbrich R, Van Gael J, et al. Predicting information spreading in twitter[J]. Computational Social Science and the Wisdom of Crowds. Citeseer,2010,104(45):17599-17601.

[9] Yang Z,Guo J,Cai K, et al. Understanding retweeting behaviors in social networks[C]//Proceedings of the 19th ACM International Conference on Information and Knowledge Management. Oct 26-30,2010, Toronto,ON,Canada. New York: ACM,2010:1633-1636.

[10] Liben-Nowell D, Kleinberg J. Tracing information flow on a global scale using Internet chain-letter data[J].Proceedings of the National Academy of Sciences,2008,105(12):4633-4638.

[11] Fan P, Li P, Jiang Z, et al. Measurement and analysis of topology and information propagation on Sina-Microblog[C]//2011 IEEE International Conference on Intelligence and Security Informatics(ISI), July 9-12,2011, Beijing China. Washington:IEEE,2011:396-401.

[12] Webberley W,Allen S,Whitaker R.Retweeting: A study of message-forwarding in twitter[C]//2011 Workshop on Mobile and Online Social Networks (MOSN), Sept 8,2011, Milan,Italy. Washington:IEEE,2011:13-18.

[13] 謝婧,劉功申,蘇波,等.社交網(wǎng)絡(luò)中的用戶轉(zhuǎn)發(fā)行為預(yù)測[J].上海交通大學(xué)學(xué)報(bào),2013,47(4):585-588.

[14] 匡沖,劉知遠(yuǎn),孫茂松.微博轉(zhuǎn)發(fā)者的個(gè)性化排序[J].山東大學(xué)學(xué)報(bào)(理學(xué)版),2014,49(11):31-36.

[15] 嚴(yán)玉良,董一鴻,何賢芒,等.FSMBUS:一種基于Spark 的大規(guī)模頻繁子圖挖掘算法[J].計(jì)算機(jī)研究與發(fā)展,2015,52(8):1768-1783.

[16] 丁圣勇,閔世武,樊勇兵.基于Spark平臺(tái)的NetFlow流量分析系統(tǒng)[J].電信科學(xué),2014,30(10):48-51.

[17] 牛海玲,魯慧民,劉振杰.基于Spark 的Apriori算法的改進(jìn)[J].東北師大學(xué)報(bào)(自然科學(xué)版),2016,48(1):84-89.

[18] 徐鵬,林森.基于 C4.5 決策樹的流量分類方法[J].軟件學(xué)報(bào),2009,20(10):2692-2704.

[19] 韓家煒,坎伯.數(shù)據(jù)挖掘:概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2012:213-222.

[20] 陳羽中,郭松榮,陳宏,等.基于并行分類算法的電力客戶欠費(fèi)預(yù)警[J].計(jì)算機(jī)應(yīng)用,2016,36(6):1757-1761.

(特約編輯:黃家瑜)

Interaction number prediction of micro-blog based on parallel decision tree

Huang Linhao1, Guo Kun2

(1. Electronic Information and Computer Department, Fujian Radio and TV University, Fuzhou 350012, China; 2. College of Mathematics and Computer Science, Fuzhou University, Fuzhou 350116, China)

To predict the future interaction number of micro-blog texts to implement effective distribution control of micro-blogs, a method of forecasting the series number of micro-blog interaction numbers based on parallel decision tree was proposed. Firstly, the user characteristics and micro-blog text features of the user’s previous micro-blog were processed. Then, a classification model of the training data was constructed via a parallel decision tree classification algorithm. Finally, the series number of the interaction number of new micro-blog texts was classified via the classification model. The experimental results show that the proposed method has high classification accuracy and good scalability and can effectively forecast micro-blog series.

micro-blog; interaction number; parallel decision tree; forecast

10.3969/j.issn.1672-4348.2017.03.019

2017-03-22

國家自然科學(xué)基金資助項(xiàng)目(61300104);福建省教育廳資助項(xiàng)目(JA14349)

黃林昊(1979-),男,福建福州人,講師,碩士,研究方向:移動(dòng)應(yīng)用、信息安全與數(shù)據(jù)挖掘。

TP 311.5

A

1672-4348(2017)03-0294-07

猜你喜歡
博文級(jí)數(shù)決策樹
第一次掙錢
一種針對(duì)不均衡數(shù)據(jù)集的SVM決策樹算法
Dirichlet級(jí)數(shù)及其Dirichlet-Hadamard乘積的增長性
決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
電子制作(2018年16期)2018-09-26 03:27:06
誰和誰好
幾個(gè)常數(shù)項(xiàng)級(jí)數(shù)的和
基于決策樹的出租車乘客出行目的識(shí)別
Review on Tang Wenzhi’s The Gist of Chinese Writing Gamut
p級(jí)數(shù)求和的兩種方法
基于肺癌CT的決策樹模型在肺癌診斷中的應(yīng)用
吉木乃县| 米脂县| 惠水县| 繁峙县| 威宁| 叶城县| 伊宁县| 灵台县| 泌阳县| 宁蒗| 通河县| 三门峡市| 酉阳| 乡宁县| 仙桃市| 神木县| 望奎县| 海盐县| 肥东县| 密云县| 乌兰浩特市| 望谟县| 达日县| 澄迈县| 利川市| 象山县| 嘉义县| 新宁县| 柳河县| 丰台区| 许昌市| 门源| 马鞍山市| 安西县| 邯郸县| 崇阳县| 丽江市| 斗六市| 灵台县| 武山县| 景东|