王曉耘,范晶晶,陳 思
(杭州電子科技大學(xué) 管理學(xué)院,浙江 杭州 310018)
自微博興起以來(lái),對(duì)微博轉(zhuǎn)發(fā)機(jī)制的研究就成為了當(dāng)前學(xué)術(shù)界和營(yíng)銷(xiāo)界的熱點(diǎn)問(wèn)題。從企業(yè)的角度出發(fā),高轉(zhuǎn)發(fā)量的微博提升了自身的影響力,對(duì)于產(chǎn)品推廣也顯得更加快捷迅速,與客戶之間的溝通也更為方便。目前,較為有名的制造高轉(zhuǎn)發(fā)微博的例子有,如杜蕾斯、野獸派花店、小米手機(jī)官方微博等。盡管?chē)?guó)內(nèi)多數(shù)企業(yè)對(duì)微博平臺(tái)營(yíng)銷(xiāo)的熱情較為高漲,但成功畢竟是少數(shù),大部分企業(yè)對(duì)于如何發(fā)布高轉(zhuǎn)發(fā)量的微博、以及對(duì)影響微博轉(zhuǎn)發(fā)率的因素的探究等仍處于摸索時(shí)期。從根本上講,企業(yè)亟待解決的問(wèn)題在于如何快速有效識(shí)別對(duì)企業(yè)微博轉(zhuǎn)發(fā)情況造成影響的因素,如何通過(guò)確保微博內(nèi)容本身的吸引力進(jìn)而提高企業(yè)微博的影響力。
然而對(duì)企業(yè)微博轉(zhuǎn)發(fā)情況造成影響的要素復(fù)雜繁多,目前相關(guān)研究正處于起步階段且大多為定性的研究,現(xiàn)有的研究中多考慮外部因素,往往忽視了微博內(nèi)容本身對(duì)其的影響?;诖?,本文主要圍繞微博文本進(jìn)行特征分析,結(jié)合定量的方法,提取特征。在此基礎(chǔ)上,根據(jù)選擇的最優(yōu)特征建立基于支持向量機(jī)轉(zhuǎn)發(fā)趨勢(shì)預(yù)測(cè)模型,通過(guò)對(duì)轉(zhuǎn)發(fā)情況的具體分析,以揭示微博文本特征與微博轉(zhuǎn)發(fā)情況之間的關(guān)系。
本文主要從微博內(nèi)容特征的角度出發(fā),構(gòu)建企業(yè)微博轉(zhuǎn)發(fā)效果影響因素理論模型。其中,自變量包括微博內(nèi)容特征、微博表現(xiàn)特征、微博時(shí)間特征三大類(lèi)因素。
1.內(nèi)容特征
(1)微博是否為原創(chuàng)。在微博平臺(tái)上,針對(duì)用戶瀏覽到的微博內(nèi)容,按發(fā)布類(lèi)型可分為原創(chuàng)和轉(zhuǎn)發(fā)他人微博兩種方式。本文抓取小米官方微博10 890條,通過(guò)統(tǒng)計(jì)發(fā)現(xiàn),有近 50.7%的內(nèi)容(5 516條微博)屬于原創(chuàng)微博,49.3%(5 373條)的微博轉(zhuǎn)發(fā)自他人,其中原創(chuàng)微博與轉(zhuǎn)發(fā)微博的轉(zhuǎn)發(fā)量大小不一。因此,本文將微博是原創(chuàng)或是轉(zhuǎn)發(fā)納入研究范圍。
(2)微博主題類(lèi)型。根據(jù)微博信息涉及到的內(nèi)容,可將微博內(nèi)容劃分為不同的主題。2011年,Eun和Yong jun研究了Twitter上微博信息內(nèi)容類(lèi)型,它們分別是:企業(yè)品牌相關(guān)信息、企業(yè)本身相關(guān)信息、企業(yè)產(chǎn)品或服務(wù)相關(guān)信息、含有鏈接的信息和生活資訊類(lèi)信息。2012年中國(guó)學(xué)者孫泳穎[1]針對(duì)三家企業(yè)的官方微博進(jìn)行分析,將微博發(fā)送的內(nèi)容分成五大類(lèi):新聞?lì)愋畔?、調(diào)研問(wèn)卷類(lèi)信息、有獎(jiǎng)轉(zhuǎn)發(fā)活動(dòng)類(lèi)信息、投票類(lèi)信息和微活動(dòng)類(lèi)信息。
結(jié)合已有的研究,本文對(duì)微博主題類(lèi)型的描述如表1所示。
表1 微博主題類(lèi)型描述
在對(duì)微博主題確定的過(guò)程中涉及到文本分類(lèi)的問(wèn)題。通常較為經(jīng)典的文本分類(lèi)方法包括:決策樹(shù)分類(lèi)算法、樸素貝葉斯分類(lèi)方法、Rocchio方法[2]、K近鄰算法等[3]。其中,樸素貝葉斯方法是最直接的概率分類(lèi)方法,它的使用最為廣泛且貝葉斯分類(lèi)方法具有易使用、只需一次掃描訓(xùn)練集、善于處理缺失值以數(shù)據(jù)具有連續(xù)性等優(yōu)點(diǎn)[4]。因此本文選擇樸素貝葉斯方法來(lái)對(duì)微博主題類(lèi)型進(jìn)行分類(lèi)確定。
樸素貝葉斯[5]方法的分類(lèi)思想可以粗略理解為,針對(duì)未知分類(lèi)項(xiàng),通過(guò)求解在此項(xiàng)出現(xiàn)的條件下每一個(gè)類(lèi)別出現(xiàn)的概率來(lái)判斷的,哪個(gè)類(lèi)別概率最大,就將該待分類(lèi)項(xiàng)歸于哪個(gè)類(lèi)別。算法流程如下:
第一,計(jì)算先驗(yàn)概率及條件概率:
j=1,2,…,n;l=1,2,…,Sj;k=1,2,…,K
第二,對(duì)于給定的待分類(lèi)項(xiàng) x=(x(1),x(2),…,x(n))T,計(jì)算:
第三,確定待分類(lèi)項(xiàng)的類(lèi):
(3)被轉(zhuǎn)發(fā)微博的轉(zhuǎn)發(fā)量。微博的轉(zhuǎn)發(fā)數(shù)是評(píng)價(jià)企業(yè)微博影響力的一個(gè)重要指標(biāo),也是微博與其他網(wǎng)絡(luò)信息發(fā)布平臺(tái)的最重要的不同之處。Kim等[6]研究表明被轉(zhuǎn)發(fā)微博的轉(zhuǎn)發(fā)量是一個(gè)十分顯著的特征,用戶很容易受到從眾信息的影響進(jìn)而轉(zhuǎn)發(fā)微博信息,從而造成微博信息的瀑布式轉(zhuǎn)發(fā)。但并沒(méi)有與對(duì)應(yīng)的高轉(zhuǎn)發(fā)的微博內(nèi)容聯(lián)系起來(lái),本文則是根據(jù)通過(guò)對(duì)以往被轉(zhuǎn)發(fā)微博的轉(zhuǎn)發(fā)情況進(jìn)行研究,進(jìn)一步了解受眾感興趣的內(nèi)容是什么。
2.表現(xiàn)特征
在以往的研究中,Suh等[7]人以twitter數(shù)據(jù)作為研究對(duì)象,研究得出微博是否包含鏈接和話題標(biāo)記對(duì)微博的轉(zhuǎn)發(fā)率有著直接的影響,且微博作者發(fā)布的總微博數(shù)對(duì)其發(fā)布微博的轉(zhuǎn)發(fā)率基本沒(méi)有影響。
本文選用微博長(zhǎng)度、微博是否含有圖片、是否含標(biāo)簽、是否含鏈接、是否含視頻等作為微博的表現(xiàn)特征。
3.時(shí)間特征
一條微博的生命周期是有限的。文獻(xiàn)[8]將微博的發(fā)布時(shí)間、發(fā)布日期、發(fā)布距今時(shí)間歸納為微博轉(zhuǎn)發(fā)情況的環(huán)境影響因素。
本文將微博的時(shí)間特征細(xì)分微博發(fā)布時(shí)段、微博發(fā)布時(shí)長(zhǎng)、微博發(fā)布日期。
本文將微博信息轉(zhuǎn)發(fā)情況作為衡量企業(yè)微博轉(zhuǎn)發(fā)效果的指標(biāo),分析轉(zhuǎn)發(fā)情況及其影響因素。
根據(jù)上述分析的結(jié)果,本文構(gòu)建出企業(yè)微博轉(zhuǎn)發(fā)效果影響因素的理論模型如圖1所示。
圖1 企業(yè)微博轉(zhuǎn)發(fā)效果影響因素理論模型圖
本文針對(duì)企業(yè)發(fā)布的微博集合M進(jìn)行研究,將微博信息的轉(zhuǎn)發(fā)情況作為企業(yè)微博營(yíng)銷(xiāo)效果的衡量指標(biāo)。基于企業(yè)的歷史微博轉(zhuǎn)發(fā)情況進(jìn)行訓(xùn)練,主要從微博信息內(nèi)容的角度出發(fā),對(duì)于一條新的企業(yè)微博,預(yù)測(cè)其轉(zhuǎn)發(fā)量的高低。
在企業(yè)發(fā)布的所有微博中,并非所有的微博都具有高轉(zhuǎn)發(fā)量。而在影響微博轉(zhuǎn)發(fā)量的主要因素中,微博文本內(nèi)容尤為顯著。因此,本文立足微博文本內(nèi)容,首先對(duì)采集到的微博實(shí)驗(yàn)數(shù)據(jù)中的每一條微博主題運(yùn)用貝葉斯分類(lèi)方法進(jìn)行分類(lèi),其次,采用信息增益算法縮小特征集合的范圍,進(jìn)而篩選出對(duì)轉(zhuǎn)發(fā)情況影響較大的因素,同時(shí)也可以通過(guò)減少轉(zhuǎn)發(fā)預(yù)測(cè)模型的輸入變量來(lái)提升模型的訓(xùn)練效率。最后,基于篩選出的特征建立轉(zhuǎn)發(fā)預(yù)測(cè)模型,具體分析微博的轉(zhuǎn)發(fā)情況。
考慮到本文的預(yù)測(cè)問(wèn)題為微博轉(zhuǎn)發(fā)量的高低,因而可將其看作一個(gè)二分類(lèi)問(wèn)題。本文將所用到的數(shù)據(jù)集樣本定義為 d=(a,c,t),其中 a表示微博內(nèi)容特征,c表示微博表現(xiàn)特征,t表示微博時(shí)間特征。同時(shí)將某條微博的轉(zhuǎn)發(fā)量定義為y。由于微博轉(zhuǎn)發(fā)量y只有兩個(gè)可能的取值,即分類(lèi)的結(jié)果只有兩種,分別是C1(高轉(zhuǎn)發(fā)量)或 C2(低轉(zhuǎn)發(fā)量)。所以本文中的預(yù)測(cè)模型,總結(jié)為一個(gè)根據(jù)給定的自變量進(jìn)行二分類(lèi)的模型。結(jié)合支持向量機(jī)的特點(diǎn),因變量y可能的取值及意義由下式給出:
特征選擇[9],是指從全部的特征中選取一個(gè)特征子集,使得給定的系統(tǒng)指標(biāo)最優(yōu)化。特征子集選擇的途徑有三種:Filter方法、Wrapper方法、Embedded方法。其中Filter方法是針對(duì)每一維的特征賦予權(quán)重,這樣的權(quán)重代表著特征的重要性,然后依據(jù)權(quán)重排序。
結(jié)合本文的目的,即對(duì)特征進(jìn)行重要性排序,因此本文選擇Filter方法中的信息增益算法來(lái)進(jìn)行特征選擇。具體算法描述如下:
設(shè)訓(xùn)練數(shù)據(jù)集合D,|D|則為整個(gè)數(shù)據(jù)樣本的容量,即樣本的個(gè)數(shù),設(shè)有K個(gè)類(lèi)Ck來(lái)表示,|Ck|為 Ci的樣本個(gè)數(shù),|Ck|之和為 |D|,k=1,2,…,根據(jù)特征 A 將 D 劃分為 n 個(gè)子集 D1,D2,…,Dn,|Di|為Di的樣本個(gè)數(shù),|Di|之和為 |D|,i=1,2,…,記 Di中歸屬于Ck的數(shù)據(jù)樣本集合為交集Dik,|Dik|為Dik的樣本個(gè)數(shù),具體算法如下:
輸入:D,A
輸出:信息增益 g(D,A)
D的經(jīng)驗(yàn)熵H(D)為:
上式可作如下理解:由于訓(xùn)練樣本總個(gè)數(shù)為|D|,某項(xiàng)分類(lèi)的個(gè)數(shù)為|Ck|,在某項(xiàng)分類(lèi)的概率為:|Ck|/|D|
則選定A的經(jīng)驗(yàn)條件熵H(D|A)
信息增益為:
g(D,A)=H(D)-H(D|A)
1.核函數(shù)。一般在解決分類(lèi)問(wèn)題時(shí),并不是所有的數(shù)據(jù)集都是線性可分的。當(dāng)數(shù)據(jù)集在低維空間中并不是線性可分時(shí),選用經(jīng)典的線性可分支持向量機(jī)模型,必然得到不理想的分類(lèi)效果。若此時(shí)將低維空間的特征向量映射至高維空間,經(jīng)過(guò)映射處理后的特征即有可能線性可分。因此可以構(gòu)造映射函數(shù)來(lái)對(duì)數(shù)據(jù)集進(jìn)行處理。
核函數(shù)的基本定義如下:
設(shè)χ是輸入空間(歐式空間Rn的子集或離散集合),同時(shí),設(shè)η為特征空間(希爾伯特空間),假設(shè)存在一個(gè)從χ到η的映射φ(x):χ→η使得對(duì)所有 x,z∈χ,函數(shù) K(x,z)滿足條件 K(x,z)=φ(x)·φ(z),則認(rèn)為 K(x,z)為核函數(shù),φ(x)為映射函數(shù)。式中 φ(x)·φ(z)為 φ(x)和 φ(z)的內(nèi)積。
選擇一個(gè)適合的核函數(shù)對(duì)于模型的分類(lèi)效果影響巨大。常用的核函數(shù)有以下幾種:
(1)線性核函數(shù):線性核函數(shù)即線性可分支持向量機(jī),表達(dá)式為:K(x,z)=x·z
此時(shí)可以將線性可分支持向量機(jī)與線性不可分支持向量機(jī)歸為一類(lèi),區(qū)別僅僅在于線性可分支持向量機(jī)用的是線性核函數(shù)。
(2)多項(xiàng)式核函數(shù):多項(xiàng)式核函數(shù)是線性不可分SVM常用的核函數(shù)之一,表達(dá)式為:
K(x,z)=(γx·z+r)d,其中,γ,r,d 都需要自行調(diào)參定義。
(3)高斯核函數(shù)。高斯核函數(shù)在SVM中也稱為徑向基核函數(shù),它是應(yīng)用于非線性分類(lèi)支持向量機(jī)算法中最主流的核函數(shù)。libsvm默認(rèn)的核函數(shù)就是它。表達(dá)式為:
K(x,z)=exp(-γ||x-z||2),其中,γ 大于 0,需要自行調(diào)參定義。
(4)Sigmoid核函數(shù)。Sigmoid核函數(shù)是線性不可分SVM常用的核函數(shù)之一,表達(dá)式為:
K(x,z)=tanh(γx·z+r),其中,γ,r 都需要自行調(diào)參定義。
2.預(yù)測(cè)模型構(gòu)建。通常情況下,線性可分的數(shù)據(jù)較為少見(jiàn)。面對(duì)線性不可分的低維數(shù)據(jù),人們一般采用的方法是將其映射至高維,引入核函數(shù)來(lái)解決問(wèn)題。通過(guò)引入核函數(shù),構(gòu)建的預(yù)測(cè)模型如下:
假設(shè)輸入是 m 個(gè)樣本 (x1,y1),(x2,y2),…,(xm,ym),其中x為n維特征向量。y為二元輸出,值為1,或者-1。輸出是分離超平面的參數(shù)ω*和b*和分類(lèi)決策函數(shù)。
算法過(guò)程如下:
(1)選擇適當(dāng)?shù)暮?K(x,z)和一個(gè)懲罰系數(shù)C>0,構(gòu)造約束優(yōu)化問(wèn)題:
(2)運(yùn)用SMO算法進(jìn)行求解,得出上式最小時(shí)對(duì)應(yīng)的α*向量。
最終的分類(lèi)超平面為:
最終的分類(lèi)決策函數(shù)為:
3.評(píng)價(jià)指標(biāo)。本文采用分類(lèi)算法常用評(píng)價(jià)指標(biāo):精確率、查全率、F1值以及準(zhǔn)確度,來(lái)對(duì)預(yù)測(cè)效果及分類(lèi)模型進(jìn)行具體評(píng)價(jià)。精確率在本文中即為所有被預(yù)測(cè)為高轉(zhuǎn)發(fā)的微博中真實(shí)高轉(zhuǎn)發(fā)的微博比率。一般情況下,精確率越高,模型的效果越好。查全率為所有高轉(zhuǎn)發(fā)微博中被模型正確預(yù)測(cè)為高轉(zhuǎn)發(fā)的比例,準(zhǔn)確度即為全部微博被模型正確分類(lèi)的比例,F(xiàn)1值為查全率與精確率的調(diào)和平均值。
分類(lèi)器在數(shù)據(jù)集上的預(yù)測(cè)情況的混淆矩陣如表2所示。
表2 混淆矩陣
下面給出精確率(precision),以下簡(jiǎn)寫(xiě)為p;查全率recall,以下簡(jiǎn)寫(xiě)為r;F1度量值的計(jì)算公式:
p=TP/Tp+FP
r=TP/Tp+FN
F1=2pr/p+r
準(zhǔn)確率的計(jì)算公式如下:
Accuracy=TP+TN/TP+FP+FN+TN
小米公司通過(guò)在微博營(yíng)銷(xiāo)領(lǐng)域的不斷探索,為自身企業(yè)的發(fā)展提供了良好的營(yíng)銷(xiāo)支持,本文將小米手機(jī)作為具體的研究對(duì)象。為了獲取實(shí)驗(yàn)所需數(shù)據(jù),本文使用java語(yǔ)言編寫(xiě)數(shù)據(jù)抓取程序,通過(guò)單線程訪問(wèn)新浪微博提供的API接口,采取了小米手機(jī)近年來(lái)的微博數(shù)據(jù)作為研究樣本,最終得到14 251條微博信息,記錄每條微博的基本信息,包含微博id,發(fā)表時(shí)間,微博內(nèi)容,圖片,視頻,轉(zhuǎn)發(fā)微博的原微博內(nèi)容,評(píng)論數(shù),點(diǎn)贊數(shù),轉(zhuǎn)發(fā)數(shù)等字段。
1.數(shù)據(jù)篩選。通過(guò)篩選去掉了轉(zhuǎn)發(fā)量低于100條以下的微博,最后選定進(jìn)行研究的微博一共有10 890條。
2.主題的確定。微博主題需要通過(guò)對(duì)微博文本進(jìn)行分類(lèi)處理后才能確定,因此需要對(duì)抓取到的微博數(shù)據(jù)進(jìn)行文本分類(lèi)預(yù)處理,運(yùn)用的貝葉斯分類(lèi)方法對(duì)所抓取微博數(shù)據(jù)中關(guān)于詞頻統(tǒng)計(jì)的部分結(jié)果如表3所示。
表3 詞頻統(tǒng)計(jì)部分結(jié)果表
通過(guò)上述方法得到測(cè)試集微博對(duì)應(yīng)的話題類(lèi)型取值。各主題對(duì)應(yīng)的微博數(shù)如圖2所示。
圖2 各主題對(duì)應(yīng)微博圖
為了明確各個(gè)特征對(duì)轉(zhuǎn)發(fā)行為的影響力和減少支持向量機(jī)預(yù)測(cè)模型的輸入變量,根據(jù)信息增益算法對(duì)本文所選取的各個(gè)特征信息增益值進(jìn)行計(jì)算,得到特征信息增益值如表4所示。
表4 特征排序表
由此可以看出,在本文選取的11個(gè)特征中,微博發(fā)布時(shí)長(zhǎng)、被轉(zhuǎn)發(fā)微博的轉(zhuǎn)發(fā)量、是否含有視頻、是否為原創(chuàng)等4個(gè)特征對(duì)微博轉(zhuǎn)發(fā)的影響較大。本文選取前8個(gè)特征作為支持向量機(jī)預(yù)測(cè)模型的輸入向量。
1.基于訓(xùn)練集的模型訓(xùn)練。由于本文采用的分類(lèi)屬性為{高轉(zhuǎn)發(fā)量、低轉(zhuǎn)發(fā)量},因而對(duì)于高轉(zhuǎn)發(fā)量與低轉(zhuǎn)發(fā)量之間的界定對(duì)于整個(gè)實(shí)驗(yàn)的有效性而言,十分關(guān)鍵。且對(duì)于本文運(yùn)用的基于支持向量機(jī)的預(yù)測(cè)模型而言,選擇一個(gè)合適的核函數(shù)是至關(guān)重要的。
因而在訓(xùn)練模型的過(guò)程中,確定分類(lèi)屬性邊界值的同時(shí),本文使用不同的核函數(shù)進(jìn)行訓(xùn)練,以求能夠得到最優(yōu)的邊界值與最適合本數(shù)據(jù)集的核函數(shù)。本文將10 890條數(shù)據(jù)樣本分為訓(xùn)練集3267條(30%)和測(cè)試集7623條(70%),分別采取四種不同的核函數(shù)基于最優(yōu)特征集合進(jìn)行支持向量機(jī)預(yù)測(cè)實(shí)驗(yàn)。
通過(guò)觀察實(shí)驗(yàn)數(shù)據(jù)集的轉(zhuǎn)發(fā)量,如圖3所示。
圖3 微博轉(zhuǎn)發(fā)量統(tǒng)計(jì)
根據(jù)上述統(tǒng)計(jì)結(jié)果,本文將最開(kāi)始的邊界值設(shè)置為1 000,即高于1 000條以上為高轉(zhuǎn)發(fā),低于1 000條則認(rèn)為是低轉(zhuǎn)發(fā)。本文利用libsvm軟件包,通過(guò)劃分好的訓(xùn)練集進(jìn)行訓(xùn)練,結(jié)合四種不同的核函數(shù),不斷調(diào)整邊界值,最終得到如下不同邊界值時(shí)的分類(lèi)預(yù)測(cè)結(jié)果如表5、表6、表7、表 8 、表 9 所示。
表5 邊界值定為1 000時(shí)
表6 邊界值定為2 000時(shí)
表7 邊界值定為3 000時(shí)的預(yù)測(cè)結(jié)果
表8 邊界值定為4 000時(shí)的預(yù)測(cè)結(jié)果
表9 邊界值定為5 000時(shí)的預(yù)測(cè)結(jié)果
根據(jù)上述表中數(shù)據(jù)對(duì)比可知,當(dāng)轉(zhuǎn)發(fā)量的邊界值定為4 000時(shí),引入高斯核函數(shù)構(gòu)建的分類(lèi)預(yù)測(cè)模型得到的準(zhǔn)確度可達(dá)到0.974,明顯高于其他條件,且精確率為0.783,查全率為0.882。對(duì)比其他條件下的評(píng)價(jià)指標(biāo),說(shuō)明當(dāng)分類(lèi)邊界值為4 000時(shí),使用高斯核函數(shù)來(lái)構(gòu)造基于支持向量機(jī)的預(yù)測(cè)模型,得到的結(jié)果較為理想。
2.基于測(cè)試集的預(yù)測(cè)轉(zhuǎn)發(fā)實(shí)驗(yàn)。本文在選定邊界值為4 000和高斯核函數(shù)的情況下,本文采用libsvm軟件包,采用構(gòu)建好的支持向量機(jī)預(yù)測(cè)模型進(jìn)行計(jì)算,得到基于最優(yōu)特征和全特征的混淆矩陣如表10、表11所示。據(jù)此計(jì)算得到對(duì)應(yīng)的準(zhǔn)確率、查全率、F1值、準(zhǔn)確度如表12所示。
表10 基于全特征的預(yù)測(cè)結(jié)果混淆矩陣
表11 基于最優(yōu)特征的預(yù)測(cè)結(jié)果混淆矩陣
表12 基于支持向量機(jī)的預(yù)測(cè)模型對(duì)比結(jié)果
從表10可以看出,基于全特征集合和最優(yōu)特征集合的分類(lèi)模型的各項(xiàng)評(píng)價(jià)指標(biāo)相近,最優(yōu)集合的準(zhǔn)確度為0.964僅略低于全特征集合的準(zhǔn)確度0.967,這充分說(shuō)明最優(yōu)特征對(duì)微博轉(zhuǎn)發(fā)量的影響近乎接近于全特征,從而驗(yàn)證了最優(yōu)特征的有效性。
基于對(duì)本文轉(zhuǎn)發(fā)預(yù)測(cè)實(shí)驗(yàn)結(jié)果的分析,以及對(duì)可能會(huì)影響到微博轉(zhuǎn)發(fā)的規(guī)律進(jìn)行總結(jié),本文為幫助企業(yè)提高微博轉(zhuǎn)發(fā)量,進(jìn)而在一定程度上對(duì)企業(yè)微博營(yíng)銷(xiāo)效果造成良好影響,提出以下幾點(diǎn)建議:
(1)微博主題類(lèi)型通常對(duì)微博的轉(zhuǎn)發(fā)量會(huì)造成一定影響,企業(yè)在發(fā)布微博時(shí),應(yīng)盡量發(fā)布與產(chǎn)品有關(guān)或與活動(dòng)相關(guān)性比較大的內(nèi)容,盡量避免談及生活信息。根據(jù)本文實(shí)驗(yàn)結(jié)果得出的特征集合可總結(jié)出,由于產(chǎn)品信息型多包含有價(jià)值的專(zhuān)業(yè)信息,這類(lèi)微博更容易得到用戶的認(rèn)同感進(jìn)而得到轉(zhuǎn)發(fā),而活動(dòng)信息類(lèi)型的微博則是由于會(huì)涉及到更多抽獎(jiǎng)、促銷(xiāo)等與用戶利益相關(guān)的信息,也很容易吸引到用戶,企業(yè)可以考慮將產(chǎn)品型與活動(dòng)型的主題結(jié)合到一起發(fā)布。
(2)微博是否含標(biāo)簽、圖片等表現(xiàn)特征以及微博發(fā)布日期這些特征對(duì)微博的轉(zhuǎn)發(fā)量有一定的影響,但是效果并不顯著。因此,可以認(rèn)為微博的表現(xiàn)特征雖然使得企業(yè)發(fā)布的微博更加的豐富多彩,但對(duì)企業(yè)提高微博轉(zhuǎn)發(fā)量并沒(méi)有實(shí)質(zhì)性的影響。其中,根據(jù)本文的研究成果,是否含圖片與是否含鏈接這兩個(gè)特征與微博轉(zhuǎn)發(fā)量之間的關(guān)聯(lián)性較弱,企業(yè)在發(fā)布微博時(shí),不用刻意考慮。
(3)除卻考慮微博主題內(nèi)容的影響外,企業(yè)在轉(zhuǎn)發(fā)微博時(shí),還應(yīng)該考慮微博源的轉(zhuǎn)發(fā)量。若企業(yè)對(duì)轉(zhuǎn)發(fā)量大的微博進(jìn)行轉(zhuǎn)發(fā),也會(huì)得到較大的轉(zhuǎn)發(fā)效果。因此,企業(yè)在進(jìn)行微博轉(zhuǎn)發(fā)時(shí),應(yīng)從微博內(nèi)容質(zhì)量和微博源的轉(zhuǎn)發(fā)量?jī)煞矫鎭?lái)考慮。
本文將企業(yè)微博的轉(zhuǎn)發(fā)量作為企業(yè)微博轉(zhuǎn)發(fā)效果的衡量指標(biāo)。同時(shí)主要從微博內(nèi)容的角度對(duì)微博特征進(jìn)行分析,在此基礎(chǔ)上,建立了企業(yè)微博轉(zhuǎn)發(fā)影響因素理論模型。隨后運(yùn)用信息增益方法對(duì)分析得出的特征全集合進(jìn)行影響力大小排序,由此得出最優(yōu)的特征集合。最后分別基于微博文本全特征集合和最優(yōu)特征集合建立基于支持向量機(jī)的轉(zhuǎn)發(fā)預(yù)測(cè)模型,通過(guò)對(duì)比實(shí)驗(yàn)結(jié)果,得到對(duì)微博轉(zhuǎn)發(fā)量影響較大的特征集合,同時(shí),也驗(yàn)證了本文所采取方法的有效性。本文針對(duì)的微博文本信息對(duì)企業(yè)微博轉(zhuǎn)發(fā)效果影響因素進(jìn)行了研究,著重突出了微博內(nèi)容的重要性,對(duì)企業(yè)制定微博營(yíng)銷(xiāo)策略有一定的借鑒意義,但仍然存在一些局限性和改進(jìn)之處:
(1)對(duì)微博內(nèi)容在不同類(lèi)型企業(yè)中的影響因素進(jìn)行研究,本文并未針對(duì)不同類(lèi)型的企業(yè)進(jìn)行研究,微博內(nèi)容對(duì)于不同企業(yè)微博轉(zhuǎn)發(fā)的影響可能存在一定的局限性。
(2)本文主要從微博內(nèi)容出發(fā),考慮對(duì)企業(yè)微博轉(zhuǎn)發(fā)情況的影響,沒(méi)有將用戶對(duì)于內(nèi)容的喜愛(ài)程度等加入到特征集合中,在后面的研究過(guò)程中,可以增加用戶等方面的特征因素,使得研究的準(zhǔn)確度更高。
(3)在分類(lèi)方法的選擇上,可采用多種分類(lèi)算法,以期發(fā)掘出更為精準(zhǔn)的分類(lèi)器。
[1]孫泳穎.組織傳播學(xué)視角下的企業(yè)新浪官方微博研究[D].復(fù)旦大學(xué),2012.
[2]劉紅光,馬雙剛,劉桂鋒,2016.基于機(jī)器學(xué)習(xí)的專(zhuān)利文本分類(lèi)算法研究綜述[J].圖書(shū)情報(bào)研究(3):79-86.
[3]Farid D M,Zhang L,Rahman C M,et al.Hybrid decision tree and na?ve Bayes classifiers for multi-class classification tasks[J].Expert Systems with Applications An International Journal,2014,41(4):1937-1946.
[4]Farid D M,Rahman M M,Almamuny M A.Efficient and scalable multi-class classification using na?ve Bayes tree[C].2014.
[5]Jiang L,Li C,Wang S,et al.Deep feature weighting for naive Bayes and its application to text classification[J].Engineering Applications of Artificial Intelligence,2016,52(C):26-39.
[6]Kim E,Sung Y,Kang H.Brand followers'retweeting behavior on Twitter:How brand relationships influence brand electronic word-ofmouth[J].Computers in Human Behavior,2014,37(C):18-25.
[7]Suh B,Hong L,Pirolli P,et al.Want to be Retweeted?Large Scale Analytics on Factors Impacting Retweet in Twitter Network[C].2010.
[8]趙蓉英,曾憲琴,2014.微博信息傳播的影響因素研究分析[J].情報(bào)理論與實(shí)踐(3):58-63.
[9]Bolón-Canedo V,Sánchez-Maro?o N,Alonso-Betanzos A.Feature selection for high-dimensional data[J].Progress in Artificial Intelligence,2016,5(2):65-75.