劉濟(jì)群
(北京大學(xué)信息管理系,北京 100871)
?
·綜述 · 述評·
國外社交媒體影響力研究述評
——進(jìn)展與啟示
劉濟(jì)群
(北京大學(xué)信息管理系,北京 100871)
大數(shù)據(jù)環(huán)境下信息與通訊技術(shù)的發(fā)展,使越來越多的用戶進(jìn)入了社交媒介建構(gòu)的虛擬網(wǎng)絡(luò)空間之中,社交媒體的影響力也在不斷增強(qiáng)。本文從信息內(nèi)容和網(wǎng)絡(luò)結(jié)構(gòu)兩個層面綜述了國外計(jì)算機(jī)科學(xué)等相關(guān)領(lǐng)域的社交媒體研究,指出了基于內(nèi)容的主題提取,信息傳播的流行度分析,社交媒體中的網(wǎng)絡(luò)結(jié)構(gòu)分析以及社區(qū)發(fā)掘等重要的研究領(lǐng)域;具體闡釋了一部分具有基礎(chǔ)性或典型性的模型、算法、以及相應(yīng)的研究成果比較,同時也提出了未來的研究領(lǐng)域和研究方法的可能發(fā)展方向。最后,本文討論了國外社交媒體影響力研究對基于國內(nèi)語境之研究的啟示。
社交媒體;社會網(wǎng)絡(luò);影響力分析;LDA模型;社區(qū)發(fā)掘
社交媒體是幫助用戶在虛擬的網(wǎng)絡(luò)空間中發(fā)布與獲取信息、建立人際聯(lián)系、形成虛擬社區(qū)的重要工具。 隨著信息與通訊技術(shù)(Information and Communication Technology,ICT)的不斷發(fā)展,尤其是移動互聯(lián)設(shè)備的不斷普及,社交媒體的影響力日益擴(kuò)大,并逐漸成長為用戶創(chuàng)造內(nèi)容、分享信息與搜尋信息的主要平臺。在基本的社交網(wǎng)絡(luò)形成與維護(hù)方面,大多數(shù)社交媒體平臺在維護(hù)了已有社交關(guān)系的同時,也會為陌生人建立虛擬空間中的弱聯(lián)系或形成活動小組創(chuàng)造機(jī)會。有些社交媒體可以吸引很寬泛的范圍內(nèi)不同類型的用戶(例如Facebook,Twitter等),但另外一些會基于語言、種族、性別、宗教信仰以及國籍等方面的相似性幫助人們建立聯(lián)系。除此之外,這些社交媒體的不同之處還體現(xiàn)在他們可以在多大程度上吸納新的信息與通訊工具(如WeChat逐步支持文字、語音、視頻分享以及即時通話等信息與通訊功能),主要有:與手機(jī)的聯(lián)通性,圖片與視頻的分享等。
在互聯(lián)網(wǎng)技術(shù)較為先進(jìn),市場經(jīng)濟(jì)十分活躍的美國,基于公司注冊或商業(yè)交流的社交媒體工具在上世紀(jì)末即開始出現(xiàn)。進(jìn)入21世紀(jì)后,世界范圍內(nèi)的社交媒體在工具種類、用戶范圍、信息功能、交互方式等方面都經(jīng)歷了較大幅度的飛躍,如表1所示。在此背景下,面向社交媒體以及基于社交媒體的社會網(wǎng)絡(luò)分析也吸引了學(xué)術(shù)界的注意,社會學(xué)、情報學(xué)、計(jì)算機(jī)科學(xué)、數(shù)學(xué)等不同研究領(lǐng)域都有學(xué)者投入到了社交媒體的研究之中。就圖書情報與計(jì)算機(jī)科學(xué)領(lǐng)域的學(xué)者而言,基于社交網(wǎng)絡(luò)結(jié)構(gòu)的指標(biāo)分析(如小世界網(wǎng)絡(luò)和核心邊緣結(jié)構(gòu)分析[1-2],社交媒體中的虛擬社區(qū)識別[3-4](The detection of virtual community,等)和基于信息內(nèi)容的主題挖掘、觀點(diǎn)挖掘以及情感分析[5](Sentiment analysis)往往是關(guān)注的重點(diǎn),也是目前在領(lǐng)域內(nèi)拓展社交媒體研究的主要方向。
表1 國內(nèi)外主要社交媒體的產(chǎn)生時間
社交媒體的影響力源自于其基本功能在用戶群或社會網(wǎng)絡(luò)(現(xiàn)實(shí)的或虛擬的)之中的發(fā)散、傳遞與延伸。因此,面向社交媒體的影響力研究應(yīng)該從對社交媒體的構(gòu)成以及基本功能的定義展開。在本文中,筆者借鑒了Boyd和Ellison的定義[6],并結(jié)合當(dāng)前社交媒體發(fā)展的平臺性,基于移動互聯(lián)的泛在性,以及多項(xiàng)信息與通訊技術(shù)的整合性等特點(diǎn)對該定義進(jìn)行了修正與補(bǔ)充。社交媒體站點(diǎn)是一種基于網(wǎng)絡(luò)空間的服務(wù)平臺,它可以支持用戶執(zhí)行以下功能:
在社交媒體的情境中,這一虛擬形象往往是用戶在現(xiàn)實(shí)生活中之角色的映射。
如上所述,社交媒體在為用戶提供信息服務(wù)時,既為用戶構(gòu)造了包含信息生產(chǎn)與信息分享過程的個人信息世界,也在社交網(wǎng)絡(luò)與弱關(guān)系的形成中扮演了重要角色。對應(yīng)社交媒體在用戶特征、社交網(wǎng)絡(luò)以及信息傳播方面的影響,面向社交媒體的影響力分析往往從以下3個方面展開:
由此可見,在計(jì)算機(jī)與圖書情報研究領(lǐng)域,面向社交媒體影響力的研究與社交媒體本身的特征相關(guān),研究的主題也圍繞著社交媒體情境下的社會網(wǎng)絡(luò)(偏向于結(jié)構(gòu)分析)與信息生產(chǎn)傳播(偏向于內(nèi)容分析)兩個核心問題展開。
服務(wù)于信息的生產(chǎn)與傳播是媒體的根本功能所在?;诨ヂ?lián)網(wǎng)技術(shù)的社交媒體與傳統(tǒng)的廣播、報紙、電視等離散的、節(jié)點(diǎn)式的媒體不同,它利用網(wǎng)絡(luò)環(huán)境實(shí)現(xiàn)了媒體的情境化與平臺化,從而增進(jìn)了媒體在信息傳播方面的作用,提高了流動在網(wǎng)絡(luò)中的信息的影響力。另外,社交媒體的開放性和網(wǎng)絡(luò)本身的民主性,也使得用戶在接收信息的同時,成為了信息生產(chǎn)與傳播的主導(dǎo)者,社交媒體中意見領(lǐng)袖的生成與波動則顯得更加頻繁。因此,基于內(nèi)容要素的信息生產(chǎn)與傳播分析,是研究社交媒體作用,發(fā)掘社交媒體潛在影響力的關(guān)鍵切入點(diǎn)之一。
1.1 基于內(nèi)容的主題提?。篖DA模型及其拓展
近年來,主題建模(Topic Modeling)方法在不同領(lǐng)域的文本挖掘研究中都受到了學(xué)者的關(guān)注。其中,LDA主題提取模型(Latent Dirichlet Allocation)比較契合文檔形成的實(shí)際過程,較好地描述了文檔、主題與詞之間的關(guān)系,故而逐漸成為主題建模的標(biāo)準(zhǔn)化方法。在社會網(wǎng)絡(luò)與社交媒體的影響力分析中,大量的內(nèi)容分析與主題提取模型都是基于LDA模型延伸而來。例如,McCallum[7]基于LDA的模型框架提出了一個新的內(nèi)容分析模型,用于在社交媒介中發(fā)掘小組并同時提取內(nèi)容主題。Zhang[8]也基于LDA的主題分析功能,將LDA模型引入了虛擬社區(qū)識別與檢測的研究領(lǐng)域。Qian[9]等人結(jié)合了不同來源的多模態(tài)數(shù)據(jù),利用監(jiān)督式(Supervised)的LDA模型研究了社交媒體中的事件分類問題。其他相似的擴(kuò)展(Extension)模型也在社交媒體的研究領(lǐng)域不斷出現(xiàn)。例如,基于LDA模型的標(biāo)簽推薦[10],事件分類與提取[11-12],挖掘生成中(Emerging)的內(nèi)容主題[13]等。
LDA模型是一種面向文本語料庫集合的文檔生成概率模型,它同時也是一個三層結(jié)構(gòu)的貝葉斯模型。在這個模型,語料庫中的每個文檔都被建模為基于一個特定主題集合的有限混合(Finite mixture)[14]。LDA模型作為一種無監(jiān)督的機(jī)器學(xué)習(xí)技術(shù),常被用于大量文檔集合中的主題信息提取過程。LDA模型運(yùn)用了詞語集合的方法,將每個文檔都建構(gòu)為一個基于詞語計(jì)數(shù)的向量。每個文檔都是基于一系列主題的概率分布,而每個主題也是基于一系列詞的概率分布。LDA模型定義的文檔生成過程包含如下3個主要步驟:
基于LDA的思路可以發(fā)現(xiàn),一篇文章的每個詞都是通過“以一定概率選擇了某個主題,并從這個主題中以一定概率選擇某個詞語”這樣一個過程得到的。因此,在一篇文檔的生成過程中,文檔集合里的每個詞語出現(xiàn)的概率為:
基于詞語和主題的概率分布思路使得LDA模型的分析更加全面和平滑,因而也更優(yōu)于其他類似的模型(例如Unigram模型和Mixture of unigram模型等)[14]。LDA模型中的聯(lián)合概率如下所示:
α和β表示語料級別的參數(shù),也就是每個文檔都一樣,因此生成過程只采樣一次。θ是文檔級別的變量,每個文檔對應(yīng)一個θ,也就是每個文檔產(chǎn)生各個主題z的概率是不同的,所有生成每個文檔采樣一次θ。z和w都是單詞級別變量,z由θ生成,w由z和β共同生成,一個單詞w對應(yīng)一個主題z。通過上面對LDA生成模型的討論,可以知道LDA模型主要是從給定的輸入語料中學(xué)習(xí)訓(xùn)練兩個控制參數(shù)α和β,學(xué)習(xí)出了這兩個控制參數(shù)就確定了模型,便可以用來生成文檔[13-14]。其中α和β分別對應(yīng)以下各個信息:
在LDA模型的迭代中,把w作為觀察變量,θ和z作為隱藏變量,就可以通過EM算法學(xué)習(xí)出α和β,求解過程中遇到后驗(yàn)概率p(θ,z|w)則無法直接求解,需要找一個似然函數(shù)下界來近似求解,LDA模型使用了基于分解(Factorization)假設(shè)的變分法(Variational Inference)進(jìn)行計(jì)算,用到了EM算法[14]。每次E-step輸入α和β,計(jì)算似然函數(shù),M-step最大化這個似然函數(shù),算出α和β,不斷迭代直到收斂。綜上所述,LDA文檔生成模型的迭代運(yùn)算過程如圖1所示。
圖1 LDA模型示意圖
與一般性的文檔主題建模相比,社交媒體中的內(nèi)容影響力應(yīng)基于短文本建模,尤其是在微博(Microblogging)環(huán)境下進(jìn)行分析。LDA主題提取模型在社交媒體的研究情境中得到了廣泛的應(yīng)用,一些學(xué)者根據(jù)社交媒體中文本內(nèi)容,發(fā)布者等多方面特征,對原有的LDA模型進(jìn)行了進(jìn)一步的拓展。作者主題模型(Author-Topic Model,AT)就是其中一個應(yīng)用較為廣泛的LDA擴(kuò)展模型。Rosen-Zvi等在作者與文檔信息提取中首次提出了初步的AT模型[15],并在基于文本語料庫的機(jī)器學(xué)習(xí)研究中拓展了該模型[16]。在AT模型中,文檔中的每個詞w都與兩個潛在的變量相聯(lián)系:信息發(fā)布者x和主題z。與LDA模型相似,社交媒體中的每個信息發(fā)布者都對應(yīng)著一個包含多項(xiàng)特征的分布,這個分布被標(biāo)記為θ,它是基于主題集合T產(chǎn)生的。相應(yīng)地,每個主題也是基于詞語的多項(xiàng)分布而形成的。在Hong與Davison[17]面向Twitter的主題建模研究中,與LDA模型中的文檔生成過程類似,AT模型中的生成階段如下所示:
如上所述,AT模型中的主題生成規(guī)則與LDA模型相似。不同的是,AT模型增加了作者集合的維度,同時也沒有應(yīng)用基于概率的混合主題思路(Mixture of topic)。在社交媒體影響力這一研究領(lǐng)域內(nèi),Hong與Davison應(yīng)用主題建模的技術(shù)所研究的問題是:①基于主題提取的內(nèi)容,預(yù)測Twitter中的流行信息與內(nèi)容;②將Twitter用戶和相應(yīng)信息放入主題分類的范疇中去。在備用的數(shù)據(jù)集合中,研究者抽取了兩周的Twitter信息與用戶數(shù)據(jù),并基于Twitter中已有的Twitter Suggestion建構(gòu)了用戶分類。
在評估指標(biāo)的選擇與構(gòu)建方面,基于數(shù)據(jù)和模型的評估則因問題而異:對于第一個問題,研究者運(yùn)用了準(zhǔn)確率(Precision),召回率(Recall),以及F值(F-Measure)作為評估指標(biāo)。這些指標(biāo)其他基于社交媒體內(nèi)容的主題提取(如事件提取與事件分類問題)也有較為廣泛的應(yīng)用[12]。在主題建模方面,為了判別不同輪運(yùn)行中訓(xùn)練和學(xué)習(xí)出的主題是否契合,一般引入Jensen-Shannon差異度(divergence)公式進(jìn)行計(jì)算分析。公式如下所示:
在公式中,M代表不同類型詞的數(shù)量,φna表示詞n在類別a中的概率。由此可見,當(dāng)JS相似度為0時,則說明兩個分布是完全不一致的。Jensen-Shannon差異度值是基于每個分布的KL差異度平均值而確定的。這種引入差異度分析機(jī)器學(xué)習(xí)中不同分布相似度的做法在其他社交媒體內(nèi)容影響力的研究中也有應(yīng)用[18]。從JS差異度分析中可以發(fā)現(xiàn),同一個主題下AT模型在運(yùn)行的過程中學(xué)習(xí)到的詞的出現(xiàn)概率是各不相同,不斷變化的。但一部分詞在Twitter測試集中出現(xiàn)的概率排名一直很高。在研究中,Kendall一般被用于概率排名之間的差異度。對于相同的m個詞,Kendall的定義入下所示:
在上述公式中,P代表兩個排名列表中排名一致的詞數(shù)量,Q代表的則是排名不一致的詞數(shù)量。由此可見,τ的值域是(-1,1)。1代表的是兩個排名列表中相同詞的排名是完全一致的。-1則代表兩個排名是完全不一致的。一般地,當(dāng)τ為0時,則表示有50%的詞語排名是一致的。在Hong與Davison[17]的研究中,MSG,USER以及AT模型在同一個數(shù)據(jù)集中運(yùn)行,其Kendall的平均值隨著主題數(shù)量增加而變化的具體情況如圖2所示。
圖2 Kendall的平均值
由此可見,縱軸是不同模型之間的比較下所形成的Kendallτ平均值,橫軸是主題的數(shù)量。隨著主題數(shù)量的不斷增加,所有模型對比的Kendallτ值都在持續(xù)下降,進(jìn)而說明了主題數(shù)量增加與詞語數(shù)量的增多增加了概率排名列表之間的不一致情況。Kumar等人[19]研究了Twitter等社交媒體中能快速獲取信息的關(guān)鍵人及其識別問題。在他們的研究中,詞語(Term)的出現(xiàn)概率與主題(Topic)之間在Kendall方面的相關(guān)關(guān)系也得到了驗(yàn)證。
在社交媒體的文本挖掘研究中,AT模型并不是惟一,也不是目前最優(yōu)的LDA模型拓展。Hong和Davison將AT模型與USER模型以及傳統(tǒng)的TF-IDF等模型作了比較,顯示出了AT模型在短文本主題提取方面的較高準(zhǔn)確度。但進(jìn)一步地,Zhao等[20]學(xué)者在對Twitter與其他傳統(tǒng)社交媒體的比較分析中引入了Twitter-LDA模型,并將其結(jié)果與傳統(tǒng)的標(biāo)準(zhǔn)LDA模型,AT模型分別作了比較。研究者抽取了330個主題類型以及其中的Twitter信息(Tweets)作為算法的測試集,發(fā)現(xiàn)Twitter-LDA模型的表現(xiàn)明顯優(yōu)于其他兩個模型。其準(zhǔn)確度結(jié)果如表2所示。
表2 Twitter-LDA,AT模型以及標(biāo)準(zhǔn)LDA模型之間的比較
在基于Twitter中短文本內(nèi)容的主題分析中,除上述LDA類的關(guān)鍵詞提取與主題發(fā)掘方法之外,Topical PageRank通常是使用較為廣泛的方法之一。該方法基于每個不同的主題分別運(yùn)行基于主題的PageRank算法(Topic-biased PageRank),并將與目標(biāo)主題高度相關(guān)的關(guān)鍵詞提取出來。通常地,特定主題PageRank(Topic-specific PageRank)的得分可以根據(jù)以下公式計(jì)算:
在上述公式中,Rt(W)是指在主題t中詞w獲得的PageRank得分?jǐn)?shù),e(Wj,Wi)是有向邊(Wj→Wi)的權(quán)重,Pt(W)是詞W的隨機(jī)跳轉(zhuǎn)概率(Random jumping probability)。在給定的主題t中,就所有的關(guān)鍵詞w而言,必須滿足Pt(W)的總和為1。上述初始模型利用社會網(wǎng)絡(luò)分析中PageRank的算法構(gòu)建了主題內(nèi)詞間的共現(xiàn)關(guān)系,為主題相關(guān)的關(guān)鍵詞提取提供了簡潔有效的方法。然而,在不同的主題關(guān)系下,同樣的詞共現(xiàn)代表的含義是不同的。例如,juice和apple可能經(jīng)常共同出現(xiàn),但若在電子產(chǎn)品的主題下,二者之間的共現(xiàn)關(guān)系就不能作為關(guān)鍵詞提取的依據(jù)。由此可見,Topic-specifc PageRank算法還應(yīng)該加入主題這一情境性因素[21]。特定邊的權(quán)重不應(yīng)該是對所有主題都通用的定值,而是一個關(guān)于t的函數(shù)?;谶@種改進(jìn)思路,可得主題情境下的PageRank關(guān)鍵詞提取模型(Topic context sensitive PageRank method)如下:
值得注意的是,未經(jīng)拓展的標(biāo)準(zhǔn)LDA模型在直接應(yīng)用于社交媒體信息內(nèi)容分析時的效果往往較差,原因在于社交媒體中的文本信息過短,且通常以單主題信息為主,故而不適合標(biāo)準(zhǔn)LDA模型的類別提取與訓(xùn)練過程。因此,在基于社交媒體中短文本內(nèi)容主題的提取與分析中,LDA模型依然是該研究領(lǐng)域進(jìn)行模型拓展的基礎(chǔ),其他的一系列研究模型,如AT模型,Twitter-LDA,USER等模型,都是在LDA核心思想的基礎(chǔ)上,根據(jù)社交媒體的各項(xiàng)內(nèi)容特征(文本長度,發(fā)布者特征,發(fā)布數(shù)量,主題數(shù)量等)通過增加變量,調(diào)整部分算法細(xì)節(jié)等方式進(jìn)行拓展的。
1.2 社交媒體情境下的信息不平等:內(nèi)容流行度分析
以新聞信息為代表的各類信息的流行度,是近年來面向社交媒體影響力分析的一個重要研究領(lǐng)域。社交媒體中信息的流行度受到內(nèi)容,發(fā)布者影響力,發(fā)布時間等多項(xiàng)因素的影響,網(wǎng)絡(luò)之外的情境因素,例如地理,語言等也很難被完全考慮到分析之內(nèi)[22]。與此同時,社交媒體中傳播的成功率與信息的流行度也不是均勻分布的,而多半是遵循冪律分布的:一小部分用戶占據(jù)了社交媒體中信息活動的主體,他們發(fā)布和關(guān)注的信息往往被賦予權(quán)威性,受到廣泛的關(guān)注,閱讀與分享。另一方面,大部分普通用戶發(fā)布的信息則相對單一,受到的關(guān)注也比較少,其所生產(chǎn)與傳播之信息的傳播范圍以及影響力也因而十分有限[23]。以Flickr為例,在40億圖片中只有很小一部分圖片被閱覽超過千次,絕大部分圖片都很少受到用戶的點(diǎn)擊與閱覽。
基于內(nèi)容流行度分析問題的復(fù)雜度,其研究者提出的算法和變量模型就相對分散,很少基于一個類似于LDA的基礎(chǔ)模型發(fā)展出很多相似的但跨越多個研究問題拓展模型。在社交媒體研究領(lǐng)域諸多學(xué)者參考了已有的模型與指標(biāo),以試圖預(yù)測特定信息內(nèi)容在Twitter,F(xiàn)acebook等覆蓋面較廣的社交網(wǎng)絡(luò)中會獲得何種水平的流行度。Kim等[24]學(xué)者構(gòu)建了包含爆炸性,熱度,溫和等不同程度的博客文章熱度量表(Temperature scale),并抓取了文章點(diǎn)擊率數(shù)據(jù),以飽和狀態(tài)的點(diǎn)擊率(Hit count of saturated point)預(yù)測博客文章未來的流行度。Tatar[25]也認(rèn)同了用戶參與的記錄在預(yù)測信息流行度中的重要性。與Kim的研究不同的是,Tatar關(guān)注了在線新聞流行度與相應(yīng)較短時間段內(nèi)用戶評論之間的聯(lián)系?;跒槠?年的在線新聞與相關(guān)評論數(shù)據(jù)集,Tatar發(fā)展出了一個簡單線性模型,并從準(zhǔn)確度,復(fù)雜度等方面與其他類似模型作了比較。
由此可見,在基于文本內(nèi)容的流行度分析方面,面向社交媒體中新聞信息的流行度預(yù)測是學(xué)者們較多關(guān)注的領(lǐng)域。除常見的twitter,F(xiàn)acebook,F(xiàn)lickr等社交媒體意外,Lerman和Togg[23]以網(wǎng)上新聞類社交媒體Digg為目標(biāo)對象,研究了新聞受關(guān)注度隨發(fā)布時間的變化走勢以及影響因素。在Digg中,用戶可以對自己感興趣的新聞話題進(jìn)行投票,以推出自己認(rèn)可的熱點(diǎn)新聞。在基于2 159項(xiàng)不同新聞事件及其投票狀況之分析的基礎(chǔ)上,Lerman首先提出了事件投票的增速(導(dǎo)數(shù))模型和投票者之為投票追隨者(fans)的減速模型,后者指的是投票者的fans還未瀏覽被投票的新聞,這種情況的不斷消減也可以說明特定新聞流行度的上升。其中,投票增速模型如下所示。
Vf=Vfpage(p(t)θ(Nvote(t)-h)
Vu=CVfpage(q(t)θ(h-Nvote(t))θ(24hr-t)
Vfriends=ws(t)
在模型中,r衡量了新聞事件的興趣度,或用戶投票給該新聞的可能性。Vf(t),Vu(t)以及Vfriends(t)3個變量分別代表用戶通過前一個網(wǎng)頁,后一個網(wǎng)頁或社交網(wǎng)絡(luò)中的好友而得之該新聞。h表示的是推廣新聞所需要的基本投票數(shù)。W指的是投票者的fans進(jìn)入并關(guān)注被投票新聞的速率。公式θ(Nvote(t)-h)表示:當(dāng)一個新聞的投票數(shù)少于基本要求h時,新聞只是在下一頁可見;當(dāng)超過h時,該新聞在前一個網(wǎng)頁即可見。由此可見,用戶了解新聞的信息渠道是決定該新聞是否被投票,以及其最終流行度為多少的決定性因素。流行度中的冪律分布與馬太效應(yīng)也就因此而形成。
另一方面,在社交媒體中,單個用戶對信息的關(guān)注也會影響其好友的關(guān)注。投票者未關(guān)注該新聞的fans數(shù)量下降模型就是針對該種現(xiàn)象提出的。如果一個用戶的好友較多,或其處在社交網(wǎng)絡(luò)相對中心的位置,其投票和分享新聞對該新聞的流行度就有較強(qiáng)的提升作用。該模型的數(shù)學(xué)化表達(dá)如下所示:
進(jìn)一步地,Lerman得出了新聞事件流行度(這里以被投票數(shù)代表)隨時間的累積變化趨勢如圖3所示,以及事件的數(shù)量流行度分布情況如圖4所示。在圖3中,Lerman摘取了被投票較多,流行度較高的story2和累積流行度相對較低的story2作為樣本案例進(jìn)行了對比分析。在圖4中,新聞事件的投票數(shù)與相應(yīng)的事件頻率形成了近似于冪律分布的狀態(tài)。Gomez等人[26]在對Slashdot上社交網(wǎng)絡(luò)與用戶評論的分析中也發(fā)現(xiàn)了這種文本內(nèi)容流行度在時間,空間以及內(nèi)容上不均衡分布的現(xiàn)象。
圖3 兩項(xiàng)新聞信息的投票累積增長度
圖4 新聞流行度的數(shù)量分布
在社交媒體中,除了文本信息與圖片信息的生產(chǎn)與傳播之外,視頻信息(如YouTube)也是用戶分享信息以及社交媒體產(chǎn)生影響力的主要形式之一。在視頻的流行度分析方面,Cha等學(xué)者[27]在基于YouTube視頻集合的研究中發(fā)現(xiàn)了類似于文本內(nèi)容流行度的長尾分布現(xiàn)象(Long-tail Distribution):極少部分的視頻可以吸引百萬以上的瀏覽量,而絕大部分視頻的瀏覽次數(shù)不超過50次。除了上述的整體特征以外,基于視頻主題和地理地區(qū)分布下的視頻流行度分析也在社交媒體的研究領(lǐng)域中受到了廣泛關(guān)注。在面向地理地區(qū)變量的視頻流行度分析中,瀏覽焦點(diǎn)(View focus)和瀏覽熵值(View entropy)是較為常用的兩個衡量指標(biāo)[28]。其他的相關(guān)指標(biāo)有峰值強(qiáng)度(Peak intensity)以及單調(diào)性(uniformity)[29]等等。對于視頻i的瀏覽焦點(diǎn)值Fi的計(jì)算公式如下所示:
瀏覽焦點(diǎn)代表的是視頻i所獲得的瀏覽時間與在單個地區(qū)的整個生命周期相比的最大值。另一方面,面向特定視頻i的瀏覽熵值Hi的計(jì)算公式如下所示:
瀏覽熵值衡量是特定視頻信息在不同地區(qū)的流行度分布狀況。因此,較高的瀏覽熵值說明該視頻關(guān)于地區(qū)的流行度分布較為平均,視頻瀏覽的分布范圍很廣;熵值較低則說明視頻瀏覽更集中于少量的地區(qū)?;谏鲜鲆幌盗幸曨l流行度分析指標(biāo)的研究發(fā)現(xiàn),雖然社交媒體中的網(wǎng)絡(luò)視頻服務(wù)在本質(zhì)上是面向全球的,但在線視頻的流行度卻受到了實(shí)際地理地區(qū)的顯著限制,這與不同地區(qū)的用戶在興趣,文化背景以及瀏覽習(xí)慣等各方面的不同有關(guān)。因此,在未來的研究中,視頻的流行度以及由此衍生出的社交媒體影響力分析還有很多地理性特征值得進(jìn)一步挖掘。
除了信息內(nèi)容本身的生成,分享以及傳播以外,社交媒介中形成的社會網(wǎng)絡(luò)與社區(qū)(Social networks and communities)也構(gòu)成了社交媒介影響力傳輸?shù)闹匾蛩?,即區(qū)別于主題或內(nèi)容本身的結(jié)構(gòu)性因素。對于社會網(wǎng)絡(luò)的分析在學(xué)術(shù)層面和實(shí)際應(yīng)用層面均有重要價值:社交媒介中人與人在虛擬世界相互聯(lián)系并構(gòu)成網(wǎng)絡(luò),對這種網(wǎng)絡(luò)的分析可以使虛擬世界中模糊不清的信息傳播和社會過程更為清晰,網(wǎng)絡(luò)中不同內(nèi)容和信息發(fā)布者的重要性都可以被量化評價。在社會網(wǎng)絡(luò)的研究情境下,社交媒體系統(tǒng)正處于一個拐點(diǎn)。一方面,服務(wù)于信息生產(chǎn)的用戶信息發(fā)布工具趨于成熟,但基于此的網(wǎng)絡(luò)分析工具還相對滯后[30]。面向社交媒介的社會網(wǎng)絡(luò)分析一般可以回答如下幾個類型的問題[30-31]:
在面向社交媒體的網(wǎng)絡(luò)分析中,由于具體的問題有差異,不同的學(xué)者在具體指標(biāo)與方法上都會有分歧。但在社會網(wǎng)絡(luò)分析方面,Perer和Shneiderman[32]提出了指標(biāo)清單往往是作為分析起點(diǎn)的基礎(chǔ)性研究指標(biāo):
上述指標(biāo)均為社會網(wǎng)絡(luò)分析的初始指標(biāo),也是更復(fù)雜網(wǎng)絡(luò)分析的基礎(chǔ)和起點(diǎn)。作為基礎(chǔ)性的網(wǎng)絡(luò)分析工具,以上的初始指標(biāo)是為了得到關(guān)于社交媒介中網(wǎng)絡(luò)結(jié)構(gòu)的宏觀把握。對網(wǎng)絡(luò)進(jìn)一步的分析,則往往需要涉及邊的性質(zhì)分析,以及社會網(wǎng)絡(luò)中的虛擬社區(qū)發(fā)掘等問題。
在社交網(wǎng)絡(luò)中邊的性質(zhì)分析方面,積極(Positive)關(guān)系和消極(Negative)關(guān)系的產(chǎn)生與互動往往是研究關(guān)注的重點(diǎn)。當(dāng)涉及社交媒介中交互關(guān)系的討論時,在積極關(guān)系(如關(guān)注,好友等)之外添加對消極關(guān)系的關(guān)注,可以是研究本身更貼近于社交媒介中虛擬網(wǎng)絡(luò)的實(shí)際情況:基于社交媒介發(fā)展起來的社會網(wǎng)絡(luò)通常包含著大量的積極和消極關(guān)系,并使它們同時存在于一個單一的系統(tǒng)中。若要更好地理解這些關(guān)系的作用和互動,就必須在邊的方向和權(quán)重之外,增加對邊的性質(zhì)的考慮。Kunegis等學(xué)者[33]基于Slatshot中用戶關(guān)系的語料庫分析,挖掘了用戶之間追隨(tag)關(guān)系下的隱含的積極關(guān)系與消極關(guān)系。進(jìn)一步地,Leskovec等學(xué)者[34]研究了Epinion,Slashdot以及Wikipedia中基于邊性質(zhì)的標(biāo)記網(wǎng)絡(luò)(Signed network),并探討了上述不同社交媒體中穩(wěn)定三邊關(guān)系的數(shù)量和分布情況,以研究特定社交媒體情境下基于3個用戶為一組的交互關(guān)系是否顯著地偏向于穩(wěn)定或不穩(wěn)定。研究結(jié)果如表3所示。
表3 平衡與非平衡無向三邊關(guān)系數(shù)
三邊關(guān)系的穩(wěn)定結(jié)構(gòu)是分析復(fù)雜網(wǎng)絡(luò)穩(wěn)定性的基本出發(fā)點(diǎn)。如表所示,P表示的是特定三邊關(guān)系的出現(xiàn)概率,P0則是相應(yīng)的隨機(jī)概率。S(surprise)衡量的是P偏離P0的程度。當(dāng)P(Ti)>P0(Ti)時,則表明相應(yīng)三邊關(guān)系出現(xiàn)的概率大于隨機(jī)概率,進(jìn)而凸顯了該種社交媒介對特定類型三邊關(guān)系的塑造作用,也就是社交媒介影響力的一種具體體現(xiàn)。通過表3可以發(fā)現(xiàn),T3類型(即三邊關(guān)系均為積極關(guān)系)的出現(xiàn)概率在3類社交媒介中都大于相應(yīng)的隨機(jī)概率(其中在Epinion中最高),進(jìn)而了說明上述3種社交媒介情境都有利于用戶間相對穩(wěn)定關(guān)系的形成,這些實(shí)證觀測結(jié)果與Heider早期關(guān)于結(jié)構(gòu)性平衡的定義是相符的。
除了社交媒介中關(guān)系性質(zhì)的分析以外,虛擬社區(qū)的形成與發(fā)掘也是面向社交媒體影響力之結(jié)構(gòu)性分析的一個重要領(lǐng)域。在目前的社交媒介虛擬社區(qū)挖掘中,目標(biāo)社區(qū)一般被分為兩種范式:分眾分類或大眾分類(Folksonomy)[35]和meta圖分類(Metagraph)[36]。大眾分類法使得傳統(tǒng)分類法擺脫了固化的現(xiàn)象,并且跟大眾的認(rèn)知程度密切地結(jié)合起來,同時這種分類方法也為群體用戶和信息之間建立了一個聯(lián)系橋梁。這種分類是平面化的,沒有等級層次的劃分,雖然它相對不夠嚴(yán)謹(jǐn),缺乏準(zhǔn)確度,但是在社會性軟件中,這種平面延伸的分類方法卻在無形之中成為形成了溝通的渠道和網(wǎng)絡(luò),而且方便,靈活,不受條件限制。所以這種以自定義標(biāo)簽形式的大眾分類在現(xiàn)下流行的社會性網(wǎng)絡(luò)服務(wù)中得到了廣泛的應(yīng)用,例如Delicious、Flickr和43things等等。與分眾分類相比較為復(fù)雜的meta圖分類則關(guān)注的是不同用戶的不同分面(Facets)之間的聯(lián)系,并依據(jù)不同面的組配來為用戶的關(guān)系和活動建圖。在研究方法與算法復(fù)雜度方面,Papadppoulos等學(xué)者[37]總結(jié)并比較了包含連續(xù)性子結(jié)構(gòu)發(fā)掘,節(jié)點(diǎn)聚類等多種研究方法在內(nèi)的社區(qū)發(fā)掘方法,如表4所示。
表4 社區(qū)發(fā)掘的復(fù)雜度比較
在上述的社區(qū)發(fā)掘算法復(fù)雜度比較中,復(fù)雜度A指的是不考慮網(wǎng)絡(luò)密度的復(fù)雜度比較,而復(fù)雜度B指的是基于網(wǎng)絡(luò)結(jié)構(gòu)稀疏這一假設(shè)的復(fù)雜度比較。進(jìn)一步地,在網(wǎng)絡(luò)規(guī)模的比較中,S指的是小規(guī)模網(wǎng)絡(luò),即節(jié)點(diǎn)數(shù)不足104。M指的是大于小規(guī)模網(wǎng)絡(luò)但節(jié)點(diǎn)數(shù)不足106的中型網(wǎng)絡(luò);L則是指節(jié)點(diǎn)數(shù)在(106,109)這一區(qū)間內(nèi)的大規(guī)模網(wǎng)絡(luò)。筆者認(rèn)為,就方法論層面而言,未來社區(qū)發(fā)掘研究的重點(diǎn)在于如何改進(jìn)算法,以解決社交媒體中數(shù)據(jù)量和網(wǎng)絡(luò)規(guī)模急速擴(kuò)張的現(xiàn)實(shí)狀況。在社交媒介的虛擬空間中,社區(qū)中用戶的整體行為與個人行為之間的差別也有待挖掘,需要構(gòu)建社會網(wǎng)絡(luò)的動態(tài)模型加以分析[38]。另外,K叢分析,多維度分析以及超網(wǎng)絡(luò)分析都有可能在未來的社交媒介研究領(lǐng)域吸引更多學(xué)者的注意。
在本文中,筆者基于國外相關(guān)的實(shí)證研究從信息內(nèi)容和網(wǎng)絡(luò)結(jié)構(gòu)兩個層面總結(jié)了目前的社交媒介影響力研究狀況。社交媒體指允許人們撰寫,分享,評價,討論,相互溝通的網(wǎng)站和技術(shù)平臺。簡言之,社交媒體是社會化媒體與社交網(wǎng)絡(luò)的結(jié)合體,它是一個“能互動”的媒體。和傳統(tǒng)的社交形式和媒體傳播方式相比,社交媒體網(wǎng)站具有便捷,及時,時尚,互動性強(qiáng),突出個性化,資料更新的及時容易,使用目的手段多樣性等優(yōu)點(diǎn),體現(xiàn)出平民性,參與性,對話性,社區(qū)化等明顯特征。具體來說,社交媒體的形態(tài)包括博客及微博客(如國外Twitter,F(xiàn)acebook等,國內(nèi)的飯否網(wǎng)等),維基(如國外的Wiki等,國內(nèi)的互動百科,百度百科等),圖片分享(如國外的Flickr,Pinterest等)播客及視頻分享(如國外YouTube等,國內(nèi)的土豆網(wǎng),優(yōu)酷網(wǎng)等)等。
縱觀社交媒體的發(fā)展過程,可以說,社交媒體發(fā)展到現(xiàn)在已經(jīng)成為我們生活中的重要組成部分。社交媒體相關(guān)的學(xué)術(shù)研究也從內(nèi)容挖掘(如基于LDA模型的一系列主題提取和內(nèi)容挖掘的拓展模型研究)和網(wǎng)絡(luò)結(jié)構(gòu)(如網(wǎng)絡(luò)節(jié)點(diǎn)與邊的性質(zhì),網(wǎng)絡(luò)中的社區(qū)發(fā)掘等)兩個層面不斷展開。當(dāng)社交媒體成為我們文化生活的一部分時,任何社會化的活動都不能忽略其影響?;趥€人層面的影響分析,社交媒體已經(jīng)覆蓋人們?nèi)粘I畹母鱾€方面,并正改變?nèi)藗儗ふ液头窒硇畔⒌姆绞胶拖嗷ソ煌氖侄??;谏鐣挠绊憗碇v,首先,社交媒體是基于關(guān)系的信息傳播,具有更好的營銷效果,對商業(yè)的發(fā)展帶來了新的契機(jī)。另外,可以說社交媒體正在掀起一場“網(wǎng)絡(luò)革命”:社交媒體不再是人們單獨(dú)進(jìn)行交流的工具,也是人們關(guān)注熱點(diǎn)事件,組織政治活動,發(fā)動公民運(yùn)動,實(shí)施危機(jī)救助的平臺。相應(yīng)地,面向社交媒體影響力的模型構(gòu)建以及語義分析等,應(yīng)將更大的數(shù)據(jù)量,更多的社交媒介現(xiàn)象納入分析的范疇之中。
在國內(nèi)的語境下,社交媒體,特別是微博在群體性事件和公民事件中的影響力已受到日益廣泛的關(guān)注。相應(yīng)地,國內(nèi)面向社交媒體的影響力研究也可能借鑒國外的研究領(lǐng)域和研究方法,從而在國內(nèi)的社交媒體情境下更準(zhǔn)確地挖掘信息生成規(guī)律,信息傳播規(guī)律,用戶行為模式以及社交網(wǎng)絡(luò)結(jié)構(gòu)等方面的動態(tài)特征。
[1]Cheng X,Dale C,Liu J.Statistics and social network of youtube videos[C]∥Quality of Service,2008.IWQoS 2008.16th International Workshop on.IEEE,2008:229-238.
[2]Kwak H,Lee C,Park H,et al.What is Twitter,a social network or a news media?[C]∥Proceedings of the 19th international conference on World Wide Web.ACM,2010:591-600.
[3]Erickson T.Social interaction on the net:Virtual community as participatory genre[C]∥System Sciences,1997,Proceedings of the Thirtieth Hawaii International Conference on.IEEE,1997,(6):13-21.
[4]Mangold W G,Faulds D J.Social media:The new hybrid element of the promotion mix[J].Business Horizons,2009,52(4):357-365.
[5]Pang B,Lee L.Opinion mining and sentiment analysis[J].Foundations and Trends in Information Retrieval,2008,2(1-2):1-135.
[6]Ellison N B.Social network sites:Definition,history,and scholarship[J].Journal of Computer-Mediated Communication,2007,13(1):210-230.
[7]McCallum A,Wang X,Mohanty N.Joint group and topic discovery from relations and text[M].Springer Berlin Heidelberg,2007:28-44.
[8]Zhang H,Giles C L,Foley H C,et al.Probabilistic community discovery using hierarchical latent gaussian mixture model[C]∥AAAI.2007,(7):663-668.
[9]Qian S,Zhang T,Xu C.Multi-modal supervised latent dirichlet allocation for event classification in social media[C]∥Proceedings of International Conference on Internet Multimedia Computing and Service.ACM,2014:152.
[10]Krestel R,Fankhauser P,Nejdl W.Latent dirichlet allocation for tag recommendation[C]∥Proceedings of the third ACM conference on Recommender systems.ACM,2009:61-68.
[11]Qian S,Zhang T,Xu C.Boosted multi-modal supervised latent dirichlet allocation for social event classification[C]∥Pattern Recognition(ICPR),2014 22nd International Conference on.IEEE,2014:1999-2004.
[12]Tsolmon B,Lee K S.An event extraction model based on timeline and user analysis in Latent Dirichlet allocation[C]∥Proceedings of the 37th international ACM SIGIR conference on Research & development in information retrieval.ACM,2014:1187-1190.
[13]Saha A,Sindhwani V.Learning evolving and emerging topics in social media:a dynamic nmf approach with temporal regularization[C]∥Proceedings of the fifth ACM international conference on Web search and data mining.ACM,2012:693-702.
[14]Blei D M,Ng A Y,Jordan M I.Latent dirichlet allocation[J].The Journal of Machine Learning Research,2003,(3):993-1022.
[15]Rosen-Zvi M,Griffiths T,Steyvers M,et al.The author-topic model for authors and documents[C]∥Proceedings of the 20th conference on Uncertainty in artificial intelligence.AUAI Press,2004:487-494.
[16]Rosen-Zvi M,Chemudugunta C,Griffiths T,et al.Learning author-topic models from text corpora[J].ACM Transactions on Information Systems(TOIS),2010,28(1):4.
[17]Hong L,Davison B D.Empirical study of topic modeling in twitter[C]∥Proceedings of the First Workshop on Social Media Analytics.ACM,2010:80-88.
[18]Xu Z,Lu R,Xiang L,et al.Discovering user interest on twitter with a modified author-topic model[C]∥Web Intelligence and Intelligent Agent Technology(WI-IAT),2011 IEEE/WIC/ACM International Conference on.IEEE,2011,(1):422-429.
[19]Kumar S,Morstatter F,Zafarani R,et al.Whom should I follow?identifying relevant users during crises[C]∥Proceedings of the 24th ACM conference on Hypertext and social media.ACM,2013:139-147.
[20]Zhao W X,Jiang J,Weng J,et al.Comparing twitter and traditional media using topic models[M]∥Advances in Information Retrieval.Springer Berlin Heidelberg,2011:338-349.
[21]Zhao W X,Jiang J,He J,et al.Topical keyphrase extraction from twitter[C]∥Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics:Human Language Technologies-Volume 1.Association for Computational Linguistics,2011:379-388.
[22]Bandari R,Asur S,Huberman B A.The Pulse of News in Social Media:Forecasting Popularity[C]∥ICWSM.2012.
[23]Lerman K,Hogg T.Using a model of social dynamics to predict popularity of news[C]∥Proceedings of the 19th international conference on World wide web.ACM,2010:621-630.
[24]Kim S D,Kim S H,Cho H G.Predicting the virtual temperature of web-blog articles as a measurement tool for online popularity[C]∥Computer and Information Technology(CIT),2011 IEEE 11th International Conference on.IEEE,2011:449-454.
[25]Tatar A,Leguay J,Antoniadis P,et al.Predicting the popularity of online articles based on user comments[C]∥Proceedings of the International Conference on Web Intelligence,Mining and Semantics.ACM,2011:67.
[26]Gómez V,Kaltenbrunner A,López V.Statistical analysis of the social network and discussion threads in slashdot[C]∥Proceedings of the 17th international conference on World Wide Web.ACM,2008:645-654.
[27]Cha M,Kwak H,Rodriguez P,et al.I tube,you tube,everybody tubes:analyzing the world’s largest user generated content video system[C]∥Proceedings of the 7th ACM SIGCOMM conference on Internet measurement.ACM,2007:1-14.
[28]Brodersen A,Scellato S,Wattenhofer M.Youtube around the world:geographic popularity of videos[C]∥Proceedings of the 21st international conference on World Wide Web.ACM,2012:241-250.
[29]Figueiredo F,Benevenuto F,Almeida J M.The tube over time:characterizing popularity growth of youtube videos[C]∥Proceedings of the fourth ACM international conference on Web search and data mining.ACM,2011:745-754.
[30]Smith M A,Shneiderman B,Milic-Frayling N,et al.Analyzing(social media)networks with NodeXL[C]∥Proceedings of the fourth international conference on Communities and technologies.ACM,2014:255-264.
[31]Kane G C,Alavi M,Labianca G,et al.What’s different about social media networks?A framework and research agenda[J].MIS Quarterly,2014,38(1):275-304.
[32]Perer A,Shneiderman B.Balancing systematic and flexible exploration of social networks[J].Visualization and Computer Graphics,IEEE Transactions on,2006,12(5):693-700.
[33]Kunegis J,Lommatzsch A,Bauckhage C.The slashdot zoo:mining a social network with negative edges[C]∥Proceedings of the 18th international conference on World Wide Web.ACM,2009:741-750.
[34]Leskovec J,Huttenlocher D,Kleinberg J.Signed networks in social media[C]∥Proceedings of the SIGCHI Conference on Human Factors in Computing Systems.ACM,2010:1361-1370.
[35]Almoqhim F,Millard D E,Shadbolt N.Improving on Popularity as a Proxy for Generality When Building Tag Hierarchies from Folksonomies[M]∥Social Informatics.Springer International Publishing,2014:95-111.
[36]Lin Y R,Sun J,Sundaram H,et al.Community discovery via metagraph factorization[J].ACM Transactions on Knowledge Discovery from Data(TKDD),2011,5(3):17.
[37]Papadopoulos S,Kompatsiaris Y,Vakali A,et al.Community detection in social media[J].Data Mining and Knowledge Discovery,2012,24(3):515-554.
[38]Yu R,He X,Liu Y.Glad:group anomaly detection in social media analysis[C]∥Proceedings of the 20th ACM SIGKDD international conference on Knowledge discovery and data mining.ACM,2014:372-381.
(本文責(zé)任編輯:郭沫含)
Research Agenda of International Social Media Influence Analysis——Advances and Implications
Liu Jiqun
(Department of Information Management,Peking University,Beijing 100871,China)
With the rapid development of information and communication technologies,more and more individual users and organizations choose to participate in the social media spaces,and the influence of social media keeps on ascending accordingly.This paper analyzed and summarized the studies of social media influences overseas in relative fields,such as computer science,and point out some basic and promising research area in social media studies including topic extraction based on contents,the popularity of information in social media,social networks and community detection.Furthermore,the paper introduced various fundamental and typical algorithms and models,and compared relevant findings.The possible direction of future research in the field of social media studies was also proposed.Finally,the implications of these studies to social media influence analysis in China were also discussed.
social media;social network;influence analysis;LDA model;community detection
2016-01-18
劉濟(jì)群(1992-),男,碩士研究生,研究方向:信息行為,信息通訊技術(shù)與社會發(fā)展,圖書情報學(xué)研究方法,發(fā)表論文10余篇。
10.3969/j.issn.1008-0821.2016.03.026
TP391;G252.8
A
1008-0821(2016)03-0158-09