趙群
摘要:網(wǎng)絡(luò)中結(jié)構(gòu)洞和非結(jié)構(gòu)洞節(jié)點(diǎn)所處位置不同,獲得信息的方式和信息量均不同,從而可能導(dǎo)致這兩種節(jié)點(diǎn)的行為方式不同。該文主要通過(guò)數(shù)據(jù)挖掘、統(tǒng)計(jì)學(xué)、社會(huì)學(xué)等方法,分析在新浪微博虛擬網(wǎng)絡(luò)中結(jié)構(gòu)洞和非結(jié)構(gòu)洞節(jié)點(diǎn)的投票觀點(diǎn)統(tǒng)計(jì)數(shù)據(jù),發(fā)現(xiàn)結(jié)構(gòu)洞與非結(jié)構(gòu)洞兩種節(jié)點(diǎn)的行為存在差異。同時(shí),該文還對(duì)虛擬網(wǎng)絡(luò)的社區(qū)中觀點(diǎn)的抱團(tuán)現(xiàn)象進(jìn)行了統(tǒng)計(jì)分析,并發(fā)現(xiàn)了在虛擬網(wǎng)絡(luò)社區(qū)中不存在“沉默的螺旋”現(xiàn)象。
關(guān)鍵詞:結(jié)構(gòu)洞;行為差異;社區(qū);虛擬網(wǎng)絡(luò)
中圖分類號(hào):TP393 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2015)08-0257-04
Abstract: In the network,the structural holes and non structural holes of different node position,the way to get information and information content are different,which may lead to the two node in different ways.This paper mainly through data mining, statistics,sociology method,analysis on Sina micro-blog virtual network structural holes and non structural hole nodes vote view statistical data,found that the structural holes and non structural holes two node behavior differences.At the same time,this paper also Baotuan phenomenon view of virtual network community are analyzed,and found in the virtual network community does not exist in "the spiral of silence"phenomenon.
Key words: structural holes; behavioral differences; community; virtual network
在社會(huì)網(wǎng)絡(luò)研究中,人們通常把緊密聯(lián)系在一起的節(jié)點(diǎn)集合看作一個(gè)網(wǎng)絡(luò)社區(qū),結(jié)構(gòu)洞是連接不同網(wǎng)絡(luò)社區(qū)之間的捷徑,看上去就是存在于網(wǎng)絡(luò)中兩個(gè)沒(méi)有緊密聯(lián)系的節(jié)點(diǎn)集合之間的‘空地[1]。相比非結(jié)構(gòu)洞節(jié)點(diǎn),結(jié)構(gòu)洞節(jié)點(diǎn)連接多個(gè)不同的社區(qū)群體,能夠獲得網(wǎng)絡(luò)中多種互不交叉部分的信息,得到更多的信息量。而信息量不同對(duì)節(jié)點(diǎn)行為有可能存在影響。
目前在社會(huì)網(wǎng)絡(luò)研究中對(duì)結(jié)構(gòu)洞的研究較少,缺乏數(shù)據(jù)支持,存在主觀性。隨著虛擬網(wǎng)絡(luò)的日益普及,越來(lái)越多的用戶選擇在虛擬網(wǎng)絡(luò)上表達(dá)自己對(duì)某個(gè)事件的觀點(diǎn),這為本文的研究提供了便利條件。新浪微博在中國(guó)是最大的虛擬網(wǎng)絡(luò)之一,用戶可以通過(guò)新浪微博的投票應(yīng)用對(duì)自己就某個(gè)事件的觀點(diǎn)進(jìn)行投票,以此來(lái)表明自己的態(tài)度立場(chǎng)等,本文選取了新浪微博比較有代表性的三個(gè)投票內(nèi)容作為研究對(duì)象,首先對(duì)投票內(nèi)容進(jìn)行了抓取并構(gòu)建出相應(yīng)的網(wǎng)絡(luò),然后利用[2]中的社區(qū)發(fā)現(xiàn)算法找出網(wǎng)絡(luò)中的社區(qū),利用[3]中所提出的算法找出結(jié)構(gòu)洞,最后對(duì)結(jié)構(gòu)洞和非結(jié)構(gòu)洞節(jié)點(diǎn)對(duì)各種觀點(diǎn)的投票比例進(jìn)行統(tǒng)計(jì)分析,驗(yàn)證了在虛擬網(wǎng)絡(luò)中結(jié)構(gòu)洞的行為和非結(jié)構(gòu)洞節(jié)點(diǎn)確實(shí)存在不同。同時(shí),本文還通過(guò)比較虛擬社區(qū)中各觀點(diǎn)所占比例與樣本空間中各觀點(diǎn)所占比例的差異,對(duì)社區(qū)中觀點(diǎn)抱團(tuán)現(xiàn)象進(jìn)行了統(tǒng)計(jì);并且通過(guò)對(duì)社區(qū)中各觀點(diǎn)比例隨時(shí)間的變化進(jìn)行統(tǒng)計(jì),發(fā)現(xiàn)了在虛擬網(wǎng)絡(luò)社區(qū)中不存在“沉默的螺旋”現(xiàn)象。
1 相關(guān)設(shè)定
設(shè)每個(gè)投票事件的全部用戶集合為T,此投票中給觀點(diǎn)i投票的用戶集合為Topi,則全部投票中觀點(diǎn)i的投票比例為|Topi|/|T|。
設(shè)每個(gè)投票事件所被抓取到的樣本空間中所有用戶集合為C,在此樣本空間中給觀點(diǎn)i投票的用戶集合為Copi,則樣本空間中觀點(diǎn)I的投票比例為|Copi|/|C|。
設(shè)每個(gè)投票事件中結(jié)構(gòu)洞用戶集合為 H,在此結(jié)構(gòu)洞集合中給觀點(diǎn)i投票的用戶集合為Hopi,則結(jié)構(gòu)洞集合中觀點(diǎn)i的投票比例為|Hopi|/|H|。
設(shè)每個(gè)投票事件所構(gòu)建網(wǎng)絡(luò)中的某個(gè)緊密連接的用戶集合為社區(qū)Sj,社區(qū)Sj中給觀點(diǎn)i投票的用戶集合為Sjopi,則社區(qū)Sj中觀點(diǎn)i的投票比例為|Sjopi|/|Sj|;設(shè)社區(qū)Sj中觀點(diǎn)i在日期Dl的累計(jì)票數(shù)為SjDlOpi,社區(qū)Sj中所有觀點(diǎn)在日期Dl的累計(jì)票數(shù)和為SjDl,則社區(qū)Sj中觀點(diǎn)i在日期Dl累計(jì)的投票比例為|SjDlOpi|/|SjDl|。
社區(qū)的抱團(tuán)現(xiàn)象指在社區(qū)中某觀點(diǎn)i的投票比例與樣本空間中觀點(diǎn)i的投票比例差值高于閾值β。
2 數(shù)據(jù)收集
2.1 數(shù)據(jù)選取
為了研究虛擬網(wǎng)絡(luò)中用戶的行為,本文選取了新浪微博中投票數(shù)據(jù)作為研究對(duì)象,投票可以明確地反映出用戶的行為和態(tài)度。本文選用三個(gè)有代表性的投票內(nèi)容:“運(yùn)營(yíng)商準(zhǔn)備向微信業(yè)務(wù)收費(fèi),你是同意還是反對(duì)?”(下文稱為微信事件),“舒淇退出微博你怎么看?”(下文稱為舒淇事件)以及“你贊成清明節(jié)上墳燒香嗎?”(下文稱為清明節(jié)事件)。三個(gè)投票的具體信息如表1所示。
2.2 投票數(shù)據(jù)抓取方法及結(jié)果
新浪微博api沒(méi)有相應(yīng)的投票數(shù)據(jù)接口,本文使用java程序抓取投票數(shù)據(jù),使用投票的關(guān)鍵詞在新浪微博頁(yè)面進(jìn)行搜索,解析返回的結(jié)果頁(yè)面,提取出需要的投票詳細(xì)信息:投票人昵稱,投票觀點(diǎn)和投票時(shí)間。由于新浪微博的數(shù)據(jù)保護(hù)措施,利用程序抓取數(shù)據(jù)存在一定的時(shí)間限制和數(shù)量限制,無(wú)法獲取每個(gè)時(shí)間節(jié)點(diǎn)的所有數(shù)據(jù),最終抓取到的三個(gè)話題的用戶及內(nèi)容數(shù)據(jù)如圖1所示。
原始數(shù)據(jù)中存在重復(fù)抓取戶和未投票只轉(zhuǎn)發(fā)的用戶,所以去除重復(fù)抓取和未投票的用戶后,三個(gè)投票的用戶及內(nèi)容數(shù)據(jù)如圖 2 所示。
2.3 網(wǎng)絡(luò)構(gòu)建方法及結(jié)果
為了構(gòu)建虛擬社交網(wǎng)絡(luò),需要投票用戶之間的關(guān)注信息,新浪微博用戶關(guān)注列表和粉絲列表對(duì)構(gòu)建虛擬網(wǎng)絡(luò)效果相同,并且關(guān)注列表相對(duì)較小,因此本文使用微博api抓取了上述三個(gè)投票用戶的所有關(guān)注列表,進(jìn)而形成投票用戶間的社交網(wǎng)絡(luò)。投票用戶關(guān)注列表數(shù)據(jù)如圖3所示。
使用上述投票用戶及其關(guān)注列表,去除對(duì)結(jié)果沒(méi)有作用的孤立點(diǎn),構(gòu)建出三個(gè)話題數(shù)據(jù)投票用戶之間的虛擬社交網(wǎng)絡(luò)。投票用戶網(wǎng)絡(luò)規(guī)模如表2所示。
2.4 社區(qū)發(fā)現(xiàn)
為了發(fā)現(xiàn)網(wǎng)絡(luò)中的結(jié)構(gòu)洞,需要先將社交網(wǎng)絡(luò)中的社區(qū)尋找出來(lái)。本文使用[2]中的社區(qū)發(fā)現(xiàn)算法,通過(guò)pagerank得到節(jié)點(diǎn)在投票用戶網(wǎng)絡(luò)中的全局重要度排序,使用值傳播,發(fā)現(xiàn)用戶的局部重要度;然后根據(jù)核心團(tuán)體中節(jié)點(diǎn)重要度都比較高的特點(diǎn)構(gòu)建核心團(tuán)體;最后基于同心圓模型對(duì)核心團(tuán)體進(jìn)行擴(kuò)展發(fā)現(xiàn)社區(qū)。 三個(gè)投票的社區(qū)數(shù)據(jù)如圖4所示。
可以看出,三類投票網(wǎng)絡(luò)分別代表了不同的網(wǎng)絡(luò)結(jié)構(gòu),微信事件投票社區(qū)規(guī)模分布極端,存在少量特大規(guī)模的社區(qū)和絕大多數(shù)的小規(guī)模社區(qū);舒淇事件投票社區(qū)規(guī)模分布均勻,社區(qū)規(guī)模大小比較平均;清明節(jié)事件投票社區(qū)都是較小規(guī)模。
2.5 挖掘結(jié)構(gòu)洞
使用[3]中的算法找出結(jié)構(gòu)洞,論文針對(duì)twitter數(shù)據(jù)集設(shè)計(jì)了兩個(gè)算法HIS和MaxD來(lái)找出結(jié)構(gòu)洞。本文選擇了其中效果稍好的HIS算法,該算法的主要思想是:如果某個(gè)節(jié)點(diǎn)連接了許多社區(qū)的意見領(lǐng)袖節(jié)點(diǎn),那么它更有可能是結(jié)構(gòu)洞節(jié)點(diǎn);而如果某個(gè)節(jié)點(diǎn)連接了許多的結(jié)構(gòu)洞節(jié)點(diǎn),它將更有可能是意見領(lǐng)袖節(jié)點(diǎn)。HIS算法通過(guò)對(duì)每個(gè)節(jié)點(diǎn)計(jì)算它在許多社區(qū)中的Influence(v,Ci)值來(lái)表示它在這些社區(qū)中的重要性,Influence(v,Ci)值越大表示節(jié)點(diǎn)v越可能是社區(qū)i的意見領(lǐng)袖節(jié)點(diǎn);同時(shí),用sh(v,S)表示節(jié)點(diǎn)v在節(jié)點(diǎn)集S中的結(jié)構(gòu)洞值,即該值越大,節(jié)點(diǎn)v越有可能是結(jié)構(gòu)洞節(jié)點(diǎn)。根據(jù)算法的主要思想,節(jié)點(diǎn)v的Influence值是由v的鄰居的Influence值和sh值共同決定的;而節(jié)點(diǎn)v的sh值是其在所有社區(qū)中的Influence值的最小值。使用如此方法,Influence值和sh值的計(jì)算過(guò)程中相互迭代求解。
本文利用HIS算法對(duì)三個(gè)投票的數(shù)據(jù)集進(jìn)行結(jié)構(gòu)洞挖掘,對(duì)三個(gè)投票網(wǎng)絡(luò)中節(jié)點(diǎn)的sh值按照從大到小的順序排列,取前15%的節(jié)點(diǎn)為結(jié)構(gòu)洞,各事件結(jié)構(gòu)洞節(jié)點(diǎn)數(shù)量如表3所示。
3 數(shù)據(jù)分析及結(jié)果
3.1 結(jié)構(gòu)洞投票差異分析
本文比較了結(jié)構(gòu)洞節(jié)點(diǎn)投票比例,樣本總體投票比例,微博上總體投票比例 之間的差異,在統(tǒng)計(jì)中發(fā)現(xiàn)微信事件用戶存在重復(fù)投票的情況,在樣本空間中共 有 49 個(gè)用戶重復(fù)投了兩次票,每次都投了不同的觀點(diǎn),在結(jié)構(gòu)洞節(jié)點(diǎn)中共有 6 個(gè)用戶重復(fù)投了兩次票,每次都投了不同的觀點(diǎn)。則,樣本空間中重復(fù)投票用戶 占比為 49/14350=0.34%,結(jié)構(gòu)洞節(jié)點(diǎn)集中重復(fù)投票用戶占比為 6/450=1.33%,如 圖 6 所示,藍(lán)色為結(jié)構(gòu)洞節(jié)點(diǎn)中重復(fù)投票用戶所占個(gè)數(shù)的比例,紅色為總體樣本 節(jié)點(diǎn)中重復(fù)投票用戶所占個(gè)數(shù)的比例。舒淇事件和清明節(jié)事件中不存在重復(fù)投票的現(xiàn)象。圖 6 可以從一定程度上反映出結(jié)構(gòu)洞節(jié)點(diǎn)更傾向于重復(fù)投票,即給兩個(gè)觀點(diǎn)都投了票,說(shuō)明可能結(jié)構(gòu)洞節(jié)點(diǎn)比普通節(jié)點(diǎn)的觀點(diǎn)更搖擺。
接下來(lái)分析各事件的結(jié)構(gòu)洞節(jié)點(diǎn)集合各觀點(diǎn)的投票比例與樣本空間中各觀點(diǎn)的投票比例,以及全部投票中各觀點(diǎn)的投票比例(計(jì)算定義見第二章)之間的差異,從而分析結(jié)構(gòu)洞節(jié)點(diǎn)是否和非結(jié)構(gòu)節(jié)點(diǎn)的行為存在差異,數(shù)據(jù)分析結(jié)果如圖7所示。
由圖7可以看出,三個(gè)事件的樣本空間中各觀點(diǎn)投票比例和微博投票應(yīng)用公布的全部投票比例相差在4.1%以內(nèi),說(shuō)明了樣本空間的有效性。還可以看出,舒淇事件和清明節(jié)事件的結(jié)構(gòu)洞節(jié)點(diǎn)集合中各觀點(diǎn)的投票比例與樣本空間中各觀點(diǎn)的投票比例相差普遍在20%左右,可以說(shuō)明在這兩個(gè)事件中結(jié)構(gòu)洞節(jié)點(diǎn)與非結(jié)構(gòu)洞節(jié)點(diǎn)的行為是有差異的;而微信事件中此兩種比例卻相差較少,一方面可 能由于微信事件比較特殊,用戶幾乎都是一邊倒的支持一類觀點(diǎn)(反對(duì)觀點(diǎn)),同意觀點(diǎn)只占3%左右,其一點(diǎn)點(diǎn)提升都非常不易,由圖7可以看到盡管相差較少但還是有差別,可以理解為結(jié)構(gòu)洞節(jié)點(diǎn)與非結(jié)構(gòu)洞節(jié)點(diǎn)的行為存在差異,另一方面對(duì)于微信事件,由圖6可以看出結(jié)構(gòu)洞中重復(fù)投票的用戶占比與樣本空間中 重復(fù)投票的用戶占比相比,從0.34%提高到了1.33%,提高了3倍左右,由此可 以看出在微信事件中結(jié)構(gòu)洞節(jié)點(diǎn)的觀點(diǎn)可能要比非結(jié)構(gòu)洞節(jié)點(diǎn)的觀點(diǎn)更加搖擺不定,這也可以理解為結(jié)構(gòu)洞節(jié)點(diǎn)與非結(jié)構(gòu)節(jié)點(diǎn)的行為差異。
由以上數(shù)據(jù)結(jié)果及分析可以看出,在虛擬網(wǎng)絡(luò)中結(jié)構(gòu)洞節(jié)點(diǎn)與非結(jié)構(gòu)洞節(jié)點(diǎn)確實(shí)存在行為差異。
3.2 社區(qū)分析
3.2.1 社區(qū)中的抱團(tuán)現(xiàn)象
為了研究社區(qū)中是否存在用戶抱團(tuán)現(xiàn)象,本文統(tǒng)計(jì)了三個(gè)投票數(shù)據(jù)中規(guī)模大于一定閾值的社區(qū)中各觀點(diǎn)投票比例和樣本空間中各觀點(diǎn)投票比例差異,在設(shè)定社區(qū)規(guī)模閾值時(shí),可以認(rèn)為小規(guī)模社區(qū)不存在抱團(tuán)現(xiàn)象,根據(jù)實(shí)驗(yàn)經(jīng)驗(yàn)將三個(gè)事件中社區(qū)規(guī)模閾值和觀點(diǎn)差異閾值設(shè)置如表4,統(tǒng)計(jì)結(jié)果依然用表4展示。
可以看出微信事件中社區(qū)規(guī)模大于20的社區(qū)有7個(gè),其中14.3%的社區(qū)在觀點(diǎn)1上存在抱團(tuán)現(xiàn)象,舒淇事件中社區(qū)規(guī)模大于20的社區(qū)有4個(gè),其中全部都在觀點(diǎn)1和觀點(diǎn)2上出現(xiàn)了抱團(tuán)現(xiàn)象,清明節(jié)事件中社區(qū)規(guī)模大于10的社區(qū)有3個(gè),分別有33.3%的社區(qū)在觀點(diǎn)3和觀點(diǎn)4上出現(xiàn)了抱團(tuán)現(xiàn)象。因此可以得出在社區(qū)中抱團(tuán)現(xiàn)象跟事件性質(zhì)和具體觀點(diǎn)有關(guān),不具有一般性。
3.2.2社區(qū)中“沉默的螺旋”理論
根據(jù)社區(qū)投票數(shù)據(jù),本文通過(guò)統(tǒng)計(jì)各個(gè)事件中規(guī)模top2的社區(qū)中各觀點(diǎn)隨時(shí)間累積的投票比例的變化趨勢(shì),分析社區(qū)中是否存在“沉默的螺旋”[4]現(xiàn)象,具體的統(tǒng)計(jì)信息如圖8所示。
通過(guò)圖8可以看出,三個(gè)事件中各觀點(diǎn)的投票比例隨時(shí)間變化并不明顯,最終都趨于穩(wěn)定,沒(méi)有出現(xiàn)強(qiáng)勢(shì)觀點(diǎn)比例隨時(shí)間明顯增多,弱勢(shì)觀點(diǎn)隨時(shí)間逐漸消失的現(xiàn)象,可以得出在社區(qū)中不存在“沉默的螺旋”現(xiàn)象。
4 結(jié)論
本文選取了新浪微博比較有代表性的三個(gè)投票內(nèi)容作為研究對(duì)象,所做工作如下:
1)利用網(wǎng)頁(yè)解析和新浪微博API對(duì)投票內(nèi)容及用戶關(guān)系進(jìn)行了抓取并構(gòu)建出相應(yīng)的網(wǎng)絡(luò);
2)利用[2]中的社區(qū)發(fā)現(xiàn)算法找出各事件網(wǎng)絡(luò)中的社區(qū);
3)利用[3]中所提出的算法找出各事件網(wǎng)絡(luò)中的結(jié)構(gòu)洞;
4)對(duì)結(jié)構(gòu)洞和非結(jié)構(gòu)洞節(jié)點(diǎn)對(duì)各種觀點(diǎn)的投票比例進(jìn)行統(tǒng)計(jì)分析,驗(yàn)證了在虛擬網(wǎng)絡(luò)中結(jié)構(gòu)洞的行為和非結(jié)構(gòu)洞節(jié)點(diǎn)確實(shí)存在不同。
5)通過(guò)比較虛擬社區(qū)中各觀點(diǎn)所占比例與樣本空間中各觀點(diǎn)所占比例的差異,對(duì)社區(qū)中觀點(diǎn)抱團(tuán)現(xiàn)象進(jìn)行了統(tǒng)計(jì);并且通過(guò)對(duì)社區(qū)中各觀點(diǎn)比例隨時(shí)間的變化進(jìn)行統(tǒng)計(jì),發(fā)現(xiàn)了在虛擬網(wǎng)絡(luò)社區(qū)中不存在“沉默的螺旋”現(xiàn)象。
另外,由于新浪微博的數(shù)據(jù)限制,本文中所能獲得的每個(gè)事件的樣本量有限,同時(shí)由于抓取數(shù)據(jù)時(shí)間較長(zhǎng),時(shí)間限制只選擇了三個(gè)有代表性的投票網(wǎng)絡(luò)進(jìn)行了分析,這是本文還存在的一些可以提升改進(jìn)的地方。
參考文獻(xiàn):
[1] 李曉明,等,譯.網(wǎng)絡(luò)、群體與市場(chǎng)[M].北京:清華大學(xué)出版社,2011.
[2] Cheng X,Lu Q,He L,et al.Communities discovery in mobile call records[C]//Fuzzy Systems and Knowledge Discovery (FSKD), 2010 Seventh International Conference on IEEE,2010,6:2541-2545.
[3] Lou T,Tang J.Mining structural hole spanners through information diffusion in social networks[C]//Proceedings of the 22nd international conference on World Wide Web. International World Wide Web Conferences Steering Committee,2013:825-836.
[4] http://baike.baidu.com/view/18306.htm.
[5] 劉軍.社會(huì)網(wǎng)絡(luò)分析導(dǎo)論[M].北京:社會(huì)科學(xué)文獻(xiàn)出版社,2004.
[6] 朱伶俐,劉黃玲子,黃榮懷.基于交互分析的協(xié)同知識(shí)建構(gòu)的分析[J].開放教育研究,2005(2):31-37.
[7]王艷,李玉斌.虛擬社區(qū)學(xué)習(xí)動(dòng)力機(jī)制研究——以新浪UC網(wǎng)絡(luò)社區(qū)為例[J].中國(guó)電化教育,2011(1):57-60+65.
[8]朱永真,夏正友,卜湛,等.虛擬社區(qū)中的社團(tuán)結(jié)構(gòu)研究與分析[J].計(jì)算機(jī)技術(shù)與發(fā)展,2011,21(1):46-49.
[9]樓天陽(yáng),褚榮偉,李儀凡,等.虛擬社區(qū)成員參與心理機(jī)制研究述評(píng)[J].外國(guó)經(jīng)濟(jì)與管理,2011,33(5):33-40.