□鈕 亮 高 旭 雷園園[中國(guó)計(jì)量學(xué)院 杭州 310018]
?
基于粗糙集-AHM的新浪微博意見(jiàn)領(lǐng)袖挖掘
□鈕亮高旭雷園園
[中國(guó)計(jì)量學(xué)院杭州310018]
[摘要]傳統(tǒng)上用來(lái)發(fā)掘意見(jiàn)領(lǐng)袖的方法主要有指標(biāo)權(quán)重法和社會(huì)網(wǎng)絡(luò)結(jié)構(gòu)挖掘兩大類,但是單純靠指標(biāo)權(quán)重法發(fā)現(xiàn)意見(jiàn)領(lǐng)袖受研究者的主觀影響較大,而社會(huì)網(wǎng)絡(luò)結(jié)構(gòu)法中用戶間關(guān)系較難挖掘且對(duì)用戶其他屬性的衡量有局限性,故而引入了基于粗糙集和AHM算法相結(jié)合的綜合指標(biāo)權(quán)重算法,充分綜合主、客觀指標(biāo)權(quán)重挖掘意見(jiàn)領(lǐng)袖,避免了使用單一方法的弊端。通過(guò)對(duì)新浪微博中熱點(diǎn)事件的實(shí)例驗(yàn)證,比較了粗糙集-AHM、AHP、社會(huì)網(wǎng)絡(luò)挖掘三種算法的結(jié)果,并總結(jié)出了本方法計(jì)算簡(jiǎn)單,對(duì)用戶關(guān)系數(shù)據(jù)依賴程度低、指標(biāo)評(píng)價(jià)更加客觀的特點(diǎn)。
[關(guān)鍵詞]意見(jiàn)領(lǐng)袖;粗糙集;AHM;指標(biāo)評(píng)價(jià)
微博是Web 3.0新興起的一類開(kāi)放互聯(lián)網(wǎng)社交服務(wù),它以集成化和開(kāi)放化為特點(diǎn),任何人都可以通過(guò)手機(jī)等多種途徑向自己的微博客發(fā)布消息。微博以其發(fā)布內(nèi)容的簡(jiǎn)明性、隨意性、多樣性和及時(shí)性為特點(diǎn),領(lǐng)跑了真正的結(jié)構(gòu)扁平、“去中心化”的自媒體時(shí)代。而隨著微博時(shí)代的到來(lái),意見(jiàn)領(lǐng)袖的也得到了越來(lái)越多人的重視。
意見(jiàn)領(lǐng)袖來(lái)源于Paul. Lazarsfeld的“兩級(jí)傳播”理論,是指在人際傳播網(wǎng)絡(luò)中可對(duì)他人施加影響的“活躍分子”,他們是信息傳播的中介或過(guò)濾的環(huán)節(jié),將信息傳播給受眾,形成信息傳遞的二級(jí)傳播。隨著意見(jiàn)領(lǐng)袖被越來(lái)越多的人所重視,國(guó)內(nèi)外意見(jiàn)領(lǐng)袖的研究也在不斷地發(fā)展。
常用的意見(jiàn)領(lǐng)袖發(fā)掘的方法主要可以分為指標(biāo)打分法和社會(huì)網(wǎng)絡(luò)結(jié)構(gòu)挖掘兩大類。指標(biāo)打分法是指選取意見(jiàn)領(lǐng)袖的主要特征作為判定意見(jiàn)領(lǐng)袖的指標(biāo),如劉志明、劉魯在研究新浪微博中意見(jiàn)領(lǐng)袖時(shí)以影響力、活躍度為一級(jí)指標(biāo),以被轉(zhuǎn)發(fā)數(shù)、被評(píng)論數(shù)、原創(chuàng)數(shù)等7個(gè)特征為二級(jí)指標(biāo)建立了指標(biāo)體系[1];丁漢青等人在發(fā)掘SNS中意見(jiàn)領(lǐng)袖時(shí)以中性、活躍度、吸聚力、傳染性為四個(gè)一級(jí)指標(biāo)和是否為管理員、好友數(shù)、關(guān)注數(shù)、被關(guān)注數(shù)、發(fā)帖數(shù)等12個(gè)為二級(jí)指標(biāo)[2]。在指標(biāo)體系建立后,可以通過(guò)層次分析法、評(píng)分函數(shù)模型等方法獲得各指標(biāo)的最終權(quán)重來(lái)發(fā)掘意見(jiàn)領(lǐng)袖。指標(biāo)打分法包絡(luò)面更廣、可以根據(jù)側(cè)重點(diǎn)不同有針對(duì)性的選取指標(biāo)、操作也相對(duì)較為方便,但是指標(biāo)及權(quán)重的確定在一定程度上受到研究者的主觀影響。
社會(huì)網(wǎng)絡(luò)結(jié)構(gòu)挖掘是通過(guò)發(fā)掘用戶間的相互關(guān)系來(lái)建立用戶社會(huì)網(wǎng)絡(luò),根據(jù)用戶在社區(qū)中的中心度及核心-邊緣模型、影響力系數(shù)[3]來(lái)確定一個(gè)用戶是否為意見(jiàn)領(lǐng)袖。Weng.J基于PageRank提出了Twitter-Rank方法以發(fā)現(xiàn)Twitter中有影響力的用戶[4];肖宇等人提出的LeaderRank算法在PageRank的基礎(chǔ)上加入了情感權(quán)重[5];薛可等人則借助于社會(huì)網(wǎng)絡(luò)的相關(guān)理論研究了“意見(jiàn)領(lǐng)袖”在危機(jī)傳播中的作用[6]。社會(huì)網(wǎng)絡(luò)結(jié)構(gòu)挖掘法在客觀性方面有更大的優(yōu)勢(shì),但是在新浪微博等網(wǎng)絡(luò)社交平臺(tái)中,用戶間的相互關(guān)系較難挖掘,并且社會(huì)網(wǎng)絡(luò)結(jié)構(gòu)挖掘法對(duì)用戶活躍度等的衡量有一定的局限。故而本文引入了一種新的算法用于意見(jiàn)領(lǐng)袖的挖掘即粗糙集-AHM[7]算法。
粗糙集-AHM算法是一種將粗糙集理論與AHM算法相結(jié)合的指標(biāo)權(quán)重計(jì)算方法。粗糙集理論則作為一種能夠定量化處理不精確、不一致、不完整信息的理論,最初由Pawlak教授與1982年提出[8]。經(jīng)過(guò)三十多年的發(fā)展,而今的粗糙集理論被廣泛地應(yīng)用于機(jī)器學(xué)習(xí)[9]、數(shù)據(jù)挖掘[10]、決策支持[11]等眾多方面。AHM算法是我國(guó)學(xué)者程乾生基于AHP提出的一套分析方法[12]。他在屬性測(cè)度基礎(chǔ)上,提出了相對(duì)屬性測(cè)度和屬性判斷矩陣的概念,而相對(duì)權(quán)重和合成權(quán)重很容易從屬性判斷矩陣獲得,故而AHM相對(duì)于AHP更為行之有效。將粗糙集-AHM算法引入意見(jiàn)領(lǐng)袖的挖掘,一方面能夠充分綜合主客觀權(quán)重,避免了單單使用指標(biāo)權(quán)重法主觀影響較大的不足,使計(jì)算結(jié)果更為準(zhǔn)確;另一方面粗糙集-AHM算法的計(jì)算結(jié)果可以對(duì)微博用戶的基本屬性例如活躍度、影響力等有直觀的了解;更有效避免了社會(huì)網(wǎng)絡(luò)結(jié)構(gòu)法對(duì)數(shù)據(jù)要求較高的弊端。
(一)粗糙集算法計(jì)算屬性客觀權(quán)重
粗糙集的簡(jiǎn)單定義[13]:設(shè)信息系統(tǒng),其中U是非空有限論域;A為屬性的有限集合,,C是條件屬性集,D是決策屬性集;,Va是屬性a的值域;是總函數(shù),使得,對(duì)于每一個(gè),。
則稱IND(r)是不可分辨關(guān)系,xi和xj是關(guān)于屬性R不可分辨的。
對(duì)于論域U上任意一個(gè)子集X,X不一定能用知識(shí)庫(kù)中的知識(shí)來(lái)精確地描述,這時(shí)就用X關(guān)于A的上近似和下近似來(lái)“近似”的描述X:
則稱集合X是論域U上關(guān)于等價(jià)關(guān)系R的粗糙集。
(二)AHM計(jì)算屬性主觀權(quán)重
AHM是一種無(wú)結(jié)構(gòu)的多準(zhǔn)則決策方法,將定性分析和定量分析相結(jié)合,將人們?cè)静幌到y(tǒng)的思維過(guò)程層次化、數(shù)量化,從對(duì)待解決問(wèn)題的不同影響角度出發(fā),將問(wèn)題的影響因素一一列出并找出相應(yīng)的隸屬關(guān)系進(jìn)而進(jìn)行層次聚合,形成屬性層次結(jié)構(gòu)模型。AHM中的比較測(cè)度矩陣需要由AHP判斷矩陣轉(zhuǎn)化而來(lái)[14]。
利用AHM進(jìn)行分析時(shí)需要先對(duì)待解決的問(wèn)題構(gòu)造階遞層次模型,包括目標(biāo)層、準(zhǔn)則層和方案層三個(gè)層級(jí)。設(shè)次準(zhǔn)則層也即方案層有n個(gè)元素,分別將其記為。分別對(duì)準(zhǔn)則層的準(zhǔn)則比較兩個(gè)不同元素Ai和Aj(i≠j )的相對(duì)重要性,分別記做Lij和Lji。由屬性測(cè)度,Lij和Lji應(yīng)滿足如下要求:
由于元素Ai無(wú)法和自身比較相對(duì)重要性,故而規(guī)定其中Wc為相對(duì)屬性權(quán)向量。Lij的計(jì)算可由如下公式獲得:其中k為大于2的正整數(shù)。元素Lij和Lji對(duì)準(zhǔn)則C的比較可由層次分析法AHP中的相對(duì)比例標(biāo)度aij給出,在準(zhǔn)則C下,利用9標(biāo)度法度量Ai和Aj的相對(duì)重要程度。
方案層中各因素與系統(tǒng)目標(biāo)的合成權(quán)重,可由如下公式計(jì)算得到:
(三)綜合權(quán)重的計(jì)算
本文利用粗糙集-AHM算法分別計(jì)算出了各屬性的主、客觀權(quán)重,為了進(jìn)一步獲得更為合理和科學(xué)的指標(biāo)權(quán)重,使挖掘出的意見(jiàn)領(lǐng)袖更為準(zhǔn)確,本文采用綜合的權(quán)重計(jì)算函數(shù)來(lái)對(duì)兩組權(quán)重進(jìn)行計(jì)算得出最終權(quán)重。通過(guò)研究分析,客觀的數(shù)據(jù)準(zhǔn)確性較高,更遵從實(shí)際,并引進(jìn)黃金分割定律[7]來(lái)構(gòu)建綜合權(quán)重計(jì)算函數(shù),綜合兩種權(quán)重,得到最終評(píng)價(jià)指標(biāo)權(quán)重:其中,Wai表示客觀屬性權(quán)重,Wbi表示主觀屬性權(quán)重。本文計(jì)算意見(jiàn)領(lǐng)袖的屬性權(quán)重更偏向于客觀事實(shí)依據(jù),因此把黃金分割點(diǎn)的近似值0.68賦給,最后計(jì)算得到的W即為綜合權(quán)重。
(一)粗糙集計(jì)算客觀權(quán)重
本文通過(guò)Rosetta軟件來(lái)計(jì)算馬航失聯(lián)事件中用戶的屬性重要程度的權(quán)重。我們爬取了馬航失聯(lián)事件中共10475個(gè)用戶的信息,作為驗(yàn)證的樣本值,即樣本集合,選取他們的粉絲數(shù),關(guān)注數(shù),轉(zhuǎn)發(fā)、評(píng)論、認(rèn)證、發(fā)博6個(gè)屬性評(píng)價(jià)指標(biāo)作為條件屬性;是否為意見(jiàn)領(lǐng)袖作為決策屬性;即:是意見(jiàn)領(lǐng)袖,不是意見(jiàn)領(lǐng)袖}。
經(jīng)過(guò)對(duì)于用戶條件屬性數(shù)據(jù)的分析,粉絲、關(guān)注、轉(zhuǎn)發(fā)、評(píng)論等數(shù)據(jù)都是連續(xù)性數(shù)據(jù),服從冪律分布,為了防止因樣本數(shù)量過(guò)多而出現(xiàn)多數(shù)條件屬性為0的情況,為了利用rosetta處理數(shù)據(jù),我們要對(duì)數(shù)據(jù)進(jìn)行離散化。以10為底對(duì)變量取對(duì)數(shù),再對(duì)所得數(shù)據(jù)進(jìn)行離散。粉絲數(shù)經(jīng)過(guò)取對(duì)數(shù)離散后的結(jié)果([0,1],1),([1,2],2),([2,3],3),([3,4],4),([4,5],5),([5,6],6),([ 6,7],7),([7,8],8);關(guān)注取對(duì)數(shù)離散的結(jié)果([0,1],1), ([1,2],2),([2,3],3),([3,4],4);評(píng)論取對(duì)數(shù)離散的結(jié)果是([0,1],1), ([1,2],2),([2,3],3),([3,4],4);發(fā)博離散結(jié)果是([0,50],1),([50,100],2),([100,150],3),([150,200],4),([20 0, 250),5)。將離散以后的數(shù)據(jù)建立決策判斷矩陣,如表1所示.
表1決策判斷矩陣表
1.計(jì)算屬性的等價(jià)類。利用粗糙集分別計(jì)算條件屬性和決策屬性的等價(jià)類通過(guò)Rosetta軟件的Other-Partition功能來(lái)實(shí)現(xiàn),結(jié)果如下:
3.計(jì)算屬性的重要性程度
按照公式(1)來(lái)計(jì)算屬性的重要性程度,并做歸一化處理得到各個(gè)屬性的客觀權(quán)重,結(jié)果如下:
表2屬性客觀權(quán)重表
(二)AHM算法計(jì)算屬性的主觀權(quán)重
為了充分聽(tīng)取專家意見(jiàn),設(shè)計(jì)用戶屬性評(píng)價(jià)指標(biāo)體系問(wèn)卷,分別設(shè)立了2個(gè)一級(jí)指標(biāo)和6個(gè)2級(jí)指標(biāo),一級(jí)指標(biāo)的設(shè)定參照現(xiàn)有的研究分為用戶影響力和用戶活躍度兩個(gè)指標(biāo)[3],二級(jí)指標(biāo)則選定了以上6個(gè)屬性指標(biāo)項(xiàng),采用9標(biāo)度法,由專家對(duì)兩兩屬性的比重進(jìn)行打分。利用專家評(píng)分來(lái)分別計(jì)算屬性的主觀權(quán)重,并求取平均值作為屬性的主觀權(quán)重。根據(jù)以上兩級(jí)指標(biāo)構(gòu)建屬性層次結(jié)構(gòu)矩陣,如下圖所示。
圖1意見(jiàn)領(lǐng)袖層次模型
1.確定一級(jí)指標(biāo)權(quán)重
通過(guò)專家的評(píng)分構(gòu)建準(zhǔn)則層結(jié)構(gòu)矩陣來(lái)計(jì)算兩個(gè)一級(jí)指標(biāo)權(quán)重;
2.根據(jù)公式(3)計(jì)算所有決策層二級(jí)指標(biāo)分別對(duì)用戶影響力和用戶活躍度兩個(gè)一級(jí)指標(biāo)影響權(quán)重;
3.根據(jù)公式(5)計(jì)算得出所有二級(jí)指標(biāo)對(duì)于目標(biāo)層的影響權(quán)重如下表:
表3二級(jí)指標(biāo)權(quán)重表
(三)確定綜合權(quán)重
按照公式(6)計(jì)算最終評(píng)價(jià)指標(biāo)綜合權(quán)重:
表4評(píng)價(jià)指標(biāo)綜合權(quán)重表
粉絲的權(quán)重最高,因此粉絲對(duì)于能否成為意見(jiàn)領(lǐng)袖具有決定性作用,普通用戶要想提升自己的影響力、成為意見(jiàn)領(lǐng)袖,首先應(yīng)增加自己的粉絲量。
(四)計(jì)算意見(jiàn)領(lǐng)袖值
利用計(jì)算得到的屬性指標(biāo)綜合權(quán)重來(lái)計(jì)算馬航失聯(lián)事件中用戶的意見(jiàn)領(lǐng)袖值,為了精確計(jì)算,本文把認(rèn)證屬性進(jìn)行量化,算法如公式(7)所示。
其中u1到u6分別代表用戶6個(gè)屬性的屬性值,最終計(jì)算出馬航失聯(lián)用戶的意見(jiàn)領(lǐng)袖值,并取前1‰作為意見(jiàn)領(lǐng)袖,得到馬航失聯(lián)用戶的意見(jiàn)領(lǐng)袖。
為了驗(yàn)證粗糙集-AHM算法在意見(jiàn)領(lǐng)袖尋找中的科學(xué)性和可靠性,本文同時(shí)利用AHP算法[3]和社會(huì)網(wǎng)絡(luò)分析法[5]分別對(duì)馬航意見(jiàn)領(lǐng)袖進(jìn)行挖掘,并對(duì)3種方法的得到的意見(jiàn)領(lǐng)袖進(jìn)行對(duì)比,如表5所示。
表5利用3種方法得到的“馬航”事件意見(jiàn)領(lǐng)袖
從表中可以看出,利用粗糙集-AHM算法和AHP算法挖掘得到的馬航意見(jiàn)領(lǐng)袖基本相同,而與利用社會(huì)網(wǎng)絡(luò)分析法得出的意見(jiàn)領(lǐng)袖相比也有較高的吻合度,因而可以確定利用粗糙集-AHM算法來(lái)挖掘意見(jiàn)領(lǐng)袖是切實(shí)可行的。
三、總結(jié)
本文引用粗糙集-AHM算法來(lái)減弱由單純AHM算法帶來(lái)的主觀性。用粗糙集算法對(duì)各指標(biāo)求取客觀權(quán)重,用AHM算法求取主觀權(quán)重,再由所得的客觀、主觀權(quán)重求取指標(biāo)的綜合權(quán)重值。利用綜合權(quán)重來(lái)挖掘意見(jiàn)領(lǐng)袖。
本方法特點(diǎn)體現(xiàn)在兩方面,首先,在指標(biāo)評(píng)價(jià)法的基礎(chǔ)上,通過(guò)引進(jìn)粗糙集來(lái)代替以往的統(tǒng)計(jì)方法或?qū)<医?jīng)驗(yàn),去除一定的主觀因素,在對(duì)指標(biāo)量化方面,AHM相較于AHP來(lái)說(shuō),有計(jì)算量小、模型簡(jiǎn)單、無(wú)需進(jìn)行一致性檢驗(yàn)、決策效率高等特點(diǎn);其次,一定程度上降低了對(duì)數(shù)據(jù)的要求,在微博用戶間關(guān)系的數(shù)據(jù)較難爬取的背景下提供了更為切實(shí)可行的意見(jiàn)領(lǐng)袖挖掘方法。
本方法是對(duì)指標(biāo)評(píng)價(jià)體系的一種改進(jìn),對(duì)于通過(guò)指標(biāo)評(píng)價(jià)法來(lái)挖掘領(lǐng)袖的案例均具有普適性,而且不僅局限于新浪微博,還可移植到其他社交平臺(tái)。但由于粗糙集-AHM是在指標(biāo)評(píng)價(jià)體系基礎(chǔ)上建立起來(lái)的,對(duì)于用戶的屬性信息具有一定的依賴性;其次,每次都要重新計(jì)算用戶屬性權(quán)重,具有一定的局限性。
參考文獻(xiàn)
[1]劉志明,劉魯.微博網(wǎng)絡(luò)輿情中的意見(jiàn)領(lǐng)袖識(shí)別及分析[J].系統(tǒng)工程, 2011(06):8-16.
[2]丁漢青,王亞萍. SNS網(wǎng)絡(luò)空間中“意見(jiàn)領(lǐng)袖”特征之分析——以豆瓣網(wǎng)為例[J].新聞與傳播研究, 2010(03): 83-90,111.
[3]李卓卓,丁子涵.基于社會(huì)網(wǎng)絡(luò)分析的網(wǎng)絡(luò)輿論意見(jiàn)領(lǐng)袖——以大學(xué)生就業(yè)輿情為例[J].情報(bào)雜志, 2011(11): 66-70.
[4] WENG J S, LIN E P, JIANG J, et al. Twitterank: finding topic-sensitive influential twitterres[A] //Proceeding of the Third ACM International Conference on Web Search and Data Mining [C]. New York :2010, 261-270.
[5]肖宇,許煒,夏霖.一種基于情感傾向分析的網(wǎng)絡(luò)團(tuán)體意見(jiàn)領(lǐng)袖識(shí)別算法[J].計(jì)算機(jī)科學(xué), 2012, 39(2): 34-37.
[6]薛可,陳晞,王韌.基于社會(huì)網(wǎng)絡(luò)的品牌危機(jī)傳播“意見(jiàn)領(lǐng)袖”研究[J].新聞界, 2009(08): 30-32.
[7]張曉明.基于粗糙集-AHM的裝備制造業(yè)企業(yè)創(chuàng)新能力評(píng)價(jià)指標(biāo)權(quán)重計(jì)算研究[J].中國(guó)軟科學(xué), 2014(6): 151-158.
[8] PAWLAK Z. Rough sets[J]. .International Journal of Computer and Information Sciences, 1982, 11:341-356.
[9] CHMIELEWSKI M R, GRZYMALA-BUSSE J W. Global discretization of continuous attributes as preprocessing for machine learning[J].International Journal of Approximate Reasoning,1996, 15: 319-331.
[10] CHAN C C. A rough set approach to attribute generalization in data mining[J]. Journal of Information Sciences, 1998, 107: 169-176.
[11] PAWLAK Z. Rough set approach to Know ledge-based decision support[J]. European Journal of Operational Research, 1997, 99: 48-57.
[12]程乾生.層次分析法AHP和屬性層次分析模型AHM [J].系統(tǒng)工程理論與實(shí)踐, 1997(11): 56-59.
[13]張文修,吳偉志.粗糙集理論介紹和研究綜述[J].模糊系統(tǒng)與數(shù)學(xué), 2000, 14(4): 1-12.
[14]宿程遠(yuǎn),呂森,趙旭雍,等.屬性層次分析模型在小城鎮(zhèn)污水處理廠規(guī)劃中的應(yīng)用[J].廣東農(nóng)業(yè)科學(xué), 2011, 38(2): 163-165.
編輯何婧
Recognition of Opinion Leaders in Microblog Based on Rough Set and AHM
NIU Liang GAO Xu LEI Yuan-yuan
(China Jiliang University Hangzhou 310018 China)
AbstractTraditionally, there are two general types of methods to seek for an opinion leader, which are index weighting method and digging of social network structure. But simply relying on index weighting method to find an opinion leader would be affected by the subjective idea of the opinion leaders, while the method of digging out social network structure is also limited due to the seeming invisible relationship among the users and the unreliable evaluation of the other quality of the users. The article brings up an integrated index weighting algorithm based on rough set and AHM algorithm judging from the goods and weakness of the methods mentioned above. In this way, it is possible to have an integrated index of both subjective and objective standard to judging on the potential opinion leaders in the meantime avoiding the disadvantages of using one single method. The article has some exemplification research on certain hot hits on Weibo. By comparing the output of the three methods, it is concluded that this methods is featured as simple and objective.
Key wordsopinion leader; rough set; AHM; evaluation index
[作者簡(jiǎn)介]鈕亮(1975-)男,中國(guó)計(jì)量學(xué)院經(jīng)濟(jì)與管理學(xué)院教師;高旭(1994-)男,中國(guó)計(jì)量學(xué)院經(jīng)濟(jì)與管理學(xué)院本科生;雷園園(1993-)女,中國(guó)計(jì)量學(xué)院經(jīng)濟(jì)與管理學(xué)院本科生.
[基金項(xiàng)目]浙江省高校人文社科重點(diǎn)研究基地基金(RWSKZD03-201207);浙江省哲社重點(diǎn)研究基地和浙江省人文社科基金(SIPM3222);浙江省社科聯(lián)(2014Z084);2014年度國(guó)家級(jí)大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計(jì)劃立項(xiàng):基于社交網(wǎng)絡(luò)的“杭州限牌”輿情分析模型構(gòu)建與實(shí)證(201410356019);2015年新苗人才計(jì)劃項(xiàng)目(2015R409005).
[收稿日期]2014-12-17
[中圖分類號(hào)]G206
[文獻(xiàn)標(biāo)識(shí)碼]A[DOI]10.14071/j.1008-8105(2016)01-0067-05