楊欣誼 朱恒民,2 魏 靜 陳 文
(1.南京郵電大學 管理學院 南京 210003;2.江蘇高校哲學社會科學重點研究基地—信息產(chǎn)業(yè)融合創(chuàng)新與應(yīng)急管理研究中心 南京 210003)
據(jù)第44次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展狀況統(tǒng)計報告》,截至2019年6月,我國網(wǎng)民規(guī)模達8.54億。在規(guī)模巨大的用戶基礎(chǔ)上,在線社交平臺上形成了紛繁復(fù)雜的用戶關(guān)系網(wǎng)絡(luò)。正是這種龐大網(wǎng)絡(luò)上的用戶間交互行為,促使信息在互聯(lián)網(wǎng)上迅速傳播和擴散[1-3]。
在線社交網(wǎng)絡(luò)中,用戶間交互行為往往受到用戶主題偏好的影響,即令用戶感興趣的話題更容易被傳播。用戶間交互行為呈現(xiàn)什么樣的主題偏好特征?如何在紛雜的信息中探索出這種特征?從用戶間交互記錄中細分出不同的主題維度,進而從微觀層面細粒度地刻畫用戶間交互行為的主題偏好特征,為網(wǎng)絡(luò)信息的引導(dǎo)和干預(yù)提供科學的依據(jù)。
用戶的信息交互行為已成為國內(nèi)社交網(wǎng)絡(luò)研究的熱點之一[4],主要涉及兩個方面:挖掘影響用戶間交互行為的因素,以及基于交互行為的應(yīng)用研究。徐建民等[5]融入轉(zhuǎn)發(fā)者與發(fā)布者的社交關(guān)系、轉(zhuǎn)發(fā)者對內(nèi)容的偏好等影響因素對用戶轉(zhuǎn)發(fā)行為進行預(yù)測。劉瑋等[6]通過實驗發(fā)現(xiàn)社交關(guān)系對預(yù)測模型的準確率提升最大。上述工作均指出了社交關(guān)系是影響用戶間交互行為的重要因素之一?;诰W(wǎng)絡(luò)用戶行為的“記憶性”[7],Zhu等[8]利用用戶間歷史交互紀錄構(gòu)建了以交互概率為權(quán)重的用戶關(guān)系網(wǎng)絡(luò),能夠反映用戶間交互的偏好;琚春華等[9]提出了基于關(guān)系圈與個體交互環(huán)境的用戶交互關(guān)系強度計算方法。張繼東等[10]提出了基于用戶間交互行為的用戶影響力度量模型;Liu等[11]以轉(zhuǎn)發(fā)概率作為用戶間關(guān)系的權(quán)重,挖掘在特定主題下對特定節(jié)點的轉(zhuǎn)發(fā)最具影響力的節(jié)點。社交網(wǎng)絡(luò)中用戶間關(guān)系是影響用戶交互行為的重要因素,目前已有工作是根據(jù)交互概率或轉(zhuǎn)發(fā)概率等一維指標來度量用戶間交互關(guān)系的強度,并沒有考慮到用戶間在不同主題下交互行為的差異。
主題模型越來越多地被用來挖掘在線社交網(wǎng)絡(luò)中用戶的興趣偏好[12-14]。夏立華等[15]基于PLSA方法分析用戶評論中產(chǎn)生的子話題,而Varshney等[16]則利用主題模型實現(xiàn)Twitter文本的潛在主題挖掘,從而獲得用戶興趣;夏立新等[17]利用LDA主題模型獲取用戶標簽主題來研究用戶興趣的層級演化規(guī)律;安璐等[18]基于主題模型刻畫了微博用戶特征,實現(xiàn)了恐怖事件情境下的用戶畫像。上述工作均是采用主題模型對社交網(wǎng)絡(luò)中單個用戶的行為特征進行細粒度地分析,如何利用主題模型探索用戶間交互的主題偏好特征,仍需要進一步地研究。
社交網(wǎng)絡(luò)中用戶間的交互具有一定的主題偏好,不同主題下用戶間的交互強度是不一致的。為了細粒度地刻畫出用戶間交互的主題特征,本文提出基于主題細分來分析用戶間交互行為的研究思路。首先,通過用戶間交互實例分析得出主題細分的必要性;其次,基于主題細分,采用多維向量來表示用戶間的交互關(guān)系強度;在此基礎(chǔ)上分析用戶間交互的主題偏好特征。
社交網(wǎng)絡(luò)用戶在選擇閱讀或傳播信息時是有興趣偏好的,這種偏好也影響著用戶之間的互動。用戶間互動的主題是否集中?用戶間在不同主題上的互動強度有沒有差異?為了回答這些問題,本文選取了新浪微博的一些用戶實例,通過分析其在3個月內(nèi)轉(zhuǎn)發(fā)的內(nèi)容,來探索用戶間交互的主題偏好。
表1列出了6個新浪微博用戶在3個月內(nèi)的交互主題統(tǒng)計情況。實例用戶的ID分別為“頭條新聞”(用戶1)、“微天下”(用戶2)、“立春SpringBegins”(用戶3)、“人民網(wǎng)”(用戶4)、“新浪綜藝”(用戶5)和“新浪娛樂”(用戶6)。表中數(shù)字為交互用戶在各主題下的交互頻次。
表1 用戶間交互主題及頻次統(tǒng)計
從表1中可以看出用戶間的交互內(nèi)容往往涵蓋多個主題。例如,用戶1與用戶2的交互內(nèi)容涉及社會、時政、娛樂3個主題;用戶3與用戶4的交互則涉及除此以外的時尚、生活、科技、情感、體育等共8個主題。此外,從表1中還可發(fā)現(xiàn),雖然在一段時間內(nèi)用戶間交互主題涉及到多個方面,但是不同主題上的交互頻次是有差異的。如用戶1與用戶2的交互偏向時政和社會主題,而娛樂主題甚少涉及;用戶5與用戶6的交互則偏向娛樂方面。這說明用戶間的交互是具有主題偏好的,即在不同主題上的交互強度是不一致的,僅使用一維的連邊權(quán)重(交互總頻次)無法精確地描述用戶交互的主題偏好,因而有必要對交互內(nèi)容進行主題細分,細粒度地分析用戶間的交互行為。
首先在微博用戶交互紀錄數(shù)據(jù)獲取與預(yù)處理的基礎(chǔ)上,采用LDA模型進行主題識別;基于主題細分思想,采用多維向量表示用戶間交互的強度,并計算不同主題下的強度分量;最后,針對具體實例,利用統(tǒng)計分析和復(fù)雜網(wǎng)絡(luò)方法分析用戶間交互的主題偏好特征。具體流程如圖1展示。
圖1 基于主題細分的用戶間交互特征分析流程
3.1數(shù)據(jù)獲取與預(yù)處理針對新浪微博在線社交平臺,首先爬取一個用戶關(guān)注關(guān)系子網(wǎng),再以該子網(wǎng)為基礎(chǔ),獲取子網(wǎng)內(nèi)用戶間的交互紀錄。
LDA主題識別的前提是對數(shù)據(jù)進行清洗和分詞。交互紀錄爬取程序針對單個用戶進行,因而記錄中涉及許多子網(wǎng)外用戶的紀錄,對這些紀錄進行刪除。本研究僅針對文本內(nèi)容進行分析,因而剔除僅包含鏈接或圖片等非文本數(shù)據(jù)的紀錄,刪除重復(fù)數(shù)據(jù)。新浪微博的文本內(nèi)容包含用戶的多級轉(zhuǎn)發(fā)數(shù)據(jù),對這樣的紀錄進行剝離,獲得多級交互數(shù)據(jù)。最終,每一條交互紀錄被表示成一個四元組(上游節(jié)點,下游節(jié)點,內(nèi)容,轉(zhuǎn)發(fā)時間)。
對于每一條交互紀錄中的文本內(nèi)容,利用jieba工具包進行分詞。文本中包含許多出現(xiàn)頻次高卻無實際含義的詞(停用詞),對于這類詞,在哈工大停用詞列表的基礎(chǔ)上,增加數(shù)據(jù)集中重復(fù)出現(xiàn)的無意義字符,去除停用詞。
3.2LDA主題識別LDA主題模型首先由Blei等[19]提出,這一模型通過無監(jiān)督的學習方法發(fā)現(xiàn)文本中隱含的主題信息,從而將文檔集中每篇文檔的主題按照概率分布的形式表示。LDA模型能夠預(yù)測訓練集與非訓練集中文檔和詞的主題分布,經(jīng)過完善,亦成為分析大規(guī)模非結(jié)構(gòu)化文檔集的有效工具[20]。
LDA主題模型獲得結(jié)果的好壞與文檔總數(shù)、主題數(shù)量、詞匯總數(shù)、迭代次數(shù)等相關(guān)。因獲取文檔集的大小是確定的(雖然可以通過語料庫訓練,但仍然是確定的),主要通過調(diào)節(jié)主題數(shù)量、詞匯總數(shù)、迭代次數(shù)等獲得最優(yōu)模型。模型常用衡量指標為困惑度(Perplexity),困惑度越小,模型越好。通過不斷調(diào)參獲得最優(yōu)主題模型,將每一條文本表示為一個多維向量:
c=(t1,t2,…,tm)
(1)
其中,m為主題總數(shù);tk表示這條紀錄內(nèi)容屬于主題Tk的權(quán)重,所有主題下的權(quán)重相加為1。
3.3主題細分下用戶間多維交互強度表示用戶間交互強度是根據(jù)一段時間內(nèi)產(chǎn)生的歷史交互紀錄綜合計算而定?;跉v史交互紀錄內(nèi)容的主題向量,節(jié)點i和j的交互強度tISij可表示為同維度的向量形式:
(2)
(3)
3.4用戶間交互的主題偏好特征分析將用戶表示成節(jié)點,用戶間交互關(guān)系表示為連邊,則構(gòu)成用戶交互網(wǎng)絡(luò)。利用可視化工具Gephi繪制用戶交互網(wǎng)絡(luò),觀察用戶間交互形成的主題子網(wǎng)?;赑ython編程和統(tǒng)計分析方法,首先觀察交互強度在各主題上的分布;再對不同時段的用戶間交互關(guān)系進行相關(guān)性分析;最后,基于復(fù)雜網(wǎng)絡(luò)分析方法挖掘特定主題下的用戶子網(wǎng),觀察子網(wǎng)內(nèi)用戶交互的主題偏好特征。
4.1數(shù)據(jù)準備本文爬取的用戶網(wǎng)絡(luò)為新浪微博中一個包含1 488個用戶的關(guān)注關(guān)系子網(wǎng),交互數(shù)據(jù)為該子網(wǎng)內(nèi)用戶3個月內(nèi)的交互紀錄,時間跨度為2017年9月1日至2017年11月29日,經(jīng)過預(yù)處理獲得17 509條交互紀錄。原有關(guān)注子網(wǎng)中的用戶之間產(chǎn)生了16 324條單向關(guān)注關(guān)系,但大部分用戶未發(fā)生交互,歷史紀錄中的交互發(fā)生在645個用戶的2 224條關(guān)注關(guān)系上,本次研究針對關(guān)注且發(fā)生交互的用戶間關(guān)系(簡稱交互關(guān)系)。
4.2主題識別與分析在LDA主題模型中,經(jīng)過實驗最終選擇的迭代次數(shù)為100,總詞數(shù)為500,主題數(shù)量為12,困惑度值為364.0898。各個主題由詞語及其在該主題出現(xiàn)的概率組成,表2列出了各主題下權(quán)重排名前15的詞語。從表中可看出,識別出的各主題區(qū)分度較大。主題T1與海外新聞相關(guān);主題T2、T3、T6比較相似,側(cè)重情感類話題;主題T4與電影和時尚相關(guān);主題T5與婚姻話題相關(guān);主題T7主要與財經(jīng)新聞相關(guān);主題T8是兒童成長方面的話題;主題T9與社會新聞相關(guān);主題T10與慈善事業(yè)較為相關(guān);主題T11與娛樂新聞更相關(guān);主題T12與電競行業(yè)相關(guān)。
4.3用戶間交互主題特征分析
4.3.1 交互關(guān)系強度值分布 將所有用戶間交互關(guān)系強度按照主題分量的大小進行降序排列,以排列順序為橫坐標,交互強度值為縱坐標作散點圖,可得到各主題下交互強度的分布圖。圖2所示為主題T1、T5、T9下的交互強度分布??梢娺@3個主題下的關(guān)系強度分布較相似,且大部分交互關(guān)系的強度值較小。例如主題T1下交互強度值小于0.5的關(guān)系占91.73%,但仍有部分關(guān)系的交互強度值很大,有4.09%的關(guān)系交互強度值大于0.9。這說明用戶間交互強度值分布具有長尾特征,即在特定主題下,盡管大部分交互的主題分量比較小,但仍有少部分交互分量值較大。
圖2 不同主題下交互強度的分布
選擇權(quán)重最大的主題分量作為交互關(guān)系的偏好主題,則交互關(guān)系可以劃分為不同的偏好主題類。為了驗證這種劃分的合理性,本文通過計算交互關(guān)系兩兩之間的相似度,來對比分析具有相同偏好主題和不同偏好主題的交互關(guān)系相似度分布的差異。
圖3中淺色部分代表偏好主題不同的交互關(guān)系之間的相似度分布(分別為T8與T10),深色部分為偏好主題相同的交互關(guān)系之間的相似度分布(T8)。從圖3可以發(fā)現(xiàn),主題偏好相同的交互關(guān)系之間相似度分布呈現(xiàn)明顯右偏,其相似度平均值為0.7733,標準差為0.0134,其中92.94%的相似度大于0.6;而相較之下,偏好主題不同的交互關(guān)系間相似度較小,平均值為0.5562,標準差較大,為0.0494,其中58.42%的相似度小于0.6??梢?,偏好主題相同的交互關(guān)系相似度高,而偏好主題不同的關(guān)系相似度則較低,這表明采用權(quán)重最大的主題分量來標識交互關(guān)系的偏好主題,是可以在主題上區(qū)分用戶間的交互關(guān)系的。
圖3 交互關(guān)系間的相似度分布
4.3.2 用戶間交互主題的時序相關(guān)性分析 將交互紀錄按照時間順序分為兩份,計算兩個時間段內(nèi)用戶間在各主題下的交互強度,再計算同一用戶對在兩段時間內(nèi)多維交互關(guān)系的相關(guān)系數(shù),可用于評價用戶間交互主題的時序相關(guān)性。圖4展示了兩段時間內(nèi)用戶間交互關(guān)系強度相關(guān)性值的分布,可發(fā)現(xiàn)相關(guān)性值的分布明顯右傾,有74.61%的交互關(guān)系在前后兩段時間內(nèi)的相關(guān)性值大于0.5230,說明用戶間交互在前后兩段時間內(nèi)具有顯著的相關(guān)性。這說明用戶間交互的主題偏好在一段時間內(nèi)具有穩(wěn)定性。用戶間交互行為的這一特征可被用于用戶傳播行為的預(yù)測。
圖4 用戶間交互主題的時序相關(guān)性分布
4.3.3 用戶間交互主題子網(wǎng)分析 偏好主題相同的交互關(guān)系可形成一個交互子網(wǎng)。圖5為偏好主題為T4的關(guān)系及其所連接的用戶構(gòu)成的部分網(wǎng)絡(luò),圖中節(jié)點表示用戶,節(jié)點內(nèi)數(shù)字表示用戶編號,連邊表示用戶之間的有向交互關(guān)系,從下級用戶指向上級用戶。偏好主題T4的關(guān)系共有206條,連接了253個用戶,其中103條交互關(guān)系連通了93個用戶。圖6為主題T4子網(wǎng)內(nèi)所有用戶在3個月中傳播內(nèi)容的詞云,可以看出,主題子網(wǎng)傳播高頻詞為“電影”“感覺”“時尚”“生活”“藝術(shù)”“朋友”等,是與電影、時尚相關(guān)的內(nèi)容,這說明同一主題子網(wǎng)的用戶之間傳播的話題也是與該主題相關(guān)的。因此,可根據(jù)信息的主題有針對性地對某個子網(wǎng)采取措施,實現(xiàn)有效的信息傳播監(jiān)控和干預(yù)。
圖5 偏好主題T4的交互關(guān)系形成的最大連通子網(wǎng)
圖6 主題T4下子網(wǎng)的傳播內(nèi)容詞云
偏好主題T11的交互關(guān)系形成的最大連通子網(wǎng)如圖7所示。對比分析T4和T11兩個主題子網(wǎng)的節(jié)點重要性,如表3所示。其中,主題Tk子網(wǎng)中節(jié)點A的入度表示在數(shù)據(jù)獲取時間段內(nèi),對用戶A傳播的特定主題Tk的信息進行轉(zhuǎn)發(fā)的用戶數(shù)目。顯然,入度值高的用戶節(jié)點對該主題的信息傳播起到的作用也大??紤]到網(wǎng)絡(luò)中相當數(shù)量節(jié)點的入度值是相同的,本文結(jié)合另一常用指標PageRank來進行節(jié)點重要性的評價。
圖7 偏好主題T11的交互關(guān)系形成的最大連通子網(wǎng)
表3T4和T11主題子網(wǎng)節(jié)點重要性對比
對比分析T4與T11兩個主題子網(wǎng)中的節(jié)點重要性??煽闯鰳颂柗謩e為534、1396、1390、877、485和241的這6個節(jié)點在兩個主題子網(wǎng)中的入度值和PageRank值排名均靠前,說明這些節(jié)點在兩個子網(wǎng)的話題傳播中都起到了重要作用。此外,我們也發(fā)現(xiàn)兩個子網(wǎng)中一些節(jié)點的重要性存在差異。例如,節(jié)點1355在主題T4下很重要,入度排名第7,PageRank排名第12,但不存在于T11子網(wǎng)中;此外,節(jié)點298是主題T4下的重要節(jié)點而在主題T11下入度為0,PageRank排名靠后,對主題T11下的話題傳播作用很小。由此可見,節(jié)點在不同主題子網(wǎng)的話題傳播中發(fā)揮著不同的作用。因而對于不同主題子網(wǎng),需要選擇相應(yīng)的關(guān)鍵節(jié)點實現(xiàn)有效的信息傳播干預(yù)。
本文主要貢獻在于提出了基于主題細分的用戶間交互強度的表示和度量方法,以及基于此對社交網(wǎng)絡(luò)用戶間的交互主題偏好特征進行了細粒度分析。研究發(fā)現(xiàn)用戶間交互關(guān)系強度的分布具有長尾特征;在不同時間段,用戶間的交互主題具有時序相關(guān)性,即一段時間內(nèi)用戶間交互的主題偏好會相對穩(wěn)定;基于多維的用戶間交互強度,可抽取出具有相同主題偏好的用戶交互子網(wǎng),發(fā)掘出子網(wǎng)中的關(guān)鍵節(jié)點,研究結(jié)論可用來預(yù)測用戶傳播信息的行為,方便對信息傳播進行監(jiān)控和干預(yù)。