基于圖表示學(xué)習(xí)的社交網(wǎng)絡(luò)群體競(jìng)爭(zhēng)影響力識(shí)別

2024-06-29 02:43劉鑫哲方勇賈鵬寇蔣恒范希明周小涵潘睿朱旭

四川大學(xué)學(xué)報(bào)（自然科學(xué)版） 2024年3期

劉鑫哲方勇賈鵬寇蔣恒范希明周小涵潘睿朱旭

摘要：群體競(jìng)爭(zhēng)影響力識(shí)別是社交網(wǎng)絡(luò)分析領(lǐng)域的一個(gè)必要研究，其任務(wù)是識(shí)別社交網(wǎng)絡(luò)中任意兩群體節(jié)點(diǎn)在相互競(jìng)爭(zhēng)條件下的影響力，在輿情分析等實(shí)際場(chǎng)景中具有重要意義. 在過去的幾年里，許多研究集中在沒有競(jìng)爭(zhēng)對(duì)手的群體影響力識(shí)別. 然而，競(jìng)爭(zhēng)普遍存在于真實(shí)的社交網(wǎng)絡(luò)中，因此研究群體競(jìng)爭(zhēng)影響力識(shí)別任務(wù)十分必要. 與非競(jìng)爭(zhēng)場(chǎng)景下的群體影響力識(shí)別相比，群體競(jìng)爭(zhēng)影響力識(shí)別存在競(jìng)爭(zhēng)數(shù)據(jù)集的構(gòu)建和群體對(duì)嵌入聚合等挑戰(zhàn). 圖表示學(xué)習(xí)（GRL）在社交網(wǎng)絡(luò)分析領(lǐng)域取得了巨大的成功，可以將圖結(jié)構(gòu)表示成具有結(jié)構(gòu)信息的低維嵌入，能夠更好的反應(yīng)節(jié)點(diǎn)之間的相互作用，提供比傳統(tǒng)方法更豐富的信息. 本文開創(chuàng)性的使用GRL 來解決競(jìng)爭(zhēng)場(chǎng)景下的群體影響力識(shí)別問題，并提出了一個(gè)基于GRL 的框架. 為了解決競(jìng)爭(zhēng)數(shù)據(jù)集的構(gòu)建問題，本文提出了一種基于影響力多樣性的群體對(duì)構(gòu)建方法. 為了解決競(jìng)爭(zhēng)群體對(duì)嵌入聚合問題，本文提出了一種基于求和相減的方法來聚合競(jìng)爭(zhēng)群體對(duì)中節(jié)點(diǎn)的嵌入. 本文在7 個(gè)真實(shí)的社交網(wǎng)絡(luò)上進(jìn)行了大量實(shí)驗(yàn)來分析所提框架的有效性. 實(shí)驗(yàn)結(jié)果表明所提框架優(yōu)于基線方法.

關(guān)鍵詞：群體競(jìng)爭(zhēng)影響力識(shí)別；社交網(wǎng)絡(luò)分析；深度學(xué)習(xí)；圖神經(jīng)網(wǎng)絡(luò)

中圖分類號(hào)： TP391. 1 文獻(xiàn)標(biāo)志碼： A DOI： 10. 19907/j. 0490-6756. 2024. 033006

1 引言

社交網(wǎng)絡(luò)通?？梢员硎緸镚 = （V， E ），其中V 表示社交網(wǎng)絡(luò)中的節(jié)點(diǎn)，E 表示節(jié)點(diǎn)之間的邊.競(jìng)爭(zhēng)是社交網(wǎng)絡(luò)的普遍特征，準(zhǔn)確識(shí)別社交網(wǎng)絡(luò)內(nèi)群體的影響力意義重大，而這需要同時(shí)考慮群體本身及其競(jìng)爭(zhēng)對(duì)手的特征. 假設(shè)S 和C 是兩組相互競(jìng)爭(zhēng)的節(jié)點(diǎn)，（S， C ）稱為群體對(duì)，其中S ∈ V，C ∈ V，S ∩ C = ?. 群體競(jìng)爭(zhēng)影響力識(shí)別任務(wù)的目標(biāo)就是識(shí)別社交網(wǎng)絡(luò)中群體S 在存在競(jìng)爭(zhēng)群體C時(shí)的影響力，這在分析企業(yè)傳播策略的有效性、預(yù)測(cè)投票趨勢(shì)和抑制輿論傳播等領(lǐng)域具有實(shí)際應(yīng)用價(jià)值. 現(xiàn)有的群體影響力研究主要集中在無競(jìng)爭(zhēng)場(chǎng)景，主要的方法有3 類：基于路徑分析的方法、基于貪心算法的方法和基于中心性的方法.

基于路徑分析的方法通過分析節(jié)點(diǎn)組與其他節(jié)點(diǎn)之間的路徑信息計(jì)算影響力. 然而，這些方法只能分析一些特定的路徑，無法分析所有節(jié)點(diǎn)之間的所有路徑，導(dǎo)致結(jié)果精確度不高. 基于貪心算法的方法需要大量的蒙特卡羅模擬，計(jì)算成本高昂，所以無法擴(kuò)展到大型網(wǎng)絡(luò)［1］. 基于中心性的方法比基于路徑分析和基于貪心算法的方法更高效. 然而，現(xiàn)有方法通常只考慮一個(gè)或幾個(gè)特定的結(jié)構(gòu)［2，3］，或者從幾個(gè)單獨(dú)節(jié)點(diǎn)的結(jié)構(gòu)信息分析節(jié)點(diǎn)組的影響力，沒有考慮多個(gè)節(jié)點(diǎn)之間的相互作用，例如影響的重疊，導(dǎo)致結(jié)果并不準(zhǔn)確.

此外，這些方法都沒有考慮到社交網(wǎng)絡(luò)中普遍存在的競(jìng)爭(zhēng)因素. 因此，在競(jìng)爭(zhēng)場(chǎng)景下直接使用這些方法來識(shí)別群體影響力會(huì)產(chǎn)生較大誤差. 如何在考慮競(jìng)爭(zhēng)因素的情況下準(zhǔn)確評(píng)估群體的影響力是社交網(wǎng)絡(luò)分析領(lǐng)域的挑戰(zhàn)之一.

圖表示（Graph Representation Learning，GRL）是一種針對(duì)圖數(shù)據(jù)的處理方法［4］，可以將節(jié)點(diǎn)、邊、子圖或整個(gè)圖處理為低維向量表示，以供下游具體任務(wù)使用. GRL 在自然語言處理［5］、社交網(wǎng)絡(luò)分析［6］、物理建模［7］和藥物設(shè)計(jì)［8］等許多研究領(lǐng)域有著廣泛應(yīng)用并取得了巨大成功. 群體的整體分布特征是處理群體級(jí)任務(wù)的重要信息，但現(xiàn)有的GRL 模型并不能很好的獲取此類信息，所以不能直接用于群體競(jìng)爭(zhēng)影響力識(shí)別任務(wù).

在本文中，我們提出了一個(gè)基于GRL 的框架來解決群體競(jìng)爭(zhēng)影響力識(shí)別問題. 我們工作的主要貢獻(xiàn)如下：（1）我們將群體競(jìng)爭(zhēng)影響力識(shí)別視為群體層面的回歸任務(wù)，并提出了一個(gè)基于GRL 的框架來解決這一問題. 據(jù)我們所知，這是第一個(gè)從這樣的角度來處理群體競(jìng)爭(zhēng)影響力識(shí)別任務(wù)的工作.（2）我們提出了一個(gè)基于求和-相減的群體對(duì)嵌入聚合方法，該方法可以有效捕捉群體之間的競(jìng)爭(zhēng)關(guān)系和同群體內(nèi)的合作關(guān)系，解決群體對(duì)嵌入表示的問題. 該方法還通過計(jì)算群體內(nèi)節(jié)點(diǎn)的鄰居重疊度來削減重疊影響問題.（3）針對(duì)社交網(wǎng)絡(luò)數(shù)據(jù)分布不平衡問題，我們提出了一個(gè)基于影響力多樣性的群體對(duì)構(gòu)建方法.（4）本文在7 個(gè)真實(shí)社交網(wǎng)絡(luò)數(shù)據(jù)集上進(jìn)行了一系列實(shí)驗(yàn)，證明所提框架的性能優(yōu)勢(shì)和所提方法的有效性.

2 相關(guān)工作

目前尚無關(guān)于社交網(wǎng)絡(luò)群體競(jìng)爭(zhēng)影響力識(shí)別的研究，因此我們希望從社交網(wǎng)絡(luò)群體影響力識(shí)別的現(xiàn)有研究中獲得經(jīng)驗(yàn). 研究人員已經(jīng)提出了許多方法來評(píng)估社交網(wǎng)絡(luò)中群體的影響力，這些方法通?？梢苑譃? 類：基于貪心算法的方法、基于路徑分析的方法和基于中心性的方法. 此外，圖表示學(xué)習(xí)（GRL）作為近期的研究熱點(diǎn)，被越來越多的研究者研究并應(yīng)用. 因此，本文參考了大量基于貪心算法、基于路徑分析、基于中心性的群體影響力識(shí)別方法和GRL 相關(guān)文獻(xiàn).

2. 1 基于貪心算法的方法

該方法主要使用蒙特卡洛模擬來估計(jì)群體影響力，并通過構(gòu)建貪心算法來優(yōu)化模擬過程. 其中，Leskovec 等人［9］提出了CELF 算法，通過利用影響估計(jì)優(yōu)先級(jí)隊(duì)列和懶惰轉(zhuǎn)發(fā)策略來提高簡(jiǎn)單貪心算法的效率. Goyal 等人［10］基于CELF 提出了CELF++算法，其核心是將貪心算法的兩個(gè)連續(xù)迭代的影響擴(kuò)散同時(shí)計(jì)算. 另外，Zhou 等人［11］提出了UBLF 算法，該算法限制了每個(gè)節(jié)點(diǎn)的模擬上限，從而減少了第一輪節(jié)點(diǎn)選擇的模擬次數(shù).Cheng 等人［12］提出了一種靜態(tài)貪心算法，該算法嚴(yán)格保證影響力擴(kuò)散的亞模態(tài)性，從而提高組影響力模擬的速度. 而Ohsaka 等人［13］則引入了PrunedBFS 來加速蒙特卡洛模擬的過程. 然而，由于以上基于貪心算法的方法需要大量的蒙特卡洛模擬來估計(jì)節(jié)點(diǎn)影響力，因此效率較低且難以擴(kuò)展到大規(guī)模社交網(wǎng)絡(luò). 因此，不建議使用這類方法來識(shí)別群體競(jìng)爭(zhēng)影響力.

2. 2 基于路徑分析的方法

該方法通過分析節(jié)點(diǎn)之間的路徑結(jié)構(gòu)信息來評(píng)估群體影響力. 其中，Chen 等人［14］提出了最大影響路徑（Maximum Influence Path，MIP）的概念，用于表示從一個(gè)節(jié)點(diǎn)到另一個(gè)節(jié)點(diǎn)的影響力，并通過合并多個(gè)節(jié)點(diǎn)的影響路徑來估計(jì)群體影響力. Gong 等人［1］提出了一種局部影響估計(jì)方法來近似群體影響力. Lu 等人［15］則通過計(jì)算節(jié)點(diǎn)之間的可達(dá)概率，利用遞歸方式估計(jì)群體影響力，并提出了3 種策略來提高計(jì)算效率. 然而，由于節(jié)點(diǎn)之間路徑的復(fù)雜性，以上基于路徑分析的方法通常無法考慮完整的路徑信息，導(dǎo)致結(jié)果不準(zhǔn)確. 考慮到本文要研究的群體競(jìng)爭(zhēng)影響力識(shí)別問題會(huì)分析大量節(jié)點(diǎn)，且包含大量路徑信息，為了確保結(jié)果的準(zhǔn)確性，不建議使用以上基于路徑分析的方法.

2. 3 基于中心性的方法

基于中心性的方法根據(jù)各種中心性計(jì)算節(jié)點(diǎn)的重要性，進(jìn)而識(shí)別群體影響力. Kundu 等人［16］將社區(qū)結(jié)構(gòu)與中心性結(jié)合，通過計(jì)算每個(gè)節(jié)點(diǎn)所屬社區(qū)的總體中心性來近似節(jié)點(diǎn)的影響力，進(jìn)而計(jì)算群體影響力. Jia 等人［3］在度中心性的基礎(chǔ)上將節(jié)點(diǎn)的度重新定義為出度和入度，并提出了一個(gè)可調(diào)整的參數(shù)α 來調(diào)整出度與入度之間的相對(duì)權(quán)重，以適應(yīng)不同場(chǎng)景的群體影響力識(shí)別. Ullah 等人［17］提出了一種局部全局中心性方法，該方法綜合考慮了局部信息和全局信息來評(píng)估節(jié)點(diǎn)的影響力，從而識(shí)別群體影響力. 不同的中心性可以從不同的角度反應(yīng)節(jié)點(diǎn)的影響力，以上基于中心性的方法多從單一中心性角度分析節(jié)點(diǎn)影響力后擴(kuò)展到群體影響力，對(duì)節(jié)點(diǎn)分析不全面，且沒有考慮影響力重疊問題，所以此類方法也不適用于本文所研究的群體競(jìng)爭(zhēng)影響力問題.

2. 4 基于圖表示學(xué)習(xí)的方法

圖嵌入技術(shù)可以將高維圖數(shù)據(jù)如節(jié)點(diǎn)、邊、圖等映射為低維向量，為后續(xù)的節(jié)點(diǎn)級(jí)、邊級(jí)和圖級(jí)任務(wù)提供豐富的信息. 社交網(wǎng)絡(luò)是一種天然的圖數(shù)據(jù)，近年來，越來越多的研究人員使用圖嵌入技術(shù)進(jìn)行社交網(wǎng)絡(luò)分析. 例如，Zhao 等人［18］提出了InfGCN 模型，該模型結(jié)合了節(jié)點(diǎn)特征和網(wǎng)絡(luò)結(jié)構(gòu)信息來識(shí)別社交網(wǎng)絡(luò)中有影響力的節(jié)點(diǎn). Huang等人［19］提出的SDGNN 模型則考慮了平衡理論和地位理論，并重新設(shè)計(jì)了聚合方法和損失函數(shù)，能更好地學(xué)習(xí)符號(hào)有向圖的嵌入表示. Cao 等人［20］提出的MuGNN 模型用于實(shí)體對(duì)齊任務(wù)，該模型通過多個(gè)通道學(xué)習(xí)兩個(gè)知識(shí)圖譜的嵌入，解決了不同網(wǎng)絡(luò)結(jié)構(gòu)的異質(zhì)性問題. Chen 等人［21］提出了一個(gè)新的多級(jí)圖卷積網(wǎng)絡(luò)框架（MGCN），用于社交網(wǎng)絡(luò)鏈路預(yù)測(cè)任務(wù). 該框架同時(shí)考慮局部和超圖級(jí)的卷積信息來學(xué)習(xí)網(wǎng)絡(luò)嵌入，能捕捉更豐富的網(wǎng)絡(luò)信息. Jia 等人［22］提出了SRFA-GRL 框架，通過子圖重建來捕捉群體的分布，并提出了一種新的特征聚合方法來聚合群體特征. Kou 等人［23］引入了一種包含鄰域特征的多頭注意力回歸模型，以提高節(jié)點(diǎn)影響識(shí)別的準(zhǔn)確性。

這些研究都表明，使用GRL 可以有效地解決社交網(wǎng)絡(luò)中的具體問題，并且優(yōu)于傳統(tǒng)方法. 這啟發(fā)我們使用GRL 來解決組競(jìng)爭(zhēng)影響力評(píng)估問題.

3 本文方法

3. 1 概述

在本節(jié)中，我們提出了一個(gè)基于GRL 的框架，用于識(shí)別社交網(wǎng)絡(luò)中群體的競(jìng)爭(zhēng)影響力. 所提框架的總體結(jié)構(gòu)如圖1 所示，它包含以下幾個(gè)部分.

（1）準(zhǔn)備工作.（a）IC 仿真［25］：我們計(jì)算社交網(wǎng)絡(luò)中每個(gè)節(jié)點(diǎn)的IC 值以獲取節(jié)點(diǎn)的傳播能力特征；（b）特征提?。何覀兲崛×松缃痪W(wǎng)絡(luò)中每個(gè)節(jié)點(diǎn)的多種特征，詳見4. 2. 1 節(jié).

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于圖表示學(xué)習(xí)的社交網(wǎng)絡(luò)群體競(jìng)爭(zhēng)影響力識(shí)別