周萬(wàn)珍 宋健 許云峰
摘 要:社區(qū)結(jié)構(gòu)是復(fù)雜網(wǎng)絡(luò)研究中的重要領(lǐng)域,也是復(fù)雜網(wǎng)絡(luò)的重要特征之一,發(fā)現(xiàn)網(wǎng)絡(luò)中的社區(qū)結(jié)構(gòu)在理解網(wǎng)絡(luò)功能方面起著重要作用。通過(guò)對(duì)國(guó)內(nèi)外異質(zhì)網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)文獻(xiàn)進(jìn)行深入研究,較為全面地對(duì)現(xiàn)有異質(zhì)網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)算法進(jìn)行了歸納總結(jié)。首先,通過(guò)對(duì)國(guó)內(nèi)外異質(zhì)網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)文獻(xiàn)進(jìn)行歸納,給出異質(zhì)網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)的基本概述,明確異質(zhì)網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)領(lǐng)域相關(guān)問(wèn)題的基本定義。其次,介紹了異質(zhì)網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)算法及主要評(píng)價(jià)指標(biāo),利用不同網(wǎng)絡(luò)結(jié)構(gòu)以及算法對(duì)現(xiàn)有方法進(jìn)行分類概述。最后,對(duì)異質(zhì)網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)算法的發(fā)展趨勢(shì)進(jìn)行了總結(jié)與展望,提出未來(lái)可以將研究重點(diǎn)集中在以下幾個(gè)方面:1)探索基于異質(zhì)網(wǎng)絡(luò)的社區(qū)發(fā)現(xiàn)評(píng)價(jià)標(biāo)準(zhǔn),以推動(dòng)該領(lǐng)域的快速發(fā)展;2)設(shè)計(jì)更加通用的算法模型,解決由先驗(yàn)知識(shí)引起的未知社區(qū)數(shù)量問(wèn)題;3)開(kāi)展更多關(guān)于動(dòng)態(tài)網(wǎng)絡(luò)的研究。
關(guān)鍵詞:計(jì)算機(jī)神經(jīng)網(wǎng)絡(luò);復(fù)雜網(wǎng)絡(luò);社區(qū)發(fā)現(xiàn);異質(zhì)網(wǎng)絡(luò);圖神經(jīng)網(wǎng)絡(luò)
中圖分類號(hào):TP311.13 文獻(xiàn)標(biāo)識(shí)碼:A
doi:10.7535/hbkd.2021yx03004
Survey of community discovery method of heterogeneous network
ZHOU Wanzhen, SONG Jian, XU Yunfeng
(School of Information Science and Engineering,Hebei University of Science and Technology,Shijiazhuang,Hebei 050018,China)
Abstract:Community structure is an important field in the research of complex networks,and it is also one of the important characteristics of complex networks.It is found that the community structure in the network plays an important role in understanding network functions.Through in-depth research on the literature of heterogeneous network community discovery at home and abroad,a more comprehensive summary of the existing heterogeneous network community discovery algorithm is carried out.Firstly,by summarizing the literature of heterogeneous network community discovery at home and abroad,the basic overview of heterogeneous network community discovery is given,and the basic definition of related issues in the field of heterogeneous network community discovery is defined.Then,it introduces the heterogeneous network community discovery algorithm and the main evaluation index,and classifies the existing methods by using different network structures and algorithms.Finally,the development trend of heterogeneous network community discovery algorithms is summarized and prospected,and the future research focus can be focused on the following aspects:1) Exploring the evaluation criteria of community discovery based on heterogeneous networks to promote the rapid development of this field Development;2) Design a more general algorithm model to solve the problem of the number of unknown communities caused by prior knowledge;3) Carry out more research on dynamic networks.
Keywords:
computer neural network;complex network;community discovery;heterogeneous network;graph neural network
現(xiàn)實(shí)世界中實(shí)體與實(shí)體之間的聯(lián)系都可以被表示為復(fù)雜網(wǎng)絡(luò),比如人與人之間形成的社交網(wǎng)絡(luò)、作者之間形成的引文網(wǎng)絡(luò)、生物醫(yī)學(xué)領(lǐng)域的蛋白質(zhì)相互作用網(wǎng)絡(luò)、化學(xué)分子網(wǎng)絡(luò)等。對(duì)于復(fù)雜網(wǎng)絡(luò),錢學(xué)森先生給出了嚴(yán)格定義,將具有自組織、自相似、吸引子、小世界[1]、無(wú)標(biāo)度特性[2]的網(wǎng)絡(luò)稱為復(fù)雜網(wǎng)絡(luò)。
研究復(fù)雜網(wǎng)絡(luò)的性質(zhì)有助于人們對(duì)其加深理解和認(rèn)識(shí)。例如,研究復(fù)雜網(wǎng)絡(luò)中的路徑長(zhǎng)度、節(jié)點(diǎn)密度、節(jié)點(diǎn)的連通性等結(jié)構(gòu)信息,有助于了解實(shí)體之間的關(guān)聯(lián)性質(zhì);研究復(fù)雜網(wǎng)絡(luò)中實(shí)體的屬性信息,有助于了解實(shí)體的固有性質(zhì)。社區(qū)結(jié)構(gòu)是復(fù)雜網(wǎng)絡(luò)中的另一個(gè)重要性質(zhì),從連通性和節(jié)點(diǎn)密度的角度出發(fā),社區(qū)被稱為節(jié)點(diǎn)的局部密集連通子圖或聚類[3]。簡(jiǎn)單而普遍的理解是,社區(qū)由2個(gè)規(guī)則組成,一是社區(qū)中的節(jié)點(diǎn)緊密相連,二是不同社區(qū)的節(jié)點(diǎn)稀疏連接[3]。現(xiàn)實(shí)世界中,同一個(gè)社區(qū)中的節(jié)點(diǎn)可以共享公共屬性或起類似的作用,這些共性幾乎是所有社區(qū)發(fā)現(xiàn)策略的關(guān)鍵。社區(qū)發(fā)現(xiàn),或者更特別的說(shuō)法——基于相似特征或者特征集的聚類,可以幫助人們理解復(fù)雜網(wǎng)絡(luò)的固有屬性和功能。例如,在蛋白質(zhì)-蛋白質(zhì)相互作用(PPI)網(wǎng)絡(luò)中的社區(qū)發(fā)現(xiàn),揭示了具有相似功能的蛋白質(zhì)[4];在Twitter和微博等社交網(wǎng)絡(luò)中,具有共同興趣的用戶或者共同朋友的用戶更有可能是同一個(gè)社區(qū)的成員[5];在引文網(wǎng)絡(luò)中,社區(qū)發(fā)現(xiàn)可以確定研究主題的重要性和發(fā)展方向[6]。
根據(jù)結(jié)構(gòu),復(fù)雜網(wǎng)絡(luò)可以分為同質(zhì)網(wǎng)絡(luò)和異質(zhì)網(wǎng)絡(luò)。早期,社區(qū)發(fā)現(xiàn)的相關(guān)研究多集中于同質(zhì)網(wǎng)絡(luò),有許多不錯(cuò)的算法被提出。例如:2002年,GIRVAN等[3]提出了具有開(kāi)創(chuàng)性的GN算法;2004年,NEWMAN等[7]提出了基于模塊度優(yōu)化的FastGN算法,CLAUSET等[8]提出了CNM算法;2007年,RAGHAVAN等[9]提出了LPA算法;2008年,ROSVALL等[10]提出了Infomap算法,BLONDEL等[11]提出了Louvain算法;2016年,XU等[12]提出了基于骨干度的重疊社區(qū)發(fā)現(xiàn)算法等。
異質(zhì)網(wǎng)絡(luò)具有高維度、多節(jié)點(diǎn)等特點(diǎn),傳統(tǒng)的同質(zhì)網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)方法無(wú)法應(yīng)用于異質(zhì)網(wǎng)絡(luò),使得異質(zhì)網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)研究成為一個(gè)新的挑戰(zhàn)。作為一個(gè)逐漸興起的研究領(lǐng)域,異質(zhì)網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)仍處于探索階段,目前的研究方法還不是很成熟。現(xiàn)有的異質(zhì)網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)方法可以分為傳統(tǒng)異質(zhì)網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)方法和基于深度學(xué)習(xí)的異質(zhì)網(wǎng)絡(luò)聚類方法2種。傳統(tǒng)的異質(zhì)網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)方法大多針對(duì)特定網(wǎng)絡(luò)結(jié)構(gòu),不能對(duì)一般拓?fù)浣Y(jié)構(gòu)的大規(guī)模異質(zhì)網(wǎng)絡(luò)進(jìn)行社區(qū)發(fā)現(xiàn)?;谏疃葘W(xué)習(xí)的異質(zhì)網(wǎng)絡(luò)聚類方法大多先采用網(wǎng)絡(luò)表示學(xué)習(xí)方法對(duì)節(jié)點(diǎn)進(jìn)行表示,然后進(jìn)行特定的聚類任務(wù)。
目前,已有許多學(xué)者針對(duì)同質(zhì)網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)發(fā)表了一些綜述性文獻(xiàn)[13-14],但關(guān)于異質(zhì)網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)的綜述較少。本文整理了當(dāng)前比較熱門的傳統(tǒng)異質(zhì)網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)方法和新興的基于深度學(xué)習(xí)的異質(zhì)網(wǎng)絡(luò)聚類方法,根據(jù)算法的適用性及原理對(duì)現(xiàn)有方法進(jìn)行歸納總結(jié),并對(duì)異質(zhì)網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)的未來(lái)進(jìn)行展望。
1 異質(zhì)網(wǎng)絡(luò)社區(qū)概述
1.1 信息網(wǎng)絡(luò)
信息網(wǎng)絡(luò)[15](information networks)由有向圖G=V,E所定義,V表示節(jié)點(diǎn)集,E表示邊集,該有向圖中包含對(duì)象類型映射函數(shù)τ:V→A和連接類型映射函數(shù)φ:E→R,其中每一個(gè)對(duì)象v∈V都屬于一個(gè)特定的對(duì)象類型τv∈A,每一個(gè)連接e∈E都屬于一個(gè)特定的關(guān)系類型φe∈R。當(dāng)節(jié)點(diǎn)類型數(shù)量為1,即∣A∣=1,同時(shí),邊的類型數(shù)量也為1,即∣R∣=1時(shí),稱這個(gè)信息網(wǎng)絡(luò)為同質(zhì)網(wǎng)絡(luò)。反之,
當(dāng)節(jié)點(diǎn)的類型數(shù)量大于1,即∣A∣>1,或者,邊的類型數(shù)量大于1,即∣R∣>1時(shí),則稱這個(gè)信息網(wǎng)絡(luò)為異質(zhì)信息網(wǎng)絡(luò)[16](以下簡(jiǎn)稱異質(zhì)網(wǎng)絡(luò))。具有4種節(jié)點(diǎn)類型的異質(zhì)信息網(wǎng)絡(luò)如圖1所示[17]。
異質(zhì)網(wǎng)絡(luò)中也存在特殊情況,如多路網(wǎng)絡(luò)(multiplex networks)、多模網(wǎng)絡(luò)(multi-mode network)和多維度網(wǎng)絡(luò)(multi-dimensional network)。其中:多路網(wǎng)絡(luò)即節(jié)點(diǎn)類型為1、而關(guān)系類型為N的特殊異質(zhì)網(wǎng)絡(luò),通常是針對(duì)異構(gòu)網(wǎng)絡(luò)中某種指定類型的中心節(jié)點(diǎn)而言的;多模網(wǎng)絡(luò)則側(cè)重于節(jié)點(diǎn),指網(wǎng)絡(luò)中存在不同類型的節(jié)點(diǎn);多維網(wǎng)絡(luò)側(cè)重于邊,指網(wǎng)絡(luò)中存在的不同關(guān)系類型的邊。
通常信息網(wǎng)絡(luò)中使用元路徑[15](meta path)對(duì)網(wǎng)絡(luò)中不同的路徑進(jìn)行定義。元路徑Φ是定義在模式S=A,R上的一條路徑,以A1→R1A2→R2…→RlAl+1的形式表示,其中R=R1R2…Rl是定義在對(duì)象A1,A2,…,Al+1中的一種復(fù)合關(guān)系,表示關(guān)系上的組合運(yùn)算符。
不同的元路徑可以表達(dá)異質(zhì)網(wǎng)絡(luò)中不同的語(yǔ)義信息,根據(jù)這些語(yǔ)義信息可以將網(wǎng)絡(luò)劃分為不同的社區(qū)結(jié)構(gòu)。圖2中,“Author”既可以由元路徑 “Author-Paper-Author”(APA)連接,也可以由元路徑“Author-Paper-Venue-Paper-Author”(APVPA)連接[18]。不同的元路徑所包含的語(yǔ)義信息是完全不同的,比如元路徑APA表示2位作者共同合作完成一篇文章,而元路徑APVPA則表示2位作者在同一機(jī)構(gòu)完成不同的文章。
1.2 社區(qū)
所謂社區(qū)[13,19],從連通性和密度的角度來(lái)看,社區(qū)被稱為節(jié)點(diǎn)的局部連通子圖或聚類,社區(qū)中的節(jié)點(diǎn)通常有著同樣的特征或起著相同的作用。根據(jù)圖論[20],社區(qū)也被定義為集團(tuán)(每個(gè)節(jié)點(diǎn)彼此相鄰)或連接的組件(每對(duì)節(jié)點(diǎn)至少通過(guò)一條路徑連接)。圖3示出了Zachary空手道俱樂(lè)部網(wǎng)絡(luò),其中,不同顏色的符號(hào)表示在俱樂(lè)部的講師(節(jié)點(diǎn)1)和總裁(節(jié)點(diǎn)34)之間存在分歧之后產(chǎn)生的2個(gè)社區(qū)[14]。
1.3 社區(qū)發(fā)現(xiàn)
社區(qū)發(fā)現(xiàn)(也被稱為圖聚類技術(shù))是基于網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)信息識(shí)別出的具有相似特征或起相同作用的節(jié)點(diǎn)的集合。在過(guò)去幾十年中,社區(qū)發(fā)現(xiàn)受到了學(xué)者們的廣泛關(guān)注,并取得了很多開(kāi)創(chuàng)性的研究成果。例如:2002年,GIRVAN等[3]提出了GN算法,
掀起了社區(qū)發(fā)現(xiàn)的研究熱潮,引起了計(jì)算機(jī)、物理、生物等眾多學(xué)科領(lǐng)域的關(guān)注;2004年,NEWMAN[21]提出了模塊度Q函數(shù)作為社區(qū)發(fā)現(xiàn)的評(píng)價(jià)指標(biāo),推動(dòng)了社區(qū)發(fā)現(xiàn)領(lǐng)域的相關(guān)研究快速向前發(fā)展。但是,以上研究是基于非重疊社區(qū)結(jié)構(gòu)的,即一個(gè)節(jié)點(diǎn)只屬于一個(gè)社區(qū)(見(jiàn)圖4a))。而在現(xiàn)實(shí)生活中,更為常見(jiàn)的是重疊社區(qū)結(jié)構(gòu)(見(jiàn)圖4b)),即一個(gè)節(jié)點(diǎn)屬于多個(gè)社區(qū)。例如:生物信息學(xué)科學(xué)者發(fā)表的文章通常涉及生物以及信息2個(gè)領(lǐng)域;一名鐵人三項(xiàng)運(yùn)動(dòng)員既屬于跑步俱樂(lè)部,又屬于自行車俱樂(lè)部。
相比于同質(zhì)網(wǎng)絡(luò),現(xiàn)實(shí)生活中更為常見(jiàn)的是異質(zhì)網(wǎng)絡(luò),即多類型節(jié)點(diǎn)和多類型關(guān)系組成的網(wǎng)絡(luò)。異質(zhì)網(wǎng)絡(luò)不僅包括多種節(jié)點(diǎn)類型,還包括各種不同節(jié)點(diǎn)類型之間的復(fù)雜關(guān)系。例如:引文網(wǎng)絡(luò)中的作者、論文、作者單位等節(jié)點(diǎn)之間的關(guān)系,作者與論文之間是寫(xiě)作關(guān)系,作者與作者之間是合作關(guān)系,作者與作者單位之間是隸屬關(guān)系,論文與論文之間是引用關(guān)系等。異質(zhì)網(wǎng)絡(luò)中的社區(qū)結(jié)構(gòu)一般被定義為同種類型節(jié)點(diǎn)組成的社區(qū),社區(qū)間形成多對(duì)多關(guān)系[22]。
由于異質(zhì)網(wǎng)絡(luò)的復(fù)雜性,導(dǎo)致僅有結(jié)構(gòu)最為簡(jiǎn)單的二分網(wǎng)絡(luò)得到了一定的研究。二分網(wǎng)絡(luò)僅由2種節(jié)點(diǎn)類型組成,不同類型的節(jié)點(diǎn)之間有較多的邊連接,而同類型之間大多沒(méi)有邊。由于異質(zhì)網(wǎng)絡(luò)具有多分多維的特性,因而二分網(wǎng)絡(luò)有2種形式的社區(qū)結(jié)構(gòu)定義。第1種是基于同質(zhì)網(wǎng)絡(luò)的社區(qū)定義,將不同類型的節(jié)點(diǎn)劃分到同一個(gè)社區(qū),社區(qū)內(nèi)不同類型節(jié)點(diǎn)間緊密連接,社區(qū)間形成一對(duì)一關(guān)系,如圖5a)所示;第2種是基于社區(qū)內(nèi)相似節(jié)點(diǎn)聚類來(lái)考慮的,將二分網(wǎng)絡(luò)中同類型節(jié)點(diǎn)劃分到一個(gè)社區(qū),社區(qū)內(nèi)的節(jié)點(diǎn)間沒(méi)有連接,異質(zhì)社區(qū)間形成多對(duì)多關(guān)系,如圖5b)所示[22]。
1.4 社區(qū)發(fā)現(xiàn)的實(shí)際應(yīng)用
社區(qū)發(fā)現(xiàn)可以被應(yīng)用到許多任務(wù)中,寬泛地分為2類:鏈路預(yù)測(cè)和社交影響力最大化。
1.4.1 鏈路預(yù)測(cè)
鏈路預(yù)測(cè)是數(shù)據(jù)挖掘領(lǐng)域的重要研究方向,是指通過(guò)已知節(jié)點(diǎn)的特征信息以及網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),預(yù)測(cè)尚未產(chǎn)生連接的節(jié)點(diǎn)對(duì)之間出現(xiàn)連邊的可能性[23]。鏈路預(yù)測(cè)可以識(shí)別具有相似購(gòu)買歷史的用戶組,進(jìn)行更加有效的推薦。
1.4.2 社交影響力最大化
影響力最大化的應(yīng)用場(chǎng)景十分豐富,包括病毒營(yíng)銷、信息擴(kuò)散、推薦系統(tǒng)等。影響力最大化的目的是在特定的網(wǎng)絡(luò)傳播模型下找到一組節(jié)點(diǎn),使得這組節(jié)點(diǎn)的最終影響力達(dá)到最大化。在社交網(wǎng)絡(luò)中,由于社區(qū)結(jié)構(gòu)的特性,社區(qū)內(nèi)部節(jié)點(diǎn)通常具有相似的特征,因此信息在社區(qū)內(nèi)部的傳播速度較快。因此,一些科研人員嘗試將社區(qū)發(fā)現(xiàn)與影響力最大化進(jìn)行研究,取得了不錯(cuò)的效果。
2 異質(zhì)網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)方法
研究人員對(duì)同質(zhì)網(wǎng)絡(luò)提出了許多優(yōu)秀的社區(qū)發(fā)現(xiàn)算法,例如譜方法[24]和標(biāo)簽傳播方法[25]。但是這些算法并沒(méi)有考慮網(wǎng)絡(luò)的異質(zhì)性,檢測(cè)到的社區(qū)僅僅反映連接密度關(guān)系,無(wú)法反映異質(zhì)網(wǎng)絡(luò)中不同連接類型之間的語(yǔ)義關(guān)系。早期,受限于異質(zhì)網(wǎng)絡(luò)的復(fù)雜性與計(jì)算機(jī)的計(jì)算能力,傳統(tǒng)異質(zhì)網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)方法多集中于結(jié)構(gòu)較為簡(jiǎn)單的二分網(wǎng)絡(luò)和多分多維網(wǎng)絡(luò)。隨著計(jì)算能力的提高以及深度學(xué)習(xí)的興起,基于深度學(xué)習(xí)的異質(zhì)網(wǎng)絡(luò)聚類方法逐漸成為研究的主要方向。
2.1 傳統(tǒng)異質(zhì)網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)方法
2.1.1 二分網(wǎng)絡(luò)的異質(zhì)網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)方法
目前,二分網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)主要有2種方法:一是將二分網(wǎng)絡(luò)投影降維為同質(zhì)網(wǎng)絡(luò),再使用同質(zhì)網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)算法對(duì)其進(jìn)行社區(qū)劃分,但該方法在投影降維過(guò)程中容易造成部分信息丟失;二是直接在二分網(wǎng)絡(luò)上進(jìn)行社區(qū)劃分。
2007年,BARBER[26]開(kāi)創(chuàng)性地提出了二分模塊度,并基于此提出了一種基于二分模塊度的Brim算法,克服了同質(zhì)網(wǎng)絡(luò)模塊度在異質(zhì)網(wǎng)絡(luò)中效果不佳的缺陷,但該方法無(wú)法有效識(shí)別出網(wǎng)絡(luò)中的小規(guī)模社區(qū)。針對(duì)這一問(wèn)題,XU等[27]提出了基于密度的二分網(wǎng)絡(luò)模塊度,從網(wǎng)絡(luò)連接密度出發(fā),同時(shí)考慮二分網(wǎng)絡(luò)社區(qū)內(nèi)連接數(shù)量和節(jié)點(diǎn)數(shù)量,提升對(duì)小規(guī)模社區(qū)的識(shí)別效果。
2.1.2 多分多維的異質(zhì)網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)方法
2009年,SUN等[28-29]提出了基于概率模型的RankClus算法以及NetClus算法,采用排名和社區(qū)發(fā)現(xiàn)相互提升的思路,將排名問(wèn)題和社區(qū)發(fā)現(xiàn)問(wèn)題結(jié)合在一起。通過(guò)迭代“根據(jù)當(dāng)前社區(qū)劃分計(jì)算節(jié)點(diǎn)的等級(jí)分布”和“計(jì)算節(jié)點(diǎn)所屬社區(qū)的后驗(yàn)概率,以及當(dāng)前等級(jí)分布調(diào)整節(jié)點(diǎn)的社區(qū)劃分”來(lái)進(jìn)行社區(qū)發(fā)現(xiàn),直到收斂為止。但這2種方法均是針對(duì)某一特定的網(wǎng)絡(luò)結(jié)構(gòu)類型提出的,RankClus針對(duì)的是雙類型異質(zhì)網(wǎng)絡(luò),NetClus針對(duì)的是包含多種實(shí)體類型的異構(gòu)星形網(wǎng)絡(luò)。為了解決這一問(wèn)題,MING等[30]提出了RankClass算法,該算法在NetClus的基礎(chǔ)上進(jìn)行改進(jìn),使其可以應(yīng)用于具有常規(guī)拓?fù)浣Y(jié)構(gòu)的異質(zhì)網(wǎng)絡(luò)。具體地說(shuō),RankClass通過(guò)建立一個(gè)基于圖的排名模型,根據(jù)排名結(jié)果對(duì)網(wǎng)絡(luò)結(jié)構(gòu)進(jìn)行調(diào)整,使得排名高的對(duì)象組成的子網(wǎng)絡(luò)的重要性得以加強(qiáng),最后通過(guò)估計(jì)各個(gè)對(duì)象屬于每個(gè)類的后驗(yàn)概率來(lái)確定每個(gè)對(duì)象的最佳類別。QIU等[31]注意到上述方法未考慮重疊社區(qū)問(wèn)題,因此提出了OcdRank算法,該算法在有向異質(zhì)的社交網(wǎng)絡(luò)中將重疊社區(qū)發(fā)現(xiàn)和社區(qū)成員排名結(jié)合在一起,通過(guò)區(qū)分不同類型的節(jié)點(diǎn)來(lái)改善RankClus,同時(shí)該方法支持增量更新的社區(qū)發(fā)現(xiàn),這在現(xiàn)實(shí)場(chǎng)景中具有很大的應(yīng)用價(jià)值。以上基于概率模型的異質(zhì)網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)算法具有較高的時(shí)間和空間復(fù)雜度,且由于需要豐富的先驗(yàn)知識(shí)以及預(yù)先設(shè)定社區(qū)數(shù)量,導(dǎo)致在大規(guī)模異質(zhì)網(wǎng)絡(luò)中社區(qū)發(fā)現(xiàn)的效果并不佳。
2011年,COMAR等[32]提出了基于非負(fù)矩陣分解的社區(qū)發(fā)現(xiàn)算法,使用鄰接矩陣表示異質(zhì)網(wǎng)絡(luò),通過(guò)將鄰接矩陣分解成潛在因子進(jìn)行社區(qū)發(fā)現(xiàn)。但是該算法只能用于A=2,R=3的異質(zhì)網(wǎng)絡(luò)。針對(duì)上述算法只能用于特定網(wǎng)絡(luò)結(jié)構(gòu)這一問(wèn)題,LI等[33]提出了一個(gè)基于正則化和非負(fù)矩陣分解(regularized joint nonnegative matrix factorization,簡(jiǎn)稱RJNMF)的框架,該框架在構(gòu)建異質(zhì)網(wǎng)絡(luò)鄰接矩陣時(shí)綜合考慮鏈路信息和節(jié)點(diǎn)內(nèi)容信息,引入調(diào)節(jié)功能以減少噪聲數(shù)據(jù)對(duì)社區(qū)的影響,以此提高社區(qū)發(fā)現(xiàn)的效果。CHEN等[34]將同質(zhì)網(wǎng)絡(luò)中基于矩陣分解的社區(qū)發(fā)現(xiàn)算法Hom-SC和Hom-RSC擴(kuò)展至異質(zhì)信息網(wǎng)絡(luò)中,分別命名為Het-SC和Het-RSC。具體地說(shuō),通過(guò)對(duì)給定圖的拉普拉斯矩陣進(jìn)行矩陣分解獲得其特征向量,然后對(duì)不同節(jié)點(diǎn)類型對(duì)應(yīng)的特征向量進(jìn)行K-means聚類,獲得社區(qū)劃分結(jié)果?;诰仃嚪纸獾乃惴梢杂行ёR(shí)別異質(zhì)網(wǎng)絡(luò)的異質(zhì)性,但是針對(duì)大規(guī)模網(wǎng)絡(luò)進(jìn)行矩陣分解具有較高的時(shí)間、空間復(fù)雜度,同時(shí)由于需要在進(jìn)行社區(qū)劃分之前對(duì)社區(qū)數(shù)量進(jìn)行設(shè)定,因此對(duì)先驗(yàn)知識(shí)要求較高。
2016年,LIU等[35]提出了以種子為中心的社區(qū)發(fā)現(xiàn)算法DenSeC,該算法根據(jù)節(jié)點(diǎn)密度對(duì)中心節(jié)點(diǎn)進(jìn)行識(shí)別,然后將中心節(jié)點(diǎn)從緊密連接區(qū)域擴(kuò)展到稀疏連接區(qū)域,并不斷吸收新節(jié)點(diǎn)生成最終的社區(qū)劃分。2018年,LU等[17]提出了用于多維社區(qū)發(fā)現(xiàn)的Hete_MESE算法,該算法可以從多維度檢測(cè)異質(zhì)網(wǎng)絡(luò)中的重疊和異質(zhì)社區(qū),具有線性時(shí)間復(fù)雜度,因此可以應(yīng)用于大規(guī)模異質(zhì)網(wǎng)絡(luò)。具體來(lái)說(shuō),首先將異質(zhì)網(wǎng)絡(luò)中的多個(gè)實(shí)體類型之一指定為社區(qū)中心節(jié)點(diǎn)類型,基于中心節(jié)點(diǎn)以及元路徑提取多路網(wǎng)絡(luò),然后基于多路網(wǎng)絡(luò)檢測(cè)重疊的社區(qū),并將其視為種子社區(qū),吸收其他實(shí)體類型生成異質(zhì)社區(qū)。
基于以上研究可以發(fā)現(xiàn),傳統(tǒng)異質(zhì)網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)方法遵循由特殊網(wǎng)絡(luò)結(jié)構(gòu)到一般拓?fù)浣Y(jié)構(gòu)、由非重疊社區(qū)發(fā)現(xiàn)到重疊社區(qū)發(fā)現(xiàn)這一發(fā)展路線;同時(shí)可以發(fā)現(xiàn),隨著網(wǎng)絡(luò)規(guī)模的增大,傳統(tǒng)算法近年的研究目標(biāo)主要集中于如何降低時(shí)間、空間復(fù)雜度以及減少對(duì)先驗(yàn)知識(shí)的依賴方面。
2.2 基于深度學(xué)習(xí)的異質(zhì)網(wǎng)絡(luò)聚類方法
近年來(lái),基于深度學(xué)習(xí)的網(wǎng)絡(luò)表示學(xué)習(xí)方法是數(shù)據(jù)挖掘領(lǐng)域研究的熱門方向[36],該方法可以將信息網(wǎng)絡(luò)表示為低維稠密的攜帶網(wǎng)絡(luò)節(jié)點(diǎn)特征信息的實(shí)數(shù)向量,并應(yīng)用于下游任務(wù)的輸入,如聚類、社區(qū)發(fā)現(xiàn)等。TOMMASEL等[37]的研究表明,僅關(guān)注網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的傳統(tǒng)方法忽略了節(jié)點(diǎn)間的語(yǔ)義信息,而深度學(xué)習(xí)技術(shù)可以同時(shí)考慮網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)與網(wǎng)絡(luò)上的語(yǔ)義信息。已有研究表明,深度學(xué)習(xí)技術(shù)可以提高社區(qū)發(fā)現(xiàn)的準(zhǔn)確性[38]。例如,CHEN等[39]提出的線圖神經(jīng)網(wǎng)絡(luò)模型(line graph neural network,簡(jiǎn)稱LGNN),通過(guò)基于深度學(xué)習(xí)的聚類方法解決社區(qū)發(fā)現(xiàn)問(wèn)題,取得了較為顯著的效果。由此可見(jiàn),基于深度學(xué)習(xí)的聚類方法可以幫助研究人員進(jìn)行社區(qū)發(fā)現(xiàn)。
由于異質(zhì)網(wǎng)絡(luò)多節(jié)點(diǎn)類型、關(guān)系類型的特性,異質(zhì)圖神經(jīng)網(wǎng)絡(luò)通常會(huì)采用層次聚合的方式獲得節(jié)點(diǎn)的表示信息:1)節(jié)點(diǎn)級(jí)別,獲得節(jié)點(diǎn)在某種關(guān)系(即某條元路徑)下的鄰居節(jié)點(diǎn)并聚合鄰居節(jié)點(diǎn)信息,獲得節(jié)點(diǎn)在該關(guān)系下的表示;2)語(yǔ)義級(jí)別,對(duì)多種關(guān)系(即不同元路徑)下的節(jié)點(diǎn)表示進(jìn)行融合,獲得最終的節(jié)點(diǎn)表示。
異質(zhì)網(wǎng)絡(luò)表示學(xué)習(xí)中,首先要解決的問(wèn)題是不同節(jié)點(diǎn)類型以及不同關(guān)系類型對(duì)節(jié)點(diǎn)表示的影響。為解決此問(wèn)題,WANG等[40]提出了基于注意力機(jī)制的異質(zhì)圖神經(jīng)網(wǎng)絡(luò)(heterogeneous graph attention network,簡(jiǎn)稱HAN)。HAN采用經(jīng)典的層次聚合方式對(duì)節(jié)點(diǎn)進(jìn)行全面表示,通過(guò)設(shè)置節(jié)點(diǎn)級(jí)別注意力和語(yǔ)義級(jí)別注意力,判斷不同鄰居節(jié)點(diǎn)與元路徑的重要性,最后通過(guò)相應(yīng)的聚合操作對(duì)鄰居節(jié)點(diǎn)的信息以及不同元路徑的信息進(jìn)行聚合以獲得最終的節(jié)點(diǎn)表示。
HAN中節(jié)點(diǎn)級(jí)別的信息聚合如下:
eΦij=attnodeh′i,h′j;Φ,
zΦi=σ∑j∈NΦiαΦijh′j。
式中:eΦij代表節(jié)點(diǎn)i在元路徑Φ下鄰居節(jié)點(diǎn)j的權(quán)重;zΦi即節(jié)點(diǎn)i在元路徑Φ下的節(jié)點(diǎn)級(jí)別的表示。每個(gè)節(jié)點(diǎn)由多條元路徑構(gòu)成,給定一組元路徑Φ0,Φ1,…,ΦP,可以得到一組節(jié)點(diǎn)級(jí)別的節(jié)點(diǎn)表示ZΦ0,ZΦ1,…,ZΦP。
HAN中語(yǔ)義級(jí)別的信息聚合如下:
βΦ0,βΦ1,…,βΦP=attsemZΦ0,ZΦ1,…,ZΦP,
Z=∑Pi=1βΦiZΦi。
式中:βΦ0,βΦ1,…,βΦP代表各條元路徑的權(quán)重;Z為最終的節(jié)點(diǎn)表示。由于每個(gè)節(jié)點(diǎn)的最終表示Z融合了多條元路徑及不同鄰居節(jié)點(diǎn)信息,因此HAN可以為每個(gè)節(jié)點(diǎn)都獲得更為全面的表示。
與HAN不同,ZHANG等[41]提出的HetGNN(heterogeneous graph neural network)則是在節(jié)點(diǎn)級(jí)別的信息聚合中使用LSTM作為聚合器,對(duì)某種關(guān)系下的鄰居節(jié)點(diǎn)信息進(jìn)行聚合以獲得節(jié)點(diǎn)的表示,在語(yǔ)義級(jí)別的信息聚合中,使用注意力機(jī)制獲得最終的節(jié)點(diǎn)表示。
HetGNN中,節(jié)點(diǎn)級(jí)別的信息聚合如下:
ft2v=∑v′∈NtvLSTMf1v′LSTMf1v′Ntv。
式中:Ntv是節(jié)點(diǎn)v在特定關(guān)系t下(即某條元路徑)的鄰居節(jié)點(diǎn)的集合;f1v′是鄰居節(jié)點(diǎn)v′的初始節(jié)點(diǎn)表示;ft2v為節(jié)點(diǎn)v在節(jié)點(diǎn)級(jí)別的表示。
HetGNN中語(yǔ)義級(jí)別的信息聚合如下:
εv=αv,vf1v+∑t∈OVαv,tft2v。
式中:εv為聚合了多條元路徑的節(jié)點(diǎn)v的最終表示;αv,v表示節(jié)點(diǎn)對(duì)自身信息的權(quán)重;αv,t表示節(jié)點(diǎn)v在特定關(guān)系t下的節(jié)點(diǎn)表示的權(quán)重;OV表示節(jié)點(diǎn)類型的集合。
以上2種適用于聚類任務(wù)的異質(zhì)圖神經(jīng)網(wǎng)絡(luò)雖然取得了不錯(cuò)的效果,但仍然存在一些缺陷,比如需要預(yù)先指定元路徑,元路徑的選擇將直接影響到模型的效果,而元路徑的選擇又需要豐富的先驗(yàn)知識(shí)。這一缺陷極大影響了相關(guān)任務(wù)的效果。為解決這一問(wèn)題,YUN等[42]提出了自適應(yīng)選取元路徑的GTN(graph transformer networks)模型,該方法從原始圖結(jié)構(gòu)中抽取2個(gè)圖結(jié)構(gòu),通過(guò)矩陣乘法生成元路徑,并通過(guò)多通道卷積學(xué)習(xí)不同類型的元路徑,然后將GCN應(yīng)用于每個(gè)通道對(duì)多個(gè)節(jié)點(diǎn)表示進(jìn)行拼接,作為最終的節(jié)點(diǎn)表示。該方法雖然顯著提升了節(jié)點(diǎn)分類任務(wù)的性能,但在聚類任務(wù)中表現(xiàn)并不佳。FU等[43]提出的MAGNN模型首先是將特定類型的線性變換應(yīng)用于異構(gòu)節(jié)點(diǎn)屬性,將不同類型的節(jié)點(diǎn)屬性投影到相同的潛在向量空間,以此解決節(jié)點(diǎn)屬性的異構(gòu)性;然后,對(duì)于節(jié)點(diǎn)級(jí)別的信息聚合采用特殊的元路徑實(shí)例編碼器,將節(jié)點(diǎn)特征編碼為向量,對(duì)于語(yǔ)義級(jí)別的消息則使用注意力機(jī)制進(jìn)行聚合。
基于以上研究可知,異質(zhì)圖神經(jīng)網(wǎng)絡(luò)聚類方法的研究重點(diǎn)主要包括以下幾方面:節(jié)點(diǎn)級(jí)別、語(yǔ)義級(jí)別信息聚合方式的選擇,不同類型的節(jié)點(diǎn)屬性處理方式,元路徑的選擇方式。異質(zhì)圖神經(jīng)網(wǎng)絡(luò)能夠同時(shí)學(xué)習(xí)網(wǎng)絡(luò)結(jié)構(gòu)特征以及節(jié)點(diǎn)屬性特征,顯著提高了聚類任務(wù)的效果。同時(shí),異質(zhì)圖神經(jīng)網(wǎng)絡(luò)適用于任意網(wǎng)絡(luò)結(jié)構(gòu)的特性也為后續(xù)的社區(qū)發(fā)現(xiàn)任務(wù)提供了極大便利。相比于傳統(tǒng)社區(qū)發(fā)現(xiàn)算法,異質(zhì)圖神經(jīng)網(wǎng)絡(luò)模型的數(shù)據(jù)適應(yīng)性更強(qiáng),更能有效利用數(shù)據(jù)的特征。
2.3 方法總結(jié)與歸納
根據(jù)算法特點(diǎn)及適用的網(wǎng)絡(luò)結(jié)構(gòu)對(duì)上述算法進(jìn)行了整理,詳見(jiàn)表1。
3 異質(zhì)網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)的評(píng)價(jià)指標(biāo)及常用數(shù)據(jù)集
3.1 異質(zhì)網(wǎng)絡(luò)社區(qū)的模塊度
2004年,NEWMAN等[7]創(chuàng)造性地提出了模塊度Q函數(shù),自此模塊度Q成為衡量社區(qū)劃分質(zhì)量?jī)?yōu)劣的一個(gè)重要評(píng)價(jià)指標(biāo),現(xiàn)已成為常用的評(píng)價(jià)指標(biāo)之一。該指標(biāo)主要面向無(wú)向無(wú)權(quán)的同質(zhì)網(wǎng)絡(luò),網(wǎng)絡(luò)中不同的社區(qū)劃分結(jié)果對(duì)應(yīng)不同的模塊度Q,模塊度Q越大,則社區(qū)劃分結(jié)果越好,相反則越差。相比之下,由于異質(zhì)網(wǎng)絡(luò)的復(fù)雜性,目前僅有部分學(xué)者針對(duì)二分網(wǎng)絡(luò)提出了相應(yīng)的模塊度。
2007年,BARBER[26]率先提出了基于二分網(wǎng)絡(luò)的模塊度,將不同類型的節(jié)點(diǎn)劃分到同一個(gè)社區(qū)中,計(jì)算方法如下:
Qb=1M∑ni=1∑mj=1Ai,j-titjmδCi,Cj。
式中:m表示網(wǎng)絡(luò)中的邊數(shù);Ai,j表示鄰接矩陣A中的元素,若節(jié)點(diǎn)相連,則Ai,j=1,否則Ai,j=0;Ci與Cj分別表示節(jié)點(diǎn)i與節(jié)點(diǎn)j所屬的社區(qū),若節(jié)點(diǎn)i與節(jié)點(diǎn)j所屬的社區(qū)相同,則δCi,Cj=1,反之則為0。
2010年,LIU等[44]提出了一對(duì)多關(guān)系的二分模塊度,用于表示2個(gè)社區(qū)對(duì)應(yīng)關(guān)系的強(qiáng)弱度,計(jì)算方法如下:
Qm=∑lQml=1M∑i=1etm-alam。
式中:l,m分別對(duì)應(yīng)2個(gè)異質(zhì)網(wǎng)絡(luò)社區(qū);Q值越大,表示二分網(wǎng)絡(luò)的結(jié)構(gòu)越強(qiáng)。
3.2 通用評(píng)價(jià)指標(biāo)
標(biāo)準(zhǔn)化互信息(normalized mutual information,簡(jiǎn)稱NMI)[45],是目前廣泛使用的一種社區(qū)劃分評(píng)價(jià)指標(biāo)。計(jì)算方法如下:
NMIR,F(xiàn)=-2∑CRi=1∑CFj=1NijlogNijSNi*N*j∑CRNi*logNi*/S+∑N*jlogN*j/S。
式中:給定一個(gè)矩陣N,N表示由真實(shí)社區(qū)與社區(qū)發(fā)現(xiàn)算法計(jì)算出來(lái)的社區(qū)對(duì)應(yīng)的混合矩陣,Ni*表示真實(shí)的社區(qū),N*j表示社區(qū)發(fā)現(xiàn)算法所得到的社區(qū);Nij表示同時(shí)出現(xiàn)在真實(shí)社區(qū)與社區(qū)算法所得社區(qū)中的節(jié)點(diǎn)數(shù)量;S表示所有元素之和;CR表示真實(shí)社區(qū)的數(shù)量;CF表示算法所得到的社區(qū)數(shù)量。當(dāng)算法所得的社區(qū)劃分與真實(shí)社區(qū)完全一致時(shí),NMI=1;當(dāng)算法所得的社區(qū)劃分與真實(shí)社區(qū)相互獨(dú)立時(shí),NMI=0。顯然,NMI值越大,社區(qū)發(fā)現(xiàn)算法效果越好。
3.3 異質(zhì)網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)的常用數(shù)據(jù)集
表2給出了4種常用測(cè)試算法效果的異質(zhì)網(wǎng)絡(luò)數(shù)據(jù)集,分別為引用網(wǎng)絡(luò)DBLP、美國(guó)最大的點(diǎn)評(píng)網(wǎng)站Yelp數(shù)據(jù)集、大數(shù)據(jù)挖掘與服務(wù)系統(tǒng)平臺(tái)Aminer、電影信息數(shù)據(jù)集IMDB。對(duì)于每個(gè)數(shù)據(jù)集,給出了數(shù)據(jù)來(lái)源,并統(tǒng)計(jì)了該數(shù)據(jù)集的節(jié)點(diǎn)數(shù)、關(guān)系數(shù)、關(guān)系類型,方便研究者選擇適合模型的數(shù)據(jù)集。
4 研究展望
本文介紹了現(xiàn)有的異質(zhì)網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)方法,根據(jù)其特點(diǎn)及網(wǎng)絡(luò)結(jié)構(gòu)可分為3類,分別是二分網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)方法、多模多維社區(qū)發(fā)現(xiàn)方法以及最近非常流行的基于深度學(xué)習(xí)的異質(zhì)網(wǎng)絡(luò)聚類方法,對(duì)比了所介紹模型的適用性與算法特點(diǎn),給出了經(jīng)典的異質(zhì)網(wǎng)絡(luò)數(shù)據(jù)集。
近年來(lái),社區(qū)發(fā)現(xiàn)領(lǐng)域的研究發(fā)展迅速,但是在一些方面仍然存在挑戰(zhàn)。例如,由于數(shù)據(jù)類型的多樣性,不同領(lǐng)域的先驗(yàn)知識(shí)極大影響了社區(qū)劃分的結(jié)果。因此,設(shè)計(jì)高效通用的社區(qū)發(fā)現(xiàn)算法非常重要。同時(shí),在近兩年嶄露頭角的基于深度學(xué)習(xí)的圖神經(jīng)網(wǎng)絡(luò)方法展現(xiàn)出了巨大潛力,預(yù)示著在今后的研究中,圖神經(jīng)網(wǎng)絡(luò)方法可能成為解決現(xiàn)有問(wèn)題的一種有效途徑。針對(duì)社區(qū)發(fā)現(xiàn)領(lǐng)域的研究現(xiàn)狀,未來(lái)研究重點(diǎn)將會(huì)集中在以下幾個(gè)方面。
1)評(píng)價(jià)標(biāo)準(zhǔn)
異質(zhì)網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)算法仍然缺少統(tǒng)一的評(píng)價(jià)標(biāo)準(zhǔn),尋找一個(gè)科學(xué)的評(píng)價(jià)標(biāo)準(zhǔn)將是研究人員面臨的第一個(gè)挑戰(zhàn)。根據(jù)異質(zhì)網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)算法的發(fā)展趨勢(shì),新的評(píng)價(jià)標(biāo)準(zhǔn)不僅需要考慮同種類型節(jié)點(diǎn)間的社區(qū)連接強(qiáng)度,還需要考慮不同類型節(jié)點(diǎn)間的社區(qū)連接強(qiáng)度。面對(duì)這一挑戰(zhàn),同時(shí)考慮密度與節(jié)點(diǎn)擴(kuò)張程度或許是一個(gè)新的方向。同時(shí),面對(duì)不同的任務(wù)需求,異質(zhì)網(wǎng)絡(luò)中的重疊社區(qū)發(fā)現(xiàn)也變得極為重要,因此如何評(píng)價(jià)異質(zhì)網(wǎng)絡(luò)中的重疊社區(qū)劃分也是一項(xiàng)新挑戰(zhàn)。
2)未知的社區(qū)數(shù)量
由于從現(xiàn)實(shí)世界網(wǎng)絡(luò)中提取的大多數(shù)數(shù)據(jù)都沒(méi)有標(biāo)簽,因此無(wú)法提前預(yù)知社區(qū)數(shù)量,這會(huì)影響到許多需要預(yù)先設(shè)定社區(qū)數(shù)量的算法效果。通常,社區(qū)數(shù)量的設(shè)定是由先驗(yàn)知識(shí)決定的,因此社區(qū)發(fā)現(xiàn)算法可以通過(guò)減少對(duì)先驗(yàn)知識(shí)的依賴解決這一難題,可以從節(jié)點(diǎn)屬性中學(xué)習(xí)得到與先驗(yàn)知識(shí)相關(guān)的特征。盡管已經(jīng)有部分研究者提出了解決方案,但是這個(gè)問(wèn)題仍然沒(méi)有得到充分解決,有待進(jìn)一步研究。
3)動(dòng)態(tài)網(wǎng)絡(luò)
動(dòng)態(tài)變化會(huì)影響網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)以及節(jié)點(diǎn)特征,使得每個(gè)特征都必須以不同的方式進(jìn)行處理。拓?fù)渥兓?,如添加或刪除邊,會(huì)引起社區(qū)變化以及整個(gè)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)的變化。使用動(dòng)態(tài)網(wǎng)絡(luò)模型通常要用一系列快照進(jìn)行重新訓(xùn)練,因此未來(lái)動(dòng)態(tài)網(wǎng)絡(luò)時(shí)間屬性所面臨的技術(shù)挑戰(zhàn)在于對(duì)動(dòng)態(tài)特征的提取。
4)節(jié)點(diǎn)的表示學(xué)習(xí)
隨著深度學(xué)習(xí)的發(fā)展,基于神經(jīng)網(wǎng)絡(luò)的表示學(xué)習(xí)方法引起了復(fù)雜網(wǎng)絡(luò)研究者的關(guān)注,該方法可以將信息網(wǎng)絡(luò)表示為低維稠密的攜帶網(wǎng)絡(luò)節(jié)點(diǎn)特征信息的實(shí)數(shù)向量,并應(yīng)用于下游任務(wù)的輸入。由于網(wǎng)絡(luò)表示學(xué)習(xí)擁有強(qiáng)大的建模能力,因此將其與社區(qū)發(fā)現(xiàn)任務(wù)相結(jié)合將是未來(lái)研究的一個(gè)新方向。
參考文獻(xiàn)/References:
[1] WATTS D J,STROGATZ S H.Collectivedynamics of 'small-world'networks[J].Nature,1998,393(6684):440-442.
[2] BARABSI A L,ALBERT R.Emergence of scaling in random networks[J].Science,1999,286(5439):509-512.
[3] GIRVAN M,NEWMAN M E J.Community structure in social and biological networks[J].Proceedings of the National Academy of Sciences.2002,99(12):7821-7826.
[4] CHEN J C,YUAN B.Detecting functional modules in the yeast protein-protein interaction network[J].Bioinformatics,2006,22(18):2283-2290.
[5] YANG J,MCAULEY J J,LESKOVEC J.Community detection in networks with node attributes[C]//13th International Conference on Data Mining.[S.l.]:[s.n.],2013:1151-1156.
[6] CHEN P,REDNER S.Community structure of the physical review citation network[J].Journal of Informetrics,2010,4(3):278-290.
[7] NEWMAN M E J,GIRVAN M.Finding and evaluating community structure in networks[J].Physical Review E,2004,69(2):1-16.
[8] CLAUSET A,NEWMAN M E J,MOORE C.Finding community structure in very largenetworks[J].Physical Review E,2004,70(6):026132.
[9] RAGHAVAN U N,ALBERT R,KUMARA S.Near linear time algorithm to detect community structures in large-scale networks[J].Physical Review E,2007,76(3):036106.
[10]ROSVALL M,BERGSTROM C T.Maps of random walks on complex networks reveal community structure[J].Proceedings of the National Academy of Sciences of the United States of America,2008,105(4):1118-1123.
[11]BLONDEL V D,GUILLAUME J L,LAMBIOTTE R,et al.Fast unfolding of communities in largenetworks[J].Journal of Statistical Mechanics:Theory and Experiment,2008,2008(10):10008.
[12]XU Y F,XU H,ZHANG D W.A novel disjoint community detection algorithm for social networks based on backbone degree and expansion[J].Expert Systems with Applications,2015,42(21):8349-8360.
[13]FORTUNATO S.Community detection in graphs[J].Physics Reports,2010,486:75-104.
[14]FORTUNATO S,HRIC D.Community detection in networks:A user guide[J].Physics Reports,2016,659:1-44.
[15]SUN Y Z,HAN J W.Meta-path-based search and mining in heterogeneous information networks[J].Tsinghua Science and Technology,2013(4):329-338.
[16]SUN Y Z,HAN J W.Mining heterogeneous information networks:A structural analysis approach[J].Acm Sigkdd Explorations Newsletter,2013,14(2):20-28.
[17]LU M L,QU Z H,WANG Z H,et al.Hete_MESE:Multi-dimensional community detection algorithm based on multiplex network extraction and seed expansion for heterogeneous information networks[J].IEEE Access,2018,6:73965-73983.
[18]SHI C,YU P S.Heterogeneous Information Network Analysis and Applications[M].[S.l.]:Springer,2017.
[19]LIU F Z,XUE S,WU J,et al.Deep learning for community detection:progress,challenges and opportunities[C]// International Joint Conference onArtificial Intelligence.[S.l.]:[s.n.],2020:4981-4987.
[20]MALLIAROS F D,VAZIRGIANNIS M.Clustering and community detection in directed networks:A survey[J].Physics Reports,2013,533:95-142.
[21]NEWMAN M E J.Fast algorithm for detecting community structure in networks[J].Physical Review E,2004,69:066133.
[22]趙衛(wèi)績(jī),張鳳斌,劉井蓮.復(fù)雜網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)研究進(jìn)展[J].計(jì)算機(jī)科學(xué),2020(2):10-20.
ZHAO Weiji,ZHANG Fengbin,LIU Jinglian.Review on community detection in complex networks[J].Computer Science,2020(2):10-20.
[23]GUIMERA R,SALES-PARDO M.Missing and spurious interactions and the reconstruction of complex networks[J].Proceedings of the National Academy of Sciences of the United States of America,2009,106(52):22073-22078.
[24]CHENG J J,LI L J,LENG M W,et al.A divisive spectral method for network community detection[J].Journal of Statistical Mechanics Theory & Experiment,2016,2016(3):033403.
[25]SUN H L,HUANG J B,TIAN Y Q,et al.Detecting overlapping communities in networks via dominant label propagation[J].Chinese Physics B,2015,24(1):018703.
[26]BARBER M J.Modularity and community detection in bipartite networks[J].Physical Review E,2007,76(6):066102.
[27]XU Y C,CHEN L,LI B,et al.Density-based modularity for evaluating community structure in bipartite networks[J].Information Sciences,2015,317:278-294.
[28]SUN Y Z,HAN J W,ZHAO P,et al.Rankclus:Integrating clustering with ranking for heterogeneous information network analysis[C]//International Conference on Extending Database Technology.[S.l.]:[s.n.],2009:565-576.
[29]SUN Y Z,YU Y,HAN J W.Ranking-based clustering of heterogeneous information networks with star network schema[C]//Acm Sigkdd International Conference on Knowledge Discovery & Data Mining.[S.l.]:[s.n.],2009:797-806.
[30]MING J,HAN J W,DANILEVSKY M.Ranking-based classification of heterogeneous information networks[C]//Acm Sigkdd International Conference on Knowledge Discovery & Data Mining.[S.l.]:[s.n.],2011:1298-1306.
[31]QIU C H,WEI C,WANG T J,et al.Overlapping Community Detection in Directed Heterogeneous Social Network[M].[S.l.]:Springer International Publishing,2015:490-493.
[32]COMAR P,TAN PN,JAIN A K.A framework for joint community detection across multiple related networks[J].Neurocomputing,2012,76(1):93-104.
[33]LI Z,PAN Z S,ZHANG Y Y,et al.Efficient community detection in heterogeneous social networks [J].Mathematical Problems in Engineering,2016(12):1-15.
[34]CHEN Y G,SENGUPTA S.Spectral clustering in heterogeneous networks[J].Statistica Sinica,2015,25:1081-1106.
[35]LIU W,CHEN M,LIU K,et al.A Density-based seed-centric community detection algorithm[C]//IEEE Web Information Systems and Applications Conference.[S.l.]:[s.n.],2017:149-154.
[36]魯軍豪,許云峰.信息網(wǎng)絡(luò)表示學(xué)習(xí)方法綜述[J].河北科技大學(xué)學(xué)報(bào),2020,41(2):133-147.
LU Junhao,XU Yunfeng.A survey of information network representation learning[J].Journal of Hebei University of Science and Technology,2020,41(2):133-147.
[37]TOMMASEL A,GODOY D.Multi-view community detection with heterogeneous information from social media data[J].Neurocomputing,2018,289:195-219.
[38]CAI B,WANG Y,ZENG L,et al.Edge classification based on convolutional neural networks for community detection in complex network[J].Physica A:Statistical Mechanics and Its Applications,2020,556:124826.
[39]CHEN Z D,LI X,BRUNA J.Supervised community detection with line graph neural networks[C]//International Conference on Learning Representations.[S.l.]:[s.n.],2019:1-15.
[40]WANG X,JI H Y,SHI C,et al.Heterogeneous graph attention network[C]//The World Wide Web Conference.[S.l.]:[s.n.],2019:2022-2032.
[41]ZHANG C X,SONG D J,HUANG C,et al.Heterogeneous graph neural network[C]//Acm Sigkdd International Conference on Know-ledge Discovery & Data Mining.[S.l.]:[s.n.],2019:793-803.
[42]YUN S,JEONG M,KIM R,et al.Graph transformernetworks[C]//Neural Information Processing Systems.[S.l.]:[s.n.],2019:11960-11970.
[43]FU X Y,ZHANG J N,MENG Z Q,et al.MAGNN:Metapath aggregated graph neural network for heterogeneous graph embedding[C]// WWW20:The Web Conference 2020 Taipei Taiwan.[S.l.]:[s.n.],2020:2331-2341.
[44]LIU X,MURATA T.Evaluating community structure in bipartite networks[C]//IEEE Second International Conference on Social Computing.[S.l.]:[s.n.],2010:576-581.
[45]劉井蓮,王大玲,趙衛(wèi)績(jī),等.一種基于核心節(jié)點(diǎn)擴(kuò)展的社區(qū)挖掘算法[J].山東大學(xué)學(xué)報(bào)(理學(xué)版),2016,51(1):106-114.
LIU Jinglian,WANG Daling,ZHAO Weiji,et al.A community mining algorithm based on core nodes expansion[J].Journal of Shandong University(Natural Science),2016,51(1):106-114.