劉星宏,王英,王鑫,蘭書梅
1.吉林大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院,吉林長春130012
2.吉林大學(xué)軟件學(xué)院,吉林長春130012
3.吉林大學(xué)符號計(jì)算與知識工程教育部重點(diǎn)實(shí)驗(yàn)室,吉林長春130012
4.長春工程學(xué)院計(jì)算機(jī)技術(shù)與工程學(xué)院,吉林長春130012
隨著互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)的快速發(fā)展,互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)上的數(shù)據(jù)也呈現(xiàn)出爆炸性增長的態(tài)勢。這些具有多類型、多形態(tài)且普遍存在聯(lián)系等特征的數(shù)據(jù),構(gòu)成了結(jié)構(gòu)復(fù)雜、規(guī)模宏大的相互連接的信息網(wǎng)絡(luò),因此信息網(wǎng)絡(luò)的表征學(xué)習(xí)就成為信息網(wǎng)絡(luò)分析的一個(gè)重要分支。已有研究大多屬于同質(zhì)信息網(wǎng)絡(luò)的表征學(xué)習(xí),無法適用于現(xiàn)實(shí)生活中由多種類型的節(jié)點(diǎn)和不同類型的關(guān)系組成的絕大多數(shù)信息網(wǎng)絡(luò)。為此,文獻(xiàn)[1]提出異質(zhì)信息網(wǎng)絡(luò)并發(fā)布相關(guān)數(shù)據(jù)集,供研究者分析異質(zhì)信息網(wǎng)絡(luò)中多類型、多形態(tài)的節(jié)點(diǎn)及節(jié)點(diǎn)間形成的具有豐富語義信息的連接。
如今,許多信息網(wǎng)絡(luò)研究者致力于異質(zhì)信息網(wǎng)絡(luò)的分析,特別是聚類[2]、分類[3]、鏈路預(yù)測[4]等任務(wù)。異質(zhì)信息網(wǎng)絡(luò)中往往含有大量的網(wǎng)絡(luò)結(jié)構(gòu)信息和豐富的語義信息,如何利用這些大量而又復(fù)雜的信息就成為信息網(wǎng)絡(luò)研究者關(guān)注的問題。然而,異質(zhì)信息網(wǎng)絡(luò)的傳統(tǒng)表示方法存在高維稀疏性的缺點(diǎn)。為了彌補(bǔ)這一缺點(diǎn),許多網(wǎng)絡(luò)表征學(xué)習(xí)研究者致力于將異質(zhì)信息網(wǎng)絡(luò)的高維頂點(diǎn)嵌入低維空間而表示為低維稠密的向量形式,并且保留了高維空間中的網(wǎng)絡(luò)結(jié)構(gòu)信息和語義信息。低維稠密向量在異質(zhì)信息網(wǎng)絡(luò)的表征學(xué)習(xí)方面已經(jīng)展現(xiàn)出了一定的潛力。
異質(zhì)信息網(wǎng)絡(luò)的表征學(xué)習(xí)模型大致可分為兩類:
1)生成器模型
將異質(zhì)信息網(wǎng)絡(luò)中觀察到的節(jié)點(diǎn)對及節(jié)點(diǎn)間關(guān)系作為模型的輸入訓(xùn)練模型,使模型能夠?qū)W習(xí)信息網(wǎng)絡(luò)內(nèi)潛在的分布。
2)鑒別器模型
采用負(fù)采樣或隨機(jī)游走等方法獲取異質(zhì)信息網(wǎng)絡(luò)中的負(fù)樣本,選擇信息網(wǎng)絡(luò)中真實(shí)存在的節(jié)點(diǎn)對及對應(yīng)關(guān)系作為正樣本,再將負(fù)樣本和正樣本作為模型的輸入訓(xùn)練模型。
生成對抗網(wǎng)絡(luò)[5]則將生成器模型和鑒別器模型有效地結(jié)合起來,被譽(yù)為機(jī)器學(xué)習(xí)有史以來最好的無監(jiān)督學(xué)習(xí)技術(shù)。生成對抗網(wǎng)絡(luò)實(shí)際上就是一個(gè)最大最小值博弈問題,博弈優(yōu)化終止于一個(gè)最低點(diǎn)。這個(gè)最低點(diǎn)視實(shí)際情況的不同有可能為全局最小值點(diǎn)、局部最小值點(diǎn)或是鞍點(diǎn)。該最低點(diǎn)的散度對于生成器G來說是最小的,對于鑒別器D來說是最大的,此時(shí)模型處于納什均衡狀態(tài)。文獻(xiàn)[6]提出了基于生成對抗網(wǎng)絡(luò)的圖表征學(xué)習(xí)(graph representation learning with generative adversarial nets,GraphGAN)模型。
受到生成對抗網(wǎng)絡(luò)的啟發(fā),本文提出了基于生成對抗網(wǎng)絡(luò)的異質(zhì)網(wǎng)絡(luò)表征學(xué)習(xí)(heterogeneous network representation learning based on generative adversarial network,HNRL-GAN)模型和改進(jìn)后的基于生成對抗網(wǎng)絡(luò)的增強(qiáng)版異質(zhì)網(wǎng)絡(luò)表征學(xué)習(xí)(heterogeneous network representation learning based on generative adversarial network plus plus,HNRLGAN++)模型,主要包括以下三方面的工作:
1)首先提出HNRL-GAN模型,將負(fù)采樣技術(shù)和生成對抗網(wǎng)絡(luò)中的生成器模型結(jié)合后產(chǎn)生的負(fù)樣本作為生成器模型的輸入;然后針對不同的情形使用不同的策略梯度訓(xùn)練生成器以實(shí)現(xiàn)生成器的迭代,并將生成器模型的輸出作為負(fù)樣本;接著從真實(shí)網(wǎng)絡(luò)中提取正樣本,即從給定的異質(zhì)信息網(wǎng)絡(luò)中提取真實(shí)存在的兩個(gè)節(jié)點(diǎn)及節(jié)點(diǎn)間的關(guān)系作為正樣本;最后將負(fù)樣本和正樣本作為鑒別器的輸入訓(xùn)練鑒別器,實(shí)現(xiàn)了鑒別器的迭代。
2)針對HNRL-GAN模型存在的缺點(diǎn),即每次更新均涉及網(wǎng)絡(luò)中所有存在的節(jié)點(diǎn)以及生成器G所生成的樣本受限于異質(zhì)信息網(wǎng)絡(luò)中現(xiàn)有節(jié)點(diǎn)和未引入節(jié)點(diǎn)間的關(guān)聯(lián)度,提出了改進(jìn)后的HNRL-GAN++模型。HNRL-GAN++模型能學(xué)習(xí)異質(zhì)信息網(wǎng)絡(luò)中潛在的真實(shí)分布,而不再受原有網(wǎng)絡(luò)中所存在的節(jié)點(diǎn)束縛,產(chǎn)生出異質(zhì)信息網(wǎng)絡(luò)中原本不存在的節(jié)點(diǎn),從而為鑒別器提供更好的負(fù)樣本進(jìn)行訓(xùn)練;同時(shí)為節(jié)點(diǎn)間的邊引入了權(quán)重,使得邊的權(quán)重對模型的訓(xùn)練也能產(chǎn)生影響。
3)在DBLP、Yelp和AMiner的真實(shí)數(shù)據(jù)集上應(yīng)用HNRL-GAN模型和HNRL-GAN++模型,并與其他模型進(jìn)行比較以展現(xiàn)HNRL-GAN++模型的優(yōu)良性能。
自異質(zhì)信息網(wǎng)絡(luò)被提出以來,異質(zhì)信息網(wǎng)絡(luò)的表征學(xué)習(xí)開始迅速發(fā)展。關(guān)于異質(zhì)信息網(wǎng)絡(luò)的表征學(xué)習(xí)模型可分為3類:基于隨機(jī)游走的模型、基于網(wǎng)絡(luò)嵌入的模型和基于機(jī)器學(xué)習(xí)的模型。
文獻(xiàn)[7]基于隨機(jī)游走方法提出了在異質(zhì)信息網(wǎng)絡(luò)中針對給定元路徑的表征學(xué)習(xí)模型--向量元路徑(metapath to vector,Metapath2vec)模型。在此基礎(chǔ)上,作者將不同類型的節(jié)點(diǎn)嵌入不同空間以深化不同類型的節(jié)點(diǎn)間差異,進(jìn)一步提出了改進(jìn)后的Metapath2vec++模型。
文獻(xiàn)[8]基于網(wǎng)絡(luò)嵌入方法提出相似性搜索模型,將信息網(wǎng)絡(luò)中稀疏的高維節(jié)點(diǎn)嵌入稠密的低維空間進(jìn)行相似度搜索。將一組給定的元路徑集合作為輸入使元路徑實(shí)例的概率最大化,實(shí)現(xiàn)異質(zhì)信息網(wǎng)絡(luò)的表征學(xué)習(xí)。
耦合異質(zhì)網(wǎng)絡(luò)的聯(lián)合嵌入(embedding of embedding,EOE)模型[9]則將異質(zhì)信息網(wǎng)絡(luò)拆分成兩個(gè)同質(zhì)信息網(wǎng)絡(luò),在兩個(gè)同質(zhì)信息網(wǎng)絡(luò)內(nèi)分別優(yōu)化節(jié)點(diǎn)的低維嵌入,使得同一網(wǎng)絡(luò)內(nèi)相互連接的節(jié)點(diǎn)有相近的embedding。給跨網(wǎng)絡(luò)的、有邊連接的節(jié)點(diǎn)對引入一個(gè)矩陣,使得該節(jié)點(diǎn)對也有相近的embedding。反之,若節(jié)點(diǎn)對不存在邊,則有較遠(yuǎn)的embedding。借鑒上述思路,EOE模型實(shí)現(xiàn)了異質(zhì)信息網(wǎng)絡(luò)的表征學(xué)習(xí)。
在機(jī)器學(xué)習(xí)方面,文獻(xiàn)[10]在異質(zhì)信息網(wǎng)絡(luò)表征學(xué)習(xí)中引入了隱含層,提出了異質(zhì)信息網(wǎng)絡(luò)向量映射(heterogeneous information network to vector,HIN2Vec)模型。將輸入層節(jié)點(diǎn)對的one-hot向量X,Y及任意關(guān)系的one-hot向量R轉(zhuǎn)變?yōu)殡[含層向量W′X x、W′Y y、W′Rr、其中WX、WY、WR為|V|×d的矩陣;再以隱含層向量的元素乘積之和作為sigmoid函數(shù)的輸入,從而將節(jié)點(diǎn)間的多分類問題轉(zhuǎn)變?yōu)槎诸悊栴},大大減少了模型的計(jì)算量。
符號異質(zhì)信息網(wǎng)絡(luò)嵌入[11](signed heterogeneous information network embedding,SHINE)模型用多層自動(dòng)深度編碼機(jī)將異質(zhì)信息網(wǎng)絡(luò)中的高維稀疏節(jié)點(diǎn)映射到低維稠密的特征空間中,先獲得情感網(wǎng)絡(luò)嵌入、社會網(wǎng)絡(luò)嵌入和資料網(wǎng)絡(luò)嵌入,再將低維嵌入信息進(jìn)行融合,獲得了異質(zhì)信息網(wǎng)絡(luò)的嵌入式表示。
定義1 信息網(wǎng)絡(luò)
信息網(wǎng)絡(luò)是有向圖Ggraph={V,Eedge},其中V為節(jié)點(diǎn)集合,Eedge為邊集合。在信息網(wǎng)絡(luò)中,有節(jié)點(diǎn)類型映射函數(shù)φ:V→A和邊類型映射函數(shù)ψ:Eedge→R。若信息網(wǎng)絡(luò)中節(jié)點(diǎn)類型數(shù)目|A|=1或邊類型數(shù)目|R|=1,則該信息網(wǎng)絡(luò)可稱為同質(zhì)信息網(wǎng)絡(luò);若|A|>1或|R|>1,則該信息網(wǎng)絡(luò)可稱為異質(zhì)信息網(wǎng)絡(luò)。
定義2 網(wǎng)絡(luò)模式
網(wǎng)絡(luò)模式是由信息網(wǎng)絡(luò)的節(jié)點(diǎn)類型集合A和邊類型集合R構(gòu)成的有向圖,可表示為有向圖Tgraph={A,R},它是信息網(wǎng)絡(luò)Ggraph={V,Eedge}的一個(gè)元模板。每個(gè)節(jié)點(diǎn)v∈V屬于一個(gè)特定節(jié)點(diǎn)類型Ai,即φ(v)∈Ai;每條邊e∈Eedge屬于一個(gè)特定邊類型Rj,即ψ(e)∈Rj。
定義3 信息網(wǎng)絡(luò)表征學(xué)習(xí)
給定信息網(wǎng)絡(luò)G={V,Eedge},對網(wǎng)絡(luò)中節(jié)點(diǎn)進(jìn)行表征學(xué)習(xí)可以將網(wǎng)絡(luò)中高維節(jié)點(diǎn)v∈V映射到低維空間Rd中,即有映射函數(shù)V→Rd和vc→ec,其中d代表R的維度且滿足d?|V|。
定義4 節(jié)點(diǎn)對權(quán)值矩陣
給定異質(zhì)信息網(wǎng)絡(luò),對其網(wǎng)絡(luò)模式的關(guān)系進(jìn)行加權(quán)而形成節(jié)點(diǎn)對權(quán)值矩陣。例如在圖1的網(wǎng)絡(luò)模式中,將(organizer,conference)的關(guān)系權(quán)值設(shè)為2,將(reporter,conference)關(guān)系權(quán)值設(shè)為1,則可以獲得節(jié)點(diǎn)對權(quán)值矩陣。
圖1 具有多關(guān)系的異質(zhì)信息網(wǎng)絡(luò)Figure 1 Heterogeneous information network with multiple relationships
定義5 關(guān)聯(lián)度
對于給定的節(jié)點(diǎn)對權(quán)值矩陣來說,節(jié)點(diǎn)對(vil,vjk)之間的關(guān)聯(lián)度可定義為
式中:節(jié)點(diǎn)v屬于其對應(yīng)的節(jié)點(diǎn)類型,即φ(vil)∈Ai,φ(vjk)∈Aj。w(vil,vjk)表示節(jié)點(diǎn)對(vil,vjk)在節(jié)點(diǎn)對權(quán)值矩陣中對應(yīng)的權(quán)值,∑表示節(jié)點(diǎn)vil的所有相鄰節(jié)點(diǎn)的權(quán)值之和。
定義6 生成器
生成器G(·|vc,·,θG)根據(jù)信息網(wǎng)絡(luò)中的節(jié)點(diǎn)和邊來擬合信息網(wǎng)絡(luò)中潛在的真實(shí)分布Ptrue,其中θG為鑒別器的參數(shù)。
定義7 鑒別器
鑒別器D(·|vc,·,θD)判斷給定的樣本是否為正樣本,其輸出為一個(gè)標(biāo)量。若鑒別器認(rèn)為此樣本為正樣本,則輸出的標(biāo)量應(yīng)當(dāng)接近1;反之則應(yīng)當(dāng)接近0。
本文借鑒生成對抗信息網(wǎng)絡(luò)的思路,提出了針對異質(zhì)信息網(wǎng)絡(luò)表征學(xué)習(xí)的最大最小博弈函數(shù)
式中:E1=Evt~Ptrue(vc,rt)logD(vt|vc,rt,θD),E2=Ern~Ptrue(vc,vt)log(1?D(rn|vc,vt,θD)),E3=Erg~PG(vc,vt,θG)log(1?DθD(rg|vc,vt,θD))。
在式(2)的基礎(chǔ)上,對函數(shù)V(G,D)交替使用最大最小值博弈理論,可以得到生成器G和鑒別器D的最佳參數(shù)。在每次迭代中,首先從真實(shí)網(wǎng)絡(luò)提取真實(shí)存在指定關(guān)系rt的節(jié)點(diǎn)對(vt,vc)及關(guān)系rt作為正樣本;若節(jié)點(diǎn)對(vt,vc)不存在另一指定關(guān)系rn,則選取(vt,vc)與rn作為負(fù)樣本,將節(jié)點(diǎn)對(vt,vc)生成器G生成的關(guān)系rg也作為負(fù)樣本。然后用策略梯度更新鑒別器D的參數(shù)θD,并在鑒別器D的指導(dǎo)下以策略梯度更新生成器G的參數(shù)θG。重復(fù)上述步驟,通過生成器G和鑒別器D之間的競爭促進(jìn)兩者的優(yōu)化,直至鑒別器D無法區(qū)分生成器G生成的負(fù)樣本與真實(shí)網(wǎng)絡(luò)中存在的正樣本。例如在圖2中,鑒別器D將真實(shí)網(wǎng)絡(luò)中存在的(a2,p2)及作者關(guān)系作為正樣本,將(a2,p2)與讀者關(guān)系作為負(fù)樣本,將(a2,p2)及生成器G生成的關(guān)系rg也作為負(fù)樣本來更新自身參數(shù)θD。接著生成器G在鑒別器D的指導(dǎo)下最小化V(G,D)函數(shù),從而實(shí)現(xiàn)生成器參數(shù)θG的更新。多次重復(fù)上述步驟,使迭代后的模型能夠提取出異質(zhì)信息網(wǎng)絡(luò)的表征。本文將此模型命名為HNRL-GAN。
圖2 由文獻(xiàn)數(shù)據(jù)構(gòu)建的異質(zhì)信息網(wǎng)絡(luò)Figure 2 Heterogeneous information network constructed from literature data
針對HNRL-GAN模型的深入研究,本文進(jìn)一步提出了以下3個(gè)問題:
1)對于生成器G來說,HNRL-GAN每次更新都需要涉及網(wǎng)絡(luò)中所有存在的節(jié)點(diǎn)。在小型異質(zhì)信息網(wǎng)絡(luò)中,更新生成器G的參數(shù)θG所需計(jì)算時(shí)間不多;但在大型異質(zhì)信息網(wǎng)絡(luò)中,生成器每更新一次θG所需的計(jì)算代價(jià)過于高昂,計(jì)算效率過低。
2)HNRL-GAN的生成器G受限于異質(zhì)信息網(wǎng)絡(luò)中被觀測到的節(jié)點(diǎn),無法真正地?cái)M合信息網(wǎng)絡(luò)中潛在的真實(shí)分布以生成更好的負(fù)樣本。例如在圖2中,若真實(shí)網(wǎng)絡(luò)中有潛在的的、與p3相似、與a4具有邊類型為作者的節(jié)點(diǎn)p4,那么生成器G通過學(xué)習(xí)生成p4這一更為真實(shí)的負(fù)樣本即可增強(qiáng)生成器G和鑒別器D的性能[12-16]。
3)HNRL-GAN未引入節(jié)點(diǎn)間的關(guān)聯(lián)度。節(jié)點(diǎn)間的關(guān)聯(lián)度可以增強(qiáng)模型在聚類和分類方面的性能,因此下文探討了如何利用異質(zhì)信息網(wǎng)絡(luò)中的樞紐節(jié)點(diǎn)以增強(qiáng)表征學(xué)習(xí)模型在聚類和分類方面的性能。
實(shí)驗(yàn)數(shù)據(jù)集如表1所示。
表1 實(shí)驗(yàn)數(shù)據(jù)集Table 1 Experimental dataset
本文的HNRL-GAN++模型將Embedding的維度設(shè)置為64,采用均勻分布U(?1,1)初始化節(jié)點(diǎn)和關(guān)系的Embedding矩陣。生成器G的線性變換次數(shù)設(shè)置為2;模型的batch size設(shè)置為64;正則化系數(shù)設(shè)置為10?4;Adam優(yōu)化器的學(xué)習(xí)率在生成器G上設(shè)置為0.00015,在鑒別器D上設(shè)置為0.00010;epoch設(shè)置為30;每次迭代中生成器G和鑒別器D的訓(xùn)練次數(shù)nG和nD設(shè)置為15和5。
為了驗(yàn)證HNRL-GAN++模型的有效性,主要考慮與以下6種經(jīng)典模型進(jìn)行對比。
1)Deepwalk
在信息網(wǎng)絡(luò)中進(jìn)行截?cái)嗟碾S機(jī)游走以生成一個(gè)網(wǎng)絡(luò)的社會表示。
2)LINE
利用信息網(wǎng)絡(luò)中的一階鄰近性和二階鄰近性。
3)GraphGAN
將GAN模型中的最大最小博弈應(yīng)用于信息網(wǎng)絡(luò)。
4)HIN2Vec
利用神經(jīng)網(wǎng)絡(luò)模型學(xué)習(xí)節(jié)點(diǎn)及元路徑的潛在表征,獲得異質(zhì)信息網(wǎng)絡(luò)的語義信息。
5)Metapath2vec
基于元路徑進(jìn)行隨機(jī)游走,以便在低維空間中保存異質(zhì)信息網(wǎng)絡(luò)的語義信息。
6)HeGAN
利用生成對抗學(xué)習(xí)網(wǎng)絡(luò)保存高維空間中的異質(zhì)信息網(wǎng)絡(luò)語義信息模型。
根據(jù)K-Means算法進(jìn)行節(jié)點(diǎn)聚類,并使用歸一化互信息(normalized mutual information,NMI)評估節(jié)點(diǎn)聚類的結(jié)果。
使用邏輯回歸分類器進(jìn)行節(jié)點(diǎn)分類,將80%的節(jié)點(diǎn)作為訓(xùn)練集,其余20%的節(jié)點(diǎn)作為測試集。對于多分類任務(wù),以Macro-F1和Micro-F1作為評比指標(biāo)。
在基于Yelp公共數(shù)據(jù)庫的實(shí)驗(yàn)中,HNRL-GAN和HNRL-GAN++模型生成器與鑒別器的損失值曲線如圖3所示。
圖3 HNRL-GAN和HNRL-GAN++模型生成器與鑒別器的損失值曲線Figure 3 Loss curve of generators and discriminators in HNRL-GAN and HNRL-GAN++models
由圖3可以得到以下結(jié)論:
HNRL-GAN++模型生成器G的損失值能保持一個(gè)較低的水平,說明該模型的魯棒性良好。鑒別器D的損失值也呈現(xiàn)一個(gè)下降的趨勢。HNRL-GAN++模型未出現(xiàn)模式崩塌的問題,因此該模型較為穩(wěn)定。
基于NMI,得到信息網(wǎng)絡(luò)表征學(xué)習(xí)各模型的節(jié)點(diǎn)聚類結(jié)果如表2所示。
由表2可以得出以下結(jié)論:
表2 信息網(wǎng)絡(luò)表征學(xué)習(xí)各模型的節(jié)點(diǎn)聚類Table 2 Node clustering of information network representation learning models
1)HNRL-GAN++模型在基于DBLP、Yelp和Aminer公共數(shù)據(jù)庫的節(jié)點(diǎn)聚類實(shí)驗(yàn)中,表現(xiàn)出了比其他信息網(wǎng)絡(luò)表征學(xué)習(xí)模型更好的性能,這說明了HNRL-GAN++模型在異質(zhì)信息網(wǎng)絡(luò)表征學(xué)習(xí)中的有效性。
2)Metapath2vec在節(jié)點(diǎn)聚類的實(shí)驗(yàn)中相較于其他模型表現(xiàn)出了不俗的性能,說明了信息網(wǎng)絡(luò)節(jié)點(diǎn)嵌入在異質(zhì)信息網(wǎng)絡(luò)表征學(xué)習(xí)和語義信息保留方面的潛力。
3)相較于HNRL-GAN模型,改善后的HNRL-GAN++模型具有更好的性能,可以使模型擬合真實(shí)分布,利用真實(shí)網(wǎng)絡(luò)中潛在的、未被觀測到的節(jié)點(diǎn)生成更好的負(fù)樣本以增強(qiáng)在異質(zhì)信息網(wǎng)絡(luò)表征學(xué)習(xí)方面的性能。
在基于Yelp公共數(shù)據(jù)庫的實(shí)驗(yàn)中,HNRL-GAN與HNRL-GAN++模型的NMI曲線如圖4所示。
圖4 HNRL-GAN與HNRL-GAN++模型生成器與鑒別器的NMI曲線Figure 4 NMI curves of generators and discriminators in HNRL-GAN and HNRL-GAN++models
由圖4可以看出,HNRL-GAN模型存在模式崩潰問題。即對于任意輸入,生成器G都傾向于輸出有限的特定負(fù)樣本給鑒別器D有限的特定負(fù)樣本,以致無法增強(qiáng)模型的性能。因此,HNRL-GAN模型的性能隨著迭代次數(shù)的增加反而下降了,而HNRL-GAN++模型在對抗模式崩潰方面的表現(xiàn)更為優(yōu)秀。
在節(jié)點(diǎn)分類任務(wù)中,得到的Micro-F1、Macro-F1測試結(jié)果如表3所示。
表3 信息網(wǎng)絡(luò)表征學(xué)習(xí)各模型的節(jié)點(diǎn)分類Table 3 Node classif ication of each model of information network representation learning
從表3中可以看出,HNRL-GAN++模型在DBLP、Yelp和Amnier數(shù)據(jù)集中的總體表現(xiàn)最優(yōu)。
在基于Yelp公共數(shù)據(jù)庫的實(shí)驗(yàn)中,HNRL-GAN與HNRL-GAN++模型的Micro-F1曲線如圖5所示。
圖5 HNRL-GAN與HNRL-GAN++模型生成器與鑒別器的Micro-F1曲線Figure 5 Micro-F1 curves of generators and discriminators in HNRL-GAN and HNRLGAN++models
本文首先提出了基于生成對抗網(wǎng)絡(luò)的異質(zhì)信息網(wǎng)絡(luò)表征學(xué)習(xí)模型,即HNRL-GAN和HNRL-GAN++模型,然后通過實(shí)驗(yàn)證明了HNRL-GAN和HNRL-GAN++模型的有效性。總的來說,本文提出的模型使用了網(wǎng)絡(luò)嵌入,實(shí)現(xiàn)了異質(zhì)信息網(wǎng)絡(luò)的語義信息保留和結(jié)構(gòu)信息保留,并根據(jù)生成對抗網(wǎng)絡(luò)的最大最小博弈理論對其進(jìn)行增強(qiáng)。