歐陽純萍 陳湘龍,2 劉永彬
1.南華大學(xué)計(jì)算機(jī)學(xué)院 衡陽 421001;2. 湖南科技職業(yè)學(xué)院軟件學(xué)院 長沙 410004
網(wǎng)絡(luò)新聞已經(jīng)成為目前人們生活中獲取信息的重要途徑,當(dāng)公共突發(fā)事件發(fā)生時(shí),第一時(shí)間就會(huì)在網(wǎng)絡(luò)上成為熱點(diǎn)新聞事件,并引發(fā)大量的輿論關(guān)注。在公共熱點(diǎn)事件傳播時(shí),不法分子總會(huì)借助網(wǎng)絡(luò)新聞平臺(tái)發(fā)布負(fù)面消息,讓民眾感到恐慌,影響社會(huì)穩(wěn)定。為了能夠更好的控制輿情,凈化網(wǎng)絡(luò)生態(tài)環(huán)境,我們需要找出新聞平臺(tái)具有較高影響力的用戶,并通過他們的及時(shí)發(fā)聲、澄清事實(shí)真相,來引導(dǎo)輿論的走向[1]。目前,基于微博的意見領(lǐng)袖發(fā)現(xiàn)以及基于社交網(wǎng)絡(luò)的用戶影響力分析是學(xué)者們的研究熱點(diǎn),他們從用戶特征,社交網(wǎng)絡(luò)結(jié)構(gòu)特征,文本特征,情感特征等多個(gè)角度對(duì)[2-4]微博等社交平臺(tái)上的用戶影響力進(jìn)行建模和分析,以期更好的發(fā)現(xiàn)能影響輿論走勢(shì)的關(guān)鍵用戶。但是這些研究著重于衡量用戶歷史上某個(gè)時(shí)刻的影響力大小,并沒有提出如何估計(jì)當(dāng)前和未來時(shí)期用戶的社會(huì)影響力。尤其是在針對(duì)新聞平臺(tái)的輿情控制中,更需要的是基于已有的新聞評(píng)論預(yù)測(cè)出網(wǎng)絡(luò)用戶的影響力趨勢(shì),可以提前將一些影響力較大的負(fù)面評(píng)論遏制在萌芽階段,做到防患于未然,對(duì)于輿情的精準(zhǔn)監(jiān)控也有著重大意義。
針對(duì)這一問題,本文通過分析新聞網(wǎng)站上的評(píng)論用戶之間的信息交流特性,構(gòu)建了一個(gè)包含新聞評(píng)論信息、用戶關(guān)注信息和用戶-評(píng)論交互信息的異構(gòu)信息網(wǎng)絡(luò),并提出了基于異構(gòu)網(wǎng)絡(luò)表示學(xué)習(xí)的用戶影響力預(yù)測(cè)模型。該方法在充分利用了新聞評(píng)論信息網(wǎng)絡(luò)的全局結(jié)構(gòu)特征基礎(chǔ)上,融合了網(wǎng)絡(luò)節(jié)點(diǎn)本身所包含的屬性和文本信息等局部特征,利用異構(gòu)網(wǎng)絡(luò)表示學(xué)習(xí)的方法計(jì)算節(jié)點(diǎn)間的相似度,從而構(gòu)建節(jié)點(diǎn)影響力的概率轉(zhuǎn)移矩陣來預(yù)測(cè)新聞評(píng)論預(yù)測(cè)用戶的未來影響力。本文余下的內(nèi)容分為四個(gè)小節(jié),其中第一小節(jié)介紹了目前影響力預(yù)測(cè)和異構(gòu)網(wǎng)絡(luò)表示學(xué)習(xí)的一些代表工作,第二小節(jié)重點(diǎn)介紹了異構(gòu)信息網(wǎng)絡(luò)的構(gòu)建和用戶影響力預(yù)測(cè)模型,第三小節(jié)介紹實(shí)驗(yàn)數(shù)據(jù)及評(píng)價(jià)標(biāo)準(zhǔn),與其它模型進(jìn)行對(duì)比后對(duì)實(shí)驗(yàn)結(jié)果進(jìn)行了分析,第四小節(jié)進(jìn)行了總結(jié)與展望。
隨著統(tǒng)計(jì)學(xué)與計(jì)算機(jī)科學(xué)的深度融合發(fā)展,用戶影響力預(yù)測(cè)涌現(xiàn)出很多有效方法,主要可將其歸納為:統(tǒng)計(jì)回歸分析法和網(wǎng)絡(luò)圖模型計(jì)算法[5]。
統(tǒng)計(jì)回歸法分析法是指利用統(tǒng)計(jì)原理,通過對(duì)大量數(shù)據(jù)進(jìn)行數(shù)學(xué)分析,確定因變量與某些自變量的相關(guān)關(guān)系,從而預(yù)測(cè)因變量的變化趨勢(shì)。如Liu等[6]考慮到隨時(shí)間的變化,用戶的屬性以及行為等特征會(huì)有所改變的特征,提出了一個(gè)User-tweet模型來描述用戶與微博之間的聯(lián)系,使用時(shí)效性衰減系數(shù)來計(jì)算微博用戶未來的影響力。時(shí)聰?shù)萚7]通過將多種特征相結(jié)合,然后采用回歸分析的方式預(yù)測(cè)微博用戶影響力,其中特征主要包括用戶微博發(fā)布的時(shí)間和內(nèi)容、用戶的基本屬性信息以及用戶之間的交互行為特征等。李娜[8]則針對(duì)用戶影響力趨勢(shì)預(yù)測(cè)問題提出了兩種方法。一種是基于時(shí)間跨度的方法,該方法通過對(duì)過往時(shí)間段中用戶的已知特征,如用戶點(diǎn)贊數(shù)、評(píng)論數(shù)等進(jìn)行分析,預(yù)測(cè)未來時(shí)間段的用戶影響力排序;另一種是基于話題領(lǐng)域,根據(jù)幾個(gè)已知特定話題領(lǐng)域的用戶特征,對(duì)其他未知話題領(lǐng)域內(nèi)的用戶影響力進(jìn)行預(yù)測(cè)排序。上述方法均是從分析用戶特征的角度出發(fā),通過回歸分析對(duì)用戶未來的影響力進(jìn)行預(yù)測(cè)。這類方法的性能通常依賴于用戶特征的質(zhì)量,而特征的選取則要大量依賴于人工的選擇,具有較強(qiáng)的主觀性。
隨著不依賴人工特征選擇的神經(jīng)網(wǎng)絡(luò)模型的廣泛應(yīng)用,基于網(wǎng)絡(luò)圖模型的用戶影響力預(yù)測(cè)方法也成為了研究熱點(diǎn)。網(wǎng)絡(luò)圖模型方法是基于節(jié)點(diǎn)的相似性和最大似然估計(jì)的方法預(yù)測(cè)用戶之間的信息傳播行為,進(jìn)而對(duì)用戶未來影響力進(jìn)行排序預(yù)測(cè)。PageRank[9]算法是最早被用于預(yù)測(cè)論文影響力的網(wǎng)絡(luò)圖模型方法,其本質(zhì)上是一種基于單變量馬爾可夫鏈的隨機(jī)游走算法。在PageRank算法的基礎(chǔ)上,學(xué)者們又衍生出了更多有效的影響力預(yù)測(cè)方法。如張絲曼等[10]基于PageRank算法思想構(gòu)建用戶與關(guān)注者之間的交互網(wǎng)絡(luò),模擬用戶與用戶之間的交互行為,通過預(yù)測(cè)交互網(wǎng)絡(luò)中的邊來實(shí)現(xiàn)對(duì)用戶的未來影響力的預(yù)測(cè)。但是這種基于單變量的網(wǎng)絡(luò)圖模型算法只適用于同構(gòu)網(wǎng)絡(luò),也因?yàn)樾畔我欢y以獲得較好的預(yù)測(cè)效果。
因此,一些學(xué)者嘗試從異構(gòu)網(wǎng)絡(luò)的角度來研究學(xué)術(shù)影響力的預(yù)測(cè)。如Zhang等[11]提出的CocaRank方法綜合考慮Coca 指標(biāo)和基于異構(gòu)網(wǎng)絡(luò)的論文影響力、作者影響力以及期刊影響力等因素來預(yù)測(cè)學(xué)術(shù)新星,但該方法考慮的因素較多,造成了較大的計(jì)算復(fù)雜度。Liang等[12]則基于不同類型實(shí)體間的多維關(guān)系構(gòu)建了異構(gòu)學(xué)術(shù)網(wǎng)絡(luò),利用論文及作者之間的相互信息強(qiáng)化對(duì)論文進(jìn)行排序。Wang等[13]在異構(gòu)學(xué)術(shù)網(wǎng)絡(luò)中加入了時(shí)間及文本等信息,利用論文、作者、期刊和文本特征之間的互信息對(duì)影響力進(jìn)行排序。由于異構(gòu)網(wǎng)絡(luò)同時(shí)考慮了網(wǎng)絡(luò)的全局結(jié)構(gòu)信息和不同類型節(jié)點(diǎn)之間的交互信息,在學(xué)術(shù)網(wǎng)絡(luò)的影響力預(yù)測(cè)任務(wù)上取得了較好的結(jié)果。
近 年 來, 隨著 DeepWalk、LINE、Node-2vec等網(wǎng)絡(luò)表示學(xué)習(xí)技術(shù)的發(fā)展應(yīng)用[14],學(xué)者們發(fā)現(xiàn)將網(wǎng)絡(luò)中的節(jié)點(diǎn)用一個(gè)低維的向量空間表示,可以更好的保留網(wǎng)絡(luò)局部結(jié)構(gòu)信息和節(jié)點(diǎn)特征,能更好的完成節(jié)點(diǎn)影響力預(yù)測(cè)任務(wù)。張君[15]根據(jù)學(xué)者自身的特征將其劃分成不同類型,然后針對(duì)不同類型的學(xué)者,構(gòu)建其特定的時(shí)序?qū)W術(shù)網(wǎng)絡(luò),再應(yīng)用改進(jìn)的隨機(jī)游走算法預(yù)測(cè)學(xué)者的影響力。樊瑋等[16]考慮到基于圖的隨機(jī)游走算法僅利用學(xué)術(shù)網(wǎng)絡(luò)的全局結(jié)構(gòu)信息而未考慮局部結(jié)構(gòu)信息,因此提出將節(jié)點(diǎn)的向量相似度應(yīng)用于多變量隨機(jī)游走的方法,實(shí)現(xiàn)對(duì)論文影響力的準(zhǔn)確預(yù)測(cè)。韓佳寧[17]利用節(jié)點(diǎn)間的向量相似度構(gòu)造出包含論文、作者、主題、詞等多類型節(jié)點(diǎn)和關(guān)系的異構(gòu)學(xué)術(shù)網(wǎng)絡(luò),然后設(shè)計(jì)了多變量隨機(jī)游走排序模型,基于論文與作者之間的互增強(qiáng)關(guān)系,實(shí)現(xiàn)了在同一個(gè)模型中對(duì)論文和作者的未來影響力進(jìn)行預(yù)測(cè)排序。綜上,利用異構(gòu)網(wǎng)絡(luò)表示學(xué)習(xí)的方法,可以很好的在學(xué)術(shù)網(wǎng)絡(luò)中評(píng)估和預(yù)測(cè)學(xué)者的學(xué)術(shù)影響力。但是上述方法暫未應(yīng)用在新聞評(píng)論網(wǎng)絡(luò)的用戶影響力預(yù)測(cè)任務(wù)中。雖然新聞評(píng)論網(wǎng)絡(luò)中的用戶特征和文本屬性與學(xué)術(shù)網(wǎng)絡(luò)存在一些差異,但是在新聞評(píng)論網(wǎng)絡(luò)中預(yù)測(cè)用戶的影響力同樣需要考慮網(wǎng)絡(luò)局部結(jié)構(gòu)特性和用戶評(píng)論本身的文本特征。因此,本文借鑒學(xué)術(shù)網(wǎng)絡(luò)中學(xué)術(shù)影響力的預(yù)測(cè)方法,提出了一種基于異構(gòu)網(wǎng)絡(luò)表示學(xué)習(xí)的新聞評(píng)論用戶影響力預(yù)測(cè)排序算法。構(gòu)建了評(píng)論信息網(wǎng)絡(luò)、用戶關(guān)注網(wǎng)絡(luò)以及用戶-評(píng)論網(wǎng)絡(luò)三個(gè)基礎(chǔ)網(wǎng)絡(luò),利用網(wǎng)絡(luò)表示學(xué)習(xí)將用戶、評(píng)論以及新聞文章被表征到一個(gè)低維的向量空間當(dāng)中,通過計(jì)算節(jié)點(diǎn)間的相似度來構(gòu)建節(jié)點(diǎn)影響力的概率轉(zhuǎn)移矩陣,再設(shè)計(jì)基于圖的多變量隨機(jī)游走算法進(jìn)行迭代獲得新聞?dòng)脩粲绊懥Φ念A(yù)測(cè)排序。
本文提出一種基于異構(gòu)網(wǎng)絡(luò)表示學(xué)習(xí)的新聞評(píng)論用戶影響力預(yù)測(cè)方法如圖1所示,其主要包含3個(gè)部分:(1)構(gòu)建一個(gè)融合了評(píng)論信息網(wǎng)絡(luò)、用戶關(guān)注網(wǎng)絡(luò)以及用戶-評(píng)論網(wǎng)絡(luò)三個(gè)基礎(chǔ)網(wǎng)絡(luò)的異構(gòu)新聞評(píng)論網(wǎng)絡(luò)。(2)結(jié)合新聞評(píng)論網(wǎng)絡(luò)中的節(jié)點(diǎn)結(jié)構(gòu)特征和文本屬性信息,設(shè)計(jì)了一個(gè)異構(gòu)新聞評(píng)論用戶網(wǎng)絡(luò)的表示模型。(3)計(jì)算用戶之間的潛在影響力,構(gòu)建用戶影響力的概率轉(zhuǎn)移矩陣,最后使用基于圖的多變量隨機(jī)游走算法預(yù)測(cè)用戶未來的影響力趨勢(shì)。
圖1 基于異構(gòu)網(wǎng)絡(luò)表示學(xué)習(xí)的用戶影響力預(yù)測(cè)模型圖
首先對(duì)三個(gè)基礎(chǔ)網(wǎng)絡(luò)進(jìn)行定義(評(píng)論信息網(wǎng)絡(luò)、用戶關(guān)注網(wǎng)絡(luò)、用戶-評(píng)論網(wǎng)絡(luò)),再以評(píng)論節(jié)點(diǎn)為中心構(gòu)建新聞評(píng)論用戶異構(gòu)網(wǎng)絡(luò)。
(1)評(píng)論信息網(wǎng)絡(luò)
令C,A分別表示評(píng)論節(jié)點(diǎn)和新聞文章節(jié)點(diǎn)的集合,ECC、ECA分別表示評(píng)論與評(píng)論之間、評(píng)論與新聞文章之間邊的集合,WCC、WCA分別表示ECC、ECA中邊的權(quán)值集合。評(píng)論信息網(wǎng)絡(luò)可以表示為GC={VC,EC,WC},其中VC={C∪A},EC={ECC∪ECA},WC={WCC∪WCA}。
(2)用戶關(guān)注網(wǎng)絡(luò)
令VU表示新聞評(píng)論用戶節(jié)點(diǎn)的集合,EUU表示用戶與用戶之間關(guān)注關(guān)系邊的集合,WUU表示EUU中邊的權(quán)值的集合,用戶關(guān)注網(wǎng)絡(luò)可以表示為GU={VU,EUU,WU}。
(3)用戶-評(píng)論網(wǎng)絡(luò)
以用戶、評(píng)論為節(jié)點(diǎn),用戶與評(píng)論的發(fā)布關(guān)系為邊,構(gòu)建用戶-評(píng)論網(wǎng)絡(luò)。用戶-評(píng)論網(wǎng)絡(luò)表示為GUC={C∪VC,EUC,WUC},其中EUC表示用戶與評(píng)論之間發(fā)布關(guān)系的邊的集合,WUC表示E_UC中邊的權(quán)值的集合。
通過以上三個(gè)網(wǎng)絡(luò)的定義,最終的以用戶、評(píng)論、新聞文章為節(jié)點(diǎn),各類型節(jié)點(diǎn)間的關(guān)系為邊,構(gòu)成異構(gòu)新聞評(píng)論用戶網(wǎng)絡(luò),表示為G={V,E,W},其中V={C∪A∪VC}表示用戶、評(píng)論以及新聞文章節(jié)點(diǎn)的結(jié)合,E={EC∪EUU∪EEC}表示多種類型邊的結(jié)合,W={WC∪WUU∪WEC}表示E中邊的權(quán)值的集合。
在傳統(tǒng)影響力預(yù)測(cè)方法中,沒有很好的利用節(jié)點(diǎn)的局部特征以及節(jié)點(diǎn)所包含的屬性和文本信息。因此本節(jié)利用網(wǎng)絡(luò)表示學(xué)習(xí)的方法,將2.1節(jié)構(gòu)建的異構(gòu)新聞評(píng)論用戶網(wǎng)絡(luò)中不同類型的節(jié)點(diǎn)表示在同一個(gè)向量空間,并且將所有節(jié)點(diǎn)的結(jié)構(gòu)信息以及所包含的文本和屬性信息轉(zhuǎn)換成一個(gè)實(shí)數(shù)向量。
為了實(shí)現(xiàn)新聞評(píng)論用戶異構(gòu)網(wǎng)絡(luò)的表示學(xué)習(xí),也就是將節(jié)點(diǎn)轉(zhuǎn)化為低維的向量表示。我們將三個(gè)網(wǎng)絡(luò)聯(lián)合起來學(xué)習(xí),學(xué)習(xí)的目標(biāo)是最小化節(jié)點(diǎn)在異構(gòu)網(wǎng)絡(luò)中的分布與節(jié)點(diǎn)在向量表示空間中的分布的距離。這里我們采用KL散度計(jì)算兩種分布之間的距離,最終通過最小化公式(1)所示的目標(biāo)函數(shù)來實(shí)現(xiàn)。
其中OC為評(píng)論信息網(wǎng)絡(luò)表示學(xué)習(xí)的目標(biāo)函數(shù),定義如公式(2);OUU為用戶關(guān)注網(wǎng)絡(luò)表示學(xué)習(xí)的目標(biāo)函數(shù),定義如公式(3);OUC為用戶-評(píng)論網(wǎng)絡(luò)表示學(xué)習(xí)的目標(biāo)函數(shù),定義如公式(4)。
通過網(wǎng)絡(luò)表示學(xué)習(xí)之后,新聞評(píng)論用戶異構(gòu)網(wǎng)絡(luò)中的用戶節(jié)點(diǎn)、評(píng)論節(jié)點(diǎn)以及新聞文章節(jié)點(diǎn)都會(huì)由一個(gè)低維的向量表示,并且保存了節(jié)點(diǎn)的文本信息以及局部結(jié)構(gòu)信息,同時(shí)節(jié)點(diǎn)與節(jié)點(diǎn)間的距離在一定程度上表示潛在影響力的相關(guān)程度。在得到向量表示之后,利用余弦相似度計(jì)算用戶Ui和鄰居節(jié)點(diǎn)Uj的潛在影響力的相似程度,計(jì)算公式如下:
同理可以計(jì)算得到用戶Ui和評(píng)論Uj的相似度Sim(Ui,Cj)以及評(píng)論Ci和新聞文章Aj的相似度Sim(Cj,Aj)。通過潛在影響力的相似度以及歸一化處理,用戶關(guān)注網(wǎng)絡(luò)中任意用戶Ui到鄰居節(jié)點(diǎn)Uj間的轉(zhuǎn)移概率定義如公式(6),MUU中第i行的表示用戶i對(duì)應(yīng)其他所有用戶的轉(zhuǎn)移概率,若值為0則表示用戶i與該用戶不存在任何聯(lián)系。
Rout(Ui)表示以Ui為起點(diǎn)鄰居節(jié)點(diǎn)的集合。同理我們可以得到用戶到評(píng)論之間的轉(zhuǎn)移概率MUC以及評(píng)論到文章的轉(zhuǎn)移概率MCA。根據(jù)得到的轉(zhuǎn)移矩陣,使用基于多變量的隨機(jī)游走算法預(yù)測(cè)用戶的影響力,每個(gè)迭代過程的計(jì)算公式如(7)~(9)。
其中U(t)、C(t)、A(t)表示用戶、評(píng)論、新聞文章在第t個(gè)迭代后的概率分布向量,向量中的值表示相應(yīng)節(jié)點(diǎn)在未來的影響力,t為0時(shí),U(0)表示所有用戶的初始影響力,C(0)表示所有評(píng)論的初始影響力,A(0)表示所有新聞文章的初始影響力。參數(shù)α、β表示用戶未來影響力受其他用戶和評(píng)論的影響程度,λ和η表示評(píng)論未來影響力受其他評(píng)論和新聞文章的影響程度。通過迭代執(zhí)行(7)~(9)式至收斂,得到用戶的未來影響力U,然后對(duì)U按照從高到低進(jìn)行排序,則得到用戶影響力預(yù)測(cè)排序的最終結(jié)果。
本文采取網(wǎng)絡(luò)爬蟲抓取騰訊新聞作為數(shù)據(jù)源,以2020年10月30日以及2020年11月30日作為時(shí)間節(jié)點(diǎn),抓取了3000名用戶的評(píng)論信息、評(píng)論所涉及的新聞文章、用戶與用戶的關(guān)注關(guān)系、評(píng)論互評(píng)關(guān)系,作為實(shí)驗(yàn)的訓(xùn)練集Train1、Train2,數(shù)據(jù)統(tǒng)計(jì)如表1。同時(shí)在2020年12月31日以及2021年1月31日采集這3000名用戶的個(gè)人信息、所發(fā)表評(píng)論信息、以及新聞文章,并通過本文作者已發(fā)表的新聞評(píng)論用戶影響力計(jì)算方法[18]分別計(jì)算3000名用戶的影響力Val1、Val2,作為實(shí)驗(yàn)的驗(yàn)證集。
表1 騰訊新聞相關(guān)實(shí)驗(yàn)數(shù)據(jù)
為了驗(yàn)證本章提出方法的有效性,實(shí)驗(yàn)選取目前較為流行或是經(jīng)典的用戶影響力預(yù)測(cè)算法作為本章提出方法的對(duì)比,具體方法如下。
(1)方法一:時(shí)聰?shù)萚7]提出的融合用戶行為與博文內(nèi)容,利用回歸分析預(yù)測(cè)用戶影響力的方法。
(2)方法二:PageRank[9]算法。PageRank是一種經(jīng)典的網(wǎng)頁排序算法,也是目前許多基于圖排序方法的基礎(chǔ)模型,在用戶關(guān)注網(wǎng)絡(luò)中通過PageRank算法對(duì)用戶的吸引力進(jìn)行排序。
(3)方法三:直接使用DeepWalk[19]方法分別對(duì)用戶網(wǎng)絡(luò)、評(píng)論網(wǎng)絡(luò)以及新聞文章網(wǎng)絡(luò)進(jìn)行表示學(xué)習(xí),得到各個(gè)節(jié)點(diǎn)的向量表示,然后使用多變量隨機(jī)游走的方法對(duì)影響力進(jìn)行預(yù)測(cè)。
本文實(shí)驗(yàn)采用準(zhǔn)確率(Precision)作為評(píng)估各個(gè)算法的指標(biāo)。給定Result1和Result2分別表示兩種算法對(duì)用戶影響力預(yù)測(cè)排序,Result1?K和Result2?K表示影響力排名前Top-K的用戶列表,對(duì)于算法準(zhǔn)確率的計(jì)算公式如(10)所示:
在網(wǎng)絡(luò)表示學(xué)習(xí)模型中,設(shè)置負(fù)采樣數(shù)為5,關(guān)于向量維度的設(shè)置,我們通過實(shí)驗(yàn)的方式,對(duì)向量維度d設(shè)置不同的值,并以本章方法獲得用戶預(yù)測(cè)排序的Top-50為例,以Val2的Top-50作為驗(yàn)證集,計(jì)算不同向量維度對(duì)于算法準(zhǔn)確率的影響,實(shí)驗(yàn)結(jié)果如圖2所示。通過實(shí)驗(yàn)結(jié)果可以看出,在d設(shè)置為60時(shí),準(zhǔn)確率取得最高值,因此在接下來的實(shí)驗(yàn)中我們將60維作為向量維度d的默認(rèn)取值。
圖2 不同向量維度對(duì)準(zhǔn)確率的影響
同時(shí)我們通過依次固定λ和η求α和β、固定α和β求λ和η的方法,對(duì)參數(shù)α、β、λ和η進(jìn)行實(shí)驗(yàn)分析,其中參數(shù)α和λ的實(shí)驗(yàn)分析如圖3和圖4所示,整體上參數(shù)α=0.65、β=0.35、λ=0.8和η=0.2時(shí),實(shí)驗(yàn)取得較好的結(jié)果。
圖3 參數(shù)α對(duì)準(zhǔn)確率的影響
圖4 參數(shù)λ對(duì)準(zhǔn)確率的影響
在對(duì)比實(shí)驗(yàn)中,首先根據(jù)各個(gè)算法在Train1、Train2下返回的Top-100的用戶分別與驗(yàn)證集Val1、Val2進(jìn)行準(zhǔn)確率計(jì)算,對(duì)比結(jié)果如圖5和圖6所示。
圖5 在訓(xùn)練集Train1和驗(yàn)證集Val1下各算法返回的Top-100用戶的準(zhǔn)確率對(duì)比
圖6 在訓(xùn)練集Train2和驗(yàn)證集Val2下各算法返回的Top-100用戶的準(zhǔn)確率對(duì)比
由圖5和圖6可知,本文提出的方法在不同驗(yàn)證集下均取得了最優(yōu)結(jié)果,初步證明了本文方法的有效性。同時(shí)發(fā)現(xiàn)在兩組實(shí)驗(yàn)下,各個(gè)方法的準(zhǔn)確率都有不同程度的波動(dòng)。相比Train1、Val1,在Train2、Val2下方法2準(zhǔn)確率上漲10%;方法3準(zhǔn)確率下降13%,本文提出的方法準(zhǔn)確率波動(dòng)在2%,說明在本文方法具有更好的穩(wěn)定性。
為進(jìn)一步驗(yàn)證本文提出的方法在不同K值下的預(yù)測(cè)性能,選用訓(xùn)練集Train1進(jìn)行訓(xùn)練、驗(yàn)證集Val1進(jìn)行驗(yàn)證,對(duì)K進(jìn)行4組不同的取值,對(duì)各個(gè)算法的性能進(jìn)行了比較,實(shí)驗(yàn)結(jié)果如表2所示。
表2 不同K值下新聞?dòng)脩粲绊懥︻A(yù)測(cè)結(jié)果
可以看出,隨著K取值的變化,本文提出的基于異構(gòu)網(wǎng)絡(luò)表示學(xué)習(xí)的方法預(yù)測(cè)的準(zhǔn)確率分別為0.85、0.82、0.80、0.77,均優(yōu)于其他方法。相較于方法1和方法2,準(zhǔn)確率提升了近70%和30%。通過結(jié)果我們發(fā)現(xiàn),方法2效果明顯優(yōu)于方法1,這是因?yàn)榉椒?中結(jié)合了用戶以及評(píng)論的信息。方法3優(yōu)于方法2,這是因?yàn)榉椒?在考慮用戶和評(píng)論的文本信息的同時(shí)也考慮網(wǎng)絡(luò)結(jié)構(gòu)信息,驗(yàn)證了網(wǎng)絡(luò)結(jié)構(gòu)信息對(duì)于用戶影響力預(yù)測(cè)的重要性。而本文方法優(yōu)于方法3的原因是在于,相較于DeepWalk方法,我們提出的方法能夠更好的利用異構(gòu)網(wǎng)絡(luò)的結(jié)構(gòu)信息,并融合異構(gòu)網(wǎng)絡(luò)中節(jié)點(diǎn)的局部特征,從而提升了新聞網(wǎng)絡(luò)節(jié)點(diǎn)用戶影響力的預(yù)測(cè)性能。
本文主要對(duì)新聞?dòng)脩粲绊懥︻A(yù)測(cè)進(jìn)行了研究,綜合考慮新聞評(píng)論網(wǎng)絡(luò)中的全局特征、局部特征以及網(wǎng)絡(luò)中各節(jié)點(diǎn)的屬性和文本信息,結(jié)合網(wǎng)絡(luò)表示學(xué)習(xí)方法,提出一種基于異構(gòu)網(wǎng)絡(luò)表示學(xué)習(xí)的新聞?dòng)脩粲绊懥︻A(yù)測(cè)模型。通過與統(tǒng)計(jì)回歸分析法和網(wǎng)絡(luò)圖模型計(jì)算法進(jìn)行對(duì)比,實(shí)驗(yàn)證明本文所提出的模型能夠有效提升新聞?dòng)脩粲绊懥︻A(yù)測(cè)性能。但該模型還存在一些不足之處,一方面,數(shù)據(jù)集通過網(wǎng)絡(luò)爬蟲進(jìn)行采集,存在一定的噪音和不規(guī)范,在今后的工作中需考慮如何去除數(shù)據(jù)噪音,并同時(shí)考慮在小規(guī)模的標(biāo)準(zhǔn)數(shù)據(jù)集上,進(jìn)一步提高用戶影響力預(yù)測(cè)的準(zhǔn)確性。另一方面,本文目前的工作并未考慮到異構(gòu)網(wǎng)絡(luò)中存在著很多不同的節(jié)點(diǎn)間關(guān)系類型,均是采用相同的方法來對(duì)他們進(jìn)行處理,下一步工作考慮利用元路徑對(duì)異構(gòu)網(wǎng)絡(luò)中的不同關(guān)系類型進(jìn)行區(qū)分建模,從而提升用戶影響力的預(yù)測(cè)效果。