潘文雯 趙 洲 俞 俊 吳 飛
如今,類似Twitter 的微博服務(wù)系統(tǒng)已經(jīng)成為用戶分享媒體內(nèi)容的重要社交平臺(tái),平臺(tái)中一項(xiàng)關(guān)鍵機(jī)制是轉(zhuǎn)發(fā)功能.在SMS 中,跟隨其他用戶的用戶被稱為 “跟隨者”,被跟隨的用戶被稱為 “被跟隨者”.轉(zhuǎn)發(fā)預(yù)測(cè)的核心問題是建立用戶沿著 “被跟隨者?跟隨者”這條推特轉(zhuǎn)發(fā)鏈接的推特共享行為模型,這一點(diǎn)在文獻(xiàn)[1?2]中引起了廣泛的關(guān)注.
已有的轉(zhuǎn)發(fā)預(yù)測(cè)方法[1,3]能夠從用戶過去轉(zhuǎn)發(fā)的文本推特中學(xué)習(xí)用戶偏好模型進(jìn)行預(yù)測(cè),但僅限于文字類型的推特.隨著移動(dòng)設(shè)備的普及,用戶生成圖像推特的數(shù)量急劇增長,現(xiàn)今Twitter 中有17.2 %的推特內(nèi)容與圖像相關(guān)[2].因此,研究社交媒體網(wǎng)站中的圖像轉(zhuǎn)發(fā)預(yù)測(cè)問題具有重要意義,圖1中給出了一個(gè)簡單的圖像轉(zhuǎn)發(fā)預(yù)測(cè)示例.但由于圖像推特沒有區(qū)分性的特征表征[2],且SMS 的數(shù)據(jù)稀疏,現(xiàn)有的轉(zhuǎn)發(fā)預(yù)測(cè)方法對(duì)圖像轉(zhuǎn)發(fā)問題的預(yù)測(cè)用處不大.
圖1 圖像推特行為示例Fig.1 An example of image retweet behavior
目前,現(xiàn)有的轉(zhuǎn)發(fā)預(yù)測(cè)方法[1,3]大多涉及到媒體信息的選擇和表征,包括推特的圖像和標(biāo)題、用戶的社會(huì)角色[3]和情感[4].近年來,利用預(yù)先訓(xùn)練好的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural networks,CNN)獲得圖像表征的高層視覺特征在各種視覺識(shí)別任務(wù)中都取得不錯(cuò)的效果[5?6].圖像推文總是視覺數(shù)據(jù),因此可以使用深度卷積神經(jīng)網(wǎng)絡(luò)[7]來學(xué)習(xí)圖像推文的視覺表示.另一方面,圖像推特通常與文本上下文信息相關(guān)聯(lián),比如用戶的評(píng)論和標(biāo)題[2].背景圖像推文信息通常能傳達(dá)重要信息,有助于理解推文,我們利用深度遞歸神經(jīng)網(wǎng)絡(luò)[8]學(xué)習(xí)其語義表征.目前的研究使用各種模型,如張量分解[9]和概率矩陣分解[10]來模擬用戶的轉(zhuǎn)發(fā)行為,但這些模型缺乏探索圖像推特與其標(biāo)題或評(píng)論之間關(guān)系的能力.我們使用多模態(tài)神經(jīng)網(wǎng)絡(luò)[11]從多模態(tài)內(nèi)容中學(xué)習(xí)聯(lián)合圖像的推特表征,從而可提供不同形式的互補(bǔ)信息.
SMS 數(shù)據(jù)的稀疏性也是圖像轉(zhuǎn)發(fā)預(yù)測(cè)的一個(gè)挑戰(zhàn)性問題.在SMS 網(wǎng)站中,通過用戶對(duì)圖片推文的轉(zhuǎn)發(fā)關(guān)系來構(gòu)建圖像推文與用戶之間的網(wǎng)絡(luò).通常情況下,每個(gè)用戶只轉(zhuǎn)發(fā)少量的圖像推文,因此SMS 網(wǎng)絡(luò)是稀疏的.受同質(zhì)性假設(shè)[12]的啟發(fā),我們可以聯(lián)合考慮用戶關(guān)注者和用戶被轉(zhuǎn)發(fā)推文的集合信息來解決圖像轉(zhuǎn)發(fā)預(yù)測(cè)的稀疏性問題.轉(zhuǎn)發(fā)行為的社會(huì)影響在用戶和不同的關(guān)注者之間是不同的.因此我們利用關(guān)注機(jī)制[13]自適應(yīng)地融合用戶關(guān)注者偏好,共同預(yù)測(cè)目標(biāo)用戶的圖像轉(zhuǎn)發(fā)行為.
本文從多模態(tài)注意力排序[14]網(wǎng)絡(luò)學(xué)習(xí)的角度研究圖像轉(zhuǎn)發(fā)預(yù)測(cè)問題.本文首先提出一個(gè)異構(gòu)的圖像轉(zhuǎn)發(fā)模型(Image retweet modeling,IRM)網(wǎng)絡(luò),該模型利用多模態(tài)圖像推特、用戶的轉(zhuǎn)發(fā)行為及其跟蹤關(guān)系三方面進(jìn)行圖像轉(zhuǎn)發(fā)預(yù)測(cè).本文引進(jìn)由文本引導(dǎo)的兩個(gè)子網(wǎng)絡(luò)多模態(tài)神經(jīng)網(wǎng)絡(luò),其中遞歸神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)圖像推特上下文信息的語義表征,卷積神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)視覺表征.我們?cè)诙嗄B(tài)神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上使用多面注意力排序方法,使多面排序的度量值隱含在用戶偏好表征中來進(jìn)行圖像轉(zhuǎn)發(fā)預(yù)測(cè).本文的主要貢獻(xiàn)如下:
1) 與以往研究不同,本文提出了一種異構(gòu)的IRM 網(wǎng)絡(luò)模型來模擬圖像轉(zhuǎn)發(fā)的預(yù)測(cè),該模型利用了用戶過去轉(zhuǎn)發(fā)的圖像推特與相關(guān)上下文、用戶在SMS 中的跟隨關(guān)系和用戶對(duì)后續(xù)內(nèi)容的偏好三方面信息.
2)提出了基于文本引導(dǎo)的多模態(tài)神經(jīng)網(wǎng)絡(luò)的注意力多面排序方法來學(xué)習(xí)基于轉(zhuǎn)發(fā)推文的用戶偏好表示和圖像推文預(yù)測(cè)的跟蹤關(guān)系.
3)使用從Twitter 收集的數(shù)據(jù)集來評(píng)估方法性能.大量實(shí)驗(yàn)表明,本文方法優(yōu)于現(xiàn)有的方法.
轉(zhuǎn)發(fā)預(yù)測(cè)近年來得到了廣泛而深入的研究.它是當(dāng)今社會(huì)媒體進(jìn)行信息傳播的一種方式.為了準(zhǔn)確地建模用戶的轉(zhuǎn)發(fā)行為,我們將當(dāng)前的研究工作分為三個(gè)方面:用戶轉(zhuǎn)發(fā)行為的特征選擇、轉(zhuǎn)發(fā)模型表征和用戶轉(zhuǎn)發(fā)排序.在本節(jié)中,我們將簡要回顧這三個(gè)方面的相關(guān)工作.
用戶轉(zhuǎn)發(fā)行為的特征選擇:如何選擇影響用戶轉(zhuǎn)發(fā)行為的相關(guān)因素的問題已被深入研究.Firdaus等[4]探討了用戶話題特定情緒對(duì)其轉(zhuǎn)發(fā)決定的影響.實(shí)驗(yàn)表明,上下文特征對(duì)轉(zhuǎn)發(fā)率的貢獻(xiàn)很大,而過去推文的分布并不影響用戶的轉(zhuǎn)發(fā)率.Yang 等[15]將社會(huì)角色識(shí)別和信息擴(kuò)散集成到一個(gè)整體框架中,對(duì)用戶社會(huì)角色的相互作用進(jìn)行建模.Chen 等[16]研究了一些語義特征來學(xué)習(xí)推文的情感表達(dá).Macskassy 等[17]解釋在不熟悉的領(lǐng)域,通過評(píng)估不同的預(yù)測(cè)模型和特征,可以更好地理解用戶的轉(zhuǎn)發(fā)行為.Xu 等[18]研究了用戶發(fā)布行為的因素,包括突發(fā)新聞、用戶社交好友發(fā)布的帖子和用戶的內(nèi)在興趣,同時(shí)提出了一個(gè)潛在模型來進(jìn)一步證明這些因素的有效性.Zhang 等[3]考慮用戶(再)推文行為,重點(diǎn)研究自我網(wǎng)絡(luò)中的朋友如何影響轉(zhuǎn)發(fā)行為.與現(xiàn)有的方法不同,我們的方法是收集圖像推特及其標(biāo)題或評(píng)論.我們認(rèn)為不同的文字或評(píng)論不僅代表了圖片廣泛的語義信息,而且由于用戶的社會(huì)互動(dòng)而相互關(guān)聯(lián).
轉(zhuǎn)發(fā)模型表征:已有大量的研究針對(duì)用戶轉(zhuǎn)發(fā)表征的建模.Zhang 等[1]使用非參數(shù)統(tǒng)計(jì)模型結(jié)合結(jié)構(gòu)、文本和時(shí)間信息來預(yù)測(cè)轉(zhuǎn)發(fā)行為.Luo 等[19]開發(fā)了一個(gè)學(xué)習(xí)排名框架來探索各種轉(zhuǎn)發(fā)特性.Bourigault 等[20]從時(shí)間信息擴(kuò)散的角度考慮任務(wù).該模型學(xué)習(xí)了一個(gè)擴(kuò)散核,其中級(jí)聯(lián)的感染時(shí)間用投影空間中節(jié)點(diǎn)的距離表示.Jiang 等[10]提出了一種基于概率矩陣分解方法的轉(zhuǎn)發(fā)預(yù)測(cè)模型,將觀測(cè)到的轉(zhuǎn)發(fā)數(shù)據(jù)、社會(huì)影響和消息語義進(jìn)行整合,提高了預(yù)測(cè)的準(zhǔn)確性.Hoang 等[9]將轉(zhuǎn)發(fā)行為視為推文、推文作者及其追隨者的三維張量,并通過張量分解同時(shí)表示它們.Bi 等[21]在轉(zhuǎn)發(fā)數(shù)據(jù)上使用了兩種新的貝葉斯非參數(shù)模型URM 和UCM.兩者都能將對(duì)推文文本的分析和用戶的轉(zhuǎn)發(fā)行為整合在同一個(gè)概率框架中.Jiang 等[22]采用矩陣補(bǔ)全方法優(yōu)化用戶轉(zhuǎn)發(fā)表示的因子分解.盡管先前的研究探索學(xué)習(xí)廣泛的表示用戶的轉(zhuǎn)發(fā)模型,其中大多數(shù)沒有特別考慮的共同表示圖像轉(zhuǎn)發(fā)和他們的標(biāo)題或評(píng)論,我們提出了文本指導(dǎo)多通道網(wǎng)絡(luò)數(shù)據(jù)集和評(píng)估其有效性使用推特網(wǎng)站.
用戶轉(zhuǎn)發(fā)排序:轉(zhuǎn)發(fā)預(yù)測(cè)的中心問題是對(duì)用戶轉(zhuǎn)發(fā)的推文分享行為進(jìn)行建模,用戶通過 “被跟隨者——跟隨者”鏈接轉(zhuǎn)發(fā)推文,并對(duì)社交媒體中出現(xiàn)的所有推文進(jìn)行排序,讓更多的用戶通過短信獲得消息,這一點(diǎn)最近在Wang 等的工作[23]中引起了相當(dāng)大的關(guān)注.Liu 等[24]利用模糊理論設(shè)計(jì)了根基函數(shù)神經(jīng)網(wǎng)絡(luò),對(duì)用戶熱點(diǎn)話題的轉(zhuǎn)發(fā)行為進(jìn)行建模.Firdaus 等[25]提出了基于用戶作者和轉(zhuǎn)發(fā)行為的轉(zhuǎn)發(fā)預(yù)測(cè)模型.Zhang 等[1]提出了非參數(shù)模型,將結(jié)構(gòu)信息、文本信息和時(shí)間信息結(jié)合在一起來預(yù)測(cè)轉(zhuǎn)發(fā)行為.Wang 等[23]提出了一個(gè)推薦模型來解決tweet 中提到的問題,該模型使用了深度神經(jīng)網(wǎng)絡(luò)來整合上下文和社會(huì)信息.Feng 等[26]提出特征感知因子分解模型對(duì)推文進(jìn)行重新排序,該模型統(tǒng)一了線性判別模型和低秩因子分解模型.Peng 等[27]對(duì)轉(zhuǎn)發(fā)行為進(jìn)行建模,并使用條件隨機(jī)字段對(duì)推文進(jìn)行排序,研究了劃分社交圖和構(gòu)建轉(zhuǎn)發(fā)預(yù)測(cè)網(wǎng)絡(luò)關(guān)系的方法.
在這一部分,我們首先會(huì)闡述如何使用異構(gòu)IRM 網(wǎng)絡(luò)進(jìn)行圖像轉(zhuǎn)發(fā)預(yù)測(cè).然后在此基礎(chǔ)上,提出基于跟隨偏好的多面注意力排序方法.同時(shí)提出文本引導(dǎo)的多模態(tài)網(wǎng)絡(luò),通過用戶的上下文注意力機(jī)制來引導(dǎo)圖像區(qū)域來共同表征相關(guān)信息.
首先,在闡述基本模型之前,我們需要先介紹模型所涉及的基本概念和專業(yè)術(shù)語.我們用I={i1,i2,···,in}表示一組圖像推特,用D={d1,d2,···,dn}來表示文本內(nèi)容,其中di={di1,di2,···,dik}表示第i個(gè)圖像推特不同標(biāo)題和評(píng)論的文字嵌入.用戶集表示為U={u1,u2,···,um},用戶偏好的排序模型表示為R={r1,r2,···,rm},其中ri是第i個(gè)用戶ui的偏好表征嵌入.
利用上述符號(hào)將圖像轉(zhuǎn)發(fā)預(yù)測(cè)的問題定義如下:考慮到用戶U和輸入圖像推特I及其相關(guān)上下文D,我們的目標(biāo)是學(xué)習(xí)所有用戶偏好R的多方面排序度量值表征,然后對(duì)目標(biāo)用戶的圖像推特進(jìn)行排序以實(shí)現(xiàn)圖像轉(zhuǎn)發(fā)預(yù)測(cè).
為探索圖像特征和上下文信息的作用,我們用z={z1,z2,···,zn}來表示聯(lián)合圖像推特表征.其中,zi是由第i個(gè)圖像推特的視覺表征ii和上下文語義表征di的聯(lián)合表征組成,具體的融合方式可見第3.3 節(jié).
已有的轉(zhuǎn)發(fā)預(yù)測(cè)方法[1,3]只從用戶過去轉(zhuǎn)發(fā)的文本推特中學(xué)習(xí)用戶偏好模型,進(jìn)而預(yù)測(cè)用戶的推文共享行為.與以往的研究不同,本文提出了多維度注意力排序度量異構(gòu)IRM 網(wǎng)絡(luò),該網(wǎng)絡(luò)利用多模態(tài)圖像推特、用戶過去的轉(zhuǎn)發(fā)行為及其后續(xù)關(guān)系進(jìn)行圖像轉(zhuǎn)發(fā)預(yù)測(cè).我們將提出的異構(gòu)IRM 網(wǎng)絡(luò)表示為G=(V;E) ,其中節(jié)點(diǎn)集V由聯(lián)合圖像表征Z和用戶偏好表征R組成,邊集E由用戶過去的轉(zhuǎn)發(fā)行為H及其跟隨關(guān)系S組成,用矩陣H ∈Rn×m表示圖像推特與用戶之間的轉(zhuǎn)發(fā)行為,其中,如果第i個(gè)圖像推特被第j個(gè)用戶轉(zhuǎn)發(fā),則條目hi,j=1,否則hi,j=0 .然后通過矩陣S∈Rm×m考慮用戶之間的跟隨關(guān)系,其中,如果第i個(gè)用戶跟隨第j個(gè)用戶,則sij=1 .之后用Ni表示第i個(gè)用戶的跟隨集合(如果sij=1 ,則為uj ∈Ni),用N={N1,N2,···,Nm}表示用戶的跟隨集合.
之后,將從IRM 網(wǎng)絡(luò)中導(dǎo)出異質(zhì)三元組約束作為用戶訓(xùn)練多面注意力排序網(wǎng)絡(luò)的相關(guān)偏好.根據(jù)現(xiàn)有的Twitter 分析工作[28],我們認(rèn)為用戶可能會(huì)對(duì)被追隨者的未轉(zhuǎn)發(fā)圖像推特表現(xiàn)出隱性的負(fù)面興趣.設(shè)定第i個(gè)聯(lián)合圖像推特表征為zi,第j個(gè)用戶為uj,將uj的被跟隨者的非轉(zhuǎn)發(fā)圖像推特zk進(jìn)行采樣.通過有序元組 (j,i,k,Nj) 對(duì)用戶的相對(duì)偏好進(jìn)行建模,表示第j個(gè)用戶更喜歡第i個(gè)圖像推特,而非第k個(gè)圖像推特.設(shè)T={(j,i,k,Nj)}表示從IRM 網(wǎng)絡(luò)獲得的一組有序元組,用于一組n個(gè)圖像推特和m個(gè)用戶.將有序異構(gòu)元組視為學(xué)習(xí)用戶偏好表示的約束,即學(xué)習(xí)用于圖像轉(zhuǎn)發(fā)預(yù)測(cè)的多面排序度量函數(shù).對(duì)于任何 (j,i,k,Nj)∈T,以下不等式成立:
于是,可將圖像轉(zhuǎn)發(fā)預(yù)測(cè)問題重新表述如下:給出聯(lián)合圖像推特表征Z、用戶相對(duì)偏好T的有序元組集和異構(gòu)IRM 網(wǎng)絡(luò)G,學(xué)習(xí)所有用戶偏好R的表征,然后由多方面用戶偏好函數(shù)Fu(·) 對(duì)將要發(fā)送給用戶u的圖像推特進(jìn)行排序.
在這一部分中,我們提出基于文本引導(dǎo)的多模層多面注意力排序網(wǎng)絡(luò).
我們選擇合適的多模態(tài)神經(jīng)網(wǎng)絡(luò)[29]來表示IRM 網(wǎng)絡(luò)中的圖像推特,它由兩個(gè)子網(wǎng)絡(luò)組成:用于圖像數(shù)據(jù)可視化表示的深度卷積神經(jīng)網(wǎng)絡(luò)[30]和用于文本上下文數(shù)據(jù)語義表征的深遞歸神經(jīng)網(wǎng)絡(luò)[8].這兩個(gè)子網(wǎng)絡(luò)在多模融合層中相互作用形成聯(lián)合表征,如圖2 所示.對(duì)于一組圖像I={i1,i2,···,in},首先通過預(yù)訓(xùn)練的CNN (Convolution neural network) 最后一層卷積層學(xué)習(xí)圖像推特的卷積特征X={x1,x2,···,xn},其中xi是包含圖像視覺信息的三維特征.通過與F={f1,f2,···,fn}相同的卷積神經(jīng)網(wǎng)絡(luò)最后一層全連接層來學(xué)習(xí)圖像的視覺嵌入.具體來說,使用預(yù)訓(xùn)練初始網(wǎng)絡(luò)[30]進(jìn)行視覺表征,它在許多視覺表征任務(wù)[31?33]中得到了廣泛的應(yīng)用.同時(shí)訓(xùn)練LSTM (Long short-term memory)網(wǎng)絡(luò)[8]以獲得圖像推特的相關(guān)上下文,對(duì)于一組文本上下文D={d1,d2,···,dn},將LSTM 最后一個(gè)隱藏層的潛在狀態(tài)作為文本上下文的語義嵌入Y={y1,y2,···,yn},將yi={yi1,yi2,···,yik}表示圖像推特的不同標(biāo)題和注釋的語義嵌入.
為了學(xué)習(xí)不同模式圖像推特的聯(lián)合表征,建立多模態(tài)層,將遞歸神經(jīng)網(wǎng)絡(luò)部分的文本表示和卷積神經(jīng)網(wǎng)絡(luò)部分的視覺表征連接起來,如圖2 所示.從而,可以將圖像推特的視覺表征和文本上下文的語義表征映射到同一個(gè)多模態(tài)特征融合空間中,并將它們相加以獲得多模態(tài)融合層的激活,如
圖2 用于圖像轉(zhuǎn)發(fā)預(yù)測(cè)的注意多方面排序網(wǎng)絡(luò)學(xué)習(xí)縱覽Fig.2 The overview of textually guided ranking network for attentional image retweet modeling
其中矩陣Wi)和W(d)是權(quán)重矩陣.g(·) 是非飽和激活函數(shù)ReLU (Rectified linear unit)[34].
然而,這種簡單的方法并沒有利用不同的評(píng)論與其匹配的圖像推特之間的上下文關(guān)系.為了獲得更相關(guān)的圖像推特和文本評(píng)論表征,本文提出文本引導(dǎo)的多模態(tài)融合層,如圖2 所示,細(xì)節(jié)如圖3 所示.由于每個(gè)圖像推特都有來自其發(fā)布者和訂閱者的許多標(biāo)題和評(píng)論,可假設(shè)不同的評(píng)論表達(dá)了圖像的關(guān)聯(lián)和擴(kuò)展信息.因此,本文沒有直接使用來自預(yù)訓(xùn)練CNN 最后一層全連接層的視覺特征,而是使用圖像的卷積特征來生成用戶對(duì)圖像推特注意力表征.在此多模融合網(wǎng)絡(luò)中,使用注意力機(jī)制來進(jìn)行一定的約束,同時(shí)以文本信息yi來達(dá)到注意力機(jī)制的實(shí)現(xiàn),將文本信息與其圖像中的內(nèi)容進(jìn)行關(guān)聯(lián),如圖3 所示.注意力模塊可以定位圖像中適合用戶聚焦的區(qū)域L={l0,l1,···,lk},其中l(wèi)i={lxi,lyi}分別表示圖像卷積特征中的x軸和y軸坐標(biāo).給定卷積特征xi和位置映射向量lj,圖3 中的卷積采樣自xi中心的lj處的 3×3×S圖像特征,其中S是卷積特征的大小.將采樣的3 維圖像特征η(xi,lj)={ηi1,ηi2,···,ηi9}調(diào)整為 9×S.在選擇圖像的卷積特征通過位置映射向量之后,使用注意機(jī)制將文本嵌入與提取的卷積特征fc融合.給定第i個(gè)圖像yij的第j個(gè)評(píng)論和多維特征η(xi,lj) 的語義特征,可得到第j個(gè)評(píng)論和第k個(gè)卷積特征的文本注意力分?jǐn)?shù)為
圖3 文本引導(dǎo)的多模融合網(wǎng)絡(luò)Fig.3 Textually guided multi-modal fusion network
+為不同形式的元素相加. W(j)和 W(c)是權(quán)重矩陣. g (·) 是按單元縮放的雙曲正切函數(shù).定義TG(lj,xi,yij,fi)為文本指導(dǎo)過程,通過將模型與遞歸神經(jīng)網(wǎng)絡(luò)疊加,可以得到下一個(gè)位置映射向量和RNN 的隱藏狀態(tài).
在此基礎(chǔ)上提出多面注意力排序函數(shù)學(xué)習(xí)方法用于圖像轉(zhuǎn)發(fā)預(yù)測(cè).受注意機(jī)制[14,35]的啟發(fā),在圖2中設(shè)計(jì)了鄰域注意模塊,對(duì)社會(huì)影響函數(shù) hNj(·) 進(jìn)行計(jì)算.基于有序元組約束 T ={(j,i,k,Nj)} 計(jì)算(·) .給定用戶偏好表征 R ={r1,r2,···,rn},用戶與其跟隨者的社會(huì)影響注意力分?jǐn)?shù)表示為
其中 W(s)和 W(n)是模型訓(xùn)練更新的參數(shù)矩陣.b是偏向量,p 是計(jì)算社會(huì)影響注意力得分的參數(shù)向量.
最后,我們可以定義注意多面排名損失函數(shù)如下:
1)數(shù)據(jù)集信息:我們從Twitter 收集數(shù)據(jù),Twitter是一種流行的微博服務(wù),供網(wǎng)絡(luò)用戶分享他們的媒體內(nèi)容[36].用戶通常通過在社交媒體網(wǎng)站上轉(zhuǎn)發(fā)圖片來顯示他們對(duì)圖像推特的積極偏好.我們抓取用戶的個(gè)人資料,包括他們過去轉(zhuǎn)發(fā)的圖像推特和他們的跟隨關(guān)系.已知,信息擴(kuò)散有隨距離和用戶興趣指數(shù)衰減的趨勢(shì).圖像轉(zhuǎn)發(fā)作為信息級(jí)聯(lián)的一種形式,在用戶關(guān)系網(wǎng)絡(luò)中呈現(xiàn)出重尾分布.為了盡可能避免這種現(xiàn)象,數(shù)據(jù)集在 “推特?用戶?推特”循環(huán)中被爬取.也就是說,我們首先選擇一條轉(zhuǎn)發(fā)次數(shù)超過5 次的微博,找到它的發(fā)布者.然后,我們收集出版商最近一個(gè)月的圖像推特,并找到轉(zhuǎn)發(fā)這些推特的用戶.只有不到8 個(gè)關(guān)注者的用戶被過濾,然后我們?cè)俅问褂闷溆嗟挠脩粽业剿麄兊膱D片推特.我們將 “推特用戶”循環(huán)5 次,抽取所有用戶、其追隨者和關(guān)注者的信息,構(gòu)建圖像轉(zhuǎn)發(fā)建模網(wǎng)絡(luò).我們總共收集了15500 個(gè)用戶,74927 條圖片推文和274851 條跟隨關(guān)系.
2)圖像特征提取:我們對(duì)收集到的圖像tweets進(jìn)行如下預(yù)處理.我們從預(yù)訓(xùn)練的Inception-V4 網(wǎng)絡(luò)的最后一個(gè)全連接層中提取全局特征用于圖像的特征嵌入,共1536 維向量.為了滿足文本引導(dǎo)多模網(wǎng)絡(luò)的需求,我們還從同一個(gè)預(yù)訓(xùn)練網(wǎng)絡(luò)的最后一個(gè)卷積層提取圖像特征,從而得到每個(gè)圖像的8×8×1536 特征向量.
3)文本特征提取:我們首先過濾所有的表情符號(hào)和感嘆詞獲得所有的標(biāo)題和注釋.然后對(duì)句子中的每一個(gè)詞,我們采用預(yù)訓(xùn)練Glove 模型[37]來提取語義表征.字向量的維數(shù)是300.具體來說,為每個(gè)圖片推特設(shè)置了四個(gè)句子,每個(gè)句子的長度為12.對(duì)于那些少于4 個(gè)標(biāo)題或評(píng)論的圖像推特,我們復(fù)制最后一條評(píng)論作為填充.對(duì)于我們的數(shù)據(jù)集,詞匯表的大小設(shè)置為12500.因此,我們使用單詞標(biāo)記
在大多數(shù)在線媒體服務(wù)中,轉(zhuǎn)發(fā)預(yù)測(cè)任務(wù)旨在向用戶提供前K個(gè)圖片推送.為了評(píng)估我們的方法在排名前K位的圖像推特方面的有效性,我們采用了兩個(gè)基于排名的評(píng)估標(biāo)準(zhǔn)Precision@K[2]和ROC (Receiver operating characteristic curve)曲線下與坐標(biāo)軸圍成的面積(Area under curve,AUC)[38?40]來評(píng)估圖像轉(zhuǎn)發(fā)預(yù)測(cè)的性能.給定用戶Ut和圖像推特it的測(cè)試集,用表示測(cè)試集中某個(gè)用戶ui的前K個(gè)圖像推特的預(yù)測(cè)排名,其中排名列表|的大小為K.
評(píng)估本文的方法AMNL (僅使用線性融合方法)和AMNL+(使用文本引導(dǎo)的多模態(tài)網(wǎng)絡(luò))的性能,以及其他五個(gè)最新的圖像轉(zhuǎn)發(fā)預(yù)測(cè)問題的解決方案.
表1、表2 和表3 分別顯示了所有方法對(duì)排名標(biāo)準(zhǔn)Precision@1,Precision@3 和AUC 的評(píng)價(jià)結(jié)果.本文以60 %、70 %和80 %的數(shù)據(jù)為訓(xùn)練集進(jìn)行評(píng)價(jià),使用三個(gè)等級(jí)評(píng)估標(biāo)準(zhǔn)比較所有方法的結(jié)果值.然后,比較模型在不同模式下的性能,其中用戶偏好表示的維度設(shè)置為400,80 %的數(shù)據(jù)用于培訓(xùn).所有其他參數(shù)和超參數(shù)也被選擇以保證驗(yàn)證集的最佳性能.我們?cè)诹N方法上評(píng)估所有三個(gè)標(biāo)準(zhǔn)的平均值.這些實(shí)驗(yàn)結(jié)果揭示了一些有趣的觀點(diǎn):
表1 不同方法的Precision@1 結(jié)果Table 1 Experimental results on precision@1 of different approaches
表2 不同方法的Precision@3 結(jié)果Table 2 Experimental results on precision@3 of different approaches
表3 不同方法的AUC 結(jié)果Table 3 Experimental results on AUC of different approaches
1)以內(nèi)容特征作為學(xué)習(xí)排序度量的輔助信息的方法CITING、D-RNN 和VBPR 的性能優(yōu)于低秩因子化排序度量方法ADABPR 和RRFM,這說明同時(shí)包含圖像推送和相關(guān)上下文信息的深層神經(jīng)網(wǎng)絡(luò)對(duì)圖像轉(zhuǎn)發(fā)預(yù)測(cè)問題至關(guān)重要.
2)與其他含邊信息的排序方法相比,AMNLi的性能優(yōu)于VBPR,AMNLd的性能優(yōu)于CITING.這表明多方面的排名指標(biāo)很重要.
3)與AMNL 方法相比,AMNL+方法具有更好的性能.這表明通過文本引導(dǎo)的多模態(tài)融合方法,可以更好地將圖像推特與包含相關(guān)語義信息的不同標(biāo)題或評(píng)論聯(lián)合表征,從而在圖像轉(zhuǎn)發(fā)預(yù)測(cè)中獲得更好的性能.
4)在所有情況下,AMNL+方法都能達(dá)到最佳性能.這表明利用多模態(tài)圖像推特的聯(lián)合圖像推特表征及其關(guān)聯(lián)上下文和多維度排序度量的注意多維度排序網(wǎng)絡(luò)學(xué)習(xí)框架可以進(jìn)一步提高圖像轉(zhuǎn)發(fā)預(yù)測(cè)的性能.
圖4 (a)和4 (b)展示了AMNL+對(duì)一些用戶的圖像轉(zhuǎn)發(fā)預(yù)測(cè)的實(shí)驗(yàn)結(jié)果實(shí)例.在文本選取方面,我們主要選取了與圖像推特相關(guān)聯(lián)程度和語法語義復(fù)雜程度不同的句子組合,比如有不同的對(duì)象等,從而來測(cè)試注意力機(jī)制的實(shí)際效用.而且在實(shí)際現(xiàn)象中,有推薦意義的推特往往具有比較精彩和相對(duì)復(fù)雜的語義內(nèi)容.而在圖4 列舉的例子中,由于篇幅有限,以3 個(gè)句子為例.圖4 由兩個(gè)部分組成,其中圖4 (a)顯示用戶和用戶的跟隨者發(fā)布的圖像和模型所預(yù)測(cè)的排名分?jǐn)?shù),圖4 (b)顯示的是預(yù)測(cè)的推特圖像及其注釋對(duì)于注意力模塊的反饋效果.圖4 (a)列舉出了對(duì)不同推特的預(yù)測(cè)喜愛程度,其低排名分?jǐn)?shù)表明越不值得推薦.我們可以發(fā)現(xiàn),其中關(guān)注者發(fā)布的未被轉(zhuǎn)發(fā)的圖像推特獲得了比較差的排名分?jǐn)?shù).這說明這些推特更容易被用戶看到,但不受用戶歡迎,與事實(shí)的情況相吻合.圖4 (b)顯示的是幾個(gè)圖像推特中注釋得分較高的例子,不同的注釋評(píng)論中的關(guān)鍵詞在圖像中得到了很好的注意力顯現(xiàn).這表明,用我們的方法預(yù)測(cè)的圖像對(duì)于圖4 (a)中的用戶是可取的.值得一提的是,一些特定的詞語與圖像中顏色相同的物體相匹配,體現(xiàn)注釋和字幕對(duì)預(yù)測(cè)有一定引導(dǎo)效果.
圖4 AMNL+在圖像轉(zhuǎn)發(fā)預(yù)測(cè)任務(wù)中的實(shí)驗(yàn)結(jié)果Fig.4 Experimental results of AMNL+on the image retweet prediction task
本文所提出的注意力多面排名網(wǎng)絡(luò)學(xué)習(xí)方法的訓(xùn)練更新規(guī)則本質(zhì)上是迭代的.接著,本文將繼續(xù)研究AMNL 方法收斂的方式.圖5 (a)和圖5 (b)分別為AMNL 方法的收斂曲線和運(yùn)行時(shí)間曲線.圖中x軸表示迭代次數(shù).圖5 (a)中的y軸為目標(biāo)值,圖5 (b)中的y軸為本文所提方法的運(yùn)行時(shí)間.每個(gè)Epoch 包含231539 次迭代更新.我們將用戶偏好表示的維數(shù)設(shè)置為500,并使用80 %的數(shù)據(jù)進(jìn)行訓(xùn)練.結(jié)果表明,該方法在10 輪后完成收斂,計(jì)算時(shí)間約為500 分鐘.這項(xiàng)研究驗(yàn)證了AMNL 的有效性.
圖5 隨著Epoch 客觀價(jià)值和運(yùn)行時(shí)間的變化Fig.5 Objective value and running time versus the number of epochs
我們?cè)u(píng)估了我們的模型模塊部分的貢獻(xiàn),主要評(píng)估了文本引導(dǎo)的多模式融合網(wǎng)絡(luò)和社會(huì)影響功能.同時(shí),我們還評(píng)估了圖像推特的視覺表征、關(guān)聯(lián)上下文的語義表征和聯(lián)合圖像推文表示對(duì)模型的影響.
為了理解組件的貢獻(xiàn)和不同介質(zhì)對(duì)我們的模型的影響,我們提出消融研究并在表模型:AMNLi方法意味著我們只使用圖像推特的視覺表征.AMNLd方法意味著只對(duì)相關(guān)上下文進(jìn)行語義表征.AMNL+i模型是在文本引導(dǎo)的多模態(tài)融合網(wǎng)絡(luò)中,將圖像推特卷積特征的平均池化直接輸入到遞歸神經(jīng)網(wǎng)絡(luò)中,而不是在文本表示中使用注意機(jī)制.AMNLhfunc和AMNL+hfunc模型是指我們直接對(duì)兩個(gè)模型的排名函數(shù)進(jìn)行計(jì)算,而不使用社會(huì)影響函數(shù).如表4所示,我們還發(fā)現(xiàn)了一些有趣的結(jié)果:
表4 用80 %的數(shù)據(jù)進(jìn)行訓(xùn)練,消融實(shí)驗(yàn)的實(shí)驗(yàn)結(jié)果Table 4 Experimental results with different modalities and components using 80 % of the data for training
1)與AMNLi和AMNLd方法相比,AMNL 方法取得了更好的性能.這表明相比于只利用視覺特征或者文本特征,注意力多方面的排名網(wǎng)絡(luò)學(xué)習(xí)框架利用多模式圖像的聯(lián)合圖像推特表征及其相關(guān)的上下文可以獲得更好的性能.
2)與AMNL+hfunc的結(jié)果相比,AMNL+在三項(xiàng)標(biāo)準(zhǔn)中得分較高.這表明社會(huì)影響函數(shù)可以幫助提高我們的方法的性能.而AMNL+hfunc和AMNL的實(shí)驗(yàn)結(jié)果進(jìn)一步證明了我們的上述結(jié)果在不同分量之間是一致的.
本文提出了一種基于異構(gòu)IRM 網(wǎng)絡(luò)的圖像轉(zhuǎn)發(fā)預(yù)測(cè)模型.具體來說,我們的IRM 網(wǎng)絡(luò)利用用戶過去轉(zhuǎn)發(fā)的圖像推文、關(guān)聯(lián)的文本上下文和用戶的后續(xù)關(guān)系來采樣用戶轉(zhuǎn)發(fā)行為的適當(dāng)表示.在此基礎(chǔ)上,我們提出了一種基于文本引導(dǎo)的多模態(tài)神經(jīng)網(wǎng)絡(luò)的注意多方面排序方法,以學(xué)習(xí)聯(lián)合圖像推特表征和用戶偏好表征,從而將多方面的排序度量嵌入到表示中進(jìn)行預(yù)測(cè).我們使用來自Twitter 的數(shù)據(jù)集來評(píng)估我們的方法的性能.大量的實(shí)驗(yàn)表明,我們的方法比幾種最新的解決方案能獲得更好的性能.