杜雨萌 張偉男 劉 挺
(哈爾濱工業(yè)大學社會計算與信息檢索研究中心 哈爾濱 150001)
(ymdu@ir.hit.edu.cn)
隨著移動互聯(lián)網(wǎng)技術的發(fā)展及移動終端的普及,Twitter、微博等社交類應用上聚集了大量的用戶,每個用戶每天可以接收到成百上千條微博,從而導致信息過載,嚴重影響用戶的信息及知識獲取.自動識別微博用戶的興趣,進而根據(jù)用戶興趣來協(xié)助用戶組織及過濾信息,能夠有效解決信息過載的問題.同時,用戶興趣識別對于商品推薦、廣告定向投放等業(yè)務也有很大幫助.
已有研究中,Ramage等人[1]使用Labeled LDA主題模型對Twitter用戶進行了興趣挖掘,這種方法將用戶的所有Tweets集合作為一個文檔,使用主題模型預測出文檔的主題分布,以此表示用戶的興趣主題分布.該方法的問題在于,沒有區(qū)分用戶發(fā)布的Tweets中詞的權重,而現(xiàn)實中對一條Tweet或微博進行分類時,其中的每個詞起到的作用是不一樣的,往往是少數(shù)幾個詞起到決定用戶興趣的作用.這就導致盡管一個用戶發(fā)表了很多自身興趣相關的微博,但由于表達興趣的詞周圍存在大量噪聲詞,使得Labeled LDA主題模型對用戶興趣詞的主題分配隨上下文而發(fā)生嚴重偏移,從而導致用戶興趣識別發(fā)生錯誤.
針對上述問題,本文首先通過對用戶的微博進行逐條興趣分類,從而緩解噪聲詞對用戶興趣詞的影響;然后通過用戶微博的興趣類別分布進而識別用戶興趣.具體地,本文提出一種主題增強卷積神經網(wǎng)絡(convolutional neural network, CNN)的興趣識別方法,結合了詞向量提供的連續(xù)語義特征和Labeled LDA模型提供的離散主題特征.在進行用戶興趣識別時,首先使用主題增強CNN對用戶的微博進行逐條分類,之后根據(jù)用戶微博的興趣類別分布,通過極大似然估計得到微博用戶的興趣.
1.1.1 Labeled LDA主題模型
1) 主題生成過程
Labeled LDA是一種描述帶標簽的文檔的生成過程的概率圖模型[2].與傳統(tǒng)LDA模型[3]一樣,Labeled LDA認為每篇文檔是一組主題的混合,文檔里的每個詞都由一個主題生成.與傳統(tǒng)LDA模型不同的是,Labeled LDA通過把主題模型中的主題限制在了與每篇文檔關聯(lián)的一個標簽集合上,從而在模型中融入了監(jiān)督信息.Labeled LDA的圖模型如圖1所示:
Fig. 1 Graphical model of Labeled LDA圖1 Labeled LDA的圖模型
設每篇文檔d被表示為一個元組,該元組由一個詞索引列表w(d)=(w1,w2,…,wNd)和一個二元的標簽出現(xiàn)/缺失指示器Λ(d)=(l1,l2,…,lK)構成,其中每個wi∈{1,2,…,V},每個lk∈{0,1}.這里Nd表示文檔的長度,V表示詞表的長度,K表示語料庫中標簽的數(shù)目.
令Labeled LDA模型中的主題數(shù)目等于語料庫中標簽的數(shù)目,則生成過程如算法1所示:
算法1. Labeled LDA主題模型算法.
① For each topick∈{1,2,…,K}
② Generateβk=(βk,1,βk,2,…,βk,V)T~
Dir(·|η);
③ End for
④ For each documentd
⑤ For each topick∈{1,2,…,K}
Bernoutlli(·|φk);
⑦ End for
⑧ End for
⑨ Generateα(d)=L(d)×α;
Dir(·|α(d)|);
Mult(·|θ(d)|);
Mult(·|βzi|);
在步驟①和步驟②中,從一個參數(shù)為η的Dirichlet先驗分布抽取出每個主題k在詞表上的多項分布βk,即主題-詞分布.傳統(tǒng)的LDA模型中,接下來將為每一篇文檔,從一個參數(shù)為α的Dirichlet先驗分布中抽取一個多項分布Λ(d),作為該文檔在K個主題上的主題分布,但在Labeled LDA中,把θ(d)限制在標簽指示器Λ(d)顯示出現(xiàn)的那些標簽所對應的主題中.因為在分配文檔中每個位置的主題時要參考θ(d),所以上述限制確保了分配的主題都來自于文檔的標簽集合.
(1)
2) 學習和預測
Labeled LDA對用戶打好標簽的文檔進行學習和預測的過程與傳統(tǒng)的LDA模型的學習和預測過程是相似的.區(qū)別只在于:Labeled LDA將每篇文檔用以獲取主題分布的先驗Dirichlet分布的參數(shù)α(d)限制在了文檔的標簽集合λ(d)上.因此在訓練時,像LDA模型一樣使用Gibbs采樣,文檔d里位置i的主題為j的概率為
P(zi=j|z|)∝×,
(2)
在從訓練集中學習出多項分布β,即主題-詞分布后,就可以使用Gibbs采樣對打好標簽的新文檔進行主題預測.
3) 基于Labeled LDA主題模型的用戶興趣識別
Ramage等人[1]使用Labeled LDA主題模型對Twitter用戶進行了興趣識別,方法是:將興趣主題設置為Labeled LDA模型中使用的主題,將用戶的Tweets集合作為一篇文檔,之后使用Labeled LDA主題模型計算用戶的Tweets文檔的主題分布,獲得的主題分布即為用戶的興趣主題分布.
1.1.2 基于卷積神經網(wǎng)絡的句子分類器
CNN是計算機圖像領域發(fā)明的一種前饋神經網(wǎng)絡,在圖像識別、影像分析等應用中表現(xiàn)出色[4-6].隨后,CNN在自然語言處理領域的句法分析[7]、查詢檢索[8]、句子建模[9]等工作上都取得了良好的效果.Kim[10]使用單層卷積層的CNN實現(xiàn)了一個句子分類器,該模型結構如圖2所示:
Fig. 2 Model architecture of CNN sentence classifier圖2 卷積神經網(wǎng)絡句子分類器的模型結構
模型的輸入是一個n×k的詞向量矩陣,設xi∈k是句子里第i個詞對應的詞向量.一個長度為n的句子,可以表示為
x1:n=x1⊕x2⊕…⊕xn,
(3)
令xi:i+j表示xi,xi+1,…,xi+j詞的連接,一個卷積操作是指使用過濾器(filter)w∈hk,從一個包含h個詞的窗口生成一個新的特征.設ci是從窗口xi:i+h-1生成的特征:
ci=f(w·xi:i+h-1+b),
(4)
其中,b是偏置,f是一個非線性函數(shù).這個過濾器在句子的所有詞窗口x1:h,x2:h+1,…,xn-h+1:n上都生成新的特征,就得到了一個特征映射(feature map)
c=(c1,c2,…,cn-h+1),
(5)
模型中會使用多個filter,所以會產生多個feature map以及多次max pooling操作.之后將max pooling操作后的結果作為特征向量輸入到softmax層,最終softmax層輸出句子在不同類別上的概率分布.
本文提出一種基于主題增強卷積神經網(wǎng)絡的用戶興趣識別方法,是一種結合了連續(xù)的語義特征和離散的主題特征的方法, 模型框架如圖3所示:
Fig. 3 Model architecture of topic augmented CNN圖3 主題增強CNN的模型結構
模型的2個輸入分別是一條微博對應的詞向量矩陣和主題信息矩陣.詞向量由預先訓練好的word2vec模型獲得,對微博進行填充(padding)后,將微博里的每個詞都轉換為對應的詞向量,便得到該微博對應的詞向量矩陣.我們設定了K個興趣主題,主題信息矩陣中的每一行的K維向量對應微博中每個詞分配到各個興趣主題的概率.如果計算微博中第i個位置上的詞wi被分配為主題k的概率,首先是根據(jù)由主題模型獲得的第i個位置以外的位置的主題分配情況,可以估算出當前位置i被分配為主題k的概率:
(6)
(7)
(8)
本文的模型是一個雙通道的CNN,2個通道的結構相似.在每個通道的輸入矩陣上都添加了一個單層卷積層,對卷積后獲得的feature map執(zhí)行max pooling操作,然后將2個通道的池化操作后的結果合并輸入到一個全連接層,全連接層的輸出作為特征向量輸入到softmax層,最終softmax層輸出微博在不同興趣類別上的概率分布.
本文的用戶興趣識別方法如下:設主題類別體系為C={c1,c2,…,cM},給定某個用戶u,抽取其發(fā)布的微博文本集合W={w1,w2,…,wn},文本數(shù)目為n,使用本文提出的主題增強CNN作為分類器進行預測,得到n條微博文本對應的類別列表L={l1,l2,…,ln},其中l(wèi)i∈C.在類別列表上定義一個計數(shù)函數(shù)count(x,L)表示類別x在L中出現(xiàn)的次數(shù),其中,x∈C.按照count(x,L)由高到低排序,選擇排序靠前的類別表示用戶興趣.
以類別體系覆蓋面大、類別間區(qū)分度大為原則,并參考相關文獻[11],本文設定了10個微博興趣類別,分別為:體育、娛樂、汽車、財經、時事/軍事、科技、健康/養(yǎng)生、旅游/攝影/美食、星座/時尚/語錄、校園/教育/職場.
由于普通用戶所發(fā)的微博涵蓋的種類比較多,包含較多的噪聲,因此我們在獲取訓練數(shù)據(jù)時選取的是各個類別下的微博認證用戶,且盡量選擇企業(yè)認證用戶.比如體育類,我們選取了“新浪體育”、“虎撲體育”等用戶,從這些用戶的微博中抽取訓練語料.
爬取各個類別的認證用戶的微博,在對原始微博語料進行必要的過濾后抽取出訓練語料、驗證語料和測試語料.訓練集、驗證集和測試集的微博文本數(shù)目如表1所示:
Table 1 Number of Microblog Text in Training Set,Validation Set and Test Set
此外,還需要訓練一個Labeled LDA模型,以構造微博的主題信息矩陣.訓練集是每個興趣類別為100 000條微博,將每個類別下的微博合并為一個文檔,并打上相應的類別標簽.比如體育類,將從“新浪體育”、“虎撲體育”等體育類的用戶的微博中抽取出的微博合并為一個文檔,并且將該文檔的標簽設為體育.
本文模型中的詞向量長度為100,padding的最大長度參考微博的最大長度設置為140,卷積層的激活函數(shù)選用RLU,在詞向量的通道里卷積層選擇了長度為3,4,5的過濾器各100個,在主題信息的通道里卷基層選擇了長度為2,3,4的過濾器各100個,在模型的倒數(shù)第2層全連接層的隱含神經元數(shù)量為300個,全連接層的激活函數(shù)為RLU,輸出設定為300維,在倒數(shù)第2層與最后1層的softmax層之間設定dropOutRate=0.5,在最后一層softmax層里使用了值為1的l2正則化項.
2.4.1 評價微博分類效果
本文對微博分類效果的評價標準采用準確率(accuracy)、精確率P(precision)、召回率R(recall)以及F值.
2.4.2 評價用戶興趣識別效果
對用戶的微博逐條興趣分類后,通過極大似然估計得到微博用戶的興趣,選擇數(shù)量最多的興趣類別作為興趣識別結果.采集了400位微博測試用戶的數(shù)據(jù),根據(jù)用戶的標簽、簡介和微博內容對用戶的興趣類別進行標注.評價標準采用準確率.
2.5.1 微博文本分類效果
使用本文提出的主題增強CNN模型進行微博文本分類,作為對比實驗,選擇了CNN句子分類器[10]和在大規(guī)模中文語料分類任務上表現(xiàn)出色的以bigram為特征的線性SVM[12].主題增強CNN、CNN和線性SVM在微博文本分類上的準確率分別為:80.8%,79.6%,80.4%.表2對比了3種方法在微博文本分類上的精確率P、召回率R以及F值.
Table 2 Precision, Recall and F value Comparison of Microblog Text Classification表2 微博文本分類精確率、召回率、F值對比 %
2.5.2 實例分析
從實驗結果可以看出,主題增強CNN在微博文本分類上取得了最好的效果.與 CNN相比,主題增強CNN加入了微博里每個詞被分配到各個主題的概率,在CNN分類效果較差的旅游攝影美食和星座時尚語錄類別上取得了較大提升,整體上獲得了更高的準確率.
實例1. 圖4中顯示的是1條旅游/攝影/美食類微博.
預處理后,這條微博為“日本 料理 驚聞 原 綠川 老師 著 更 自立 便 友人 前 拜訪 品嘗 客人 大部 份 客人 喜歡 坐 壽司 臺前 海鮮 想 吃 口 吃 出 照料 功力”.CNN將其誤分類為校園/教育/職場類,原因是預處理后的文本中包含了“老師”、“自立”、“友人”、“功力”,這些和教育/校園相關的詞在只使用詞向量的情況下出現(xiàn)了誤分類.
Fig. 4 A travel/photography/delicacy microblog圖4 一條旅游/攝影/美食類微博
Fig. 5 Image of topic information matrix of microblog used in example 1圖5 實例1中使用的微波的主題信息矩陣的圖像
將這條微博的主題信息矩陣圖像化,其中橫坐標是該微博預處理后包含的詞,縱坐標是主題類別,圖5中顏色的冷暖程度表示一個詞被分配為一個主題的概率,概率與顏色的對應關系如圖5中右側的圖例所示,概率由小至大對應于顏色由冷色變?yōu)榕?
圖5縱坐標是旅游/攝影/美食的行明顯亮于其他行,經統(tǒng)計,該微博的30個詞中被分配為旅游/攝影/美食類上的概率超過30%的詞有22個,而被分配為校園/教育/職場主題上的概率大于30%的詞只有2個.由此可見,這條微博的主題信息對其被正確分類起到了重要作用.
實例2. 圖6中顯示的是一條星座/時尚/語錄類微博.
預處理后,這條微博為“熟知 米蘭 倫敦 愛 玩 愛鬧 巴黎 處心積慮 玩 段位 米蘭 精致 手工藝 陽剛 男性 魅力 招牌”,其中“米蘭”、“巴黎”、“玩”等與旅游相關的詞,使用詞向量的CNN將其誤分類為旅游/攝影/美食類.而該微博的主題信息矩陣的圖像如圖7所示:
Fig. 6 A constellation/fashion/quotations microblog圖6 一條星座/時尚/語錄類微博
Fig. 7 Image of topic information matrix of microblog used in example 2圖7 實例2中使用的微波的主題信息矩陣的圖像
圖7中縱坐標是星座/時尚/語錄的行顏色明顯亮于其他行,經統(tǒng)計,該微博中每個詞被分配為星座/時尚/語錄主題主題的概率都超過30%,但沒有一個詞被分配為旅游/攝影/美食主題的概率超過30%.可以看出主題信息對我們的模型正確分類這條微博起到了重要作用.
與使用bigram特征的線性SVM相比,主題增強CNN利用主題信息,對于包含噪聲詞比較多的微博,可以分類得更準確.
實例3. 圖8中顯示的是一條娛樂類微博.
預處理后,這條微博為“爸爸 社長 教育 劉燁 骨子里 國家 情懷 重 信 玩 游戲 忘記 中華 身份 社長 沒 告訴 飆 臟話 帥”,使用線性SVM將該微博誤分類為校園/教育/職場類,因為“爸爸 社長”、“社長 教育”、“玩 游戲”、“身份 社長”這些bigram與校園/教育/職場類體現(xiàn)出很強的相關性,所以使用bigram作為特征的線性SVM將其誤分類到校園/教育/職場類.而該微博的主題信息矩陣圖像如圖9所示:
Fig. 9 Image of topic information matrix of microblog used in example 3圖9 實例3使用的微波 的主題信息矩陣的圖像
圖9中縱坐標為娛樂的行明顯要亮于其他行,經統(tǒng)計,該微博20個詞中被分配為娛樂主題的概率超過30%的詞有15個,而被分配為校園/教育/職場類的概率超過30%的詞只有1個.因此,主題信息對正確分類這條微博起到重要作用.
2.5.3 用戶興趣識別效果
Fig. 11 A sport microblog圖11 一條體育類微博
使用上述3個微博文本分類器,對用戶的微博進行逐條分類,之后根據(jù)用戶微博的興趣類別分布,通過極大似然估計得到微博用戶的興趣.此外還增加了基于Labeled LDA主題模型的用戶興趣識別方法作為對比.使用Labeled LDA模型進行興趣識別時,把一個用戶的微博集合作為一篇文檔,之后使用Labeled LDA模型預測每個用戶的微博文檔的主題分布,選擇占據(jù)最高比例的主題作為興趣識別的結果.圖10顯示了上述4種方法對400名測試用戶的興趣識別效果.
Fig. 10 Accuracy comparison of user interest recognition圖10 用戶興趣識別準確率對比
可以看出在這4種方法中,主題增強CNN+MLE取得了最好的效果.主題增強CNN+MLE、線性SVM和CNN這3種方法的興趣識別效果和它們在微博文本分類上的效果正相關.Labeled LDA模型對文檔中的一個詞分配主題時,是結合當前位置以外的位置上的主題分配情況,以及訓練好的Labeled LDA模型所提供的主題-詞分布來確定的,Labeled認為每個詞的權重都是一樣的.然而在判斷一條微博的類別時,微博中每個詞的作用大小是不一樣的,往往是少數(shù)幾個詞起決定類別的作用.
圖11所示是一條體育類微博,雖然微博中多次出現(xiàn)“大學”和“理工”、“學院”這些教育相關的詞語,但是“男籃”、“CUBA”這2個體育相關的詞起到了決定微博類別的作用,所以分類為體育類微博.所以當一個用戶發(fā)布很多自身興趣相關的微博,但表達興趣的詞周圍存在大量噪聲詞時,Labeled LDA主題模型在對用戶興趣詞的主題分配會隨上下文而發(fā)生嚴重偏移,從而導致用戶興趣識別發(fā)生錯誤.我們的方法通過對用戶的微博進行逐條興趣分類進而獲得用戶的興趣,緩解了噪聲詞對用戶興趣詞的影響,取得了更好的效果.
目前社會媒體上用戶興趣識別的方法主要有以下2類:
1) 基于用戶微博內容的興趣識別.Michelson等人[13]通過檢測用戶在他們的Tweets中提到的實體來挖掘他們的興趣主題.Ramage 等人[1]將用戶的所有Tweets集合看作一篇文檔,然后使用Labeled LDA模型推斷用戶微博文檔上的興趣主題分布,在Twitter排序和推薦任務行取得很好的效果.Zhao等人[14]提出了一個Twitter-LDA模型,假設一條Tweet只包含一個主題,用來挖掘每條Tweet的主題;Xu等人[15]提出一種改進的作者-主題(author-topic)模型——Twitter-user模型,對每一條Twitter,該模型使用一個隱變量(latent variable)去預測它是否同用戶的興趣相關;Sasaki等人[16]提出了一個基于Twitter-LDA的改進模型,可以估計每個用戶的所有Tweets中背景詞與主題詞之間的比例,并提出了一個新的概率主題模型主題追蹤模型(topic tracking model, TTM),可以獲取用戶興趣主題趨勢的動態(tài)性進行在線推理;Guo等人[17]提出一個面向時間戳的動態(tài)主題模型,作者將每個主題下概率最高的詞看作是用戶的興趣,并且作者提出了一個基于密度的算法來選擇主題的數(shù)目.
2) 基于用戶的行為(關注、轉發(fā)等)的興趣識別.Abel 等人[18]對基于用戶在Twitter上的活動推導出的用戶興趣信息的時間動態(tài)性進行了分析,并且把時間特性引入到用戶模型,定義了時間敏感的用戶模型;Jin等人[19]在Facebook上通過用戶的點贊(like)信息,挖掘用戶的興趣;Orlandi等人[20]提出一種通過分析社會網(wǎng)絡用戶發(fā)布的消息和諸如發(fā)表的評論、簽到的地點、喜歡的鏈接等,可以自動抽取、聚合、表示用戶興趣的算法;Wang等人[21]提出一種基于連接關系二元圖的正則化框架(regularization framework)來提高用戶興趣主題挖掘的效果;Vosecky等人[22]提出一個協(xié)同的用戶主題模型,通過用戶的社會連接來全面地獲得用戶的偏好,也提出了一種雙層的用戶模型結構以解決Twitter上主題多樣性的問題,可以解決語義感知的查詢消岐,完成個性化的Twitter搜索;Bhattacharya 等人[23]使用一種基于社會標注(social annotations )的方法,首先推斷出popular user擅長的主題,進而推測關注這些popular user的用戶的興趣主題;Zhao 等人[24]在不同行為(如發(fā)布、評論、點贊等)下用戶的興趣是不同的,作者首先構建各個行為的user-topic矩陣,之后對每個user-topic矩陣進行矩陣分解學習latent embedding,最后構建用戶信息(user profile),對用戶在各個主題上的興趣進行預測.
本文提出了一種基于主題增強卷積神經網(wǎng)絡的用戶興趣識別方法,通過構建一個結合連續(xù)的語義特征和離散的主題特征的CNN作為微博文本分類器,對用戶的微博進行興趣分類,通過極大似然估計得到微博用戶的興趣.在400個微博用戶的測試集上,與Labeled LDA、使用詞向量的CNN和線性SVM這3種興趣識別方法進行了比較,取得了最佳效果,準確率到達了91.25%.實驗結果將連續(xù)的語義特征和離散的主題特征結合將顯著提高用戶興趣識別的效果.
[1] Ramage D, Dumais S T, Liebling D J. Characterizing microblogs with topic models[C] //Proc of Int Conf on Weblogs & Social Media. Menlo Park, CA: AAAI, 2010: 130-137
[2] Ramage D, Hall D, Nallapati R, et al. Labeled LDA: A supervised topic model for credit attribution in multi-labeled corpora[C] //Proc of Conf on Empirical Methods in Natural Language Processing. Stroudsburg, PA: ACL, 2009: 248-256
[3] Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation[J]. Journal of Machine Learning Research, 2003, 3: 993-1022
[4] Schmidhuber J, Meier U, Ciresan D. Multi-column deep neural networks for image classification[C] //Proc of IEEE Conf on Computer Vision & Pattern Recognition. Piscataway, NJ: IEEE, 2012: 3642-3649
[5] An D, Meier U, Masci J. Flexible, high performance convolutional neural networks for image classification[C] //Proc of the Int Joint Conf on Artificial Intelligence. San Francisco, CA: Morgan Kaufmann, 2011: 1237-1242
[6] Ji Shuiwang, Xu Wei, Yang Ming. 3D convolutional neural networks for human action recognition[J]. IEEE Trans on Pattern Analysis & Machine Intelligence, 2013, 35(1): 221-231
[7] Yih W T, He Xiaodong, Meek C. Semantic parsing for single-relation question answering[C] //Proc of Meeting of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2014: 643-648
[8] Shen Yelong, He Xiaodong, Gao Jianfeng, et al. Learning semantic representations using convolutional neural networks for Web search[C] //Proc of Int Conf on World Wide Web Companion. New York: ACM, 2014: 373-374
[9] Kalchbrenner N, Grefenstette E, Blunsom P. A convolu-tional neural network for modelling sentences[OL]. 2014[2016-04-10]. https://arxiv.org/abs/1404.2188
[10] Kim Y. Convolutional neural networks for sentence classification[J/OL]. 2014 [2016-04-10]. https://arxiv.org/abs/1408.5882
[11] Xu Wei, Zhang Yu, Xie Yubin, et al. User interest recognition based on microblog classification[J]. Intelligent Computer and Applications, 2013, 3(4): 80-83 (in Chinese)
(宋巍, 張宇, 謝毓彬, 等. 基于微博分類的用戶興趣識別[J]. 智能計算機與應用, 2013, 3(4): 80-83)
[12] Li Jingyang, Sun Maosong, Zhang Xian. A comparison and semi-quantitative analysis of words and character-bigrams as features in Chinese text categorization [C] //Proc of the 21st Int Conf on Computational Linguistics and the 44th Annual Meeting of the Association for Computational Linguistics. Stroudsburg, PA: ACL, 2006: 545-552
[13] Michelson M, Macskassy S A. Discovering users’ topics of interest on Twitter: A first look[C] //Proc of the Workshop on Analytics for Noisy Unstructured Text Data. New York: ACM, 2010: 73-80
[14] Zhao Xin, Jiang Jing, Weng Jianshu, et al. Comparing Twitter and traditional media using topic models[G] //LNCS 6611: Advances in Information Retrieval. Berlin: Springer, 2011: 338-349
[15] Xu Zhiheng, Ru Long, Xiang Liang, et al. Discovering user interest on Twitter with a modified author-topic model[C] //Proc of IEEE/WIC/ACM Int Conf on Web Intelligence. New York: ACM, 2011: 422-429
[16] Sasaki K, Yoshikawa T, Furuhashi T. Twitter-TTM: An efficient online topic modeling for Twitter considering dynamics of user interests and topic trends[C] //Proc of Int Symp on Soft Computing and Intelligent Systems. Piscataway, NJ: IEEE, 2014: 440-445
[17] Guo Hongjian, Chen Yifei. User interest detecting by text mining technology for microblog platform[J]. Arabian Journal for Science & Engineering, 2016, 41(8): 3177-3186
[18] Abel F, Gao Qi, Houben G J, et al. Analyzing temporal dynamics in Twitter profiles for personalized recommenda-tions in the social Web[C] //Proc of Int Web Science Conf. New York: ACM, 2011: 1-8
[19] Jin Xin, Wang Chi, Luo Jiebo, et al. LikeMiner: A system for mining the power of ‘like’ in social media networks[C] //Proc of ACM SIGKDD Int Conf on Knowledge Discovery and Data Mining. New York: ACM, 2012: 753-756
[20] Orlandi F, Breslin J, Passant A. Aggregated, interoperable and multi-domain user profiles for the social Web[C] //Proc of Int Conf on Semantic Systems. New York: ACM, 2012: 41-48
[21] Wang J, Zhao W X, He Y, et al. Infer user interests via link structure regularization[J]. ACM Trans on Intelligent Systems & Technology, 2014, 5(2): 1-22
[22] Vosecky J, Leung W T, Ng W. Collaborative personalized Twitter search with topic-language models[C] //Proc of Special Interest Group on Information Retrieval. New York: ACM, 2014: 53-62
[23] Bhattacharya P, Zafar M B, Ganguly N, et al. Inferring user interests in the Twitter social network[C] //Proc of the 8th ACM Conf on Recommender Systems.New York: ACM, 2014: 357-360
[24] Zhao Zhe, Cheng Zhiyuan, Hong Lichan, et al. Improving user topic interest profiles by behavior factorization[C] //Proc of Int Conf on World Wide Web. New York: ACM, 2015: 1406-1416