錢勝勝 張?zhí)熘? 徐常勝
摘要 隨著互聯(lián)網(wǎng)的快速發(fā)展,近年來出現(xiàn)了越來越多的社會媒體網(wǎng)站.用戶可以非常方便地在這些網(wǎng)站上分享想法、圖片、帖子和從事其他相關活動.當一個流行事件發(fā)生時,它可以在不同社會媒體網(wǎng)站中快速地進行傳播,同時產(chǎn)生大量的多媒體數(shù)據(jù).因此,研究多媒體社會事件分析是非常必要的,能夠讓人們及時地了解社會事件隨時間演變的發(fā)展趨勢.本文對近年來多媒體社會事件分析的相關研究進行了綜述,并針對多媒體社會事件表示、多媒體社會事件檢測和跟蹤、多媒體社會事件動態(tài)演變和多媒體社會事件主題觀點分析這4個具體任務進行了詳細總結.隨后,對多媒體社會事件的發(fā)展趨勢進行了介紹.最后,對多媒體社會事件分析方面未來可能的研究課題進行了展望.
關鍵詞多媒體;社會事件;多模態(tài);跨平臺
中圖分類號 G201;G206
文獻標志碼 A
0 引言
社會事件是發(fā)生在特定的地點和時間的特定行為,它由許多隨時間發(fā)生的子事件組成.熱點社會事件分析是伴隨互聯(lián)網(wǎng)發(fā)展起來的技術,特別是社交媒體網(wǎng)絡的盛行,它不僅能減少人們?yōu)g覽龐大的互聯(lián)網(wǎng)信息所耗費的精力和時間,協(xié)助人們在浩瀚的網(wǎng)絡數(shù)據(jù)中快速、準確地了解所關注的社會事件,而且能夠為國家宏觀把握、監(jiān)控網(wǎng)絡輿論走勢提供技術支撐.如圖1所示,如果能在地圖上可視化整個事件隨時間發(fā)展的演變過程,用戶更易于理解整個事件的發(fā)展趨勢,不需要花費大量的時間查看海量的事件數(shù)據(jù).因此,對社會事件的分析研究是十分必要的.多媒體社會事件分析技術以社會多媒體事件為研究對象,其主要目的是通過研究現(xiàn)有的社會事件多媒體數(shù)據(jù),實現(xiàn)發(fā)現(xiàn)子事件、梳理事件的發(fā)展脈絡、實時監(jiān)控事件的演變動態(tài)、挖掘不同平臺的事件觀點等.在當今時代,互聯(lián)網(wǎng)作為信息傳遞的媒介早已在世界經(jīng)濟、政治和社會建設中發(fā)揮至關重要的作用.互聯(lián)網(wǎng)同時也是社會媒體事件的傳播器和放大器,互聯(lián)網(wǎng)中的社會熱點事件更容易受到公民的廣泛關注和參與.在此影響下,多媒體社會事件分析的研究顯得尤為重要.
根據(jù)Google統(tǒng)計,在2014年全球網(wǎng)站數(shù)量就突破10億大關,到2016年,全球互聯(lián)網(wǎng)用戶數(shù)已經(jīng)超過30億.在國內(nèi),據(jù)《中國互聯(lián)網(wǎng)絡發(fā)展狀況統(tǒng)計報告》報道,至2016年6月,中國網(wǎng)民規(guī)模已達7.10億,網(wǎng)民每天平均上網(wǎng)時間接近3.8 h.另外,隨著移動設備和移動互聯(lián)網(wǎng)的普及,促使新型社交媒體網(wǎng)站呈現(xiàn)爆發(fā)式增長,諸如Facebook、Flickr、YouTube、Google News等新型社交網(wǎng)絡平臺往往擁有大量的用戶基礎,通過這些媒體平臺,用戶能夠方便地發(fā)表評論、分享經(jīng)驗和獲取新聞資訊.因此,當一個社會流行事件發(fā)生時,在社交網(wǎng)絡上每個人都是事件的傳播者和評論者,社會熱點事件會在大量網(wǎng)絡用戶的交互參與下迅速發(fā)酵,同時會產(chǎn)生大量的多媒體數(shù)據(jù).如圖1所示,2011年的“英國暴亂”這一事件在爆發(fā)之后短短4 d時間,在網(wǎng)絡上迅速演化、蔓延,在互聯(lián)網(wǎng)中產(chǎn)生了大量相關的多媒體數(shù)據(jù).
然而,由于社會多媒體數(shù)據(jù)主要來自互聯(lián)網(wǎng)中不同的社交網(wǎng)絡平臺,數(shù)據(jù)呈現(xiàn)出跨平臺(不同的社交媒體平臺,例如Facebook、 Flickr和YouTube)、多模態(tài)(例如文本、圖像和音頻)、大規(guī)模、噪聲大等特點.對于這4大特點,傳統(tǒng)社會事件分析在檢測精度和監(jiān)控效率方面面臨更高的要求和挑戰(zhàn).社會事件數(shù)據(jù)的復雜性主要體現(xiàn)在如下4個方面:
1) 社會事件數(shù)據(jù)具有跨平臺特性
社會媒體數(shù)據(jù)的跨平臺特性也稱數(shù)據(jù)多源性,是指同一社會事件對應的多媒體數(shù)據(jù)會分布在不同的社交媒體平臺中,需要分別獲取不同社交媒體平臺中的媒體數(shù)據(jù)進而分析社會事件.當前社交媒體網(wǎng)站數(shù)量呈現(xiàn)爆炸式增長,不同社交媒體網(wǎng)站可能會在內(nèi)容上提供類似的事件信息,在形式上呈現(xiàn)出差異化表示.例如Google News 和Flickr.這些相關的數(shù)據(jù)有不同的視角,在Google News上的信息是官方的,在Flickr上的是信息是非官方的,其中有個人的評論和有趣的照片.對于同一社會事件,由于這些不同平臺是從不同角度表現(xiàn)數(shù)據(jù)的,所以簡單地對某一個平臺的數(shù)據(jù)進行單獨的分析處理很難全面分析相應的社會事件.如微博是當前流行的社交媒體平臺,其主要特點是用戶群體對新聞熱點進行即時評論和轉發(fā),一般是用戶簡短的觀點;博客的博文更偏向于日記的形式,用戶通過較多的篇幅詳細介紹一個主題.由此可知,不同平臺的數(shù)據(jù)有所側重,各有特點,可以利用跨平臺數(shù)據(jù)的不同視角互補從而更全面準確地描述社會事件,因此,跨平臺社會事件的研究是非常必要的.但是,由于不同平臺的數(shù)據(jù)結構和描述重點不同,使得跨平臺社會事件分析面臨重大挑戰(zhàn),如何設計通用的跨平臺社會事件分析方法變得更加重要.
2) 社會事件數(shù)據(jù)具有多模態(tài)特性
在互聯(lián)網(wǎng)發(fā)展的初期,文本通常是網(wǎng)絡中的數(shù)據(jù)的主要表現(xiàn)形式,伴隨著移動設備的普及和微博等社交媒體平臺的蓬勃興起,社會事件往往會產(chǎn)生大量網(wǎng)絡媒體數(shù)據(jù),包括文本、圖像、視頻、音頻等多媒體數(shù)據(jù)模態(tài).如“美國總統(tǒng)競選”事件,在競選期間,CNN新聞、推特、 Facebook等媒體平臺上不僅會發(fā)布和分享很多關于總統(tǒng)競選的文本信息(如演講詞、新聞評論等),而且會上傳大量圖片、視頻等數(shù)據(jù)(如反對者游行圖像、辯論視頻等).圖片、視頻等數(shù)據(jù)模態(tài)能生動直觀地使用戶明白事件的概況,幫助用戶了解事件,文本信息能讓用戶更加詳細深刻地研究事件的細節(jié)內(nèi)容.對于同一個社會事件,盡管不同的用戶在媒體平臺上表述的文本內(nèi)容可能不同,但是其平臺上的視覺信息可能是相同或者相似的.因此,雖然不同模態(tài)的數(shù)據(jù)的表現(xiàn)力有所差別,但是這些多模態(tài)信息可以相互補充,能夠幫助用戶全方位、深層次理解事件.但是,由于網(wǎng)絡環(huán)境十分復雜,社會媒體數(shù)據(jù)多模態(tài)化的同時也造成傳統(tǒng)的文本分析技術不適用于現(xiàn)階段的社會事件分析任務.對于多模態(tài)數(shù)據(jù),如何對文本數(shù)據(jù)以外的其他數(shù)據(jù)特征進行合理表示、如何有效建立2種模態(tài)的語義關聯(lián)、如何設計統(tǒng)一的多模態(tài)模型等,都是目前急需解決的技術難題.
3) 社會事件數(shù)據(jù)具有大規(guī)模特性
在移動互聯(lián)網(wǎng)和Web 2.0發(fā)展的浪潮下,社交媒體網(wǎng)站蓬勃發(fā)展,互聯(lián)網(wǎng)用戶的數(shù)量急劇增加,導致社會媒體數(shù)據(jù)呈現(xiàn)大規(guī)?;虺笠?guī)模的特性.據(jù)統(tǒng)計,2016年Twitter月活躍用戶3.10億,F(xiàn)acebook的月活躍用戶達到16.5億.在中國,2016年騰訊WeChat第二季度月活躍用戶達8.06億,QQ月活躍用戶也超過8億,而且這些數(shù)字還在呈增長的趨勢.社交媒體網(wǎng)站具有大量的用戶群體,用戶成為媒體數(shù)據(jù)的產(chǎn)生者和傳播者,用戶產(chǎn)生的數(shù)據(jù)成為媒體主流勢必使社會媒體數(shù)據(jù)的數(shù)量呈現(xiàn)爆炸式增長.另外,智能手機、監(jiān)控攝像頭等智能設備是數(shù)據(jù)的主要來源,用戶通過智能手機在微博、 Twitter等社交網(wǎng)絡中分享和傳播信息,而監(jiān)控攝像頭則更是無時無刻不在制造視頻數(shù)據(jù).由上述描述可知,大規(guī)模數(shù)據(jù)的產(chǎn)生是不可避免的,社會事件分析技術和大數(shù)據(jù)處理技術正是在此背景下應運而生的.大規(guī)模的數(shù)據(jù)分析非常有用,對某條公路長期監(jiān)控錄像分析,可以獲得汽車流量和某一時段路況等信息,為公民出行提供道路建議.對“美國總統(tǒng)選舉”事件,可以根據(jù)Twitter數(shù)據(jù)或新聞媒體數(shù)據(jù)等統(tǒng)計分析,分析候選人支持率從而推斷獲勝概率等.大規(guī)模數(shù)據(jù)信息給社會事件分析帶來很大的好處,同時也面臨諸多嚴峻的挑戰(zhàn).
4) 社會事件數(shù)據(jù)具有噪聲大、信息冗余的特性
社交網(wǎng)絡平臺中的數(shù)據(jù)大多是基于用戶分享的,而由于用戶本身產(chǎn)生的數(shù)據(jù)往往有結構不規(guī)則、信息不完整、描述偏向口語化、評論趨于感情化等因素,其產(chǎn)生的數(shù)據(jù)很大程度上充滿了噪聲.例如,對于“樸槿惠親信門”和“美國總統(tǒng)選舉”事件,網(wǎng)友產(chǎn)生的文本信息可能只是“支持、反對、發(fā)起抗議”等沒有辨識力的短語或短句,用戶上傳的圖片信息也可能包含很多圖像表情等,不能描述事件的特點.另外,網(wǎng)絡數(shù)據(jù)普遍存在重復、冗余的特點,當用戶瀏覽互聯(lián)網(wǎng)數(shù)據(jù)的時候,可能只是傾向于了解最近發(fā)生了什么事、某事最近的發(fā)展情況等,然而噪聲干擾搜索引擎只能返回大量相關數(shù)據(jù),顯示的信息重復而且冗余.又如,在監(jiān)控視頻中,有價值的數(shù)據(jù)可能僅有幾秒,但由于傳感技術的限制,必須要同時存儲和處理大量的噪聲.結果是,用戶必須反復地來回切換,以便完全理解事件的主題.通常情況下,用戶瀏覽這些龐大的文件是非常耗時的,幾乎不可能捕捉到整個事件的演化過程.除此之外,由于互聯(lián)網(wǎng)環(huán)境復雜,數(shù)據(jù)噪聲可能會含有大量虛假內(nèi)容,這不僅增加社會事件分析的難度還會降低分析精度.所以,互聯(lián)網(wǎng)中的社會媒體數(shù)據(jù)噪聲大、信息冗余的特性,成為社會事件分析中亟待解決的難題.
綜上所述,由于社會事件數(shù)據(jù)來自不同的網(wǎng)站,具有多跨平臺、多模態(tài)、大規(guī)模、噪聲大等特點,所以基于社會事件的分析研究非常具有挑戰(zhàn)性.如何對上述社會媒體數(shù)據(jù)特點進行處理,研究社會事件分析方法、設計有效的社會事件分析模型成為未來社會事件分析研究的關鍵問題.基于社會媒體數(shù)據(jù)的研究也從未間斷,自1996年美國國防高級研究計劃署提出話題檢測與跟蹤項目(Topic Detection and Tracking,TDT)以來,多媒體社會事件分析技術逐漸成為多媒體領域內(nèi)的研究熱點,越來越受到國內(nèi)外學者的關注.從1998年開始,在DARPA的支持下,美國國家標準技術研究所(NIST)每年都要舉辦專門TDT國際會議,進行相應的系統(tǒng)評測.雖然國內(nèi)學者對相關工作的開展起步較晚,但發(fā)展速度較快并取得了驕人的成績.本文總結多媒體社會事件分析領域已有的技術,盡可能全面地分析已存在的方法的優(yōu)缺點.本文重點介紹多媒體社會事件分析領域中典型的研究方向:多媒體社會事件表示、多媒體社會事件檢測、多媒體社會事件跟蹤與演變分析、多媒體社會事件主題觀點挖掘,從這4個方向入手總結近幾年國內(nèi)外學者在多媒體社會事件領域的主要研究進展,分析國內(nèi)外主要機構的研究特色和差距,并對未來的發(fā)展趨勢進行展望.
1 研究現(xiàn)狀
多媒體社會事件分析研究順應移動互聯(lián)網(wǎng)和社交媒體網(wǎng)站快速發(fā)展的趨勢,可用于社會熱點事件分析、社會輿情分析和預測等領域,并涉及到自然語言處理、數(shù)據(jù)挖掘、機器學習、模式識別等多個研究領域的知識.本章將主要介紹社會事件分析中的多媒體社會事件表示、多媒體社會事件檢測與跟蹤、多媒體社會事件動態(tài)演變分析和多媒體社會事件主題觀點分析4個方面.
1.1 多媒體社會事件表示
多媒體社會事件表示是指利用社會事件對應的多媒體數(shù)據(jù)信息獲取具有良好判別力的社會事件表示,從而進一步執(zhí)行其他相關社會事件分析任務.多媒體社會事件研究強調(diào)社會事件的載體是互聯(lián)網(wǎng)多媒體數(shù)據(jù),多媒體數(shù)據(jù)包括文本、圖像、視頻等多模態(tài)信息.傳統(tǒng)的社會事件表示主要是基于文本進行研究,隨著互聯(lián)網(wǎng)的發(fā)展,多模態(tài)數(shù)據(jù)的普及,基于圖像等其他模態(tài)的社會事件分析技術逐漸被提出,基于多模態(tài)信息的社會事件分析越來越流行并且受到研究者的重視.
1) 文本特征表示
文本特征表示是將文檔內(nèi)容轉換為計算機可識別的信息,因為必須將其轉化成一個簡潔的、統(tǒng)一的、能夠被學習算法和分類器識別的結構化形式,從而應用到其他文本處理中.目前最常用的文本表示方法是將文本表示為向量的形式.詞袋模型(Bag-of-Words,BoW)[1]是最常用文本表示方法之一,但是BoW模型只包含了單詞在詞典中的索引和詞頻信息,而忽略了文本的其他信息,實質(zhì)上造成了文本語義信息的缺失,文本的表示向量一般為字典長度,造成向量維度災難.詞袋模型很長一段時間是文本表示應用的主要方法,在傳統(tǒng)詞袋模型的基礎上,有2個主要研究問題:一個是特征選擇問題,另一個是計算特征權重問題.常見的特征選擇方法有:特征頻率、互信息、期望交叉熵等,目前最常用的方法是特征頻率[2],這是一種基于統(tǒng)計的方法,把度量值小于給定閾值的特征過濾掉,大于給定閾值的特征認為是有效特征.以上方法是基于文本的向量表示方法,文獻[3]提出了一種基于圖的文本表示方法,這個方法首先根據(jù)自己所定義的特征把文檔轉化為特征文本,然后在特征文本上構圖,并且定義了計算圖之間相似度的度量公式,這樣就可以通過計算圖的相似度計算出文檔的相似度,這種方法彌補了上述方法的不足,考慮了文本特征之間的有序關系,但是由于構建圖的過程中涉及到過多的參數(shù),其實驗效果遠不如向量空間模型好.
隨著研究的逐漸深入,人們對文本表示的研究逐漸向基于語義的文本表示方法轉移,從原來的特征選擇轉變?yōu)檎Z義特征學習研究[4-6].語義特征學習的方法獲得的文本特征表示可以認為是文本的深層表示.這種方法彌補了詞袋模型和向量空間模型的缺陷,在一定程度上考慮了文本的語義信息.主題模型LSI(Latent Semantic Indexing)[4]、 PLSI(Probabilistic Latent Semantic Indexing)[5]、 LDA(Latent Dirichlet Allocation)[6]等模型,通過無監(jiān)督的學習,從文本中提取語義信息,也就是平時所說的“主題(Topic)”.其中,LDA模型將每一篇文檔表示為一系列主題組成的概率分布,把每一個主題表示為一系列單詞所組成的概率分布.這個模型能夠識別大規(guī)模文檔集中潛在的語義信息. LDA模型憑借其在文本表示中表現(xiàn)出的優(yōu)良性能,吸引了很多研究者對其進行深入的研究,并在此基礎上,提出了大量的改進算法.文獻[7]在LDA模型的基礎上,提出了一種有監(jiān)督的隱含狄利克雷分布模型,利用文檔語料庫中的監(jiān)督信息優(yōu)化學習過程,從而獲得更好的文本表示.近年來隨著深度學習發(fā)展的日益成熟,深度學習[8-9]在文本表示領域也獲得了巨大的成功.詞向量(word embedding)是深度學習用于文本表示的核心技術,也是深度學習應用在自然語言處理領域(NLP)中的關鍵技術之一. Word embedding是由Hinton[10]提出的一種詞向量表示方法,區(qū)別于one-hot表示方法[11],把文本中的每一個單詞對應向量中的每一維,易造成維數(shù)災難的情況,word embedding將每個詞映射為一個低維的實數(shù)向量,所有這些向量構成詞的向量空間,每個詞可以看作是向量空間中的一個點,這樣,語義相似的詞在向量空間中的距離就會更近. Mikolov等[12]提出的Skip-gram模型是一種對文本集進行快速訓練獲得word embedding的模型,該模型主要思想是用當前詞來預測其上下文,具有良好的時間性能.隨著word2vec[12]工具的提出,研究者開始越來越重視詞嵌入模型的探索[13-14].循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network)由Elman等[15]在1990年首次提出.該模型的核心是通過循環(huán)方式逐個輸入文本中的各個詞,并維護一個隱藏層,保留所有的上文信息.但是循環(huán)神經(jīng)網(wǎng)絡的語義都會偏向文本中靠后的詞.因此,循環(huán)神經(jīng)網(wǎng)絡很少直接用來表示整個文本的語義,由于其能有效表示上下文信息,因此被廣泛用于序列標注任務.
2) 圖像特征表示
圖片是除文本以外的最常見的社會媒體數(shù)據(jù)的表現(xiàn)形式,傳統(tǒng)的圖像表示方法是采用類似于文本表示的詞袋模型(BoW)[1,16],其主要步驟為:提取局部特征、構建詞典、特征編碼、特征池化.雖然傳統(tǒng)詞袋模型(BoW)常被用于圖片檢索領域,但是其忽略了以下問題:首先,圖像局部特征不同于文本中的單詞能夠表示一個獨立的語義單元信息,其次,在圖像詞袋模型中,大部分方法為了提高編碼效率,都采用K均值聚類方法對局部特征描述子進行聚類從而得到詞典[17-18],進而將圖片表示為這些視覺單詞的特征向量,這使得大部分局部特征描述子丟失了其判別性.其聚類中心是由出現(xiàn)最多的局部特征描述子決定的,而不一定是包含圖片最多的圖片內(nèi)容信息的描述子.由于上述基于圖像詞袋模型的特征表示方法存在一定的問題,也有其他研究人員提出其他圖像編碼方法.文獻[18]提出一種新的非參數(shù)樸素貝葉斯最鄰近(Naive-Bayes Nearest-Neighbor,NBNN)編碼方法,克服了BoW中局部特征描述子判別性差的缺點,使局部特征描述子不需要進行編碼量化,但是這種方法在執(zhí)行效率方面并不盡如人意.近年來,隨著深度學習發(fā)展的日益成熟,深度學習在圖像特征表示領域的優(yōu)勢越來越明顯,特別是基于監(jiān)督學習的深層卷積神經(jīng)網(wǎng)絡在圖像分類中取得的重大突破[19],此后更多的深層神經(jīng)網(wǎng)絡相繼被提出[20-23],這些深層次的網(wǎng)絡結構都取得了很好的效果.
3) 多模態(tài)特征表示
移動互聯(lián)網(wǎng)時代,網(wǎng)絡中不僅存在大量的文本數(shù)據(jù),而且存在大量的其他類型的數(shù)據(jù).圖片、視頻等數(shù)據(jù)中往往富含大量的信息,并對文本信息有一定的補充作用,然而,傳統(tǒng)的基于單模態(tài)的特征表示方法忽略了事件的多模態(tài)屬性.如何充分利用社會媒體多模態(tài)信息已成為社會事件分析的研究熱點問題之一.本部分主要探討近年來不同模態(tài)數(shù)據(jù)結合表示的相關方法.早期的多模態(tài)數(shù)據(jù)表示常采用相關性分析方法[24-27],如典型相關性分析(Canonical Correlation Analysis,CCA)[24].典型相關分析是研究2組變量之間相關性的一種多元統(tǒng)計分析方法,這種方法利用變量之間的相關關系來反映2組指標之間的整體相關性.典型相關性分析方法沒有考慮變量組內(nèi)部的諸變量之間的關系,僅僅考慮變量之間的相關性.在此基礎上,文獻[25]用典型相關性分析方法把文本和圖像映射到同一特征空間,然后對圖像提取語義特征表示.這種方法把文本和圖片2種模態(tài)之間的相關性以及用邏輯斯蒂回歸模型獲得的語義特征表示結合起來.文獻[28]使用典型相關性分析方法提取概念之間的語義關系,其數(shù)據(jù)集包含標注的圖像.除此之外,文獻[26]把多核學習(Multiple Kernel Learning,MKL)應用在多模態(tài)數(shù)據(jù)表示中,對文本和圖片標注信息分別建立核函數(shù),通過結合不同的核函數(shù)達到特征融合的目的.文獻[29]通過學習視覺特征和聽覺特征之間的關聯(lián)性作為互補信息,并用于對圖像-音頻數(shù)據(jù)集進行聚類分析.近年來,基于主題模型的多模態(tài)特征融合方法受到更多研究者的注意.文獻[30]提出Corr-LDA模型,捕捉圖片及其注釋在主題上的關系.文獻[31-33]提出一種多模態(tài)隱含狄利克雷模型(mm-LDA),同樣也使用主題模型對文本和圖片進行建模.上述2種方法都是在主題空間上對文本和視覺2種模態(tài)進行特征表示,2種方法都是假設文本和圖片2種模態(tài)的主題是一一對應的.文獻[32]研究了圖像和視頻的注釋2種模態(tài),考慮了不同主題之間的關系.文獻[34]針對社會事件數(shù)據(jù)的跨平臺多模態(tài)特性,提出非參貝葉斯的協(xié)同學習框架,通過采用共享域先驗和共享模態(tài)先驗的方式,實現(xiàn)跨平臺多模態(tài)事件數(shù)據(jù)的語義層次關聯(lián).類似的,文獻[31]還提出多模態(tài)概率模型挖掘用戶的主題信息,通過對用戶的文本注釋信息和用戶上傳的圖像信息進行建模,并將該多模態(tài)主題模型用于協(xié)同推薦和個性化圖像搜索中.文獻[35]提出對多媒體文檔中的文本和圖像內(nèi)容同時建模,分析多模態(tài)的語義主題關聯(lián),并應用于跨媒體檢索問題.文獻[36]認為,社會多媒體數(shù)據(jù)類型不限于模態(tài)多樣,也包括各種類型的媒體數(shù)據(jù),比如社會鏈接、地理信息等.文獻[37]提出利用社會媒體的屬性信息如標簽、空間和時間等特征構建融合的事件特征表示,并解決缺省屬性值的問題,最終通過分類性能驗證了提出的特征表示的有效性.最近,基于word embedding的多模態(tài)數(shù)據(jù)表示成為新的研究方向.基于主題模型和word embedding思想的混合模型被提出[38-39].近年來,深度學習也被用于多模態(tài)特征表示學習中[40-41],主要思想就是用不同模態(tài)的數(shù)據(jù)同時訓練多層自編碼器(autoencoders)或者受限玻爾茲曼機(RBM),從而得到共享的特征表示來對不同模態(tài)數(shù)據(jù)進行統(tǒng)一表示.
1.2 多媒體社會事件檢測與跟蹤
多媒體社會事件檢測與跟蹤是指利用事件多媒體數(shù)據(jù)進行分析,進而實現(xiàn)發(fā)現(xiàn)新事件、檢測不同種類的事件以及跟蹤各個子事件等任務.社會事件檢測與跟蹤起源于話題檢測與跟蹤(Topic Detection and Tracking,TDT)[42],從1998年開始,在DARPA的支持下,美國國家標準技術研究所(NIST)每年都要舉辦專門TDT國際會議,進行相應的系統(tǒng)評測.話題檢測主要包括文本的分類任務和聚類任務,最早的文本分類的思想是美國IBM公司的Luhn在20世紀50年代所做的研究,到1960年,Maron[43]最先提出基于關鍵詞的自動分類技術,Maron利用貝葉斯公式自動對文本進行分類,在文本分類領域做出了巨大貢獻.之后提出的大量的分類算法可用于文本分類,包括樸素貝葉斯方法[44-45]、決策樹(Decision Tree)算法[46]、 K-最鄰近(KNN)算法[47]、支持向量機(SVM)[48]等.聚類方法是一種無監(jiān)督的機器學習問題,大致可把聚類算法分為層次聚類算法[49]、劃分式聚類算法[50]、基于密度和網(wǎng)格的聚類算法[51].層次聚類算法使用數(shù)據(jù)的連接規(guī)則,通過一種層次架構方式,反復將數(shù)據(jù)進行分裂和聚合.劃分式聚類算法需要余弦規(guī)定聚類數(shù)目,經(jīng)過反復迭代,逐步降低目標函數(shù)誤差值,當目標函數(shù)收斂最終聚類完成.除此之外,在聚類算法領域,文獻[52]早期做了很多研究工作,分別從理論、算法和應用3個層次來討論聚類和分類技術,全面分析了聚類和分類算法的關鍵技術,總結了在統(tǒng)計、機器學習和模式識別等領域的聚類、分類算法.
傳統(tǒng)事件檢測基于上述基礎分類算法和聚類算法,一定程度上實現(xiàn)了相關功能,但是檢測效果不盡如人意.近年來,隨著社會事件數(shù)據(jù)在互聯(lián)網(wǎng)各個社交媒體平臺上的大量增長,研究者提出了一系列方法[37,53-58]對社會事件數(shù)據(jù)進行建模,以期達到更好的檢測效果.這些方法主要分為基于單模態(tài)分析和多模態(tài)分析這兩類.在單模態(tài)數(shù)據(jù)分析中,存在的方法主要采用文本信息(比如,事件名字、事件時間、事件位置、標題、標簽和描述等)或者視覺信息(比如,圖像和視頻)[55-56]來建模社會事件.文獻[55]通過分析和事件相關的Twitter推文信息,對事件可視進行研究分析.Makkonen等[56]提取有效的語義特征,比如名字、時間和位置等,然后學習了一個基于單個簇分區(qū)的相似性度量.Becker等[57]利用和社會媒體數(shù)據(jù)關聯(lián)的豐富的上下文信息并且使用一個新穎的聚類算法進行事件識別.清華大學的朱軍等[59]通過利用Max-margin的思想將SVM分類器思想融合到傳統(tǒng)主題模型中,利用新的損失函數(shù)訓練模型,大大提高了主題模型在多標簽分類任務的準確度.然而,這些單模態(tài)的方法忽略了事件的多模態(tài)屬性,不會好于多模態(tài)的方法.為了解決上述問題,許多研究者提出了多個不同特征相結合(比如,時間、標簽、位置特征、圖像和視頻等)來進行社會事件數(shù)據(jù)的表示[37,53-54,58].文獻[37]探究事件媒體數(shù)據(jù)的不同特征以及如何處理社會媒體數(shù)據(jù)中的缺失值.文獻[58]計算事件文檔的相似性,是基于單個不同的特征,比如時間、標簽和位置信息.文獻[53]通過使用機器學習方法訓練的模型和多個特征建模文檔的相似性,媒體文檔被分類到相關的事件中.文獻[54]對每類媒體事件構建了一個特征獨特性度量的組合,應用到事件識別框架.文獻[60]利用主題模型建模多模態(tài)社會媒體數(shù)據(jù),為處理大規(guī)模數(shù)據(jù)難以建模的問題,將模型融合到一個Boosting算法中,構建了大數(shù)據(jù)集下的多媒體社會事件檢測框架.
傳統(tǒng)的話題跟蹤(Traditional Topic Tracking,TTT)主要包括基于知識和基于統(tǒng)計的2種研究方向.前者的核心問題是分析報道內(nèi)容之間的關聯(lián)與繼承關系,通過特定的領域知識將相關報道串聯(lián)成一體.后者則根據(jù)特征的概率分布,采用統(tǒng)計策略裁決報道與話題模型的相關性.基于社會媒體的社會事件跟蹤是社會事件分析領域傳統(tǒng)且富有挑戰(zhàn)性的話題,目前已經(jīng)有大量的社會事件跟蹤相關的研究[61-63].事件跟蹤主要有2個挑戰(zhàn)性的因素.首先,社會媒體包含了大量的非結構化的多模態(tài)媒體數(shù)據(jù),它不同于傳統(tǒng)的只有單一模態(tài)的數(shù)據(jù),比如只有文本數(shù)據(jù).在不同的社會媒體平臺,社會事件具有豐富的多模態(tài)信息形式,比如文本、圖片、視頻.這些多模態(tài)信息形式可以互相補充,能夠更好地幫助用戶理解事件[64-65].例如,對于同一個社會事件,盡管不同的用戶在媒體平臺上表述的文本內(nèi)容可能不同,但是其平臺上的視覺信息可能是相同或者相似的.然而,目前的一些工作可能都是集中研究某一種形態(tài)比如文本或者圖片[56,66],而我們需要綜合考慮多模態(tài)數(shù)據(jù)進行社會事件的分析.其次,在社會事件的跟蹤過程中,各個媒體網(wǎng)站可能具有相似的事件報道,比如“占領華爾街”、“美國總統(tǒng)選舉”,它們都具有相似的主題,類似“美國,政府,總統(tǒng)”.但是,由于很多信息都是由用戶產(chǎn)生的,所以有可能會存在一些噪音.例如,評論和相應的圖片可能表述的事件沒有關系.這些問題很可能導致在線的社會事件跟蹤產(chǎn)生模型漂移.所以設計一個多模態(tài)融合策略和避免模型漂移問題的在線跟蹤方法對于社會事件跟蹤是非常有必要的.
針對上述挑戰(zhàn),目前已有學者提出相應的解決方案.有些方法采用視覺信息(例如圖像和視頻)或文本信息(例如名稱、時間參考、位置、標題、標簽和描述)[57,66-67]對事件進行檢測并跟蹤建模事件數(shù)據(jù).文獻[68]提出了一種新穎的主題檢測算法,主要想法是首先將傳入的新聞分類成預定義的類別,然后使用啟發(fā)式的條件式主題來識別新的事件.文獻[57]利用豐富的上下文相關的社交媒體數(shù)據(jù),使用聚類算法來識別事件.在社會事件分析中,很少有工作聚焦于一個統(tǒng)一的方式來分析多模態(tài)數(shù)據(jù).當前,在不同的社交媒體平臺中,社交媒體事件具有豐富的多模態(tài)信息,例如文本、圖像和視頻,它們有助于社會事件分析[64-65].微軟亞洲研究院的學者[69]假設社會媒體網(wǎng)絡之間存在中間層主題空間,提出把社會流媒體網(wǎng)絡Twitter的推文信息和視頻分享網(wǎng)絡YouTube中的視頻標簽信息投影到共同主題空間中進行數(shù)據(jù)關聯(lián)和聚合.最近,多模態(tài)的社會事件分析已經(jīng)受到相當大的關注. Kender等[70]研究手動標注的視覺概念(例如網(wǎng)站、人和對象)和文本主題標注之間的相關性,然后利用圖形切割技術對話題進行聚類. Zhai等[71]提出了一種概念跟蹤方法,通過相關文本和關鍵幀匹配來連接不同電視頻道的新聞報道. Zhang等[63]提出了一種用于跨域多事件跟蹤的CO-PMHT算法,它可以通過使用跨域知識來跟蹤事件,并隨時間獲取其摘要 信息.
1.3 多媒體社會事件動態(tài)演變分析
多媒體社會事件動態(tài)演變分析是指根據(jù)已有的事件多媒體數(shù)據(jù)訓練相應的模型,從而對即將到來的多媒體數(shù)據(jù)進行新事件的發(fā)現(xiàn)和與歷史事件的關聯(lián),并通過一定的可視化手段將事件時間節(jié)點上發(fā)生的子事件進行可視化展示,從而達到方便用戶了解事件發(fā)展脈絡、把握事件發(fā)展動態(tài)的目的.互聯(lián)網(wǎng)中含有大量的媒體數(shù)據(jù),當人們?yōu)g覽網(wǎng)頁或是搜索感興趣的社會事件時,往往會得到一系列雜亂無序的相關事件,不利于用戶方便地理解社會事件.時序性事件動態(tài)演變分析主要針對某個社會事件,方便快捷地可視化出該事件的時序性主題相關信息,使人們方便地理解事件的前因后果從而達到事件時序性動態(tài)演化分析的目標.時序性事件動態(tài)演化分析的內(nèi)容是,給定一個社會事件起始時間的數(shù)據(jù)信息,首先要對后續(xù)的社會多媒體事件進行識別,判斷該事件的相關數(shù)據(jù)內(nèi)容,并提取其主要的主題信息,從而進一步將事件的時序性發(fā)展進行可視化.時序性社會事件動態(tài)演變分析是社會事件分析的重要的研究領域,與社會事件檢測和社會事件跟蹤密切相關.許多基于主題模型的時序性主題演變方法被提出來進行動態(tài)演化分析.文獻[72]考慮了時間動態(tài)上的主題模型,獲得每個時間片的主題分布;文獻[73]組合傳統(tǒng)LDA 和SLDA 模型,提出一種跨時空的事件發(fā)現(xiàn)方法,為事件動態(tài)演變分析提供基礎.如何檢測大規(guī)模流文本的主題,并對主題的演變進行模擬,也是近年來的研究重點之一.文獻[74]提出一種在線的主題模型,用于順序分析文檔集合中主題的時序性演化,通過提出長時間和短時間等不同尺度的依賴關系,學習魯棒的時序性主題模型.文獻[68]提出了連續(xù)時間動態(tài)主題模型(cDTM),利用時序觀測文本的稀疏性處理離散時間點的數(shù)據(jù),但隨著事件粒度的增加,模型復雜性也迅速升高;文獻[75]利用主題模型分析消費者購買行為隨時間的演變過程,以及消費者興趣隨時間的變化,其模型可以根據(jù)當前數(shù)據(jù)和歷史估計結果自適應地跟蹤興趣的趨勢變化;文獻[63]為應對高效地組織和監(jiān)控多媒體社會事件面臨的挑戰(zhàn),提出一種跨域的多個事件跟蹤模型,利用不同域的多媒體數(shù)據(jù)協(xié)同合作提高事件的跟蹤性能.社會事件動態(tài)演化在實際場景中也有重要的應用,如突發(fā)事件監(jiān)控對維護社會安定有極其重要的作用.文獻[76]通過研究應急領域Web數(shù)據(jù),著重解決突發(fā)事件不確定性對事件跟蹤和演化的影響;文獻[77]為應對海量時序性社會多媒體數(shù)據(jù)中社會事件分析的難題,提出一種基于多模態(tài)主題模型的社會事件跟蹤和演變框架,不僅能有效捕捉多模態(tài)社會事件主題,同時也能夠獲得社會事件的演變趨勢.
話題發(fā)現(xiàn)是事件演變分析的前提.文獻[78]使用字典學習識別新興主題,并在Twitter時序數(shù)據(jù)流上進行實驗;文獻[79]提出一種分組主題模型,改進了傳統(tǒng)主題模型主題發(fā)現(xiàn)能力.社會事件的發(fā)展是有一定的生命周期的,包括事件產(chǎn)生、發(fā)展和消亡,其相關話題同樣也有一定的生命周期[80].事件動態(tài)演變分析首先需要對社會事件發(fā)展過程中的主題進行主題關聯(lián),但是由于不同時刻的事件主題變化可能較大,需要對事件演變過程產(chǎn)生的數(shù)據(jù)進行聚類.文獻[81]提出一種演變聚類方法,為保證鄰近時刻之間主題不會發(fā)生太大的偏差,將時間平滑度整合到聚類算法中,從而使模型對短期噪聲不敏感.文獻[82]使用DP方法自動確定聚類的數(shù)目.文獻[83-84]將事件依賴性結合DP方法,用以建模相鄰時間的數(shù)據(jù).文獻[85]通過在相鄰時刻添加時間依賴關系,發(fā)現(xiàn)不同時刻的事件演變模式,并在多重文本語料庫中進行實驗.文獻[80]采用分層狄利克雷(HDP)模型發(fā)掘事件內(nèi)容的演變模式,并用可視化系統(tǒng)呈現(xiàn)實驗結果. Wang等[86]沒有專注于事件的發(fā)展演變,轉而研究事件主題的消亡行為.文獻[87]提出一種主題熱度演化模型,引入基于內(nèi)容和基于連接的熱度計算方法,最后通過熱度演化模型預測出新興熱點話題.
事件摘要 是時序性事件演變可視化的基礎工作,多文檔摘要 可以有效地解決信息過載問題,在過去幾十年中備受關注.Gong等[88]提出了一個通用的文本摘要 方法,從原始文檔中提取句子進行排序獲得摘要 . Haghighi等[89]提出了一個新穎的產(chǎn)生式概率圖模型用于多文檔摘要 的分析,利用一個層次LDA 模型來表示多個語義層次的主題.Zhou等[90]提出了一種2層摘要 生成框架,來總結多個與災難相關的文檔.Wang等[91]提出了一種基于句子級語義的多文檔摘要 分析框架,主要是利用對稱非負矩陣分解模型.哈爾濱工業(yè)大學的學者對社會事件的跟蹤進行了比較深入的研究[92],通過結合事件抽取、時序分析、數(shù)據(jù)挖掘等技術,抽取出主題事件中的關鍵信息,并進行時序分析.
1.4 多媒體社會事件主題觀點分析
多媒體社會事件主題觀點分析是通過分析社會事件多媒體數(shù)據(jù),挖掘出不同組織或個人對熱點社會事件的觀點,也是網(wǎng)絡輿情分析的必需技術.觀點挖掘應用廣泛,不止用于用戶觀點意見傾向分析,也可用于其他觀點分析、觀點預測方向.主題觀點挖掘是多媒體最重要的任務之一,有著廣泛的應用,如基于產(chǎn)品評論的主題觀點挖掘[93]、跨不同的新聞媒體的社會事件主題分析[34,94-95]、政治爭議性觀點挖掘[96]和基于電影評論的主題觀點挖掘[97].但是,傳統(tǒng)的觀點挖掘方法在準確率和應用范圍上仍然有很大的不足.為提高觀點分析的準確度,文獻[98]提出統(tǒng)一的細粒度觀點分析框架,在預測精度和召回率上達到更好的性能.但是其研究觀點挖掘主要針對的是文本數(shù)據(jù),無法適應社會多媒體數(shù)據(jù)的觀點挖掘任務.文獻[99]從實用性應用出發(fā)研究客戶語音情感和來電意圖,通過對聲音數(shù)據(jù)的分析挖掘其情感類別.文獻[100]通過綜合考慮社會事件多媒體數(shù)據(jù)的多模態(tài)和多視角屬性,通過多媒體數(shù)據(jù)多模態(tài)屬性互補的特點充分挖掘社會事件的主題,通過分析不同視角的多媒體數(shù)據(jù)挖掘不同平臺的觀點差異,分析結果有助于指導用戶理解不同媒體的觀點傾向.
上面提出了多媒體社會事件分析面臨的多模態(tài)問題,另外,社會事件的主題學習在多個新聞媒體中也具有多視角屬性.這是因為不同的新聞媒體對于某個熱事件可能有相似的報道,然而他們也在同一主題中有些主題差異性.通常,來自不同媒體的報告內(nèi)容信息可以被分為2部分:來自所有數(shù)據(jù)集合(新聞媒體)的共同主題(Common topics)和來自每個集合的特定主題(Collection-specific topics).現(xiàn)實場景中事件觀點也具有多視角屬性.通過上述主題學習的主題不僅包含描述主題的詞,而且包含表達關于主題觀點的詞.換句話說,我們需要在不同集合中這些學習得到的多模態(tài)主題自動識別其觀點傾向并發(fā)現(xiàn)不同集合中的多視角差異.因此,多視角主題觀點挖掘的目的是通過利用多個跨域數(shù)據(jù)集,聯(lián)合學習代表性的主題和對應的觀點.我們以多個社交新聞媒體的社會事件分析的主題觀點挖掘為例,在政治辯論、報紙和許多社交媒體網(wǎng)站(例如YouTube、Facebook和Google News)上有許多政治上有爭議的社會事件,這些事件有可能影響成千上萬的人,例如“利比亞危機”、“敘利亞內(nèi)戰(zhàn)”和“阿富汗戰(zhàn)爭”.對于這些事件,每個新聞媒體對一個有爭議的話題不僅有許多不同的方面,而且有自己的觀點傾向,并且在這些話題中沒有絕對的對與錯.因此,聯(lián)合主題觀點挖掘是很重要的,能夠自動理解具有爭議性的社會熱點事件的主題以及不同新聞媒體對這個事件的觀點傾向.而且,主題觀點挖掘可以從社交新聞媒體中大量的多個信息源發(fā)現(xiàn)集體和主觀的信息,并且挖掘結果可以用于許多應用,例如多視角檢索[96]、觀點挖掘和情感分析[101],以及多視角關聯(lián)可視化[102].
如何在不同數(shù)據(jù)集合上進行多視角的主題觀點挖掘已經(jīng)吸引了很多研究者的興趣.基本上,主要有2個主要的研究課題:
1)跨數(shù)據(jù)集合的細粒度主題分析,主要是通過采用擴展的跨數(shù)據(jù)集合的主題模型來發(fā)現(xiàn)所有數(shù)據(jù)集合中的共同主題,以及建??缍鄠€集合的相似性和差異.例如,Paul 等[103]提出了一種跨數(shù)據(jù)集合主題挖掘算法來學習2個不同的主題分布:共同主題和特定主題,并且應用于跨文化分析.
2)主題和觀點的組合分析,主要是通過采用擴展主題模型方法或其他隱變量模型,同時學習主題和對應的意見.例如,文獻[97,100-101]提出了一種基于主題的輿論挖掘方法并應用于在線客戶評論的產(chǎn)品分析. Qiu 等[95]通過聯(lián)合建模3個重要因素:視點特定主題偏好、用戶身份和用戶交互,提出了一個潛在主題模型,用于論壇帖子的觀點挖掘.
這2個研究話題主要聚焦于文本領域中的主題觀點挖掘,通過利用一個隱變量模型來建模跨數(shù)據(jù)集合的數(shù)據(jù).
近年來,基于概率主題模型的主題觀點挖掘成為領域內(nèi)研究的熱點.在文獻[96]中,作者提出了一個新穎的相互依賴的主題模型,能夠從在線產(chǎn)品評論中學習潛在的主題及其評分信息. Moghaddam 等[101]綜合分析了一系列基于LDA變形的主題模型在觀點挖掘方面的有效性.在社會事件分析中,也有許多的觀點挖掘的研究工作[95,104].在文獻[95]中,通過聯(lián)合建模3個重要因素:視點特定主題偏好、用戶身份和用戶交互,作者提出了一個潛在變量模型用于觀點發(fā)現(xiàn). Fang 等[104]提出了一種多模態(tài)主題觀點挖掘模型,通過聯(lián)合建模主題和觀點來提取文本和視覺2種模態(tài)之間語義的相關性以及主題和觀點之間的相互依賴關系. Fang 等[96]提出了一種跨視角的主題模型,他們將詞匯表中詞拆分成不同生成過程的主題術語和觀點術語.Gutierrez 等[105]提出了一種多語言主題模型,從多語言非并行數(shù)據(jù)中同時學習一組共同主題,并自動發(fā)現(xiàn)跨語言社區(qū)對這些主題的觀點差異,用于理解多視角的文化差異.近年來基于社會多媒體事件的輿情分析吸引了很多學者的注意,文獻[106]通過研究網(wǎng)絡突發(fā)事件輿情的發(fā)展態(tài)勢和規(guī)律,將輿情演變生命周期劃分為孕育、擴散、變換和衰減4個階段,并分別對每個階段的議題展開研究.微博是互聯(lián)網(wǎng)信息傳播的重要渠道,是監(jiān)控公眾輿論的重要平臺,文獻[107]以微博數(shù)據(jù)為研究對象,開發(fā)出一個基于神經(jīng)網(wǎng)絡的微博輿情趨勢預測系統(tǒng).
2 發(fā)展趨勢
隨著移動互聯(lián)網(wǎng)時代的到來和社交媒體的蓬勃發(fā)展,互聯(lián)網(wǎng)多媒體數(shù)據(jù)將迎來進一步的爆炸式增長.智能手機和4G網(wǎng)絡為用戶的生活帶來了極大的方便,使用戶可以隨時隨地分享身邊發(fā)生的事情,用戶從信息的獲取者轉變成了信息的發(fā)布者和傳播者.大數(shù)據(jù)背景下的多媒體數(shù)據(jù)成為互聯(lián)網(wǎng)信息的主要載體和社會事件分析的主要研究對象.一方面,多媒體大數(shù)據(jù)集為社會事件分析提供了充足的數(shù)據(jù)基礎,為更加準確地挖掘分析社會事件提供了可能;另一方面,多媒體大數(shù)據(jù)集是大數(shù)據(jù)背景下進行社會事件分析的一個嚴峻挑戰(zhàn).不僅如此,當今互聯(lián)網(wǎng)用戶成為信息發(fā)布和上傳數(shù)據(jù)的主體,使得互聯(lián)網(wǎng)數(shù)據(jù)沒有統(tǒng)一的結構和規(guī)范,大數(shù)據(jù)集也會造成多媒體數(shù)據(jù)的多模態(tài)、跨平臺、數(shù)據(jù)噪聲大、信息冗余等難題.因此,當前多媒體事件分析的一個研究趨勢是如何針對大數(shù)據(jù)難以訓練的挑戰(zhàn)提出新的方法,或者是改進現(xiàn)有的方法使之適應大規(guī)模數(shù)據(jù)集.總結來說,當前多媒體社會事件分析領域有以下幾個發(fā)展趨勢:
1) 基于深度學習的多媒體社會事件分析研究
隨著深度學習技術在學術界和工業(yè)界掀起巨大的浪潮,研究者越來越意識到深度學習的優(yōu)勢,如卷積神經(jīng)網(wǎng)絡在圖像特征表示方面、循環(huán)神經(jīng)網(wǎng)絡對語言的描述能力等.目前,深度學習在圖像處理和計算機視覺等領域應用廣泛,但是在社會事件分析領域中仍沒有系統(tǒng)的方法.所以,將深度學習引入到社會事件分析的各個任務中是我們努力的方向.例如,利用卷積神經(jīng)網(wǎng)絡和詞嵌入技術對圖像和文本特征進行表示學習,利用遞歸神經(jīng)網(wǎng)絡考慮事件的時間信息進而研究事件跟蹤問題等.因此,將現(xiàn)有深度學習方法應用于社會事件分析任務,并研究有效深度網(wǎng)絡結構解決社會事件分析難題是我們進一步要研究的問題.
2) 事件預測相關理論探索.
事件預測是根據(jù)歷史事件演變過程和當前的多媒體媒體數(shù)據(jù)進行分析,了解事件的發(fā)展脈絡和發(fā)展速度,從而對事件的發(fā)展趨勢進行預測,如預測事件未來的熱度、關注度等.雖然目前已經(jīng)有學者開始研究社會事件預測的相關問題,并取得了一定的研究成果,但是大部分研究大多是基于統(tǒng)計分析和基于因果關系的預測方法,沒能提出一個統(tǒng)一的有效的社會事件預測模型.另外,不同源的社會事件數(shù)據(jù)存在一定的聯(lián)系,同時研究多源事件的協(xié)同學習,挖掘出相似事件的共性,為社會事件預測提供了一種思路.因此,如何高效地學習多源事件的協(xié)同主題,利用不同源數(shù)據(jù)促進預測分析是下一階段我們研究的重點問題之一.
3) 基于二元空間的事件關聯(lián)分析
移動互聯(lián)網(wǎng)時代,現(xiàn)實世界發(fā)生的事件在網(wǎng)絡空間中也會有相應的數(shù)據(jù)呈現(xiàn).物理空間和網(wǎng)絡空間中的事件往往是相互依存、相互補充的.目前大多數(shù)事件關聯(lián)分析研究都是基于網(wǎng)絡空間數(shù)據(jù),忽略了網(wǎng)絡空間和物理空間事件的一致性和關聯(lián)性.因此,利用二元空間數(shù)據(jù)的互補性和共生性,解決社會熱點事件的協(xié)同關聯(lián)分析等問題是值得我們深入研究的問題.另外,二元空間事件關聯(lián)分析面臨一些難題,如多源空間數(shù)據(jù)異構,物理空間和網(wǎng)絡空間數(shù)據(jù)分別具有多模態(tài)性,二元空間數(shù)據(jù)不同步等問題.如何解決這些難題,綜合二元空間的數(shù)據(jù)進行聯(lián)合建模實現(xiàn)社會事件關聯(lián)分析還沒有引起研究者足夠的重視.
3 需求與展望
在多媒體社會事件分析領域的發(fā)展研究中,國內(nèi)外的研究者提出了很多高效的模型和方法,取得了令人矚目的成就,逐步形成了4個研究方向:多媒體社會事件表示、多媒體社會事件檢測與跟蹤、多媒體社會事件動態(tài)演化分析和多媒體社會事件主題觀點分析,并提出了一系列方法應對多媒體數(shù)據(jù)的跨平臺、多模態(tài)、大規(guī)模、噪聲大和信息冗余等挑戰(zhàn),從而對多媒體數(shù)據(jù)進行高效、準確的分析,從中發(fā)現(xiàn)有價值的信息.
雖然在過去幾十年科研工作者在多媒體社會事件分析領域取得了很多驕人的成績,但是在新時期的發(fā)展背景下仍然有很多亟待解決的問題.首先,隨著可穿戴設備(如智能眼鏡等)和監(jiān)控設備的普及,越來越多的實際場景的社會媒體數(shù)據(jù)可被用于多媒體社會事件分析,因此研究實用性更強的多媒體社會事件分析系統(tǒng)需要被提上日程.其次,當今計算機硬件的性能增長速度不能滿足多媒體數(shù)據(jù)的增長速度,在利用大規(guī)模多媒體數(shù)據(jù)的同時,不能忽視大規(guī)模和超大規(guī)模社會媒體數(shù)據(jù)的冗余和噪聲,設計良好的數(shù)據(jù)過濾算法是提高數(shù)據(jù)質(zhì)量、減輕計算負荷的重點.最后,多媒體社會事件分析的研究不僅僅是局限于單領域的研究,必須結合語言學、社會學、計算機科學等多領域知識,只有如此才能開發(fā)出切合實際的社會事件分析系統(tǒng),為國家政治經(jīng)濟決策、社會輿論監(jiān)控提供有價值的指導.
本文圍繞多媒體社會事件表示、多媒體社會事件檢測與跟蹤、多媒體社會事件動態(tài)演化分析、多媒體社會事件主題觀點分析4個方面介紹國內(nèi)外在多媒體社會事件分析領域的研究進展,總結國內(nèi)外現(xiàn)有的社會事件分析技術方法,分析國際學科發(fā)展趨勢以及國內(nèi)的研究進展和研究特色.近年來國內(nèi)外學者在多媒體社會事件分析的4個方面進行了廣泛的研究并取得了驕人的成果,另外研究者并未停止對多媒體社會事件分析其他領域的探索,如社會事件預測、社會輿情分析等.盡管如此,在移動互聯(lián)網(wǎng)、大數(shù)據(jù)、社交媒體背景下,仍需要在方法創(chuàng)新、應用拓展以及基礎理論研究等方面進一步加強,并注重加強學術界到工業(yè)界從技術到產(chǎn)品的轉換以及交叉學科的互補研究.
參考文獻
References
[1] Salton G,Wong A,Yang C S.A vector space model for automatic indexing[J].Communications of the ACM,1975,18(11):613-620
[2] Debole F,Sebastiani F.Supervised term weighting for automated text categorization[C]∥ACM Symposium on Applied Computing,2003:784-788
[3] Jin W,Srihari R K.Graph-based text representation and knowledge discovery[C]∥ACM Symposium on Applied Computing,2007:807-811
[4] Deerwester S C,Dumais S T,Landauer T K,et al.Indexing by latent semantic analysis[J].Journal of the American Society for Information Science,1990,41(6):391-407
[5] Hofmann T.Probabilistic latent semantic indexing[C]∥International ACM SIGIR Conference on Research and Development in Information Retrieval,1999:50-57
[6] Blei D M,Ng A Y,Jordan M I.Latent dirichlet allocation[J].Journal of Machine Learning Research,2003,3:993-1022
[7] Blei D M,Mcauliffe J D.Supervised topic models[J].Advances in Neural Information Processing Systems,2010,3:327-332
[8] Hinton G E,Salakhutdinov R R.Reducing the dimensionality of data with neural networks[J].Science,2006,313(5786):504-507
[9] Hinton G E,Osindero S,Teh Y W.A fast learning algorithm for deep belief nets[J].Neural Computation,2006,18(7):1527-1554
[10] Hinton G E.Learning distributed representations of concepts[C]∥Proceedings of the Eighth Annual Conference of the Cognitive Science Society,1986:1-12
[11] Song F X,Liu S H,Yang J Y.A comparative study on text representation schemes in text categorization[J].Pattern Analysis and Applications,2005,8(1/2):199-209
[12] Mikolov T,Sutskever I,Chen K,et al.Distributed representations of words and phrases and their compositionality[J].International Conference on Neural Information Processing Systems,2013:3111-3119
[13] Bordes A,Usunier N,Garcia-Duran A,et al.Translating embeddings for modeling multi-relational data[C]∥International Conference on Neural Information Processing Systems,2013:2787-2795
[14] Perozzi B,Al-Rfou R,Skiena S.DeepWalk:Online learning of social representations[C]∥ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,2014:701-710
[15] Elman J L.Finding structure in time[J].Cognitive Science,1990,14(2):179-211
[16] Csurka G,Dance C,F(xiàn)an L X,et al.Visual categorization with bags of keypoints[C]∥Workshop on Statistical Learning in Computer Vision,2004:1-22
[17] Behmo R,Marcombes P,Dalalyan A,et al.Towards optimal naive Bayes nearest neighbor[C]∥European Conference on Computer Vision,2010:171-184
[18] Boiman O,Shechtman E,Irani M.In defense of nearest-neighbor based image classification[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2008:1-8
[19] Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks[C]∥International Conference on Neural Information Processing Systems,2012:1097-1105
[20] Simonyan K,Zisserman A.Very deep convolutional networks for large-scale image recognition[J].arXiv e-print,2014,arXiv:1409.1556
[21] Szegedy C,Liu W,Jia Y Q,et al.Going deeper with convolutions[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2015:1-9
[22] Srivastava R K,Greff K,Schmidhuber J.Highway networks[J].arXiv e-print,2015,arXiv:1505.00387
[23] He K M,Zhang X Y,Ren S Q,et al.Deep residual learning for image recognition[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2016:770-778
[24] Hardoon D R,Szedmak S,Shawe-Taylor J.Canonical correlation analysis:An overview with application to learning methods[J].Neural Computation,2004,16(12):2639-2664
[25] Rasiwasia N,Pereira J C,Coviello E,et al.A new approach to cross-modal multimedia retrieval[C]∥ACM International Conference on Multimedia,2010:251-260
[26] Guillaumin M,Verbeek J,Schmid C.Multimodal semi-supervised learning for image classification[J].Computer Vision and Pattern Recognition,2010,119(5):902-909
[27] Theil H,Chung C F.Relations between two sets of variates:The bits of information provided by each variate in each set[J].Statistics & Probability Letters,1988,6(3):137-139
[28] Katsurai M,Ogawa T,Haseyama M.A cross-modal approach for extracting semantic relationships between concepts using tagged images[J].IEEE Transactions on Multimedia,2014,16(4):1059-1074
[29] Zhang H,Zhuang Y T,Wu F.Cross-modal correlation learning for clustering on image-audio dataset[C]∥ACM International Conference on Multimedia,2007:273-276
[30] Blei D M,Jordan M I.Modeling annotated data[C]∥International ACM SIGIR Conference on Research and Development in Information Retrieval,2003:127-134
[31] Sang J,Xu C S.Right buddy makes the difference:An early exploration of social relation analysis in multimedia applications[C]∥ACM International Conference on Multimedia,2012:19-28
[32] Putthividhy D,Attias H T,Nagarajan S S.Topic regression multimodal latent dirichlet allocation for image annotation[J].Computer Vision and Pattern Recognition,2010,238(6):3408-3415
[33] Ramage D,Heymann P,Manning C D,et al.Clustering the tagged web[C]∥ACM International Conference on Web Search and Web Data Mining,2009:54-63
[34] Qian S S,Zhang T Z,Hong R C,et al.Cross-domain collaborative learning in social multimedia[C]∥ACM International Conference on Multimedia,2015:99-108
[35] Yu J,Cong Y H,Qin Z C,et al.Cross-modal topic correlations for multimedia retrieval[C]∥International Conference on Pattern Recognition,2012:246-249
[36] Sang J T,Xu C S,Jain R.Social multimedia ming:From special to general[C]∥IEEE International Symposium on Multimedia,2017:481-485
[37] Liu X L,Huet B.Heterogeneous features and model selection for event-based media classification[C]∥ACM International Conference on Multimedia Retrieval,2013:151-158
[38] Das R,Zaheer M,Dyer C.Gaussian LDA for topic models with word embeddings[C]∥Meeting of the Association for Computational Linguistics and the International Joint Conference on Natural Language Processing,2015:795-804
[39] Wan L,Zhu L,F(xiàn)ergus R.A hybrid neural network-latent topic model[C]∥International Conference on Artificial Intelligence and Statistics,2012:1287-1294
[40] Ngiam J,Khosla A,Kim M,et al.Multimodal deep learning[C]∥International Conference on Machine Learning,2011:689-696
[41] Srivastava N,Salakhutdinov R.Multimodal learning with deep Boltzmann machines[J].Journal of Machine Learning Research,2012,15(8):1967-2006
[42] Allan J.Detection as multi-topic tracking[J].Information Retrieval Journal,2002,5(2/3):139-157
[43] Maron M E.Automatic indexing:An experimental inquiry[J].Journal of the ACM,1961,8(3):404-417
[44] Lewis D D.Naive(Bayes) at forty:The independence assumption in information retrieval[C]∥European Conference on Machine Learning,1998:4-15
[45] Mccallum A,Nigam K.A comparison of event models for nave bayes text classification[C]∥AAAI-98 Workshop on Learning for Text Categorization,1998:41-48
[46] Sebastiani F.Machine learning in automated text categorization[J].ACM Computing Surveys,2001,34(1):1-47
[47] Altman N S.An introduction to kernel and nearest-neighbor nonparametric regression[J].American Statistician,1992,46(3):175-185
[48] Joachims T.Text categorization with support vector machines:Learning with many relevant features[J].European Conference on Machine Learning,1998,1398:137-142
[49] Fred A L N,Leitao J M N.Partitional vs hierarchical clustering using a minimum grammar complexity approach[C]∥Joint IAPR International Workshops on Statistical Techniques in Pattern Recognition(SPR) and Structural and Syntactic Pattern Recognition(SSPR),2000:193-202
[50] Marques de Sa J P.Pattern recognition:Concepts,methods and applications[M].Berlin:Springer-Verlag,2001
[51] Zhao Y C,Song J D.GDILC:A grid-based density-isoline clustering algorithm[C]∥International Conferences on Info-Tech and Info-Net,2001:140-145
[52] 卜東波.聚類/分類理論研究及其在文本挖掘中的應用[D].北京:中國科學院計算技術研究所,2000
BU Dongbo.Clustering/classification theory and its application in text mining[D].Beijing:Institute of Computing Technology,Chinese Academy of Sciences,2000
[53] Becker H,Naaman M,Gravano L.Learning similarity metrics for event identification in social media[C]∥ACM International Conference on Web Search and Data Mining,2010:291-300
[54] Reuter T,Cimiano P.Event-based classification of social media streams[C]∥ACM International Conference on Multimedia Retrieval,2012:22
[55] Diakopoulos N,Naaman M,Kivran-Swaine F.Diamonds in the rough:Social media visual analytics for journalistic inquiry[C]∥Visual Analytics Science and Technology,2011:115-122
[56] Makkonen J,Ahonen-Myka H,Salmenkivi M.Simple semantics in topic detection and tracking[J].Information Retrieval Journal,2004,7(3/4):347-368
[57] Becker H,Naaman M,Gravano L.Event identification in social media[C]∥International Workshop on the Web and Databases,2009:291-300
[58] Firan C S,Georgescu M,Nejdl W,et al.Bringing order to your photos:Event-driven classification of flickr images based on social knowledge[C]∥ACM International Conference on Information and Knowledge Management,2010:189-198
[59] Zhu J,Chen N,Perkins H,et al.Gibbs max-margin topic models with data augmentation[J].Journal of Machine Learning Research,2013,15(1):1073-1110
[60] Qian S S,Zhang T Z,Xu C S,et al.Social event classification via boosted multimodal supervised latent dirichlet allocation[J].ACM Transactions on Multimedia Computing Communications and Application,2015,11(2):27
[61] Kumaran G,Allan J.Text classification and named entities for new event detection[C]∥International ACM SIGIR Conference on Research and Development in Information Retrieval,2004:297-304
[62] Merler M,Huang B,Xie L X,et al.Semantic model vectors for complex video event recognition[J].IEEE Transactions on Multimedia,2012,14(1):88-101
[63] Zhang T Z,Xu C S.Cross-domain multi-event tracking via CO-PMHT[J].ACM Transactions on Multimedia Computing Communications & Applications,2014,10(4):31
[64] Wu X,Ngo C W,Hauptmann A G.Multimodal news story clustering with pairwise visual near-duplicate constraint[J].IEEE Transactions on Multimedia,2008,10(2):188-199
[65] Kalamaras I,Drosou A,Tzovaras D.Multi-objective optimization for multimodal visualization[J].IEEE Transactions on Multimedia,2014,16(5):1460-1472
[66] Yang Y M,Zhang J,Carbonell J,et al.Topic-conditioned novelty detection[C]∥Eighth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,2002:688-693
[67] Allan J,Wade C,Bolivar A.Retrieval and novelty detection at the sentence level[C]∥International ACM SIGIR Conference on Research and Development in Information Retrieval,2003:314-321
[68] Wang C,Blei D,Heckerman D.Continuous time dynamic topic models[J].arXiv e-print,2012,arXiv:1206.3298
[69] Roy S D,Mei T,Zeng W J.Bridging human-centered social media content across web domains[C]∥Human-Centered Social Media Analytics,2014:3-19
[70] Kender J R,Naphade M R.Visual concepts for news story tracking:Analyzing and exploiting the NIST TRECVID video annotation experiment[C]∥IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2005:1174-1181
[71] Zhai Y,Shah M.Tracking news stories across different sources[C]∥ACM International Conference on Multimedia,2005:2-10
[72] Griffiths T L,Steyvers M.Finding scientific topics[J].Proceedings of the National Academy of Sciences,2004,101(sup1):5228-5235
[73] Pan C C,Mitra P.Event detection with spatial latent dirichlet allocation[C]∥Proceedings of the 11th Annual International ACM/IEEE Joint Conference on Digital Libraries,2011:349-358
[74] Iwata T,Yamada T,Sakurai Y,et al.Online multiscale dynamic topic models[C]∥ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,2010:663-672
[75] Iwata T,Watanabe S,Yamada T,et al.Topic tracking model for analyzing consumer purchase behavior[C]∥International Joint Conference on Artificial Intelligence,2009:1427-1432
[76] Wu Q H,Lv J H,Ma S L,et al.EET:Efficient event tracking over emergency-oriented web data[C]∥International Joint Conference on Neural Networks,2015:1-8
[77] Qian S S,Zhang T Z,Xu C S,et al.Multi-modal event topic model for social event analysis[J].IEEE Transactions on Multimedia,2016,18(2):233-246
[78] Kasiviswanathan S P,Melville P,Banerjee A,et al.Emerging topic detection using dictionary learning[C]∥ACM International Conference on Information and Knowledge Management,2011:745-754
[79] Wang X R,Mohanty N,McCallum A.Group and topic discovery from relations and text[C]∥Proceedings of the 3rd International Workshop on Link Discovery,2005:28-35
[80] Gao Z J,Song Y Q,Liu S X,et al.Tracking and connecting topics via incremental hierarchical dirichlet processes[C]∥IEEE International Conference on Data Mining,2011:1056-1061
[81] Chi Y,Song X D,Zhou D Y,et al.Evolutionary spectral clustering by incorporating temporal smoothness[C]∥ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,2007:153-162
[82] Ahmed A,Xing E.Dynamic non-parametric mixture models and the recurrent Chinese restaurant process:With applications to evolutionary clustering[C]∥SIAM International Conference on Data Mining,2008:219-230
[83] Caron F,Davy M,Doucet A.Generalized Polya urn for time-varying dirichlet process mixtures[J].arXiv e-print,2012,arXiv:1206.5254
[84] Ren L,Dunson D B,Carin L.The dynamic hierarchical dirichlet process[C]∥International Conference on Machine Learning,2008:824-831
[85] Zhang J W,Song Y Q,Zhang C S,et al.Evolutionary hierarchical dirichlet processes for multiple correlated time-varying corpora[C]∥ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,2010:1079-1088
[86] Wang X H,Zhai C X,Hu X,et al.Mining correlated bursty topic patterns from coordinated text streams[C]∥ACM SIGKDD International Conference on Knowledge Discovery and Data Mining,2007:784-793
[87] Chen J F,Yu J J,Shen Y.Towards topic trend prediction on a topic evolution model with social connection[C]∥IEEE/WIC/ACM International Conferences on Web Intelligence and Intelligent Agent Technology,2013:153-157
[88] Gong Y H,Liu X.Generic text summarization using relevance measure and latent semantic analysis[C]∥International ACM SIGIR Conference on Research and Development in Information Retrieval,2001:19-25
[89] Haghighi A,Vanderwende L.Exploring content models for multidocument summarization[C]∥Human Language Technologies:The 2009 Conference of the North American Chapter of the Association for Computational Linguistics,2009:362-370
[90] Zhou W B,Shen C,Li T,et al.Generating textual storyline to improve situation awareness in disaster management[C]∥IEEE International Conference on Information Reuse and Integration,2015:585-592
[91] Wang D D,Li T,Zhu S G,et al.Multi-document summarization via sentence-level semantic analysis and symmetric matrix factorization[C]∥International ACM SIGIR Conference on Research and Development in Information Retrieval,2008:307-314
[92] 李風環(huán).主題事件挖掘及動態(tài)演化分析研究[D].哈爾濱:哈爾濱工業(yè)大學計算機科學與技術學院,2015
LI Fenghuan.Research on topic event mining and dynamic evolution analysis[D].Harbin:School of Computer Science and Technology,Harbin Institute of Technology,2015
[93] Moghaddam S,Ester M.ILDA:Interdependent LDA model for learning latent aspects and their ratings from online product reviews[C]∥International ACM SIGIR Conference on Research and Development in Information Retrieval,2011:665-674
[94] Yang X S,Zhang T Z,Xu C S.Cross-domain feature learning in multimedia[J].IEEE Transactions on Multimedia,2015,17(1):64-78
[95] Qiu M H,Jiang J.A latent variable model for viewpoint discovery from threaded forum posts[C]∥Proceedings of the 2013 Conference of the North American Chapter of the Association for Computational Linguistics,2013:1031-1040
[96] Fang Y,Si L,Somasundaram N,et al.Mining contrastive opinions on political texts using cross-perspective topic model[C]∥International Conference on Web Search and Web Data Mining,2012:63-72
[97] Liu B,Zhang L.A survey of opinion mining and sentiment analysis[M]∥Aggarwal C C,Zhai C X.Mining text data.Springer,2012:415-463
[98] Wang H,Zhang C,Yin H Z,et al.A unified framework for fine-grained opinion mining from online reviews[C]∥Hawaii International Conference on System Sciences,2016:1134-1143
[99] Li P J,Yan Y H,Wang C M,et al.Customer voice sensor:A comprehensive opinion mining system for call center conversation[C]∥IEEE International Conference on Cloud Computing and Big Data Analysis,2016:324-329
[100] Qian S S,Zhang T Z,Xu C S.Multi-modal multi-view topic-opinion mining for social event analysis[C]∥ACM on Multimedia Conference,2016:2-11
[101] Moghaddam S,Ester M.On the design of LDA models for aspect-based opinion mining[C]∥ACM International Conference on Information and Knowledge Management,2012:803-812
[102] Keller K L.Conceptualizing,measuring,and managing customer based brand equity[J].Journal of Marketing,1993,57(1):1-22
[103] Paul M,Girju R.Cross-cultural analysis of blogs and forums with mixed-collection topic models[C]∥Conference on Empirical Methods in Natural Language Processing,2009:1408-1417
[104] Fang Q,Xu C S,Sang J T,et al.Word-of-mouth understanding:Entity-centric multimodal aspect-opinion mining in social media[J].IEEE Transactions on Multimedia,2015,17(12):2281-2296
[105] Gutierrez E D,Shutova E,Lichtenstein P,et al.Detecting cross-cultural differences using a multilingual topic model[J].Transactions of the Association for Computational Linguistics,2016,4:47-60
[106] 方付建.突發(fā)事件網(wǎng)絡輿情演變研究[D].武漢:華中科技大學公共管理學院,2011
FANG Fujian.Research on the evolution of online public opinion in unexpected events[D].Wuhan:College of Public Administration,Huazhong University of Science and Technology,2011
[107] Chen N Y,Liu Y,Zhang Z J.A forecasting system of micro-blog public opinion based on artificial neural network[J].Tenth International Conference on Intelligent Information Hiding and Multimedia Signal Processing,2014,16(6):999-1004