国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

融合多模態(tài)特征的社會(huì)多媒體謠言檢測(cè)技術(shù)研究

2017-05-30 18:42:52金志威曹娟王博王蕊張勇東
關(guān)鍵詞:深度學(xué)習(xí)

金志威 曹娟 王博 王蕊 張勇東

摘要 以微博為代表的社會(huì)媒體的蓬勃發(fā)展在加速信息交流的同時(shí),也促使虛假謠言信息迅速在社會(huì)網(wǎng)絡(luò)上傳播,造成嚴(yán)重的后果.自動(dòng)謠言檢測(cè)問(wèn)題受到了國(guó)內(nèi)外學(xué)術(shù)界、產(chǎn)業(yè)界的廣泛關(guān)注.圍繞社會(huì)多媒體謠言檢測(cè)這一問(wèn)題,本文總結(jié)了融合多模態(tài)特征的謠言檢測(cè)相關(guān)技術(shù).首先從基本概念出發(fā),闡述了謠言的定義和社會(huì)多媒體的特點(diǎn),給出了社會(huì)多媒體謠言檢測(cè)問(wèn)題的定義.針對(duì)謠言檢測(cè)面臨的多模態(tài)特征抽取和模型構(gòu)建兩大難點(diǎn),分別總結(jié)和歸納了各種類(lèi)型的特征及其提取方法和不同的機(jī)器學(xué)習(xí)檢測(cè)模型.這些特征和算法是檢測(cè)謠言的基本手段,也是接下來(lái)研究的基礎(chǔ),可為進(jìn)一步謠言檢測(cè)的研究提供參考.關(guān)鍵詞謠言檢測(cè);社會(huì)媒體計(jì)算;多媒體計(jì)算;深度學(xué)習(xí);多模態(tài)特征融合;新聞?wù)J證

中圖分類(lèi)號(hào) TP393.092

文獻(xiàn)標(biāo)志碼 A

0 引言

隨著Web2.0時(shí)代的到來(lái),各種社會(huì)媒體應(yīng)運(yùn)而生.以微博為代表的社會(huì)媒體通過(guò)開(kāi)放平臺(tái)鼓勵(lì)用戶自己生產(chǎn)內(nèi)容(User Generated Content,UGC),并通過(guò)社交網(wǎng)絡(luò)進(jìn)行發(fā)布、分享、交流和傳播.這種基于社會(huì)媒體發(fā)布、分享多媒體內(nèi)容的社交行為方式成為人們生活中不可或缺的一部分,對(duì)社會(huì)產(chǎn)生了巨大的影響.

社會(huì)媒體平臺(tái)以其開(kāi)發(fā)與便捷性,極大地促進(jìn)了新聞信息的快速交流,成為當(dāng)今社會(huì)人們獲取信息資源的重要手段.根據(jù)中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)2017年1月發(fā)布的第39次《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》[1]表明,截止2016年12月,我國(guó)網(wǎng)民規(guī)模已達(dá)7.31億,其中84%的網(wǎng)民通過(guò)互聯(lián)網(wǎng)獲取新聞.對(duì)媒體工作者而言,社會(huì)媒體也是重要的新聞線索來(lái)源:根據(jù)2011年的統(tǒng)計(jì)數(shù)據(jù),超過(guò)80%的社會(huì)重大新聞第一手信息來(lái)源于微博[2].

然而,社交平臺(tái)在加速信息公開(kāi)的同時(shí),也帶來(lái)了謠言等虛假信息的泛濫.由于普通用戶的媒介素養(yǎng)參差不齊,造成UGC新聞普遍存在著虛假、差錯(cuò)、欠準(zhǔn)確等問(wèn)題.在缺乏有效的新聞?wù)J證技術(shù)以及“搶新聞”、“追熱點(diǎn)”的心態(tài)下,大量公眾人物和主流媒體無(wú)意間推轉(zhuǎn)相關(guān)虛假新聞,成為很多網(wǎng)絡(luò)謠言和虛假報(bào)道的推波助瀾者,嚴(yán)重?fù)p害了他們的媒體公信力.據(jù)《中國(guó)新媒體發(fā)展報(bào)告( 2013 )》[3]統(tǒng)計(jì)的2012 年的 100 件微博熱點(diǎn)輿情案例中,有1/3的熱點(diǎn)事件出現(xiàn)了謠言.國(guó)外的網(wǎng)絡(luò)謠言問(wèn)題同樣不容樂(lè)觀.在2016年美國(guó)總統(tǒng)大選期間,大量謠言在Facebook、Twitter上廣泛傳播,甚至被指控嚴(yán)重影響了美國(guó)大選結(jié)果[4].

網(wǎng)絡(luò)謠言的廣泛傳播會(huì)侵害到個(gè)體和社會(huì)的發(fā)展,對(duì)個(gè)體情感、社會(huì)經(jīng)濟(jì)、政治穩(wěn)定發(fā)展方面產(chǎn)生嚴(yán)重的負(fù)面影響.2013 年的10大假新聞之一“深圳90 后女孩當(dāng)街給殘疾乞丐喂飯感動(dòng)路人”,嚴(yán)重傷害了公眾的感情;2011年響水縣“爆炸謠言”引發(fā)十幾萬(wàn)人大逃亡,4人遇難,嚴(yán)重危害社會(huì)穩(wěn)定;2013年1條據(jù)稱(chēng)來(lái)自美聯(lián)社的Twitter消息說(shuō),“白宮發(fā)生2起爆炸,美國(guó)總統(tǒng)奧巴馬受傷”,導(dǎo)致美國(guó)股指暴跌,短時(shí)間內(nèi)市值蒸發(fā)了2 000億美元,產(chǎn)生巨大經(jīng)濟(jì)損失.

當(dāng)前,世界各國(guó)紛紛采取措施推動(dòng)互聯(lián)網(wǎng)謠言檢測(cè)的技術(shù)研究與應(yīng)用.在美國(guó),2017年初,企業(yè)代表Facebook在該平臺(tái)上線了一個(gè)“虛假標(biāo)簽”模塊供用戶手動(dòng)舉報(bào),若有多名用戶舉報(bào)則該條消息會(huì)自動(dòng)顯示“虛假新聞”的標(biāo)簽予以提醒.在英國(guó),媒體機(jī)構(gòu)代表BBC將要成立核實(shí)組,重點(diǎn)打擊網(wǎng)絡(luò)媒體上的虛構(gòu)性及有誤導(dǎo)性的新聞,此計(jì)劃已獲得2.9億英鎊的項(xiàng)目支持.歐盟也于2014年初分別成立了2個(gè)叫做“PHEME”和“REVEAL”的網(wǎng)絡(luò)謠言自動(dòng)檢測(cè)計(jì)劃,前者由英國(guó)謝菲爾德大學(xué)帶領(lǐng)15個(gè)研究機(jī)構(gòu)共同承擔(dān),主要側(cè)重網(wǎng)絡(luò)內(nèi)容可信度計(jì)算的理論研究;后者由多家企業(yè)聯(lián)合承擔(dān),主要側(cè)重網(wǎng)絡(luò)謠言檢測(cè)的產(chǎn)業(yè)化.在中國(guó),受中宣部的委托,2013年底,新華社聯(lián)合中國(guó)科學(xué)院計(jì)算機(jī)研究所研發(fā)了一個(gè)互聯(lián)網(wǎng)新聞?wù)J證系統(tǒng)[5].

由于社會(huì)媒體上的信息數(shù)量巨大、非結(jié)構(gòu)性、不完備、噪聲多等特點(diǎn),自動(dòng)化地檢測(cè)謠言仍然面臨著許多挑戰(zhàn).首先,無(wú)法僅僅基于文本內(nèi)容來(lái)有效檢測(cè)謠言.因?yàn)橹{言多是蓄意捏造出來(lái)誤導(dǎo)大眾的報(bào)道,通常手段是將虛假信息糅雜在部分真實(shí)情況中,很難僅根據(jù)內(nèi)容判定其真假;同時(shí),謠言在話題選擇、語(yǔ)言風(fēng)格等方面千變?nèi)f化,這導(dǎo)致了傳統(tǒng)的基于人工特征的、針對(duì)某一類(lèi)特定數(shù)據(jù)的文本分析算法無(wú)法有效檢測(cè)出社會(huì)媒體謠言,必須借助社交網(wǎng)絡(luò)上的用戶參與、內(nèi)容傳播鏈路、多媒體內(nèi)容等多種輔助信息來(lái)提高謠言檢測(cè)準(zhǔn)確率.而這又帶來(lái)謠言檢測(cè)的第2大挑戰(zhàn):如何有效地利用這些大規(guī)模、異構(gòu)的、跨模態(tài)的輔助信息來(lái)檢測(cè)謠言.

針對(duì)社會(huì)媒體謠言檢測(cè)的挑戰(zhàn)和發(fā)展,在厘清社會(huì)媒體謠言檢測(cè)相關(guān)概念后,本文重點(diǎn)介紹了基于多模態(tài)融合的方法檢測(cè)謠言的關(guān)鍵技術(shù),特別是從特征抽取和模型構(gòu)建2個(gè)方面展開(kāi)闡述,對(duì)謠言檢測(cè)問(wèn)題中的多模態(tài)特征以及特征融合方法進(jìn)行闡述.

1 社會(huì)多媒體謠言檢測(cè)概念

相對(duì)于各界對(duì)謠言檢測(cè)問(wèn)題的關(guān)注度而言,社會(huì)多媒體謠言檢測(cè)技術(shù)在研究領(lǐng)域的發(fā)展才剛剛起步,且出現(xiàn)了一些理解上的偏差.如一些研究團(tuán)隊(duì)通過(guò)媒體報(bào)道聲稱(chēng)目前的謠言檢測(cè)精度已經(jīng)達(dá)到90%以上,甚至已經(jīng)解決等,給研究者們?cè)斐珊芏嗬Щ蠛驼`解.究其原因,主要在于對(duì)于謠言檢測(cè)問(wèn)題理解上的不同,如什么是謠言,謠言檢測(cè)的類(lèi)型等.另一方面,基于社會(huì)多媒體的謠言檢測(cè)必然不能脫離社會(huì)媒體自身的特點(diǎn)進(jìn)行孤立地研究.為此,本節(jié)首先厘清謠言檢測(cè)問(wèn)題的定義,再結(jié)合社會(huì)多媒體的定義和特點(diǎn),綜合闡述了社會(huì)多媒體謠言檢測(cè)的相關(guān)概念,最后給出謠言檢測(cè)問(wèn)題的嚴(yán)格形式化定義.

1.1 謠言的定義

謠言,又稱(chēng)作“虛假傳言”、“虛假新聞”等,在傳統(tǒng)社會(huì)心理學(xué)上被定義為“真實(shí)值不確定或者故意偽造的報(bào)道或聲明”[6-7].而在實(shí)際研究與應(yīng)用中,多數(shù)研究者從謠言的“故意偽造”這個(gè)角度出發(fā),將權(quán)威渠道證實(shí)確實(shí)是偽造虛構(gòu)的消息認(rèn)定為謠言[8-13].基于該定義,在標(biāo)注謠言時(shí)從Snopes.com[4]、微博謠言舉報(bào)平臺(tái)[12-13]等權(quán)威渠道獲知每條消息是否為謠言,能夠快速得到大量權(quán)威標(biāo)注數(shù)據(jù).該定義無(wú)法判斷預(yù)測(cè)性、情感性等類(lèi)型謠言的真?zhèn)?,因?yàn)檫@類(lèi)謠言往往還不能夠證偽.

這種客觀定義的謠言,由于其具有標(biāo)注權(quán)威準(zhǔn)確、數(shù)據(jù)易收集的特點(diǎn),被謠言自動(dòng)檢測(cè)界廣泛采用.鑒于本文關(guān)注于如何檢測(cè)有害謠言并防止其繼續(xù)傳播造成危害,本文后續(xù)所有謠言都是指客觀定義的謠言.

1.2 社會(huì)多媒體的定義

針對(duì)社會(huì)多媒體的謠言檢測(cè)技術(shù),需要充分挖掘社會(huì)媒體的特征,利用其提供的多種資源.社會(huì)多媒體通常被定義為“支持個(gè)體參與、社區(qū)形成和社會(huì)交互的在線多媒體資源”[16].該定義指出了社會(huì)媒體的3個(gè)核心要素:多媒體內(nèi)容、網(wǎng)絡(luò)用戶以及用戶與媒體內(nèi)容之間的交互(圖1).

1)多媒體內(nèi)容.社會(huì)媒體網(wǎng)絡(luò)上的內(nèi)容由多種不同模態(tài)的內(nèi)容組成,主要包括文字、圖片、視頻、語(yǔ)音等.與傳統(tǒng)單一模態(tài)媒體相比,在社會(huì)媒體上發(fā)布的內(nèi)容通常包含一種以上的內(nèi)容形式,從而增加了內(nèi)容表現(xiàn)力,使其能夠得到更廣泛的傳播和關(guān)注.

2)網(wǎng)絡(luò)用戶.在社會(huì)多媒體中,網(wǎng)絡(luò)用戶既是內(nèi)容的生產(chǎn)者,又是內(nèi)容的消費(fèi)者,是社會(huì)多媒體的一個(gè)非常重要的組成部分.社交媒體平臺(tái)允許用戶編輯的特點(diǎn),使得用戶從信息的被動(dòng)接受者成為一個(gè)主動(dòng)的貢獻(xiàn)者.用戶的廣泛參與使得大量的UGC內(nèi)容出現(xiàn)在社會(huì)媒體平臺(tái)上,極大地促進(jìn)了社會(huì)多媒體內(nèi)容的繁榮.如果將網(wǎng)絡(luò)用戶理解為數(shù)據(jù)感知器,社會(huì)多媒體實(shí)際上是由用戶所見(jiàn)、所聽(tīng)、所說(shuō)、所想組成的.

3)用戶與多媒體內(nèi)容的交互.用戶和媒體內(nèi)容是社會(huì)媒體中的2個(gè)基本元素,通過(guò)交互行為,孤立的各個(gè)元素間形成了相互連接的網(wǎng)絡(luò):①用戶之間的交互,包括“加好友”、“關(guān)注”、“收聽(tīng)”等方式構(gòu)建成一個(gè)龐大的用戶社交網(wǎng)絡(luò),也正是多媒體內(nèi)容傳播的網(wǎng)絡(luò);②多媒體內(nèi)容通過(guò)標(biāo)簽、話題、超鏈接等形式構(gòu)建相互連接,形成不同的內(nèi)容子話題,這些連接關(guān)系對(duì)分析多媒體內(nèi)容有重要作用;③用戶對(duì)多媒體內(nèi)容進(jìn)行上傳、評(píng)論、轉(zhuǎn)發(fā)、標(biāo)注等操作與其進(jìn)行交互,促使用戶和多媒體內(nèi)容之間建立了豐富的社會(huì)關(guān)系.

與傳統(tǒng)的單一模態(tài)、孤立的內(nèi)容分析相比,社會(huì)多媒體在內(nèi)容和用戶交互上具有多模態(tài)性和互聯(lián)性,如何利用這些特性進(jìn)行高效的謠言檢測(cè)成為當(dāng)前研究的重點(diǎn).

從定義1可以看出我們把謠言檢測(cè)問(wèn)題定義為一個(gè)基于內(nèi)容和用戶的二分類(lèi)問(wèn)題.謠言檢測(cè)的目標(biāo)即為學(xué)習(xí)分類(lèi)預(yù)測(cè)函數(shù)F來(lái)區(qū)分謠言事件和真實(shí)事件.下面介紹謠言檢測(cè)的一般性方法.這里主要涉及到2個(gè)方面的研究重點(diǎn),一是如何有效地表示謠言事件的特征,二是如何利用這些特征來(lái)檢測(cè)謠言.為此,從特征抽取和模型構(gòu)建2個(gè)方面展開(kāi)介紹.特征抽取研究如何從文本、圖片、用戶等事件包含的豐富的多媒體內(nèi)容中抽取出有效信息,并把它們表示成結(jié)構(gòu)化的數(shù)學(xué)形式.在此基礎(chǔ)上,模型構(gòu)建基于這些特征表達(dá)利用機(jī)器學(xué)習(xí)模型來(lái)檢測(cè)謠言.近年來(lái),一些基于深度神經(jīng)網(wǎng)絡(luò)的方法將特征抽取與模型學(xué)習(xí)整合到一個(gè)端到端的網(wǎng)絡(luò)中,本文也將對(duì)這些工作進(jìn)行介紹.

2 謠言檢測(cè)特征抽取

傳統(tǒng)的新聞報(bào)道通常只包含新聞本身的內(nèi)容,而在社會(huì)媒體上,新聞消息會(huì)附帶有其他社會(huì)屬性的內(nèi)容,這些輔助內(nèi)容能夠用來(lái)提高謠言的特征表達(dá)性.如圖2所示的一則謠言消息中,就包含了文本內(nèi)容(包括文字描述、話題和外部鏈接等)、圖片內(nèi)容(2張圖片)和一些社交內(nèi)容(轉(zhuǎn)發(fā)、評(píng)論等).為此,將介紹如何從消息內(nèi)容和社交屬性2個(gè)方面提取有效特征來(lái)表達(dá)新聞消息.

2.1 內(nèi)容特征

新聞事件e其包含的微博消息集合M描述了新聞事件的關(guān)鍵信息.主要包含以下幾個(gè)方面的屬性:

1)文本內(nèi)容:主體的一段話來(lái)描述新聞事件.通常有能夠體現(xiàn)作者觀點(diǎn)和立場(chǎng)的重要結(jié)論,或支持性描述.

2)圖片/視頻:有些消息會(huì)通過(guò)附圖片/視頻的方式給文字描述提供視覺(jué)支撐.

3)其他內(nèi)容:社會(huì)媒體特有的語(yǔ)言交流方式會(huì)產(chǎn)生額外的內(nèi)容信息,比如話題(##)、用戶提醒(@)、超鏈接(URL)、表情符號(hào)等.

基于這些原始的內(nèi)容屬性,各種各樣的內(nèi)容特征被提取出來(lái)以區(qū)分謠言特性.通常這些特征可以分為文本特征和視覺(jué)特征2大類(lèi).下面介紹這2類(lèi)特征的主要抽取方法.

2.1.1 文本特征

謠言通常是蓄意捏造的,有誤導(dǎo)大眾意圖的虛假信息而不是客觀的事實(shí)報(bào)道,因而它們通常包含著一些觀點(diǎn)性或者煽動(dòng)性的語(yǔ)言,即所謂的“標(biāo)題黨”,來(lái)引誘大眾關(guān)注和傳播.例如,文獻(xiàn)[14]通過(guò)分析大量謠言信息流發(fā)現(xiàn)謠言在語(yǔ)言模式上具有“求真性”和“質(zhì)疑性”2大類(lèi)語(yǔ)言模式.所以,可以通過(guò)抽取語(yǔ)言學(xué)特征來(lái)描述謠言消息與真實(shí)消息的不同特點(diǎn).

文本特征通常從文本內(nèi)容的不同組織維度上抽取,包括字、詞、句、消息、消息集合等.為了更加全面地描述文本內(nèi)容,現(xiàn)有的研究工作不僅提出了一般性的文本特征,也結(jié)合平臺(tái)特點(diǎn)提出了領(lǐng)域相關(guān)的文本特征.

一般性的文本特征是指在其他自然語(yǔ)言處理任務(wù)中被廣泛應(yīng)用的一類(lèi)特征.常見(jiàn)的語(yǔ)言特征有:

1)詞法特征:?jiǎn)蝹€(gè)字級(jí)別的或單個(gè)詞級(jí)別的語(yǔ)言特征,包括總字?jǐn)?shù)、總詞數(shù)、不同單詞個(gè)數(shù)、每個(gè)詞平均長(zhǎng)度等[8].

2)句法特征:句子級(jí)別的語(yǔ)言特征,包括關(guān)鍵詞頻數(shù)(n-grams模型和詞袋模型[17])、標(biāo)點(diǎn)符號(hào)類(lèi)型和數(shù)目,以及詞性標(biāo)注等.

3)主題特征:主題級(jí)別的語(yǔ)言特征,例如對(duì)整個(gè)文檔集構(gòu)建主題模型(topic model[18]),還有提取的消息話題特征、消息的情感傾向特征等.

領(lǐng)域相關(guān)的文本特征是指跟發(fā)布平臺(tái)、消息類(lèi)型有關(guān)的一些特征,比如外部鏈接、應(yīng)用圖片數(shù)量、消息長(zhǎng)度等[19].其他的一些語(yǔ)言特征也能一定程度上捕捉文本的寫(xiě)作風(fēng)格用來(lái)檢測(cè)謠言,比如謊言檢測(cè)特征[20].

2.1.2 視覺(jué)特征

視覺(jué)內(nèi)容在謠言產(chǎn)生和傳播方面有著重要的作用.一方面,圖片等視覺(jué)內(nèi)容在社交網(wǎng)絡(luò)上廣泛存在.受限于單條微博的字?jǐn)?shù)限制,越來(lái)越多的微博消息通過(guò)圖片形式輔助傳遞信息.文獻(xiàn)[13]指出超過(guò)51.6%的微博帶有圖片.另一方面,圖片對(duì)于新聞信息的傳播具有重要影響.相比于純文本內(nèi)容,圖片能夠生動(dòng)形象地描述具體場(chǎng)景,吸引到更多的注意力.統(tǒng)計(jì)發(fā)現(xiàn),平均而言,帶有圖片的微博獲得的轉(zhuǎn)發(fā)量是不帶圖片微博的11倍(191比16)[13].如此巨大的差距體現(xiàn)了圖片在信息傳播過(guò)程中的重要作用.基于上述分析,很有必要綜合利用圖片等視覺(jué)內(nèi)容輔助進(jìn)行謠言檢測(cè).

視覺(jué)特征指從以圖片視頻等視覺(jué)內(nèi)容為中心抽取的一組特征,根據(jù)特征抽取方式的不同,視覺(jué)特征大致可以分為以下3類(lèi):圖片相關(guān)特征、視覺(jué)內(nèi)容特征以及深度學(xué)習(xí)特征.

1)視覺(jué)統(tǒng)計(jì)特征

視覺(jué)統(tǒng)計(jì)特征通常直接從圖片附屬的屬性抽取特征而對(duì)其具體視覺(jué)內(nèi)容不做分析.在文獻(xiàn)[7]中定義了一個(gè)特征來(lái)描述用戶是否包含頭像,用來(lái)評(píng)估該用戶的可信度.文獻(xiàn)[21]中定義了一個(gè)微博級(jí)的“has multimedia”特征來(lái)描述微博是否包含有多媒體信息這一狀態(tài).Gupta等[22]提出一種分類(lèi)方法來(lái)識(shí)別颶風(fēng)發(fā)生期間的各類(lèi)虛假圖片.文獻(xiàn)[10]發(fā)現(xiàn)虛假新聞更有可能包含之前已經(jīng)發(fā)布過(guò)的過(guò)時(shí)圖片,因此他們定義了圖片發(fā)布時(shí)間延遲這一特征,并用搜索引擎發(fā)現(xiàn)和獲取原始圖片的發(fā)布時(shí)間.Boididou等[23]提出了一項(xiàng)驗(yàn)證多媒體使用(Verifying Multimedia Use)的任務(wù),以致力于自動(dòng)預(yù)測(cè)包含多媒體內(nèi)容的微博是否為假.文獻(xiàn)[13]提出7種統(tǒng)計(jì)特征,描述微博事件中圖片大小、圖片比例、圖片熱點(diǎn)等特點(diǎn).

2)視覺(jué)內(nèi)容特征

傳統(tǒng)的基于內(nèi)容的圖片視覺(jué)特征從視覺(jué)語(yǔ)義的角度描述了圖片內(nèi)容.而針對(duì)謠言檢測(cè)這一任務(wù),我們通常并不關(guān)心圖片是否描述了某一特定對(duì)象或者場(chǎng)景.我們需要從區(qū)分謠言事件的角度分析圖片在真假事件中不同的分布特點(diǎn).如圖3所示,通過(guò)觀察真假2個(gè)不同事件中的熱門(mén)圖片,可以發(fā)現(xiàn),真新聞里圖片更多,差異性更大,而假新聞里,圖片多樣性更差[13].因此,在視覺(jué)特性上,文獻(xiàn)[13]提出5個(gè)能夠準(zhǔn)確描述圖片視覺(jué)分布的特征:

①視覺(jué)清晰度特征(visual clarity score)度量2個(gè)圖片集的分布差異.一個(gè)是指定新聞事件中的圖片集(事件集),另一個(gè)是包含所有圖片的全集.這個(gè)特征背后的邏輯很簡(jiǎn)單:如果一個(gè)事件集和全集中的圖片分布差距很大,那么這個(gè)事件很有可能是真實(shí)事件.這是基于真實(shí)事件中包含大量原創(chuàng)性圖片的假設(shè).可以通過(guò)構(gòu)建2個(gè)語(yǔ)言模型來(lái)計(jì)算這一特征,即分別對(duì)事件集和全集構(gòu)建視覺(jué)詞匯語(yǔ)言模型.視覺(jué)清晰度就定義為這2個(gè)模型之間的KL散度,圖片集的語(yǔ)言模型可以用視覺(jué)詞袋模型得到.

②視覺(jué)一致度特征(visual coherence score)描述了同一事件中的圖片是否具有一致性.相關(guān)的圖片通常會(huì)具有相似的視覺(jué)外觀,通過(guò)計(jì)算視覺(jué)一致度,能夠量化出同一事件中的圖片管理程度.這里定義視覺(jué)一致度為事件內(nèi)任意圖片對(duì)相似度的平均值.

③視覺(jué)相似性直方圖(visual similarity distribution histogram)從更加精細(xì)的粒度上衡量圖片集的一致性程度.該特征是基于事件中所有圖片的相似度矩陣計(jì)算的.首先計(jì)算兩兩圖片之間的相似度得到相似度矩陣,然后將矩陣量化就能得到對(duì)應(yīng)的直方圖.

④視覺(jué)多樣度(visual diversity score)度量了指定新聞事件圖片集中的視覺(jué)上的差異程度.和視覺(jué)一致度相比,這個(gè)特征直接計(jì)算了圖片的多樣性分布特點(diǎn),而且更加強(qiáng)調(diào)代表性的圖片.我們定義一個(gè)圖片的多樣度為該圖片到排在其之前的圖片中的最小的距離.視覺(jué)一致度計(jì)算的是整個(gè)圖片集上相似度的算術(shù)平均,而視覺(jué)多樣度計(jì)算的是不相似度的加權(quán)平均.在社會(huì)多媒體網(wǎng)絡(luò)上,可通過(guò)圖片獲得的轉(zhuǎn)發(fā)量來(lái)排序圖片.因此視覺(jué)多樣度打分能夠加重這些代表性圖片的權(quán)重,減少事件中噪音圖片的干擾.

⑤視覺(jué)聚類(lèi)度(visual clustering score)從圖片聚類(lèi)的角度衡量了圖片的視覺(jué)分布特點(diǎn).它被定義為圖片集中聚類(lèi)得到的類(lèi)簇的個(gè)數(shù).我們采用分層聚合聚類(lèi)算法自底向上地將相似圖片聚集成類(lèi).相比于其他聚類(lèi)算法,如K-means,該算法不需要事先指定聚類(lèi)個(gè)數(shù),而能根據(jù)數(shù)據(jù)分布特點(diǎn)自動(dòng)聚集出若干個(gè)類(lèi).設(shè)定相同的參數(shù)下,該算法能夠揭示出圖片集的多樣性特點(diǎn).我們移除了數(shù)量小于3的小類(lèi),并把剩下的類(lèi)的個(gè)數(shù)記作視覺(jué)聚類(lèi)度.

3)深度學(xué)習(xí)特征

近年來(lái),以卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNN)為代表的深度神經(jīng)網(wǎng)絡(luò)算法在視覺(jué)表征學(xué)習(xí)上展示出了遠(yuǎn)超傳統(tǒng)淺層模型的優(yōu)良效果.對(duì)于很多計(jì)算機(jī)視覺(jué)任務(wù),包括圖片分類(lèi)[24-25]和對(duì)象檢測(cè)[26-27],CNN都明顯優(yōu)于傳統(tǒng)的手工構(gòu)造的特征方法.在謠言檢測(cè)方面,文獻(xiàn)[28]提出利用CNN來(lái)學(xué)習(xí)謠言圖片中的復(fù)雜語(yǔ)義特征.一個(gè)典型的CNN包含了一系列卷積層和全連接層.一個(gè)深度卷積神經(jīng)網(wǎng)絡(luò)通常包含了數(shù)以百萬(wàn)計(jì)的參數(shù),這些參數(shù)在模型訓(xùn)練的過(guò)程中得以學(xué)習(xí).比如,AlexNet就包含了超過(guò)6 000萬(wàn)的參數(shù)[2].要訓(xùn)練這樣一個(gè)復(fù)雜的神經(jīng)網(wǎng)絡(luò)通常需要大量的標(biāo)注樣本,而現(xiàn)有的虛假圖片數(shù)據(jù)集太小,不能滿足直接訓(xùn)練的需求,因此文獻(xiàn)[28]提出利用深度遷移學(xué)習(xí)來(lái)解決特征學(xué)習(xí)和標(biāo)注數(shù)據(jù)集缺乏的難題.

2.2 社交特征

社會(huì)媒體最大的特點(diǎn)之一就是廣泛的互聯(lián)性,主要包括3個(gè)方面的互聯(lián)關(guān)系.一是用戶之間的交互:社會(huì)媒體用戶通過(guò)“加好友”、“關(guān)注”、“收聽(tīng)”等方式構(gòu)建成一個(gè)龐大的社交網(wǎng)絡(luò),多媒體內(nèi)容正是通過(guò)該網(wǎng)絡(luò)進(jìn)行快速傳播;二是媒體內(nèi)容的交互:多媒體內(nèi)容通過(guò)標(biāo)簽、話題、超鏈接等形式構(gòu)建相互連接,這些連接關(guān)系對(duì)分析多媒體內(nèi)容有重要作用;三是用戶與媒體內(nèi)容的交互:用戶對(duì)多媒體內(nèi)容進(jìn)行上傳、評(píng)論、轉(zhuǎn)發(fā)、標(biāo)注等操作與其進(jìn)行交互,促使用戶和多媒體內(nèi)容之間建立了豐富的社會(huì)關(guān)系.如轉(zhuǎn)發(fā)過(guò)同一個(gè)視頻的用戶之間存在聯(lián)系,由同一個(gè)用戶上傳的圖片和視頻之間存在聯(lián)系等.

因此,社會(huì)媒體上的謠言檢測(cè),除了直接抽取謠言的內(nèi)容特征外,還需要充分挖據(jù)這些互聯(lián)關(guān)系網(wǎng)絡(luò)中形成的各類(lèi)特征.下面分別從用戶網(wǎng)絡(luò)、內(nèi)容網(wǎng)絡(luò)和交互網(wǎng)絡(luò)3個(gè)方面介紹基于社交屬性的謠言檢測(cè)特征.

2.2.1 基于用戶的社交特征

謠言傳播過(guò)程中,可能存在大量“水軍”推波助瀾,或者一些惡意賬戶故意捏造、傳播.前文也分析過(guò)不同類(lèi)型的賬戶對(duì)大眾具有不同的可信度.因此利用用戶畫(huà)像的方法抽取基于用戶的特征能夠幫助提高謠言檢測(cè)準(zhǔn)確率.基于用戶的社交特征是指描述用戶在社交網(wǎng)絡(luò)中傳播信息時(shí)展現(xiàn)出來(lái)的特點(diǎn).從不同的粒度看,這些特征可以分為2大類(lèi):個(gè)體特征和群組特征.

1)個(gè)體特征

個(gè)體特征是指針對(duì)單個(gè)用戶的各項(xiàng)統(tǒng)計(jì)指標(biāo)中抽取出來(lái),用來(lái)分析該特點(diǎn)用戶可信度的一系列特征.主要包括注冊(cè)時(shí)間、用戶名類(lèi)型、年齡、性別、粉絲數(shù)、關(guān)注數(shù)、發(fā)布微博數(shù)等[8].

2)群組特征

群組特征描述的是在信息傳播過(guò)程中具有相似性的某個(gè)用戶群體的整體特征[9].抽取該類(lèi)特征時(shí)的一個(gè)基本的假設(shè)就是傳播謠言的社區(qū)和傳播真實(shí)消息的社區(qū)各不相同并且有不同的特點(diǎn).群組特征通常是從個(gè)體特征聚合而來(lái)的,例如認(rèn)證用戶的比例、平均粉絲數(shù)等[29-30].

2.2.2 基于內(nèi)容的社交特征

新聞事件在社會(huì)媒體上傳播的過(guò)程中,不同的用戶會(huì)通過(guò)轉(zhuǎn)發(fā)、評(píng)論的方式表達(dá)各自的觀點(diǎn)、情感傾向,例如質(zhì)疑原文真實(shí)性的態(tài)度、反感的情緒表達(dá)等.這些來(lái)自社交網(wǎng)絡(luò)的反饋信息在謠言檢測(cè)中具有重要的價(jià)值.通過(guò)抽取基于內(nèi)容的設(shè)計(jì)特征,能夠有效捕捉這些反饋情感和特征.從考察的不同角度和粒度出發(fā),基于內(nèi)容的社交特征大致可以分為3類(lèi):消息級(jí)的內(nèi)容特征、群組級(jí)的內(nèi)容特征和時(shí)間片級(jí)的內(nèi)容特征.

1)消息級(jí)特征

消息級(jí)特征為每條轉(zhuǎn)發(fā)或評(píng)論的微博抽取特征來(lái)描述單條消息.因此上文中提到的各種內(nèi)容特征提取方法和一些基于詞嵌入的模型方法[31]都可以用來(lái)提取消息級(jí)特征.文獻(xiàn)[21,30]采用基于主題模型的方法(LDA)來(lái)抽取每條消息的話題特征.

2)群組級(jí)特征

內(nèi)容的群組級(jí)特征基于“群體智慧”的思想,從大量消息中總結(jié)出謠言檢測(cè)特征.這些特征通常是通過(guò)聚合消息級(jí)特征產(chǎn)生的.文獻(xiàn)[8]中列舉了大量的群組級(jí)特征,通過(guò)在這些特征上構(gòu)建決策樹(shù)來(lái)檢測(cè)謠言事件.文獻(xiàn)[11]通過(guò)聚類(lèi)的方式將描述相同話題的消息聚合在一起抽取特征.

3)時(shí)間級(jí)特征

內(nèi)容的時(shí)間級(jí)特征考察的是隨著時(shí)間的變化事件中消息的特征變化情況[30].無(wú)監(jiān)督的深度神經(jīng)網(wǎng)絡(luò)方法(反饋神經(jīng)網(wǎng)絡(luò)RNN)被用來(lái)學(xué)習(xí)消息流隨著時(shí)間變化的特征[31-32].文獻(xiàn)[29]通過(guò)考察隨時(shí)間變化的消息數(shù)量變化曲線,抽取特征刻畫(huà)謠言消息特征.

2.2.3 基于交互網(wǎng)絡(luò)的社交特征

謠言消息在社交網(wǎng)絡(luò)上的傳播可以形成轉(zhuǎn)發(fā)傳播樹(shù),另一方面參與傳播的用戶也潛在地隱含在一個(gè)用戶社交網(wǎng)絡(luò)中.通過(guò)抽取特征來(lái)描述這些關(guān)系網(wǎng)絡(luò)就形成了基于交互網(wǎng)絡(luò)的謠言檢測(cè)特征.文獻(xiàn)[29]通過(guò)網(wǎng)絡(luò)度和聚類(lèi)系數(shù)來(lái)描述傳播網(wǎng)絡(luò)和社交網(wǎng)絡(luò)特征.文獻(xiàn)[21]提出一種基于核方法的SVD模型來(lái)描述簡(jiǎn)化后的轉(zhuǎn)發(fā)樹(shù).

圖4總結(jié)了社會(huì)媒體謠言檢測(cè)中常用的各類(lèi)特征.

3 謠言檢測(cè)模型構(gòu)建

從社會(huì)媒體上抽取出謠言檢測(cè)的大量特征后,如何構(gòu)建模型分類(lèi)謠言成為研究的關(guān)鍵.從對(duì)特征的不同利用方式出發(fā),目前主要有2種模型構(gòu)建方法:基于特征分類(lèi)的方法和基于傳播的方法.下面以一些典型應(yīng)用案例出發(fā)介紹這2類(lèi)方法.

3.1 基于特征分類(lèi)的謠言檢測(cè)模型

謠言檢測(cè)問(wèn)題本質(zhì)上是一個(gè)二分類(lèi)問(wèn)題,抽取出大量特征后,可以直接對(duì)特征進(jìn)行傳統(tǒng)的機(jī)器學(xué)習(xí)建模得到分類(lèi)器來(lái)進(jìn)行謠言分類(lèi).Castillo等[8]首先應(yīng)用分類(lèi)算法決策Twitter上新聞事件的真假.他們提取了來(lái)自文本內(nèi)容、用戶以及傳播等多方面的特征,并比較了這些特征在決策樹(shù)、SVM等多種常用分類(lèi)器上的新聞?wù)J證效果.針對(duì)中文微博的新聞?wù)J證通常也遵循了同樣的思路,文獻(xiàn)[9-10]提出了幾個(gè)新的特征來(lái)增強(qiáng)中文微博的謠言檢測(cè)效果,同樣采用邏輯回歸等傳統(tǒng)分類(lèi)器進(jìn)行分類(lèi).Wu等[21]提出一種混合SVM分類(lèi)器來(lái)檢查微博上的謠言.該分類(lèi)器利用一種隨機(jī)行走的核方法(random walk graph kernel)來(lái)描述單條微博的復(fù)雜轉(zhuǎn)發(fā)樹(shù),并與通常的RBF核結(jié)合,更加準(zhǔn)確地描述了微博傳播的特征,取得了良好的謠言檢測(cè)結(jié)果.為進(jìn)一步整合消息級(jí)和群組級(jí)特征,Jin等[33]從消息級(jí)和群組級(jí)2個(gè)層次分別進(jìn)行分類(lèi)器學(xué)習(xí)再采用類(lèi)似于stacking的集成學(xué)習(xí)方法檢測(cè)多媒體謠言.

3.2 基于傳播的謠言檢測(cè)模型

傳統(tǒng)的基于特征的分類(lèi)算法孤立地分析單條微博或者單個(gè)新聞事件的可信度,而忽略了不同微博和事件具有廣泛的關(guān)聯(lián).為此,基于傳播的方法被提出來(lái)從整體上評(píng)估整個(gè)內(nèi)容網(wǎng)絡(luò)中各消息的真假.該類(lèi)算法的核心是內(nèi)容網(wǎng)絡(luò)的構(gòu)建和可信度傳播算法.具體而言,該類(lèi)算法通過(guò)定義微博間的連接關(guān)系將時(shí)間相關(guān)的所有內(nèi)容連接成一個(gè)可信度傳播網(wǎng)絡(luò);隨后,不同消息的可信度在一定約束條件下在該網(wǎng)絡(luò)上彼此影響和傳播直到收斂.不同消息的初始可信度值可以通過(guò)基于分類(lèi)的方法學(xué)習(xí)得到,因此該方法往往比簡(jiǎn)單的分類(lèi)方法具有更好的認(rèn)證準(zhǔn)確率和穩(wěn)定性.

設(shè)計(jì)可靠、合理的可信度傳播算法是基于傳播的新聞?wù)J證方法的關(guān)鍵.不同對(duì)象的可信度初值在內(nèi)容網(wǎng)絡(luò)上的傳播過(guò)程可以看作是一種半監(jiān)督的網(wǎng)絡(luò)學(xué)習(xí)模型.作為一種有效的圖學(xué)習(xí)方法,半監(jiān)督圖學(xué)習(xí)的理論已被廣泛的研究和應(yīng)用[34-35].該類(lèi)算法的目標(biāo)是在保持已有標(biāo)注數(shù)據(jù)和網(wǎng)絡(luò)結(jié)構(gòu)一致性的前提下,預(yù)測(cè)未標(biāo)注數(shù)據(jù)的類(lèi)別.

Gupta等[22]構(gòu)造了一個(gè)包含用戶、微博消息和事件的可信度傳播網(wǎng)絡(luò),將不同實(shí)體基于相似度連接在一起.基于半監(jiān)督學(xué)習(xí)的思想,他們用了一種啟發(fā)式的迭代算法來(lái)求解可信度的傳播結(jié)果.

基于特征的分類(lèi)算法通常將事件中涉及到的每條信息當(dāng)成孤立的對(duì)象,而沒(méi)有考慮到內(nèi)容之間可能存在的內(nèi)在關(guān)系.另一方面,根據(jù)標(biāo)簽、話題、超鏈接等形成的內(nèi)容網(wǎng)絡(luò)往往稀疏且噪音多,不能滿足謠言檢測(cè)的需要.文獻(xiàn)[11]注意到除了事件級(jí)的關(guān)聯(lián)之外(即2條消息是否描述了同一個(gè)謠言事件),同一事件下的消息還會(huì)在社交網(wǎng)絡(luò)上形成不同子事件.如圖5所示,在“深圳最美女孩當(dāng)街為乞討老人喂飯”這一謠言事件中,隨著事件進(jìn)展,社交網(wǎng)絡(luò)上出現(xiàn)了不同的討論重點(diǎn),形成了不同的子事件.

每個(gè)子事件有不同的可信度,子事件之間也存在一定關(guān)聯(lián).與孤立地計(jì)算每條消息的可信度相比,綜合考慮子事件的可信度以及子事件之間的依賴(lài)關(guān)系能夠更加準(zhǔn)確地判斷新聞事件的真假.為此,文獻(xiàn)[11]提出一種分層的內(nèi)容網(wǎng)絡(luò),它能夠從微博消息、子事件和事件3個(gè)不同粒度全面地考察新聞事件,構(gòu)建更加真實(shí)的可信度傳播網(wǎng)絡(luò).其中子事件通過(guò)聚類(lèi)算法將語(yǔ)義相似的微博消息聚合而成.

對(duì)于一個(gè)新聞事件來(lái)說(shuō),一個(gè)分層的內(nèi)容網(wǎng)絡(luò)由3層網(wǎng)絡(luò)(消息層、子事件層和事件層)以及它們之間的邊組成.如圖6所示,該網(wǎng)絡(luò)中有3種在上節(jié)中定義的實(shí)體:消息m、子事件s和事件e,以及4種類(lèi)型的邊:消息到子事件之間的邊(g(mi,sj))、子事件到事件之間的邊(p(si,ej))、消息之間互聯(lián)的邊(f(mi,mj))以及子事件之間互聯(lián)的邊(h(si,sj)).各邊的權(quán)重都定義為該邊2個(gè)定點(diǎn)的函數(shù).通過(guò)子事件聚類(lèi),消息連接到對(duì)應(yīng)的子事件.

該網(wǎng)絡(luò)中各類(lèi)型的邊權(quán)重計(jì)算方法如下:

1)消息-消息.在可信度傳播網(wǎng)絡(luò)中,消息間的邊權(quán)值決定了每條消息是如何影響其他消息的可信度的.假定相似的消息很大程度上具有相似的可信度值,這樣,2條消息越相似,它們之間的邊權(quán)重就越大.考慮到微博是140字以?xún)?nèi)的短文本,可利用Jaccard系數(shù)來(lái)計(jì)算2條消息的unigram序列之間的相似度.同時(shí)考慮2條消息的情感值極性,定義不同情感傾向的消息之間的邊權(quán)值為0,相同情感傾向的消息之間的邊權(quán)值正比于2條消息的內(nèi)容相似度.

2)子事件-子事件.同理,相似子事件之間應(yīng)該有更強(qiáng)的關(guān)聯(lián)性.用每個(gè)子事件聚類(lèi)中心代表該子事件,這樣,通過(guò)計(jì)算2個(gè)聚類(lèi)中心之間的余弦距離,可以得到子事件之間的關(guān)聯(lián)度.

3)消息-子事件.定義一條消息對(duì)所在子事件的影響來(lái)自2個(gè)方面:一是消息與子事件的一致程度,二是消息在子事件中的重要程度.其中一致性可由文本相似度來(lái)刻畫(huà),重要性由媒體轉(zhuǎn)發(fā)量來(lái)刻畫(huà).

4)子事件-事件.子事件對(duì)事件的影響同樣也由相似度和轉(zhuǎn)發(fā)重要程度2個(gè)方面決定.

通過(guò)把不同實(shí)體在該分層網(wǎng)絡(luò)上的可信度傳播過(guò)程定義為一個(gè)圖優(yōu)化問(wèn)題,定義損失函數(shù)后,利用梯度下降算法可以得到該函數(shù)的迭代解,從而得到各實(shí)體的最終可信度值.

4 小結(jié)

社會(huì)媒體由于其開(kāi)放性、實(shí)時(shí)性和交互性,成為當(dāng)今社會(huì)人們發(fā)布、獲取、傳播信息的重要渠道.然而由于缺乏有效監(jiān)管,大量虛假謠言信息的泛濫不僅損害媒體公信力,還有可能造成重大的經(jīng)濟(jì)、政治損失,破壞網(wǎng)絡(luò)輿情環(huán)境和社會(huì)穩(wěn)定.針對(duì)自動(dòng)化謠言檢測(cè)這一問(wèn)題,本文首先闡述了謠言的各種定義以及社會(huì)媒體的特性,并以此給出謠言檢測(cè)的明確定義.針對(duì)謠言檢測(cè)面臨的特征抽取和模型構(gòu)建2大難題,文章總結(jié)概括了現(xiàn)有工作中的各種方法.具體而言,從網(wǎng)絡(luò)謠言的內(nèi)容和社交屬性2個(gè)方面出發(fā),介紹了謠言檢測(cè)中應(yīng)用的5大子類(lèi)的特征.這些特征全面描述了謠言的文本、視覺(jué)內(nèi)容和社交化屬性,為構(gòu)造有效的謠言檢測(cè)算法提供了基礎(chǔ).在謠言檢測(cè)模型方面,文章總結(jié)了現(xiàn)有工作中的2大類(lèi)算法.基于特征的分類(lèi)方法簡(jiǎn)單有效,但受限于人工構(gòu)造的特征以及模型表達(dá)能力,通常效果不是最優(yōu)的.基于傳播的算法能夠有效利用謠言的社會(huì)屬性構(gòu)建內(nèi)容網(wǎng)絡(luò)來(lái)檢測(cè)謠言.本文總結(jié)的各類(lèi)特征方法提供了構(gòu)建一個(gè)有效謠言檢測(cè)算法的指南,同時(shí)也為進(jìn)一步研究提供了參考.

參考文獻(xiàn)

References

[1] 中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心.中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[R].2017

China Internet Network Information Center.Statistical report on the development of Internet in China[R].2017

[2] 劉瓊.中國(guó)網(wǎng)絡(luò)新聞可信度研究[D].武漢:華中科技大學(xué)新聞與信息傳播學(xué)院,2011

LIU Qiong.Study on Chinas Internet news credibility[D].Wuhan:Journalism and Information Communication School,Huazhong University of Science and Technology,2011

[3] 唐緒軍.中國(guó)新媒體發(fā)展報(bào)告[M].北京:社會(huì)科學(xué)文獻(xiàn)出版社,2013

TANG Xujun.Annual report on development of new media in China[M].Beijing:Social Sciences Academic Press,2013

[4] Jin Z W,Cao J,Guo H,et al.Detection and analysis of 2016 US presidential election related rumors on twitter[C]∥International Conference on Social Computing,Behavioral-Cultural Modeling and Prediction and Behavior Representation in Modeling and Simulation,2017:14-24

[5] Zhou X,Cao J,Jin Z W,et al.Real-time news certification system on Sina weibo[C]∥Proceedings of the 24th International Conference on World Wide Web,2015:983-988

[6] Allport G W,Postman L.The psychology of rumor[M].New York:Heney Holt and Company,1947

[7] Gupta M,Zhao P X,Han J W.Evaluating event credibility on twitter[C]∥Proceedings of the SIAM International Conference on Data Mining,2012:153-164

[8] Castillo C,Mendoza M,Poblete B.Information credibility on twitter[C]∥Proceedings of the 20th International Conference on World Wide Web,2011:675-684

[9] Yang F,Liu Y,Yu X H,et al.Automatic detection of rumor on Sina weibo[C]∥Proceedings of the ACM SIGKDD Workshop on Mining Data Semantics,2012:13

[10] Sun S Y,Liu H Y,He J,et al.Detecting event rumors on Sina weibo automatically[C]∥Asia-Pacific Web Conference:Web Technologies and Applications,2013:120-131

[11] Jin Z W,Cao J,Jiang Y G,et al.News credibility evaluation on microblog with a hierarchical propagation model[C]∥IEEE International Conference on Data Mining,2014:230-239

[12] Jin Z W,Cao J,Zhang Y D,et al.News verification by exploiting conflicting social viewpoints in microblogs[C]∥Proceedings of the Thirtieth AAAI Conference on Artificial Intelligence,2016:2972-2978

[13] Jin Z W,Cao J,Zhang Y D,et al.Novel visual and statistical image features for microblogs news verification[J].IEEE Transactions on Multimedia,2017,19(3):598-608

[14] Zhao Z,Resnick P,Mei Q Z.Enquiring minds:Early detection of rumors in social media from enquiry posts[C]∥Proceedings of the 24th International Conference on World Wide Web,2015:1395-1405

[15] Morris M R,Counts S,Roseway A,et al.Tweeting is believing? Understanding microblog credibility perceptions[C]∥ACM Conference on Computer Supported Cooperative Work,2012:441-450

[16] Naaman M.Social multimedia:Highlighting opportunities for search and mining of multimedia data in social media applications[J].Multimedia Tools and Applications,2012,56(1):9-34

[17] Fürnkranz J.A study using n-gram features for text categorization[J].Austrian Research Institute for Artificial Intelligence,1998,3:1-10

[18] Blei D M,Ng A Y,Jordan M I.Latent dirichlet allocation[J].Journal of machine Learning Research,2003,3:993-1022

[19] Potthast M,Kiesel J,Reinartz K,et al.A stylometric inquiry into hyperpartisan and fake news[J].arXiv e-print,2017,arXiv:1702.05638

[20] Afroz S,Brennan M,Greenstadt R.Detecting hoaxes,frauds,and deception in writing style online[C]∥IEEE Symposium on Security and Privacy,2012:461-475

[21] Wu K,Yang S,Zhu K Q.False rumors detection on Sina weibo by propagation structures[C]∥IEEE International Conference on Data Engineering,2015:651-662

[22] Gupta A,Lamba H,Kumaraguru P,et al.Faking Sandy:Characterizing and identifying fake images on twitter during hurricane Sandy[C]∥Proceedings of the 22nd International Conference on World Wide Web,2013:729-736

[23] Boididou C,Papadopoulos S,Dang-Nguyen D,et al.Verifying multimedia use at mediaEval 2015[C]∥MediaEval Workshop,2015:235-237

[24] Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks[C]∥Proceedings of the 25th International Conference on Neural Information Processing Systems,2012:1097-1105

[25] Simonyan K,Zisserman A.Very deep convolutional networks for large-scale image recognition[J].arXiv e-print,2014,arXiv:1409.1556

[26] Girshick R,Donahue J,Darrell T,et al.Rich feature hierarchies for accurate object detection and semantic segmentation[C]∥IEEE Conference on Computer Vision and Pattern Recognition,2014:580-587

[27] Szegedy C,Toshev A,Erhan D.Deep neural networks for object detection[J].Advances in Neural Information Processing Systems,2013:2553-2561

[28] Jin Z W,Cao J,Luo J B,et al.Rumor image detection with effective domain transferred deep networks[J].ACM Transactions on Multimedia Computing,Communications and Application(accepted)

[29] Kwon S,Cha M,Jung K,et al.Prominent features of rumor propagation in online social media[C]∥IEEE International Conference on Data Mining,2013:1103-1108

[30] Ma J,Gao W,Wei Z Y,et al.Detect rumors using time series of social context information on microblogging websites[C]∥ACM International Conference on Information and Knowledge Management,2015:1751-1754

[31] Ruchansky N,Seo S,Liu Y.CSI:A hybrid deep model for fake news[J].arXiv e-print,2017,arXiv:1703.06959

[32] Ma J,Gao W,Mitra P,et al.Detecting rumors from microblogs with recurrent neural networks[J].International Joint Conference on Artificial Intelligence,2016:3818-3824

[33] Jin Z W,Cao J,Zhang Y Z,et al.MCG-ICT at MediaEval 2015:Verifying multimedia use with a two-level classification model[J].Media Eval,2015

[34] Zhu X J,Ghahramani Z.Learning from labeled and unlabeled data with label propagation[R].CMU Technical Report,CMU-CALD-02-107,2002:19-26

[35] Zhu X J,Ghahramani Z,Lafferty J.Semi-supervised learning using Gaussian fields and harmonic functions[C]∥Twentieth International Conference on International Conference on Machine Learning,2003:912-919

猜你喜歡
深度學(xué)習(xí)
從合坐走向合學(xué):淺議新學(xué)習(xí)模式的構(gòu)建
面向大數(shù)據(jù)遠(yuǎn)程開(kāi)放實(shí)驗(yàn)平臺(tái)構(gòu)建研究
基于自動(dòng)智能分類(lèi)器的圖書(shū)館亂架圖書(shū)檢測(cè)
搭建深度學(xué)習(xí)的三級(jí)階梯
有體驗(yàn)的學(xué)習(xí)才是有意義的學(xué)習(xí)
電子商務(wù)中基于深度學(xué)習(xí)的虛假交易識(shí)別研究
利用網(wǎng)絡(luò)技術(shù)促進(jìn)學(xué)生深度學(xué)習(xí)的幾大策略
考試周刊(2016年94期)2016-12-12 12:15:04
MOOC與翻轉(zhuǎn)課堂融合的深度學(xué)習(xí)場(chǎng)域建構(gòu)
大數(shù)據(jù)技術(shù)在反恐怖主義中的應(yīng)用展望
深度學(xué)習(xí)算法應(yīng)用于巖石圖像處理的可行性研究
贵德县| 拉孜县| 通州区| 兴化市| 勃利县| 博客| 濮阳市| 德化县| 定安县| 霍州市| 安宁市| 阿拉善左旗| 绥阳县| 宁陵县| 鄯善县| 手游| 崇礼县| 乌拉特后旗| 兴文县| 塔城市| 广昌县| 杨浦区| 安国市| 喀什市| 额敏县| 兰考县| 五原县| 志丹县| 连平县| 崇文区| 资兴市| 襄汾县| 泸州市| 高平市| 乐清市| 新化县| 贵德县| 宜兰市| 辽阳县| 五原县| 阜新|