国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

話題演化研究綜述*

2021-02-14 03:52:30錢莉朱恒民魏靜
數字圖書館論壇 2021年11期
關鍵詞:文檔文本模型

錢莉 朱恒民,2 魏靜

(1. 南京郵電大學管理學院,南京 210003;2. 江蘇高校哲學社會科學重點研究基地—信息產業(yè)融合創(chuàng)新與應急管理研究中心,南京 210003)

根據中國互聯(lián)網絡信息中心(CNNIC)第48次《中國互聯(lián)網絡發(fā)展狀況統(tǒng)計報告》[1]顯示,截至2021年6月,中國網民數量已達10.11億人,可見互聯(lián)網已經成為我國公民獲取新聞和發(fā)表意見的重要媒介。在網絡信息傳播中,新聞話題或突發(fā)事件的迅速擴散,對政府相關職能部門構成了嚴峻的挑戰(zhàn)。如何快速地跟蹤新聞話題或突發(fā)事件的后續(xù)事態(tài)發(fā)展,是亟需解決的問題。

“話題”這一概念最早由TDT(Topic Detection and Tracking)評測會議提出,并對其進行了定義:所謂話題(topic),就是一個核心事件或活動以及與之直接相關的事件或活動[2]。而一個事件(event)通常是由某些原因或條件引起的,涉及某些對象(人或物),在特定時間或地點發(fā)生,并可能伴隨某種必然結果。一般來說,話題就是若干件某事件相關報道的集合,主題則可以看作廣泛意義上的話題,即主題可以涵蓋多個類似的具體事件或根本不涉及任何具體事件[3]。例如,“社區(qū)防控”是一個主題,而“2020年2月10日湖北全省住宅小區(qū)實行封閉管理,共同做好疫情防控工作”是一個話題。在英文文獻中,話題與主題都有一個共同的表達方式,即“topic”,但是本文將“話題”與“主題”的概念區(qū)分開,即新聞事件的話題是由一系列的主題構成。

話題隨著時間的推進總是在不斷演化的,每個話題都會經歷從擴散到衰落的過程,話題之間也會產生漂移或滲透。從大規(guī)模網絡文本中獲取話題及其演化趨勢,可以幫助人們掌握話題發(fā)展的“來龍去脈”,為監(jiān)管部門及時應對網絡輿情提供科學依據。因此,話題演化研究具有現實的應用背景。近年來,國內外學者對話題演化展開了研究,主要包括話題強度演化和內容演化兩條研究路線。話題強度演化是指話題所受關注的程度隨時間而變化,通常表現為與主題對應的文檔數量;話題內容演化是指文本集中覆蓋的主題范圍隨時間的變化,一般表現為與主題對應的特征詞變化[4]。當前,話題演化分析模型常用的方法是將文檔劃分為不同的時間切片,然后在每個切片中提取主題。然而,這種方法容易導致過多和零碎的主題,且難以判定主題演化方向,對主題演化分析不充分。因此,話題演化仍需進一步探索,尤其是在網絡文本領域。此外,還有一些學者嘗試拓寬話題演化分析中的維度和深度。例如,Callon等[5]基于共詞分析提出用向心度(Centrality)和密度(Density)來分析話題的成熟度和關鍵性的觀點,為話題演化研究提供了新的思路。盡管已有一些工作通過構建話題生命周期來檢測話題所處階段[6],但將話題狀態(tài)引入話題演化過程中的研究還非常少。在面對這些問題時,厘清話題演化過程中的復雜性就顯得尤為迫切,尤其是話題之間的融合、分裂以及演化路徑的分析。

基于此,本文對國內外話題演化相關研究進行了系統(tǒng)調研與總結。首先,按照規(guī)范流程對近年來國內外話題演化相關研究進行分析、整合與展示;其次,根據已有研究歸納話題演化研究的基礎;在此基礎上,從話題強度、話題狀態(tài)、話題內容與演化路徑等多個方面探討話題演化研究維度,同時討論了話題演化趨勢預測,并總結話題演化研究的不同方法;最后,指出現有研究的不足,并對今后的話題演化研究進行展望。

1 數據和方法

本研究的數據來源分為國內和國外兩部分。國內數據來源于CNKI,為了保證論文的質量,以“話題演化”“話題傳播”“主題發(fā)現”“話題檢測”為主題,以中文社會科學引文索引(CSSCI)來源期刊和中文核心期刊收錄為范圍進行高級檢索。在搜索國外“話題演化”相關文獻時,本研究首先選擇覆蓋多個學科領域的綜合性數據庫Web of Science、Science Direct以及Springer Link等連續(xù)動態(tài)更新的大型數據庫,然后分別以“topic evolution”“evolution path”“topic spreading”為關鍵詞開展主題、標題、摘要和關鍵字段的搜索;接著使用相同的關鍵詞在Google Scholar中進行搜索,補充了未收錄進以上數據庫的論文。此外,本研究還查看已有綜述文章納入分析的文獻,對現有搜索結果進行補充(如Zhou等[7]的研究),初步得到309篇論文。經過去重獲得189篇可能與話題演化相關的論文,但還需要進一步確定其是否符合本研究的綜述目標,因而以人工方式剔除條件不符(包括會議摘要、學者隨筆等)或信息不全的文獻。其次,僅提到該關鍵詞但與研究問題不符的文獻也被排除在外。經文獻篩選,一共得到符合本文所需的相關論文156篇。最后開展質量評估對每篇文獻進行逐一判讀,以確保綜述對象的質量,最終得到74篇高質量研究論文。這些論文大多發(fā)表于近5年,主要為期刊論文,并且廣泛涉及圖書情報學、計算機科學與技術以及社會科學等多個領域,可見話題演化是一個跨學科的問題且在近年來引起學術界廣泛討論。

從中外話題演化研究的發(fā)文量看,隨著近年來互聯(lián)網的快速發(fā)展,與之相關的話題演化文獻也呈逐年上升趨勢(見圖1)。首先,本文借鑒文獻計量學奠基人普賴斯提出的科技文獻增長理論[8],將話題演化研究分為三個階段:第一階段為起步探索期(2001—2011年),文獻數量較少;第二階段是平穩(wěn)增長期(2012—2017年),文獻數量呈穩(wěn)定增長態(tài)勢,雖然該時期部分年份發(fā)文量略有下降,但總體呈上升趨勢;第三階段為快速發(fā)展期(2018—2020年),國內外相關文獻數量增長迅速,可見在今后的幾年內該研究仍將保持較高的研究熱度以及較快的發(fā)展速度。其次,國內發(fā)文量與國外呈現一致增長趨勢,這說明話題演化研究受到世界各國學者的廣泛關注,且國內與國外關于話題演化研究的發(fā)展趨勢是一致的。盡管外文文獻數量略高于中文文獻,但有4篇外文文獻是國內學者發(fā)文。

圖1 中外話題演化研究年度發(fā)文量對比

通過對74篇話題演化研究文獻的研讀分析,先是介紹話題演化研究的基礎,以期對話題演化研究的基本理論與技術手段進行了解。在此基礎上,探討話題演化分析維度,同時討論話題演化趨勢預測,并從中總結話題演化的分析方法,旨在深化話題研究脈絡、探討未來研究思路。

2 話題演化研究的基礎

2.1 理論基礎

雖然話題演化最初是在跟蹤新聞報道的背景下產生的,但是其理論基礎可以追溯到20世紀30年代提出的“生命周期理論”(Life Cycle Theory)[9]。這一經典理論認為,任何事物都要經歷誕生、成長、成熟、衰退和死亡整個過程,也泛指事物的階段性變化及規(guī)律[4]。話題也具有生命周期的基本特征,生命周期理論勾勒了話題的演化軌跡。

Chen等[10]在生命周期的基礎上提出了衰老理論(Aging Theory)。該理論認為,話題的生命周期與生物類似,生物擁有豐富的營養(yǎng),即話題的相關文檔增多,生命周期就會延長;反之,當營養(yǎng)耗盡時,一個生命或話題就會消失。換言之,當一個話題剛出現時,人們可能會對它感興趣,但隨著時間的推移,它的關注度逐漸下降。Fang等[11]基于衰老理論,結合話題相關的推文和用戶權威構建了一個話題生命周期模型,并將話題劃分為嬰兒、成長、成熟、衰退和消失五個階段。同樣,謝科范等[12]將網絡輿情分為潛伏期、萌動期、加速期、成熟期、衰退期五個階段來分析網絡突發(fā)事件,并為相關部門的管理決策提供了理論指導。

2.2 技術基礎

近年來,話題演化研究在信息檢索和數據挖掘等學術領域引起了廣泛的關注。最早的工作可追溯到美國國防部高級研究計劃局(Defense Advanced Research Projects Agency)于1996年提出的一種“話題檢測與追蹤”技術,該項技術是指利用計算機技術從新聞專線或廣播新聞等新聞數據來源中自動檢測話題,并采用話題相似度計算方法對后續(xù)新聞報道中話題的相關內容進行追蹤[13]。關于話題演化的研究起始于跟蹤具有時間信息的文檔的話題趨勢[14],但是早期的TDT研究并未有效地利用語料的時間信息來分析話題隨時間的變化[3]。目前,常見的話題演化分析技術路徑主要包括以下內容。

(1)基于共詞分析的話題演化。共同出現在同一文檔或段落中的一對關鍵詞被視為具有共現關系,且共現強度等于關鍵詞的共現頻率[15]。共現強度越大,兩個詞之間的內涵關聯(lián)性越強,在話題上的一致性越高。計算大規(guī)模文檔集關鍵詞共現的關系網絡能夠反映研究話題的結構和演化規(guī)律。

(2)基于文本挖掘的話題演化。該方法重在分解文檔內容,關注文檔內部的特征,實現對文檔粒度更小、層次更深、更全面的分析和研究[16]。隨著文本挖掘方法的興起,如何借助話題模型,研究話題隨時間的變化以及如何變化,成為話題演化研究熱點。LDA(Latent Dirichlet Allocation)話題模型是話題演化研究中最常見的技術[17]。它由Blei等首次提出,是一種混合概率模型,該模型通過最大化詞語共現概率來尋找詞語聚類,使用狄利克雷分布描述文檔生成過程,并對文檔的主題數量進行限制。大量研究表明,LDA在不同領域研究熱點挖掘[18]、強度演化[19]、趨勢預測[20]等方面都取得了良好效果。

3 話題演化研究的脈絡

話題演化研究的脈絡如圖2所示。話題演化研究始于話題檢測,即從給定文檔集中識別出覆蓋的話題,以及不同話題所占的比重,為話題演化分析提供基礎。根據收集到的文獻資料進行分析歸納,本文認為話題強度、話題狀態(tài)、話題內容以及演化路徑是話題演化分析的主要維度且部分研究只是聚焦于其中的某個或某幾個方面。因此,本文將從這4個維度展開深入分析。最后,話題演化研究的主要目的是發(fā)現話題演化規(guī)律并預測其未來發(fā)展趨勢,為管理決策提供參考。

圖2 話題演化研究的脈絡

3.1 話題檢測

話題檢測,也稱為“話題發(fā)現”或“話題識別”,旨在從大規(guī)模文檔集中找到具有一致語義關系的相同話題。話題檢測首先是在靜態(tài)文本中提出的,大多數靜態(tài)文本檢測方法是基于概率話題模型,如PLSA[21]和LDA[22]。LDA作為PLSA的貝葉斯擴展,是話題演化研究中最流行的一個模型,解決了PLSA的兩個問題。首先它的參數不會隨著文檔集增長而線性增長,具有很好的泛化能力;其次,PLSA是對給定的文檔集進行建模,但對于如何將已有的模型應用于新的文檔沒有直接的辦法。

也有一些研究建立了基于機器學習的話題檢測方法。例如,Wartena等[23]通過關鍵詞的共現關系來聚類關鍵詞,從而發(fā)現話題。為了確定有意義的研究領域,Hurtado等[24]對文檔中含有動詞的標題進行關聯(lián)規(guī)則分析,并通過刪除停用詞和動詞來檢測話題。Chen等[25]提出了一種非參數模型(NPMM)并利用輔助詞嵌入來自動確定給定文檔是否屬于已有主題,進而推斷主題編號。此外,Lu等[26]檢測了來自共詞網絡中不同社區(qū)的詞,在這些社區(qū)中,來自某個特定社區(qū)的詞都屬于相同且相互獨立的主題。針對數據流連續(xù)、動態(tài)變化的特征,許多學者提出了一系列有效的解決方案。黃云等[27]針對微博話題檢測中需要解決的高維數據、噪聲信息以及話題的快速演化等主要問題,提出了一個微博在線話題檢測模型(DLM)。賀敏等[28]提出了一種基于時序分析的微博突發(fā)話題檢測方法。

話題檢測的通用技術包括話題概率模型以及機器學習等方法。其中LDA模型最流行,該模型可以從大規(guī)模文本中迅速識別主題。由于網絡自由文本中包含一些同義詞和近義詞,如何充分利用文本中詞的復雜語義提升話題檢測的質量,仍需要進一步探索。此外,互聯(lián)網充斥著海量信息,且更新速度很快,如何快速識別大規(guī)模文本數據中的話題,并跟蹤事件發(fā)展,成為急需解決的問題。此外,社交媒體上包含大量帶有噪聲的數據(如廣告信息等),對話題檢測沒有實際意義,甚至給話題檢測結果帶來偏差,如何有效地從復雜多樣的數據中識別出有效的話題,是話題檢測的一大任務。

3.2 話題強度演化

話題強度演化表現為話題在不同時間切片中的流行程度,大多數基于LDA模型,將LDA應用在整個文檔集合上,然后根據文檔的時間信息將文檔離散到相應的時間片。對于一個特定的話題,可以在不同時間片中依次考察其話題強度,以顯示話題在整個時間軸中的變化情況。例如,Feng等[29]使用LDA來處理不同時間片中的文檔集合,計算每個博客上話題分布概率的平均值,從而確定話題的平均熱度。這種方法的優(yōu)點是簡單、易于操作,但是由于模型假設文檔順序是可交換的,不能有效地將時間信息與模型結合起來,因此未能充分利用時間信息,從而在同樣建模條件下,會出現困惑度值很高的情況。如Wang等[30]提出了一種不同于將時間離散化的主題演化模型(Topic Over Time,TOT),它不再使用馬爾科夫假設,而是將每一個主題表示為一個關于時間變量的連續(xù)概率分布,每一個主題不僅與詞的共現相關,還與文本的時間戳有關,而且主題的內容以及主題之間的關系也是隨著時間變化的。

一般而言,討論一個話題的文檔數量越多,這個話題就越受歡迎。由于與人們觀察到的文本信息相吻合,這種方法越來越受到重視。Liu等[31]利用過去不同時期話題的頻率累積來預測一個話題在未來一段時間內是否會流行。Zhao等[32]提出話題的“成長因子”來預測短期的話題趨勢,并認為話題文檔數量的增長速度會影響“成長因子”。但是,一篇文檔可以包含多個話題,同一特征詞或主題詞對不同話題的貢獻各不相同,因此在話題強度演化過程中,應該考慮特征詞或主題詞對話題的貢獻。例如,李慧等[33]將特征詞熱度加入微博熱點話題演化模型中,可以發(fā)現微博熱點事件子話題的演化規(guī)律。

3.3 話題狀態(tài)演化

話題狀態(tài)是指研究話題在其演化生命周期中所處的階段。當一個話題出現時,人們可能會對它感興趣。隨著時間流逝,話題的演化狀態(tài)也在不斷變化,并展現出一定的特征,如新話題中的關鍵詞數量少,內部關聯(lián)性弱,與其他話題相關性低;隨著話題的成長,內部關鍵詞的數量增加,它們之間的關系增強,與其他話題的相關性增加。因此,一些研究者就話題演化過程中的演化狀態(tài)進行了研究。為了跟蹤一個話題的演化趨勢,Du等[34]提出了一種熱門話題生命周期模型(HTLCM),并將HTLCM劃分為出生、成長、成熟、衰退和消失五個階段。另外,Callon等[5]基于共詞分析提出了向心度和密度的概念,用來表示研究主題的關鍵性和成熟度。

上述工作多是回溯話題生命周期來識別話題的狀態(tài)。由于話題演化具有較大的不確定性,對正在傳播中的話題來判斷其所處的生命周期階段是非常困難的。少量工作通過設計指標來描述話題當前的狀態(tài),但是,如何設計出既能反映話題當前狀態(tài)以及未來趨勢,又能揭示話題潛在發(fā)展力的指標,是話題演化狀態(tài)監(jiān)測的難點。

3.4 話題內容演化

話題內容演化就是話題內容隨著時間的推移而發(fā)生的變化,通常表現為特征詞在不同時間切片上的差異,而這種差異主要體現在語義關聯(lián)方面。Blei等[17]開發(fā)了一個動態(tài)LDA模型,該模型反映了主題內容的時序變化。胡艷麗等[35]基于話題模型抽象描述文本內容的隱含語義,進而建立話題在時間序列上的內容演化。余本功等[36]利用改進的OLDA模型來應對輿情監(jiān)控中的話題快速產生和消亡,并且分析得出話題內容演化。陳興蜀等[37]基于OLDA模型對論壇中的熱點話題演化跟蹤做了研究。特征詞或主題詞在話題演化中的重要作用引起了學者的關注。例如,曹麗娜等[38]結合話題熱度(強度)變化和內容變化兩方面研究天涯論壇,挖掘隨時間變化的動態(tài)話題鏈,從詞語變化微觀角度分析熱門事件下公眾意見的變遷過程。

話題內容演化是話題演化研究中的一個重要組成部分。隨著時間的推進、網民的持續(xù)關注和熱烈討論,話題在不斷地變化著。若演化后的話題與原有話題在內容上產生了較大的偏移,如何有效地探測和跟蹤話題發(fā)展過程中的內容變化,是話題內容演化分析的關鍵問題。

3.5 話題演化路徑

演化路徑不同于話題內容的演化,它是指研究主題在時間軸上的演化脈絡,旨在呈現主題的漂移特征。網絡文本中的詞匯語義更豐富復雜,這給網絡文本話題演化路徑研究帶來了挑戰(zhàn),一些學者提出了相應的解決方案。Gao等[39]提出了一種新的在線加權條件隨機場正則化相關主題模型(OCCTM),該模型利用語義相關性捕捉來自短文本的主要話題和相關子話題的演化路徑;張佩瑤等[40]利用K-means算法對主題詞向量聚類,得到融合后的主題,進而建立文本集在時間片上的話題演化路徑;Li等[41]針對短文本語義稀疏問題,通過引入維基知識庫對模型語義進行擴展,結果表明,改進的主題漂移檢測方法能夠更有效跟蹤短文本流中的主題漂移。

對于話題演化的路徑分析,上述研究大多是把文檔劃分為不同的時間片,然后在每個切片中提取主題,再通過計算特征詞或主題詞之間的語義關聯(lián)情況來實現話題演化路徑分析。但是,時間的分割往往是主觀的,一些話題通常存在于多個甚至全部的時間切片中,這種方法將導致話題過多過雜。另外,由于網絡本身具有的發(fā)散性、滲透性和隨意性等特點,使得事件在發(fā)展過程中可能朝任何一個方向轉換,這導致原有的話題可以衍生出多個與之相關的話題且話題的內容產生較大偏移,而計算不同時間片話題之間相似度的方法難以揭示話題漂移的方向。

3.6 話題演化趨勢預測

話題演化趨勢預測是話題演化研究的一個拓展問題,是指利用歷史數據預測未來的話題演化趨勢,可用于挖掘潛在的熱點話題等多個方面。目前關于話題演化趨勢預測的研究工作主要集中在話題強度預測上。Wang等[42]在建模的時候引入用戶的情感,通過馬爾可夫隨機場和圖熵模型計算社區(qū)情感能量,然后基于社區(qū)情感能量和話題的傳播流行度之間的線性相關性來預測話題的流行度。部分研究開始關注話題演化時間序列分析,但對于話題演化的時序分析,主要通過構建話題演化時間序列模型。例如,裴可鋒等[43]對話題熱度時間序列進行離散化的DTPM模型能夠有效提高話題熱度預測的精度。

對于已經流行的話題是否會再次流行,Wang等[44]考慮了用戶朋友圈、話題類型和突發(fā)事件等因素,然后基于高斯混合分布計算在未來時間段內話題再次流行的概率。然而,對話題內容演化進行預測的研究工作還非常少,常用方法是度量特征詞或主題詞之間的相似度進行話題演化趨勢預測,即語義相似度分析。該方法是對文本進行向量表示,然后計算文本相似度,相似度越大,話題演化趨勢的可能性越大。因此,如何結合時序分析和語義分析進行話題演化趨勢預測,有待于進一步深入研究。

4 話題演化分析方法的比較

話題演化分析方法是指在話題演化研究中所運用的方法或者模型。目前話題演化分析方法,在話題強度、話題狀態(tài)、話題內容以及演化路徑上有各自不同的特點。另外,時間因素也是不可忽視的重要元素,共有3種引入時間方式的不同方法:①將時間作為可觀測變量結合到模型中;②在整個文本集上運用話題模型抽取主題,然后按文本的時間信息,后離散分析話題隨時間的演化;③將文本集合先按一定時間粒度離散到不同的時間片,在每個時間片上運用話題模型來獲取話題隨時間的演化。

本節(jié)主要對第三部分提到的各種模型方法進行總結比較,并根據話題演化分析的維度,我們選擇了代表模型、研究方法、引入時間方式、演化類型等方面來比較,見表1。

表1 話題演化分析方法比較

5 研究展望

本文綜述了關于話題檢測,以及話題強度、話題狀態(tài)、話題內容和演化路徑等相關研究工作,并對話題演化趨勢的預測進行了探討。話題演化研究取得了一些進展,但仍然存在一些挑戰(zhàn)性課題,同時這也是未來可能的研究方向。

首先,話題演化研究中挑戰(zhàn)性課題之一就是識別出貫穿時間周期內的話題,在此基礎上實現話題強度、狀態(tài)、內容和路徑的演化分析。目前,大多數方法是基于劃分時間片,通過計算不同時間片中話題的相似性來獲得演化的話題,這種方法會產生過多、不連貫的話題,且不能有效解決話題演化時的漂移現象。

其次,已有話題演化的相關研究常采用的詞共現分析并不能有效處理復雜語義的詞匯,也沒有考慮到不同特征詞對主題的貢獻度差異。此外,大多話題演化狀態(tài)研究是通過生命周期理論輔助進行狀態(tài)識別,幾乎沒有對正在演化中的話題狀態(tài)進行識別或預測。因此,充分挖掘自由文本中詞匯的豐富語義關系和重要程度,設計有效的話題檢測方法和演化狀態(tài)指標,是話題演化的未來研究方向之一。

最后,已有的話題演化趨勢預測相關工作多是預測話題強度,很少對話題內容演化趨勢進行預測。內容演化趨勢預測是指對下一階段話題的漂移方向,甚至是新衍生的主題進行預測,這為相關部門有效監(jiān)控信息傳播提供了科學依據,是話題演化研究的又一方向。但是,話題演化過程并沒有統(tǒng)一、通用的模式,受到諸多不確定因素的影響,給話題內容演化預測帶來了巨大挑戰(zhàn)。

猜你喜歡
文檔文本模型
一半模型
有人一聲不吭向你扔了個文檔
重要模型『一線三等角』
重尾非線性自回歸模型自加權M-估計的漸近分布
在808DA上文本顯示的改善
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
基于RI碼計算的Word復制文檔鑒別
3D打印中的模型分割與打包
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學隱喻
Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
老河口市| 天全县| 明溪县| 黔江区| 淮南市| 万荣县| 会东县| 嫩江县| 都兰县| 建德市| 綦江县| 南华县| 敦煌市| 霞浦县| 泰安市| 鹰潭市| 临沭县| 韶关市| 台州市| 哈巴河县| 山阳县| 双峰县| 新沂市| 长海县| 扶风县| 锦屏县| 峡江县| 大港区| 谢通门县| 乐昌市| 锦州市| 思茅市| 广昌县| 德保县| 临汾市| 乐昌市| 乌鲁木齐市| 泗洪县| 五大连池市| 邵东县| 丽水市|