摘要:[目的/意義]構(gòu)建數(shù)學(xué)模型研究網(wǎng)絡(luò)話題傳播規(guī)律建模和預(yù)測問題,為深入研究網(wǎng)絡(luò)話題傳播規(guī)律提供理論參考。[方法/過程]定性分析網(wǎng)絡(luò)話題傳播的大數(shù)據(jù)特征、可量化性、可度量周期性、可預(yù)測性等特征,通過分析網(wǎng)絡(luò)話題傳播機理,構(gòu)建網(wǎng)絡(luò)話題傳播規(guī)律的常態(tài)模型和衍生模型,提出劃分網(wǎng)絡(luò)話題傳播階段的一般方法,并據(jù)此研究網(wǎng)絡(luò)話題傳播趨勢預(yù)測方法。[結(jié)論/結(jié)果]通過“霧霾”微博話題數(shù)據(jù)開展實證分析,能夠較好地劃分傳播階段并預(yù)測傳播趨勢,由此,根據(jù)本文構(gòu)建的數(shù)學(xué)模型研究網(wǎng)絡(luò)話題傳播規(guī)律是可行的。
關(guān)鍵詞:網(wǎng)絡(luò)話題;網(wǎng)絡(luò)輿情;傳播規(guī)律;趨勢預(yù)測
DOI:10.3969/j.issn.1008-0821.2019.04.001
〔中圖分類號〕G206〔文獻標(biāo)識碼〕A〔文章編號〕1008-0821(2019)04-0003-10
Research on Modeling and Prediction of Network Topic Dissemination Law
Xia Yixue
(China Peoples Police University,Langfang 065000,China)
Abstract:[Purpose/Significance]The mathematical model was constructed to study the modeling and prediction of network topic dissemination law,in order to provide theoretical references for further research on the dissemination law of network topic.[Method/Process]This paper qualitatively analyzed the characteristics of big data,quantifiability,measurable periodicity,predictability and other characteristics of network topic dissemination.Through the analysis of network topic dissemination mechanism,the normal model and derivative model of network topic dissemination law were constructed.The general method of dividing the stages of network topic dissemination was put forward and the trend prediction of network topic dissemination was studied.[Result/Conclusion]Through empirical analysis of microblog topic data of“haze”,the dissemination stages could be well divided and the dissemination trend could be predicted.Therefore,it was feasible to study the network topic dissemination law based on the mathematical model established in this paper.
Key words:network topic;network public opinion;dissemination law;trend prediction
自互聯(lián)網(wǎng)逐漸普及以來,網(wǎng)絡(luò)傳播成為與網(wǎng)下傳播相并行的信息傳播形式,并且隨著移動社交網(wǎng)絡(luò)的發(fā)展,部分網(wǎng)下傳播遷移網(wǎng)上,網(wǎng)絡(luò)傳播正成為最主要的信息傳播形式。網(wǎng)絡(luò)話題作為網(wǎng)絡(luò)傳播的重要內(nèi)容,是網(wǎng)民針對某一事件通過微博、微信、網(wǎng)絡(luò)新聞、網(wǎng)絡(luò)論壇等網(wǎng)絡(luò)傳播平臺進行討論的主題、內(nèi)容以及網(wǎng)民的觀點、態(tài)度等信息的集合。網(wǎng)絡(luò)話題的內(nèi)容涉及國內(nèi)外政治、軍事、文化、經(jīng)濟、外交等眾多領(lǐng)域,是網(wǎng)絡(luò)傳播時代網(wǎng)民社會參與的重要方式,映現(xiàn)著社會觀點的形成和變遷。當(dāng)前,網(wǎng)絡(luò)話題形成、傳播的速度、爆發(fā)性、蔓延趨勢,正與日俱增,面對層出不窮的熱門話題以及背后的話題營銷,提出了剖析網(wǎng)絡(luò)話題的傳播規(guī)律,預(yù)測傳播趨勢和影響,及時準(zhǔn)確把握傳播態(tài)勢的研究問題。特別是大數(shù)據(jù)技術(shù)的發(fā)展,為我們提供了大量網(wǎng)絡(luò)話題傳播的數(shù)據(jù),如何分析數(shù)據(jù)中蘊含的網(wǎng)絡(luò)話題傳播規(guī)律,是一個在理論和實踐層面都值得關(guān)注的重要問題。
1研究現(xiàn)狀
我國學(xué)術(shù)界針對網(wǎng)絡(luò)話題的研究,主要分為兩個研究方向:一是傳播學(xué)視域下網(wǎng)絡(luò)話題理論研究,針對網(wǎng)絡(luò)話題的形成機制、傳播特征、傳播模式、傳播規(guī)律、熱度效應(yīng)等進行傳播學(xué)解讀,以定性研究為主[1-2];二是網(wǎng)絡(luò)話題量化分析,包括1)話題內(nèi)容分析:如話題摘要、內(nèi)容搜索等;2)話題檢測和發(fā)現(xiàn):主要采用K-Means等聚類算法、循環(huán)神經(jīng)網(wǎng)絡(luò)、主題模型、共詞網(wǎng)絡(luò)等多種方法;3)話題演化:如演化時空規(guī)律、競爭傳播、傳播結(jié)構(gòu)可視化等,主要采用空間自相關(guān)[3]、共詞網(wǎng)絡(luò)[4]以及各類主題模型[5]等方法,在話題傳播模型方面,主要基于演化博弈[6]、脈沖時序行為動力模型[7]、自激點過程[8]、傳染病模型[9]等;4)話題趨勢預(yù)測:主要采用BP神經(jīng)網(wǎng)絡(luò)[10]、小波神經(jīng)網(wǎng)絡(luò)[11]、支持向量機[12]、回聲狀態(tài)網(wǎng)絡(luò)[13]、復(fù)雜網(wǎng)絡(luò)[14]、Hurst指數(shù)[15]等多種方法,進行話題熱度、流行度預(yù)測等。通過Citespace對中國知網(wǎng)的網(wǎng)絡(luò)話題研究文獻進行可視化分析,得到網(wǎng)絡(luò)話題研究關(guān)鍵詞的聚類結(jié)果,以及每類主題的關(guān)鍵詞遷移,可見在研究方法上深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等是近年來的研究熱點,而在研究內(nèi)容上新媒體環(huán)境、突發(fā)事件情景等是近年來的研究熱點(見圖1)。
圖1網(wǎng)絡(luò)話題研究關(guān)鍵詞聚類時間線圖
整體而言,我國學(xué)術(shù)界對網(wǎng)絡(luò)話題的研究集中在傳播學(xué)、信息科學(xué)、計算機科學(xué)等領(lǐng)域,分為定性分析和定量描述兩個研究方向。兩個方向的研究各有特長,但是定性研究仍需加強網(wǎng)絡(luò)話題傳播規(guī)律分析的精確性,定量研究仍需更緊密結(jié)合網(wǎng)絡(luò)話題傳播現(xiàn)象和場景,加強量化描述的適用性和針對性。其中在網(wǎng)絡(luò)話題傳播規(guī)律和預(yù)測研究領(lǐng)域,已有諸多研究成果,但是仍然存在將傳播規(guī)律分析和傳播趨勢預(yù)測相割裂的問題,分別針對演化規(guī)律或者趨勢預(yù)測進行研究,在理論應(yīng)用中將會存在分析、預(yù)測之間的銜接誤差。由此,定性定量相融合、“分析——預(yù)測”一體化等將是未來網(wǎng)絡(luò)話題領(lǐng)域的研究目標(biāo)。
2網(wǎng)絡(luò)話題傳播特征
隨著信息、網(wǎng)絡(luò)技術(shù)的進步,網(wǎng)絡(luò)話題傳播相對于傳統(tǒng)的線下話題傳播,呈現(xiàn)出大數(shù)據(jù)特征、可量化性、可度量周期性、可預(yù)測性等諸多特征。
21網(wǎng)絡(luò)話題傳播的大數(shù)據(jù)特征
互聯(lián)網(wǎng)高普及率背景下的網(wǎng)絡(luò)話題傳播已經(jīng)具備明顯的大數(shù)據(jù)特征:1)多量性(Volume):主要體現(xiàn)在網(wǎng)絡(luò)話題傳播信息量巨大、傳播源頭數(shù)量多、傳播平臺數(shù)量多、傳播主體數(shù)量多等方面;2)多樣性(Variety):主要體現(xiàn)在網(wǎng)絡(luò)話題信息結(jié)構(gòu)多樣、網(wǎng)絡(luò)話題反映的網(wǎng)民情感種類多、網(wǎng)絡(luò)話題傳播主體類型多等方面;3)高速性(Velocity):主要體現(xiàn)在網(wǎng)絡(luò)話題產(chǎn)生速度快、傳播速度快、情感極化速度快等方面;4)價值性(Value):網(wǎng)絡(luò)話題價值密度小但其中蘊含意義重大,網(wǎng)絡(luò)話題是網(wǎng)絡(luò)社會背景下感知民情民意、把握社會心態(tài)的重要路徑;5)在線性(Online):網(wǎng)絡(luò)話題數(shù)據(jù)永遠(yuǎn)在線,能夠隨時調(diào)用和計算,這是區(qū)別線下話題的重要方面。
22網(wǎng)絡(luò)話題傳播的可量化性
網(wǎng)絡(luò)話題傳播是抽象的、虛擬的,其傳播過程是傳播主體生產(chǎn)、傳遞信息的過程,這些信息具有明顯的數(shù)據(jù)在線特征,所以,通過網(wǎng)絡(luò)爬蟲等信息技術(shù)可以比較便捷、完整地獲取網(wǎng)絡(luò)話題傳播的數(shù)據(jù)。通過對這些網(wǎng)絡(luò)話題傳播數(shù)據(jù)進行建模分析,可以推斷和感知網(wǎng)絡(luò)話題傳播程度、傳播主體數(shù)量變化程度和情感演化程度等,更進一步,通過量化建模,還可以實現(xiàn)網(wǎng)絡(luò)話題傳播可視化,進而量化整個網(wǎng)絡(luò)話題傳播過程,這些量化研究是深層次探索網(wǎng)絡(luò)話題傳播機理、定量描述網(wǎng)絡(luò)話題傳播規(guī)律的基礎(chǔ)。
23網(wǎng)絡(luò)話題傳播的可度量周期性
網(wǎng)絡(luò)話題信息作為網(wǎng)絡(luò)信息的一種,滿足網(wǎng)絡(luò)信息生命周期理論,因此網(wǎng)絡(luò)話題傳播具有周期性。按照信息生命周期理論,網(wǎng)絡(luò)信息生命周期可以定性分為多個階段,例如可劃分為產(chǎn)生、采集、組織、開發(fā)、利用、處置等6個階段[16]或者引入期、發(fā)展期、穩(wěn)定期、衰退期、失效期等5個階段[17]等,但如何定量劃分信息生命周期,仍少見創(chuàng)新性研究[18]。由于網(wǎng)絡(luò)話題傳播具有周期性,以及網(wǎng)絡(luò)話題傳播的可量化性、數(shù)據(jù)在線性等特征,使得通過數(shù)據(jù)建模,可以構(gòu)建網(wǎng)絡(luò)話題傳播規(guī)律模型,進而定量地劃分網(wǎng)絡(luò)話題傳播階段。網(wǎng)絡(luò)話題傳播的可度量周期性是網(wǎng)絡(luò)話題傳播機理的核心問題,可為信息生命周期理論中劃分階段研究提供新的視角和方法。
24網(wǎng)絡(luò)話題傳播的可預(yù)測性
大數(shù)據(jù)的核心是預(yù)測,實現(xiàn)網(wǎng)絡(luò)話題傳播趨勢預(yù)測是大數(shù)據(jù)應(yīng)用的必然趨勢。通過信息技術(shù)獲取網(wǎng)絡(luò)話題數(shù)據(jù)后,可以發(fā)現(xiàn)網(wǎng)絡(luò)話題數(shù)據(jù)實質(zhì)是多維度、復(fù)雜的時間序列,所有網(wǎng)絡(luò)話題中的變量都會根據(jù)時間的變化而變化?;诖?,可以選擇時間序列預(yù)測方法進行多維度的數(shù)據(jù)預(yù)測,進而預(yù)測網(wǎng)絡(luò)話題傳播程度,也可以先根據(jù)網(wǎng)絡(luò)話題數(shù)據(jù),構(gòu)建網(wǎng)絡(luò)話題傳播模型,然后根據(jù)數(shù)理模型開展預(yù)測,亦或綜合以上多種方法開展組合預(yù)測。通過預(yù)測網(wǎng)絡(luò)話題傳播過程,可以推斷網(wǎng)民參與程度、情感演化趨勢等,為政府感知網(wǎng)絡(luò)民意提供技術(shù)路徑,同時可以敏銳感知由網(wǎng)絡(luò)謠言、虛假信息、網(wǎng)絡(luò)水軍等引發(fā)的網(wǎng)絡(luò)話題傳播的異常現(xiàn)象,為網(wǎng)絡(luò)社會治理提供參考依據(jù)。
3網(wǎng)絡(luò)話題傳播規(guī)律模型研究
31建模核心變量選擇問題
根據(jù)網(wǎng)絡(luò)話題傳播的大數(shù)據(jù)特征和可量化性,在網(wǎng)絡(luò)話題傳播過程中,傳播主體生產(chǎn)、傳遞信息的形式多樣,包括原創(chuàng)、轉(zhuǎn)發(fā)、評論、點贊、收藏等,這些生產(chǎn)和傳遞形式均對網(wǎng)絡(luò)話題傳播產(chǎn)生影響。所以,如何全面考慮網(wǎng)絡(luò)話題傳播影響要素、選擇核心變量,是網(wǎng)絡(luò)話題傳播規(guī)律建模的關(guān)鍵問題。首先,原創(chuàng)、轉(zhuǎn)發(fā)等信息直接影響網(wǎng)絡(luò)話題傳播程度,是確定網(wǎng)絡(luò)話題傳播核心變量的主要數(shù)據(jù);其次,評論、點贊、收藏等信息不能脫離原創(chuàng)或轉(zhuǎn)發(fā)而存在,但卻影響網(wǎng)絡(luò)話題傳播,是確定網(wǎng)絡(luò)話題傳播核心變量的次要數(shù)據(jù)?;诖?,綜合考慮主要數(shù)據(jù)和次要數(shù)據(jù),定義網(wǎng)絡(luò)話題傳播量為:
F=∑Mi(ai,bi,ci)Xi+∑Ni(ai,bi,ci)Yi(1)
其中Xi和Yi分別代表原創(chuàng)和轉(zhuǎn)發(fā)信息,Mi(ai,bi,ci)和Ni(ai,bi,ci)分別代表原創(chuàng)和轉(zhuǎn)發(fā)信息權(quán)重,其數(shù)值由該條原創(chuàng)或轉(zhuǎn)發(fā)信息中評論、點贊、收藏數(shù)量確定。
32網(wǎng)絡(luò)話題傳播規(guī)律建模
321網(wǎng)絡(luò)話題傳播常態(tài)模型
根據(jù)前文對網(wǎng)絡(luò)話題傳播量的定義,假設(shè)網(wǎng)絡(luò)話題傳播量是關(guān)于時間的連續(xù)可微函數(shù),即F=F(t),網(wǎng)絡(luò)話題傳播量初值(t=0時)為F0,則F(t)是單調(diào)遞增函數(shù)。由于網(wǎng)絡(luò)話題傳播的周期性,所以網(wǎng)絡(luò)話題傳播量存在上限,假設(shè)上限為K。
在某個時間段Δt內(nèi),傳播量增長量為ΔF,所以網(wǎng)絡(luò)話題傳播量增長率為ΔFFΔt,但由于受網(wǎng)絡(luò)話題傳播量上限的影響,網(wǎng)絡(luò)話題增長率與網(wǎng)絡(luò)話題信息飽和率FK有關(guān),即飽和率大小影響增長率的變化程度。當(dāng)時間段Δt→0時,網(wǎng)絡(luò)話題增長率與飽和率之間存在函數(shù)關(guān)系f,進而得到網(wǎng)絡(luò)話題傳播的常態(tài)模型dFFdt=fFK或dFdt=FfFK。更進一步,飽和率越小,網(wǎng)絡(luò)話題增長空間越大,故增長率越大;反之,飽和率越大,網(wǎng)絡(luò)話題增長空間越小,故增長率越小,所以,一般情況下,函數(shù)f為減函數(shù)結(jié)構(gòu)。為得出模型具體表達(dá)式,可以構(gòu)造減函數(shù)f,例如r1-FK,-rlnFK,r1-FKθ,re1-F/K,r1-FK1+aFK等,其中參數(shù)r代表傳播量固有增長率,θ、d、a等皆為不同類型的傳播參數(shù),據(jù)此便得到若干個描述網(wǎng)絡(luò)話題傳播規(guī)律的常態(tài)模型。
322常態(tài)模型對應(yīng)的衍生模型
實際研究過程中,根據(jù)不同的研究角度、深度以及應(yīng)用場景,需要對基本模型進行改進,進而得出常態(tài)模型對應(yīng)的衍生模型。
1)當(dāng)研究數(shù)據(jù)擬合確定模型具體參數(shù)時,需要考慮離散結(jié)構(gòu)模型;
2)當(dāng)研究網(wǎng)絡(luò)話題增長率的變化情況時,需要考慮變增長率模型;
3)當(dāng)網(wǎng)絡(luò)話題出現(xiàn)衍生時,需要考慮變上限模型;
4)當(dāng)考慮網(wǎng)絡(luò)話題的時空影響時,需要考慮偏微分方程模型;
5)當(dāng)考慮網(wǎng)絡(luò)話題傳播量飽和率的延遲影響時,需要考慮時滯結(jié)構(gòu)模型;
6)當(dāng)考慮網(wǎng)絡(luò)推手或者網(wǎng)絡(luò)水軍對話題的影響時,需要考慮加入控制項的情況;
7)當(dāng)考慮多個網(wǎng)絡(luò)話題相互影響時,需要考慮方程組結(jié)構(gòu)模型。
以dFdt=-rFlnFK模型為常態(tài)模型構(gòu)造對應(yīng)衍生模型(見圖2)。
實際研究過程中,需要根據(jù)具體的網(wǎng)絡(luò)話題數(shù)據(jù)確定傳播量,然后根據(jù)數(shù)據(jù)形態(tài)和變化程度確定常態(tài)模型,然后通過數(shù)據(jù)驗證推斷外部影響的程度,進而判斷是否應(yīng)用衍生模型,最后,在此基礎(chǔ)上研究網(wǎng)絡(luò)話題傳播階段以及傳播趨勢預(yù)測等機理問題(見圖3)。
33模型分析
在確定網(wǎng)絡(luò)話題傳播規(guī)律模型后,可以通過模型分析劃分傳播階段,為深入研究網(wǎng)絡(luò)話題傳播機理提供參考依據(jù)。由于網(wǎng)絡(luò)話題傳播規(guī)律模型dFdt=FfFK是連續(xù)性模型,網(wǎng)絡(luò)話題傳播階段劃分問題轉(zhuǎn)化為網(wǎng)絡(luò)話題傳播規(guī)律模型曲線的分區(qū)問題,即通過微積分計算,確定曲線的若干個關(guān)鍵節(jié)點,然后據(jù)此劃分傳播階段(見圖4)。
以dFdt=-rFlnFK模型為例確定網(wǎng)絡(luò)話題傳播階段,分別令:
F″(t)=0,F(xiàn)(t)=0,F(xiàn)(4)(t)=0,F(xiàn)(5)(t)=0
計算各方程對應(yīng)的根,得到劃分階段關(guān)鍵時間節(jié)點(見表1)。
在深入研究網(wǎng)絡(luò)話題傳播階段以及不同傳播階段網(wǎng)絡(luò)話題傳播機理等問題時,可以根據(jù)研究需要選擇劃分階段的數(shù)量。以劃分3個階段為例,通過微積分確定曲線的兩個關(guān)鍵點P1、P2,其對應(yīng)兩個關(guān)鍵時間節(jié)點t1、t2,進而整個網(wǎng)絡(luò)傳播過程分為3個階段:[0,t1]、[t1,t2]和[t2,+∞],據(jù)此可以定義網(wǎng)絡(luò)話題傳播的3個階段為潛伏期、擴散期和消退期(見圖5)。
播案例的統(tǒng)計數(shù)據(jù)往往呈現(xiàn)單調(diào)遞減或者短時間增長后再遞減的形態(tài)。
2)網(wǎng)絡(luò)話題傳播擴散期。計算擴散期持續(xù)時長,得:
t2-t1=1rln3+53-5(3)
擴散期持續(xù)時長僅與增長率r呈反比,而與信息量上限K和初值F0無關(guān)。當(dāng)增長率r大于192時,擴散期時長小于1天,而擴散期網(wǎng)絡(luò)話題信息量增量占總量的609%,所以就會出現(xiàn)在1天之內(nèi)網(wǎng)絡(luò)話題統(tǒng)計數(shù)據(jù)急劇增加的現(xiàn)象。
3)網(wǎng)絡(luò)話題傳播消退期。自t2開始,網(wǎng)絡(luò)話題熱度逐漸減低,傳播趨勢趨于消退,但由于消退期持續(xù)時間較長,也為這個階段增加了更多不確定性。首先,由于網(wǎng)民關(guān)注話題的長期性和延遲性,導(dǎo)致消退期仍會有網(wǎng)民持續(xù)關(guān)注并發(fā)表自身觀點,導(dǎo)致網(wǎng)絡(luò)話題統(tǒng)計數(shù)據(jù)會出現(xiàn)長尾效應(yīng);其次,由于話題反轉(zhuǎn)或者話題關(guān)聯(lián)等因素,促使話題熱度回升,導(dǎo)致網(wǎng)絡(luò)話題統(tǒng)計數(shù)據(jù)出現(xiàn)波動現(xiàn)象。
4網(wǎng)絡(luò)話題傳播趨勢預(yù)測研究
41預(yù)測思路和方法
網(wǎng)絡(luò)話題傳播趨勢預(yù)測是感知網(wǎng)絡(luò)話題未來狀態(tài)、解讀各種網(wǎng)絡(luò)話題傳播現(xiàn)象的重要內(nèi)容,也是準(zhǔn)確識別話題傳播高潮或者傳播衍生現(xiàn)象的關(guān)鍵。預(yù)測是一項復(fù)雜、系統(tǒng)的工作,包括預(yù)測類型、預(yù)測效果、預(yù)測方法等,而對網(wǎng)絡(luò)話題傳播趨勢預(yù)測來說,還需注重以下幾個問題。
1)動態(tài)預(yù)測問題??紤]到大數(shù)據(jù)環(huán)境下網(wǎng)絡(luò)話題數(shù)據(jù)產(chǎn)生快、傳播周期較短等情況,所以在網(wǎng)絡(luò)話題傳播過程中,需要及時預(yù)知網(wǎng)絡(luò)話題未來趨勢。基于此,在動態(tài)抓取網(wǎng)絡(luò)話題數(shù)據(jù)后,需要動態(tài)進行數(shù)據(jù)建模并開展預(yù)測,進而實現(xiàn)網(wǎng)絡(luò)話題動態(tài)預(yù)測。
2)“分析——預(yù)測”一體化問題。分析和預(yù)測是研究網(wǎng)絡(luò)話題傳播規(guī)律的兩個重要環(huán)節(jié),分析模型和預(yù)測模型的銜接誤差直接影響網(wǎng)絡(luò)話題傳播趨勢預(yù)測精度?;诖?,以網(wǎng)絡(luò)話題傳播規(guī)律模型為基礎(chǔ)模型開展分析和預(yù)測,在預(yù)測網(wǎng)絡(luò)話題傳播趨勢的同時開展劃分傳播階段等機理分析,可以解決“分析——預(yù)測”一體化問題。更進一步,為提升預(yù)測精度,可以考慮以傳播規(guī)律模型為主模型,以灰色預(yù)測方法,以及移動平均、指數(shù)平滑、自回歸滑動平均等時間序列分析方法為輔模型開展組合預(yù)測。
3)預(yù)測起點問題。網(wǎng)絡(luò)話題類型眾多,在開展趨勢預(yù)測時需要嚴(yán)格選擇預(yù)測起點,降低初值選擇對預(yù)測精度的影響?;诖耍瑢τ谕话l(fā)事件等突發(fā)性網(wǎng)絡(luò)話題,預(yù)測起點選在事件產(chǎn)生的時間點;而對于網(wǎng)民經(jīng)常性、持續(xù)性討論的非突發(fā)性網(wǎng)絡(luò)話題,則遵循數(shù)據(jù)由少至多的原則,選擇數(shù)值較低的時間點作為預(yù)測起點。
綜合以上幾點,構(gòu)建網(wǎng)絡(luò)話題傳播趨勢預(yù)測基本思路和方法如圖6。
首先,針對歷史網(wǎng)絡(luò)話題,獲取其傳播周期內(nèi)的數(shù)據(jù),然后應(yīng)用最小二乘法、三段和值法、上限估值法等確定模型參數(shù),然后按照話題屬性將歷史網(wǎng)絡(luò)話題進行聚類,得出每類的核心屬性和傳播規(guī)律模型參數(shù)。
其次,針對正在發(fā)生的某個網(wǎng)絡(luò)話題,在話題
發(fā)生時,通過歸類分析開展經(jīng)驗預(yù)測,定性預(yù)測該話題的未來趨勢;隨著話題數(shù)據(jù)的增多,需要根據(jù)數(shù)據(jù)確定預(yù)測模型,然后根據(jù)模型開展趨勢預(yù)測,進而劃分話題傳播階段,并且隨著新數(shù)據(jù)的融入開展動態(tài)預(yù)測。具體方法是:將微分形式的模型dFdt=FfFK變?yōu)椴罘中问降姆匠蹋?/p>
ΔFk=Fk+1-Fk=FkfFkK(4)
其中k=0,1,2,…。差分形式中,ΔFk代表網(wǎng)絡(luò)話題統(tǒng)計數(shù)據(jù),F(xiàn)k則代表網(wǎng)絡(luò)話題傳播量,通過多元回歸分析便可以確定模型中的待定參數(shù),具體預(yù)測思路見圖6。以網(wǎng)絡(luò)話題傳播規(guī)律模型dFdt=-rFlnFK為例,其對應(yīng)的差分方程為:
ΔFk=Fk+1-Fk=-rFklnFkK=rFklnK-rFklnFk(5)
其中k=0,1,2,…,n-1。通過差分形式能夠得出,ΔFk與Fk、FklnFk呈現(xiàn)二元線性結(jié)構(gòu),應(yīng)用EXCEL或者MATLAB軟件進行二元線性回歸分析,即可得出回歸方程的系數(shù)r和rlnK,從而求解方程得到模型的參數(shù)K和r。
42網(wǎng)絡(luò)話題傳播趨勢預(yù)測的應(yīng)用
根據(jù)網(wǎng)絡(luò)話題可預(yù)測性特征,在確定網(wǎng)絡(luò)話題傳播規(guī)律模型之后,綜合運用預(yù)測方法進行網(wǎng)絡(luò)話題傳播趨勢預(yù)測。首先,在確定預(yù)測方法后,通過部分?jǐn)?shù)據(jù)可以預(yù)測網(wǎng)絡(luò)話題傳播的未來趨勢,進而提前確定傳播階段,并且隨著新數(shù)據(jù)的加入,通過動態(tài)預(yù)測可以動態(tài)修正預(yù)測結(jié)果和劃分階段的結(jié)果。其次,對于突發(fā)事件等突發(fā)性網(wǎng)絡(luò)話題,通過動態(tài)預(yù)測網(wǎng)絡(luò)話題未來趨勢,可以提前感知反轉(zhuǎn)、衍生等現(xiàn)象;對于網(wǎng)民經(jīng)常性、持續(xù)性討論的話題等非突發(fā)性網(wǎng)絡(luò)話題,通過動態(tài)預(yù)測網(wǎng)絡(luò)話題傳播趨勢可以識別多個話題周期。網(wǎng)絡(luò)話題傳播趨勢預(yù)測應(yīng)用的具體思路(圖7)如下:
1)常態(tài)模型預(yù)測:隨著話題數(shù)據(jù)增多至Pk點,通過動態(tài)預(yù)測可以得出話題未來趨勢(圖中虛線),并可據(jù)此劃分網(wǎng)絡(luò)話題傳播階段。
2)異常數(shù)據(jù)感知:如果網(wǎng)絡(luò)話題出現(xiàn)衍生、反轉(zhuǎn)或者產(chǎn)生新的傳播周期等,則網(wǎng)絡(luò)話題數(shù)據(jù)會呈現(xiàn)圖中實線趨勢,當(dāng)進行數(shù)據(jù)預(yù)測時,隨著Pk點之后Pa、Pb、Pc、Pd等數(shù)據(jù)的加入,預(yù)測數(shù)據(jù)和真實數(shù)據(jù)差距不斷擴大,會導(dǎo)致增長率和上限發(fā)生明顯波動,據(jù)此可以感知網(wǎng)絡(luò)話題傳播趨勢異常,為進一步判斷話題衍生、反轉(zhuǎn)或新周期等現(xiàn)象提供依據(jù)[19]。
5實證研究
51案例來源
“霧霾”網(wǎng)絡(luò)話題屬于非突發(fā)性網(wǎng)絡(luò)話題,自2013年開始成為網(wǎng)民持續(xù)討論的熱門話題,通過百度指數(shù)數(shù)據(jù)發(fā)現(xiàn)(圖8),“霧霾”網(wǎng)絡(luò)話題呈現(xiàn)一定周期性。為驗證模型合理性和可行性,本文選擇“霧霾”話題的最新微博數(shù)據(jù)進行實證研究,數(shù)據(jù)選擇時間為:2018年11月9日至12月9日,網(wǎng)絡(luò)話題傳播量暫不考慮評論、點贊、收藏等信息,僅考慮原創(chuàng)和轉(zhuǎn)發(fā)微博數(shù)量,實證數(shù)據(jù)取為原創(chuàng)微博和轉(zhuǎn)發(fā)微博數(shù)量之和,共5 631 750條微博數(shù)據(jù)。
52數(shù)據(jù)建模
首先,選擇3類模型作為備選的常態(tài)模型;其次,選取2018年11月9日至11月18日數(shù)據(jù)作為建模數(shù)據(jù)。通過計算數(shù)據(jù)差分并應(yīng)用回歸分析得到模型參數(shù)(見表2),模型I數(shù)據(jù)擬合效果較好,所以采用模型Ⅰ劃分網(wǎng)絡(luò)話題傳播階段并開展數(shù)據(jù)預(yù)測。
521劃分網(wǎng)絡(luò)話題傳播階段
根據(jù)模型Ⅰ的解和參數(shù),計算劃分網(wǎng)絡(luò)話題傳播階段的關(guān)鍵時間節(jié)點(表3),分別得出劃分兩階段、三階段、四階段、五階段的數(shù)值標(biāo)準(zhǔn)。以劃分三階段為例:潛伏期為[0,39006],擴散期為[39006,58944],消退期為[58944,+∞],其中網(wǎng)絡(luò)話題傳播最快的擴散期時長為19938天,期間新增微博量約1 211 421條,平均每天607 594條,而潛伏期(39006天)僅約443 361條,平均每天113 665條,說明在擴散期網(wǎng)絡(luò)話題迅速傳播。在深入解讀網(wǎng)絡(luò)話題傳播機理時,可以根據(jù)需要選擇劃分階段的方法,也可以選擇多個方法并進行比較研究。
522網(wǎng)絡(luò)話題傳播趨勢預(yù)測以及異常識別
根據(jù)模型Ⅰ的參數(shù),應(yīng)用2018年11月19日之后的數(shù)據(jù)開展動態(tài)預(yù)測,確定模型增長率和對應(yīng)的可決系數(shù),并且隨著新數(shù)據(jù)的加入,動態(tài)修正模型參數(shù)(表4),與此同時,繪制增長率變化趨勢圖(圖9)。
線擬合效果較好。但加入第15個數(shù)據(jù)以后,可決系數(shù)持續(xù)降低,尤其是加入第18個數(shù)據(jù)之后,可決系數(shù)降至03519,擬合效果極不理想,這說明真實數(shù)據(jù)已經(jīng)偏離理論模型,由此可以推斷話題傳播出現(xiàn)數(shù)據(jù)波動現(xiàn)象,這一點可以通過原始數(shù)據(jù)(圖8中11月26日數(shù)據(jù))獲得驗證;更進一步發(fā)現(xiàn):這一數(shù)據(jù)波動異?,F(xiàn)象并非瞬間產(chǎn)生,在可決系數(shù)持續(xù)降低時已有先兆。所以在網(wǎng)絡(luò)話題傳播趨勢動態(tài)預(yù)測過程中,當(dāng)可決系數(shù)持續(xù)降低時,可以推斷數(shù)據(jù)波動將要來臨,進而及時感知數(shù)據(jù)異常,而導(dǎo)致數(shù)據(jù)異常的原因則需要深入解讀網(wǎng)絡(luò)話題信息而得出。
6總結(jié)與展望
本文基于微分方程構(gòu)建了網(wǎng)絡(luò)話題傳播規(guī)律模型,提出劃分網(wǎng)絡(luò)話題傳播階段的一般方法,并據(jù)此研究網(wǎng)絡(luò)話題傳播趨勢預(yù)測問題,在以下4個方面具有一定創(chuàng)新性:1)在提出常態(tài)模型的基礎(chǔ)上,針對不同的應(yīng)用場景提出了相應(yīng)的衍生模型,提升了網(wǎng)絡(luò)話題傳播規(guī)律模型的系統(tǒng)性、適用性;2)提出了不同傳播階段的預(yù)測方法,特別是大數(shù)據(jù)環(huán)境下,提出應(yīng)用差分回歸法進行及時快速的動態(tài)預(yù)測并動態(tài)調(diào)整預(yù)測結(jié)果,為提前感知傳播趨勢以及衍生、反轉(zhuǎn)、新周期等傳播現(xiàn)象提供新方法;3)基于網(wǎng)絡(luò)話題傳播規(guī)律模型進行分析和預(yù)測,解決了網(wǎng)絡(luò)話題傳播“分析——預(yù)測”一體化的問題;4)網(wǎng)絡(luò)話題傳播的實質(zhì)是信息的傳播,本文通過定量建模的方式進行網(wǎng)絡(luò)話題傳播階段的劃分和測度,為解決信息生命周期理論中周期內(nèi)階段如何劃分、怎樣測度以及如何預(yù)知新周期等問題,提供了新視角和可行路徑。此外,本文僅僅研究了網(wǎng)絡(luò)話題傳播規(guī)律的常態(tài)模型,針對文中與之對應(yīng)的衍生模型需要進一步研究,例如不同場景下網(wǎng)絡(luò)話題傳播規(guī)律建模、如何加入控制項描述網(wǎng)絡(luò)推手或者網(wǎng)絡(luò)水軍對網(wǎng)絡(luò)話題的影響、如何構(gòu)建方程組描述多個網(wǎng)絡(luò)話題相互影響等問題。
參考文獻
[1]王晰巍,趙丹,魏駿巍,等.移動環(huán)境下網(wǎng)絡(luò)輿情信息傳播模式及實證研究——以埃博拉話題為例[J].情報學(xué)報,2015,34(7):683-692.
[2]金兼斌,陳安繁.網(wǎng)絡(luò)事件和話題的熱度:基于傳播效果的操作化測量設(shè)計[J].中國傳媒大學(xué)學(xué)報,2017,39(5):71-75.
[3]王璟琦,李銳,吳華意.基于空間自相關(guān)的網(wǎng)絡(luò)輿情話題演化時空規(guī)律分析[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2018,2(2):64-73.
[4]陳卓群.基于共詞網(wǎng)絡(luò)的社交媒體話題演化分析[J].情報科學(xué),2015,33(1):120-125.
[5]廖君華,孫克迎,鐘麗霞.一種基于時序主題模型的網(wǎng)絡(luò)熱點話題演化分析系統(tǒng)[J].圖書情報工作,2013,57(9):96-102.
[6]陳福集,黃江玲.基于演化博弈的網(wǎng)絡(luò)輿情熱點話題傳播模型研究[J].情報科學(xué),2015,33(11):74-78.
[7]郭瑞強,郭阿為,韓忠明,等.網(wǎng)絡(luò)熱點話題傳播的脈沖時序行為動力模型[J].計算機工程與應(yīng)用,2015,51(16):121-129.
[8]韓忠明,張夢,譚旭升,等.基于自激點過程的網(wǎng)絡(luò)熱點話題傳播模型[J].計算機學(xué)報,2016,39(4):704-716.
[9]譚娟.基于傳染病模型的社交網(wǎng)絡(luò)輿情話題傳播[J].計算機工程與應(yīng)用,2015,51(12):118-122.
[10]馬曉寧,王惠.基于PSO優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的話題趨勢預(yù)測[J].計算機工程與設(shè)計,2018,39(9):2907-2911.
[11]譚鵬,羅順蓮,孫小淞,等.基于小波神經(jīng)網(wǎng)絡(luò)的話題熱度預(yù)測模型研究[J].現(xiàn)代信息科技,2018,2(5):74-78.
[12]劇雷鳴,楊俊成.基于支持向量機的網(wǎng)絡(luò)熱點話題預(yù)測[J].微型電腦應(yīng)用,2017,33(7):30-32,36.
[13]劉英華.基于魯棒回聲狀態(tài)網(wǎng)絡(luò)的網(wǎng)絡(luò)微博熱門話題建模與預(yù)測[J].計算機應(yīng)用與軟件,2016,33(1):295-299.
[14]張睿,李樹剛.基于復(fù)雜網(wǎng)絡(luò)的微吧話題流行度預(yù)測研究[J].科學(xué)技術(shù)與工程,2015,15(17):72-78.
[15]程葳.利用Hurst指數(shù)預(yù)測網(wǎng)絡(luò)話題熱度[J].現(xiàn)代計算機:專業(yè)版,2012,(23):3-7.
[16]羅賢春.網(wǎng)絡(luò)信息生命周期[J].圖書館學(xué)研究,2004,(2):51-53.
[17]馬費成,蘇小敏.網(wǎng)絡(luò)信息生命階段的模糊識別研究[J].情報科學(xué),2012,30(9):1277-1283.
[18]索傳軍.試論信息生命周期的概念及研究內(nèi)容[J].圖書情報工作,2010,54(13):5-9.
[19]夏一雪,袁野,張文才,等.面向大數(shù)據(jù)的網(wǎng)絡(luò)輿情異常數(shù)據(jù)監(jiān)測與應(yīng)用研究[J].現(xiàn)代情報,2018,38(6):80-85.
(責(zé)任編輯:孫國雷)