国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于任務隊列的新聞報道模型

2016-10-14 02:04:00尤志強朱燕燕韓筱璞呂琳媛
電子科技大學學報 2016年2期
關(guān)鍵詞:冪律隊列類別

尤志強,朱燕燕,韓筱璞,呂琳媛

?

基于任務隊列的新聞報道模型

尤志強,朱燕燕,韓筱璞,呂琳媛

(杭州師范大學阿里巴巴復雜性科學研究中心 杭州 311121)

基于新浪新聞數(shù)據(jù),對熱點新聞的連續(xù)發(fā)表事件時間間隔序列進行了統(tǒng)計分析,以探究新聞內(nèi)容的選擇機制。實證發(fā)現(xiàn)該時間間隔分布在個類與總體層面上都遵循帶指數(shù)截斷的冪律分布,由此提出一種考慮時效性的,并基于嚴格優(yōu)先及偏好優(yōu)先選擇混合機制的隊列模型來揭示新聞選擇背后的機制。該模型的數(shù)值模擬結(jié)果與實證統(tǒng)計數(shù)據(jù)較好地吻合,表明該模型規(guī)則在一定程度上可用于解釋新聞報道中出現(xiàn)的非泊松時間特性。

爆發(fā)性; 新聞選擇; 冪律分布; 任務隊列模型; 時間間隔分布

信息傳播目前是學術(shù)界炙手可熱的研究領(lǐng)域。學者對不同網(wǎng)絡(luò)上的信息傳播及動力學進行了大量的研究[1-5],有助于人們理解信息擴散的機制及對輿論控制的研究。然而,對于信息內(nèi)容的產(chǎn)生機制的研究卻鮮有報道。目前學界關(guān)注的重點集中在社交網(wǎng)絡(luò)層面,如謠言傳播[6-7]、創(chuàng)新擴散[8]、人類行為對傳播的影響[9-10]等,而對新聞這類主流信息傳播主體的研究十分缺乏,特別是針對新聞內(nèi)容產(chǎn)生機制的研究更是難覓蹤跡。文獻[11]雖關(guān)注的是新聞,不過其研究的是新聞的密集報道產(chǎn)生的影響力。新聞媒體在現(xiàn)代信息傳播中扮演著重要的角色。至今,人們對于各類新聞的發(fā)表規(guī)律知之甚少。因此,對新聞內(nèi)容產(chǎn)生機制的研究,將有助于更好地理解新聞的性質(zhì)特點以及加深對信息傳播的理解。

新聞,顧名思義,是一種新近發(fā)生的事件,通常人們會認為新聞的選擇是基于時間及重要性的絕對優(yōu)先原則,那是否意味著只有最新最重要的事件才會被報道,或存在其他的新聞產(chǎn)生機制?目前,針對新聞的相關(guān)性質(zhì)特點的研究主要集中在社會科學領(lǐng)域,但隨著網(wǎng)絡(luò)科學在復雜系統(tǒng)中的應用日趨成熟,使用復雜網(wǎng)絡(luò)領(lǐng)域知識來研究新聞的選擇機制值得嘗試。當前復雜網(wǎng)絡(luò)研究在包括人類任務處理[12]、地理活動[13-15]、郵件[16-17]、短信[18]、通話[19]等方面都取得了相當豐碩的成果。文獻[17]通過研究用戶從接收信件到回復信件之間的間隔反應時間序列發(fā)現(xiàn)該反應時間間隔分布存在冪律現(xiàn)象。文獻[18]通過研究用戶連續(xù)進行短信發(fā)送事件的時間間隔序列,發(fā)現(xiàn)在個體用戶層面的連續(xù)事件時間間隔分布遵循冪律分布。受此類研究方法的啟發(fā),本文從時間統(tǒng)計特性的角度對新聞數(shù)據(jù)進行研究,分析新聞選擇的潛在機制。

本文使用新聞標題表征新聞類別,如“暴雨”表示一類新聞。根據(jù)新聞的發(fā)表時間信息可以刻畫出每一類新聞的連續(xù)發(fā)表事件時間間隔序列,該時間間隔表示同類新聞連續(xù)兩次發(fā)表之間的時間差,實證分析發(fā)現(xiàn)新聞的連續(xù)發(fā)表事件時間間隔分布在個類層面和總體層面上都呈現(xiàn)為帶指數(shù)截斷的冪律分布?;谠搶嵶C發(fā)現(xiàn),本文提出一種考慮時效性的混合機制隊列模型來研究新聞選擇機制的動力學過程,模型所得結(jié)果與實際數(shù)據(jù)較好地吻合,表明對新聞內(nèi)容的選擇在新聞時間統(tǒng)計特性產(chǎn)生中可能起了重要作用。

1 數(shù) 據(jù)

新浪新聞是中國重要的新聞內(nèi)容提供方,內(nèi)容涵蓋了社會、體育、娛樂、財經(jīng)等領(lǐng)域。本文采用了新浪新聞2012年1月1日—2012年12月31日的新聞數(shù)據(jù)[20]。該新聞數(shù)據(jù)以季度劃分,每個季度為一個文件,共包含25萬條新聞,約2.5億字。每條新聞包含以下內(nèi)容:新聞的URL、使用的字符編碼、標題、關(guān)鍵字、描述、報道媒體以及新聞內(nèi)容等,格式為XML。另外,新聞URL信息中包含了每一條新聞發(fā)布的具體時間信息,精確到分鐘。

標題是對具體內(nèi)容的高度濃縮,對標題的提取,可以便捷地得到新聞的主題內(nèi)容信息。因此,本文重點對標題進行了提取和統(tǒng)計分析。為了驗證使用標題的合理性,需要確保標題的詞頻與新聞文本內(nèi)容詞頻具有相似的分布。本文使用中文分詞工具盤古分詞軟件[21]對新聞標題及文本內(nèi)容進行分詞。為了排除虛詞的影響,本文過濾掉長度小于2的詞語,分別對內(nèi)容以及標題的詞頻進行統(tǒng)計。圖1a表示新聞內(nèi)容分詞詞頻概率分布,圖1b表示新聞標題分詞詞頻概率分布,可以看到兩者具有相似的冪律分布特性。此外,針對標題文本的分詞,選取長度不小于2且詞頻數(shù)不少于500的作為后面研究分析的對象。限制詞頻數(shù)不小于500,是為了確保可以得到足夠長的同類新聞連續(xù)發(fā)表事件時間間隔序列以利于分析相關(guān)性質(zhì)。通過以上數(shù)據(jù)預處理,得到新聞 331個,每個 表征了一類新聞。

2 統(tǒng)計分析

本文以分鐘為基本時間單位,對所有熱點新聞分別提取其相應的新聞發(fā)表事件的時間數(shù)據(jù),并依此得到每一類熱點新聞的每連續(xù)兩次發(fā)表事件的時間間隔序列,該時間間隔使用表示,并進一步對熱點新聞在個類及總體層面(即綜合所有新聞類別)上統(tǒng)計了新聞連續(xù)發(fā)表事件的時間間隔分布。圖2展示了其中的4類高頻熱點新聞的時間間隔分布(其余熱點新聞均表現(xiàn)出相似分布特征),這4個關(guān)鍵詞分別為暴雨、爆炸、官員、槍擊,其中空心圓表示實際數(shù)據(jù)的分布,實心三角形表示logarithmic binning處理后的結(jié)果。從圖2可以看到同類新聞連續(xù)發(fā)表事件的時間間隔分布具有帶指數(shù)截斷的冪律分布特性,如表1所示,本文使用帶指數(shù)截斷的冪律分布函數(shù)=-Be-Cx對分布做了擬合,即同類新聞會在短時間內(nèi)頻繁發(fā)布,而較少出現(xiàn)長時間靜默的情形。此外,不同類別的新聞雖然總體趨勢相似,但指數(shù)截斷強度存在差別,表明不同新聞在長時間靜默表現(xiàn)上具有不同的傾向,如“暴雨”,指數(shù)截斷現(xiàn)象較弱,尾部分布近似于冪律,而爆炸、官員、槍擊等新聞則表現(xiàn)出較強的指數(shù)截斷,表明這些類別新聞更偏好于短時間的集中發(fā)布。

圖2 單個新聞的發(fā)表時間間隔分布

表1 新聞熱詞連續(xù)發(fā)表事件時間間隔分布擬合結(jié)果

為了更好理解該現(xiàn)象,本文分別畫出了這4個詞的活躍性分布圖,以天為單位,一天內(nèi)該新聞發(fā)表的次數(shù)為活躍性,如圖3所示,可以看到“暴雨”在6、7月份異?;钴S,短時間內(nèi)發(fā)表非常頻繁,而其他時候基本處于長時間靜默,導致其指數(shù)尾不明顯?!皹寭簟被钴S性分布呈現(xiàn)出明顯的周期性,在80、200、350天左右呈現(xiàn)高頻爆發(fā),而其他時間相對靜默,導致其指數(shù)尾也較弱。然而相對暴雨和槍擊,爆炸和官員新聞則沒有表現(xiàn)出明顯的陣發(fā)現(xiàn)象,呈現(xiàn)出一定的隨機性,導致產(chǎn)生較明顯的指數(shù)尾。

單個新聞每天的活躍性變化

3 模 型

新聞工作者從候選新聞素材中選擇正式發(fā)表的新聞內(nèi)容與人們處理任務隊列中任務的行為相似,因此,在文獻[12]提出的反映人類行為的隊列模型基礎(chǔ)上,本文提出了一種考慮時效性的混合機制隊列模型。該模型的核心機制主要考慮了如下3點:1) 絕對優(yōu)先機制。該機制嚴格依據(jù)新聞的重要性從新聞素材候選隊列中選擇重要性權(quán)重最大的新聞,該機制強調(diào)新聞本身的重要性;2) 偏好優(yōu)先機制。按照新聞的重要性權(quán)重成比例地從新聞隊列中隨機選擇新聞,權(quán)重值大的新聞更有可能被選中,但權(quán)重小的新聞依然有機會被選擇;3) 新聞信息冗余和強時效性,即可供發(fā)布的新聞遠遠多于能夠發(fā)布的新聞,而且選擇的新聞一般為近期的新聞素材,未能及時發(fā)布的新聞隨時間推移迅速喪失其意義。

考慮上述因素后,該模型首先定義個類別新聞,每一類新聞賦予固定的權(quán)重值以表征其重要程度,在0~1之間隨機選取。固定新聞的權(quán)重值,是因為各個類別的新聞的重要程度不會出現(xiàn)較大波動,如“槍擊”“總統(tǒng)”等類別新聞重要程度一直很高。模型更新規(guī)則如下:

1) 在=0時刻,初始化長度為的新聞列表,該列表可視為新聞的備選庫。這條新聞的類別是從種類別中隨機選擇。由于各個新聞類別的重要性值已經(jīng)固定,因此選入隊列的新聞的值也由其類別確定。

2) 進行新聞選擇過程,如圖5所示。圖5a表示有5條新聞的待選隊列,圓圈表示新聞,圓圈大小正比于新聞的重要性,灰度深淺用以區(qū)分新聞類別。模型以概率使用絕對優(yōu)先機制選擇新聞,即直接選取隊列中最大的發(fā)表,如圖5b示;或者以概率1–按照偏好優(yōu)先機制進行新聞選擇,即某新聞被發(fā)表的概率Ω=ω/,如圖5c所示。

3) 選擇完成后,從隊列中刪除被選中的新聞,并往隊列中添加一條新的新聞,這條新的新聞的類別也是從類新聞中隨機選擇。

4) 如果超過了/20時步,一條新聞還沒被選過,那么就從候選列表中將它刪除,并從類新聞中隨機選擇一條新聞添加到新聞候選列表。選擇/20,是考慮到新聞的時效性,新聞在/20時步后仍未被發(fā)布則視為失去發(fā)布意義。

在模擬過程中,迭代時間總步數(shù)設(shè)置為366× 24×60步,即模擬2012年全年的分鐘數(shù)。待完成迭代,提取同類新聞連續(xù)發(fā)表事件的時間間隔序列,并綜合所有新聞類別,統(tǒng)計總體水平上該連續(xù)事件時間間隔分布。

4 結(jié)果與分析

此外,本文進一步探究了模型中各參數(shù)對結(jié)果的影響,如圖6所示。圖6a展示了新聞類別數(shù)量對結(jié)果的影響,固定=200,=0.22,分別選取在200、600、1 000時模型的結(jié)果進行比較??梢钥吹诫S著的增加,新聞連續(xù)發(fā)表事件時間間隔分布在小于300的區(qū)間出現(xiàn)下降趨勢,300~500為過渡區(qū)間,大于500區(qū)間,隨著的增加,分布出現(xiàn)右移趨勢。圖6b顯示了新聞候選列表長度對結(jié)果的影響,參數(shù)固定=600,=0.22,分別選取為100、200、300、400進行實驗。可以看到隨著的增大,分布只在為[1,10]區(qū)間部分發(fā)生較明顯變化,越大,該部分分布抬升越顯著,而尾部變化不明顯。圖6c展示機制選擇概率對結(jié)果的影響,固定=600,=200,分別選取=0.1、0.2、0.3時的模型結(jié)果進行研究。可以看到,只對模型分布結(jié)果在為[1,100]區(qū)間產(chǎn)生影響,值越大,分布抬升越明顯。

圖6顯示了隨著的增大,可被挑選到新聞候選列表中的新聞種類變多。由于模型規(guī)則規(guī)定在補充候選新聞列表時采用隨機從類新聞中抽取的方式,客觀上導致每一類新聞被抽到的概率變小,進而造成候選列表中存在同類新聞的可能性降低,最終使得同類新聞短時間內(nèi)被重復選擇的機率降低。在總體層面上,新聞連續(xù)發(fā)表時間間隔及其比例都表現(xiàn)出變大的趨勢。而候選列表長度的變大,使得候選列表中同類新聞的存在可能性增加,提高了同類新聞短時間內(nèi)被多次發(fā)表的概率,不過受此影響最大的應該是具有較高權(quán)重值的新聞,因為模型偏好高權(quán)重值的新聞發(fā)表,因此可以看到較小的比值有所增加但幅度較弱,長度對結(jié)果的影響沒有新聞種類變化帶來的影響大。另外,選擇概率是控制偏好選擇的比例,偏好選擇比重增加,導致更多的具有較高權(quán)重值的同類新聞被選擇的概率增大,但對于低權(quán)重值的新聞的影響不大。

從結(jié)果分析來看,高權(quán)重新聞的連續(xù)發(fā)表時間間隔易受到規(guī)則參數(shù)的影響,而低權(quán)重新聞對于參數(shù)、的變化不敏感,但會受到新聞種類的明顯作用。

5 結(jié) 束 語

本文通過實證統(tǒng)計分析發(fā)現(xiàn),熱點新聞連續(xù)發(fā)表事件時間間隔分布在個類及總體層面上呈現(xiàn)帶指數(shù)截斷的冪律分布現(xiàn)象。為了揭示新聞選擇背后的規(guī)律,本文提出了考慮時效性并基于嚴格優(yōu)先及偏好優(yōu)先混合機制的隊列模型。通過數(shù)值模擬,該模型結(jié)果顯示了豐富的非泊松時間間隔特性,可以得到與實際數(shù)據(jù)在總體層面上新聞連續(xù)發(fā)表事件時間間隔分布較一致的結(jié)果。

需要注意的是,模型實際上假設(shè)了各個類別新聞的出現(xiàn)間隔是均質(zhì)的,但是對新聞的選擇使得發(fā)布的新聞的時間間隔出現(xiàn)了爆發(fā)性。這一機制揭示出這種人為選擇的影響在新聞統(tǒng)計特性中扮演著重要角色,這對于理解各類媒體的行為特性有著重要的意義。該研究成果有助于深入理解新聞背后的選擇機制,同時該工作能夠被拓展到其他媒體的內(nèi)容選擇規(guī)則的研究上,如雜志、電影等,這將為進一步理解人類行為及信息傳播提供契機。

本文的研究工作得到杭州師范大學科研啟動經(jīng)費項目(2015QDL005)的資助,在此表示感謝。

[1] Lü L, CHEN D B, ZHOU T. The small world yields the most effective information spreading[J]. New Journal of Physics, 2011, 13(12): 123005.

[2] YANG J, COUNTS S. Predicting the speed, scale, and range of information diffusion in twitter[J]. ICWSM, 2010(10): 355-358.

[3] IRIBARREN J L, MORO E. Impact of human activity patterns on the dynamics of information diffusion[J]. Physical Review Letters, 2009, 103(3): 038702.

[4] DUTTA C, PANDURANGAN G, RAJARAMAN R, et al. Information spreading in dynamic networks[EB/OL]. (2011-12-02). http://arXiv.org/abs/1112.0384.

[5] IRIBARREN J L, MORO E. Branching dynamics of viral information spreading[J]. Physical Review E, 2011, 84(4): 046116.

[6] DOERR B, FOUZ M, FRIEDRICH T. Why rumors spread so quickly in social networks[J]. Communications of the ACM, 2012, 55(6): 70-75.

[7] LIND P G, DA SILVA L R, ANDRADE J J S, et al. Spreading gossip in social networks[J]. Physical Review E, 2007, 76(3): 036117.

[8] MONTANARI A, SABERI A. The spread of innovations in social networks[J]. Proceedings of the National Academy of Sciences, 2010, 107(47): 20196-20201.

[9] MIRITELLO G, MORO E, LARA R. Dynamical strength of social ties in information spreading[J]. Physical Review E, 2011, 83(4): 045102.

[10] PFITZNER R, GARAS A, SCHWEITZER F. Emotional divergence influences information spreading in twitter[J]. ICWSM, 2012(12): 2-5.

[11] CHEN Y Y, CHEN F, GUNNELL D, et al. The impact of media reporting on the emergence of charcoal burning suicide in Taiwan[J]. PloS One, 2013, 8(1): e55000.

[12] BARABáSI A L. The origin of bursts and heavy tails in human dynamics[J]. Nature, 2005, 435(7039): 207-211.

[13] GONZALEZ M C, HIDALGO C A, BARABASI A L. Understanding individual human mobility patterns[J]. Nature, 2008, 453(7196): 779-782.

[14] SONG C, QU Z, BLUMM N, et al. Limits of predictability in human mobility[J]. Science, 2010, 327(5968): 1018-1021.

[15] BROCKMANN D, HUFNAGEL L, GEISEL T. The scaling laws of human travel[J]. Nature, 2006, 439(7075): 462-465.

[16] MALMGREN R D, STOUFFER D B, MOTTER A E, et al. A Poissonian explanation for heavy tails in e-mail communication[J]. Proceedings of the National Academy of Sciences, 2008, 105(47): 18153-18158.

[17] OLIVEIRA J G, BARABáSI A L. Human dynamics: Darwin and Einstein correspondence patterns[J]. Nature, 2005, 437(7063): 1251-1251.

[18] HONG W, HAN X P, ZHOU T, et al. Heavy-tailed statistics in short-message communication[J]. Chinese Physics Letters, 2009, 26(2): 028902.

[19] CANDIA J, GONZáLEZ M C, WANG P, et al. Uncovering individual and collective human dynamics from mobile phone records[J]. Journal of Physics A: Mathematical and Theoretical, 2008, 41(22): 224015.

[20] 張開旭. 2012年新浪新聞語料[DB/OL]. [2013-01-10]. http://pan.baidu.com/s/1pJqrfPh.

ZHANG Kai-xu. The news corpus of Sina.com in 2012. [DB/OL].[2013-1-10]. http://pan.baidu.com/s/1pJqrfPh.

[21] EAGLET. Pan Gu Segment[EB/OL]. [2010-08-18]. http://pangusegment.codeplex.com.

編 輯 蔣 曉

Queuing Model for News Reports

YOU Zhi-qiang, ZHU Yan-yan, HAN Xiao-pu, and Lü Lin-yuan

(Alibaba Research Center for Complexity Sciences, Hangzhou Normal University Hangzhou 311121)

In this paper, based on the news data of Sina website, inter-event time interval sequences of hot news publication are analyzed to reveal the hidden rules of news selection. Empirical analysis shows that the distributions of the inter-event time intervals between two consecutive news with common keywords follow power-law-like distribution with exponential cutoff both on individual level and aggregated level. Focusing on this finding, we propose a timeliness-based queuing model with mixed mechanisms of strict and preferential priority selections to reveal the hidden principle of news selection. The model results are generally in agreement with the empirical findings, indicating that the proposed model can explain the emergence of non-Poisson properties in news reports.

burstness; news selection; power-law distribution; queuing model; time interval distribution

N94

A

10.3969/j.issn.1001-0548.2016.03.023

2014 - 11 - 10;

2015 - 03- 24

猜你喜歡
冪律隊列類別
隊列里的小秘密
基于多隊列切換的SDN擁塞控制*
軟件(2020年3期)2020-04-20 00:58:44
在隊列里
豐田加速駛?cè)胱詣玉{駛隊列
四川地區(qū)降水冪律指數(shù)研究
冪律流底泥的質(zhì)量輸移和流場
服務類別
新校長(2016年8期)2016-01-10 06:43:59
對抗冪律
論類別股東會
商事法論集(2014年1期)2014-06-27 01:20:42
中醫(yī)類別全科醫(yī)師培養(yǎng)模式的探討
博客| 固安县| 武定县| 德安县| 辰溪县| 文化| 凯里市| 婺源县| 保亭| 建宁县| 大同县| 玉林市| 昭苏县| 林州市| 宁远县| 平武县| 伊吾县| 偏关县| 尼勒克县| 廉江市| 巴中市| 阿坝县| 泗阳县| 温宿县| 湘乡市| 双城市| 乌什县| 贺州市| 余姚市| 盐边县| 集安市| 龙陵县| 蒲城县| 阿拉善盟| 都匀市| 通河县| 长乐市| 汨罗市| 平湖市| 伊金霍洛旗| 明光市|