文/高依旻 施 亮(河海大學(xué)圖書(shū)館)
上古之人憑一己之力在大自然中生存。隨著工具的誕生、科技的發(fā)展,人的五官、四肢均得到延伸,如汽車(chē)是腿的延伸,電話是耳朵的延伸,電視是眼睛的延伸等。人的一切器官的指揮中心——大腦的延伸則是計(jì)算機(jī),大腦的作用就是接受、處理、存儲(chǔ)信息。獲取信息則是人類(lèi)一切行動(dòng)的前提。
2020年突發(fā)的“新型冠狀病毒肺炎”是繼“非典”后人類(lèi)面臨的又一次全球范圍內(nèi)的突發(fā)傳染性疾病,其對(duì)社會(huì)的影響之深,前所未見(jiàn)。從情報(bào)學(xué)的角度看,疫情當(dāng)屬應(yīng)急情報(bào)的范疇,而不確定、不對(duì)稱(chēng)、不完全、不均衡的災(zāi)害情報(bào)使得以情報(bào)為支撐的決策變得異常困難。疫情的發(fā)生會(huì)深刻影響信息的傳播方式,同時(shí)信息的傳播也會(huì)反作用于疫情給社會(huì)帶來(lái)的影響。
信息熵是對(duì)不確定性的一種度量方法,通過(guò)統(tǒng)計(jì)發(fā)生的概率,從而得出信息的信息量?!靶鹿诜窝住贝笠?guī)模爆發(fā)之前,如果我們結(jié)合以前處理非典、H1N1、埃博拉等類(lèi)似傳染性疾病的防控經(jīng)驗(yàn),建立起有效的疫情信息甄別體系,能夠及時(shí)、客觀預(yù)測(cè)疫情大規(guī)模傳播的可能性,那么就有可能大大減小本次疫情造成的損失。
古代疫情對(duì)信息傳播的影響并無(wú)記載。復(fù)旦大學(xué)歷史學(xué)系教授、中國(guó)科學(xué)技術(shù)史學(xué)會(huì)常務(wù)理事高晞?wù)J為:對(duì)可考的數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析可以確認(rèn),明清時(shí)期的疫病最為嚴(yán)重,出現(xiàn)了1580—1589年、1639—1648年、1813—1822年、1857—1866年4次高峰。其中,1817年,霍亂由海路傳入中國(guó),由溫州、寧波北移西傳,最后至西藏西南地區(qū)。疫情的空間分布包括閩廣、江南、黃河下游和云貴地區(qū),被認(rèn)為是近代以來(lái)波及最廣、影響最大、研究成果亦頗多的一場(chǎng)疫情。
古代的多次瘟疫,均無(wú)與圖書(shū)、情報(bào)相關(guān)的記錄?,F(xiàn)代的信息傳播較之古代增長(zhǎng)迅速,信息載體類(lèi)型繁多,可居斗室中而知天下事。盡管信息傳播與疫情的關(guān)系密切,但是圖書(shū)情報(bào)界研究疫情的論文仍然比較少,在萬(wàn)方數(shù)據(jù)庫(kù)中搜索“瘟疫+情報(bào)”,只有2篇論文,搜索“非典+情報(bào)”有34篇論文,搜索“疫情+情報(bào)”有23篇論文,去除重復(fù),共57篇論文。其中比較早的是1996年發(fā)表于期刊《上海醫(yī)藥情報(bào)研究》上的論文《世界艾滋病疫情現(xiàn)狀》。2003年“非典”事件發(fā)生后,2003—2004年發(fā)表相關(guān)論文22篇;2005—2012年陸續(xù)每年有三四篇相關(guān)論文發(fā)表;2012年以后,每年大約只有1篇相關(guān)論文發(fā)表。
對(duì)于信息傳播與疫情的相互影響,首先可以從社會(huì)變化與信息傳播的關(guān)系方面進(jìn)行研討。
信息主體在信息活動(dòng)中由于信息增加而導(dǎo)致“人的不自由狀態(tài)”,導(dǎo)致其主體性的喪失,即信息生產(chǎn)得越多、傳播得越快,作為信息主體的人卻感到越發(fā)不自由,從而抑制了人的發(fā)展,如信息焦慮等。信息的超載正如信息的不足一樣,使社會(huì)無(wú)序化程度增加,信息也就異化為與信息主體的意愿相悖。
信息增加是表面因素,根本原因還是在于信息主體無(wú)法從繁雜的信息中篩選到重要的情報(bào)。信息主體篩選情報(bào)與個(gè)人的認(rèn)知有關(guān)。疫情中導(dǎo)致信息異化的原因有很多,包括政治因素、經(jīng)濟(jì)因素、文化因素、技術(shù)因素、心理因素等,但根本原因還是在于信息主體的認(rèn)知,也就是信息主體對(duì)信息的判斷。當(dāng)然,信息主體的認(rèn)知是建立在上述各種因素的影響之上的。
從哲學(xué)角度來(lái)說(shuō),信息異化現(xiàn)象是導(dǎo)致社會(huì)變化的因素。社會(huì)只要變化,必然會(huì)變成與原來(lái)不同的狀態(tài)。變化原本是不分善惡利弊的,從倫理學(xué)角度來(lái)說(shuō),既可以對(duì)人類(lèi)有利,也可以對(duì)人類(lèi)不利。為了避免社會(huì)向?qū)θ祟?lèi)不利的方向發(fā)展,在疫情來(lái)臨的時(shí)候,需要盡快甄別信息,采取措施加以防范。至于疫情信息的甄別,首先需要將其從大量的互聯(lián)網(wǎng)信息中篩選出來(lái),因此必須對(duì)信息進(jìn)行度量。
疫情信息演化與一般網(wǎng)絡(luò)輿情相同,根據(jù)其社會(huì)影響力大小的發(fā)展變化可分為萌芽期、擴(kuò)散期和消退期三個(gè)階段。其中,萌芽期(或稱(chēng)為潛伏期)是指有關(guān)背景事件的信息引發(fā)的輿論已初見(jiàn)跡象,但網(wǎng)民對(duì)該網(wǎng)絡(luò)輿情內(nèi)容的了解還處于初始階段;擴(kuò)散期(或稱(chēng)熱議期、傳播期、激發(fā)期)是指萌芽態(tài)的網(wǎng)絡(luò)輿情受到一定中介性因子的刺激之后呈現(xiàn)出事件影響力的擴(kuò)大和升級(jí),并隨時(shí)有可能轉(zhuǎn)化為重大危機(jī)事件的一種狀態(tài);消退期是指激發(fā)狀態(tài)的網(wǎng)絡(luò)輿情經(jīng)過(guò)一系列相應(yīng)政策措施的調(diào)控,輿情的影響力和關(guān)注度趨于消失或者方向發(fā)生轉(zhuǎn)換轉(zhuǎn)向衍生輿情的一種狀態(tài)。
學(xué)界一般公認(rèn)信息的作用是“減少不確定性”。如何計(jì)量“減少不確定性”?有人認(rèn)為,信息可以用字節(jié)的數(shù)量來(lái)表示,但在實(shí)際生活中,很多字節(jié)的語(yǔ)言未必能消除信息的不確定性。例如,天氣預(yù)報(bào)通常會(huì)以降雨或晴天的概率來(lái)描述未來(lái)天氣的狀況,若播報(bào)內(nèi)容中將降雨與晴天的概率都以50%進(jìn)行播報(bào),信息量雖多,公眾卻無(wú)法真正判斷未來(lái)的天氣情況,這其實(shí)是無(wú)用信息。如果在一片平靜中,突然廣播“地震馬上來(lái)了”,這短短幾個(gè)字節(jié),會(huì)使大眾立刻意識(shí)到原本極小概率的“地震”事件會(huì)成為大概率事件,就會(huì)紛紛做好應(yīng)對(duì)措施,從而避免一場(chǎng)災(zāi)難。因此,信息量不能簡(jiǎn)單以字節(jié)的數(shù)量來(lái)衡量。
“熵”來(lái)自熱力學(xué),其物理學(xué)意義是用來(lái)度量體系混亂的程度。根據(jù)熱力學(xué)第二定律,在一個(gè)封閉的熱力學(xué)系統(tǒng)中,熵只能增加。也就是說(shuō),在一個(gè)孤立的系統(tǒng)中,整個(gè)系統(tǒng)只會(huì)越來(lái)越混亂,而不會(huì)在沒(méi)有外力作用的情況下自己變得有序??藙诘隆ぐ瑺栁榈隆は戕r(nóng)(ClaudeElwood Shannon)創(chuàng)造性地將熱力學(xué)概念“熵”引用到信息學(xué)中,形成了“信息熵”的概念。
“信息熵”常被用來(lái)作為衡量一個(gè)系統(tǒng)不確定性的量化指標(biāo)。一個(gè)系統(tǒng)越是有序,信息熵就越低;反之,信息熵就越高。數(shù)學(xué)定義中,對(duì)數(shù)可以描述這個(gè)特征,因此采用對(duì)數(shù)對(duì)信息進(jìn)行量化,表達(dá)式如下:
式中:p表示某一事件出現(xiàn)的概率;函數(shù)f是概率p的減函數(shù)。
若信源符號(hào)有n種取值,A…A…A,則對(duì)應(yīng)的概率為p…p…p,且各種符號(hào)的出現(xiàn)彼此獨(dú)立。這時(shí),信源的平均不確定性應(yīng)當(dāng)為單個(gè)符號(hào)不確定性-logp的統(tǒng)計(jì)平均值,稱(chēng)為信息熵,用H表示,則:
若事件A是某一個(gè)二元信源,只可能有兩種信號(hào)發(fā)出,采用信息熵來(lái)計(jì)算:
當(dāng)兩個(gè)信號(hào)提及的概率相同時(shí),該信源的信息熵最大,信源最混亂,不確定性最高;極端情況下,只有一個(gè)信號(hào)源發(fā)生時(shí),信息熵為0,信源最穩(wěn)定,最容易做出判斷,如圖1所示。
按照萌芽期、擴(kuò)散期和消退期來(lái)描述疫情發(fā)生的不同階段,分別記為U、U、U,對(duì)應(yīng)的信息熵記為
圖1 二元信源熵函數(shù)圖
如圖3所示,甄別未知疫情時(shí),首先要科學(xué)構(gòu)建衡量疫情狀態(tài)的指標(biāo)體系和萌芽期、擴(kuò)散期、消退期的權(quán)重值;其次按照指標(biāo)體系收集、統(tǒng)計(jì)已知疫情的各類(lèi)數(shù)據(jù);第三按疫情信息的甄別體系計(jì)算各類(lèi)疫情的信息熵,建立甄別未知疫情的參照數(shù)據(jù)庫(kù);最后統(tǒng)計(jì)、計(jì)算未知疫情在萌芽期的信息熵,比對(duì)參照數(shù)據(jù)庫(kù),分析該疫情未來(lái)可能的流行狀態(tài),做好應(yīng)對(duì)準(zhǔn)備。
圖2 疫情信息的甄別體系
圖3 疫情信息的甄別流程
以下取假設(shè)的指標(biāo)體系和權(quán)重說(shuō)明該模式的甄別流程。設(shè)萌芽期和擴(kuò)散期的權(quán)重是0.4,消退期的權(quán)重是0.2。取不明原因發(fā)燒、咳嗽、腹瀉以及CT病變這4項(xiàng)指標(biāo)來(lái)衡量一個(gè)疫情的狀態(tài)。若疫情1為已知的普通型流感,將疫情1的上述4項(xiàng)指標(biāo)的平均發(fā)生概率分別記為pp、p、p值,分別統(tǒng)計(jì)出某段年區(qū)間內(nèi)疫情1的萌芽期、擴(kuò)散期和消退期的pp、p、p;疫情2為已知的某種較罕見(jiàn)流感,將疫情2的上述4項(xiàng)指標(biāo)的平均發(fā)生概率分別記為q、q、q、q,分別統(tǒng)計(jì)出某段年區(qū)間內(nèi)疫情2的萌芽期、擴(kuò)散期和消退期的q、q、q、q值。分別計(jì)算這兩種疫情的信息熵,計(jì)算結(jié)果見(jiàn)表1。
以疫情1和疫情2的信息熵為參照值,判斷某種未知疫情時(shí),以該指標(biāo)體系統(tǒng)計(jì)出萌芽期的發(fā)生概率,將信息熵進(jìn)行比較,若接近疫情2的信息熵,則需加以重視。
表1 兩種疫情的信息熵計(jì)算結(jié)果
2020年的疫情反映出信息傳播與疫情有緊密關(guān)聯(lián)。疫情信息不能被快速識(shí)別導(dǎo)致了疫情大蔓延,究其原因在于疫情信息在傳播階段被異化。信息異化現(xiàn)象是導(dǎo)致社會(huì)變化的因素,為了減少由于信息問(wèn)題對(duì)社會(huì)產(chǎn)生不利影響,需要對(duì)信息進(jìn)行準(zhǔn)確甄別,并對(duì)所反映的不好的社會(huì)變化加以防范,使社會(huì)盡量向好的方向發(fā)展。
文章研究了從信息量的度量到信息熵的度量,提出了在二維模式下通過(guò)以動(dòng)態(tài)信息熵的度量來(lái)構(gòu)建疫情信息甄別體系,并且舉例說(shuō)明。采用上述方法提取有價(jià)值的信息,再進(jìn)行人工分析,比較適合互聯(lián)網(wǎng)大量信息的過(guò)濾。
疫情信息甄別原本需要建立整個(gè)理論體系,如疫情詞表、網(wǎng)頁(yè)抓取規(guī)則等,需要龐大的數(shù)據(jù)支撐。由于時(shí)間與條件的限制,本文僅選擇反映信息度量的動(dòng)態(tài)信息熵算法進(jìn)行研究,其他工作有待后期完善。[本文系江蘇省圖書(shū)館學(xué)會(huì)課題“圖書(shū)情報(bào)學(xué)科體系與分支學(xué)科”(項(xiàng)目編號(hào):20YB01)的研究成果之一。]