王俠,湯琳,于千策,曹洪欣
《中華人民共和國(guó)生物安全法》于2021 年4 月15 日正式施行,確立了生物安全在我國(guó)國(guó)家安全中的地位和意義,構(gòu)建有中國(guó)特色的生物安全體系成為國(guó)家的重要戰(zhàn)略議題。為支持生物安全工作的科學(xué)決策,國(guó)內(nèi)情報(bào)學(xué)界提出了生物安全情報(bào)的概念[1]。然而,在大數(shù)據(jù)時(shí)代,數(shù)據(jù)來源雜、體量大,傳統(tǒng)情報(bào)分析方法難以實(shí)現(xiàn)數(shù)據(jù)的有效處理[2]。信息技術(shù)的發(fā)展使得大數(shù)據(jù)分析成為可能,基于大數(shù)據(jù)和信息分析技術(shù)的開源情報(bào)展示出更高的價(jià)值潛力,逐步成為國(guó)家戰(zhàn)略決策、科研活動(dòng)和外軍研究的重要情報(bào)來源[3],在生物安全情報(bào)研究領(lǐng)域同樣有廣泛的應(yīng)用前景[4]。當(dāng)前,國(guó)內(nèi)對(duì)于如何有效利用大數(shù)據(jù)開展生物安全防護(hù)開源情報(bào)工作鮮有報(bào)道,迫切需要研究大數(shù)據(jù)時(shí)代生物安全防護(hù)開源情報(bào)工作模式。
1.1 生物安全防護(hù)獨(dú)特的國(guó)防屬性 生物安全與國(guó)防軍事存在千絲萬縷的關(guān)系。首先,戰(zhàn)爭(zhēng)通常會(huì)伴隨傳染病的流行[5]。二戰(zhàn)期間,傳染病造成的死亡人數(shù)甚至超過了直接戰(zhàn)傷。其次,生物恐怖襲擊的潛在威脅越來越大。現(xiàn)代分子生物學(xué)、生物醫(yī)學(xué)工程和遺傳學(xué)的快速發(fā)展使得生物武器生產(chǎn)、散布的技術(shù)門檻越來越低[6],生物恐怖襲擊事件呈現(xiàn)頻發(fā)、突發(fā)趨勢(shì)。最后,生物軍事化依然存在風(fēng)險(xiǎn),《禁止生物武器公約》在部分國(guó)家并沒有嚴(yán)格實(shí)施。因此,生物安全防護(hù)工作對(duì)于加強(qiáng)國(guó)防安全、提升軍事戰(zhàn)備能力極為重要。
1.2 生物安全領(lǐng)域情報(bào)能力有待提升 目前,針對(duì)生物安全的情報(bào)研究,主要是圍繞禽流感等重大突發(fā)事件、重大烈性暴發(fā)性傳染病、高等級(jí)生物安
全實(shí)驗(yàn)室等生物安全問題[7-10],編發(fā)各種生物安全快訊、專輯、內(nèi)刊等,對(duì)突發(fā)事件和發(fā)展動(dòng)向進(jìn)行跟蹤報(bào)道。與國(guó)家安全的其他主要領(lǐng)域相比,生物安全領(lǐng)域的情報(bào)工作尚缺乏基本的理論框架和系統(tǒng)的實(shí)踐總結(jié),針對(duì)生物安全防護(hù)開源情報(bào)工作體系的研究尚處于起步階段[11]。生物安全防護(hù)的形勢(shì)動(dòng)態(tài)監(jiān)測(cè)、應(yīng)對(duì)措施建議和戰(zhàn)略決策支持等眾多方面的情報(bào)工作都亟待加強(qiáng),與情報(bào)先導(dǎo)和情報(bào)支撐的要求差距頗大,難以滿足當(dāng)前科學(xué)決策和科研的巨大需求。
1.3 生物安全防護(hù)開源情報(bào)工作的大數(shù)據(jù)優(yōu)勢(shì)傳統(tǒng)的情報(bào)分析主要依靠人工分析,需要耗費(fèi)大量的人力物力資源,并存在分析偏差大、應(yīng)急反應(yīng)慢以及情報(bào)價(jià)值低的缺點(diǎn)[12]。隨著互聯(lián)網(wǎng)、社交媒體、移動(dòng)終端等技術(shù)的迅猛發(fā)展,大數(shù)據(jù)環(huán)境下依然沿用傳統(tǒng)方法進(jìn)行情報(bào)分析無異于大海撈針[4],生物安全防護(hù)領(lǐng)域亦然。相較于傳統(tǒng)情報(bào)方式,基于大數(shù)據(jù)分析的生物安全防護(hù)開源情報(bào)工作擁有信息收集更全面、數(shù)據(jù)處理更及時(shí)、情報(bào)結(jié)論更客觀的優(yōu)勢(shì),能夠快速、有效地開展全球范圍內(nèi)生物安全防護(hù)情報(bào)搜集、分析和加工,為國(guó)家和軍隊(duì)生物安全戰(zhàn)略發(fā)展提供時(shí)效性更強(qiáng)的高質(zhì)量情報(bào)支持。
2.1 權(quán)衡情報(bào)來源,兼顧權(quán)威性與全面性 在互聯(lián)網(wǎng)應(yīng)用之前,開源情報(bào)的主要來源是圖書、期刊、廣播電視電臺(tái)、新聞媒體、政府和民間機(jī)構(gòu)公開的信息和數(shù)據(jù)等[13]。而互聯(lián)網(wǎng)開啟了開源情報(bào)工作的新篇章,開源情報(bào)的情報(bào)源發(fā)生了變化,包含傳統(tǒng)情報(bào)源的網(wǎng)絡(luò)化產(chǎn)品、以谷歌地球?yàn)榇淼牡乩砜臻g情報(bào)以及新生的社交網(wǎng)絡(luò)情報(bào),如社交媒體網(wǎng)站、微信公眾號(hào)、視頻網(wǎng)站、維基百科網(wǎng)、微博、論壇、購(gòu)物網(wǎng)站等[14]。面對(duì)多渠道、多樣化的情報(bào)來源,準(zhǔn)確識(shí)別可靠的信息源并獲取更及時(shí)、有效和全面的信息是開展開源情報(bào)工作的前提條件。為實(shí)現(xiàn)對(duì)生物安全防護(hù)開源情報(bào)的循環(huán)處理,需要構(gòu)建覆蓋生物安全領(lǐng)域的國(guó)外權(quán)威期刊論文、專著、專利、標(biāo)準(zhǔn)、指南、會(huì)議文獻(xiàn)、學(xué)位論文、網(wǎng)絡(luò)文獻(xiàn)及其他重要相關(guān)開源情報(bào)資源,并通過信息源標(biāo)注和信息沖突校對(duì)的方式實(shí)現(xiàn)可靠信息源的準(zhǔn)確識(shí)別。
2.2 標(biāo)準(zhǔn)化情報(bào)數(shù)據(jù)類型,兼容各種數(shù)據(jù)格式 開源情報(bào)來源不同,獲取的數(shù)據(jù)結(jié)構(gòu)也就存在較大差異,信息資源描述的內(nèi)容結(jié)構(gòu)、句法結(jié)構(gòu)、語(yǔ)義結(jié)構(gòu)
等方面均不相同。為便于后續(xù)的統(tǒng)計(jì)分析,需要對(duì)所獲取的數(shù)據(jù)進(jìn)行一系列的預(yù)處理后才能用于分析。對(duì)于情報(bào)數(shù)據(jù)處理的要求有:(1)冗余數(shù)據(jù)處理能力。系統(tǒng)應(yīng)具有數(shù)據(jù)過濾、去重和自動(dòng)分揀等功能。(2)情報(bào)數(shù)據(jù)標(biāo)準(zhǔn)化能力。通過數(shù)據(jù)提取和自動(dòng)匹配的方式,實(shí)現(xiàn)數(shù)據(jù)標(biāo)準(zhǔn)化處理。(3)音視頻轉(zhuǎn)換能力。對(duì)于音視頻類型的數(shù)據(jù),可以自動(dòng)提取相關(guān)數(shù)據(jù),形成可處理的標(biāo)準(zhǔn)化數(shù)據(jù)格式。目前對(duì)于數(shù)據(jù)處理方式主要有2 種,即數(shù)據(jù)導(dǎo)入前處理和導(dǎo)入后處理[15]??紤]到生物安全防護(hù)開源情報(bào)數(shù)據(jù)具有量大、價(jià)值密度低的特點(diǎn),在導(dǎo)入數(shù)據(jù)庫(kù)前進(jìn)行數(shù)據(jù)預(yù)處理有利于提升處理速度和效率。
2.3 循環(huán)處理流程,優(yōu)化情報(bào)產(chǎn)出 高效有價(jià)值的情報(bào)產(chǎn)品需要對(duì)情報(bào)源選擇、數(shù)據(jù)獲取、數(shù)據(jù)清洗、數(shù)據(jù)分析到情報(bào)產(chǎn)出整個(gè)過程進(jìn)行質(zhì)量控制。為優(yōu)化情報(bào)產(chǎn)出質(zhì)量,本文提出情報(bào)循環(huán)處理流程,即對(duì)數(shù)據(jù)獲取與管理、數(shù)據(jù)清洗與管理、數(shù)據(jù)分析與管理、分析結(jié)果與管理等4 個(gè)環(huán)節(jié)進(jìn)行循環(huán)處理與質(zhì)量管控,見圖1。通過對(duì)情報(bào)分析結(jié)果的反饋,適時(shí)調(diào)整循環(huán)中的信息來源、信息檢索與信息分析策略,決定流程繼續(xù)進(jìn)行或者終止。循環(huán)流程中,保持情報(bào)中間產(chǎn)出對(duì)生物安全防護(hù)相關(guān)專業(yè)人員的自由流動(dòng)和共享,以實(shí)現(xiàn)對(duì)情報(bào)產(chǎn)出的實(shí)時(shí)評(píng)價(jià),從而調(diào)整情報(bào)處理流程,不斷深化情報(bào)的挖掘與分析,創(chuàng)造更優(yōu)質(zhì)的開源情報(bào)成果。
圖1 生物安全防護(hù)開源情報(bào)循環(huán)處理流程
為實(shí)現(xiàn)對(duì)生物安全防護(hù)開源情報(bào)的循環(huán)處理,需要在情報(bào)源標(biāo)注、數(shù)據(jù)標(biāo)準(zhǔn)化、數(shù)據(jù)清洗與分析處理以及情報(bào)累積等方面建立相關(guān)機(jī)制,構(gòu)建貼合實(shí)際需求的生物安全防護(hù)開源情報(bào)一站式服務(wù)平臺(tái),實(shí)現(xiàn)跨資源類型、跨學(xué)科、跨主題的開源情報(bào)資源統(tǒng)一標(biāo)引、統(tǒng)一檢索、統(tǒng)一揭示。
3.1 情報(bào)源標(biāo)注機(jī)制 快速響應(yīng)、及時(shí)更新且數(shù)據(jù)可靠的情報(bào)源是獲取相關(guān)數(shù)據(jù)的最佳方式,如世衛(wèi)組織傳染病暴發(fā)周報(bào)/日?qǐng)?bào)、國(guó)家衛(wèi)生主管部門新冠肺炎疫情每日數(shù)據(jù)等。然而,并不是所有情報(bào)源都是可靠且及時(shí)的。為保證所獲取數(shù)據(jù)的質(zhì)量和可用性,可以建立情報(bào)源標(biāo)引機(jī)制。一是可疑情報(bào)源標(biāo)識(shí)。對(duì)出現(xiàn)虛假或錯(cuò)誤數(shù)據(jù)的情報(bào)源以“可疑情報(bào)源”標(biāo)注,“可疑情報(bào)源”標(biāo)注頻率高于限值的則不作為必須統(tǒng)計(jì)的情報(bào)源。二是推薦情報(bào)源標(biāo)識(shí)。對(duì)不同時(shí)間、同一疾病的多次檢索均獲取可用數(shù)據(jù)的情報(bào)源,以疾病名稱標(biāo)注,作為該疾病推薦情報(bào)源。三是事件響應(yīng)時(shí)長(zhǎng)標(biāo)識(shí)。對(duì)比最新數(shù)據(jù)發(fā)布時(shí)間與生物安全事件發(fā)生時(shí)間,計(jì)算情報(bào)源“事件響應(yīng)時(shí)長(zhǎng)”,事件響應(yīng)時(shí)長(zhǎng)較長(zhǎng)的情報(bào)源不用于突發(fā)生物安全事件預(yù)警,避免冗余數(shù)據(jù)干擾。
3.2 多源異構(gòu)數(shù)據(jù)標(biāo)準(zhǔn)化機(jī)制 來自于不同情報(bào)源的數(shù)據(jù),資源類型多,數(shù)據(jù)結(jié)構(gòu)不一致[16]。知識(shí)服務(wù)平臺(tái)需要對(duì)期刊文獻(xiàn)、會(huì)議論文、學(xué)位論文、專利文獻(xiàn)、標(biāo)準(zhǔn)文獻(xiàn)等不同來源、不同類型及不同格式的數(shù)據(jù)構(gòu)成的多來源、多類型異構(gòu)數(shù)據(jù)進(jìn)行處理。針對(duì)多源異構(gòu)數(shù)據(jù)種類繁雜、海量多源、格式異構(gòu)、多維以及動(dòng)態(tài)性等特點(diǎn),利用云服務(wù)器和云存儲(chǔ)單元增強(qiáng)服務(wù)器處理性能,建立基于元數(shù)據(jù)的多源異構(gòu)數(shù)據(jù)標(biāo)準(zhǔn)化機(jī)制。通過對(duì)不同數(shù)據(jù)源所遵循的元數(shù)據(jù)標(biāo)準(zhǔn)進(jìn)行分析匯總,并結(jié)合國(guó)際主流標(biāo)準(zhǔn),建立統(tǒng)一的文獻(xiàn)元數(shù)據(jù)標(biāo)準(zhǔn),作為所有數(shù)據(jù)源轉(zhuǎn)換映射的標(biāo)準(zhǔn)。依據(jù)統(tǒng)一的元數(shù)據(jù)標(biāo)準(zhǔn)對(duì)匯聚后的文獻(xiàn)元數(shù)據(jù)進(jìn)行實(shí)體抽取和關(guān)系抽取。
3.3 專題數(shù)據(jù)清洗機(jī)制 數(shù)據(jù)清洗是情報(bào)分析工作的重要步驟,是保證分析結(jié)果準(zhǔn)確可靠的前提條件[17]。在專題數(shù)據(jù)清洗步驟,病原微生物名稱、時(shí)間、地點(diǎn)等信息可以作為關(guān)鍵不可缺元素,根據(jù)關(guān)鍵不可缺元素定義無意義數(shù)據(jù),實(shí)現(xiàn)對(duì)無意義數(shù)據(jù)的去除或清洗;通過比對(duì)關(guān)鍵不可缺元素集合及其定義閾值,校正矛盾或不一致數(shù)據(jù);通過比對(duì)字典庫(kù),識(shí)別拼寫錯(cuò)誤;通過比對(duì)關(guān)鍵不可缺元素集合,識(shí)別同一事件數(shù)據(jù)描述,實(shí)現(xiàn)同一事件數(shù)據(jù)的合并處理。
3.4 多維度分析機(jī)制 在大數(shù)據(jù)時(shí)代進(jìn)行情報(bào)研究工作,單一維度的信息分析難以滿足情報(bào)需求,需要以多維度的視角,從數(shù)據(jù)和方法上實(shí)現(xiàn)創(chuàng)新[18]。開源情報(bào)一站式服務(wù)平臺(tái)設(shè)置計(jì)量分析模塊(專題數(shù)量統(tǒng)計(jì)分析)和內(nèi)容分析模塊(專題共現(xiàn)網(wǎng)絡(luò)分析、文本挖掘可視化、態(tài)勢(shì)報(bào)告智能生成),具有多維度的聚類統(tǒng)計(jì)和分析功能,如資源類型、來源出處、學(xué)科分類、關(guān)鍵詞、關(guān)鍵指標(biāo)等。不同的數(shù)據(jù)類型對(duì)應(yīng)不同的分析維度,嵌入ECharts、Gephi等開源工具對(duì)分析結(jié)果進(jìn)行可視化呈現(xiàn)。
3.5 情報(bào)循環(huán)處理機(jī)制 常規(guī)情報(bào)分析的原始數(shù)據(jù)和過程文件通常留存在項(xiàng)目組手中,難以實(shí)現(xiàn)數(shù)據(jù)共享。生物安全防護(hù)開源情報(bào)一站式服務(wù)平臺(tái)可以實(shí)現(xiàn)情報(bào)循環(huán)處理:一是向用戶和專業(yè)人員提供數(shù)據(jù)和情報(bào)過程中間產(chǎn)品的共享,開放獲取對(duì)中間產(chǎn)品的意見,作為情報(bào)產(chǎn)出過程再循環(huán)的決策依據(jù);二是向用戶和專業(yè)人員提供表格式選項(xiàng),收集用戶和專業(yè)人員對(duì)數(shù)據(jù)源、數(shù)據(jù)準(zhǔn)確性、分析方法、情報(bào)產(chǎn)品形式等方面的滿意程度,有針對(duì)性地調(diào)整循環(huán)處理重點(diǎn)。
3.6 情報(bào)積累機(jī)制 情報(bào)工作歷來重視積累。服務(wù)平臺(tái)能夠?qū)崿F(xiàn)對(duì)產(chǎn)出情報(bào)的保存與自動(dòng)分類管理,通過對(duì)情報(bào)產(chǎn)品及相關(guān)的分析報(bào)告進(jìn)行累積,逐漸形成疾病信息庫(kù)、衛(wèi)生器材庫(kù)、傳染病監(jiān)測(cè)庫(kù)和專題報(bào)告庫(kù),并不斷豐富完善,對(duì)傳染病權(quán)威防治知識(shí)進(jìn)行系統(tǒng)搜集,對(duì)系列器材裝備發(fā)展趨勢(shì)進(jìn)行深度分析,對(duì)當(dāng)前疫情發(fā)展進(jìn)行動(dòng)態(tài)、及時(shí)的追蹤,對(duì)國(guó)內(nèi)外生物安全領(lǐng)域發(fā)展戰(zhàn)略進(jìn)行科學(xué)解讀。
3.7 人才隊(duì)伍建設(shè)機(jī)制 情報(bào)人才是情報(bào)研究的重中之重,人才隊(duì)伍的科學(xué)化建設(shè)有利于情報(bào)工作的高效開展[19]。情報(bào)人員的信息素養(yǎng)是生物安全防護(hù)一站式服務(wù)平臺(tái)基礎(chǔ)要素(如情報(bào)搜集、加工、分析與預(yù)測(cè)以及情報(bào)產(chǎn)品生產(chǎn)等),是保證高質(zhì)量的關(guān)鍵。為獲取更為全面的開源情報(bào),迫切需要多語(yǔ)言類的情報(bào)搜集、加工與分析方面的人才。強(qiáng)化情報(bào)人才建設(shè)的同時(shí),還需要與生物安全防護(hù)相關(guān)的專業(yè)人員密切協(xié)作,情報(bào)循環(huán)處理機(jī)制也要求組建生物安全專業(yè)團(tuán)隊(duì),以專家?guī)旎蛑黝}咨詢專家團(tuán)的形式保障情報(bào)循環(huán)處理的科學(xué)性。
大數(shù)據(jù)時(shí)代,生物安全數(shù)據(jù)呈指數(shù)級(jí)數(shù)增長(zhǎng),為生物安全防護(hù)的情報(bào)研究提供了豐富的數(shù)據(jù)資源,也為生物安全開源情報(bào)工作打開了新篇章。如何實(shí)現(xiàn)生物安全大數(shù)據(jù)快速搜集、處理、分析以及生成高質(zhì)量情報(bào)產(chǎn)品,成為當(dāng)前生物安全防護(hù)開源情報(bào)研究工作的核心。