許洪波,陳 波
中國(guó)科學(xué)院計(jì)算技術(shù)研究所 北京 100190
面向國(guó)防安全的網(wǎng)絡(luò)大數(shù)據(jù)分析與應(yīng)用系統(tǒng)
許洪波,陳 波
中國(guó)科學(xué)院計(jì)算技術(shù)研究所 北京 100190
在調(diào)研國(guó)內(nèi)外大數(shù)據(jù)分析與應(yīng)用研究現(xiàn)狀的基礎(chǔ)上,針對(duì)國(guó)防安全領(lǐng)域現(xiàn)有業(yè)務(wù)體系中存在的數(shù)據(jù)碎片化、不規(guī)范、難共享等突出問(wèn)題,提出面向國(guó)防安全的網(wǎng)絡(luò)大數(shù)據(jù)分析與應(yīng)用方案,將國(guó)防安全現(xiàn)實(shí)需求與大數(shù)據(jù)技術(shù)有機(jī)結(jié)合,既能夠發(fā)揮大數(shù)據(jù)技術(shù)在多源異構(gòu)數(shù)據(jù)融合、深層次安全信息挖掘、打破信息孤島實(shí)現(xiàn)廣泛共享等方面的優(yōu)勢(shì),又能夠適應(yīng)現(xiàn)有的業(yè)務(wù)體系,快速產(chǎn)生實(shí)際效果。最后,對(duì)面向國(guó)防安全的網(wǎng)絡(luò)大數(shù)據(jù)挖掘和分析相關(guān)技術(shù)進(jìn)行了系統(tǒng)性介紹。
大數(shù)據(jù);國(guó)防安全;大數(shù)據(jù)分析;多源異構(gòu)數(shù)據(jù)融合
目前,大數(shù)據(jù)已經(jīng)發(fā)展成為科技界和企業(yè)界甚至世界各國(guó)政府關(guān)注的熱點(diǎn)。Nature和Science等雜志相繼出版??瘉?lái)專門探討大數(shù)據(jù)帶來(lái)的挑戰(zhàn)和機(jī)遇[1]。在這樣的背景下,網(wǎng)絡(luò)空間的數(shù)據(jù)主權(quán)將成為繼海、陸、空、天4個(gè)空間之后大國(guó)博弈的另一個(gè)空間。一個(gè)國(guó)家擁有數(shù)據(jù)的規(guī)模和運(yùn)用數(shù)據(jù)的能力將成為綜合國(guó)力的重要組成部分,對(duì)數(shù)據(jù)的占有和控制將成為國(guó)家之間和企業(yè)之間新的爭(zhēng)奪焦點(diǎn)[2]。美國(guó)認(rèn)為大數(shù)據(jù)是“未來(lái)的新石油”,其2012年3月發(fā)布的《大數(shù)據(jù)研究和發(fā)展計(jì)劃》不僅是一個(gè)推動(dòng)美國(guó)在高技術(shù)領(lǐng)域繼續(xù)領(lǐng)先的戰(zhàn)略計(jì)劃,更是一個(gè)保護(hù)美國(guó)國(guó)家安全、推動(dòng)社會(huì)經(jīng)濟(jì)發(fā)展的計(jì)劃[3,4];2012年5月,英國(guó)政府注資建立了世界上第一個(gè)大數(shù)據(jù)研究所;同年,日本也出臺(tái)計(jì)劃重點(diǎn)關(guān)注大數(shù)據(jù)領(lǐng)域的研究。以美國(guó)為代表的發(fā)達(dá)國(guó)家在國(guó)家頂層推動(dòng)下,正在通過(guò)大數(shù)據(jù)向更高的現(xiàn)代化水平的綜合國(guó)力邁進(jìn)。我國(guó)“十八大”報(bào)告中明確提出,網(wǎng)絡(luò)空間與深海、深空是我國(guó)核心利益的關(guān)鍵領(lǐng)域。大數(shù)據(jù)領(lǐng)域的落后,意味著失守產(chǎn)業(yè)戰(zhàn)略制高點(diǎn),更意味著國(guó)家安全將在網(wǎng)絡(luò)空間出現(xiàn)漏洞。
可以預(yù)見(jiàn),未來(lái)國(guó)家之間的經(jīng)濟(jì)、政治和軍事競(jìng)爭(zhēng)將是大數(shù)據(jù)引領(lǐng)的競(jìng)爭(zhēng)。網(wǎng)絡(luò)大數(shù)據(jù)是其中重要的一環(huán),通過(guò)對(duì)網(wǎng)絡(luò)大數(shù)據(jù)進(jìn)行定量分析和定性分析相結(jié)合的綜合分析研判,能夠進(jìn)一步發(fā)現(xiàn)安全線索,掌握輿論傾向,追蹤敏感及熱點(diǎn)事件,預(yù)測(cè)發(fā)展趨勢(shì),對(duì)可能的危機(jī)情況進(jìn)行預(yù)報(bào)預(yù)警,維護(hù)國(guó)家安全和社會(huì)穩(wěn)定,提高國(guó)家競(jìng)爭(zhēng)力。
2.1 國(guó)外相關(guān)領(lǐng)域發(fā)展情況
關(guān)于大數(shù)據(jù)的研究已經(jīng)引起了包括美國(guó)在內(nèi)的許多國(guó)家政府的極大關(guān)注。2012年3月22日,奧巴馬政府宣布投資2億美元啟動(dòng)“大數(shù)據(jù)研究和發(fā)展計(jì)劃”,該計(jì)劃旨在提高和改進(jìn)人們從海量和復(fù)雜的數(shù)據(jù)中獲取知識(shí)的能力,進(jìn)而加速美國(guó)在科學(xué)與工程領(lǐng)域發(fā)明的步伐,增強(qiáng)國(guó)家安全。這是繼1993年美國(guó)宣布“信息高速公路”計(jì)劃后的又一次重大科技發(fā)展部署。美國(guó)政府認(rèn)為大數(shù)據(jù)是“未來(lái)的新石油”,將“大數(shù)據(jù)研究”上升為國(guó)家意志,必將給未來(lái)的科技與經(jīng)濟(jì)發(fā)展帶來(lái)深遠(yuǎn)影響。根據(jù)該計(jì)劃,美國(guó)的國(guó)家科學(xué)基金會(huì)(NSF)、國(guó)立衛(wèi)生研究院(NIH)、國(guó)防部(DoD)、能源部(DoE)、國(guó)防高級(jí)研究計(jì)劃局(DARPA)、地質(zhì)勘探局(USGS)6個(gè)聯(lián)邦部門和機(jī)構(gòu),共同提高收集、存儲(chǔ)、保留、管理、分析和共享海量數(shù)據(jù)所需的核心技術(shù),擴(kuò)大大數(shù)據(jù)技術(shù)開(kāi)發(fā)和應(yīng)用所需人才的供給。該計(jì)劃還強(qiáng)調(diào),大數(shù)據(jù)技術(shù)事關(guān)美國(guó)國(guó)家安全、科學(xué)和研究的步伐,并引發(fā)教育和學(xué)習(xí)的變革。例如,DARPA的大數(shù)據(jù)研究項(xiàng)目:多尺度異常檢測(cè)項(xiàng)目旨在解決大規(guī)模數(shù)據(jù)集的異常檢測(cè)和特征化;網(wǎng)絡(luò)內(nèi)部威脅計(jì)劃旨在通過(guò)分析傳感器和其他來(lái)源的信息,進(jìn)行網(wǎng)絡(luò)威脅和非常規(guī)戰(zhàn)爭(zhēng)行為的自動(dòng)識(shí)別;Machine Reading項(xiàng)目旨在實(shí)現(xiàn)人工智能的應(yīng)用和發(fā)展學(xué)習(xí)系統(tǒng),對(duì)自然文本進(jìn)行知識(shí)插入。美國(guó)能源部的大數(shù)據(jù)研究項(xiàng)目包括:機(jī)器學(xué)習(xí)、數(shù)據(jù)流的實(shí)時(shí)分析、非線性隨機(jī)的數(shù)據(jù)縮減技術(shù)和可擴(kuò)展的統(tǒng)計(jì)分析技術(shù),其中生物和環(huán)境研究計(jì)劃的目標(biāo)是大氣輻射測(cè)量等氣候研究設(shè)施,系統(tǒng)生物學(xué)知識(shí)庫(kù)項(xiàng)目是對(duì)微生物、植物等生物群落功能的數(shù)據(jù)驅(qū)動(dòng)的預(yù)測(cè)。美國(guó)國(guó)家人文科學(xué)捐贈(zèng)基金會(huì)(NEH)項(xiàng)目包括分析大數(shù)據(jù)的變化對(duì)人文社會(huì)科學(xué)的影響,如數(shù)字化的書(shū)籍和報(bào)紙數(shù)據(jù)庫(kù)、從網(wǎng)絡(luò)搜索結(jié)果數(shù)據(jù)、傳感器和手機(jī)記錄交易數(shù)據(jù)。美國(guó)國(guó)家科學(xué)基金會(huì)大數(shù)據(jù)項(xiàng)目的重點(diǎn)也是突破關(guān)鍵技術(shù),包括:從大量、多樣、分散、異構(gòu)的數(shù)據(jù)集中提取有用信息的核心技術(shù);開(kāi)發(fā)一種以統(tǒng)一的理論框架為原則的統(tǒng)計(jì)方法和可伸縮的網(wǎng)絡(luò)模型算法,以區(qū)別適合隨機(jī)性網(wǎng)絡(luò)的方法[3,4]。
歐盟方面也有類似的舉措。過(guò)去幾年歐盟已對(duì)科學(xué)數(shù)據(jù)基礎(chǔ)設(shè)施投資1億多歐元,并將數(shù)據(jù)信息化基礎(chǔ)設(shè)施作為Horizon 2020計(jì)劃的優(yōu)先領(lǐng)域之一。而2012年1月截止的預(yù)算為5千萬(wàn)歐元的FP7 Call 8專門征集針對(duì)大數(shù)據(jù)的研究項(xiàng)目,還是以基礎(chǔ)設(shè)施為先導(dǎo)[3,4]。
在大數(shù)據(jù)基礎(chǔ)設(shè)施和應(yīng)用方面,美國(guó)已經(jīng)走在世界前列。美國(guó)國(guó)家安全局投資20億美元建設(shè)的“猶他數(shù)據(jù)中心(Utah data center)”占地超過(guò)9 000 m2,負(fù)責(zé)對(duì)海量網(wǎng)絡(luò)情報(bào)數(shù)據(jù)進(jìn)行過(guò)濾、處理和融合。該中心的存儲(chǔ)能力是yottabyte(1024bit),足以存儲(chǔ)未來(lái)100年整個(gè)人類的電子信息。2013年5月,美國(guó)國(guó)家安全局宣布將建設(shè)規(guī)模超過(guò)猶他數(shù)據(jù)中心6倍的新型“高性計(jì)算中心(the high performance computing center-2)”,預(yù)計(jì)2016年投入使用。
下面對(duì)美國(guó)相關(guān)的項(xiàng)目和機(jī)構(gòu)進(jìn)行介紹。
2.1.1 PRISM(棱鏡)計(jì)劃
NSA從2007年起開(kāi)始嘗試?yán)么髷?shù)據(jù)開(kāi)展反恐工作,追蹤和發(fā)現(xiàn)潛在的恐怖活動(dòng)。其中典型的是PRISM計(jì)劃,其正式名稱為“US-984XN”。PRISM項(xiàng)目能夠?qū)?shí)時(shí)通信和歷史數(shù)據(jù)進(jìn)行深度監(jiān)聽(tīng),被監(jiān)控的信息可以說(shuō)是一切事物,包括電子郵件、即時(shí)消息、視頻、照片、存儲(chǔ)數(shù)據(jù)、語(yǔ)音聊天、文件傳輸、視頻會(huì)議、登錄時(shí)間和社交網(wǎng)絡(luò)資料的細(xì)節(jié)。通過(guò)棱鏡項(xiàng)目,國(guó)家安全局甚至可以實(shí)時(shí)監(jiān)控一個(gè)人正在進(jìn)行搜索的網(wǎng)絡(luò)內(nèi)容。許可的監(jiān)聽(tīng)對(duì)象包括任何在美國(guó)以外地區(qū)使用參與項(xiàng)目公司服務(wù)的客戶,或者是任何與國(guó)外人士通信的美國(guó)公民。幾乎所有的美國(guó)網(wǎng)絡(luò)大公司都已加入該計(jì)劃:微軟公司在2007年9月首個(gè)參與該項(xiàng)目,雅虎公司于2008年3月、谷歌公司于2009年1月、Facebook公司于2009年6月、Paltalk公司于2009年11月、YouTube公司于2010年9月、Skype公司于2011年2月、AOL公司于2011年3月、蘋(píng)果公司于2012年10月相繼參與其中。此外,Dropbox公司也被指控“即將加入”該項(xiàng)目。《衛(wèi)報(bào)》獲得的熱力圖顯示,2013年2-3月,美國(guó)國(guó)家安全局在短短30天內(nèi),就從全世界互聯(lián)網(wǎng)上收集到970億條數(shù)據(jù),其中近30億條來(lái)自美國(guó)。PRISM項(xiàng)目背后的關(guān)鍵技術(shù)是Accumulo,該系統(tǒng)基于Apache Hadoop系統(tǒng)框架設(shè)計(jì),類似于谷歌公司的BigTable存儲(chǔ)系統(tǒng)。Accumulo擅長(zhǎng)分析龐大的數(shù)據(jù),從而生成眾多的圖表,發(fā)現(xiàn)和強(qiáng)化這些數(shù)據(jù)間的連接。系統(tǒng)可以管理數(shù)月甚至數(shù)年的資訊,輕易發(fā)現(xiàn)懷疑恐怖分子的通話網(wǎng)路以及涉及的參與者。NSA通過(guò)已掌握的恐怖分子的活動(dòng)數(shù)據(jù)與嫌疑者比較,從而決定是否需要進(jìn)一步行動(dòng)。
2.1.2 Recorded Future系統(tǒng)
Recorded Future是美國(guó)馬薩諸塞州一家創(chuàng)業(yè)企業(yè),號(hào)稱世界上第一個(gè)利用時(shí)序分析引擎(temporal analytics engine)預(yù)測(cè)未來(lái)的工具,該系統(tǒng)可以通過(guò)掃描并分析成千上萬(wàn)個(gè)網(wǎng)站、博客、Twitter賬戶的信息來(lái)找到目前和未來(lái)人們、組織、活動(dòng)和事件之間的關(guān)聯(lián)性,可以給出任何事件的在線發(fā)展趨勢(shì)。其預(yù)測(cè)基礎(chǔ)包括語(yǔ)義分析、統(tǒng)計(jì)數(shù)據(jù)、時(shí)間推理等,簡(jiǎn)單地說(shuō)就是基于過(guò)往的歷史數(shù)據(jù),利用搜索引擎對(duì)關(guān)鍵詞進(jìn)行分析,最終以圖表、數(shù)據(jù)和文字的形式展現(xiàn)一個(gè)預(yù)測(cè)的結(jié)果。目前,該系統(tǒng)已經(jīng)吸引了很多重量級(jí)客戶,包括美國(guó)國(guó)防部。利用客戶提供的可靠性很強(qiáng)的數(shù)據(jù),Recorded Future通過(guò)自己的搜索計(jì)算方法進(jìn)行預(yù)測(cè)。其預(yù)測(cè)的關(guān)鍵詞包括:who、when、where等關(guān)于人物、時(shí)間、地點(diǎn)的基礎(chǔ)數(shù)據(jù),然后通過(guò)圖表和數(shù)據(jù)展現(xiàn)出來(lái)。據(jù)有關(guān)案例考證,Recorded Future有能力辨認(rèn)出事件和早期趨勢(shì),2010年3月21日,以色列總統(tǒng)佩雷斯指控黎巴嫩真主黨有飛毛腿導(dǎo)彈,Recorded Future搜索了黎巴嫩真主黨領(lǐng)袖納斯魯拉以前的言論,發(fā)現(xiàn)一個(gè)月前就有確鑿的證據(jù)證明佩雷斯的指控是沒(méi)錯(cuò)的。
2.1.3 2049研究所
成立于2008年1月的2049項(xiàng)目研究所,官方的宗旨是指導(dǎo)美國(guó)政府決策者至21世紀(jì)中期構(gòu)建一個(gè)所謂的“更安全”的亞洲。該組織通過(guò)前瞻性的、特定區(qū)域的安全研究和政策解決方案,在公共政策領(lǐng)域填補(bǔ)了一項(xiàng)空白。他們采用跨學(xué)科方法對(duì)社會(huì)、經(jīng)濟(jì)、管理、軍事、環(huán)境、技術(shù)和政治的發(fā)展趨勢(shì)進(jìn)行嚴(yán)謹(jǐn)?shù)姆治?,通過(guò)對(duì)網(wǎng)絡(luò)上看似微小、散亂、毫無(wú)關(guān)系的各類報(bào)告和論文信息進(jìn)行深入挖掘、融合分析,形成權(quán)威的戰(zhàn)略研究報(bào)告。例如,該機(jī)構(gòu)研究考察地區(qū)的恐怖主義/極端勢(shì)力的影響,控制流行性疾病、自然災(zāi)害、環(huán)境和能源安全問(wèn)題以及被安全專家越來(lái)越多地關(guān)注但仍相對(duì)較新的領(lǐng)域。利用中國(guó)大量的可以在線獲取的文檔、報(bào)道、論文、專利等,研究評(píng)估中國(guó)快速的經(jīng)濟(jì)、社會(huì)和軍事發(fā)展對(duì)亞太安全環(huán)境的影響,專門針對(duì)中國(guó)軍隊(duì)的武器裝備進(jìn)行數(shù)據(jù)分析,指導(dǎo)周邊國(guó)家和美國(guó)如何應(yīng)對(duì)中國(guó)的崛起。在2010年的《China’s Nuclear Warhead Storage and Handling System》報(bào)告中,詳細(xì)分析了中國(guó)核彈頭的存儲(chǔ)和處理體系,包括中國(guó)人民解放軍第二炮兵最重要的核彈存儲(chǔ)基地——第22基地的位置、組織結(jié)構(gòu)等以及其他核彈基地的分布位置、移動(dòng)方式、安全性和可靠性、管理體系等。文末列舉了報(bào)告來(lái)源的大量關(guān)于中國(guó)軍隊(duì)的在線文檔信息(報(bào)道、章程、會(huì)議報(bào)告等)。2013年的報(bào)告《The Chinese People’s Liberation Army’s Unmanned Aerial Vehicle Project: Organizational Capacities and Operational Capabilities》則是分析了中國(guó)無(wú)人機(jī)的進(jìn)展,詳細(xì)分析了研發(fā)機(jī)構(gòu)、設(shè)計(jì)能力、產(chǎn)品形態(tài)、主要人員等信息以及在各個(gè)部隊(duì)中的部署情況。這些信息來(lái)自于對(duì)大量相關(guān)網(wǎng)絡(luò)報(bào)道、論文信息的深入分析、融合分析。
2.2 我國(guó)網(wǎng)絡(luò)大數(shù)據(jù)研究應(yīng)用現(xiàn)狀
網(wǎng)絡(luò)大數(shù)據(jù)主要包括互聯(lián)網(wǎng)、社交網(wǎng)、通信網(wǎng)等多通道信息,網(wǎng)絡(luò)信息的高效、全面獲取是網(wǎng)絡(luò)大數(shù)據(jù)分析、預(yù)警的前提和基礎(chǔ)。目前的信息獲取技術(shù)面臨的困難主要包括:近70%的網(wǎng)站采用了Javascript及AJAX動(dòng)態(tài)腳本技術(shù)以及社交網(wǎng)絡(luò)內(nèi)的訪問(wèn)授權(quán)限制等導(dǎo)致采集困難;新興網(wǎng)絡(luò)媒體具有動(dòng)態(tài)交互性,隱蔽性更強(qiáng),難以實(shí)時(shí)掌控;多模態(tài)、多通道信息廣泛分布,相互交織,需要全面獲取、融合分析、交叉驗(yàn)證;在信息分析方面,由于網(wǎng)絡(luò)信息中充斥著大量垃圾信息,需要大海撈針,從海量信息中甄別有價(jià)值的線索[5];網(wǎng)絡(luò)信息傳播的演化和大量涌現(xiàn)使得發(fā)現(xiàn)與追蹤非常困難,需要及時(shí)識(shí)別和監(jiān)測(cè)熱點(diǎn)、突發(fā)話題和重大事件的出現(xiàn)與擴(kuò)散;如何結(jié)合網(wǎng)絡(luò)事件的地理定位、總體態(tài)勢(shì)分析與交叉驗(yàn)證等技術(shù)手段來(lái)進(jìn)行綜合態(tài)勢(shì)的預(yù)測(cè)與演練,為輔助決策提供多維度、立體化的分析與預(yù)測(cè)手段[6];網(wǎng)絡(luò)信息的內(nèi)容理解和判定存在很強(qiáng)的不確定性和特征空間的高維詛咒問(wèn)題,需要對(duì)網(wǎng)絡(luò)信息進(jìn)行多立場(chǎng)、多視角的精確研判和分析驗(yàn)證[7]。
針對(duì)國(guó)防安全需求,我國(guó)相關(guān)管理部門已經(jīng)開(kāi)始了對(duì)網(wǎng)絡(luò)大數(shù)據(jù)進(jìn)行分析挖掘的系統(tǒng)研發(fā)與應(yīng)用部署工作[8]。目前存在的主要問(wèn)題是獲取不全面、分析不深入、研判不準(zhǔn)確、響應(yīng)不及時(shí)等,不少研發(fā)工作仍然處于低水平重復(fù)狀態(tài),迫切需要從理論和關(guān)鍵技術(shù)上取得突破。
3.1 系統(tǒng)架構(gòu)
研究面向國(guó)防安全的網(wǎng)絡(luò)大數(shù)據(jù)分析與應(yīng)用系統(tǒng),支持網(wǎng)絡(luò)大數(shù)據(jù)的感知匯聚、統(tǒng)一管理,針對(duì)重要安全應(yīng)用的融合分析和深入挖掘以及統(tǒng)一的數(shù)據(jù)服務(wù),可以實(shí)現(xiàn)網(wǎng)絡(luò)大數(shù)據(jù)的全面感知和深度融合,支持新的安全業(yè)務(wù)模式或深化傳統(tǒng)安全信息分析效果。系統(tǒng)總體架構(gòu)設(shè)想如圖1所示,具體的研究?jī)?nèi)容如下。
3.1.1 多源異構(gòu)網(wǎng)絡(luò)大數(shù)據(jù)匯聚
接入全球各大網(wǎng)絡(luò)信息來(lái)源,采集互聯(lián)網(wǎng)網(wǎng)頁(yè)、視頻、音頻、新聞媒體、商業(yè)數(shù)據(jù)庫(kù)、報(bào)刊雜志、遙感影像、空間地理信息等網(wǎng)絡(luò)大數(shù)據(jù),按照通用的接口標(biāo)準(zhǔn)進(jìn)行匯聚融合處理,形成有序信息,為深入綜合分析奠定數(shù)據(jù)基礎(chǔ)。
3.1.2 網(wǎng)絡(luò)大數(shù)據(jù)管理引擎
基于數(shù)據(jù)融合與信息交換的標(biāo)準(zhǔn)規(guī)范,針對(duì)不同來(lái)源的多格式數(shù)據(jù)建立統(tǒng)一的數(shù)據(jù)模型,基于高性能的大數(shù)據(jù)統(tǒng)一管理引擎實(shí)現(xiàn)多源異構(gòu)數(shù)據(jù)的高聚合帶寬存儲(chǔ)讀寫(xiě)、分布式統(tǒng)一計(jì)算和復(fù)雜查詢處理。支持業(yè)務(wù)部門根據(jù)自身業(yè)務(wù)需要獲取相關(guān)的原始數(shù)據(jù)或初級(jí)處理數(shù)據(jù),進(jìn)行個(gè)性化處理。
(1)存儲(chǔ)層負(fù)責(zé)對(duì)異構(gòu)數(shù)據(jù)類型的統(tǒng)一存儲(chǔ),自下而上又分為設(shè)備層和存儲(chǔ)虛擬化兩層。設(shè)備層由定制化存儲(chǔ)設(shè)備組成,設(shè)備間通過(guò)高速互聯(lián)網(wǎng)絡(luò)進(jìn)行互聯(lián)。統(tǒng)一分布式存儲(chǔ)對(duì)物理設(shè)備進(jìn)行虛擬化,將多個(gè)設(shè)備進(jìn)行整合,提供統(tǒng)一訪問(wèn)視圖,同時(shí)在資源虛擬化方面實(shí)現(xiàn)對(duì)物理設(shè)備的彈性增減。
圖1 基于大數(shù)據(jù)引擎的目標(biāo)關(guān)聯(lián)分析系統(tǒng)架構(gòu)
(2)數(shù)據(jù)管理層完成對(duì)數(shù)據(jù)生命周期的管理,包括數(shù)據(jù)的接入、存儲(chǔ)、組織和維護(hù)。針對(duì)豐富的異構(gòu)類型數(shù)據(jù),需要對(duì)結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù)采用不同的組織、存儲(chǔ)和訪問(wèn)方式,需要自動(dòng)將數(shù)據(jù)分發(fā)到相應(yīng)的存儲(chǔ)組件,同時(shí)做到對(duì)應(yīng)用透明。除此之外,海量數(shù)據(jù)所面臨的HA(high available,高可用性集群)、QoS以及性能加速要求也由管理層完成。
(3)計(jì)算服務(wù)層完成對(duì)大數(shù)據(jù)的處理計(jì)算和高效訪問(wèn),包括并行計(jì)算框架和大數(shù)據(jù)統(tǒng)一訪問(wèn)接口。并行計(jì)算框架兼容主流的計(jì)算框架,包括MapReduce、MPI、BSP、BOT等。大數(shù)據(jù)統(tǒng)一訪問(wèn)接口對(duì)統(tǒng)一存儲(chǔ)的大數(shù)據(jù)進(jìn)行在線、離線、隨機(jī)、批量等多種訪問(wèn)支持,提供多種訪問(wèn)接口,支持上層的分析功能[9,10]。
3.1.3 重要事件分析
針對(duì)關(guān)系到國(guó)家安全的重大社會(huì)問(wèn)題,對(duì)多來(lái)源網(wǎng)絡(luò)大數(shù)據(jù)進(jìn)行突發(fā)敏感事件的主動(dòng)發(fā)現(xiàn)、特定事件和主題的智能跟蹤,分析事件的演化傳播趨勢(shì)和大眾觀點(diǎn)傾向,對(duì)潛在的危機(jī)進(jìn)行趨勢(shì)預(yù)測(cè),對(duì)危機(jī)情況進(jìn)行及時(shí)預(yù)警。
3.1.4 重要目標(biāo)分析
基于遙感影像和監(jiān)視視頻,提取陸??罩匾繕?biāo)(如車輛、艦船、飛機(jī)等)的屬性、方向、速度和位置等信息,通過(guò)多源數(shù)據(jù)的融合、對(duì)比和分析,掌握目標(biāo)的動(dòng)態(tài)變化趨勢(shì),輔助發(fā)現(xiàn)可疑目標(biāo)。
3.1.5 可視化展示
對(duì)各類手段所獲取的文字、圖像、音視頻等多元信息素材進(jìn)行合理編排組織,支持各類信息的二三維聯(lián)動(dòng)、分層分類分級(jí)綜合展示,支持基于數(shù)字地球、信息主題、時(shí)間軸等多種展示模式[6]。
3.1.6 共享服務(wù)
將各類有用信息按照時(shí)效性要求和預(yù)定的分發(fā)規(guī)則,通過(guò)檢索、下載、訂閱、廣播等多種方式向各級(jí)用戶提供服務(wù),向用戶分發(fā)基礎(chǔ)資料、事件資料、目標(biāo)資料、綜合資料以及應(yīng)用軟件工具等。
3.2 指導(dǎo)原則
系統(tǒng)建設(shè)應(yīng)遵循如下原則。
· 可擴(kuò)展性:系統(tǒng)應(yīng)具備良好的可擴(kuò)展性,以便將來(lái)隨著業(yè)務(wù)和需求的增加擴(kuò)展系統(tǒng)規(guī)模。
· 規(guī)范化:形成網(wǎng)絡(luò)安全系統(tǒng),建設(shè)標(biāo)準(zhǔn)體系,涵蓋網(wǎng)絡(luò)安全業(yè)務(wù)的全過(guò)程環(huán)節(jié),為網(wǎng)絡(luò)安全業(yè)務(wù)提供規(guī)范化指導(dǎo)。
· 易用性:功能定義清晰合理,用戶界面簡(jiǎn)明友好,符合互聯(lián)網(wǎng)的常用風(fēng)格和界面規(guī)范,操作簡(jiǎn)單,具備用戶交互和自學(xué)習(xí)能力。
· 開(kāi)放接口:提供二次開(kāi)發(fā)接口,能夠支持二次應(yīng)用開(kāi)發(fā)。
面向國(guó)防安全的網(wǎng)絡(luò)大數(shù)據(jù)分析與應(yīng)用系統(tǒng)涉及一系列傳統(tǒng)數(shù)據(jù)挖掘和大數(shù)據(jù)分析技術(shù)的支持,主要包括網(wǎng)絡(luò)數(shù)據(jù)采集相關(guān)技術(shù)、網(wǎng)頁(yè)信息抽取技術(shù)、內(nèi)容特征識(shí)別技術(shù)、事件演化分析技術(shù)、網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)技術(shù)、傾向性分析技術(shù)、音視頻獲取處理相關(guān)技術(shù)等。
4.1 網(wǎng)絡(luò)數(shù)據(jù)采集相關(guān)技術(shù)
(1)高速采集技術(shù)
針對(duì)大規(guī)模Web信息采集,主要采用分布式多線程、異步socket通信、本地DNS緩存機(jī)制來(lái)實(shí)現(xiàn)原始網(wǎng)頁(yè)的高效并行化采集,在有限的帶寬和系統(tǒng)資源的限制下,使采集速度最大化。
(2)噪音過(guò)濾技術(shù)
在互聯(lián)網(wǎng)的實(shí)際網(wǎng)頁(yè)中存在大量的噪音鏈接,這些鏈接指向的頁(yè)面并不是系統(tǒng)所需要的,如何消除這些噪音鏈接而直接定位到目標(biāo)頁(yè)面鏈接是一個(gè)具有挑戰(zhàn)性的問(wèn)題。
(3)Web信息重復(fù)檢測(cè)技術(shù)
有研究表明,互聯(lián)網(wǎng)上將近30%的頁(yè)面是重復(fù)的。實(shí)際的采集系統(tǒng)都是多機(jī)協(xié)同工作的并行采集系統(tǒng),必須要處理好網(wǎng)頁(yè)的查重才能夠保證多機(jī)采集不會(huì)采集到大量重復(fù)信息。
(4)動(dòng)態(tài)網(wǎng)頁(yè)采集技術(shù)
目前網(wǎng)絡(luò)中有很多鏈接是通過(guò)JavaScript動(dòng)態(tài)生成的,用常規(guī)采集器無(wú)法實(shí)現(xiàn)網(wǎng)頁(yè)的下載。據(jù)統(tǒng)計(jì),有超過(guò)73%的網(wǎng)站采用了動(dòng)態(tài)鏈接生成技術(shù),如果不解決動(dòng)態(tài)鏈接生成的技術(shù)難題,將影響這些網(wǎng)站信息的有效獲取。
4.2 網(wǎng)頁(yè)信息精確抽取技術(shù)
實(shí)際環(huán)境中的網(wǎng)絡(luò)數(shù)據(jù)具有海量、格式復(fù)雜、變化頻率高等特點(diǎn),這使得信息抽取技術(shù)面臨巨大的挑戰(zhàn)。要想保證后期的數(shù)據(jù)處理質(zhì)量,必須有效解決以下3個(gè)問(wèn)題:在線抽取的效率高,包括準(zhǔn)確率足夠高、速度足夠快;面對(duì)形態(tài)各異的網(wǎng)絡(luò)數(shù)據(jù),抽取方法的適應(yīng)性強(qiáng);維護(hù)代價(jià)足夠低。
4.3 內(nèi)容特征識(shí)別技術(shù)
面向網(wǎng)絡(luò)文本的內(nèi)容特征識(shí)別技術(shù)包括:面向網(wǎng)絡(luò)文本的命名實(shí)體及其他特定實(shí)體識(shí)別(如人名、時(shí)間、機(jī)構(gòu)名、地址等);網(wǎng)絡(luò)流行語(yǔ)的自動(dòng)識(shí)別與分析;面向特定文本內(nèi)容的指紋特征識(shí)別等。
由于網(wǎng)絡(luò)信息的動(dòng)態(tài)性和非規(guī)范性,網(wǎng)絡(luò)文本中存在大量新的語(yǔ)言特征。需要挖掘那些以前沒(méi)有出現(xiàn)過(guò)的或者很少使用,而最近使用較頻繁的詞、短語(yǔ)或有確定語(yǔ)義的字符串。
4.4 事件演化分析技術(shù)
事件是一個(gè)與時(shí)間相關(guān)的概念,每一個(gè)事件都要經(jīng)歷從開(kāi)始到爆發(fā)再到平息消失的過(guò)程,這個(gè)時(shí)間跨度稱為事件的“生命期”。不同事件在生命期的各個(gè)階段發(fā)生、發(fā)展的趨勢(shì)既有差異又有共性?;谶@些共性特征可建立事件演變的模型,通過(guò)發(fā)現(xiàn)演變過(guò)程中的關(guān)鍵點(diǎn),判斷出事件演化的狀態(tài)和趨勢(shì)。
4.5 網(wǎng)絡(luò)社區(qū)發(fā)現(xiàn)技術(shù)
Web、郵件、博客、即時(shí)通信等消息傳播網(wǎng)絡(luò)中具有相似特征并緊密關(guān)聯(lián)的文本、事件和網(wǎng)絡(luò)群體(主體)的聚集現(xiàn)象被統(tǒng)稱為網(wǎng)絡(luò)社區(qū)。網(wǎng)絡(luò)社區(qū)分析的主要目的是從多通道網(wǎng)絡(luò)信息中發(fā)現(xiàn)影響社會(huì)穩(wěn)定的群體事件,并挖掘出與特定內(nèi)容傳播行為相關(guān)的隱性關(guān)系。
4.6 傾向性分析技術(shù)
傾向性分析是挖掘網(wǎng)絡(luò)文本內(nèi)容蘊(yùn)含的各種情感、信念、態(tài)度、意見(jiàn)和情緒等大眾觀點(diǎn)信息。目前傾向性分析面臨的主要問(wèn)題是大部分的研究方法和技術(shù)手段都與相應(yīng)的領(lǐng)域密切相關(guān),需要研究跨領(lǐng)域傾向性分析的通用技術(shù)手段。
4.7 音視頻獲取處理相關(guān)技術(shù)
(1)音視頻信息發(fā)現(xiàn)與獲取技術(shù)
基于互聯(lián)網(wǎng)的音視頻信息主被動(dòng)模式發(fā)現(xiàn)與獲取技術(shù)主要包括:基于P2P的音視頻信息有效發(fā)現(xiàn)獲取技術(shù)、基于Web的音視頻信息全面及時(shí)準(zhǔn)確發(fā)現(xiàn)獲取技術(shù)、音視頻信息在互聯(lián)網(wǎng)上的擴(kuò)散影響分析及傳播情況追蹤等。
(2)基于樣例的視頻內(nèi)容檢測(cè)技術(shù)
基于樣例的視頻內(nèi)容檢測(cè)技術(shù)主要是針對(duì)各種畫(huà)面變化,構(gòu)造頑健的特征描述算子來(lái)建模視頻的視覺(jué)內(nèi)容。同時(shí),視覺(jué)特征之間的匹配算法和特征聚類技術(shù)的設(shè)計(jì)必須滿足快速、準(zhǔn)確的要求。另外,因?yàn)榫W(wǎng)絡(luò)和數(shù)據(jù)庫(kù)保有大量的視頻內(nèi)容,視頻內(nèi)容檢測(cè)系統(tǒng)應(yīng)該采用高級(jí)的特征數(shù)據(jù)索引架構(gòu),以實(shí)現(xiàn)在線實(shí)時(shí)的快速分析和查找功能。
(3)視頻文字識(shí)別技術(shù)
由于部分網(wǎng)絡(luò)信息以視頻的形式存在,同時(shí)視頻中的文字也對(duì)圖像的內(nèi)容進(jìn)行了描述,可以作為視頻類別判斷的依據(jù),因此視頻幀中的文字檢測(cè)也是網(wǎng)絡(luò)視頻監(jiān)控的內(nèi)容之一。
(4)視頻人臉識(shí)別技術(shù)
人臉檢測(cè)是特定人物圖像檢測(cè)的基礎(chǔ)。人臉識(shí)別主要包括面部關(guān)鍵特征提取、姿態(tài)校正、光照補(bǔ)償算法、人臉識(shí)別等。其中,人臉識(shí)別核心算法是人臉識(shí)別成功的關(guān)鍵,面部特征配準(zhǔn)、人臉表示和判別特征分析是關(guān)鍵環(huán)節(jié)。
(5)音頻分析與分類技術(shù)
音頻分析與分類技術(shù)是在連續(xù)的音頻信號(hào)流中,找出音頻特征發(fā)生突變的信號(hào)點(diǎn),把變化出現(xiàn)的地方作為分割點(diǎn)將音頻流切分開(kāi),從而將連續(xù)音頻信號(hào)分割成長(zhǎng)短不一的音頻例子。通過(guò)比較音頻例子與已知音頻的相似性,將每個(gè)音頻例子歸類到不同音頻類別,對(duì)其進(jìn)行中級(jí)語(yǔ)義標(biāo)注,確定其分類。通過(guò)提取音頻文件的時(shí)域、頻域、時(shí)頻域特征來(lái)分析音頻片斷的語(yǔ)義含義,可以直接從音頻流中發(fā)現(xiàn)監(jiān)控信息。
(6)文本音視頻綜合處理技術(shù)
文本信息與音視頻信息的綜合處理技術(shù)快速提取與匹配多媒體信息中的文本信息,挖掘文本與音視頻節(jié)目之間的相互關(guān)系,利用文本與音視頻節(jié)目進(jìn)行相互表示和描述,從而將文本處理技術(shù)和音視頻分析處理技術(shù)進(jìn)行有機(jī)融合,更加全面深入地分析處理音視頻信息。具體包括文本音視頻綜合檢索技術(shù)、文本音視頻綜合分類技術(shù)、文本音視頻綜合過(guò)濾技術(shù)等。
面向國(guó)防安全的網(wǎng)絡(luò)大數(shù)據(jù)分析與應(yīng)用系統(tǒng),將在現(xiàn)有獨(dú)立分散的各類網(wǎng)絡(luò)信息搜集處理系統(tǒng)基礎(chǔ)上,集成基于多種來(lái)源的各類媒體格式的數(shù)據(jù)分析工具,提供統(tǒng)一開(kāi)放的多通道網(wǎng)絡(luò)大數(shù)據(jù)搜集、綜合處理分析、危機(jī)預(yù)警和共享分發(fā)平臺(tái),彌補(bǔ)我國(guó)成體系、成規(guī)模、一體化建設(shè)網(wǎng)絡(luò)信息搜集分析平臺(tái)的不足,大大提升面向國(guó)防安全的網(wǎng)絡(luò)大數(shù)據(jù)利用能力。
[1] Marx V. Biology: the big challenges of big data. Nature, 2013, 498(7453): 255~260
[2] 李國(guó)杰, 程學(xué)旗. 大數(shù)據(jù)研究: 未來(lái)科技及經(jīng)濟(jì)社會(huì)發(fā)展的重大戰(zhàn)略領(lǐng)域——大數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考. 中國(guó)科學(xué)院院刊, 2012, 27(6): 647~657 Li G J, Cheng X Q. Big data research: the major strategic areas for future science and technology, and economic and social development——research status of big data and scientific thinking. Bulletin of Chinese Academy of Sciences, 2012, 27(6): 647~657
[3] 中國(guó)計(jì)算機(jī)學(xué)會(huì)大數(shù)據(jù)專家委員會(huì). 中國(guó)大數(shù)據(jù)技術(shù)與產(chǎn)業(yè)發(fā)展白皮書(shū)(2013), 2013CCF Task Force on Big Data. White Paper on Big Data Technology and Industry Development in China(2013), 2013
[4] 中國(guó)計(jì)算機(jī)學(xué)會(huì)大數(shù)據(jù)專家委員會(huì), 中關(guān)村大數(shù)據(jù)產(chǎn)業(yè)聯(lián)盟. 中國(guó)大數(shù)據(jù)技術(shù)與產(chǎn)業(yè)發(fā)展白皮書(shū)(2014), 2014 CCF Task Force on Big Data, Zhongguancun Big Data Industry Alliance.White Paper on Big Data Technology and Industry Development in China(2014), 2014
[5] Batini C, Cappiello C, Francalanci C,et al. Methodologies for data quality assessment and improvement. ACM Computing Surveys (CSUR), 2009, 41(3)
[6] Johnson C, Moorhead R, Munzner T,et al. NIH/NSF Visualization Research Challenges Report. Los Alamitos: IEEE Computing Society, 2006
[7] Jin X L, Wah B W, Cheng X Q,et al. Significance and challenges of big data research. Big Data Research, 2015, 2(2): 59~64
[8] 楊小牛, 楊志邦, 賴蘭劍. 下一代信號(hào)情報(bào)偵察體系架構(gòu): 大數(shù)據(jù)概念的應(yīng)用. 中國(guó)電子科學(xué)研究院學(xué)報(bào), 2013, 8(1): 1~7 Yang X N, Yang Z B, Lai L J. The structure of the next generation SIGINT reconnaissance: application of the big data. Journal of CAEIT, 2013, 8(1): 1~7
[9] Das S, Sismanis Y, Beyer K S,et al. Ricardo: integrating R and hadoop. Proceedings of the SIGMOD, Indianapolis, Indiana, USA, 2010: 987~998
[10] Wegener D, Mock M, Adranale D,et al. Toolkit-based high-performance data mining of large data on MapReduce clusters. Proceedings of the ICDM Workshop, Miami, FL, USA, 2009
許洪波,男,博士,中國(guó)科學(xué)院計(jì)算技術(shù)研究所副研究員、碩士生導(dǎo)師,主要研究方向?yàn)榛ヂ?lián)網(wǎng)挖掘與搜索、大數(shù)據(jù)分析與計(jì)算等。
陳波,男,中國(guó)科學(xué)院計(jì)算技術(shù)研究所研究實(shí)習(xí)員,主要研究方向?yàn)榇髷?shù)據(jù)計(jì)算。
Xu H B, Chen B. Network big data analysis and application systems for national defense security. Big Data Research, 2015038
Network Big Data Analysis and Application Systems for National Defense Security
Xu Hongbo, Chen Bo
Institute of Computing Technology, Chinese Academy of Sciences, Beijing 100190, China
Based on the state of the art of big data research, a national security-oriented network big data analysis and application system was proposed, against existing problems of national security systems, such as data fragmentation, nonstandard, difficult to share, and so on. In this system, the current national security requirements and big data technologies were organic combined. It could not only play the advantages of big data technology in multi-source heterogeneous data fusion, deeply mining security information, and breaking information island, but also share the advantages of the existing business architecture and quickly producing the actual effect. Finally, a systematic introduction to the national securityoriented network big data mining and analysis technologies was given.
big data, national defense security, big data analysis, multi-source heterogeneous data fusion
10.11959/j.issn.2096-0271.2015038
2015-11-05
許洪波,陳波. 面向國(guó)防安全的網(wǎng)絡(luò)大數(shù)據(jù)分析與應(yīng)用系統(tǒng). 大數(shù)據(jù), 2015038