付沙
(湖南財(cái)政經(jīng)濟(jì)學(xué)院,湖南長沙 410205)
網(wǎng)絡(luò)信息內(nèi)容審計(jì)系統(tǒng)的研究與實(shí)現(xiàn)
付沙
(湖南財(cái)政經(jīng)濟(jì)學(xué)院,湖南長沙 410205)
網(wǎng)絡(luò)信息內(nèi)容審計(jì)是一種對網(wǎng)絡(luò)中傳輸?shù)男畔?nèi)容進(jìn)行分析與審計(jì)的技術(shù),是網(wǎng)絡(luò)安全技術(shù)中非常重要的組成部分,通過內(nèi)容審計(jì)可實(shí)現(xiàn)網(wǎng)絡(luò)信息內(nèi)容的可控性。本文闡述了網(wǎng)絡(luò)信息內(nèi)容審計(jì)技術(shù),研究并構(gòu)建了一種網(wǎng)絡(luò)信息內(nèi)容審計(jì)系統(tǒng),且對其主要功能模塊的工作流程及其實(shí)現(xiàn)進(jìn)行了詳細(xì)說明。
內(nèi)容審計(jì);數(shù)據(jù)采集;特征匹配;負(fù)載均衡
隨著我國信息化建設(shè)的不斷推進(jìn)和計(jì)算機(jī)網(wǎng)絡(luò)的飛速發(fā)展,信息的發(fā)布與共享更為簡捷方便,網(wǎng)絡(luò)信息日益豐富;與此同時(shí),許多非法和不健康的信息也出現(xiàn)在互聯(lián)網(wǎng)上,嚴(yán)重影響廣大網(wǎng)絡(luò)用戶的日常生活與工作,給整個(gè)社會(huì)的和諧穩(wěn)定造成惡劣影響。如何保證網(wǎng)絡(luò)行為、信息內(nèi)容的合法性、合規(guī)性及健康性已成為網(wǎng)絡(luò)與信息安全領(lǐng)域研究中的熱點(diǎn)問題,在此背景下網(wǎng)絡(luò)信息內(nèi)容審計(jì)技術(shù)得到快速發(fā)展,網(wǎng)絡(luò)信息內(nèi)容審計(jì)系統(tǒng)逐漸成為整個(gè)安全系統(tǒng)中不可或缺的重要組成部分。
網(wǎng)絡(luò)信息審計(jì)系統(tǒng)包括對網(wǎng)絡(luò)信息報(bào)文格式的完整性、合法性進(jìn)行形式化審查和對報(bào)文的類型、內(nèi)容進(jìn)行審查兩大部分。目前,對審計(jì)系統(tǒng)的研究絕大部分都集中在報(bào)文完整性和合法性判別研究方面,基于內(nèi)容的審計(jì)系統(tǒng)研究不多。因此,研究和構(gòu)建網(wǎng)絡(luò)信息內(nèi)容審計(jì)系統(tǒng)對于網(wǎng)絡(luò)信息的安全、網(wǎng)絡(luò)的有效使用和對國家的安全具有重要意義。[1]
網(wǎng)絡(luò)信息內(nèi)容安全的主要技術(shù)包括基于內(nèi)容的防火墻和網(wǎng)絡(luò)信息內(nèi)容審計(jì)。[2]基于內(nèi)容的防火墻雖能最大限度地保障網(wǎng)絡(luò)信息內(nèi)容的安全,但在網(wǎng)絡(luò)犯罪取證和網(wǎng)絡(luò)行為監(jiān)控方面卻無能為力,還只能依賴于網(wǎng)絡(luò)信息內(nèi)容審計(jì)技術(shù)。該技術(shù)針對網(wǎng)絡(luò)流量中不良信息傳播的問題,綜合運(yùn)用網(wǎng)絡(luò)數(shù)據(jù)包獲取、協(xié)議分析、信息處理、不良流量阻斷等方式實(shí)現(xiàn)對網(wǎng)絡(luò)信息內(nèi)容傳播的有效監(jiān)管。能夠幫助用戶對網(wǎng)絡(luò)進(jìn)行實(shí)時(shí)監(jiān)控,記錄網(wǎng)絡(luò)上發(fā)生的一切,尋找非法和違規(guī)行為并為用戶提供事后取證。
文獻(xiàn)[3]中指出網(wǎng)絡(luò)信息內(nèi)容審計(jì)技術(shù)是采用一些智能化的處理技術(shù)及網(wǎng)絡(luò)信息報(bào)文采集、組合、判別等方面的技術(shù),對通過網(wǎng)絡(luò)的報(bào)文內(nèi)容進(jìn)行實(shí)時(shí)處理和識別,凡是發(fā)現(xiàn)包含有害、非法、敏感信息的報(bào)文就記錄其源/目的IP地址、源/目的端口號、服務(wù)類型等相關(guān)信息,形成系統(tǒng)訪問日志并提供給系統(tǒng)管理人員和其他有關(guān)用戶進(jìn)行事后審計(jì)和分析,進(jìn)而采取相應(yīng)的安全管理措施,包括對非法及不健康信息進(jìn)行追查等處理。
網(wǎng)絡(luò)信息內(nèi)容審計(jì)系統(tǒng)是指從計(jì)算機(jī)網(wǎng)絡(luò)系統(tǒng)中的若干個(gè)關(guān)鍵點(diǎn)收集數(shù)據(jù)包,對其傳送的內(nèi)容進(jìn)行審計(jì)分析,檢查其中是否含有違反信息安全策略的行為跡象,實(shí)現(xiàn)對網(wǎng)絡(luò)信息內(nèi)容的監(jiān)控,防止機(jī)密文件或敏感信息的非法泄漏及傳送,對可疑行為或內(nèi)容采取措施并為查證提供有力證據(jù)。[4]網(wǎng)絡(luò)信息內(nèi)容審計(jì)系統(tǒng)作為保障網(wǎng)絡(luò)信息安全的實(shí)時(shí)審計(jì)工具,可以高速有效地對進(jìn)出內(nèi)部網(wǎng)絡(luò)的電子郵件、網(wǎng)頁(BBS)、P2P軟件、上傳下載文件和遠(yuǎn)程登錄等各類傳輸信息進(jìn)行數(shù)據(jù)截取和還原,并可根據(jù)用戶需求對通信內(nèi)容進(jìn)行審計(jì),提供高速的敏感特征關(guān)鍵詞檢索和標(biāo)記功能,從而防止內(nèi)部網(wǎng)絡(luò)敏感信息的泄漏以及非法信息的傳播。
在網(wǎng)絡(luò)信息內(nèi)容審計(jì)系統(tǒng)中,網(wǎng)絡(luò)內(nèi)容采集模塊從互聯(lián)網(wǎng)上取回內(nèi)容之后,內(nèi)容分析模塊對內(nèi)容進(jìn)行分析處理。在擁有足夠的網(wǎng)絡(luò)帶寬情況下,內(nèi)容分析模塊對大流量網(wǎng)絡(luò)數(shù)據(jù)的處理速度將成為系統(tǒng)性能的瓶頸。而內(nèi)容分析模塊的處理速度和對敏感信息的識別準(zhǔn)確率又是一對矛盾,難以兼顧。如果采用簡單高速的分析算法則會(huì)降低識別準(zhǔn)確率;而采用復(fù)雜準(zhǔn)確的分析算法又難以保證處理速度。[5]
基于該因素,除了在系統(tǒng)中運(yùn)用高性能的計(jì)算設(shè)備之外,在系統(tǒng)結(jié)構(gòu)方面可以采用兩層分析結(jié)構(gòu):第一層采用簡單高速的分析技術(shù)進(jìn)行數(shù)據(jù)包獲取和內(nèi)容過濾,著重系統(tǒng)的效率,對采用的算法時(shí)間復(fù)雜度有嚴(yán)格要求;第二層采用復(fù)雜準(zhǔn)確的分析技術(shù)對第一層過濾的結(jié)果進(jìn)行精確處理,著重系統(tǒng)的準(zhǔn)確率和功能的全面性。通過將兩層分析結(jié)構(gòu)分步實(shí)現(xiàn),從而增強(qiáng)對敏感信息的識別準(zhǔn)確率,提高整個(gè)系統(tǒng)的性能。[6]
網(wǎng)絡(luò)信息內(nèi)容審計(jì)系統(tǒng)主要由四個(gè)功能模塊組成:數(shù)據(jù)采集模塊、數(shù)據(jù)包還原重組模塊、特征匹配模塊和集群及負(fù)載均衡控制模塊。整個(gè)系統(tǒng)采用網(wǎng)絡(luò)探針技術(shù)進(jìn)行數(shù)據(jù)采集和分布式集群技術(shù)實(shí)現(xiàn)數(shù)據(jù)包還原重組,能較好地解決傳統(tǒng)網(wǎng)絡(luò)信息內(nèi)容審計(jì)系統(tǒng)在高速網(wǎng)絡(luò)環(huán)境下丟包率高、性能低下、無法支持多種協(xié)議的問題。系統(tǒng)的主要功能模塊如圖所示。
1.數(shù)據(jù)采集模塊
數(shù)據(jù)采集模塊是網(wǎng)絡(luò)信息內(nèi)容審計(jì)系統(tǒng)的基礎(chǔ)組件。該模塊通過截獲整個(gè)網(wǎng)絡(luò)所有的信息流量,根據(jù)信息源主機(jī)、目標(biāo)主機(jī)和服務(wù)協(xié)議端口等信息簡單過濾掉不需要關(guān)心的數(shù)據(jù),再將用戶感興趣的數(shù)據(jù)發(fā)送給更高層的應(yīng)用程序進(jìn)行分析。在不同的操作系統(tǒng)平臺需要使用不同的數(shù)據(jù)包獲取技術(shù),目前常用的是網(wǎng)絡(luò)數(shù)據(jù)包捕獲函數(shù)庫Libpcap(Packet Capture Library)和信息包捕獲與網(wǎng)絡(luò)分析模型包WinPcap(Windows Packet Capture)。
在Unix或Linux操作系統(tǒng)平臺下進(jìn)行網(wǎng)絡(luò)數(shù)據(jù)包采集時(shí)可采用Libpcap,它是一個(gè)由與實(shí)現(xiàn)無關(guān)的訪問操作系統(tǒng)所提供的分組捕獲機(jī)制的分組捕獲函數(shù)庫。該函數(shù)庫提供的接口函數(shù)主要實(shí)現(xiàn)和封裝與數(shù)據(jù)包截獲有關(guān)的過程,同時(shí)所提供的C函數(shù)接口可用于需要捕獲經(jīng)過網(wǎng)絡(luò)接口數(shù)據(jù)包的系統(tǒng)開發(fā)中。目前有許多流行的工具都使用了Libpcap來進(jìn)行數(shù)據(jù)采集,如tcpdump、snort等。而WinPcap是Windows操作系統(tǒng)平臺下一個(gè)免費(fèi)、公共的網(wǎng)絡(luò)底層訪問系統(tǒng),可用于進(jìn)行捕獲、發(fā)送原始數(shù)據(jù)包,它是Unix系統(tǒng)平臺下廣泛使用的Libpcap的Windows版本。
本文所構(gòu)建的系統(tǒng)在Windows系統(tǒng)平臺下運(yùn)行,選用WinPcap來完成數(shù)據(jù)采集。WinPcap采集相關(guān)數(shù)據(jù)后提交數(shù)據(jù)幀給數(shù)據(jù)采集模塊,該模塊接收并分析記錄數(shù)據(jù)幀的源和目的MAC地址,分析數(shù)據(jù)幀的上層協(xié)議類型。WinPcap不僅提供了一套與Libpcap兼容的標(biāo)準(zhǔn)報(bào)文捕獲接口,以便于將程序移植到Unix系統(tǒng)平臺下,還考慮了各種性能和效率的優(yōu)化,收集網(wǎng)絡(luò)通信過程中的統(tǒng)計(jì)信息并提供了內(nèi)核態(tài)的統(tǒng)計(jì)模式。在數(shù)據(jù)采集模塊中,首先可通過以太網(wǎng)的廣播特性對網(wǎng)絡(luò)底層信息進(jìn)行監(jiān)聽并獲取網(wǎng)絡(luò)上傳輸?shù)臄?shù)據(jù)流,包括協(xié)議端口、子網(wǎng)主機(jī)的所有交互數(shù)據(jù)等。在這些交互數(shù)據(jù)中存在著大量用戶不需要關(guān)心的非敏感信息(正常信息),對非敏感信息的監(jiān)聽工作嚴(yán)重影響到系統(tǒng)的工作效率,因此,建立高效的信息過濾機(jī)制是提高信息監(jiān)聽工作效率的重要環(huán)節(jié),它使用戶可指定特定的協(xié)議端口及子網(wǎng)主機(jī),如對電子郵件、網(wǎng)頁(BBS)、遠(yuǎn)程登錄等各類傳輸信息進(jìn)行過濾,只將用戶關(guān)心的敏感信息向更高層提交,從而提高系統(tǒng)工作效率。
2.數(shù)據(jù)包還原重組模塊
數(shù)據(jù)采集的目的是為了分析網(wǎng)絡(luò)數(shù)據(jù)包內(nèi)容,對于網(wǎng)絡(luò)信息內(nèi)容審計(jì)系統(tǒng)來說,僅分析零碎數(shù)據(jù)包的價(jià)值非常小,必須將一個(gè)會(huì)話中雙向傳輸?shù)乃袛?shù)據(jù)包進(jìn)行拼接,并排除協(xié)商、應(yīng)答、重傳、包頭等網(wǎng)絡(luò)附加信息以實(shí)現(xiàn)還原與重組,只有這樣才能實(shí)現(xiàn)網(wǎng)絡(luò)內(nèi)容的監(jiān)控與審查。按照TCP/IP協(xié)議以及應(yīng)用層協(xié)議的規(guī)范,此模塊對采集的IP數(shù)據(jù)包在進(jìn)行預(yù)處理之后逐層還原并將數(shù)據(jù)包進(jìn)一步重組為應(yīng)用層數(shù)據(jù)。根據(jù)數(shù)據(jù)物理幀的幀頭,模塊可以識別出所有的IP數(shù)據(jù)包;根據(jù)IP數(shù)據(jù)包頭中的信息(信源端IP地址、信宿端IP地址、協(xié)議類型號等)則可以識別出哪些IP數(shù)據(jù)包屬于同一個(gè)TCP或者是UDP的數(shù)據(jù)分段,并將它們重組為數(shù)據(jù)分段;再根據(jù)TCP或者是UDP段頭中的信息(源端口號、目的端口號、序列號、確認(rèn)號等)可以恢復(fù)原始會(huì)話的內(nèi)容,經(jīng)過進(jìn)一步處理可以完成應(yīng)用層協(xié)議的重現(xiàn)并對內(nèi)容還原分析。
以電子郵件為例,電子郵件通常是以編碼的方式在網(wǎng)絡(luò)上進(jìn)行傳輸,RFC1341-MIME(多媒體因特網(wǎng)郵件擴(kuò)展)中有詳細(xì)的說明,郵件的內(nèi)容編碼標(biāo)志域指出了相應(yīng)的編碼方式,主要分為五種:7bit、8bit、Binary、Quotedprintable和BASE64編碼。7bit、8bit和Binary編碼方式的數(shù)據(jù)在郵件發(fā)送和接收過程中都是以明文方式進(jìn)行傳輸?shù)?;而Quoted-printable和BASE64編碼則以非明文方式傳輸,這是當(dāng)前電子郵件中最常用的編碼方式,根據(jù)其相應(yīng)的編碼規(guī)則可以對郵件進(jìn)行相應(yīng)的解碼并對郵件報(bào)文信息進(jìn)行翻譯。[7]
3.特征匹配模塊
敏感特征關(guān)鍵詞的匹配速度是決定系統(tǒng)性能的關(guān)鍵,解決不好將嚴(yán)重影響系統(tǒng)的性能,甚至導(dǎo)致失敗。字符串的匹配算法直接影響系統(tǒng)的檢測效率,當(dāng)對網(wǎng)絡(luò)數(shù)據(jù)包匹配特定字符串的特征時(shí)就需要一個(gè)有效的字符串搜索算法。
特征匹配模塊可以利用自動(dòng)機(jī)技術(shù)對敏感特征關(guān)鍵詞進(jìn)行字符串匹配,若發(fā)現(xiàn)敏感信息則將其相關(guān)信息記入數(shù)據(jù)庫中,在客戶端可以實(shí)現(xiàn)對信息的顯示、查詢及統(tǒng)計(jì)。將所有的關(guān)鍵字分解成不同的狀態(tài)構(gòu)成自動(dòng)機(jī),該自動(dòng)機(jī)以文件內(nèi)容作為輸入對象,輸出結(jié)果為匹配到的關(guān)鍵字,從而完成特征匹配的功能。
4.集群及負(fù)載均衡控制模塊
集群是指相互獨(dú)立的一些系統(tǒng)在一臺負(fù)載監(jiān)視器的控制下作為一個(gè)系統(tǒng)共同工作,構(gòu)造集群的目的是為了提高系統(tǒng)的可靠性和規(guī)模的可擴(kuò)展性。集群的核心技術(shù)就是構(gòu)造負(fù)載監(jiān)視器和實(shí)現(xiàn)任務(wù)分配策略的算法,負(fù)載監(jiān)視器負(fù)責(zé)監(jiān)視集群系統(tǒng)中的各臺機(jī)器的當(dāng)前負(fù)載,任務(wù)分配策略根據(jù)各臺機(jī)器的當(dāng)前負(fù)載進(jìn)行任務(wù)分配并在各臺機(jī)器之間進(jìn)行負(fù)載均衡。
集群及負(fù)載均衡控制模塊采用在集群的各個(gè)主機(jī)上安裝監(jiān)視本機(jī)CPU負(fù)載的Agent的方式,Agent可獲得當(dāng)前系統(tǒng)的CPU負(fù)載。這些Agent和數(shù)據(jù)接收機(jī)上的負(fù)載監(jiān)控程序采用CORBA進(jìn)行通信,負(fù)載監(jiān)控程序可實(shí)時(shí)監(jiān)控到各臺機(jī)器的當(dāng)前負(fù)載。集群的負(fù)載均衡策略可采用加權(quán)最小負(fù)載法,即有新的任務(wù)提交的情況下選用加權(quán)最小負(fù)載(=當(dāng)前負(fù)載/處理能力)的處理機(jī)為新數(shù)據(jù)包的處理者。同時(shí),由于網(wǎng)絡(luò)流量的增長速度已遠(yuǎn)遠(yuǎn)高于處理器處理能力的增長速度,使用負(fù)載均衡算法來應(yīng)付大流量內(nèi)容審計(jì)是必須的,但現(xiàn)有的分流技術(shù)仍存在不足,尚不能實(shí)現(xiàn)真正的負(fù)載均衡,仍需進(jìn)一步完善數(shù)據(jù)負(fù)載均衡算法。
本文針對網(wǎng)絡(luò)環(huán)境下的信息內(nèi)容安全性問題和當(dāng)前網(wǎng)絡(luò)信息內(nèi)容審計(jì)產(chǎn)品的不足,結(jié)合網(wǎng)絡(luò)信息內(nèi)容審計(jì)技術(shù)的發(fā)展趨勢,研究并構(gòu)建了一種可對網(wǎng)絡(luò)信息流進(jìn)行全面有效檢測與審計(jì)的網(wǎng)絡(luò)信息內(nèi)容審計(jì)系統(tǒng),以確保網(wǎng)絡(luò)信息安全可靠的傳輸。☉
[1]陳國龍,陳火旺,康仲生.基于內(nèi)容的網(wǎng)絡(luò)信息安全審計(jì)中的匹配算法研究[J].小型微型計(jì)算機(jī)系統(tǒng),2004,25(9):1676-1679.
[2]趙曉明,張新霞.基于網(wǎng)絡(luò)信息安全內(nèi)容審計(jì)系統(tǒng)及相關(guān)技術(shù)研究[J].航空計(jì)算技術(shù),2006,36(5):127-130.
[3]萬國根,秦志光,劉錦德.高速網(wǎng)絡(luò)環(huán)境下內(nèi)容審計(jì)系統(tǒng)的研究與實(shí)現(xiàn)[J].計(jì)算機(jī)科學(xué),2003,30(12):59-61.
[4]孫欽東,管曉宏,周亞東.網(wǎng)絡(luò)信息內(nèi)容審計(jì)研究的現(xiàn)狀及趨勢[J].計(jì)算機(jī)研究與發(fā)展,2009,46(8):1241-1250.
[5]朱瑞,趙亮.基于內(nèi)容的網(wǎng)絡(luò)安全信息審計(jì)系統(tǒng)研究[J].電力信息化,2008,6(11):36-39.
[6]張曉彤,張德運(yùn),高鵬.基于內(nèi)容的實(shí)時(shí)網(wǎng)絡(luò)信息審計(jì)系統(tǒng)[J].計(jì)算機(jī)應(yīng)用研究,2004(10):215-216.
[7]李慧君,李建民,徐鷹.分布式網(wǎng)絡(luò)內(nèi)容監(jiān)控審計(jì)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].華中科技大學(xué)學(xué)報(bào)(自然科學(xué)版),2003,10(31)增刊:196-198.
(編輯:隗爽)
TP393.08
A
1673-8454(2011)01-0043-03