◆黃為
(中國電信股份有限公司溫州分公司 浙江 325000)
隨著云計(jì)算、5G 通信、多媒體等技術(shù)的快速發(fā)展,人們已經(jīng)進(jìn)入到了“互聯(lián)網(wǎng)+”時(shí)代,許多行業(yè)積極利用“互聯(lián)網(wǎng)+”,構(gòu)建了多種自動(dòng)化行業(yè)應(yīng)用系統(tǒng),覆蓋了金融證券、電子政務(wù)、在線學(xué)習(xí)、智能旅游和跨境電商等多個(gè)領(lǐng)域?;ヂ?lián)網(wǎng)在為人們提供便捷化應(yīng)用的同時(shí)也面臨著海量的攻擊威脅,比如宏病毒、格盤病毒、腳本病毒、CIH 病毒、震網(wǎng)病毒、Duqu 病毒、“火焰”病毒、Havex 病毒、Sandworm 病毒、格盤病毒、勒索病毒等,都為互聯(lián)網(wǎng)帶來了極大的危害。據(jù)統(tǒng)計(jì),2020 年爆發(fā)的勒索病毒,給谷歌、微軟、花旗銀行等大型跨國企業(yè)帶來了極大的危害,損失高達(dá)數(shù)十億美元。2021 年5 月,美國石油管道網(wǎng)絡(luò)遭受到了嚴(yán)重的病毒攻擊,長達(dá)8850 公里的輸油管道無法運(yùn)營,支付了500 多萬美元才恢復(fù)正常運(yùn)營。
卡巴斯基、360 安全衛(wèi)士、百度和華為等大型互聯(lián)網(wǎng)科技公司都積極研發(fā)和部署網(wǎng)絡(luò)安全防御系統(tǒng),提出了深度包過濾、非對(duì)稱加密技術(shù)、防火墻等安全防御技術(shù),一定程度上提高互聯(lián)網(wǎng)安全防御水平。但是,這些安全防御工作采用被動(dòng)模式,病毒或木馬爆發(fā)才啟動(dòng)防御工作,因此落后于網(wǎng)絡(luò)安全攻擊行為發(fā)生時(shí)間,為了提高安全防御水平,本文提出引入K-means 算法,利用該算法構(gòu)建一個(gè)基于大數(shù)據(jù)的主動(dòng)防御系統(tǒng),實(shí)現(xiàn)防患于未然的目標(biāo),避免網(wǎng)絡(luò)產(chǎn)生損失。
在新時(shí)期,網(wǎng)絡(luò)數(shù)據(jù)規(guī)模呈現(xiàn)出成倍激增的態(tài)勢,對(duì)網(wǎng)絡(luò)安全造成威脅的因素也逐漸增多,而且變得更加復(fù)雜,如果不能對(duì)此類因素及時(shí)進(jìn)行管控,那么就會(huì)對(duì)網(wǎng)絡(luò)安全產(chǎn)生非常嚴(yán)重的威脅。雖然用戶使用網(wǎng)絡(luò)時(shí)會(huì)采取一些具有病毒防護(hù)作用的安全產(chǎn)品,但這些網(wǎng)絡(luò)安全產(chǎn)品可以覆蓋的范圍較小,防護(hù)作用并不明顯,無法實(shí)現(xiàn)對(duì)所有漏洞進(jìn)行完全性修復(fù)。對(duì)于解決上述問題,網(wǎng)絡(luò)安全數(shù)據(jù)可視化技術(shù)具有非常重要的作用,可以有效防止各種類型威脅網(wǎng)絡(luò)安全的因素對(duì)用戶造成困擾[1]。網(wǎng)絡(luò)安全面臨的安全威脅非常多,安全危害的級(jí)別也迅速上升,因此網(wǎng)絡(luò)安全防御技術(shù)也提出了很多,比如深度包過濾、非對(duì)稱加密、免疫網(wǎng)絡(luò)等。
深度包過濾是一個(gè)非常重要的防御軟件,其可以部署于互聯(lián)網(wǎng)通信傳輸?shù)木W(wǎng)關(guān)接口,能夠?yàn)橛脩籼峁┮粋€(gè)開放的、深層次的數(shù)據(jù)包分析工具。深度包過濾技術(shù)可以針對(duì)每一個(gè)數(shù)據(jù)包進(jìn)行快速分析,挖掘、識(shí)別和判定數(shù)據(jù)包中的威脅基因,可以有效地避免傳統(tǒng)的包過濾技術(shù)無法穿透數(shù)據(jù)包的缺陷,結(jié)合各類型的互聯(lián)網(wǎng)數(shù)據(jù)傳輸協(xié)議進(jìn)行操作,比如TCP 協(xié)議、IP 協(xié)議等,實(shí)現(xiàn)不同層次的數(shù)據(jù)包分析,利用穿透式技術(shù)可以更加準(zhǔn)確的判斷網(wǎng)絡(luò)威脅是否存在。另外,深度包過濾采用了固件化的開發(fā)模式,利用嵌入式軟件提高數(shù)據(jù)處理速度,更好地適應(yīng)海量數(shù)據(jù)分析過程,能夠快速分析數(shù)據(jù)包的發(fā)送地址、目的地址,獲取網(wǎng)絡(luò)數(shù)據(jù)包的協(xié)議類型,完成互聯(lián)網(wǎng)信息過濾,保證深度包過濾的準(zhǔn)確度。
數(shù)據(jù)保密技術(shù)很多,比如MD5 算法等,但是這些加密技術(shù)多屬于被動(dòng)加密,加密后容易被破解。非對(duì)稱加密技術(shù)使用的加密算法和解密算法不一致,分別使用兩個(gè)密鑰進(jìn)行加密和解密操作,已經(jīng)成為互聯(lián)網(wǎng)主動(dòng)防御的關(guān)鍵技術(shù)。本文提出采用的非對(duì)稱加密技術(shù)詳細(xì)操作如下:首先,使用SHA256 哈希算法生成一個(gè)私鑰,使用這個(gè)私鑰針對(duì)數(shù)據(jù)進(jìn)行加密,然后使用Base58 轉(zhuǎn)換算法生成一個(gè)公鑰,以便能夠解密加密的數(shù)據(jù)信息,由于SHA256 哈希算法生成的私鑰數(shù)量很高,高達(dá)2256 個(gè),每一個(gè)私鑰都是一串固定長度的字符串,因此可以很好的保護(hù)數(shù)據(jù)信息,可以更好地防御黑客攻擊。
免疫網(wǎng)絡(luò)是一種互聯(lián)網(wǎng)通信過程中能夠自我識(shí)別和完善技術(shù),其不僅僅是一個(gè)單獨(dú)的產(chǎn)品,同時(shí)還集成了路由軟硬件資源、內(nèi)網(wǎng)安全協(xié)議、安全策略等,可以利用交換機(jī)或路由器進(jìn)行構(gòu)建,形成一個(gè)強(qiáng)大的互聯(lián)網(wǎng)安全防御機(jī)制,實(shí)現(xiàn)全網(wǎng)設(shè)備聯(lián)動(dòng)防御,建立一個(gè)深度的、多層次的防御規(guī)則,利用授權(quán)認(rèn)證的方法實(shí)現(xiàn)網(wǎng)絡(luò)接入,進(jìn)一步提高網(wǎng)絡(luò)通信保障,進(jìn)一步提高網(wǎng)絡(luò)病毒接入的可信計(jì)算能力,阻止惡意代碼攻擊互聯(lián)網(wǎng),提高網(wǎng)絡(luò)通信的自我免疫能力。免疫網(wǎng)絡(luò)應(yīng)用具有兩個(gè)優(yōu)勢:一是具有非常嚴(yán)格的網(wǎng)絡(luò)設(shè)備終端接入管控能力,從終端設(shè)備自身獲取MAC 地址,避免非法終端復(fù)制終端設(shè)備的ID 信息,實(shí)現(xiàn)真實(shí)IP 地址、MAC 地址、免疫標(biāo)記等三防合一,從而可以有效地保證設(shè)備的正常接入能力;二是構(gòu)建一個(gè)基于終端設(shè)備的雙向控制功能,不僅可以有效地防御外部攻擊,同時(shí)還可以有效抵御內(nèi)部攻擊,避免網(wǎng)絡(luò)內(nèi)的終端設(shè)備不兼容產(chǎn)生的漏洞受到攻擊,因此可以更好地保證互聯(lián)網(wǎng)提升抵抗能力,提高病毒防御能力。
基于大數(shù)據(jù)的網(wǎng)絡(luò)安全主動(dòng)防御系統(tǒng)采用先進(jìn)的K-means 算法。K-means 算法經(jīng)過多年的研究和實(shí)踐,已經(jīng)提出了很多先進(jìn)版本,分別是遺傳K-means 算法、模糊K-means 算法和互信息K-means 算法。K-means 算法運(yùn)行開始初期,傳統(tǒng)的劃分方法是隨機(jī)的,因此如果背景知識(shí)不多,將會(huì)影響K-means 算法準(zhǔn)確度。一些學(xué)者引入遺傳算法,利用遺傳算法和啟發(fā)式規(guī)則,初始化劃分K 個(gè)簇,這樣就可以盡可能保持簇劃分的合理性,提高K-means 算法的運(yùn)行準(zhǔn)確度。遺傳K-means 算法通過為用戶提供一個(gè)更加合理的初始劃分,一定程度上提高了異形數(shù)據(jù)集的劃分有效性,從而可以更好適用于離散數(shù)據(jù)對(duì)象較多的情況。
模糊理論的包括內(nèi)容非常多,可以劃分為模糊數(shù)學(xué)、模糊決策、模糊邏輯和人工智能等,針對(duì)模糊理論中的不確定性進(jìn)行更好的度量,并且這些數(shù)據(jù)中存在很緊密的聯(lián)系。目前,K-means 算法為了提高數(shù)據(jù)劃分為的準(zhǔn)確度,引入了先進(jìn)的模糊數(shù)學(xué)理論,這樣就可以將K-means 算法從原來的硬聚類轉(zhuǎn)變?yōu)檐浘垲?,這樣就可以大幅度提高數(shù)據(jù)對(duì)象的隸屬度,根據(jù)隸屬度設(shè)置的閾值,更好確定K-means 算法的執(zhí)行結(jié)果。目前,模糊K-means 算法已經(jīng)在醫(yī)療診斷系統(tǒng)得到實(shí)踐和應(yīng)用[2]。
K-means 的度量方法通常采用歐氏距離,但是這種計(jì)算方法非常的簡單和單一,不利于算法運(yùn)行的衡量程度。因此一些學(xué)者提出引入互信息方法改進(jìn)K-means 算法的度量方法?;バ畔⑹侵溉我鈨蓚€(gè)隨機(jī)變量的互相包含程度,是計(jì)算機(jī)模式識(shí)別的一種非常重要的方法,可以充分利用兩個(gè)對(duì)象之間的包含程度[3]。
本文為了提高網(wǎng)絡(luò)病毒或木馬識(shí)別的準(zhǔn)確度,基于互信息、模糊數(shù)學(xué)和遺傳算法改進(jìn)K-means 算法,從而提高K-means 算法的準(zhǔn)確度。從網(wǎng)絡(luò)數(shù)據(jù)流中采集數(shù)據(jù)包,將這些數(shù)據(jù)包輸入到改進(jìn)的K-means 算法中,也既是作為K-means 算法的數(shù)據(jù)來源,改進(jìn)的K-means 算法可以利用學(xué)習(xí)和訓(xùn)練完成的已有病毒基因片對(duì)進(jìn)行比對(duì),識(shí)別出數(shù)據(jù)流中潛在的有風(fēng)險(xiǎn)的數(shù)據(jù),將這些數(shù)據(jù)發(fā)送給殺毒軟件進(jìn)行查殺。改進(jìn)的K-means 算的學(xué)習(xí)和訓(xùn)練過程如下:
輸入:樣本集D,簇的數(shù)目k,最大迭代次數(shù)N;
輸出:簇劃分(k 個(gè)簇,使平方誤差最小);
算法步驟:
(1)基于遺傳算法為每個(gè)聚類選擇一個(gè)初始聚類中心;
(2)利用互信息度量方法,計(jì)算每一個(gè)數(shù)據(jù)對(duì)象和質(zhì)心的互信息,將樣本集按照最小互信息距離原則分配到最鄰近聚類;
(3)使用每個(gè)聚類的樣本均值更新聚類中心;
(4)重復(fù)步驟(2)、(3),直到聚類中心不再發(fā)生變化;
(5)輸出最終的聚類中心和k 個(gè)簇劃分;
具體的,基于改進(jìn)的K-means 算法在網(wǎng)絡(luò)安全主動(dòng)防御系統(tǒng)中的應(yīng)用算法流程如圖1 所示。
圖1 基于改進(jìn)的K-means 算法在網(wǎng)絡(luò)安全主動(dòng)防御系統(tǒng)算法流程
因此,本文在基于大數(shù)據(jù)的網(wǎng)絡(luò)安全主動(dòng)防御系統(tǒng)中引入改進(jìn)的K-means 算法,該算法能夠提高網(wǎng)絡(luò)病毒或木馬識(shí)別的準(zhǔn)確度,并且具有自動(dòng)的演化和學(xué)習(xí)技術(shù),從而改進(jìn)網(wǎng)絡(luò)安全主動(dòng)防御水平。
本文首先采集數(shù)以萬計(jì)的網(wǎng)絡(luò)病毒、木馬等特征基因,將其輸入到數(shù)百萬計(jì)的網(wǎng)絡(luò)數(shù)據(jù)包中,并且基于這些數(shù)據(jù)包訓(xùn)練改進(jìn)的K-means 算法,從而能夠讓K-means 算法識(shí)別網(wǎng)絡(luò)病毒或木馬的特征基因片段。
本文從中國科學(xué)院計(jì)算機(jī)信息安全研究所獲取了病毒或木馬基因特征,將這些病毒或木馬的基因特征保存在數(shù)據(jù)庫中,這些病毒包括宏病毒、格盤病毒、文件型病毒、Duqu 病毒、硬盤殺手病毒、腳本病毒、CIH 病毒、“火焰”病毒、Script 腳本病毒、Havex 病毒、JPEG病毒、網(wǎng)銀木馬、盜號(hào)木馬、DIR2 病毒、勒索病毒、震網(wǎng)病毒、Sandworm 病毒、“方程式”組織病毒庫、黑暗能量黑客工具、網(wǎng)絡(luò)協(xié)議漏洞,病毒基因特征包括1000 種,都對(duì)其進(jìn)行分類標(biāo)記,從而可以查看本文主動(dòng)防御體系的檢測能力。本文將病毒基因特征部署于六臺(tái)攻擊服務(wù)器,分別是攻擊服務(wù)器1-6,這些攻擊服務(wù)器發(fā)送的數(shù)據(jù)包中根據(jù)隨機(jī)分布的規(guī)則攜帶病毒基因特征,這些數(shù)據(jù)攻擊之后就可以檢測出來相關(guān)數(shù)據(jù)包是否含有病毒基因特征。
本文算法實(shí)驗(yàn)采用的評(píng)價(jià)標(biāo)準(zhǔn)為精確度,該評(píng)價(jià)方法能夠分析準(zhǔn)確劃分病毒類別的程度,計(jì)算過程如公式(1)所示。
其中,t∈T,其可以描述相關(guān)的數(shù)據(jù)對(duì)象簇;c∈C,其可以描述相關(guān)的類別號(hào)或簇標(biāo)號(hào);A1(c,T)可以描述相關(guān)的已經(jīng)正確分配到c中的病毒的數(shù)量;A2(c,T)可以描述相關(guān)的算法不正確的分配到c 中的病毒的數(shù)量。
為了能夠測試本文提出的改進(jìn)的K-means 算法準(zhǔn)確度,本文在實(shí)驗(yàn)中同時(shí)引入了遺傳算法和支持向量機(jī)算法,這兩種算法一種基于無監(jiān)督學(xué)習(xí),一種基于有監(jiān)督學(xué)習(xí),因此可以更好地分類對(duì)比和分析。三種算法的執(zhí)行結(jié)果如表1 所示。
表1 企業(yè)網(wǎng)絡(luò)安全主動(dòng)防御系統(tǒng)實(shí)驗(yàn)結(jié)果
實(shí)驗(yàn)結(jié)果顯示,本文提出的改進(jìn)的K-means 算法識(shí)別病毒或基因的準(zhǔn)確度最高,平均準(zhǔn)確度達(dá)到了98.3%,可以有效的提高互聯(lián)網(wǎng)安全防御水平。同時(shí),為了能夠驗(yàn)證本文算法的處理時(shí)間,本文針對(duì)不同大小的數(shù)據(jù)發(fā)送包進(jìn)行實(shí)驗(yàn),發(fā)送的數(shù)據(jù)塊大小為100M、300M、600M、1000M、2000M 等,隨著發(fā)送數(shù)據(jù)的大小不同,數(shù)據(jù)處理時(shí)間也逐漸上升,最高達(dá)到了26ms/M,不影響網(wǎng)絡(luò)用戶的正常使用,相關(guān)的處理時(shí)間如圖2 所示。
圖2 基于大數(shù)據(jù)的網(wǎng)絡(luò)安全主動(dòng)防御系統(tǒng)數(shù)據(jù)處理時(shí)間實(shí)驗(yàn)結(jié)果
基于大數(shù)據(jù)的網(wǎng)絡(luò)安全主動(dòng)防御系統(tǒng)不僅可以引入改進(jìn)的K-means 算法,還可以引入深度學(xué)習(xí)算法等更多的人工智能算法,這些算法以適用于不同的企業(yè),可以準(zhǔn)確的識(shí)別數(shù)據(jù)包中是否存在病毒或木馬,并且這對(duì)這些攻擊威脅進(jìn)行統(tǒng)計(jì)分析,查看這些攻擊威脅爆發(fā)后帶來的損失,如果損失過大就可以啟動(dòng)應(yīng)急處理措施,比如啟動(dòng)殺毒軟件;如果損失非常低,甚至可以忽略不急,就可以正常放行,精準(zhǔn)地感知網(wǎng)絡(luò)安全態(tài)勢,為數(shù)據(jù)安全防御提供決策支撐。人工智能還可以探知網(wǎng)絡(luò)病毒攻擊、威脅的常發(fā)時(shí)間或分布區(qū)域,從而針對(duì)這些時(shí)間段或分布區(qū)域進(jìn)行重點(diǎn)的防御。
隨著云計(jì)算、大數(shù)據(jù)和5G 通信技術(shù)的快速發(fā)展,促使人類社會(huì)邁入到“互聯(lián)網(wǎng)+”時(shí)代,實(shí)現(xiàn)了“互聯(lián)網(wǎng)+行業(yè)”等發(fā)展模式,大大的提高了人們工作、生活和學(xué)習(xí)的智能化、自動(dòng)化和共享化。但是,“互聯(lián)網(wǎng)+”不僅帶來了優(yōu)勢和便利,也面臨著許多的安全威脅,比如勒索病毒、盜號(hào)木馬等,嚴(yán)重威脅互聯(lián)網(wǎng)用戶的信息安全和財(cái)產(chǎn)安全。傳統(tǒng)的防火墻、包過濾系統(tǒng)、訪問控制系統(tǒng)等網(wǎng)絡(luò)安全防御技術(shù),多采用被動(dòng)型的防御模式,一旦爆發(fā)網(wǎng)絡(luò)安全事故,即使防御成功也會(huì)面臨著一定的損失,因此為了解決這個(gè)問題,本文提出利用改進(jìn)的K-means 算法構(gòu)建一個(gè)基于大數(shù)據(jù)的網(wǎng)絡(luò)安全主動(dòng)防御系統(tǒng),該系統(tǒng)能夠利用改進(jìn)的K-means 算法,識(shí)別網(wǎng)絡(luò)數(shù)據(jù)流中的木馬或病毒,采取主動(dòng)型的防御模式,提高互聯(lián)網(wǎng)安全防御水平。