基于大數(shù)據(jù)的計算機(jī)信息安全處理技術(shù)研究

2022-07-09 13:09尹海翔

電子技術(shù)與軟件工程 2022年9期

尹海翔

（深圳信息職業(yè)技術(shù)學(xué)院廣東省深圳市 518172）

近年來，由于網(wǎng)絡(luò)入侵導(dǎo)致計算機(jī)部分信息被篡改以及傳輸中被泄漏的情況時有發(fā)生，對計算機(jī)信息安全造成嚴(yán)重的威脅。信息安全不僅影響著網(wǎng)絡(luò)用戶的工作和生活，還會對我國經(jīng)濟(jì)的長遠(yuǎn)發(fā)展形成一定的阻礙，因此需要有效手段對計算機(jī)網(wǎng)絡(luò)入侵進(jìn)行檢測。大數(shù)據(jù)技術(shù)能夠?qū)⒑Ａ繑?shù)據(jù)進(jìn)行集中整合，具有效率高、數(shù)據(jù)處理量大等特點(diǎn)，因此越來越被人們所重視。本文基于大數(shù)據(jù)研究計算機(jī)信息安全處理技術(shù)，為各種攻擊的攔截和處理提供了重要的參考依據(jù)，對計算機(jī)信息隱私防護(hù)具有現(xiàn)實意義。

1 基于大數(shù)據(jù)的計算機(jī)信息安全處理技術(shù)研究

1.1 計算機(jī)網(wǎng)絡(luò)信息采集

在大數(shù)據(jù)背景下，要實現(xiàn)計算機(jī)的信息安全處理，需要以大量的信息采集為基礎(chǔ)，并對采集到的信息數(shù)據(jù)進(jìn)行分析與篩選，將篩選后的信息進(jìn)行相應(yīng)地處理，并將其安全存儲在數(shù)據(jù)庫中，從而使用戶能夠及時準(zhǔn)確找到有用的信息。本文基于網(wǎng)絡(luò)爬蟲進(jìn)行數(shù)據(jù)信息的采集，基于爬取深度，網(wǎng)址處理范圍以及網(wǎng)址的URL 格式實現(xiàn)了網(wǎng)絡(luò)爬蟲設(shè)計。在本文設(shè)計的網(wǎng)絡(luò)爬蟲結(jié)構(gòu)中，通過URL 鏈表模塊對已爬取隊列和未爬取隊列進(jìn)行URL 連接的存放，記錄網(wǎng)絡(luò)頁面中已訪問過和未訪問過的URL 鏈表，對爬取網(wǎng)址進(jìn)行初始化處理，實現(xiàn)URL 的大小轉(zhuǎn)換。解析URL 頁面中的鏈接信息，下載網(wǎng)址后對網(wǎng)頁進(jìn)行分析和完整性的處理，再將信息數(shù)據(jù)中提取的內(nèi)容存儲在數(shù)據(jù)庫中。

為了避免重復(fù)的信息采集，本文設(shè)計去重模塊比較抓取情況，分析URL 的特征值，避免在信息數(shù)據(jù)采集時過多出現(xiàn)重復(fù)現(xiàn)象。對爬蟲抓取鏈接進(jìn)行過濾。根據(jù)網(wǎng)絡(luò)中信息的更新頻率和計算機(jī)系統(tǒng)的執(zhí)行效率，進(jìn)行信息數(shù)據(jù)的定時采集。由于網(wǎng)絡(luò)文檔存在著格式不統(tǒng)一的情況，因此需要進(jìn)行HTML 文檔格式的轉(zhuǎn)換，并制定數(shù)據(jù)信息收取規(guī)則，將格式轉(zhuǎn)換完成的XHTML 文檔以標(biāo)簽節(jié)點(diǎn)樹的方式進(jìn)行解析，將各標(biāo)簽作為一個節(jié)點(diǎn)，并代替區(qū)的網(wǎng)絡(luò)文檔節(jié)點(diǎn)區(qū)域標(biāo)簽節(jié)點(diǎn)，劃分文本節(jié)點(diǎn)和注釋節(jié)點(diǎn)的類型，建立信息標(biāo)志組合。根據(jù)抽取規(guī)則進(jìn)行信息的采集，在不需要理解文本含義的情況下，實現(xiàn)對信息數(shù)據(jù)的抽取，將非結(jié)構(gòu)化以及半結(jié)構(gòu)化的信息轉(zhuǎn)化為計算機(jī)系統(tǒng)能夠識別的結(jié)構(gòu)化信息數(shù)據(jù)。為了避免數(shù)據(jù)在采集過程中發(fā)生信息損壞、丟失以及攔截情況，本文應(yīng)用加密技術(shù)，在網(wǎng)絡(luò)環(huán)境不穩(wěn)定的情況下起到隱私防護(hù)作用。

1.2 信息特征提取與數(shù)據(jù)存儲

由于計算機(jī)不能直接識別文本，因此需要通過向量空間模型表示文本，通過運(yùn)算向量空間的向量，實現(xiàn)對文本內(nèi)容的處理，并利用向量空間上的相似度來表示文本內(nèi)容中語義的相似度。本文基于詞頻加權(quán)法，計算特征詞在向量空間中的權(quán)重，具體公式為：

式中c 為文檔類別，h 為特征，EX(c,h)為互信息。根據(jù)預(yù)先設(shè)定的文本類別，對文本進(jìn)行分類處理，將訓(xùn)練樣本的類別確定后，建立一個關(guān)于輸入樣本的表征數(shù)據(jù)和擬輸出結(jié)果之間的對應(yīng)關(guān)系，以此確定未知樣本的輸出類別，根據(jù)提取的特征項的數(shù)據(jù)，將類別向量矩陣進(jìn)行歸一化處理。對信息進(jìn)行自動分詞，完成最終的文本分類。本文以詞為基本單元，將禁用詞剔除后，利用最大匹配算法將文本信息內(nèi)容中最長的復(fù)合詞進(jìn)行切分，再將字串與分詞詞典匹配，對停用詞進(jìn)行過濾處理，從而達(dá)到減小存儲空間的效果，經(jīng)過分類與停用詞過濾等一系列操作后，形成文檔信息的特征向量空間，確保本文分類達(dá)到信息的預(yù)處理要求。為了提高計算機(jī)對大數(shù)據(jù)信息的執(zhí)行效率，本文通過分布式數(shù)據(jù)存儲技術(shù)將信息數(shù)據(jù)存儲到數(shù)據(jù)庫中，在計算機(jī)受到攻擊入侵時，通過應(yīng)急通道轉(zhuǎn)移信息，實現(xiàn)安全存儲。

1.3 網(wǎng)絡(luò)攻擊入侵檢測

對網(wǎng)絡(luò)入侵的檢測是保證計算機(jī)信息安全處理的關(guān)鍵環(huán)節(jié)，通過采集到的計算機(jī)信息數(shù)據(jù)，及時對計算機(jī)網(wǎng)絡(luò)的入侵行為進(jìn)行檢測，根據(jù)目前已有的入侵威脅分類，通過主動監(jiān)測的方式將網(wǎng)絡(luò)數(shù)據(jù)故障進(jìn)行匹配與排除，采用分層的檢測方法將測試樣本劃分到指定類別中，并從測試機(jī)中去除這些樣本，再將剩余的測試樣本進(jìn)行二次分類，分析網(wǎng)絡(luò)攻擊行為后，按照網(wǎng)絡(luò)攻擊類型的相似度進(jìn)行組別的劃分，設(shè)定整體檢測框架，本文設(shè)計的網(wǎng)絡(luò)攻擊入侵檢測架構(gòu)由5 層組成，第一層將測試的樣本數(shù)據(jù)分為Dos 攻擊和其他類別攻擊，第一層主要將測試數(shù)據(jù)中的Dos 攻擊排除，第二層繼續(xù)將其他攻擊類別的數(shù)據(jù)劃分為Probe 攻擊和其他類別攻擊，第三層的目的是盡可能地將U2R 攻擊檢測出來，第四層主要進(jìn)行R2L 攻擊的檢測，最后一層為正常數(shù)據(jù)和未知數(shù)據(jù)。

在網(wǎng)絡(luò)入侵檢測階段，識別入侵特征向量變換，分析入侵特征向量，并以向量的形式進(jìn)行數(shù)字處理與分類，基于人工智能技術(shù)決策，匯總向量分類結(jié)果。計算機(jī)網(wǎng)絡(luò)系統(tǒng)中均存在著易被網(wǎng)絡(luò)攻擊的數(shù)據(jù)庫，在本文計算機(jī)系統(tǒng)檢測到異常網(wǎng)絡(luò)攻擊行為后，會產(chǎn)生防攻擊子集，通過攻擊子集與計算機(jī)系統(tǒng)的入侵特征匹配，對后續(xù)的網(wǎng)絡(luò)攻擊行為進(jìn)行預(yù)測，為了盡可能地保證檢測事件序列和匹配規(guī)則相對應(yīng)，本文綜合考慮預(yù)測模塊的運(yùn)行情況，對偏離情況進(jìn)行約束。根據(jù)檢測事件序列的相似度，調(diào)整計算機(jī)網(wǎng)絡(luò)系統(tǒng)規(guī)則，從而達(dá)到保證網(wǎng)絡(luò)攻擊入侵檢測的可靠性。

1.4 基于大數(shù)據(jù)的信息安全加密

大數(shù)據(jù)技術(shù)在實現(xiàn)信息共享的同時，加大了信息泄露的風(fēng)險，由于信息數(shù)據(jù)在共享環(huán)境下無法掌控其輸出方向，導(dǎo)致計算機(jī)信息隱私保護(hù)效果不佳。為此，本文基于大數(shù)據(jù)進(jìn)行計算機(jī)信息安全處理，通過公開密鑰算法加密處理計算機(jī)信息，加密過程將算法與密鑰相結(jié)合，將明文轉(zhuǎn)換為密文，根據(jù)不同密鑰產(chǎn)生不同密文實現(xiàn)密文傳輸。將信息和加密密鑰作為輸入，形成密文表達(dá)式為：

y=R(x) （3）

式中x 為明文，k 為密鑰，R 為加密算法作為的函數(shù)，具有該密鑰的預(yù)期接收者能夠進(jìn)行反向變換，實現(xiàn)信息的解密，其表達(dá)式為：

式中W 為解密算法，當(dāng)入侵攻擊方僅獲得加密密鑰或加密算法時，僅能對明文進(jìn)行估計，而無法得到復(fù)原明文。我們將入侵攻擊方的密碼分析攻擊類型進(jìn)行分類，首先為密文攻擊，已知明文攻擊、選擇明文攻擊和自適應(yīng)選擇明文攻擊，分析本文信息加密的破譯難度，進(jìn)一步設(shè)置高級加密標(biāo)準(zhǔn)，通過混淆擴(kuò)散法復(fù)雜化密文和明文之間的統(tǒng)計獨(dú)立性關(guān)系，將各明文數(shù)字的影響擴(kuò)散到盡可能多的輸出密文數(shù)字中，從而隱藏明文數(shù)字的統(tǒng)計特性，使通信雙方以交換密鑰協(xié)議為基礎(chǔ)，通過密鑰交換實現(xiàn)合法通信雙方的安全通信。

1.5 設(shè)置網(wǎng)絡(luò)防火墻

本文設(shè)置的防火墻基于交叉編譯器設(shè)計而成，該防火墻支持多種通訊協(xié)議和硬件設(shè)備，通過與用戶簽訂的網(wǎng)絡(luò)協(xié)議判斷IP 端口的安全性，根據(jù)瀏覽IP 歷史傳輸記錄，經(jīng)IP數(shù)據(jù)包對信息內(nèi)容的采集和特征提取，判斷數(shù)據(jù)的連接狀態(tài)，并將采集到的信息數(shù)據(jù)進(jìn)行對比，根據(jù)IP 包的標(biāo)準(zhǔn)，檢驗IP 數(shù)據(jù)是否滿足數(shù)據(jù)傳輸標(biāo)準(zhǔn)，若IP 數(shù)據(jù)內(nèi)容未達(dá)到傳輸標(biāo)準(zhǔn)，則會自動丟棄數(shù)據(jù)信息從而保證網(wǎng)絡(luò)的安全性。本文防火墻架構(gòu)允許各處理核動態(tài)地參與IP數(shù)據(jù)包的處理過程，并根據(jù)實際的數(shù)據(jù)處理的需要，添加防火墻功能，將新添加的代碼進(jìn)行隔離，從而保證防火墻原有的各功能以及IP 層不會因新添加的功能代碼而出現(xiàn)不良影響。在人員進(jìn)行數(shù)據(jù)傳輸時，根據(jù)網(wǎng)絡(luò)環(huán)境判斷能否進(jìn)行正常傳輸，分析接口及原地址的運(yùn)行情況，若數(shù)據(jù)包中存在不良網(wǎng)絡(luò)信息，則對信息下載進(jìn)行攔截，起到對網(wǎng)絡(luò)病毒的有效的防護(hù)作用。除此以外，為了提高網(wǎng)絡(luò)信息安全防護(hù)水平，安裝殺毒軟件，從而對損壞的信息進(jìn)行及時的修復(fù)與還原，實現(xiàn)對文件進(jìn)行壓縮加花的抗侵襲處理，使計算機(jī)在殺毒軟件安裝下發(fā)揮自我保護(hù)作用，使計算機(jī)處于安全狀態(tài)。

2 實驗論證分析

2.1 實驗環(huán)境搭建

為驗證本文方法的有效性，需要對計算機(jī)信息安全處理的各項功能進(jìn)行實驗分析，首先對實驗環(huán)境進(jìn)行搭建，本文硬件測試環(huán)境包括數(shù)據(jù)庫，服務(wù)器，以及客戶端主機(jī)等。本文的實驗數(shù)據(jù)集中包含四類攻擊，主要為Dos 攻擊、Probe 攻擊、U2R 攻擊和R2L 攻擊，將數(shù)據(jù)集中數(shù)據(jù)以3:1比例分別作為訓(xùn)練集和測試集的數(shù)據(jù)來源，每組樣本數(shù)量為10，共進(jìn)行10 組平行試驗，各組實驗重復(fù)100 次后進(jìn)行統(tǒng)計。

2.2 入侵檢測性能分析

本文在上文建立了一種分層檢測框架，為了驗證本文方法對網(wǎng)絡(luò)入侵檢測的效果，減少網(wǎng)絡(luò)入侵檢測的時間，本文通過傳統(tǒng)方法1 和傳統(tǒng)方法2 進(jìn)行對比實驗，對Dos 攻擊、Probe 攻擊、U2R 攻擊和R2L 攻擊和正常類別的檢測結(jié)果如表1 所示。

表1：不同方法的網(wǎng)絡(luò)入侵檢測率對比

由表1 可知，由于數(shù)據(jù)集中的U2R 樣本攻擊數(shù)據(jù)和R2L 樣本攻擊數(shù)量較少，同時這兩種攻擊類別與正常數(shù)據(jù)的相似度較高，因此具有較大的檢測難度，相比而言，Dos 攻擊和Probe 攻擊的檢測率更高，本文方法對這兩種類別的檢測率均在95%以上，在不同入侵攻擊類別的檢測中，本文方法的檢測效果更佳。統(tǒng)計不同方法的誤報率，本文方法誤報率僅為1.56%，傳統(tǒng)方法1 和傳統(tǒng)方法2 的誤報率分別為2.13%和5.89%，雖然本文方法在U2R 攻擊和R2L 攻擊的檢測率還有待提高，但整體檢測水平仍高于其他兩種方法，且誤報率在可以接受的范圍內(nèi)，證明本文方法對網(wǎng)絡(luò)入侵的檢測效果較好。將規(guī)則數(shù)增加到1000 條時，對比不同方法在檢測數(shù)據(jù)逐漸增多的條件下的檢測時間，具體如圖1 所示。

由圖1 可知，在不同規(guī)則數(shù)條件下，本文方法的入侵檢測時間均比傳統(tǒng)方法的檢測時間短，在規(guī)則數(shù)為200 時，本文方法的入侵檢測時間為0.12 秒，傳統(tǒng)方法1 和傳統(tǒng)方法2的入侵檢測時間分別在0.2 秒以上，在規(guī)則數(shù)達(dá)到1000 條時，傳統(tǒng)方法1 和傳統(tǒng)方法2 的入侵檢測時間已達(dá)到0.6 秒以上，而本文方法的入侵檢測時間僅為0.31 秒，本文方法的平均入侵檢測時間為0.25 秒，傳統(tǒng)方法1 和傳統(tǒng)方法2 的平均入侵檢測時間均在0.4 秒以上，證明本文方法能夠?qū)崿F(xiàn)快速檢測，滿足計算機(jī)信息安全處理的要求。

圖1：不同方法的入侵檢測時間對比

2.3 防火墻性能分析

在本文的防火墻性能測試中，主要對吞吐率和攔截性能進(jìn)行評估，驗證本文方法的有效性。設(shè)定實驗仿真時間為1500s，將不同大小的數(shù)據(jù)包輸入到防火墻中。首先測試在不同條件下的防火墻吞吐率，在該項測試中的數(shù)據(jù)包大小分別為64B、128B、256B、512B、1024B、1518B，防火墻工作模式分為路由模式和NAT 模式，規(guī)則數(shù)設(shè)定為1 條，200條，400 條。由于不同規(guī)則會影響防火墻處理數(shù)據(jù)包的時間，為了保證實驗結(jié)果的準(zhǔn)確性，本文使用相同的字符串匹配規(guī)則，以較為簡單的IP 地址匹配規(guī)則為研究對象，得到不同條件下的防火墻吞吐率如表2 所示。

表2：不同條件下防火墻吞吐率

由表2 可知，在路由模式下，以規(guī)則數(shù)為400 為例，在數(shù)據(jù)包大小為64B 時的吞吐率為23.8%，在數(shù)據(jù)包大小為1518B 時，吞吐率達(dá)到了90.2%，證明數(shù)據(jù)包大小逐漸遞增的同時，吞吐率也大幅提高。NAT 模式的吞吐率在不同的規(guī)則數(shù)條件下均比路由模式的吞吐率低，證明NAT 模式每秒鐘處理數(shù)據(jù)包的數(shù)量比路由模式的數(shù)據(jù)包處理數(shù)量少。在規(guī)則數(shù)不同的條件下，以數(shù)據(jù)包大小為1518B 為例，規(guī)則數(shù)為1 條時的吞吐率為98.3%，規(guī)則數(shù)為400 條時的吞吐率為90.2%，說明隨著規(guī)則條數(shù)不斷增加，其防火墻的處理性能出現(xiàn)了一定程度的下降。對比本文方法與傳統(tǒng)方法1 和傳統(tǒng)方法2 設(shè)置的防火墻的入侵?jǐn)r截率，評價不同方法的入侵?jǐn)r截效果，具體如圖2 所示。

圖2：攔截效果對比

由圖2 可知，在統(tǒng)計特征量為100 時，本文方法的病毒入侵?jǐn)r截率能夠達(dá)到99.5%，傳統(tǒng)方法1 的攔截率為86.3%，傳統(tǒng)方法2 的攔截率為80.7%，與兩種傳統(tǒng)方法相比，本文方法的攔截率分別高了13.2%和18.8%，證明本文方法的病毒入侵?jǐn)r截率更高，攔截效果更好。

2.4 信息加密效果分析

本文對信息的加密解密功能進(jìn)行驗證，以圖像數(shù)據(jù)和文字?jǐn)?shù)據(jù)為研究對象，將原圖進(jìn)行灰度圖像的轉(zhuǎn)化處理，本文使用的加密算法經(jīng)過三層加密，并將迭代次數(shù)作為圖像信息加密的重要部分，若沒有正確的密鑰值，則無法生成相應(yīng)的矩陣，其輸入的不同密鑰值也會呈現(xiàn)出不同解密圖像，而無法獲取正確解密后的原始圖像信息。具體圖像信息的加密解密情況如圖3 所示。

圖3：圖像信息加密解密情況

由圖3 可知，圖（b）為原始圖像經(jīng)過本文方法進(jìn)行加密后得到的加密結(jié)果，加密后的圖像實現(xiàn)了全面的信息覆蓋，圖（c）為兩次錯誤密鑰值生成的解密圖像，圖像解密未能成功，證明本文方法的圖像信息加密效果良好。對原始圖像進(jìn)行解密操作，并將解密后的圖像與原始圖像進(jìn)行對比，由圖（d）可知，正確解密后的圖像沒有改變圖像信息結(jié)構(gòu)，圖像信息得到了較好的恢復(fù)，非線性排列以及符號矩陣轉(zhuǎn)換正確，證明本文方法具有較好的圖像信息的解密效果。為進(jìn)一步驗證本文方法的加密解密效率，本文方法與傳統(tǒng)方法進(jìn)行對比，在文字信息的文字?jǐn)?shù)量不同的條件下，驗證不同方法的加密解密時間結(jié)果，具體如表3 所示。

表3：不同方法的加密解密時間對比

由表3 可知，文字信息的加密時間比加密時間更長，這是由于加密過程需要將加密信息與原始信息進(jìn)行匹配，本文方法與傳統(tǒng)方法相比，本文方法的加密解密時間更短，速度更快，證明本文方法的加密解密效率更高。

綜上所述，本文方法能夠有效監(jiān)測網(wǎng)絡(luò)入侵，且入侵?jǐn)r截效果顯著，對信息的加密處理具有隱蔽性好，效率高的特點(diǎn)，證明本文計算機(jī)信息安全處理方法具有可行性。

3 結(jié)束語

本文通過大數(shù)據(jù)信息采集、信息特征提取與數(shù)據(jù)存儲、網(wǎng)絡(luò)攻擊入侵檢測、計算機(jī)信息安全加密、設(shè)置網(wǎng)絡(luò)防火墻等手段，完成了基于大數(shù)據(jù)的計算機(jī)信息安全處理技術(shù)的研究，取得了一定的研究成果。同時，由于時間和條件的限制，本文研究還有諸多問題亟待解決，需要在日后的研究中不斷改進(jìn)和完善，如本文研究未對計算機(jī)系統(tǒng)出現(xiàn)信息泄漏的原因進(jìn)行分析，對數(shù)據(jù)傳輸通信的研究內(nèi)容涉及較少，未來還將在今后的研究中不斷增強(qiáng)本文方法的應(yīng)用性，有效減少信息泄漏和丟失情況，保證計算機(jī)信息的安全。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡