李 晶,張 濱
(1. 浙江財(cái)經(jīng)大學(xué)經(jīng)濟(jì)與管理實(shí)驗(yàn)中心,浙江 杭州 310018;2. 浙江財(cái)經(jīng)大學(xué)藝術(shù)學(xué)院,浙江 杭州 310018)
計(jì)算機(jī)取證包含物理證據(jù)獲取及信息發(fā)現(xiàn)兩個(gè)步驟。物理證據(jù)獲取表示調(diào)查人員抵達(dá)計(jì)算機(jī)犯罪現(xiàn)場(chǎng),探尋并核查有關(guān)計(jì)算機(jī)硬件[1,2],物理證據(jù)是所有取證工作的前提,在得到物理證據(jù)時(shí),最關(guān)鍵的就是確保獲取的初始證據(jù)不遭受損壞。信息發(fā)現(xiàn)表示從初始數(shù)據(jù)內(nèi)探尋能夠用于證明或反駁的證據(jù)。為了維護(hù)初始數(shù)據(jù)安全,全部的信息發(fā)現(xiàn)工作均是在初始證據(jù)的物理拷貝下實(shí)現(xiàn)的,物理復(fù)制工作可采用Unix系統(tǒng)的dd命令。
計(jì)算機(jī)取證不僅是計(jì)算機(jī)及網(wǎng)絡(luò)技術(shù)問(wèn)題,還牽涉法律與道德觀念,并需要計(jì)算機(jī)專家、執(zhí)法人員等多方人員的共同合作。此外相關(guān)研究人員針對(duì)不同領(lǐng)域問(wèn)題得出如下解決方法。
文獻(xiàn)[3]提出一種基于局部二值模式和馬爾科夫特征的數(shù)字圖像篡改取證方法。運(yùn)用LBP(Local Binary Pattern,LBP)算子把圖像從空域轉(zhuǎn)換到LBP域,進(jìn)行JPEG壓縮后提取二維JPEG矩陣,計(jì)算矩陣在各方向上的一階差分矩陣,對(duì)每個(gè)方向上差分矩陣分別提取馬爾科夫特征,運(yùn)用支持向量機(jī)實(shí)完成分類訓(xùn)練,對(duì)細(xì)縫裁剪篡改進(jìn)行檢測(cè)。文獻(xiàn)[4]提出一種基于隱藏事件觸發(fā)機(jī)制的內(nèi)存取證方法。運(yùn)用虛擬化技術(shù)實(shí)時(shí)監(jiān)視目標(biāo)虛擬機(jī)中的內(nèi)核對(duì)象,分析內(nèi)核對(duì)象邏輯連接關(guān)系與運(yùn)行狀態(tài)變化,以此檢測(cè)隱藏對(duì)象;將發(fā)現(xiàn)隱藏對(duì)象作為內(nèi)存取證觸發(fā)事件,利用內(nèi)存映射提取隱藏對(duì)象代碼段信息,達(dá)到實(shí)時(shí)和局部?jī)?nèi)存取證目標(biāo),但是取證工作的實(shí)際應(yīng)用限制較大。文獻(xiàn)[5]采用求解線性方程稀疏解的方式,在稀疏解的求解過(guò)程中對(duì)大數(shù)據(jù)進(jìn)行特征分類,優(yōu)化目標(biāo)函數(shù)的求解,結(jié)合數(shù)據(jù)在類中的分布情況進(jìn)行有效加權(quán)來(lái)實(shí)現(xiàn)大數(shù)據(jù)挖掘,提高大數(shù)據(jù)挖掘的效率及準(zhǔn)確度,但是該方法沒(méi)有考慮網(wǎng)絡(luò)數(shù)據(jù)冗余性對(duì)結(jié)果的影響。
因此,本文提出一種基于并行挖掘大數(shù)據(jù)的無(wú)損云取證模型,采用動(dòng)態(tài)調(diào)度并行挖掘方法,保證挖掘結(jié)果正確性的同時(shí),增強(qiáng)取證挖掘速率,使用分塊無(wú)損壓縮手段,結(jié)合虛擬化技術(shù)與協(xié)作技術(shù),創(chuàng)建無(wú)損云取證模型,綜合維護(hù)證據(jù)安全性。
全局通信模式——Master-Worker模式,如圖1所示。此模式可應(yīng)用在擁有完全并行性算法內(nèi)。初始數(shù)據(jù)集可劃分成毫無(wú)關(guān)聯(lián)的子集,每個(gè)子任務(wù)計(jì)算不同數(shù)據(jù)子集,每個(gè)Worker節(jié)點(diǎn)間的關(guān)聯(lián)較小,因此利用Master節(jié)點(diǎn)完成通信目的,如圖1所示。
圖1 全局通信模式示意圖
數(shù)據(jù)挖掘的核心問(wèn)題就是關(guān)聯(lián)規(guī)則挖掘,關(guān)聯(lián)規(guī)則挖掘的重心是得到頻繁項(xiàng)目集,以關(guān)聯(lián)規(guī)則挖掘?yàn)槔骄縿?dòng)態(tài)調(diào)度下并行挖掘大數(shù)據(jù)算法的詳細(xì)操作過(guò)程。
使用數(shù)學(xué)矩陣工具,運(yùn)用具備較強(qiáng)優(yōu)越性的計(jì)算機(jī)處理矢量矩陣把事物數(shù)據(jù)庫(kù)變換為矢量矩陣[6]。比如,把某個(gè)事物數(shù)據(jù)庫(kù)變換為上三角矩陣,繼而展現(xiàn)單屬性下的關(guān)聯(lián)規(guī)則,其可以表示成
(1)
假設(shè)e為待挖掘目標(biāo)屬性,在矩陣A內(nèi)能夠算出該屬性的支持度與置信度
sup(f?e)=0.6,conf(f?e)=0.75
sup(g?e)=0.6,conf(g?e)=0.75
sup(h?e)=0.6,conf(h?e)=0.6
sup(d?e)=0.6,conf(d?e)=1.0
(2)
若設(shè)置minsup=0.5,minconf=0.7,就能獲得以下關(guān)聯(lián)規(guī)則:f?e,g?e,d?e。
將規(guī)模M×N的數(shù)據(jù)庫(kù)均勻輸送至p個(gè)節(jié)點(diǎn)內(nèi),把M各元組分割為M1,M2,…,Mp。則第i個(gè)節(jié)點(diǎn)內(nèi)的數(shù)據(jù)庫(kù)是:
(3)
式中,
(4)
把新生成的數(shù)據(jù)庫(kù)Di依次輸送至第i個(gè)節(jié)點(diǎn)內(nèi),明確待挖掘目標(biāo),給予參變量minsup、minconf。
關(guān)于第i個(gè)節(jié)點(diǎn),把Di當(dāng)作矩陣,了解待挖掘?qū)ο?,同時(shí)進(jìn)行相關(guān)運(yùn)算
(5)
(6)
(7)
(8)
(9)
將Pj值重新排序,讓屬性序列更加稠密,則關(guān)聯(lián)規(guī)則更易被挖掘。
(10)
如果滿足式(10)條件,計(jì)算Aj?Ak的支持度sjk。Aj、Ak依次表示數(shù)據(jù)庫(kù)內(nèi)第j與第k個(gè)屬性。且滿足:
(11)
算出Aj?Ak的信任度cjk的值:
(12)
產(chǎn)生一個(gè)大項(xiàng)集合后,使用全局通信模式,將節(jié)點(diǎn)Master當(dāng)作主節(jié)點(diǎn)[8]。剩余Worker節(jié)點(diǎn)把自身生成的大項(xiàng)集合結(jié)果sjk和cjk輸送至主節(jié)點(diǎn)cjk,讓主節(jié)點(diǎn)承擔(dān)全局關(guān)聯(lián)規(guī)則任務(wù)。
經(jīng)過(guò)以上步驟得到數(shù)量較多的繁瑣規(guī)則,需要注意的是,在輸出最后規(guī)則集過(guò)程中,要實(shí)施嚴(yán)格挑選,得到輸出規(guī)則R,從而完成并行挖掘大數(shù)據(jù)的全部過(guò)程,實(shí)現(xiàn)高效率數(shù)據(jù)挖掘。
云取證面臨的關(guān)鍵問(wèn)題即為取證完整性,對(duì)取證數(shù)據(jù)進(jìn)行分塊無(wú)損壓縮可充分解決這一問(wèn)題。初始信號(hào)的特征會(huì)直接影響壓縮效率,網(wǎng)絡(luò)信號(hào)通常由一系列周期信號(hào)和噪聲信號(hào)重疊構(gòu)成。數(shù)據(jù)分塊無(wú)損壓縮框架如圖2所示。
圖2 數(shù)據(jù)分塊無(wú)損壓縮框架圖
網(wǎng)絡(luò)振動(dòng)信號(hào)通過(guò)離散余弦轉(zhuǎn)換后,在頻譜內(nèi)展現(xiàn)較優(yōu)的能量匯集特征[9]。子帶量化預(yù)測(cè)算法能有效利用該特征,即運(yùn)用較少的量化位數(shù)評(píng)估初始信號(hào)的多數(shù)信息。由于信號(hào)采集數(shù)量較多,在網(wǎng)絡(luò)節(jié)點(diǎn)這樣內(nèi)存資源受限的平臺(tái)內(nèi)不能一次性處理全部數(shù)據(jù),所以需要對(duì)數(shù)據(jù)實(shí)施分塊處理,減小內(nèi)存占用比例。
節(jié)點(diǎn)把初始數(shù)據(jù)分塊成固定長(zhǎng)度,將塊編碼當(dāng)作文件名存儲(chǔ)在SD卡內(nèi),每次處理SD卡都能得到對(duì)應(yīng)數(shù)據(jù),提高數(shù)據(jù)壓縮性能。
DCT轉(zhuǎn)換考慮到節(jié)點(diǎn)硬件平臺(tái)支持,使用DCT類型IV轉(zhuǎn)換模式,記作
(13)
式中,k=1,2,…,N,mn代表初始數(shù)據(jù),N是分塊大小,相對(duì)的反向DCT轉(zhuǎn)換是
(14)
式中,n=1,2,…,N。DCT類型IV轉(zhuǎn)換和反向轉(zhuǎn)換的對(duì)稱性,表明兩個(gè)轉(zhuǎn)換可以使用相同計(jì)算函數(shù)完成,減少了轉(zhuǎn)換矩陣在節(jié)點(diǎn)內(nèi)占用的存儲(chǔ)空間。
差值計(jì)算關(guān)鍵是由量化DCT系數(shù)還原與反向DCT轉(zhuǎn)換構(gòu)成的。在進(jìn)行量化DCT系數(shù)還原時(shí),首先采用邊帶數(shù)據(jù)內(nèi)的第j列數(shù)據(jù)最大絕對(duì)值,根據(jù)式(14)獲得此列數(shù)據(jù)需要的最大分配位數(shù)bj,然后按照邊帶數(shù)據(jù)內(nèi)的分配位數(shù)nj還原量化系數(shù)qi,j,將此過(guò)程描述為式(15)。由此實(shí)現(xiàn)犯罪取證數(shù)據(jù)無(wú)損壓縮,保障數(shù)據(jù)高度完整性。
(15)
使用并行挖掘大數(shù)據(jù)與無(wú)損壓縮方法,可有效改善無(wú)損云取證模型可靠性。本文采用云計(jì)算技術(shù)的虛擬化及協(xié)作技術(shù)建立無(wú)損云取證模型。把基礎(chǔ)設(shè)施層的各部分利用虛擬化技術(shù),在服務(wù)器集群內(nèi)產(chǎn)生數(shù)量眾多的虛擬機(jī),減少服務(wù)器的購(gòu)置金額與運(yùn)營(yíng)成本。在進(jìn)行數(shù)據(jù)采集與日志分析時(shí),讓每個(gè)主機(jī)和服務(wù)器集群共同協(xié)作,用最低的代價(jià)與高速率實(shí)現(xiàn)取證工作[10,11]。模型框架如圖3所示。
圖3 無(wú)損云取證模型架構(gòu)圖
云取證模型每層功能定義如下:
物理資源層:關(guān)鍵是將云計(jì)算物理資源的全球框架整合到一個(gè)層中?;A(chǔ)設(shè)施層包括虛擬化云中的主機(jī)、分布式存儲(chǔ)、關(guān)聯(lián)數(shù)據(jù)庫(kù)和許多其它資源。中間層在提供基礎(chǔ)設(shè)施層資源的前提下,可以完成多租戶、并行處理、分布式緩存等業(yè)務(wù),同時(shí)使用顯示層為用戶提供所需的消息。
證據(jù)資源池:這一層是法醫(yī)證據(jù)的關(guān)鍵來(lái)源。利用云基礎(chǔ)設(shè)施層的數(shù)據(jù)采集代理獨(dú)立獲取所需的日志數(shù)據(jù),將獲取的日志數(shù)據(jù)詳細(xì)劃分為文件類型、帳戶類型、攻擊類型等,形成證據(jù)資源池。
虛擬層:將證據(jù)分析過(guò)程設(shè)置為虛擬層,規(guī)范日志格式,采用靜態(tài)取證和動(dòng)態(tài)取證完成電子證據(jù)的截取。
協(xié)同層:該層的關(guān)鍵是協(xié)同代理。其核心功能是讓服務(wù)器集群與各個(gè)代理協(xié)同運(yùn)行,完成通信和交互。
管理中間件:關(guān)鍵包括用戶管理、取證管理和安全管理。安全管理可以保證取證時(shí)系統(tǒng)的安全。
取證服務(wù)層:使用云端的數(shù)據(jù)采集代理采集問(wèn)題日志,日志格式標(biāo)準(zhǔn)化后保存到日志庫(kù)中。通過(guò)云計(jì)算中各主機(jī)和服務(wù)器集群的協(xié)作,進(jìn)行挖掘和證據(jù)分析[12]。最后,根據(jù)用戶的需求,反饋取證保留問(wèn)題,使取證速度和準(zhǔn)確性更加優(yōu)異。
為了證明所建模型實(shí)用性,對(duì)模型性能展開(kāi)深入探究。把實(shí)驗(yàn)使用的15臺(tái)主機(jī)與服務(wù)器、路由器及交換機(jī)構(gòu)成的系統(tǒng)為虛擬云,每個(gè)主機(jī)與分布器均為分布式架構(gòu),各個(gè)主機(jī)均能存留證據(jù)。實(shí)驗(yàn)過(guò)程中,設(shè)定大數(shù)據(jù)并行挖掘時(shí)間是50s,依次挑選不同時(shí)間段的完整數(shù)據(jù)。測(cè)試評(píng)估指標(biāo)含義如表1所示。
表1 測(cè)試指標(biāo)含義
使用JMeter依次模擬100~700個(gè)虛擬用戶進(jìn)行測(cè)驗(yàn),同時(shí)記錄測(cè)驗(yàn)參數(shù),測(cè)驗(yàn)結(jié)果如圖4所示。
圖4 負(fù)載測(cè)驗(yàn)結(jié)果
從圖4可知,本文模型可以高精度響應(yīng)用戶請(qǐng)求,取證效率較高,檢測(cè)時(shí)間最大為11ms,并一定程度上保證數(shù)據(jù)無(wú)損壓縮后的完整性,為網(wǎng)絡(luò)云取證工作帶來(lái)突破性進(jìn)展。
在主機(jī)A內(nèi)使用攻擊工具對(duì)虛擬云內(nèi)主機(jī)實(shí)施攻擊,發(fā)現(xiàn)9臺(tái)機(jī)器收到的UDP包數(shù)量明顯上升,UDP數(shù)據(jù)包信息如表2所示。
表2 UDP數(shù)據(jù)包信息(部分)
從表2中可知,全部信息均源自主機(jī)A內(nèi),因此可斷定A對(duì)其余主機(jī)具備攻擊動(dòng)作,斷開(kāi)每個(gè)主機(jī)與主機(jī)A的關(guān)聯(lián),對(duì)得到的數(shù)據(jù)完成備份,證據(jù)不但能儲(chǔ)存在服務(wù)器集群內(nèi),還能備份在主機(jī)內(nèi),增加證據(jù)安全性能。
通常狀態(tài)下,取證人員要摘要初始證據(jù)內(nèi)的數(shù)據(jù),再將初始證據(jù)與摘要信息妥善保管。和其余類型證據(jù)相同,電子證據(jù)一定要有足夠的存儲(chǔ)空間,因此以初始證據(jù)信息的可壓縮性作為驗(yàn)證指標(biāo),將本文方法與文獻(xiàn)[3]、文獻(xiàn)[4]和文獻(xiàn)[5]方法進(jìn)行對(duì)比,驗(yàn)證轉(zhuǎn)換矩陣在節(jié)點(diǎn)內(nèi)占用的存儲(chǔ)空間,得到對(duì)比結(jié)果如圖5所示。
圖5 初始證據(jù)信息的可壓縮性對(duì)比結(jié)果
由圖5可知,本文方法初始證據(jù)信息最終占據(jù)空間最小,在編號(hào)為三的轉(zhuǎn)換矩陣中為2b,低于其它文獻(xiàn)方法,說(shuō)明轉(zhuǎn)換矩陣在節(jié)點(diǎn)內(nèi)占用的存儲(chǔ)空間最小即初始證據(jù)信息的可壓縮性較強(qiáng)。
1)立足大數(shù)據(jù)挖掘與計(jì)算機(jī)取證,基于并行挖掘大數(shù)據(jù)構(gòu)建一種無(wú)損云取證模型。充分提升證據(jù)獲取速率的同時(shí),保障數(shù)據(jù)完整性,確定網(wǎng)絡(luò)犯罪的時(shí)間與傳播過(guò)程,構(gòu)成完整證據(jù)鏈。
2)云計(jì)算的出現(xiàn)讓大數(shù)據(jù)挖掘變得更加有效,其使用集群并行計(jì)算,在多臺(tái)機(jī)器內(nèi)同時(shí)進(jìn)行數(shù)據(jù)處理,檢測(cè)時(shí)間最大僅為11ms,且轉(zhuǎn)換矩陣在節(jié)點(diǎn)內(nèi)占用的存儲(chǔ)空間為2b,極大提高數(shù)據(jù)處理能力與效率。
3)但本文方法在數(shù)據(jù)無(wú)損方面的研究較為淺顯,不保證適用于全部網(wǎng)絡(luò)取證工作,下一步會(huì)深入研究無(wú)損取證全范圍適用性優(yōu)化問(wèn)題。