趙廣曄
摘 要:在侵犯知識(shí)產(chǎn)權(quán)、網(wǎng)絡(luò)入侵等案件的計(jì)算機(jī)司法檢驗(yàn)過(guò)程中,經(jīng)常需要檢驗(yàn)存儲(chǔ)介質(zhì)中是否存在被泄露文檔、植入的木馬等。而在實(shí)際鑒定過(guò)程中,往往只能找到一些文件碎片,那么如何檢驗(yàn)原始文件與文件碎片之間的一致性關(guān)系就成了一個(gè)值得深入探討的問(wèn)題。文章提出了一種基于散列值的文件碎片與原始文件一致性檢驗(yàn)的方法。
關(guān)鍵詞:電子文件;文件碎片;同一性檢驗(yàn);散列值
引言
在進(jìn)行計(jì)算機(jī)司法鑒定的過(guò)程中,經(jīng)常需要進(jìn)行文件的一致性檢驗(yàn)。根據(jù)GA/T 827-2009《電子物證文件一致性檢驗(yàn)技術(shù)規(guī)范》,比較兩個(gè)文件的散列值,若兩個(gè)散列值相同,則可以判斷兩個(gè)文件的數(shù)據(jù)相同;若兩個(gè)散列值不同,則可以判斷兩個(gè)文件的數(shù)據(jù)不同[1]。但在實(shí)際檢驗(yàn)的過(guò)程中,嫌疑人往往會(huì)對(duì)證據(jù)文件及其存儲(chǔ)介質(zhì)進(jìn)行刪除或格式化等操作,通常只能夠找到一些文件碎片。因此,如何對(duì)文件碎片與原始文件的一致性關(guān)系進(jìn)行鑒定就成為了相關(guān)案件鑒定過(guò)程中的一個(gè)難點(diǎn)。
1 文件碎片的產(chǎn)生原因及其與原始文件的關(guān)系
圖1 產(chǎn)生文件碎片的幾種情況
文件碎片是指由于文件在磁盤(pán)中不連續(xù)存儲(chǔ)而產(chǎn)生的文件分塊。圖1為產(chǎn)生文件碎片的幾種情況:(1)原始文件大小為4個(gè)簇,磁盤(pán)中的0、3、4三個(gè)簇已經(jīng)被其他文件占用,因此文件被分別存儲(chǔ)在1-2和3-4兩部分簇中,形成了兩塊文件碎片;(2)文件的原始原本存放在磁盤(pán)的0-3簇,另一個(gè)文件存儲(chǔ)在簇4中,現(xiàn)在對(duì)文件進(jìn)行編輯使其長(zhǎng)度增加到5個(gè)簇,在保存時(shí)新增加的內(nèi)容將保存在簇5中,產(chǎn)生了新的文件碎片;(3)文件原來(lái)存放在磁盤(pán)的0-3簇,被刪除后,簇0位置又存儲(chǔ)了另一個(gè)文件,這樣1-3三個(gè)簇就形成了文件碎片。由此可見(jiàn),文件碎片實(shí)際上就是原始文件中的一部分。但是實(shí)際辦案中,由于蓄意破壞往往無(wú)法找到原始文件的全部碎片。鑒定檢材中是否曾經(jīng)存在原始文件就成了一個(gè)難題。
2 檢驗(yàn)方法設(shè)計(jì)
由上述內(nèi)容可知,只需要驗(yàn)證檢材中的文件碎片與原始文件中的部分內(nèi)容完全一致,即可認(rèn)定該碎片屬于原始文件。為此,文章提出了一種基于散列值的文件碎片與原始文件一致性檢驗(yàn)的方法。該方法的具體操作步驟如下:(1)將原始文件等分為大小為N字節(jié)的塊,分別計(jì)算散列值并生成散列表。該散列表結(jié)構(gòu)包含兩部分:塊索引樹(shù),以分塊起始字節(jié)為結(jié)點(diǎn)關(guān)鍵字的二叉樹(shù),見(jiàn)圖2左側(cè)部分;散列值索引表,記錄原始文件中以指定字節(jié)為起始的塊的散列值及其在原始文件內(nèi)的偏移地址,見(jiàn)圖2右側(cè)部分,該列表存放在對(duì)應(yīng)的結(jié)點(diǎn)中。(2)對(duì)目標(biāo)文件碎片進(jìn)行遍歷,如果字節(jié)值與塊搜索樹(shù)節(jié)點(diǎn)匹配,則計(jì)算N個(gè)字節(jié)的散列值,并在散列索引表中搜索,記錄匹配項(xiàng)。(3)按原始文件內(nèi)偏移地址整理遍歷結(jié)果,生成一致性檢驗(yàn)報(bào)告。
3 檢驗(yàn)方法的實(shí)現(xiàn)及驗(yàn)證
(1)原始文件散列表的數(shù)據(jù)結(jié)構(gòu)。設(shè)原始文件的大小為T字節(jié),拆分塊大小為N字節(jié),拆分塊的總數(shù)量為S。若文件分塊的起始字節(jié)共有X種值,也就是在構(gòu)建塊索引樹(shù)時(shí)需要進(jìn)行X次結(jié)點(diǎn)的插入操作,那么需要進(jìn)行查找操作的次數(shù)Y=S-X。塊索引樹(shù)的結(jié)構(gòu)定義如下:
typedef struct BlockIndexTreeNode
{
byte startByte;
HashTable hashTable;
struct BlockIndexTreeNode *leftChild, *rightChild;
}BlockIndexTreeNode, *BlockIndexTree;
在構(gòu)建各個(gè)結(jié)點(diǎn)的散列值索引表時(shí)共需要進(jìn)行S次插入操作,而且為了便于比對(duì)需要將索引表項(xiàng)按照散列值進(jìn)行排序。散列值索引表結(jié)構(gòu)定義如下:
typedef struct HashListNode
{
byte[] hashValue;
long inFileOffset;
struct HashListNode *next;
}HashListNode;
(2)構(gòu)建散列表的文件分塊大小的界定。通過(guò)前面的分析可知,拆分塊總數(shù)量S=T/N或[T/N]+1,構(gòu)建塊索引樹(shù)時(shí)需要進(jìn)行Y=S-X次查詢。即Y=T/N-X或T/N-X+1。由于X值很小。T為固定值,因此由N決定索引表構(gòu)建速度,N值越大,散列表的構(gòu)建和搜索比對(duì)速度就越快。但是,如果N值過(guò)大,就會(huì)導(dǎo)致比對(duì)結(jié)果不準(zhǔn)確。文件系統(tǒng)對(duì)磁盤(pán)的管理單位為簇,因此N的值不應(yīng)該大于簇的大小。同時(shí),為更精確的檢驗(yàn)碎片文件與原始文件一致性,碎片文件應(yīng)該可以劃分成多個(gè)大小為N字節(jié)的塊。另外,因?yàn)槌S玫纳⒘兄荡笥诘扔?6字節(jié),若N值小于16字節(jié)則會(huì)降低檢驗(yàn)效率。綜上所述,文件分塊大小N的計(jì)算方法如下:
N=MIN(簇大小,T/原始文件拆分度,MAX(16,碎片大小/碎片分析粒度))。
其中原始文件拆分度可以調(diào)節(jié)檢驗(yàn)結(jié)果中的量化值精度,值越大精度越高;碎片分析粒度可以調(diào)節(jié)文件碎片被損壞對(duì)檢驗(yàn)的影響,值越大影響越小。
(3)文件碎片的搜索比對(duì)方法。在比對(duì)的過(guò)程中對(duì)要檢驗(yàn)的文件碎片進(jìn)行按字節(jié)遍歷,如果當(dāng)前字節(jié)存在于塊索引樹(shù)中,則從計(jì)算N個(gè)連續(xù)字節(jié)的散列值,并在散列值索引表中查找,并記錄匹配項(xiàng)。最后用匯總記錄的結(jié)果生成一致性檢驗(yàn)報(bào)告。
(4)檢驗(yàn)方法的驗(yàn)證。首先,準(zhǔn)備一些原始文件并制作文件碎片存放在測(cè)試檢材中。其次,模擬文件碎片被破壞的情況。之后,從檢材中提取可能的文件碎片。最后,使用文章提出的檢驗(yàn)方法來(lái)檢驗(yàn)提取出的文件碎片與原始文件的一致性。通過(guò)測(cè)試發(fā)現(xiàn):以扇區(qū)為單位的方式進(jìn)行遍歷可以大幅提高效率,但是部分情況無(wú)法匹配命中;逐字節(jié)進(jìn)行遍歷執(zhí)行速度很慢,但是得到的檢驗(yàn)結(jié)果精度很高。因此,提取出的文件碎片比較大的情況下,應(yīng)當(dāng)優(yōu)先考慮以扇區(qū)為單位構(gòu)建散列表和遍歷文件碎片,否則應(yīng)當(dāng)考慮縮小N值并進(jìn)行逐字節(jié)進(jìn)行遍歷。
4 結(jié)束語(yǔ)
文章基于散列值的文件碎片與原始文件一致性檢驗(yàn)方法可以檢驗(yàn)出文件碎片是否與原始文件部分匹配,并可以量化的給出一致性檢驗(yàn)結(jié)果。由此可見(jiàn),該方法解決了在檢驗(yàn)過(guò)程中遇到檢材被破壞的情況下檢驗(yàn)檢材中的文件碎片與原始文件一致性的問(wèn)題。