基于集合論的E-mail碎片雕刻模型及算法

2014-08-05 04:28:52李炳龍張傳富韓宗達(dá)王清賢

計(jì)算機(jī)工程 2014年5期

關(guān)鍵詞：文件類型存儲(chǔ)介質(zhì)郵件

李炳龍，張傳富，韓宗達(dá)，王清賢

(解放軍信息工程大學(xué)，a. 四院；b. 數(shù)學(xué)工程與先進(jìn)計(jì)算國(guó)家重點(diǎn)實(shí)驗(yàn)室；c. 三院，鄭州 45 0004)

基于集合論的E-mail碎片雕刻模型及算法

李炳龍a,b，張傳富c，韓宗達(dá)a,b，王清賢a,b

(解放軍信息工程大學(xué)，a. 四院；b. 數(shù)學(xué)工程與先進(jìn)計(jì)算國(guó)家重點(diǎn)實(shí)驗(yàn)室；c. 三院，鄭州 45 0004)

為獲取存儲(chǔ)介質(zhì)中的碎片E-mail證據(jù)，利用集合論原理對(duì)郵件碎片文件雕刻問題進(jìn)行分析，確定基于集合論劃分思想的碎片文件雕刻思路。設(shè)計(jì)包含預(yù)處理、E-mail文件碎片子集確定、E-mail碎片間的連接關(guān)系確定等過程的郵件碎片文件雕刻算法模型。利用十六進(jìn)制編輯器，闡述E-mail文件的內(nèi)部結(jié)構(gòu)特征，結(jié)合碎片郵件頭尾和內(nèi)嵌的html文件特征，論述存儲(chǔ)介質(zhì)上碎片的屬性，給出碎片間的集中特性、跟隨特性、線性特性以及信息特性的連接規(guī)則。實(shí)驗(yàn)結(jié)果表明，碎片郵件文件雕刻算法能更有效地獲取郵件證據(jù)。

E-mail文件雕刻；數(shù)字犯罪調(diào)查；碎片子集；特征標(biāo)識(shí)；復(fù)合文件類型；碎片連接規(guī)則

1 概述

E-mail(電子郵件)已經(jīng)成為數(shù)字犯罪取證調(diào)查領(lǐng)域中的重要數(shù)字證據(jù)之一[1]，美國(guó)等大部分國(guó)家已經(jīng)把E-mail作為有效的數(shù)字證據(jù)[2-3]。然而，隨著反取證技術(shù)的發(fā)展，E-mail證據(jù)容易遭受損壞，造成數(shù)字案件中數(shù)字證據(jù)獲取困難[4-5]。因此，研究電子郵件證據(jù)有效獲取技術(shù)尤為重要。

傳統(tǒng)的數(shù)字證據(jù)獲取方法是基于文件系統(tǒng)元數(shù)據(jù)信息進(jìn)行文件恢復(fù)，但是由于大部分現(xiàn)代文件系統(tǒng)對(duì)于已刪除文件元數(shù)據(jù)進(jìn)行清除，以及病毒、木馬等惡意軟件的破壞經(jīng)常造成文件系統(tǒng)損壞，使得該方法正變得越來越不切實(shí)際[6-7]。文件雕刻是解決在文件系統(tǒng)損壞情況下進(jìn)行數(shù)據(jù)恢復(fù)或數(shù)字證據(jù)還原的重要技術(shù)之一，典型的數(shù)字取證工具如EnCase中具有文件雕刻功能，能夠利用文件類型本身的特征信息恢復(fù)還原文件內(nèi)容，但是這些工具對(duì)于存儲(chǔ)介質(zhì)中文件構(gòu)成數(shù)據(jù)塊在連續(xù)存儲(chǔ)情況下可以進(jìn)行有效獲取。文獻(xiàn)[8]的DFRWS Challe nge中，利用形式化方法研究了E-mail碎片文件的雕刻算法，在存儲(chǔ)介質(zhì)中連續(xù)存放情況的雕刻算法。而當(dāng)文件構(gòu)成數(shù)據(jù)塊具有不連續(xù)的情況下，則往往會(huì)產(chǎn)生錯(cuò)誤的雕刻結(jié)果[9]。針對(duì)存儲(chǔ)介質(zhì)中文件碎片情況下的雕刻技術(shù)研究較少，而且這些碎片文件雕刻算法多是針對(duì)特定類型(如RAR類型)[10-11]，具有局限性。

為此，本文利用集合論劃分的思想，研究E-mail碎片文件雕刻理論與算法。對(duì)存儲(chǔ)介質(zhì)碎片文件雕刻問題進(jìn)行分析，利用集合論劃分思想，確定E-mail碎片文件雕刻思路，并以此為基礎(chǔ)，設(shè)計(jì)E-mail碎片文件雕刻模型。通過分析E-mail協(xié)議特征、文件類型特征及其內(nèi)部數(shù)據(jù)結(jié)構(gòu)，設(shè)計(jì)E-mail文件頭尾、內(nèi)嵌HTML文件特征，以及碎片連接規(guī)則相結(jié)合的碎片郵件雕刻算法，并同現(xiàn)有的E-mail文件雕刻算法作比較。

2 E-mail碎片文件雕刻模型

2.1 問題描述

在文件系統(tǒng)損壞后，可假設(shè)存儲(chǔ)介質(zhì)中數(shù)據(jù)區(qū)的簇(或者數(shù)據(jù)塊)稱為碎片，所以存儲(chǔ)介質(zhì)可抽象為一個(gè)碎片集合：其中，li表示存儲(chǔ)介質(zhì)上的任意一個(gè)碎片；n表示集合L的大小，并且n值取決于存儲(chǔ)介質(zhì)容量以及原始文件系統(tǒng)在格式化時(shí)指定的簇大小，如果存儲(chǔ)介質(zhì)容量一定的情況下，簇的大小越大，則碎片集合L中元素個(gè)數(shù)就越小[7]。集合L具有如下特性：

(1)對(duì)于1≤i, j≤n ，li, lj表示集合L中的碎片，如果i≠j，那么li∩lj=?，表示碎片集合L中2個(gè)不同碎片，在存儲(chǔ)空間上不存在交集，2個(gè)碎片上所存儲(chǔ)的文件內(nèi)容不存在交集。

(2)連接性：對(duì)于1≤i, j≤n ，li, lj從文件構(gòu)成角度分析，只有2種可能的連接方式，即lilj和ljli。

根據(jù)以上假設(shè)，文件可以看作為具有特定碎片構(gòu)成的碎片子集合，由于存儲(chǔ)介質(zhì)中有多個(gè)文件，因此從集合劃分思想，文件碎片子集和存儲(chǔ)介質(zhì)碎片集合L之間具有如下構(gòu)成關(guān)系：

其中，1≤k≤m ；fk表示文件碎片子集，其本質(zhì)是具有特定文件類型(如Office文件類型、Acrobat PDF文件類型等)的一個(gè)文件。所以碎片文件雕刻問題的第1步可以建立碎片集合L到文件碎片子集fk的映射，即L→fk，從而獲得文件碎片子集中的所有碎片。

第2步是根據(jù)文件碎片子集的文件類型特征、內(nèi)部結(jié)構(gòu)特征以及存儲(chǔ)特征，確定碎片子集中元素之間的連接關(guān)系，恢復(fù)還原碎片文件內(nèi)容。

2.2 郵件碎片雕刻模型

E-mail是一個(gè)可內(nèi)嵌多種文件類型構(gòu)成的復(fù)合文件類型[12-13]。根據(jù)以上對(duì)碎片文件雕刻問題的描述，E-mail碎片文件雕刻可以分為2個(gè)子問題：(1)郵件文件碎片子集確定；(2)文件碎片子集中元素之間的連接。即首先從存儲(chǔ)介質(zhì)碎片集合中識(shí)別出E-mail文件碎片子集；然后利用碎片信息、E-mail文件類型信息以及存儲(chǔ)特性，確定碎片之間的連接關(guān)系。為此，根據(jù)E-mail文件類型特征、內(nèi)部結(jié)構(gòu)特征及存儲(chǔ)介質(zhì)的存儲(chǔ)特性，設(shè)計(jì)如圖1所示的碎片郵件雕刻算法模型。

圖1 碎片郵件雕刻算法模型

碎片郵件雕刻過程可分為3個(gè)階段：預(yù)處理，郵件文件碎片子集確定，碎片子集元素間的連接確定。

(1)預(yù)處理：即先對(duì)可疑存儲(chǔ)介質(zhì)映像進(jìn)行掃描分析，其關(guān)鍵是過濾掉不含有任何數(shù)據(jù)的碎片，方法是利用0/1二進(jìn)制數(shù)據(jù)統(tǒng)計(jì)特征[7]，最終獲取文件碎片集合。該階段主要是掃描分析、提取E-mail文件類型信息，包括郵件文件頭碎片在映像中的邏輯位置以及碎片中有關(guān)郵件的元數(shù)據(jù)等信息。

(2)郵件文件碎片子集確定：即首先利用郵件文件頭識(shí)別算法，確定郵件在存儲(chǔ)介質(zhì)中的邏輯起始位置；然后利用郵件碎片分類算法和內(nèi)嵌文件類型識(shí)別算法，確定屬于該文件的其他碎片元素；最后，利用郵件文件尾部識(shí)別算法，確定該郵件在存儲(chǔ)介質(zhì)中的邏輯結(jié)束位置，并最終獲取郵件碎片子集。

(3)碎片子集中元素間的連接確定：即利用碎片信息特征、E-mail文件類型特征以及碎片存儲(chǔ)特性等，確定碎片子集中碎片之間的連接關(guān)系，進(jìn)而重構(gòu)碎片郵件內(nèi)容信息。

3 算法實(shí)現(xiàn)

3.1 郵件文件頭、尾識(shí)別算法

圖2 郵件文件頭二進(jìn)制特征

圖3 郵件文件尾二進(jìn)制特征

郵件在存儲(chǔ)介質(zhì)中二進(jìn)制的文件頭碎片特征為D0 CF 11 E0 A1 B1 1A E1；文件尾部特征為63 00 6F 00 6E 00 74 00 65 00 6E 00 74 00 2D 00 74 00 79 00 70 00 65。利用這2個(gè)二進(jìn)制特征，可以設(shè)計(jì)相應(yīng)的存儲(chǔ)介質(zhì)映像掃描算法，確定郵件文件頭和尾碎片包含的郵件元數(shù)據(jù)信息，比如郵件文件的長(zhǎng)度、字符集、編碼方法等信息，從而為后續(xù)郵件內(nèi)容重構(gòu)奠定基礎(chǔ)。

3.2 基于郵件結(jié)構(gòu)特征的碎片分類算法

郵件基于RFC822和MIME協(xié)議進(jìn)行構(gòu)建[14]，它包括2個(gè)主要的組成部分：郵件頭和郵件體，所以從數(shù)據(jù)在存儲(chǔ)介質(zhì)的存儲(chǔ)層次分析，郵件文件具有RFC822和MIME協(xié)議的分類和雕刻特征。

3.2.1 郵件頭結(jié)構(gòu)分類特征

通過分析RFC822規(guī)范，每一個(gè)郵件頭以“字段名：字段值”的格式出現(xiàn)，即每一行郵件頭的內(nèi)容依次由字段名、冒號(hào)、空格、字段值、回車換行符組成，所以郵件頭結(jié)構(gòu)分類特征如表1所示。

表1 郵件頭結(jié)構(gòu)特征

利用郵件頭結(jié)構(gòu)的單個(gè)或者組合特征，有助于識(shí)別郵件碎片，以及確定郵件的元數(shù)據(jù)信息，比如對(duì)于Subject: =? gb2312?B?TUlNRdCt0unLtcP308q8/g==?=?？梢酝茢喑觯篻b2312部分說明郵件主題的原始內(nèi)容為gb2312編碼的字符文本，B部分說明對(duì)郵件主題的原始內(nèi)容按照BASE64方式進(jìn)行了編碼，TUlNRdCt0unLtcP308q8/g==為對(duì)郵件主題的原始內(nèi)容進(jìn)行了BASE64編碼后的結(jié)果。

在壓縮機(jī)啟動(dòng)的過程中，出口閥門關(guān)閉，氣體在出口截?cái)嚅y和入口截?cái)嚅y之間循環(huán)。直至喘振控制調(diào)節(jié)閥完全關(guān)閉，壓縮機(jī)達(dá)到額定轉(zhuǎn)速，出口閥門開啟，上游系統(tǒng)開始持續(xù)進(jìn)氣，壓縮機(jī)進(jìn)入正常操作狀態(tài)。在壓縮機(jī)啟動(dòng)過程中，由于整個(gè)系統(tǒng)處于密閉循環(huán)狀態(tài)，所有功率消耗大部分用于加熱系統(tǒng)內(nèi)的氣體，出口氣體過熱引起壓縮機(jī)的喘振是在啟動(dòng)過程中存在的關(guān)鍵問題。

此外，郵件頭可能還包含其他格式結(jié)構(gòu)特征，但是由于是可選的，因此在郵件碎片分類中只能作為輔助。

3.2.2 郵件體結(jié)構(gòu)特征

根據(jù)MIME協(xié)議規(guī)范，郵件體同樣由多個(gè)屬性/值構(gòu)成，其結(jié)構(gòu)特征如表2所示。

表2 郵件體結(jié)構(gòu)特征

郵件體結(jié)構(gòu)特征一方面可以幫助識(shí)別、確定郵件碎片類型，另一方面該特征也提供了確定碎片之間連接關(guān)系的方法，如Content-Type:multipart/mixed; boundary="----= _NextPart_000_0050_01C"是某一個(gè)具體的Content-Type特征，其中，multipart/mixed部分說明郵件體中包含多段數(shù)據(jù)，每段數(shù)據(jù)之間使用boundary屬性中指定的字符文本作為分隔標(biāo)識(shí)符，邊界是一個(gè)隨機(jī)字符串，該字符串用來表示該部分在消息中的開始、分割以及結(jié)束標(biāo)志。所以邊界有助于確定碎片之間的連接關(guān)系。

基于郵件結(jié)構(gòu)特征的碎片分類算法主要利用這些結(jié)構(gòu)特征的單個(gè)或者復(fù)合特征進(jìn)行類型判斷，用以確定郵件文件碎片子集。

3.3 HTM L雕刻算法的嵌入

3.3.1 HTML碎片特征提取

HTML文件是郵件最常見的嵌入類型之一，本文主要分析嵌入類型為HTML時(shí)的雕刻算法。通過WinHex分析，HTML文件類型的頭尾碎片特征如圖4和圖5所示。

圖4 H TML文件頭部標(biāo)識(shí)

圖5 H TML文件尾部標(biāo)識(shí)

根據(jù)圖4和圖5給出的HTML文件起始碎片特征，可以確定HTML文件類型的起始碎片。

3.3.2 HTML碎片雕刻算法

嵌入在郵件中的文件類型理論上可以有多種，比如Office辦公文檔、Acrobat PDF以及圖片等類型，根據(jù)HTML語法，HTML文件構(gòu)成具有如下特征：對(duì)稱性，嵌入性，靈活性。

為此，設(shè)計(jì)一個(gè)基于堆棧結(jié)構(gòu)的HTML文件雕刻算法，堆棧用于存儲(chǔ)可能有語法錯(cuò)誤的標(biāo)簽，算法關(guān)鍵思想如下：

(1)識(shí)別HTML文件頭碎片結(jié)構(gòu)標(biāo)識(shí)后，即建立一個(gè)屬于本次雕刻的堆棧數(shù)據(jù)結(jié)構(gòu)。

(2)掃描HTML碎片數(shù)據(jù)并分析，如果是＜a-z＞標(biāo)識(shí)，則可能是一個(gè)標(biāo)簽，此時(shí)將相關(guān)標(biāo)簽入棧。

(3)繼續(xù)進(jìn)行掃描分析，如果出現(xiàn)＜a-z＞這樣的標(biāo)識(shí)，表示可能是某個(gè)標(biāo)簽的結(jié)束，此時(shí)則彈出棧頂數(shù)據(jù)，與新出現(xiàn)的標(biāo)簽進(jìn)行比較，如果2個(gè)標(biāo)簽相對(duì)應(yīng)，則表示結(jié)構(gòu)正確，返回到步驟(2)繼續(xù)進(jìn)行；否則，執(zhí)行步驟(4)。

(4)如果期望的標(biāo)簽在規(guī)定最大限度內(nèi)仍沒有出現(xiàn)，則雕刻算法將放棄，并且雕刻算法增加相應(yīng)的錯(cuò)誤計(jì)數(shù)，然后釋放它，比如這樣的序列：＜a…b＞。

堆棧結(jié)構(gòu)的目的是判斷HTML掃描數(shù)據(jù)語法是否合理，假設(shè)所掃描數(shù)據(jù)語法正常，則最終堆棧結(jié)構(gòu)將是空的，否則其中所包含的信息，則是錯(cuò)誤信息。

該算法和現(xiàn)有的HTML解析器相比，更能夠容忍解析過程中語法的錯(cuò)誤特征，而更集中于HTML文件的有效性檢測(cè)，從而能夠提高HTML文件雕刻算法的精度，有助于數(shù)字取證調(diào)查獲取更多有效的數(shù)字證據(jù)。

3.4 碎片連接特性規(guī)則

根據(jù)文件系統(tǒng)分配策略，以及郵件文件類型二進(jìn)制特征，設(shè)計(jì)了如下規(guī)則，用于碎片郵件雕刻算法。

(1)集中特性：操作系統(tǒng)為文件分配存儲(chǔ)空間時(shí)最佳原則是選擇連續(xù)存儲(chǔ)單元進(jìn)行分配。此外，只有當(dāng)對(duì)文件進(jìn)行反復(fù)操作，比如修改、刪除等，或者當(dāng)存儲(chǔ)空間不足時(shí)，才可能產(chǎn)生文件以碎片化存儲(chǔ)。所以可以認(rèn)為，文件的多數(shù)存儲(chǔ)單元(或者文件碎片)通常存儲(chǔ)在文件頭碎片后續(xù)存儲(chǔ)位置，把這種特性命名為集中特性。這個(gè)特性也可理解為局域特性。

(2)跟隨特性：為了提高文件I/O訪問速率，操作系統(tǒng)在分配存儲(chǔ)空間時(shí)，盡可能讓屬于一個(gè)文件的存儲(chǔ)單元(或者文件碎片)連續(xù)存放，即文件頭存儲(chǔ)單元后依次跟著下一個(gè)存儲(chǔ)單元，把這種連續(xù)性稱為文件存儲(chǔ)單元之間的跟隨性，即文件存儲(chǔ)單元都跟隨在文件頭之后，并且連續(xù)存放。

(3)線性特性：根據(jù)存儲(chǔ)空間的邏輯特性，存儲(chǔ)單元在存儲(chǔ)介質(zhì)中的存放特點(diǎn)是以線性方式存放，設(shè)A和B是存儲(chǔ)中的2個(gè)存儲(chǔ)單元，A和B之間的位置關(guān)系僅有2種，即A在B的前面，或者A在B的后面，把這種存放關(guān)系稱為線性特性。

(4)信息特性：每個(gè)存儲(chǔ)單元都有可能存儲(chǔ)有文件的信息，盡管這種信息是局部的、零散的。而文件一方面具有類型信息，也具有內(nèi)容信息，并且一個(gè)文件從結(jié)構(gòu)上具有完整性。所以把存儲(chǔ)單元上具有特定文件信息的這種特性，稱為信息特性。存儲(chǔ)單元的信息特性度量還比較困難，但是有2個(gè)極端情況：1)存儲(chǔ)單元中含有文件的許多信息，比如類型、結(jié)構(gòu)、內(nèi)容等；2)存儲(chǔ)單元上根本沒有任何信息，只有二進(jìn)制的0和1。這種沒有任何信息特性的存儲(chǔ)單元在碎片文件雕刻過程中是不具任何價(jià)值的。

(5)無關(guān)特性：即2個(gè)不同文件碎片之間是無關(guān)的。

碎片郵件雕刻算法的核心思想是：利用文件頭碎片特征信息，首先確定碎片郵件文件頭位置，從而確定了碎片的集中特性，然后利用郵件碎片的內(nèi)容信息、結(jié)構(gòu)信息等信息屬性，確定碎片的跟隨特性。利用碎片的無關(guān)特性，刪除掉不屬于郵件文件類型的碎片信息。利用碎片的線性特性，遍歷整個(gè)存儲(chǔ)介質(zhì)碎片空間，確定碎片郵件剩余的碎片信息。最后根據(jù)獲得的碎片集合及其連接關(guān)系，恢復(fù)郵件內(nèi)容。

4 實(shí)驗(yàn)及結(jié)果分析

碎片郵件雕刻算法評(píng)估尚未有確定的方法，根據(jù)經(jīng)驗(yàn)[15-16]，為驗(yàn)證算法的有效性，利用公布的3個(gè)映像進(jìn)行實(shí)驗(yàn)，映像的詳細(xì)信息如表3所示。2010-nps-emails映像是用于測(cè)試E-mail地址的映像，利用設(shè)計(jì)的算法在該映像中能夠發(fā)現(xiàn)30多個(gè)不同的E-mail地址及其相關(guān)內(nèi)容，并且這些E-mail內(nèi)容具有不同的編碼方案，結(jié)果和2010年該網(wǎng)站公布的結(jié)果一致。

表3 存儲(chǔ)介質(zhì)映像來源及其他情況

值得注意的是算法還能夠獲取E-mail文件碎片數(shù)據(jù)，盡管這些數(shù)據(jù)無法以E-mail形式顯示，但是可以確定的是E-mail文件類型的碎片數(shù)據(jù)，如表4所示，可以從中獲取部分內(nèi)容信息，比如E-mail文件的收件人、發(fā)件人等，這對(duì)于數(shù)字取證調(diào)查是有意義的。

表4 收發(fā)信息

2012-dfrws-challenge是2012年DFRWS公布的取證分析挑戰(zhàn)，該映像是Android手機(jī)中的SD-Card內(nèi)容，對(duì)該映像應(yīng)用算法進(jìn)行獲取分析。能夠獲取犯罪嫌疑人在生前和多人通信的gmail等郵件34封，并全部恢復(fù)還原。利用十六進(jìn)制編輯器對(duì)映像進(jìn)行分析，可以發(fā)現(xiàn)有3個(gè)E-mail文件以碎片形式存在，在雕刻過程中，可以全部獲取。

2009-nps-ntfs1是一個(gè)經(jīng)常上網(wǎng)的計(jì)算機(jī)硬盤映像。使用2007雕刻算法[8]對(duì)該映像進(jìn)行分析，能夠找到4個(gè)MIME郵件文件；而設(shè)計(jì)的算法能夠找到10個(gè)完整的郵件文件，另外，從映像中找到12個(gè)碎片郵件文件。圖6顯示了其中一個(gè)碎片郵件信息，雖然不能完整恢復(fù)郵件數(shù)據(jù)，但是從中能夠提取出郵件發(fā)送時(shí)間、接收時(shí)間等信息，這些信息對(duì)數(shù)字取證調(diào)查也是關(guān)鍵的。

圖6 郵件信息

此外，提出的郵件碎片雕刻算法模型中對(duì)碎片文件雕刻問題的描述以及轉(zhuǎn)化，使得提出的郵件雕刻算法不但能夠處理線性碎片化文件的雕刻，而且還能有效處理非線性碎片化文件雕刻問題。而利用WinHex中的雕刻算法則不能處理非線性方式的碎片文件雕刻。另外設(shè)計(jì)的算法也存在不能完整雕刻郵件碎片，但是能夠有效提供郵件碎片的局部有用取證信息，比如本文的算法能夠獲取部分被覆蓋的郵件文件，但是僅限于E-mail文件頭尚未被損壞，否則找到的信息比較少，增加了算法的適用范圍。

另外，在算法實(shí)驗(yàn)過程中發(fā)現(xiàn)，算法雕刻結(jié)果精度會(huì)出現(xiàn)亂碼，比如圖7展示了錯(cuò)誤的雕刻結(jié)果，出現(xiàn)亂碼的原因從理論分析可能歸結(jié)于郵件文件沒有明確的結(jié)束標(biāo)識(shí)，使得在雕刻時(shí)不好指定文件結(jié)束的位置，只能指定文件的大小，但這樣就可能導(dǎo)致不能把文件的數(shù)據(jù)寫完，或是多寫了部分?jǐn)?shù)據(jù)到文件中，從而造成亂碼現(xiàn)象。

圖7 錯(cuò)誤的雕刻結(jié)果

5 結(jié)束語

本文利用集合論劃分思想對(duì)碎片文件雕刻問題進(jìn)行了抽象描述，并基于集合論劃分思想，提出碎片郵件文件雕刻模型，設(shè)計(jì)郵件頭尾識(shí)別算法、內(nèi)嵌HTML的文件雕刻算法以及基于郵件結(jié)構(gòu)特征的碎片分類算法，根據(jù)RFC822 和MIME協(xié)議規(guī)范，設(shè)計(jì)郵件碎片分類的結(jié)構(gòu)特征。結(jié)合存儲(chǔ)介質(zhì)數(shù)據(jù)特征、郵件結(jié)構(gòu)特征等，設(shè)計(jì)郵件碎片之間的連接規(guī)則，以及碎片連接關(guān)系算法。實(shí)驗(yàn)結(jié)果表明，本文算法對(duì)碎片郵件雕刻具有普遍的適應(yīng)性，并能夠獲得較好的雕刻結(jié)果，但是對(duì)于大容量存儲(chǔ)介質(zhì)來說，算法運(yùn)行速率不是非常理想。后續(xù)工作將進(jìn)一步優(yōu)化該算法的運(yùn)行速度，并增加對(duì)其他內(nèi)嵌文件類型的雕刻優(yōu)化。

[1] Haggerty J, Karran A, Lamb D. A Framework for the Forensic Investigation of Unstructured Email Relationship Data[J]. International Journal of Digital Crime and F orensics, 2011, 3(3): 1-18.

[2] Lin Hanhe. Predicting Sensitive R elationships from Email Corpus[C]//Proc. of the 4th In ternational Conf erence o n Genetic a nd Ev olutionary Comp uting. [S. l.]: IE EE Press, 2010: 264-267.

[3] Gupta G, Mazumdar C, Rao M S. Digital Forensic Analysis of E-mails: A Trusted E-mail Protocol[J]. International Journal of Digital Evidence, 2004, 2(4): 1-14.

[4] Iqbal F, Binsalleeh H, Fung B, et al. Mining Write Prints from Anonymous E-mails for Forensic Investigation[J]. Digital Investigation, 2010, 3(2): 1-9.

[5] Banday M T. Analysing E-mail Headers for Forensic Investigation[J]. Journal of Digital Forensics, Security and Law, 2011, 6(2): 49-64.

[6] Fellows G H. The Joys of Complexity and the Deleted File[J]. International Journal of Digital Forensics & Incident Response, 2005, 2(2): 89-93.

[7] Carrier B. File System Forensic A nalysis[M]. [S. l.]: Addison Wesley, 2005.

[8] Cohen M. Advanced Car ving Techniques[J]. International Journal of Digital Forensics & Incident Response, 2007, 4(3/4): 119-128.

[9] Garfinkel S L. Carving Contiguous and Fragmented Files with Fast O bject Validation[J]. International Journal of D igital Forensics & Incident Response, 2007, 4(9): 2-12.

[10] Wei Yingjie, Zheng Ning, Xu Ming. An Automatic Carving Method for RAR File Based on Content an d S tructure[C]// Proc. of the 2nd International Conference on I nformation Technology and Computer Science. [S. l.]: IEEE Press, 2010: 68-72.

[11] Yoo B, Par k J, Lim S, et al. A Study on Multimedia File Carving Method[J]. Multimedia Tools and Applications, 2012, 61(1): 243-261.

[12] Conti G, Bratus S, Shu bina A, et al. Automated Mapping of Large Binary O bjects U sing Primit ive Fragment Type Classification[J]. International Journal of Digital Forensics & Incident Response, 2010, 7(8): 3-12.

[13] 張鵬, 陳燾, 劉宏偉, 等. 基于身份密碼的安全電子郵件系統(tǒng)[J]. 計(jì)算機(jī)工程, 2009, 35(6): 194-196.

[14] 梁力, 嚴(yán)建偉, 聶影. 基于源地址約束的垃圾郵件過濾模型[J]. 西安交通大學(xué)學(xué)報(bào), 2005, 39(4): 376-379.

[15] Tomar D S, Malviya O, Verma R. Analysis Framework for Quality Measurement of Carving T echniques[C]//Proc. of National Conference on Emerging Trends in Computing and Communication. Hamirpur, India: [s. n.], 2008: 421-426.

[16] Garfinkel S, Paul F, Vassil R, et al. Bringing Science to Digital Forensics with Standardized Forensic Corpora[J]. International Journal of Digital Forensics & Inci dent Response, 2009, 6(9): 2-11.

編輯顧逸斐

E-mail Fragment Carving Model and Algorithm Based on Set Theory

LI Bing-longa,b, ZHANG Chuan-fuc, HAN Zong-daa,b, WANG Qing-xiana,b

(a. Fourth Institute; b. State Key Laboratory of Mathematical Engineering and Advanced Computing; c. Third Institute, PLA Information Engineering University, Zhengzhou 450004, China)

To acquire fragment E-mail evidence from storage medium, this paper analyzes the E-mail fragment file carving problem on the base of the set partition theory, determines the fragment file carving thought. According to the model, it designs E-mail fragment file carving algorithm model including preprocessing, E-mail file fragment subset determination, conne cted relation determination be tween E-mail fragments. By using hexadecimal editor, it expounds internal structure features of E-mail file, combined with the characteristics of fragment mail head and tail and embedded html files, discusses the fragment attributes in storage medium, and gives the adjacent rules among concentration characteristics, follow characteristics, lin ear properties and information characteristics fro m the fragmen ts. Experimental results show that the algorithm can acquire E-mail evidence more effectively.

E-mail file carving; digital crime investigation; fragment subset; characteristic identifier; compound file type; fragm ent adjacent rule

10.3969/j.issn.1000-3428.2014.05.066

國(guó)家自然科學(xué)基金資助項(xiàng)目(60903220)；鄭州市科技攻關(guān)計(jì)劃基金資助項(xiàng)目“基于內(nèi)存及存儲(chǔ)介質(zhì)的網(wǎng)絡(luò)取證調(diào)查系統(tǒng)”。

李炳龍(1974－)，男，副教授、CCF會(huì)員，主研方向：數(shù)字犯罪取證調(diào)查，信息系統(tǒng)容災(zāi)；張傳富，講師；韓宗達(dá)，碩士研究生；王清賢，教授、博士生導(dǎo)師。

2013-01-22

2013-04-12E-mail：libinglong2009@163.com

1000-3428(2014)05-0317-05

TP301.6

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

基于集合論的E-mail碎片雕刻模型及算法

1 概述

2 E-mail碎片文件雕刻模型

3 算法實(shí)現(xiàn)

4 實(shí)驗(yàn)及結(jié)果分析

5 結(jié)束語