張席瑞 朱容宇 鄒林
摘要:信息時代的高速發(fā)展,雖然極大地方便了人們的生活,但也催生出各式各樣依托于計算機、網(wǎng)絡(luò)的新型犯罪。在大數(shù)據(jù)背景下,電子數(shù)據(jù)司法取證面臨著取證難、數(shù)據(jù)篩選效率低下等問題。本文以圖像數(shù)據(jù)的篩選處理為例,介紹了如何利用深度學習技術(shù)針對性的篩選電子證據(jù),提高司法取證的數(shù)據(jù)篩選效率。
關(guān)鍵詞:深度學習;司法取證;圖像識別
中圖分類號:TP311 文獻標識碼:A
文章編號:1009-3044(2019)30-0284-02
1深度學習簡介
1.1深度學習的概念
機器學習是一種實現(xiàn)人工智能的方法,而深度學習是機器學習中的一個分支,是一種讓多層神經(jīng)網(wǎng)絡(luò)能夠運行、訓(xùn)練的一系列新的結(jié)構(gòu)和方法。
深度學習是機器學習研究中的一個新的領(lǐng)域,其目的在于建立模擬人腦進行分析學習的神經(jīng)網(wǎng)絡(luò),模仿人腦的機制來解釋數(shù)據(jù),例如圖像、聲音和文本。
1.2優(yōu)勢
深度學習和傳統(tǒng)機器學習相比有以下三個優(yōu)點:
(1)高效性
例如前幾年大熱的AlphaGO,以深度學習技術(shù)為基礎(chǔ),輕松擊敗了頂級的人類棋手。這就是因為以人類的方式去評估、計算棋局的優(yōu)劣,需要專業(yè)的棋手花費大量的時間進行計算,但影響棋局的因素數(shù)量多且復(fù)雜,即使花費了大量時間,也不一定準確。但利用深度學習技術(shù),只要設(shè)計、搭建合適的框架,就可以節(jié)省大量的特征提取的時間,在較短時間內(nèi)完成分析和預(yù)測。
(2)可塑性
與深度學習相比,傳統(tǒng)算法也需要訓(xùn)練模型,但在針對不同需求進行模型調(diào)整時,兩者的代價大不相同,傳統(tǒng)算法的模型要調(diào)整很可能要對代碼進行大改,甚至重寫,成本極高;而深度學習模型只需要調(diào)整參數(shù)就能有效的改變模型,這使得它能以低成本的方式對模型進行細節(jié)和功能的調(diào)整。
(3)通用性
傳統(tǒng)算法通常是針對某一類特定問題設(shè)計,針對性較強,但同時通用性很低;而深度學習可以通過學習來解決問題,同一個算法,對于不同的問題可以按照類似的方式做特征提取和學習,生成不同的模型,以滿足多種需求。
1.3現(xiàn)狀
深度學習極大地促進了機器學習的發(fā)展,受到世界各國相關(guān)領(lǐng)域研究人員和高科技公司的重視,語音、圖像和自然語言處理是深度學習算法應(yīng)用最廣泛的三個主要研究領(lǐng)域。
以圖像識別為例,深度神經(jīng)網(wǎng)絡(luò)的構(gòu)建、計算機計算能力的提升、GPU技術(shù)的發(fā)展,使得訓(xùn)練數(shù)據(jù)的速度大幅增加,促進了圖像識別技術(shù)的發(fā)展。現(xiàn)在的深度學習網(wǎng)絡(luò)模型已經(jīng)能夠識別一般的自然圖像。深度學習模型不僅大幅提高了圖像識別的精度,同時也避免了需要消耗大量時間進行人工特征的提取,使得在線運行效率大大提升。
信息技術(shù)的高速發(fā)展雖然給大眾帶來許多便利,但也促使了不法分子違法犯罪的手段花樣百出,為了打擊犯罪、維護社會穩(wěn)定,必須對違法案件進行司法取證,獲取犯罪證據(jù)。
2司法取證簡介
2.1司法取證的概念
司法取證是指有調(diào)查取證權(quán)的組織或個人為了查明案件事實的需要,向有關(guān)單位、個人進行調(diào)查、收集司法證據(jù)。具有調(diào)查取證權(quán)的國家機關(guān)有公安、檢察院等。
司法證據(jù)包括書證、物證、證人證言、當事人的陳述、視聽資料、鑒定意見、現(xiàn)場筆錄、勘驗、檢查、辨認偵查實驗筆錄、電子數(shù)據(jù)等。其中電子數(shù)據(jù)在當今信息技術(shù)高速發(fā)展的社會背景下,重要性逐年提高。
2.2司法取證中的電子數(shù)據(jù)取證
電子數(shù)據(jù)取證的取證主體是具備計算機知識背景的偵查技術(shù)人員,取證對象是計算機系統(tǒng)或網(wǎng)絡(luò)設(shè)備中的電子數(shù)據(jù),取證環(huán)境是由電子設(shè)備所創(chuàng)設(shè)的虛擬空間。電子數(shù)據(jù)取證是指從電子數(shù)據(jù)中分析、提取出能夠為法庭接受的、足夠可靠和有說服力的電子證據(jù)的過程。電子取證包含各種電子數(shù)據(jù),只要是以電子手段、儀器等方式獲取到證據(jù),都可以叫作電子取證。
電子數(shù)據(jù)取證不僅可以發(fā)生在虛擬空間,也可以發(fā)生在現(xiàn)實空間。計算機取證的對象包括計算機和依托于計算機系統(tǒng)的網(wǎng)絡(luò),還可以借助于各種電子儀器、設(shè)備,通過電子的方式進行取證。
2.3面臨的問題
早期的取證工作面臨取證軟件單一,取證硬件落后,多依賴于人工操作的問題。電子數(shù)據(jù)的取證工作人員消耗了大量的時間對計算機進行人工分析,如查看涉案計算機的注冊表,文件訪問記錄,網(wǎng)絡(luò)鏈接的IP,手工進行相關(guān)數(shù)據(jù)的篩選等。
現(xiàn)階段雖然取證設(shè)備軟硬件配置和功能有較大提升,但在電子數(shù)據(jù)篩選方面效率低下仍是比較突出的問題。為了提升取證效率,加快案件偵破效率,必須對取證技術(shù)進行改進;而深度學習技術(shù)有著效率高、普適性強的特點,如果將其應(yīng)用于電子數(shù)據(jù)取證,可以預(yù)見,能極大地提升電子數(shù)據(jù)取證的數(shù)據(jù)篩選效率。
3深度學習在司法取證中的應(yīng)用
3.1電子數(shù)據(jù)取證中的圖像識別需求
3.1.1工作模式
要明確電子數(shù)據(jù)取證中的具體需求,首先要了解電子數(shù)據(jù)取證的工作模式。以公安部門電子數(shù)據(jù)取證的工作模式為例。首先,公安部門在案件辦理過程中發(fā)現(xiàn)需要進行電子數(shù)據(jù)取證時,將待檢測的檢材進行封存,然后向技術(shù)部門或有資質(zhì)的取證實驗室進行委托,將待檢測的檢材移交給技術(shù)部門或取證實驗室。接收委托后相關(guān)部門或?qū)嶒炇覍z材進行預(yù)檢,如果發(fā)現(xiàn)檢材存在損壞、故障、內(nèi)容有誤等不符合電子數(shù)據(jù)取證要求的情況時,就將檢材退還給委托部門。若符合要求,則對相關(guān)的檢材在只讀狀態(tài)下制作鏡像或磁盤復(fù)制,然后對制作的鏡像或復(fù)制磁盤進行取證分析,通常是進行相應(yīng)的關(guān)鍵詞搜索、數(shù)據(jù)恢復(fù)、相關(guān)電子郵件、圖片、聊天記錄等數(shù)據(jù)的篩選提取。最后,生成相應(yīng)的取證報告提交給委托部門。
3.1.2需求分析
在上述過程中,最為困難的顯然是對檢材鏡像的分析,目前市面上眾多的取證分析軟件大多通過數(shù)據(jù)分類、關(guān)鍵詞查找等方式進行自動化數(shù)據(jù)篩選,但這些處理方式難以篩選圖像數(shù)據(jù),因此目前仍然使用大量人工方式進行篩選,這不僅效率低下,同時也越來越無法適應(yīng)數(shù)據(jù)量大幅膨脹的當前犯罪形勢。
電子數(shù)據(jù)取證的圖像處理功能需求較為簡單,就是在從嫌疑人處獲取的證據(jù)源中找出含有相應(yīng)違法證據(jù)的圖像;以涉毒案件舉例,辦案人員需找出的涉案圖像證據(jù)包括:含有毒品的圖片、吸毒圖片等,而需處理的圖像數(shù)據(jù)少則數(shù)千,多則數(shù)萬甚至數(shù)十萬,以人力進行數(shù)據(jù)篩選顯然效率不高,尋求自動化的數(shù)據(jù)篩選方式成為重要的需求。
深度學習在圖像識別等領(lǐng)域已經(jīng)有很多的應(yīng)用,如果能將其應(yīng)用到取證領(lǐng)域中,必將大幅減少取證操作中數(shù)據(jù)篩選的工作量。
3.2利用深度學習實現(xiàn)圖像識別
圖像識別是人工智能領(lǐng)域的一項重要研究,它以圖像的主要特征為基礎(chǔ),對圖像進行處理、分析和理解,使其可以識別同一類的不同圖像。而深度學習旨在研究如何從大數(shù)據(jù)中學習知識并自動完成特征的提取與分類任務(wù)。它可以從原始的圖像數(shù)據(jù)中提取出包含不同層級、語義的特征。
深度學習因其提取特征能力強、應(yīng)用范圍廣等優(yōu)點,在圖像識別中得到廣泛的應(yīng)用,并提出了許多深度網(wǎng)絡(luò)模型,例如:卷積神經(jīng)網(wǎng)絡(luò)(cNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)、深度置信網(wǎng)絡(luò)(DBN)等。其中卷積神經(jīng)網(wǎng)絡(luò)(cNN)應(yīng)用在物體檢測、人臉識別、動作識別等圖像識別領(lǐng)域效果顯著。
本文選取了物體檢測算法Faster R-CNN來實現(xiàn)自動化圖像分類,它的基本原理是預(yù)先提取一系列較可能是目標物體的候選區(qū)域,之后在這些候選區(qū)域上進行特征提取、分類、位置精修,并訓(xùn)練,生成模型。
3.3基本流程
本方法是一種基于深度學習較高識別率的圖像分析方法,用于生成圖像分析系統(tǒng),包括以下步驟:
(1)收集數(shù)據(jù),建立常見物體數(shù)據(jù)集,將常見物體數(shù)據(jù)集按照物體類別分類成不同的分類常見樣本,對各個分類常見樣本再具體劃分成不同的具體常見樣本;
(2)對具體常見樣本的子樣本進行物體標注;
(3)針對特定的物體,建立特定物體數(shù)據(jù)集,將特定物體數(shù)據(jù)集按照物體類別分類成不同的分類樣本,對各個分類樣本再具體劃分成不同的具體特定樣本;
(4)對具體特定樣本的子樣本進行物體標注;
(5)對每一個具體樣本結(jié)合目標檢測算法進行模型訓(xùn)練得到物體專用模型;
(6)輸入待識別圖像樣本,按識別方法使用上述模型對數(shù)據(jù)進行自動分類并輸出結(jié)果。
3.4技術(shù)分析
上述的基于深度學習的圖像分析方法,模型訓(xùn)練的基礎(chǔ)是圖像樣本數(shù)據(jù)集,其構(gòu)建的樣本數(shù)據(jù)集包含常用物體樣本集和特定物體樣本集。
常用物體樣本集即為常見物體分類,例如杯子、狗、背包、人類等類別;特定物體樣本集即為此模型需識別的目標物體類別,例如毒品、香煙等;每個類別下有含有對應(yīng)類別物體的圖像樣本,數(shù)量在數(shù)百至數(shù)千左右。將這兩種數(shù)據(jù)集結(jié)合起來,即可生成針對特定物體的原始數(shù)據(jù)集,其中常用物體樣本集的作用在于提高對非目標物體的識別率,減少誤識率;特定物體樣本集作用在于確定目標物體,即決定該數(shù)據(jù)集可以用來識別何種物體,例如特定物體數(shù)據(jù)集中包含:毒品、吸毒用具、制毒用具這三種類別的樣本,那么該模型則可用于識別涉毒案件的圖像。
模型訓(xùn)練與物體檢測算法以算法封裝的形式提供API接口給前端調(diào)用,模型訓(xùn)練完成后即可輸入待檢測圖片進行物體檢測并輸出結(jié)果,其中圖片中被找出來的物體即為該模型需要識別的目標物體。
4展望
國際文獻資料中心IDC研究表明,數(shù)字領(lǐng)域存在著1.8萬億GB的數(shù)據(jù)。企業(yè)數(shù)據(jù)正在以55%的速度逐年增長。數(shù)據(jù)規(guī)模越大,處理的難度也就越大。在大數(shù)據(jù)環(huán)境下,想對海量數(shù)據(jù)做精確的篩選處理已經(jīng)變得極為困難,有時不得不以部分精確度為代價換取數(shù)據(jù)處理速度的大幅提升。
許多案件中,電子數(shù)據(jù)證據(jù)的收集須耗費極大的時間、人力及物力,甚至不具有人工處理的可行性。如何在大數(shù)據(jù)時代下利用人工智能技術(shù)提高電子數(shù)據(jù)取證的效率是當下電子數(shù)據(jù)取證需要研究的重要課題。
隨著人工智能技術(shù)的發(fā)展和司法取證技術(shù)的升級換代,兩個領(lǐng)域的跨界融合必將更加迅速和全面,未來,人工智能必將成為司法取證領(lǐng)域的提升取證效率的關(guān)鍵技術(shù),而對其進行前沿的研究和應(yīng)用,則是各大取證裝備研發(fā)廠商不可忽視的重點。