易石
“在洛杉磯,警方通過數(shù)據(jù)分析,預(yù)測未來12小時內(nèi)哪個地區(qū)最有可能發(fā)生犯罪;在倫敦金融城,一位交易員認(rèn)為,數(shù)學(xué)計算可以成為發(fā)財‘秘笈’……這些迥然不同的領(lǐng)域如今被一種事物統(tǒng)一起來:數(shù)據(jù)量的大爆炸?!边@是英國BBC品牌欄目《地平線》2013年4月發(fā)布的紀(jì)錄片《大數(shù)據(jù)時代》的開篇一幕……
夏洛克·福爾摩斯,是一個由19世紀(jì)末的英國偵探小說家亞瑟·柯南·道爾所塑造的才華橫溢的虛構(gòu)偵探。福爾摩斯具有一種憑借洞察力穿透事物表象的天賦,以及從容易讓人迷惑的詭計中挖掘出事實真相的超凡脫俗的識別能力……他足不出戶就可以解決很多疑難問題。但如今,現(xiàn)代警察憑借大數(shù)據(jù)進(jìn)行數(shù)字追兇,只需在電腦前點點鼠標(biāo),其速度比福爾摩斯還快,這是怎么回事呢?
在互聯(lián)網(wǎng)時代,警察破案除了用到傳統(tǒng)的檔案、走訪、電話記錄等資料外,還會用到互聯(lián)網(wǎng)上出現(xiàn)的信息。所有的這些信息匯集成海量的數(shù)據(jù),如今有了一個更加時髦的稱謂,那就是“大數(shù)據(jù)”。當(dāng)然,大數(shù)據(jù)不僅僅是換了“馬甲”的資訊,它與傳統(tǒng)的資訊還是有區(qū)別的。
在信息時代,一個犯罪分子想要銷聲匿跡,除非把自己完全絕緣起來。這樣無論司法機關(guān)掌握的大數(shù)據(jù)有多大,都難以查找到犯罪分子的個人電子信息了。但是,在如今這個信息技術(shù)已經(jīng)滲透到生活的方方面面的時代,犯罪分子要想不留下任何電子信息,是幾乎不可能的事情。比如,就算犯罪分子不上網(wǎng)、不使用手機、不看電視等,總之不和任何信息設(shè)備發(fā)生關(guān)聯(lián),也逃脫不了大數(shù)據(jù)的追蹤。雖然犯罪分子不可能長期出現(xiàn)在道路、商店、碼頭、車站等公共場所,但是一旦出現(xiàn),就可能被公共的或他人的電子設(shè)備拍攝到。即使犯罪分子長期蝸居在某個偏遠(yuǎn)地區(qū)的某幢房屋內(nèi),他也可能被谷歌的街景車拍攝到他自己從窗口探出的腦袋。
近些年來,利用大數(shù)據(jù)成功偵破的有名案例是波士頓連環(huán)爆炸案。2013年4月15日,美國波士頓在舉辦馬拉松賽的過程中發(fā)生連環(huán)炸彈爆炸案,最終導(dǎo)致3人死亡、183人受傷。在案件發(fā)生后,警方保留了案發(fā)現(xiàn)場附近的所有監(jiān)控錄像以供比對、查找,波士頓警察局的官員稱“仔細(xì)查看了所有錄像的每一幀畫面”。然后,警察走訪了事發(fā)地點附近12個街區(qū)的居民,收集了可能存在的各種私人錄像或照片,無論他們來自攝像機還是私人的手機。警方還大量收集網(wǎng)上信息,包括像Twitter、Facebook、Youtube等社交媒體上出現(xiàn)的相關(guān)相片、錄像等,而且在這些流量巨大的網(wǎng)站上向公眾提出了收集相關(guān)信息的請求。結(jié)果,警方從馬拉松賽事沿途錄像中尋覓到嫌疑人的蹤跡,并從錄像中截取出嫌疑人照片,其中包括嫌疑人正面的清晰影像,又結(jié)合其他信息,終于確認(rèn)犯罪嫌疑人為兄弟倆,分別是26歲的塔米爾南·沙尼耶夫和19歲的喬卡·沙尼耶夫。4月19日凌晨,嫌疑人在水鎮(zhèn)與警方發(fā)生槍戰(zhàn),塔米爾南在激戰(zhàn)過程中身受重傷經(jīng)送醫(yī)不治身亡,喬卡趁亂逃脫。當(dāng)日晚間,警方利用公共場所的紅外線攝像機搜集到的數(shù)據(jù),又一次準(zhǔn)確定位了嫌疑人的位置,并且迅速將其包圍。在與警方對峙數(shù)小時后,喬卡投降遭捕,追捕行動至此結(jié)束。
如何獲取大數(shù)據(jù)
目前,獲取大數(shù)據(jù)的渠道主要有兩個:一個是電話公司,另一個是互聯(lián)網(wǎng)公司。美國安全局就長期從電話運營商處獲取到通話數(shù)據(jù)庫,其中包含大量通話數(shù)據(jù)記錄,例如通話時間與通話時長、相關(guān)電話號碼以及移動設(shè)備的本地數(shù)據(jù)等等。這套數(shù)據(jù)庫建立于2001年“9·11”恐怖襲擊事件發(fā)生后不久,而且得到了多家電信運營商的支持。2006年,《今日美國》雜志發(fā)表文章稱,這套通話數(shù)據(jù)庫是“世界上規(guī)模最大的數(shù)據(jù)庫”。該數(shù)據(jù)庫擁有數(shù)以十億計的電話記錄數(shù)據(jù),由超級計算機和數(shù)據(jù)分析師處理這些數(shù)據(jù)。
美國政府還長期從互聯(lián)網(wǎng)信息中獲取大數(shù)據(jù)。然而,他們目前無法真正捕捉并保存用戶所產(chǎn)生的全部數(shù)據(jù),更無法將其無限期加以留存。但隨著信息技術(shù)的發(fā)展,這兩項艱巨任務(wù)逐漸變得可能起來。由于全球互聯(lián)網(wǎng)的IP地址都由美國的服務(wù)商來提供,這給美國監(jiān)控全世界提供了便利。美國安全局已經(jīng)在海底互聯(lián)網(wǎng)光纖主干上安裝了智能流量分析器,這是一種原理類似于“水龍頭”的分流裝置,借此可以獲取全球互聯(lián)網(wǎng)上的信息。
然而,比獲取信息更難的是存儲信息。根據(jù)思科公司的統(tǒng)計,2012年全球互聯(lián)網(wǎng)流量每天達(dá)11億GB,這需要110萬個容量為1000GB的硬盤來儲存這些數(shù)據(jù)。目前世界上90%以上的數(shù)據(jù)是最近幾年才產(chǎn)生的,而在未來一段時期內(nèi),互聯(lián)網(wǎng)上的數(shù)據(jù)每年又將增長50%。從存儲物質(zhì)來講,目前要將互聯(lián)網(wǎng)上的所有信息存儲下來根本無法實現(xiàn),更不要說實際使用這些信息了。當(dāng)然,從技術(shù)發(fā)展的角度來看,將來是有希望做到的,這就是未來的DNA存儲技術(shù)要做的事情。
由于目前DNA存儲技術(shù)還沒有進(jìn)入實用階段,安全和司法部門都只能從相對有限的大數(shù)據(jù)中獲取線索。美國安全局每天所捕捉并保留的數(shù)據(jù)總量,也僅占每天全球互聯(lián)網(wǎng)流量和通話記錄中的一小部分,那都是通過關(guān)鍵詞、關(guān)鍵圖像、關(guān)鍵數(shù)據(jù)等篩選過后的信息。從互聯(lián)網(wǎng)獲取信息還遭遇另外一個難題,那就是密碼問題。往往安全部門希望獲得的信息卻是經(jīng)過加密的,比如恐怖組織和一些黑客會采取很先進(jìn)的加密技術(shù)來傳輸自己的信息。要破譯這些信息,不僅需要更好的技術(shù),而且需要投入巨大的人力物力。同時,破譯這些信息需要一定的時間,恐怖組織或犯罪分子會利用這個時間差來實施恐怖襲擊或犯罪活動。因此,大數(shù)據(jù)時代警方所能利用的線索雖然很多,但是需要警方不斷更新技術(shù),才能更好且快速地從這些數(shù)據(jù)中挖掘出有用信息。這些技術(shù)被統(tǒng)稱為“數(shù)據(jù)挖掘”。
利用數(shù)據(jù)挖掘技術(shù)破案
在案件偵破過程中,刑偵人員會對來源不同的各種證據(jù)和線索進(jìn)行梳理,找出對偵破最有用的證據(jù)和線索。這些對已有資料的梳理、統(tǒng)計和分析工作,運用的就是數(shù)據(jù)挖掘技術(shù)。在司法領(lǐng)域,數(shù)據(jù)挖掘是一項比較古老的方法。在一百多年前,多國司法機構(gòu)就知道建立違法犯罪檔案。一旦某地出現(xiàn)新的違法犯罪活動時,偵破人員會搜索已有的檔案,從中發(fā)現(xiàn)破案的線索。而犯罪學(xué)專家則研究這些檔案,總結(jié)違法犯罪的動機、方式、工具等特征,為預(yù)防犯罪和偵破提供依據(jù)。這些都是較為古老的數(shù)據(jù)挖掘方法。到了信息科技時代,數(shù)據(jù)挖掘則以人工挖掘為主轉(zhuǎn)變?yōu)橐杂嬎銠C挖掘為主。
數(shù)據(jù)挖掘萌芽于“情報深加工”,其實質(zhì)就是發(fā)現(xiàn)情報背后的情報。在大數(shù)據(jù)時代,數(shù)據(jù)挖掘就是從海量數(shù)據(jù)中尋找到自己需要的信息,我們常用的百度、谷歌等搜索引擎完成的工作也屬于數(shù)據(jù)挖掘的范疇。
目前,美國安全局已經(jīng)開始利用數(shù)據(jù)挖掘技術(shù)追蹤恐怖分子和監(jiān)控社會情緒。比如,美國安全局和交通安全局曾經(jīng)基于數(shù)據(jù)挖掘技術(shù),開發(fā)出計算機輔助乘客篩選系統(tǒng)。該系統(tǒng)為美國本土各個機場提供接口,當(dāng)乘客購買機票時,系統(tǒng)利用乘客提供的信息來確定乘客是否為需要額外安全篩選的人員。該系統(tǒng)將乘客購買機票時提供的信息輸入到商用數(shù)據(jù)提供商提供的數(shù)據(jù)庫,這些信息包括姓名、出生日期、居住地址以及電話號碼。然后商用數(shù)據(jù)庫將隱含特殊危險等級的數(shù)字分值傳送給交通安全局。帶有“綠色”分值的乘客將接受“正常篩選”,帶有“黃色”分值的乘客將接受“額外篩選”,而帶有“紅色”分值的乘客將被禁止登機并將接受“法律強制性的關(guān)照”。
數(shù)據(jù)挖掘技術(shù)已經(jīng)被用在刑事偵破領(lǐng)域,為破獲一些疑難懸案、保障老百姓的人身和財產(chǎn)安全提供了新的技術(shù)支持。比如,尋找犯罪嫌疑人的人臉識別方法就需要用到數(shù)據(jù)挖掘技術(shù)。警方先通過計算機對嫌疑人進(jìn)行畫像,然后自動在目標(biāo)人員數(shù)據(jù)庫中搜索犯罪嫌疑人。不過,人臉識別技術(shù)要發(fā)揮高效破案的作用,前提就是要建立有大級別的人像數(shù)據(jù)庫系統(tǒng)。也就是說,人臉識別的數(shù)據(jù)挖掘是需要建立在大數(shù)據(jù)的基礎(chǔ)之上的。同樣,指紋識別、虹膜識別、掌紋識別、步態(tài)識別等生物識別技術(shù),也需要逐步完善的數(shù)據(jù)庫給予支撐。
大數(shù)據(jù)時代的隱憂
英國牛津大學(xué)網(wǎng)絡(luò)學(xué)院的維克托·爾耶·舍恩伯格教授在其新書《大數(shù)據(jù)時代》的引言中寫道:“大數(shù)據(jù)開啟了一次重大的時代轉(zhuǎn)型。就像望遠(yuǎn)鏡讓我們能夠感受宇宙,顯微鏡讓我們觀測微生物一樣,大數(shù)據(jù)正在改變我們的生活以及理解世界的方式,成為新發(fā)明和新服務(wù)的源泉,而更多的改變正蓄勢待發(fā)……”美國政府已將大數(shù)據(jù)視為“未來的新石油”,并將對大數(shù)據(jù)的研究上升為國家意志。在美國的推動下,未來大數(shù)據(jù)之戰(zhàn)的腳步聲似乎越來越近。大數(shù)據(jù)是一股不可阻擋的時代潮流,它不僅可以幫助政府機關(guān)和司法機構(gòu)提高辦事效率,而且會影響到普通人日常生活的方方面面。
舍恩伯格在新書中還表示,在大數(shù)據(jù)時代,人們時刻都暴露在“第三只眼”之下:亞馬遜監(jiān)視著我們的購物習(xí)慣;谷歌監(jiān)視著我們的網(wǎng)頁瀏覽習(xí)慣;而微博似乎什么都知道,不僅竊聽到了我們的心思,還能描繪出我們的社交關(guān)系網(wǎng)。因此,不僅是司法機構(gòu)可以利用大數(shù)據(jù)來破案和預(yù)測潛在的犯罪,犯罪分子和犯罪團(tuán)伙也可以利用大數(shù)據(jù)尋找到可以侵害的對象并實施犯罪。曾經(jīng)的江洋大盜往往要實地勘察幾個月甚至數(shù)年,以此來分析某人或某機構(gòu)的習(xí)慣規(guī)律以實施犯罪行為,而在大數(shù)據(jù)時代,他只需要一臺電腦和簡單的黑客手段就可以完成這樣的分析。目前,已經(jīng)有不少犯罪團(tuán)伙通過互聯(lián)網(wǎng)上的海量數(shù)據(jù),利用搜索引擎和密碼破譯等手段,挖掘出人們的私人信息和社交關(guān)系,以此實施盜竊、詐騙、敲詐勒索、拐賣兒童等犯罪行為。
除了可能被犯罪分子偷窺外,政府也可能正在利用大數(shù)據(jù)監(jiān)視我們,黑客也可能侵入到政府的服務(wù)器查看政府所監(jiān)控到的信息。如果沒有合理的控制和防范措施,人們的隱私和行為模式很可能被政府監(jiān)控人員或網(wǎng)絡(luò)黑客所散布。這正是“棱鏡”項目被泄漏之后,美國國內(nèi)和國際社會反對聲浪巨大的一個重要原因。如果個人網(wǎng)絡(luò)信息保護(hù)問題得不到很好的解決,未來因大數(shù)據(jù)和數(shù)據(jù)挖掘引發(fā)的社會矛盾將會越來越多,越來越激烈。