尹妙英
(對外經(jīng)濟(jì)貿(mào)易大學(xué),北京 100029)
數(shù)據(jù)的爆發(fā)式增長和社會(huì)化趨勢是導(dǎo)致大數(shù)據(jù)安全的本質(zhì)原因,從1980年阿爾文·托夫勒提出“大數(shù)據(jù)”概念到2009年,大數(shù)據(jù)已成為炙手可熱的話題,截至2013年,大數(shù)據(jù)分析已成為當(dāng)前和未來研究的重要方向[1]。大數(shù)據(jù)指的是無法用常規(guī)技術(shù)或工具對其進(jìn)行處理、管理、分析和服務(wù)的大數(shù)據(jù)集合,是海量數(shù)據(jù)和計(jì)算機(jī)的完美結(jié)合[2]。大數(shù)據(jù)解決了海量數(shù)據(jù)收存、管理、計(jì)算、分析、應(yīng)用的問題[3]。企業(yè)、政府和科學(xué)研究群體促進(jìn)生成公眾數(shù)據(jù)集和數(shù)據(jù)共享[4]。這些數(shù)據(jù)包括文本數(shù)據(jù)(即結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù))、多媒體數(shù)據(jù)(如視頻數(shù)據(jù)、圖片數(shù)據(jù)、音頻數(shù)據(jù))及多平臺(tái)數(shù)據(jù)(如通信、社交媒體網(wǎng)站、傳感器網(wǎng)絡(luò)、網(wǎng)絡(luò)物理系統(tǒng)和物聯(lián)網(wǎng))[5]。Dobre在2014年報(bào)道,全世界每天大約產(chǎn)生2.5億億字節(jié)的數(shù)據(jù),其中90%的數(shù)據(jù)是非結(jié)構(gòu)化的[6]。Gantz曾推斷到2020年,將產(chǎn)生、模仿和消費(fèi)超過40萬億千兆字節(jié)的數(shù)據(jù)[7]。與傳統(tǒng)數(shù)據(jù)相比,大數(shù)據(jù)含有大量的非結(jié)構(gòu)數(shù)據(jù)且需要更多的實(shí)時(shí)分析。大數(shù)據(jù)的出現(xiàn)及發(fā)展促進(jìn)了經(jīng)濟(jì)的發(fā)展,提高了人們的生活水平,同時(shí)也帶來了新的挑戰(zhàn)。本文就大數(shù)據(jù)的應(yīng)用領(lǐng)域、發(fā)展趨勢、安全問題和挑戰(zhàn)進(jìn)行分析和展望。
2016-06,國務(wù)院發(fā)布《關(guān)于促進(jìn)和規(guī)范健康醫(yī)療大數(shù)據(jù)應(yīng)用發(fā)展的指導(dǎo)意見》,該文件指出健康和醫(yī)療大數(shù)據(jù)是國家戰(zhàn)略資源,大數(shù)據(jù)的改革可以提高醫(yī)療效率,推進(jìn)醫(yī)療保健的深刻變革[8]。隨著國家政策的支持,我國的醫(yī)療健康大數(shù)據(jù)已涵蓋個(gè)性化健康管理和保障、醫(yī)療服務(wù)、醫(yī)療機(jī)構(gòu)、食品安全等多方面數(shù)據(jù)集合。例如通過集合健康數(shù)據(jù)、生命體征的指標(biāo),形成個(gè)體化數(shù)據(jù)庫和電子健康檔案,并通過電子設(shè)備,隨時(shí)監(jiān)控血壓、心率等生命體征指標(biāo),進(jìn)行健康管理及疾病提示[9]。另外隨著個(gè)性化數(shù)據(jù)庫的共享,將提高疾病診斷的快速定位以及個(gè)體藥品不良反應(yīng)等反復(fù)檢查。
金融行業(yè)在大數(shù)據(jù)應(yīng)用方面具有天然優(yōu)勢,金融企業(yè)積累了大量高價(jià)值的數(shù)據(jù)[10];金融行業(yè)資金雄厚,可以吸引到大數(shù)據(jù)技術(shù)的高端人才,也有能力采用大數(shù)據(jù)的最新技術(shù)[11]。銀行和金融服務(wù)公司利用大數(shù)據(jù)分析來區(qū)分欺詐行為和合法商業(yè)交易[12]。通過應(yīng)用分析和機(jī)器學(xué)習(xí),他們能夠根據(jù)客戶的歷史數(shù)據(jù)檢測其信用情況,以辨別其是否存在欺詐行為。如發(fā)現(xiàn)客戶有欺詐行為記錄,系統(tǒng)將建議立即采取行動(dòng),比如阻止違規(guī)交易等[13]。同時(shí)還可以根據(jù)數(shù)據(jù)集定義將客戶分成不同的客戶群,這些數(shù)據(jù)集可能包括客戶人口統(tǒng)計(jì)數(shù)據(jù)、日常交易以及外部數(shù)據(jù)等。然后根據(jù)客戶的細(xì)分市場,找出更適合他們的促銷和營銷活動(dòng)。另外還可以進(jìn)行精細(xì)化營銷以及風(fēng)險(xiǎn)評估等。
電信行業(yè)擁有龐大的數(shù)據(jù)資源。工信部統(tǒng)計(jì)數(shù)據(jù)顯示,2016年我國電話用戶高達(dá)15.3億戶。手機(jī)用戶每天產(chǎn)生龐大的話單記錄、信令數(shù)據(jù)、上網(wǎng)日志等數(shù)據(jù)。如此大規(guī)模的用戶導(dǎo)致運(yùn)營商每天搜集的數(shù)據(jù)可達(dá)PB級[14]。目前大數(shù)據(jù)在電信方面的應(yīng)用主要包括客戶關(guān)系的管理、網(wǎng)絡(luò)管理、優(yōu)化和企業(yè)運(yùn)營管理[15],例如提升網(wǎng)絡(luò)質(zhì)量和網(wǎng)絡(luò)利用率,引導(dǎo)營銷方向等。
大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)相比主要差異概括為:數(shù)據(jù)量大,數(shù)據(jù)種類繁多,處理速度快,價(jià)值密度低。而大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)相比優(yōu)勢為以下幾方面。
傳統(tǒng)數(shù)據(jù)需要通過人工獲取數(shù)據(jù),且需要人工輸入數(shù)據(jù),該操作會(huì)增加工作量,浪費(fèi)時(shí)間且不能夠保證準(zhǔn)確性。而大數(shù)據(jù)是直接通過儀器收集數(shù)據(jù),減少工作量。例如交通數(shù)據(jù),沒有電子記錄儀之前需要人工去記錄某個(gè)路段是否擁堵、擁堵時(shí)間、擁堵距離等,從而進(jìn)行預(yù)測,但是突發(fā)狀況、交通事故沒辦法預(yù)測。而現(xiàn)在通過儀器記錄數(shù)據(jù),不僅能夠?qū)崟r(shí)記錄路況,而且還能進(jìn)行預(yù)測接下來時(shí)間哪些路段擁擠、哪些路段暢通,方便人們進(jìn)行路線選擇。
傳統(tǒng)數(shù)據(jù)的數(shù)據(jù)生成是為了某個(gè)目的而進(jìn)行數(shù)據(jù)收集分析,而大數(shù)據(jù)是先收集記錄所有數(shù)據(jù)信息,而后為了某個(gè)目的對大數(shù)據(jù)進(jìn)行數(shù)據(jù)價(jià)值挖掘,并且所收集的數(shù)據(jù)信息可以用于各個(gè)目的分析,而不用為了目的再去收集數(shù)據(jù)信息,即大數(shù)據(jù)的可挖掘性強(qiáng)。例如淘寶數(shù)據(jù),通過用戶購買行為判斷用戶現(xiàn)狀,對于孕婦,可根據(jù)前幾次購買記錄判斷是否懷孕以及懷孕周期,從而根據(jù)不同周期推薦不同商品;另外商家還可以根據(jù)銷售記錄判斷是否熱銷,是否補(bǔ)貨,不同季節(jié)銷售不同商品等等。
Apache Hadoop、Spark等開源應(yīng)用程序已經(jīng)開始主導(dǎo)大數(shù)據(jù)領(lǐng)域,且這種趨勢將持續(xù)下去[16]。調(diào)查發(fā)現(xiàn),截止2018年底,預(yù)計(jì)將有60%的企業(yè)運(yùn)行Hadoop,且其使用量每年增長32.9%左右[17]。
2017年,通過對2 800名從事商業(yè)智能工作的專業(yè)人士調(diào)查預(yù)測發(fā)現(xiàn),數(shù)據(jù)可視化和數(shù)據(jù)挖掘?qū)⒊蔀橐粋€(gè)重要趨勢。數(shù)據(jù)挖掘包括對數(shù)據(jù)及其之間關(guān)聯(lián)分析以及數(shù)據(jù)的展現(xiàn)方式[18]。因此,可視化模型作為數(shù)據(jù)轉(zhuǎn)化為可視化方式將成為一種趨勢。另外許多企業(yè)研究“歷史”大數(shù)據(jù)預(yù)測未來行為,同時(shí)目前最新的研究也為預(yù)測行為提供更多的價(jià)值,為企業(yè)發(fā)展方向以及定位提供有利支持。通過數(shù)據(jù)分析可以應(yīng)用于互聯(lián)網(wǎng)中,例如提高零售、重塑醫(yī)療等。
機(jī)器學(xué)習(xí)是計(jì)算機(jī)的一種培訓(xùn)過程,目前用于各種活動(dòng),比如實(shí)時(shí)廣告、模式識別、欺詐檢測和醫(yī)療保健等。未來,它將變得更智能、更快、更高效。廣告公司的業(yè)務(wù)發(fā)展總監(jiān)Ronald Van Loon表示:“數(shù)字業(yè)務(wù)現(xiàn)在需要走向自動(dòng)化”。機(jī)器學(xué)習(xí)算法從大量結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中學(xué)習(xí),例如文本、圖像、視頻、聲音、肢體語言和面部表情,為機(jī)器開啟了一個(gè)新的維度,從醫(yī)療保健系統(tǒng)到視頻游戲和自動(dòng)駕駛汽車,各種應(yīng)用程序?qū)映霾桓F[19]。另外機(jī)器學(xué)習(xí)還可以應(yīng)用于教育行業(yè)、醫(yī)療保健、人工智能等。
隨著社會(huì)信息化和網(wǎng)絡(luò)化的快速發(fā)展,數(shù)據(jù)呈爆炸式增長,大數(shù)據(jù)時(shí)代已經(jīng)全面開啟。大數(shù)據(jù)時(shí)代機(jī)遇和挑戰(zhàn)并存,其引起的安全問題同樣引人深思。大數(shù)據(jù)面臨的安全問題主要體現(xiàn)在以下幾個(gè)方面。
事實(shí)證明,大數(shù)據(jù)如果未被妥善處理,就會(huì)泄露用戶隱私。網(wǎng)絡(luò)犯罪分子可以通過大數(shù)據(jù)分析,預(yù)測用戶的行為和狀態(tài)[20]。目前數(shù)據(jù)的收集、存儲(chǔ)、管理、使用均不規(guī)范,用戶無法確定自己隱私信息的用途,且無法確定自己的隱私是否泄露,因此保護(hù)用戶隱私是大數(shù)據(jù)安全首要解決問題[21]。同時(shí)大數(shù)據(jù)運(yùn)營過程中,可能會(huì)產(chǎn)生假數(shù)據(jù)。為了故意降低大數(shù)據(jù)分析的質(zhì)量,網(wǎng)絡(luò)犯罪分子可以偽造數(shù)據(jù)并將其“傾入”到用戶的數(shù)據(jù)集中[22]。例如,制造公司使用傳感器數(shù)據(jù)來檢測生產(chǎn)過程中的故障,網(wǎng)絡(luò)罪犯就會(huì)侵入系統(tǒng),讓傳感器顯示虛假的結(jié)果,比如錯(cuò)誤的溫度。這樣,用戶就不會(huì)收到預(yù)警信號,錯(cuò)過了挽救嚴(yán)重?fù)p害問題的機(jī)會(huì)。
數(shù)據(jù)來源或者數(shù)據(jù)的歷史記錄,使大數(shù)據(jù)安全變得更加復(fù)雜。因?yàn)榇髷?shù)據(jù)是一個(gè)巨大元數(shù)據(jù)的集合,它包含每一個(gè)數(shù)據(jù)項(xiàng)的信息。目前,數(shù)據(jù)來源是一個(gè)大問題[23]。從安全的角度來看,這是至關(guān)重要的,因?yàn)槲唇?jīng)授權(quán)的更改源數(shù)據(jù)可能會(huì)產(chǎn)生錯(cuò)誤的數(shù)據(jù)集,這將為收集所需的信息增加難度。同時(shí)無法跟蹤的數(shù)據(jù)源可能是查找安全漏洞和虛假數(shù)據(jù)生成案例根源的巨大障礙。
大數(shù)據(jù)安全審計(jì)有助于發(fā)現(xiàn)自身的安全漏洞,但很少有企業(yè)去做大數(shù)據(jù)安全審計(jì)[24]。因?yàn)樘幚泶髷?shù)據(jù)本身就有許多挑戰(zhàn)和顧慮,安全審計(jì)往往會(huì)加重這些挑戰(zhàn)。此外,缺乏時(shí)間、資源、專業(yè)人員,使得這種計(jì)安全審計(jì)更加不切實(shí)際。雖然大數(shù)據(jù)存在許多安全問題,但這并不意味著應(yīng)避諱大數(shù)據(jù),從此不再與它產(chǎn)生交集。我們應(yīng)該做的是充分認(rèn)識大數(shù)據(jù)安全問題,并盡力去戰(zhàn)勝它,構(gòu)建一個(gè)更加安全的大數(shù)據(jù)時(shí)代。
大數(shù)據(jù)的優(yōu)點(diǎn)是毋庸置疑的,但其仍存在一些急需解決的挑戰(zhàn)。一些是由大數(shù)據(jù)特性引起的,一些是由現(xiàn)有的分析模型和方法引起的,還有一些是由目前的數(shù)據(jù)處理系統(tǒng)局限性引起的[25]。目前對大數(shù)據(jù)挑戰(zhàn)的關(guān)注點(diǎn)主要集中在如何正確理解大數(shù)據(jù)定義,如何決策生成和收集數(shù)據(jù)類型,如何保護(hù)個(gè)人隱私,以及如何確保大數(shù)據(jù)安全問題等方面。但數(shù)據(jù)的復(fù)雜性為解決這些問題增加了難度,因此了解大數(shù)據(jù)的復(fù)雜性是亟待解決的問題,是解決大數(shù)據(jù)問題的關(guān)鍵。大數(shù)據(jù)帶來了許多挑戰(zhàn)和變化,只有不斷追蹤和適應(yīng)變化,及時(shí)做出調(diào)整,才能處于不敗之地。