孫睿 王晨晨
[摘要]大數(shù)據(jù)的浪潮席卷全球,引發(fā)了人類社會(huì)生活的變革。大數(shù)據(jù)作為信息資本和數(shù)據(jù)資源,對(duì)各行各業(yè)產(chǎn)生了巨大的影響,文章就大數(shù)據(jù)時(shí)代的現(xiàn)狀,淺析大數(shù)據(jù)給統(tǒng)計(jì)學(xué)、個(gè)人隱私、國(guó)際關(guān)系等帶來的挑戰(zhàn)。
[關(guān)鍵詞]大數(shù)據(jù);挑戰(zhàn);隱私安全;國(guó)際關(guān)系
[DOI] 10.13939/j.cnki.zgsc.2018.26
大數(shù)據(jù)綜述
維克托·邁爾-舍恩伯格在《大數(shù)據(jù)時(shí)代》中稱:“大數(shù)據(jù)指不用隨機(jī)分析法這樣的捷徑,而采用所有數(shù)據(jù)進(jìn)行分析處理?!苯陙?,大數(shù)據(jù)不斷改變著人們的生活,為企業(yè)注入新的機(jī)遇。大數(shù)據(jù)的價(jià)值不單單局限于表面的運(yùn)用,更多源于它的二次利用,各大企業(yè)不斷聚類、挖掘和分析,以提取有價(jià)值的信息,提高企業(yè)競(jìng)爭(zhēng)力。因此,數(shù)據(jù)將會(huì)是企業(yè)的財(cái)富、重要的開發(fā)方向和新型商業(yè)模式的基石。[1]
在帶來機(jī)遇的同時(shí),大數(shù)據(jù)給企業(yè)和政府都帶來了巨大的挑戰(zhàn)。網(wǎng)絡(luò)大數(shù)據(jù)在規(guī)模與復(fù)雜度上的快速增長(zhǎng)對(duì)現(xiàn)有IT架構(gòu)的處理和計(jì)算能力提出了挑戰(zhàn),給數(shù)據(jù)的收集、處理、分析帶來了變革,使得統(tǒng)計(jì)學(xué)面臨緊迫感。迅速發(fā)展的互聯(lián)網(wǎng),留下了人們大量的數(shù)據(jù)足跡,造成了個(gè)人隱私信息的泄露。對(duì)個(gè)人隱私等的侵犯引發(fā)了大數(shù)據(jù)時(shí)代的安全問題,數(shù)據(jù)犯罪也成為亟待解決的問題。
大數(shù)據(jù)時(shí)代統(tǒng)計(jì)學(xué)上的挑戰(zhàn)
非結(jié)構(gòu)化數(shù)據(jù)的收集存儲(chǔ)與分析
迅速產(chǎn)生的海量數(shù)據(jù),價(jià)值密度低且復(fù)雜度高,其中75%以上為半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)。過去處理的數(shù)據(jù)對(duì)象都是有結(jié)構(gòu)的,使用關(guān)系數(shù)據(jù)庫存儲(chǔ)。但隨著社交網(wǎng)絡(luò)、移動(dòng)計(jì)算和傳感器等技術(shù)的發(fā)展,數(shù)據(jù)生成的方式更加多樣化,非結(jié)構(gòu)化數(shù)據(jù)占據(jù)了大數(shù)據(jù)的絕大部分。非結(jié)構(gòu)化數(shù)據(jù)當(dāng)中蘊(yùn)含著豐富的知識(shí),可能是多學(xué)科領(lǐng)域、多源的混合數(shù)據(jù)。但其也給數(shù)據(jù)分析與挖掘工作帶來了更大的挑戰(zhàn)。非結(jié)構(gòu)化數(shù)據(jù)涉及各種數(shù)據(jù)類型,包括文本、XML、 HTML、圖形、音視頻等。非結(jié)構(gòu)化數(shù)據(jù)具有異構(gòu)和可變的性質(zhì),結(jié)構(gòu)不規(guī)則或不完整,沒有預(yù)定義的數(shù)據(jù)模型,無法用傳統(tǒng)數(shù)據(jù)庫的二維邏輯表來表現(xiàn)。非結(jié)構(gòu)性數(shù)據(jù)中包含更多的無用信息,使得數(shù)據(jù)的存儲(chǔ)分析與挖掘更困難,提取有價(jià)值信息的成本上升。
大數(shù)據(jù)帶來的虛假知識(shí)
大數(shù)據(jù)是具有多源異構(gòu)性的、覆蓋不同范圍的數(shù)據(jù)。大數(shù)據(jù)的來源豐富多樣,在獲取時(shí)存在抽樣偏倚、有意無意的錯(cuò)誤、偶然或系統(tǒng)的誤差。數(shù)據(jù)收集的標(biāo)準(zhǔn)與分析和決策的準(zhǔn)則不同,有些數(shù)據(jù)不是原始數(shù)據(jù),而是基于現(xiàn)有原始數(shù)據(jù)的推斷,這些數(shù)據(jù)的反復(fù)使用會(huì)放大偏差,造成數(shù)據(jù)價(jià)值降低。海量數(shù)據(jù)本身數(shù)量多而價(jià)值密度低,而處理數(shù)據(jù)噪音的技術(shù)尚不成熟,大比例的含偏差數(shù)據(jù)將破壞信息的真實(shí)性。如此,正確處理的大數(shù)據(jù)也可能得到錯(cuò)誤結(jié)論和虛假知識(shí)。[2]
在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)的收集、建模和使用模型往往由不同的人進(jìn)行,他們可能并不清楚數(shù)據(jù)下一步將如何使用或者從何而來。當(dāng)這些環(huán)節(jié)中的人依照自身經(jīng)驗(yàn)有偏頗地解釋模型,而偏離了原始數(shù)據(jù)所涵蓋的信息范圍,數(shù)據(jù)在傳播過程中就失去了它的真實(shí)性。在獲取的數(shù)據(jù)時(shí)局限于獲取樣本的途徑,也可能存在選擇偏倚,研究樣本并不能代表研究總體。
不同學(xué)科領(lǐng)域有可能存在對(duì)同一現(xiàn)象或物質(zhì)的研究,但是他們關(guān)注的角度不同,收集方法不同,造成所得的具有重疊變量的數(shù)據(jù)集合,解釋的領(lǐng)域不同、具有不同背景的意義。數(shù)據(jù)自身攜帶的信息是有界限的,這就使得數(shù)據(jù)分析的結(jié)果是有適用范圍的。根據(jù)模型外延數(shù)據(jù)的信息,做出超出其本身的判斷,其實(shí)毫無意義。
大數(shù)據(jù)時(shí)代的隱私泄露問題
生活中網(wǎng)絡(luò)和傳感器是產(chǎn)生大數(shù)據(jù)的主要來源,包括瀏覽器cookies記錄的用戶上網(wǎng)瀏覽的足跡、社交平臺(tái)上用戶的通信方式和交流記錄、傳感器數(shù)據(jù)等。這些數(shù)據(jù)足跡具有累積性和關(guān)聯(lián)性,將聚集的多重?cái)?shù)據(jù)進(jìn)行分析,就足以挖掘出個(gè)人的隱私信息。如果有意竊取利用這些信息進(jìn)行欺詐等數(shù)據(jù)犯罪行為,將會(huì)給個(gè)人的生活帶來損失。
大數(shù)據(jù)時(shí)代,人們對(duì)便利性的需求越來越高,各類通訊、導(dǎo)航和傳感設(shè)備的位置感知技術(shù)更加深入。這些設(shè)備中的傳感芯片通過不同的方式獲取使用者的位置信息:比如,移動(dòng)通訊設(shè)備、導(dǎo)航等設(shè)備中內(nèi)置的GPS定位系統(tǒng)可以直接抓取移動(dòng)對(duì)象的活動(dòng)數(shù)據(jù),甚至通過各種途徑發(fā)布這些軌跡;另外,傳感設(shè)備例如手環(huán)、iWatch這類可穿戴設(shè)備,通過物聯(lián)網(wǎng)記錄的數(shù)據(jù)也隱含了使用者精確的地理位置信息。[3]
近七成的應(yīng)用軟件都會(huì)抓取用戶的位置信息,在首次打開軟件時(shí)要求用戶授權(quán)允許應(yīng)用軟件從后臺(tái)提取當(dāng)前的地理位置。為了保護(hù)自己的位置隱私,可以將權(quán)限改為永不或使用期間,避免發(fā)送含位置信息的圖片到社交網(wǎng)絡(luò)。
2016年4月,土耳其爆發(fā)重大數(shù)據(jù)泄露事件,近五千萬土耳其公民的個(gè)人信息遭到竊取,其中包括姓名、身份證號(hào)、家庭住址等敏感信息。還有轟動(dòng)一時(shí)的美國(guó)“棱鏡”計(jì)劃。信息隱私的頻頻泄露,引起人們的信息安全恐慌,暴露了目前數(shù)據(jù)信息的監(jiān)管力度不強(qiáng),隱私保護(hù)缺乏技術(shù)支持,監(jiān)管體系不健全,監(jiān)管制度極不完善甚至缺失等各方面的問題。
大數(shù)據(jù)時(shí)代國(guó)際關(guān)系的新挑戰(zhàn)
業(yè)界普遍認(rèn)為隨著大數(shù)據(jù)時(shí)代的來臨,第三次世界大戰(zhàn),將是一場(chǎng)基于互聯(lián)網(wǎng)、云計(jì)算的數(shù)據(jù)之戰(zhàn)。概括而言,大數(shù)據(jù)在國(guó)際關(guān)中扮演著越來越重要角色:大數(shù)據(jù)的價(jià)值成為衡量國(guó)際競(jìng)爭(zhēng)力的一個(gè)標(biāo)準(zhǔn);大數(shù)據(jù)是國(guó)家行使信息主權(quán)的基礎(chǔ);大數(shù)據(jù)的預(yù)測(cè)性功能對(duì)于國(guó)家安全有重要意義。
大數(shù)據(jù)蘊(yùn)含著豐富的政治經(jīng)濟(jì)文化社會(huì)信息,大數(shù)據(jù)作為信息載體,一個(gè)國(guó)家的科技發(fā)展、社會(huì)動(dòng)向、經(jīng)濟(jì)浮動(dòng)、軍事行動(dòng)、國(guó)家安全與威脅等信息皆可由大數(shù)據(jù)傳遞出來。數(shù)據(jù)主權(quán)將會(huì)作為國(guó)家主權(quán)的重要組成部分,對(duì)各國(guó)具有戰(zhàn)略性的意義。[4]
各國(guó)必須警惕國(guó)際社會(huì)中的數(shù)據(jù)霸權(quán)主義。美國(guó)在信息科技方面具有靈敏的嗅覺,試圖保持自身在大數(shù)據(jù)領(lǐng)域的優(yōu)勢(shì),掌握大數(shù)據(jù)相關(guān)技術(shù)的主導(dǎo)權(quán)。強(qiáng)大的搜索引擎如谷歌、必應(yīng)皆來自美國(guó),這些搜索引擎幾乎占據(jù)了全球市場(chǎng)。如此,全球范圍的海量數(shù)據(jù),都紛紛流向美國(guó)。2013年,前中情局職員愛德華·斯諾頓曝光了美國(guó)的“棱鏡”項(xiàng)目。該項(xiàng)目自2007年啟動(dòng),美國(guó)國(guó)家安全局和聯(lián)邦調(diào)查局通過微軟等九大數(shù)據(jù)服務(wù)商監(jiān)聽包含通信記錄、電子郵件等隱私數(shù)據(jù)。監(jiān)聽對(duì)象涵蓋美國(guó)公民和所有在全球范圍內(nèi)與美國(guó)公民進(jìn)行通訊交流的客戶。該事件曝光后全球一片嘩然,進(jìn)發(fā)了數(shù)據(jù)安全恐慌。在大數(shù)據(jù)時(shí)代,全知就意味著全能,收集、擁有更多的數(shù)據(jù),就會(huì)在數(shù)據(jù)戰(zhàn)爭(zhēng)中占據(jù)主動(dòng)。美國(guó)意欲何為,昭然若揭。
總結(jié)
大數(shù)據(jù)時(shí)代的來臨,是任何人不可阻擋的潮流。在巨大的經(jīng)濟(jì)效益和商業(yè)價(jià)值之下,仍隱藏著許多挑戰(zhàn)。由于大數(shù)據(jù)本身的特點(diǎn),帶給統(tǒng)計(jì)學(xué)意義上的技術(shù)挑戰(zhàn),在未來研究人員也將攻堅(jiān)克難,不斷發(fā)展大數(shù)據(jù)技術(shù)。國(guó)際關(guān)系當(dāng)中,各國(guó)需警惕大數(shù)據(jù)可能帶來的數(shù)據(jù)霸權(quán)的威脅,并需要在此問題上達(dá)成互利平等的共識(shí),以維系國(guó)際關(guān)系中平等、合作的原則。另外,信息隱私的泄露危機(jī)是大數(shù)據(jù)應(yīng)運(yùn)而生的副產(chǎn)品,大數(shù)據(jù)時(shí)代給人們帶來了隱私透明的安全威脅。本文總結(jié)了大數(shù)據(jù)時(shí)代面臨的嚴(yán)峻挑戰(zhàn),大數(shù)據(jù)技術(shù)仍有待完善領(lǐng)域但具備極大的發(fā)展?jié)摿?,期望學(xué)者能以此為參考為大數(shù)據(jù)未來提出有效的應(yīng)對(duì)策略。
參考文獻(xiàn):
[1]劉雅輝,張鐵贏,靳小龍,程學(xué)旗.大數(shù)據(jù)時(shí)代的個(gè)人隱私保護(hù)[J].計(jì)算機(jī)研究與發(fā)展,2015,52(1):229-247.
[2]耿直.大數(shù)據(jù)時(shí)代統(tǒng)計(jì)學(xué)面臨的機(jī)遇與挑戰(zhàn)[J].統(tǒng)計(jì)研究,2014,31(01):5-9.
[3]王璐,孟小峰.位置大數(shù)據(jù)隱私保護(hù)研究綜述[J].軟件學(xué)報(bào),2014,25(4):693-712.
[4]蔡翠紅.國(guó)際關(guān)系中的大數(shù)據(jù)變革及其挑戰(zhàn)[J].世界經(jīng)濟(jì)與政治,2014(5):124-143,159-160.
[作者簡(jiǎn)介]孫睿(1997-),女,山東泰安人,山東師范大學(xué)管理科學(xué)與工程學(xué)院,研究方向:大數(shù)據(jù)分析。