徐維堅(jiān)
摘要:自2008年首次提出“大數(shù)據(jù)”概念以來,基于大數(shù)據(jù)的計(jì)算機(jī)信息處理技術(shù)日新月異,極大的豐富和改善了人們的生活方式。人們生活方式的改變又進(jìn)一步的促進(jìn)了大數(shù)據(jù)信息處理技術(shù)的發(fā)展,同時(shí)也對(duì)大數(shù)據(jù)信息安全提出了挑戰(zhàn)。本文從大數(shù)據(jù)的生命周期角度出發(fā),立足大數(shù)據(jù)的5V特征,系統(tǒng)研究了大數(shù)據(jù)各個(gè)生命周期環(huán)節(jié)中所使用的計(jì)算機(jī)信息處理技術(shù)和信息安全技術(shù),提出應(yīng)當(dāng)采用哪些技術(shù)來進(jìn)行大數(shù)據(jù)的分析和處理,并保證這些環(huán)節(jié)的大數(shù)據(jù)信息安全。最后,對(duì)大數(shù)據(jù)時(shí)代下所面臨的挑戰(zhàn),給出應(yīng)對(duì)措施,以提高企業(yè)機(jī)構(gòu)應(yīng)對(duì)風(fēng)險(xiǎn)和挑戰(zhàn)的能力,推動(dòng)大數(shù)據(jù)產(chǎn)業(yè)的發(fā)展和變革。
關(guān)鍵詞:大數(shù)據(jù);信息處理;生命周期;安全
Abstract:Since the concept of "big data" was first proposed in 2008,computer information processing technology based on big data has been changed rapidly,greatly enriching and improving people's way of life. The change of people's way of life has further promoted the development of big data information processing technology,but also challenged the security of big data information. Based on the 5V characteristics of big data from the perspective of the life cycle of big data,this paper systematically research the computer information processing technology and information security technology used in all stages of the life cycle of big data,and puts forward which technologies should be used for the analysis and processing of big data,and ensure the security of big data information in these stages. Finally,to improve the ability of enterprises to respond to risks and challenges,and promote the growth and transformation of the big data industry,I give some measures to address the challenges in the era of big data.
Keywords:Big data;information processing; life cycle; security
前言
2008年9月美國(guó)《自然》雜志??猅he Next Google,第一次正式提出“大數(shù)據(jù)”(Big Data)概念。在該專欄中,研究人員和商業(yè)人士為我們描述了未來十年影響人類的前瞻性技術(shù),其中很多已經(jīng)實(shí)現(xiàn)或是近似實(shí)現(xiàn),如電子閱讀器(ELECTRONIC PAPER)、VR設(shè)備(VIDEO VISORS)、語義分析與智能推薦(THE SEMANTIC WEB,BETTER BROWSERS)等。
但具體“大數(shù)據(jù)”所指是什么,尚沒有明確定義。直到2011年5月,麥肯錫研究院發(fā)布報(bào)告——Big data:The next frontier for innovation,competition,and productivity,才第一次給出了大數(shù)據(jù)較為清晰地定義:大數(shù)據(jù)是指其容量超出了常規(guī)數(shù)據(jù)庫大小的數(shù)據(jù)池,數(shù)據(jù)池中的數(shù)據(jù)可以被獲取、關(guān)聯(lián)、聚合、儲(chǔ)存和分析,已經(jīng)成為全球經(jīng)濟(jì)各個(gè)環(huán)節(jié)中的一部分。從該份報(bào)告中,我們可以看到,大數(shù)據(jù)在經(jīng)濟(jì)領(lǐng)域發(fā)揮著越來越重要的作用。
1 大數(shù)據(jù)時(shí)代中計(jì)算機(jī)信息處理技術(shù)
經(jīng)過這些年的發(fā)展,大數(shù)據(jù)的特征,也由早期的3V特征——規(guī)模大(Volume)、速度快或時(shí)效快(Velocity)和種類多(Variety),發(fā)展到現(xiàn)在的5V特征,增加了價(jià)值(Value)和可靠性(Veracity)兩個(gè)特性。這些特性反映了大數(shù)據(jù)技術(shù)的目的是:處理超大規(guī)模數(shù)據(jù),保證很高的時(shí)效性,從多樣的數(shù)據(jù)集中提取出有價(jià)值的數(shù)據(jù),并且確保原始數(shù)據(jù)的可靠性,從而產(chǎn)生有效益的創(chuàng)新數(shù)據(jù),來輔助觀察、決策和過程控制。
1.1 大數(shù)據(jù)采集技術(shù)
首先第一步,對(duì)“大數(shù)據(jù)”進(jìn)行數(shù)據(jù)采集。在采集過程中,首先面臨的難題是采集的數(shù)據(jù)體量非常巨大,即“大數(shù)據(jù)”的首個(gè)特征“規(guī)模大”。其次是數(shù)據(jù)類型豐富,結(jié)構(gòu)化、非結(jié)構(gòu)化、半結(jié)構(gòu)化的數(shù)據(jù)種類繁多,即第三個(gè)特征“種類多”。最后是數(shù)據(jù)以“分布式數(shù)據(jù)庫”形式存儲(chǔ)在不同形式的數(shù)據(jù)庫中,其時(shí)效性難以保持。傳統(tǒng)數(shù)據(jù)庫采集方式面對(duì)體量如此龐大、種類如此繁多的“大數(shù)據(jù)”難以勝任,越來越無法滿足大數(shù)據(jù)的采集要求。因此有必要使用新的采集方式來完成大數(shù)據(jù)的采集工作,當(dāng)前發(fā)展比較成熟的大數(shù)據(jù)采集技術(shù)有:
第一種,系統(tǒng)日志采集技術(shù)。如基于Hadoop的HDFS和Map Reduce構(gòu)建的Chukwa框架,它采用分布式架構(gòu),能滿足每秒數(shù)百M(fèi)B的日志采集和數(shù)據(jù)傳輸需求。很多企業(yè)的業(yè)務(wù)平臺(tái)使用該框架來處理每天產(chǎn)生的大量業(yè)務(wù)數(shù)據(jù),這些數(shù)據(jù)結(jié)構(gòu)化程度高,易于后續(xù)的數(shù)據(jù)處理與分析。
第二種,網(wǎng)絡(luò)數(shù)據(jù)采集技術(shù)。該技術(shù)是通過網(wǎng)絡(luò)爬蟲,或是通過一些公開的API接口來獲取網(wǎng)絡(luò)數(shù)據(jù)。但是網(wǎng)絡(luò)上獲取的數(shù)據(jù),大多以非機(jī)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù)居多。對(duì)于這些數(shù)據(jù),需要進(jìn)一步進(jìn)行處理。目前常用的網(wǎng)頁爬蟲技術(shù)有Apache Nutch、Scrapy、Crawler4j等框架,這些框架各有優(yōu)劣,需要工程師根據(jù)業(yè)務(wù)形式去取舍,或是進(jìn)行二次開發(fā)。但是爬蟲技術(shù)可能會(huì)遭到一些平臺(tái)的反爬限制,從而導(dǎo)致采集終止或是采集數(shù)據(jù)不理想,這個(gè)時(shí)候需要不定期變更代理服務(wù)器,避免被封。
第三種,數(shù)據(jù)庫采集技術(shù)。這種方法,多用于傳統(tǒng)的關(guān)系型數(shù)據(jù)庫,對(duì)已經(jīng)穩(wěn)定的系統(tǒng)或平臺(tái)友好,能夠保證企業(yè)每時(shí)每刻都能將產(chǎn)生大量的業(yè)務(wù)數(shù)據(jù)寫入到業(yè)務(wù)平臺(tái)數(shù)據(jù)庫中。使用這種方式的企業(yè),還需要建立相應(yīng)的數(shù)據(jù)倉庫、數(shù)據(jù)總線或是數(shù)據(jù)中臺(tái),以便進(jìn)行后續(xù)的大數(shù)據(jù)綜合分析和處理。
1.2 大數(shù)據(jù)預(yù)處理技術(shù)
對(duì)于采集的數(shù)據(jù),不能直接存入到數(shù)據(jù)庫或數(shù)據(jù)倉庫中,需要進(jìn)行數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)規(guī)約、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)離散化等步驟,將數(shù)據(jù)處理成可以用于數(shù)據(jù)挖掘的信息。由于獲取的數(shù)據(jù)量十分巨大,且數(shù)據(jù)結(jié)構(gòu)不完整、不一致、含臟數(shù)據(jù),所以在大數(shù)據(jù)預(yù)處理上將花費(fèi)大量的時(shí)間,大約需要占到整個(gè)數(shù)據(jù)挖掘過程中60%以上的時(shí)間[5]。
在數(shù)據(jù)清洗過程中,需要利用自動(dòng)填充空白值、緊鄰值補(bǔ)齊、貝葉斯公式等方法來填充缺省值。利用分箱技術(shù)(Binning)對(duì)數(shù)據(jù)進(jìn)行分類,識(shí)別出噪聲數(shù)據(jù)和離群數(shù)據(jù),然后對(duì)噪聲數(shù)據(jù)剔除,對(duì)離群數(shù)據(jù)進(jìn)行糾偏;或者利用回歸技術(shù)(Regression)對(duì)數(shù)據(jù)進(jìn)行擬合,平滑數(shù)據(jù),消除噪聲數(shù)據(jù)和離群數(shù)據(jù)的影響。最后對(duì)不一致的數(shù)據(jù)進(jìn)行糾錯(cuò)處理,輸出滿足“準(zhǔn)確性、完整性、一致性”要求的數(shù)據(jù)。
清洗完畢后,再對(duì)數(shù)據(jù)進(jìn)行集成和規(guī)約,該過程需要合并不同數(shù)據(jù)源,去除重復(fù)數(shù)據(jù)。接著對(duì)數(shù)據(jù)進(jìn)行歸一化、標(biāo)準(zhǔn)化和去中心化,消除不同數(shù)據(jù)源之間的差異,統(tǒng)一數(shù)據(jù)的屬性、度量單位、數(shù)據(jù)值范圍等。然后對(duì)數(shù)據(jù)進(jìn)行規(guī)約,需要用到的策略有:1)維規(guī)約,即減少隨機(jī)數(shù)據(jù),將數(shù)據(jù)投射到更小的空間,降低維度,具體方法有小波變換(WT)和主成分分析(PCA)技術(shù);2)數(shù)量規(guī)約,用較小的數(shù)據(jù)替代原始數(shù)據(jù),如抽樣和“數(shù)據(jù)立方體聚集”技術(shù)。
最后對(duì)規(guī)約好的數(shù)據(jù)進(jìn)行轉(zhuǎn)化和離散化,一般是將參與模型計(jì)算的分類數(shù)據(jù)和有序數(shù)據(jù)轉(zhuǎn)換成數(shù)值型數(shù)據(jù),將連續(xù)性數(shù)據(jù)離散化,方便模型計(jì)算。常用的方法有K-means聚類離散化算法和數(shù)據(jù)分箱算法。
1.3 大數(shù)據(jù)存儲(chǔ)技術(shù)
雖然預(yù)處理完畢的大數(shù)據(jù)相對(duì)于單個(gè)數(shù)據(jù)源來說,有一定程度的裁剪,但不同來源、不同形式的數(shù)據(jù)依然是海量數(shù)據(jù),傳統(tǒng)的數(shù)據(jù)庫存儲(chǔ)技術(shù)無法滿足如此海量數(shù)據(jù)存儲(chǔ)的要求。以分布式文件存儲(chǔ)為核心的HDFS存儲(chǔ)方式很好的解決了海量數(shù)據(jù)存儲(chǔ)的問題,已經(jīng)在被應(yīng)用到很多企業(yè)的大數(shù)據(jù)平臺(tái)上。隨著網(wǎng)絡(luò)存儲(chǔ)的不斷發(fā)展,以“云存儲(chǔ)”為代表的網(wǎng)絡(luò)分布式存儲(chǔ)方式正在被越來越多的中小企業(yè)所青睞。這些企業(yè)尚無能力建立起自己的大數(shù)據(jù)存儲(chǔ)平臺(tái),借助“阿里云”、“百度云”等云存儲(chǔ)技術(shù)可以快速實(shí)現(xiàn)自己的大數(shù)據(jù)存儲(chǔ)。“云存儲(chǔ)”充分發(fā)揮了網(wǎng)絡(luò)虛擬化技術(shù)的優(yōu)勢(shì),合理劃分、安裝及調(diào)度虛擬云服務(wù)器資源,提高了數(shù)據(jù)存儲(chǔ)和索引的速度,保證了大數(shù)據(jù)挖掘和分析的時(shí)效性。
1.4 大數(shù)據(jù)挖掘與分析
數(shù)據(jù)挖掘與數(shù)據(jù)分析是大數(shù)據(jù)處理流程中重要的一環(huán),也是體現(xiàn)大數(shù)據(jù)產(chǎn)價(jià)值的關(guān)鍵一環(huán)。數(shù)據(jù)挖掘,是從大數(shù)據(jù)中挖掘出隱藏其中的、不為人所知的、有潛在價(jià)值的、新穎的信息的過程,如經(jīng)典的“啤酒與尿布”的案例。該過程對(duì)技術(shù)水平、算法精通程度有很高要求,常用的挖掘算法有神經(jīng)網(wǎng)絡(luò)方法、遺傳算法、ID3決策樹、支持向量機(jī)和K近鄰分類算法(KNN)等。而數(shù)據(jù)分析,則側(cè)重于利用統(tǒng)計(jì)學(xué)知識(shí),從中提取有用信息,并形成結(jié)論,以輔助決策,更多是詳細(xì)研究和概括總結(jié)的過程,常用的分析方法有漏斗分析法、關(guān)聯(lián)規(guī)則、回歸分析、指標(biāo)分析等方法。
1.5 大數(shù)據(jù)可視化與應(yīng)用
最后,將從大數(shù)據(jù)中挖掘出來的信息和分析提取而來的信息,通過可視化相關(guān)技術(shù),呈現(xiàn)給用戶(尤其是決策者),以幫助其在紛繁復(fù)雜的大數(shù)據(jù)面前,能有效的抓住核心價(jià)值信息,提高其管理水平,幫助其挖掘更多的商業(yè)價(jià)值,做出更正確的決策。目前國(guó)內(nèi)外很多企業(yè),都在建設(shè)自己的大數(shù)據(jù)可視化平臺(tái),其中較為成熟的可視化平臺(tái)形式有BI系統(tǒng)和數(shù)字孿生技術(shù)。其中BI系統(tǒng)是通過建立數(shù)據(jù)模型,建立關(guān)鍵指標(biāo),以圖表、2D/3D地圖、指標(biāo)數(shù)據(jù)等形式,來展現(xiàn)業(yè)務(wù)的監(jiān)測(cè)情況和研判結(jié)果,并提供智能預(yù)測(cè),如由蘭州大學(xué)自主研發(fā)的“新冠肺炎疫情全球預(yù)測(cè)系統(tǒng)”。
2 大數(shù)據(jù)時(shí)代下信息安全技術(shù)研究
上一章節(jié)系統(tǒng)闡述了大數(shù)據(jù)信息處理各個(gè)階段的關(guān)鍵技術(shù)和方案,按照上述流程可以較好的完成大數(shù)據(jù)的采集、處理和分析等工作,但是不能保證各個(gè)環(huán)節(jié)的數(shù)據(jù)安全、網(wǎng)絡(luò)安全和信息安全?,F(xiàn)今頻頻發(fā)生的數(shù)據(jù)泄漏和黑客攻擊時(shí)間,嚴(yán)重降低了人們對(duì)大數(shù)據(jù)技術(shù)的信任,使得人們對(duì)大數(shù)據(jù)技術(shù)的安全產(chǎn)生了懷疑,影響了大數(shù)據(jù)的發(fā)展進(jìn)程。本章節(jié)將系統(tǒng)分析大數(shù)據(jù)生命周期中關(guān)鍵的安全技術(shù)。
2.1 大數(shù)據(jù)采集安全技術(shù)
大數(shù)據(jù)采集作為大數(shù)據(jù)生命周期中第一步,其安全技術(shù)至關(guān)重要,決定了數(shù)據(jù)的質(zhì)量和可信程度。上一章節(jié)中,我們提到三種采集技術(shù):系統(tǒng)日志采集方法、網(wǎng)絡(luò)數(shù)據(jù)采集方法、數(shù)據(jù)庫采集方法。
第一種和第三種采集方法,主要來源于企業(yè)自有平臺(tái)或可信的外部系統(tǒng),傳統(tǒng)的安全技術(shù),如防火墻技術(shù)和虛擬專用網(wǎng)絡(luò)技術(shù),可以有效的保證大數(shù)據(jù)采集的安全。其中常用的SSL VPN技術(shù)可以進(jìn)行數(shù)據(jù)加密、完整性檢測(cè)和身份認(rèn)證,配置簡(jiǎn)單,無需安裝特定軟件,可有效保護(hù)局域網(wǎng)內(nèi)的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),保證數(shù)據(jù)在安全通道中流通,保證大數(shù)據(jù)采集的安全。
但是第二種方式,網(wǎng)絡(luò)數(shù)據(jù)采集方法,由于采集的數(shù)據(jù)量大、來源多、種類復(fù)雜,且無法保證數(shù)據(jù)的真實(shí)性和完整性,也無法有效識(shí)別并剔除掉其中虛假或惡意的信息。一旦大數(shù)據(jù)采集器被黑客攻擊,注入臟數(shù)據(jù),當(dāng)其注入的臟數(shù)據(jù)達(dá)到一定規(guī)模后,將會(huì)將數(shù)據(jù)分析引入歧途,從而對(duì)大數(shù)據(jù)使用者造成誤判,導(dǎo)致其出現(xiàn)損失。這種攻擊手段比較隱晦,短時(shí)間難以發(fā)現(xiàn)。第二種采集方式所面臨的問題,目前尚無比較有效的技術(shù)來有效防范。不過,我們?nèi)匀豢梢酝ㄟ^一些舉措來加以控制。本人認(rèn)為,可以采用“評(píng)分等級(jí)”來控制,具體步驟為:1)首先對(duì)所涉及到的數(shù)據(jù)源,進(jìn)行量化評(píng)級(jí)。級(jí)別越高,表示該數(shù)據(jù)源質(zhì)量高、可信度高、安全系數(shù)高,對(duì)應(yīng)將其采集權(quán)重設(shè)置的更高。2)對(duì)相同評(píng)級(jí)的數(shù)據(jù)源,進(jìn)行相互補(bǔ)充,相互印證。出現(xiàn)矛盾數(shù)據(jù)時(shí),哪個(gè)更貼近更高級(jí)別的數(shù)據(jù)范圍,就保留哪個(gè)數(shù)據(jù)。3)對(duì)于無法印證其來源的數(shù)據(jù),視為孤立點(diǎn),予以剔除。當(dāng)然上述實(shí)施方案,不能完全依賴于機(jī)器自動(dòng)識(shí)別,必要時(shí)可以人工介入,及時(shí)調(diào)整數(shù)據(jù)源的等級(jí)權(quán)重,避免受到極值干擾。
2.2 大數(shù)據(jù)預(yù)處理安全技術(shù)
在大數(shù)據(jù)預(yù)處理階段,重點(diǎn)是需要保證數(shù)據(jù)的質(zhì)量。數(shù)據(jù)質(zhì)量的好壞直接影響后續(xù)的數(shù)據(jù)分析與挖掘。如何保證數(shù)據(jù)的質(zhì)量,關(guān)鍵是在數(shù)據(jù)清洗、集成、規(guī)約、轉(zhuǎn)化和離散化過程中,保證“不一致校驗(yàn)”有效。目前較為有效的方式有:1)分布式違反條件函數(shù)依賴(CDF)檢測(cè)方法;2)判斷導(dǎo)致數(shù)據(jù)質(zhì)量問題的原因是數(shù)據(jù)一致性還是約束一致性。
另外,在大數(shù)據(jù)預(yù)處理階段,有一些數(shù)據(jù)需要加密處理,如個(gè)人敏感數(shù)據(jù)、企業(yè)機(jī)構(gòu)機(jī)密數(shù)據(jù)、公共安全數(shù)據(jù)(如小區(qū)攝像頭位置與生產(chǎn)廠商等敏感數(shù)據(jù))等,需要進(jìn)行脫敏處理。數(shù)據(jù)脫敏,簡(jiǎn)而言之就是對(duì)敏感數(shù)據(jù)屬性進(jìn)行轉(zhuǎn)化,使得該部分原始數(shù)據(jù)失真,但其他數(shù)據(jù)和其他屬性不受干擾,也不影響候選數(shù)據(jù)的分析與處理,從而達(dá)到保護(hù)的目的。該過程,可以用對(duì)稱或非對(duì)稱加密技術(shù)實(shí)現(xiàn),也可以用隨機(jī)數(shù)或特殊字符來進(jìn)行數(shù)據(jù)脫敏,前者可以讓授信方通過解密查看,而后者則會(huì)丟失原始數(shù)據(jù),有一定的局限性。
2.3 大數(shù)據(jù)存儲(chǔ)安全技術(shù)
在大數(shù)據(jù)存儲(chǔ)階段,需要保證分布式數(shù)據(jù)庫、數(shù)據(jù)倉庫和云存儲(chǔ)等大數(shù)據(jù)存儲(chǔ)的安全。這一階段除了在物理層面上保證數(shù)據(jù)存儲(chǔ)設(shè)備的安全外,還需要保證數(shù)據(jù)存儲(chǔ)、變更、訪問等過程中的安全。
對(duì)于數(shù)據(jù)存儲(chǔ),需要建立完備的數(shù)據(jù)備份和數(shù)據(jù)恢復(fù)機(jī)制,來保證機(jī)器發(fā)生故障時(shí),能夠快速恢復(fù)數(shù)據(jù)。常用的方式有異地備份,建立數(shù)據(jù)鏡像,對(duì)數(shù)據(jù)進(jìn)行定期快照。
對(duì)于數(shù)據(jù)變更和訪問過程,需要設(shè)立安全可靠的訪問機(jī)制??梢酝ㄟ^Kerberos認(rèn)證、PKI公鑰認(rèn)證、動(dòng)態(tài)口令等技術(shù)來確保訪問者是可信用戶。其中動(dòng)態(tài)口令認(rèn)證機(jī)制,能有效解決了靜態(tài)口令不安全的的問題,其基本原理是:在客戶端登錄時(shí),通過秘密通行短語(SPP,Secure Pass Phrase)來加入不確定因素,保證用戶每次認(rèn)證的數(shù)據(jù)都不相同,有效提高身份認(rèn)證安全性。
同時(shí)設(shè)計(jì)合理的權(quán)限管理機(jī)制,對(duì)大數(shù)據(jù)訪問的粒度進(jìn)行控制。常用的技術(shù)方案有:1)基于屬性加密的訪問控制,該方式是利用密文機(jī)制來控制訪問客體,如用于訪問靜態(tài)數(shù)據(jù)的KP-ABE算法(基于密鑰策略的屬性加密),以及用于云計(jì)算的CP-ABE算法(基于密文策略的屬性加密);2)基于角色的訪問控制,該方式通過將用戶劃分成不同角色,每個(gè)角色給予不同的訪問權(quán)限;該方式是通過建立數(shù)據(jù)信任模型來控制數(shù)據(jù)在安全范圍內(nèi)進(jìn)行訪問,保證了即使出現(xiàn)“內(nèi)鬼”,數(shù)據(jù)也不至于被大量泄漏。
3 大數(shù)據(jù)時(shí)代信息處理技術(shù)面臨的挑戰(zhàn)和應(yīng)對(duì)措施
大數(shù)據(jù)發(fā)展至今,已經(jīng)有十余個(gè)年頭,期間不斷出現(xiàn)新的問題、新的挑戰(zhàn)、新的突破。其中主要的問題和挑戰(zhàn),有以下幾個(gè)方面。
3.1 大數(shù)據(jù)信息質(zhì)量堪憂
由于目前大數(shù)據(jù)研究還處于發(fā)展階段,各行各業(yè)的大數(shù)據(jù)應(yīng)用參差不齊,所使用的技術(shù)也是良莠不齊,導(dǎo)致大數(shù)據(jù)在采集和處理過程中,很難保證大數(shù)據(jù)的信息質(zhì)量。前文提到在大數(shù)據(jù)的采集和預(yù)處理階段,需要采用分箱技術(shù)或是線性回歸等技術(shù)對(duì)數(shù)據(jù)進(jìn)行清洗。這在一定程度上可以提高大數(shù)據(jù)的質(zhì)量,但仍然不能保證所有的數(shù)據(jù)都能達(dá)到準(zhǔn)確性、一致性和有效性的三個(gè)要求。因此,學(xué)術(shù)界和產(chǎn)業(yè)界需要在這些方面不斷優(yōu)化算法,調(diào)整模型,改善方法,以進(jìn)一步提高所處理的大數(shù)據(jù)信息質(zhì)量。
3.2 信息安全問題日益突出
當(dāng)前大數(shù)據(jù)信息處理技術(shù)還不夠成熟,技術(shù)實(shí)現(xiàn)上還不夠完善,一些大數(shù)據(jù)技術(shù)框架還存在漏洞。如2017年,Hadoop提權(quán)漏洞CVE-2017-7669,導(dǎo)致黑客可以拿到Root權(quán)限(最高權(quán)限)。除此之外,還有一些大數(shù)據(jù)安全事故是由于疏于安全管理,導(dǎo)致安全制度形同虛設(shè)。如數(shù)據(jù)分析公司Polecat今年近30TB業(yè)務(wù)數(shù)據(jù)遭到破壞,其根源是該公司一臺(tái)存儲(chǔ)了大量員工用戶名和密碼的ES服務(wù)器竟然沒有任何身份驗(yàn)證或其他加密措施的保護(hù)。再有一些公司或者企事內(nèi)部員工為了自己的私利,利用自身技術(shù)手段或特殊權(quán)限,非法獲取用戶敏感信息,或倒賣用戶個(gè)人信息獲利,如2017年京東內(nèi)部員工涉嫌竊取50億條用戶數(shù)據(jù)案件。
為了解決上述問題,需要研究人員不斷加大大數(shù)據(jù)安全技術(shù)的研究和應(yīng)用,不斷完善現(xiàn)有數(shù)據(jù)安全技術(shù)。同時(shí),企業(yè)和機(jī)構(gòu)需要建立起嚴(yán)格有效的大數(shù)據(jù)安全體系。建立大數(shù)據(jù)安全體系,一是要政府和職能機(jī)關(guān)發(fā)揮監(jiān)督監(jiān)管作用,加大大數(shù)據(jù)方面法律、法規(guī)和標(biāo)準(zhǔn)的制定,約束大數(shù)據(jù)各個(gè)環(huán)節(jié)中的行為,對(duì)不符合法律法規(guī)的大數(shù)據(jù)信息處理行為進(jìn)行有效懲戒,同時(shí)制定相應(yīng)的大數(shù)據(jù)安全標(biāo)準(zhǔn),促進(jìn)大數(shù)據(jù)的發(fā)展;二是企業(yè)和機(jī)構(gòu)加大大數(shù)據(jù)的安全審計(jì)力度和審計(jì)技術(shù)的研發(fā),利用基于日志、基于網(wǎng)絡(luò)監(jiān)聽、基于網(wǎng)關(guān)等審計(jì)技術(shù),來監(jiān)控大數(shù)據(jù)處理活動(dòng),及時(shí)發(fā)現(xiàn)隱患,避免出現(xiàn)事故。
3.3 人才發(fā)展不均衡
當(dāng)今世界,技術(shù)發(fā)展日新月異,競(jìng)爭(zhēng)日益激烈。說到底是人才的競(jìng)爭(zhēng),科技的競(jìng)爭(zhēng)。當(dāng)前國(guó)內(nèi)大數(shù)據(jù)從業(yè)人才嚴(yán)重匱乏,與國(guó)外相比,國(guó)內(nèi)從業(yè)人員專業(yè)化程度較低,技術(shù)技能還存在較大差距。大數(shù)據(jù)的關(guān)鍵不是信息采集和信息本身,而是大數(shù)據(jù)的分析和處理的過程,這個(gè)過程依賴于從業(yè)人員的專業(yè)素養(yǎng)。若沒有一支專業(yè)化的人才隊(duì)伍,就如沒有良好設(shè)備的掘金者一樣,只能望“礦”興嘆,那大數(shù)據(jù)信息處理技術(shù)和安全技術(shù)也就無從談起。而建設(shè)這樣一支人才隊(duì)伍,需要社會(huì)各界共同努力。學(xué)校和科研機(jī)構(gòu)應(yīng)當(dāng)建立或完善大數(shù)據(jù)相關(guān)專業(yè)的培養(yǎng)方案,政府可以給大數(shù)據(jù)企業(yè)、機(jī)構(gòu)和人才提供一定程度的政策傾斜,社會(huì)各界提倡良好的人才觀,避免過分追逐熱門專業(yè),而忽視了基礎(chǔ)學(xué)科、關(guān)鍵技術(shù)和重要領(lǐng)域的建設(shè)與發(fā)展,保證人才均衡可持續(xù)發(fā)展。
4 大數(shù)據(jù)時(shí)代下計(jì)算機(jī)信息處理技術(shù)展望
未來,大數(shù)據(jù)發(fā)展方向如何,學(xué)術(shù)界和產(chǎn)業(yè)界看法不一。雖然眾說紛紜,但下面幾個(gè)發(fā)展方向,在未來定會(huì)得到更大的發(fā)展:1)大數(shù)據(jù)基礎(chǔ)研究得到突破,在大數(shù)據(jù)信息處理技術(shù)層面不斷涌現(xiàn)新的算法、規(guī)則和技術(shù)方案,例如云計(jì)算方向的發(fā)展;2)大數(shù)據(jù)系統(tǒng)工程不斷改善,涌現(xiàn)出一批優(yōu)秀的大數(shù)據(jù)技術(shù)工具和框架,為大數(shù)據(jù)的分析和處理奠定堅(jiān)實(shí)基礎(chǔ);3)大數(shù)據(jù)安全技術(shù)得到有效發(fā)展,更多安全可靠的安全技術(shù)被應(yīng)用到大數(shù)據(jù)信息處理技術(shù)中。除此之外,大數(shù)據(jù)與經(jīng)濟(jì)、大數(shù)據(jù)與社會(huì)、大數(shù)據(jù)與道德法律等交叉學(xué)科的研究也會(huì)得到長(zhǎng)足發(fā)展,進(jìn)而推動(dòng)大數(shù)據(jù)的技術(shù)創(chuàng)新、思想創(chuàng)新、制度創(chuàng)新。
5 結(jié)語
總之,當(dāng)今大數(shù)據(jù)時(shí)代的迅猛發(fā)展,使得人們的生產(chǎn)生活方式越來越智能、越來越豐富、越來越便捷。同時(shí),人們?nèi)招略庐惖纳a(chǎn)生活方式所創(chuàng)建的豐富的、多樣的、海量的數(shù)據(jù),反過來進(jìn)一步促進(jìn)了大數(shù)據(jù)的信息處理技術(shù)的發(fā)展。兩者相輔相成,相互促進(jìn),共同發(fā)展。在這相互促進(jìn)的發(fā)展過程中,學(xué)術(shù)界和產(chǎn)業(yè)界應(yīng)當(dāng)抓住機(jī)遇,克服困難,加大大數(shù)據(jù)的信息處理技術(shù)和安全技術(shù)的研發(fā)力度,加大大數(shù)據(jù)產(chǎn)業(yè)的建立力度,努力建設(shè)一批思想先進(jìn)、技術(shù)專業(yè)、符合國(guó)家戰(zhàn)略發(fā)展的高素質(zhì)人才隊(duì)伍,不斷推動(dòng)大數(shù)據(jù)的健康、安全、穩(wěn)定發(fā)展。
參考文獻(xiàn):
[1]Big data:The next Google. Nature 455,8–9 (2008).
[2]Manyika,J.. “Big data:The next frontier for innovation,competition,and productivity.” (2011).
[3]Y. Demchenko,C. de Laat and P. Membrey,"Defining architecture components of the Big Data Ecosystem," 2014 International Conference on Collaboration Technologies and Systems (CTS),2014,pp. 104-112,doi:10.1109/CTS.2014.6867550.
[4]大數(shù)據(jù)觀察. 大數(shù)據(jù)采集技術(shù)綜述[EB/OL]. 2018[2021-10-10]. https://cloud.tencent.com/developer/news/305675.
[5]觀向數(shù)據(jù). 大數(shù)據(jù)關(guān)鍵技術(shù)——數(shù)據(jù)預(yù)處理[EB/OL]. 2018[2021-10-10]. https://cloud.tencent.com/developer/news/312404.
[6]陳興蜀,楊露,羅永剛. 大數(shù)據(jù)安全保護(hù)技術(shù)[J]. 工程科學(xué)與技術(shù),2017,49(5):1-12.
[7]Luminous. 大數(shù)據(jù)安全核心技術(shù)[EB/OL]. 2020[2022-10-10]. https://www.cnblogs.com/nongchaoer/p/12201559.html.
[8]Chen Yanli,Song Lingling,Yang Geng.Attribute-based access control for multi-authority systems with constant size ciphertext in cloud computing[J].China Communications,2016,13(2):146–162.
[9]Zhou Lan,Varadharajan V,Hitchens M.Enforcing role-based access control for secure data storage in the cloud[J].The Computer Journal,2011,54(10):1675–1687.
[10]孫紅梅,賈瑞生. 大數(shù)據(jù)背景下企業(yè)網(wǎng)絡(luò)信息安全技術(shù)體系研究[J]. 通信技術(shù),2017,50(2):334-339. DOI:10.3969/j.issn.1002-0802.2017.02.023.