朱力維
摘要:文章首先描述了科技基礎(chǔ)條件平臺建設(shè)所面臨的大數(shù)據(jù)時(shí)代背景;然后對大數(shù)據(jù)背景對科技基礎(chǔ)條件平臺帶來的機(jī)遇和挑戰(zhàn)進(jìn)行了分析;最后,針對挑戰(zhàn)提出了應(yīng)對的解決方案。
關(guān)鍵詞:大數(shù)據(jù)背景;科技基礎(chǔ)條件平臺;數(shù)據(jù)挖掘;非結(jié)構(gòu)化數(shù)據(jù)
隨著知識經(jīng)濟(jì)的發(fā)展, 科技創(chuàng)新重要性日益顯現(xiàn)。支撐科技創(chuàng)新活動(dòng)的科技基礎(chǔ)條件資源已成為國家的重要戰(zhàn)略資源, 在國際競爭中具有重要的戰(zhàn)略地位。各國普遍把科技基礎(chǔ)條件平臺的建設(shè)、優(yōu)化和加強(qiáng)作為強(qiáng)化競爭優(yōu)勢的一項(xiàng)國策。在此背景下,2003年科技部會同有關(guān)部門啟動(dòng)了國家科技基礎(chǔ)條件平臺建設(shè)。根據(jù)《國家中長期科學(xué)和技術(shù)發(fā)展規(guī)劃綱要(2006~2020)》,國家科技基礎(chǔ)條件平臺就是充分運(yùn)用信息、網(wǎng)絡(luò)等現(xiàn)代技術(shù),由研究試驗(yàn)基地、大型科學(xué)設(shè)施和儀器設(shè)備、科學(xué)數(shù)據(jù)信息、自然科技資源等組成,對科技基礎(chǔ)條件資源進(jìn)行的戰(zhàn)略重組和系統(tǒng)優(yōu)化,建立以共享機(jī)制為核心、以資源整合為主要目標(biāo),從而促進(jìn)我國科技資源高效配置和綜合利用, 提高科技創(chuàng)新能力。
近年來,大數(shù)據(jù)(big data)一詞逐漸被人們接受,它是海量的結(jié)構(gòu)性與非結(jié)構(gòu)性數(shù)據(jù)的總和,具有數(shù)量大、實(shí)時(shí)性、多樣化的特點(diǎn)。它代表著信息爆炸時(shí)代產(chǎn)生的海量數(shù)據(jù),以及相關(guān)的技術(shù)發(fā)展與創(chuàng)新,對人們的工作和生活都產(chǎn)生了巨大的變化。大量結(jié)構(gòu)性和非結(jié)構(gòu)性數(shù)據(jù)的存在,使無論是商業(yè)、經(jīng)濟(jì)或者其它領(lǐng)域,基于經(jīng)驗(yàn)和直覺的判斷不再流行,數(shù)據(jù)和分析將成為決策行為的基礎(chǔ)。尋求解決問題的方法,不再是根據(jù)問題尋找數(shù)據(jù),而是如何從數(shù)據(jù)中發(fā)現(xiàn)問題,以何種思路做數(shù)據(jù)整理和分析。大數(shù)據(jù)背景也對我國科技基礎(chǔ)條件平臺的建設(shè)和發(fā)展帶來了新的機(jī)遇與挑戰(zhàn)。
一、大數(shù)據(jù)背景下科技基礎(chǔ)條件平臺建設(shè)的機(jī)遇
(一)科技基礎(chǔ)條件平臺建設(shè)的功能更容易實(shí)現(xiàn)
國家建設(shè)科技基礎(chǔ)條件平臺就是為了通過實(shí)現(xiàn)科技資源共享,打破科技資源分散、封閉和壟斷的狀況,在現(xiàn)有的基礎(chǔ)上對科技研究所需設(shè)施、器材、文獻(xiàn)和數(shù)據(jù)等資源進(jìn)行重組和優(yōu)化,構(gòu)筑科技創(chuàng)新資源服務(wù)的共享平臺。科技基礎(chǔ)條件平臺是一個(gè)信息收集、分享的平臺,利用信息具有的公共品屬性,更好地實(shí)現(xiàn)信息的價(jià)值??萍蓟A(chǔ)條件平臺的功能在大數(shù)據(jù)時(shí)代將更容易實(shí)現(xiàn),大數(shù)據(jù)時(shí)代的一個(gè)重要特征就是數(shù)據(jù)規(guī)模巨大且增長迅猛,伴隨著網(wǎng)絡(luò)時(shí)代的快速發(fā)展,各類企業(yè)數(shù)據(jù)增長迅猛,半結(jié)構(gòu)和非結(jié)構(gòu)化數(shù)據(jù)以幾何倍形式增長;數(shù)據(jù)來源的渠道也逐漸增多,網(wǎng)絡(luò)日志、社交媒體,以及遍布各地的傳感器網(wǎng)絡(luò)等都可以獲得大量的數(shù)據(jù)。這意味著科技基礎(chǔ)條件平臺收集數(shù)據(jù)、獲取信息、分享信息將更加便利,成本也更低。
(二)科技基礎(chǔ)平臺條件建設(shè)的必要性上升
大數(shù)據(jù)時(shí)代擁有數(shù)據(jù)量大、數(shù)據(jù)類型多和數(shù)據(jù)價(jià)值密度相對較低等特征,數(shù)據(jù)類型包括音頻、視頻、網(wǎng)絡(luò)日志、圖片和地理位置等信息,這些數(shù)據(jù)信息量很大,信息感知無處不在,但利用這些數(shù)據(jù)需要對它們進(jìn)行“提純”。以上特征對我們的數(shù)據(jù)駕馭能力發(fā)起了新的挑戰(zhàn),它要求有更強(qiáng)的數(shù)據(jù)處理能力和更好的分析方法。隨著大數(shù)據(jù)時(shí)代的發(fā)展,政府和企業(yè)等組織機(jī)構(gòu)也逐漸意識到數(shù)據(jù)和數(shù)據(jù)分析能力的重要性,前者正成為組織內(nèi)最重要的資產(chǎn),后者正成為組織的核心競爭力。但如何去培養(yǎng)和利用這種核心競爭力是一個(gè)新的問題。要應(yīng)對這種挑戰(zhàn)和解決這個(gè)問題,由各個(gè)組織、企業(yè)和機(jī)構(gòu)自行解決,那將得不償失。不僅數(shù)據(jù)本身具有公共品的特性,數(shù)據(jù)的處理、分析也具有相似的特性。通過科技基礎(chǔ)條件平臺在數(shù)據(jù)收集過程中,對數(shù)據(jù)進(jìn)行初步整理、分類、歸集、分析和處理,可以使各個(gè)組織、企業(yè)和機(jī)構(gòu)更便利搜索和利用數(shù)據(jù),從而節(jié)省大量的交易成本。這方面,美國已經(jīng)采取了類似的措施,2012年3月,奧巴馬政府宣布投資2億美元拉動(dòng)大數(shù)據(jù)相關(guān)產(chǎn)業(yè)發(fā)展,將“大數(shù)據(jù)戰(zhàn)略”上升為國家意志。奧巴馬政府以“未來的新石油”來定義數(shù)據(jù),明確表示未來國家的核心資產(chǎn)除陸權(quán)、海權(quán)、空權(quán)以外,還將包括對數(shù)據(jù)的占有和控制能力。
二、大數(shù)據(jù)背景對科技基礎(chǔ)條件平臺建設(shè)帶來的挑戰(zhàn)
(一)技術(shù)挑戰(zhàn)
大數(shù)據(jù)對科技基礎(chǔ)平臺條件技術(shù)的挑戰(zhàn),可以分為硬件和軟件兩方面,硬 件方面主要是大數(shù)據(jù)背景下,數(shù)據(jù)規(guī)模巨大且增長迅猛。從TB級別躍升到PB乃至EB級別,由此帶來存儲設(shè)備的要求,但更大的挑戰(zhàn)來自于后者。軟件的挑戰(zhàn)可以歸結(jié)為兩個(gè)方面:首先,分析工具尚未成熟。傳統(tǒng)分析工具主要用于結(jié)構(gòu)化數(shù)據(jù),可現(xiàn)在存在大量非結(jié)構(gòu)化數(shù)據(jù),同時(shí)數(shù)據(jù)的實(shí)時(shí)性需求上升。這些都要求針對大數(shù)據(jù)開發(fā)新的分析工具,但目前大部分與大數(shù)據(jù)相關(guān)的分析工具,尤其是非結(jié)構(gòu)化數(shù)據(jù)分析工具,往往是由致力于研究高效處理大容量信息的互聯(lián)網(wǎng)志愿者進(jìn)行開發(fā)。因此,與傳統(tǒng)數(shù)據(jù)庫和數(shù)據(jù)管理套件相比,大部分技術(shù)在成熟度和可訪問性等方面都還不夠完善,同時(shí)幫助其他數(shù)據(jù)分析人員熟悉的相關(guān)補(bǔ)充分析工具也很有限。其次,缺乏相關(guān)領(lǐng)域的技術(shù)人才儲備。大數(shù)據(jù)分析往往面對的是原始數(shù)據(jù),其中包括大量非結(jié)構(gòu)性數(shù)據(jù),分析也主要基于預(yù)言建?;蛭磥碲厔莘治觯瑢τ谶@種程序模型開發(fā)、應(yīng)用的要求比較高,一般業(yè)務(wù)用戶和傳統(tǒng)數(shù)據(jù)分析師也很難掌握。
(二)檢索、分析的挑戰(zhàn)
原有科技研究分析邏輯是從關(guān)系到數(shù)據(jù),現(xiàn)在相反,更多的是從大量數(shù)據(jù)中去發(fā)現(xiàn)問題。這種測量將令“錯(cuò)誤發(fā)現(xiàn)”的風(fēng)險(xiǎn)增長??萍蓟A(chǔ)條件平臺要幫助數(shù)據(jù)使用者去收集、分析和共享數(shù)據(jù),那么就要面臨數(shù)據(jù)分析的挑戰(zhàn)。這種挑戰(zhàn)來自于數(shù)據(jù)檢索和挖掘這兩方面。首先,在大數(shù)據(jù)時(shí)代下,數(shù)據(jù)和信息呈爆炸性增長,科技基礎(chǔ)條件平臺中也擁有了相對應(yīng)增長的信息。與過去信息貧乏的時(shí)代不同,信息泛濫同樣使科技基礎(chǔ)條件平臺數(shù)據(jù)的利用產(chǎn)生困難。相較之依靠手工、卡片檢索的過去,如今大數(shù)據(jù)時(shí)代隨著信息技術(shù)、數(shù)據(jù)庫和計(jì)算機(jī)輔助技術(shù)的發(fā)展,數(shù)據(jù)管理變得更加快捷方便,但也面臨由于數(shù)據(jù)和信息數(shù)量劇增帶來的數(shù)據(jù)“脹庫”的問題。往往由于需要的數(shù)據(jù)被埋沒在大量不需要的數(shù)據(jù)中,因此在數(shù)據(jù)檢索時(shí)性能急劇下降甚至無法響應(yīng)。所以建設(shè)科技基礎(chǔ)條件平臺首要問題就是如何讓使用者在“數(shù)據(jù)海洋”中準(zhǔn)確而快速地找到所需信息。其次,由于大數(shù)據(jù)時(shí)代,科技基礎(chǔ)條件平臺數(shù)據(jù)量非常大,數(shù)據(jù)密度相對就會比較低,如何在海量數(shù)據(jù)中幫助使用者更加便利地抽取和挖掘有用的數(shù)據(jù)和信息也是科技基礎(chǔ)條件平臺建設(shè)面臨的重要問題。在海量數(shù)據(jù)、半結(jié)構(gòu)、非結(jié)構(gòu)性數(shù)據(jù)盛行、數(shù)據(jù)來源多樣化的大數(shù)據(jù)時(shí)代,傳統(tǒng)的數(shù)據(jù)挖掘、分析工具已不能適應(yīng)需要,因此,在科技基礎(chǔ)條件平臺建設(shè)中對于適應(yīng)大數(shù)據(jù)時(shí)代數(shù)據(jù)挖掘、分析工具的開發(fā)變得非常重要。
(三)數(shù)據(jù)安全挑戰(zhàn)
在大數(shù)據(jù)時(shí)代,網(wǎng)絡(luò)攻擊、黑客和個(gè)體隱私問題都會給科技基礎(chǔ)條件平臺建設(shè)的數(shù)據(jù)帶來安全問題。首先,科技基礎(chǔ)條件平臺聚集了大量的數(shù)據(jù),這些數(shù)據(jù)可能是復(fù)雜、敏感的,它們都可能吸引更多的潛在攻擊者。同時(shí),數(shù)據(jù)的大量匯集,使得黑客成功攻擊一次就能獲得更多數(shù)據(jù),無形中降低了黑客的進(jìn)攻成本,增加其“收益率”。另外,現(xiàn)今黑客的組織能力、作案工具、作案手法及隱蔽程度比以前都更加厲害,這也使科技基礎(chǔ)條件平臺安全形勢更為嚴(yán)峻。最后,個(gè)體隱私泄露的風(fēng)險(xiǎn)也隨之而來。數(shù)據(jù)的集中存儲和部分敏感數(shù)據(jù)所有權(quán)和使用權(quán)尚未界定增加了個(gè)體隱私泄露的風(fēng)險(xiǎn)。
三、面對風(fēng)險(xiǎn),科技基礎(chǔ)條件平臺建設(shè)應(yīng)如何應(yīng)對
(一)應(yīng)對技術(shù)的挑戰(zhàn)
首先,科技基礎(chǔ)條件平臺建設(shè)應(yīng)該不斷對獲得的數(shù)據(jù)提純,以便簡化存儲,從而減輕硬件的壓力。一方面,大數(shù)據(jù)的價(jià)值密度低,要通過大量的分析提純工作才能找到有價(jià)值的數(shù)據(jù)。而從數(shù)據(jù)分析角度上看,數(shù)據(jù)新鮮程度與數(shù)據(jù)的價(jià)值是成正比的。其次,科技基礎(chǔ)條件平臺應(yīng)該重視開發(fā)更加強(qiáng)大且富有表現(xiàn)力的數(shù)據(jù)分析、處理工具,比如更好的編程語言支持,通過編寫簡短的程序就能清晰地表達(dá)出對數(shù)據(jù)的要求,以及能夠提供更好交互性的工具??梢暬瘮?shù)據(jù)分析工具的開發(fā)、應(yīng)用代表了這一方向。
(二)應(yīng)對檢索、分析的挑戰(zhàn)
由科技基礎(chǔ)條件平臺數(shù)據(jù)量大、形式多所帶來的查詢性能下降、無法查詢甚至無法響應(yīng)等問題,可以通過模式識別、數(shù)據(jù)挖掘等技術(shù)對非結(jié)構(gòu)化數(shù)據(jù)的開發(fā)和利用來解決。數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含的、事先未知的但有潛在應(yīng)用價(jià)值的信息和知識的過程,其包括結(jié)構(gòu)型數(shù)據(jù)挖掘、web 數(shù)據(jù)挖掘和文本數(shù)據(jù)挖掘等。針對數(shù)據(jù)特點(diǎn),科技基礎(chǔ)條件平臺開發(fā)、運(yùn)用相關(guān)數(shù)據(jù)挖掘工具,能幫助使用者在浩瀚的“數(shù)據(jù)海洋”中準(zhǔn)確而快速的找到有用信息,從而提高科技基礎(chǔ)條件平臺數(shù)據(jù)應(yīng)用效率,并從海量原始檔案數(shù)據(jù)中發(fā)掘出有價(jià)值的信息和知識。
(三)利用大數(shù)據(jù)為科技基礎(chǔ)條件平臺數(shù)據(jù)安全提供新支撐
大數(shù)據(jù)一方面對科技基礎(chǔ)條件平臺帶來信息風(fēng)險(xiǎn),另一方面,如果我們能妥善利用大數(shù)據(jù),它也能為科技基礎(chǔ)條件平臺的信息安全提供新機(jī)遇。科技基礎(chǔ)條件平臺服務(wù)商通過對海量數(shù)據(jù)的分析,能更好地刻畫外部數(shù)據(jù)異常行為,并從中找出數(shù)據(jù)風(fēng)險(xiǎn)點(diǎn)。通過追蹤以數(shù)據(jù)形式隱藏在大數(shù)據(jù)中網(wǎng)絡(luò)、黑客的攻擊行為,結(jié)合大數(shù)據(jù)整合技術(shù)找到攻擊源頭,能更有針對性地應(yīng)對外部數(shù)據(jù)安全威脅。
參考文獻(xiàn):
[1]范道寵.我國科技基礎(chǔ)條件平臺的運(yùn)行機(jī)理與機(jī)制建設(shè)研究[J].當(dāng)代經(jīng)濟(jì),2010(11).
[2]侯經(jīng)川等.大數(shù)據(jù)時(shí)代的數(shù)據(jù)引證研究:進(jìn)展與展望[J].中國圖書館學(xué)報(bào),2012(12).
[3]孟小峰等.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計(jì)算機(jī)研究與發(fā)展,2013(01).
(作者單位:國家測繪地理信息局管理信息中心)