海麗 吳雙江 滿文匯
摘 要 本文梳理了網(wǎng)絡(luò)大數(shù)據(jù)研究的意義,從網(wǎng)絡(luò)大數(shù)據(jù)的復(fù)雜性、不確定性和涌現(xiàn)性3個方面展開討論,詳細分析了這些特征,給網(wǎng)絡(luò)大數(shù)據(jù)的深度分析和價值利用帶來一定的影響。
關(guān)鍵詞 網(wǎng)絡(luò)大數(shù)據(jù) 意義 特征
中圖分類號:TP393.09 文獻標(biāo)識碼:A
近年來,隨著互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、云計算、三網(wǎng)融合等IT與通信技術(shù)的迅猛發(fā)展,數(shù)據(jù)的快速增長成了許多行業(yè)共同面對的嚴峻挑戰(zhàn)和寶貴機遇,因而信息社會已經(jīng)進入了大數(shù)據(jù)(Big Data)時代。網(wǎng)絡(luò)大數(shù)據(jù)是指“人、機、物”三元世界在網(wǎng)絡(luò)空間(Cyberspace)中彼此交互與融合所產(chǎn)生并在互聯(lián)網(wǎng)上可獲得的大數(shù)據(jù),簡稱網(wǎng)絡(luò)數(shù)據(jù)。網(wǎng)絡(luò)大數(shù)據(jù)研究的意義總體而言體現(xiàn)在以下幾個方面。
1網(wǎng)絡(luò)大數(shù)據(jù)研究的意義
(1)網(wǎng)絡(luò)大數(shù)據(jù)的研究對捍衛(wèi)國家網(wǎng)絡(luò)空間的數(shù)字主權(quán),維護社會穩(wěn)定,推動社會與經(jīng)濟可持續(xù)發(fā)展有著獨特的作用。信息化時代,國家層面的競爭力將部分體現(xiàn)為一國擁有網(wǎng)絡(luò)大數(shù)據(jù)的規(guī)模、活性以及對數(shù)據(jù)的解釋與運用的能力。在網(wǎng)絡(luò)大數(shù)據(jù)領(lǐng)域的落后,意味著失守產(chǎn)業(yè)戰(zhàn)略制高點,意味著國家安全將在網(wǎng)絡(luò)空間出現(xiàn)漏洞。
(2)大數(shù)據(jù)引起了學(xué)術(shù)界對科學(xué)研究方法論的重新審視,正在引發(fā)科學(xué)研究思維與方法的一場革命。大數(shù)據(jù)的出現(xiàn)催生了一種新的科研模式,即面對大數(shù)據(jù),科研人員只需從數(shù)據(jù)中直接查找、分析或挖掘所需要的信息、知識和智慧,甚至無需直接接觸需研究的對象,但大數(shù)據(jù)的應(yīng)用前景毋庸置疑,因為大數(shù)據(jù)從根本上來說就是來源于應(yīng)用的問題。
2網(wǎng)絡(luò)大數(shù)據(jù)帶來的特征
2.1 網(wǎng)絡(luò)大數(shù)據(jù)的復(fù)雜性
網(wǎng)絡(luò)大數(shù)據(jù)的復(fù)雜性主要包括數(shù)據(jù)類型的復(fù)雜性、數(shù)據(jù)結(jié)構(gòu)的復(fù)雜性和數(shù)據(jù)內(nèi)在模式的復(fù)雜性。
(1)數(shù)據(jù)類型復(fù)雜性。信息技術(shù)的發(fā)展使得數(shù)據(jù)產(chǎn)生的途徑不斷增加,數(shù)據(jù)類型持續(xù)增多。相應(yīng)地,則需要開發(fā)新的數(shù)據(jù)采集、存儲與處理技術(shù)。相關(guān)的研究包括利用外部數(shù)據(jù)源、搜索結(jié)果等擴充文檔,或者利用內(nèi)部相似文檔信息來擴充短文本的表達。然而,無論是利用外部數(shù)據(jù),還是利用內(nèi)部數(shù)據(jù),都可能引入更多的噪聲。
(2)數(shù)據(jù)結(jié)構(gòu)的復(fù)雜性。傳統(tǒng)上處理的數(shù)據(jù)對象都是有結(jié)構(gòu)的,能夠存儲到關(guān)系數(shù)據(jù)庫中。但隨著數(shù)據(jù)生成方式的多樣化,非結(jié)構(gòu)化數(shù)據(jù)成為大數(shù)據(jù)的主流形式。與結(jié)構(gòu)化的數(shù)據(jù)相比,非結(jié)構(gòu)化數(shù)據(jù)相對組織凌亂,包含更多的無用信息,給數(shù)據(jù)的存儲與分析帶來很大的困難。對非結(jié)構(gòu)化數(shù)據(jù)做基本的分析工作國內(nèi)各大公司和科研單位也啟動了用于支撐非結(jié)構(gòu)化處理的基礎(chǔ)設(shè)施研發(fā)。
2.2 網(wǎng)絡(luò)大數(shù)據(jù)的不確定性
網(wǎng)絡(luò)數(shù)據(jù)的不確定性包括數(shù)據(jù)本身的不確定性、模型的不確定性和學(xué)習(xí)的不確定性。
(1)數(shù)據(jù)的不確定性。原始數(shù)據(jù)的不準(zhǔn)確以及數(shù)據(jù)采集處理粒度、應(yīng)用需求與數(shù)據(jù)集成和展示等因素使得數(shù)據(jù)在不同維度、不同尺度上都有不同程度的不確定性。傳統(tǒng)側(cè)重于準(zhǔn)確性數(shù)據(jù)的處理方法,難以應(yīng)對海量、高維、多類型的不確定性數(shù)據(jù)。
(2)模型的不確定性。數(shù)據(jù)的不確定性要求對數(shù)據(jù)的處理方式能夠提出新的模型方法,并能夠把握模型的表達能力與復(fù)雜程度之間的平衡。該種模型過于復(fù)雜,難以用一種通用的模型結(jié)構(gòu)來適應(yīng)具體的應(yīng)用需求。在實際應(yīng)用中,我們往往采取簡化的模型刻畫不確定性數(shù)據(jù)的特性。另外,在數(shù)據(jù)的管理和挖掘上面,不確定性模型的構(gòu)建應(yīng)當(dāng)考慮到數(shù)據(jù)的查詢、檢索、傳輸、展示等方面的影響。
2.3 網(wǎng)絡(luò)大數(shù)據(jù)的涌現(xiàn)性
涌現(xiàn)性是網(wǎng)絡(luò)數(shù)據(jù)有別于其它數(shù)據(jù)的關(guān)鍵特性。涌現(xiàn)性在度量、研判與預(yù)測上的困難使得網(wǎng)絡(luò)數(shù)據(jù)難以被駕馭。網(wǎng)絡(luò)數(shù)據(jù)的涌現(xiàn)性主要表現(xiàn)為模式的涌現(xiàn)性、行為的涌現(xiàn)性和智慧的涌現(xiàn)性。
(1)行為的涌現(xiàn)性。隨著數(shù)據(jù)采集技術(shù)的不斷發(fā)展,人們得到的很多數(shù)據(jù)都具有時序性,而社會網(wǎng)絡(luò)中個體行為的涌現(xiàn)性則是基于數(shù)據(jù)時序分布的統(tǒng)計結(jié)果。網(wǎng)絡(luò)在演化過程中會自發(fā)地形成相互分離的連通塊,這一個體行為涌現(xiàn)的結(jié)果不依賴于初始網(wǎng)絡(luò)的拓撲結(jié)構(gòu),對于研究更多的社會網(wǎng)絡(luò)模型和理解行為涌現(xiàn)的規(guī)律具有重要意義。
(2)智慧的涌現(xiàn)性。網(wǎng)絡(luò)數(shù)據(jù)在沒有全局控制和預(yù)先定義的情況下,通過對來自大量自發(fā)個體的語義進行互相融合和連接而形成語義,整個過程隨著數(shù)據(jù)的變化而持續(xù)演進,從而形成網(wǎng)絡(luò)數(shù)據(jù)的智慧涌現(xiàn)。因此,網(wǎng)絡(luò)大數(shù)據(jù)的研究需要一套全新的理論和方法來進行方向性的指導(dǎo)。
3總結(jié)
“人、機、物”三元世界融合的網(wǎng)絡(luò)空間(Cyber-space)中的網(wǎng)絡(luò)大數(shù)據(jù)越來越顯示出巨大的影響作用,正在改變著人們的工作與生活。網(wǎng)絡(luò)大數(shù)據(jù)存在復(fù)雜性、不確定性和涌現(xiàn)性等顯著特征.總之,與傳統(tǒng)研究工作相比,網(wǎng)絡(luò)大數(shù)據(jù)在各個層面的差異都非常顯著。盡管目前已經(jīng)有一些探索性的研究工作,但是總體上來說,網(wǎng)絡(luò)大數(shù)據(jù)的研究還很年輕,尚有諸多問題亟待解決。
參考文獻
[1] 劉津璐,曲海英.淺談大數(shù)據(jù)時代的經(jīng)濟變革[J].經(jīng)濟論叢,2015:212.
[2] 黃欣榮.大數(shù)據(jù)時代的思維變革[J].重慶理工大學(xué)學(xué)報(社會科學(xué)),2014(05):13-18.
[3] 王幼.大數(shù)據(jù)叫代的管理變革[J].中國商貿(mào),2013:189-190.
[4] 楊麗彬,李海林,張飛波.大數(shù)據(jù)環(huán)境下的管理信息系統(tǒng)發(fā)展研究[J].大數(shù)據(jù),2016:86-89.