国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

孟小峰:開放大數(shù)據(jù)的挑戰(zhàn)“給我一個需求,我還你一個系統(tǒng)”

2014-08-21 01:34孟小峰
中國教育網(wǎng)絡(luò) 2014年4期
關(guān)鍵詞:根本性數(shù)組數(shù)據(jù)源

孟小峰

博士,中國人民大學(xué)信息學(xué)院教授,副院長?,F(xiàn)為中國計算機(jī)學(xué)會常務(wù)理事、中國計算機(jī)學(xué)會數(shù)據(jù)庫專委會秘書長,《Journal of Computer Science and Technology》、《Frontiers of Computer Science》、《軟件學(xué)報》、《計算機(jī)研究與發(fā)展》等編委。近期主要研究領(lǐng)域?yàn)榛ヂ?lián)網(wǎng)與移動數(shù)據(jù)管理,包括Web數(shù)據(jù)集成,云數(shù)據(jù)管理,大數(shù)據(jù)與隱私保護(hù),基于新型存儲的數(shù)據(jù)庫系統(tǒng)等。

大數(shù)據(jù)時代一個根本性的變化,是原來的信息化時代是一個封閉世界所構(gòu)建的,而我們新的信息化是一個開放世界。

現(xiàn)在的數(shù)據(jù)產(chǎn)生已經(jīng)完全不只限于傳統(tǒng)的物理社會,這使得數(shù)據(jù)產(chǎn)生的方式也發(fā)生了根本性的改變。簡單地總結(jié)為如下幾個階段。第一,以往數(shù)據(jù)庫技術(shù)所面對的數(shù)據(jù),其實(shí)是傳統(tǒng)的企業(yè)生產(chǎn)、經(jīng)營過程中所產(chǎn)生的數(shù)據(jù),稱為運(yùn)營式系統(tǒng)。這些數(shù)據(jù)是被動產(chǎn)生的,是在企業(yè)運(yùn)營決策管理需要情況下產(chǎn)生的,數(shù)據(jù)是規(guī)范、有序的,它提出的根本要求是滿足簡單分析。

到了互聯(lián)網(wǎng)時代,數(shù)據(jù)的產(chǎn)生方式發(fā)生了根本的改變,每一個人都可以按自己的方式把自己的數(shù)據(jù)放到一個開放空間中去,因此數(shù)據(jù)的結(jié)構(gòu)變得復(fù)雜而且無序,人們對于數(shù)據(jù)的要求也變得弱化,提出的根本性討論問題是什么?分布式處理和數(shù)據(jù)集成。

當(dāng)今大數(shù)據(jù)的產(chǎn)生,數(shù)據(jù)源是自動產(chǎn)生的過程,是無所不在的感知系統(tǒng)源源不斷地產(chǎn)生,呈現(xiàn)所謂的多元異構(gòu)、分布廣泛和動態(tài)演化的過程。它的挑戰(zhàn)性在于實(shí)時分析,這是我們現(xiàn)有系統(tǒng)不能滿足的。

第二個階段,面對源源不斷的數(shù)據(jù),將其整合在一起加以利用的應(yīng)用需求產(chǎn)生了,為此,我們提出了數(shù)據(jù)空間和數(shù)據(jù)集成的技術(shù)。其實(shí)這一技術(shù)的根本特點(diǎn)是完成一次抽象,即從每一個數(shù)據(jù)源的局部視圖,試圖改造出一個全局視圖,這樣,用戶在一個數(shù)據(jù)源集合的時候,不再關(guān)心每一個局部數(shù)據(jù)源的情況,只需在一個全局視圖上給出查詢,即可求得結(jié)果,這種抽象極大地方便了人們在多數(shù)據(jù)源上的利用。

那么,大數(shù)據(jù)時代需要完成的任務(wù)十分豐富,為什么目前無法滿足科學(xué)家們提出的這些需求的操作呢?原因是,我們的抽象層次沒有針對性。應(yīng)該基于前一個階段的抽象,在這上面針對各類應(yīng)用的需求給出一種新的抽象機(jī)制,如果這個抽象機(jī)制能夠?qū)崿F(xiàn),那么各領(lǐng)域的用戶就可以在這樣的基礎(chǔ)上完成其應(yīng)用任務(wù)。然而,現(xiàn)實(shí)是,面對我們所產(chǎn)生的,無論是物理還是生物,還是各個科學(xué)領(lǐng)域所產(chǎn)生的數(shù)據(jù)源,專業(yè)人員并不知道如何組織它們,而我們又沒有提供一個有效的工具,將它抽象成專業(yè)人員認(rèn)識這些數(shù)據(jù)的需求。

科學(xué)家為什么沒有得到這樣可用的處理機(jī)制呢?我認(rèn)為在問題的抽象上仍然存在問題。也就是說,科研過程的數(shù)據(jù)處理任務(wù),尚未很好地凝練成一個可抽象的共識。

4年前美國歸國家線性加速器研究中心的一些學(xué)者組織了一個研討會,將研發(fā)數(shù)據(jù)庫的IT技術(shù)人員和從事科學(xué)研究的學(xué)者聚集在一起。學(xué)者們將在其高能物理科學(xué)研究中所遇到的數(shù)據(jù)處理問題拋出來,希望尋求答案。會上互動的環(huán)節(jié)中,IT技術(shù)人員給科學(xué)家們提出了一個挑戰(zhàn),他說:“如果能把你的需求明確地告訴我,我就可以還給你一個系統(tǒng)?!比绱说囊粋€互動,很多人認(rèn)為是笑話,但是幾年之后這樣的系統(tǒng)真的產(chǎn)生了。他們抽象出來的是什么?他發(fā)現(xiàn)科研人員組織數(shù)據(jù)的方式根本不是表格,而是數(shù)組??蒲袛?shù)據(jù)大部分產(chǎn)生出來,它需要在多維的數(shù)組上去運(yùn)算,這就是他們?nèi)粘?创龜?shù)據(jù)的一個基本思維方式。這個系統(tǒng)出來之后,立刻得到眾多科學(xué)研究人員的喜歡,因?yàn)樗峁┝舜罅坑嘘P(guān)數(shù)組的簡易操作,科研工作者們就可以像寫編譯語言那樣簡單地描述,就可以完成他原本需要很長的程序才能完成的任務(wù)。

猜你喜歡
根本性數(shù)組數(shù)據(jù)源
JAVA稀疏矩陣算法
JAVA玩轉(zhuǎn)數(shù)學(xué)之二維數(shù)組排序
黨的政治建設(shè)是黨的根本性建設(shè)
Web 大數(shù)據(jù)系統(tǒng)數(shù)據(jù)源選擇*
更高效用好 Excel的數(shù)組公式
基于不同網(wǎng)絡(luò)數(shù)據(jù)源的期刊評價研究
追尋音樂本色,讓活動趨向有效
尋找勾股數(shù)組的歷程
基于真值發(fā)現(xiàn)的沖突數(shù)據(jù)源質(zhì)量評價算法
WONCA研究論文摘要匯編
——初級保健晚期疾病患者照顧者的識別障礙:3個數(shù)據(jù)源的三角化測量