徐立水 辛敏
(1.北京醫(yī)信天下數(shù)據(jù)技術(shù)有限公司,北京 100021;2.中國(guó)醫(yī)學(xué)科學(xué)院 醫(yī)學(xué)信息研究所,北京 100020)
【摘 要】大數(shù)據(jù)成為當(dāng)前學(xué)術(shù)界和產(chǎn)業(yè)界的研究熱點(diǎn),是繼云計(jì)算、物聯(lián)網(wǎng)之后又一次顛覆性的技術(shù)革命,并不斷影響著人們的生活習(xí)慣和思考模式。為進(jìn)一步建立理論基礎(chǔ)依據(jù)和探索開(kāi)展應(yīng)用研究,文章定義并詳細(xì)解釋大數(shù)據(jù)的概念,剖析大數(shù)據(jù)的內(nèi)涵與外延,闡述大數(shù)據(jù)的屬性和使用方法。大數(shù)據(jù)蘊(yùn)含著巨大價(jià)值,相信未來(lái)在人體疾病預(yù)防監(jiān)測(cè)、健康關(guān)懷、銀行用戶資信評(píng)估與應(yīng)用、國(guó)家安全恐怖監(jiān)測(cè)與預(yù)警、工業(yè)質(zhì)量監(jiān)控等領(lǐng)域?qū)⒌玫礁訌V泛的應(yīng)用。
【關(guān)鍵詞】大數(shù)據(jù);大數(shù)據(jù)定義;大數(shù)據(jù)技術(shù);數(shù)據(jù)分析;大數(shù)據(jù)應(yīng)用
【中圖分類(lèi)號(hào)】G201 【文獻(xiàn)標(biāo)識(shí)碼】A 【文章編號(hào)】1674-0688(2016)06-0021-03
目前,最熱詞莫過(guò)于大數(shù)據(jù),各界媒體關(guān)于大數(shù)據(jù)的討論層出不窮,大數(shù)據(jù)已成為流行語(yǔ)和現(xiàn)代科學(xué)趨勢(shì)技術(shù)?;诖髷?shù)據(jù)的科學(xué)研究,近年各大數(shù)據(jù)庫(kù)發(fā)稿增長(zhǎng)率較高,在PubMed數(shù)據(jù)庫(kù)中全文檢索包含“big data”的文章,2011年至2015年大數(shù)據(jù)相關(guān)文章占比分別為0.03%、0.04%、0.05%、0.08%、0.10%,5年增長(zhǎng)近2倍。在CNKI數(shù)據(jù)庫(kù)中全文檢索包含“大數(shù)據(jù)”的文章,2011年至2015年大數(shù)據(jù)相關(guān)文章占比分別為0.28%、0.39%、0.82%、1.62%、2.54%,5年增長(zhǎng)近8倍。大數(shù)據(jù)研究論文量增長(zhǎng)率如此之高,說(shuō)明大數(shù)據(jù)研究在當(dāng)前科學(xué)研究中呈良好增長(zhǎng)的勢(shì)頭,開(kāi)展大數(shù)據(jù)研究的學(xué)者不斷增多,進(jìn)行大數(shù)據(jù)研究的單位也不斷增多。大數(shù)據(jù)已經(jīng)成為繼石油和礦業(yè)之外,另一種更重要的資源業(yè)態(tài)存在。大數(shù)據(jù)研究熱潮正是因?yàn)楦鹘鐝V泛認(rèn)識(shí)到大數(shù)據(jù)研究的重要性,同時(shí)更多人已經(jīng)知道大數(shù)據(jù)技術(shù)將會(huì)是一場(chǎng)新技術(shù)革命[1],現(xiàn)在開(kāi)展大數(shù)據(jù)學(xué)術(shù)研究是為未來(lái)應(yīng)用大數(shù)據(jù)技術(shù)建立理論基礎(chǔ),也是為未來(lái)更好地使用大數(shù)據(jù)開(kāi)展基礎(chǔ)應(yīng)用研究和探索。
大數(shù)據(jù)技術(shù)不同于以往任何科學(xué)技術(shù),大數(shù)據(jù)是一種全新的應(yīng)用科學(xué)技術(shù),大數(shù)據(jù)全新科學(xué)技術(shù)是以前人類(lèi)沒(méi)有研究甚至無(wú)從知曉的技術(shù),是以實(shí)際應(yīng)用出發(fā)為需求方做的科學(xué)研究。大數(shù)據(jù)熱是因?yàn)榇髷?shù)據(jù)技術(shù)蘊(yùn)含巨大的價(jià)值。
2012年3月29日,美國(guó)發(fā)布《大數(shù)據(jù)研究和發(fā)展倡議》[2-3],欲大力推動(dòng)大數(shù)據(jù)相關(guān)的收集、儲(chǔ)存、保留、管理、分析和共享海量數(shù)據(jù)技術(shù)研究,以提高美國(guó)的科研、教育與國(guó)家安全能力。2015年12月10日,中國(guó)國(guó)務(wù)院發(fā)布《國(guó)務(wù)院關(guān)于印發(fā)促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要的通知》[4],各個(gè)國(guó)家重視大數(shù)據(jù)研究的目的在于在未來(lái)科技應(yīng)用領(lǐng)域取得領(lǐng)先地位。目前,大數(shù)據(jù)研究剛剛開(kāi)始,各國(guó)、各界大數(shù)據(jù)研究都還處于起步階段,大數(shù)據(jù)應(yīng)用方法仍在探索中。加大對(duì)大數(shù)據(jù)應(yīng)用研究的投入,加強(qiáng)大數(shù)據(jù)領(lǐng)域人才的挖掘和培養(yǎng)至關(guān)重要[8]。開(kāi)展大數(shù)據(jù)方法研究和大數(shù)據(jù)應(yīng)用方向研究具有重要的意義,它可以為中國(guó)的“大眾創(chuàng)業(yè)、萬(wàn)眾創(chuàng)新”開(kāi)辟一條更廣闊的科技創(chuàng)新道路。
當(dāng)前,大數(shù)據(jù)概念已經(jīng)深入人心,大家共同的認(rèn)識(shí)是未來(lái)大數(shù)據(jù)應(yīng)用會(huì)顛覆傳統(tǒng)的科學(xué)思維,使人類(lèi)思考邊界和思考方式發(fā)生顛覆性改變[5],這也是學(xué)術(shù)界和各國(guó)政府非常重視大數(shù)據(jù)研究的重要原因。大數(shù)據(jù)已經(jīng)作為大國(guó)國(guó)家發(fā)展戰(zhàn)略,已經(jīng)在各國(guó)科研財(cái)政投入中成為政府重要戰(zhàn)略指導(dǎo)方向,目的在于占領(lǐng)未來(lái)科技制高點(diǎn)和在國(guó)家競(jìng)爭(zhēng)中取得科技優(yōu)勢(shì)。大數(shù)據(jù)在經(jīng)濟(jì)領(lǐng)域和醫(yī)學(xué)領(lǐng)域更是開(kāi)展了廣泛研究,IBM、Google、Microsoft、Facebook進(jìn)行大數(shù)據(jù)研究正是看中了大數(shù)據(jù)未來(lái)無(wú)可限量的價(jià)值[6]。
1 大數(shù)據(jù)的概念
最早提出大數(shù)據(jù)概念時(shí),有人用4個(gè)“V”[6-8](Volume、Variety、Velocity和Value)形容大數(shù)據(jù)的特征,也有人認(rèn)為大數(shù)據(jù)是指海量無(wú)法計(jì)算的數(shù)據(jù)[9],英文為“big data”。大數(shù)據(jù)的描述應(yīng)該屬于大數(shù)據(jù)概念和大數(shù)據(jù)性質(zhì),未來(lái)大數(shù)據(jù)應(yīng)用需要一個(gè)清晰且容易被大多數(shù)人理解的大數(shù)據(jù)定義,定義大數(shù)據(jù)是為了更好地應(yīng)用大數(shù)據(jù),明確大數(shù)據(jù)定義可以供學(xué)者研究討論,可以教學(xué)生更好地學(xué)習(xí)大數(shù)據(jù),也可以為管理部門(mén)決策管理規(guī)范管理邊界。
研究大數(shù)據(jù)多年,筆者認(rèn)為最恰當(dāng)?shù)拇髷?shù)據(jù)定義如下:大數(shù)據(jù)是指具有一定屬性關(guān)系資源數(shù)據(jù)的集合,屬性關(guān)系資源可以是量化資源數(shù)據(jù)集合,也可以是定性化資源數(shù)據(jù)集合,這些數(shù)據(jù)資源集合統(tǒng)稱為大數(shù)據(jù)。
大數(shù)據(jù)定義強(qiáng)調(diào)以下3點(diǎn)。
(1)大數(shù)據(jù)是指具有一定屬性關(guān)系資源數(shù)據(jù)的集合。數(shù)據(jù)已經(jīng)在人類(lèi)生活中廣泛存在,數(shù)據(jù)種類(lèi)眾多,存在形式各異,數(shù)據(jù)內(nèi)涵外延各有不同,數(shù)據(jù)之間相互關(guān)系強(qiáng)弱不同,各類(lèi)數(shù)據(jù)未來(lái)應(yīng)用權(quán)重或是有效性不同,做任何一次大數(shù)據(jù)應(yīng)用都不可能取用人類(lèi)社會(huì)生活所有數(shù)據(jù),應(yīng)該是按照一定屬性關(guān)系取舍數(shù)據(jù),達(dá)到取舍有度、應(yīng)用有理。如果數(shù)據(jù)是“海量的無(wú)法計(jì)算的”,那么它將會(huì)是無(wú)法應(yīng)用的。傳統(tǒng)意義上的數(shù)據(jù)就應(yīng)該是加減乘除微積分等算法運(yùn)算的數(shù)值及數(shù)值運(yùn)算的結(jié)論,數(shù)據(jù)發(fā)展到現(xiàn)代已經(jīng)不僅僅是數(shù)字,數(shù)據(jù)的內(nèi)涵和外延已經(jīng)更加廣泛,數(shù)據(jù)含義更深,但數(shù)據(jù)本身的意義就是用來(lái)運(yùn)算,未來(lái)只是數(shù)據(jù)運(yùn)算方法不同而已,數(shù)據(jù)應(yīng)該是無(wú)法計(jì)算的價(jià)值而不是無(wú)法計(jì)算的數(shù)量。搞清楚數(shù)據(jù)屬性關(guān)系,研究清楚數(shù)據(jù)的內(nèi)涵和外延,定義好大數(shù)據(jù)就可以做到更好地應(yīng)用數(shù)據(jù)。
(2)資源數(shù)據(jù)的集合。資源通常是指自然資源、文化遺產(chǎn)資源等,往往強(qiáng)調(diào)是某某資源,資源的價(jià)值是這種資源已經(jīng)存在。大數(shù)據(jù)定義使用的是資源數(shù)據(jù),強(qiáng)調(diào)的是數(shù)據(jù)是資源,數(shù)據(jù)可以是已經(jīng)存在的數(shù)據(jù)資源,也可以是現(xiàn)在沒(méi)有的數(shù)據(jù)資源但未來(lái)會(huì)出現(xiàn)的數(shù)據(jù)資源,因此大數(shù)據(jù)定義使用資源數(shù)據(jù)。
(3)資源數(shù)據(jù)的集合是存在一起的,但存在方式、性質(zhì)都可能不同,只表示資源數(shù)據(jù)已經(jīng)因?yàn)閿?shù)據(jù)相關(guān)性可以集合在一起。數(shù)據(jù)表現(xiàn)形式是定性數(shù)據(jù)或是定量數(shù)據(jù)。
2 大數(shù)據(jù)的內(nèi)涵和外延
大數(shù)據(jù)的核心是數(shù)據(jù),數(shù)據(jù)最早是由阿拉伯?dāng)?shù)字組成的一組數(shù)字,但現(xiàn)代大數(shù)據(jù)把數(shù)據(jù)概念大大延展。
大數(shù)據(jù)是建立在數(shù)據(jù)基礎(chǔ)上的科學(xué),任何數(shù)字、圖片、聲音、概念單元、性質(zhì)描述等都是數(shù)據(jù),可以把一組數(shù)據(jù)、一個(gè)數(shù)據(jù)集合統(tǒng)稱為相應(yīng)的大數(shù)據(jù),如醫(yī)學(xué)資源數(shù)據(jù)集合統(tǒng)稱為醫(yī)學(xué)大數(shù)據(jù)。依據(jù)大數(shù)據(jù)定義推出醫(yī)學(xué)大數(shù)據(jù)定義如下:具有醫(yī)學(xué)屬性關(guān)系資源數(shù)據(jù)的集合,涵蓋人類(lèi)健康、人體解剖生理病理、遺傳、疾病診斷治療、藥品食品及人類(lèi)生命健康關(guān)系資源數(shù)據(jù)集合。
一切都是數(shù)據(jù),能夠使用的都是數(shù)據(jù),這種說(shuō)法不容易讓使用者理解什么是數(shù)據(jù),理解什么是數(shù)據(jù)才能夠使用數(shù)據(jù),尤其對(duì)初期理解應(yīng)用大數(shù)據(jù)的學(xué)者更加重要。大數(shù)據(jù)的數(shù)據(jù)可以理解為人類(lèi)生活中任何詞組、詞條、數(shù)字等,大數(shù)據(jù)的數(shù)據(jù)更容易理解的是一些定性數(shù)據(jù)和量化數(shù)據(jù),定性數(shù)據(jù)如大小、高低、長(zhǎng)短、好壞等,定量數(shù)據(jù)如100萬(wàn)、1個(gè)等。數(shù)據(jù)的理解和使用也宜結(jié)合使用者個(gè)人知識(shí)結(jié)構(gòu)、教育水平、喜好,讓數(shù)據(jù)使用者理解一切都可能是大數(shù)據(jù)的數(shù)據(jù),數(shù)據(jù)使用者認(rèn)知水平的提高有助于自身理解數(shù)據(jù)的內(nèi)涵和外延不同,計(jì)算機(jī)技術(shù)的發(fā)展也會(huì)讓數(shù)據(jù)的內(nèi)涵和外延不同。大數(shù)據(jù)的數(shù)據(jù)不管存在任何形式、含義、大小、難易都應(yīng)統(tǒng)稱為大數(shù)據(jù)的數(shù)據(jù)。
應(yīng)用大數(shù)據(jù)中數(shù)據(jù)的能力是使用者的認(rèn)知水平、理解水平、哲學(xué)水平,尤其是邏輯思維水平的體現(xiàn),同時(shí)需要改變認(rèn)識(shí)數(shù)據(jù)、收集數(shù)據(jù)、分析數(shù)據(jù)的思維[10]。因此,大數(shù)據(jù)的數(shù)據(jù)的內(nèi)涵和外延是由數(shù)據(jù)使用者的認(rèn)知水平?jīng)Q定的,大數(shù)據(jù)的數(shù)據(jù)是由數(shù)據(jù)使用者定義的。
3 大數(shù)據(jù)的屬性和使用方法
大數(shù)據(jù)的屬性是以各種形式量級(jí)存在,大數(shù)據(jù)的數(shù)據(jù)中,1個(gè)數(shù)據(jù)就是1個(gè)數(shù)據(jù),2個(gè)數(shù)據(jù)就是2個(gè)數(shù)據(jù),3個(gè)數(shù)據(jù)就可以稱為大數(shù)據(jù)。一兩個(gè)數(shù)據(jù)不能稱為大數(shù)據(jù)是由現(xiàn)階段計(jì)算機(jī)技術(shù)決定的,只有計(jì)算機(jī)技術(shù)提高到一定的程度,才可以決定是否可以使用。3個(gè)數(shù)據(jù)稱為大數(shù)據(jù)也是指應(yīng)用,3個(gè)數(shù)據(jù)就可以應(yīng)用在大數(shù)據(jù)技術(shù)上。
大數(shù)據(jù)是建立在計(jì)算機(jī)技術(shù)基礎(chǔ)上的全新應(yīng)用科學(xué),不同于以往任何科學(xué)技術(shù)。在計(jì)算機(jī)應(yīng)用前,沒(méi)有任何大數(shù)據(jù)理論論述,大數(shù)據(jù)使用會(huì)伴隨計(jì)算機(jī)技術(shù)的提高而不斷完善。
目前,大數(shù)據(jù)研究的熱潮是一種科學(xué)技術(shù)應(yīng)用初期的學(xué)術(shù)探索。當(dāng)下研究的大數(shù)據(jù)包括2種:①數(shù)據(jù)量大就是大數(shù)據(jù);②大數(shù)據(jù)技術(shù)方法。
大數(shù)據(jù)是一門(mén)應(yīng)用科學(xué)技術(shù),我們從應(yīng)用科學(xué)技術(shù)角度討論大數(shù)據(jù)技術(shù)。應(yīng)用科學(xué)的關(guān)鍵在于使用,簡(jiǎn)述大數(shù)據(jù)使用方法為DATA+MODEL+COMPUTER(簡(jiǎn)稱DMC),即數(shù)據(jù)+模型+計(jì)算機(jī)技術(shù)=大數(shù)據(jù)技術(shù)。
大數(shù)據(jù)應(yīng)用的關(guān)鍵是數(shù)據(jù)采集、數(shù)據(jù)標(biāo)示、數(shù)據(jù)使用方法。數(shù)據(jù)使用方法需要建立計(jì)算模型,計(jì)算模型可以稱為數(shù)據(jù)模型或需求模型或需求數(shù)據(jù)模型,應(yīng)用計(jì)算機(jī)技術(shù)讓采集的數(shù)據(jù)運(yùn)行在軟件編程的需求模型上。大數(shù)據(jù)是數(shù)據(jù)應(yīng)用在計(jì)算機(jī)技術(shù)基礎(chǔ)上的科學(xué)技術(shù),可以說(shuō)大數(shù)據(jù)是計(jì)算機(jī)技術(shù)的擴(kuò)展和延伸。
4 大數(shù)據(jù)適用領(lǐng)域
大數(shù)據(jù)技術(shù)是研究數(shù)據(jù)應(yīng)用方法和數(shù)據(jù)應(yīng)用方向的應(yīng)用科學(xué),大數(shù)據(jù)技術(shù)研究需要相關(guān)屬性的基礎(chǔ)數(shù)據(jù)支持。這里的屬性是指屬性數(shù)據(jù)未來(lái)應(yīng)用方向,研究相關(guān)屬性數(shù)據(jù)研判未來(lái)發(fā)展方向及預(yù)測(cè)屬性數(shù)據(jù)通過(guò)大數(shù)據(jù)技術(shù)研判未來(lái)發(fā)展方向的可能概率,研究實(shí)質(zhì)是研究事物未來(lái)發(fā)展趨勢(shì)的可能性,大數(shù)據(jù)是預(yù)測(cè)未來(lái)的應(yīng)用科學(xué)數(shù)據(jù)技術(shù)。
萬(wàn)事萬(wàn)物發(fā)展有其本質(zhì)規(guī)律,人性是心跡,事物是規(guī)律,心跡是趨勢(shì),趨勢(shì)也是規(guī)律,規(guī)律就是可能。數(shù)據(jù)是人和萬(wàn)物發(fā)展過(guò)程中產(chǎn)生的資源數(shù)據(jù),資源數(shù)據(jù)按照心跡規(guī)律生產(chǎn)出來(lái),資源數(shù)據(jù)內(nèi)涵是心跡和規(guī)律,資源數(shù)據(jù)外延表達(dá)反映的是心跡和規(guī)律趨勢(shì)方向。
大數(shù)據(jù)是應(yīng)用科學(xué),按照數(shù)據(jù)的內(nèi)涵和外延特點(diǎn),有其適合領(lǐng)域和優(yōu)勢(shì)領(lǐng)域??偨Y(jié)歸納大數(shù)據(jù)最適用領(lǐng)域是為了預(yù)判行為趨勢(shì)和進(jìn)行事物質(zhì)量預(yù)測(cè)與控制。大數(shù)據(jù)技術(shù)適用領(lǐng)域具體包括人體疾病預(yù)防監(jiān)測(cè)、健康關(guān)懷、銀行用戶資信評(píng)估與應(yīng)用、國(guó)家安全恐怖監(jiān)測(cè)與預(yù)警、工業(yè)領(lǐng)域質(zhì)量監(jiān)控等。
參 考 文 獻(xiàn)
[1]朱東華,張嶷,汪雪鋒,等.大數(shù)據(jù)環(huán)境下技術(shù)創(chuàng)新管理方法研究[J].科學(xué)學(xué)與科學(xué)技術(shù)管理,2013,34(4):172-175.
[2]王忠.美國(guó)推動(dòng)大數(shù)據(jù)技術(shù)發(fā)展的戰(zhàn)略價(jià)值及啟示[J].中國(guó)發(fā)展觀察,2012(6):44-46.
[3]John Gantz,David Reinsel.The Digital Universe in 2020:Big Data,Bigger Digital Shadows,and Biggest Growth in the Far East[J].IdcIviewIdc Analyze the Future,2012(12).
[4]國(guó)發(fā)〔2015〕50號(hào),國(guó)務(wù)院關(guān)于印發(fā)促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要的通知[Z].2015.
[5]李國(guó)杰,程學(xué)旗.大數(shù)據(jù)研究:未來(lái)科技及經(jīng)濟(jì)社會(huì)發(fā)展的重大戰(zhàn)略領(lǐng)域——大數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考[J].戰(zhàn)略與決策研究,2012,27(6):647-657.
[6]馬建光,姜巍.大數(shù)據(jù)的概念、特征及其應(yīng)用[J].國(guó)防科技,2013,34(2):10-17.
[7]朱揚(yáng)勇,熊赟.大數(shù)據(jù)是數(shù)據(jù)、技術(shù),還是應(yīng)用[J].大數(shù)據(jù),2015(1):701-711.
[8]鄔賀銓.大數(shù)據(jù)時(shí)代的機(jī)遇與挑戰(zhàn)[J].求是,2013(4):47-49.
[9]李國(guó)杰.大數(shù)據(jù)研究的科學(xué)價(jià)值[J].中國(guó)計(jì)算機(jī)學(xué)會(huì)通訊,2012,8(9):8-15.
[10]李金昌.大數(shù)據(jù)與統(tǒng)計(jì)新思維[J].統(tǒng)計(jì)研究,2014,31(1):10-15.
[責(zé)任編輯:鄧進(jìn)利]
【作者簡(jiǎn)介】徐立水,男,本科,北京醫(yī)信天下數(shù)據(jù)技術(shù)有限公司CEO,住院醫(yī)師,研究方向:大數(shù)據(jù);辛敏,男,碩士研究生,北京醫(yī)信天下數(shù)據(jù)技術(shù)有限公司醫(yī)院部主任,研究方向:大數(shù)據(jù)。