馬彬程
?
當前大數(shù)據(jù)發(fā)展及其對動物科學影響的思考
馬彬程
長江大學動物科學學院,湖北 荊州 434025
數(shù)據(jù)、科學數(shù)據(jù)和大數(shù)據(jù)是數(shù)據(jù)科學發(fā)展的三個階段性概念名詞。數(shù)據(jù)科學的發(fā)展、計算機硬件和軟件技術的不斷進步和社會經濟發(fā)展的多元化和復雜化,已經表明傳統(tǒng)的數(shù)據(jù)處理方式、數(shù)據(jù)分析方法已經無法適應滿足人類社會發(fā)展的需要。分析了大數(shù)據(jù)時代下動物科學的發(fā)展勢頭及其思考,大數(shù)據(jù)時代下動物科學影響巨大。
大數(shù)據(jù);動物科學;思考
大數(shù)據(jù)時代是人類社會發(fā)展到一定階段的產物,經濟的飛速發(fā)展、物質文明和精神文明的日益繁榮使得計算機技術進步呈現(xiàn)爆炸式的速度。最早提出“大數(shù)據(jù)”時代到來的是全球知名咨詢公司麥肯錫。麥肯錫稱:“數(shù)據(jù),已經滲透到當今每一個行業(yè)和業(yè)務職能領域,成為重要的生產要素。人們對于海量數(shù)據(jù)的挖掘和運用,預示著新一波生產率增長和消費者盈余浪潮的到來?!盵1]《紐約時報》2012年在一篇專欄中稱,“大數(shù)據(jù)”時代已經降臨,在商業(yè)、經濟及其他領域中,決策將日益基于數(shù)據(jù)和分析作出,而并非基于經驗和直覺[2]。大數(shù)據(jù)時代的到來是時代的必然,這與計算機硬件成本的降低、網絡寬帶速度的提升、云計算的興起、網絡技術的發(fā)展、智能終端的普及和物聯(lián)網的飛速發(fā)展等因素是密不可分的,這些因素的出現(xiàn)使得當今社會的各種各種信息呈現(xiàn)數(shù)字化的特征。
1.1 大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)的區(qū)別
從理論研究角度上來看,傳統(tǒng)的數(shù)據(jù)分析方法和大數(shù)據(jù)分析的基礎是一樣的,即都是以數(shù)據(jù)為基礎。但是相對傳統(tǒng)數(shù)據(jù)而言,大數(shù)據(jù)在數(shù)據(jù)源、分析方法和思維方面有著更大的優(yōu)越性,甚至在某些方面有著本質的區(qū)別。第一,規(guī)模。傳統(tǒng)的數(shù)據(jù)通常是以MB為單位,而大數(shù)據(jù)往往是以TB、PB和ZB為單位進行處理。傳統(tǒng)的數(shù)據(jù)規(guī)模較小是因為需求和社會發(fā)展階段決定的,但是進入21世紀以來,信息化的速度逐漸加快,原有的數(shù)據(jù)規(guī)模所能反映的問題,以及運用小規(guī)模的數(shù)據(jù)為基礎進行情報研究,無法客觀反映現(xiàn)實情況。大數(shù)據(jù)之所以出現(xiàn),是因數(shù)據(jù)規(guī)模變得非常巨大而引起的,只有采用更大規(guī)模的數(shù)據(jù),即第二,數(shù)據(jù)類型。傳統(tǒng)數(shù)據(jù)處理的種類比較單一的結構化數(shù)據(jù),而大數(shù)據(jù)處理的是結構化、半結構化和非結構化的復雜種類組成數(shù)據(jù)。傳統(tǒng)數(shù)據(jù)組成結構,是因為需求比較簡單,人們有意識的按照一些特征和規(guī)律選取相關數(shù)據(jù),容易掌握在情報分析人員的可控制范圍內。但是數(shù)據(jù)的爆炸式增長,數(shù)據(jù)來源的日益復雜化和不規(guī)律性,不能再按照傳統(tǒng)的數(shù)據(jù)分析選取數(shù)據(jù)的類型,而應考慮類型齊全的大數(shù)據(jù),才能使得數(shù)據(jù)分析和情報研究科學化。第三,數(shù)據(jù)和模型的關系。傳統(tǒng)的數(shù)據(jù)分析是在先建立在使用者先期預設目標,接著建立相關數(shù)據(jù)模型,在模型確立的基礎上再根據(jù)前提條件收集數(shù)據(jù),這樣顯得主觀性過強,缺乏客觀性的把握。而大數(shù)據(jù)是在收集數(shù)據(jù)的過程中逐漸形成,數(shù)據(jù)與模型緊密結合,模型會隨著數(shù)據(jù)的收集進度進行不斷演變,最終形成科學且符合實際情況的數(shù)據(jù)模型。
1.2 大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)的區(qū)別
大數(shù)據(jù)在數(shù)據(jù)量、處理速度和數(shù)據(jù)來源多樣性上的無與倫比優(yōu)勢,使得大數(shù)據(jù)分析思維相對傳統(tǒng)數(shù)據(jù)分析思維有著明顯的優(yōu)勢??梢暬治?、數(shù)據(jù)挖掘、語義引擎和數(shù)據(jù)質量管理是大數(shù)據(jù)分析方法的四個基本面。大數(shù)據(jù)通過對數(shù)據(jù)的科學整合,使得數(shù)據(jù)分析結果符合科學與現(xiàn)實,因此大數(shù)據(jù)的分析思維有著相對于傳統(tǒng)數(shù)據(jù)分析思維所不具備的巨大優(yōu)勢,使用大數(shù)據(jù)分析思維是非常必要的。
大數(shù)據(jù)時代的信息分析主要遵循以下三大理念:(1)使用全體數(shù)據(jù)而不是局部數(shù)據(jù),大數(shù)據(jù)分析是非常宏觀信息分析方式,需要全面地分析總體數(shù)據(jù)的本質特征、屬性、內在規(guī)律和聯(lián)系,而僅僅選取局部數(shù)據(jù)會割裂了數(shù)據(jù)之間的聯(lián)系;(2)講究數(shù)據(jù)的相關性而不是按照事先預設的因果關系選取數(shù)據(jù),在大數(shù)據(jù)時代面對海量數(shù)據(jù)的艱巨挑戰(zhàn),選取能夠容納整體的數(shù)據(jù)比按照因果聯(lián)系局部選取一小部分數(shù)據(jù)更加重要,海量信息根據(jù)大數(shù)據(jù)分析能夠明顯反映數(shù)據(jù)的趨勢,大數(shù)據(jù)分析的首要任務是通過相關性實現(xiàn)數(shù)據(jù)挖掘與預測分析。大數(shù)據(jù)分析強調發(fā)現(xiàn)先前未知的新模式和未知的數(shù)據(jù)相關關系;(3講究數(shù)據(jù)分析的效率性同時分析數(shù)據(jù)之間的關系,大數(shù)據(jù)分析以全體或總體為分析對象,不可能使用傳統(tǒng)的數(shù)據(jù)分析模型合來描述全體或總體的特征、規(guī)律、聯(lián)系,即使有時間和成本花費代價昂貴,同時由于數(shù)據(jù)來源基礎的局部性也很難直接發(fā)現(xiàn)全體或總體的本質屬性、特征、規(guī)律和聯(lián)系,但是大數(shù)據(jù)可以做到,既客觀又能夠科學的反映數(shù)據(jù)總體的本質屬性、特征、規(guī)律和聯(lián)系。
大數(shù)據(jù)分析注重數(shù)據(jù)量更大、數(shù)據(jù)來源多元化和復雜化形成了新的思維模式,那就是從因果分析到相關分析和知識發(fā)現(xiàn),從模型擬合到數(shù)據(jù)挖掘,從邏輯推理到關聯(lián)規(guī)則制定整體宏觀分析。大數(shù)據(jù)以數(shù)據(jù)總體為分析對象,數(shù)據(jù)來源是核心和關鍵,從宏觀上研究大數(shù)據(jù)的本質屬性、特點和規(guī)律。大數(shù)據(jù)以數(shù)據(jù)和先進的計算機硬件技術、軟件技術和網絡技術為重點,以海量數(shù)據(jù)為基礎的數(shù)據(jù)庫為工具,重在發(fā)現(xiàn)數(shù)據(jù)隱含的規(guī)律。
1.3 大數(shù)據(jù)分析的關鍵性技術
大數(shù)據(jù)分析的核心是大數(shù)據(jù)技術,大數(shù)據(jù)技術是指從各種復雜的非規(guī)律化類型的海量數(shù)據(jù)中快速獲得有價值信息并進行分析的技術。大數(shù)據(jù)分析的關鍵技術主要有數(shù)據(jù)采集技術,如異構數(shù)據(jù)抽取、清洗轉換、集成、加載等。數(shù)據(jù)存取技術,如關系數(shù)據(jù)庫等?;A架構,如云存儲、分布式文件存等。數(shù)據(jù)處理技術,如自然語言處理、計算語言學、人工智能等。統(tǒng)計分析技術,如假設檢驗、顯著性檢驗、差異分析、相關分析檢驗、方差分析、卡方分析、偏相關分析、距離分析、回歸分曲線估計、因子分析、聚類分析、主成分分析、判別分析、對應分析技術等。數(shù)據(jù)挖掘技術,如分類、估計、預測、相關性分組或關聯(lián)規(guī)則、聚類、描述和可視化、復雜數(shù)據(jù)類型挖掘等。模型預測技術,如預測模型、機器學習、建模仿真。結果呈現(xiàn)技術,如云計算、標簽云、關系圖等。
利用大數(shù)據(jù)發(fā)展動物科學的將會起到重要的作用,因此在今后的過程中要積極利用大數(shù)據(jù)發(fā)展成果為動物科學發(fā)展提供相應的支撐。當前,一個學科與另一個學科的嵌入是需要時間的,希望通過努力能夠爭取化解這一問題,逐步解決該問題。
[1]陶雪嬌,胡曉峰,劉洋.大數(shù)據(jù)研究綜述[J].系統(tǒng)仿真學報,2013(25):143-145.
[2]朱東華,張嶷,汪雪鋒,等.大數(shù)據(jù)環(huán)境下技術創(chuàng)新管理方法研究[J]. 科學學與科學技術管理,2013(4):175-179.
F49;F124
A
1009-6434(2016)05-0080-01