樊龍江,王衛(wèi)娣,王斌,葉楚玉,舒慶堯,張輝(.浙江大學(xué)作物科學(xué)研究所/生物信息學(xué)研究所/IBM生物計(jì)算實(shí)驗(yàn)室,杭州0058;.河南科技學(xué)院生物工程系,河南新鄉(xiāng)4500;.中華人民共和國科學(xué)技術(shù)部中國農(nóng)村技術(shù)開發(fā)中心,北京00045)
作物育種相關(guān)數(shù)據(jù)及大數(shù)據(jù)技術(shù)育種利用
樊龍江1*,王衛(wèi)娣1,王斌2,葉楚玉1,舒慶堯1,張輝3
(1.浙江大學(xué)作物科學(xué)研究所/生物信息學(xué)研究所/IBM生物計(jì)算實(shí)驗(yàn)室,杭州310058;2.河南科技學(xué)院生物工程系,河南新鄉(xiāng)453003;3.中華人民共和國科學(xué)技術(shù)部中國農(nóng)村技術(shù)開發(fā)中心,北京100045)
摘要從18世紀(jì)首次獲得人工雜交種到如今基因工程育種,作物育種技術(shù)發(fā)展迅速,同時(shí)幾百年的育種歷程積攢了大量育種數(shù)據(jù),特別是近年來伴隨高通量測(cè)序技術(shù)的發(fā)展,產(chǎn)生了海量作物育種相關(guān)基因及其表達(dá)數(shù)據(jù),形成了育種大數(shù)據(jù).2012年以來在商業(yè)、信息技術(shù)等領(lǐng)域發(fā)展迅猛的大數(shù)據(jù)技術(shù),致力于解決大數(shù)據(jù)采集、存儲(chǔ)及處理等壁壘,并在其他領(lǐng)域的應(yīng)用初露端倪.本文利用創(chuàng)新方法TRIZ(theory of inventive problem solving)流分析技術(shù),綜合分析了育種領(lǐng)域已有資源和目標(biāo)達(dá)成的矛盾問題,提出大數(shù)據(jù)育種技術(shù)應(yīng)用于作物育種的創(chuàng)新方案,明確了將大數(shù)據(jù)技術(shù)應(yīng)用于育種領(lǐng)域的框架和實(shí)現(xiàn)目標(biāo).提出了基于大數(shù)據(jù)理念的育種技術(shù),擬采集和整合已有育種數(shù)據(jù)資源,實(shí)現(xiàn)數(shù)據(jù)自動(dòng)采集等,從而能夠平衡育種數(shù)據(jù)膨脹/利用和育種需求產(chǎn)生的矛盾;構(gòu)建基于大數(shù)據(jù)技術(shù)的育種數(shù)據(jù)信息化平臺(tái),實(shí)現(xiàn)作物育種方法理念的創(chuàng)新,可以為廣大育種工作者提供數(shù)據(jù)支撐和一個(gè)育種新途徑;為解析生物學(xué)數(shù)據(jù)與目標(biāo)農(nóng)藝性狀的關(guān)系提供信息,加快育種現(xiàn)代化的進(jìn)程.
關(guān)鍵詞作物育種;大數(shù)據(jù)技術(shù);育種方法;大數(shù)據(jù)育種技術(shù);創(chuàng)新方法
浙江大學(xué)學(xué)報(bào)(農(nóng)業(yè)與生命科學(xué)版) 42(1):30~39,2016
Journal of Zhejiang University(Agric.&Life Sci.)
http://www.journals.zju.edu.cn/agr
E-mail:zdxbnsb@zju.edu.cn
URL:http://www.cnki.net/kcms/detail/33.1247.S.20151215.1747.006.html
Crop breeding-related data and application of big data technologies in crop breeding.Journal of Zhejiang University(Agric.&Life Sci.),2016,42(1):30-39
FAN Longjiang1*,WANG Weidi1,WANG Bin2,YE Chuyu1,SHU Qingyao1,ZHANG Hui3(1.Institute of Crop Science&Institute of Bioinformatics&IBM Biocomputational Laboratory,Hangzhou 310058,China;2.Department of Bioenegineering,Henan Institute of Science and Technology,Xinxiang 450033,Henan,China;3.China Rural Technology Development Center,Ministry of Science and Technology of the People’s Republic of China,Beijing 100045,China)
Summary Since the first artificial hybrid was created in 1719,significant developments such as transgenic approach have been seen in the methods for crop breeding in recent hundreds of years.A lot of breeding-related data have been collected up to now.The big data technology was developed recently and has been successfully used in economics,IT(information technology)and other fields.With the increasing expansion of data in crops breeding,it becomes extremely necessary for breeders to take advantage of existing data in terms of efficient breeding technology,especially for the information generated from next-generation sequencing which could newly reachterabytes of data in a sequencing platform in one hour.In this study,we proposed a conceptual framework for big data-based crop breeding approach after we analyzed the genetic information flow of crop breeding program using an innovation tool,TRIZ(theory of inventive problem solving).The expected new breeding technique tends to collect all breeding-related data(including data from phenotype,environments,references to molecular markers and sequences)for target crops and set up an automatic approach to collect breeding-related trait data.The technique will include a computer system to analyze the data and a human machine interface for users(breeders).We believe that big data has the potential to revolutionize the breeding of crops and the big data-based breeding approach is our future of crop breeding programs.
Key words crop breeding;big data technology;breeding method;big data-based breeding approach;innovation method
在人類早期簡單的種植和采收活動(dòng)中,就開始孕育作物馴化育種的思維.中國在周朝已形成不同播期和熟期的作物品種概念(見《詩經(jīng)》“黍稷重穋”“稙稺菽麥”).在源于西歐的近代育種技術(shù)和理論出現(xiàn)之前,作物育種都是通過天然雜交和變異產(chǎn)生一些符合人類生產(chǎn)需求的作物品種.1719年托馬斯.費(fèi)爾柴爾德(Thomas Fairchild)以石竹科植物為材料首次獲得人工雜交種,隨后奈特和庫爾特分別于1823年和1843年用豌豆和谷禾類作物進(jìn)行人工雜交育種.而自孟德爾定律在20世紀(jì)初提出后,遺傳學(xué)、分子生物學(xué)、生物統(tǒng)計(jì)學(xué)等學(xué)科的建設(shè)和快速發(fā)展,使得人工作物育種開啟了新篇章.自新一代測(cè)序技術(shù)高速發(fā)展以來,作物育種研究產(chǎn)生了海量多種類型的數(shù)據(jù),整合和最大化利用這些生物學(xué)數(shù)據(jù),無疑對(duì)現(xiàn)代育種研究具有不可估量的重要意義.因此,構(gòu)建作物育種相關(guān)數(shù)據(jù)庫利用平臺(tái),致力創(chuàng)造大數(shù)據(jù)背景下的育種技術(shù),可以平衡育種數(shù)據(jù)膨脹和育種需求產(chǎn)生的矛盾,從而實(shí)現(xiàn)育種數(shù)據(jù)數(shù)字化平臺(tái)建設(shè),也為廣大育種工作者提供數(shù)據(jù)支撐,同時(shí)也為廣大生物學(xué)家了解生物學(xué)數(shù)據(jù)與目標(biāo)性狀的關(guān)系提供渠道.
農(nóng)作物育種是一項(xiàng)復(fù)雜的系統(tǒng)工程,涉及種質(zhì)資源鑒定與創(chuàng)新、新基因發(fā)掘、育種技術(shù)、品種培育、種子生產(chǎn)及其產(chǎn)業(yè)化等.世界主要國家均把農(nóng)作物育種及其產(chǎn)業(yè)作為提高國家競爭力的重要戰(zhàn)略選擇,競相投入大量的人力、物力和財(cái)力研發(fā)現(xiàn)代育種技術(shù),培育新品種,搶占制高點(diǎn),促進(jìn)作物育種及種業(yè)的持續(xù)發(fā)展.農(nóng)作物品種選育呈多元化發(fā)展態(tài)勢(shì):高產(chǎn)是新品種選育的永恒主題;品質(zhì)改良是新品種選育的重點(diǎn);病蟲害抗性是新品種選育的重要選擇;非生物逆境是新品種選育的重要方向;養(yǎng)分高效利用是新品種選育的重要目標(biāo);適宜機(jī)械化作業(yè)是新品種選育的重要特征.
現(xiàn)代科學(xué)技術(shù)持續(xù)創(chuàng)新從而引領(lǐng)農(nóng)作物育種發(fā)生深刻變革.新技術(shù)的應(yīng)用,包括生物組學(xué)、生物技術(shù)、信息技術(shù)、制造技術(shù)等現(xiàn)代科學(xué)技術(shù)飛速發(fā)展,不斷滲入農(nóng)作物育種各個(gè)層面,催生了新型的農(nóng)作物育種體系.例如,表型組學(xué)和基因組學(xué)技術(shù)不斷深化種質(zhì)資源鑒定與評(píng)價(jià),如采用先進(jìn)的移動(dòng)式激光3D植物表型成像系統(tǒng),高通量測(cè)序技術(shù);新基因挖掘與基礎(chǔ)研究取得明顯進(jìn)展;前沿技術(shù)引領(lǐng)育種方向,育種科技創(chuàng)新呈高新化,以轉(zhuǎn)基因、分子標(biāo)記、單倍體育種、分子設(shè)計(jì)、基因組編輯技術(shù)、全基因組選擇技術(shù)等;現(xiàn)代信息與智能化技術(shù)廣泛用于農(nóng)作物育種.圍繞新品種選育的實(shí)際過程,以性狀數(shù)據(jù)采集和處理分析為核心,以育種過程管理為基礎(chǔ),實(shí)現(xiàn)對(duì)育種的信息化管理和數(shù)據(jù)的科學(xué)化分析,全面提高育種的管理水平和數(shù)據(jù)處理能力.
現(xiàn)當(dāng)代育種技術(shù)(尤其是生物技術(shù)的應(yīng)用)的發(fā)展,使得作物育種數(shù)據(jù)呈現(xiàn)了信息爆炸,所獲得的育種數(shù)據(jù)不局限于單一的田間性狀調(diào)查結(jié)果,同時(shí)還存在土壤、氣候、水分等動(dòng)態(tài)環(huán)境,影響數(shù)據(jù)、基因表達(dá)及分子標(biāo)記等基因型數(shù)據(jù),代謝物動(dòng)態(tài)數(shù)據(jù)以及生產(chǎn)管理數(shù)據(jù)[1].而數(shù)字化育種,滕海濤等[2]將其定義為“通過對(duì)廣泛的動(dòng)態(tài)育種數(shù)據(jù)的標(biāo)準(zhǔn)化管理和分析,對(duì)育種材料綜合屬性進(jìn)行自動(dòng)數(shù)據(jù)處理,對(duì)育種材料進(jìn)行遺傳距離和類群分析,進(jìn)行雜種優(yōu)勢(shì)預(yù)先判定,對(duì)育種有關(guān)的環(huán)境因素、田間試驗(yàn)等數(shù)據(jù)加以考慮,按需選擇育種結(jié)果”.由于育種數(shù)據(jù)的膨脹,借鑒這種育種方式理念,提高育種的目標(biāo)性、準(zhǔn)確性和育種效率,育種過程中大數(shù)據(jù)管理和利用呼之欲出.
國外很多跨國種業(yè)公司已然意識(shí)到育種數(shù)據(jù)不可估量的價(jià)值,并且已經(jīng)加以利用.例如,董春水等[1]提到,“孟山都、杜邦先鋒、先正達(dá)等各大種企都建有自成體系的私有數(shù)據(jù)庫和管理系統(tǒng),且功能十分先進(jìn)與完善,存儲(chǔ)了整個(gè)產(chǎn)業(yè)鏈從研究部門到銷售部門的各種相關(guān)數(shù)據(jù)資料,這些私有數(shù)據(jù)庫系統(tǒng),其結(jié)構(gòu)、功能及內(nèi)涵的商業(yè)機(jī)密是保密的,但可以肯定都具備海量數(shù)據(jù)的超大存儲(chǔ)能力,復(fù)雜數(shù)據(jù)的高效分析能力,龐大系統(tǒng)的科學(xué)管理能力,能夠?yàn)檠芯亢凸芾砣藛T提供簡捷、高效、精準(zhǔn)的服務(wù),更好地完成相關(guān)的育種研究,如數(shù)據(jù)的自動(dòng)采集、分類、存儲(chǔ)、分析、建模等”.
1.1育種相關(guān)數(shù)據(jù)
1.1.1基因組測(cè)序數(shù)據(jù)
1977年,SANGER等發(fā)明了“末端終止法DNA測(cè)序”的應(yīng)用,使大規(guī)模、自動(dòng)化DNA測(cè)序得以發(fā)展.1988年到2001年,焦磷酸測(cè)序技術(shù)從發(fā)展到成熟,推進(jìn)了低成本的DNA測(cè)序技術(shù)發(fā)展.2005年,高通量測(cè)序技術(shù)開始萌發(fā).如今,DNA測(cè)序技術(shù)已然是成熟的低成本、高效率、高質(zhì)量的生物研究技術(shù)[3].
基因組序列對(duì)生物學(xué)家用于揭示物種生命本質(zhì)和利用生物資源有著重要意義,而關(guān)于模式植物以及一些重要農(nóng)作物的基因組信息的披露,可以促進(jìn)育種進(jìn)程向前推進(jìn).隨著測(cè)序技術(shù)的不斷推進(jìn),目前已完成了部分農(nóng)作物的基因組測(cè)序,例如水稻、高粱、玉米、大豆、大麥、小麥、棉花、小米、馬鈴薯等.
1.1.2轉(zhuǎn)錄組測(cè)序與分子標(biāo)記數(shù)據(jù)
轉(zhuǎn)錄組廣義上指的是某一特定生理?xiàng)l件下,細(xì)胞內(nèi)所有轉(zhuǎn)錄產(chǎn)物的集合,包括mRNA、r RNA、tRNA及非編碼RNA(non-coding RNA);狹義上指的是所有mRNA的一個(gè)集合.轉(zhuǎn)錄組是研究基因表達(dá)的一個(gè)主要手段,因?yàn)檗D(zhuǎn)錄組是可以連接起基因組上的遺傳信息與具備生物功能的蛋白質(zhì)組的一條必然紐帶,基于轉(zhuǎn)錄水平的調(diào)控則是目前研究領(lǐng)域涉及最多的,也正是生物體中最重要的一種調(diào)控方式.
轉(zhuǎn)錄組測(cè)序的研究對(duì)象為特定細(xì)胞在特定生理功能狀態(tài)下所有可能轉(zhuǎn)錄出來的RNA總和,主要包括m RNA和非編碼RNA .轉(zhuǎn)錄組的研究是基因功能及其結(jié)構(gòu)的重要基礎(chǔ)和出發(fā)點(diǎn),隨著新一代高通量測(cè)序技術(shù)的發(fā)展,已經(jīng)使高通量轉(zhuǎn)錄組測(cè)序,即RNA-seq(RNA sequencing),實(shí)現(xiàn)全面快速地獲得特定物種、特定組織或特定器官在特定狀態(tài)下產(chǎn)生的幾乎所有轉(zhuǎn)錄本序列的信息.轉(zhuǎn)錄組測(cè)序及序列利用這一重要研究手段已廣泛應(yīng)用于基礎(chǔ)科學(xué)研究、臨床診斷和各種藥物研發(fā)等領(lǐng)域.
DNA分子標(biāo)記作為在作物種質(zhì)資源中發(fā)現(xiàn)遺傳差異的新方法.近年來,育種家們已經(jīng)在各種作物中發(fā)現(xiàn)了許多的分子標(biāo)記,利用這些標(biāo)記實(shí)現(xiàn)了高密度永久分子遺傳物理圖譜的構(gòu)建,從而為標(biāo)記輔助選育新基因或QTL識(shí)別提供了依據(jù).
1.1.3作物表型檢測(cè)數(shù)據(jù)
自近現(xiàn)代人工育種興起以來,幾乎所有的育種項(xiàng)目,都會(huì)在實(shí)驗(yàn)室、溫室或者大田進(jìn)行表型檢測(cè).最開始依靠人為觀察記錄,而隨著光影科技和數(shù)字化發(fā)展,特別是顯微鏡的進(jìn)步,現(xiàn)在大部分表型數(shù)據(jù)已經(jīng)實(shí)現(xiàn)了自動(dòng)化圖像記錄[4].植物表型數(shù)據(jù)標(biāo)準(zhǔn)化和數(shù)據(jù)儲(chǔ)存處理對(duì)于基因組表型關(guān)聯(lián)分析有著重要意義[5].近百年來記載的作物表型數(shù)據(jù),包括文字記載和采集的圖形文件,對(duì)作物育種研究有著重要意義.
孟山都和杜邦先鋒公司目前都已采用溫室自動(dòng)化技術(shù),包括對(duì)溫室中的每一株植物進(jìn)行編號(hào),定期使用傳送帶將植物送到數(shù)據(jù)采集室,通過多方位和多光譜自動(dòng)照相技術(shù)采集相關(guān)數(shù)據(jù),再通過圖像分析技術(shù)建立相應(yīng)的生長模型,以還原植物在特定處理?xiàng)l件下的生長情況.
1.1.4田間數(shù)據(jù)與農(nóng)業(yè)環(huán)境數(shù)據(jù)
田間數(shù)據(jù)的采集從人工采集到現(xiàn)在依靠移動(dòng)設(shè)備和微型無人機(jī),育種數(shù)據(jù)的客觀性也在逐漸提升.依靠便攜式測(cè)量儀器、紅外傳感器和無人機(jī)攝影技術(shù),目前已經(jīng)實(shí)現(xiàn)了對(duì)大田作物生長數(shù)據(jù)全方位的檢測(cè).其中包括作物水分含量,生長時(shí)期,田間光照,溫度,濕度,土壤水分等,甚至可時(shí)刻預(yù)測(cè)作物病蟲害感染狀況.
農(nóng)業(yè)環(huán)境數(shù)據(jù)的檢測(cè),對(duì)作物品種推廣有著重要作用,由于作物生長環(huán)境的復(fù)雜多變,不同地域光照、溫度、土壤水分含量、空氣組成成分、病蟲害等條件存在差異,同一地區(qū)不同地塊也存在土壤肥力和小氣候的不同.為了實(shí)現(xiàn)種質(zhì)資源的地域匹配,2013 年,孟山都公司耗近10億美元收購了氣候公司(Climate Incorporation),2014年又收購了Solum公司的土壤分析板塊,以增強(qiáng)其在土壤氣候觀測(cè)和模擬以及農(nóng)業(yè)數(shù)據(jù)模型方面的實(shí)力.孟山都還花費(fèi)2.5億美元收購了精確播種公司(Precision Planting),并推出面向農(nóng)戶的應(yīng)用軟件FieldScripts,為肥力不均的地塊提供最佳的作物品種選擇和播種方案.杜邦先鋒于2013年與農(nóng)機(jī)巨頭約翰迪爾(John Deere)合作,推出具有相似功能的Field360.
1.2育種相關(guān)數(shù)據(jù)大小
在近百年育種家的努力下,育種相關(guān)數(shù)據(jù)正處于不斷增長,特別是新一代測(cè)序技術(shù)的發(fā)展,直接帶來了育種數(shù)據(jù)爆炸式的增加,以國際核苷酸序列數(shù)據(jù)庫GenBank為例,它以指數(shù)式增長,大概14個(gè)月總數(shù)據(jù)量翻1倍.
1.2.1基于測(cè)序的分子數(shù)據(jù)
由于物種多樣性的存在,植物的基因組大小不一.一般大田作物基因組都在1 Gb左右,水稻基因相對(duì)小些為0.4 Gb,大豆油料等為1.0 Gb,而玉米、小麥等要幾個(gè)Gb以上.英國皇家園林丘園焦佐爾實(shí)驗(yàn)室的遺傳學(xué)家伊利亞.雷特徹發(fā)現(xiàn),重樓百合(Paris japonica)擁有世界最大基因組——150 Gb[6].隨著水稻、玉米等作物基因組被測(cè)序,越來越多的作物基因組序列不斷公開發(fā)表,這些最終序列和測(cè)序過程中產(chǎn)生的數(shù)據(jù),無疑是龐大的.美國國家生物技術(shù)信息中心(NCBI)的基因銀行是全世界基因組數(shù)據(jù)的儲(chǔ)存中心,公開發(fā)表論文的各類基因組、表達(dá)組數(shù)據(jù)均存儲(chǔ)于此.目前,該中心的數(shù)據(jù)儲(chǔ)存量已經(jīng)達(dá)到萬億級(jí).GenBank發(fā)布的最新版本——Release 197(2013年8月),已經(jīng)涵蓋超過280 000個(gè)物種,數(shù)據(jù)年增長率達(dá)到45.1%[7].2010年,歐洲生物信息研究所(EMBL-EBI)的序列數(shù)據(jù)條目搜索為4億個(gè)記錄,而在2014年,記錄數(shù)目已經(jīng)超過了10億條[8].在中國,“3K”水稻基因組項(xiàng)目,收集全球2 859份水稻品種,產(chǎn)生了將近16 T的數(shù)據(jù)量[9].
1.2.2大田觀測(cè)數(shù)據(jù)
大田作物生長環(huán)境特點(diǎn)非常顯著,不可控、變數(shù)大.因此,在大田中環(huán)境監(jiān)測(cè)數(shù)據(jù)的記錄就尤其重要.表現(xiàn)型數(shù)據(jù)的特點(diǎn)是采集需要耗費(fèi)大量人力物力和時(shí)間,成本高;并且,群體大小和性狀、采集數(shù)據(jù)的地點(diǎn)都相當(dāng)有限,遠(yuǎn)沒有達(dá)到獲得基因型數(shù)據(jù)的高通量低成本水平.隨著自動(dòng)控制技術(shù)、計(jì)算機(jī)和其他信息技術(shù)、圖像處理技術(shù)的發(fā)展,性狀表現(xiàn)型數(shù)據(jù)的采集也得到了一定程度的發(fā)展,但還遠(yuǎn)遠(yuǎn)沒有達(dá)到成熟的程度.以我國育、繁、推一體的大型種子公司為例,一般的試驗(yàn)點(diǎn)數(shù)目已達(dá)到200個(gè)點(diǎn)左右,每年新增數(shù)據(jù)1 000萬個(gè)以上,照片10萬張以上[10].
同時(shí),伴隨高通量表現(xiàn)型分型技術(shù)和高通量基因分型技術(shù)的迅猛發(fā)展,對(duì)海量數(shù)據(jù)進(jìn)行采集、加工處理、分析統(tǒng)計(jì)、可視化和最終應(yīng)用于育種決策過程已經(jīng)成為時(shí)代的標(biāo)志,換言之,精確育種正式迎來了大數(shù)據(jù)(big data)時(shí)代.對(duì)高通量數(shù)據(jù)的采集技術(shù)已然成為促使作物產(chǎn)量再創(chuàng)新高的熱點(diǎn).如何儲(chǔ)存和處理圖形數(shù)據(jù),使其與測(cè)序數(shù)據(jù)融合,將對(duì)研究帶來更大的便利.
大數(shù)據(jù)因具備高度戰(zhàn)略意義、可操作性和產(chǎn)生巨大商業(yè)價(jià)值,因而引起研究者們的普遍關(guān)注[11].美國咨詢公司麥肯錫(Mc Kinsey)于2011年5月發(fā)表著名研究報(bào)告“Big data:the next frontier for innovation,competition,and productivity”,標(biāo)志著大數(shù)據(jù)時(shí)代的到來[12].大數(shù)據(jù)的興起,主要源于因特網(wǎng)、云技術(shù)和物聯(lián)網(wǎng)的迅速發(fā)展,各種終端設(shè)備、傳感器和檢測(cè)裝置無時(shí)無刻不在產(chǎn)生數(shù)據(jù).由于產(chǎn)生的數(shù)據(jù)量膨脹,同時(shí)由于傳統(tǒng)方法處理對(duì)象的局限性,尋求處理此種窘境的方法呼之欲出.
大數(shù)據(jù)有5大特征,即所謂5V:數(shù)量巨大(volume),類型多樣(variety),處理速度快(velocity),價(jià)值密度低(value),真實(shí)性(veracity)[11,13-15].在這5V中,數(shù)量巨大、類型多樣指數(shù)據(jù)量大而形式多樣,同時(shí)要求處理速度要快,而其中價(jià)值密度低則指的是數(shù)據(jù)信息存在垃圾多、污染重以及利用難的問題,然而就是在這樣的低密度中卻實(shí)實(shí)在在蘊(yùn)涵著巨大的價(jià)值[16].可以說,大數(shù)據(jù)時(shí)代的到來將對(duì)研究方式、思維方式乃至于生活方式和生產(chǎn)方式都產(chǎn)生革命性變化.
WAMBA等[11]對(duì)已經(jīng)發(fā)表截止到2012年12 月27日的1 153篇研究結(jié)果和文獻(xiàn)報(bào)道進(jìn)行統(tǒng)計(jì),通過人工處理篩選了最具代表性的62篇文獻(xiàn)進(jìn)行數(shù)據(jù)分析,發(fā)現(xiàn)自2008—2012年關(guān)于大數(shù)據(jù)的文獻(xiàn)呈顯著增長狀態(tài)(圖1).同時(shí),WAMBA等[11]根據(jù)產(chǎn)業(yè)類型分類發(fā)現(xiàn),大數(shù)據(jù)研究在技術(shù)概念和服務(wù)領(lǐng)域以具占16%的比例領(lǐng)先,而在醫(yī)療領(lǐng)域及政府管理方面的文獻(xiàn)報(bào)道也分別占11%和7%(表1).
數(shù)據(jù)爆炸,直接面臨的問題便是數(shù)據(jù)的存儲(chǔ).針對(duì)這一問題,科學(xué)家已研發(fā)了不同數(shù)據(jù)儲(chǔ)存系統(tǒng),包括:IBM專家集成系統(tǒng)PureData,浪潮云海大數(shù)據(jù)一體機(jī),曙光XData大數(shù)據(jù)一體機(jī),甲骨文Exadata X3一體機(jī),EMC Greenplum大數(shù)據(jù)一體機(jī),華為一體機(jī)(王迪和范平,2013,中關(guān)村在線).MARX[17]建議面對(duì)膨脹的生物數(shù)據(jù),云存儲(chǔ)和云計(jì)算可以作為科學(xué)家應(yīng)對(duì)這一狀況的策略.同時(shí),SPJUTH等[18]表示加大對(duì)生物信息分析工作流程的利用,可以緩沖生物大數(shù)據(jù)的沖擊.
對(duì)于大數(shù)據(jù)分析利用案例,最經(jīng)典莫過于Google美國流感預(yù)測(cè)的應(yīng)用.2009年,Google工程師在《Nature》科學(xué)期刊發(fā)表1篇名為《運(yùn)用大數(shù)據(jù)的分析》的論文,該文解釋Google如何利用民眾搜尋的關(guān)鍵詞,即能精確預(yù)測(cè)美國在冬天將爆發(fā)流感;果然那年冬天,美國發(fā)生H1N1流感危機(jī),Google系統(tǒng)所提供即時(shí)的資訊,有效協(xié)助公共衛(wèi)生當(dāng)局控制疫情[19].這是一個(gè)令世界矚目的案例,讓全世界意識(shí)到大數(shù)據(jù)不可估量的價(jià)值和應(yīng)用前景.同時(shí),Farecast利用10萬億條航班價(jià)格記錄,準(zhǔn)確預(yù)測(cè)航程票價(jià)變化趨勢(shì),這同樣引發(fā)人們對(duì)于大數(shù)據(jù)利用的重視[20].
近年來,美國已將大數(shù)據(jù)作為發(fā)展戰(zhàn)略提上議程.自2009年1月21日現(xiàn)任美國總統(tǒng)奧巴馬宣誓就職后的第一個(gè)工作日就簽發(fā)“開放政府”備忘錄,實(shí)施數(shù)字革命帶動(dòng)政府變革,到2014年3月,美國政府向全社會(huì)發(fā)出為政府大數(shù)據(jù)戰(zhàn)略發(fā)展征詢意見[21].
大數(shù)據(jù)科學(xué)應(yīng)用發(fā)展的迅猛,對(duì)于人才的需求猛增.國外眾多知名大學(xué)已紛紛加入大數(shù)據(jù)應(yīng)用人才培養(yǎng)隊(duì)伍,如美國斯坦福大學(xué)設(shè)立信息管理與分析專業(yè),弗吉尼亞大學(xué)設(shè)立數(shù)據(jù)科學(xué)研究所等.在國內(nèi),針對(duì)大數(shù)據(jù)人才的培養(yǎng)方案則初露頭角.2014 年,清華大學(xué)成立了清華-青島數(shù)據(jù)科學(xué)研究院,以數(shù)據(jù)共享和整合為基礎(chǔ),研究應(yīng)用為核心建立大數(shù)據(jù)分析共享平臺(tái)(http://news.tsinghua.edu.cn/).2015年10月,復(fù)旦大學(xué)成立了大數(shù)據(jù)學(xué)院和大數(shù)據(jù)研究院,將以計(jì)算機(jī)科學(xué)、數(shù)學(xué)和統(tǒng)計(jì)學(xué)為基礎(chǔ),與經(jīng)濟(jì)金融、生命科學(xué)、醫(yī)療衛(wèi)生和社會(huì)管理等眾多學(xué)科領(lǐng)域進(jìn)行深度交叉研究,旨在有效推動(dòng)相關(guān)學(xué)科的發(fā)展,直接面向產(chǎn)業(yè)需求建立跨學(xué)科、跨領(lǐng)域的研發(fā)團(tuán)隊(duì),集聚產(chǎn)業(yè)創(chuàng)新人才(http://news.fudan.edu.cn/).
大數(shù)據(jù)的出現(xiàn)可以實(shí)現(xiàn)科學(xué)研究從過去的假設(shè)驅(qū)動(dòng)型轉(zhuǎn)化為數(shù)據(jù)驅(qū)動(dòng)型,對(duì)大數(shù)據(jù)及相關(guān)處理技術(shù)可轉(zhuǎn)化為巨大的社會(huì)經(jīng)濟(jì)價(jià)值,被譽(yù)為“未來的新石油”[22].
現(xiàn)代遺傳育種存在諸多問題,如長期育種選擇導(dǎo)致遺傳基礎(chǔ)狹窄;雜交育種需時(shí)較長,近年發(fā)展的生物技術(shù)存在很多實(shí)踐應(yīng)用問題;公共平臺(tái)和資源共享不夠;傳統(tǒng)育種方法和現(xiàn)代生物技術(shù)有待進(jìn)一步融合等.現(xiàn)代育種技術(shù)體系復(fù)雜,需要多個(gè)學(xué)科交叉和多種技術(shù)支撐,缺乏有效數(shù)據(jù)組織和管理.分子設(shè)計(jì)育種作為新興的育種技術(shù)體系,可以實(shí)現(xiàn)育種的定向變異、準(zhǔn)確選擇的目標(biāo).但是這一系統(tǒng)的應(yīng)用,必須憑借強(qiáng)大的信息平臺(tái)建設(shè)、共享機(jī)制以及計(jì)算模擬集成技術(shù).在信息建設(shè)方面,現(xiàn)有品種信息庫、核心種質(zhì)信息庫、重要性狀基因功能與調(diào)控網(wǎng)絡(luò)信息庫、性狀形成的生理生化信息庫、分子標(biāo)記數(shù)據(jù)庫、生物信息學(xué)信息平臺(tái)、生物統(tǒng)計(jì)分析平臺(tái)等至關(guān)重要.但是我國育種領(lǐng)域數(shù)據(jù)孤島與數(shù)據(jù)海洋問題嚴(yán)重.我國育種相關(guān)數(shù)據(jù)量很大,但分散,未有效組織.目前育種者在育種過程中利用的數(shù)據(jù)主要為自身內(nèi)部數(shù)據(jù),而公開的文獻(xiàn)和基因組相關(guān)數(shù)據(jù)等其他數(shù)據(jù)很少利用或無法利用.導(dǎo)致大量內(nèi)部數(shù)據(jù)成為“數(shù)據(jù)孤島”,同時(shí)大量公開的育種相關(guān)數(shù)據(jù)(如基因組數(shù)據(jù))成為“數(shù)據(jù)海洋”,無從下手.上述問題極大地限制了育種相關(guān)數(shù)據(jù)的利用和育種效率的提高.
目前,已有一些組織和部門構(gòu)建了一些數(shù)據(jù)庫和共享平臺(tái),但這些數(shù)據(jù)庫往往存在相對(duì)分散、整合度不夠高、針對(duì)性不夠強(qiáng)等問題.如何有效利用科學(xué)家多年來產(chǎn)生的育種數(shù)據(jù),整合處理成有效資源,并反哺于農(nóng)業(yè)發(fā)展,大數(shù)據(jù)育種系統(tǒng)的發(fā)展,將會(huì)成為解決懸而未決育種難題的有效手段.
大數(shù)據(jù)育種策略不同于以前提出的一些計(jì)算機(jī)輔助育種方法,后者通常是將通用性狀和特征性狀進(jìn)行數(shù)字化,便于利用遺傳算法進(jìn)行統(tǒng)計(jì)和篩選[23].王建康等[24]提出“植物育種模擬方法旨在建立較真實(shí)的遺傳模型,對(duì)育種程序中的各種因素進(jìn)行模擬篩選和優(yōu)化,提出最佳親本選配和后代選擇策略.模擬方法利用經(jīng)典遺傳學(xué)、數(shù)量遺傳學(xué)和群體遺傳學(xué)的基本原理,結(jié)合各種遺傳研究結(jié)果,定義育種性狀的遺傳模型”.模擬育種的前提是基于特定子代性狀來源于親本,所以育種家們通常通過一些模擬方法評(píng)價(jià)親本是否合適及親本的影響程度,這些方法包括評(píng)估雜種優(yōu)勢(shì)表型表達(dá)狀態(tài),最佳線性無偏預(yù)測(cè),基于譜系、分子標(biāo)記數(shù)據(jù)的遺傳關(guān)系分析等[25-34].王建康等[24]提出一個(gè)遺傳模型:包含控制性狀的基因有多少,它們?cè)谌旧w的位點(diǎn),每個(gè)基因座位上的等位基因數(shù),等位基因間的作用方式及不同座位上基因間的作用方式等內(nèi)容.育種模擬的優(yōu)勢(shì)在于可以比較不同標(biāo)記輔助選擇方法的育種效率(田間試驗(yàn)需要很大時(shí)間人力資源成本),提供有效遺傳信息.但是,模擬育種只是基于積累的遺傳數(shù)據(jù)和已知遺傳原理進(jìn)行虛擬育種設(shè)計(jì),成功率尚待商榷.而遺傳數(shù)據(jù)一經(jīng)特定模型算法的限制,往往會(huì)造成信息丟失.
3.1國外大數(shù)據(jù)技術(shù)在育種中的應(yīng)用現(xiàn)狀
先鋒、先正達(dá)、孟山都等國際知名育種公司,均分別建立了高水平的育種信息平臺(tái)和育種體系.在他們的研發(fā)隊(duì)伍中,除了傳統(tǒng)育種隊(duì)伍和分子監(jiān)測(cè)與分析隊(duì)伍,都配備了一支龐大的生物信息和數(shù)量遺傳學(xué)分析隊(duì)伍.他們的育種工作人員除了在田間進(jìn)行育種工作外,也會(huì)使用先進(jìn)的數(shù)據(jù)采集設(shè)備,其育種數(shù)據(jù)庫,包含了詳盡的系譜信息和親緣關(guān)系.這些育種公司能在育種行業(yè)處于壟斷地位,與其大量采集處理的育種數(shù)據(jù)有著密不可分的關(guān)系.
在政府層面上,大數(shù)據(jù)技術(shù)利用往往是目前一個(gè)重點(diǎn)扶持產(chǎn)業(yè)之一.美國國家健康中心于2010年將1 000個(gè)基因組計(jì)劃項(xiàng)目的數(shù)據(jù)上傳至亞馬遜云計(jì)算平臺(tái),研究者在使用其約2 700個(gè)體數(shù)據(jù)記錄的同時(shí)也可以在該平臺(tái)上傳和儲(chǔ)存數(shù)據(jù)[35].在2012年美國公布的大數(shù)據(jù)研究與發(fā)展方案中,即提出84個(gè)計(jì)劃,范圍涵蓋國防、醫(yī)療、教育、能源、交通運(yùn)輸、國土安全、商業(yè)、科學(xué)、工業(yè)等應(yīng)用領(lǐng)域[21].為響應(yīng)創(chuàng)新領(lǐng)域發(fā)展,Intel與MIT等頂尖大學(xué)結(jié)盟成立,投入大數(shù)據(jù)核心技術(shù)開發(fā);產(chǎn)業(yè)界IBM及GE,也專注發(fā)展特定領(lǐng)域之大數(shù)據(jù)應(yīng)用.同時(shí),美國政府創(chuàng)建了data.gov網(wǎng)站,率先公開白宮相關(guān)數(shù)據(jù),以期實(shí)現(xiàn)大數(shù)據(jù)的共享時(shí)代[36].最近有報(bào)道,美國伊利諾斯州的國家超級(jí)計(jì)算機(jī)應(yīng)用中心獲得180萬美元的項(xiàng)目資助,用于大數(shù)據(jù)育種的開發(fā)(http://www.eurekalert.org/pub_releases/2015-07/crwi-ir071315.php).歐洲方面,Oxford的大數(shù)據(jù)中心專注在藥物的開發(fā).亞太地區(qū)的新加坡政府與GE已共同成立,協(xié)助企業(yè)發(fā)展大數(shù)據(jù)應(yīng)用.歐亞地區(qū)還有很多國家(如英國、印度)已然開始了“數(shù)據(jù)公開”運(yùn)動(dòng).總體上看,目前國外政府導(dǎo)向的大數(shù)據(jù)育種中研究與應(yīng)用尚在起步中.
3.2國內(nèi)大數(shù)據(jù)技術(shù)在育種中的應(yīng)用現(xiàn)狀
在國家政策上,盡管政府相關(guān)部門已經(jīng)將大數(shù)據(jù)技術(shù)與應(yīng)用提上議程,但相較于西方國家,我國仍缺少政策型規(guī)劃和經(jīng)費(fèi)建設(shè).特別在大數(shù)據(jù)科學(xué)研究和技術(shù)開發(fā)層面,國家自然科學(xué)基金委員會(huì)第89期雙清論壇“大數(shù)據(jù)技術(shù)與應(yīng)用中的挑戰(zhàn)性科學(xué)問題”上指出,我國科技界因缺乏經(jīng)費(fèi)和數(shù)據(jù)資源的支持使其積極性和主動(dòng)性表現(xiàn)不高[22].我國大數(shù)據(jù)產(chǎn)業(yè)面臨的問題包括數(shù)據(jù)開放共享程度低,數(shù)據(jù)安全和隱私保護(hù)風(fēng)險(xiǎn)日益突出,技術(shù)創(chuàng)新與應(yīng)用能力滯后,產(chǎn)業(yè)生態(tài)體系尚未完善等[37].
我國工信部與大學(xué)研究機(jī)構(gòu),聯(lián)手成立大數(shù)據(jù)研究中心.我國2010年起籌劃構(gòu)建的國家農(nóng)業(yè)科學(xué)數(shù)據(jù)共享中心,主要收集從事農(nóng)業(yè)科技活動(dòng)所產(chǎn)生的基本數(shù)據(jù),以及按照不同需求而系統(tǒng)加工整理的數(shù)據(jù)產(chǎn)品和相關(guān)信息,從而致力于推動(dòng)科技資源優(yōu)化配置,實(shí)現(xiàn)開放共享[38].但是該平臺(tái)由于沒有大數(shù)據(jù)的整合設(shè)計(jì),整個(gè)農(nóng)業(yè)科技平臺(tái)的運(yùn)作還停留在小數(shù)據(jù)時(shí)代.
我國已開始部分育種相關(guān)數(shù)據(jù)的研究和項(xiàng)目設(shè)計(jì).如近期北京市科委重大項(xiàng)目“作物育種大數(shù)據(jù)技術(shù)與性狀采集智能裝備的研發(fā)與應(yīng)用”也已經(jīng)啟動(dòng);深圳市扶持華大基因的生物育種,建設(shè)農(nóng)業(yè)大數(shù)據(jù)計(jì)算平臺(tái)等.一些研究者已開始意識(shí)到大數(shù)據(jù)的重要性,葉錫君等[36]建議對(duì)水稻、大豆等十幾種主要作物的創(chuàng)新種質(zhì)、遺傳材料、代表性地方品種等特種遺傳資源,進(jìn)行數(shù)字化、標(biāo)準(zhǔn)化整理,構(gòu)建農(nóng)作物特種遺傳資源共享平臺(tái)[39].
4.1大數(shù)據(jù)技術(shù)育種利用途徑
當(dāng)前作物育種領(lǐng)域的一個(gè)重要命題是如何總結(jié)和凝練大數(shù)據(jù)環(huán)境下農(nóng)作物育種領(lǐng)域的創(chuàng)新方法,為我國“十三五”科技重點(diǎn)專項(xiàng)育種技術(shù)創(chuàng)新提供方法支撐.為此,本文提出一個(gè)以大數(shù)據(jù)技術(shù)為基礎(chǔ)的育種方法創(chuàng)新方案:基于知識(shí)工程的流程,有機(jī)整合作物不同品系與野生資源等在材料、基因、性狀等方面的數(shù)據(jù)庫,消除數(shù)據(jù)孤島,形成大數(shù)據(jù)下的作物育種數(shù)據(jù)庫及其處理系統(tǒng);以性狀數(shù)據(jù)采集和處理分析為核心,以作物育種過程管理為基礎(chǔ),研究作物育種資源整合、數(shù)據(jù)科學(xué)分析、過程信息化管理的育種技術(shù)新體系(圖2).
在涵蓋農(nóng)業(yè)育種數(shù)據(jù)信息的大規(guī)模數(shù)據(jù)庫平臺(tái)和富集算法及生物數(shù)字模型的計(jì)算體系基礎(chǔ)上,以創(chuàng)新方法應(yīng)用為契機(jī),通過基因挖掘和育種技術(shù),形成以用戶需求(育種家或者企業(yè))為導(dǎo)向的大數(shù)據(jù)育種技術(shù)平臺(tái).同時(shí),創(chuàng)造有重大應(yīng)用價(jià)值的新種質(zhì),培育和應(yīng)用一批具有市場(chǎng)競爭力的突破性重大新品種,實(shí)現(xiàn)種質(zhì)創(chuàng)新,提升育種自主創(chuàng)新能力.
圖2表明,一個(gè)理想的大數(shù)據(jù)育種技術(shù)是以生產(chǎn)特定品種為導(dǎo)向,通過遺傳信息流平臺(tái)建設(shè),根據(jù)需求組合信息流,輸出滿足目標(biāo)基因組成的新品種.其中具體實(shí)施步驟包括:
1)收集遺傳作物育種相關(guān)數(shù)據(jù).獲得育種與遺傳材料相關(guān)文獻(xiàn)(論文、育種相關(guān)書籍、專利等),遺傳資源相關(guān)數(shù)據(jù),品種審定相關(guān)數(shù)據(jù)(品種區(qū)域試驗(yàn)數(shù)據(jù)和品質(zhì)、抗性等測(cè)定數(shù)據(jù)等)和基因組相關(guān)數(shù)據(jù)(基因組、分子標(biāo)記、基因序列、基因表達(dá)等公開數(shù)據(jù)).同時(shí),各個(gè)育種組內(nèi)部數(shù)據(jù)(系譜和田間表型和室內(nèi)考種數(shù)據(jù),分子數(shù)據(jù)等)也可以有效地采集并作為大數(shù)據(jù)系統(tǒng)的一部分加以利用.大數(shù)據(jù)育種最重要的基礎(chǔ)是獲得完整的育種相關(guān)數(shù)據(jù),這是進(jìn)行大數(shù)據(jù)育種技術(shù)的先決條件.
2)處理育種相關(guān)數(shù)據(jù),進(jìn)行統(tǒng)計(jì)分析,建立數(shù)據(jù)挖掘平臺(tái).如支持向量機(jī)、神經(jīng)網(wǎng)絡(luò)、序列模式發(fā)現(xiàn)等多種數(shù)據(jù)挖掘算法,均可以用于育種相關(guān)數(shù)據(jù)分析;同時(shí),數(shù)據(jù)運(yùn)算采用云技術(shù)等,保證分析快速完成,及時(shí)提供分析結(jié)果.該步驟是利用大數(shù)據(jù)技術(shù)挖掘育種相關(guān)大數(shù)據(jù)形成概念/知識(shí)/育種建議的過程.
3)搭建人機(jī)交互系統(tǒng).以育種相關(guān)數(shù)據(jù)庫及其育種信息與咨詢系統(tǒng)形式出現(xiàn),它不同于傳統(tǒng)意義上的育種技術(shù)(如雜交育種、雜種優(yōu)勢(shì)育種技術(shù)等),但可以預(yù)計(jì)該技術(shù)將對(duì)作物育種工作產(chǎn)生巨大影響和作用.平臺(tái)可以提供多元化育種服務(wù)內(nèi)容,除了大數(shù)據(jù)挖掘與育種利用分析服務(wù)外,可以整合目前已有一些計(jì)算機(jī)輔助育種系統(tǒng),如育種和實(shí)驗(yàn)數(shù)據(jù)輔助系統(tǒng)、田間設(shè)計(jì)與統(tǒng)計(jì)系統(tǒng)等.
4.2大數(shù)據(jù)技術(shù)育種建議與展望
大規(guī)模生產(chǎn)、分享和應(yīng)用數(shù)據(jù)的時(shí)代正在開啟.數(shù)據(jù)的積累可以從量變引發(fā)質(zhì)變,越來越多的企業(yè)、行業(yè)和國家以數(shù)據(jù)為資源進(jìn)行知識(shí)和智力開發(fā),挖掘數(shù)據(jù)價(jià)值,已經(jīng)初具大數(shù)據(jù)思維[40].2010年,美國科學(xué)家HOLDREN等呼吁集合國家之力解決各個(gè)研究領(lǐng)域出現(xiàn)的數(shù)據(jù)膨脹問題,并且為大數(shù)據(jù)技術(shù)加大財(cái)政支持[35].如近期美國伊利諾斯州超級(jí)計(jì)算機(jī)應(yīng)用中心剛得到項(xiàng)目資助.我國目前在5年(2016—2020)重大科技專項(xiàng)指南中也涵蓋了大數(shù)據(jù)在育種領(lǐng)域應(yīng)用的內(nèi)容.為此,我們提出如下建議:1)開展我國作物育種相關(guān)數(shù)據(jù)本底和規(guī)模調(diào)查與估計(jì).目前育種相關(guān)數(shù)據(jù)主要包括各個(gè)育種組內(nèi)部數(shù)據(jù)、文獻(xiàn)、遺傳資源相關(guān)數(shù)據(jù)、品種審定相關(guān)數(shù)據(jù)、基因組相關(guān)數(shù)據(jù)等.應(yīng)對(duì)這些數(shù)據(jù)的規(guī)模、分布等進(jìn)行全面調(diào)查,特別是育種課題組內(nèi)部數(shù)據(jù)規(guī)模(如可分南方水稻和北方小麥)進(jìn)行調(diào)查.2)開展基于大數(shù)據(jù)技術(shù)框架的育種相關(guān)數(shù)據(jù)采集、整合、挖掘與育種利用技術(shù)研究.作物育種相關(guān)數(shù)據(jù),特別是表型數(shù)據(jù)采集是育種過程的一個(gè)難點(diǎn),消耗大量人力和物力,數(shù)據(jù)準(zhǔn)確性低誤差大;同時(shí),文獻(xiàn)和相關(guān)數(shù)據(jù)等大量育種相關(guān)數(shù)據(jù)分散在各個(gè)數(shù)據(jù)庫或期刊書籍中.結(jié)合計(jì)算機(jī)抓取和圖像識(shí)別等技術(shù),研發(fā)育種相關(guān)數(shù)據(jù)大規(guī)模和自動(dòng)采集技術(shù).開展育種相關(guān)大數(shù)據(jù)整合和挖掘技術(shù),同時(shí)開展在育種中利用途徑研究.3)開展大數(shù)據(jù)育種機(jī)構(gòu)建設(shè).建議成立全國性大數(shù)據(jù)作物育種中心,可考慮以北方和南方地域布局,也可以按照不同作物種類(如水稻/小麥/玉米等)建設(shè).這些機(jī)構(gòu)將對(duì)我國育種相關(guān)數(shù)據(jù)進(jìn)行采集、歸類和數(shù)據(jù)挖掘,同時(shí)提供公開的大數(shù)據(jù)育種平臺(tái)分析與育種利用服務(wù).
農(nóng)作物育種領(lǐng)域有著豐富的種質(zhì)資源,海量的各類型育種相關(guān)數(shù)據(jù),漫長的育種過程及其復(fù)雜的技術(shù)系統(tǒng),使得農(nóng)業(yè)育種已然隸屬大數(shù)據(jù)領(lǐng)域,構(gòu)建大數(shù)據(jù)育種系統(tǒng)勢(shì)在必行.歷史上中國的育種技術(shù)曾領(lǐng)先世界,而在近現(xiàn)代的科學(xué)技術(shù)革命中,中國則退居學(xué)習(xí)者或跟蹤者地位.這次大數(shù)據(jù)技術(shù)浪潮,為農(nóng)作物育種變革提供了良機(jī),是中國縮短與世界育種水平距離的機(jī)會(huì),我們當(dāng)以創(chuàng)新的魄力和勇氣去抓住此次時(shí)代賦予中國的機(jī)遇.
參考文獻(xiàn)(References):
[1]董春水,才卓.現(xiàn)代數(shù)字育種技術(shù)的研究進(jìn)展.玉米科學(xué),2013,21(1):1-8.DONG C S,CAI Z.Advanced in modern data-driven breeding technologies.Journal of Maize Sciences,2013,21 (1):1-8.(in Chinese with English abstract)
[2]滕海濤.數(shù)字化玉米育種思路.中國農(nóng)學(xué)通報(bào),2008,12(24):495-498.TENG H T.Exploration on digital maize breeding.Chinese Agricultural Science Bulletin,2008,12(24):495-498.(in Chinese with English abstract)
[3]孫健冬.高通量測(cè)序技術(shù)在農(nóng)作物全基因組序列測(cè)定中的應(yīng)用概覽.生物技術(shù)進(jìn)展,2012,2(1):11-15.SUN J D.A brief review of crop’s whole genome sequencing by next generation sequencing technology.Current Biotechnology,2012,2(1):11-15.(in Chinese with English abstract)
[4]王冰冰.大數(shù)據(jù):植物育種的加速器.高科技與產(chǎn)業(yè)化,2015,5 (228):50-52.WANG B B.Big data:the accelerator of crop breeding.High Technology and Industrialization,2015,5(228):50-52.(in Chinese)
[5]KRAJEWSKI P,CHEN D,C′WIEK H,et al.Towards recommendations for metadata and data handling in plant phenotyping.Journal of Experimental Botany,2015,66 (18):5417-5427.
[6]PELLICER J,FAY M,LEITCH I,et al.The largest eukaryotic genome of them all?Botanical Journal of the Linnean Society,2010,164:10-15.
[7]BENSON D,CLARK K,KARSCH-MIZRACHI I,et al.GenBank.Nucleic Acids Research,2014,42:D32-D37.
[8]SQUIZZATO S,PARK Y,BUSO N,et al.The EBI search engine:providing search and retrieval functionality for biological data from EMBL-EBI.Nucleic Acids Research,2015,4:8.
[9]鄭天清,余泓,張洪亮,等.水稻功能基因組育種數(shù)據(jù)庫(RFGB):3K水稻SNP與In Del子數(shù)據(jù)庫.科學(xué)通報(bào),2015,4 (60):367-371.ZHENG T Q,YU H,ZHANG H L,et al.Rice functional genomics and breeding database(RFGB):3K-rice SNP and InDel sub-database.Science Bulletin,2015,4(60):367-371.(in Chinese with English abstract)
[10]王虎,楊耀華,李紹明,等.基于移動(dòng)端作物大田測(cè)試數(shù)據(jù)采集技術(shù)研究與實(shí)現(xiàn).中國農(nóng)業(yè)科技導(dǎo)報(bào),2013,15(4):156-162.WANG H,YANG Y H,LI S M,et al.Research and implementation of field crop test data collection based on mobile phone.Journal of Agricultural Science and Technology,2013,15(4):156-162.(in Chinese with English abstract)
[11]WAMBA S,AKTER S,EDWARDS A,et al.How‘big data’can make big impact:findings from a systematic review and a longitudinal case study.International Journal of Production Economics,2015,165:234-246.
[12]MANYIKA J,CHUI M,BROWN B,et al.Big data:the next frontier for innovation,competition,and productivity,2011.http://www.mckinsey.com/insights/business_technology/big_ data_the_next_frontier_for_innovation.
[13]RUSSOM P.The three Vs of big data analytics,TDWI.2011.
[14]MCAFEE A,BRYNJOLFSSON E.Big data:the management revolution.Harvard Business Revolution,2012,10:61-68.
[15]KWON O,SIM J.Effects of data set features on the performances of classification algorithms.Expert System Application,2013,40(5):1847-1857.
[16]WHITE M.Digital workplaces:vision and reality.Business Information Review,2012,29(4),205-214.
[17]MARX V.The big challenges of big data.Nature,2013,498 (6):255-260.
[18]SPJUTH O,BONGCAM-RUDLOFF E,HERNANDEZ G,et al.Experiences with workflows for automating dataintensive bioinformatics.Biology Direct,2015,10:43.
[19]涂子沛.大數(shù)據(jù):正在到來的數(shù)據(jù)革命,以及它如何改變政府、商業(yè)與我們的生活.桂林:廣西師范大學(xué)出版社,2013:1,10.XU Z P.Big Data:Incoming Data Revolution,and How it Changes Governments,Business and Our Lives.Guilin:Guangxi Normal University Press,2013:1,10.(in Chinese)
[20]維克托.邁爾-舍恩伯格,肯尼思.庫克耶.大數(shù)據(jù)時(shí)代:生活、工作與思維的大變革.盛楊燕,周濤,譯.杭州:浙江人民出版社,2012:58.MAYER-SCH?ENBERGER V,CUKIER K.Big Data:A Revolution that Will Transform How We Live,Work and Think.CHENG Y Y,ZHOU T,translate.Hangzhou:Zhejiang Public Press,2012:58.(in Chinese)
[21]大數(shù)據(jù)的國家戰(zhàn)略.信息系統(tǒng)工程.新聞透視,2015,4:8-9.Big data of national strategy.Information system engineering.News Insight,2015,4:8-9.(in Chinese)
[22]王成紅,陳偉能,張軍,等.大數(shù)據(jù)技術(shù)與應(yīng)用中的挑戰(zhàn)性科學(xué)問題.中國科學(xué)基金,2014(2):92-97.WANG C H,CHEN W N,ZHANG J,et al.Challenging scientific problems for technologies and applications of big data.Science Foundation in China,2014(2):92-97.(in Chinese with English abstract)
[23]AZIMZADEH M,AMIRI R,DAVOODI-BOJD E,et al.Computer aided selection in breeding programs using genetic.Spanish Journal of Agricultural Research,2010,8(3):672-678.
[24]王建康,李慧慧,張魯燕.基因定位與育種設(shè)計(jì).北京:科學(xué)出版社,2014,6:168,230.WANG J K,LI H H,ZHANG L Y,et al.Gene Location and the Design of Breeding.Beijing:Science Press,2014,6:168,230.(in Chinese)
[25]MELCHINGER A,SCHMIDT W,GEIGER H.Comparison of testcrosses produced from F2and first backcross populations in maize.Crop Science,1988,28:743-749.
[26]DUDLEY J.Breeding:choice of parents//Goodman R M.Encyclopedia of Plant and Crop Science.London:Taylor &Francis,2004:215-217.
[27]PANTER D,ALLEN F.Using best linear unbiased predictions to enhance breeding for yield in soybean:Ⅰ.Choosing parents.Crop Science,1995,35:397-405.
[28]Burkhamer R,Lanning S,Martens R,et al.Predicting progeny variance from parental divergence in hard red spring wheat.Crop Science,1998,38:243-248.
[29]BERNARDO R.Breeding for Quantitative Traits in Plants.Woodbury,MN,USA:Stemma Press,2002.
[30]DUDLEY J,MAROOF M,RUFENER G.Molecular marker information and selection of parents in corn breeding programs.Crop Science,1992,32:301-304.
[31]BERNARDO R,YU J.Prospects for genome wide selection for quantitative traits in maize.Crop Science,2007,47:1082-1090.
[32]ZHONG S,JANNINK J.Using quantitative trait loci results to discriminate among crosses on the basis of their progeny mean and variance.Genetics,2007,177:567-576.
[33]FRISCH M,THIEMANN A,FU J,et al.Transcriptomebased distance measures for grouping of germplasm and prediction of hybrid performance in maize.Theoretical Applied Genetics,2010,120:441-450.
[34]SUN X,PENG T,MUMM R.The role and basics of computer simulation in support of critical decisions in plant breeding.Molecular Breeding,2011,28:421-436.
[35]MERVIS J.Agencies rally to tackle big data.Science,2012,336:22.
[36]侯人華,徐少同.美國政府開放數(shù)據(jù)的管理和利用分析:以www.data.gov為例.圖書情報(bào)工作,2011,4:119-122.HOU R H,XU S T.Management and Reuse of the US.Government open data:taking www.data.gov for an example.Library and Information Service,2011,4:119-122.(in Chinese)
[37]王偉玲.大數(shù)據(jù)產(chǎn)業(yè)的戰(zhàn)略價(jià)值研究與思考.技術(shù)經(jīng)濟(jì)與管理研究,2015(1):117-120.WANG W L.Research and thinking on the strategic value of the big data industry.Technological Economy and Management Research,2015(1):117-120.(in Chinese with English abstract)
[38]曹永生,方溈.國家農(nóng)作物種質(zhì)資源平臺(tái)的建立和應(yīng)用.生物多樣性,2011,18(5):454-460.CAO Y S,FANG W.Establishment and application of national crop germplasm resources infrastructure in China.Biodiversity Science,2011,18(5):454-460.(in Chinese with English abstract)
[39]葉錫君,孫敬,張?zhí)煺?農(nóng)作物特種遺傳資源共享平臺(tái)的建立.南京農(nóng)業(yè)大學(xué)學(xué)報(bào),2011,34(6):7-12.YE X J,SUN J,ZHANG T Z.Genetic resources sharing platform construction of crops.Journal of Nanjing Agricultural University,2011,34(6):7-12.(in Chinese with English abstract)
[40]張維明,唐九陽.大數(shù)據(jù)思維.指揮信息系統(tǒng)與技術(shù),2015,6 (2):1-4.ZHANG W M,TANG J Y.Big data thinking.Command Information System and Technology,2015,6(2):1-4.(in Chinese with English abstract)
收稿日期(Received):2015-11-10;接受日期(Accepted):2015-11-25;網(wǎng)絡(luò)出版日期(Published online):2015-12-15
*通信作者(
Corresponding author):樊龍江(http://orcid.org/0000-0002-2892-7102),Tel:+86-571-88982730;E-mail:fanlj@zju.edu.cn
基金項(xiàng)目:中華人民共和國科學(xué)技術(shù)部創(chuàng)新方法工作專項(xiàng)(2015IM010400);中華人民共和國科學(xué)技術(shù)部科技基礎(chǔ)性工作專項(xiàng)(2013IM030700).
DOI:10.3785/j.issn.1008-9209.2015.11.102
中圖分類號(hào)S 5;C 82
文獻(xiàn)標(biāo)志碼A
浙江大學(xué)學(xué)報(bào)(農(nóng)業(yè)與生命科學(xué)版)2016年1期