岳 媛 趙 剛
(北京信息科技大學(xué)信息管理學(xué)院,北京100192)
“農(nóng)以種為先”,種子是農(nóng)業(yè)產(chǎn)業(yè)發(fā)展的首要環(huán)節(jié)和重要載體,是國(guó)內(nèi)外農(nóng)業(yè)產(chǎn)業(yè)競(jìng)爭(zhēng)的源頭和焦點(diǎn)。據(jù)聯(lián)合國(guó)糧農(nóng)組織統(tǒng)計(jì),今后全球糧食總產(chǎn)量增長(zhǎng)80%貢獻(xiàn)率需依賴提高單產(chǎn),而單產(chǎn)提高60%~80%貢獻(xiàn)率依賴良種,因此,加快育種進(jìn)程勢(shì)在必行。
現(xiàn)代育種技術(shù)(尤其是生物技術(shù)的應(yīng)用)的發(fā)展,使得作物育種數(shù)據(jù)呈現(xiàn)出信息爆炸的狀態(tài)。育種數(shù)據(jù)不局限于單一的田間性狀調(diào)查結(jié)果,同時(shí)還存在土壤、氣候、水分等動(dòng)態(tài)環(huán)境,影響數(shù)據(jù)、基因表達(dá)及分子標(biāo)記等基因型數(shù)據(jù),代謝物動(dòng)態(tài)數(shù)據(jù)以及生產(chǎn)管理數(shù)據(jù)[1]。整合和最大化利用這些生物學(xué)數(shù)據(jù),無(wú)疑對(duì)現(xiàn)代育種研究具有不可估量的重要意義。
然而,調(diào)查研究發(fā)現(xiàn),育種數(shù)據(jù)采集方式單一、育種數(shù)據(jù)處理手段落后、各育種單位自身?xiàng)l件受限,以致于無(wú)法滿足育種工作的創(chuàng)新和新型育種活動(dòng)的需要。因此,充分利用現(xiàn)有的信息通信技術(shù),結(jié)合大數(shù)據(jù)、人工智能等新方法,改良育種數(shù)據(jù)管理方式,加強(qiáng)互聯(lián)網(wǎng)+農(nóng)業(yè)信息化的發(fā)展,成為首要任務(wù)。
2016年1月由國(guó)家農(nóng)業(yè)信息化工程技術(shù)研究中心研發(fā)的金種子育種云平臺(tái)(作物育種信息管理平臺(tái))在北京上線[2]。該平臺(tái)自發(fā)布以來(lái),有效解決了育種材料數(shù)量多、規(guī)模龐大、試驗(yàn)基地分布區(qū)域廣等帶來(lái)的工作繁重、效率不高等問(wèn)題。推動(dòng)我國(guó)由傳統(tǒng)育種向商業(yè)育種、經(jīng)驗(yàn)育種向精確育種轉(zhuǎn)變,為北京建設(shè)“種業(yè)硅谷”夯實(shí)基礎(chǔ)[3]。
傳統(tǒng)的育種管理平臺(tái)升級(jí)為云平臺(tái),不難發(fā)現(xiàn),我國(guó)育種行業(yè)的發(fā)展已經(jīng)有所進(jìn)步,但在更深層面上,育種行業(yè)仍然只是行業(yè)而并未形成產(chǎn)業(yè),與世界的差距依然存在。對(duì)比我國(guó)頂尖種業(yè)公司登海種業(yè)及跨國(guó)種業(yè)孟山都,分析二者經(jīng)營(yíng)規(guī)模的差異得知,孟山都種業(yè)銷售收入總趨勢(shì)是逐年遞增,而我國(guó)登海種業(yè)以及大部分種業(yè)的銷售收入情況增長(zhǎng)仍然不穩(wěn)定[4]。造成這種差距的主要原因是我國(guó)種業(yè)員工文化程度低、品種審定制度門檻過(guò)高、海量數(shù)據(jù)處理較慢、缺乏統(tǒng)一的數(shù)據(jù)分析平臺(tái)等??梢?jiàn),國(guó)內(nèi)育種缺少的不只是強(qiáng)大的育種技術(shù),更是一種解決傳統(tǒng)問(wèn)題的創(chuàng)新思想。
基于此,本文密切迎合育種行業(yè)需求,結(jié)合物聯(lián)網(wǎng)、大數(shù)據(jù)技術(shù)、人工智能及機(jī)器學(xué)習(xí)方法,提出并構(gòu)建基于云技術(shù)新型架構(gòu)的育種數(shù)據(jù)服務(wù)平臺(tái),研究新型、高效的育種數(shù)據(jù)管理和數(shù)據(jù)分析方法,一方面可以提高育種工作人員的效率,研究出更加優(yōu)質(zhì)的作物品種;另一方面主動(dòng)革新育種手段可以提高育種企業(yè)的競(jìng)爭(zhēng)力,打響國(guó)內(nèi)種業(yè)品牌。此外,將人工智能領(lǐng)域的機(jī)器學(xué)習(xí)算法應(yīng)用在育種數(shù)據(jù)管理中,響應(yīng)了國(guó)家所倡導(dǎo)的“三農(nóng)政策”,將互聯(lián)網(wǎng)與傳統(tǒng)農(nóng)業(yè)深入結(jié)合,締造出新的農(nóng)業(yè)發(fā)展態(tài)勢(shì)。
本文結(jié)合云技術(shù)進(jìn)行具體研討,將新型架構(gòu)部署至私有云中,從而實(shí)現(xiàn)依照相應(yīng)的付費(fèi)標(biāo)準(zhǔn)為更多的企業(yè)提供服務(wù),實(shí)現(xiàn)育種資源共享。圖1為云技術(shù)下育種數(shù)據(jù)服務(wù)平臺(tái)總框圖。在此過(guò)程中,數(shù)據(jù)的存儲(chǔ)及分析服務(wù)成為設(shè)計(jì)焦點(diǎn)。
圖1 云技術(shù)下育種數(shù)據(jù)服務(wù)平臺(tái)
1.1 平臺(tái)需求分析概況育種數(shù)據(jù)服務(wù)平臺(tái)的用戶主要為育種工作人員、育種科研機(jī)構(gòu)和平臺(tái)管理人員等,提供的主要服務(wù)是對(duì)育種數(shù)據(jù)進(jìn)行管理,涉及到育種數(shù)據(jù)的采集、數(shù)據(jù)分析和模型應(yīng)用等一系列過(guò)程。用戶在獲得平臺(tái)登錄許可后,可以根據(jù)需求對(duì)其操作,如獲取實(shí)時(shí)育種性狀數(shù)據(jù)、天氣以及地理屬性數(shù)據(jù);根據(jù)需求對(duì)數(shù)據(jù)進(jìn)行圖形化展示,方便用戶重點(diǎn)分析數(shù)據(jù)潛在規(guī)律;平臺(tái)采用機(jī)器學(xué)習(xí)算法和大數(shù)據(jù)技術(shù),對(duì)數(shù)據(jù)進(jìn)行客觀分析,以便為用戶提供合理的決策意見(jiàn)。此外,該平臺(tái)搭建在云技術(shù)上,方便不同區(qū)域的用戶能夠隨時(shí)獲取育種數(shù)據(jù),還可更好地實(shí)現(xiàn)育種數(shù)據(jù)的共享,為育種科研工作提供支持。
隨著現(xiàn)有育種數(shù)據(jù)的增長(zhǎng),目前育種軟件不能很好地處理這些數(shù)據(jù),因此需要該平臺(tái)的新型架構(gòu)作為底層框架,支撐數(shù)據(jù)分析及建模的運(yùn)行。
1.2 新型架構(gòu)的組成及優(yōu)勢(shì)美國(guó)孟山都公司采用傳統(tǒng)的SQL Server+IIS+EX為用戶提供服務(wù)。本文提出的架構(gòu)以Django為Web框架,Python為后端操作建模語(yǔ)言,MongoDB為數(shù)據(jù)庫(kù),從而提供快速存儲(chǔ)服務(wù)及數(shù)據(jù)分析服務(wù)。
1.2.1 Django框架為更好地提供育種數(shù)據(jù)分析服務(wù),選取機(jī)器學(xué)習(xí)算法,Python語(yǔ)言類庫(kù)多、調(diào)用方便的優(yōu)點(diǎn)更能適用于育種數(shù)據(jù)服務(wù)平臺(tái)的開(kāi)發(fā)。Django作為Python的一個(gè)開(kāi)源框架,應(yīng)用開(kāi)發(fā)遵循MVC模式。其中C是應(yīng)用程序中處理用戶交互的部分,而Django更關(guān)注的是模型(Model)、模板(Template)和視圖(Views),因此 Django也被稱為MTV框架。該框架分工明確,層次分明,代碼相互不交叉,只需解決連接問(wèn)題。同時(shí)基于Django框架的育種部署系統(tǒng)具有實(shí)用、開(kāi)源、輕量級(jí)等多個(gè)優(yōu)點(diǎn),可方便地移植于Windows、Linux等多種操作系統(tǒng)平臺(tái),在云平臺(tái)上充分發(fā)揮作用,為育種專家提供有效的數(shù)據(jù)分析服務(wù)。
1.2.2 MongoDB數(shù)據(jù)庫(kù)近年來(lái)伴隨高通量測(cè)序技術(shù)的發(fā)展,產(chǎn)生了海量作物育種相關(guān)基因及其表達(dá)數(shù)據(jù),形成了育種大數(shù)據(jù)。為滿足數(shù)據(jù)的存儲(chǔ)效率及育種數(shù)據(jù)服務(wù)的相關(guān)要求,研究了MongoDB數(shù)據(jù)庫(kù)與育種數(shù)據(jù)之間的相關(guān)性,運(yùn)用其面向文檔的數(shù)據(jù)存儲(chǔ)模式和可擴(kuò)展的表結(jié)構(gòu),實(shí)現(xiàn)提高育種數(shù)據(jù)讀取和存儲(chǔ)的速度,為育種數(shù)據(jù)分析提供操作便利性和可解讀的數(shù)據(jù)存儲(chǔ)結(jié)構(gòu),并且大大降低數(shù)據(jù)的復(fù)雜度和關(guān)聯(lián)度,使其更加適用于育種。與孟山都公司采用傳統(tǒng)的數(shù)據(jù)庫(kù)相比,本架構(gòu)充分利用MongoDB的NoSQL數(shù)據(jù)庫(kù)特性,在安全上有效防范傳統(tǒng)SQL注入,解決相關(guān)育種數(shù)據(jù)平臺(tái)的數(shù)據(jù)安全問(wèn)題。
同時(shí),把MongoDB部署在云端,企業(yè)可以在世界范圍內(nèi)存儲(chǔ)更多的數(shù)據(jù),吸引更多的育種機(jī)構(gòu),關(guān)聯(lián)更多的信息,創(chuàng)造更高的價(jià)值。在云技術(shù)環(huán)境下的MongoDB發(fā)揮其原生的可擴(kuò)展框架,保持育種數(shù)據(jù)的可用性和完整性的自動(dòng)管理,還有可啟用的分片和水平擴(kuò)展技術(shù),提供了云存儲(chǔ)所需的技術(shù)。設(shè)計(jì)實(shí)現(xiàn)中,利用MongoDB對(duì)MapReduce的支持及其Hadoop接口,設(shè)計(jì)便于開(kāi)發(fā)及擴(kuò)展的育種數(shù)據(jù)服務(wù)平臺(tái)。
1.2.3 云存儲(chǔ)對(duì)于育種數(shù)據(jù)的分析,單單幾次用戶操作軌跡的跟蹤并不能準(zhǔn)確地推算出用戶的行為習(xí)慣,幾天的系統(tǒng)日志分析結(jié)果并不能讓觀察人員做出最合理的決策,只有通過(guò)大樣本隨機(jī)對(duì)照雙盲測(cè)試才能斷定某種商品的價(jià)值[5]。因此對(duì)于采集到的海量數(shù)據(jù),MongoDB成了存儲(chǔ)的最佳選擇。此外,為保證全國(guó)地域的數(shù)據(jù)采集及數(shù)據(jù)的時(shí)效性,還需構(gòu)建一個(gè)快捷且穩(wěn)定的網(wǎng)絡(luò)數(shù)據(jù)集的存儲(chǔ)基地——云端存儲(chǔ)中心。無(wú)論何時(shí)何地,研究者都可以通過(guò)云服務(wù)把最新數(shù)據(jù)存儲(chǔ)在云端,也可以獲取其他地域的最新數(shù)據(jù),MongoDB沒(méi)有給出存儲(chǔ)上限,隨著數(shù)據(jù)采集周期性的加長(zhǎng)可得到更多數(shù)據(jù),在使用諸如育種決策系統(tǒng)等分析系統(tǒng)對(duì)大數(shù)據(jù)進(jìn)行處理時(shí),能帶來(lái)可靠的分析結(jié)果,便于做出正確的決策。
1.3 系統(tǒng)設(shè)計(jì)邏輯育種數(shù)據(jù)服務(wù)平臺(tái)采用Django框架和MongoDB相結(jié)合的新型Web架構(gòu)。既確保各功能模塊之間互不影響又提高了育種數(shù)據(jù)讀取和存儲(chǔ)的速度。在此架構(gòu)之上,平臺(tái)提供從數(shù)據(jù)采集到數(shù)據(jù)分析、數(shù)據(jù)處理等一系列功能。其中數(shù)據(jù)存儲(chǔ)服務(wù)使用新型流數(shù)據(jù)技術(shù)并由云技術(shù)的MongoDB提供,從而解決存儲(chǔ)速度慢、容量小等問(wèn)題。
1.3.1 系統(tǒng)功能模塊平臺(tái)將搭建于云服務(wù)器上,利用云存儲(chǔ)的可擴(kuò)展性和高訪問(wèn)特性,實(shí)現(xiàn)育種數(shù)據(jù)的海量管理和共享機(jī)制。其育種平臺(tái)總體結(jié)構(gòu)圖如圖2所示。
圖2 育種平臺(tái)總體結(jié)構(gòu)圖
數(shù)據(jù)采集過(guò)程,分為在線數(shù)據(jù)分析和離線數(shù)據(jù)分析;在線數(shù)據(jù)為實(shí)時(shí)接收移動(dòng)終端傳送的數(shù)據(jù);離線數(shù)據(jù)包括.xls和.txt格式的數(shù)據(jù)。
數(shù)據(jù)分析過(guò)程,主要采用機(jī)器學(xué)習(xí)和大數(shù)據(jù)技術(shù)對(duì)獲取的數(shù)據(jù)進(jìn)行分析;機(jī)器學(xué)習(xí)算法主要包括支持向量機(jī)、樸素貝葉斯的分類算法和K-means聚類算法等;大數(shù)據(jù)技術(shù)采用的是Spark技術(shù)對(duì)數(shù)據(jù)進(jìn)行運(yùn)算。
模型構(gòu)建與應(yīng)用過(guò)程,主要是通過(guò)機(jī)器學(xué)習(xí)算法分析數(shù)據(jù)后,構(gòu)建合理的數(shù)據(jù)分析模型。用戶可以通過(guò)構(gòu)建的模型對(duì)新的數(shù)據(jù)進(jìn)行分類或者預(yù)測(cè)等。
行業(yè)論壇,這一模塊主要為育種人員提供交流的窗口,分享育種經(jīng)驗(yàn)。
1.3.2 系統(tǒng)核心技術(shù)及實(shí)現(xiàn)利用Python提供的pickle類將代碼中建立好的模型,從字節(jié)流轉(zhuǎn)成字符流文件,并將其存在文件系統(tǒng)中。其優(yōu)勢(shì)在于無(wú)需重復(fù)建模,只需調(diào)用即可。
1.4 運(yùn)行效果數(shù)據(jù)統(tǒng)計(jì)、數(shù)據(jù)分析、結(jié)果展示分別如圖3、圖4、圖5所示。
2.1 面向用戶的多層次服務(wù)架構(gòu)云存儲(chǔ)是面向用戶,以服務(wù)為中心的存儲(chǔ)管理,其特點(diǎn)為按需服務(wù),自動(dòng)化運(yùn)維。本文設(shè)計(jì)的非結(jié)構(gòu)化數(shù)據(jù)的云存儲(chǔ)架構(gòu)建立在Hadoop之上。層次結(jié)構(gòu)主要包括以下部分。
圖3 數(shù)據(jù)統(tǒng)計(jì)
圖4 數(shù)據(jù)分析
圖5 結(jié)果展示
存儲(chǔ)層:位于多層次服務(wù)結(jié)構(gòu)的最底層,起存儲(chǔ)數(shù)據(jù)作用。對(duì)于育種企業(yè),產(chǎn)生的育種數(shù)據(jù)越來(lái)越多且用戶量較大時(shí),傳統(tǒng)的單節(jié)點(diǎn)存儲(chǔ)已不再滿足需求,采用多節(jié)點(diǎn)存儲(chǔ)方式對(duì)數(shù)據(jù)進(jìn)行有效的管理,搭建分布式數(shù)據(jù)存儲(chǔ)中心,將數(shù)據(jù)分散存儲(chǔ)的同時(shí)對(duì)外提供了更專項(xiàng)化的服務(wù)。
對(duì)于存儲(chǔ)層的數(shù)據(jù)管理,各育種企業(yè)通過(guò)物聯(lián)網(wǎng)技術(shù)將采集的育種數(shù)據(jù)上傳至分布式數(shù)據(jù)存儲(chǔ)中心,育種專家或系統(tǒng)管理人員將相關(guān)數(shù)據(jù)進(jìn)行收集,后臺(tái)數(shù)據(jù)庫(kù)MongoDB處理大量的流數(shù)據(jù),也為大數(shù)據(jù)的分析提供了強(qiáng)有力的保障,并提供了Hadoop接口,能與第三方數(shù)據(jù)分析工具完美結(jié)合。
接口層:為上層(業(yè)務(wù)層)提供接口,調(diào)用最底層(存儲(chǔ)層)的數(shù)據(jù)和方法。其中數(shù)據(jù)采集接口服務(wù)[1]主要包括性狀數(shù)據(jù)采集設(shè)備、田間視頻監(jiān)控設(shè)備、生長(zhǎng)環(huán)境信息采集設(shè)備。用于數(shù)據(jù)分析接口服務(wù)包括自動(dòng)化考種系統(tǒng)、育種試驗(yàn)分析軟件以及支付系統(tǒng)等。
業(yè)務(wù)層:即育種系統(tǒng)業(yè)務(wù)邏輯設(shè)計(jì),為用戶提供數(shù)據(jù)操作,并完成用戶的請(qǐng)求。
應(yīng)用服務(wù)層:用戶與云存儲(chǔ)數(shù)據(jù)中心的集群進(jìn)行交互,發(fā)送相關(guān)請(qǐng)求,并與存儲(chǔ)層中的數(shù)據(jù)交換實(shí)現(xiàn)數(shù)據(jù)操作。
2.2 云存儲(chǔ)數(shù)據(jù)中心模型云存儲(chǔ)是云計(jì)算的延伸,它致力于解決云計(jì)算中海量數(shù)據(jù)存儲(chǔ)的問(wèn)題。通過(guò)互聯(lián)網(wǎng)的連接,云存儲(chǔ)為用戶提供了訪問(wèn)共享存儲(chǔ)池的能力。用戶可隨時(shí)隨地進(jìn)入云平臺(tái),享用該服務(wù)。面對(duì)采集到的農(nóng)作物數(shù)據(jù),分散在各個(gè)科研單位的數(shù)據(jù)集,為了更好地融合這些數(shù)據(jù)集,要求數(shù)據(jù)存儲(chǔ)系統(tǒng)的設(shè)計(jì)需滿足:可擴(kuò)展性,支持海量數(shù)據(jù)處理,實(shí)現(xiàn)資源的按需擴(kuò)展;可靠與可恢復(fù)性,在進(jìn)行種子培養(yǎng)、性狀采集時(shí)會(huì)產(chǎn)生相應(yīng)的數(shù)據(jù),部分原始數(shù)據(jù)甚至還具有不可重現(xiàn)性,這要求存儲(chǔ)系統(tǒng)必須具備較強(qiáng)的可恢復(fù)性,能夠?qū)崿F(xiàn)數(shù)據(jù)災(zāi)備和恢復(fù);高訪問(wèn)性,伴隨育種協(xié)作的不斷推進(jìn),不同科研單位對(duì)于數(shù)據(jù)的交互需求逐漸增加,數(shù)據(jù)量也隨之增長(zhǎng),這需要系統(tǒng)具有較高的訪問(wèn)性能,能夠在很短的時(shí)間內(nèi)傳輸并反饋海量的數(shù)據(jù)。
云存儲(chǔ)數(shù)據(jù)中心是由多個(gè)物理機(jī)組成的集群系統(tǒng)[6],如圖6所示,提供可擴(kuò)展、高可靠性及高訪問(wèn)性存儲(chǔ)空間。
該集群類似于亞馬遜簡(jiǎn)單存儲(chǔ)服務(wù)(Amazon S3),由一個(gè)控制節(jié)點(diǎn)和多個(gè)數(shù)據(jù)節(jié)點(diǎn)構(gòu)成,對(duì)育種用戶提供統(tǒng)一的管理和維護(hù)。其中,控制節(jié)點(diǎn)用來(lái)保存和管理種子性狀的元數(shù)據(jù)信息;而數(shù)據(jù)節(jié)點(diǎn)則用來(lái)存放真實(shí)的數(shù)據(jù),如PDF文件、Word文檔、視頻文件等。數(shù)據(jù)存儲(chǔ)中心向育種用戶提供統(tǒng)一的服務(wù)接口,用戶通過(guò)標(biāo)準(zhǔn)化服務(wù)接口操作育種信息的存儲(chǔ)、刪除、移動(dòng)、計(jì)算處理等任務(wù)。該集群系統(tǒng)存在于基礎(chǔ)設(shè)施層,具有可靠性和魯棒性,各個(gè)節(jié)點(diǎn)相互獨(dú)立,一個(gè)節(jié)點(diǎn)的損壞不會(huì)影響其他節(jié)點(diǎn)。當(dāng)控制節(jié)點(diǎn)出現(xiàn)問(wèn)題時(shí),整個(gè)系統(tǒng)會(huì)停住工作,此時(shí)系統(tǒng)中的備份控制節(jié)點(diǎn)發(fā)揮作用,迅速完成數(shù)據(jù)恢復(fù)。待恢復(fù)完畢,系統(tǒng)繼續(xù)服務(wù)。
圖6 云存儲(chǔ)數(shù)據(jù)中心模型
3.1 育種類數(shù)據(jù)需要“云架構(gòu)”的支撐綜上,云技術(shù)除解決了育種類數(shù)據(jù)“大規(guī)模、非結(jié)構(gòu)化、數(shù)據(jù)處理慢”這3個(gè)傳統(tǒng)特點(diǎn)外,還有數(shù)據(jù)分析中算法需要“云架構(gòu)”的支撐[7]。云計(jì)算具有低成本、易擴(kuò)展、計(jì)算能力強(qiáng)等優(yōu)勢(shì),將育種數(shù)據(jù)上傳后選擇云中相應(yīng)算法得出性狀對(duì)應(yīng)的結(jié)論。對(duì)比國(guó)內(nèi)先鋒“金種子云平臺(tái)”提供的種質(zhì)資源管理、試驗(yàn)規(guī)劃、性狀采集APP、品種選育、品種區(qū)試、系譜管理、數(shù)據(jù)分析、基于電子標(biāo)簽的育種全程可追溯等服務(wù)。其中,本平臺(tái)數(shù)據(jù)分析模塊采用機(jī)器學(xué)習(xí)和大數(shù)據(jù)技術(shù),包括支持向量機(jī)、樸素貝葉斯的分類算法和聚類算法等;同時(shí)也采用了Spark技術(shù)對(duì)數(shù)據(jù)進(jìn)行運(yùn)算。方法諸多,便于使用。
3.2 除育種行業(yè)外其他行業(yè)的遷移該平臺(tái)存在于云上,主要為育種行業(yè)提供服務(wù)[8],相關(guān)數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)分析、模型應(yīng)用等模塊加強(qiáng)傳統(tǒng)育種信息化建設(shè),向互聯(lián)網(wǎng)+農(nóng)業(yè)邁進(jìn)。當(dāng)然,其他行業(yè)的云平臺(tái)也可遷移至此。例如零售業(yè),商家對(duì)賣場(chǎng)物品的擺放可運(yùn)用數(shù)據(jù)分析手段對(duì)商品間進(jìn)行相關(guān)性分析;投資方對(duì)賣場(chǎng)的選址可用聚類算法;利用NLP挖掘潛在客戶,從而刺激銷量;運(yùn)輸行業(yè)的運(yùn)輸路線等??梢?jiàn),該平臺(tái)亦推進(jìn)了其他行業(yè)的發(fā)展進(jìn)程。
因現(xiàn)有育種數(shù)據(jù)管理工具的落后,育種數(shù)據(jù)分析平臺(tái)的匱乏,提出并構(gòu)建了以Django為Web框架、Python為后端操作建模語(yǔ)言、MongoDB為數(shù)據(jù)庫(kù)的新型架構(gòu),論述了其在育種平臺(tái)下的應(yīng)用優(yōu)勢(shì)。隨后,研究該架構(gòu)下的育種服務(wù)與云技術(shù)模式的契合點(diǎn),在云技術(shù)下重點(diǎn)開(kāi)發(fā)了數(shù)據(jù)統(tǒng)計(jì)、分析、模型應(yīng)用等服務(wù),育種家可根據(jù)種子特征因素繪制種子性狀統(tǒng)計(jì)圖,進(jìn)行數(shù)據(jù)分析,還可對(duì)種子材料的優(yōu)劣進(jìn)行評(píng)價(jià)并利用機(jī)器學(xué)習(xí)算法對(duì)其性狀聚類,挖掘潛在規(guī)律。此外,還重點(diǎn)建設(shè)云存儲(chǔ)數(shù)據(jù)中心及對(duì)外分析服務(wù),解決了海量數(shù)據(jù)存儲(chǔ)的問(wèn)題,其特色在于便利了育種數(shù)據(jù)的管理,減少了育種數(shù)據(jù)存儲(chǔ)的成本,實(shí)現(xiàn)了育種數(shù)據(jù)的資源共享。具有廣闊的應(yīng)用前景。
目前,網(wǎng)絡(luò)安全漏洞、數(shù)據(jù)泄露、存儲(chǔ)故障等問(wèn)題日益加重,安全性成為制約云存儲(chǔ)發(fā)展的首要問(wèn)題,如何改善安全性也迫在眉睫。云存儲(chǔ)中數(shù)據(jù)的安全性尚待進(jìn)一步研究。