趙華 趙瑞雪 金慧敏 鄭建華 鮮國建 朱亮 寇遠(yuǎn)濤
(1. 中國農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所,北京 100081;2. 農(nóng)業(yè)農(nóng)村部農(nóng)業(yè)大數(shù)據(jù)重點(diǎn)實(shí)驗(yàn)室,北京 100081)
在數(shù)據(jù)密集型科研范式時(shí)代,大數(shù)據(jù)引起政府、產(chǎn)業(yè)界、學(xué)術(shù)界的廣泛關(guān)注,成為各行業(yè)各領(lǐng)域發(fā)展重點(diǎn)。2015年農(nóng)業(yè)農(nóng)村部印發(fā)《關(guān)于深化農(nóng)業(yè)科技體制機(jī)制改革加快實(shí)施創(chuàng)新驅(qū)動(dòng)發(fā)展戰(zhàn)略的若干意見》,提出加強(qiáng)農(nóng)業(yè)科技大數(shù)據(jù)平臺(tái)建設(shè),完善設(shè)施設(shè)備,統(tǒng)一數(shù)據(jù)接口和標(biāo)準(zhǔn),強(qiáng)化數(shù)據(jù)積累,加強(qiáng)數(shù)據(jù)分析,為農(nóng)業(yè)科技創(chuàng)新提出長期連續(xù)、全面翔實(shí)的基礎(chǔ)數(shù)據(jù)[1]。同年底,農(nóng)業(yè)農(nóng)村部發(fā)布《關(guān)于推進(jìn)農(nóng)業(yè)農(nóng)村大數(shù)據(jù)發(fā)展的實(shí)施意見》,全面部署農(nóng)業(yè)農(nóng)村大數(shù)據(jù)發(fā)展工作[2]。由此可見,農(nóng)業(yè)領(lǐng)域?qū)Υ髷?shù)據(jù)的發(fā)展與應(yīng)用有著迫切的需求。農(nóng)業(yè)科技大數(shù)據(jù)作為農(nóng)業(yè)大數(shù)據(jù)的一部分,與農(nóng)業(yè)科技活動(dòng)有著密切的關(guān)系,是農(nóng)業(yè)科技活動(dòng)中產(chǎn)生的、長期積累的各種信息的集合,是農(nóng)業(yè)領(lǐng)域快速發(fā)現(xiàn)新知識(shí)、創(chuàng)造新價(jià)值、提升新能力的國家基礎(chǔ)性戰(zhàn)略資源,在農(nóng)業(yè)領(lǐng)域科技研究、產(chǎn)業(yè)發(fā)展、管理決策等方面發(fā)揮重要的作用,其服務(wù)對(duì)象包含政府部門、科研機(jī)構(gòu)、涉農(nóng)企業(yè)、農(nóng)業(yè)科技工作者、種植養(yǎng)殖戶等。目前,農(nóng)業(yè)科技信息快速增長、海量分散,“信息污染”和知識(shí)獲取困難等問題不斷凸顯,用戶對(duì)農(nóng)業(yè)科技數(shù)據(jù)的需求難以得到滿足,為此開展農(nóng)業(yè)科技大數(shù)據(jù)的建設(shè)與應(yīng)用方面的研究和實(shí)踐顯得尤為迫切,是我國農(nóng)業(yè)信息服務(wù)機(jī)構(gòu)迎接大數(shù)據(jù)時(shí)代必須要邁出的一步,也是為提升我國農(nóng)業(yè)科技信息服務(wù)水平積累經(jīng)驗(yàn)。
國際上農(nóng)業(yè)領(lǐng)域大數(shù)據(jù)資源建設(shè)涉及科技文獻(xiàn)、科學(xué)數(shù)據(jù)和統(tǒng)計(jì)數(shù)據(jù)等。國際農(nóng)業(yè)和生物科學(xué)中心建設(shè)的CABI文摘數(shù)據(jù)庫、美國農(nóng)業(yè)圖書館組織建設(shè)的AGRICOLA數(shù)據(jù)庫、聯(lián)合國糧農(nóng)組織建設(shè)的AGRIS數(shù)據(jù)庫是典型的農(nóng)業(yè)科技文獻(xiàn)數(shù)據(jù)庫,美國國家生物技術(shù)信息中心的GeneBank、澳大利亞的世界牧草屬數(shù)據(jù)庫和英國的世界草業(yè)數(shù)據(jù)庫等都是農(nóng)業(yè)專業(yè)領(lǐng)域典型的科學(xué)數(shù)據(jù)倉儲(chǔ)庫。聯(lián)合國糧農(nóng)組織建設(shè)的FAO統(tǒng)計(jì)數(shù)據(jù)庫[3]、美國農(nóng)業(yè)部數(shù)據(jù)中心[4]等都屬于統(tǒng)計(jì)數(shù)據(jù)類倉儲(chǔ)。除國際組織和政府部門建設(shè)的農(nóng)業(yè)領(lǐng)域大數(shù)據(jù)倉儲(chǔ)外,國外一些大型企業(yè)開展農(nóng)業(yè)生產(chǎn)大數(shù)據(jù)建設(shè),如孟山都公司(Monsanto)建設(shè)的Climate Pro或Field Scripts,主要服務(wù)于農(nóng)業(yè)種植決策和精準(zhǔn)生產(chǎn)。
國內(nèi)在農(nóng)業(yè)領(lǐng)域大數(shù)據(jù)倉儲(chǔ)建設(shè)方面與國外類似,建設(shè)的資源包含科技文獻(xiàn)、科學(xué)數(shù)據(jù)、市場(chǎng)數(shù)據(jù)等。前兩者主要由農(nóng)業(yè)科研機(jī)構(gòu)主導(dǎo)建設(shè),包括中國農(nóng)業(yè)科技文獻(xiàn)數(shù)據(jù)庫、國家農(nóng)業(yè)科學(xué)數(shù)據(jù)中心[5]、農(nóng)業(yè)基礎(chǔ)性長期性監(jiān)測(cè)數(shù)據(jù)[6]等,以及專業(yè)領(lǐng)域的科學(xué)數(shù)據(jù)庫(如全國農(nóng)業(yè)資源區(qū)劃基礎(chǔ)數(shù)據(jù)庫、外來入侵物種數(shù)據(jù)庫[7]、中國飼料數(shù)據(jù)庫等)。農(nóng)業(yè)農(nóng)村部聯(lián)合各地政府部門主導(dǎo)建設(shè)的農(nóng)產(chǎn)品市場(chǎng)價(jià)格數(shù)據(jù)庫,收集了全國各地的大宗農(nóng)作物重點(diǎn)農(nóng)產(chǎn)品的生產(chǎn)情況、批發(fā)價(jià)格等方面的數(shù)據(jù)。除了政府和科研機(jī)構(gòu)外,一些電商企業(yè)依托日常開展的業(yè)務(wù),關(guān)注于農(nóng)業(yè)產(chǎn)業(yè)鏈下游(流通、消費(fèi)等)相關(guān)數(shù)據(jù)資源的建設(shè)。
由此可見,農(nóng)業(yè)領(lǐng)域大數(shù)據(jù)發(fā)展迅速,圍繞科技文獻(xiàn)、科學(xué)數(shù)據(jù)、統(tǒng)計(jì)數(shù)據(jù)、市場(chǎng)數(shù)據(jù)等建設(shè)了不同類型的數(shù)據(jù)資源倉儲(chǔ)庫或數(shù)據(jù)平臺(tái),但已有的數(shù)據(jù)倉儲(chǔ)主題相對(duì)單一,資源類型、來源相對(duì)集中。與其他領(lǐng)域相比,農(nóng)業(yè)領(lǐng)域多類型、多來源科技數(shù)據(jù)資源的整合還有待加強(qiáng)。在醫(yī)學(xué)領(lǐng)域,針對(duì)海量的健康醫(yī)療數(shù)據(jù)的管理與利用問題建設(shè)了醫(yī)療大數(shù)據(jù)資源倉儲(chǔ)系統(tǒng),按照資源類型整合了不同來源的臨床、管理和科研數(shù)據(jù)等資源,為保障醫(yī)療數(shù)據(jù)的互聯(lián)互通,消除“信息孤島”,提供基礎(chǔ)支撐[8]。在農(nóng)業(yè)領(lǐng)域,農(nóng)業(yè)科技數(shù)據(jù)資源種類多、來源廣,同樣需要建設(shè)一個(gè)綜合性的、可服務(wù)于農(nóng)業(yè)科技的大數(shù)據(jù)倉儲(chǔ)系統(tǒng),以進(jìn)一步全面整合與匯聚農(nóng)業(yè)領(lǐng)域多來源的科技數(shù)據(jù)資源,為農(nóng)業(yè)科技創(chuàng)新、管理決策提供有效的資源保障。
農(nóng)業(yè)科技大數(shù)據(jù)與農(nóng)業(yè)科技活動(dòng)密切相關(guān),一切服務(wù)于農(nóng)業(yè)科技活動(dòng),以及因農(nóng)業(yè)科技活動(dòng)而產(chǎn)生的信息、數(shù)據(jù)資源都屬于農(nóng)業(yè)科技大數(shù)據(jù)的范疇。其中包括了種類豐富的數(shù)據(jù)、信息和知識(shí),統(tǒng)一歸納,即形成多源異構(gòu)的農(nóng)業(yè)科技大數(shù)據(jù)。除傳統(tǒng)的電子圖書、電子期刊、專利數(shù)據(jù)、科學(xué)數(shù)據(jù)等外,隨著互聯(lián)網(wǎng)開放獲取運(yùn)動(dòng)的開展,通過網(wǎng)絡(luò)采集獲取的各類科技信息資源使得農(nóng)業(yè)科技大數(shù)據(jù)的種類更加豐富。
農(nóng)業(yè)科技大數(shù)據(jù)中資源類型多樣、結(jié)構(gòu)復(fù)雜,包含文本數(shù)據(jù)、數(shù)值數(shù)據(jù)、圖片數(shù)據(jù)、聲音數(shù)據(jù)和圖像數(shù)據(jù)等,按照資源的內(nèi)容可以分為文獻(xiàn)類、數(shù)據(jù)類、政策資訊類及事實(shí)工具類資源等。其中文獻(xiàn)類資源通常包括農(nóng)業(yè)領(lǐng)域圖書、科技期刊文獻(xiàn)、科技報(bào)告和專利等。數(shù)據(jù)類資源主要包括科學(xué)數(shù)據(jù)和統(tǒng)計(jì)數(shù)據(jù),科學(xué)數(shù)據(jù)是指農(nóng)業(yè)科技活動(dòng)中產(chǎn)生的實(shí)驗(yàn)數(shù)據(jù)、監(jiān)測(cè)數(shù)據(jù)、分析數(shù)據(jù),以及形成的延續(xù)性的數(shù)據(jù)產(chǎn)品等;統(tǒng)計(jì)數(shù)據(jù)主要指來自國內(nèi)外權(quán)威機(jī)構(gòu)的對(duì)外公開的農(nóng)業(yè)相關(guān)統(tǒng)計(jì)數(shù)據(jù),該類數(shù)據(jù)資源是在已有各類統(tǒng)計(jì)資料的基礎(chǔ)上對(duì)數(shù)據(jù)進(jìn)行重新整合,從而形成具有時(shí)間序列屬性的數(shù)據(jù)??萍颊吆托侣勝Y訊類資源通常是指通過網(wǎng)絡(luò)化信息采集方式,采集互聯(lián)網(wǎng)上開放的涉農(nóng)政策和新聞資訊等信息,經(jīng)過加工標(biāo)引等環(huán)節(jié),形成規(guī)范的科技政策和新聞資訊類資源。事實(shí)工具類資源主要是經(jīng)過規(guī)范加工整理的農(nóng)業(yè)領(lǐng)域?qū)<規(guī)?、農(nóng)業(yè)科研機(jī)構(gòu)庫和農(nóng)業(yè)科研項(xiàng)目庫等事實(shí)類資源,以及農(nóng)業(yè)敘詞表、農(nóng)業(yè)百科等工具類資源。農(nóng)業(yè)科技大數(shù)據(jù)內(nèi)容框架見圖1。
數(shù)據(jù)倉儲(chǔ)是面向主題的、集成的、穩(wěn)定的、隨時(shí)間變化的數(shù)據(jù)集合。數(shù)據(jù)倉儲(chǔ)可實(shí)現(xiàn)對(duì)數(shù)字資源的提交和收集、描述、發(fā)布、索引、檢索、互操作等,同時(shí)兼具數(shù)據(jù)存儲(chǔ)、管理與保存等功能。隨著農(nóng)業(yè)科技數(shù)據(jù)資源的急劇增長,需要建設(shè)一個(gè)開放、統(tǒng)一的數(shù)據(jù)倉儲(chǔ)對(duì)數(shù)據(jù)資源進(jìn)行規(guī)范管理,將會(huì)對(duì)數(shù)據(jù)資源的整合與揭示發(fā)揮重要作用,并為最終的數(shù)據(jù)共享與應(yīng)用提供支撐。農(nóng)業(yè)科技大數(shù)據(jù)倉儲(chǔ)的建設(shè)將有效解決在網(wǎng)絡(luò)環(huán)境下對(duì)數(shù)字資源保存、訪問和管理等方面的問題,除實(shí)現(xiàn)對(duì)數(shù)據(jù)資源保存與管理外,還面向各種基于倉儲(chǔ)資源的數(shù)據(jù)應(yīng)用與服務(wù)提供數(shù)據(jù)接口。
圖1 農(nóng)業(yè)科技大數(shù)據(jù)內(nèi)容框架
農(nóng)業(yè)科技大數(shù)據(jù)倉儲(chǔ)總體框架包含數(shù)據(jù)來源、數(shù)據(jù)匯聚與整合、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)管理、應(yīng)用與服務(wù)5個(gè)層次(見圖2)。數(shù)據(jù)來源層反映了農(nóng)業(yè)科技大數(shù)據(jù)多來源、結(jié)構(gòu)復(fù)雜的特性。數(shù)據(jù)匯聚與整合層體現(xiàn)了農(nóng)業(yè)科技大數(shù)據(jù)各類資源采集、加工、處理和整合,運(yùn)用ETL技術(shù)實(shí)現(xiàn)不同來源數(shù)據(jù)的清洗、抽取、轉(zhuǎn)換和融合,完成數(shù)據(jù)從數(shù)據(jù)源向數(shù)據(jù)倉儲(chǔ)轉(zhuǎn)化的過程。在數(shù)據(jù)存儲(chǔ)方面,采用SOL數(shù)據(jù)庫(關(guān)系數(shù)據(jù)庫技術(shù))和NoSQL數(shù)據(jù)庫相結(jié)合的方式,實(shí)現(xiàn)了非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)的海量存儲(chǔ),并提供數(shù)據(jù)檢索。在數(shù)據(jù)管理方面,主要圍繞元數(shù)據(jù)和主數(shù)據(jù)的管理與維護(hù),針對(duì)不同層面的用戶,提供相應(yīng)的數(shù)據(jù)管理功能,還包括涵蓋數(shù)據(jù)全生命周期的數(shù)據(jù)質(zhì)量管理功能。在對(duì)數(shù)據(jù)資源進(jìn)行分類整合、關(guān)聯(lián)組織的基礎(chǔ)上,數(shù)據(jù)倉儲(chǔ)面向各類平臺(tái)系統(tǒng)、用戶提供不同形式的數(shù)據(jù)支撐服務(wù),包含數(shù)據(jù)查詢與檢索、數(shù)據(jù)分析、數(shù)據(jù)接口服務(wù)等。
圖2 農(nóng)業(yè)科技大數(shù)據(jù)倉儲(chǔ)框架
農(nóng)業(yè)科技大數(shù)據(jù)涉及多種類型的資源,建設(shè)方式主要包括自主加工、網(wǎng)絡(luò)采集、開放獲取資源收割、眾包協(xié)同共建、采購等。自主加工主要是針對(duì)文獻(xiàn)資源,通過對(duì)來源于國家農(nóng)業(yè)圖書館館藏文獻(xiàn)的數(shù)字化加工,形成龐大的文獻(xiàn)數(shù)據(jù)。此外,部分事實(shí)工具類資源,如專家規(guī)范庫、機(jī)構(gòu)規(guī)范庫、敘詞表、本體等,在長期研究與實(shí)踐中形成的數(shù)據(jù)資源豐富了農(nóng)業(yè)科技大數(shù)據(jù)的工具類資源。網(wǎng)絡(luò)采集和收割的資源主要來源于互聯(lián)網(wǎng),結(jié)合農(nóng)業(yè)科技大數(shù)據(jù)建設(shè)需求,在對(duì)互聯(lián)網(wǎng)資源進(jìn)行分析的基礎(chǔ)上,建設(shè)了農(nóng)業(yè)科技大數(shù)據(jù)數(shù)據(jù)源庫,構(gòu)建了由國內(nèi)外近500個(gè)農(nóng)業(yè)領(lǐng)域的網(wǎng)絡(luò)站點(diǎn)組成的監(jiān)測(cè)源,主要涉及農(nóng)業(yè)相關(guān)的國際重要組織、咨詢機(jī)構(gòu)、聯(lián)盟、學(xué)會(huì)協(xié)會(huì)、科技管理部門、政府管理部門、科研機(jī)構(gòu)、科研資助機(jī)構(gòu)、大學(xué)、科技企業(yè)、期刊、新聞網(wǎng)站、重大項(xiàng)目、科技政策研究機(jī)構(gòu)、研究計(jì)劃、會(huì)議以及其他類信息源。協(xié)同共建主要是針對(duì)科學(xué)數(shù)據(jù)資源,通過與國家農(nóng)業(yè)科學(xué)數(shù)據(jù)中心、部分科研團(tuán)隊(duì)、研究機(jī)構(gòu)等開展合作,選擇優(yōu)質(zhì)的科學(xué)數(shù)據(jù)資源進(jìn)行加工處理,匯聚到農(nóng)業(yè)科技大數(shù)據(jù)中。此外,隨著數(shù)據(jù)開放獲取的快速發(fā)展,農(nóng)業(yè)科技大數(shù)據(jù)擁有更加豐富的數(shù)據(jù)來源,如DOAJ(開放存取期刊目錄)和一些開放獲取倉儲(chǔ)等。綜合來看,農(nóng)業(yè)科技大數(shù)據(jù)的來源主要包括國家農(nóng)業(yè)圖書館、農(nóng)業(yè)科學(xué)數(shù)據(jù)中心、互聯(lián)網(wǎng)和開放獲取來源、研究機(jī)構(gòu)、科研團(tuán)隊(duì)、第三方數(shù)據(jù)平臺(tái)等。
為實(shí)現(xiàn)農(nóng)業(yè)科技大數(shù)據(jù)多類型數(shù)據(jù)資源建設(shè)的規(guī)范化和標(biāo)準(zhǔn)化,研究團(tuán)隊(duì)在廣泛借鑒和參考《都柏林核心元數(shù)據(jù)元素集》《NSTL文獻(xiàn)資源加工規(guī)范》等現(xiàn)有國內(nèi)外典型元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范的基礎(chǔ)上,制定了農(nóng)業(yè)科技大數(shù)據(jù)元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范體系[9],根據(jù)農(nóng)業(yè)科技大數(shù)據(jù)各類資源特點(diǎn),提出了各類資源的元數(shù)據(jù)集合,為實(shí)現(xiàn)資源的描述、管理、檢索、交互、關(guān)聯(lián)組織提供工具。元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范體系內(nèi)的元數(shù)據(jù)包含描述元數(shù)據(jù)和通用元數(shù)據(jù)兩大類。描述元數(shù)據(jù)主要是確定描述各類數(shù)據(jù)資源的內(nèi)容結(jié)構(gòu)以及針對(duì)每項(xiàng)描述內(nèi)容的描述細(xì)則。通用元數(shù)據(jù)指各類資源描述元數(shù)據(jù)中共性的內(nèi)容,通用元數(shù)據(jù)的制定是為了簡化描述元數(shù)據(jù)內(nèi)容,可被描述元數(shù)據(jù)所復(fù)用,通用元數(shù)據(jù)通常包含主題、責(zé)任者、責(zé)任機(jī)構(gòu)、國別(地區(qū))等。元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范的制定不僅規(guī)范了農(nóng)業(yè)科技大數(shù)據(jù)資源建設(shè)、提升數(shù)據(jù)質(zhì)量,而且有效地解決了農(nóng)業(yè)科技大數(shù)據(jù)資源描述問題,既向用戶揭示大數(shù)據(jù)內(nèi)容,也為各類數(shù)據(jù)資源有效組織打下了基礎(chǔ)。
農(nóng)業(yè)科技大數(shù)據(jù)匯聚與整合主要解決數(shù)據(jù)采集、數(shù)據(jù)整合兩個(gè)層面的問題。數(shù)據(jù)采集以網(wǎng)絡(luò)自動(dòng)采集為主,人工采集為輔。針對(duì)網(wǎng)絡(luò)采集的數(shù)據(jù)資源,需遵循準(zhǔn)確性、全面性與連續(xù)性相結(jié)合的采集原則,在分析采集來源的特征基礎(chǔ)上,制定科學(xué)的采集策略,通常采用完整性采集與選擇性采集相結(jié)合的策略,盡可能保證數(shù)據(jù)采集的廣度;同時(shí)還須兼顧數(shù)據(jù)采集的深度,對(duì)采集到的數(shù)據(jù)進(jìn)行嚴(yán)格的質(zhì)量審查,經(jīng)過數(shù)據(jù)清洗、去噪等環(huán)節(jié),確保數(shù)據(jù)的完整性、一致性、準(zhǔn)確性、合規(guī)性等。通過分布式集群采集策略,依據(jù)各類數(shù)據(jù)源數(shù)據(jù)更新情況進(jìn)行定時(shí)和實(shí)時(shí)數(shù)據(jù)采集,確保數(shù)據(jù)的時(shí)效性。
在數(shù)據(jù)整合層面,農(nóng)業(yè)科技大數(shù)據(jù)中整合的數(shù)據(jù)資源包含自主加工的一手?jǐn)?shù)字文獻(xiàn)數(shù)據(jù),也包含通過采集、整理等手段獲得的來自其他來源的二手?jǐn)?shù)據(jù),還包含由科研人員提供的科學(xué)數(shù)據(jù)等。不同來源的數(shù)據(jù)結(jié)構(gòu)存在很大的差異,有結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和完全非結(jié)構(gòu)化數(shù)據(jù)。針對(duì)來源不同、結(jié)構(gòu)不同的數(shù)據(jù)資源,需要對(duì)數(shù)據(jù)資源進(jìn)行融合處理,離不開技術(shù)層面的支持。農(nóng)業(yè)科技大數(shù)據(jù)在處理時(shí),運(yùn)用ETL技術(shù)對(duì)不同來源的異構(gòu)數(shù)據(jù)(如XML、數(shù)據(jù)庫文件、Excel、原始PDF等)進(jìn)行處理,完成數(shù)據(jù)從源頭向目標(biāo)數(shù)據(jù)倉庫的轉(zhuǎn)化。主要通過典型的ETL工具Kettle對(duì)采集自各個(gè)來源的各類數(shù)據(jù)進(jìn)行去重、字段映射、拆分、標(biāo)引等加工處理操作,完成數(shù)據(jù)進(jìn)入倉儲(chǔ)系統(tǒng)存儲(chǔ)前的所有準(zhǔn)備工作。在數(shù)據(jù)融合方面,主要解決數(shù)據(jù)內(nèi)容層面的融合,針對(duì)自主加工的文獻(xiàn)數(shù)據(jù)和采集自開放共享獲取平臺(tái)的文獻(xiàn)數(shù)據(jù)開展數(shù)據(jù)融合實(shí)踐,實(shí)現(xiàn)期刊論文元數(shù)據(jù)的精準(zhǔn)匹配、查重去重和內(nèi)容的查漏補(bǔ)缺,使文獻(xiàn)資源的規(guī)模和質(zhì)量得到提升。
在數(shù)據(jù)存儲(chǔ)方面,農(nóng)業(yè)科技大數(shù)據(jù)中的結(jié)構(gòu)化、關(guān)系型數(shù)據(jù)采用傳統(tǒng)的關(guān)系數(shù)據(jù)庫SQL進(jìn)行存儲(chǔ),建立了MySQL結(jié)構(gòu)化關(guān)系數(shù)據(jù)存儲(chǔ)集群。在非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)方面,鑒于MongoDB在所有非關(guān)系型數(shù)據(jù)庫中功能最豐富、最接近關(guān)系數(shù)據(jù)庫,用于存儲(chǔ)類型復(fù)雜的數(shù)據(jù)時(shí)具有明顯優(yōu)勢(shì)[10],而且在開發(fā)和運(yùn)維上成本低、實(shí)用性強(qiáng),因此農(nóng)業(yè)科技大數(shù)據(jù)倉儲(chǔ)采用MongoDB存儲(chǔ)半結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù)。通過對(duì)農(nóng)業(yè)科技大數(shù)據(jù)中的非結(jié)構(gòu)化數(shù)據(jù)資源進(jìn)行分組,按照集合存儲(chǔ),卻不用對(duì)集合的模式進(jìn)行定義,存儲(chǔ)在MongoDB中的數(shù)據(jù)庫文件無需定義文件結(jié)構(gòu),直接存儲(chǔ)XML格式文件,不僅有利于計(jì)算機(jī)讀取數(shù)據(jù),更方便了非結(jié)構(gòu)化數(shù)據(jù)資源的存儲(chǔ),較好地解決了海量數(shù)據(jù)的存儲(chǔ)和訪問,并且極大地滿足了高并發(fā)的讀寫請(qǐng)求。此外,倉儲(chǔ)系統(tǒng)針對(duì)大量的圖數(shù)據(jù)采用Virtuoso數(shù)據(jù)庫存儲(chǔ)。由此農(nóng)業(yè)科技大數(shù)據(jù)倉儲(chǔ)形成MySQL集群結(jié)構(gòu)化存儲(chǔ)、MongoDB非結(jié)構(gòu)化存儲(chǔ)和Virtuoso圖存儲(chǔ)相結(jié)合的多模態(tài)混合存儲(chǔ)模式。除了解決海量數(shù)據(jù)的存儲(chǔ)問題外,數(shù)據(jù)倉儲(chǔ)采用開源搜索引擎Solar與分布式搜索引擎Elastic Search相結(jié)合的檢索技術(shù),實(shí)現(xiàn)各類數(shù)據(jù)的結(jié)構(gòu)化搜索和全文搜索,通過采用RESTful的架構(gòu)風(fēng)格,向用戶提供數(shù)據(jù)查詢和數(shù)據(jù)共享接口。
3.6.1 數(shù)據(jù)管理
社區(qū)養(yǎng)老是依托社區(qū)建立的養(yǎng)老福利機(jī)構(gòu)設(shè)施,為社區(qū)老年人提供臨時(shí)或者定期的、綜合性或者專業(yè)性的養(yǎng)老服務(wù)[8].包括為老年人提供必要的生活照料、醫(yī)療救助和康復(fù)護(hù)理等服務(wù),達(dá)到使老年人得以在社區(qū)養(yǎng)老及終老的目標(biāo).它是為現(xiàn)代家庭養(yǎng)老功能弱化或者缺乏所提供的必要補(bǔ)充或者替代,使一部分家庭養(yǎng)老功能社會(huì)化,并可以使社區(qū)養(yǎng)老服務(wù)功能得到提升[9].
數(shù)據(jù)倉儲(chǔ)屬于一種在網(wǎng)絡(luò)環(huán)境下提供對(duì)數(shù)字對(duì)象保存、訪問和管理的系統(tǒng),數(shù)據(jù)存儲(chǔ)僅是數(shù)據(jù)倉儲(chǔ)最基本的功能,倉儲(chǔ)的其他功能還包括數(shù)字資源的提交和收集、描述、發(fā)布、索引、檢索、互操作等,在數(shù)據(jù)資源管理方面發(fā)揮著重要作用。農(nóng)業(yè)科技大數(shù)據(jù)倉儲(chǔ)系統(tǒng)提供的數(shù)據(jù)管理功能包括元數(shù)據(jù)管理和主數(shù)據(jù)管理兩大部分,管理的內(nèi)容因管理對(duì)象不同而不同,針對(duì)元數(shù)據(jù)的管理主要涉及元數(shù)據(jù)注冊(cè)登記、存儲(chǔ)與維護(hù)、查詢與分析等方面;針對(duì)主數(shù)據(jù)的管理涉及范圍更廣,包括數(shù)據(jù)采集、數(shù)據(jù)加工與維護(hù)、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)安全與備份、數(shù)據(jù)檢索、數(shù)據(jù)發(fā)布、數(shù)據(jù)評(píng)價(jià)、數(shù)據(jù)分析及應(yīng)用等方面,基本涵蓋了數(shù)據(jù)生命周期各個(gè)階段,還包含了貫穿數(shù)據(jù)生命周期全過程的數(shù)據(jù)質(zhì)量管理,并提出數(shù)據(jù)權(quán)益管理方案,設(shè)置了數(shù)據(jù)權(quán)益管理功能模塊。此外,倉儲(chǔ)系統(tǒng)還具備向用戶提供數(shù)據(jù)開放接口服務(wù)、資源調(diào)度接口等功能,同時(shí)對(duì)倉儲(chǔ)各類數(shù)據(jù)資源的加工量、更新量、使用情況等進(jìn)行動(dòng)態(tài)跟蹤與監(jiān)控,提供關(guān)于數(shù)據(jù)資源的各種統(tǒng)計(jì)與分析功能。
倉儲(chǔ)的數(shù)據(jù)質(zhì)量管理重點(diǎn)解決產(chǎn)生于數(shù)據(jù)源和ETL過程的質(zhì)量問題。針對(duì)由數(shù)據(jù)源產(chǎn)生的數(shù)據(jù)質(zhì)量問題,通過優(yōu)化數(shù)據(jù)來源、定期清洗歷史數(shù)據(jù)、及時(shí)補(bǔ)充缺失數(shù)據(jù)、修正錯(cuò)誤數(shù)據(jù)、清除冗余數(shù)據(jù)等手段減少源于數(shù)據(jù)源的數(shù)據(jù)質(zhì)量問題。針對(duì)在數(shù)據(jù)抽取、數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)加載等ETL過程中產(chǎn)生的數(shù)據(jù)質(zhì)量問題,運(yùn)用臟數(shù)據(jù)預(yù)處理、排序鄰居方法、優(yōu)先排隊(duì)算法、多次遍歷數(shù)據(jù)清理方法等多個(gè)集成數(shù)據(jù)清理算法來解決臟數(shù)據(jù)清洗問題[11],通過設(shè)計(jì)重復(fù)記錄識(shí)別算法實(shí)現(xiàn)重復(fù)數(shù)據(jù)的自動(dòng)識(shí)別與判定,對(duì)數(shù)據(jù)重復(fù)程度進(jìn)行比對(duì)后,進(jìn)行字段映射與補(bǔ)充,實(shí)現(xiàn)數(shù)據(jù)內(nèi)容層面的互補(bǔ)與融合,完成數(shù)據(jù)去重。
農(nóng)業(yè)科技大數(shù)據(jù)倉儲(chǔ)為了實(shí)現(xiàn)對(duì)不同數(shù)量、類型、來源、深度的數(shù)據(jù)使用和再利用,提升數(shù)據(jù)倉儲(chǔ)的資源服務(wù)能力,提出針對(duì)多源異構(gòu)數(shù)據(jù)的專業(yè)數(shù)字集成、深度知識(shí)標(biāo)引與檢索利用過程中的數(shù)據(jù)權(quán)益管理方案,專門設(shè)置了數(shù)據(jù)權(quán)益管理功能模塊,在數(shù)據(jù)收集階段,啟動(dòng)對(duì)各類數(shù)據(jù)源發(fā)布的數(shù)據(jù)政策、許可協(xié)議或者與數(shù)據(jù)提供方簽訂的數(shù)據(jù)建設(shè)合同等登記,并對(duì)數(shù)據(jù)權(quán)益進(jìn)行分類,做好權(quán)益信息管理[12],針對(duì)不同來源的數(shù)據(jù)做好權(quán)益標(biāo)記,在數(shù)據(jù)應(yīng)用與服務(wù)時(shí)審核權(quán)益信息,確保數(shù)據(jù)的合理、合規(guī)使用。
3.6.2 數(shù)據(jù)組織
信息資源的組織需結(jié)合資源的使用和用戶的需求,傳統(tǒng)的信息組織方式主要包括分類法和主題法,主要處理結(jié)構(gòu)化數(shù)據(jù),為用戶提供資源導(dǎo)航,方便查找和發(fā)現(xiàn)數(shù)據(jù)。隨著數(shù)據(jù)類型的多樣化,半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的出現(xiàn),數(shù)據(jù)組織方式擴(kuò)展到了多種形式,包括自動(dòng)分類、語義網(wǎng)絡(luò)、本體、知識(shí)圖譜等[13],以能夠向用戶揭示資源更豐富、更深層次的信息為目標(biāo),除了資源自身的信息,更多地關(guān)注于資源間的關(guān)系、聯(lián)系等,滿足用戶多個(gè)層次的信息需求。在大數(shù)據(jù)時(shí)代,需要更高效的數(shù)據(jù)組織方式來應(yīng)對(duì)處理多樣數(shù)據(jù)格式、支持?jǐn)?shù)據(jù)實(shí)時(shí)動(dòng)態(tài)更新和挖掘分析、便于信息整合等新形勢(shì)下的數(shù)據(jù)組織需求。農(nóng)業(yè)科技大數(shù)據(jù)面對(duì)多樣的數(shù)據(jù)類型、復(fù)雜的數(shù)據(jù)結(jié)構(gòu),簡單的分類法和主題法已經(jīng)遠(yuǎn)遠(yuǎn)不能滿足其數(shù)據(jù)組織的需求。為了使大數(shù)據(jù)成為一個(gè)有機(jī)的整體,而不是資源的散亂堆砌,農(nóng)業(yè)科技大數(shù)據(jù)倉儲(chǔ)在實(shí)現(xiàn)對(duì)資源進(jìn)行分類整合的基礎(chǔ)上,對(duì)每類資源進(jìn)行主題概念和學(xué)科分類的自動(dòng)標(biāo)引,主題標(biāo)引依據(jù)的是經(jīng)過了網(wǎng)絡(luò)化適應(yīng)性改造的《農(nóng)業(yè)科學(xué)敘詞表》,改造后的詞表中的敘詞以及詞間的語義關(guān)系的規(guī)范化描述可實(shí)現(xiàn)向本體批量轉(zhuǎn)化[14],不僅提升了農(nóng)業(yè)科技大數(shù)據(jù)各類資源的標(biāo)引工作的規(guī)范性,更為實(shí)現(xiàn)數(shù)據(jù)的關(guān)聯(lián)提供了支撐。學(xué)科分類標(biāo)引是基于已經(jīng)構(gòu)建且經(jīng)過實(shí)踐檢驗(yàn)的農(nóng)業(yè)科技資源分類導(dǎo)航體系中的基礎(chǔ)語料對(duì)資源進(jìn)行標(biāo)引。農(nóng)業(yè)科技大數(shù)據(jù)還嘗試了不同類型資源的關(guān)聯(lián)組織,在自建規(guī)范庫的基礎(chǔ)上,如機(jī)構(gòu)規(guī)范庫、專家規(guī)范庫、期刊規(guī)范庫,對(duì)農(nóng)業(yè)科技大數(shù)據(jù)中各類資源進(jìn)行實(shí)體標(biāo)注,并通過構(gòu)建科研本體描述框架和科研本體實(shí)例庫[15],實(shí)現(xiàn)各類數(shù)據(jù)資源的關(guān)聯(lián)整合,使類型多樣、內(nèi)容豐富的農(nóng)業(yè)科技大數(shù)據(jù)成為一個(gè)有機(jī)的整體。
經(jīng)過多年實(shí)踐,農(nóng)業(yè)科技大數(shù)據(jù)倉儲(chǔ)確立了穩(wěn)定、權(quán)威的數(shù)據(jù)來源,建立了多種類、多路徑的數(shù)據(jù)采集、加工整合模式,形成了多源異構(gòu)農(nóng)業(yè)科技大數(shù)據(jù)匯聚標(biāo)準(zhǔn)規(guī)范體系和協(xié)同工作流程。在倉儲(chǔ)管理系統(tǒng)建設(shè)方面,選擇開源軟件Fedora作為底層技術(shù)支撐,基于Fedora靈活、可擴(kuò)展、模塊化的架構(gòu),且可支持?jǐn)?shù)據(jù)資產(chǎn)的長期保存與管理等優(yōu)點(diǎn),建設(shè)了具有良好通用性和可擴(kuò)展性的農(nóng)業(yè)科技大數(shù)據(jù)倉儲(chǔ)管理系統(tǒng),設(shè)計(jì)并開發(fā)了數(shù)據(jù)提交、數(shù)據(jù)描述、數(shù)據(jù)審核與發(fā)布、數(shù)據(jù)質(zhì)量控制、數(shù)據(jù)安全管理、數(shù)據(jù)權(quán)益管理、數(shù)據(jù)動(dòng)態(tài)跟蹤與統(tǒng)計(jì)等功能模塊。數(shù)據(jù)倉儲(chǔ)的建設(shè)過程始終秉承著以數(shù)據(jù)為中心的原則,數(shù)據(jù)是永久的,系統(tǒng)是暫時(shí)的,倉儲(chǔ)系統(tǒng)功能隨著需求的不斷演變進(jìn)行完善與擴(kuò)展[16]。鑒于農(nóng)業(yè)科技大數(shù)據(jù)資源類型多、來源廣,倉儲(chǔ)系統(tǒng)增加了數(shù)據(jù)收集、數(shù)據(jù)互操作模塊,方便倉儲(chǔ)系統(tǒng)能有效地與其他系統(tǒng)或平臺(tái)之間交換數(shù)據(jù),還設(shè)計(jì)了多種格式資源的元數(shù)據(jù)轉(zhuǎn)換器來支持各種元數(shù)據(jù)對(duì)象轉(zhuǎn)換,進(jìn)一步優(yōu)化大數(shù)據(jù)倉儲(chǔ)管理系統(tǒng)的功能。
目前農(nóng)業(yè)科技大數(shù)據(jù)倉儲(chǔ)整合集成了文獻(xiàn)類、數(shù)據(jù)類、政策資訊類、事實(shí)工具等數(shù)據(jù)資源,涵蓋科技文獻(xiàn)、專利、法規(guī)、資訊、項(xiàng)目、成果、專家、機(jī)構(gòu)、報(bào)告、科學(xué)數(shù)據(jù)、統(tǒng)計(jì)數(shù)據(jù)、專題、百科及農(nóng)業(yè)基礎(chǔ)知識(shí)庫等,資源總量超過2億條。其中,文獻(xiàn)類數(shù)據(jù)整合了農(nóng)業(yè)領(lǐng)域中外文期刊論文、會(huì)議論文、科技報(bào)告、專利文獻(xiàn)等資源近億條;數(shù)據(jù)類資源整合了來自國家農(nóng)業(yè)科學(xué)數(shù)據(jù)中心和部分科研團(tuán)隊(duì)的科學(xué)數(shù)據(jù)資源,還包含了采集自國內(nèi)外權(quán)威機(jī)構(gòu)發(fā)布的農(nóng)業(yè)相關(guān)統(tǒng)計(jì)數(shù)據(jù);政策資訊類資源收集整理了采集自政府機(jī)構(gòu)、高等院校、國際組織和學(xué)會(huì)/協(xié)會(huì)等官網(wǎng)發(fā)布的農(nóng)業(yè)相關(guān)政策以及科技前沿動(dòng)態(tài)信息;事實(shí)工具類數(shù)據(jù)資源主要收集了涉及農(nóng)業(yè)科研活動(dòng)本身的事實(shí)型數(shù)據(jù)(如專家學(xué)者、科研項(xiàng)目、科技成果、科研機(jī)構(gòu)等)和經(jīng)過長期研究實(shí)踐整理出的知識(shí)組織工具類資源(如農(nóng)業(yè)百科、農(nóng)業(yè)專業(yè)術(shù)語、《農(nóng)業(yè)科學(xué)敘詞表》、學(xué)科分類體系、資源代碼等)。由此可見,農(nóng)業(yè)科技大數(shù)據(jù)倉儲(chǔ)已經(jīng)初具規(guī)模,可為農(nóng)業(yè)領(lǐng)域科技信息服務(wù)和知識(shí)服務(wù)提供基礎(chǔ)數(shù)據(jù)支撐。
除了面向系統(tǒng)的數(shù)據(jù)支撐與共享服務(wù)外,農(nóng)業(yè)科技大數(shù)據(jù)倉儲(chǔ)還可直接面向用戶群體或個(gè)人提供數(shù)據(jù)服務(wù),用戶類型包括科研個(gè)體或團(tuán)隊(duì)、情報(bào)分析專家、企業(yè)研發(fā)人員、政府決策人員、一般的數(shù)據(jù)用戶等。數(shù)據(jù)服務(wù)的內(nèi)容緊密圍繞數(shù)據(jù)用戶的需求,按照用戶需求層次可劃分為以下方面。①數(shù)據(jù)管理服務(wù)。面向科研團(tuán)隊(duì)或個(gè)人提供數(shù)據(jù)代管服務(wù),尤其是針對(duì)科研人員在科研過程中產(chǎn)生的研究數(shù)據(jù),為其提供數(shù)據(jù)管理計(jì)劃、數(shù)據(jù)歸檔與存儲(chǔ)、數(shù)據(jù)發(fā)布與共享等方面的服務(wù)。②數(shù)據(jù)查找、收集、整合服務(wù)。圍繞數(shù)據(jù)用戶的具體需求,針對(duì)相關(guān)研究領(lǐng)域熱點(diǎn)研究問題,基于數(shù)據(jù)倉儲(chǔ)中的資源為用戶提供數(shù)據(jù)抽取服務(wù),如果倉儲(chǔ)中的數(shù)據(jù)資源不能滿足用戶需求,還可為用戶提供數(shù)據(jù)定向采集、整合等相關(guān)數(shù)據(jù)服務(wù),數(shù)據(jù)倉儲(chǔ)作為資源供給方,在其應(yīng)用過程中,隨著用戶需求的變遷,在為用戶提供數(shù)據(jù)服務(wù)的同時(shí),也為數(shù)據(jù)倉儲(chǔ)資源的不斷完善與擴(kuò)充提供了有效的途徑[17]。③數(shù)據(jù)挖掘與分析服務(wù)?;跀?shù)據(jù)倉儲(chǔ)的資源,利用數(shù)據(jù)分析工具、模型和算法,面向研究機(jī)構(gòu)和學(xué)科團(tuán)隊(duì)、企業(yè)、管理部門等,提供個(gè)性化數(shù)據(jù)分析服務(wù)、專題知識(shí)服務(wù),服務(wù)內(nèi)容包括向用戶提供情報(bào)產(chǎn)品、數(shù)據(jù)分析報(bào)告等[18]。此時(shí)大數(shù)據(jù)倉儲(chǔ)可為用戶提供的服務(wù),不再直接向用戶呈現(xiàn)數(shù)據(jù)資源,更傾向于把隱藏在數(shù)據(jù)背后的信息和知識(shí)挖掘出來提供給用戶,同時(shí)也可以為用戶提供數(shù)據(jù)挖掘與分析工具、模型算法等方面的服務(wù)。
目前基于農(nóng)業(yè)科技大數(shù)據(jù)倉儲(chǔ)構(gòu)建了農(nóng)業(yè)專業(yè)知識(shí)服務(wù)系統(tǒng)、農(nóng)業(yè)科技創(chuàng)新聯(lián)盟平臺(tái)、中國農(nóng)業(yè)科學(xué)院機(jī)構(gòu)知識(shí)庫等平臺(tái)系統(tǒng),用戶通過這些平臺(tái)可以瀏覽、檢索和下載數(shù)據(jù)。在面向各類用戶提供數(shù)據(jù)服務(wù)方面,農(nóng)業(yè)科技大數(shù)據(jù)倉儲(chǔ)開展了面向院士團(tuán)隊(duì)、其他科研團(tuán)隊(duì)提供數(shù)據(jù)聚合、抽取和數(shù)據(jù)分析等方面的服務(wù),如遇到倉儲(chǔ)資源不能滿足需求的情形,還會(huì)根據(jù)用戶的具體需求,開展數(shù)據(jù)定向采集、加工處理等服務(wù)。農(nóng)業(yè)科技大數(shù)據(jù)倉儲(chǔ)也開展了以內(nèi)容管理為主的專題數(shù)據(jù)服務(wù),結(jié)合領(lǐng)域用戶需求,圍繞國家重大戰(zhàn)略、農(nóng)業(yè)領(lǐng)域關(guān)注焦點(diǎn),開展專題數(shù)據(jù)收集、匯聚、管理服務(wù),并設(shè)計(jì)了相應(yīng)的專題數(shù)據(jù)服務(wù)產(chǎn)品,如鄉(xiāng)村振興專題服務(wù),收集了國家鄉(xiāng)村振興戰(zhàn)略及政策、中國“三農(nóng)”十年數(shù)據(jù)、精準(zhǔn)扶貧、鄉(xiāng)村振興經(jīng)典案例集等資源,并提供實(shí)時(shí)更新與維護(hù)。在數(shù)據(jù)挖掘與分析方面,針對(duì)數(shù)據(jù)用戶的關(guān)注點(diǎn),對(duì)農(nóng)業(yè)科技大數(shù)據(jù)倉儲(chǔ)中的國際農(nóng)業(yè)統(tǒng)計(jì)數(shù)據(jù)進(jìn)行分析,涵蓋了世界作物產(chǎn)量、世界畜牧產(chǎn)量、世界肉類產(chǎn)量、世界各國農(nóng)業(yè)產(chǎn)值等方面的統(tǒng)計(jì)分析,并提供了相關(guān)統(tǒng)計(jì)指標(biāo)波動(dòng)分析功能,實(shí)現(xiàn)了各類指標(biāo)變化趨勢(shì)的動(dòng)態(tài)展示。此外,還基于農(nóng)業(yè)科技大數(shù)據(jù)倉儲(chǔ)中豐富的文獻(xiàn)、專利、項(xiàng)目、獲獎(jiǎng)成果等數(shù)據(jù)資源,面向數(shù)據(jù)用戶提供文獻(xiàn)計(jì)量分析、數(shù)值分析、聚類分析以及模型算法等方面的數(shù)據(jù)分析服務(wù),提供領(lǐng)域戰(zhàn)略情報(bào),內(nèi)容涵蓋學(xué)科發(fā)展態(tài)勢(shì)分析、研究熱點(diǎn)分析、機(jī)構(gòu)科研競(jìng)爭(zhēng)力評(píng)價(jià)、國家科研情況對(duì)比分析等。
農(nóng)業(yè)科技大數(shù)據(jù)的建設(shè)已初具規(guī)模,通過數(shù)字化加工、網(wǎng)絡(luò)采集、人工搜集等多種形式,采集與農(nóng)業(yè)科技相關(guān)的信息與數(shù)據(jù),經(jīng)過規(guī)范化加工處理,目前形成了包含文獻(xiàn)類、數(shù)據(jù)類、政策資訊類、事實(shí)工具類等的數(shù)據(jù)資源體系。為規(guī)范資源建設(shè)、保障數(shù)據(jù)質(zhì)量,針對(duì)各類資源制定了可擴(kuò)展性較強(qiáng)的元數(shù)據(jù)標(biāo)準(zhǔn)規(guī)范,方便了各類資源的集成與整合,并確立了包含數(shù)據(jù)來源、數(shù)據(jù)匯聚與整合、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)管理、應(yīng)用與服務(wù)等層面的大數(shù)據(jù)倉儲(chǔ)框架體系,建成了我國農(nóng)業(yè)領(lǐng)域資源類型豐富的農(nóng)業(yè)科技大數(shù)據(jù)倉儲(chǔ),整合集成了包含科技文獻(xiàn)、科學(xué)數(shù)據(jù)、專利、政策法規(guī)、科技項(xiàng)目、科技成果、專家、機(jī)構(gòu)、行業(yè)報(bào)告等類型的數(shù)據(jù)資源,資源總量近2億條,且仍在源源不斷地補(bǔ)充中。數(shù)據(jù)倉儲(chǔ)一直秉承邊建設(shè)、邊應(yīng)用的原則,以用戶需求為導(dǎo)向,在實(shí)際應(yīng)用中不斷完善數(shù)據(jù)資源,目前已經(jīng)為多個(gè)服務(wù)平臺(tái)或系統(tǒng)提供資源支撐,包括農(nóng)業(yè)專業(yè)知識(shí)服務(wù)系統(tǒng)、農(nóng)業(yè)科技聯(lián)盟信息資源共建共享平臺(tái)等,此外還向部分機(jī)構(gòu)知識(shí)庫提供數(shù)據(jù)服務(wù),也面向不同的用戶提供各類數(shù)據(jù)服務(wù)。由此可見,農(nóng)業(yè)科技大數(shù)據(jù)倉儲(chǔ)的應(yīng)用取得了一定進(jìn)展,形成了一些產(chǎn)品,但在多源異構(gòu)數(shù)據(jù)匯聚融合、知識(shí)挖掘與分析方面的研究還不夠深入,因此如何實(shí)現(xiàn)多源異構(gòu)農(nóng)業(yè)科技數(shù)據(jù)資源的全面匯聚、深度融合仍然是今后努力的方向之一。此外,大數(shù)據(jù)時(shí)代數(shù)據(jù)挖掘與分析非常重要,面對(duì)龐大的數(shù)據(jù)資源,需要引入神經(jīng)網(wǎng)絡(luò)等人工智能新興技術(shù)進(jìn)行數(shù)據(jù)挖掘分析,并開展數(shù)據(jù)挖掘模型與算法方面的研究,才能使農(nóng)業(yè)科技大數(shù)據(jù)充分發(fā)揮其價(jià)值。