陳亞東 鮮國(guó)建 趙瑞雪 劉現(xiàn)武 郭淑敏
摘要:蘋果是高附加值的果品,也是世界四大水果之一。蘋果產(chǎn)業(yè)在千余年的發(fā)展過程中,積累了豐富的數(shù)據(jù)資源,這些資源也是產(chǎn)業(yè)數(shù)據(jù)分析的基礎(chǔ)和關(guān)鍵。由于蘋果產(chǎn)業(yè)的數(shù)據(jù)來源豐富、結(jié)構(gòu)各異,因此,數(shù)據(jù)的集成和共享還存在一定的難度,對(duì)數(shù)據(jù)進(jìn)行整合十分必要。以國(guó)家科技圖書文獻(xiàn)中心篇名含“蘋果”的數(shù)據(jù)資源為材料,以基于ETL-KETTLE的數(shù)據(jù)轉(zhuǎn)換模式為研究方法,提出面向蘋果產(chǎn)業(yè)數(shù)據(jù)整合的思路。結(jié)果表明,基于ETL-KETTLE的數(shù)據(jù)整合法則,可以分析蘋果產(chǎn)業(yè)多源異構(gòu)數(shù)據(jù)的關(guān)鍵節(jié)點(diǎn)、過濾和清洗噪音數(shù)據(jù)、發(fā)現(xiàn)和解析多源數(shù)據(jù)的字段,最后通過表輸出完成題目、摘要、關(guān)鍵詞等字段的統(tǒng)一,從而實(shí)現(xiàn)蘋果產(chǎn)業(yè)數(shù)據(jù)的整合。將基于ETL-KETTLE模式的整合方法應(yīng)用于蘋果產(chǎn)業(yè),可以為產(chǎn)業(yè)數(shù)據(jù)的重組與共享提供科學(xué)的工具,為數(shù)據(jù)的高效獲取和有效組織表達(dá)提供新的思路和方法,助力蘋果產(chǎn)業(yè)的科技創(chuàng)新,提升蘋果產(chǎn)業(yè)的國(guó)際競(jìng)爭(zhēng)力。
關(guān)鍵詞:蘋果產(chǎn)業(yè);ETL;KETTLE;數(shù)據(jù);整合;應(yīng)用
中圖分類號(hào): S126;TP311.13? 文獻(xiàn)標(biāo)志碼: A? 文章編號(hào):1002-1302(2019)10-0230-05
蘋果是世界四大水果之一,也是果品市場(chǎng)上的重要消費(fèi)品,蘋果產(chǎn)業(yè)在我國(guó)農(nóng)業(yè)經(jīng)濟(jì)發(fā)展中長(zhǎng)期占有重要的地位[1]。蘋果產(chǎn)業(yè)的數(shù)據(jù)資源較為豐富且類型多樣,用戶需要的數(shù)據(jù)通常以不同的格式分散存儲(chǔ)在不同的網(wǎng)頁(yè)或者數(shù)據(jù)庫(kù)中[2],因此蘋果產(chǎn)業(yè)數(shù)據(jù)的集中訪問和集成共享還存在一定的難度,尚未形成一套科學(xué)系統(tǒng)的數(shù)據(jù)處理方式和方法,有待于從微觀層面進(jìn)一步解決數(shù)據(jù)的集成統(tǒng)一問題,以實(shí)現(xiàn)異質(zhì)數(shù)據(jù)的標(biāo)準(zhǔn)化輸出,為蘋果產(chǎn)業(yè)數(shù)據(jù)的共享復(fù)用奠定基礎(chǔ)。ETL即數(shù)據(jù)的抽取-轉(zhuǎn)換-裝載,是用于解決多源異構(gòu)數(shù)據(jù)集成的一系列過程,也是獲取高質(zhì)量數(shù)據(jù)的關(guān)鍵[3]。KETTLE是ETL的一種開源工具,能夠?qū)?shù)據(jù)進(jìn)行穩(wěn)定抽取,可以提供面向不同行業(yè)的數(shù)據(jù)集成解決方案[4],郭丹等通過構(gòu)建KETTLE過程模型,對(duì)煙卷銷售數(shù)據(jù)進(jìn)行整合與挖掘,為煙草行業(yè)的決策提供數(shù)據(jù)基礎(chǔ)[5]。李云松利用KETTLE開源軟件,對(duì)小型和微型企業(yè)的數(shù)據(jù)進(jìn)行整合,可以在同一個(gè)平臺(tái)得到共享,滿足后臺(tái)用戶對(duì)數(shù)據(jù)的查詢和管理需求[6]。尹曉楠等基于KETTLE進(jìn)行研究,使整個(gè)企業(yè)的生產(chǎn)數(shù)據(jù)工具對(duì)北京市水務(wù)數(shù)據(jù)進(jìn)行提取與轉(zhuǎn)換,實(shí)現(xiàn)了北京水務(wù)普查數(shù)據(jù)的整合和無縫對(duì)接,提高了普查工作的精確度[7]。基于相關(guān)的技術(shù)模型和前人的成功經(jīng)驗(yàn),本試驗(yàn)以蘋果產(chǎn)業(yè)的數(shù)據(jù)整合為目標(biāo),基于ETL的開源軟件KETLLE對(duì)蘋果產(chǎn)業(yè)數(shù)據(jù)的標(biāo)準(zhǔn)化整合及其應(yīng)用進(jìn)行研究,以期為我國(guó)蘋果產(chǎn)業(yè)數(shù)據(jù)共享和知識(shí)檢索提供數(shù)據(jù)基礎(chǔ)。
1 材料與方法
1.1 數(shù)據(jù)材料
(數(shù)據(jù))材料來源于國(guó)家科技圖書文獻(xiàn)中心(NSTL,http://www.nstl.gov.cn),以題目含有“蘋果”為檢索詞進(jìn)行檢索,檢索后所得到的數(shù)據(jù)為本研究的材料,這些數(shù)據(jù)資源涵蓋了蘋果產(chǎn)業(yè)數(shù)據(jù)的主要組成,具有代表性和可獲取性。
1.2 研究方法
1.2.1 ETL過程簡(jiǎn)述 ETL是數(shù)據(jù)轉(zhuǎn)換的一個(gè)關(guān)鍵環(huán)節(jié),是多元數(shù)據(jù)集成的有效方法,其含義是從多個(gè)數(shù)據(jù)源抽取數(shù)據(jù),通過數(shù)據(jù)的抽取、轉(zhuǎn)換和加載等相關(guān)規(guī)則轉(zhuǎn)換成最后所需要的數(shù)據(jù)格式,最后裝載到對(duì)應(yīng)的數(shù)據(jù)庫(kù)中(圖1)。ETL技術(shù)的關(guān)鍵點(diǎn)主要有3個(gè)方面:第一是數(shù)據(jù)抽取,這是數(shù)據(jù)轉(zhuǎn)化的前提條件,其過程是將數(shù)據(jù)從各種原始的數(shù)據(jù)中首先讀取出來;第二是數(shù)據(jù)的轉(zhuǎn)換,按照相關(guān)的規(guī)則將多源異構(gòu)數(shù)據(jù)進(jìn)行格式和結(jié)構(gòu)統(tǒng)一;第三是數(shù)據(jù)的裝載,將轉(zhuǎn)換后形成統(tǒng)一格式的數(shù)據(jù)批量導(dǎo)入到數(shù)據(jù)倉(cāng)庫(kù)中進(jìn)行存儲(chǔ)[8]。ETL技術(shù)與數(shù)據(jù)倉(cāng)庫(kù)相比較,能夠有效地集成數(shù)據(jù),避免了數(shù)據(jù)倉(cāng)庫(kù)不能對(duì)數(shù)據(jù)進(jìn)行修改而只能進(jìn)行數(shù)據(jù)增加的弊端,可以靈活實(shí)現(xiàn)數(shù)據(jù)的刪除和修改,實(shí)用性更強(qiáng)[9]。
1.2.2 KETTLE過程簡(jiǎn)述 KETTLE是構(gòu)建數(shù)據(jù)集成解決方案的ETL工具,也是ETL的一種開源工具,它的本意是將不同格式的數(shù)據(jù)注入到同一個(gè)數(shù)據(jù)庫(kù)中,經(jīng)過數(shù)據(jù)的處理與轉(zhuǎn)換之后,成為統(tǒng)一格式的數(shù)據(jù)進(jìn)行輸出。KETTLE提供了一個(gè)圖形化的工作界面及相應(yīng)的對(duì)象設(shè)置來描述用戶的任務(wù)需求,用戶在使用過程中對(duì)KETTLE內(nèi)部的數(shù)據(jù)處理過程可以一無所知[6]。作為數(shù)據(jù)整合的重要工具,KETTLE能夠?qū)Σ煌袷降臄?shù)據(jù)進(jìn)行接收和輸入,包括XML、ACCESS、Cube、Excel等,數(shù)據(jù)被接收以后,在相應(yīng)的法則下可以進(jìn)行源數(shù)據(jù)結(jié)構(gòu)分析、清洗以及解碼,最后實(shí)現(xiàn)數(shù)據(jù)的整合[10]。
2 基于ETL-KETTLE模式的數(shù)據(jù)轉(zhuǎn)換
2.1 數(shù)據(jù)的抽取與輸入
在國(guó)家科技圖書文獻(xiàn)中心(NSTL)系統(tǒng)中抽取篇名含有“蘋果”的數(shù)據(jù),其XML樣本的片段截圖如圖2所示。數(shù)據(jù)抽取完成后,使用KETTLE工具對(duì)數(shù)據(jù)進(jìn)行接收,將所有被抽取的XML(也可支持CSV、Excel等更多格式)文件進(jìn)行結(jié)構(gòu)解析。數(shù)據(jù)抽取的過程包括數(shù)據(jù)剖析、增量數(shù)據(jù)捕獲以及數(shù)據(jù)抽取3個(gè)環(huán)節(jié)[11]。數(shù)據(jù)剖析過程主要是對(duì)源數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)以及數(shù)據(jù)的內(nèi)容進(jìn)行分析,如不同數(shù)據(jù)的字段規(guī)律等;增量數(shù)據(jù)的捕獲主要是實(shí)現(xiàn)增量的抽取,其關(guān)鍵點(diǎn)是如何準(zhǔn)確快速地捕獲變化的數(shù)據(jù);數(shù)據(jù)抽取則是對(duì)源數(shù)據(jù)的獲取,不同數(shù)據(jù)源的數(shù)據(jù)須要經(jīng)過合并后才能存入到數(shù)據(jù)倉(cāng)庫(kù)中,在數(shù)據(jù)抽取完成后,這些數(shù)據(jù)都會(huì)被臨時(shí)存入數(shù)據(jù)的一個(gè)中轉(zhuǎn)區(qū)域。
2.2 數(shù)據(jù)的轉(zhuǎn)換
2.2.1 數(shù)據(jù)轉(zhuǎn)換原理 KETTLE在實(shí)際工作過程中是通過工作流的方式來完成數(shù)據(jù)轉(zhuǎn)換的,按照工具中預(yù)先設(shè)置好的工作步驟,逐步對(duì)數(shù)據(jù)流的操作進(jìn)行處理。數(shù)據(jù)轉(zhuǎn)換的過程主要包括對(duì)數(shù)據(jù)進(jìn)行節(jié)點(diǎn)分析、過濾清洗以及映射匹配3個(gè)步驟,KETTLE工具基于XML數(shù)據(jù)轉(zhuǎn)換的工作原理圖如圖3所示,將XML的原始文件輸入以后,KETTLE能夠解析XML文件的文檔結(jié)構(gòu),并過濾清洗噪音數(shù)據(jù),通過對(duì)各文件中關(guān)鍵詞等組合進(jìn)行自動(dòng)分析,將各文檔的關(guān)鍵字段自動(dòng)解析并進(jìn)行不同來源文件的映射匹配,最后將作者姓名、作者工作單位、摘要等信息解析出來,利用KETTLE的內(nèi)部轉(zhuǎn)換公式進(jìn)行統(tǒng)一格式的表輸出。
2.2.2 節(jié)點(diǎn)解析 數(shù)據(jù)的節(jié)點(diǎn)解析是指對(duì)數(shù)據(jù)的有效性以及節(jié)點(diǎn)結(jié)構(gòu)的分析,從而提高數(shù)據(jù)的有效性和可靠性。KETTLE能自動(dòng)解析XML文件的結(jié)構(gòu),主要是經(jīng)過以下3種驗(yàn)證:XML驗(yàn)證是檢驗(yàn)文件是否為形式正確的XML文檔,主要是檢驗(yàn)語法的正確性;DTD驗(yàn)證是檢驗(yàn)文件是否為有效形式的XML文檔,保證XML格式的正確和有效;XSD驗(yàn)證為XML結(jié)構(gòu)定義,目的是檢查XML文檔是否符合其要求。驗(yàn)證成功之后,KETTLE可以列出XML來源文件中的標(biāo)簽節(jié)點(diǎn)名稱和對(duì)應(yīng)的XPath路徑(圖4),利用KETTLE可以將所有含“蘋果”數(shù)據(jù)中的關(guān)鍵詞、作者、通信地址、標(biāo)題、DOI等信息節(jié)點(diǎn)通過路徑解析出來。
2.2.3 數(shù)據(jù)清洗 數(shù)據(jù)清洗的目的是發(fā)現(xiàn)并糾正數(shù)據(jù)文件中可識(shí)別的錯(cuò)誤,把不合規(guī)則的數(shù)據(jù)進(jìn)行處理和過濾,包括檢查數(shù)據(jù)的一致性、處理無效值和缺省值等[12]。在數(shù)據(jù)的輸入與輸出之間,必須對(duì)數(shù)據(jù)進(jìn)行過濾、去質(zhì)量、替換內(nèi)容等數(shù)據(jù)清洗工作,這類數(shù)據(jù)包括同名的錯(cuò)誤數(shù)據(jù)、噪聲數(shù)據(jù),諸如唯一標(biāo)識(shí)符、標(biāo)題、作者等有些必備內(nèi)容為空的數(shù)據(jù),這些數(shù)據(jù)必須進(jìn)行過濾和刪除;還有些數(shù)據(jù)并不是很完整,意義不大,這部分?jǐn)?shù)據(jù)則須要根據(jù)具體的情況來處理;對(duì)于內(nèi)容有誤的錯(cuò)誤數(shù)據(jù)也要進(jìn)行及時(shí)的清洗和過濾,否則會(huì)影響數(shù)據(jù)資源的準(zhǔn)確性和科學(xué)性;還有一類數(shù)據(jù)叫作數(shù)據(jù)冗余即重復(fù)的數(shù)據(jù),這類數(shù)據(jù)會(huì)占用一部分內(nèi)存,造成數(shù)據(jù)空間的浪費(fèi),因此也要進(jìn)行清洗。
2.2.4 映射匹配 映射匹配主要是將原數(shù)據(jù)類型及其值的含義映射成為符合目標(biāo)數(shù)據(jù)的類型與含義的數(shù)據(jù)過程[13]。基于KETTLE工具對(duì)數(shù)據(jù)進(jìn)行解析和過濾之后,可以指定轉(zhuǎn)換后的目標(biāo)數(shù)據(jù)輸出,如指定統(tǒng)一存放的關(guān)系型數(shù)據(jù)庫(kù)對(duì)應(yīng)的表,同時(shí)可以指定XML文件中節(jié)點(diǎn)名稱與數(shù)據(jù)庫(kù)表結(jié)構(gòu)字段的對(duì)應(yīng)關(guān)系,從而將來源數(shù)據(jù)中的字段與目標(biāo)數(shù)據(jù)庫(kù)中的字段進(jìn)行映射匹配。通過映射匹配,轉(zhuǎn)換后的數(shù)據(jù)由異構(gòu)變成結(jié)構(gòu)化數(shù)據(jù),不同來源的文件在摘要、DOI、標(biāo)題、起始頁(yè)碼等字段進(jìn)行映射匹配,實(shí)現(xiàn)多源異構(gòu)數(shù)據(jù)的結(jié)構(gòu)化匹配。
2.3 數(shù)據(jù)的輸出
經(jīng)過數(shù)據(jù)的抽取和轉(zhuǎn)換,不同來源與不同結(jié)構(gòu)的數(shù)據(jù)在基于ETL-KETTLE的轉(zhuǎn)換中實(shí)現(xiàn)了數(shù)據(jù)結(jié)構(gòu)與節(jié)點(diǎn)解析、噪聲清洗與字段匹配,異構(gòu)數(shù)據(jù)通過相同的節(jié)點(diǎn)與流字段進(jìn)行重組,從而實(shí)現(xiàn)了數(shù)據(jù)的共享和復(fù)用。數(shù)據(jù)輸出的結(jié)果如圖5所示,所有的XML數(shù)據(jù)經(jīng)過整合以后,原始的數(shù)據(jù)集群按照新的數(shù)據(jù)結(jié)構(gòu)重新輸出,字段類型包括文章的篇名、語言種類、摘要、頁(yè)碼等,數(shù)據(jù)輸出后可通過相關(guān)的工具直接裝載和導(dǎo)入到所需的數(shù)據(jù)庫(kù)中,為科研人員及不同需求的用戶提供快速與全面的產(chǎn)業(yè)數(shù)據(jù)服務(wù)。
3 基于數(shù)據(jù)整合的應(yīng)用
3.1 檢索服務(wù)與知識(shí)服務(wù)
基于ETL-KETTLE的整合方法,蘋果產(chǎn)業(yè)的數(shù)據(jù)可以同構(gòu)化在一個(gè)平臺(tái)實(shí)現(xiàn)共享,提供基于產(chǎn)業(yè)數(shù)據(jù)的檢索服務(wù)和知識(shí)服務(wù)。如輸入專家的名字“劉鳳之”進(jìn)行檢索,可以檢索到其發(fā)表的科技文獻(xiàn)、項(xiàng)目報(bào)告、成果專利等,滿足用戶對(duì)于知識(shí)獲取的需要,減少用戶通過不同來源獲取不同類型數(shù)據(jù)的時(shí)間成本。同時(shí),以檢索詞為中心的數(shù)據(jù)間的關(guān)系能夠進(jìn)一步被發(fā)現(xiàn),形成知識(shí)立方,幫助用戶發(fā)掘潛在的需求。如專家劉鳳之的研究方向、工作機(jī)構(gòu)、研究的品種與相關(guān)的栽培技術(shù)等可以形成知識(shí)網(wǎng)格,為檢索用戶提供更深層次的知識(shí)服務(wù)(圖6)。
3.2 生產(chǎn)指導(dǎo)
通過產(chǎn)業(yè)數(shù)據(jù)進(jìn)行整合,可以將栽培生產(chǎn)的知識(shí)都載入到數(shù)據(jù)庫(kù)中,在用戶提問的過程中首先激活數(shù)據(jù)庫(kù)中的知識(shí),通過過程性的推理來滿足生產(chǎn)者的作業(yè)需求。數(shù)據(jù)整合在生產(chǎn)指導(dǎo)上的應(yīng)用,可以從很大程度上提高蘋果生產(chǎn)的品質(zhì)和產(chǎn)量,輔助農(nóng)戶解決生產(chǎn)問題。例如,果農(nóng)在蘋果的生產(chǎn)中遇到一種病害,但并不知道病害的名字,只了解病害發(fā)病的癥狀,想快速獲取病害防治的方法,可以根據(jù)系統(tǒng)的提示輸入發(fā)病的部位和選擇相關(guān)的癥狀,系統(tǒng)根據(jù)輸入的內(nèi)容與數(shù)據(jù)庫(kù)中的信息進(jìn)行匹配返回給用戶進(jìn)行選擇,直到最后實(shí)現(xiàn)系統(tǒng)的反饋條件與所輸入的條件完全匹配,即可獲得相關(guān)的解決方案(圖7),讓農(nóng)民足不出戶就能得到指導(dǎo),提高生產(chǎn)效益。
3.3 統(tǒng)計(jì)分析
基于ETL-KETTLE數(shù)據(jù)整合的方法,還能夠?qū)崿F(xiàn)蘋果產(chǎn)業(yè)各類數(shù)據(jù)的統(tǒng)計(jì)分析。以2010—2014年的病害和蟲害數(shù)據(jù)為基礎(chǔ),數(shù)據(jù)來源于全國(guó)蘋果病蟲害防控協(xié)作網(wǎng)、國(guó)家蘋果產(chǎn)業(yè)技術(shù)體系、中國(guó)蘋果網(wǎng)、科技文獻(xiàn),將整合結(jié)果去質(zhì)量后可以得出我國(guó)蘋果四大產(chǎn)區(qū)主要發(fā)生的病蟲害。對(duì)四大產(chǎn)區(qū)的病蟲害發(fā)生情況(表1)進(jìn)行分析,可以為我國(guó)蘋果產(chǎn)業(yè)的栽培生產(chǎn)與病蟲害防治提供支持,也可為生產(chǎn)預(yù)警和災(zāi)害預(yù)測(cè)提供依據(jù)。對(duì)于各個(gè)產(chǎn)區(qū)病蟲害發(fā)生的分析,可以對(duì)于我國(guó)病蟲害的防治、各個(gè)地區(qū)天敵引入以及產(chǎn)區(qū)之間的協(xié)調(diào)發(fā)展與栽培品種調(diào)整起到很好的指導(dǎo)作用。
4 結(jié)論與討論
隨著“互聯(lián)網(wǎng)+農(nóng)業(yè)”時(shí)代的到來,信息化已逐漸融入到農(nóng)業(yè)領(lǐng)域的各個(gè)產(chǎn)業(yè),不斷滿足用戶對(duì)于信息和知識(shí)的需要[14]。在大數(shù)據(jù)時(shí)代下,圍繞蘋果產(chǎn)業(yè)發(fā)展的突出問題和薄弱環(huán)節(jié),充分運(yùn)用數(shù)據(jù)理念、創(chuàng)新的思路和方法,可以快速、全面和準(zhǔn)確地獲取產(chǎn)業(yè)數(shù)據(jù),推動(dòng)產(chǎn)業(yè)的科技創(chuàng)新和轉(zhuǎn)型升級(jí)。數(shù)據(jù)整合作為我國(guó)蘋果產(chǎn)業(yè)在信息化建設(shè)中的基礎(chǔ)環(huán)節(jié)和重點(diǎn)環(huán)節(jié),其整合程度會(huì)影響到蘋果產(chǎn)業(yè)數(shù)據(jù)的捕獲能力以及決策支持的精準(zhǔn)度。本研究將ETL-KETTLE技術(shù)應(yīng)用到蘋果產(chǎn)業(yè),以ETL技術(shù)為核心,利用KETTLE工具,驗(yàn)證和實(shí)現(xiàn)蘋果產(chǎn)業(yè)多源異構(gòu)數(shù)據(jù)的轉(zhuǎn)換與重組,推動(dòng)產(chǎn)業(yè)數(shù)據(jù)的共享和利用,有效避免了用戶反復(fù)查找數(shù)據(jù)帶來的時(shí)間與成本的浪費(fèi),提升了蘋果產(chǎn)業(yè)數(shù)據(jù)應(yīng)用與服務(wù)的信息化能力。經(jīng)過ETL-KETTLE整合后的數(shù)據(jù)可以存儲(chǔ)在數(shù)據(jù)庫(kù)和不同的服務(wù)器中,在相應(yīng)的功能模塊實(shí)現(xiàn)蘋果產(chǎn)業(yè)的科技文獻(xiàn)、專利、科研報(bào)告等多類型的數(shù)據(jù)錄入與查詢,基于整個(gè)產(chǎn)業(yè)鏈條來完成數(shù)據(jù)的共享與利用,為政府部門決策支持和市場(chǎng)主體生產(chǎn)經(jīng)營(yíng)的決策提供普惠式的服務(wù)。
本試驗(yàn)也存在一定的不足之處:首先,在操作中所涉及的數(shù)據(jù)語言類型只有1種,沒有針對(duì)中英文等多語言的數(shù)據(jù)集成整合進(jìn)行進(jìn)一步的深入研究,期望其在以后會(huì)有更多的學(xué)者來探討和研究。其次,在此只是選取了部分?jǐn)?shù)據(jù)作為材料,驗(yàn)證該方法在蘋果產(chǎn)業(yè)數(shù)據(jù)整合的可行性,基于此方法,可應(yīng)用于更多來源數(shù)據(jù)的整合研究?;跀?shù)據(jù)整合后的應(yīng)用,這里的知識(shí)闡述了3個(gè)方面并作了案例分析,在實(shí)踐的過程中還可以在其他方面來進(jìn)一步拓展。未來的數(shù)據(jù)整合會(huì)朝著優(yōu)化ETL-KETTLE流程的方向發(fā)展,完善數(shù)據(jù)清洗和轉(zhuǎn)換的過程,從而提高數(shù)據(jù)整合的質(zhì)量。同時(shí),基于本研究對(duì)蘋果產(chǎn)業(yè)數(shù)據(jù)整合的思路與工具,也可應(yīng)用于小麥、玉米、番茄等其他類別的農(nóng)業(yè)領(lǐng)域,期望后續(xù)有更多的學(xué)者關(guān)注和加強(qiáng)農(nóng)業(yè)領(lǐng)域產(chǎn)業(yè)數(shù)據(jù)的整合研究,為產(chǎn)業(yè)的健康可持續(xù)發(fā)展提供基礎(chǔ)數(shù)據(jù)資源保障。
參考文獻(xiàn):
[1]韓明玉,馮寶榮. 國(guó)內(nèi)外蘋果產(chǎn)業(yè)技術(shù)發(fā)展報(bào)告[M]. 楊凌:西北農(nóng)林科技大學(xué)出版社,2011.
[2]陳亞東,孟憲學(xué),趙瑞雪,等. 我國(guó)蘋果產(chǎn)業(yè)科學(xué)數(shù)據(jù)建設(shè)初探[J]. 果樹學(xué)報(bào),2016,33(6):719-726.
[3]張 瑞. ETL數(shù)據(jù)抽取研究綜述[J]. 軟件導(dǎo)刊,2010,9(10):164-165.
[4]張欣宇. 基于Kettle的數(shù)據(jù)傳輸平臺(tái)的設(shè)計(jì)與實(shí)現(xiàn)[D]. 大連:大連理工大學(xué),2016.
[5]郭 丹,樊 紅. 基于ETL-KETTLE的貴州卷煙營(yíng)銷大數(shù)據(jù)分析及可視化[J]. 計(jì)算機(jī)系統(tǒng)應(yīng)用,2017,26(1):74-80.
[6]李云松. 小微企業(yè)數(shù)據(jù)整合中ETL工具Kettle的應(yīng)用[J]. 菏澤學(xué)院學(xué)報(bào),2014,36(2):19-22.
[7]尹曉楠,鄒曉濤,張 冬. 基于kettle的北京市水務(wù)普查數(shù)據(jù)的提取與轉(zhuǎn)換[J]. 中國(guó)水利,2013(21):57-59,42.
[8]王克龍,王 玲,王平立,等. 數(shù)據(jù)倉(cāng)庫(kù)中ETL技術(shù)的探討與實(shí)踐[J]. 計(jì)算機(jī)應(yīng)用與軟件,2005,22(11):30-31,78.
[9]廉 博. 數(shù)據(jù)倉(cāng)庫(kù)中ETL技術(shù)的研究與實(shí)現(xiàn)[D]. 沈陽(yáng):沈陽(yáng)工業(yè)大學(xué),2006.
[10]崔友洋,崔有文. 基于ETL-Kettle的中藥飲片企業(yè)商業(yè)智能研究[J]. 產(chǎn)業(yè)與科技論壇,2014,13(22):47-50.
[11]崔有文,周金海. 基于KETTLE的數(shù)據(jù)集成研究[J]. 計(jì)算機(jī)技術(shù)與發(fā)展,2015,25(4):153-157.
[12]王曰芬,章成志,張蓓蓓,等. 數(shù)據(jù)清洗研究綜述[J]. 現(xiàn)代圖書情報(bào)技術(shù),2007(12):50-56.
[13]鄧盼盼,常 春. 基于精確匹配的概念映射關(guān)系規(guī)則研究[J]. 圖書情報(bào)工作,2013,57(16):25-29.
[14]許世衛(wèi),王東杰,李哲敏. 大數(shù)據(jù)推動(dòng)農(nóng)業(yè)現(xiàn)代化應(yīng)用研究[J]. 中國(guó)農(nóng)業(yè)科學(xué),2015,48(17):3429-3438.