李斐斐 張建華 朱孟帥
摘要在闡述農(nóng)業(yè)數(shù)據(jù)質(zhì)量內(nèi)涵的基礎(chǔ)上,對我國農(nóng)業(yè)數(shù)據(jù)應(yīng)用現(xiàn)狀進(jìn)行了分析,從數(shù)據(jù)流程角度選取了數(shù)據(jù)收集、數(shù)據(jù)存儲、數(shù)據(jù)處理和數(shù)據(jù)管理4個影響因素,總結(jié)了單一準(zhǔn)確性和多維綜合性質(zhì)量評估方法,并對數(shù)據(jù)質(zhì)量檢驗的發(fā)展方向進(jìn)行了展望,以期為提高我國農(nóng)業(yè)數(shù)據(jù)質(zhì)量提供參考。
關(guān)鍵詞農(nóng)業(yè)現(xiàn)代化;農(nóng)業(yè)數(shù)據(jù);農(nóng)業(yè)數(shù)據(jù)質(zhì)量;質(zhì)量評估方法
中圖分類號S-058文獻(xiàn)標(biāo)識碼A文章編號0517-6611(2017)36-0221-03
AbstractBased on expounding the connotation of agricultural data quality, we analyzed the application status of agricultural data in China. Four influencing factors of data collection, data storage, data processing and data management were selected from the point of view of data flow, we summarized the single accuracy and multidimensional comprehensive quality evaluation methods. And we forecast the development directions of data quality inspection methods, in order to provide references for improving the quality of agricultural data in China.
Key wordsAgricultural modernization;Agricultural data;Agricultural data quality;Quality evaluation methods
近年來,信息技術(shù)與經(jīng)濟社會、科學(xué)研究的交匯融合激發(fā)了數(shù)據(jù)量爆炸性增長,數(shù)據(jù)因其發(fā)現(xiàn)新知識、創(chuàng)造新價值、提升新能力的特點而成為國家基礎(chǔ)性戰(zhàn)略資源。我國是農(nóng)業(yè)大國,傳統(tǒng)農(nóng)業(yè)農(nóng)村數(shù)據(jù)積累量較大,而將傳感器、移動通訊、數(shù)據(jù)庫等現(xiàn)代信息技術(shù)引入農(nóng)業(yè)生產(chǎn)、流通、消費等環(huán)節(jié)加速了數(shù)據(jù)量的跨級數(shù)增長。農(nóng)業(yè)大數(shù)據(jù)是大數(shù)據(jù)理念、技術(shù)和方法在農(nóng)業(yè)領(lǐng)域的實踐[1],利用大數(shù)據(jù)驅(qū)動農(nóng)業(yè)發(fā)展,有助于加快我國農(nóng)業(yè)轉(zhuǎn)型升級,提升國際競爭力和影響力。
數(shù)據(jù)包含數(shù)量和質(zhì)量,二者相輔相成,沒有質(zhì)量的數(shù)量毫無意義,而數(shù)量又是質(zhì)量的基礎(chǔ),質(zhì)量的提升源于數(shù)量的積累。但是,隨著農(nóng)業(yè)數(shù)據(jù)資源開放性和多源性的增加,數(shù)據(jù)質(zhì)量更加參差不齊,垃圾數(shù)據(jù)、錯誤數(shù)據(jù)、虛假數(shù)據(jù)等問題層出不窮,是我國農(nóng)業(yè)面臨“數(shù)據(jù)豐富、信息貧乏”困境的重要原因,不利于制定科學(xué)的決策。此外,與工商業(yè)不同,農(nóng)業(yè)具有與時空密切相關(guān)、生產(chǎn)周期長、生產(chǎn)災(zāi)害難以彌補等特點,對數(shù)據(jù)質(zhì)量具有更高的要求。
目前,數(shù)據(jù)用戶著重于通過數(shù)據(jù)預(yù)處理等方式來提高數(shù)據(jù)質(zhì)量,缺少對數(shù)據(jù)整體質(zhì)量的評估,事實上,評估數(shù)據(jù)質(zhì)量便于發(fā)現(xiàn)問題,合理控制影響因素,縮小誤差。這不僅對于提高農(nóng)業(yè)數(shù)據(jù)質(zhì)量具有重要意義,而且有助于加強信息處理和知識發(fā)現(xiàn),指導(dǎo)農(nóng)業(yè)生產(chǎn),滿足農(nóng)業(yè)農(nóng)村發(fā)展的需要。因此,從數(shù)據(jù)科學(xué)的思想出發(fā),明晰數(shù)據(jù)質(zhì)量含義,把握我國農(nóng)業(yè)數(shù)據(jù)應(yīng)用現(xiàn)狀,多角度揭示影響數(shù)據(jù)質(zhì)量的因素,總結(jié)適用于農(nóng)業(yè)數(shù)據(jù)的質(zhì)量評估方法具有重要意義。
1數(shù)據(jù)質(zhì)量內(nèi)涵
質(zhì)量是一個多義詞,它在質(zhì)量管理學(xué)的定義為“一組固有特性滿足要求的程度”,質(zhì)量的概念不是固定不變的,而是處于動態(tài)發(fā)展變化之中,與使用對象息息相關(guān)。在數(shù)據(jù)成為產(chǎn)品、可以提供服務(wù)功能后,數(shù)據(jù)領(lǐng)域引入了“質(zhì)量”概念。數(shù)據(jù)質(zhì)量最初是指數(shù)據(jù)的準(zhǔn)確性,以誤差大小作為衡量標(biāo)準(zhǔn)[2],這是一個相對狹義的定義。隨著社會的發(fā)展和信息技術(shù)的進(jìn)步,數(shù)據(jù)質(zhì)量內(nèi)涵不斷擴展,準(zhǔn)確性不再是評估其優(yōu)劣的唯一指標(biāo),特別是從20世紀(jì)90年代起數(shù)據(jù)研究領(lǐng)域廣泛采用多種質(zhì)量維度,綜合衡量數(shù)據(jù)情況。常用的質(zhì)量維度有20多種[3],數(shù)據(jù)用戶可根據(jù)需求靈活選取,在實際應(yīng)用中,各質(zhì)量維度重要性不一,始終沒有統(tǒng)一的認(rèn)識和標(biāo)準(zhǔn)[4-5],但它們并非完全孤立,而是相互關(guān)聯(lián)的,其中數(shù)據(jù)準(zhǔn)確性、一致性、完整性、可解釋性等是基礎(chǔ)性維度,其他維度可由這些維度推導(dǎo)得出,所以這些維度的高水平是其他可選維度質(zhì)量的保障,也是數(shù)據(jù)質(zhì)量的重要研究對象。
2我國農(nóng)業(yè)數(shù)據(jù)應(yīng)用現(xiàn)狀
數(shù)據(jù)是驅(qū)動農(nóng)業(yè)現(xiàn)代化發(fā)展的重要力量,是連接農(nóng)業(yè)生產(chǎn)、經(jīng)營、消費、市場、貿(mào)易等環(huán)節(jié)的關(guān)鍵。數(shù)據(jù)的有效應(yīng)用,一方面可以全息立體反映農(nóng)業(yè)全過程,促進(jìn)相關(guān)要素之間的聯(lián)系,另一方面還可以通過數(shù)據(jù)間關(guān)聯(lián)特征,預(yù)測未來,提前做好準(zhǔn)備,應(yīng)對行業(yè)變化。然而,現(xiàn)階段我國農(nóng)業(yè)數(shù)據(jù)發(fā)展水平并不均衡,主要側(cè)重于農(nóng)業(yè)生產(chǎn)、安全監(jiān)管、市場調(diào)配等方面的應(yīng)用。
在農(nóng)業(yè)生產(chǎn)方面,農(nóng)業(yè)數(shù)據(jù)的應(yīng)用主要體現(xiàn)在精準(zhǔn)生產(chǎn)、作物育種、災(zāi)害防御方面。①在精準(zhǔn)生產(chǎn)中,利用農(nóng)業(yè)物聯(lián)網(wǎng)、通訊技術(shù),實時獲取環(huán)境中的溫濕度、風(fēng)速、二氧化碳以及土壤水分、電導(dǎo)率、礦物質(zhì)含量等指標(biāo),并與農(nóng)作物各階段生長規(guī)律相結(jié)合,完成精準(zhǔn)施肥、澆水等農(nóng)耕活動,以實現(xiàn)資源最節(jié)約、效益最大化。②在作物育種中,通過大數(shù)據(jù)技術(shù)和生物技術(shù)獲取更完整、準(zhǔn)確的生物基因組數(shù)據(jù),挑選出具有特定形狀的基因組(如高鈣、抗氧化、抗敏等),提高育種效率,彌補傳統(tǒng)雜交育種工作中偶然性大、成功率低的缺點[6]。③在災(zāi)害預(yù)防中,利用歷史氣象數(shù)據(jù)建立相關(guān)自然災(zāi)害、病蟲災(zāi)害模型,預(yù)測未來某時間點可能出現(xiàn)的意外。一方面,指導(dǎo)農(nóng)戶合理避開減產(chǎn)作物種植,或做好預(yù)防措施;另一方面,輔助制定農(nóng)業(yè)保險政策,降低農(nóng)戶損失[7-8]。劉祖建等[9]對1991—2010年的2代稻飛虱發(fā)生情況和氣象資料進(jìn)行相關(guān)分析,已建立了成蟲始盛期、若蟲高峰期、發(fā)生程度及發(fā)生面積的預(yù)測模型,效果良好。
在安全監(jiān)管方面,農(nóng)業(yè)數(shù)據(jù)能有效促進(jìn)農(nóng)產(chǎn)品安全監(jiān)管。傳統(tǒng)農(nóng)產(chǎn)品生產(chǎn)、流通、消費、存儲過程中存在渠道復(fù)雜、信息紊亂、監(jiān)管不透明等問題,安全控制難度極大?;赗FID射頻、二維碼等技術(shù)的農(nóng)產(chǎn)品溯源體系,能將農(nóng)產(chǎn)品生長、流通過程中的環(huán)境指標(biāo)、地理信息、倉儲信息等其他數(shù)據(jù)實時收集、存儲、處理并用可視化方式展示,方便終端消費者全面獲取“從田間到餐桌”過程中有關(guān)的產(chǎn)地、種植人、施肥量、農(nóng)藥用量、病害蟲災(zāi)、采摘時間等,提高食品安全監(jiān)管效率。
在市場調(diào)配方面,農(nóng)業(yè)數(shù)據(jù)能驅(qū)動商業(yè)模式創(chuàng)新,完善市場調(diào)配。傳統(tǒng)農(nóng)產(chǎn)品市場信息不對稱現(xiàn)象明顯,供需不平衡情況也十分廣泛,“田頭賤、攤頭不賤”“蒜你狠、姜你軍”等問題層出不窮。在大數(shù)據(jù)技術(shù)支持下,農(nóng)產(chǎn)品電商平臺可以將生產(chǎn)者與消費者快速、精準(zhǔn)地銜接、匹配。一方面,通過連續(xù)分析消費者在不同節(jié)氣和溫度下的購買習(xí)慣,實現(xiàn)精準(zhǔn)訂貨、存儲和配貨,統(tǒng)籌不同區(qū)域農(nóng)產(chǎn)品生產(chǎn);另一方面,利用農(nóng)業(yè)監(jiān)測預(yù)警技術(shù),分析各種農(nóng)產(chǎn)品的交易情況、價格波動,提前發(fā)布市場信號,有效通過信息引導(dǎo)市場,應(yīng)對市場變化。
3農(nóng)業(yè)數(shù)據(jù)質(zhì)量的影響因素
農(nóng)業(yè)數(shù)據(jù)在為農(nóng)業(yè)發(fā)展創(chuàng)造重大機遇的同時,也帶來了巨大的挑戰(zhàn),主要體現(xiàn)在對數(shù)據(jù)質(zhì)量有更高要求。從數(shù)據(jù)流程,即數(shù)據(jù)生命周期角度來探討影響數(shù)據(jù)質(zhì)量的因素,大致可以分為數(shù)據(jù)收集、數(shù)據(jù)存儲、數(shù)據(jù)處理、數(shù)據(jù)管理4個階段。
3.1數(shù)據(jù)收集
數(shù)據(jù)收集是數(shù)據(jù)生命周期的開始,對數(shù)據(jù)質(zhì)量起決定性作用,若收集到的數(shù)據(jù)錯誤、不一致、滯后甚至無效,數(shù)據(jù)質(zhì)量就無從談起。農(nóng)業(yè)數(shù)據(jù)來源廣、種類多[10],選擇合適的收集方式至關(guān)重要,傳統(tǒng)農(nóng)業(yè)統(tǒng)計以普查、抽樣調(diào)查、重點調(diào)查或行政記錄獲取數(shù)據(jù),易出現(xiàn)數(shù)據(jù)模糊、精度損失、記錄不完備等問題,而現(xiàn)代農(nóng)業(yè)已經(jīng)將物聯(lián)網(wǎng)、互聯(lián)網(wǎng)、遙感技術(shù)[11-12]引入,極大改變了傳統(tǒng)數(shù)據(jù)的采集模式,在系統(tǒng)交互過程中能獲取更加具體細(xì)化的數(shù)據(jù),但成本相對較高,目前主要應(yīng)用在規(guī)?;?、標(biāo)準(zhǔn)化的科研基地以及農(nóng)業(yè)企業(yè)等單位中,普通用戶短時間內(nèi)難以普及。
3.2數(shù)據(jù)存儲
數(shù)據(jù)存儲是保障數(shù)據(jù)質(zhì)量水平的重要環(huán)節(jié),數(shù)據(jù)存儲紊亂會影響數(shù)據(jù)的使用效率,從而降低數(shù)據(jù)質(zhì)量。目前,農(nóng)業(yè)各業(yè)務(wù)數(shù)據(jù)以結(jié)構(gòu)化為主,存儲在傳統(tǒng)的關(guān)系型數(shù)據(jù)庫中,而半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)則需先轉(zhuǎn)化成結(jié)構(gòu)化數(shù)據(jù)才能得到有效存儲。在異質(zhì)數(shù)據(jù)轉(zhuǎn)化的過程中,若轉(zhuǎn)化不當(dāng)對各質(zhì)量維度的影響很大,特別是農(nóng)業(yè)數(shù)據(jù)數(shù)量更龐大、結(jié)構(gòu)更復(fù)雜、變化更快,出錯率更高,所以突破異質(zhì)數(shù)據(jù)轉(zhuǎn)換、集成與調(diào)度技術(shù)[13],盡可能消除數(shù)據(jù)整合過程中出現(xiàn)的不兼容、精度損失等問題,完善大數(shù)據(jù)環(huán)境下的數(shù)據(jù)庫建設(shè)十分必要。
3.3數(shù)據(jù)處理
數(shù)據(jù)處理是提高數(shù)據(jù)質(zhì)量的有效手段,包括數(shù)據(jù)更新、預(yù)處理、提取、分析等。①要滿足數(shù)據(jù)質(zhì)量維度自身要求,就數(shù)據(jù)時效性和價值性而言,溫室控制中對溫濕度、二氧化碳含量數(shù)據(jù)若更新不及時將導(dǎo)致環(huán)境調(diào)節(jié)滯后,影響農(nóng)作物產(chǎn)量,數(shù)據(jù)價值性驟降;②加強數(shù)據(jù)預(yù)處理、提取、分析,盡管在數(shù)據(jù)采集、存儲中都規(guī)范了流程,但仍會存在不準(zhǔn)確、不一致、不完整的數(shù)據(jù),降低數(shù)據(jù)挖掘效率和精確率,所以對數(shù)據(jù)進(jìn)行分類或分組前的優(yōu)化、排序是十分必要的。
3.4數(shù)據(jù)管理
數(shù)據(jù)管理是干擾數(shù)據(jù)質(zhì)量的外界因素,這里特指各種人為操作。數(shù)據(jù)收集、存儲和處理側(cè)重于從技術(shù)上規(guī)避問題,而數(shù)據(jù)管理旨在從人為角度分析影響準(zhǔn)確性、一致性、完整性等質(zhì)量維度的因素。一方面,數(shù)據(jù)收集時基層統(tǒng)計人員統(tǒng)計過于隨意,上級領(lǐng)導(dǎo)為追求政績會偽造數(shù)據(jù),數(shù)據(jù)匯總時橫向或縱向溝通不暢更會造成數(shù)據(jù)重復(fù)統(tǒng)計,增加冗余;另一方面,數(shù)據(jù)基本存儲在數(shù)據(jù)庫中,數(shù)據(jù)生命周期中數(shù)據(jù)庫管理員都擔(dān)負(fù)著重要職責(zé),在設(shè)計存儲架構(gòu)時要充分考慮數(shù)據(jù)不兼容、不一致等問題。
4農(nóng)業(yè)數(shù)據(jù)質(zhì)量評估方法
數(shù)據(jù)質(zhì)量評估能夠預(yù)先發(fā)現(xiàn)數(shù)據(jù)問題,為改善數(shù)據(jù)質(zhì)量提供指導(dǎo),是數(shù)據(jù)質(zhì)量研究過程中的重要環(huán)節(jié)?,F(xiàn)有研究多為框架理論,評估方法相對統(tǒng)一,主要圍繞每個質(zhì)量維度下數(shù)據(jù)指標(biāo)的結(jié)構(gòu)或內(nèi)容展開。筆者總結(jié)了農(nóng)業(yè)領(lǐng)域易出現(xiàn)的生產(chǎn)數(shù)據(jù)紊亂、價格數(shù)據(jù)不平衡等問題,結(jié)合國內(nèi)外提出的模型方法,大致歸納為定性分析、定量分析2種。
4.1定性評估
定性分析是以用戶需求為中心的主觀評價法,基于一定的評價準(zhǔn)則,綜合評判農(nóng)業(yè)數(shù)據(jù)集的“好”與“壞”,評價結(jié)果可用等級制、百分制或其他方法表示,應(yīng)用范圍較廣。傳統(tǒng)的定性分析方法包括用戶反饋法、專家評議法、第三方評測法,分別以數(shù)據(jù)用戶需求、專家經(jīng)驗知識、特定信息需求為核心進(jìn)行評估,這些方法適用于小樣本數(shù)據(jù),難以滿足大數(shù)據(jù)在評估效率和準(zhǔn)確率等方面的要求。當(dāng)數(shù)據(jù)樣本較大時,可以將目標(biāo)質(zhì)量維度簡單歸納,根據(jù)需求進(jìn)一步分解為更小的單位,直接或間接地評估其內(nèi)在質(zhì)量,如分析數(shù)據(jù)現(xiàn)實世界、信息世界的對應(yīng)關(guān)系[14],分析數(shù)據(jù)更新頻度等來判斷數(shù)據(jù)的準(zhǔn)確性、完整性、一致性、及時性等[15],還可以將研究視角拓寬至相關(guān)環(huán)境數(shù)據(jù)。此外,也可利用主觀數(shù)據(jù)質(zhì)量參數(shù)和客觀數(shù)據(jù)質(zhì)量指示器等其他合理的方法[16]進(jìn)行研究。定性分析的方法簡單易用,但評價結(jié)果比較模糊,缺乏客觀、量化的分析。
4.2定量分析
定量分析是以數(shù)據(jù)為中心的客觀評價法,根據(jù)需求制定合理規(guī)則集[17],將目標(biāo)質(zhì)量維度進(jìn)行量化和重現(xiàn),評價結(jié)果直接用數(shù)字表示。根據(jù)評估的維度數(shù)量,可分為單維度準(zhǔn)確性評估、多維度綜合性評估。
4.2.1單一準(zhǔn)確性評估方法。
早期有關(guān)數(shù)據(jù)質(zhì)量的研究主要針對數(shù)據(jù)準(zhǔn)確性,一般采用統(tǒng)計學(xué)模型分析,比較經(jīng)典的方法包括邏輯關(guān)系檢驗法、核算數(shù)據(jù)重估法、計量模型分析法、統(tǒng)計分布檢驗法、調(diào)查誤差評估法等。
邏輯關(guān)系檢驗法分為比較邏輯檢驗法和相關(guān)邏輯檢查法,主要從橫向或縱向角度粗略地檢查統(tǒng)計指標(biāo)之間存在的恒等、包含和相關(guān)關(guān)系,如各省農(nóng)業(yè)產(chǎn)值之和與全國農(nóng)業(yè)產(chǎn)值之和不一致。核算數(shù)據(jù)重估法是對邏輯關(guān)系檢驗法的拓展,主要從統(tǒng)計核算的角度出發(fā)評估農(nóng)業(yè)生產(chǎn)數(shù)據(jù)、農(nóng)產(chǎn)品價格數(shù)據(jù)或者行業(yè)增加值。計量模型分析法能通過建立計量經(jīng)濟模型,量化更復(fù)雜的相關(guān)關(guān)系,對相關(guān)指標(biāo)的數(shù)據(jù)質(zhì)量進(jìn)行評估,但它一般是基于數(shù)據(jù)完全真實的假設(shè)上。統(tǒng)計分布檢驗法是根據(jù)統(tǒng)計總體的個體都服從特定的函數(shù)分布的性質(zhì),如正太分布等,若待評估數(shù)據(jù)集符合特定分布,則初步認(rèn)為數(shù)據(jù)準(zhǔn)確率高。調(diào)查誤差評估法主要分析數(shù)據(jù)中所包含的誤差進(jìn)行評估,包括抽樣誤差和非抽樣誤差,對于非抽樣誤差可以用其他指標(biāo)間接分析,也能用對統(tǒng)計數(shù)據(jù)執(zhí)行二次抽樣調(diào)查,并與前者進(jìn)行對比核查。
4.2.2多維綜合性評估方法。
多維綜合性評估是對單一準(zhǔn)確性評估的進(jìn)一步拓展,評估對象包括數(shù)據(jù)基礎(chǔ)維度和其他可選維度,評估方法是建立合理的評價模型,而模型的核心是如何有效度量數(shù)據(jù)的不精確、不完整、不一致等程度。
目前,農(nóng)業(yè)數(shù)據(jù)大多以結(jié)構(gòu)化方式存儲在關(guān)系數(shù)據(jù)庫中,數(shù)據(jù)各質(zhì)量維度的度量大多采用數(shù)據(jù)庫技術(shù)或數(shù)據(jù)挖掘技術(shù)。在基于數(shù)據(jù)庫技術(shù)的方法中,學(xué)者廣泛應(yīng)用函數(shù)依賴關(guān)系分析數(shù)據(jù)集,函數(shù)依賴是指在關(guān)系數(shù)據(jù)庫R中2個屬性集合X、Y屬性值之間的約束關(guān)系,如實體完整性、參照完整性、用戶定義完整性等,用戶依據(jù)既定的函數(shù)依賴,利用SQL命令批量篩選目標(biāo)數(shù)據(jù),如根據(jù)語法上相同或相似的不同記錄可能代表現(xiàn)實世界同一實體的原理,用排序—合并、建立索引的方法檢測違反完整性的重復(fù)記錄,還可以統(tǒng)計屬性字段缺失的記錄,得到數(shù)據(jù)集的完整率、一致率等,有效量化數(shù)據(jù)集各維度質(zhì)量;在基于數(shù)據(jù)挖掘技術(shù)的方法中,各質(zhì)量維度的量化方法不同,用戶可根據(jù)數(shù)據(jù)特點,采用聚類、分類、關(guān)聯(lián)規(guī)則或自定義算法進(jìn)行有限次迭代循環(huán),篩選并統(tǒng)計符合用戶需求的記錄數(shù),如基于距離的相似度計算、基于信息內(nèi)容的語義相似度測度等。與數(shù)據(jù)庫分析數(shù)據(jù)相比,它能動態(tài)計算屬性相應(yīng)的權(quán)重,客觀性更強、處理效率快、精度更高。此外,還可以用信息熵、逆文獻(xiàn)頻率加權(quán)法等進(jìn)行計算。
根據(jù)各質(zhì)量維度的度量結(jié)果對數(shù)據(jù)集進(jìn)行評估時,大致可分為以下3個層次。①根據(jù)度量結(jié)果直接對數(shù)據(jù)集進(jìn)行評價,如農(nóng)作物基因組數(shù)據(jù)的準(zhǔn)確率、一致率、完整率分別為78%、90%和95%,數(shù)據(jù)完整率較高,但若準(zhǔn)確率更重要時,就難以突出重要質(zhì)量維度,有時無法滿足用戶需求。②將目標(biāo)質(zhì)量維度進(jìn)行分類,如分為核心維度和一般維度,黃鶯等[18]在研究元數(shù)據(jù)質(zhì)量時建立了一個四維核心模型,該模型由2層組成,一層是與數(shù)據(jù)內(nèi)在質(zhì)量密切相關(guān)的固定維度,另一層與數(shù)據(jù)外部環(huán)境聯(lián)系較強的可選維度,其中第一層重要性更高。這種方法使研究對象主次有別,客觀性更高。③構(gòu)建綜合數(shù)據(jù)評估模型,模型可以是簡單的線性關(guān)系,也可以是復(fù)雜的多項式等關(guān)系[19],主要采用加權(quán)法(約束加權(quán)法、屬性加權(quán)法、維度加權(quán)法等)給不同的質(zhì)量維度賦予相應(yīng)權(quán)重。針對農(nóng)業(yè)數(shù)據(jù)非平衡問題,王曉華等[20]提出一個數(shù)據(jù)質(zhì)量評估體系,用基于屬性加權(quán)的缺失評估算法、非平衡離群評估算法進(jìn)行數(shù)據(jù)缺失、離群評估,缺失評估算法的權(quán)重由基于類分布的屬性加權(quán)求得,可靠性更高,該評估體系已經(jīng)在馬鈴薯銷售量和銷售額中表現(xiàn)出良好的適用性。
實際應(yīng)用中,為了使評估更加合理,充分發(fā)揮二者優(yōu)勢,可以將定性和定量分析結(jié)合使用,常用的方法包括層次分析法、模糊綜合評價、灰色聚類法等。
45卷36期李斐斐等農(nóng)業(yè)數(shù)據(jù)質(zhì)量及評估方法探討
5數(shù)據(jù)質(zhì)量評估方法發(fā)展
農(nóng)業(yè)現(xiàn)代化進(jìn)程中,農(nóng)業(yè)也進(jìn)入了大數(shù)據(jù)時代,各種監(jiān)測網(wǎng)點及網(wǎng)絡(luò)信息平臺相繼建立,數(shù)據(jù)環(huán)境愈加復(fù)雜,數(shù)據(jù)多源異構(gòu)特點明顯,同時錯誤、無效及過時數(shù)據(jù)也更多。為了提高大數(shù)據(jù)的應(yīng)用價值,質(zhì)量評估方法需要具有更高的效率和精確率,今后主要從適應(yīng)分布式數(shù)據(jù)環(huán)境、加強知識發(fā)現(xiàn)、降低響應(yīng)時間度等方面進(jìn)行發(fā)展。
大數(shù)據(jù)質(zhì)量評估方法要適應(yīng)分布式數(shù)據(jù)存儲環(huán)境。多源異構(gòu)的農(nóng)業(yè)數(shù)據(jù)主要存儲在分布式數(shù)據(jù)庫中,但分布式數(shù)據(jù)庫的不同節(jié)點間多通過Web等方式連接,每個節(jié)點僅包含部分?jǐn)?shù)據(jù),數(shù)據(jù)類型、結(jié)構(gòu)往往存在差異,傳統(tǒng)函數(shù)依賴通用性差,為提高數(shù)據(jù)可遷移性,應(yīng)明晰數(shù)據(jù)本質(zhì),挖掘數(shù)據(jù)間存在的異同,重新建立約束機制,以數(shù)據(jù)不一致性為例,京東和淘寶平臺上相同的農(nóng)產(chǎn)品在數(shù)據(jù)庫存儲中可能存在欄目、主題、約束、類型、結(jié)構(gòu)、指代不一致等問題,可以建立基于層次概率判定的Web不一致數(shù)據(jù)自動發(fā)現(xiàn)算法。
大數(shù)據(jù)質(zhì)量評估方法要加強知識發(fā)現(xiàn)能力。由于農(nóng)業(yè)行業(yè)的特殊性,將傳統(tǒng)數(shù)據(jù)庫和基于專家知識的知識規(guī)則庫融合使用,能深入洞悉數(shù)據(jù)特征,描述更加復(fù)雜和多樣化的約束算法規(guī)則,全面判斷數(shù)據(jù)質(zhì)量。施建平等[21]據(jù)此建立了農(nóng)田土壤自動識別和動態(tài)勘察的規(guī)則庫,完成數(shù)據(jù)質(zhì)量相關(guān)的背景和方法信息檢驗(檢驗樣地代碼一致性、長期采樣地管理數(shù)據(jù)、標(biāo)準(zhǔn)物質(zhì)測定準(zhǔn)確度等檢驗)和數(shù)據(jù)檢驗(土壤微量元素等指標(biāo)的閾值檢驗、統(tǒng)計檢驗、關(guān)聯(lián)檢驗等)。
大數(shù)據(jù)質(zhì)量評估方法要減少系統(tǒng)響應(yīng)時間。數(shù)據(jù)規(guī)模的增大降低數(shù)據(jù)處理效率、增加系統(tǒng)響應(yīng)時間是現(xiàn)階段存在的重要問題,為減少數(shù)據(jù)處理過程中的時間消耗,一方面可以選擇MapReduce分布式計算框架、分布式內(nèi)存計算系統(tǒng)、分布式流計算系統(tǒng)等性能較好的模型或系統(tǒng);另一方面,要化繁為簡,降低算法復(fù)雜度,如在滿足復(fù)雜多樣的約束規(guī)則的同時,利用并行函數(shù)依賴和剪枝等方式。
6結(jié)論
農(nóng)業(yè)大數(shù)據(jù)時代已經(jīng)來臨,農(nóng)業(yè)數(shù)據(jù)能全面揭示我國農(nóng)業(yè)現(xiàn)狀、突出問題和主要矛盾,是反映我國農(nóng)業(yè)基本狀況、生產(chǎn)方式、動力源泉的重要依據(jù)。對數(shù)據(jù)質(zhì)量進(jìn)行評估能宏觀把握數(shù)據(jù)可用性,制定科學(xué)決策,更好地服務(wù)政府部門,幫助農(nóng)民合理規(guī)避農(nóng)業(yè)風(fēng)險,平衡市場和生產(chǎn)者的供應(yīng)關(guān)系等。傳統(tǒng)的數(shù)據(jù)質(zhì)量評估方法相對成熟,在處理小樣本數(shù)據(jù)集時表現(xiàn)出較高的處理效率和精準(zhǔn)率,但是,在面對海量多源多模態(tài)農(nóng)業(yè)數(shù)據(jù)時,現(xiàn)有評估方法還是難以滿足對計算速率、數(shù)據(jù)種類等方面的要求,針對未來更加復(fù)雜,也更加開放的農(nóng)業(yè)環(huán)境,今后應(yīng)做好以下方面工作:加強算法在數(shù)據(jù)適用性、可擴展性,特別是共享性方面的研究,提高數(shù)據(jù)處理能力;建立農(nóng)業(yè)大數(shù)據(jù)環(huán)境下更全面的評估標(biāo)準(zhǔn)、量化方式;完善在評估數(shù)據(jù)之后提高數(shù)據(jù)質(zhì)量的策略。
參考文獻(xiàn)
[1] 孫忠富,杜克明,鄭飛翔,等.大數(shù)據(jù)在智慧農(nóng)業(yè)中研究與應(yīng)用展望[J].中國農(nóng)業(yè)科技導(dǎo)報,2013,16(6):63-71.
[2] WINKLER W E.Methods for evaluating and creating data quality[J].Information system,2004,29(7):531-550.
[3] HUANG K T,LEE Y W,WANG R Y.Quality information and knowledge management[M].New Jersey:Prentice Hall,1998.
[4] 黃剛,袁滿,吳秀英,等.元數(shù)據(jù)驅(qū)動的數(shù)據(jù)質(zhì)量評估體系架構(gòu)研究[J].計算機工程與應(yīng)用,2013,49(8):114-119.
[5] BRUCE T R,HILLMAN D I.The Continuum of Metadata Quality:Defining,Expressing,Exploiting [C]//HILLMANN D I,WEATBROOKS E L.Metadata in Practice.Chicago:American Library Association,2004:238-256.
[6] RADAUER C,BREITENEDER H.Pollen allergens are restricted to few protein families and show distinct patterns of species distribution[J].J Allergy Clin Immunol,2006,117(1):141-147.
[7] TAO F L,ZHANG S,ZHANG Z. Changes in rice disasters across China in recent decades and the meteorological and agronomic causes[J].Regional Environ Change,2013,13(4):743-759.
[8] LIU X W,F(xiàn)EIKE T,SHAO L W,et al.Effects of different irrigation regimes on soil compaction in a winter wheatsummer maize cropping system in the North China Plain[J].Catena,2016,137:70-76.
[9] 劉祖建,陳冰,陳蔚燁,等.廣東省西南部稻飛虱發(fā)生期和發(fā)生程度的氣象預(yù)測模型[J].中國農(nóng)業(yè)氣象,2013,34(2):204-209.
[10] BROWN J C,KASTENS J H,COUTINHO A C,et al.Classifying multiyear agricultural land use data from Mato Grosso using time-series MODIS vegetation index data[J].Remote sensing of environment,2013,130(4):39-50.
[11] 戈錦文,肖璐.農(nóng)業(yè)統(tǒng)計存在的問題及變革趨向[J].統(tǒng)計與決策,2016(18):188-189.
[12] JIAO L Z,DONG D M,ZHENG W G,et al.Research on fiberoptic etching method for evanescent wave sensors[J].Optikinternational journal for light and electron optics,2013,124(8):740-743.
[13]馬茜,谷峪,張?zhí)斐桑?一種基于數(shù)據(jù)質(zhì)量的異構(gòu)多源多模態(tài)感知數(shù)據(jù)獲取方法[J].計算機學(xué)報,2013,36(10):2120-2131.
[14] WAND Y,WANG R Y.Anchoring data quality dimensions in ontological foundations[J].Communication of the ACM,1996,39(11):86-95.
[15] WANG R Y,KON H B,MADNICK S E.Data quality requirements analysis and modeling[C]//Proc of Ninth ICDE.[s.l.]:[s.n.],1993.
[16] AEBI D,PERROCHON L.Towards improving data quality[C]//Proceedings of the International Conference on Information Systems and Management of Data.[s.l.]:[s.n.],1993:273-281.
[17] 楊青云,趙培英,楊冬青,等.數(shù)據(jù)質(zhì)量評估方法研究[J].計算機工程與應(yīng)用,2004,40(9):3-4,15.
[18] 黃鶯,李建陽.元數(shù)據(jù)質(zhì)量評估方法及模型研究[J].圖書館學(xué)研究,2013(12):52-56,51.
[19] 楊青云,趙培英,楊冬青,等.數(shù)據(jù)質(zhì)量評估方法研究[J].計算機工程與應(yīng)用,2004,40(9):3-4,15.
[20] 王曉華,蘇宏業(yè),渠瑜,等.面向電信欠費挖掘的數(shù)據(jù)質(zhì)量評估策略研究[J].計算機工程與應(yīng)用,2011,47(12):220-224,233.
[21] 施建平,沈志宏,蘇賢明,等.基于知識規(guī)則的數(shù)據(jù)質(zhì)量檢驗方法在農(nóng)田土壤監(jiān)測中的應(yīng)用[J].科研信息化技術(shù)與應(yīng)用,2012,3(2):53-61.