胡為群,祝利莉,葉少挺,彭一輝,鄭可鋒
(浙江省農(nóng)業(yè)科學(xué)院數(shù)字農(nóng)業(yè)研究所,浙江杭州 310021)
省級(jí)農(nóng)業(yè)資源信息系統(tǒng)屬性數(shù)據(jù)標(biāo)準(zhǔn)化方案探討
胡為群,祝利莉,葉少挺,彭一輝,鄭可鋒*
(浙江省農(nóng)業(yè)科學(xué)院數(shù)字農(nóng)業(yè)研究所,浙江杭州 310021)
農(nóng)業(yè)資源屬性數(shù)據(jù)來源于諸多部門,在將其輸入存儲(chǔ)到計(jì)算機(jī)系統(tǒng)之前,需要對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理。根據(jù)浙江省和廣西壯族自治區(qū)農(nóng)業(yè)資源信息系統(tǒng)建設(shè)中遇到的問題,對(duì)屬性數(shù)據(jù)標(biāo)準(zhǔn)化過程及數(shù)據(jù)標(biāo)準(zhǔn)化處理中數(shù)據(jù)編碼,行政代碼添加,缺失數(shù)據(jù)、噪聲數(shù)據(jù)、重復(fù)數(shù)據(jù)的處理,數(shù)據(jù)轉(zhuǎn)換和驗(yàn)證等關(guān)鍵技術(shù)進(jìn)行探討。
信息系統(tǒng);農(nóng)業(yè)資源;屬性數(shù)據(jù);標(biāo)準(zhǔn)化
農(nóng)業(yè)資源是農(nóng)業(yè)生產(chǎn)的物質(zhì)基礎(chǔ)。農(nóng)業(yè)資源信息系統(tǒng)的開發(fā)與應(yīng)用是實(shí)現(xiàn)資源高效利用、科學(xué)規(guī)劃和可持續(xù)發(fā)展的有效途徑。利用先進(jìn)的信息技術(shù)和科學(xué)方法,可以為農(nóng)業(yè)資源的合理配置、高效利用和宏觀決策提供依據(jù)[1]。農(nóng)業(yè)資源信息系統(tǒng)通常涉及的屬性數(shù)據(jù)主要包括土地資源、水資源、氣候資源、農(nóng)業(yè)經(jīng)濟(jì)資源、人口與勞動(dòng)力資源等5個(gè)方面的數(shù)據(jù)。這些數(shù)據(jù)可能因調(diào)查過程中的工作失誤、地區(qū)間或年度間統(tǒng)計(jì)口徑不一致、抽樣方法或者測(cè)量方法不同等因素存在誤差或量綱不一致;也可能會(huì)在數(shù)據(jù)收集、錄入、轉(zhuǎn)換過程中出現(xiàn)錯(cuò)誤導(dǎo)致缺失、重復(fù)甚至錯(cuò)誤。因此,在將采集到的農(nóng)業(yè)資源信息屬性數(shù)據(jù)輸入存儲(chǔ)到計(jì)算機(jī)系統(tǒng)之前,必須對(duì)其進(jìn)行標(biāo)準(zhǔn)化處理,本文擬對(duì)此進(jìn)行方案探討。
概括來講,屬性數(shù)據(jù)標(biāo)準(zhǔn)化處理的過程包括:數(shù)據(jù)生成、數(shù)據(jù)審查、數(shù)據(jù)清理、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)驗(yàn)證等5大步驟[2-3]。
1.1 數(shù)據(jù)生成
將采集的數(shù)據(jù)統(tǒng)一采用格式化文本的數(shù)據(jù)存儲(chǔ)方法,統(tǒng)一數(shù)據(jù)字段,將所有相同意義字段的字段名稱、數(shù)據(jù)格式(包括數(shù)據(jù)類型,字段長(zhǎng)度)統(tǒng)一處理。使用統(tǒng)一的數(shù)據(jù)字典將數(shù)據(jù)表字段意義進(jìn)行統(tǒng)一定義。
1.2 數(shù)據(jù)審查
檢查數(shù)據(jù)的數(shù)量(記錄數(shù))是否滿足分析的最低要求,字段值的內(nèi)容與調(diào)查要求是否一致,是否全面。此外,利用描述性統(tǒng)計(jì)分析,檢查各個(gè)字段的字段類型、字段值的最大值、最小值、平均數(shù)、中位數(shù)等,記錄個(gè)數(shù)、缺失值或空值個(gè)數(shù)等。
1.3 數(shù)據(jù)清理
針對(duì)數(shù)據(jù)審查過程中發(fā)現(xiàn)的明顯錯(cuò)誤值、缺失值、異常值、可疑數(shù)據(jù),選用適當(dāng)?shù)姆椒ㄟM(jìn)行“清理”,使“臟”數(shù)據(jù)變?yōu)椤案蓛簟睌?shù)據(jù),以便后續(xù)的統(tǒng)計(jì)分析及預(yù)測(cè)分析能夠得出可靠的結(jié)果。當(dāng)然,數(shù)據(jù)清理還包括對(duì)重復(fù)記錄進(jìn)行的鑒別與刪除。
1.4 數(shù)據(jù)轉(zhuǎn)換
數(shù)據(jù)分析強(qiáng)調(diào)分析對(duì)象的可比性,但不同字段值由于統(tǒng)計(jì)口徑、計(jì)量單位等不同,往往會(huì)造成數(shù)據(jù)不可比。對(duì)一些統(tǒng)計(jì)指標(biāo)進(jìn)行綜合評(píng)價(jià)時(shí),如果統(tǒng)計(jì)指標(biāo)的性質(zhì)、計(jì)量單位不同,也容易引起評(píng)價(jià)結(jié)果出現(xiàn)較大誤差,再加上分析過程中的其他一些要求,因此需要在分析前對(duì)數(shù)據(jù)進(jìn)行相應(yīng)轉(zhuǎn)換。
1.5 數(shù)據(jù)驗(yàn)證
該步驟的目的是初步評(píng)估和判斷數(shù)據(jù)是否能夠滿足統(tǒng)計(jì)分析的需要,決定是否需要增加或減少數(shù)據(jù)量。一般可利用簡(jiǎn)單的線性模型,以及散點(diǎn)圖、直方圖、折線圖等圖形進(jìn)行探索性分析,或利用相關(guān)分析、一致性檢驗(yàn)等方法對(duì)數(shù)據(jù)的準(zhǔn)確性進(jìn)行驗(yàn)證,確保不把錯(cuò)誤和偏差的數(shù)據(jù)帶入到數(shù)據(jù)分析中去。
上述5個(gè)步驟是一個(gè)逐步深入、由表及里的過程。先是將采集的數(shù)據(jù)統(tǒng)一生成格式化的文本,然后從表面上查找容易發(fā)現(xiàn)的問題(如數(shù)據(jù)記錄個(gè)數(shù)、最大值、最小值、缺失值或空值個(gè)數(shù)等),接著對(duì)發(fā)現(xiàn)的問題進(jìn)行處理,即數(shù)據(jù)清理,再就是提高數(shù)據(jù)的可比性,對(duì)數(shù)據(jù)進(jìn)行一些變換,使數(shù)據(jù)在形式上滿足分析的需要,最后則是進(jìn)一步檢測(cè)數(shù)據(jù)內(nèi)容是否能夠滿足分析需要,診斷數(shù)據(jù)的真實(shí)性及數(shù)據(jù)之間的協(xié)調(diào)性等,確保優(yōu)質(zhì)的數(shù)據(jù)進(jìn)入信息系統(tǒng)。
2.1 數(shù)據(jù)編碼
數(shù)據(jù)的分類編碼是對(duì)數(shù)據(jù)資料進(jìn)行有效管理的重要依據(jù)。數(shù)據(jù)輸入計(jì)算機(jī)前,必須先按使用要求進(jìn)行分類。數(shù)據(jù)分類應(yīng)遵循唯一性、可擴(kuò)充性、易識(shí)別性、簡(jiǎn)單性、完整性的原則。通常省域農(nóng)業(yè)資源信息數(shù)據(jù)可分為5大類、8個(gè)一級(jí)庫,見表1。大分類代碼多采用1~2位字母編碼,小分類采用1位數(shù)字編碼,一級(jí)代碼和二級(jí)代碼均采用2位數(shù)字編碼。標(biāo)識(shí)碼一般為空,如果出現(xiàn)歷年統(tǒng)計(jì)口徑不一致的情況,為了區(qū)分也可以采用。以對(duì)某地開展的人口調(diào)查為例,其數(shù)據(jù)編碼如表2所示,其中,P代表大分類“人口資源”,1為小類“人口”,后面為分級(jí)代碼。表中字段名由“表名-首字中文拼音全拼+其余拼音首字母”構(gòu)成,數(shù)字保持不變。
表1 農(nóng)業(yè)資源信息數(shù)據(jù)分類
表2 某地人口調(diào)查數(shù)據(jù)的編碼
2.2 行政代碼添加
由于數(shù)據(jù)服務(wù)層的數(shù)據(jù)表較多,多個(gè)數(shù)據(jù)表之前常具有主從關(guān)系,為了避免出錯(cuò),使它們保持關(guān)聯(lián)的一致性,在省域系統(tǒng)的所有數(shù)據(jù)表中都增加“行政代碼”字段,作為關(guān)聯(lián)的主鍵,當(dāng)數(shù)據(jù)在錄入和修改時(shí),使各表數(shù)據(jù)始終保持一致性。行政代碼分類采用現(xiàn)有的行政體系劃分方法,用6位數(shù)字表示,例如330122表示桐廬縣。
作為數(shù)據(jù)表的主鍵,不同表中的行政單位名稱常會(huì)存在排列順序不一致,行政單位名稱叫法不一致,如“杭州市”“杭州地區(qū)”“杭州”,或者隨著行政地區(qū)區(qū)域的變化,不同年份的行政代碼可能不一樣的問題。為了解決這些問題,建議在多個(gè)表之間共享一套代碼地區(qū)對(duì)照表。在本研究中,我們采用了Excel中“宏”的方法來實(shí)現(xiàn)。下面以W 20101水產(chǎn)品產(chǎn)量為例來說明整個(gè)過程。
打開表W 20101,選擇工具→宏→Visual Basic編輯器。選擇文件→導(dǎo)入文件,選擇編寫好的代碼,如圖1所示,選擇2000年的數(shù)據(jù),代碼如下:
Attribute VB-Name=“模塊1”
Public Function code2000(ByVal str As String)
Select Case str
Case“浙江省”
code2000=“330000”
Case“杭州”
code2000=“330100”
Case“杭州地區(qū)”
code2000=“330100”
Case“杭州市”
code2000=“330100”
Case“余杭”
code2000=“330184”
Case“余杭縣”
code2000=“330184”
Case“余杭市”
code2000=“330184”
……
Case Else
code2000=“”
End Select
End Function
圖1 代碼選擇界面
選中導(dǎo)入的模塊,工具→宏,輸入宏名字,如a2000,點(diǎn)擊創(chuàng)建,再選擇工具→宏→選擇a2000,運(yùn)行,點(diǎn)擊保存,退出。
返回到表W 20101,使用trim函數(shù)把行政單位名稱前后空格刪除,插入一空列,找到2000年的數(shù)據(jù),從第一個(gè)行政單位“浙江省”開始,在空白單元格中輸入“=code2000(C898)”,其中“C898”為第一個(gè)行政單位所在的位置,下拉,直到2000年的數(shù)據(jù)結(jié)束。選中生成的行政地區(qū)代碼,選擇性粘貼為數(shù)值型,其他年份做法相同。
2.3 缺失數(shù)據(jù)、噪聲數(shù)據(jù)、重復(fù)數(shù)據(jù)的處理
2.3.1 缺失數(shù)據(jù)處理
對(duì)于缺失數(shù)據(jù),通常由人工填寫,采用默認(rèn)值、平均值或者同類別平均值填補(bǔ)的方法完成。另有些數(shù)據(jù)可以通過數(shù)據(jù)轉(zhuǎn)換獲得,例如總?cè)丝跀?shù)可以通過農(nóng)業(yè)人口與非農(nóng)人口求和來完成。對(duì)于一些要求更精確的數(shù)據(jù),則可通過回歸分析、貝葉斯方法或決策樹推斷該記錄特定屬性的最可能取值,這類方法可以最大限度地利用現(xiàn)有的數(shù)據(jù)信息來推測(cè)遺漏數(shù)據(jù)值,因而效果最好。
2.3.2 噪聲數(shù)據(jù)處理
噪聲是指被測(cè)變量的隨機(jī)錯(cuò)誤或偏差,包括錯(cuò)誤的值或偏離期望的孤立點(diǎn)??梢杂靡韵录夹g(shù)來平滑噪聲數(shù)據(jù),識(shí)別和刪除孤立點(diǎn)。
分箱方法:將存儲(chǔ)的值分布到一些箱中,通過考查“鄰居”來局部平滑存儲(chǔ)數(shù)據(jù)的值。如可以采用暗箱的平均值、中值或箱邊界值進(jìn)行平滑。
聚類:將類似的值組織成群或“聚類”,落在聚類集合之外的值視為異常數(shù)據(jù)。對(duì)于異常數(shù)據(jù),如果是垃圾數(shù)據(jù),則予以清除,否則保留作為重要數(shù)據(jù)進(jìn)行孤立點(diǎn)分析。
回歸方法:利用擬合函數(shù),如線性回歸、多元回歸等來平滑數(shù)據(jù)、幫助除去噪聲。
人機(jī)結(jié)合檢查方法:首先由計(jì)算機(jī)識(shí)別并輸出那些差異程度大于某個(gè)閾值的數(shù)據(jù),然后人工審核這些數(shù)據(jù),確定孤立點(diǎn)。這種方法比單純的人工檢查要快。
2.3.3 重復(fù)數(shù)據(jù)的處理
通過對(duì)行政地區(qū)代碼+年份進(jìn)行篩選,能夠發(fā)現(xiàn)重復(fù)的記錄,然后進(jìn)行刪除。
2.4 數(shù)據(jù)轉(zhuǎn)換和驗(yàn)證
數(shù)據(jù)轉(zhuǎn)換主要是為了實(shí)現(xiàn)數(shù)據(jù)分析的可比性,而對(duì)數(shù)據(jù)進(jìn)行的規(guī)格化處理,主要針對(duì)計(jì)量單位的差異,采用歸一化處理,例如農(nóng)作物播種面積單位用“公頃”,總產(chǎn)量單位用“噸”,單位面積產(chǎn)量單位用“千克”,日照時(shí)數(shù)用“小時(shí)”等。針對(duì)數(shù)據(jù)層級(jí)不同可采用數(shù)據(jù)匯總、泛化等方法實(shí)現(xiàn)數(shù)據(jù)轉(zhuǎn)換,例如通過各月降水量可以匯總得到年降水量,通過各月日照時(shí)數(shù)可以匯總得到全年日照時(shí)數(shù)等。
數(shù)據(jù)驗(yàn)證階段的任務(wù)是確認(rèn)數(shù)據(jù)的正確性與有效性,檢查數(shù)據(jù)的邏輯轉(zhuǎn)換是否對(duì)數(shù)據(jù)造成扭曲或偏差。根據(jù)不同的需要可供選擇的方法較多,比如可以通過極值來檢查數(shù)據(jù)是否超出范圍,通過求和來檢查合計(jì)值是否為各分項(xiàng)之和,還可以利用時(shí)間序列的預(yù)測(cè)值與實(shí)際值的比較來進(jìn)行檢驗(yàn)。即以現(xiàn)有數(shù)據(jù)為基礎(chǔ),利用各個(gè)變量自身發(fā)展情況的走勢(shì)進(jìn)行最優(yōu)化模擬,建立相應(yīng)的時(shí)間序列模型,對(duì)相應(yīng)指標(biāo)進(jìn)行預(yù)測(cè),得到該指標(biāo)在理論上應(yīng)該達(dá)到的數(shù)值,然后與實(shí)際數(shù)據(jù)相對(duì)比,以此評(píng)價(jià)實(shí)際數(shù)據(jù)與理論值的接近程度。
屬性數(shù)據(jù)的標(biāo)準(zhǔn)化處理能有效地提高統(tǒng)計(jì)數(shù)據(jù)的質(zhì)量。標(biāo)準(zhǔn)化處理的方法多種多樣,筆者從實(shí)踐經(jīng)驗(yàn)出發(fā),形成了上述的省級(jí)農(nóng)業(yè)資源信息系統(tǒng)資源屬性數(shù)據(jù)標(biāo)準(zhǔn)化方案,并在多個(gè)項(xiàng)目中得到了驗(yàn)證和應(yīng)用。由于屬性數(shù)據(jù)的準(zhǔn)確性、完整性直接影響著農(nóng)業(yè)資源信息系統(tǒng)的可靠性和可用性,而當(dāng)前統(tǒng)計(jì)工作中又存在諸多新的不確定因素和問題,都可能影響屬性數(shù)據(jù)的質(zhì)量,因此,本文涉及的標(biāo)準(zhǔn)化處理方法也應(yīng)隨著實(shí)踐的發(fā)展不斷充實(shí)、完善。
[1] 陳旭,畢軍芳,仇天月,等.基于共享服務(wù)模式的農(nóng)業(yè)資源管理W ebGIS系統(tǒng)構(gòu)建[J].中國(guó)農(nóng)學(xué)通報(bào),2013,29(11):115-120.
[2] 王勝.關(guān)于統(tǒng)計(jì)數(shù)據(jù)質(zhì)量存在的問題及其對(duì)策研究[J].現(xiàn)代經(jīng)濟(jì)信息,2010(24):206-208.
[3] 張新茹.論統(tǒng)計(jì)數(shù)據(jù)的質(zhì)量問題[J].科技情報(bào)開發(fā)與經(jīng)濟(jì),2005,15(17):124-125.
(責(zé)任編輯:高 峻)
S 126
A
0528-9017(2015)03-0425-03
10.16178/j.issn.0528-9017.20150344
2014-12-04
浙江省其他廳局項(xiàng)目(2011R28A60C01)
胡為群(1977-),女,助理研究員,碩士,從事農(nóng)業(yè)信息化工作。E-mail:hwq6629@sina.com。
鄭可鋒(1963-),男,研究員,碩士,主要從事農(nóng)業(yè)信息化工作。
文獻(xiàn)著錄格式:胡為群,祝利莉,葉少挺,等.省級(jí)農(nóng)業(yè)資源信息系統(tǒng)屬性數(shù)據(jù)標(biāo)準(zhǔn)化方案探討[J].浙江農(nóng)業(yè)科學(xué),2015,56(3): 425-428.