胡 丹 李朝赟
提要目的:整理2005~2006年全國各海關(guān)出口農(nóng)產(chǎn)品監(jiān)測數(shù)據(jù)并匯總。 方法:采用雙人雙機整理數(shù)據(jù)的方法,首先規(guī)范EXCEL表單格式,應用EPIDATA 3.1軟件進行比較,應用SAS 8.1匯總數(shù)據(jù)。結(jié)果:在整理過程中發(fā)現(xiàn)使用EXCEL軟件填報數(shù)據(jù)常見的主要問題是填報格式不規(guī)范,數(shù)據(jù)填寫隨意性較大,數(shù)據(jù)是否缺失標記不清。結(jié)論:以EXCEL報表上報數(shù)據(jù)需要精心設(shè)計,統(tǒng)一填寫要求,及時核查上報數(shù)據(jù)的規(guī)范性與合理性,為后續(xù)的統(tǒng)計分析提供高質(zhì)量的原始數(shù)據(jù)。
關(guān)鍵詞:EXCEL軟件;數(shù)據(jù)整理;質(zhì)量控制
中圖分類號:F224文獻標識碼:A
EXCEL作為微軟OFFICE系列辦公軟件中王牌的電子表格軟件,可以用來制作電子表格、完成許多復雜的數(shù)據(jù)運算,進行數(shù)據(jù)的分析和預測并且具有強大的制作圖表的功能,已成為國內(nèi)外廣大用戶管理公司和個人財務、統(tǒng)計數(shù)據(jù)、繪制各種專業(yè)化表格的得力助手。統(tǒng)計工作者常常需要將各地不同單位的EXCEL報表進行匯總、整理,然后進行不同目的的數(shù)據(jù)分析,因此填報一份高質(zhì)量的表單,準確、快速地完成數(shù)據(jù)整合是至關(guān)重要的。本文就2005年與2006年部分海關(guān)農(nóng)產(chǎn)品污染物檢測數(shù)據(jù)整理匯總過程中遇到的一些問題進行分析,探討提高EXCEL表單數(shù)據(jù)填報質(zhì)量的途徑以及整理匯總的步驟,為后續(xù)的進一步分析提供高質(zhì)量的原始數(shù)據(jù)。
一、材料和方法
1、材料。安裝有Microsoft Office2000、SAS8.1及EPIDATA3.1軟件的計算機。研究數(shù)據(jù)來源于2005年和2006年中國各個城市海關(guān)對出口農(nóng)產(chǎn)品中二十多種農(nóng)藥及重金屬殘留量監(jiān)測的數(shù)據(jù)。
2、數(shù)據(jù)整理方法。本次數(shù)據(jù)整理的設(shè)計思路是,先規(guī)范EXCEL報表格式,包括將EXCEL表中表頭和尾部各種無關(guān)的信息刪去。由于數(shù)據(jù)是由不同城市上報匯總,并且不同的農(nóng)殘污染物監(jiān)測的濃度和LOD的單位也不盡相同,所以在原表單基礎(chǔ)上增加一單位標識變量LOD_DW,規(guī)定LOD_DW=1為mg/kg,LOD_DW=2為μg/kg。最后應用SAS8.1軟件將整理核查好的EXCEL表單連接匯總成一張總表。
3、質(zhì)量控制方法。本次數(shù)據(jù)整理過程的質(zhì)量控制思路是,一方面在整理過程中采用雙人雙機過錄數(shù)據(jù),完成后在EPIDATA中進行一致性檢驗;另一方面對整理完成后的數(shù)據(jù)進行邏輯性檢驗,包括對空值的返回檢查和對高端
10個值的返回檢查。
二、結(jié)果
本次海關(guān)數(shù)據(jù)涉及2005年26個海關(guān),2006年29個海關(guān),記錄總數(shù)88,947條,因濃度或LOD缺失而刪除133條記錄;總體來講,2006年的數(shù)據(jù)與2005年相比,數(shù)據(jù)格式更為規(guī)范,整理的效率和質(zhì)量較高。在數(shù)據(jù)的整理過程中,我們發(fā)現(xiàn)存在以下幾種數(shù)據(jù)質(zhì)量問題:
1、數(shù)據(jù)缺失。這是最常見的數(shù)據(jù)質(zhì)量問題,包括濃度、檢測依據(jù)、采樣地點、LOD,以及濃度和LOD單位的缺失。其中濃度、LOD、單位的缺失對統(tǒng)計分析的影響是最大的,所以當一條記錄中缺失上述三個變量中任意一個的時候,就必須向數(shù)據(jù)的提供方去咨詢,如果那邊同樣無法得到正確數(shù)據(jù)的話,這條記錄就只能作廢了。
2、數(shù)據(jù)中的人為錯誤。數(shù)據(jù)的人為錯誤主要出現(xiàn)在濃度變量的填寫中,因為這個變量的數(shù)據(jù)大部分是手工輸入的,在記錄條數(shù)很多的情況下,出現(xiàn)人為錯誤幾乎是不可避免的。在使用EXCEL軟件作為報表數(shù)據(jù)收集的今天,人為錯誤已經(jīng)得到了很大程度的控制,在這次的海關(guān)數(shù)據(jù)中,人為錯誤主要有以下幾種形式:①數(shù)據(jù)中出現(xiàn)空格;②數(shù)據(jù)中出現(xiàn)多個小數(shù)點;③數(shù)據(jù)中出現(xiàn)字母等不規(guī)范的符號;④不規(guī)范的科學計數(shù)法等。
三、討論
統(tǒng)計數(shù)據(jù)質(zhì)量是統(tǒng)計工作的生命,沒有高質(zhì)量的統(tǒng)計數(shù)據(jù),科學研究的根基是不牢固的。統(tǒng)計數(shù)據(jù)質(zhì)量控制要貫穿于統(tǒng)計工作的全過程,包括設(shè)計、收集、整理和分析。其中,每進行一步,都要進行質(zhì)量控制,需要落實專人負責對已完成的工作進行檢查、對已發(fā)生的差錯及時進行糾正,做到層層把關(guān),防止差錯流入下一個工作環(huán)節(jié),以保證統(tǒng)計數(shù)據(jù)的質(zhì)量。
1、表單設(shè)計階段的質(zhì)量控制。在使用EXCEL設(shè)計需要填寫的表單時,首先需明確表單中應該包含的內(nèi)容;其次,需要在表格中添加必要的批注,指導填寫人員恰當?shù)奶顚懷芯繑?shù)據(jù);另外,為了使填寫者避免因單位不恰當而在填寫過程中使用大量的零而導致的數(shù)據(jù)錯誤,在設(shè)計階段就應該運用專業(yè)知識恰當?shù)匾?guī)定不同檢測項目的單位;最后,通過條件格式設(shè)定其中單元格之間的邏輯關(guān)系,再使用工作表保護把公式及表格樣式保護起來,使填表者無法隨意更改,這樣就從很大程度上規(guī)范了數(shù)據(jù)填報的格式,提高填寫數(shù)據(jù)的準確性。
2、表單填寫階段的質(zhì)量控制。表單填寫階段的質(zhì)量控制應該做好以下幾個部分:①數(shù)據(jù)填寫人員應做好培訓,從填寫內(nèi)容、填寫格式、填寫規(guī)范等方面對其提出要求,從技術(shù)上提高相關(guān)工作人員的水平;②加強相關(guān)人員的職業(yè)道德培訓,要求每一個統(tǒng)計工作者必須堅持實事求是的工作作風,認真對待每一個統(tǒng)計數(shù)據(jù);③盡量運用計算機填寫統(tǒng)計數(shù)據(jù),其優(yōu)越性是手工整理無可比擬的,可以從很大程度上減少人為錯誤的發(fā)生。通過對EXCEL表格的種種規(guī)定和限制,以及大量批注的提示,可以時刻提醒報表的填寫人員在填寫過程中對數(shù)據(jù)進行規(guī)范的、正確的填報。
3、表單數(shù)據(jù)上報階段的質(zhì)量控制。在表單數(shù)據(jù)上報階段,接收部門需要對數(shù)據(jù)資料進行審查。如果上報的數(shù)據(jù)資料不全或有疑問,應及時地進行核實,避免有質(zhì)量問題的資料進入?yún)R總處理階段??傊?對搜集到的資料,經(jīng)過鑒別推敲、核實審定、使之準確無誤,才能使統(tǒng)計數(shù)據(jù)的質(zhì)量得到保證。
(作者單位:東南大學公共衛(wèi)生學院)
主要參考文獻:
[1]胡逢蛟,樓麗波,付小紅,于梅,林輝.Excel在衛(wèi)生檢測數(shù)據(jù)管理中的應用[J].寧波醫(yī)學,2000.12.11.
[2]劉曉梅.樹立正確的統(tǒng)計數(shù)據(jù)質(zhì)量概念芻議[J].統(tǒng)計與信息論壇,2003.18.5.
[3]楊朝英,翁麗玉.關(guān)于統(tǒng)計數(shù)據(jù)質(zhì)量問題的探討[J].福建農(nóng)林大學學報,2003.