□天津市教育招生考試院 史興鍵 王澤來
考試信息數(shù)據(jù)集元數(shù)據(jù)規(guī)范研究
□天津市教育招生考試院 史興鍵 王澤來
為實現(xiàn)對考試數(shù)據(jù)集的規(guī)范描述,本文在國內外相關研究的基礎上,建立了適合考試領域的元數(shù)據(jù)規(guī)范,該規(guī)范有核心元數(shù)據(jù)和參考元數(shù)據(jù)兩個部分,主要由7個元數(shù)據(jù)子集構成。其中核心元數(shù)據(jù)為18個實體或元數(shù)據(jù)元素,參考元數(shù)據(jù)為28個實體或元數(shù)據(jù)元素。該元數(shù)據(jù)規(guī)范的建立將會進一步促進考試數(shù)據(jù)資源的有效交流與使用。
元數(shù)據(jù);數(shù)據(jù)集;考試信息
隨著信息化的發(fā)展,各種以考試數(shù)據(jù)為處理目標的信息系統(tǒng)不斷涌現(xiàn),積累了總量可觀的考試業(yè)務數(shù)據(jù)。由于這些數(shù)據(jù)分別由相互孤立的應用系統(tǒng)產生和管理,其服務范圍常常局限在個別應用內部,使得不同應用數(shù)據(jù)庫之間存在著大量的重復數(shù)據(jù),但由于不同應用系統(tǒng)之間缺乏統(tǒng)一的數(shù)據(jù)定義標準,導致這些應用數(shù)據(jù)的共享、利用效率較低。
近年來,隨著公眾對于考試數(shù)據(jù)資源需求的不斷增長,以往較為零碎的數(shù)據(jù)服務已經不能滿足實際的需求。將數(shù)據(jù)整合在一起,“數(shù)據(jù)集”這種數(shù)據(jù)組織方式得到了廣泛認可和應用。“數(shù)據(jù)集”又稱為資料集、數(shù)據(jù)集合或資料集合,是指一種數(shù)據(jù)集合方式,它通常以一定的主題被標識、應用。
考試類數(shù)據(jù)集在實際應用中,使用者必須提前了解關于數(shù)據(jù)的多方面信息,才能確定數(shù)據(jù)集的利用方式。因此,一套元數(shù)據(jù)規(guī)范的建立,對于數(shù)據(jù)集的建設和使用將是十分必要的。
用來對數(shù)據(jù)進行說明的數(shù)據(jù)就可以被稱為元數(shù)據(jù),諸如字段、記錄、數(shù)據(jù)庫物理文件等都可以被作為說明的對象。本文在對招考數(shù)據(jù)庫集說明要求分析的基礎上,建立了適合考試領域信息數(shù)據(jù)集的元數(shù)據(jù)規(guī)范。該規(guī)范的建立促進了考試領域數(shù)據(jù)集描述的規(guī)范化和標準化,確保了考試數(shù)據(jù)資源的整合、發(fā)布、管理和應用的統(tǒng)一。
為了使數(shù)據(jù)用戶更加準確、清晰地了解數(shù)據(jù)集的概貌,本文元數(shù)據(jù)規(guī)范主要對數(shù)據(jù)集外部整體信息進行描述。考試信息數(shù)據(jù)集規(guī)范化描述主要包括:
標識信息:如各類考試數(shù)據(jù)集名稱、標識等;
內容信息:對各類考試數(shù)據(jù)集內容的描述;
質量信息:對各類考試數(shù)據(jù)集來源、質量等描述;
發(fā)布信息:對有關考試數(shù)據(jù)集發(fā)布及所能提供的數(shù)據(jù)服務等描述;
維護信息:對有關考試數(shù)據(jù)集更新及維護等描述;
限制信息:對各類考試數(shù)據(jù)集訪問及使用限制等描述。
以上即為考試信息數(shù)據(jù)集元數(shù)據(jù)規(guī)范的基本內容。
這里按照“子集”、“實體”和“元素”三個層次來組織元數(shù)據(jù)內容。
元數(shù)據(jù)中具有相近性質的集合被稱為“子集”。它還包含了性質相近的“元素”和“實體”等。
“實體”是指多個關系較為緊密的“信息集合”。如在實踐當中,“考試參與者”只是一個抽象的數(shù)據(jù)概念,將類似“姓名”、“性別”、“身份證號”、“聯(lián)系電話”、“通訊地址”等數(shù)據(jù)明確后,實際使用者才能夠真正表明其實際含義。這里的“考試的參與者”就是一個“實體”,而“實體”則可以進一步包含“元素”和下一層次的“實體”。
在規(guī)范中,描述數(shù)據(jù)的最小單位或最基本信息單元被稱為“元素”。例如,數(shù)據(jù)集名稱、負責單位和郵政編碼等。
為了滿足針對不同考試領域各類數(shù)據(jù)集的描述需求,同時兼顧數(shù)據(jù)中通性和個性的要求,元數(shù)據(jù)規(guī)范的內容框架將包含核心元數(shù)據(jù)和參考元數(shù)據(jù)兩個部分。
核心元數(shù)據(jù)提供對數(shù)據(jù)集的最基本描述,它包括對目標數(shù)據(jù)集的基本內容和標識的描述。
參考元數(shù)據(jù)就是所有全部元數(shù)據(jù)內容,即除核心元數(shù)據(jù)外通常我們還需要根據(jù)不同需求來使用參考元數(shù)據(jù)中的其他內容對考試數(shù)據(jù)集進行詳細描述。
在實際的元數(shù)據(jù)使用中,我們發(fā)現(xiàn)還必須使用引用信息和代碼表來進一步規(guī)范和簡化元數(shù)據(jù)的設計過程。
實際使用過程中對考試數(shù)據(jù)集的描述會重復使用某些數(shù)據(jù)項目,而這些信息數(shù)據(jù)集合則被稱為“引用信息”。例如,有兩個實體“考試組織方”和“考試承辦方”,對它們的描述中都包含“單位名稱”、“聯(lián)系人”、“聯(lián)系電話”、“通訊地址”、“郵政編碼”和“電子郵件地址”等一系列“子元素”。為了使用方便并節(jié)省存儲空間,我們定義了一種叫做“負責方”的數(shù)據(jù)類型,提供給“考試組織方”和“考試承辦方”這類“實體”進行引用。
元數(shù)據(jù)的“子集”、“實體”與“元素”的描述如表1所示。
表1 描述符
上表中的“約束”是指:當進行元數(shù)據(jù)編錄時,需要根據(jù)其內容屬于必須、可選或條件選編錄?!凹s束”還具有如下規(guī)則:可選的“子集”或“實體”可以包含必選的“實體”或“元素”,但這里的“實體”或“元素”只有當上一級可選“子集”或“實體”被選擇時才可以成為必選;如果上一級可選“子集”或“實體”未被選擇,則它們包含的必選“實體”或“元素”也不選擇。
下面我們將建立7個“子集”,圖1為即為主要內容框架。圖中帶箭頭的虛線表示對“引用信息”的使用,其中涉及到元數(shù)據(jù)標示、數(shù)據(jù)集標示、限制信息和維護信息等四個子集。
圖1 考試信息數(shù)據(jù)集元數(shù)據(jù)的七個子集
根據(jù)前面的研究,我們確定的核心元數(shù)據(jù)共有18個“元素”或“實體”。包含7個必選的“元素”或“實體”,11個可選的“元素”或“實體”,具體內容見表2。從表中我們可以看到,標識、內容及發(fā)布信息等均為核心元數(shù)據(jù)。而恰恰數(shù)據(jù)使用者關心這些數(shù)據(jù)集的基本描述內容。尤其是其中的必選“元素”和“實體”部分,數(shù)據(jù)使用者只要清楚這些內容,就完全可以確定數(shù)據(jù)集是否滿足需要。
表2 核心元數(shù)據(jù)及其位置
在上表的核心元數(shù)據(jù)中,包含3個“實體”,它們是關鍵詞說明、數(shù)據(jù)集分類及數(shù)據(jù)集發(fā)布格式,同時它們分別包含若干“元素”。
參考元數(shù)據(jù)就是所有子集包含“實體”與“元素”的全體,它也包括了核心元數(shù)據(jù),即為所有元數(shù)據(jù)的全集,同時它也為核心元數(shù)據(jù)的參考和擴充提供有力的支持。
為使考試領域數(shù)據(jù)集的描述更標準化,提供元數(shù)據(jù)編錄依據(jù),我們對考試信息數(shù)據(jù)集元數(shù)據(jù)規(guī)范進行了研究,通過該項研究可以使考試數(shù)據(jù)資源的描述、發(fā)布、管理與應用更加統(tǒng)一和規(guī)范。目前在研究的基礎上,我們借鑒相關研究成果[7-13]已經完成了對部分考試數(shù)據(jù)集的改造工作,使其能夠更加完善和規(guī)范。
[1]中國科學院計算機網絡信息中心科學數(shù)據(jù)庫中心.中國科學院科學數(shù)據(jù)庫核心元數(shù)據(jù)規(guī)范[DB/OL].http://support.csdh.cu/training2004/core_metadata_2.pdf/[2008-06-09].
[2]國家基礎地理信息系統(tǒng)(NFGIS)元數(shù)據(jù)標準草案(初稿)[EB/OL].http://nfgis.usdi.gov.cu/nfgis/chinese/bz/mt0.htm.
[3]閔友鋼,梁曉雯,蔣慧鈞.基于廣電行業(yè)版權管理的元數(shù)據(jù)標準探討[J].現(xiàn)代電視技術,2007(06).
[4]胡仁昱,朱建國.財會信息資源元數(shù)據(jù)標準的研究[J].會計研究,2008(07).
[5]閏偉,楊洪山,孫莉.政務信息資源描述元數(shù)據(jù)標準的制定研究[J].計算機與信息技術,2005(10).
[6]楊煒鴻,孫震宇,馮利.通用數(shù)據(jù)標準制定方法的研究[J].長春理工大學學報:自然科學版,2007(03).
[7]方南暉,潘云.企業(yè)級數(shù)據(jù)共享研究——數(shù)據(jù)標準的制定[J].計算機工程,2005(S1).
[8]黃富革,周曉芳.高校信息化數(shù)據(jù)標準的制定與實施[J].企業(yè)科技與發(fā)展,2009(02).
[9]高復先.信息資源規(guī)劃系列(四)數(shù)據(jù)標準與數(shù)據(jù)管理[J].中國教育網絡,2006(11).
[10]鄭西川,張建國.臨床信息系統(tǒng)數(shù)據(jù)標準及其應用[J].中國數(shù)字醫(yī)學,2007(01).
[11]呂軼凡.淺談高校數(shù)字化校園建設中信息化標準的制定[J].北京電子科技學院學報,2007(03).
[12]梁藝軍,陳子建.高校財務數(shù)據(jù)標準的建立[J].中國教育網絡,2007(09).
G433
項目名稱:國家教育部考試中心教育考試“十一五”規(guī)劃2009年度課題。項目號:2009JKS3025。