国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基層科技報告資源建設(shè)中元數(shù)據(jù)質(zhì)量評估研究
——以中國科學技術(shù)信息研究所為例

2016-08-31 09:38:29宋立榮中國科學技術(shù)信息研究所北京100038
中國科技資源導(dǎo)刊 2016年1期
關(guān)鍵詞:數(shù)據(jù)項維度報告

宋立榮(中國科學技術(shù)信息研究所,北京 100038)

基層科技報告資源建設(shè)中元數(shù)據(jù)質(zhì)量評估研究
——以中國科學技術(shù)信息研究所為例

宋立榮
(中國科學技術(shù)信息研究所,北京 100038)

我國各級科技管理部門正積極推進國家科技報告資源建設(shè)工作。在這過程中,基層科研單位作為科技報告資源建設(shè)的生產(chǎn)源頭,是保證科技報告質(zhì)量的關(guān)鍵環(huán)節(jié),尤其是元數(shù)據(jù)質(zhì)量建設(shè)起到十分重要的作用。為此,文章就科技報告元數(shù)據(jù)項要素進行分析,對其元數(shù)據(jù)質(zhì)量評估確定基本內(nèi)容,提出從完整性、準確性和一致性等維度進行質(zhì)量評估。最后,以中國科學技術(shù)信息研究所內(nèi)部約410份科技報告資源為例,通過調(diào)查統(tǒng)計、評估分析其元數(shù)據(jù)質(zhì)量情況。

基層科研單位;科技報告資源;元數(shù)據(jù);元數(shù)據(jù)質(zhì)量;質(zhì)量評估

1 引言

科技報告作為國家重要的戰(zhàn)略信息資源,其制度體系的建設(shè)和推進可以為科研人員提供科研基礎(chǔ)信息,為社會公眾了解和利用國家科研成果提供服務(wù)平臺,對于提成國家科技實力和創(chuàng)新能力具有重要的意義[1]。我國正在加快建立統(tǒng)一的國家科技報告制度[2],構(gòu)建完善的國家科技報告制度體系,各級科研管理部門積極開展科技報告資源建設(shè)工作[3]。作為科技報告資源的生產(chǎn)源頭,基層科研單位在科技報告資源積累、科技報告質(zhì)量控制以及科技報告開放共享服務(wù)等知識資產(chǎn)積累和傳承方面將承擔關(guān)鍵作用[4]。從目前的情況來看,由于科技報告類型眾多,來源廣泛,提交加工環(huán)節(jié)多樣等特點,使得提交上來的科技報告不規(guī)范、資源質(zhì)量良莠不齊,大大地降低了科技報告的科技含量和應(yīng)用價值。因此,提高國家科技報告資源建設(shè)質(zhì)量,研究探討科技報告資源建設(shè)中的質(zhì)量問題顯得十分重要,也是十分必要的。但是,如果僅僅從科技報告產(chǎn)生過程進行質(zhì)量控制、監(jiān)督管理,則難以起到有效的質(zhì)量控制作用,加上科技報告自身還存在保密性、專業(yè)性等特點,外部用戶并不能直接看到科技報告全文,更多地是通過元數(shù)據(jù)來間接獲取科技報告相關(guān)信息。由此可見,元數(shù)據(jù)描述信息資源的外部和內(nèi)容特征,能夠幫助用戶發(fā)現(xiàn)、定位、獲取資源的關(guān)鍵內(nèi)容,在科技報告資源建設(shè)中發(fā)揮著重要作用??萍紙蟾嬖獢?shù)據(jù)質(zhì)量成為科技報告資源建設(shè)工作的關(guān)鍵問題之一。通過元數(shù)據(jù)質(zhì)量評估是其中較為重要的、具有可操作性的有效方法。通過元數(shù)據(jù)質(zhì)量的評估、審核和改善將有效促進科技報告元數(shù)據(jù)結(jié)構(gòu)的補充與完善、元數(shù)據(jù)內(nèi)容填寫的規(guī)范。同時,研究元數(shù)據(jù)質(zhì)量評估的方法對于元數(shù)據(jù)規(guī)范標準的制定具有非常重要的意義。

目前,對于科技報告體系研究主要集中于政策法規(guī)、制度框架、管理模式、運行機制、標準規(guī)范等宏觀層面[5-7]。而在不多的涉及部分科技報告元數(shù)據(jù)內(nèi)容的文獻中,大多文獻主要是針對科研機構(gòu)如何撰寫、保存科技報告等方面的研究[4]。在實踐方面,盡管我國已頒布了《中華人民共和國國家標準:科技報告元數(shù)據(jù)規(guī)范》(GB/T 30535-2014),但也僅僅針對科技報告資源描述元數(shù)據(jù)制定的,尚缺乏基于科技報告生產(chǎn)全生命周期的元數(shù)據(jù)建設(shè)規(guī)范??傮w來看,目前理論研究尚缺乏對科技報告資源元數(shù)據(jù)框架體系的完整的、系統(tǒng)的研究。為此,本文將以中國科學技術(shù)信息研究所(以下簡稱“中信所”)內(nèi)部約410份科技報告資源為例,通過調(diào)查統(tǒng)計、評估分析其元數(shù)據(jù)質(zhì)量情況,有效改進元數(shù)據(jù)填報質(zhì)量,提升科技報告建設(shè)管理水平,促進科技報告資源質(zhì)量改善。

2 元數(shù)據(jù)質(zhì)量評估研究綜述

元數(shù)據(jù)是信息資源建設(shè)的基礎(chǔ)和關(guān)鍵,而元數(shù)據(jù)能否發(fā)揮重要作用取決于元數(shù)據(jù)質(zhì)量的好壞。國內(nèi)外對“元數(shù)據(jù)質(zhì)量”概念目前還沒有一個標準的定義。美國學者Bruce和Hillman將“元數(shù)據(jù)質(zhì)量”定義為“元數(shù)據(jù)滿足某個特定需求和目標的程度”。換言之,元數(shù)據(jù)的質(zhì)量與它能在多少程度上方便用戶發(fā)現(xiàn)、確認、選擇和使用信息資源的功能密切相關(guān)[8]。

就元數(shù)據(jù)質(zhì)量評估而言,目前學術(shù)界的研究主要集中在以下幾個方面。

(1)元數(shù)據(jù)質(zhì)量評估方法:隨著開放環(huán)境中數(shù)字資源的高速增長,過去那種由專家、編目專業(yè)人員等組成的團隊對抽樣元數(shù)據(jù)質(zhì)量進行手工評估方法[9]因其評估成本高、效率低、準確性低而逐漸不被普遍使用。目前,多采用人工和自動相結(jié)合的綜合方法來提高評估的可操作性和有效性,并積極探索使用一些軟件工具和方法對元數(shù)據(jù)的語法和結(jié)構(gòu)質(zhì)量進行簡單統(tǒng)計的自動評估(如相關(guān)字段的必備性、語法錯誤、鏈接是否可用等),如:國內(nèi)CALLS針對特色數(shù)據(jù)庫導(dǎo)入元數(shù)據(jù)的規(guī)范性和必備性設(shè)計的數(shù)據(jù)質(zhì)量檢查工具;檢查DC元數(shù)據(jù)記錄、協(xié)議、規(guī)則正確性的DC checker;地理空間數(shù)據(jù)庫元數(shù)據(jù)標準FGDC的質(zhì)量檢查工具CNS與MP等[10]。但自動化評估目前主要是對諸如“完整性”這樣基本的、易于實現(xiàn)計量統(tǒng)計的維度進行評估,評估實踐并沒有包含到元數(shù)據(jù)內(nèi)容質(zhì)量的主要影響因素,而往往只評估了影響元數(shù)據(jù)質(zhì)量的某些方面,尚無法實現(xiàn)全面評估[9]。

(2)元數(shù)據(jù)質(zhì)量評估維度的確定:元數(shù)據(jù)質(zhì)量是一個多維的問題,不同評估人員、不同評估對象以及不同的評估、方法對元數(shù)據(jù)質(zhì)量維度的選擇都不一樣。需要根據(jù)評估目的、內(nèi)容、元數(shù)據(jù)資源情況、元數(shù)據(jù)獲取方式等進行綜合考慮。比如:有的學者認為[11]元數(shù)據(jù)質(zhì)量可以從資源集合、記錄與元素3個不同層次的正確性、完整性、重復(fù)性及一致性等指標進行考察。Bruce和Hillmann提出了7個元數(shù)據(jù)質(zhì)量特征:完整性、準確性、來源、與預(yù)期的符合程度、一致性和連貫性、時效性和可獲得性[8]。

(3)元數(shù)據(jù)質(zhì)量評估模型:Moen等基于對GILS元數(shù)據(jù)的評估結(jié)果提出一個21個指標的評估模型[12]。該模型評估從用戶、政策、技術(shù)、內(nèi)容和標準等5方面展開,多是評估元數(shù)據(jù)的完整性、外觀、準確性和可服務(wù)性方面; Stvilia等借鑒信息質(zhì)量評估模型評估元數(shù)據(jù)質(zhì)量[12],指標分別是內(nèi)在指標(9個)、相關(guān)指標(12個)和信譽指標(1個);黃鶯等提出一個以完整性、準確性、一致性和期望滿足度等4個維度為核心的兩層結(jié)構(gòu)模型[9],核心層的維度是對元數(shù)據(jù)自身質(zhì)量的評估,其涵義不受元數(shù)據(jù)外部環(huán)境的影響,而外層維度為評估的可選維度,包括但不限于可獲取性、易用性、來源、安全性等評估維度,這些維度與元數(shù)據(jù)的外部屬性密切聯(lián)系。

由此可見,國內(nèi)外對元數(shù)據(jù)質(zhì)量評估的關(guān)注尚處于探索階段,從不同角度出發(fā)提出的一些元數(shù)據(jù)質(zhì)量評估方法、體系難以在科技報告資源建設(shè)領(lǐng)域得到直接推廣應(yīng)用,尤其是對評估體系中各維度的具體量化操作、評估方法的應(yīng)用更是亟待深入研究和實驗論證。

3 科技報告元數(shù)據(jù)質(zhì)量評估認識

3.1科技報告元數(shù)據(jù)項基本構(gòu)成

元數(shù)據(jù)是對科技報告的外表特征和關(guān)鍵內(nèi)容的描述,是科技報告資源開發(fā)、組織、利用和管理的基礎(chǔ)。

科技報告元數(shù)據(jù)主要用于對科技報告的文獻特征信息和項目來源基本信息進行描述、組織和管理,包括提供科技報告的內(nèi)容、載體、位置與獲取方式、制作與利用方法以及項目等方面的信息,它支持科技報告基本信息在計算機信息系統(tǒng)中的存儲、管理、定位、調(diào)用等功能,幫助用戶檢索、識別和確認所需要的科技報告。因此,元數(shù)據(jù)質(zhì)量直接影響到科技報告資源的共享和利用效率。

科技報告元數(shù)據(jù)大部分來自基層科研單位撰寫的科技報告?;鶎涌蒲袉挝皇强萍紙蟾嫔?、提交、審查和管理的基礎(chǔ)單位,處于科技報告產(chǎn)生的前端。因此,在科技報告建設(shè)中不僅要求基層科研單位必須按照國家制定的統(tǒng)一模式撰寫、編號和劃分密級,以及按照國家標準管理和元數(shù)據(jù)集等標準規(guī)范為基礎(chǔ)進行管理[3],確??萍紙蟾嬗幸?guī)范、統(tǒng)一的元數(shù)據(jù)集,而且要求科技報告建設(shè)的過程質(zhì)量控制達到后端用戶服務(wù)的質(zhì)量要求。這需要在科技報告資源建設(shè)中抽取相應(yīng)的元數(shù)據(jù)項來反映上述質(zhì)量規(guī)范要求,顯示過程質(zhì)量在受控狀態(tài)。同時,還要擴展元數(shù)據(jù)項以滿足后期必要的信息檢索、數(shù)據(jù)挖掘、知識關(guān)聯(lián)等服務(wù)功能的需要。

上述這些工作的前提就是要保證所填寫的元數(shù)據(jù)質(zhì)量是真實、準確的。因此,除了要確定必要的元數(shù)據(jù)質(zhì)量優(yōu)劣的判斷標準外,還需要有一套切實可行的質(zhì)量審核規(guī)范流程進行元數(shù)據(jù)質(zhì)量評估。有專家建議充公利用管理系統(tǒng)的自動化流程,比如:在科技報告工作系統(tǒng)添加相應(yīng)的自動審核模塊,設(shè)置字段和屬性,根據(jù)《科技報告元數(shù)據(jù)規(guī)范》國家標準及相關(guān)科技報告質(zhì)量審核指標對科技報告全文、元數(shù)據(jù)項進行審核[3]。

在實際工作中,我國已制定了國家標準《中國科技報告元數(shù)據(jù)規(guī)范》,以及通用的《電子文件的管理元數(shù)據(jù)規(guī)范》,其中部分內(nèi)容涉及一些描述元數(shù)據(jù)的制定規(guī)范問題,比如:在國家標準“中國科技報告元數(shù)據(jù)規(guī)范”中科技報告元數(shù)據(jù)集由13個元素、27個元素修飾詞、8個編碼體系修飾詞構(gòu)成,元數(shù)據(jù)集的元素按功能分類,一般可分為描述科技報告文獻特征的元數(shù)據(jù)、描述科技報告來源項目的元數(shù)據(jù)和用于科技報告管理保存的元數(shù)據(jù)。描述文獻特征的元數(shù)據(jù)包括題名、作者、報告類型、日期、摘要、分類號、關(guān)鍵詞等;描述項目信息的元數(shù)據(jù)包括計劃名稱、項目/課題名稱及編號、承擔單位等;管理元數(shù)據(jù)包括科技報告編號、密級、特別聲明、館藏號、收藏日期等[13],見表1所示。但這些元數(shù)據(jù)規(guī)范尚未細化到具體各個環(huán)節(jié)的元數(shù)據(jù)項要求。加上科技報告資源信息元數(shù)據(jù)的加工單位、保藏單位和應(yīng)用單位眾多,采用的元數(shù)據(jù)規(guī)范、資源分類、資源標識等標準規(guī)范的不統(tǒng)一,且科技報告本身具有多樣性、異構(gòu)性和復(fù)雜性的特點,使得元數(shù)據(jù)在質(zhì)量方面存在參差不齊的現(xiàn)象,從而加大了實現(xiàn)入庫的科技報告資源共享的難度,給科技報告資源整合、共享和服務(wù)帶來了一定困難。

目前,尚未有針對科技報告資源建立較系統(tǒng)、全面的元數(shù)據(jù)質(zhì)量評估體系,有些單位內(nèi)部建立的科技報告質(zhì)量評估體系多是基于本系統(tǒng)內(nèi)部管理考核用途,在核心元數(shù)據(jù)遴選、指標設(shè)置、權(quán)重分配、考核方式等方面尚缺少有力的理論支持,有些僅僅通過專家打分進行評估,缺少可量化的指標體系。

總的來看,在科技報告資源建設(shè)過程中,元數(shù)據(jù)質(zhì)量除滿足一般元數(shù)據(jù)的質(zhì)量共性要求(如真實性、完整性、可靠性與可用性),至少滿足以下幾點質(zhì)量要求:一是元數(shù)據(jù)對數(shù)據(jù)對象描述的準確性與完整性。要求元數(shù)據(jù)能夠?qū)萍紙蟾娴膩碓?、?shù)據(jù)內(nèi)容、數(shù)據(jù)結(jié)構(gòu)、利用、管理及其處理過程等做出準確、全面和詳盡的說明。它關(guān)系到科技報告是否可以被準確確定的程度。二是元數(shù)據(jù)對數(shù)字對象描述的準確度,其描述的行為與真實值之間的差異。三是元數(shù)據(jù)描述數(shù)據(jù)對象的時間精度,可以通過元數(shù)據(jù)更新的時間和頻度來體現(xiàn)科技報告的時效性。

3.2科技報告資源建設(shè)中元數(shù)據(jù)質(zhì)量評估的基本內(nèi)容

作為一種特殊的灰色文獻,科技報告要求能夠如實、完整、及時地描述科研的基本原理、方法、技術(shù)、工藝和過程等,以便科技工程人員之間、政府部門之間快速交流和共享最新的前沿技術(shù)和核心研究結(jié)果[5, 7]。

一般情況下,由于呈交科技報告的基層單位的規(guī)模、行業(yè)、領(lǐng)域不同,數(shù)據(jù)類型也較繁雜,因此,評估其科技報告的評估體系不盡相同。這需要每個基層科研單位結(jié)合自身情況建立適宜的元數(shù)據(jù)質(zhì)量評估體系和評估內(nèi)容。本文主要是評估體系基于科技報告資源建設(shè)中的幾個主要環(huán)節(jié)提出幾個評估要點。在實際應(yīng)用中,考慮到某些基層單位的具體情況,有必要在評估流程上進一步增減一些環(huán)節(jié)或步驟,以使評估更有效率。但一些具有共性的基本評估內(nèi)容必不可少,包括以下幾個方面。

(1)評估對象及范圍。根據(jù)評估需求及評估目的,確定評估對象及其范圍,評估對象既可以是某一份科技報告也可以是基層單位整體科技報告資源。

(2)關(guān)鍵元數(shù)據(jù)項的遴選??蓮哪繕丝萍紙蟾尜Y源數(shù)據(jù)庫的主要質(zhì)量特征進行分析。目前,一般是通過科技報告元數(shù)據(jù)規(guī)范和標準來初步確認一些關(guān)鍵元數(shù)據(jù)項,也可以根據(jù)該科技報告資源數(shù)據(jù)庫常出現(xiàn)的質(zhì)量問題建立相應(yīng)的元數(shù)據(jù)項作為質(zhì)量控制的關(guān)鍵要素。本文確定的幾個關(guān)鍵元數(shù)據(jù)項見表1所示。

(3)評估對象的關(guān)鍵質(zhì)量維度的確定。首先依據(jù)相關(guān)國家或國際標準來確定質(zhì)量維度。對無標準參考的數(shù)據(jù)資源的質(zhì)量維度的把握通??蓮馁|(zhì)量維度來統(tǒng)一定義、分類(包括形式、內(nèi)容、關(guān)聯(lián)環(huán)境)、從屬性(指標沖突或上下關(guān)系等)和篩選(包括實際感知程度和理論重要程度兩方面)等方面進行確定。

針對元數(shù)據(jù)質(zhì)量評估有很多質(zhì)量維度,基于各自的視角和方法不同所選取的質(zhì)量維度也不一樣。而且也注意到,過多的質(zhì)量維度的評價設(shè)置常常會因為指標間存在相互沖突、評價成本等因素而使得評價結(jié)果差強人意。本文基于一些文獻內(nèi)容的梳理,多數(shù)研究集中在“準確性”、“一致性”和 “完整性”等幾個最基本維度。J.R.Park等人分析了各種元數(shù)據(jù)質(zhì)量評估中經(jīng)常重合的一些標準和指標,發(fā)現(xiàn)準確性、一致性和完整性是衡量元數(shù)據(jù)質(zhì)量時最常用的標準[14]。也是影響元數(shù)據(jù)質(zhì)量最重要的3個因素。為此,本文擬從完整性、準確性、一致性等幾個質(zhì)量維度入手對目標科技報告資源的元數(shù)據(jù)質(zhì)量進行評估。

①完整性:它是衡量元數(shù)據(jù)全面、詳盡地描述其目標資源的程度。它包括元數(shù)據(jù)項數(shù)目的完整性和填寫內(nèi)容的完整性兩個方面。元數(shù)據(jù)項的完整性要求科技報告元數(shù)據(jù)項中必選、可選以及條件選擇等必須完整,并且符合相應(yīng)標準的要求,從而保證全面地描述整個科技報告。元數(shù)據(jù)項的完整性可以用元數(shù)據(jù)項中非空字段的多少來衡量。

②準確性:準確性衡量的是元數(shù)據(jù)提供的內(nèi)容正確、客觀地反映目標資源的程度。準確性衡量多采用定性方法,通過專業(yè)人員和專家審核判斷。內(nèi)容的準確性要求元數(shù)據(jù)項內(nèi)容(如摘要、關(guān)鍵詞等說明)必須準確表達資源本身內(nèi)容,確保記錄真實可靠或者內(nèi)容有無實質(zhì)意義,必須完整記錄科技報告資源相關(guān)方面的信息。內(nèi)容的完整性多采用定性方法,通過負責科技報告質(zhì)量審核的專業(yè)人員和專家審核判斷。

③一致性:一致性主要考察的是元數(shù)據(jù)遵循元數(shù)據(jù)規(guī)范、應(yīng)用指南以及按照規(guī)范、應(yīng)用指南從受控詞表取值的情況。對一致性的量化是統(tǒng)計元數(shù)據(jù)記錄違背元數(shù)據(jù)規(guī)范和應(yīng)用指南的頻率。

(4)元數(shù)據(jù)質(zhì)量評估指標函數(shù)的確定。元數(shù)據(jù)質(zhì)量評估指標計算方法通常有加權(quán)平均法、最大最小運算法、簡單比率法等評估函數(shù)。由于本文評估指標涉及定量和定性元素,故本次調(diào)查對每一評估指標項統(tǒng)計采用的是百分制加分評估標準方法,對每一項指標根據(jù)其內(nèi)容完善程度進行加分評估。主要采用分項檢查指標內(nèi)容有(或無)情況以及元數(shù)據(jù)內(nèi)容與科技報告資源匹配度進行數(shù)據(jù)調(diào)查收集。權(quán)重采用直接賦權(quán)法。

項目總分值采用加權(quán)平均計算得出,即:對各個指標評分結(jié)果×權(quán)重的加總計算。

W=A1×λ1+A2×λ2+…+Aj×λj+…+An×λn,其中,Aj為各個評估指標分值,λj為對應(yīng)的指標權(quán)重。

各個評估指標值的計算公式為:

即:(符合標準數(shù)量/調(diào)查總數(shù))×100,結(jié)果越大表明該指標的質(zhì)量越好。其中,j為評估維度指標,如完整性、準確性和一致性。i為元數(shù)據(jù)項

比如:在“完整性”公式計算中,若第i個字段為空,則P(i)為0,非空則為1。N為元數(shù)據(jù)大綱規(guī)定的字段項個數(shù)。

對“準確性”進行量化的最直接方法就是逐一對比判斷關(guān)鍵元數(shù)據(jù)項記錄內(nèi)容與科技報告資源本身內(nèi)容的準確度,主要采取人工判斷方法,打分采取分級標度法,可以是三級、五級或更細化內(nèi)容。本文主要采取“1—(1/2)—0”三級標度法。其中:“1”表示兩者完全匹配;“1/2”表示二者基本匹配;“0”表示二者沒關(guān)聯(lián)性”。公式中若第i個字段描述錯誤,則P(i)為0;若第i個字段描述不完全正確,則P(i)為1/2; 若第i個字段描述正確,則P(i)為1。

“一致性”進行量化計算的方法主要是判斷各個元數(shù)據(jù)項是否遵循各項元數(shù)據(jù)質(zhì)量約束規(guī)范。公式中若第i個字段遵循第i條規(guī)則的N種情況,取值為1,則P(i)為1,否則為0。N為元數(shù)據(jù)大綱規(guī)定的字段規(guī)則數(shù)量。其中對第i個字段如果出現(xiàn)以下4種情況之一,則可判斷沒有遵循第i條規(guī)則:一是元數(shù)據(jù)中包含了指定元數(shù)據(jù)規(guī)范并沒有定義的字段;二是記錄里沒有元數(shù)據(jù)規(guī)范規(guī)定的必備字段;三是某些字段沒有從元數(shù)據(jù)規(guī)范規(guī)定的受控詞表中取值;四是不遵循元數(shù)據(jù)規(guī)范的應(yīng)用指南,將受控詞表中的多個值整合賦給某個或某些字段。分項檢查四類指標有(或無)情況進行統(tǒng)計。

(5) 進行評估分析,根據(jù)前面5步確定的質(zhì)量對象、質(zhì)量范圍、測度指標及其評估方法進行評估分析。

(6) 評估結(jié)果分析及報告,基于評估結(jié)果對目標數(shù)據(jù)資源進行評估、分級、質(zhì)量標示,并將評估結(jié)果進行分析,找出差距,進行故障分析,并分析質(zhì)量較低的元數(shù)據(jù)項或關(guān)鍵環(huán)節(jié)、過程,進行針對性的質(zhì)量改進。

4 中信所案例分析

為了更清晰說明科技報告資源元數(shù)據(jù)質(zhì)量評估的過程和結(jié)果,本文以中信所內(nèi)部約410份科技報告資源進行調(diào)查評估,調(diào)查工作主要有兩個部分:一是對中信所內(nèi)部科技報告資源的元數(shù)據(jù)進行歸類整理,確定關(guān)鍵元數(shù)據(jù)信息,其中,因每一份科技報告名稱、作者、作者單位都是每份必填,基本都能夠比較完整準確,故本文次選擇了“關(guān)鍵詞”等19個元數(shù)據(jù)項進行調(diào)查統(tǒng)計分析,見圖1所示;二是對關(guān)鍵元數(shù)據(jù)項的字段信息進行調(diào)查、對410份中信所科技報告元數(shù)據(jù)按統(tǒng)計打分和測試打分,采用EXCEL、ACCESS和SPSS軟件進行處理以及按均分法確定各個元數(shù)據(jù)項的權(quán)重,進行總體質(zhì)量評估。

4.1綜合評估結(jié)果分析

從統(tǒng)計分析結(jié)果(圖1)總體看,410份中信所科技報告在元數(shù)據(jù)規(guī)范方面做得較好,在一些必填字段項填寫中都能很好完整填寫內(nèi)容。存在的主要問題是:首先對一些可選項(如“備注”“合作單位”等)沒有填寫內(nèi)容的沒有添加“無”,出現(xiàn)字段項空值情況。其次對一些元數(shù)據(jù)項的填寫格式規(guī)范不熟悉,出現(xiàn)不規(guī)范填寫情況,造成準確性、一致性較差。如“起止時間”要求填寫“年-月-日”,而很多報告中只是出現(xiàn)“年-月”,缺少具體日期;再次對一些元數(shù)據(jù)項出現(xiàn)缺失情況,如有些科技報告類型正文中缺少“目錄”“參考文獻”內(nèi)容,或沒有標注“無”。

從“完整性”來看,大部分科技報告都完成對必選元素的填寫,只是對一些可選元素的填寫因沒有注明“無”而造成該字段項為空值顯示。

從“準確性”來看,多數(shù)字段項基本做到了對目標資源本身內(nèi)容的正確描述。僅有個別項(如“主管部門”“起止時間”“支持渠道”等)因填寫者對該字段項的理解不同,出現(xiàn)填寫內(nèi)容不準確或錯誤描述的情況。

從“一致性”來看,主要是個別項(如“主管部門”“起止時間”“支持渠道”等)出現(xiàn)和規(guī)范填寫不一致的情況。

圖1 410份科技報告元數(shù)據(jù)質(zhì)量總體評估

圖2 中信所科技報告類型統(tǒng)計的“完整性”評估

4.2按科技報告類型統(tǒng)計的評估結(jié)果

科技報告類型主要有立項摘要報告、技術(shù)進展報告、專題技術(shù)報告、最終技術(shù)報告和驗收摘要報告等。按科技報告類型對完整性、準確性、一致性的評估,結(jié)果分別如圖2、圖3、圖4所示。

(1)“完整性”

不同類型科技報告?zhèn)戎卦诓煌獢?shù)據(jù)項,例如:“立項摘要報告”“驗收摘要報告”普遍在正文中缺少“目錄”“參考文獻”項內(nèi)容,多只是文字說明;又如在“技術(shù)進展報告”和“最終技術(shù)報告”對參與者貢獻(“責任者順序”)表述也不一致。因此,從完整性來看,主要在“目錄”、“參考文獻”和“責任者順序”等方面差別較大。這和報告類型的要求要素不同有關(guān)。

(2) “準確性”

從“準確性”來看,差別主要是在“目錄”“參考文獻”和“責任者順序”這3項。一般,“最終技術(shù)報告”“專題技術(shù)報告”在這方面的得分較高,也是最全面、最規(guī)范的。而“技術(shù)進展報告”則相對簡化,多是對項目工作進展的匯報說明。

圖3 中信所科技報告類型統(tǒng)計的“準確性”評估

圖4 中信所科技報告類型統(tǒng)計的“一致性”評估

(3)“一致性”

從“一致性”來看,除了以上3項差別大外,在“起止時間”的表述規(guī)范性不夠。一般,在“立項摘要報告”中只是大概說明了“年-月”時間段,而在“最終技術(shù)報告”“驗收摘要報告”中則能填寫較全的“年-月-日”。

(4)按科技報告類型統(tǒng)計的評估結(jié)果

從評估統(tǒng)計結(jié)果來看,“最終技術(shù)報告”的科技報告資源元數(shù)據(jù)質(zhì)量總體較高。大部分字段項指標得分較高,在3個質(zhì)量維度的得分較均衡。出現(xiàn)的一些低分值多一是因為未填“無”造成評估值按照零分統(tǒng)計;二是因為在“立項摘要報告”正文中缺少“目錄”“參考文獻”項內(nèi)容,致使這兩項為空值。由于“立項摘要報告”是在項目剛開始時提交的科技報告,很多研究項目的具體研究內(nèi)容尚未展開,故在一些元數(shù)據(jù)項填寫內(nèi)容描述的準確性較低,比如在“摘要”內(nèi)容表述和正文研究上有一定的差別;“技術(shù)進展報告”正文內(nèi)容在很大程度上僅是研究工作進展匯報,因此,在“目錄”“參考文獻”項內(nèi)容較簡單,使得這兩項的“準確性”“一致性”得分較低。另外,大部分“專題技術(shù)報告”普遍在正文內(nèi)容上較完整、齊全,在表述正文內(nèi)容的字段項(如“關(guān)鍵詞”“摘要”“目錄”“參考文獻”等)得分較高;大部分“驗收摘要報告”的正文內(nèi)容較簡單,沒有“目錄”“參考文獻”內(nèi)容。另外,在“主管部門”“支持渠道”等項填寫不規(guī)范,“一致性”得分較低。

4.3案例評估結(jié)論分析

經(jīng)過對410份中信所科技報告的統(tǒng)計評估分析,可以看到,這些科技報告的質(zhì)量總體較高。究其原因主要是嚴格執(zhí)行了中信所內(nèi)部制定的科技報告管理流程和規(guī)范,從而保證了資源質(zhì)量。從結(jié)果分析來看,元數(shù)據(jù)質(zhì)量評估方法具有一定的可操作性,在一定程度上可以幫助發(fā)現(xiàn)在科技報告資源建設(shè)中存在的一些規(guī)范性、專業(yè)性的質(zhì)量問題。通過各項統(tǒng)計分析,可以看到尚有以下幾點質(zhì)量問題。

一是對一些非填寫內(nèi)容要求的元數(shù)據(jù)項不重視,沒填入“無”等,而造成字段項內(nèi)容空項,得分為零,從而影響整體評估結(jié)果。

二是對一些諸如“支持渠道”“主管部門”等項填寫缺乏統(tǒng)一、規(guī)范的約束規(guī)則,造成對這些字段項的認識、填寫不一致,出現(xiàn)用各種簡稱代替填寫等情況。

三是對一些報告類型的正文內(nèi)容缺少具體、明確的格式要求,使得一些報告的內(nèi)容過于簡單,缺乏必要的字段項內(nèi)容,達不到必要的技術(shù)內(nèi)容質(zhì)量要求。

基于以上分析,提出如下建議。

(1)進一步完善和改進中信所的科技報告管理平臺系統(tǒng)的各類功能,避免一些資源質(zhì)量形式上的錯誤發(fā)生。比如:對一些可選項的要素(如“備注”“報告密級”“合作單位”等)可添加“有/無”選項。沒內(nèi)容時選“無”,避免出現(xiàn)字段項空值而造成統(tǒng)計偏差。

(2)加強對科技報告撰寫人、報告提交人(如學術(shù)秘書等)、部門審核者等關(guān)鍵管理崗位人員相關(guān)質(zhì)量規(guī)范的培訓,以便統(tǒng)一和規(guī)范科技報告元數(shù)據(jù)項的填寫內(nèi)容。

(3)改進科技報告資源管理流程,細化各種質(zhì)量規(guī)范和約束規(guī)則,既要從軟件檢驗工具入手加強科技報告資源的形式質(zhì)量,還要指派專人從內(nèi)容審核入手加強對內(nèi)容的質(zhì)量控制,提高科技報告的“含金量”。

(4)制定和細化科技報告資源的質(zhì)量評估細則,可通過科技報告分類來建立不同權(quán)重的評估指標體系,細化評分標準,使評估具有可量化、可操作性。

5 結(jié)論與展望

本文以中信所內(nèi)部科技報告資源的元數(shù)據(jù)項進行案例分析,嘗試探索元數(shù)據(jù)質(zhì)量評估方法在科技報告資源建設(shè)過程中可行性。從結(jié)果分析來看,這一方法在一定程度上可以幫助發(fā)現(xiàn)在科技報告資源建設(shè)中存在的一些規(guī)范性、專業(yè)性的質(zhì)量問題,以便改正,從而提高科技報告資源質(zhì)量。

但是,由于缺乏明確的元數(shù)據(jù)質(zhì)量規(guī)范標準,本次研究尚有一些不足。本文只是就現(xiàn)有科技報告資源中的描述性元數(shù)據(jù)項進行統(tǒng)計分析,尚沒有收集、整理科技報告產(chǎn)生過程的各個環(huán)節(jié)的管理元數(shù)據(jù)項內(nèi)容數(shù)據(jù),故無法就過程環(huán)節(jié)中質(zhì)量問題進行統(tǒng)計分析。另外,關(guān)鍵元數(shù)據(jù)項在評估質(zhì)量維度中的權(quán)重分配,應(yīng)首先通過用戶和專家調(diào)查法來調(diào)查分析確定,但由于眾多用戶和專家對科技報告資源關(guān)鍵元數(shù)據(jù)項的認識不一致,也缺乏相關(guān)國家標準參考,故本次調(diào)查數(shù)據(jù)處理暫對各個元數(shù)據(jù)項權(quán)重采取均分做法,這需要在后續(xù)研究中結(jié)合科技報告產(chǎn)生全過程確定科技報告項目中關(guān)鍵元數(shù)據(jù)項,以確定不同元數(shù)據(jù)項對不同質(zhì)量維度的質(zhì)量影響程度不同。

[1] 張新民.國家科技報告服務(wù)系統(tǒng)構(gòu)建中相關(guān)問題的探討[J].中國科技資源導(dǎo)刊,2014,46(1):9-13,27.

[2] 中央政府門戶網(wǎng)站.關(guān)于深化科技體制改革加快國家創(chuàng)新體系建設(shè)的意見 [EB/OL].(2012-09-23)[2015-3-15]. http://www.gov.cn/jrzg/2012-09/23/ content_2231494.htm.

[3] 中國政府網(wǎng).關(guān)于加快建立國家科技報告制度指導(dǎo)意見的通知[EB/OL]. (2014-08-31)[2015-3-15].http:// www.gov.cn/zhengce/content/2014-09/10/content_9071. htm.

[4] 曾建勛. 基層科技報告體系建設(shè)研究[J].情報學報,2014(8):800-806.

[5] 曾建勛.科技報告技術(shù)標準體系研究[J].情報學報,2013,32(5):459-465.

[6] 賀德方,胡紅亮,周杰,等.中國科技報告體系的建設(shè)模式研究[J].情報學報,2009,28(6):803-808.

[7] THOMAS R BRUCE, DIANE I Hillman. The continuum of metadata quality: Defining, expressing,exploiting[M]//Diane I Hi1lmann. Elaine L Weatbrooks. Metadata in Practice. Chicago:American Library As SOCiation, 2004:238-256.

[8] 黃鶯,李建陽.元數(shù)據(jù)質(zhì)量評估方法及模型研究[J].圖書館學研究,2013(12):52-56.

[9] 曹月珍,馬建玲.國內(nèi)外元數(shù)據(jù)質(zhì)量控制的研究進展與發(fā)展趨勢[J].圖書與情報,2013(6):101-103.

[10] QIN Jian, MARCIA Lei Zeng. Metadata[M]. New York:NealSehuman Publisher,Inc,2004:247-249.

[11] 黃鶯,李建陽,元數(shù)據(jù)質(zhì)量評估研究現(xiàn)狀剖析[J].中國電子商務(wù), 2013(4):164-165.

[12] GB/T 30535-2014科技報告元數(shù)據(jù)規(guī)范[S].北京:中國標準出版社,2014.

[13] TOSAKA Yuji, PARK Jungran. Metadata quality control in digital repositories and collections: Criteria,semantics, and mechanisms[J]. Cataloging & Classification Quarterly,2010(48):696-715.

Metadata Quality Assessment of the Scientific and Technical Report Resource in Basic Research Units: Taking ISTIC as an Example

SONG Lirong
(Institute of Scientific and Technical Information of China, Beijing 100038)

At present, China is working to promote the construction of national scientific and technical reports. In this process, the basic research units, as the source of scientific and technological report resources, play a very important role to ensure the quality of scientific and technical reports. This paper, analyzes the metadata elements of scientific and technological reports, and the basic content of metadata quality assessment from the aspects of completeness, accuracy and consistency. At last, the paper takes about 410 internal scientific and technical report resources of ISTIC as an example, surveys, statistics and evaluation of the metadata quality of these information resources, and hope that this method can facilitate the quality control of scientific and technical reports, evaluate and improve the quality management of basic research units.

basic research units, scientific and technical report resource, metadata, metadata quality, quality assessment

G203

A

10.3772/j.issn.1674-1544.2016.01.011

宋立榮(1971—),男,中國科學技術(shù)信息研究所研究員,博士,研究方向:科技信息共享、信息質(zhì)量。

國家軟科學項目“國家科技報告資源建設(shè)中關(guān)鍵質(zhì)量影響因素及其測評體系研究”(2014GXS4K052);國家社科基金“網(wǎng)絡(luò)環(huán)境下科技信息資源建設(shè)中的質(zhì)量元數(shù)據(jù)及評估應(yīng)用研究”(12BTQ016)。

2015年12月22日。

猜你喜歡
數(shù)據(jù)項維度報告
一種多功能抽簽選擇器軟件系統(tǒng)設(shè)計與實現(xiàn)
甘肅科技(2020年19期)2020-03-11 09:42:42
淺論詩中“史”識的四個維度
中華詩詞(2019年7期)2019-11-25 01:43:00
非完整數(shù)據(jù)庫Skyline-join查詢*
基于Python的Asterix Cat 021數(shù)據(jù)格式解析分析與實現(xiàn)
一圖看懂十九大報告
報告
南風窗(2016年26期)2016-12-24 21:48:09
光的維度
燈與照明(2016年4期)2016-06-05 09:01:45
“五個維度”解有機化學推斷題
報告
南風窗(2015年22期)2015-09-10 07:22:44
報告
南風窗(2015年7期)2015-04-03 01:21:48
慈溪市| 新安县| 尼勒克县| 双城市| 石泉县| 利津县| 平山县| 新泰市| 南木林县| 翁牛特旗| 武夷山市| 乌恰县| 惠州市| 湄潭县| 昭苏县| 云林县| 嘉兴市| 井冈山市| 光山县| 安图县| 科技| 贺兰县| 温泉县| 象州县| 洮南市| 西盟| 漳浦县| 米脂县| 涟源市| 柏乡县| 辉县市| 永善县| 海门市| 安龙县| 屯门区| 磐安县| 崇州市| 普定县| 大渡口区| 吴川市| 冕宁县|