原順梅, 趙 賢, 喬 振
(山東省科學技術情報研究院, 濟南 250001)
科學數(shù)據(jù)是當今時代開發(fā)利用潛力巨大的基礎性戰(zhàn)略資源,是推動國家科技創(chuàng)新發(fā)展和經(jīng)濟社會發(fā)展的重要驅動力。對他人數(shù)據(jù)的重新使用可以推動新的研究問題和產(chǎn)品,并激發(fā)新的科學發(fā)現(xiàn)[1]。對科學數(shù)據(jù)進行有效的管理可以在使用數(shù)據(jù)時更好地發(fā)現(xiàn)和理解數(shù)據(jù),避免不必要的重復,帶來更多的協(xié)作和研究進展[2]。國務院于2018年出臺《科學數(shù)據(jù)管理辦法》[3],明確提出了科學數(shù)據(jù)各級管理部門的工作職責以及科學數(shù)據(jù)的采集、匯交、保存,共享與利用,保密與安全等內容。辦法提到,國務院科學技術行政部門主要職責之一是負責國家科學數(shù)據(jù)網(wǎng)絡管理平臺建設和數(shù)據(jù)維護。并在第十條規(guī)定:科學數(shù)據(jù)中心是促進科學數(shù)據(jù)開放共享的重要載體,由主管部門委托有條件的法人單位建立。筆者認為,建立地方科學數(shù)據(jù)網(wǎng)絡管理平臺是各地方開展科學數(shù)據(jù)中心建設的重要方面和實現(xiàn)科學數(shù)據(jù)共享的必要途徑。本文對我國和地方科學數(shù)據(jù)網(wǎng)絡管理平臺的建設情況進行了初步調研,并對各省科學數(shù)據(jù)平臺的建設提出了幾點建議。
從中央層面看,自2004年起,科技部、財政部先后在基礎科學、農業(yè)、林業(yè)、海洋、氣象、地震、地球系統(tǒng)科學、人口與健康等領域支持建成了國家科技資源共享服務平臺,這些平臺持續(xù)進行了科學數(shù)據(jù)的匯交[4](平臺具體名稱詳見表1)。
此外,在科技部與財政部的共同推動下,國家科技資源共享服務工程技術研究中心負責建設并維護中國科技資源網(wǎng),該網(wǎng)站是國家科技基礎條件平臺的門戶網(wǎng)站,于2009年9月開通。網(wǎng)站劃分9個板塊,分別為儀器設備、自然資源、科學數(shù)據(jù)、科技成果、科技文獻、實驗基地、科普資源、檢測資源、實驗動物。其中,科學數(shù)據(jù)板塊又分為地球系統(tǒng)科學數(shù)據(jù)、人口健康科學數(shù)據(jù)、林業(yè)、農業(yè)、氣象、地震、交通、海洋、先進制造與自動化9大類別。點擊各個類別均可看到若干數(shù)據(jù)庫及其關鍵字、描述與服務單位等標識。隨后點擊各數(shù)據(jù)庫名稱后均可出現(xiàn)資源類型、服務單位、通訊地址、聯(lián)系方式、資源描述等簡介,用戶可在登錄網(wǎng)站后購買或申請資源。目前科學數(shù)據(jù)總量為13 975條。
2018年3月,國務院辦公廳印發(fā)《科學數(shù)據(jù)管理辦法》,提到由國務院科學技術行政部門“負責國家科學數(shù)據(jù)網(wǎng)絡管理平臺建設和數(shù)據(jù)維護”。
表1 國家層面科學數(shù)據(jù)網(wǎng)絡管理平臺名稱列表
從網(wǎng)絡調研情況來看,在省級層面,建設科學數(shù)據(jù)網(wǎng)絡管理平臺時間最早的省份是陜西省。而自國務院辦公廳2018年印發(fā)《科學數(shù)據(jù)管理辦法》以來,最早布局科學數(shù)據(jù)建設的省份是貴州。江蘇、重慶、廣東和吉林在科學數(shù)據(jù)網(wǎng)絡管理平臺的建設方面均有所部署或進展。
在科學數(shù)據(jù)建設方面,陜西省自2005年即建設有1個門戶網(wǎng)站(陜西省科學數(shù)據(jù)共享服務系統(tǒng))、2個數(shù)據(jù)中心(陜西省科技管理數(shù)據(jù)中心和陜西省地礦數(shù)據(jù)中心)以及3個專業(yè)數(shù)據(jù)庫(分別為金相圖譜數(shù)據(jù)庫、X射線衍射單晶指標數(shù)據(jù)庫、省微生物菌種數(shù)據(jù)庫)。后對門戶網(wǎng)站進行升級,進一步完善了目錄查詢、數(shù)據(jù)檢索、功能服務三大模塊的功能,新增若干數(shù)據(jù)中心和專業(yè)數(shù)據(jù)庫。網(wǎng)址為http://www.snsd.gov.cn/Portal,新門戶網(wǎng)站的全稱為“陜西省科學數(shù)據(jù)共享服務平臺”。欄目設置為綜合新聞、數(shù)據(jù)搜索、數(shù)據(jù)匯交、國際資源、熱點專題、科普資源。
數(shù)據(jù)庫資源包括科技管理數(shù)據(jù)、生態(tài)環(huán)境數(shù)據(jù)兩個領域的至少15個專題數(shù)據(jù)庫集,以及包含石油鉆井、微生物菌種資源等在內的14個專題數(shù)據(jù)庫集。各個數(shù)據(jù)庫按學科分成10個大類,分別為:生物學、農學、基礎醫(yī)學、中醫(yī)學與中藥學、工程與技術科學基礎學科、自然科學相關工程與技術、礦山工程技術、紡織科學技術、交通運輸工程、管理學。數(shù)據(jù)庫多數(shù)都能提供關鍵詞、摘要、目的、數(shù)據(jù)庫格式、質量說明、時間范圍等簡介內容以及數(shù)據(jù)集聯(lián)系方式(聯(lián)系人姓名、郵箱、單位、電話、傳真、地址、郵編)。用戶可根據(jù)訪問權限享受在線瀏覽下載或離線服務等。
其中,科技管理數(shù)據(jù)集包括陜西省科研機構庫、科技成果庫、項目庫、科技人才(科技專家)庫、科技產(chǎn)品庫、科技法規(guī)庫、科技服務機構庫、科技指標、科技進步考核指標等,具體收錄范圍見表2。科技計劃項目數(shù)據(jù)庫主要分為省科技研發(fā)計劃、科技統(tǒng)籌創(chuàng)新工程計劃(2014)、重大科技創(chuàng)新專項資金計劃項目(2004—2014)、承擔的國家科技計劃(2011—2014)。
表2 陜西省科技管理專題數(shù)據(jù)庫集收錄范圍列表
續(xù)表2
類別收錄范圍科技成果數(shù)據(jù)庫以陜西省科技成果審查登記管理辦公室的歷年科技成果統(tǒng)計數(shù)據(jù)為基礎,收錄了2000—2012年全省通過省市部委鑒定、科技計劃項目驗收、行業(yè)準入、新產(chǎn)品認定等相關技術評價,被認定為省級科技成果的相關信息??萍吉剟铐椖繑?shù)據(jù)庫以《國家科學技術獎勵公報》和《陜西省科學技術獎勵公報》為依據(jù),收錄了1987—2013年陜西省獲得國家科學技術獎勵及陜西省科技進步獎勵的成果。科技人才數(shù)據(jù)庫在陜兩院院士及部分研發(fā)機構、高校和企業(yè)的國家級勘察設計大師、享受國務院津貼人員、國家級有突出貢獻中青年專家、省級有突出貢獻的專家和“新世紀三五人才工程”選拔的第一、二層次人員等高層次人才的相關信息。高新技術企業(yè)數(shù)據(jù)庫以陜西省高新技術企業(yè)認定統(tǒng)計結果為基礎數(shù)據(jù),收錄了2005年以來,從事高技術、新技術成果的研究與開發(fā)、高技術產(chǎn)品的生產(chǎn)經(jīng)營、獨立核算或相對獨立核算,科、技、工、貿一體化,經(jīng)過省科技廳認定的陜西省高新技術企業(yè)信息??萍挤ㄒ?guī)數(shù)據(jù)庫2000年至2013年全國人大、國務院和科技部、其他相關部門以及我省發(fā)布的與科技相關法律、法規(guī)、政府規(guī)章、政策性文件、規(guī)范性文件??萍歼M步考核數(shù)據(jù)庫2001—2010年陜西省下轄縣(市、區(qū))基本情況、科技進步工作領導與管理、科技促進經(jīng)濟社會協(xié)調發(fā)展、科技發(fā)展等4類指標??萍冀y(tǒng)計分析數(shù)據(jù)庫2004年—2013年基于陜西省科技統(tǒng)計分析工作的各類分析報告,涉及科技研發(fā)投入、科研產(chǎn)出、科技環(huán)境、科技進步監(jiān)測等領域。
近日,經(jīng)向陜西省科技情報研究院有關人員電話調研,得知該“陜西省科學數(shù)據(jù)共享服務平臺”的數(shù)據(jù)庫內容已于2017年全部移交至陜西省科技云平臺(全稱是陜西省科技管理服務一體化云平臺),科學數(shù)據(jù)成為科技資源欄目下設的一個板塊(其它板塊分別是科研儀器、科技企業(yè)、科技人才、科技成果、檢驗檢測能力、園區(qū)基地、科技文獻等)。目前,該板塊主要由25個數(shù)據(jù)庫組成,詳見表3。繼2018年國務院出臺《科學數(shù)據(jù)管理辦法》之后,該省出臺了《科學數(shù)據(jù)管理實施細則》,但科技廳尚未就下一步的工作提出明確部署和分工。
從網(wǎng)絡調研情況來看,在省級層面,自國務院辦公廳印發(fā)《科學數(shù)據(jù)管理辦法》以來,最早布局科學數(shù)據(jù)建設的省份是貴州。該省不僅把科學數(shù)據(jù)中心建設寫入2018年省政府工作報告,而且將其作為本屆政府的九方面工作之一。更重要的是,貴州省科學數(shù)據(jù)中心不只是一個網(wǎng)絡平臺,還有線下的實體。在線下實體建設方面,據(jù)有關報道,貴州省科學數(shù)據(jù)中心建設已進入規(guī)劃設計討論階段,該項目由貴州省科技信息中心、省規(guī)劃設計院建筑一所負責,將設有超算中心、生物醫(yī)學大數(shù)據(jù)中心、SKA數(shù)據(jù)中心、遙感數(shù)據(jù)中心、科技文獻數(shù)據(jù)中心等。目前具體的投資金額和建設周期尚未找到公開資料。在網(wǎng)絡平臺建設方面,據(jù)相關報道,2018年4月,貴州省科技廳與華為技術有限公司就貴州科學數(shù)據(jù)中心建設工作中存在的技術難點問題進行商討。
表3 陜西省科技云平臺科學數(shù)據(jù)板塊數(shù)據(jù)庫列表
2019年初,江蘇省委書記、省委全面深化改革委員會主任婁勤儉主持召開省委全面深化改革委員會第五次會議。會議審議省委深改委2018年工作總結、2019年工作要點和3個改革方案。其中提到要“加快推進省科學數(shù)據(jù)中心建設”。這是江蘇省委、省政府首次公開提出建設省一級的科學數(shù)據(jù)中心。但并未明確提出是建設線下實體還是網(wǎng)絡平臺。
除貴州和江蘇以外,重慶也明確提出建設科學數(shù)據(jù)中心。2019年1月28日《重慶日報》報道[5],重慶市科技局相關負責人表示,將建設科學數(shù)據(jù)中心平臺門戶系統(tǒng),用于科學數(shù)據(jù)信息發(fā)布和網(wǎng)絡管理,實行市科學數(shù)據(jù)中心、行業(yè)主管部門科學數(shù)據(jù)分中心、有關單位科學數(shù)據(jù)庫等多級管理,按照統(tǒng)一的數(shù)據(jù)規(guī)范和管理標準,推進各行業(yè)科學數(shù)據(jù)資源共享。
廣東省于2018年11月創(chuàng)建科技數(shù)據(jù)開放應用平臺,集中發(fā)布科技項目和創(chuàng)新機構方面的數(shù)據(jù)信息。網(wǎng)站劃分為四個板塊:科技項目、創(chuàng)新機構、數(shù)據(jù)統(tǒng)計和數(shù)據(jù)解讀。其中,科技項目和創(chuàng)新機構板塊的字段名、時間跨度及目前數(shù)量等收錄信息詳見表4。數(shù)據(jù)統(tǒng)計板塊暫無實質內容。數(shù)據(jù)解讀板塊無自建內容,點擊“數(shù)據(jù)解讀”后直接鏈接到廣東省科技廳網(wǎng)站政務公開欄目的“數(shù)據(jù)解讀”子項,內容的時間跨度為2018年8月至12月。
表4 廣東省科技廳科技數(shù)據(jù)開放應用平臺收錄信息列表
吉林省科學技術信息研究所分別于2018年9月、2019年3月發(fā)布吉林省科學數(shù)據(jù)平臺建設項目公開招標公告,預算金額分別為225萬元[6]和175萬元[7]。2018年10月中標公告顯示,中標公司為長春某科技公司,中標金額為222.8萬元[8]。
總之,從以上網(wǎng)絡和電話調研情況來看,各省科學數(shù)據(jù)平臺建設程度不一,多數(shù)省份尚未開始建立科學數(shù)據(jù)網(wǎng)絡管理平臺,貴州、江蘇、重慶和吉林處于初建狀態(tài),僅陜西和廣東在科學數(shù)據(jù)平臺的建設方面已具備一定的規(guī)模。另從國家和陜西、廣東相關平臺對科學數(shù)據(jù)的分類板塊可以看出,對科學數(shù)據(jù)涵蓋面的認識也不盡相同。
3.1.1 科學數(shù)據(jù)涉及面廣,數(shù)據(jù)源的確定與分類難度較大
國家層面對省級科學數(shù)據(jù)平臺的建設尚無統(tǒng)一規(guī)劃,大多數(shù)省份需要自已摸索,可借鑒的經(jīng)驗較少??茖W數(shù)據(jù)涉及面廣,體量大,數(shù)據(jù)源的確定、數(shù)據(jù)分類、平臺功能等均需要經(jīng)過全面深入的考慮與籌劃,難度較大。
3.1.2 標準體系不易建立,制約了省級平臺建設工作的開展
科學數(shù)據(jù)管理須建立一定的標準體系,包括指導標準、通用標準和專用標準,每一類標準都包含了豐富的內容。而科學數(shù)據(jù)涉及領域較多,每一個領域均要制定領域標準規(guī)范,對于已有國家標準的如林業(yè)、氣象、地震等領域的可按國家標準執(zhí)行,而對于沒有國家標準的,則需要各省根據(jù)實際,分領域制定科學數(shù)據(jù)的標準規(guī)范。標準規(guī)范體系不易建立,在一定程度上制約了省級平臺建設工作的深入開展。
科學數(shù)據(jù)網(wǎng)絡管理平臺的建設涉及到方方面面,包括開發(fā)或采用有效訪問和存儲大量科學數(shù)據(jù)集的技術和工具等等[9]。首先要做好數(shù)據(jù)源及數(shù)據(jù)分類的確定工作,其次要綜合考慮平臺具體要實現(xiàn)哪些功能,此外還要制定元數(shù)據(jù)標準等。
3.2.1 數(shù)據(jù)源
在平臺網(wǎng)站開發(fā)之前,首先應做好頂層設計,明確數(shù)據(jù)源。除了要明確科學數(shù)據(jù)包含哪些方面的數(shù)據(jù),還要考慮哪些數(shù)據(jù)可以在科學數(shù)據(jù)平臺上共享。鑒于從中央到地方,多個行業(yè)如農業(yè)、地震、醫(yī)藥衛(wèi)生等等領域已經(jīng)有建好的科學數(shù)據(jù)共享平臺,暫時可以考慮在各省科學數(shù)據(jù)網(wǎng)絡管理平臺上提供接口進行鏈接訪問。因此重點要考慮各省科研領域的科學數(shù)據(jù)情況。大致來說,一般應包括省級科技計劃項目、科技人才、科技獎勵、科研檔案、高新技術企業(yè)、主要科技統(tǒng)計指標、科技成果及轉化、科技政策與法規(guī)、科技文獻、其它科技基礎資源(包括大型儀器、種質資源、實驗動物等)等方面的相關數(shù)據(jù)信息。
3.2.2 數(shù)據(jù)分類
數(shù)據(jù)分類既可按照《科學數(shù)據(jù)管理辦法》中相關描述,將科學數(shù)據(jù)分為基礎研究數(shù)據(jù)、應用研究數(shù)據(jù)、試驗開發(fā)數(shù)據(jù)、觀測監(jiān)測數(shù)據(jù)、考察調查數(shù)據(jù)、檢驗檢測數(shù)據(jù)等;也可依據(jù)《科學數(shù)據(jù)共享工程技術標準》之《科學數(shù)據(jù)共享工程數(shù)據(jù)分類編碼方案》,將科學數(shù)據(jù)劃分為基礎科學、資源環(huán)境科學、農業(yè)科學、工程技術科學、人口健康科學和區(qū)域與綜合領域六個門類;此外還可以依據(jù)《中華人民共和國學科分類與代碼國家標準》(GB/T 13745—2009),分為自然科學類、農業(yè)科學類、醫(yī)藥科學類、工程與技術科學類、人文與社會科學類五個門類。
3.2.3 平臺功能
科學數(shù)據(jù)網(wǎng)絡管理平臺主要包括用戶管理、數(shù)據(jù)管理、數(shù)據(jù)服務三大功能[10]。用戶管理功能除用戶注冊、用戶登錄功能外,還要進行用戶權限管理(即為用戶設置不同的操作權限與訪問權限),如哪些用戶可以提交數(shù)據(jù)、哪些用戶可以下載數(shù)據(jù)、哪些用戶可以瀏覽等等。數(shù)據(jù)管理功能主要包括科學數(shù)據(jù)的匯交、審核、發(fā)布、共享等功能。數(shù)據(jù)服務功能包括目錄查詢、簡單檢索與高級檢索、瀏覽與下載等。此外,為給用戶提供更好的服務,應考慮提供數(shù)據(jù)定制、數(shù)據(jù)挖掘、可視化分析等增值服務。由于科學數(shù)據(jù)網(wǎng)絡管理平臺除科研領域科學數(shù)據(jù)以外,還為氣象、人口與健康、地震、林業(yè)等行業(yè)領域科學數(shù)據(jù)提供接口,因此,要考慮統(tǒng)一檢索問題,實現(xiàn)跨庫檢索。
3.2.4 元數(shù)據(jù)標準
元數(shù)據(jù)按類型可分為描述元數(shù)據(jù)、結構元數(shù)據(jù)、管理元數(shù)據(jù)和技術元數(shù)據(jù)[11],考慮到對科學數(shù)據(jù)的可檢索性要求,無數(shù)據(jù)標準的元素選擇以描述型居多,如科學數(shù)據(jù)的名稱、作者、提交或發(fā)表時間、所屬數(shù)據(jù)庫等;其次是管理元數(shù)據(jù)(如是否免費獲取、用戶權限等)、技術元數(shù)據(jù)(包括元數(shù)據(jù)保存格式和軟硬件需求等)。至于元數(shù)據(jù)等標準的制定時間,由于平臺研發(fā)過程需要遵照此類標準,因此標準最好在研發(fā)平臺開發(fā)前確定。如果所開發(fā)的平臺定制性較好,也可同步進行,在平臺上線的時候按元數(shù)據(jù)的標準進行初始化。