国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

我國(guó)科學(xué)數(shù)據(jù)組織與管理研究探析

2021-04-12 11:18:03趙捧未丁獻(xiàn)峰王藝帆
中國(guó)科技資源導(dǎo)刊 2021年2期
關(guān)鍵詞:數(shù)據(jù)管理檢索語(yǔ)義

趙捧未 丁獻(xiàn)峰 閆 淼 段 娜 王藝帆

(1.西安電子科技大學(xué)經(jīng)濟(jì)與管理學(xué)院,陜西西安 710126; 2.陜西信息資源研究中心,陜西西安 710126;3.陜西師范大學(xué)圖書館,陜西西安 710119)

0 引言

2018年,國(guó)務(wù)院辦公廳印發(fā)了《科學(xué)數(shù)據(jù)管理辦法》(以下簡(jiǎn)稱“《辦法》”),標(biāo)志著我國(guó)科學(xué)數(shù)據(jù)國(guó)家政策在制定和執(zhí)行上取得了新的進(jìn)展?!掇k法》[1]明確規(guī)定:“國(guó)家科技計(jì)劃產(chǎn)生的科學(xué)數(shù)據(jù)要進(jìn)行強(qiáng)制性匯交,并通過科學(xué)數(shù)據(jù)中心進(jìn)行規(guī)范管理和長(zhǎng)期保存。”該《辦法》的出臺(tái)為科學(xué)數(shù)據(jù)的管理和匯交指明了方向。然而,隨著科學(xué)數(shù)據(jù)管理實(shí)踐的開展,不同類型數(shù)據(jù)的快速增長(zhǎng),科學(xué)數(shù)據(jù)的組織管理、檢索服務(wù)面臨著極大的挑戰(zhàn),特別是在科學(xué)數(shù)據(jù)語(yǔ)義化組織管理與科學(xué)數(shù)據(jù)檢索的研究與應(yīng)用領(lǐng)域明顯不足。為此,在科學(xué)數(shù)據(jù)管理研究及平臺(tái)建設(shè)的基礎(chǔ)上,探索研究科學(xué)數(shù)據(jù)語(yǔ)義化組織、檢索及應(yīng)用服務(wù),對(duì)于充分挖掘科學(xué)數(shù)據(jù)在科學(xué)研究、發(fā)展趨勢(shì)分析與預(yù)測(cè)等方面的潛在價(jià)值,更好地發(fā)揮大數(shù)據(jù)時(shí)代科學(xué)數(shù)據(jù)作為生產(chǎn)要素在支撐科技創(chuàng)新、決策支持與經(jīng)濟(jì)發(fā)展中的作用,具有重要的理論和實(shí)踐意義。本文將重點(diǎn)探析我國(guó)科學(xué)數(shù)據(jù)組織與管理,為我國(guó)科學(xué)數(shù)據(jù)組織管理與檢索領(lǐng)域研究提供參考。

1 科學(xué)數(shù)據(jù)的內(nèi)涵與特征

1.1 科學(xué)數(shù)據(jù)的內(nèi)涵

《辦法》指出,科學(xué)數(shù)據(jù)主要包括在自然科學(xué)、工程技術(shù)科學(xué)等領(lǐng)域通過基礎(chǔ)研究、實(shí)驗(yàn)開發(fā)等產(chǎn)生的數(shù)據(jù),以及通過觀測(cè)、考察等方式取得的原始數(shù)據(jù)和應(yīng)用于科學(xué)研究活動(dòng)的衍生數(shù)據(jù)。從宏觀上講,科學(xué)數(shù)據(jù)指的是人類在認(rèn)識(shí)世界和改造世界過程中所產(chǎn)生的原始性數(shù)據(jù)和基礎(chǔ)性數(shù)據(jù),以及按照不同需求加工的數(shù)據(jù)和數(shù)據(jù)產(chǎn)品。因此,科學(xué)數(shù)據(jù)是在科研過程中產(chǎn)生的一切數(shù)據(jù),包括調(diào)研數(shù)據(jù)、實(shí)驗(yàn)數(shù)據(jù)、勘測(cè)數(shù)據(jù)、仿真數(shù)據(jù)、描述性元數(shù)據(jù)和二次加工形成的數(shù)據(jù)及數(shù)據(jù)產(chǎn)品等不同類型、不同結(jié)構(gòu)的數(shù)據(jù),被視為一種科技基礎(chǔ)設(shè)施(Data as Infrastructure),是推動(dòng)國(guó)家科技創(chuàng)新及經(jīng)濟(jì)社會(huì)穩(wěn)步發(fā)展的重要基礎(chǔ)性國(guó)家戰(zhàn)略資源,是推動(dòng)科技進(jìn)步和科技創(chuàng)新的重要組成部分。

1.2 科學(xué)數(shù)據(jù)的特征

近年來,隨著科學(xué)研究活動(dòng)的快速發(fā)展,科學(xué)數(shù)據(jù)呈現(xiàn)指數(shù)級(jí)增長(zhǎng)趨勢(shì),主要以理工類科學(xué)數(shù)據(jù)為主。隨著科學(xué)數(shù)據(jù)實(shí)踐和大數(shù)據(jù)技術(shù)的迅速發(fā)展,人文社科類科學(xué)數(shù)據(jù)迅速增加[2]??傮w看來,科學(xué)數(shù)據(jù)類型呈現(xiàn)以下特征:一是科研數(shù)據(jù)類型呈現(xiàn)多樣化的特征,數(shù)據(jù)類型包括文本、音頻、視頻、圖片等[3]。二是科學(xué)數(shù)據(jù)規(guī)模具有海量、多源的特征,數(shù)據(jù)來源廣,范圍來源于多個(gè)學(xué)科領(lǐng)域中。三是科學(xué)數(shù)據(jù)價(jià)值表現(xiàn)形式不同,表面上科學(xué)數(shù)據(jù)在價(jià)值上表現(xiàn)為密度低,價(jià)值低,但通過數(shù)據(jù)的二次開發(fā)會(huì)呈現(xiàn)出價(jià)值再造和價(jià)值多樣等特點(diǎn)。四是科學(xué)數(shù)據(jù)表現(xiàn)的形式各不相同,信息工程領(lǐng)域科學(xué)數(shù)據(jù)異構(gòu)突出,可細(xì)化為語(yǔ)義異構(gòu)、平臺(tái)異構(gòu)性等[4];林業(yè)領(lǐng)域科學(xué)數(shù)據(jù)具有海量、多源異構(gòu)的特點(diǎn)[5];煤炭領(lǐng)域科學(xué)數(shù)據(jù)呈現(xiàn)異構(gòu)性、多元性[6]。

2 我國(guó)科學(xué)數(shù)據(jù)管理取得的成效

經(jīng)過近幾年來的發(fā)展,我國(guó)科學(xué)數(shù)據(jù)管理水平不斷提高,初步形成了科學(xué)數(shù)據(jù)管理政策體系,構(gòu)建了一批國(guó)家科學(xué)數(shù)據(jù)中心和數(shù)據(jù)資料庫(kù),積累了大量的基礎(chǔ)科學(xué)數(shù)據(jù)資源,進(jìn)一步推進(jìn)了科學(xué)數(shù)據(jù)的共享水平,取得了顯著的成效。下面從我國(guó)科學(xué)數(shù)據(jù)管理政策體系建設(shè)以及我國(guó)科學(xué)數(shù)據(jù)管理工作兩個(gè)方面闡述取得的成效。

2.1 我國(guó)科學(xué)數(shù)據(jù)管理政策體系初步建成

2002年,隨著科技部主導(dǎo)的“科學(xué)數(shù)據(jù)共享工程”啟動(dòng),“中國(guó)科學(xué)數(shù)據(jù)共享香山會(huì)議”召開[7],我國(guó)科學(xué)數(shù)據(jù)管理進(jìn)入新的階段,科學(xué)數(shù)據(jù)共享工程實(shí)現(xiàn)了氣候、水文等行業(yè)領(lǐng)域的數(shù)據(jù)共享。2008年,科技部啟動(dòng)了“973 計(jì)劃資源環(huán)境領(lǐng)域項(xiàng)目數(shù)據(jù)匯交”工作,并相繼出臺(tái)了《科學(xué)數(shù)據(jù)共享工程管理辦法》《科學(xué)數(shù)據(jù)共享?xiàng)l例》《國(guó)家科技計(jì)劃項(xiàng)目科學(xué)數(shù)據(jù)匯交辦法》《科學(xué)數(shù)據(jù)共享工程試點(diǎn)遴選和檢查評(píng)估辦法》和《科學(xué)數(shù)據(jù)類分級(jí)共享及其發(fā)布策略》等一系列數(shù)據(jù)共享的政策法規(guī)。2018年,國(guó)務(wù)院頒發(fā)了《科學(xué)數(shù)據(jù)管理辦法》,為進(jìn)一步推進(jìn)我國(guó)科學(xué)數(shù)據(jù)管理實(shí)踐提供有力保障。2019年2月,中國(guó)科學(xué)院印發(fā)了《中國(guó)科學(xué)院科學(xué)數(shù)據(jù)管理與開放共享辦法(試行)》,其遵循《辦法》的總體要求,為進(jìn)一步加強(qiáng)中國(guó)科學(xué)院科學(xué)數(shù)據(jù)的管理、保障科學(xué)數(shù)據(jù)的安全、提高科學(xué)數(shù)據(jù)開放共享水平提供了制度規(guī)范。在科學(xué)數(shù)據(jù)管理政策體系建設(shè)研究中,司莉等[8]通過調(diào)研美國(guó)、英國(guó)、澳大利亞3 個(gè)國(guó)家關(guān)于科學(xué)數(shù)據(jù)管理方面的政策,總結(jié)了國(guó)外科學(xué)數(shù)據(jù)管理政策的特點(diǎn)。研究表明,美、英、澳等發(fā)達(dá)國(guó)家已制定了比較完善的科學(xué)數(shù)據(jù)管理與共享的政策體系。在高校科學(xué)數(shù)據(jù)管理政策的實(shí)踐中,周曉燕等[9]通過對(duì)澳大利亞41 所高校的調(diào)研發(fā)現(xiàn),有23 所高校制定了專門的科研數(shù)據(jù)管理政策,包括科研數(shù)據(jù)的保存、訪問、共享以及數(shù)據(jù)安全、受測(cè)者隱私保護(hù)等內(nèi)容。邢文明[10]從國(guó)家、科研資助管理機(jī)構(gòu)和科研單位3 個(gè)層面提出了我國(guó)科研數(shù)據(jù)管理與共享政策體系框架。綜合上述調(diào)研,我國(guó)科學(xué)數(shù)據(jù)管理政策體系已經(jīng)基本形成,并隨著科學(xué)數(shù)據(jù)管理實(shí)踐的進(jìn)展逐漸完善,目前我國(guó)已形成以政府、行業(yè)機(jī)構(gòu)和領(lǐng)域數(shù)據(jù)中心為主體的科學(xué)數(shù)據(jù)政策體系。

2.2 我國(guó)科學(xué)數(shù)據(jù)管理水平不斷提高

2004年,由科技部、發(fā)展改革委、教育部和財(cái)政部聯(lián)合發(fā)布了《2004—2010年國(guó)家科技基礎(chǔ)條件平臺(tái)建設(shè)綱要》(簡(jiǎn)稱“《綱要》”),標(biāo)志我國(guó)科學(xué)數(shù)據(jù)管理平臺(tái)建設(shè)正式進(jìn)入起步階段。隨著我國(guó)科學(xué)數(shù)據(jù)管理實(shí)踐的開展,由2011年23 個(gè)科技平臺(tái)被認(rèn)定為國(guó)家首批科技基礎(chǔ)條件平臺(tái),到2017年28 個(gè)國(guó)家科技資源共享服務(wù)平臺(tái)通過考核評(píng)估,再到2019年科技部、財(cái)政部發(fā)布了國(guó)家科技資源共享服務(wù)平臺(tái)(優(yōu)化調(diào)整后)[11],確定了20 個(gè)國(guó)家科學(xué)數(shù)據(jù)中心和30 個(gè)數(shù)據(jù)資料庫(kù),標(biāo)志著我國(guó)科學(xué)數(shù)據(jù)管理取得顯著成效。從數(shù)據(jù)資源類型構(gòu)成來看,我國(guó)國(guó)家級(jí)科學(xué)數(shù)據(jù)中心已廣泛涉及基礎(chǔ)科學(xué)、地球系統(tǒng)、生命、空間、天文、海洋、生態(tài)、對(duì)地觀測(cè)、極地、材料、計(jì)量、人口健康、農(nóng)業(yè)、林業(yè)、氣象、地震等領(lǐng)域。科學(xué)數(shù)據(jù)中心的確立及科學(xué)數(shù)據(jù)平臺(tái)的建設(shè)與發(fā)展,極大地推動(dòng)了我國(guó)科學(xué)數(shù)據(jù)管理實(shí)踐與共享工作進(jìn)程。

國(guó)家基礎(chǔ)學(xué)科公共科學(xué)數(shù)據(jù)中心平臺(tái)[12]是由中國(guó)科學(xué)院網(wǎng)絡(luò)信息中心牽頭組織,聯(lián)合中國(guó)科學(xué)院、國(guó)內(nèi)高校和其他科研院所共同建設(shè)的國(guó)家基礎(chǔ)科學(xué)數(shù)據(jù)共享服務(wù)平臺(tái),旨在聯(lián)合相關(guān)科研單位在物理、化學(xué)、天文、空間、生物等基礎(chǔ)科學(xué)領(lǐng)域的優(yōu)勢(shì)基礎(chǔ)科學(xué)數(shù)據(jù)資源,進(jìn)行科學(xué)數(shù)據(jù)的規(guī)范化管理與服務(wù)。目前,資源累計(jì)數(shù)據(jù)集達(dá)到718 個(gè),數(shù)據(jù)總量為723.48TB;累計(jì)在線訪問量為14 362.51 萬人次,累計(jì)下載量為1 992.76TB。該平臺(tái)為促進(jìn)不同學(xué)科之間數(shù)據(jù)的交叉與融合、充分發(fā)揮科學(xué)數(shù)據(jù)的潛在價(jià)值、提升科技進(jìn)步和科技創(chuàng)新提供了資源保障。

目前,我國(guó)部分科研院所和高校已著手規(guī)劃、實(shí)施各領(lǐng)域數(shù)據(jù)管理,如中國(guó)科學(xué)院資源環(huán)境科學(xué)數(shù)據(jù)中心的資源環(huán)境數(shù)據(jù)云平臺(tái),其數(shù)據(jù)資源中心通過構(gòu)建“中心本部”和9 個(gè)“分中心”的網(wǎng)絡(luò)結(jié)構(gòu)體系,并基于該體系集成了資源環(huán)境領(lǐng)域的相關(guān)科學(xué)數(shù)據(jù)管理與共享平臺(tái)。當(dāng)前,我國(guó)部分高等院校己經(jīng)建設(shè)完成了多個(gè)科學(xué)數(shù)據(jù)管理平臺(tái),如中國(guó)人民大學(xué)中國(guó)國(guó)家調(diào)查數(shù)據(jù)庫(kù)是由中國(guó)人民大學(xué)中國(guó)調(diào)查與數(shù)據(jù)中心和中國(guó)政府統(tǒng)計(jì)研究院聯(lián)合建立、以調(diào)查數(shù)據(jù)為基礎(chǔ)演變的數(shù)據(jù)管理與共享平臺(tái);復(fù)旦大學(xué)人文社會(huì)科學(xué)數(shù)據(jù)平臺(tái)[13]著重關(guān)注社會(huì)經(jīng)濟(jì)領(lǐng)域,支持跨學(xué)科領(lǐng)域的研究,已有162 個(gè)數(shù)據(jù)空間,660 個(gè)數(shù)據(jù)集,打造社科領(lǐng)域的學(xué)術(shù)研究與服務(wù)平臺(tái),為科研人員提供研究支持和數(shù)據(jù)服務(wù);北京大學(xué)開放研究數(shù)據(jù)平臺(tái)[14]包括61 個(gè)數(shù)據(jù)空間、300個(gè)數(shù)據(jù)集。還有清華大學(xué)中國(guó)經(jīng)濟(jì)社會(huì)數(shù)據(jù)中心、上海交通大學(xué)OMNILab開放數(shù)據(jù)共享平臺(tái)、武漢大學(xué)高校科學(xué)數(shù)據(jù)共享平臺(tái)等。

綜上所述,目前我國(guó)科學(xué)數(shù)據(jù)中心及科學(xué)數(shù)據(jù)管理平臺(tái)建設(shè)已初顯成效。國(guó)內(nèi)相關(guān)領(lǐng)域科學(xué)數(shù)據(jù)中心及資源庫(kù)的成功組建必將進(jìn)一步推進(jìn)我國(guó)科學(xué)數(shù)據(jù)管理與共享水平,提升我國(guó)科學(xué)數(shù)據(jù)在國(guó)際科學(xué)數(shù)據(jù)管理領(lǐng)域的競(jìng)爭(zhēng)力。

3 科學(xué)數(shù)據(jù)的管理及其存儲(chǔ)、檢索和服務(wù)

3.1 科學(xué)數(shù)據(jù)的管理

科學(xué)數(shù)據(jù)的特點(diǎn)是數(shù)據(jù)量大、變化快、分布式異構(gòu)且多源、數(shù)據(jù)多維關(guān)聯(lián)、計(jì)算分析一體化、跨區(qū)域協(xié)作、學(xué)科差異較大等。因此,構(gòu)建科學(xué)數(shù)據(jù)管理平臺(tái)應(yīng)充分考慮科學(xué)數(shù)據(jù)的特點(diǎn)。許多學(xué)者調(diào)研分析了國(guó)外的科學(xué)數(shù)據(jù)管理平臺(tái),為我國(guó)科學(xué)數(shù)據(jù)管理平臺(tái)的建設(shè)提供了參考。如覃丹[15]通過調(diào)研英美兩國(guó)高??茖W(xué)數(shù)據(jù)管理的實(shí)踐,闡述了各個(gè)平臺(tái)的整體結(jié)構(gòu)、檢索服務(wù)、導(dǎo)航服務(wù)、咨詢幫助服務(wù)以及教育培訓(xùn)服務(wù)等內(nèi)容,并介紹了Fedora、Dataverse、SDA等平臺(tái)的功能;賴劍菲等[16]通過調(diào)研國(guó)內(nèi)外科學(xué)數(shù)據(jù)管理平臺(tái)的建設(shè)現(xiàn)狀,對(duì)高校建設(shè)科學(xué)數(shù)據(jù)管理平臺(tái)提出了若干建議;王輝等[17]通過對(duì)普度大學(xué)科學(xué)數(shù)據(jù)管理平臺(tái)的調(diào)研,分析了PURR平臺(tái)的建設(shè)背景、保存政策、保存策略、工作流、參考標(biāo)準(zhǔn)、開發(fā)平臺(tái)、元數(shù)據(jù)、數(shù)據(jù)引用、數(shù)據(jù)備份、工作機(jī)制及服務(wù)等。

在我國(guó),科學(xué)數(shù)據(jù)管理平臺(tái)建設(shè)已取得一定的進(jìn)展,形成了各自的特色,為科學(xué)數(shù)據(jù)的開放共享發(fā)揮了重要的作用。如依托中國(guó)科學(xué)院計(jì)算機(jī)網(wǎng)絡(luò)信息中心建設(shè)的國(guó)家基礎(chǔ)學(xué)科公共科學(xué)數(shù)據(jù)中心是國(guó)家科技資源共享服務(wù)平臺(tái)。國(guó)家基礎(chǔ)學(xué)科公共科學(xué)數(shù)據(jù)中心平臺(tái)按照統(tǒng)一的標(biāo)準(zhǔn)規(guī)范對(duì)科學(xué)數(shù)據(jù)進(jìn)行整合,實(shí)現(xiàn)數(shù)據(jù)資源物理分布、邏輯集成、統(tǒng)一訪問和服務(wù)的功能,為科研用戶提供一站式、集成的數(shù)據(jù)資源發(fā)現(xiàn)、檢索與下載服務(wù)。該平臺(tái)支持基于內(nèi)容的關(guān)聯(lián)檢索,并能夠集成相關(guān)的數(shù)據(jù)分析工具,提供面向特定學(xué)科領(lǐng)域與應(yīng)用的特色服務(wù)。由此可以看到,科學(xué)數(shù)據(jù)管理平臺(tái)應(yīng)具備以下特點(diǎn):一是強(qiáng)大的存儲(chǔ)能力,為不同行業(yè)科學(xué)數(shù)據(jù)的匯交提供支撐;二是快速的數(shù)據(jù)處理能力,為快速、精準(zhǔn)地實(shí)現(xiàn)檢索查詢服務(wù)提供保障;三是統(tǒng)一的元數(shù)據(jù)標(biāo)準(zhǔn),確保不同科學(xué)數(shù)據(jù)倉(cāng)儲(chǔ)之間資源描述的一致性和互操作性,為不同資源系統(tǒng)之間的互操作、資源整合、跨庫(kù)檢索等奠定基礎(chǔ);四是關(guān)聯(lián)數(shù)據(jù)技術(shù),為發(fā)現(xiàn)數(shù)據(jù)之間存在的隱含關(guān)系,促進(jìn)不同學(xué)科與不同領(lǐng)域之間的協(xié)同創(chuàng)新提供技術(shù)保障;五是數(shù)據(jù)挖掘與可視化,為用戶提供直觀的、可交互的可視化技術(shù),促進(jìn)不同數(shù)據(jù)集之間的交匯與融合,提升數(shù)據(jù)利用效率。因此,科學(xué)數(shù)據(jù)存儲(chǔ)技術(shù)、科學(xué)數(shù)據(jù)檢索技術(shù)以及優(yōu)質(zhì)的科學(xué)數(shù)據(jù)檢索服務(wù)對(duì)于發(fā)揮科學(xué)數(shù)據(jù)管理平臺(tái)作用至關(guān)重要。

3.2 科學(xué)數(shù)據(jù)的存儲(chǔ)

在科學(xué)數(shù)據(jù)的存儲(chǔ)與獲取方面,元數(shù)據(jù)的描述可以提高科學(xué)數(shù)據(jù)的可發(fā)現(xiàn)性,便于科研人員對(duì)科學(xué)數(shù)據(jù)的發(fā)現(xiàn)和獲取。國(guó)內(nèi)學(xué)者對(duì)科學(xué)數(shù)據(jù)存儲(chǔ)技術(shù)進(jìn)行了廣泛的研究。如徐菲等[18]指出,描述科學(xué)數(shù)據(jù)的元數(shù)據(jù)信息,同時(shí)描述科學(xué)數(shù)據(jù)的存儲(chǔ)狀態(tài),可用來長(zhǎng)期、系統(tǒng)地維護(hù)科學(xué)數(shù)據(jù)管理工作;羅學(xué)禮等[19]通過在Linux上部署Hadoop框架搭建集群,將非結(jié)構(gòu)化數(shù)據(jù)集中式存儲(chǔ);柏雪等[20]將數(shù)據(jù)存儲(chǔ)于HDFS上,利用Hbase實(shí)現(xiàn)視頻數(shù)據(jù)及特征的分布式存儲(chǔ),同時(shí)實(shí)現(xiàn)了數(shù)據(jù)的實(shí)時(shí)讀寫,保證了科學(xué)數(shù)據(jù)存儲(chǔ)的安全性;韓德志[21]從身份認(rèn)證機(jī)制、訪問控制權(quán)限以及對(duì)數(shù)據(jù)進(jìn)行加密3 個(gè)方面確保了科學(xué)數(shù)據(jù)的安全存儲(chǔ);劉若冰[22]采用RSA加密算法和云存儲(chǔ)技術(shù),實(shí)現(xiàn)了數(shù)據(jù)的加密存儲(chǔ);敖章衡等[23]將數(shù)據(jù)文件加密并采用不同的云服務(wù)器存儲(chǔ)加密數(shù)據(jù),保證了數(shù)據(jù)的安全存儲(chǔ)。綜上所述,目前科學(xué)數(shù)據(jù)的存儲(chǔ)大致有兩個(gè)方面:一是采用分布式文件系統(tǒng)HDFS存儲(chǔ)非結(jié)構(gòu)化數(shù)據(jù);二是采用加密算法和云存儲(chǔ)技術(shù)相結(jié)合,對(duì)存儲(chǔ)的數(shù)據(jù)進(jìn)行加密,進(jìn)而存儲(chǔ)于云服務(wù)器上,保證數(shù)據(jù)的安全存儲(chǔ)。

3.3 科學(xué)數(shù)據(jù)的檢索

目前,關(guān)于科學(xué)數(shù)據(jù)管理平臺(tái)的研究較多,而對(duì)科學(xué)數(shù)據(jù)檢索技術(shù)的研究相對(duì)較少。科學(xué)數(shù)據(jù)的典型特征是多源、異構(gòu)且共享程度不一,多數(shù)平臺(tái)已有的檢索仍停留在簡(jiǎn)單的關(guān)鍵詞匹配檢索階段,存在無法實(shí)現(xiàn)智能化語(yǔ)義搜索、缺少跨語(yǔ)言檢索技術(shù)支持、跨平臺(tái)檢索能力相對(duì)不足等缺陷;有些平臺(tái)尚未對(duì)外開放接口。針對(duì)這些問題,學(xué)者們進(jìn)行了相關(guān)的研究。如韓學(xué)仁等[24]提出了一種基于Solr的空間數(shù)據(jù)語(yǔ)義搜索方案,同時(shí)引入自然語(yǔ)言處理和本體技術(shù),實(shí)現(xiàn)了基于自然語(yǔ)言查詢的空間語(yǔ)義搜索方案;馮鈞等[25]提出了一種基于Hadoop的水利元數(shù)據(jù)語(yǔ)義搜索方法,并結(jié)合水利領(lǐng)域本體對(duì)水利資源數(shù)據(jù)進(jìn)行語(yǔ)義搜索;黎建輝等[26]針對(duì)傳統(tǒng)科學(xué)數(shù)據(jù)檢索系統(tǒng)只進(jìn)行關(guān)鍵詞匹配所產(chǎn)生的檢索結(jié)果排序效果差的問題,提出了針對(duì)結(jié)構(gòu)化的科學(xué)數(shù)據(jù)的鏈接提取技術(shù),并基于此把PageRank鏈接分析應(yīng)用于科學(xué)數(shù)據(jù)排序,使排序結(jié)果更為合理;劉春蔚等[27]構(gòu)建了基于LSI的日地空間領(lǐng)域科學(xué)數(shù)據(jù)語(yǔ)義檢索模型,該模型同時(shí)支持對(duì)科學(xué)數(shù)據(jù)進(jìn)行語(yǔ)義標(biāo)注和關(guān)鍵詞提取,其召回率明顯優(yōu)于傳統(tǒng)方法;李成贊等[28]提出了一套面向科學(xué)數(shù)據(jù)的跨庫(kù)統(tǒng)一檢索、不同領(lǐng)域科學(xué)數(shù)據(jù)資源關(guān)聯(lián)及發(fā)現(xiàn)的搜索工具voovle,推動(dòng)了科學(xué)數(shù)據(jù)的共享利用;侯志偉等[29]將時(shí)間本體運(yùn)用于地球系統(tǒng)科學(xué)數(shù)據(jù)共享平臺(tái)的元數(shù)據(jù)檢索中,提高了檢全率?;谏鲜鲅芯靠芍?,雖然關(guān)于不同領(lǐng)域科學(xué)數(shù)據(jù)的檢索技術(shù)研究及試驗(yàn)已經(jīng)展開,但其范圍僅限于領(lǐng)域科學(xué)數(shù)據(jù)內(nèi)檢索技術(shù)的探索,且研究力度遠(yuǎn)遠(yuǎn)不夠,目前尚未涉及針對(duì)跨領(lǐng)域的科學(xué)數(shù)據(jù)檢索技術(shù)。因此,為了充分發(fā)揮科學(xué)數(shù)據(jù)的價(jià)值和重復(fù)利用效能,需要針對(duì)科學(xué)數(shù)據(jù)檢索方法及技術(shù)進(jìn)行探索及創(chuàng)新研究,如結(jié)合人工智能、語(yǔ)義Web技術(shù)和本體技術(shù),通過智能分析準(zhǔn)確理解用戶搜索意圖,實(shí)現(xiàn)用戶檢索與科學(xué)數(shù)據(jù)資源的精準(zhǔn)匹配,提高檢索的精準(zhǔn)度。此外,還應(yīng)加強(qiáng)檢索技術(shù)與科學(xué)數(shù)據(jù)環(huán)境的融合研究。

3.4 科學(xué)數(shù)據(jù)的檢索服務(wù)

科學(xué)數(shù)據(jù)的科學(xué)化管理只有通過檢索才能實(shí)現(xiàn)科學(xué)數(shù)據(jù)發(fā)現(xiàn)與重復(fù)利用,才能實(shí)現(xiàn)科學(xué)數(shù)據(jù)在科技創(chuàng)新中的價(jià)值,加速創(chuàng)新發(fā)展進(jìn)程。因此,面對(duì)海量化的科學(xué)數(shù)據(jù),如何為用戶提供方便快捷、準(zhǔn)確全面的一站式檢索服務(wù),是科學(xué)數(shù)據(jù)管理中需要考慮的重要問題之一。目前,關(guān)于一站式檢索服務(wù)的研究主要集中在圖書情報(bào)領(lǐng)域。如解金蘭等[30]調(diào)查了基于新門戶建設(shè)的一站式檢索平臺(tái)服務(wù)現(xiàn)狀,指出圖書館的一站式檢索服務(wù)主要是基于元數(shù)據(jù)的統(tǒng)一檢索,而且集成資源的數(shù)量較少;韋草原等[31]通過構(gòu)建科學(xué)數(shù)據(jù)用戶感知價(jià)值概念模型為科學(xué)數(shù)據(jù)檢索平臺(tái)開展智能化服務(wù)提供了建議和參考依據(jù);李磊等[32]在現(xiàn)有數(shù)據(jù)的基礎(chǔ)上通過本體構(gòu)建工具建立組織、人員及設(shè)施之間關(guān)系的知識(shí)圖譜,直觀高效地向科技管理人員提供可視化的檢索結(jié)果,并滿足了檢索結(jié)果的個(gè)性化和智能化要求,更好地為決策提供支撐??傮w上看,隨著科學(xué)數(shù)據(jù)的管理及平臺(tái)建設(shè)的深入發(fā)展,面向科研人員和科研管理人員的檢索服務(wù)功能仍需進(jìn)一步完善,尤其是科學(xué)數(shù)據(jù)環(huán)境下面向用戶及管理人員的各類檢索方法、技術(shù)及系統(tǒng)均需進(jìn)行深入地研究和開發(fā)。

4 對(duì)策建議

目前,科學(xué)數(shù)據(jù)管理研究與平臺(tái)開發(fā)在我國(guó)部分行業(yè)或領(lǐng)域已經(jīng)有序展開,而對(duì)科學(xué)數(shù)據(jù)管理環(huán)境下的檢索研究與相關(guān)應(yīng)用的進(jìn)展較為緩慢,尤其是缺乏傳統(tǒng)的信息檢索理論、方法和技術(shù)與科學(xué)數(shù)據(jù)管理環(huán)境的融合研究。本文將結(jié)合上述的我國(guó)科學(xué)數(shù)據(jù)管理研究的現(xiàn)狀,對(duì)我國(guó)科學(xué)數(shù)據(jù)組織管理與檢索的研究提出初步的對(duì)策和建議。

4.1 加強(qiáng)科學(xué)數(shù)據(jù)語(yǔ)義化組織與管理研究

目前,科學(xué)數(shù)據(jù)仍然采用傳統(tǒng)的文獻(xiàn)資源描述方式對(duì)數(shù)據(jù)進(jìn)行加工、組織與管理,缺少對(duì)數(shù)據(jù)內(nèi)容的深度揭示與語(yǔ)義關(guān)聯(lián),造成不同領(lǐng)域、不同機(jī)構(gòu)間的數(shù)據(jù)相互孤立。隨著語(yǔ)義網(wǎng)技術(shù)、關(guān)聯(lián)數(shù)據(jù)技術(shù)及領(lǐng)域本體技術(shù)發(fā)展,研究科學(xué)數(shù)據(jù)的語(yǔ)義化組織與管理工作必將進(jìn)一步打破不同機(jī)構(gòu)、不同領(lǐng)域數(shù)據(jù)之間的壁壘,實(shí)現(xiàn)數(shù)據(jù)與數(shù)據(jù)之間的深層次關(guān)聯(lián)與融合,推進(jìn)以數(shù)據(jù)為支撐的科技創(chuàng)新,為科技創(chuàng)新提供數(shù)據(jù)保障。

4.2 加大跨平臺(tái)檢索技術(shù)研究

隨著我國(guó)科學(xué)數(shù)據(jù)管理研究與實(shí)踐的快速開展,越來越多的科研機(jī)構(gòu)和專業(yè)的數(shù)據(jù)中心建立了科學(xué)數(shù)據(jù)管理平臺(tái),導(dǎo)致不同類型、不同領(lǐng)域的數(shù)據(jù)庫(kù)越來越多,數(shù)據(jù)體量越來越大,數(shù)據(jù)結(jié)構(gòu)也變得更加復(fù)雜,加之不同數(shù)據(jù)之間的相互關(guān)聯(lián)關(guān)系,導(dǎo)致跨平臺(tái)檢索的需求正在擴(kuò)大。因此,加大開展基于數(shù)據(jù)集成的跨平臺(tái)檢索技術(shù)研究,突破不同的科學(xué)數(shù)據(jù)管理平臺(tái)、不同類型數(shù)據(jù)間的障礙,為跨學(xué)科或交叉研究提供方便快捷的檢索服務(wù),將是該領(lǐng)域重點(diǎn)關(guān)注的問題之一。

4.3 優(yōu)化檢索算法

面對(duì)多領(lǐng)域、海量的科學(xué)數(shù)據(jù),縮短檢索時(shí)間、提高檢索效率是大數(shù)據(jù)時(shí)代面臨的一大挑戰(zhàn)。傳統(tǒng)信息檢索僅提供關(guān)鍵詞匹配的記錄,缺少結(jié)果排序算法,導(dǎo)致檢索用戶難以在第一時(shí)間獲得自己所需要的信息,需要探索優(yōu)化大數(shù)據(jù)管理平臺(tái)或環(huán)境下的檢索算法。而這就需要深入研究大數(shù)據(jù)環(huán)境下的索引技術(shù)、分布式或并行檢索技術(shù)、檢索結(jié)果優(yōu)化技術(shù)以及元數(shù)據(jù)技術(shù),提高科學(xué)數(shù)據(jù)的檢全率、檢準(zhǔn)率和檢索效率。

4.4 開展一站式數(shù)據(jù)檢索服務(wù)

實(shí)現(xiàn)與應(yīng)用基于語(yǔ)義的搜索技術(shù)一直是計(jì)算機(jī)領(lǐng)域和圖書館學(xué)情報(bào)學(xué)界學(xué)者們研究的目標(biāo)。雖然基于互聯(lián)網(wǎng)的語(yǔ)義搜索取得了不少成果,但是在語(yǔ)義搜索與科學(xué)數(shù)據(jù)管理服務(wù)結(jié)合的研究相對(duì)不足,面對(duì)當(dāng)前海量、多源、異構(gòu)的科學(xué)數(shù)據(jù),構(gòu)建基于語(yǔ)義的一站式數(shù)據(jù)搜索服務(wù)可以挖掘和發(fā)現(xiàn)隱藏于數(shù)據(jù)網(wǎng)絡(luò)中未知的規(guī)則和規(guī)律,通過一站式服務(wù)為用戶提供真正需要的有價(jià)值的數(shù)據(jù),促進(jìn)數(shù)據(jù)的二次利用與創(chuàng)新。因此,探索研究基于智能、語(yǔ)義搜索技術(shù)的優(yōu)化與創(chuàng)新,實(shí)現(xiàn)基于語(yǔ)義的一站式數(shù)據(jù)檢索服務(wù),為用戶提供快速、精準(zhǔn)、全面的檢索服務(wù),是后科學(xué)數(shù)據(jù)管理時(shí)代關(guān)注的重點(diǎn)內(nèi)容之一。

4.5 提供可視化檢索服務(wù)

隨著科學(xué)數(shù)據(jù)服務(wù)能力的提升,在搜索引擎中融入自然語(yǔ)言處理、機(jī)器學(xué)習(xí)等計(jì)算機(jī)技術(shù),綜合利用可視化技術(shù),將結(jié)果以圖的形式展示給用戶并揭示出檢索結(jié)果之間的內(nèi)部關(guān)系,提高檢全率和檢準(zhǔn)率,易于用戶理解,提升用戶搜索體驗(yàn)和效率。另外,科技管理人員通過檢索可視化服務(wù)可以對(duì)科學(xué)數(shù)據(jù)管理平臺(tái)中海量的科學(xué)數(shù)據(jù)進(jìn)行實(shí)時(shí)分析,通過數(shù)據(jù)分析對(duì)前沿研究熱點(diǎn)進(jìn)行預(yù)測(cè),為科技管理部門提供決策支持。通過動(dòng)態(tài)監(jiān)測(cè)科學(xué)數(shù)據(jù)管理平臺(tái)資源利用情況可以為用戶提供精準(zhǔn)的數(shù)據(jù)服務(wù),提升服務(wù)質(zhì)量。因此,研究面向數(shù)據(jù)管理人員的可視化檢索服務(wù),有利于提升科學(xué)數(shù)據(jù)管理者的管理水平,提升大數(shù)據(jù)時(shí)代科學(xué)數(shù)據(jù)的利用效率。

5 結(jié)語(yǔ)

本文從科學(xué)數(shù)據(jù)管理的內(nèi)涵與特征入手,闡述了我國(guó)科學(xué)數(shù)據(jù)管理在政策體系建設(shè)和科學(xué)數(shù)據(jù)管理平臺(tái)建設(shè)兩個(gè)方面取得的主要成效,初步分析了科學(xué)數(shù)據(jù)的管理及其存儲(chǔ)、檢索與服務(wù)。分析表明,目前科學(xué)數(shù)據(jù)管理研究與平臺(tái)開發(fā)在我國(guó)已經(jīng)有序展開,而對(duì)科學(xué)數(shù)據(jù)管理環(huán)境下的檢索研究與應(yīng)用的進(jìn)展較為緩慢,存在明顯的不同步現(xiàn)象。基于此,為了充分發(fā)揮科學(xué)數(shù)據(jù)在科學(xué)研究、發(fā)展趨勢(shì)分析與預(yù)測(cè)等方面的潛在價(jià)值,本文從科學(xué)數(shù)據(jù)語(yǔ)義化組織管理、科學(xué)數(shù)據(jù)跨平臺(tái)檢索技術(shù)、科學(xué)數(shù)據(jù)檢索優(yōu)化算法、科學(xué)數(shù)據(jù)一站式檢索服務(wù)和可視化檢索服務(wù)5 個(gè)方面對(duì)我國(guó)科學(xué)數(shù)據(jù)組織管理與檢索研究提出建議。

隨著我國(guó)各領(lǐng)域的科學(xué)數(shù)據(jù)管理研究與平臺(tái)開發(fā)的全面展開,科學(xué)數(shù)據(jù)的語(yǔ)義組織、檢索研究及應(yīng)用服務(wù)面臨著極大的挑戰(zhàn),科學(xué)數(shù)據(jù)環(huán)境下面向用戶及管理人員的智能語(yǔ)義檢索、多媒體檢索、分布式并行檢索、可視化檢索以及跨平臺(tái)/領(lǐng)域檢索、實(shí)時(shí)數(shù)據(jù)分析與挖掘、領(lǐng)域前沿?zé)狳c(diǎn)預(yù)測(cè)等均有待于進(jìn)一步地系統(tǒng)研究和開發(fā)。

猜你喜歡
數(shù)據(jù)管理檢索語(yǔ)義
企業(yè)級(jí)BOM數(shù)據(jù)管理概要
定制化汽車制造的數(shù)據(jù)管理分析
海洋環(huán)境數(shù)據(jù)管理優(yōu)化與實(shí)踐
CTCS-2級(jí)報(bào)文數(shù)據(jù)管理需求分析和實(shí)現(xiàn)
語(yǔ)言與語(yǔ)義
2019年第4-6期便捷檢索目錄
“上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
專利檢索中“語(yǔ)義”的表現(xiàn)
專利代理(2016年1期)2016-05-17 06:14:36
認(rèn)知范疇模糊與語(yǔ)義模糊
語(yǔ)義分析與漢俄副名組合
石景山区| 开原市| 尉犁县| 屏东市| 蓬溪县| 武宁县| 西和县| 内乡县| 花垣县| 加查县| 津南区| 新绛县| 黑河市| 岳西县| 乐安县| 内江市| 通城县| 余江县| 方正县| 禄劝| 阿克苏市| 隆化县| 拜城县| 从江县| 贵溪市| 大石桥市| 曲松县| 大兴区| 石首市| 中西区| 太仆寺旗| 大埔县| 忻州市| 利辛县| 宿州市| 武城县| 来凤县| 新干县| 阿拉善右旗| 寻乌县| 万安县|