羅鵬程,王繼民,聶 磊
(1. 北京大學信息管理系,北京 100871;2. 北京大學圖書館,北京 100871;3. 北京外國語大學區(qū)域與全球治理高等研究院,北京 100089)
大數據時代,科學數據的開放共享受到各方高度重視,“數據爆炸”問題正在顯現。2018 年,國務院發(fā)布《科學數據管理辦法》,明確了“開放為常態(tài)、不開放為例外”的科學數據共享原則[1]。隨后,陜西[2]、湖北[3]、江蘇[4]等十余省份陸續(xù)發(fā)布科學數據管理實施細則。國際上,美國國家科學基金會(National Science Foundation)要求項目申請時必須提交數據管理計劃[5],澳大利亞推出國家數據服務[6],歐盟建設開放科學云[7]。各類研究機構也積極建設數據倉儲,共享科學數據,如哈佛大學Dat‐averse、中國科學院科學數據云。在這一背景下,科學數據正不斷積累。據DataCite 統(tǒng)計,截至2021年10 月,科學數據集的數量達到1000 多萬;據Google 統(tǒng)計,互聯(lián)網上數據集的數量已從2016 年的50 萬快速增長到2020 年的2800 萬[8]。隨著科學研究轉向數據密集型范式,許多學科對數據的需求十分強烈,基于共享的科學數據可支撐高質量研究成果產出[9],并且研究者越來越愿意共享和復用科學數據[10-11]。目前,科學數據集分散在眾多異構的數據倉儲之中,各數據倉儲的元數據標準、數據內容存在較大差異。面對海量、多源、異構的開放科學數據集,如何高效地從中發(fā)現符合需求的有效數據正成為研究者面臨的重要問題。
目前,科學數據集檢索相關研究問題已受到許多學科領域的廣泛關注。在圖書館學、情報學領域,研究者關注數據檢索行為[12-14],DataCite、加拿大研究圖書館協(xié)會分別推出了科學數據集的統(tǒng)一發(fā)現平臺DataCite Search、Federated Research Data Re‐pository(FRDR)。在計算機領域,2018 年信息檢索 頂 級 會 議SIGIR (Special Interest Group on Infor‐mation Retrieval)和交叉綜合領域頂級會議WWW(The Web Conference) 專門組織了數據搜索研討會[15-16],Google Dataset Search 負 責 人Noy 受 邀 在2020 年數據庫頂級會議之一SIGMOD 中作主旨報告[17]。在醫(yī)學領域,美國國立衛(wèi)生研究院資助成立了生物醫(yī)學和醫(yī)療保健數據發(fā)現索引生態(tài)系統(tǒng)聯(lián)盟(biomedical and healthcare data discovery index ecosys‐tem,bioCADDIE),由該聯(lián)盟開發(fā)推出了數據集的統(tǒng)一發(fā)現平臺DataMed[18]。在社會科學領域,德國GESIS - Leibniz-Institut für Sozialwissenschaften (萊布尼茲社會科學研究所)面向社會和經濟科學推出了gesisDataSearch[19]。從2019 年開始,卡耐基梅隆大學還組織“面向數據發(fā)現與復用的人工智能研討會”,推動人工智能技術在數據發(fā)現與復用中的應用[20]。近年來商業(yè)性數據集的統(tǒng)一發(fā)現平臺也陸續(xù)推出,如Data Citation Index(DCI)、Elsevier DataS‐earch 等。
科學數據是國家重要的戰(zhàn)略資源,目前國內對科學數據集的統(tǒng)一發(fā)現平臺的研究和應用不足,阻礙了科學數據價值的釋放。本文以對互聯(lián)網上多源、異構、海量的開放科學數據集進行統(tǒng)一檢索的發(fā)現平臺為研究對象,對相關研究和應用進展進行梳理和總結,以期為進一步的研究和應用實踐提供參考。
本文將科學數據與研究數據視為同義詞,即面向研究分析目的而收集、觀察或創(chuàng)建的數據,用于支持研究結論[21]。因此,本文所指科學數據不僅涵蓋自然科學和工程技術,也包括社會科學、人文與藝術等學科。數據集是為特定目的而組織在一起的相關數據的集合[22],科學數據集則是指為研究分析目的而收集、觀察或創(chuàng)建的相關數據的集合。本文中“開放科學數據集的統(tǒng)一發(fā)現”是指針對互聯(lián)網上多源、異構、海量的開放科學數據集進行采集和組織,為用戶提供統(tǒng)一的檢索入口,幫助用戶高效地發(fā)現所需要的數據。圖1 給出了科學數據集的統(tǒng)一發(fā)現平臺的功能示意。通過發(fā)現系統(tǒng)自動從眾多數據倉儲中采集數據,為用戶提供統(tǒng)一的檢索入口,避免了用戶到每個倉儲中檢索所耗費的時間。
圖1 科學數據集的統(tǒng)一發(fā)現平臺功能示意
本文以“科學數據集發(fā)現”“scientific dataset discovery”作為查詢語句,并使用“研究”替換查詢中的“科學”,使用“檢索”“搜索”替換“發(fā)現”,使用“research”替換“scientific”,使用“re‐trieval”“search”替換“discovery”。根據以上各種同義詞替換策略的組合在中國知網、萬方數據庫和Web of Science 核心集中進行題名、關鍵詞等字段的檢索。通過以上查詢獲得的文獻數量不多,為此本文還對檢索條件進行放寬,去掉查詢中的“科學”“研究”“scientific”“research”,或者使用“數據”“data”分別替換“數據集”“dataset”。從檢索到的1000 多篇文獻中篩選出與科學數據集的統(tǒng)一發(fā)現平臺、科學數據集檢索相關性較高的論文41 篇。同時,本課題組對科學數據集的統(tǒng)一發(fā)現平臺進行了長時間的廣泛調研,在谷歌及谷歌學術中檢索與具體發(fā)現平臺相關的論文、報告、博客、網頁等。最終,本文共匯集77 篇核心論文進行綜述。此外,還納入了對相關內容進行補充的擴展性論文、報告、博客、網頁等。
國際上,已有許多科學數據集的統(tǒng)一發(fā)現平臺陸續(xù)推出[23]。根據現有科學數據集的統(tǒng)一發(fā)現平臺的構建模塊[18-19,24],將相關主要研究問題分為四類:數據集采集、數據集組織、數據集檢索、檢索結果綜合排序,如圖2 所示。本文將以該框架為基礎來組織全文內容。
圖2 科學數據集的統(tǒng)一發(fā)現平臺相關的研究問題
①數據集采集?;ヂ?lián)網中資源數量龐大,種類繁雜,科學數據集在其中占比極小。如何從海量、分散的互聯(lián)網資源中采集所需數據集,是對科學數據集進行統(tǒng)一發(fā)現的前提。②數據集組織。通過采集得到海量科學數據集的元數據,然而元數據標準眾多,質量參差不齊,需要對不同來源的元數據進行融合統(tǒng)一,對元數據質量進行評估,并在此基礎上補充和豐富元數據內容。③數據集檢索。數據集作為一種新的信息對象,其檢索特征有別于傳統(tǒng)文獻和網頁搜索,相應檢索方法正處于研究探索階段。④檢索結果綜合排序。依據檢索模型獲得的數據集,通常按照主題相關性排序呈現給用戶,然而研究表明用戶對檢索結果做出相關性判斷時會考慮數據質量等諸多因素[12]。本文第3~6 節(jié)將分別對數據集采集、組織、檢索和綜合排序相關研究進行梳理和述評。
數據集主要由元數據和數據內容組成,由于數據內容較大,且可能存在訪問限制,通常采集的數據均為元數據。
依據采集策略的不同,本文將現有科學數據集的統(tǒng)一發(fā)現平臺的采集方法分為三類:數據倉儲向發(fā)現平臺主動推送元數據,發(fā)現平臺全網掃描并篩選數據集類型網頁,發(fā)現平臺定向采集數據倉儲元數據。
(1)數據倉儲向發(fā)現平臺主動推送元數據:由發(fā)現系統(tǒng)提供統(tǒng)一的API(application programming interface)接口,各科學數據倉儲在新增或更新數據集時,通過API 接口將元數據推送給發(fā)現系統(tǒng)。目前,這種數據采集方式僅在DataCite Search 中實現。DataCite 是科學數據領域最大的DOI (digital object identifier)注冊代理機構,各個數據倉儲在注冊DOI 時,需要按照DataCite Metadata Schema[25]的要求提交元數據。因此,DataCite Search 通過數據倉儲主動推送的方式采集了大量科學數據集元數據。
(2) 發(fā)現平臺全網掃描并篩選數據集類型網頁:由網頁制作者依據特定標準對頁面內容進行描述,并將描述元數據嵌入頁面;發(fā)現系統(tǒng)采集網絡中的頁面,從網頁中解析元數據,并篩選出數據集類型的網頁。目前,這種數據采集方式僅在Google Dataset Search 中實現,主要依靠網頁制作者在頁面中嵌入的schema.org 或DCAT (data catalog vocabu‐lary)標記數據識別數據集頁面。schema.org 由谷歌等搜索引擎公司建立,用于描述網頁資源,幫助搜索引擎更好地理解頁面內容。2013 年,schema.org增加了Dataset 類型用于描述數據集頁面[26]。DCAT是W3C(World Wide Web Consortium)于2014 年發(fā)布的推薦標準,它是一個RDF(resource description framework)詞匯表,其目的在于促進Web 上發(fā)布的數據目錄之間的互操作性[27]。Google Dataset Search 依托谷歌強大的通用網頁爬蟲平臺采集網頁,解析頁面中嵌入的元數據,從中篩選出使用schema.org 的Dataset 和DataCatalog,以 及DCAT 描述的元數據,構成谷歌數據集搜索的基礎[24]。
(3)發(fā)現平臺定向采集數據倉儲元數據:由數據倉儲提供元數據收割協(xié)議,發(fā)現系統(tǒng)評估、選擇符合需求的數據倉儲,并通過收割協(xié)議采集元數據。目前,這種數據采集方式應用最多,如DCI、DataMed、gesisDataSearch、Mercury 等。在 定 向 數據采集中,發(fā)現系統(tǒng)需要依據一定的標準遴選數據倉儲。DCI 考慮了多種定性、定量因素來對倉儲進行綜合評價,包括倉儲持久性和穩(wěn)定性、資助情況、作者身份的多樣性等,并且要求提供英文元數據[28]。DataMed 則以標準、互操作性、可持續(xù)性、整體質量、用戶需求等作為數據倉儲的選擇標準[29]。此外,FAIRsharing 和DataCite 面向期刊論文支撐數據存儲制定倉儲評價標準[30-31],這些標準對發(fā)現系統(tǒng)選擇數據倉儲具有參考價值。在數據倉儲選定后,需要依據收割協(xié)議采集數據。最常用的收割協(xié)議為OAI-PMH(Open Archives Initiative Protocol for Meta‐data Harvesting),例如,DCI[32]、FRDR(Federated Re‐search Data Repository)[33]、gesisDataSearch[19]、Mer‐cury[34]均采用該協(xié)議采集元數據。除了OAI-PMH外,一些發(fā)現系統(tǒng)會提供多種數據收割方式,例如,Research Data Australia提供直接收割、OAI-PMH收割、OGC CSW(Open Geospatial Consortium Catalogue Ser‐vice for the Web) 收 割、 CKAN (Comprehensive Knowledge Archive Network)收割四種方式[35]。
不同數據采集方法各有特點,適用于不同場景和應用需求。表1 從采集效率、及時性、數據覆蓋率、自動化程度、實現難度和應用數量六個角度給出了三種采集方法的對比情況。
表1 三種數據集采集方法對比
對于數據倉儲主動推送的方法,通常會在數據集新增或更新時,由數據倉儲按照統(tǒng)一的元數據標準,向發(fā)現系統(tǒng)推送元數據。因此,它具有采集效率高、數據更新及時、自動化程度高的優(yōu)勢。然而,通常情況下發(fā)現系統(tǒng)提供方對數據倉儲提供方沒有約束力,無法要求所有數據倉儲都為發(fā)現系統(tǒng)推送元數據。因此,這種數據采集方式很難實現,實踐中的應用數量很少。對于數據覆蓋率,以Data‐Cite Search 為例,其中注冊倉儲數量達到2000 多個,覆蓋了許多有影響力的科學數據倉儲,但并非所有倉儲都會注冊DOI,數據覆蓋率適中。
對于發(fā)現系統(tǒng)全網掃描的方法,由于需要采集海量互聯(lián)網頁面,而科學數據集頁面僅占其中很小比例,并且網頁抓取有一定的時間周期。因此,它具有實現難度大、采集效率低、更新有時延的特點,在實踐中的應用數量很少,通常僅適合擁有海量Web 資源庫的大型搜索引擎公司。這種數據采集方法基于爬蟲獲取數據,面對的元數據格式相對單一,自動化程度高。過去,采用schema.org 和DCAT描述頁面的數據倉儲較少,例如,Khalsa 等[36]在2017 年的調查顯示,僅有13%的科學數據倉儲使用了schema.org。不過現在已有越來越多的倉儲提供schema.org 和DCAT 元數據,以Google Dataset Search為例,2020 年其收錄數據倉儲3700 多個[8],高于其他類型的發(fā)現平臺,具有相對較高的數據覆蓋率。
對于發(fā)現系統(tǒng)定向采集的方法,通常按照一定時間間隔采集指定數據倉儲,其采集效率適中,有一定時延。由于數據采集過程中涉及數據倉儲的評價與選擇,新增倉儲會因為數據收割協(xié)議和元數據標準的不同,需要人工參與采集程序的修改,如DataMed 新增數據攝入插件(ingest consumer)需要半天到數天的開發(fā)時間[18],因而其自動化程度不夠高。定向采集的數據倉儲通常限定在一定范圍內(如特定的國家、學科),倉儲數量偏向于中小規(guī)模,通常從數十個到上千個不等。相比于前兩種采集方法,定向采集實現相對容易,采集效率適中,在實踐中應用得最為廣泛。
數據集的組織主要通過元數據實現,現有研究和應用主要關注多源元數據的融合,以及科學數據集的元數據質量分析與元數據信息豐富等研究問題。
科學數據的元數據標準眾多,包括通用元數據標準、學科領域元數據標準等數十種[37]。面對繁雜的元數據格式,發(fā)現系統(tǒng)需要設計一個統(tǒng)一的元數據模型,將不同來源的元數據進行融合。目前,主要有兩種實現方法:僅考慮通用信息的多源元數據融合,以及同時考慮通用和學科特有信息的多源元數據融合。
1)僅考慮通用信息的多源元數據融合
不同元數據標準雖然各有特色,但都具有標題、創(chuàng)建者等通用信息。因此,最簡單的多源元數據融合方法,便是將不同來源的元數據映射到一個通用的元數據模型。目前,絕大多數通用科學數據集的統(tǒng)一發(fā)現平臺均采用該方法。例如,DataCite Search 的元數據模型為DataCite Metadata Schema[25],Google Dataset Search 的元數據模型與schema.org 的Dataset 元數據類似[24],英國Research Data Discovery Service 的元數據模型與DataCite Metadata Schema 相似[38-39],Research Data Australia 的元數據模型為RIFCS(registry interchange format - collections and servic‐es)[40],它們均為通用元數據模型。此外,一些面向特定學科的發(fā)現系統(tǒng)也會采用通用元數據模型。例如,gesisDataSearch 使用Dublin Core(DC)作為它的元數據模型[19]。
基于通用元數據模型的融合方法的優(yōu)點在于其復雜度低,映射規(guī)則簡單,易于實現,但是存在學科特有信息丟失的問題。L?ffler 等[41]對生物多樣性領域研究者的數據需求進行分析發(fā)現,通用元數據標準對用戶需求的覆蓋度較低,而學科領域元數據標準能更全面地覆蓋用戶需求。因此,僅考慮通用信息的多源元數據融合方法在滿足學科個性化數據需求上存在一定的困難。
2)同時考慮通用和學科特有信息的多源元數據融合
為了保留更多信息,一些發(fā)現系統(tǒng)在設計元數據模型時會納入學科特有信息。加拿大FRDR 以DC 為基礎進行多源元數據的融合,制定了不同元數據標準到DC 的映射方案[42]。任何無法映射到DC的字段,將保留原始的元數據信息,這些特有的元數據也會被索引,并可做出定制化的搜索[33]。DataMed構建了DATS(data tag suite)元數據模型,該模型包括核心元素和擴展元素兩個部分。核心元素較為通用,適用于任何類型數據集的描述;擴展元素用于特定學科數據集的描述,目前DATS 包括一個初始的面向生命、環(huán)境、生物醫(yī)學領域的擴展元數據集合[43]。
引入學科特有信息的多源元數據融合方法的優(yōu)點在于其可保留更多信息,有助于滿足學科用戶個性化的數據檢索需求,提升檢索效果。由于考慮了學科因素,會導致映射規(guī)則增多,模型復雜度上升,系統(tǒng)實現和維護難度加大。因此,該多源元數據融和方法通常在面向特定領域的科學數據集的統(tǒng)一發(fā)現平臺中應用。
元數據是當前科學數據集檢索最主要的依據,其質量的高低直接影響到數據集的發(fā)現效果。已有大量研究對科學數據集的元數據質量進行了分析,并在此基礎上探索如何利用各種技術手段和外部資源來豐富數據集的元數據信息。
1)科學數據集的元數據質量
與傳統(tǒng)文獻信息的組織主要通過專業(yè)人員來對資源進行描述不同,科學數據倉庫中的元數據主要由用戶提供。由于缺乏控制,元數據普遍存在質量問 題。對Dryad[44-45]、BioSample[46]、BioSamples[46]、Gene Expression Omnibus[47]等科學數據倉儲的分析發(fā)現,元數據存在錯誤、不一致、不規(guī)范等問題;一些平臺還允許用戶自定義元數據信息,使得元數據字段字存在重復、不一致等問題[46]。發(fā)現系統(tǒng)采集的元數據來自科學數據倉儲,由于來源倉儲的元數據存在缺失等質量問題,導致發(fā)現系統(tǒng)獲取的元數據質量不高。對DataONE (data observation net‐work for earth) 分析發(fā)現,其元數據字段在標識、發(fā)現、評價、獲取、集成五個方面的完整度均在70%左右或以下[48]。一些發(fā)現系統(tǒng)采集的元數據格式并非科學數據倉儲底層使用的元數據模型,由于元數據格式轉換等問題,采集的元數據質量降低。例如,Google Dataset Search 采集的元數據存在“可能出錯的地方都會出錯”的問題[24],DataCite 大量推薦和可選的元數據字段缺失嚴重[49]。
在構建科學數據集的統(tǒng)一發(fā)現平臺時,由于元數據存在錯誤、不規(guī)范等問題,需要對其進行大量清洗和規(guī)范化,發(fā)現元數據中頻繁出現的模式,制定相應規(guī)則來消減錯誤。例如,Google Dataset Search從schema.org 元數據的多個字段中提取文件格式、下載地址、DOI 標識符,對不同格式的日期進行規(guī)范化[24]。由于元數據存在信息缺失的問題,需要利用各種手段和外部資源來對其進行補充,豐富數據集的描述信息。
2)科學數據集的元數據豐富
目前研究和應用中對元數據豐富的探索主要包括:提取元數據中的重要實體、獲取數據集的關聯(lián)文獻、利用外部資源來補充數據集信息等。
數據集元數據中包含一些重要實體,通過提取這些實體,可為后續(xù)數據集檢索功能優(yōu)化奠定基礎。Lafia 等[50]從標題、描述和關鍵詞中識別主題詞和地理位置,并將識別的實體鏈接到美國國會圖書館規(guī)范主題詞和DBpedia 地理位置中。gesisDataSe‐arch 從元數據中識別出命名實體,并使用Open‐StreetMap 來確定地名實體的坐標位置[19]。DataMed擁有生物醫(yī)學命名實體識別模塊,用于為每個數據集提取一些語義概念集合[18]。將元數據中的重要實體提取出來,并關聯(lián)到外部的語義概念資源庫,可為后續(xù)基于概念、地理位置進行檢索提供必要信息。
數據集的關聯(lián)文獻可用于描述數據集的使用環(huán)境,關聯(lián)文獻的文本信息可提供更多檢索點,同時關聯(lián)文獻也可用于評估數據集的價值。目前,數據集關聯(lián)文獻的獲取主要包括兩種方法:通過DOI 來識別文獻對數據集的引用,以及通過文獻全文挖掘識別數據集標題和鏈接地址?;贒OI 的方法較為準確可靠,在實際應用中使用較多。例如,Google Dataset Search 通過DOI 實現了數據集與谷歌學術中的文獻的關聯(lián)[51],DataCite 通過在文獻全文中搜索匹配DOI 來實現與數據集的關聯(lián)[52]。由于數據引用不規(guī)范,文獻中大量的數據引用并沒有DOI,而主要通過數據集標題、URL(uniform resource locator)地址等實現引用。通過對文獻全文進行分析挖掘,可提取該引用信息。Ghavimi 等[53]通過人工參與數據集標題與文獻全文中句子的匹配與判斷,半自動地提取對數據集的引用。Lu 等[54]利用機器學習分類方法,以及數據集標題與URL 鏈接在不同文獻中的共現情況,來識別數據集標題及其對應的鏈接。由于通過文獻全文挖掘識別數據集關聯(lián)文獻的方法不能實現完全準確,其在實踐中應用較少。
此外,一些研究者還探索了利用外部資源來補充數據集信息。由于數據集的描述信息中可能會缺失研究領域等重要信息,而這些信息可能在來源數據倉儲的“關于”頁面中存在,因此Karisani 等[55]利用該信息補充對數據集的描述。Wei 等[56-57]從生物醫(yī)學領域數據集中識別出連接到基因表達數據庫(Gene Expression Omnibus)的序列記錄,收集序列記錄的摘要、標題、總體設計三個字段的信息用于豐富數據集的描述。Singhal 等[58-59]使用數據集標題在學術搜索引擎中進行檢索,將檢索出的文獻標題、主題詞作為數據集的擴展上下文信息。
在多源元數據融合方面,由于采集的元數據都主要映射到一個數據通用元數據模型,導致很多數據集的發(fā)現平臺無法提供更加精細的檢索功能。例如,除了查詢詞檢索外,DataCite Search 僅有注冊年、資源類型、隸屬機構三個字段的篩選功能。同時,映射過程中學科特有信息的丟失,會影響查詢匹配的效果。雖然DATS 構建了包含通用和學科領域信息的元數據模型,但目前只有特定學科的擴展信息,本質上仍是領域元數據模型。因此,有必要對現有各個學科領域的元數據模型進行分析,建立一個通用的、能涵蓋各學科領域的統(tǒng)一元數據模型。在模型構建中,除了考慮國際上主流的元數據標準,也應將國內相關元數據標準(如中國科學院制定的生態(tài)科學數據元數據、土壤科學數據元數據等標準[60])作為重點進行考慮。
在元數據質量與豐富方面,現有研究主要通過人工統(tǒng)計分析來發(fā)現元數據中存在的質量問題,有必要建立一個面向科學數據集發(fā)現平臺的元數據質量評價體系及自動化評價方法,對采集到的元數據質量進行評估,并用于檢索排序中(優(yōu)質數據集可能會有更豐富的描述信息)。在數據集和文獻關聯(lián)識別中,現有應用主要通過DOI 來識別關聯(lián)關系,但絕大多數論文對數據集的引用缺乏DOI 信息。目前通過文獻全文來挖掘識別數據集引用的研究還很少,相關研究也僅在特定學科的小批量數據集上進行方法探索,識別精準度不夠高。此外,當前發(fā)現系統(tǒng)都只采集數據集的元數據,缺乏對數據集內容的挖掘利用。據本課題組調研,目前僅Chen 等[61-62]利用機器學習方法從數據集中表格數據內容生成模式標簽,用來補充元數據信息。事實上,數據集本身也包含豐富的信息,如數據文件名稱、說明文檔、數據內容等,這些信息能夠被部分采集到(如文件名稱、說明文檔),把這些信息補充到元數據中,將有利于數據集的檢索匹配。
目前,數據集檢索相關研究主要在傳統(tǒng)信息檢索模型的基礎上,通過查詢擴展來提高召回率,通過相應排序優(yōu)化算法來提高檢索精度。
自然語言中普遍存在同義詞、近義詞、概念包含等關系,而數據集檢索中的用戶查詢很短[63-65],通常不會包含其信息需求的所有詞匯表達。為了提高科學數據集檢索的召回率,已有大量研究對查詢擴展方法進行了探索,包括基于本體的查詢擴展、基于搜索結果的查詢擴展、基于詞向量的查詢擴展,如表2 所示。
1)基于本體的查詢擴展
本體資源庫中的同一概念的不同表達、上下位概念等關系可以對用戶查詢進行有效擴充。目前,基于本體的查詢擴展主要應用在面向特定學科的數據集檢索研究中。例如,儀表領域[66]、林業(yè)領域[67]、生物醫(yī)學領域[18,55-57,68-70]、社會科學領域[71]、生態(tài)學領域[72]。一些科學領域在長期的數據管理實踐中,會更傾向于使用領域敘詞表中的詞匯描述數據集,這使得通過領域本體可以更好地檢索數據集。例如,Porter[73]對生態(tài)學領域的科學數據進行分析,發(fā)現相比于一般的關鍵詞,在LTER(long-term eco‐logical research)敘詞表中的詞能夠更好地檢索數據集。此外,多語言版本的本體資源還能實現跨語言檢索,例如,Vanderbilt 等[72]使用EnvThes 檢索多語種的生態(tài)學數據集。目前,基于本體的查詢擴展方法在一些學科領域數據集的發(fā)現平臺中已有應用,如DataMed[18]。由于本體的研制成本高,缺乏足夠精細和覆蓋面的通用本體資源,限制了該方法在通用數據集搜索中的應用。
2)基于搜索結果的查詢擴展
搜索結果中會包含一些與查詢相關的詞匯,這些相關詞匯可用于查詢擴展。目前該類方法主要利用兩類搜索結果:一類是來自外部檢索系統(tǒng)的搜索結果,例如,Karisani 等[55]使用商業(yè)垂直搜索引擎獲取的維基百科和NCBI (National Center for Bio‐technology Information)網站檢索結果中的詞來擴展查詢,Wei 等[56-57]基于谷歌檢索的結果來擴展查詢;另一類是來自內部數據集檢索系統(tǒng)的搜索結果,這類方法也被稱為偽相關反饋,主要使用檢索結果中的文本內容來擴展查詢[55,69,74]。由于數據集檢索中包含時間、地理位置的查詢的占比高[64-65,75],一些學科領域數據集的時空信息對于相關性判斷十分重要。為此,Takeuchi 等[76-77]提出了基于時間和空間的偽相關反饋方法,來獲取與初始數據集檢索結果具有相似時空分布的數據集。與本體查詢擴展方法相比,基于搜索結果的查詢擴展不依賴于人工構造的資源庫,能夠適應不同的應用領域。但檢索結果具有一定數量的噪聲詞,會降低其查詢擴展的質量。
3)基于詞向量的查詢擴展
詞向量能夠表達詞匯之間的語義關系,已有研究者將其應用于科學數據集檢索的查詢擴展之中。例 如, Teodoro 等[78]、 Wang 等[79]基 于word2vec,Scerri 等[70]、Cieslewicz 等[74]基于fastText 訓練 獲 得詞向量對查詢進行擴展。詞向量可以基于不同語料文本訓練得到,如數據集的元數據、科學文獻數據,不同語料訓練得到的詞向量會影響查詢擴展的效果。Teodoro 等[78]在bioCADDIE、 PMC (PubMed Cen‐tral)、Medline 三個語料上訓練word2vec,結果顯示在Medline 上訓練的詞向量效果最優(yōu)。此外,通過不同模型獲得的詞向量,質量也有所不同,Scerri等[70]和 Cieslewicz 等[74]研 究 發(fā) 現 fastText 較word2vec、GloVe 具有更優(yōu)的效果。與本體方法相比,基于詞向量的查詢擴展方法能夠適應不同的應用領域,只要提供足夠的領域文本,便可以自動獲取高質量的詞向量。
表2 查詢擴展方法
為了提高科學數據集檢索的精度,一些研究將檢索過程分為兩個階段。在第一階段,使用BM25等高效的檢索方法獲取候選的相關數據集,這一階段通常會進行查詢擴展,以提高召回率。在第二階段,取第一階段排名靠前的數據集,使用更加精細的方法對數據集的相關性重新評分。目前,第二階段檢索結果排序優(yōu)化主要包括兩類方法。一類是基于啟發(fā)式規(guī)則計算數據集的相關性,例如,Teodoro等[78]對查詢和數據集自動分類,將與查詢類別相同的數據集的得分進行提升;Wang 等[79]統(tǒng)計數據集元數據中與查詢具有相同實體的數量,將實體數量多的數據集得分進行提升;Wei 等[56-57]考慮查詢中不同詞的重要性,使用偽順序依賴模型(pseudo se‐quential dependence,PSD)對數據集的相關性重新評分。另一類是使用機器學習方法從訓練數據中學習排序規(guī)則,例如,Karisani等[55]基于手工制定的特征,使用MART(multiple additive regression trees) 學習排序算法對檢索結果重新排序。目前,由于科學數據集檢索領域缺乏大規(guī)模的標注數據,學習排序方法效果不佳,而基于啟發(fā)式規(guī)則的檢索結果優(yōu)化方法不需要訓練數據,因而研究中應用得相對較多。此外,一些研究還利用代數的方法來提升檢索效果,例如,劉春蔚等[80]利用潛在語義索引來檢索數據集。
現有科學數據集檢索系統(tǒng)主要依賴傳統(tǒng)信息檢索模型,對科學數據本身特性的挖掘不夠。在科學數據集的統(tǒng)一發(fā)現平臺中,DataMed[18]、gesisDataS‐earch[19]、DataCite Search[81]基 于ElasticSearch,Else‐vier DataSearch[82]、Mercury[83]基于Solr 實現數據集搜索,相應的檢索模型基本都為經典的向量空間模型、概率模型等。在科學數據集檢索方法研究中,也都主要在傳統(tǒng)信息檢索模型的基礎上,通過查詢擴展等方法來優(yōu)化檢索結果。相關用戶研究表明,科學數據集檢索與文獻和網頁檢索存在差異[84-86]。例如,查詢詞非常短[63-65,75],包含更高比例的數字、時間、地理位置等信息[64-65,75],元數據和數據內容在查詢匹配中都具有重要的作用[87]。目前,科學數據集的檢索主要基于元數據文本匹配,對查詢中時間、空間等特性關注度不高。
查詢詞不一定能有效地表達用戶數據需求,目前僅少量研究對非關鍵詞檢索模型進行了探索。對于一些科學領域,使用數據范圍(如水溫、時間、空間范圍)能更好地表達用戶需求。Megler 等[88-90]構建了Data Near Hear 系統(tǒng),使用基于距離的指標來衡量查詢范圍和數據集范圍的相似度,據此來檢索排序海岸帶觀察數據集?,F有數據集檢索系統(tǒng)主要基于倒排索引來檢索匹配元數據文本,對其他數據結構檢索的探索較少。Zhang 等[91]研究探索了適合不同類型查詢(字符串、數字)的最優(yōu)數據結構(如哈希表、Trie、自平衡搜索樹等)。對于特定學科領域,科學數據的同質性更高,用戶學科個性化數據需求更多,因而有必要尋找更適合學科用戶需求的信息檢索模式,提高數據集檢索的效果。
測評數據對于檢索模型的比較和發(fā)展具有重要的作用,現有科學數據集檢索研究領域缺乏高質量、大規(guī)模的測評數據。據本課題組調研,目前僅bioCADDIE 組織了生物醫(yī)學領域數據集檢索挑戰(zhàn)賽[92],并公開其數據集[93],但是該數據集的標注數量非常有限。當前,深度學習方法在文檔檢索領域有較多的研究和應用,如BERT (bidirectional en‐coder representation from transformers)排序模型取得了比傳統(tǒng)檢索方法更優(yōu)的效果。由于深度學習模型需要大規(guī)模標注數據,現有測評數據集無法滿足深度學習模型的訓練要求。因此,需要進一步加強科學數據集檢索領域高質量、大規(guī)模測評數據的建設,豐富通用領域、各個學科領域可用的測評數據集。
在第5 節(jié)中,檢索結果排序主要依據數據集與用戶查詢的主題相關性,已有研究表明,用戶會基于許多因素對科學數據集的相關性進行判斷。本節(jié)將對科學數據集檢索綜合排序中的相關性判據(relevance criteria)及排序方法研究進行梳理和總結。
對于科學數據集檢索系統(tǒng)返回的結果,用戶會根據一定的評價標準來判斷其是否滿足需求。目前,國內外已有學者對科學數據集檢索中的用戶相關性判據進行了探索,表3 給出了現有研究中提及較多的相關性判據。
在這些判據中,主題相關性最為重要[94-95]。用戶主要通過數據集元數據中的標題、摘要、關鍵詞等信息來判斷數據集是否主題相關,部分用戶會在查看數據內容后做出最終判斷。除主題相關性外,數據集的可獲得性、質量、權威性也被國內相關研究提及較多[12,94-102]。科學數據集的開放程度不一,如果數據無法或者難以獲取,即使主題相關性很高對用戶來說也不具有價值。Gregory 等[101]通過用戶調查發(fā)現,73%的用戶認為易于獲取重要或者非常重要,趙華等[94]通過用戶訪談發(fā)現可獲取性的重要性僅次于主題相關性??茖W數據本身的準確度和有效性直接影響到研究結論,因而數據集的質量對于相關性判斷非常重要。張貴蘭等[97]通過訪談發(fā)現,數據集質量出現的頻次位于第二位,僅次于主題性;而通過問卷調查發(fā)現質量的重要性排名第一。權威性在數據集相關性判斷中也具有重要的地位,它本質上反映的也是數據集的質量,來自高權威性作者和機構的數據集,能使用戶相信其具有較高的質量[102]。Gregory 等[101]通過用戶調查發(fā)現,71%的用戶認為數據來源的聲譽重要或非常重要。張貴蘭等[97]通過問卷調查發(fā)現,權威性的重要程度排名第三,僅次于質量和主題性。除以上相關性指標外,時效性、可理解性、新穎性、便利性、規(guī)范性、可用性、全面性等指標在研究中也有較多的提及。此外,用戶相關判斷依據會隨著學科特點而變化,Gregory 等[12]研究發(fā)現天文學、地球和環(huán)境科學、生物醫(yī)學、田野考古、社會科學的相關性判據都有所不同。
目前,科學數據集的統(tǒng)一發(fā)現平臺中的檢索結果主要基于主題相關性排序,對科學數據集的綜合排序方法的研究還比較少,僅在少量相關性判據上進行了研究和應用探索。在數據集質量方面,Google Dataset Search 在檢索結果排序中引入了元數據質量因素[24]。在數據集權威性方面,藤常延等[103]引入HITS(hyperlink-induced topic search)算法,黎建輝等[104]和騰常延[105]引入PageRank 算法來衡量數據集的重要性。Google Dataset Search 引入數據集所在網頁的重要性對檢索結果進行排序[24]。在數據集的可獲取性方面,Research Data Australia 和Google Datas‐et Search 分別提供了獲取(開放、有條件開放、受限)、使用授權(允許商業(yè)用途、不允許商業(yè)用途)的分面篩選功能。
此外,一些研究利用計量方法對數據集質量進行評價,這對于科學數據集的綜合排序也有參考價值。傳統(tǒng)圖書情報學領域對文獻等學術成果質量的評價主要采用基于引用的指標,DCI 中可提供科學數據集的引用量。然而,當前科學數據引用不規(guī)范,數據集引用量極低。因此,一些研究探索利用替代計量指標來對數據集的質量進行測度。李龍飛等[106]通過獲取地球系統(tǒng)科學數據共享平臺中的使用數據來測度科學數據集的價值。在國外,加州數字圖書館、公共科學圖書館(Public Library of Sci‐ence,PLoS)、地球數據觀測網構建了Making Data Count 服務,通過基于PLoS 的文章級計量工具,為科學數據集提供來自CiteULike、Twitter 等13 個數據源的替代計量指標[107]。
表3 相關性判據
現有研究對科學數據集檢索結果綜合排序中的相關性判據進行了較多探索,但是缺乏對相關性判據量化方法的研究。目前,Google Dataset Search 在數據集排序中引入網頁重要性排序指標,但是數據集所在頁面常位于“長尾”部分且缺乏相互鏈接,排序差異通常不具有意義[24]。DCI 雖然包含數據集的被引情況,但當前科學數據引用不規(guī)范,絕大多數數據集都不具有引用量。替代計量指標數據的收集難度大,現有研究還處于初步探索階段。前述相關研究主要是在數據集的質量和權威性方面進行探索,其他如時效性、可用性等大量非主題相關性判據還缺乏關注。因此,需要進一步加強相關性判據的量化方法研究。
現有研究對用戶相關性判據的探索都主要采用用戶問卷調查、訪談等方式獲取數據,這些研究方法有助于得到可能影響排序的相關性指標,但是不能準確、可靠地分析出相應指標如何影響檢索結果排序的質量。對檢索結果綜合排序的研究,需要以實際應用系統(tǒng)真實的用戶需求和用戶交互的詳細日志為基礎,通過控制變量,能更準確有效地分析出各相關性判據對檢索效果的影響。由于研究者很難接觸到發(fā)現平臺的后臺數據,因此還需要加強公開可用的科學數據集搜索日志數據集的建設,以促進研究者對真實用戶行為和相關性判據的深入分析。
隨著開放科學和開放獲取運動的發(fā)展,科學數據的共享與復用受到重視,互聯(lián)網上科學數據集的數量迅速增長。為了幫助研究者從多源、異構、海量的科學數據中快速地發(fā)現所需數據,科學數據集的統(tǒng)一發(fā)現平臺應運而生。本文對國內外科學數據集的統(tǒng)一發(fā)現平臺相關研究與應用實踐進行了廣泛調研,依據現有發(fā)現平臺的構建模塊,分別從數據集采集、數據集組織、數據集檢索、檢索結果綜合排序四個方面總結現有研究進展。總體來看,現有研究已經對科學數據集采集、組織、檢索和排序方法進行了廣泛的研究,有效地推動了科學數據集的統(tǒng)一發(fā)現平臺的建設。
歐美發(fā)達國家非常注重科學數據集的統(tǒng)一發(fā)現平臺的構建,已經建立了一批研究原型和應用系統(tǒng),包括:涵蓋多個國家、多個學科領域的通用發(fā)現平臺,如DataCite Search、Data Citation Index、Else‐vier DataSearch、Google Dataset Search;面向特定國家的發(fā)現平臺,如澳大利亞Research Data Australia、加拿大Federated Research Data Repository、英國Re‐search Data Discovery Service;面向特定學科的發(fā)現平臺,如生物醫(yī)學DataMed、社會科學gesisDataSeach、地球與環(huán)境科學DataONE。國內對科學數據集的統(tǒng)一發(fā)現平臺的研究相對匱乏,實踐應用中也缺少收錄范圍足夠廣的發(fā)現平臺,僅有中國科技資源共享網、中國科學院科學數據云提供數據集的統(tǒng)一發(fā)現服務。前者僅收錄受國家資助的20 個理工科數據倉儲,后者為機構級的發(fā)現平臺。因此,我國還應繼續(xù)加強科學數據集的統(tǒng)一發(fā)現平臺的建設力度。