王蕾 方安 楊雨生 范云滿 王茜
技術(shù)與應(yīng)用
多源期刊元數(shù)據(jù)匯聚研究*——以世界衛(wèi)生組織西太平洋地區(qū)醫(yī)學(xué)索引為例
王蕾 方安 楊雨生 范云滿 王茜
(中國醫(yī)學(xué)科學(xué)院醫(yī)學(xué)信息研究所,北京 100020)
基于世界衛(wèi)生組織西太平洋地區(qū)醫(yī)學(xué)索引(WPRIM)開發(fā)建設(shè)過程中數(shù)據(jù)資源的現(xiàn)狀和期刊元數(shù)據(jù)匯聚面臨的問題,從期刊文獻數(shù)據(jù)源遴選、元數(shù)據(jù)標(biāo)簽映射、內(nèi)容著錄規(guī)范化、非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換4個維度設(shè)計多源數(shù)據(jù)匯聚方案。結(jié)果表明,面向WPRIM的多源期刊元數(shù)據(jù)匯聚框架能夠較好地解決多源期刊數(shù)據(jù)匯聚問題,可為類似場景提供方案參考。
數(shù)據(jù)匯聚;多源數(shù)據(jù);西太平洋地區(qū)醫(yī)學(xué)索引;多源異構(gòu)
如何快速整合分散于各國尤其是發(fā)展中國家的專業(yè)領(lǐng)域文獻[1],消除各國資源之間的信息孤島,建立開放服務(wù)的資源共享機制[2],是走向數(shù)據(jù)融合和知識融合的關(guān)鍵問題,也是當(dāng)前世界衛(wèi)生組織西太平洋地區(qū)醫(yī)學(xué)索引(WHO Western Pacific Region Index Medicus,WPRIM)面臨的主要挑戰(zhàn)。本文以中國醫(yī)學(xué)科學(xué)院醫(yī)學(xué)信息研究所開發(fā)并建設(shè)的WPRIM[3]為例,探索各國數(shù)據(jù)來源復(fù)雜、元數(shù)據(jù)標(biāo)準(zhǔn)不同、數(shù)據(jù)著錄水平參差不齊、結(jié)構(gòu)化程度不一致背景下多國醫(yī)學(xué)領(lǐng)域文獻的匯聚策略與方法,總結(jié)多源期刊匯聚過程中的優(yōu)勢與不足,以期提供高質(zhì)量的索引服務(wù),為相關(guān)機構(gòu)開展多國、多源專業(yè)文獻數(shù)據(jù)匯聚提供方案參考。
截至2020年底,WPRIM收錄了包括中國、日本、韓國、蒙古、菲律賓、馬來西亞、新加坡、老撾、越南、斐濟、文萊、巴布亞新幾內(nèi)亞等國家出版的西太平洋地區(qū)科技期刊論文、灰色文獻等生物醫(yī)學(xué)領(lǐng)域文獻資源,其中生物醫(yī)學(xué)期刊665種。匯聚對象來源方面,WPRIM收錄期刊的數(shù)據(jù)來源包括期刊編輯部和第三方數(shù)據(jù)平臺兩類。來自編輯部的數(shù)據(jù)一般通過人工錄入或上傳可擴展標(biāo)記語言(XML)文件的方式進行數(shù)據(jù)匯交;來自第三方數(shù)據(jù)平臺(包括韓國KoreaMed、日本科學(xué)技術(shù)信息集成系統(tǒng)(J-STAGE)、美國PubMed等)的數(shù)據(jù)由WPRIM平臺統(tǒng)一管理采集。匯聚對象元數(shù)據(jù)標(biāo)準(zhǔn)方面,編輯部提供的結(jié)構(gòu)化數(shù)據(jù)主要采用JATS[4-7]作為元數(shù)據(jù)標(biāo)準(zhǔn);第三方數(shù)據(jù)平臺提供的數(shù)據(jù)采用KoreaMed標(biāo)簽集、J-STAGE標(biāo)簽集以及JATS等元數(shù)據(jù)標(biāo)準(zhǔn)。匯聚對象結(jié)構(gòu)化程度方面,WPRIM元數(shù)據(jù)對象包括結(jié)構(gòu)化[8-10]期刊數(shù)據(jù)、非結(jié)構(gòu)化期刊數(shù)據(jù)與半結(jié)構(gòu)化期刊數(shù)據(jù)。結(jié)構(gòu)化期刊數(shù)據(jù)一般保存在XML文件中并進行數(shù)據(jù)傳輸,如期刊匯交XML格式的數(shù)據(jù)文件至WPRIM數(shù)據(jù)管理平臺。非結(jié)構(gòu)化數(shù)據(jù)通過TXT或HTML格式的文本文件進行數(shù)據(jù)交換,如部分編輯部提供方正書版導(dǎo)出的文本形式的數(shù)據(jù)進行數(shù)據(jù)匯交。半結(jié)構(gòu)化數(shù)據(jù)是介于結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)之間的一種數(shù)據(jù)對象,主要存在于XML文件或接口采集的成果中。
1.2.1 同一期刊存在多個數(shù)據(jù)來源
部分WPRIM收錄的期刊存在同一期刊數(shù)據(jù)來源多樣的情況,即同一本期刊被多個數(shù)據(jù)庫收錄或存在編輯部和第三方檢索平臺都能提供題錄數(shù)據(jù)的情況。如(ISSN:0037-5675)同時被PubMed、Web of Science、Embase等數(shù)據(jù)庫收錄,同時該刊物的編輯部也能夠提供題錄數(shù)據(jù)。如果同時獲取不同來源的期刊數(shù)據(jù),就會造成數(shù)據(jù)重復(fù)的問題,增加數(shù)據(jù)管理的復(fù)雜度。
1.2.2 不同數(shù)據(jù)源的元數(shù)據(jù)標(biāo)簽不一致
WPRIM來源數(shù)據(jù)有多種元數(shù)據(jù)標(biāo)準(zhǔn),存在作者、語種、時間等元數(shù)據(jù)與WPRIM元數(shù)據(jù)標(biāo)準(zhǔn)命名或含義不一致的情況。元數(shù)據(jù)項命名包括同名和不同名兩種情況,如JATS中的名字標(biāo)簽(NAME)的姓名類型(NAME-STYLE)為西文的姓標(biāo)簽(SURNAME),與WPRIM的姓標(biāo)簽(LASTNAME)不同名。元數(shù)據(jù)標(biāo)簽含義包括同義、近義、不同義3種情況,如J-STAGE標(biāo)簽集中作者(AUTHORS)與WPRIM元數(shù)據(jù)中姓(LASTNAME)、名(FIRSTNAME)標(biāo)簽名稱近義。
1.2.3 不同數(shù)據(jù)源著錄標(biāo)準(zhǔn)不同
WPRIM收錄期刊的各個數(shù)據(jù)源著錄標(biāo)準(zhǔn)不一致,作者、刊名、語種、時間、卷期元數(shù)據(jù)項存在全稱與簡稱、語種等著錄形式的差異。以刊名為例,在KoreaMed數(shù)據(jù)源中著錄為簡稱J Breast Dis,而非期刊全稱。以語種為例,,期刊文獻的語種在PubMed數(shù)據(jù)源中著錄為eng,而WPRIM元數(shù)據(jù)著錄標(biāo)準(zhǔn)要求著錄為English。如果只開展元數(shù)據(jù)標(biāo)簽項的融合,則會出現(xiàn)內(nèi)容不一致的情況,導(dǎo)致數(shù)據(jù)質(zhì)量下降。
1.2.4 非結(jié)構(gòu)化數(shù)據(jù)人工加工成本高
為解決WPRIM數(shù)據(jù)缺失的問題,需要對非結(jié)構(gòu)化歷史數(shù)據(jù)進行補充。由各國數(shù)據(jù)管理人員、編輯部編輯等通過逐條錄入的形式向WPRIM系統(tǒng)匯交非結(jié)構(gòu)化數(shù)據(jù)。這種數(shù)據(jù)匯交模式不僅增加了數(shù)據(jù)管理人員和編輯的工作量,還會出現(xiàn)更新速率慢、易出錯的情況,不符合數(shù)據(jù)管理未來可持續(xù)發(fā)展的趨勢。
為解決數(shù)據(jù)來源多、形式多(如同型/質(zhì)異源、異質(zhì)異構(gòu)和多種語言[11];結(jié)構(gòu)化、非結(jié)構(gòu)化和半結(jié)構(gòu)化[12-13])、內(nèi)容雜(如系統(tǒng)異構(gòu)、語法異構(gòu)、結(jié)構(gòu)異構(gòu)和語義異構(gòu)[14])的現(xiàn)狀,學(xué)術(shù)界從質(zhì)量評估、元數(shù)據(jù)映射、領(lǐng)域本體等角度進行多源數(shù)據(jù)匯聚路徑的探索。林鑫等[15]、周艷會等[16]、Bruce等[17]從元數(shù)據(jù)、數(shù)字字典、用戶要求、數(shù)據(jù)應(yīng)用等角度進行數(shù)據(jù)質(zhì)量評估,設(shè)置數(shù)據(jù)質(zhì)量控制規(guī)范規(guī)則,提升集成對象的數(shù)據(jù)質(zhì)量。Moghaddasi等[18]、于倩倩等[19]等通過元數(shù)據(jù)標(biāo)簽映射等方式,從內(nèi)容標(biāo)準(zhǔn)化和元數(shù)據(jù)映射兩個維度實現(xiàn)多源數(shù)據(jù)匯聚。劉盼雨等[20]依據(jù)數(shù)據(jù)流向通過多源異構(gòu)數(shù)據(jù)轉(zhuǎn)換、清洗、元數(shù)據(jù)管理等手段構(gòu)建涵蓋“生產(chǎn)-存儲-計算-應(yīng)用”的多源異構(gòu)數(shù)據(jù)服務(wù)平臺。侯鑫鑫等[21]提出數(shù)據(jù)獲取、數(shù)據(jù)整合、關(guān)聯(lián)關(guān)系建立、入庫及調(diào)用的異構(gòu)大數(shù)據(jù)整合方案技術(shù)路線。曲建升等[14]、崔佳[22]以需求為導(dǎo)向,選擇領(lǐng)域知識本體,并根據(jù)知識本體開展數(shù)據(jù)標(biāo)準(zhǔn)化,實現(xiàn)異構(gòu)數(shù)據(jù)的匯聚。
面向提供西太平洋地區(qū)出版的生物醫(yī)學(xué)領(lǐng)域文獻、促進欠發(fā)達(dá)地區(qū)生物醫(yī)學(xué)科技文獻傳播、提供及時準(zhǔn)確數(shù)據(jù)服務(wù)的基本需求,破解現(xiàn)有數(shù)據(jù)加工人工成本高、歷史數(shù)據(jù)不完整的難題,參考于倩倩等學(xué)者提出的基于元數(shù)據(jù)映射的多源異構(gòu)數(shù)據(jù)匯聚策略,從系統(tǒng)需求與內(nèi)容特征視角,補充數(shù)據(jù)源遴選制度、內(nèi)容著錄規(guī)范化與非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換環(huán)節(jié),增加J-STAGE等元數(shù)據(jù)標(biāo)準(zhǔn)的映射方法,形成如圖1所示的WPRIM期刊元數(shù)據(jù)匯聚思路。
第一,面向WPRIM的期刊元數(shù)據(jù)匯聚通過設(shè)置不同場景下的指標(biāo)及其權(quán)重確定數(shù)據(jù)源遴選策略指導(dǎo)數(shù)據(jù)采集及匯交(如①所示)。第二,數(shù)據(jù)采集人員和編輯部等分別通過采集第三方數(shù)據(jù)與提交文檔的形式,提供結(jié)構(gòu)化、半結(jié)構(gòu)化與非結(jié)構(gòu)化的待匯聚數(shù)據(jù)(如②所示)。第三,對待匯聚數(shù)據(jù)進行元數(shù)據(jù)標(biāo)簽映射、內(nèi)容著錄規(guī)范化的數(shù)據(jù)處理與非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換,匯聚并形成規(guī)范化的WPRIM數(shù)據(jù)(如③所示)。第四,對規(guī)范化的WPRIM數(shù)據(jù)開展二次審核(如審核作者姓名是否為全拼),審核合格的數(shù)據(jù)通過WPRIM檢索服務(wù)平臺對外提供服務(wù)(如④所示)。
2.3.1 數(shù)據(jù)源遴選
遴選數(shù)據(jù)源指標(biāo)和權(quán)重設(shè)置方面,WPRIM面向不同需求的服務(wù)場景設(shè)置6個一級指標(biāo)、19個二級指標(biāo)進行數(shù)據(jù)源評價。其中,一級指標(biāo)包括收錄范圍、元數(shù)據(jù)完整性、結(jié)構(gòu)化程度、期刊變更信息準(zhǔn)確度、是否具有全文或全文鏈接、更新頻率6個指標(biāo)(見表1)。通過專家咨詢法并結(jié)合系統(tǒng)需求場景的變化設(shè)置數(shù)據(jù)源指標(biāo)權(quán)重。WPRIM的基本需求是占用較少的人力資源保證定期、批量更新期刊文獻資源。在這一基本需求下,重點考量數(shù)據(jù)收錄范圍、元數(shù)據(jù)完整性等要素。因此,收錄范圍、元數(shù)據(jù)完整性相關(guān)的二級指標(biāo)在基本需求場景下的所占權(quán)重較高。遇突發(fā)情況時,用戶的主要需求是快速獲得第一手的科技論文資源。面對這類特殊需求,則以數(shù)據(jù)更新速率指標(biāo)為最高權(quán)重來遴選數(shù)據(jù)來源。如新型冠狀病毒疫情爆發(fā)初期,WRPIM平臺與期刊編輯部合作,在不考慮數(shù)據(jù)是否結(jié)構(gòu)化的基礎(chǔ)上,提供人力支持,輔助編輯部優(yōu)先匯交新型冠狀病毒主題文獻資源。同時,WPRIM監(jiān)測國內(nèi)外醫(yī)學(xué)檢索平臺(如PubMed、KoreaMed、SinoMed、萬方醫(yī)學(xué)網(wǎng)等)、出版商(如中華醫(yī)學(xué)會出版社等)的新型冠狀病毒文獻專題,及時發(fā)現(xiàn)優(yōu)先出版的期刊文獻資源,不嚴(yán)格限制文獻資源來源唯一性。
數(shù)據(jù)源遴選實現(xiàn)上,當(dāng)一本期刊有多個數(shù)據(jù)來源時,WPRIM通過計算各個數(shù)據(jù)源的分?jǐn)?shù)值(Score),并取最大Score值對應(yīng)的數(shù)據(jù)來源作為該本期刊的數(shù)據(jù)源。計算方法見公式(1)。
其中,coresource表示期刊某一數(shù)據(jù)源的分?jǐn)?shù)值,等于指標(biāo)及其權(quán)重乘積的和;表示評價期刊數(shù)據(jù)源的全部指標(biāo),表示中的一個指標(biāo),S表示指標(biāo)的分值,a表示指標(biāo)在評價中所占權(quán)重。當(dāng)滿足指標(biāo)要求時,S設(shè)為100,反之則設(shè)為0,若二級指標(biāo)包含多個三級指標(biāo)時,S平均分配至三級指標(biāo)。
2.3.2 元數(shù)據(jù)標(biāo)簽映射
WPRIM參考全球醫(yī)學(xué)索引、美國PubMed、韓國KoreaMed等文獻檢索系統(tǒng)元數(shù)據(jù)標(biāo)準(zhǔn),提出并建立了WPRIM元數(shù)據(jù)方案,規(guī)定采用包括論文題名在內(nèi)的12個元數(shù)據(jù)項描述文獻資源。WPRIM匯聚的結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù)的元數(shù)據(jù)標(biāo)簽與WPRIM元數(shù)據(jù)標(biāo)簽存在同名、同義及近義3種情況。這3類標(biāo)簽的映射方法具體包括以下內(nèi)容。
(1)同名標(biāo)簽的元數(shù)據(jù)映射。同名標(biāo)簽的元數(shù)據(jù)映射必須確定標(biāo)簽項的含義是否一致。如中文期刊數(shù)據(jù)中題名標(biāo)簽指中文題目,WPRIM的題名標(biāo)簽指文獻的英文標(biāo)題,兩者含義是不同的。又如,JATS的期標(biāo)簽(ISSUE)與WPRIM的期標(biāo)簽(ISSUE)的含義是相同的。在保證含義一致的情況下,采用直接映射取值的方式,實現(xiàn)同名元數(shù)據(jù)項取值。
(2)同義標(biāo)簽的元數(shù)據(jù)映射。通過對數(shù)據(jù)源元數(shù)據(jù)標(biāo)簽含義的調(diào)研,確定同義標(biāo)簽的對應(yīng)關(guān)系,構(gòu)建同義標(biāo)簽的轉(zhuǎn)義工具,將非WPRIM元數(shù)據(jù)標(biāo)準(zhǔn)的數(shù)據(jù)標(biāo)簽轉(zhuǎn)換為WPRIM元數(shù)據(jù)標(biāo)準(zhǔn)的元數(shù)據(jù)標(biāo)簽,實現(xiàn)同義標(biāo)簽數(shù)據(jù)的映射。
(3)近義標(biāo)簽的元數(shù)據(jù)映射。近義標(biāo)簽的元數(shù)據(jù)映射(半結(jié)構(gòu)化數(shù)據(jù)處理)是將與WPRIM元數(shù)據(jù)標(biāo)簽近義的、內(nèi)容半結(jié)構(gòu)化的數(shù)據(jù)進行分解或重組,提取處理后的元數(shù)據(jù)值,并映射至目標(biāo)元數(shù)據(jù)的相近標(biāo)簽。以J-STAGE的作者映射為WPRIM作者為例,J-STAGE元數(shù)據(jù)雖然部分利用XML結(jié)構(gòu)化的形式存儲數(shù)據(jù),但作者(authors)包含非結(jié)構(gòu)化的作者姓、名。這類數(shù)據(jù)被稱為半結(jié)構(gòu)化數(shù)據(jù)。通過分解,該半結(jié)構(gòu)化數(shù)據(jù)被分解形成姓(LASTNAME)和名(FIRSTNAME)兩部分,取值分別為Masahiro和Hamashima,并賦值于相應(yīng)元數(shù)據(jù)項。
2.3.3 內(nèi)容著錄規(guī)范化
通過設(shè)置規(guī)范策略,在不破壞數(shù)據(jù)本身含義的前提下,對不同表達(dá)形式的內(nèi)容進行分析與修正,統(tǒng)一數(shù)據(jù)內(nèi)容形式,保證數(shù)據(jù)著錄規(guī)范。異構(gòu)內(nèi)容依照WPRIM數(shù)據(jù)著錄標(biāo)準(zhǔn)進行匯聚,對不滿足著錄標(biāo)準(zhǔn)的內(nèi)容進行修正。常見修正內(nèi)容包括語種、時間、卷期、作者的表達(dá)形式(見表2)。
2.3.4 非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換
非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換包括質(zhì)量評估、實體抽取、資源組織與結(jié)果審核4個環(huán)節(jié),實現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),用于資源匯聚(見圖2)。
(1)質(zhì)量評估。采用隨機抽樣分析的方法進行質(zhì)量評估。即抽樣一期或兩期的非結(jié)構(gòu)化文檔進行內(nèi)容、順序、特征3個維度的質(zhì)量評估。首先,內(nèi)容層面對內(nèi)容完整度和質(zhì)量進行評估。內(nèi)容完整度上,要求著錄內(nèi)容基本完整,包括但不限于英文題名、英文作者信息(姓名全拼、機構(gòu))、摘要、頁碼的數(shù)據(jù)內(nèi)容。質(zhì)量上,要求同一元數(shù)據(jù)位于同一行,如文獻標(biāo)題不出現(xiàn)中間換行。其次,要求非結(jié)構(gòu)化文檔內(nèi)容順序具有一致性。即同一本期刊題名、作者、關(guān)鍵詞、摘要出現(xiàn)順序保持一致。最后,非結(jié)構(gòu)化文檔應(yīng)具備定位特征。即非結(jié)構(gòu)化文檔存在明確識別出一篇文章的開始或結(jié)束的定位標(biāo)志?!爸袌D分類號:……”的內(nèi)容是一篇文章開始的特征;“DOI:……”的內(nèi)容是一篇文章的結(jié)束特征。這兩個特征之間的內(nèi)容符合英文標(biāo)題、作者及機構(gòu)、摘要、關(guān)鍵詞的著錄順序,組成了WPRIM所需的數(shù)據(jù)項。
(2)實體抽取。依據(jù)質(zhì)量評估的結(jié)果(特征、順序)定制實體抽取策略,依次或分批提取英文題名、英文作者、摘要、頁碼等內(nèi)容。
(3)資源組織。根據(jù)WPRIM元數(shù)據(jù)標(biāo)準(zhǔn),對已抽取的實體信息進行結(jié)構(gòu)化組織,形成符合WPRIM元數(shù)據(jù)標(biāo)準(zhǔn)的XML格式數(shù)據(jù)文件。
(4)結(jié)果校驗。利用XML文件中指定的文檔類型定義(DTD)對成果進行完整性和合理性自動校驗。完整性校驗判斷是否缺失必備字段項,并對缺失必備項的數(shù)據(jù)進行剔除。合理性校驗對數(shù)據(jù)內(nèi)容是否合理開展語法與語義兩個維度的審核。語法方面,開展諸如判斷頁碼是否存在非數(shù)字字符、作者是否包含數(shù)字的語法檢查。語義方面,開展諸如作者姓名拼寫是否符合西方語言國家、南島語系國家(如印度尼西亞、馬來西亞、菲律賓)、漢藏語系國家(如中國)的內(nèi)容檢查。
針對WPRIM數(shù)據(jù)資源的同一期刊存在多個數(shù)據(jù)來源、不同數(shù)據(jù)源的元數(shù)據(jù)標(biāo)簽不一致、不同數(shù)據(jù)源著錄標(biāo)準(zhǔn)不同、非結(jié)構(gòu)化數(shù)據(jù)人工加工成本高的現(xiàn)狀,從數(shù)據(jù)源遴選、元數(shù)據(jù)標(biāo)簽映射、內(nèi)容著錄規(guī)范化、非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換4個維度設(shè)計多源數(shù)據(jù)匯聚方案,實現(xiàn)WPRIM收錄期刊元數(shù)據(jù)的匯聚。WPRIM平臺文獻總量已由2016年的60余萬篇增長至2020年的80余萬篇,回溯非結(jié)構(gòu)化期刊資源2萬多篇,規(guī)范作者、卷、期、時間數(shù)據(jù)60余萬篇,匯聚與規(guī)范成果已被全球醫(yī)學(xué)索引、谷歌學(xué)術(shù)等文獻檢索平臺收錄。2020年,WPRIM平臺月均文章點擊量達(dá)到198?912次,較2018年月均文章點擊量增長46%。
國內(nèi)已開展或建成一系列“一帶一路”、中國-東盟等跨國別的數(shù)據(jù)庫,也面臨各國數(shù)據(jù)資源來源、結(jié)構(gòu)化水平和著錄質(zhì)量差異的挑戰(zhàn)。結(jié)合世界衛(wèi)生組織西太平洋地區(qū)醫(yī)學(xué)索引的建設(shè)實踐,未來多源數(shù)據(jù)匯聚可以參考以下5個方面加以改進。
(1)需求驅(qū)動匯聚數(shù)據(jù)資源的遴選。立足用戶對文獻資源的需求,梳理不同數(shù)據(jù)源的優(yōu)勢與不足,動態(tài)調(diào)整獲取途徑,通過不斷完善數(shù)據(jù)資源遴選標(biāo)準(zhǔn),快速匯聚成果并提供用戶使用。
(2)關(guān)注元數(shù)據(jù)標(biāo)準(zhǔn)及其著錄規(guī)范。元數(shù)據(jù)標(biāo)簽映射能實現(xiàn)資源匯聚,但仍存在一定不足。通過著錄規(guī)范化的視角,一方面能夠提高匯聚成果的質(zhì)量;另一方面也能夠減少重復(fù)數(shù)據(jù)的出現(xiàn),降低數(shù)據(jù)歸一與去重的工作量。
(3)開展精細(xì)化、互補化的多源數(shù)據(jù)融合。WPRIM數(shù)據(jù)是通過數(shù)據(jù)遴選制度確定唯一數(shù)據(jù)來源,從而降低數(shù)據(jù)去重工作量,加快數(shù)據(jù)更新效率。但在提高效率的同時,部分字段項內(nèi)容缺失、預(yù)出版數(shù)據(jù)與正式出版數(shù)據(jù)重復(fù)的問題顯現(xiàn)。WPRIM及其他相似索引平臺應(yīng)補充多源篇級論文精準(zhǔn)匹配和字段及內(nèi)容融合的研究,實現(xiàn)多源數(shù)據(jù)精細(xì)化、互補化的融合。
(4)拓展索引服務(wù)深度與廣度。一方面,索引服務(wù)要深挖資源包含的知識內(nèi)容,開展文獻標(biāo)引研究,深化數(shù)據(jù)內(nèi)容,服務(wù)智能檢索;另一方面,聚焦新媒體的資源傳播場景,開展如社交媒體、視頻等場景下的文獻傳播方法研究。
(5)構(gòu)建數(shù)據(jù)匯聚的可持續(xù)發(fā)展機制。一方面,跨國別的資源匯聚平臺需要開展國際合作交流,組織深入的數(shù)據(jù)管理培訓(xùn),提升編輯或數(shù)據(jù)管理人員的計算機水平,指導(dǎo)其開展匯聚前的數(shù)據(jù)結(jié)構(gòu)化,降低匯聚平臺的數(shù)據(jù)復(fù)雜度;另一方面,引入自然語言處理、機器學(xué)習(xí)等不斷出現(xiàn)的先進技術(shù),實現(xiàn)精準(zhǔn)匹配、文獻標(biāo)引等維度的數(shù)據(jù)深度融合。
[1] 曾建勛. 開放融合環(huán)境下NSTL資源建設(shè)的發(fā)展思考[J]. 大學(xué)圖書館學(xué)報,2020,38(6):63-70.
[2] 趙志耘. 構(gòu)建國家科研論文和科技信息高端交流平臺[J]. 數(shù)字圖書館論壇,2020(11):1.
[3] 王軍輝,錢慶,方安,等. 西太平洋地區(qū)醫(yī)學(xué)索引元數(shù)據(jù)方案的設(shè)計與應(yīng)用[J]. 醫(yī)學(xué)信息學(xué)雜志,2011,32(4):68-72.
[4] NCBI. Journal Article Tag Suite[EB/OL].[2020-12-10]. https://jats.nlm.nih.gov/about.html.
[5] NCBI. Journal Publishing Tag Set Standard versions[EB/OL].[2020-12-10]. https://jats.nlm.nih.gov/publishing/versions.html.
[6] NCBI. Journal Archiving and Interchange Tag Set[EB/OL].[2020-12-10]. https://jats.nlm.nih.gov/archiving/.
[7] NCBI. Article Authoring Tag Set[EB/OL].[2020-12-10]. https://jats.nlm.nih.gov/articleauthoring/.
[8] 劉冰,游蘇寧. 我國科技期刊應(yīng)盡快實現(xiàn)基于結(jié)構(gòu)化排版的生產(chǎn)流程再造[J]. 編輯學(xué)報,2010,22(3):262-266.
[9] 姚偉欣,馬建華. 新學(xué)術(shù)環(huán)境下科技期刊數(shù)字出版平臺的技術(shù)發(fā)展趨勢[J]. 中國科技期刊研究,2013,24(6):1039-1043.
[10] 蘇磊,李明敏,蔡斐. 科技期刊采用XML結(jié)構(gòu)化排版的優(yōu)勢與應(yīng)用實踐分析[J]. 科技與出版,2017(10):108-111.
[11] 化柏林. 多源信息融合方法研究[J]. 情報理論與實踐,2013,36(11):16-19.
[12] 郭春霞. 大數(shù)據(jù)環(huán)境下高校圖書館非結(jié)構(gòu)化數(shù)據(jù)融合分析[J]. 圖書館學(xué)研究,2015(5):30-34.
[13] 涂子沛. 大數(shù)據(jù)及其成因[J]. 科學(xué)與社會,2014,4(1):14-26.
[14] 曲建升,劉紅煦. 知識發(fā)現(xiàn)中異構(gòu)信息標(biāo)準(zhǔn)化處理研究——以資源環(huán)境領(lǐng)域文獻為例[J]. 圖書情報工作,2016,60(6):84-90.
[15] 林鑫,李想,李靜. 資源發(fā)現(xiàn)系統(tǒng)中基于多源數(shù)據(jù)融合的文獻元數(shù)據(jù)質(zhì)量提升[J/OL]. 情報理論與實踐,2021:1-8[2020-12-10]. http://kns.cnki.net/kcms/detail/11.1762.g3.20201203.1624.004.html.
[16] 周艷會,曾榮仁. 基于元數(shù)據(jù)的數(shù)據(jù)質(zhì)量管理研究[J]. 信息技術(shù)與信息化,2020(7):26-29.
[17] BRUCE T R,HILLMANN D I. The continuum of metadata quality:defining,expressing,exploiting[C]//HILLMANN D I,WEATBROOKS E L. Metadata in Practice. Chicago:American Library Association,2004:238-256.
[18] MOGHADDASI J,WU K. Multifunctional transceiver for future radar sensing and radio communicating data-fusion platform[J]. IEEE Access,2016,4:818-838.
[19] 于倩倩,張建勇. NSTL集成利用第三方來源元數(shù)據(jù)的實踐與探索[J]. 現(xiàn)代圖書情報技術(shù),2016(1):97-102.
[20] 劉盼雨,王昊天,鄭棟毅,等. 多源異構(gòu)文化大數(shù)據(jù)融合平臺設(shè)計[J/OL]. 華中科技大學(xué)學(xué)報(自然科學(xué)版),2021:1-8[2020-12-10]. https://doi.org/10.13245/j.hust.210216.
[21] 侯鑫鑫,朱文佳,朱莉,等. 多源異構(gòu)學(xué)術(shù)成果大數(shù)據(jù)的整合與揭示[J/OL]. 情報理論與實踐,2021:1-11[2020-12-10]. http://kns.cnki.net/kcms/detail/11.1762.G3.20201204.1105.002.html.
[22] 崔佳. 基于領(lǐng)域本體的多元異構(gòu)數(shù)據(jù)融合關(guān)鍵技術(shù)研究[D]. 青島:中國石油大學(xué)(華東),2018.
[23] 王蕾,方安,范云滿,等. 多來源作者數(shù)據(jù)加工策略與實現(xiàn)——以西太平洋地區(qū)醫(yī)學(xué)索引為例[J]. 醫(yī)學(xué)信息學(xué)雜志,2019,40(2):75-80.
Research on Multi-Source Journal Metadata Fusion:Taking WHO Western Pacific Region Index Medicus as An Example
WANG Lei FANG An YANG YuSheng FAN YunMan WANG Qian
( Institute of Medical Information, CAMS & PUMC, Beijing 100020, China )
Analyzing status of source data and problems on multi-source journal metadata fusion in WHO Western Pacific Region Index Medicus. This paper designs a multi-source data fusion scheme from source selection, metadata label mapping, content standardization, and unstructured data transformation. The result shows that the path can solve WPRIM multi-source data fusion and provide a reference for similar situations as well.
Data Fusion; Multi-Source Data; WPRIM; Multi-Metadata and Heterogeneous
G354.49;G255.2
10.3772/j.issn.1673-2286.2021.01.007
王蕾,方安,楊雨生,等. 多源期刊元數(shù)據(jù)匯聚研究——以世界衛(wèi)生組織西太平洋地區(qū)醫(yī)學(xué)索引為例[J]. 數(shù)字圖書館論壇,2021(1):47-53.
*本研究得到中國醫(yī)學(xué)科學(xué)院醫(yī)學(xué)與健康科技創(chuàng)新工程服務(wù)“一帶一路”戰(zhàn)略先導(dǎo)科研專項“衛(wèi)生信息服務(wù)研究”(編號:2017-I2M-B&R-10)和中國醫(yī)學(xué)科學(xué)院醫(yī)學(xué)與健康科技創(chuàng)新工程“醫(yī)學(xué)科技創(chuàng)新評價與衛(wèi)生服務(wù)體系研究”(編號:2016-I2M-3-018)資助。
王蕾,女,1989年生,碩士,助理研究員,研究方向:信息技術(shù)、大數(shù)據(jù)處理。
方安,男,1976年生,博士,研究館員,研究方向:醫(yī)學(xué)知識組織與數(shù)字圖書館。
楊雨生,男,1994年生,助理館員,研究方向:信息技術(shù)應(yīng)用。
范云滿,男,1980年生,碩士,助理研究員,研究方向:醫(yī)學(xué)數(shù)據(jù)自然語言處理、云計算環(huán)境下大數(shù)據(jù)分析算法。
王茜,女,1981年生,博士,副研究館員,通信作者,研究方向:信息技術(shù)應(yīng)用,E-mail:wang.qian@imicams.ac.cn。
(收稿日期:2020-12-18)