PubMed和Embase是生物醫(yī)學(xué)領(lǐng)域最重要的兩個(gè)文摘型數(shù)據(jù)庫。PubMed以其收錄范圍廣、更新速度快、檢索功能強(qiáng)大、全球免費(fèi)使用、提供豐富鏈接信息等特點(diǎn)成為眾多國家的醫(yī)學(xué)科研人員獲取專業(yè)文獻(xiàn)信息的首選。而Embase收錄了大量歐洲和亞洲的生物學(xué)、醫(yī)學(xué)和藥學(xué)期刊,與PubMed數(shù)據(jù)庫主要收錄北美地區(qū)以臨床醫(yī)學(xué)為主的文獻(xiàn)形成了互補(bǔ)之勢[1]。
國內(nèi)對(duì)PubMed或Embase的研究主要集中在檢索功能、檢索效果、收錄范圍、專指度等方面。如孫艷等學(xué)者研究發(fā)現(xiàn),Embase收錄范圍更廣、查全率更高,而PubMed的查準(zhǔn)率更勝一籌[2];賈向春等學(xué)者關(guān)注并分析了PubMed收錄中國期刊的選刊標(biāo)準(zhǔn)和收錄現(xiàn)狀等[3]。關(guān)于對(duì)PubMed和Embase標(biāo)引質(zhì)量的研究,除20世紀(jì)90年代有學(xué)者從標(biāo)引深度和一致性對(duì)MEDLINE和Embase做了比較研究外,其他學(xué)者的研究主要體現(xiàn)在主題標(biāo)引方面,如王巖等認(rèn)為Embase中的Emtree的體量更大,PubMed的主題標(biāo)引在規(guī)范性方面更為出色[4]。
國外的研究除加拿大藥物與生物技術(shù)局對(duì)Embase和MEDLINE的篇均主題標(biāo)引數(shù)量進(jìn)行對(duì)比研究外[5],較多集中于PubMed或Embase在某一醫(yī)學(xué)分支領(lǐng)域的具體應(yīng)用性研究。如Roberto等對(duì)ClinicalTrials.gov、PubMed、Embase和Google scholar的卵巢癌臨床試驗(yàn)結(jié)果的透明度、可信度的分析[6];Lee等人在PubMed和Embase中設(shè)置了腎移植過濾器,并對(duì)其進(jìn)行了驗(yàn)證與分析[7]。
綜上所述,國內(nèi)雖有PubMed與Embase的收錄范圍、標(biāo)引質(zhì)量的比較研究,但并未以中國期刊為研究對(duì)象展開研究,且研究時(shí)間太早,難以反映最新內(nèi)容和研究進(jìn)展。僅有少數(shù)學(xué)者關(guān)注了PubMed收錄中國生物醫(yī)學(xué)期刊的情況,對(duì)Embase的研究成果則更少。國外研究多將視角集中于具體醫(yī)學(xué)分支領(lǐng)域的應(yīng)用,尚未見二者收錄中國期刊的比較研究。對(duì)PubMed與Embase收錄中國生物醫(yī)學(xué)期刊的情況和標(biāo)引質(zhì)量展開比較研究,不僅可以促進(jìn)國內(nèi)醫(yī)學(xué)科技工作者對(duì)兩大生物醫(yī)學(xué)文獻(xiàn)檢索系統(tǒng)的深入了解,而且可以為國內(nèi)醫(yī)學(xué)期刊建設(shè)與管理者在提升辦刊質(zhì)量方面提供思路,為國內(nèi)信息系統(tǒng)開發(fā)者提供參考建議,從而促進(jìn)中國生物醫(yī)學(xué)行業(yè)的整體發(fā)展。
為考察國外醫(yī)學(xué)專業(yè)數(shù)據(jù)庫收錄中國生物醫(yī)學(xué)期刊及其標(biāo)引特點(diǎn),筆者以PubMed與Embase收錄的中國(包括大陸及港澳臺(tái)地區(qū))生物醫(yī)學(xué)期刊為樣本,對(duì)比研究了二者共同收錄期刊的元數(shù)據(jù)描述、共同收錄文獻(xiàn)的標(biāo)引特點(diǎn)以及與MEDLINE收錄中國期刊的覆蓋情況。以期刊出版國(PubMed:Country of Publication,CP;Embase:Country of Journal,cy)為檢索字段,以“China”為檢索詞,分別在PubMed和Embase中進(jìn)行檢索,獲得二者收錄中國期刊列表。PubMed收錄中國期刊340種,其中106種被MEDLINE收錄;Embase收錄中國期刊129種,其中48種被MEDLINE收錄。
以在PubMed和Embase中檢索到的中國期刊為依據(jù),比較重復(fù)收錄情況(表1)。
表1 PubMed與Embase收錄中國期刊的重復(fù)率
從表1可知,PubMed和Embase收錄的中國期刊重復(fù)率相差較大。PubMed收錄中國期刊的總數(shù)遠(yuǎn)大于Embase,但其中包含眾多非生物醫(yī)學(xué)期刊,如《中國社會(huì)科學(xué)》《中國材料科學(xué)前沿》等;而Embase收錄的中國期刊均屬生物醫(yī)學(xué)領(lǐng)域。去除PubMed中的153種其他學(xué)科期刊,還有187種生物醫(yī)學(xué)領(lǐng)域期刊。
MEDLINE是PubMed的主要數(shù)據(jù)來源,是美國國立醫(yī)學(xué)圖書館(The National Library of Medicine,NLM)最重要的生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫,ELSEVIER公司于2003年宣布整合了MEDLINE數(shù)據(jù)庫的全部內(nèi)容??疾霵ubMed和Embase二者收錄中國期刊論文情況,可以從中了解它們?cè)谶x擇、收錄非英語語系國家專業(yè)文獻(xiàn)時(shí)的基本思路和傾向。為此,筆者對(duì)PubMed、Embase、MEDLINE三者收錄的中國期刊進(jìn)行了對(duì)比(圖1)。從圖1中可以看出,PubMed涵蓋了MEDLINE的全部內(nèi)容,而Embase并未涵蓋MEDLINE的全部內(nèi)容,兩者共同收錄的中國期刊僅有48種,這與ELSEVIER公司的宣傳及以往學(xué)界的普遍認(rèn)識(shí)相矛盾。筆者在Embase中分別檢索疾病(hypertension)、藥物(saxagliptin)、設(shè)備(coronary stent)類文獻(xiàn)證實(shí),MEDLINE確有部分?jǐn)?shù)據(jù)未被Embase收錄。因此,科研工作者在了解自己發(fā)表的文獻(xiàn)被外文文獻(xiàn)數(shù)據(jù)庫的收錄情況時(shí),需分別檢索PubMed和Embase,以保證信息的完整性。
圖1 PubMed、Embase、MEDLINE收錄期刊數(shù)量與關(guān)系
PubMed在收錄期刊自身元數(shù)據(jù)描述方面做得更細(xì),而Embase的檢索結(jié)果更便于使用和統(tǒng)計(jì)。PubMed的期刊自身元數(shù)據(jù)描述有29個(gè)字段,而Embase僅有13個(gè)字段(表2)。
從共有字段上看,PubMed收錄的中國期刊同時(shí)標(biāo)引了拼音和英譯刊名,而Embase僅標(biāo)引了英譯刊名,二者的期刊名縮寫方式一致。而在ISSN標(biāo)引方面,Embase用2個(gè)字段分別描述紙質(zhì)版和電子版期刊,而PubMed僅用1個(gè)字段,同時(shí)標(biāo)注了紙質(zhì)版和電子版。可看出PubMed更便于用戶通過期刊名檢索到中文期刊,Embase更便于用戶通過ISSN號(hào)字段檢索。二者均有收錄期刊被MEDLINE收錄情況的描述,PubMed使用“Current Indexing Status”、Embase使用“Indexed by Medline”進(jìn)行標(biāo)注。
表2 PubMed與Embase收錄中國期刊的字段
此外,PubMed分別用“Publication Start Year”“Publication End Year”2個(gè)字段描述某期刊出版開始和截至年,用戶可借此快速了解期刊的歷史和當(dāng)前狀態(tài)。Frequency字段標(biāo)明了期刊的出版周期,Publication Type(s)字段說明了期刊是否連續(xù)出版,Description字段描述了期刊的版次和尺寸等,Notes字段說明了期刊的其他詳細(xì)信息,這些都有利于用戶了解期刊基本情況、有助于館員采編期刊。Embase的Source type字段說明所有檢索結(jié)果類型都是期刊,Priority journal字段說明是否是重點(diǎn)期刊,Added since May 2017字段說明期刊是否為2017年5月以來收錄,有利于用戶了解最新收錄情況和學(xué)科發(fā)展動(dòng)態(tài)。
為進(jìn)一步考察兩大數(shù)據(jù)庫收錄中國期刊論文的標(biāo)引質(zhì)量和特點(diǎn),筆者選取PubMed、Embase、MEDLINE三者共同收錄的48種中國生物醫(yī)學(xué)文獻(xiàn)的共有部分作為初選數(shù)據(jù)樣本(圖1),根據(jù)現(xiàn)代醫(yī)學(xué)學(xué)科分類,將48種期刊分為基礎(chǔ)醫(yī)學(xué)、技術(shù)醫(yī)學(xué)、應(yīng)用醫(yī)學(xué)3類。其中基礎(chǔ)醫(yī)學(xué)包含人體醫(yī)學(xué)、(生命)現(xiàn)象醫(yī)學(xué)和相關(guān)(因素)醫(yī)學(xué),技術(shù)醫(yī)學(xué)包括生物醫(yī)學(xué)技術(shù)工程和應(yīng)用醫(yī)學(xué)技術(shù)工程,應(yīng)用醫(yī)學(xué)包括普通應(yīng)用醫(yī)學(xué)和特種醫(yī)學(xué)。再在每一組初選數(shù)據(jù)中隨機(jī)選取3種期刊,最終得到的各類期刊如表3所示。
分別在PubMed和Embase中檢索上述9種期刊2017年刊載的文獻(xiàn),并以中國生物醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)庫(CBM)收錄文獻(xiàn)量為基準(zhǔn)進(jìn)行比較,結(jié)果如表4所示。
表3 PubMed、Embase、MEDLINE中國生物醫(yī)學(xué)文獻(xiàn)選取列表
表4 PubMed、Embase收錄9種中國期刊2017年文獻(xiàn)量統(tǒng)計(jì)
從表4中可看出,PubMed收錄中國期刊的文獻(xiàn)數(shù)量和比例均明顯高于Embase,收錄比例達(dá)到91.25%,因此PubMed收錄的中國生物醫(yī)學(xué)期刊文獻(xiàn)更全面。其中,PubMed收錄《遺傳學(xué)報(bào)》的文獻(xiàn)數(shù)量大于CBM,因?yàn)镻ubMed收錄的文獻(xiàn)中包括封面和期刊介紹,剔除這些內(nèi)容,則收錄比例為100%。
為進(jìn)行下一步文獻(xiàn)標(biāo)引質(zhì)量分析,筆者從表4的9種期刊中,先篩選出每種期刊在PubMed和Embase中共同收錄的文獻(xiàn),再從這些文獻(xiàn)所屬的每種期刊中隨機(jī)抽取10篇文獻(xiàn),共計(jì)選取90篇。
PubMed設(shè)置的文獻(xiàn)標(biāo)引字段共有47個(gè),Embase有44個(gè)(表5)。PubMed設(shè)置了3個(gè)字段進(jìn)行作者標(biāo)引,其中作者字段為作者姓全稱及名的首字母縮寫,與作者全名字段結(jié)合起來標(biāo)引,有效提升了作者檢索的查全率。此外,二者都標(biāo)注了文獻(xiàn)的PMID號(hào),方便用戶對(duì)特定文獻(xiàn)的獲取。
PubMed和Embase均標(biāo)引了主題詞。PubMed設(shè)置了MeSH Terms、MeSH Subheadings、MeSH Major Topic 3個(gè)字段;Embase設(shè)置了Emtree Drug Index Terms (Major Focus) 、Emtree Drug Index Terms、Emtree Medical Index Terms (Major Focus)和Emtree Medical Index Terms 4個(gè)字段,其中Emtree Medical Index Terms字段內(nèi)容包含了文獻(xiàn)的Disease Terms、Device Terms和Other Terms 3類主題詞。從主題詞類目設(shè)置上來看,Embase專門將藥物類主題詞單獨(dú)標(biāo)識(shí)和顯示,體現(xiàn)了藥物信息檢索的特色。
標(biāo)引深度(depth of indexing)指文獻(xiàn)主題內(nèi)容被揭示的詳盡程度,對(duì)一篇文獻(xiàn)而言,標(biāo)引深度一般是指賦予該文獻(xiàn)的標(biāo)引詞數(shù)量[8]。
表5 PubMed與Embase收錄中國文獻(xiàn)的字段
篇均標(biāo)引深度為文獻(xiàn)標(biāo)引詞總數(shù)與文獻(xiàn)篇數(shù)之比,該值越大表明文獻(xiàn)的標(biāo)引粒度更細(xì),檢索入口更多。筆者在PubMed和Embase中,統(tǒng)計(jì)了上文篩選出的90篇文獻(xiàn)的主題詞并計(jì)算其篇均標(biāo)引深度(表6),其中主要概念主題詞為表達(dá)文獻(xiàn)主要內(nèi)容的主題詞。
表6 PubMed與Embase收錄中國文獻(xiàn)的主題標(biāo)引比較
從表6可以看出,Embase的主題詞總數(shù)和篇均主題詞標(biāo)引深度高于PubMed,說明對(duì)于中國生物醫(yī)學(xué)文獻(xiàn),Embase為文獻(xiàn)提供的檢索入口更多,用戶更容易查到文獻(xiàn),標(biāo)引粒度更細(xì)。但對(duì)比二者對(duì)國外期刊論文的主題標(biāo)引情況的研究結(jié)果發(fā)現(xiàn),Embase對(duì)國外期刊論文的篇均加權(quán)主題詞標(biāo)引深度約是3~4個(gè)、非加權(quán)主題詞標(biāo)引深度將近50個(gè)[9],PubMed對(duì)國外期刊論文的篇均主題詞標(biāo)引深度是10~20個(gè)[10],說明在主題標(biāo)引深度方面,PubMed收錄的中國期刊文獻(xiàn)的主題標(biāo)引深度與國外文獻(xiàn)相比基本持平,而Embase收錄的中國期刊文獻(xiàn)的主題標(biāo)引深度低于國外水平。
國外研究發(fā)現(xiàn),Embase標(biāo)引的主題詞數(shù)量較多,導(dǎo)致大量不相關(guān)記錄會(huì)被檢索到,所以會(huì)降低查準(zhǔn)率,建議選擇加權(quán)檢索以提高查準(zhǔn)率[7]。為此,筆者專門考察二者的加權(quán)主題詞情況時(shí)發(fā)現(xiàn),PubMed略微高于Embase。
再對(duì)二者加權(quán)主題詞占所有主題詞的比例進(jìn)行對(duì)比時(shí)發(fā)現(xiàn),PubMed(32.57%)明顯高于Embase(24.92%)。因此,PubMed的查準(zhǔn)率更優(yōu),而Embase在查全方面表現(xiàn)更好一些。
為比較分析二者的主題標(biāo)引的差異性,筆者對(duì)PubMed的PubMed Substances字段和Embase的Drug Terms字段內(nèi)容進(jìn)行抽樣對(duì)比發(fā)現(xiàn),同一篇文獻(xiàn)的PubMed Substances字段內(nèi)容基本都包含在Embase的Drug Terms字段中,且Embase中主題概念的粒度更細(xì)。為便于說明,筆者選取3個(gè)實(shí)例展示(表7)。在《中國中藥雜志》中隨機(jī)選取的10篇文獻(xiàn)中,PubMed的Substances字段共收錄了31個(gè)主題詞,而Embase的Drug Terms字段共收錄了42個(gè)主題詞,前者的所有藥物均被后者收錄,說明Embase對(duì)中藥的標(biāo)引質(zhì)量確實(shí)優(yōu)于PubMed。此外,PubMed對(duì)中醫(yī)藥文獻(xiàn)的標(biāo)引多體現(xiàn)在增補(bǔ)概念表中,沒有對(duì)應(yīng)的主題詞,出現(xiàn)了重復(fù)收錄、同義詞聚類不足、類方未能整合標(biāo)引等問題[11]。因此,中醫(yī)藥的標(biāo)引,更能凸顯Embase數(shù)據(jù)庫的特點(diǎn),也符合ELSEVIER公司對(duì)Embase產(chǎn)品的宣傳。
表7 PubMed Substances與Drug Terms對(duì)比實(shí)例
筆者比較分析了PubMed和Embase對(duì)同一文獻(xiàn)主題詞的標(biāo)引情況,在選擇對(duì)比項(xiàng)目時(shí),只選取主題詞,未考慮主題詞與副主題詞的組配,且對(duì)于“同意不同型”的概念認(rèn)定為一致。通過比較發(fā)現(xiàn),二者主題標(biāo)引的一致性比較高,主要表現(xiàn)為完全一致和基本一致兩種情況,實(shí)例如表8所示。
表8 PubMed和Embase標(biāo)引一致性實(shí)例
注:*為主要概念主題詞
從表8的“文獻(xiàn)1”可以看出,PubMed和Embase的主題標(biāo)引完全一致,且主要概念主題詞的標(biāo)引也完全一致;從“文獻(xiàn)2”可以看出,二者主題標(biāo)引比較一致(8個(gè)主題詞中有5個(gè)一致)。由于筆者未對(duì)PubMed和Embase共同收錄的除MEDLINE收錄之外的6種期刊(圖1)進(jìn)行對(duì)比,該部分的一致性還不確定。但總體上看,PubMed和Embase對(duì)中國生物醫(yī)學(xué)文獻(xiàn)的標(biāo)引一致性高于其他外文文獻(xiàn)。
PubMed與Embase作為生物醫(yī)學(xué)領(lǐng)域兩大文摘型數(shù)據(jù)庫,對(duì)中國生物醫(yī)學(xué)文獻(xiàn)的收錄與標(biāo)引各有特點(diǎn)。二者對(duì)中國生物醫(yī)學(xué)期刊收錄的重復(fù)率較低,PubMed的期刊描述字段更詳細(xì),而Embase在收錄期刊數(shù)據(jù)下載與利用方面友好性更勝一籌。此外,Embase對(duì)文獻(xiàn)主題的標(biāo)引粒度更細(xì),中醫(yī)藥主題標(biāo)引更為準(zhǔn)確,二者對(duì)中國期刊文獻(xiàn)的標(biāo)引一致性比較高,這有別于外文文獻(xiàn)的標(biāo)引。鑒于數(shù)據(jù)量和統(tǒng)計(jì)方法的局限,對(duì)比內(nèi)容可能不夠全面,有待進(jìn)一步探索。
對(duì)廣大醫(yī)學(xué)科研工作者而言,需注意的問題是在成果申報(bào)等過程中若要準(zhǔn)確了解自身發(fā)表論文的國外收錄情況,應(yīng)同時(shí)檢索PubMed和Embase等重要數(shù)據(jù)庫,以保證信息的完整性。若需查找中醫(yī)藥學(xué)的國外相關(guān)文獻(xiàn),可首選Embase。對(duì)國內(nèi)醫(yī)學(xué)期刊建設(shè)與管理者而言,提升科技期刊國際影響力的重要途徑之一就是被學(xué)科相關(guān)的國際權(quán)威數(shù)據(jù)庫收錄[12],如入選PubMed或Embase 對(duì)提升期刊國際科研地位和影響力具有重要的意義。因此應(yīng)同時(shí)關(guān)注PubMed與Embase的收錄變化,并可通過Embase的一些標(biāo)引字段了解最新收錄情況和學(xué)科發(fā)展動(dòng)態(tài),通過PubMed與Embase對(duì)中國生物醫(yī)學(xué)期刊標(biāo)引質(zhì)量的特點(diǎn)減少期刊被剔除的風(fēng)險(xiǎn),爭取被二者收錄,如中醫(yī)藥類期刊可多偏向于Embase。對(duì)國內(nèi)信息系統(tǒng)開發(fā)者而言,可以在建設(shè)開發(fā)文獻(xiàn)檢索系統(tǒng)時(shí),對(duì)期刊的標(biāo)引盡量做到描述字段詳細(xì)與數(shù)據(jù)下載、利用友好性相兼顧,對(duì)文獻(xiàn)的標(biāo)引做到粒度更細(xì)、查準(zhǔn)更高。