楊增秀 張桂玲 楊海超 馮艷君 趙衛(wèi)華 張欣
(機(jī)械工業(yè)信息研究院,北京 100037)
國(guó)際科學(xué)引文數(shù)據(jù)庫(kù)(http://disc.nstl.gov.cn)是國(guó)家科技圖書(shū)文獻(xiàn)中心(National Science and Technology Library,NSTL)于2006年啟動(dòng)的,以成員單位訂購(gòu)的科技期刊和科學(xué)引證關(guān)系為基礎(chǔ)建設(shè)的一個(gè)大型外文文獻(xiàn)檢索服務(wù)系統(tǒng)[1]。近年來(lái),DISC在為全國(guó)科技界用戶提供文獻(xiàn)信息保障中發(fā)揮了重要作用。經(jīng)過(guò)十余年的發(fā)展,為適應(yīng)引文數(shù)據(jù)大規(guī)模增長(zhǎng)的發(fā)展趨勢(shì),更好地為我國(guó)科研人員提供世界科學(xué)研究的脈絡(luò),為其了解世界科學(xué)研究動(dòng)態(tài)提供方便,NSTL高度重視DISC數(shù)據(jù)庫(kù)的建設(shè),擬對(duì)DISC系統(tǒng)進(jìn)行全面升級(jí)改造。為此,本文選取Web of Science、Scopus、CiteSeerX這3個(gè)國(guó)際著名引文數(shù)據(jù)庫(kù),在對(duì)比分析的基礎(chǔ)上,歸納各相關(guān)數(shù)據(jù)庫(kù)的優(yōu)勢(shì)與特色,梳理DISC的差距與不足,為進(jìn)一步改進(jìn)和完善DISC的檢索與服務(wù)功能提出相關(guān)建議。
DISC是NSTL自主研發(fā)的一個(gè)外文科技文獻(xiàn)引文數(shù)據(jù)庫(kù),2007年初投入使用。經(jīng)過(guò)十余年的發(fā)展,數(shù)據(jù)庫(kù)建設(shè)已初具規(guī)模。DISC具有一定的文獻(xiàn)發(fā)現(xiàn)功能,用戶可以從來(lái)源文獻(xiàn)和引文等多種途徑檢索和瀏覽文獻(xiàn)信息,是目前我國(guó)科技界用戶可以通過(guò)網(wǎng)絡(luò)免費(fèi)利用的唯一一個(gè)擁有自主知識(shí)產(chǎn)權(quán)的外文文獻(xiàn)引文查詢服務(wù)系統(tǒng)。系統(tǒng)具有與NSTL文獻(xiàn)原文傳遞和代查代借系統(tǒng)無(wú)縫鏈接的功能,支持用戶快速獲取文獻(xiàn)全文,是用戶獲取與利用NSTL文獻(xiàn)信息服務(wù)的一個(gè)重要途徑[2]。
Scopus(https://www.scopus.com)是由愛(ài)思唯爾出版公司研發(fā)的全球最大的文摘引文數(shù)據(jù)庫(kù),涵蓋全世界最廣泛的科技、醫(yī)學(xué)和社會(huì)科學(xué)領(lǐng)域的科技文獻(xiàn),以及高品質(zhì)的網(wǎng)絡(luò)資源,2004年11月開(kāi)始提供服務(wù),2007年推出了系列特色服務(wù),提供追蹤、分析研究成果并將其可視化的智能工具[3-5]。
Web of Science(WoS,http://isiknowledge.com)由Thomson公司于1997年將SCI、SSCI、AHCI等數(shù)據(jù)庫(kù)整合創(chuàng)建而成,2016年由科睿唯安公司收購(gòu)[6]。WoS是一個(gè)基于Web整合構(gòu)建的數(shù)字研究環(huán)境,通過(guò)強(qiáng)大的檢索技術(shù)和基于內(nèi)容的連接能力,將高質(zhì)量的信息資源、獨(dú)特的信息分析工具和專業(yè)的信息管理軟件無(wú)縫地整合在一起,兼具知識(shí)檢索、提取、分析、評(píng)價(jià)、管理與發(fā)表等多項(xiàng)功能,從而擴(kuò)展和加大了信息檢索的廣度與深度[7]。
CiteSeerX自動(dòng)引文搜索引擎(http://citeseerx.ist.psu.edu/index)最早由NEC公司研制開(kāi)發(fā),公開(kāi)在互聯(lián)網(wǎng)上提供免費(fèi)服務(wù),被譽(yù)為全球最大的科學(xué)文獻(xiàn)免費(fèi)全文索引搜索引擎[8-9]。CiteSeerX的更新系統(tǒng)于2007年投入運(yùn)行,新系統(tǒng)在可用性、全面性、及時(shí)性和成本效率等方面得到改進(jìn),科學(xué)文獻(xiàn)傳播和知識(shí)獲取功能進(jìn)一步增強(qiáng)[10]。
下文從上述數(shù)據(jù)庫(kù)的文獻(xiàn)收錄范圍、元數(shù)據(jù)描述、檢索功能、統(tǒng)計(jì)分析功能4個(gè)方面進(jìn)行比較分析。
在收錄文獻(xiàn)的學(xué)科范圍方面,Scopus和WoS除了科技領(lǐng)域之外,還收錄了生命科學(xué)和社會(huì)科學(xué)領(lǐng)域的文獻(xiàn);CiteSeerX主要關(guān)注計(jì)算機(jī)和信息科學(xué)的文獻(xiàn);DISC主要涵蓋自然科學(xué)與工程技術(shù)領(lǐng)域的文獻(xiàn)。
在地域語(yǔ)種方面,Scopus覆蓋多語(yǔ)種,包括英語(yǔ)、法語(yǔ)、德語(yǔ)、日語(yǔ)、意大利語(yǔ)、俄語(yǔ)、西班牙語(yǔ)、漢語(yǔ)等;WoS以英語(yǔ)為主;CiteSeerX僅收錄英語(yǔ)語(yǔ)種文獻(xiàn);DISC雖然也收錄多語(yǔ)種文獻(xiàn),但并沒(méi)有收錄中文期刊。
在收錄時(shí)間方面,Scopus和WoS的來(lái)源期刊可追溯到上百年前,CiteSeerX從1948年開(kāi)始收錄,而DISC來(lái)源期刊從2006年才開(kāi)始收錄。
在來(lái)源文獻(xiàn)類型方面,Scopus和WoS收錄多種類型的文獻(xiàn)資源,包括期刊文獻(xiàn)、會(huì)議論文、圖書(shū)資源、專利資源等;CiteSeerX收錄預(yù)印本、期刊、會(huì)議等;DISC只收錄期刊文獻(xiàn),不包括學(xué)術(shù)會(huì)議、圖書(shū)、專利與技術(shù)報(bào)告等。
在數(shù)據(jù)規(guī)模方面,截至2020年1月底,Scopus收錄2.5萬(wàn)多種來(lái)源期刊,17億條引文;WoS的SCI收錄236個(gè)學(xué)科中超過(guò)1.1萬(wàn)多種世界上最具影響力的期刊,累計(jì)17億條引文;DISC收錄6000余種來(lái)源期刊,1100多萬(wàn)條來(lái)源文章,3.8億條引文。
在更新頻率上,Scopus每天更新,WoS每周更新,CiteSeerX實(shí)時(shí)更新,DISC則每周或更長(zhǎng)時(shí)間更新。
DISC在學(xué)科范圍、地域語(yǔ)種、文獻(xiàn)類型、數(shù)據(jù)規(guī)模與更新頻率等方面與其他數(shù)據(jù)庫(kù)還存在很大差距。
元數(shù)據(jù)描述詳盡與否體現(xiàn)了數(shù)據(jù)庫(kù)對(duì)文獻(xiàn)內(nèi)容的揭示深度,直接影響到數(shù)據(jù)庫(kù)的檢索與分析服務(wù)效果。下文通過(guò)對(duì)相關(guān)字段的統(tǒng)計(jì)分析,分別對(duì)4個(gè)引文數(shù)據(jù)庫(kù)的文獻(xiàn)元數(shù)據(jù)、作者元數(shù)據(jù)、機(jī)構(gòu)元數(shù)據(jù)和來(lái)源出版物元數(shù)據(jù)的描述內(nèi)容進(jìn)行比較(見(jiàn)表1)。
分析結(jié)果表明,Scopus和WoS不僅提供了十分豐富的元數(shù)據(jù)內(nèi)容,并且提供了作者、歸屬機(jī)構(gòu)方面的ResearcherID、ORCID等規(guī)范編碼,為其開(kāi)展豐富多彩的數(shù)據(jù)庫(kù)應(yīng)用奠定了良好基礎(chǔ)。
與另外3個(gè)數(shù)據(jù)庫(kù)相比,DISC的元數(shù)據(jù)描述內(nèi)容相對(duì)較少,可供利用的元數(shù)據(jù)字段項(xiàng)較為有限,來(lái)源出版物元數(shù)據(jù)只提供了期刊名和ISSN或E-ISSN號(hào),文獻(xiàn)元數(shù)據(jù)描述內(nèi)容也很不豐富,作者元數(shù)據(jù)和機(jī)構(gòu)元數(shù)據(jù)的描述內(nèi)容則更少,沒(méi)有專門的元素集描述。
在檢索功能方面,Scopus提供了文獻(xiàn)檢索、作者檢索、歸屬機(jī)構(gòu)檢索3個(gè)主要的檢索入口,并在檢索結(jié)果查看中提供了選擇查看次要文獻(xiàn)(參考文獻(xiàn))的功能,還可以對(duì)來(lái)源出版物進(jìn)行檢索;WoS提供了基礎(chǔ)檢索(文獻(xiàn)檢索)、引文檢索、作者檢索和化學(xué)結(jié)構(gòu)檢索等多個(gè)檢索入口;CiteSeerX提供了文獻(xiàn)檢索、作者檢索和表檢索3個(gè)檢索入口,同時(shí)可以在檢索時(shí)選擇是否包含引文;DISC提供NSTL所有文獻(xiàn)的檢索、引文庫(kù)來(lái)源文獻(xiàn)檢索、引文檢索3個(gè)入口,并可以對(duì)來(lái)源文獻(xiàn)進(jìn)行瀏覽和檢索。
4個(gè)引文數(shù)據(jù)庫(kù)提供的文獻(xiàn)檢索功能和檢索結(jié)果排序輸出方式的數(shù)量見(jiàn)表2。
Scopus、WoS和DISC均提供了3種檢索方式,DISC雖然提供了組合檢索與高級(jí)檢索選項(xiàng),但可檢索字段與結(jié)果篩選項(xiàng),與Scopus、WoS相比還存在很大差距。
在檢索結(jié)果輸出方式上,4個(gè)數(shù)據(jù)庫(kù)各有特色,Scopus提供了自定義輸出字段;WoS可直接與寫(xiě)作工具相結(jié)合;CiteSeerX對(duì)單篇文章可以進(jìn)行添加列表和添加標(biāo)簽;DISC提供了添保存檢索歷史的功能。
表1 元數(shù)據(jù)描述內(nèi)容對(duì)比
表2 文獻(xiàn)檢索功能對(duì)比
在檢索結(jié)果輸出格式上,Scopus基本提供了目前主流文獻(xiàn)分析工具所使用全部格式;WoS提供了4種輸出格式;CiteSeerX沒(méi)有提供檢索結(jié)果批量導(dǎo)出的功能;DISC只提供文本和CSV兩種格式。
在檢索結(jié)果瀏覽和獲取方面,Scopus的普通期刊文獻(xiàn)詳情頁(yè)提供了18個(gè)字段的內(nèi)容,可以查看參考文獻(xiàn)、施引文獻(xiàn),還可以查看專利檢索結(jié)果;WoS則提供了高達(dá)39個(gè)字段的內(nèi)容,獲取全文時(shí),還提示了哪些是開(kāi)放獲取期刊;CiteSeerX文獻(xiàn)詳情頁(yè)面提供了6個(gè)字段的內(nèi)容,并提供多個(gè)全文鏈接選項(xiàng),可以免費(fèi)下載全文;DISC提供了9個(gè)字段的內(nèi)容,可鏈接到出版商數(shù)據(jù)庫(kù),并可下載全文,也可以通過(guò)NSTL進(jìn)行原文請(qǐng)求。
Scopus、WoS和CiteSeerX都提供了單獨(dú)的作者檢索入口,DISC未提供作者檢索入口,但在組合檢索中可用作者姓名進(jìn)行檢索。Scopus與WoS提供了6個(gè)不同的檢索字段,CiteSeerX提供了作者姓名1個(gè)檢索字段。
在作者檢索結(jié)果顯示方面,Scopus顯示內(nèi)容最全,有11個(gè)字段;WoS其次,有10個(gè)字段;CiteSeerX提供了3個(gè)字段的內(nèi)容;DISC在組合檢索中,用作者姓名檢索結(jié)果與文獻(xiàn)檢索結(jié)果顯示一致,提供了題名、作者、文獻(xiàn)出處、被引頻次、全文鏈接5個(gè)字段的內(nèi)容。
Scopus提供了專門的歸屬機(jī)構(gòu)檢索入口,可以通過(guò)機(jī)構(gòu)名稱檢索某一機(jī)構(gòu)的文獻(xiàn)產(chǎn)出情況和了解機(jī)構(gòu)的影響力,檢索結(jié)果顯示內(nèi)容和排序文獻(xiàn)都比較完善;WoS、CiteSeerX與DISC沒(méi)有專門的歸屬機(jī)構(gòu)檢索入口,但在組合檢索中提供了機(jī)構(gòu)檢索的相關(guān)字段,可以進(jìn)行機(jī)構(gòu)檢索,檢索結(jié)果顯示相關(guān)機(jī)構(gòu)發(fā)表的文獻(xiàn)列表。其中WoS對(duì)機(jī)構(gòu)檢索的文獻(xiàn)結(jié)果也與文獻(xiàn)一樣可進(jìn)行多種維度的分組統(tǒng)計(jì)與排序,DISC的機(jī)構(gòu)檢索也只是在組合檢索時(shí),可以根據(jù)機(jī)構(gòu)名稱進(jìn)行檢索,檢索結(jié)果顯示與作者檢索一致,提供了5個(gè)數(shù)據(jù)項(xiàng)。
Scopus和DISC提供了專門的來(lái)源出版物瀏覽和檢索入口,Scopus檢索功能和結(jié)果內(nèi)容顯示都比較完整。WoS和CiteSeerX沒(méi)有專門的來(lái)源出版物檢索入口,但在組合檢索中提供了來(lái)源出版物檢索的相關(guān)字段,可以進(jìn)行檢索,檢索結(jié)果顯示所檢索出版物的文獻(xiàn)列表。DISC的來(lái)源出版物提供了4項(xiàng)內(nèi)容,可以對(duì)來(lái)源出版物的題名、ISSN、年份和卷期進(jìn)行瀏覽和簡(jiǎn)單檢索。
對(duì)四大引文數(shù)據(jù)庫(kù)的檢索統(tǒng)計(jì)分析功能進(jìn)行比較分析,結(jié)果見(jiàn)表3。
(1)檢索結(jié)果分組統(tǒng)計(jì)與排名。對(duì)檢索結(jié)果進(jìn)行多維分組、統(tǒng)計(jì)與排名是文獻(xiàn)計(jì)量分析的基本內(nèi)容。在4個(gè)數(shù)據(jù)庫(kù)中,WoS對(duì)所有檢索入口所檢到的文獻(xiàn)結(jié)果均可進(jìn)行16種分組統(tǒng)計(jì)與排名,并可以進(jìn)行圖表顯示;CiteSeerX沒(méi)有提供分組功能,只是對(duì)檢索結(jié)果進(jìn)行被引頻次的排序;DISC提供的分組方式中,關(guān)鍵詞云功能是其他3個(gè)數(shù)據(jù)庫(kù)沒(méi)有的。
(2)文獻(xiàn)引文分析。作為引文數(shù)據(jù)庫(kù),文獻(xiàn)引文分析功能是最重要的內(nèi)容,而引文分析報(bào)告則是最好的呈現(xiàn)。Scopus和WoS都對(duì)檢索到的文獻(xiàn)提供了引文分析報(bào)告,包含多項(xiàng)影響力度量指標(biāo)。DISC的引文分析功能包括被引量和年被引量?jī)煞矫?,另外可以查看施引文獻(xiàn),并提供文獻(xiàn)引用提醒,顯然與其他數(shù)據(jù)庫(kù)相比還存在不小差距。
(3)作者與歸屬機(jī)構(gòu)分析。4個(gè)數(shù)據(jù)庫(kù)中,只有Scopus提供了完整的作者和歸屬機(jī)構(gòu)分析功能,WoS雖然沒(méi)有提供獨(dú)立的分析入口,但是通過(guò)檢索,可以獲得比較全面的作者分析內(nèi)容、機(jī)構(gòu)的基本情況與科研產(chǎn)出情況,DISC可以查看作者合作網(wǎng)絡(luò)。
(4)來(lái)源出版物分析。Scopus提供了完整的來(lái)源出版物詳情,并設(shè)置多維評(píng)價(jià)指標(biāo),同時(shí)還可以通過(guò)圖表對(duì)多種來(lái)源出版物進(jìn)行指標(biāo)的可視化對(duì)比分析;WoS提供的當(dāng)年SCI期刊影響因子、5年平均影響因子、JCR類別、JCR類別中的排序和JCR分區(qū)等已經(jīng)成為被廣泛應(yīng)用的、權(quán)威的文獻(xiàn)計(jì)量指標(biāo);CiteSeerX和DISC沒(méi)有提供來(lái)源出版物分析功能。
通過(guò)對(duì)4個(gè)引文數(shù)據(jù)庫(kù)的對(duì)比分析可見(jiàn),DISC與其他3個(gè)引文數(shù)據(jù)庫(kù),尤其是與Scopus和WoS相比,在來(lái)源期刊收錄范圍、對(duì)數(shù)據(jù)的描述及數(shù)據(jù)深度挖掘分析等方面都還存在不小的差距,系統(tǒng)目前提供的服務(wù)功能較為有限,需要在以下方面加以改進(jìn)。
現(xiàn)有的DISC引文數(shù)據(jù)庫(kù)收錄來(lái)源文獻(xiàn)的學(xué)科范圍不夠廣泛、語(yǔ)種不夠豐富、文獻(xiàn)類型較為單一、數(shù)據(jù)規(guī)模較小,在整體基礎(chǔ)建設(shè)方面不夠系統(tǒng)和完整??梢赃M(jìn)一步拓展來(lái)源文獻(xiàn)收錄范圍,豐富完善元數(shù)據(jù)描述內(nèi)容,提高DISC數(shù)據(jù)庫(kù)基礎(chǔ)建設(shè)的系統(tǒng)性與完整性,為檢索與引文分析功能提供更好的支撐。
表3 檢索統(tǒng)計(jì)分析功能對(duì)比
檢索功能是評(píng)價(jià)數(shù)據(jù)庫(kù)優(yōu)劣的重要指標(biāo),而周到的檢索功能可為用戶提供更多的便捷,保證數(shù)據(jù)庫(kù)的檢索效率[11-13]。
通過(guò)對(duì)比可以發(fā)現(xiàn),成熟完善的引文數(shù)據(jù)庫(kù)提供了文獻(xiàn)、引文、作者、機(jī)構(gòu)、來(lái)源出版物等多個(gè)獨(dú)立的檢索入口,而在引文分析功能方面,對(duì)作者和歸屬機(jī)構(gòu)的分析至關(guān)重要、必不可少,DISC應(yīng)增添這方面的檢索入口,提供更加豐富的檢索字段,檢索字段多可使數(shù)據(jù)庫(kù)具有很強(qiáng)的引文統(tǒng)計(jì)分析功能和文獻(xiàn)檢索功能[14],因此,DISC在組合檢索方式中,還有很大改進(jìn)余地。
DISC在檢索結(jié)果篩選、檢索結(jié)果排序、檢索結(jié)果輸出方式以及檢索結(jié)果輸出格式等檢索結(jié)果多樣化展示方式上明顯偏弱,可選擇性較小,應(yīng)增加多途徑分組與排序方式,如文獻(xiàn)數(shù)量、歸屬機(jī)構(gòu)、出版日期、被引頻次、來(lái)源出版物、國(guó)家/地區(qū)、學(xué)科類別等,為用戶使用數(shù)據(jù)庫(kù)提供更多更好的使用體驗(yàn)。
對(duì)檢索結(jié)果進(jìn)行更多維度的統(tǒng)計(jì)與排名比較分析,會(huì)使得分析結(jié)果更加客觀、準(zhǔn)確,便于用戶開(kāi)展更加廣泛的文獻(xiàn)計(jì)量學(xué)方面的應(yīng)用。
文獻(xiàn)引文分析功能和評(píng)價(jià)指標(biāo)是引文數(shù)據(jù)庫(kù)的核心價(jià)值[15]。Scopus提供了多項(xiàng)影響力度量指標(biāo);WoS提供的引文報(bào)告,其內(nèi)容包括多項(xiàng)指標(biāo)參數(shù),被學(xué)術(shù)界廣泛認(rèn)可和使用;CiteSeerX作為自動(dòng)引文數(shù)據(jù)庫(kù),其提供的信息也頗具特色;而DISC的引文分析功能沒(méi)有提供任何引文分析的報(bào)告和評(píng)價(jià)指標(biāo),非常有必要進(jìn)一步完善。
作者、歸屬機(jī)構(gòu)和來(lái)源出版物分析功能方面,DISC也相當(dāng)欠缺,沒(méi)有相應(yīng)的分析評(píng)價(jià)功能,需增加相應(yīng)的評(píng)價(jià)指標(biāo)與服務(wù)功能。