嚴建新
摘要:在SSCI的文獻數(shù)據(jù)中,同一專著或文集類在被引用時題名、版本年份及作者名拼寫存在著不一致的情況,為了使其具有一致性,本文提出了對引文數(shù)據(jù)進行預(yù)處理的方法。對文獻數(shù)據(jù)進行文獻和作者共被引分析,分別獲得重要文獻和作者的列表;對文獻名和作者名按字母排序,找出同一文獻不同的題名和出版年份以及同一作者名的不同拼寫,利用“搜索”和“替換”功能對引文數(shù)據(jù)進行修改。經(jīng)過對引文數(shù)據(jù)的預(yù)處理,共被引網(wǎng)絡(luò)中的重要節(jié)點及其被引次數(shù),以及共被引連線明顯增多。對于著作和文集類被引文獻占較大比例的社會科學(xué)研究領(lǐng)域,進行引文數(shù)據(jù)預(yù)處理有助于獲得更客觀的計量分析結(jié)果。
關(guān)鍵詞:引文數(shù)據(jù);預(yù)處理;SSCI;共被引分析
中圖分類號:G353.1文獻標識碼: ADOI:10.3969/j.issn.1003-8256.2020.01.006
開放科學(xué)(資源服務(wù))標識碼(OSID):
基金項目:廣西高??蒲兄攸c項目(ZD2014009)
《科學(xué)引文索引》(Science Citation Index,SCI)是對自然科學(xué)研究成果進行文獻計量分析常用的數(shù)據(jù)源之一,針對其數(shù)據(jù)結(jié)構(gòu),已開發(fā)出多種計量分析工具[1]。1973年,美國科學(xué)情報研究所(Institute for Scientific Information)按照SCI的模式又創(chuàng)立了社會科學(xué)引文索引(Social Science Citation Index,SSCI)。這兩個數(shù)據(jù)庫的文獻數(shù)據(jù)結(jié)構(gòu)相同,文獻的引文數(shù)據(jù)的格式也相同。因此,基于SCI文獻數(shù)據(jù)結(jié)構(gòu)開發(fā)的計量分析工具也同樣可用于分析SSCI的文獻數(shù)據(jù)。然而,筆者發(fā)現(xiàn),社會科學(xué)的許多學(xué)科領(lǐng)域有其自身的特點,專著、文集類文獻在被引文獻中占有較大的比例。這類文獻的題名拼寫和版本年份往往存在不一致的問題。為了獲得更為客觀的分析結(jié)果,有必要在計量分析前對這些領(lǐng)域的引文數(shù)據(jù)進行預(yù)處理。
2010年,董琳[2]探討了SCI文獻數(shù)據(jù)中機構(gòu)名和國名的處理問題,孫源[3],張晉輝和劉清[4]分別提出了針對SCI文獻數(shù)據(jù)中地址字段的處理方案。但筆者未能檢索到有關(guān)處理著作題名和版本年份的研究文獻。
1期刊文獻在被引文獻中的比例
為了比較被引文獻中期刊文獻所占的比例,筆者在SSCI和SCI數(shù)據(jù)庫中選擇了若干期刊:
(1)根據(jù)SSCI數(shù)據(jù)庫對期刊的分類,在各類別中分別選擇1種有代表性的期刊,共計57種;
(2)在SSCI數(shù)據(jù)庫中,以“Marx*”為檢索詞進行主題檢索,選擇載文數(shù)量最多的前8種期刊;
(3)除選擇Nature和Science外,在SCI數(shù)據(jù)庫按數(shù)學(xué)、物理、化學(xué)、天文、生物和地質(zhì)6個一級學(xué)科各選擇1種有代表性的期刊,共計8種。
以表格格式(win)分別下載上述期刊2017年最后一期的論文(article)數(shù)據(jù)。利用Excel軟件分別打開上述數(shù)據(jù)文件,從中各提取20篇論文的引文信息。通過人工粗略甄別,統(tǒng)計出被引期刊文獻在全部被引文獻中的百分比。
從表1中可以看到,SCI數(shù)據(jù)庫中6個一級學(xué)科的代表性期刊,以及Nature和Science的被引期刊文獻在全部被引文獻中的百分比都相當高,有7種期刊在90%以上,最低的Biological Reviews也接近90%。該百分比在這8種期刊中的平均值為92.5%。
SSCI數(shù)據(jù)庫按研究領(lǐng)域?qū)⑹珍浧诳瘎澐譃?7個類別,表2為各類別的代表性期刊的被引期刊文獻在全部被引文獻中的百分比。這一比例在不同類別中存在較大的差異,其中百分比較高的是與自然科學(xué)有相同或相近研究范式的學(xué)科領(lǐng)域,如精神病學(xué)(Psychiatry)、心理學(xué)(Psychology)、管理學(xué)等學(xué)科。而歷史學(xué)、社會學(xué)、文化學(xué)等學(xué)科則因研究范式的不同,這一比例就比較低,其中AmericanHistoricalReview只有28.0%。
表3列出的是2017年刊載馬克思主義研究成果最多的前8種期刊,被引期刊文獻在全部被引文獻中所占的百分比都比較低,最高的Antipode不到50%,而最低的Historical Materialism Research in Critical Marxist Theory僅有20%。這8種期刊的平均數(shù)為34.8%。
2專著和文集類引文帶來的問題
期刊論文的引文主要為兩大類型,一是期刊類文獻,二是專著和文集類文獻。其他類型的被引文獻,如新聞報道、年鑒、報告等,在全部引文中所占的比例低較。
運用計量學(xué)軟件對SCI和SSCI的文獻數(shù)據(jù)進行作者共被引和文獻共被引分析時,對于期刊類被引文獻而言,主要涉及被引文獻第一作者名、出版年號、期刊名、卷號等信息;對專著和文集類文獻而言,則主要涉及被引文獻第一作者名、出版年號、專著或文集題名、卷號等信息。如今,期刊名已實現(xiàn)了標準化,但專著和文集的題名則未進行標準化。當同一部專著或同一本文集中的同一文獻被不同學(xué)者引用時,題名的拼寫就有可能會出現(xiàn)不一致。如果該專著或文集被再版,或被翻譯成其他語種出版,就會出現(xiàn)版本年份的不一致。這導(dǎo)致軟件將其判定為不同的文獻,在共被引網(wǎng)絡(luò)中同一被引文獻就會分裂成多個節(jié)點。一般而言,越是經(jīng)典的專著,節(jié)點分裂的現(xiàn)象越是普遍。因此,對引文數(shù)據(jù)的預(yù)處理是文獻計量分析的基礎(chǔ)工作之一,它直接決定分析結(jié)果的客觀性[5]。
以“Marx*”為條件,對1998—2017年SSCI收錄的論文進行主題檢索,獲得4034條文獻數(shù)據(jù)。在運用CiteSpace[6]做文獻共被引分析時發(fā)現(xiàn),馬克思的經(jīng)典著作《政治經(jīng)濟學(xué)批判大綱》由于題名縮寫和版本年份的不同(表4),這一文獻在共被引網(wǎng)絡(luò)中分裂成許多節(jié)點。類似地,《資本論》《哥達綱領(lǐng)批判》《共產(chǎn)黨宣言》《德意志意識形態(tài)》《1844年經(jīng)濟學(xué)哲學(xué)手稿》,以及葛蘭西的《獄中札記》、亞當·斯密的《國富論》、哈維的《資本的極限》等經(jīng)典著作都存在節(jié)點分裂現(xiàn)象。
在文獻共被引和作者共被引網(wǎng)絡(luò)中的節(jié)點分裂,有可能使分析結(jié)果無法真實反映文獻和作者對特定研究領(lǐng)域所產(chǎn)生的影響和作用。因此,對于著作和文集類被引文獻占較大比例的研究領(lǐng)域,在計量分析前有必要對原始的引文數(shù)據(jù)進行預(yù)處理,盡量消除上述的不一致現(xiàn)象。
3引文數(shù)據(jù)的預(yù)處理
引文數(shù)據(jù)的預(yù)處理是將原始數(shù)據(jù)中同一著作或文集的題名、同一作者的姓名縮寫統(tǒng)一起來,并將同一著作或文集的版本年份統(tǒng)一起來。根據(jù)筆者的經(jīng)驗,可通過以下步驟完成這一工作:
(1)合并文獻數(shù)據(jù)。SSCI每次可下載500條文獻數(shù)據(jù),如數(shù)據(jù)量超過500條,將會得到2個以上的數(shù)據(jù)文件。為了便于預(yù)處理,需要將所有的數(shù)據(jù)文件合并為1個,在合并前應(yīng)先備份全部數(shù)據(jù)文件。
用鼠標右擊數(shù)據(jù)文件,在“打開方式”中選擇“寫字板”。每一條文獻數(shù)據(jù)均以“PT”開始,并以“ER”結(jié)束。打開第一個數(shù)據(jù)文件后再打開第二個數(shù)據(jù)文件,將第二個文件中從第一個“PT”到最后一個“ER”的部分復(fù)制到第一個文件末尾的“ER”和“EF”之間。重復(fù)上述過程,直到將所有數(shù)據(jù)文件的內(nèi)容全都復(fù)制到第一個數(shù)據(jù)文件中,以完成文獻數(shù)據(jù)的合并。合并后,應(yīng)更改文件名并做備份。
(2)獲取作者和文獻的信息,找出不同的拼寫和版本年份。運用CiteSpace軟件,設(shè)置適當?shù)拈撝祵喜⒑蟮奈墨I數(shù)據(jù)分別進行作者共被引和文獻共被引分析,從而獲得滿足閾值的作者列表和文獻列表。閾值越低,越有利于發(fā)現(xiàn)分裂開的小節(jié)點,但閾值的設(shè)置必須兼顧電腦的運算能力。
將作者列表復(fù)制到Word文件中,并按作者名排序,找出同一作者名的不同拼寫。將文獻列表復(fù)制到Word文件后,先將表格轉(zhuǎn)換為文本,再以逗號為分隔符將文本轉(zhuǎn)換為表格,然后分別按文獻名和作者名進行排序,分別找出同一文獻名的不同拼寫、不同版本年份和同一作者名的不同拼寫。
(3)修改引文數(shù)據(jù),統(tǒng)一拼寫及版本年份。用寫字板打開合并后的數(shù)據(jù)文件,利用“查找”和“替換”功能,將同一作者名、同一文獻的題名和同一文獻的版本年份分別統(tǒng)一起來。例如,將《政治經(jīng)濟學(xué)批判大綱》的作者名統(tǒng)一為“Marx K”,題名和版本年份分別統(tǒng)一為“GRUNDRISSE”和“1857”。
(4)復(fù)查。設(shè)置適當?shù)拈撝祵μ幚砗蟮臄?shù)據(jù)分別進行作者共被引和文獻共被引分析,按步驟(2)對獲得的作者和文獻列表進行復(fù)查,如同一作者名、同一文獻題名和同一文獻的版本年號仍有不一致的情況,則應(yīng)按步驟(3)進行修改。
在上述的步驟(2)中,如遇到作者和文獻的一致性無法直接判定的情況,應(yīng)充分利用搜索引擎、百度學(xué)術(shù)、多語種電子詞典、DOI代碼等工具進行交叉印證。
4結(jié)果與討論
筆者對上述4034條馬克思主義研究的引文數(shù)據(jù)進行多輪預(yù)處理后,獲得文獻共被引圖譜(圖1),圖中包含123個文獻節(jié)點,364條共被引連線。采用相同閾值對預(yù)處理前的數(shù)據(jù)進行文獻共被引分析,所得圖譜只包含72個文獻節(jié)點,僅有188條共被引連線(圖2)。相比較而言,預(yù)處理后滿足閾值的節(jié)點增加了約71%,共被引連線增加了約94%。就節(jié)點《政治經(jīng)濟學(xué)批判大綱》而言,預(yù)處理后其被引次數(shù)由353次增加到425次,增加了20%。在預(yù)處理前、后的文獻共被引網(wǎng)絡(luò)中,被引文獻的排序(表5)和被引作者的排序也相應(yīng)發(fā)生了變化,這表明,經(jīng)過上述的預(yù)處理,可有效地減少節(jié)點的分裂現(xiàn)象。
文獻的共被引分析有助發(fā)現(xiàn)對一個研究領(lǐng)域的發(fā)展產(chǎn)生較大影響的研究成果,也有助于揭示該領(lǐng)域的研究熱點和前沿,而作者的共被引分析則有助于評價學(xué)者對該領(lǐng)域的研究所做的貢獻。由于著作和文集類被引文獻在題名拼寫、版本年份和作者名拼寫上存在不一致,當這類文獻在引文中占有較大比重時,就有可能會對分析結(jié)果產(chǎn)生不利的影響。實踐表明,對引文數(shù)據(jù)進行預(yù)處理雖不能完全消除但能有效地減少節(jié)點的分裂現(xiàn)象,有助于提高計量分析的客觀性。然而,這類文獻占多大的比例就必須進行預(yù)處理,這一問題還有待開展進一步的實證研究。
參考文獻:
[1]李艷,張悅,曾可,等.文獻信息分析工具的比較[J].中華醫(yī)學(xué)圖書情報雜志, 2015, 24(11): 41-47.
[2]董琳.學(xué)科評價之文獻計量數(shù)據(jù)準備[J].情報理論與實踐, 2010, 33(6): 49-52.
[3]孫源.基于Word2Vec的SCI地址字段數(shù)據(jù)清洗方法研究[J].情報雜志, 2019, 38 (2): 195-200.
[4]張晉輝,劉清.基于推理機的SCI地址字段數(shù)據(jù)清洗方法設(shè)計[J].情報科學(xué), 2010, 28(5): 741-746.
[5]閆雪,歐陽海鷹,曾首英,等.文獻計量數(shù)據(jù)準備之數(shù)據(jù)采集與清洗:以中國水產(chǎn)科學(xué)研究院中文期刊論文分析為例[J].農(nóng)業(yè)圖書情報學(xué)刊, 2014, 26(4): 36-40.
[6]Chen, C. CiteSpaceⅡ: Detecting and visualizing emerging trends and transient patterns in scientific literature [J]. Journal of the American Society for Information Science and Technology, 2006, 57(3): 359-377.
The Citation Data Pre-Processing for SSCI Literature Data: A Case Study of Marxism Research
YAN Jianxin
(1.SchoolofMarxism,GuangxiUniversity,Nanning530004,China;2WISELab&ScienceofScienceand ManagementofScienceandTechnologyResearchInstitute,DalianUniversityofTechnology,Dalian116024,China)
Abstract: In SSCI literature data, a book or collected works sometimes is cited in different spellings in title and authors name, and in different publishing years due to different versions, this article proposes a way of citation data pre-processing in order to make them uniform.Obtain the title list of important cited literatures and name list of important author by cocitation analyses, rank the lists alphabetically and find out the different spellings and different publishing years, and then, make them uniform by searching and replacing.After the pre-processing of citation data, the important nodes and their citation frequency, as well as the co-cited links increase obviously in the co-citation networks. For the social research fields with high percentage of cited books or collected works, citation data pre-processing is helpful to make the bibliometric analysis more objective.
Keywords: citation data;pre-processing;SSCI;co-citation analysis