摘 要 圖書(shū)館的查收查引服務(wù),有助于學(xué)者及其單位客觀認(rèn)識(shí)自身科研成果產(chǎn)出和學(xué)術(shù)發(fā)展。論文結(jié)合查收查引工作實(shí)踐,從數(shù)據(jù)、算法、交互3個(gè)層面分析構(gòu)建了他引區(qū)分策略,并對(duì)其進(jìn)行系統(tǒng)實(shí)現(xiàn)。通過(guò)隨機(jī)抽取樣本報(bào)告做對(duì)比驗(yàn)證,實(shí)驗(yàn)得出該策略在時(shí)間效率和操作便捷性上更具優(yōu)勢(shì),最后針對(duì)影響因素進(jìn)行探討,希望為學(xué)者唯一身份標(biāo)識(shí)領(lǐng)域的研究提供思路參考。
關(guān)鍵詞 高校圖書(shū)館;查收查引;他引;姓名消歧;Python
分類(lèi)號(hào) G258.6
DOI 10.16810/j.cnki.1672-514X.2022.02.004
Abstract The search and citation service of the library helps scholars and their units to objectively understand the output of their own scientific research results and academic development. Combining the work practice of checking, receiving and citation, the article analyzes and constructs a different citation strategy from three levels of data, algorithm and interaction, and implements it systematically. Through a random sample report for comparative verification and analysis, this strategy has advantages in time efficiency and operational convenience, and the influencing factors are discussed, which hopes to provide a reference for scholars’ research in the field of unique identification.
Keywords University library. Search for citations. Other citations. Name disambiguation. Python.
0 引言
查收查引服務(wù)是指根據(jù)用戶需求在國(guó)內(nèi)外權(quán)威數(shù)據(jù)庫(kù)中檢索學(xué)術(shù)文獻(xiàn)被收錄和被引用的情況。查收查引服務(wù)作為圖書(shū)館情報(bào)分析中的重要工作,最早可追溯到20世紀(jì)80年代。定量分析方法在科研績(jī)效分析評(píng)價(jià)中的廣泛使用[1],使得查收查引服務(wù)在圖書(shū)館參考咨詢服務(wù)中逐漸開(kāi)展和普及而來(lái)。蘇秋俠通過(guò)對(duì)“985工程”高校網(wǎng)站數(shù)據(jù)實(shí)證調(diào)研發(fā)現(xiàn),38所高校圖書(shū)館網(wǎng)站均設(shè)置了“查收查引”欄目[2]。在查收查引服務(wù)中,除了關(guān)注自引文獻(xiàn)情況,了解學(xué)者的研究方向,其中進(jìn)行他引的區(qū)分有助于學(xué)校、科研單位、學(xué)者個(gè)人更為客觀、全面地了解自身科研學(xué)術(shù)成果。本文從目前高校圖書(shū)館的查收查引服務(wù)中他引區(qū)分實(shí)踐出發(fā),分析目前圖書(shū)情報(bào)界常用的他引區(qū)分中學(xué)者唯一身份標(biāo)識(shí)問(wèn)題的評(píng)判依據(jù)和區(qū)分算法,系統(tǒng)性地構(gòu)建了算法復(fù)雜度為O(n)的他引區(qū)分策略,并以Web of Science數(shù)據(jù)庫(kù)為例進(jìn)行他引區(qū)分系統(tǒng)實(shí)現(xiàn),驗(yàn)證該他引區(qū)分策略的可行性。
1 查收查引業(yè)務(wù)研究及他引區(qū)分問(wèn)題
隨著我國(guó)學(xué)術(shù)科研事業(yè)的蓬勃發(fā)展,查收查引需求量愈來(lái)愈大,促使各圖書(shū)館尤其是高校圖書(shū)館逐步將查收查引業(yè)務(wù)從參考咨詢中獨(dú)立出來(lái),形成查新站、信息服務(wù)中心等專職部門(mén)進(jìn)行學(xué)術(shù)文獻(xiàn)的收錄和引用報(bào)告的開(kāi)具。業(yè)務(wù)最初多為人工查收查引,包含十余個(gè)步驟,隨著信息化時(shí)代的發(fā)展,查收查引工作逐步向業(yè)務(wù)半自動(dòng)化、流程自動(dòng)化轉(zhuǎn)變。業(yè)務(wù)半自動(dòng)化實(shí)現(xiàn)主要依靠機(jī)器輔助檢索,樊亞芳提出利用文獻(xiàn)管理工具去重、統(tǒng)計(jì)總他引次數(shù)[3],這里CALIS技術(shù)中心與北京大學(xué)圖書(shū)館開(kāi)發(fā)的論文收錄與引用檢索系統(tǒng)具有代表性[4]。查收引證工作流程自動(dòng)化方面的代表有山東大學(xué)闞洪?;谒?bào)表研發(fā)的查收引證報(bào)告自動(dòng)生成系統(tǒng)[5]。2011年底中國(guó)科學(xué)院軟件研究所研發(fā)了“引證報(bào)告自動(dòng)生成原型系統(tǒng)”,王學(xué)勤在該原型系統(tǒng)基礎(chǔ)上實(shí)現(xiàn)數(shù)據(jù)預(yù)處理、增加檢索數(shù)據(jù)源等功能模塊優(yōu)化[6],李桂影提出使用Web of ScienceTM新平臺(tái)精煉檢索結(jié)果去除自引[7],北京郵電大學(xué)嚴(yán)潮斌提出查收引證服務(wù)融入機(jī)構(gòu)知識(shí)庫(kù)[8],但目前機(jī)構(gòu)庫(kù)多采用接口或數(shù)據(jù)抓取等方式獲取文獻(xiàn)源數(shù)據(jù),這兩種方式均獲取不到作者識(shí)別號(hào)字段,存在元數(shù)據(jù)缺失現(xiàn)象。
查收查引業(yè)務(wù)中的他引區(qū)分究其根本,與學(xué)術(shù)界姓名消歧(即Author Name Disambiguation)為同族問(wèn)題。沈喆等對(duì)2016至2020年姓名消歧相關(guān)研究歸納梳理發(fā)現(xiàn)在特征表示上網(wǎng)絡(luò)表示學(xué)習(xí)、異構(gòu)網(wǎng)絡(luò)元路徑以及概率模型受到研究者的青睞,模型仍以機(jī)器學(xué)習(xí)為主,集中于優(yōu)化聚類(lèi)算法效率,并指出相關(guān)研究在模型推廣和時(shí)間復(fù)雜度上存在問(wèn)題,模型推廣上目前實(shí)證研究多基于如AMIner、DBLP等僅涵蓋計(jì)算機(jī)信息科學(xué)的研究成果的數(shù)據(jù)庫(kù),應(yīng)用于大型綜合數(shù)據(jù)集合如Web of Science的相關(guān)研究較少;在時(shí)間復(fù)雜度上,目前相關(guān)研究中用到的聚類(lèi)算法在增量消歧中時(shí)間復(fù)雜度較優(yōu)的為O(n)[9]。目前他引區(qū)業(yè)務(wù)通過(guò)系統(tǒng)區(qū)分的代表有CALI查收查引、機(jī)構(gòu)知識(shí)庫(kù)[10]。但系統(tǒng)獲取數(shù)據(jù)庫(kù)的數(shù)據(jù)多為接口實(shí)現(xiàn),會(huì)出現(xiàn)部分字段如作者識(shí)別號(hào)、地址等字段缺失現(xiàn)象進(jìn)而影響區(qū)分;另外,其判別標(biāo)準(zhǔn)都是對(duì)姓名、姓名別稱的判斷,這就導(dǎo)致判斷的準(zhǔn)確率不高,部分結(jié)果仍然需要科研人員人工干預(yù)再次核對(duì)。湯森路透(http://thomsonreuters.com/)推出的ResearcherID和ORCID (open researcher and contributor ID) 兩者均可解決學(xué)術(shù)研究中的研究者姓名混淆的問(wèn)題。ORCID著重于作者的標(biāo)識(shí)[11],ResearcherID著重于作者學(xué)術(shù)科研產(chǎn)出展示與分析,ResearcherID 旨在將作者與其學(xué)術(shù)作品緊密結(jié)合[12]。最受業(yè)界推崇的根本解決方法仍為建立researchID和ORCID的統(tǒng)一身份標(biāo)識(shí)體系。但目前國(guó)內(nèi)學(xué)者作者標(biāo)識(shí)意識(shí)不高,很少有學(xué)者發(fā)文標(biāo)注作者ResearcherID或ORCID,且作者識(shí)別號(hào)申請(qǐng)機(jī)制并未嚴(yán)格控制,存在一個(gè)學(xué)者對(duì)應(yīng)多個(gè)作者識(shí)別號(hào)的現(xiàn)象。
2 他引區(qū)分策略研究
為解決數(shù)據(jù)接口獲取數(shù)據(jù)庫(kù)元數(shù)據(jù)字段缺失問(wèn)題,使他引區(qū)分?jǐn)?shù)據(jù)獲取更加規(guī)范、數(shù)據(jù)質(zhì)量有所保證,區(qū)分流程更加優(yōu)化,確保區(qū)分結(jié)果準(zhǔn)確率的同時(shí)提升人工他引區(qū)分效率,本研究通過(guò)梳理分析查收查引服務(wù)中他引區(qū)分工作實(shí)踐,構(gòu)建他引區(qū)分策略,如圖1所示。
2.1 數(shù)據(jù)層
在數(shù)據(jù)層首先要考慮知識(shí)產(chǎn)權(quán)的保護(hù)及版權(quán)問(wèn)題,目前我國(guó)公共文化機(jī)構(gòu)中與版權(quán)有關(guān)的數(shù)據(jù)庫(kù)資源主要包含開(kāi)放存取數(shù)據(jù)庫(kù)、自建數(shù)據(jù)庫(kù)、商業(yè)數(shù)據(jù)庫(kù)[13],學(xué)術(shù)評(píng)價(jià)中涉及到的主要為商業(yè)數(shù)據(jù)庫(kù)。目前對(duì)于商業(yè)數(shù)據(jù)庫(kù)的版權(quán)保護(hù),主要依賴于圖書(shū)館與數(shù)據(jù)庫(kù)商簽署的采購(gòu)合同中的規(guī)定,為有效規(guī)避版權(quán)問(wèn)題,本他引區(qū)分策略的數(shù)據(jù)層的相關(guān)操作中不對(duì)商業(yè)數(shù)據(jù)庫(kù)資源進(jìn)行抓取,采用比較保守的方式。源數(shù)據(jù)獲取在已購(gòu)買(mǎi)可訪問(wèn)商業(yè)數(shù)據(jù)庫(kù)的網(wǎng)絡(luò)環(huán)境下進(jìn)行,由于商業(yè)數(shù)據(jù)庫(kù)平臺(tái)在數(shù)據(jù)注入、數(shù)據(jù)加工上存在疏漏,需要對(duì)源數(shù)據(jù)(即施引文獻(xiàn)、被引文獻(xiàn)記錄信息)進(jìn)行清洗,去除“臟數(shù)據(jù)”和“噪音數(shù)據(jù)”,得到包含用于他引區(qū)分的關(guān)鍵字段的“數(shù)據(jù)范式”,得到規(guī)范化的數(shù)據(jù)字段。
2.2 算法層
在算法層需要考慮他引區(qū)分算法、算法的時(shí)間復(fù)雜度及空間復(fù)雜度。算法執(zhí)行的效率度量方法分為事后分析法和事前分析評(píng)估方法[14]。事后分析法是設(shè)計(jì)好測(cè)試程序和數(shù)據(jù),利用計(jì)時(shí)器記錄不同算法編寫(xiě)的程序運(yùn)行時(shí)間,通過(guò)比較進(jìn)而得到算法效率的高低。事前分析估算方法是在編寫(xiě)程序之前,依據(jù)統(tǒng)計(jì)方法對(duì)算法進(jìn)行估算。在進(jìn)行算法的分析時(shí)主要針對(duì)算法的時(shí)間復(fù)雜度和和空間復(fù)雜度。時(shí)間復(fù)雜度用來(lái)度量算法運(yùn)行需要的時(shí)間,空間復(fù)雜度是指算法所需的存儲(chǔ)空間需求。算法時(shí)間復(fù)雜度是時(shí)間度量,漸近時(shí)間復(fù)雜度T(n)=O(f(n))簡(jiǎn)稱為時(shí)間復(fù)雜度,記作:T(n)= O(f(n)),它表示隨問(wèn)題規(guī)模n的增大,漸近時(shí)間復(fù)雜度T(n)=O(f(n))簡(jiǎn)稱為時(shí)間復(fù)雜度,算法執(zhí)行時(shí)間的增長(zhǎng)率和f(n)的增長(zhǎng)率相同,其中f(n)是問(wèn)題規(guī)模n的某個(gè)函數(shù)[15]。隨著輸入規(guī)模n的增大,T(n)增長(zhǎng)最慢的算法為最優(yōu)算法。在他引區(qū)分算法的設(shè)計(jì)中應(yīng)充分考慮循環(huán)、遞歸等函數(shù)對(duì)于算法執(zhí)行效率、算法時(shí)間復(fù)雜度、空間復(fù)雜度的影響,注意結(jié)合實(shí)踐經(jīng)驗(yàn),在保證結(jié)果準(zhǔn)確度的基礎(chǔ)上,對(duì)算法進(jìn)行優(yōu)化。
2.3 交互層
交互層是在算法層的基礎(chǔ)上,結(jié)合數(shù)據(jù)層處理后得到的規(guī)范化數(shù)據(jù),通過(guò)編寫(xiě)代碼對(duì)他引區(qū)分算法進(jìn)行實(shí)現(xiàn),進(jìn)而得到操作流程清晰規(guī)范的完整他引區(qū)分系統(tǒng)。首先在界面的設(shè)計(jì)上應(yīng)充分考慮“交互設(shè)計(jì)七大定律”[16],依據(jù)“Occams Razor”奧卡姆剃刀原理和HICKS law ,精減實(shí)體數(shù)量保證功能設(shè)計(jì)中盡量簡(jiǎn)單,在滿足功能的基礎(chǔ)上給用戶最少的選擇,實(shí)際使用中交互選擇時(shí)間就會(huì)縮短,從而提高交互效率和信息產(chǎn)出。1956 年喬治米勒對(duì)短時(shí)記憶能力定量研究發(fā)現(xiàn)人類(lèi)頭腦最好的狀態(tài)為記憶7(±2)項(xiàng)信息塊,所以在交互界面設(shè)計(jì)上設(shè)置5~9個(gè)信息塊即可。關(guān)于信息塊在頁(yè)面布局上依“The Law of Proximity”接近原則設(shè)計(jì),非交互信息設(shè)置為不可編輯或灰色色塊。數(shù)據(jù)結(jié)果集的刷新采用Reload重載函數(shù)代碼實(shí)現(xiàn),刷新后的結(jié)果集前臺(tái)展示。
3 源數(shù)據(jù)獲取與處理
3.1 數(shù)據(jù)獲取與處理工具選擇
對(duì)所構(gòu)建的他引區(qū)分策略進(jìn)行驗(yàn)證主要采用WOS(Web of Science)平臺(tái)數(shù)據(jù),它是情報(bào)分析工作中查收引證工作重要依托平臺(tái)[17]。在數(shù)據(jù)的處理上,除WOS平臺(tái)自帶的數(shù)據(jù)導(dǎo)出功能,還使用到了noteExpress文獻(xiàn)管理工具軟件。NoteExpress核心功能包含數(shù)據(jù)收集、管理、分析、發(fā)現(xiàn)和寫(xiě)作等[18],可為整個(gè)科研流程中高效利用電子資源提供幫助:檢索并管理得到的文獻(xiàn)摘要、全文;在撰寫(xiě)學(xué)術(shù)論文、專著或報(bào)告時(shí)在正文指定位置便捷地添加筆記;按照不同格式要求自動(dòng)生成參考文獻(xiàn)。同時(shí)還可以通過(guò)自定義樣式導(dǎo)出題錄的樣式,進(jìn)行簡(jiǎn)單的數(shù)據(jù)規(guī)范化處理。
選擇WOS導(dǎo)出與noteExpress軟件相結(jié)合使用的原因主要為:初期采用Python編寫(xiě)程序直接進(jìn)行數(shù)據(jù)的規(guī)范化處理,但后來(lái)發(fā)現(xiàn)當(dāng)檢索員采用不同瀏覽器或選擇瀏覽器的兼容/IE不同模式,以及當(dāng)WOS版本更新后,從WOS端導(dǎo)出的txt文件中的內(nèi)容格式會(huì)發(fā)生變化,相對(duì)應(yīng)的需要進(jìn)行代碼的修改。由此可見(jiàn),使用代碼實(shí)現(xiàn)數(shù)據(jù)規(guī)范化處理,存在一定的局限性。相對(duì)應(yīng)地,noteExpress能很好地解決這兩方面的問(wèn)題。
3.2 數(shù)據(jù)規(guī)范化處理操作說(shuō)明
數(shù)據(jù)的規(guī)范化處理主要包含作者姓名地址數(shù)據(jù)對(duì)、作者識(shí)別號(hào)兩部分基準(zhǔn)數(shù)據(jù)清洗和規(guī)范化。因施引文獻(xiàn)的時(shí)間發(fā)生在被引文獻(xiàn)刊出后,所以可以同時(shí)對(duì)被引、施引文獻(xiàn)進(jìn)行數(shù)據(jù)規(guī)范化處理。
作者姓名地址數(shù)據(jù)的處理方法為:在WOS平臺(tái)中首先檢索出被引文獻(xiàn)以及其在WOS核心合集中的施引文獻(xiàn),勾選后添加至“標(biāo)記結(jié)果列表”后按照日期順序排列。而后選擇“其他文件格式”后以“其他參考文獻(xiàn)軟件、全記錄”方式導(dǎo)出txt文本格式文件,一般默認(rèn)文件名稱為savedrecs.txt。之后在noteExpress中選擇“導(dǎo)入題錄”,設(shè)置題錄來(lái)源為來(lái)自文件,過(guò)濾器對(duì)應(yīng)選擇noteExpress自帶的Web of Science過(guò)濾器。導(dǎo)入后重點(diǎn)核對(duì)列表文獻(xiàn)與在WOS網(wǎng)頁(yè)端的頁(yè)面中文獻(xiàn)是否一致,如有缺少作者、地址等信息的進(jìn)行手工補(bǔ)充,如果已知作者其他姓名寫(xiě)法、地址其他寫(xiě)法、其他地址等信息也可進(jìn)行補(bǔ)充完善,對(duì)源數(shù)據(jù)進(jìn)行擴(kuò)展完善。然后在noteExpress導(dǎo)出題錄頁(yè)導(dǎo)出文獻(xiàn)題錄,此處需要“自定義樣式”設(shè)置提出題錄模板,導(dǎo)出含有“作者姓名、地址、獲取號(hào)”的被引文獻(xiàn)nebase.txt以及施引文獻(xiàn)列表nelist.txt文本文件。需特別注意在導(dǎo)出題錄時(shí)應(yīng)選擇UTF-8編碼格式,否則會(huì)影響后期他引區(qū)分。最后使用Python編寫(xiě)程序處理得到形如{文獻(xiàn)序號(hào)1:作者A-該作者地址集;作者B-該作者地址集……作者N-該作者地址集}規(guī)范化數(shù)據(jù)。
與此同時(shí),作者識(shí)別號(hào)字段在noteExpress處理時(shí)會(huì)出現(xiàn)缺失。所以仍需采用WOS平臺(tái)自帶的“打印”功能另存為txt格式文件,通過(guò)編寫(xiě)Python代碼讀取文本文件進(jìn)行數(shù)據(jù)處理,數(shù)據(jù)抽取出被引、施引文獻(xiàn)中各篇文獻(xiàn)的作者識(shí)別號(hào)數(shù)據(jù),形成“文獻(xiàn)序號(hào)—作者識(shí)別號(hào)”數(shù)據(jù)對(duì)作為二維數(shù)組進(jìn)而做比對(duì)分析。
4 算法設(shè)計(jì)及其復(fù)雜度分析
4.1 算法設(shè)計(jì)
他引區(qū)分是以被引文獻(xiàn)中的作者姓名、地址、作者識(shí)別號(hào)等唯一身份標(biāo)識(shí)信息為判定依據(jù)。在對(duì)施引文獻(xiàn)集合中的文獻(xiàn)逐條進(jìn)行辨別的過(guò)程中,通過(guò)比較可得到每一條作者自引或是他引的“施引文獻(xiàn)”記錄,從而得到被引文獻(xiàn)的他引文獻(xiàn)結(jié)果集。
在他引區(qū)分算法的設(shè)計(jì)上,考慮到目前人工區(qū)分自引/他引大多是根據(jù)作者姓名判定,當(dāng)出現(xiàn)重名現(xiàn)象時(shí)往往通過(guò)判定作者地址是否相同,在ResearcherID&ORCID屬性不為空時(shí),有經(jīng)驗(yàn)的檢索員也會(huì)將其作為判定依據(jù)。從現(xiàn)有他引區(qū)分算法集合圖2中可以看出AuthorName+address判定出的結(jié)果集比AuthorName結(jié)果集要精確很多,AuthorName+address+ResearcherID&ORCID判定出的結(jié)果集A又比單姓名、地址、ResearcherID&ORCID的結(jié)果更加精準(zhǔn)。與此同時(shí),目前存在作者姓名簡(jiǎn)寫(xiě)、姓名寫(xiě)法不規(guī)范、作者地址變更、同一地址寫(xiě)法多樣等問(wèn)題,所以我們考慮在結(jié)果集A的基礎(chǔ)上加上姓名其他寫(xiě)法、作者其他地址、作者地址其他寫(xiě)法等判定依據(jù),從優(yōu)化后的他引區(qū)分算法集合圖3可以看出結(jié)果集A+姓名其他寫(xiě)法+其他地址&地址其他寫(xiě)法得到的數(shù)據(jù)集C是判斷依據(jù)最為全面、結(jié)果最為精確的結(jié)果集。
相對(duì)應(yīng)地,該他引用區(qū)分算法程序控制流圖如圖4所示。
4.2 算法復(fù)雜度分析
在進(jìn)行算法分析時(shí),語(yǔ)句總執(zhí)行次數(shù)T(n)是關(guān)于問(wèn)題規(guī)模的N的函數(shù),通過(guò)推導(dǎo)大O階方法分析算法的時(shí)間復(fù)雜度進(jìn)而推導(dǎo)語(yǔ)句總執(zhí)行次數(shù)T(n)的數(shù)量級(jí)。算法偽代碼為:
resPrin = [];j =0;? ? ? ? /* resPrin[ ]為他引結(jié)果集 */
while j< len(egData):? ? ? /* EgData 為施引文獻(xiàn)的二維數(shù)
組[[][][][]……]*/
test = egData[j]
i = 0;
while i <len(test):? ? ? ? ? ? ? ? ? ? ? ? ? /*遍歷施引文獻(xiàn)集合
中的作者集數(shù)組*/
if egSors.find(test[i]) != -1: /* EgSors 為被引文獻(xiàn)的
一維數(shù)組[……]*/
if j+1? not in? resPrin:? ? ? ? ? ?/*得到他引區(qū)分結(jié)
果,寫(xiě)入結(jié)果集數(shù)組*/
resPrin.append(j+1)
i += 1
j +=1
根據(jù)算法導(dǎo)論中算法復(fù)雜度計(jì)算方法得出該算法的時(shí)間復(fù)雜度主要取決于施引文獻(xiàn)的文獻(xiàn)數(shù)目、以及施引文獻(xiàn)中含有作者數(shù)目。時(shí)間復(fù)雜度為:
(其中施引文獻(xiàn)為二維數(shù)組,m表示該施引文獻(xiàn)長(zhǎng)度, n 表示施引文獻(xiàn)中每篇文獻(xiàn)中作者數(shù)組的長(zhǎng)度。)
5 系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)
5.1 技術(shù)路線選擇
該他引區(qū)分系統(tǒng)實(shí)現(xiàn)采用C/S架構(gòu),使用Python語(yǔ)言編寫(xiě)算法實(shí)現(xiàn)數(shù)據(jù)分析和處理,依照不同依據(jù)分別區(qū)分出他引文獻(xiàn)序號(hào)列表并前臺(tái)輸出展示。C/S架構(gòu)即為客戶端/服務(wù)器(Client/Serve)模式,該架構(gòu)更少依賴網(wǎng)絡(luò)傳輸且更為穩(wěn)定。Python是一種動(dòng)態(tài)的、面向?qū)ο蟮哪_本語(yǔ)言,相比于Java、C語(yǔ)言等計(jì)算機(jī)程序設(shè)計(jì)語(yǔ)言,Python可以以很少的代碼高效完成任務(wù)。著名的網(wǎng)站包括YouTube就是Python寫(xiě)的,Google也在大量使用Python進(jìn)行開(kāi)發(fā),github上基于Python研究實(shí)踐越來(lái)越多。使用Python開(kāi)發(fā)完成后通過(guò)Pyinstaller打包發(fā)布Windows平臺(tái)、MacOS平臺(tái)的可執(zhí)行文件,可滿足跨平臺(tái)使用需求。與此同時(shí),考慮到Web of Science數(shù)據(jù)庫(kù)版權(quán)問(wèn)題本研究實(shí)踐并未進(jìn)行數(shù)據(jù)抓取。本研究實(shí)踐中的實(shí)驗(yàn)環(huán)境配置為:瀏覽器采用Internet Explorer11,實(shí)驗(yàn)階段Web of Science[V5.31],開(kāi)發(fā)語(yǔ)言Python為3.6.3版本。
5.2 系統(tǒng)實(shí)現(xiàn)
他引區(qū)分算法主要依據(jù)作者姓名地址、作者識(shí)別號(hào)等特征信息進(jìn)行判定,均使用Python編寫(xiě)代碼實(shí)現(xiàn)。
姓名地址依據(jù)下的他引區(qū)分實(shí)現(xiàn)方法為:首先基于Python的re函數(shù)庫(kù)分別讀取noteExpress處理后的被引文獻(xiàn)/施引文獻(xiàn)對(duì)應(yīng)的文本文件,獲取作者地址數(shù)據(jù)后通過(guò)數(shù)據(jù)處理程序得到規(guī)范化數(shù)據(jù)對(duì)集合,即需字符串轉(zhuǎn)數(shù)組、數(shù)組拆分、字符串拼接、字符串轉(zhuǎn)數(shù)組、去空、循環(huán)嵌套等程序操作進(jìn)行數(shù)據(jù)規(guī)范化處理。
作者識(shí)別號(hào)依據(jù)下的他引區(qū)分實(shí)現(xiàn)方法為:首先讀取被引文獻(xiàn)文本文件,無(wú)“作者識(shí)別號(hào)”字段則被引文獻(xiàn)作者識(shí)別號(hào)缺失,無(wú)需進(jìn)行作者識(shí)別號(hào)的依據(jù)的判斷,在結(jié)果頁(yè)打印“源文獻(xiàn)無(wú)作者識(shí)別號(hào)信息”即可;當(dāng)被引文獻(xiàn)存在作者識(shí)別號(hào)字段的情況下,再讀取被引文獻(xiàn)文本文件。由于不是每篇施引文獻(xiàn)都有作者識(shí)別號(hào)信息,所以該部分?jǐn)?shù)據(jù)處理時(shí)根據(jù)文本文獻(xiàn)結(jié)構(gòu)特點(diǎn),首先判斷“入藏號(hào)”與“作者識(shí)別號(hào)”是否存在,當(dāng)兩者均存在時(shí)則截取該條記錄的作者識(shí)別號(hào)信息存入施引文獻(xiàn)數(shù)組,若不存在“作者識(shí)別號(hào)”則說(shuō)明該條記錄下的施引文獻(xiàn)無(wú)該字段,需向施引文獻(xiàn)數(shù)組中添加一條空記錄。最后通過(guò)程序?qū)Ρ缺灰墨I(xiàn)、施引文獻(xiàn)數(shù)組中每篇論文的作者識(shí)別號(hào)數(shù)據(jù)集合即可得到以作者識(shí)別號(hào)ResearcherID&ORCID為判定依據(jù)的他引區(qū)分結(jié)果集。由于考慮到目前作者識(shí)別號(hào)的使用并不是很廣泛,所以將其單獨(dú)實(shí)現(xiàn)并展示結(jié)果集,將來(lái)隨著作者識(shí)別號(hào)的推廣范圍增加、作者使用識(shí)別號(hào)的意識(shí)逐步提高,即可單獨(dú)使用該部分功能區(qū)分。
在交互層的實(shí)現(xiàn)上他引區(qū)分系統(tǒng)整體流程設(shè)計(jì)如圖5所示。首先讀取被引文獻(xiàn)文件、施引文獻(xiàn)列表文件;然后分別以為作者識(shí)別號(hào)、作者姓名地址為依據(jù)進(jìn)行判定得出對(duì)應(yīng)的結(jié)果集;最后同時(shí)輸出兩個(gè)結(jié)果集合供檢索員參考。在界面實(shí)現(xiàn)上,首先基于Python的tkinter工具進(jìn)行展示界面繪制、然后通過(guò)函數(shù)調(diào)用方法分別運(yùn)行區(qū)分功能得到作者識(shí)別號(hào)、姓名地址的依據(jù)下區(qū)分的結(jié)果集的可視化展示。當(dāng)更換被引文獻(xiàn)、施引文獻(xiàn)后點(diǎn)擊“重新載入”按鈕觸發(fā)后臺(tái)Reload方法刷新程序得到對(duì)應(yīng)的結(jié)果集。
至此該他引區(qū)分系統(tǒng)已經(jīng)完成,通過(guò)Pyinstaller打包發(fā)布后即可應(yīng)用于實(shí)際查收查引相關(guān)工作中。
6 同源數(shù)據(jù)集對(duì)比驗(yàn)證分析及不足
為驗(yàn)證他引區(qū)分系統(tǒng)的可行性、準(zhǔn)確性,隨機(jī)選取兩位檢索員的檢索引證報(bào)告,與本他引區(qū)分系統(tǒng)結(jié)果集進(jìn)行對(duì)比分析。他引數(shù)據(jù)截至2020年8月30日。第一組報(bào)告中包含22篇被引文獻(xiàn),其中施引文獻(xiàn)數(shù)超過(guò)2篇的有9篇,由于區(qū)分效率受被引/施引文獻(xiàn)中作者數(shù)目、被引文獻(xiàn)篇數(shù)影響,所以針對(duì)第一組報(bào)告進(jìn)行全對(duì)比分析。與此同時(shí),針對(duì)存在施引文獻(xiàn)較多或作者信息較多的情況,在第二組報(bào)告中選取多于50篇施引文獻(xiàn)的文獻(xiàn)進(jìn)行重點(diǎn)對(duì)比分析,著重分析其結(jié)果可靠性以及時(shí)間效率。兩組實(shí)驗(yàn)對(duì)比分析的結(jié)果如表1所示。第一組驗(yàn)證分析中的基準(zhǔn)數(shù)據(jù)為檢索員A 完成的引證報(bào)告,其中包含22篇被引文獻(xiàn),73篇施引文獻(xiàn)共計(jì)52次他引,人工區(qū)分用時(shí)約半天。
6.1 對(duì)比分析結(jié)果
(1)通過(guò)他引區(qū)分系統(tǒng)的WOS中的ResearchID&ORCID作者識(shí)別號(hào)以及作者姓名地址數(shù)據(jù)對(duì)為判定依據(jù)得到的施引文獻(xiàn)列表中的自引文獻(xiàn)序號(hào)基本覆蓋人工區(qū)分出的自引序號(hào)。
(2)時(shí)間效率上,系統(tǒng)區(qū)分時(shí)間均在1秒以內(nèi),且算法程序的運(yùn)行時(shí)間是相對(duì)穩(wěn)定的,所以程序區(qū)分在時(shí)間效率上較人工區(qū)分具備時(shí)間優(yōu)勢(shì)。第二組驗(yàn)證分析中單篇文獻(xiàn)的施引文獻(xiàn)最多為108篇,時(shí)間效率上,系統(tǒng)區(qū)分他引用時(shí)仍在1秒以內(nèi),說(shuō)明算法程序時(shí)間、空間復(fù)雜度是可以接受且受文獻(xiàn)數(shù)目影響較小的。
(3)結(jié)果準(zhǔn)確性上,22篇文獻(xiàn)中除一篇施引文獻(xiàn)因施引文獻(xiàn)中的地址屬性與被引文獻(xiàn)中的路段信息不符,導(dǎo)致未識(shí)別出為自引文獻(xiàn)外,其他結(jié)果均與人工區(qū)分結(jié)果一致。
(4)操作便捷性上,人工區(qū)分需要多次對(duì)比被引/施引文獻(xiàn)中的姓名、地址、識(shí)別號(hào)等字段詳細(xì)信息,人腦每次可記憶的作者姓名數(shù)目、姓名地址數(shù)據(jù)對(duì)信息是相對(duì)固定的,而每篇文獻(xiàn)作者數(shù)目不定,像是藥學(xué)、物理學(xué)等合作研究者較多的作者數(shù)目可能上百個(gè)。相對(duì)應(yīng)地,程序處理信息單元的優(yōu)勢(shì)就突顯出來(lái),只需導(dǎo)入被引/施引文獻(xiàn),即可生成結(jié)果集合,操作更為便捷。
綜合兩組實(shí)驗(yàn)數(shù)據(jù)分析可以發(fā)現(xiàn),系統(tǒng)區(qū)分在時(shí)間效率以及操作便捷性上具有較為明顯的優(yōu)勢(shì),但是受文獻(xiàn)地址信息以及數(shù)據(jù)庫(kù)注入錯(cuò)誤等問(wèn)題的影響,他引區(qū)分結(jié)果集會(huì)出現(xiàn)小部分偏差,其中姓名拼寫(xiě)問(wèn)題的數(shù)據(jù)庫(kù)注入錯(cuò)誤影響較大且不易避開(kāi)。與此同時(shí),檢索員反饋較多的姓名縮寫(xiě)、簡(jiǎn)寫(xiě)、姓名順序?qū)懛ǖ葐?wèn)題,由于區(qū)分策略中采用的為地址信息中的作者姓名,所以姓名寫(xiě)法問(wèn)題的影響并不是很大。其次,本數(shù)據(jù)驗(yàn)證對(duì)比分析是針對(duì)Web of Science大型綜合類(lèi)數(shù)據(jù)庫(kù)展開(kāi)的,由于未對(duì)數(shù)據(jù)源進(jìn)行數(shù)據(jù)抓取,而是完全遵照查收查引實(shí)際工作流程展開(kāi)的,所以數(shù)據(jù)集不會(huì)受到數(shù)據(jù)庫(kù)接口的影響,相對(duì)更為穩(wěn)定,且網(wǎng)站端前臺(tái)展示的元數(shù)據(jù)信息也更為完善,更加貼合查收查引工作實(shí)際需求。一方面結(jié)合郵箱、地址等特征信息進(jìn)行算法區(qū)分,與此同時(shí)借助在noteExpress進(jìn)行數(shù)據(jù)規(guī)范化處理時(shí),可進(jìn)行必要且準(zhǔn)確的人工干預(yù),該人工干預(yù)是檢索員與作者本人為查收引證報(bào)告開(kāi)具的,相較于等待科研學(xué)者自主在系統(tǒng)內(nèi)消歧,其參與主動(dòng)性和積極性更強(qiáng),且在檢索員的專業(yè)指導(dǎo)和判定下人工干預(yù)結(jié)果更為真實(shí)可靠。
6.2 驗(yàn)證分析中發(fā)現(xiàn)的不足及改進(jìn)方法
針對(duì)地址信息中缺失路段信息、同一作者同一地址投稿時(shí)寫(xiě)的郵編不一致等情況,下一步可以考慮將地址字段拆分為細(xì)粒度,即像是地址中的國(guó)家、省、市、區(qū)、路段、郵編等,檢索員可自行設(shè)置匹配度,目前系統(tǒng)相當(dāng)于是精確匹配即匹配度100%時(shí)認(rèn)定為同一個(gè)作者,設(shè)置顆粒度后可模糊區(qū)分在作者姓名匹配的前提下,地址信息字段低層級(jí)信息像是郵編、路段等信息不匹配情況。與此同時(shí),針對(duì)作者姓名、地址等存在多地址或者多姓名寫(xiě)法的問(wèn)題,現(xiàn)為檢索員在noteExpress中核實(shí)后手工添加。下一步可考慮通過(guò)自學(xué)習(xí)算法建立學(xué)者信息庫(kù),將每次開(kāi)具引證報(bào)告中自己可提供的或查引中積累的該作者多地址,建立數(shù)據(jù)集合。這樣可以減少在noteExpress中完善作者寫(xiě)法、多地址信息的操作步驟,隨著系統(tǒng)使用時(shí)間積累和數(shù)據(jù)集數(shù)據(jù)的不斷增加,可進(jìn)一步提高區(qū)分結(jié)果的精準(zhǔn)度。
參考文獻(xiàn):
朱玉奴. 查收查引用戶需求及高質(zhì)量服務(wù)策略研究[J]. 情報(bào)探索, 2019(4): 65-70.
蘇秋俠. 智慧圖書(shū)館背景下查收查引服務(wù)探析:基于“985工程”高校圖書(shū)館網(wǎng)站的調(diào)查[J]. 圖書(shū)館學(xué)研究, 2019(24): 61-68.
樊亞芳.利用文獻(xiàn)管理軟件提高論文查收查引工作效率的實(shí)踐與應(yīng)用[J].高校圖書(shū)館工作,2017,37(2):63-66.
馬芳珍,李峰,季梵,等.對(duì)CALIS查收查引系統(tǒng)的測(cè)試和應(yīng)用效果評(píng)價(jià)[J].大學(xué)圖書(shū)館學(xué)報(bào),2016,34(2):97-102.
闞洪海,趙杰.基于水晶報(bào)表的查收查引報(bào)告自動(dòng)生成的設(shè)計(jì)與實(shí)現(xiàn)[J].現(xiàn)代情報(bào),2017,37(4):129-133.
王學(xué)勤,郝丹,鄭菲,等.“查收查引報(bào)告自動(dòng)生成系統(tǒng)”應(yīng)用實(shí)踐研究[J].圖書(shū)情報(bào)工作,2014,58(16):131-137.
李桂影.基于Web of ScienceTM新平臺(tái)的查收查引技巧分析[J].圖書(shū)館學(xué)刊,2015,37(11):62-64.
嚴(yán)潮斌,陳嘉勇,侯瑞芳,等.查收查引服務(wù)支撐需求驅(qū)動(dòng)下的高校機(jī)構(gòu)知識(shí)庫(kù)建設(shè)[J].現(xiàn)代圖書(shū)情報(bào)技術(shù),2015(5):94-100.
沈喆,王毅,姚毅凡,等.面向?qū)W術(shù)文獻(xiàn)的作者名消歧方法研究綜述[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2020,4(8):15-27.
張旺強(qiáng),祝忠明,李雅梅,等.機(jī)構(gòu)知識(shí)庫(kù)作者名自動(dòng)消歧框架設(shè)計(jì)與實(shí)踐[J].數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn),2019,3(6):92-98.
吳飛盈,季魏紅,謝浩煌,等.“互聯(lián)網(wǎng)+”時(shí)代ORCID在學(xué)術(shù)期刊審稿專家管理中的應(yīng)用[J].編輯學(xué)報(bào),2018,30(4):399-401.
竇天芳,張成昱,張蓓,等.ResearcherID現(xiàn)狀分析及應(yīng)用啟發(fā)[J].圖書(shū)情報(bào)工作,2014,58(4):40-45.
高峰.公共數(shù)字文化資源整合中的數(shù)據(jù)庫(kù)版權(quán)問(wèn)題[J].圖書(shū)館,2015(9):11-16.
CORMEN T H.算法導(dǎo)論[M]. 北京:機(jī)械工業(yè)出版社,2013:13-15.
徐雅靜.數(shù)據(jù)結(jié)構(gòu)與算法[M]北京:北京郵電大學(xué)出版社,2019:48-53.
交互式設(shè)計(jì)七大定律 [EB/OL].(2018-11-20)[2021-01-21]. https://www.jianshu.com/p/5bca0d91f802.
倫志軍,張見(jiàn)影,安力彬.Web of Science數(shù)據(jù)庫(kù)及檢索方法[J].現(xiàn)代情報(bào),2004(8):135-136.
盤(pán)俊春.撰寫(xiě)和管理論文的實(shí)用輔助工具:NoteExpress[J].中國(guó)信息技術(shù)教育,2019(20):68-70.
吳幗幗 山東大學(xué)圖書(shū)館館員。 山東濟(jì)南,250100。
(收稿日期:2021-03-26 編校:陳安琪,劉 明)
3159500338210