□馬芳珍
?
查收查引系統(tǒng)需求分析和設計要點探討
□馬芳珍
從圖書館和用戶的角度分析論文查收查引服務的現(xiàn)狀和存在的問題,在與現(xiàn)有的查收查引系統(tǒng)對比分析的基礎上,提出新的查收查引系統(tǒng)的設計要點。
查收查引系統(tǒng) 系統(tǒng)需求分析 系統(tǒng)設計
論文的收錄和引用的檢索服務是國內圖書館的一項特色服務。國內的課題申報、職稱評定、成果評定和科研評估工作,都以論文的數(shù)量和質量作為重要的參考依據(jù)?!罢撐谋皇珍浥c引用報告”在一定程度上反映了申報人科研產(chǎn)出的影響力,成為獎勵、評選、基金申報等項目的重要參考資料[1]。
目前國內圖書館的查收查引服務量很大,僅以北京大學圖書館為例,據(jù)統(tǒng)計,2011年至2013年的論文檢索總篇數(shù)約為3.7萬篇。同時,由于查收查引工作多以手工為主,效率較低,特別在檢索高峰期,既無法滿足用戶的全部需求,也影響到服務質量。一言以蔽之,無論對圖書館還是用戶,手工化工作流程有很多難以克服的問題,只有通過系統(tǒng)化和智能化的系統(tǒng)支撐服務,才能解決現(xiàn)有問題[2]。
圖書館查收查引工作需要大量重復性操作,目前急需解決的問題是:
1.1 檢索結果不能重復使用
由于高校圖書館查收查引服務的用戶群基本固定,因此許多委托人會在幾年內連續(xù)多次委托查詢。根據(jù)北京大學圖書館2011-2013年的統(tǒng)計,三年有過兩次以上委托的委托人有341名。英文文獻檢索量的統(tǒng)計按照平臺進行統(tǒng)計:包括WOS(Web of Science)平臺和EI(The Engineering Index)平臺,其中WOS平臺包含的數(shù)據(jù)庫有SCI ( Science Citation Index)、SSCI ( Social Science Citation Index) 、A&HCI( Arts Humanities Ctation Index)、CPCI-S( Conference Proceedings Citation Index-Science)、CPCI-SSH (Conference Proceedings Citation Index-Social Science & Humanities);中文文獻的檢索量較小,因此將“中國科學引文索引”和“中文社會科學引文索引”兩個平臺進行了合并統(tǒng)計。詳細統(tǒng)計見表1:
表1 2011—2013年檢索文獻統(tǒng)計
假設委托人每次委托論文清單的變動率為20%估算,WOS收錄、EI收錄、WOS引用、中文收錄和中文引用的重復檢索量分別為10352篇、5952篇、9806篇、2973篇和2713篇。對照北京大學圖書館2011-2013年的委托總量,如圖1所示,重復檢索文獻占全部檢索量的比例分別為31.62%、34.66%、32.36%、40.16%、38.53%。
圖1 重復文獻檢索比例
假設在更長的時間內統(tǒng)計,根據(jù)科研工作者的成長過程,多次委托的比例將更高。根據(jù)上述2011-2013年重復委托文獻檢索量的估計,如果檢索結果可以重用,經(jīng)過3年左右的數(shù)據(jù)積累后,將可為圖書館節(jié)約大于30%的人力資源。手工條件下,由于委托人對清單進行部分變更、逐條核對新舊委托清單非常耗時,因此一般工作人員不會利用以前的收錄檢索結果。而對于引用檢索,雖然重復文獻的檢索詞、檢索策略是完全相同的,但由于檢索的中間環(huán)節(jié)無法記錄,因此也需要重新檢索。
1.2 多庫分頭檢索導致工作量倍增
委托人通常會委托同一文獻在多個庫中檢索收錄和引用情況,使檢索工作量成倍增加。以英文論文為例,如工科的論文通常要求檢索SCI、CPCI-S、EI庫,文理交叉學科如心理學、地理、環(huán)境科學等方面的論文通常要求檢索SCI、SSCI、CPCI-S、CPCI-SSH庫,藝術類學科的論文則需要檢索SSCI、A&HCI和CPCI-SSH庫等等。因此,一份20篇論文的委托單,經(jīng)常需要付出40篇論文的檢索工作量,加重了高峰期的供需矛盾。根據(jù)北京大學最近3年的統(tǒng)計數(shù)據(jù),委托同時檢索SCI和EI庫的論文數(shù)量為14733篇,占收錄檢索總量的39.37%。
1.3 論文清單不規(guī)范增加檢索和查重的工作量
委托人提供的委托清單經(jīng)常會有錯誤,如題名、刊名、卷期、作者等;還經(jīng)常會缺少很多信息,如合作者、卷期、頁碼等。為了盡可能減少漏檢,檢索人員需要對同一文獻進行多種檢索式的組合檢索,實際上就是要求對同一文獻進行多次檢索,使檢索的工作量翻倍增加。并且論文委托清單還會出現(xiàn)文章重復的情況,需要進行人工查重。在查收查引過程中,工作人員的很多時間實際上都用在整理、查重和獲得文章的正確信息上,這個過程不僅繁瑣,還需要反復和用戶確認。但是由于很多委托清單是由學術秘書代為整理,因此清單錯誤和部分信息缺失幾乎是不可避免的。
1.4 檢索結果整理繁瑣和數(shù)據(jù)庫平臺不穩(wěn)定造成時間浪費
SCI、EI和中文庫平臺通常都有信息導出接口,但導出信息只是簡單的文本格式,需要工作人員摘取相應的字段,填入檢索結果表單中,引用檢索還要區(qū)分他引和自引。這一過程目前北京大學圖書館已經(jīng)通過小工具實現(xiàn)了自動化。
另外,對于委托檢索的論文數(shù)量較大,時間緊的委托單,例如院士評審、團隊創(chuàng)新的委托單,通常需要多個館員分工檢索,再統(tǒng)一匯總結果。例如一個180篇的SCI庫收錄引用和EI庫收錄檢索委托單,由5個人完成,則每個人都會生成SCI收錄結果、SCI引用結果、EI收錄結果和SCI他引、自引統(tǒng)計數(shù)據(jù)信息,匯總人需要將25份檢索結果進行匯總核對和統(tǒng)計,這些工作都因為沒有自動化統(tǒng)計平臺而額外產(chǎn)生的。
另外,有些數(shù)據(jù)庫平臺,由于網(wǎng)絡、技術架構等因素,檢索速度較慢,使得檢索后的等待時間增加,降低了工作效率。
手工檢索工作的過程使得信息共享困難、溝通不流暢,導致用戶也面臨許多問題。
2.1 無法及時了解委托進度
委托單通過郵件發(fā)送到郵箱后,用戶無法及時了解進度,如郵箱是否收到、分配以及檢索進度。特別是高峰期時論文數(shù)量大的委托,完成報告的時間較長,用戶只能通過電話和郵箱詢問,工作進度不透明。
2.2 報告結果不易核對
圖書館根據(jù)委托論文清單提供檢索報告,報告中主要包含數(shù)據(jù)庫的論文收錄和引用情況。用戶需要對比原委托單,才能知道哪些論文未被收錄。例如用戶委托檢索80篇論文,有70篇被SCI收錄,則檢索報告提供一個70篇論文收錄情況的報告,而用戶需要根據(jù)檢索報告對比委托清單,核對哪些文章未被收錄。
2.3 論文被漏檢
檢索時,工作人員通常根據(jù)習慣使用的一、兩種檢索式進行檢索,尤其是在高峰期,任務繁重,不可能強制要求工作人員用三種以上的檢索式對同一文章進行檢索。因此在委托清單有誤或是不規(guī)范時容易造成漏檢。尤其是在檢索會議論文的引用情況時,經(jīng)常會出現(xiàn)引用信息不規(guī)范的情況,增加了漏檢的概率。
2.4 論文檢索報告更新困難
有些用戶需要更新同一論文清單的收錄引用情況,以便在不同的時間用于申請項目或其他用途。但是由于目前圖書館的手工操作流程,報告更新的工作量幾乎相當于重新檢索。對于用戶來說不僅需要承擔重復檢索的費用,而且在檢索高峰期,一般會優(yōu)先安排新檢索文章的委托,用戶希望快速更新的需要往往不能全部滿足。
目前已經(jīng)有一些論文查收查引的工具或者平臺,但是由于功能和設計的原因,無法完全解決上述問題。
3.1 北京大學圖書館的查收查引工具
北京大學圖書館的工具是單機版的小程序,主要實現(xiàn)了檢索結果的格式整理和統(tǒng)計功能。該軟件包括ISI收錄、EI收錄、ISI引用和中文收錄引用四個模塊??梢詫?shù)據(jù)庫導出的TXT文本轉換成查收查引的結果表格,并統(tǒng)計檢索結果,見圖2。
圖2 查收查引整理工具
該工具主要實現(xiàn)了查收查引過程中檢索論文信息的格式化和統(tǒng)計的功能,能夠簡化部分工作,但是不能從根本上解決圖書館和用戶的問題;并且因為工具是單機版,不能支持分工協(xié)作的環(huán)境。遇到多人分工協(xié)作檢索文獻的情況,仍需要通過手工將各自的檢索結果進行整理和匯總。
3.2 中國科學院圖書館的查收查引工具
中國科學院圖書館的的查收查引工具是網(wǎng)絡版的,主要實現(xiàn)了對論文收錄和引用的自動檢索、檢索結果格式整理和統(tǒng)計等功能。其中論文和收錄引用檢索步驟需要部分人工參與。系統(tǒng)需要按照一定格式整理的文章清單,導入文章清單后可自動進行收錄和引用的檢索,并進行檢索結果格式的整理和統(tǒng)計。2013年底,北京大學圖書館對該系統(tǒng)進行了試用,發(fā)現(xiàn)幾個主要問題:(1)論文收錄檢索策略的制定過于簡單,容易造成漏檢和誤檢;(2)引用檢索模塊和收錄檢索模塊是割裂的,不能利用收錄檢索的信息修正論文清單,從而完善引用檢索;(3)檢索信息不可重復利用,比如在檢索中進行的人工對比和確認信息無法被系統(tǒng)用于下一次同一文獻的檢索。(4)工作流程設計簡單、不流暢,用戶參與度低。(5)生成的報告格式單一、缺少查重、多種排引選擇、年代限定等功能。
2014年中國科學院圖書館的查收查引系統(tǒng)又進行了升級,主要解決檢索環(huán)節(jié)和報告生成環(huán)節(jié)的問題[2]。
查收查引系統(tǒng)的設計有兩個重點:第一是工作流程的設計,第二是檢索模塊的檢索策略設計。
4.1 查收查引系統(tǒng)的流程設計
查收查引系統(tǒng)的工作流程設計應把委托用戶納入到系統(tǒng)中,實現(xiàn)委托用戶、任務管理員和查收引工作人員的數(shù)據(jù)共享和信息交流。同時,在流程設計中還要考慮流程的可逆性和循環(huán)性,簡化手工流程的無效環(huán)節(jié)。以北京大學為例,傳統(tǒng)的論文查收查引服務流程大致分為10個步驟,具體見圖3,在查收查引流程設計中應該充分考慮以下原則。
(1)工作流程設計中應重視考慮用戶的參與和信息共享。
在委托檢索的初期和后期,用戶參與可以使很多工作簡化。在用戶提交委托階段,如果用戶能夠先選取系統(tǒng)中以往委托的文獻,再增補文獻,就會非常方便工作人員重復利用以前的檢索成果。但是如果用戶沒有參與到系統(tǒng)中,則只能提交一個整體委托清單,其中可能有新有舊,工作人員如果想重復利用以前的成果,需要先對委托清單逐一檢索核對。在后期,用戶核對檢索信息和報告生成階段,通過系統(tǒng)參與,會使信息溝通更加方便。
用戶的參與不僅能夠減輕工作人員的負擔,而且對用戶也是一件有益的事情,用戶可以方便地提取和導出他委托過的已完成檢索的論文的標準信息,不用再為整理過去3年、5年或更多年的論文清單費神。用戶可以通過系統(tǒng)了解檢索委托的進度、更為方便地核對報告結果,有些用戶對檢索報告中的論文排列順序有特別要求,如按照年代和引用次數(shù)排列、按照年代和第一作者排列等,這些要求往往很難描述和通過單一的排序功能解決。如果系統(tǒng)提供用戶接口,在限制檢索信息修改的同時,給予用戶調整報告排序的權限,對用戶來說更為便利。
圖3 查收查引服務流程
(2)工作流程設計要具有可逆性和循環(huán)性。
論文的查收查引工作并非完全按步驟執(zhí)行,中間可能需要多次反復。比如在論文清單初檢后,如果清單有問題,需要重新和用戶確認;用戶核查報告后,如果發(fā)現(xiàn)有錯檢和漏檢的情況,也要重新進行檢索;報告領取后,用戶可能由于其他原因,需要再次領取報告副本,或者對報告本身稍作修改,如只選擇報告中的部分文獻,需要再領取一份報告等,這些都要求流程要具有可逆性,也就是說,工作流程要具有循環(huán)性,可循環(huán)利用檢索結果。
(3)工作流程的設計應簡化手工流程的無效環(huán)節(jié)。
以北京大學圖書館為例,查收查引委托工作的管理仍以手工為主。在委托初期要對委托單進行登記,在委托后期又需要對收費情況進行登記。前后的登記是割裂的,各有各的登記體系,無法一一對應。因此設計流程時應統(tǒng)一進行考慮,建立一對多的關聯(lián)關系,以便于整體查詢。其次,手工登記很難精確地統(tǒng)計人員的工作量。比如為1篇論文檢索1個庫和檢索多個庫的工作量是不同的;期刊論文較會議論文規(guī)范,也更易檢索。這些差別可以在統(tǒng)計時折算到工作量中。再者,對個別的委托后不領取報告、領取報告后拖欠費用的情況,通過提醒、黑名單管理等功能的設計,將更方便地進行催繳和管理工作。
4.2 查收查引系統(tǒng)的關鍵功能設計
查收查引系統(tǒng)應著重解決耗時多、重復性勞動多等影響檢索工作效率的問題,這也是系統(tǒng)的核心功能。檢索模塊功能設計的難點并不是在論文委托信息和引用信息完全正確、規(guī)范的情況下進行數(shù)據(jù)庫檢索的操作,而是在委托信息不規(guī)范或論文的引用信息不規(guī)范和錯誤的情況下檢索數(shù)據(jù)庫并通過容錯機制獲得良好的結果。要獲得“良好的結果”,必須有人工干預和確認,因此在設計之初就需要做一個工作量的衡量,在機器工作和人工干預之間求得平衡。
(1)檢索策略的多條件組合設計。
如果論文的標題有誤或來源期刊不規(guī)范就無法獲得檢索結果,那么論文的檢索策略顯然是失敗的。因此論文檢索策略設計的根本在于通過幾種方式的組合檢索達到容錯的目的。檢索策略的設計要考慮檢索庫、論文種類和論文年代的特點。例如期刊論文和會議論文的檢索應有所區(qū)別,因為期刊論文更易獲得規(guī)范的來源信息,而會議論文的來源——會議名稱往往是難以規(guī)范的。再如SCI庫中2006年以后的論文引用信息更為完善,不僅有來源信息還有論文的標題,而較早期的論文引用信息往往沒有提供引文的標題。檢索策略的設計應在細致考慮這些特點的前提下,制定有效的組合策略,在準確和容錯之間獲得一個平衡的結果,使檢索結果中包含確定的信息和可能的信息,再通過有限的人工干預加以處理。
以SCI數(shù)據(jù)的收錄檢索為例,如表2所示,先進行兩個基本的檢索式,如無法獲得結果,再對題名等字段進行模糊檢索。
圖4 查收查引系統(tǒng)的人工干預界面
SCI數(shù)據(jù)庫檢索策略策略1檢索式:題名策略2檢索式:發(fā)表年+作者+期刊名補充策略檢索式:題名變形
(2)恰當?shù)娜斯じ深A節(jié)點選擇。
雖然論文的查收查引工作一直以大量的“重復性勞動”著稱,但不能否認工作中仍然有大量的判斷工作要依據(jù)人工的經(jīng)驗和智能。究其原因只有一個,就是信息錯誤和不規(guī)范。從用戶方面來看,很難避免提供的信息是錯誤的或不規(guī)范的。例如,數(shù)據(jù)庫中的標題為“Double-pi”,而用戶提供的標題為“double-π”,這在人工處理時非常容易判定,而機器則很難,除非有一個不斷增長的足夠強大的知識庫。類似的問題除了在標題中容易出現(xiàn),在作者縮寫、期刊信息中也會出現(xiàn)。同樣,在數(shù)據(jù)庫中,信息也存在錯誤和不規(guī)范的情況,例如標題中的分子式常常去掉下標或用其他替代形式。所以期望用戶提交完全合乎數(shù)據(jù)庫規(guī)范的數(shù)據(jù)是不現(xiàn)實的,這也就意味著期望通過計算機實現(xiàn)論文查收引工作的完全自動化也是不現(xiàn)實的。系統(tǒng)在初次檢索后就應當進行人工判斷,通過人工校對來獲得準確的文獻信息。如圖4。
當然人工規(guī)范信息和校對的時間要根據(jù)具體情況而定,信息規(guī)范的論文可以先用系統(tǒng)檢索,再進行規(guī)范;反之,則應先進行規(guī)范。另外,有些論文可能需要通過收錄檢索矯正和補充信息,再進行引用檢索。
查收查引服務是國內的一項特色業(yè)務,既無法借鑒國外經(jīng)驗,也無現(xiàn)成的國外系統(tǒng)供圖書館購買和使用。因此迫切需要開發(fā)出適合國情、館情和用戶需求的服務系統(tǒng)?;谇拔奶岢龅南到y(tǒng)需求分析和設計理念,借助CALIS的研發(fā)力量,北京大學圖書館已經(jīng)完成了查收查引系統(tǒng)的一期開發(fā)和初步測試工作,此系統(tǒng)旨在最大程度上實現(xiàn)查收查引工作的自動化,提高效率,改善用戶體驗。不僅如此,通過該系統(tǒng)還能夠積累學者發(fā)表正式文獻的數(shù)據(jù),既可以為委托學者進行科研成果分析提供一定的數(shù)據(jù)支持,也可以成為機構庫的有效補充。盡管目前系統(tǒng)還存在一些待完善之處,但已經(jīng)邁出了一大步,故愿與同行分享,更希望能拋磚引玉。
1 樊亞芳,陳鍇. 利用Excel和EndNote Web提高論文查收查引工作效率[J]. 圖書館雜志,2013(1):32-34,60
2 王學勤,郝丹,鄭菲,趙文忠,周津慧. “查收查引報告自動生成系統(tǒng)”應用實踐研究[J]. 圖書情報工作,2014,58(16):131-137
3 王曉丹,田永梅,孫雷. 提高查收查引服務效率的實踐與探討——以哈爾濱工業(yè)大學圖書館為例[J]. 高校圖書館工作,2014(4):55-56,92
Ma Fangzhen
We analyze and discuss the current situation and problems of cited reference retrieve service from the perspective of the libraries and library users. Then based on the comparison with state-of-the-art cited reference retrieve systems, design of a novel system is presented.
Cited Reference Retrieve Service System; System Request Analysis; System Design
北京大學圖書館,北京,100871
2015年3月17日Requirements Analysis and Design of a Cited Reference Retrieve System
*通訊作者:馬芳珍,ORCID:0000-0002-1089-2220,mafz@lib.pku.edu.cn。