陳楠楠(西安交通大學(xué)圖書館,陜西西安710049)
?
EICompendex Web數(shù)據(jù)庫署名單位檢索技巧研究
陳楠楠
(西安交通大學(xué)圖書館,陜西西安710049)
[摘要]以西安交通大學(xué)圖書館利用EI Compendex數(shù)據(jù)庫的多種檢索功能為例,研究了以署名單位為檢索重點時遇到的主要問題,提出了相應(yīng)解決方案,最后提出了針對署名單位的最佳檢索策略,并進行了案例分析。
[關(guān)鍵詞]EI Compendex署名單位檢索策略規(guī)范化
[分類號]G250.73
《工程索引》(Engineering Index,以下簡稱EI)于1884年創(chuàng)辦,是美國工程信息公司開發(fā)的核心產(chǎn)品。EI發(fā)展歷經(jīng)最初的印刷本、20世紀70年代的Dialog聯(lián)機檢索、80年代的光盤版(CD-ROM)、20世紀90年代的Ei Village 2數(shù)據(jù)庫,至今已發(fā)展為EICompendex Web網(wǎng)絡(luò)數(shù)據(jù)庫。1999年,中國18所高校(包括西安交通大學(xué))聯(lián)合購買了網(wǎng)絡(luò)版數(shù)據(jù)庫的使用權(quán),鏡像設(shè)在清華大學(xué)圖書館。2000年8月,美國工程信息公司推出Engineering Village網(wǎng)絡(luò)版第2版。2009年5月,美國工程信息公司推出了無核心期刊與非核心期刊之區(qū)分的新版本,新版EI網(wǎng)絡(luò)數(shù)據(jù)庫使用至今,共收錄5600余種工程類期刊、會議記錄和科技報告,共計170萬余條數(shù)據(jù)[1]。
EI網(wǎng)絡(luò)數(shù)據(jù)庫是目前最常用的二次文獻文摘型數(shù)據(jù)庫之一,其側(cè)重于收錄工程技術(shù)領(lǐng)域的文獻,其中期刊文獻大約占總數(shù)的80%,90%的文獻語種是英文。從1992年開始,EI收錄中國期刊[2]。從EI網(wǎng)絡(luò)數(shù)據(jù)庫收藏的二次文獻資源的廣度和深度來看,都很值得工科院校和綜合類院校圖書館從業(yè)人員進行深入的數(shù)據(jù)挖掘和數(shù)據(jù)分析。
EI數(shù)據(jù)庫的文章收錄檢索工作是圖書館界同仁經(jīng)常要處理的業(yè)務(wù),尤其是綜合類、工科院校及科研院所針對EI文章收錄的科研績效考核、學(xué)科評估的需求很顯著。目前,有關(guān)EI文章收錄情況的決策信息支持服務(wù)是高校圖書館科技情報服務(wù)的重要組成部分之一,主要的服務(wù)對象由單一、零散的高校及科研院所委托人提供EI查收查引服務(wù)轉(zhuǎn)變?yōu)楸A粼械幕痉?wù),全面為高校決策層提供有關(guān)EI數(shù)據(jù)的深入挖掘和分析服務(wù)。其次,服務(wù)內(nèi)容由原先基本的文章收錄及被引檢索、自引和他引的區(qū)分、數(shù)據(jù)統(tǒng)計轉(zhuǎn)變?yōu)橛兄攸c、有針對性地為高校各級決策層提供工學(xué)學(xué)科發(fā)展趨勢對比分析、工學(xué)專業(yè)的學(xué)科評估、工科院校科研人員的績效評價及人才引進評價等方面的信息支撐和專業(yè)化分析。具體來說,圖書館檢索人員需要從整個學(xué)校的角度出發(fā),檢索各級單位(學(xué)校、學(xué)院、實驗室、系、所及中心等)EI收錄情況,并進一步分析數(shù)據(jù)的分布和發(fā)展趨勢。因此,作為科研支持單位的圖書館,在提供EI數(shù)據(jù)庫檢索服務(wù)時需要從宏觀和微觀兩種角度,以署名單位為檢索著手點,全面考慮各種檢索可能和檢索條件,以便獲得更準確的數(shù)據(jù),提供更專業(yè)化的分析服務(wù)。因此,筆者在長期從事文獻檢索、查收查引和數(shù)據(jù)分析工作時,發(fā)現(xiàn)了一些代表性問題,很值得進一步研究和探索。
首先,當針對某一位或一個創(chuàng)新團隊進行EI收錄的文章級檢索時,由于EI數(shù)據(jù)庫中對作者署名檢索形式的寬松化,導(dǎo)致檢索結(jié)果出現(xiàn)大量滿足檢索條件的同名、同音作者的文章出現(xiàn)在EI檢索結(jié)果里。為了進一步縮小檢索范圍,實現(xiàn)委托人提供的檢索要求和檢索結(jié)果,文獻檢索人員需要參考委托人的工作和教育經(jīng)歷,在EI數(shù)據(jù)庫檢索時加入該作者的署名單位地址信息來進行組合檢索,最終希望可以獲得一個更全面、更準確的基于以上作者所有發(fā)表文獻被EI數(shù)據(jù)庫收錄的整體情況。所以,通過作者名和署名單位的組合檢索,可以篩選掉大量的同名作者或同音作者發(fā)表的文獻信息對檢索結(jié)果的干擾。這是文獻收錄檢索時署名單位最常見的利用,因此檢索收錄情況時署名單位字段的有效利用是秉要執(zhí)本的重要舉措。
另一方面,高??蒲性核膱D書館界同仁們還承擔(dān)著本單位科研績效評估時的數(shù)據(jù)支撐、數(shù)據(jù)對比分析工作。針對EI數(shù)據(jù)庫的學(xué)科服務(wù)由原先基本的數(shù)據(jù)統(tǒng)計和分析轉(zhuǎn)變?yōu)橛兄攸c、有針對性地為高校各級決策層提供學(xué)科發(fā)展趨勢對比分析、學(xué)科評估、績效評價、人才引進評價等方面的信息支撐和專業(yè)化分析。在以上這些工作中,EI數(shù)據(jù)庫中的署名單位檢索字段逐漸成為針對以上EI收錄檢索需求和數(shù)據(jù)分析工作的不可回避的著手點。
目前,已正式公開的有關(guān)署名單位與學(xué)術(shù)論文著作權(quán)研究的文獻很多,李興昌在其撰寫的《科技論文的規(guī)范表達:寫作與編輯》一書中提到機構(gòu)名的規(guī)范表達應(yīng)該是“一般的機關(guān)、團體、學(xué)校、研究機構(gòu)和企業(yè)等的名稱,在論文中第一次出現(xiàn)時應(yīng)寫全稱,隨后的表述方可用簡稱,簡稱也應(yīng)是共知共用的,不能有歧義”[3]。并且該文章進一步對署名的位置和格式做了要求:學(xué)術(shù)期刊中將署名置于題名下方,作者工作單位應(yīng)寫全稱,“工作單位地址包括所在城市名及郵政編碼”,例如“西安交通大學(xué)圖書館信息咨詢部,陜西,西安,710049”,而“西安交大圖書館咨詢部,西安,710049”的表述是不完整、不規(guī)范的署名單位格式。
同時,筆者還發(fā)現(xiàn)國內(nèi)基于《著作權(quán)法》的署名權(quán)方面以及針對高校及科研院所投稿署名單位規(guī)范化的研究。針對這樣一個署名現(xiàn)狀,一方面可以體現(xiàn)出國內(nèi)學(xué)術(shù)界對作者署名權(quán)的法制化和規(guī)范化越來越重視,另一方面也凸顯高校及科研院所在規(guī)范其科研人員對期刊投稿時針對署名單位的中英文規(guī)范化要求的不足之處。這就導(dǎo)致同一單位的不同科研人員在投稿時提供的署名單位的中英文表達上形式多樣,尤其是英文表達上差異最大。甚至還出現(xiàn)了同一單位的同一科研人員在針對不同期刊的投稿時署名單位的英文表達上形式多樣,差異很大。例如,EI數(shù)據(jù)庫檢索中發(fā)現(xiàn),僅西安交通大學(xué)的署名形式就有Xian Jiaotong University、Xi An Jiao Tong University、Xian Jiaotong Univ、Xi An Jiao Tong Univ、XJTU 710049等。
另外,從EI數(shù)據(jù)庫錄入信息的研究來看,EI數(shù)據(jù)庫“采用計算機編排,它的著錄項目完全遵照作者本人所提供的線索,許多比較明顯的名稱或地名錯誤,都將被一字不改地予以反映”。也就是說,EI數(shù)據(jù)庫將完全遵照期刊的著錄格式要求、作者的著錄習(xí)慣等把相應(yīng)署名單位映射到數(shù)據(jù)庫中的相應(yīng)單位字段,并進一步在數(shù)據(jù)庫用戶檢索時,予以比對和顯示[4]。利用EI數(shù)據(jù)庫檢索時,人名、地名、機構(gòu)名稱等拼寫非規(guī)范化的問題就凸顯出來[5]。
因此,筆者基于目前的研究現(xiàn)狀和工作中遇到的實際問題,著手開展了針對EI數(shù)據(jù)庫中署名單位檢索策略的研究。
EI數(shù)據(jù)庫提供針對署名單位(Author Affiliation)的檢索功能,并提供署名單位名稱索引的瀏覽功能。該瀏覽功能按照英文字母順序排列,把EI數(shù)據(jù)庫里署名單位字段出現(xiàn)的單位英文名稱都收集整理到一個獨立頁面上展示。用戶通過該瀏覽功能可直觀獲得EI收錄文獻的所屬單位各種表達形式的英文全稱。以西安交通大學(xué)為例,筆者在EI數(shù)據(jù)庫的署名單位名稱索引中共查到15種不同的表示形式,最具代表性的有:Xi An Jiao Tong University、Xi'an Jiao Tong University、Xian Jiaotong Univ等[6]。因此,如果針對一個單位EI收錄的整體情況進行檢索,需要充分考慮到該單位科研人員的投稿習(xí)慣或規(guī)律,即單位名稱在數(shù)據(jù)庫中的各種英文表達形式,并通過科學(xué)利用截詞符、布爾運算符等,檢索并獲取到更準確全面的EI數(shù)據(jù)庫的文章收錄情況。
筆者在EI數(shù)據(jù)庫里針對署名單位這項內(nèi)容進行檢索、統(tǒng)計分析工作時,發(fā)現(xiàn)針對某一署名單位的檢索,數(shù)據(jù)庫顯示出的檢索結(jié)果不準確并且出現(xiàn)大量干擾項,極大地影響了檢索結(jié)果的準確性和后續(xù)的統(tǒng)計分析工作。需要考慮到產(chǎn)生這一問題的主要原因可能有如下幾個方面。
原因一:從文章作者的角度來看,同一單位內(nèi)科研人員投稿時針對署名單位的署名習(xí)慣不同,尤其是英文文章投稿時,作者對單位的英文名稱表述差異很大。這樣導(dǎo)致一級單位名稱(校級)、二級單位名稱(院級、國家重點實驗室級)和三級單位名稱(系、所、中心等級別)表述形式多樣。并且,單位物理地址的表述也形式多樣。
原因二:從單位決策層的角度來看,每個單位內(nèi)的各級相關(guān)科研機構(gòu)繁多,導(dǎo)致機構(gòu)結(jié)構(gòu)和科研合作關(guān)系形式復(fù)雜。而學(xué)校決策層目前并未強制或明確規(guī)定相應(yīng)每一級下級或下屬單位科研人員在投稿時采用的中英文全稱和簡稱表達形式,未足夠重視本單位科研人員的署名單位表述不一致、不標準、不規(guī)范的問題和影響。
基于以上兩種主要原因的相互作用,同一單位的署名單位產(chǎn)生了多種多樣的表達形式。例如,針對西安交通大學(xué)航天學(xué)院為署名單位的院系地址出現(xiàn)以下多種英文表達形式:MOE、Dept Engn Mech、MOE Key Lab Strength & Vibrat、SV Lab、MOE Key Lab Strength & Vibrat Mech Struct、MOE Sch Aerosp、S&V Lab、MOE Lab、MSSV、SVL、Sch Aerosp。
原因三:從圖書館檢索業(yè)務(wù)的角度來看,僅運用AND、OR等常用布爾運算符無法準確限制和縮小檢索范圍,檢索結(jié)果會出現(xiàn)大量干擾項,從而影響數(shù)據(jù)分析的結(jié)果。針對這一問題,檢索人員需要使用ONEAR/n運算符來精確限制檢索詞之間的距離。通過綜合利用AND、OR以及ONEAR/n的組合檢索,可以提高針對署名單位的檢索結(jié)果的全面性和準確性,減少大量干擾信息的出現(xiàn),最終獲得準確的數(shù)據(jù)分析結(jié)果。例如,當檢索西安交通大學(xué)為署名單位在近5年內(nèi)的EI文章收錄情況時,在針對“(Xian Jiaotong Univ*)WN AF)”這個檢索條件檢索時,Xian Jiaotong Liverpoor University就成為干擾因素,只有通過使用EI數(shù)據(jù)庫認可的布爾運算符ONEAR/0,限制檢索結(jié)果中署名單位的Jiaotong和University是緊鄰關(guān)系,中間不出現(xiàn)其他詞,才可以排除掉署名單位為Xian Jiaotong Liverpoor University對分析數(shù)據(jù)的干擾,檢索結(jié)果只顯示署名單位為Xian Jiaotong University的EI文章記錄。但在檢索分析其他高校的EI收錄情況時,如以浙大為署名單位的EI收錄情況時,使用以上方法無法排除掉署名單位為Zhejiang University of Science and Technology等多個單位的EI收錄文章對Zhejiang University的EI收錄文章的干擾。筆者下面會針對這個經(jīng)典案例做進一步分析。
原因四:從全國高校及科研院所的署名發(fā)展來看,我國各級高校及科研院所取名的唯一性、獨特性、特色性等方面存在不足,導(dǎo)致了以上情況的大量出現(xiàn)。例如,當檢索以南京大學(xué)為署名單位的EI文章收錄情況時,在針對“Nanjing Univ*”這個檢索條件的檢索時,檢索結(jié)果中的Nanjing University和Nanjing University of Science and Technology等為署名單位的檢索記錄互為干擾項。
基于以上兩種主要原因會檢索出多個滿足檢索條件的署名單位。例如,Xian Jiaotong University、Xian Jiaotong University City College和Xian Jiaotong Liverpoor University互為干擾項,Nanjing University和Nanjing University of Science and Technology互為干擾項,同樣Zhejiang University和Zhejiang University of Science and Technology互為干擾項。
原因五:在利用EI數(shù)據(jù)庫針對某一個或多個署名單位進行檢索研究時,還必須考慮到該學(xué)校的不同校區(qū)地址可能會對署名單位檢索結(jié)果的影響。例如,西安交通大學(xué)在西安主要有3個校區(qū),分別是興慶校區(qū)(郵編710049)、雁塔校區(qū)(郵編710061)、科技園校區(qū)(郵編710054)。因此,檢索時可以利用布爾運算符OR來檢索所有這些地址為署名單位地址的記錄。否則,檢索結(jié)果數(shù)據(jù)將會大打折扣。再例如,筆者在檢索浙江大學(xué)在EI數(shù)據(jù)庫中的文章收錄情況時,考慮到浙江大學(xué)主要有6個校區(qū),分別是玉泉校區(qū)(郵編310027)、西溪校區(qū)(郵編310028)、華家池校區(qū)(郵編310029)、之江校區(qū)(郵編310008)、紫金港校區(qū)(郵編310058),因此,綜合利用郵編信息也是署名單位檢索的關(guān)鍵切入點。
5.1浙江大學(xué)EI檢索案例分析
筆者在EI數(shù)據(jù)庫里檢索以浙江大學(xué)為署名單位的近5 年EI文章收錄情況,詳見表1。首先,當在EI數(shù)據(jù)庫中署名單位字段的檢索式為(Zhejiang University)時,檢索結(jié)果里會出現(xiàn)很多滿足該檢索條件的干擾信息,如:Zhejiang University of Technology、Zhejiang University of Science and Technology、Zhejiang University City College、Zhejiang Sci-Tech University、Zhejiang Gongshang University、Zhejiang Forestry University、Zhejiang Sci-Tech University、Zhejiang Ocean University及Zhejiang Wanli University;當在EI數(shù)據(jù)庫中署名單位字段的檢索式調(diào)整為Zhejiang ONEAR(0)University時,ONEAR布爾運算符可以排除掉Zhejiang Sci-Tech University、Zhejiang Gongshang University、Zhejiang Forestry University、Zhejiang Sci- Tech University、Zhejiang Ocean University和Zhejiang Wanli University。這樣處理檢索過程減少了第一次檢索時出現(xiàn)的干擾項中的大部分。其次,還可以嘗試綜合利用西文雙引號與西文逗號排除署名單位為Zhejiang University of Technology、Zhejiang University of Science and Technology及Zhejiang University City College這些干擾項。最終,檢索以浙江大學(xué)為署名單位的EI收錄情況時獲得的檢索結(jié)果將是比較精確和完整的數(shù)據(jù)。保證基本檢索數(shù)據(jù)的完整性就可以進行下一步的數(shù)據(jù)挖掘和數(shù)據(jù)分析,如針對院系等的數(shù)據(jù)分布統(tǒng)計分析等。因此,本次檢索的最佳檢索式為“((Zhejiang ONEAR/0 Uinversity OR Zhe Jiang ONEAR/0 University)WN AF)”。
5.2山東大學(xué)和南京大學(xué)EI檢索案例分析
類似情況出現(xiàn)在檢索山東大學(xué)和南京大學(xué)的EI收錄情況時。具體來說,在進行山東大學(xué)的署名單位檢索、統(tǒng)計分析工作時,山東科技大學(xué)、山東師范大學(xué)、山東理工大學(xué)、山東財經(jīng)大學(xué)、山東農(nóng)業(yè)大學(xué)的英文全稱等就成為檢索的干擾項,需要進一步利用布爾運算符ONEAR來排除以上的干擾信息,得到準確的山東大學(xué)的EI收錄情況。在檢索南京大學(xué)EI收錄情況時,僅僅用Nanjing Univ*作為檢索詞,由于南京市的很多大學(xué)都包涵南京和大學(xué)這兩個關(guān)鍵詞,所以檢索結(jié)果中出現(xiàn)的干擾項將會更多。比如,南京農(nóng)業(yè)大學(xué)、南京理工大學(xué)、南京航空航天大學(xué)、南京郵電大學(xué)、南京工業(yè)大學(xué)、南京林業(yè)大學(xué)、南京醫(yī)科大學(xué)、南京中醫(yī)藥大學(xué)、南京師范大學(xué)、南京財經(jīng)大學(xué)等都成為了本次檢索結(jié)果的干擾項。需要修改檢索式為NANJING ONEAR/0 UNIV*才能排除以上的干擾信息。因此,在檢索山東大學(xué)和南京大學(xué)的EI收錄情況時,最佳檢索式分別為“((Shandong ONEAR10 University OR Shan Dong OHEAR10 University)WN AF和((Nanjing ONEAR10 University OR Nan Jing ONEAR10 University)WN AF)”。
5.3同濟大學(xué)EI檢索案例分析
然而,在檢索同濟大學(xué)等高校的EI收錄情況時,不會出現(xiàn)以上這些問題。究其原因主要有二。首先,同濟大學(xué)的名稱很具有獨特性或唯一性,檢索中沒有出現(xiàn)過干擾項。其次,絕大部分同濟大學(xué)的師生在發(fā)表文章時采用了Tongji University這個規(guī)范表達形式,少量的師生采用了Tongji Uni-versity這個表達形式。在進行同濟大學(xué)EI收錄情況的檢索時,檢索式為“((Tongji University OR Tong Ji University)WN AF)”。
表1 在EI數(shù)據(jù)庫里以浙江大學(xué)為署名單位的檢索策略
筆者在參與了大量的針對EI數(shù)據(jù)庫署名單位檢索統(tǒng)計工作之后,獲得很多有益的啟示。首先,檢索人員以某一個或多個高校及科研院所為主體進行EI收錄情況的檢索工作時,需要詳細了解這些單位的署名規(guī)范或規(guī)律、校區(qū)的分布情況以及是否有相似的署名單位等。其次,由于文章作者針對署名單位的表述不規(guī)范、形式不統(tǒng)一,檢索人員需要以“或”的布爾關(guān)系來綜合檢索這些多種署名單位的表述形式,以期獲得更準確的檢索結(jié)果。另外,針對署名單位書寫規(guī)范的重要性也凸顯出來。西安交通大學(xué)已經(jīng)于2009年開始重視這個問題,并通過工作郵件方式通知全校師生:在文章投稿時,署名單位“Xi An Jiao Tong Univesity”是官方認可的規(guī)范表達形式。但是在進行EI數(shù)據(jù)的深入分析時,由于目前還沒有針對院、系及實驗室署名規(guī)范的正式要求,數(shù)據(jù)的進一步分析工作會受到比較大的影響,這是今后需要面對和解決的問題。
因此,由于單位名稱的不獨特、文章作者投稿時署名單位書寫的不規(guī)范等問題,導(dǎo)致檢索人員在針對高校進行單位EI收錄情況檢索時,檢索結(jié)果會出現(xiàn)大量干擾項,嚴重影響檢索結(jié)果的正確性。通過科學(xué)合理利用AND、ONEAR等布爾運算符及截詞符,可以排除掉大部分由單位名稱相近導(dǎo)致的干擾項。但是,檢索人員在最終導(dǎo)出檢索結(jié)果后,還需要謹慎對待檢索結(jié)果中由于書寫不規(guī)范、不統(tǒng)一導(dǎo)致的干擾項。檢索人員只有立足于比較純的檢索結(jié)果數(shù)據(jù),才能進行更科學(xué)的數(shù)據(jù)統(tǒng)計和數(shù)據(jù)分析。
西安交通大學(xué)作為國內(nèi)著名綜合型大學(xué),工科學(xué)科的成長和發(fā)展一直以來都是領(lǐng)航全校科研工作發(fā)展的主要動力。因此,EI收錄數(shù)據(jù)的追蹤、統(tǒng)計和分析非常必要。錢學(xué)森圖書館作為西安交通大學(xué)引進和收藏數(shù)字化資源的基地,擁有經(jīng)驗豐富的專業(yè)化學(xué)科服務(wù)隊伍。充分發(fā)揮圖書館的資源優(yōu)勢,主動深入學(xué)校學(xué)科建設(shè)發(fā)展中,并為學(xué)校各級決策層、院系及學(xué)科發(fā)展起到更大的信息支撐作用,是我們圖書館界同仁們需要繼續(xù)努力奮斗的目標。
參考文獻:
[1] Engineering Information History [EB/OL]. [2014-01-10]. http://www.ei.org/evhistory.
[2] Ei Compendex Help [EB/OL]. [2013-12-16]. http://www. ei.org/help.
[3]李興昌.科技論文的規(guī)范表達:寫作與編輯[M].北京:清華大學(xué)出版社,1995:19.
[4]瞿晶,吳蓓珠,謝淑湘.利用EI、SCI、ISTP檢索時應(yīng)注意的幾個問題[J].圖書情報知識,1991(3):27-28.
[5]楊陽.新版EI Compendex Web查找收錄文獻的技巧[J].現(xiàn)代情報,2005(1):191-192.
[6] Ei Compendex Search Tips [EB/OL]. [2013-12-20].http:// www.engineeringvillage.com/search/quick.url?CID=quick?Search&database=1&acw=.
陳楠楠女,1975年生。碩士,館員。研究方向:競爭情報。
收稿日期:(2014-09-29;責(zé)編:王天泥。)