国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

科學論文作者身份唯一標識符研究

2014-09-22 12:11張學梅
圖書館界 2014年4期
關鍵詞:姓名

[摘要] 科學論文作者姓名存在同名同姓、姓名書寫方式缺乏統(tǒng)一、姓名隨時間及環(huán)境發(fā)生改變等情況,從而對信息檢索、引文分析、學術評價等工作造成影響。本文認為應為科學論文作者編制永久性的身份唯一標識符,作為在各種不同環(huán)境下判定作者身份的依據(jù)和解決以上問題的方法,并提出一種編制規(guī)則以供參考。

[關鍵詞] 作者;姓名;唯一標識符

[中圖分類號]G25[文獻標志碼]A[文章編號]1005-6041(2014)04-0001-01

1引言

科學論文作者是科學研究活動中最活躍的因素,無論是文獻檢索或是使用發(fā)文量、被引量、H指數(shù)等方法在微觀層面上對作者進行測評,還是利用各種方法在宏觀層面上進行大范圍學術評價、探討學科結(jié)構(gòu)和科學發(fā)展趨勢等研究,都離不開使用作者姓名為檢索點獲得相關數(shù)據(jù)以及對這些數(shù)據(jù)加以深度分析。早在1998年,Cleveland就曾指出,在數(shù)字圖書館環(huán)境中,姓名是能夠唯一標識數(shù)字對象的字符串,是文件元數(shù)據(jù)的組成部分,姓名對于數(shù)字圖書館的重要程度相當于ISBN號對于傳統(tǒng)圖書館的重要程度。[1]理想狀態(tài)下,作者姓名既能識別其具體身份,又能唯一標識其所發(fā)表的所有成果,但事實上,由于人名的一些客觀特點,使得不能僅利用姓名作為檢索點而得到精確結(jié)果,從而使得它的這種作用被極大削弱,影響到各種相關工作的順利進行。

本文重點探討由于作者姓名因素影響檢全率與檢準率,從而導致統(tǒng)計數(shù)據(jù)不精確,影響統(tǒng)計分析結(jié)果的形成,最終使得研究結(jié)論對現(xiàn)實工作的指導效果大打折扣這一現(xiàn)實。特別是例如使用文獻計量學方法在宏觀層面上對大范圍內(nèi)的作者進行橫向比較分析時,這一問題的嚴重性更為可觀,所以對文獻資料從不同角度進行全方位標識就顯得尤為重要,有效的標識能增加用戶檢索入口,提高檢全率和檢準率以及檢索速度,同時對于數(shù)據(jù)分析人員來說,能幫助他們獲得優(yōu)質(zhì)來源數(shù)據(jù),從而為管理決策提供堅實的數(shù)據(jù)基礎。

]2 需要使用作者姓名的科學研究活動

]2.1 信息檢索

當需要閱讀某位作者的文獻時,使用其姓名為檢索點,便可在選定數(shù)據(jù)庫或搜索引擎中獲得該作者的全部作品。例如,一位新入學的研究生可以通過在數(shù)據(jù)庫中輸入備選導師的姓名,對檢出的各導師論文主題、研究方向進行研究,從而選擇適合的導師。同樣,導師在招收研究生時,也可通過報考學生的姓名為檢索點獲得的文獻資料,對該生情況進行了解,作為是否接收的參考。

]2.2 引文分析

引文分析法是文獻計量學領域一種重要研究方法,在引文數(shù)據(jù)庫中輸入作者姓名,便可查得其引文數(shù)據(jù),作為進一步分析的數(shù)據(jù)基礎。作者論文被引頻次在一定程度上能夠反映論文質(zhì)量高低和作者科學影響力大??;作者論文平均引文篇數(shù)的分布,能夠反映該作者引用文獻的廣度和深度,還能說明引文與被引文學科內(nèi)容之間的聯(lián)系強度;通過對作者引文與被引情況的長期跟蹤觀察,能夠進行科學創(chuàng)造最佳年齡結(jié)構(gòu)的研究、科學家出重大科技成果時的年齡頻度分布規(guī)律的歸納;通過對引文語種分布的考察和分析,發(fā)現(xiàn)某些語種的文獻被引用量較大,則說明該語種比較常用和重要,對于人們有計劃地引進外文文獻、譯文選題、外語教育等,頗有參考價值;研究作者群在年齡、地域、學科領域等方面的分布情況、從而能夠發(fā)現(xiàn)和追蹤不同學科的科學前沿、辯明和研究不同領域的熱點課題、分析和模仿不同的資金模型。

]2.3 學術評價

由于資源的稀缺性,當需要進行資源分配時,通常借助一些評價指標來輔助決策,評價指標由一系列待評個人或團體的文獻數(shù)據(jù)計算。以作者姓名為檢索點,查得某一作者的發(fā)文量、被引量等客觀指標,或者以這些數(shù)據(jù)為基礎,進一步計算出該作者H指數(shù)、G指數(shù)等分值,從而對該作者科研能力和科學影響力做一量化測評;使用某一機構(gòu)科研人員姓名為檢索點,查得該機構(gòu)科研人員相關數(shù)據(jù),能夠?qū)σ欢ǚ秶鷥?nèi)各科研機構(gòu)的科研水平做成客觀公正的評價,從而促進良性競爭,推動科學發(fā)展;通過文獻計量學方法遴選各學科專業(yè)的核心期刊,有助于科學工作者更高效地找到研究工作中所需要的相關參考資料,并為他們的研究成果更廣泛地傳播提供平臺;通過某科技期刊作者姓名的檢索獲得相關數(shù)據(jù),能夠遴選該刊核心作者群,從而有助于提高辦刊質(zhì)量;根據(jù)使用不同機構(gòu)、不同地區(qū)、不同學科領域、不同專業(yè)內(nèi)作者姓名檢索獲得的統(tǒng)計結(jié)果,能夠幫助考察不同主體群之間科學研究生產(chǎn)率差異、從而幫助科研管理機構(gòu)確定資助重點,使科研資金投入實現(xiàn)最優(yōu)化,還能夠綜合評價個人、機構(gòu)、地區(qū)、國家的情報能力,分辨學科特征和背景,估計科學勞動規(guī)模,調(diào)查科學勞動形態(tài),作為科學管理的工具。

3來自于科學論文作者姓名方面的問題

3.1 著者姓名方面存在的客觀問題主要有:

(1) 不同作者姓名相同或相似 當兩名或更多名作者同名同姓,或是在以西文發(fā)表的論文中,采用較通行的“姓+名的首字母”的署名方式,使得“Jaymie Meliker”與“Jakie Meliker”看似是同一位作者,這時以姓名為檢索途徑的檢索結(jié)果便會將實際不同作者的發(fā)文量、被引量等數(shù)據(jù)集中在一起,從而提高該作者分值,并進一步增加其H指數(shù)、G指數(shù)等數(shù)值,使檢索結(jié)果與實際出現(xiàn)嚴重偏差。這一現(xiàn)象已經(jīng)在諸如arXiv (高能物理、大氣海洋物理、數(shù)學及計算科學領域的開放獲取數(shù)據(jù)庫)這類大型數(shù)據(jù)庫測試中得到驗證。當倉儲容量達到一定級別后,其返回大量相同或相似作者的檢索結(jié)果將使無耐心的用戶望而卻步。[2]即便用戶能耐心地通過文章的標題或?qū)懽黠L格,甚至是手工打開文章鏈接來辨別出不同作者,當記錄過于龐大時,限于時間、精力、人力等方面的成本也會使工作無法順利進行。

(2) 同一作者不同拼寫方式 這種情況主要出現(xiàn)在以西文書寫的論文中,一些作者在不同作品中署名缺乏一致性,最常見的是有全稱與縮寫的不同書寫方式,如某作者在發(fā)表論文時可能會采用“Jaymie R. Meliker”,“Jaymie Meliker”或“J. R. Meliker”等各種形式。盡管許多出版機構(gòu)要求作者采用“姓+名的首字母”作為發(fā)表論文時的姓名書寫方式,但仍不能完全解決這一問題,而且有時還會加強上述第一種問題的嚴重性。此外,外國作者姓名翻譯成另一國語言時,姓與名的前后順序、翻譯的方式不同都可能造成同一位作者具有不同拼寫方式的姓名,從而使相關數(shù)據(jù)被分散在多個不同位置,結(jié)果是檢索出來的數(shù)值比實際偏小甚至嚴重降低。

(3)同一作者具有多個不同工作單位或研究領域 對以上兩種情況造成的誤差,有時可以通過用作者所在工作單位進行組配檢索來降低,但現(xiàn)實情況是一位作者很可能由于調(diào)動等原因在不同時間屬于不同工作單位;或是由于項目合作等原因以不同單位名稱來發(fā)表論文;即使是僅有一個單位,作者發(fā)表論文時有時使用單位全稱,有時會加上下一級單位名稱(如“清華大學”,“清華大學信息學院”等等);還有一些單位隨著時間的發(fā)展,在名稱上有所變動,這些情況都使得在使用工作單位作為二次檢索入口時,不能精確判斷作者身份,從而導致記錄分散,所以仍不能完全消除錯誤數(shù)據(jù)。

(4)同一作者具有不同姓名 在一些國家和地區(qū),婚姻狀況或其它狀況的變化會導致姓氏的改變,當使用姓名檢索其發(fā)文量和被引量時,同樣會引起數(shù)據(jù)分散,減小真實分值。只有當一位作者非常著名,檢索者了解其姓名變化過程,才可能得到全面數(shù)據(jù),但也需要經(jīng)過逐一查證,而對于大多數(shù)普通作者,便幾乎無法檢索到其實際數(shù)據(jù)。

上述各種情況的客觀存在,不但影響數(shù)據(jù)庫用戶信息檢索的查全率和查準率,從而影響相關工作的開展,甚至對于數(shù)據(jù)庫公司的工作人員來說,也會造成他們錄入數(shù)據(jù)過程中出現(xiàn)錯誤,使得數(shù)據(jù)庫本身的數(shù)據(jù)就不精確。

3.2 對作者姓名問題影響檢索結(jié)果的隨機性檢驗

當對某一名作者、某一單位或少數(shù)科學家進行定量分析時,可以對檢索出來的數(shù)據(jù)進行逐條檢查,根據(jù)工作單位、年齡、性別、研究領域等特征對錯誤數(shù)據(jù)予以刪除。但當進行的是宏觀層面上的分析時,面對海量數(shù)據(jù),如何確保來源數(shù)據(jù)的正確性?為了驗證這一情況,我們在SCI數(shù)據(jù)庫中選擇檢索詞字段為作者,在其它條件不做限定的情況下,輸入50位認識或是由于關注而熟悉的科學家姓名,通過對檢索結(jié)果逐一辨認,發(fā)現(xiàn)錯誤率竟然達到81.46[WTB2]%[WTBZ],盡管這種小范圍的試驗不足以作為統(tǒng)計學意義上的證據(jù),但這種結(jié)果仍令我們不由要問:檢索條件涉及到作者的大樣本定量分析的工作中,數(shù)據(jù)的正確率有多少?由此得出的分析結(jié)果,對實際工作的指導意義又有多大?

為解決這一問題,目前使用的方法主要包括:

(1)多加限定條件 如將作者姓名與學科領域、工作單位等檢索詞進行組配檢索。有些數(shù)據(jù)庫允許同時輸入某位作者曾經(jīng)工作過的多個單位名稱,如CNKI中國引文數(shù)據(jù)庫的“作者統(tǒng)計”功能最多允許同時輸入作者的三個工作單位進行組配,但由于其檢索方式為精確匹配,即使是多一個字或少一個字也無法檢索出結(jié)果,例如:以“清華大學”為檢索詞進行檢索時,便無法查出單位為“清華大學圖書館”所發(fā)的論文。

(2)建立模型 如使用模塊化方法和聚類方法建立一種一體化框架來解決姓名不統(tǒng)一和同名同姓作者問題[3],利用概率知識計算出兩種出版物之間距離從而區(qū)分同名同姓作者的方法[4],針對引文匹配的K階頻譜聚類方法[5],單一貝葉斯與向量支持混合機器方法[6]等等,這些方法在一定程度上都能緩解這一問題對工作所造成的嚴重影響,然而每種方法都有其局限性,不能從根本上完全消除錯誤信息。

4編制科學作者的永久性唯一標識符

面對這些問題,我們自然而然地想到:對于書籍,人們?yōu)槠渚幹屏薎SBN號; 對于期刊,人們?yōu)槠渚幹屏薎SSN號;對于數(shù)字資源,為其編制數(shù)字對象標識符(DOI),作為數(shù)字資源的唯一永久性標識,可以幫助讀者容易的獲取。借鑒這種思想,我們認為有必要對科學論文作者也分配一個代表其身份的唯一編號,作為其在科學世界中唯一的、永久性的身份識別符。

4.1 作者身份唯一標識符的編制過程

(1)要確定一個國際化的專門機構(gòu)來負責這種標識符的編制、分配以及管理。由于一部分作者會在國外發(fā)表論文,所以這種標識符必須在國際范圍內(nèi)統(tǒng)一使用。

(2)要開發(fā)一個用于作者標識符申請和個人信息修改的平臺。對于已經(jīng)發(fā)表過論文且身份能被清晰辨認的作者,由相關機構(gòu)按一定標準為其分配一個身份標識代碼;對身份模糊的作者,和其取得聯(lián)系辯明身份后,分配代碼;暫時無法聯(lián)系的可通過網(wǎng)站通知的方式在將來適當?shù)臅r機分配代碼。對于從未發(fā)表過論文的新作者,在首次發(fā)表論文之前,應通過該平臺為自己申請一個永久性的唯一身份標識符。所有作者需要將相關個人信息提供給專門機構(gòu),包括身份證號、出生年月、研究領域、發(fā)表過的論文、工作過的單位等等,供機構(gòu)管理標識符時作為辨別不同作者的基礎,當然一些涉及隱私的信息要為作者予以保密。今后任何作者投稿時,都需要向所投刊物提供自己的身份標識符代碼。

(3)元數(shù)據(jù)框架中增加作者唯一身份標識符 所有正式出版的科學期刊、專著、以及各種全文數(shù)據(jù)庫和引文數(shù)據(jù)庫在其元數(shù)據(jù)體系中添加作者唯一身份標識符。由于標識符具有唯一性,當使用作者姓名途徑進行檢索時,只要將該標識符作為檢索條件,便可輕易檢索到精確的數(shù)據(jù)。當遇到對作者身份不太清楚的情況時,只要對照其唯一身份標識符,在相關機構(gòu)網(wǎng)站中進行查詢,便可知道該位著者的具體個人基本信息。

4.2 作者身份唯一標識符的編制規(guī)則

這里提供一種作者身份唯一標識符編制規(guī)則作為參考:號碼由23個數(shù)字組成,前3位是作者申請?zhí)柎a時的國籍代碼,第4-11位是作者的出生年月日,第12-19位為作者申請標識符的日期,最后4位為流水號。由于這種代碼具有唯一性,可保證對同名同姓或姓名相似作者之間的精確區(qū)分;由于其具有永久性,可保證即使某位作者先后供職于不同單位,或曾經(jīng)使用過多個不同姓名,仍能完整地聚集其相關發(fā)表和引用數(shù)據(jù)。由此消除各種因姓名客觀特點而造成的不同作者數(shù)據(jù)集中或同一作者數(shù)據(jù)分散的現(xiàn)象,使各種科學計量研究工作能獲得更優(yōu)質(zhì)更精確的來源數(shù)據(jù),從而提高研究結(jié)果的精確度。

4.3 可行性分析

科學論文與科學工作者數(shù)量均迅速增長的現(xiàn)狀說明編制科學論文作者身份唯一標識符的必要性,而數(shù)據(jù)庫技術與信息技術的高速發(fā)展為實現(xiàn)這一目標提供了技術保證。為降低技術開發(fā)與推廣應用的成本,目前較好的一種解決辦法是依托于現(xiàn)有的國際大型學術數(shù)據(jù)庫,如WOS、SCOUPUS等等,按上述規(guī)則為每一名作者編制一個唯一的身份標識符,并將該標識符納入檢索字段,供用戶試用并反復調(diào)試,取得一定成效后,再分國家、地區(qū)進一步推廣,直至該標識符如文獻標題、作者姓名、關鍵詞一樣,成為一篇文獻必不可少的組成部分。

5小結(jié)

科學技術是第一生產(chǎn)力,人是人產(chǎn)力中最活躍、最革命的因素,作為科學活動中最活躍因素的科學論文作者,由于各種客觀原因,其身份無法在宏觀范圍內(nèi)得到確認,這種情況已經(jīng)嚴重影響到信息檢索的檢全率與檢準率,同時束縛著包括科學計量學、文獻計量學相關研究的開展以及這些研究結(jié)果對實際工作的指導效果,由此得知,為科學論文作者編制唯一的身份標識符已成為現(xiàn)實的迫切需要,本文為這種標識符的編制方法提供一種參考,當然一定還存在許多考慮不盡完善之處,但從長遠來說,作者唯一標識符的應用能夠大大提高信息檢索效率和以作者為基準的宏觀層面上各種實證研究的精確度,從而提為科研管理機構(gòu)的政策制定和調(diào)整提供有力支持,最終推動科學研究更快更好地發(fā)展。

[參考文獻]

[1] Gary Cleveland. DIGITAL LIBRARIES: DEFINITIONS, ISSUES AND CHALLENGES[EB/OL]. [2010-1-11]. http://ifla.queenslibrary.org/VI/5/op/udtop8/udt-op8.pdf.

[2] Jingfeng Xia. Personal Name Identification in the Practice of Digital Repositories[J]. Program: Electronic : Library & Information Systems,2006 (3) : 256—267.

[3] Jian Huang, Seyda Ertekin, C.Lee Giles. Efficient Name Disambiguation for Large-Scale Databases[EB/OL].[2010-1-11]. http://ifla.queenslibrary.org/VI/5/op/udtop8/udt-op8.pdf

[4] Jose M. Soler. Separating the Articles of Authors with the Same Name[J]. Scientometrics,2007, 72,( 2):281—290.

[5] Han, H., Zha, H., Giles, C.L. Name disambiguation in author citations using a K-way spectral clustering method[C].// Proceedings of JCDL,2005: 334—343.

[6] Han, H., Giles, C.L., Zha, H., Li, C., Tsioutsiouliklis, K. Two supervised learning approaches for name disambiguation in author citations[C].// Proceedings of Joint Conference on Digital Libraries,2004: 296—305.

[收稿日期][HT5”K]2014-05-09

[作者簡介][HT5”K]張學梅(1978—),女,館員,碩士,蘇州市職業(yè)大學圖書館工作,研究方向為學術評價。

[說明][HT5”K]蘇州市圖書館學會課題項目成果;蘇州市職業(yè)大學校級課題“基于科學計量學理論與方法的定題服務模型研究”( 編號: 2013SZDCC16)階段成果。

猜你喜歡
姓名
在再元員園圓坐座長常
寫話樂樂船
寫話樂樂船
素描畫展示
寫名字
寫名字
無法提及的姓名
小記者檔案
小記者檔案
一年級語文上冊期末測試
伽师县| 台东县| 阳城县| 鄯善县| 综艺| 巴青县| 隆昌县| 兴仁县| 汕尾市| 临泉县| 五常市| 两当县| 桦川县| 襄城县| 屯昌县| 穆棱市| 乐业县| 桑日县| 翼城县| 常宁市| 赣榆县| 陆川县| 东光县| 手机| 赞皇县| 体育| 镇巴县| 城口县| 仪征市| 宝鸡市| 永新县| 白河县| 宜春市| 文成县| 大安市| 犍为县| 固安县| 永丰县| 宣汉县| 越西县| 深水埗区|