朱軼婷(中國民航大學(xué)圖書館 天津 300300)
·館藏與出版論壇·
面向文獻(xiàn)建設(shè)需求的學(xué)科核心作者數(shù)據(jù)庫構(gòu)建策略研究*
朱軼婷
(中國民航大學(xué)圖書館天津300300)
〔摘要〕以關(guān)系型數(shù)據(jù)庫為基礎(chǔ),通過Web信息抽取技術(shù)從主流數(shù)據(jù)庫中采集基礎(chǔ)數(shù)據(jù),利用數(shù)據(jù)挖掘技術(shù)進(jìn)行數(shù)據(jù)整合、查重、消歧,然后根據(jù)發(fā)文量、h指數(shù)和hm指數(shù)綜合判定核心作者及作者排序,從而構(gòu)建學(xué)科核心作者數(shù)據(jù)庫,為圖書采訪工作提供客觀數(shù)據(jù)支持。最后以飛行技術(shù)學(xué)科核心作者數(shù)據(jù)庫為例,說明數(shù)據(jù)庫的實(shí)際效果。
〔關(guān)鍵詞〕核心作者h(yuǎn)指數(shù)hm指數(shù)關(guān)系數(shù)據(jù)庫Web信息抽取
當(dāng)前,高等院校不斷加大力度推進(jìn)專業(yè)結(jié)構(gòu)優(yōu)化和重點(diǎn)學(xué)科建設(shè)工作。由此,對圖書館的文獻(xiàn)資源建設(shè)提出了更高的需求,即圖書館采購的學(xué)科文獻(xiàn)應(yīng)該緊跟專業(yè)發(fā)展變化、切合教學(xué)科研需求。但是高校圖書館的傳統(tǒng)文獻(xiàn)采購方式往往是根據(jù)書商的供書目錄進(jìn)行勾選、定購,在文獻(xiàn)采購到館前,采訪人員無法看到文獻(xiàn)的實(shí)際內(nèi)容。即使在采購過程中征求相應(yīng)學(xué)科專家的意見,也往往因?yàn)槿狈陀^依據(jù),無法成功預(yù)測文獻(xiàn)的學(xué)術(shù)價(jià)值。而且,圖書館采訪人員很難深入了解學(xué)校的每一個重點(diǎn)學(xué)科,并且追蹤該重點(diǎn)學(xué)科的發(fā)展變化。因此,如果能有客觀數(shù)據(jù)輔助采訪人員判斷文獻(xiàn)質(zhì)量和學(xué)術(shù)價(jià)值,將有助于提高文獻(xiàn)采購的客觀性和科學(xué)性。
采訪人員在采購過程中,通過供書目錄可以掌握文獻(xiàn)的以下特征數(shù)據(jù):①作者,即完成創(chuàng)作、編寫、編譯該文獻(xiàn)內(nèi)容的個人或者團(tuán)體;②出版信息,即出版社、出版年;③版本,即該文獻(xiàn)是初版還是再版,再版次數(shù)等;④語種,即該文獻(xiàn)的寫作語言;⑤載體信息,主要有該文獻(xiàn)的開本尺寸、頁碼、裝訂情況等;⑥價(jià)格。這些客觀性數(shù)據(jù)有助于判斷文獻(xiàn)的學(xué)術(shù)價(jià)值。比如,作者是否為該文獻(xiàn)涉及學(xué)科的專家學(xué)者或者權(quán)威研究機(jī)構(gòu),出版社是否為該學(xué)科的核心出版社,修訂并出版多次的文獻(xiàn)更被讀者認(rèn)同等等。因此,采訪人員應(yīng)該關(guān)注并利用這些特征數(shù)據(jù),從而了解和確定選購文獻(xiàn)的學(xué)術(shù)價(jià)值,確保滿足學(xué)校和讀者提出的文獻(xiàn)需求。
研究選擇文獻(xiàn)作者為切入點(diǎn),通過構(gòu)建學(xué)科核心作者數(shù)據(jù)庫,探索以信息技術(shù)手段輔助圖書館采訪人員提高學(xué)科文獻(xiàn)選購科學(xué)性、客觀性的新方法。
2.1圖書情報(bào)學(xué)界關(guān)于核心作者的研究
核心作者是指那些在(某)學(xué)科領(lǐng)域研究較深入、造詣較高、研究成果較多從而具有較大影響力的作者,對學(xué)科發(fā)展具有引領(lǐng)作用,不斷將研究水平推向新的高度。[1]圖書情報(bào)學(xué)界的學(xué)者們運(yùn)用文獻(xiàn)計(jì)量學(xué)理論對核心作者作了很多深入研究。例如,方太強(qiáng)、周蓉等結(jié)合發(fā)文總數(shù)、被引次數(shù)、核心期刊發(fā)文數(shù)等因素,利用維普數(shù)據(jù)庫測定圖書情報(bào)學(xué)領(lǐng)域的核心作者;[2]趙基明等運(yùn)用h指數(shù)方法,利用CSSCI引文數(shù)據(jù)庫1998-2006年的數(shù)據(jù),測定《中國圖書館學(xué)報(bào)》的核心作者;[3]龔舒野運(yùn)用發(fā)文量、h指數(shù)和hm指數(shù)方法,利用CNKI數(shù)據(jù)庫2001-2009年的數(shù)據(jù),測定了《情報(bào)科學(xué)》的核心作者,并分析這些作者的年齡、職稱、地域等特征信息;[4]邱均平等運(yùn)用發(fā)文量和h指數(shù)相結(jié)合的方法,利用CSSCI引文數(shù)據(jù)庫的數(shù)據(jù)測定圖書情報(bào)學(xué)領(lǐng)域近30年的核心作者。[5]
亦有學(xué)者將核心作者的測定運(yùn)用到實(shí)踐中,推進(jìn)圖書館工作開展。例如,蘇志芳等運(yùn)用發(fā)文量、h指數(shù)和主題研究連續(xù)數(shù)相結(jié)合的模糊綜合評判法,測定學(xué)科領(lǐng)域核心作者,并提出以核心作者為主要依據(jù)的中文社科圖書決策系統(tǒng);[6]蔡璐運(yùn)用層次分析法測定高等教育學(xué)科的核心作者,作為判斷圖書學(xué)術(shù)價(jià)值的依據(jù)之一;[7]沈艷紅、吳信嵐等利用CNKI數(shù)據(jù)庫,確定食品學(xué)科的核心作者,作為制定采購該學(xué)科核心書目的依據(jù)之一。[8]
這些研究與嘗試,探討了核心作者的不同測定方法,并以實(shí)證研究方法研究實(shí)際效用,為我們研究構(gòu)建學(xué)科核心作者數(shù)據(jù)庫提供了文獻(xiàn)計(jì)量學(xué)方面的理論支持。
2.2人物數(shù)據(jù)庫的研究現(xiàn)狀
人物數(shù)據(jù)庫指利用信息技術(shù)記錄和管理人物信息,并且實(shí)現(xiàn)便捷查詢和數(shù)據(jù)共享的數(shù)據(jù)庫。核心作者數(shù)據(jù)庫也屬于人物數(shù)據(jù)庫范疇。
在國外,比較有影響力的人物數(shù)據(jù)庫有英格蘭圣公會神職人員數(shù)據(jù)庫(The Clergy of Church of England Database)[9],該數(shù)據(jù)庫記錄了1540-1830年期間英國神職人員的任職、職務(wù)等信息;還有ASP世界歷史人物索引庫[10],該數(shù)據(jù)庫記錄了世界上歷史事件發(fā)生時(shí)所涉及的第一個人物,內(nèi)容包括信件、日記、口述史與其他個人敘述等。
在國內(nèi),有中國科學(xué)技術(shù)協(xié)會牽頭、北京理工大學(xué)圖書館主要承辦的老科學(xué)家學(xué)術(shù)成長資料數(shù)據(jù)庫,收集300位80歲以上的院士或96歲以上有突出貢獻(xiàn)的非院士科學(xué)家的資料;[11]也有各高校圖書館基于學(xué)科研究或特藏建設(shè)需求而建立的人物專題數(shù)據(jù)庫,如暨南大學(xué)圖書館的留學(xué)人物數(shù)據(jù)庫、嘉興學(xué)院圖書館的嘉興名人數(shù)據(jù)庫等等;還有公共圖書館建立的地方特色人物數(shù)據(jù)庫,如湖南圖書館的湖南近代人物資源庫、廣州圖書館的廣州人物數(shù)據(jù)庫等等。
無論國外還是國內(nèi)的人物數(shù)據(jù)庫,均重視建立設(shè)計(jì)完備、字段豐富的數(shù)據(jù)庫系統(tǒng),以便較好地匯集、組織和揭示人物信息;注意建立人物信息與文獻(xiàn)信息之間、異構(gòu)信息之間的關(guān)聯(lián);嘗試運(yùn)用知識地圖、本體論等理論方法,對人物信息中的知識進(jìn)行深層次挖掘,以期提供針對性強(qiáng)的高層次知識服務(wù)。這些數(shù)據(jù)庫的有益嘗試,對我們研究構(gòu)建核心作者數(shù)據(jù)庫提供了實(shí)踐支持。
構(gòu)建學(xué)科核心作者數(shù)據(jù)庫的設(shè)計(jì)定位是挖掘、判定學(xué)科領(lǐng)域核心作者,將其提供給采訪人員作為訂購學(xué)科文獻(xiàn)的輔助決策依據(jù)。根據(jù)文獻(xiàn)計(jì)量學(xué)理論,判定學(xué)科領(lǐng)域核心作者需要一系列的基礎(chǔ)數(shù)據(jù),因此構(gòu)建學(xué)科核心作者數(shù)據(jù)庫的基本設(shè)計(jì)思路是通過網(wǎng)絡(luò)抽取從主流數(shù)據(jù)庫中獲取的基本數(shù)據(jù),然后根據(jù)文獻(xiàn)計(jì)量學(xué)理論設(shè)計(jì)核心作者的判定算法,再結(jié)合云計(jì)算技術(shù)與元數(shù)據(jù)進(jìn)行數(shù)據(jù)組織,儲存并揭示核心作者的信息,最后利用動態(tài)網(wǎng)頁開發(fā)技術(shù)將作者信息整合在一起,提供一個可視化的、便捷的數(shù)據(jù)呈現(xiàn)界面,方便采訪人員進(jìn)行采購決策。
3.1學(xué)科核心作者數(shù)據(jù)庫系統(tǒng)模型
構(gòu)建學(xué)科核心作者數(shù)據(jù)庫采用B/S架構(gòu),系統(tǒng)模型如圖1所示,細(xì)分為四層:資源層、指標(biāo)層、數(shù)據(jù)層和應(yīng)用層。
資源層是獲取基礎(chǔ)數(shù)據(jù)的一層,屬于四層結(jié)構(gòu)的最底層,是構(gòu)建學(xué)科核心作者數(shù)據(jù)庫的數(shù)據(jù)基礎(chǔ)。根據(jù)文獻(xiàn)計(jì)量學(xué)理論,判定核心作者主要依靠發(fā)文量、被引頻次、h指數(shù)等等,但是這些數(shù)據(jù)很難直接獲取。因此在資源層,主要采集學(xué)科領(lǐng)域內(nèi)所有作者的發(fā)文情況,如題目、刊名、關(guān)鍵詞、摘要、出版日期等等,以及作者的個人屬性數(shù)據(jù),如單位、職稱、主要研究方向等。獲取方法以網(wǎng)絡(luò)Web抽取為主,輔助以人工抽取。數(shù)據(jù)來源為主流數(shù)據(jù)庫,如中國知網(wǎng)、萬方、維普等。
指標(biāo)層是完成核心作者判定的一層。首先對資源層的基礎(chǔ)數(shù)據(jù)進(jìn)行查重整合,然后將發(fā)文情況的整合結(jié)果提供給計(jì)算算法,得出發(fā)文量、被引頻次、h指數(shù)等判定數(shù)據(jù);再按照判定算法,給出核心作者的判定結(jié)果。如果某一作者被判定為核心作者,則將整合后的作者個人信息和判定數(shù)據(jù)一起儲存到數(shù)據(jù)層中。
數(shù)據(jù)層是儲存學(xué)科核心作者數(shù)據(jù)的一層。在這一層中,依照元數(shù)據(jù)的標(biāo)準(zhǔn),建立數(shù)據(jù)表,對核心作者的個人屬性數(shù)據(jù)進(jìn)行靜態(tài)數(shù)據(jù)標(biāo)引,對作者發(fā)文情況和判定結(jié)果進(jìn)行動態(tài)元數(shù)據(jù)標(biāo)引。運(yùn)用數(shù)據(jù)關(guān)聯(lián)技術(shù),將“作者——文獻(xiàn)——學(xué)科”關(guān)聯(lián)起來,為應(yīng)用層的核心作者呈現(xiàn)和檢索提供了基礎(chǔ)。
應(yīng)用層是直接面對用戶的一層,主要提供人性化、便捷的Web交互界面。用戶分成兩類:普通采訪人員和管理員。針對普通采訪人員,應(yīng)用層提供學(xué)科選擇、時(shí)間段選擇、核心作者瀏覽、核心作者檢索等服務(wù),支持關(guān)聯(lián)作者發(fā)表文獻(xiàn),以方便采訪人員進(jìn)一步深入研究該核心作者;針對管理員,應(yīng)用層提供數(shù)據(jù)維護(hù)、人工去重、專家判定等管理功能。
3.2基礎(chǔ)數(shù)據(jù)采集和查重
研究嘗試采用一種基于Agent的中文Web信息檢索平臺,模擬正常用戶訪問主流數(shù)據(jù)庫的流程,然后根據(jù)設(shè)定的檢索表達(dá)式,進(jìn)行數(shù)據(jù)檢索,再把檢索結(jié)果返回。這種做法能夠規(guī)避大規(guī)模的人工檢索和數(shù)據(jù)整合,有效提高構(gòu)建數(shù)據(jù)庫的效率。
因?yàn)檠芯拷ㄔO(shè)學(xué)科核心作者,所以在構(gòu)筑檢索式時(shí),以學(xué)科主題詞為檢索詞,生成相應(yīng)的檢索表達(dá)式。通過檢索,可以直接采集以下數(shù)據(jù):文章屬性相關(guān)數(shù)據(jù)——題名、刊名、出版年、卷、期、頁碼和摘要;文獻(xiàn)計(jì)量相關(guān)數(shù)據(jù)——單篇文章被引次數(shù)、下載次數(shù);作者相關(guān)數(shù)據(jù)——姓名、單位、聯(lián)系地址。
由于每個學(xué)科均有多個主題詞,因此由Agent平臺直接采集、返回的數(shù)據(jù)存在較多重復(fù)數(shù)據(jù),因此在基礎(chǔ)數(shù)據(jù)傳遞給指標(biāo)層、用于判定核心作者之前必須進(jìn)行查重。一是要合并相同的文章,主要通過比對文章題名、刊名和出版年卷期數(shù)據(jù)等,二是對于作者姓名的查重和消岐。可借鑒香港中文大學(xué)圖書館的Chan和Yik[12]提出的用于機(jī)構(gòu)知識庫的作者姓名規(guī)范的概念模型,建立作者信息規(guī)范表,賦予每個作者ID編號作為唯一標(biāo)識,將作者ID號、姓名、機(jī)構(gòu)名作為一個集合進(jìn)行考察,經(jīng)過匹配完成作者姓名的查重和消岐。建立每個作者的唯一標(biāo)識,就是賦予每個作者唯一身份,還可以將采集到的文章屬性數(shù)據(jù)、文獻(xiàn)計(jì)量數(shù)據(jù)和指標(biāo)數(shù)據(jù)映射到這個唯一標(biāo)識上,避免因作者姓名引起的文章歸屬沖突,使發(fā)文量的計(jì)算更加準(zhǔn)確。
3.3學(xué)科核心作者的判定
資源層的基礎(chǔ)數(shù)據(jù)經(jīng)過整合、查重和消岐后,可以得到每一位作者的文獻(xiàn)計(jì)量學(xué)指標(biāo):發(fā)文量、總被引證篇(次)數(shù)、單篇被引證篇(次)數(shù)。發(fā)文量是指某一位作者總共發(fā)表了多少篇文章。在文獻(xiàn)計(jì)量領(lǐng)域,曾根據(jù)這一指標(biāo)評判作者的學(xué)術(shù)成就,但是發(fā)文量指標(biāo)僅能說明該作者是該領(lǐng)域中寫作活躍的作者,不能反映文章質(zhì)量和該作者對該學(xué)科領(lǐng)域的影響力。同樣,被引證篇數(shù)也是文獻(xiàn)計(jì)量學(xué)評價(jià)作者學(xué)術(shù)水平的傳統(tǒng)指標(biāo)之一,論文被引用的越多,說明其觀點(diǎn)和資料越被同行學(xué)者認(rèn)可,論文作者的水平也越高,但被引次數(shù)同樣也存在不足,比如論文自引現(xiàn)象。綜合近幾年文獻(xiàn)計(jì)量學(xué)者的研究,較少根據(jù)單一指標(biāo)判定核心作者,很多高質(zhì)量的研究論文都是采用多個指標(biāo)綜合評估、判定核心作者。因此,可根據(jù)基礎(chǔ)數(shù)據(jù)的采集情況和文獻(xiàn)計(jì)量學(xué)的研究成果,采用發(fā)文量、h指數(shù)和hm指數(shù)綜合判定學(xué)科核心作者。
首先,根據(jù)發(fā)文量數(shù)據(jù),運(yùn)用普賴斯定律進(jìn)行核心作者的初選。普賴斯受社會學(xué)的盧梭定律啟發(fā),經(jīng)過研究后發(fā)現(xiàn),在同一主題中,半數(shù)的論文由一群高生產(chǎn)能力作者撰寫,這一作者集合在數(shù)量上約等于全部作者總數(shù)的平方根,具體公式為:m≈其中,nmax是指發(fā)文量最多的作者的發(fā)文總數(shù)。也就是對于某一學(xué)科領(lǐng)域,只有發(fā)文量超過m的才能被列為高產(chǎn)作者,可以被初步選為候選核心作者。
然后,運(yùn)用h指數(shù),進(jìn)一步判定學(xué)科核心作者。h指數(shù)是美國統(tǒng)計(jì)物理學(xué)家Hirsh于2005年提出的,其核心思想是一位作者至多有h篇論文分別被引用了至少h次。h指數(shù)同時(shí)考察作者的發(fā)文數(shù)和引文數(shù),并把這兩項(xiàng)指標(biāo)合二為一,兼顧了作者文章的“量”與“質(zhì)”。h指數(shù)可以根據(jù)作者的發(fā)文量和單篇被引次數(shù)計(jì)算得出,然后根據(jù)給定的閥值,在候選核心作者群中,確定學(xué)科核心作者。
最后,運(yùn)用hm指數(shù)對學(xué)科核心作者進(jìn)行修正和序次建議。h指數(shù)在反映高質(zhì)量論文上有很多優(yōu)勢,但是仍有不足。經(jīng)過實(shí)踐,在同一學(xué)科中會出現(xiàn)很多學(xué)者的h指數(shù)相同的現(xiàn)象,在需要根據(jù)核心作者對圖書進(jìn)行采購決策時(shí),容易出現(xiàn)難以取舍的情況。因此,可以引入hm指數(shù)。hm指數(shù)是我國學(xué)者趙學(xué)梅提出,并已經(jīng)經(jīng)過實(shí)證研究證明可行[12]。hm指數(shù)引入修正因子,對h指數(shù)進(jìn)行一次修正,公式為,其中N為該作者的總被引篇(次)數(shù)。通過hm指數(shù)的公式,可以看出:hm指數(shù)是一個介于h和2h之間的小數(shù),且總被引次數(shù)越高,hm指數(shù)越接近h指數(shù)。也就是說,hm指數(shù)和h指數(shù)差值越小,該學(xué)者的影響力越大。除非某兩位學(xué)者的h指數(shù)和總被引次數(shù)完全相同,他們的hm指數(shù)才會相同。這樣經(jīng)過h指數(shù)判定為核心作者的學(xué)者,在絕大多數(shù)情況下都會有一個自己獨(dú)特的hm指數(shù),能夠給采訪人員更加準(zhǔn)確的決策依據(jù)。
3.4數(shù)據(jù)庫的數(shù)據(jù)結(jié)構(gòu)表示
學(xué)科核心作者數(shù)據(jù)庫雖然從邏輯上分為四層,但是采集、判定、呈現(xiàn)、檢索等應(yīng)用全部圍繞數(shù)據(jù)展開。因此,在構(gòu)建學(xué)科核心作者數(shù)據(jù)庫時(shí),選擇關(guān)系型數(shù)據(jù)庫SQL Server為數(shù)據(jù)中心,向判定、檢索等上層應(yīng)用傳遞資源層Agent采集的基礎(chǔ)數(shù)據(jù),充分利用SQL Server服務(wù)器的并發(fā)和處理能力,將數(shù)據(jù)分析交給數(shù)據(jù)庫服務(wù)器的存儲過程,簡化了上層應(yīng)用的設(shè)計(jì)復(fù)雜程度。
因?yàn)橐許QL Server數(shù)據(jù)庫為中心,所有的數(shù)據(jù)和對象均映射到數(shù)據(jù)庫中,數(shù)據(jù)結(jié)構(gòu)的設(shè)計(jì)非常重要。根據(jù)學(xué)科核心作者數(shù)據(jù)庫的各類數(shù)據(jù)性質(zhì),可以分為兩大類:靜態(tài)數(shù)據(jù)和動態(tài)數(shù)據(jù)。靜態(tài)數(shù)據(jù)是指在數(shù)據(jù)庫的整體框架下,用戶能夠直接獲取、描述、標(biāo)引的數(shù)據(jù),如作者的個人屬性特征和單篇文章的特征數(shù)據(jù)。動態(tài)數(shù)據(jù)是指在數(shù)據(jù)庫的整體框架下,需要經(jīng)過數(shù)據(jù)分析、演算才能得到的數(shù)據(jù),如判定指標(biāo)。根據(jù)這一分類,設(shè)計(jì)學(xué)科核心作者數(shù)據(jù)庫的數(shù)據(jù)結(jié)構(gòu)如圖2所示。
圖2 學(xué)科核心作者數(shù)據(jù)庫的數(shù)據(jù)結(jié)構(gòu)
考慮到航校學(xué)科建設(shè)的需要,可嘗試建立飛行技術(shù)專業(yè)學(xué)科核心作者數(shù)據(jù)庫。由于主要為中文圖書的采購決策提供依據(jù),數(shù)據(jù)庫的基礎(chǔ)數(shù)據(jù)采集對象選擇中國知網(wǎng)數(shù)據(jù)庫。首先,采集近10年與飛行技術(shù)相關(guān)的文獻(xiàn),共計(jì)2635篇。經(jīng)過數(shù)據(jù)整合、查重、消岐后,得到341名作者的相關(guān)數(shù)據(jù)。其中最高產(chǎn)作者的發(fā)文量是28篇,根據(jù)普賴斯定律,確定候選核心作者的最低發(fā)文量為4篇,則滿足這一條件的候選核心作者為64名。
通過計(jì)算h指數(shù)和hm指數(shù),可以發(fā)現(xiàn)這些候選核心作者中h指數(shù)最高為11,最低為0??紤]到飛機(jī)技術(shù)學(xué)科屬于理工科,與圖書情報(bào)等社科學(xué)科不同,經(jīng)咨詢專家,確定h指數(shù)為2及以上的作者為核心作者,共計(jì)36名。同時(shí),計(jì)算這些作者的hm指數(shù),給出作者排序,作者的排序可以為采訪人員進(jìn)行圖書采購決策提供依據(jù)。
學(xué)科核心作者數(shù)據(jù)庫的構(gòu)建研究在國內(nèi)尚處于起步階段,研究以關(guān)系數(shù)據(jù)庫為基礎(chǔ),以發(fā)文量、h指數(shù)、hm指數(shù)等文獻(xiàn)計(jì)量學(xué)標(biāo)準(zhǔn)作為判定算法的依據(jù),融合Web信息抽取、數(shù)據(jù)挖掘技術(shù),形成學(xué)科核心作者數(shù)據(jù)庫的整套構(gòu)建策略。學(xué)科核心作者數(shù)據(jù)庫的建立,以IT技術(shù)代替了人工數(shù)據(jù)整理,具有自動化、高效率的特點(diǎn),可以為采訪人員的采購決策提供客觀性的數(shù)據(jù)支持,從而使采訪人員擺脫學(xué)科知識的局限,提高采訪工作的質(zhì)量和效率。同時(shí),學(xué)科核心作者數(shù)據(jù)庫的建設(shè)對于圖書館的特色館藏建設(shè)、專業(yè)特色數(shù)據(jù)庫建設(shè)和機(jī)構(gòu)知識庫建設(shè)也有一定的幫助。
(來稿時(shí)間:2014年12月)
參考文獻(xiàn):
1.杜秀杰,葛趙青,劉楊等. 基于著者索引的高校學(xué)報(bào)核心作者群分析.編輯學(xué)報(bào), 2006, 18(5):366 - 368
2.方太強(qiáng),周蓉,胡英等.我國圖書館學(xué)情報(bào)學(xué)核心作者分析.圖書情報(bào)工作,2005(1):69-73
3.趙基明,舒明全等.基于CSSCI的《中國圖書館學(xué)報(bào)》h指數(shù)及核心作者測定.中國圖書館學(xué)報(bào),2008(2):98-102
4.龔舒野,基于h指數(shù)和hm指數(shù)的《情報(bào)科學(xué)》核心作者分析.情報(bào)科學(xué),2013(1):82-85,95
5.邱均平, 周春雷. 發(fā)文量和h 指數(shù)結(jié)合的高影響力作者評選方法研究. 圖書館論壇,2008(6):44 - 49
6.蘇志芳,張建中,胡惠芳等.基于模糊綜合評判的中文社科圖書”核心作者”決策研究.圖書情報(bào)工作,2010(1):42-45,41
7.蔡璐.基于學(xué)科分類的高校圖書館核心館藏規(guī)律的實(shí)證研究——以高等教育學(xué)科為例.圖書情報(bào)知識,2012(4):106-110
8.沈艷紅,吳信嵐等.學(xué)科館員如何利用cnki開展采訪工作——以食品學(xué)科為例.圖書館,2012(3):105-106,109
9.The Clergy of Church of England Database .[2014- 07-13]. http:/ /www.theclergydatabase. org. uk /index. html
10.In the first person.[2014-07-14]. http: / /www. Inthefirstperson. com/firp /index.shtml
11.王曉山.科技名人數(shù)字圖書館的實(shí)踐與探索——以老科學(xué)家學(xué)術(shù)成長資料數(shù)據(jù)庫建設(shè)為例.圖書情報(bào)工作,2013 (2S):79-82
12.張學(xué)梅.hm指數(shù)——對h指數(shù)的修正.圖書情報(bào)工作,2007(10):116-118,16
〔分類號〕G253
〔作者簡介〕朱軼婷(1979-),女,碩士,中國民航大學(xué)圖書館副館長。
*本文系中國民航大學(xué)校級科研項(xiàng)目“日本民航網(wǎng)絡(luò)資源典藏庫的構(gòu)建與研究” (項(xiàng)目編號:2010kyh03)及中國民航大學(xué)2015年中央高校基本科研項(xiàng)目“基于大數(shù)據(jù)分析的多館制文獻(xiàn)資源管理策略研究”(項(xiàng)目編號:31220157006)研究成果之一。
Research on Building Strategy of Subject Core Author Database for the Demand of the Literature Construction
Zhu Yiting
(Library of Civil Aviation University of China )
〔Abstract 〕Based on relational database, acquisition of basic data from the mainstream database through the web information extraction technology, data integration, checking, disambiguation by data mining technology, and then determining the core authors and authors sort according to the quantity of published articles, h-index and hm-index, finally, subject core author databases are constructed in this paper. The aim is that providing objective data support for the book acquisitioning work. Besides, in order to illustrate the practical effect of database, the paper also takes the subject core author database on flight technology as an example.
〔Keyw ords 〕Core authorsH-indexHm-indexRelational databaseWeb information extraction