国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

OA期刊共享集成方案及其關(guān)鍵技術(shù)研究

2009-02-25 09:59
關(guān)鍵詞:影響因子出版社學(xué)科

邵 晶 周 奇 李 威

摘要對(duì)來(lái)源不同、遵循不同協(xié)議的OA期刊的共享集成的關(guān)鍵技術(shù)問(wèn)題進(jìn)行研究,提出解決問(wèn)題的思路和方案,以實(shí)現(xiàn)OA期刊的共享集成,解決OA期刊源的跟蹤維護(hù)問(wèn)題。

關(guān)鍵詞OA期刊共享集成關(guān)鍵技術(shù)

1研究背景

OA(Open Access,以下簡(jiǎn)稱(chēng)OA)期刊的出版模式已經(jīng)多樣化。大體上可以分為三大類(lèi):Unquali—fied OA Journals(e-only模式)、Dual Mode OA Jour—nals(both e-print and p-print模式)和Partial OA Jour-nals(Hybird OA Journal,F(xiàn)ree issues)。其中,前兩類(lèi)期刊中所有文章都是OA的,而第三類(lèi)期刊中只有部分文章是OA的。從OA期刊的延遲性分,又可以分為:NO Embargoed(無(wú)延遲)、Embargoed(有延遲)、Reverse embargo(出版后只OA前1-6個(gè)月,然后需要訂閱)、Free issues(某一期或某幾期是OA的)。OA期刊出版模式詳見(jiàn)表1。

迄今為止,全球OA期刊究竟目前有多少種,尚未有準(zhǔn)確數(shù),據(jù)DOAJ(http://www.doaj.org/)不完全收錄統(tǒng)計(jì),截至2008年3月18日,該網(wǎng)站收錄OA期刊(no embargo)種數(shù)達(dá)到了3275種,而西安交通大學(xué)圖書(shū)館搜集到的OA期刊已經(jīng)突破1.2萬(wàn)種 。

由于這些OA期刊分散在全球不同的網(wǎng)站上,各自所在的數(shù)據(jù)庫(kù)結(jié)構(gòu)各異,遵循的協(xié)議標(biāo)準(zhǔn)不一致,使得OA期刊的跟蹤收集與利用受到很大制約。為了能充分利用OA期刊,我們以O(shè)A期刊資源共享集成為研究目標(biāo),以期通過(guò)研究,探索,采用技術(shù)手段,跟蹤、收割、整合全球著名的OA期刊的元數(shù)據(jù),并提供OA期刊共享集成發(fā)布平臺(tái),為科研人員和教學(xué)人員提供一站式檢索、瀏覽和全文鏈接服務(wù)。這項(xiàng)研究不僅對(duì)及時(shí)緩解我國(guó)外文資源由于經(jīng)費(fèi)不足所造成的資源獲取困難的問(wèn)題具有現(xiàn)實(shí)意義,而且對(duì)我國(guó)科研人員便捷地獲取全球OA期刊,及時(shí)了解、掌握國(guó)際先進(jìn)的科學(xué)技術(shù)水平和科技創(chuàng)新、快捷地引進(jìn)先進(jìn)的科學(xué)知識(shí)和國(guó)際學(xué)術(shù)科研成果都具有深遠(yuǎn)的現(xiàn)實(shí)意義。

2共享集成問(wèn)題分析

西安交大于2006年初開(kāi)始收集OA期刊,到目前為止,已經(jīng)收集到No Embargoed(無(wú)延遲)、Embar-goed(有延遲)和PartialOA期刊1.2萬(wàn)種,這些期刊來(lái)自于:DOAJ、BMC、PMC、Freefnlltext、Freemedi—caliuomal、Open J-Gate、J—STAGE、Hi Wire Press、PLoS等不同的網(wǎng)站。盡管我們對(duì)這些期刊做了整合,提供了一個(gè)統(tǒng)一發(fā)布平臺(tái),但是由于這些網(wǎng)站的期刊品種每年都在不斷增加,要跟蹤這些網(wǎng)站期刊品種的變化,獲取今后新發(fā)現(xiàn)的OA期刊網(wǎng)站的期刊品種及相關(guān)信息都存在很大的困難。因此需要設(shè)計(jì)一個(gè)OA期刊共享集成方案,從而真正解決不同OA期刊網(wǎng)站上的OA期刊相關(guān)信息的收割和跟蹤問(wèn)題。通過(guò)對(duì)現(xiàn)有OA期刊網(wǎng)站分析,將OA期刊共享集成時(shí)所遇到的問(wèn)題歸納如下:

(1)不同的OA期刊源,其元數(shù)據(jù)屬性不同,在實(shí)現(xiàn)各類(lèi)OA期刊元數(shù)據(jù)共享集成時(shí),必須要解決不同的OA期刊源的元數(shù)據(jù)的整合問(wèn)題;

(2)目前并不是所有OA期刊提供者的數(shù)據(jù)格式都是采用OAI-PMH協(xié)議標(biāo)準(zhǔn),所以在數(shù)據(jù)DP(Data Provider,數(shù)據(jù)提供者)和sP(service Provider,服務(wù)提供者)之間存在不同的數(shù)據(jù)收割協(xié)議:一種是基于OAI-PMH協(xié)議;另一種是HTTP協(xié)議;特別是后者,在網(wǎng)頁(yè)中,期刊的各種信息是通過(guò)非結(jié)構(gòu)化形式組織揭示,且分布在多級(jí)頁(yè)面中,不同期刊網(wǎng)站,表現(xiàn)形式各異。

(3)收割OA期刊元數(shù)據(jù)是個(gè)動(dòng)態(tài)過(guò)程,因此需要解決對(duì)OA期刊集成庫(kù)的跟蹤維護(hù)問(wèn)題。

3共享集成方案設(shè)計(jì)及實(shí)現(xiàn)

3.1整體方案設(shè)計(jì)

OA期刊共享集成的設(shè)計(jì)方案主要包括數(shù)據(jù)采集和不同OA期刊源的共享集成兩個(gè)方面。

數(shù)據(jù)采集主要是進(jìn)一步對(duì)OA期刊信息進(jìn)行挖掘,分析不同來(lái)源的OA期刊及其元數(shù)據(jù)(如:期刊刊名及其URL、ISSN、出版社、出版頻率、OA的起始年、來(lái)源、embargo信息、TOC信息、摘要信息等)的發(fā)布形式,為收割后的OA期刊元數(shù)據(jù)共享集成做好基礎(chǔ)工作;共享集成主要包括研究并設(shè)計(jì)對(duì)不同來(lái)源、不同類(lèi)型OA期刊網(wǎng)站的元數(shù)據(jù)收割的技術(shù)方案,實(shí)現(xiàn)OA期刊元數(shù)據(jù)收割;設(shè)計(jì)不同來(lái)源OA期刊元數(shù)據(jù)的統(tǒng)一描述的技術(shù)方案;開(kāi)發(fā)共享集成平臺(tái),提供一站式瀏覽與檢索服務(wù)。OA期刊共享集成整體解決方案如圖1所示。

3.2關(guān)鍵技術(shù)研究

OA期刊源的獲取,主要是通過(guò)到網(wǎng)上收集,挑選出與本單位學(xué)科密切相關(guān)的OA期刊網(wǎng)站,作為今后要集成的對(duì)象和跟蹤的對(duì)象。不同的OA期刊網(wǎng)站,期刊信息的發(fā)布所采用的技術(shù)手段、網(wǎng)頁(yè)揭示情況各不相同。在上述討論的問(wèn)題中,統(tǒng)一不同期刊源的期刊元數(shù)據(jù)實(shí)現(xiàn)起來(lái)并不難,如果能解決對(duì)不同OA期刊源的元數(shù)據(jù)收割,那么跟蹤、更新不同期刊源的數(shù)據(jù)也就不會(huì)成為難題。關(guān)鍵問(wèn)題是需要解決遵循不同協(xié)議元數(shù)據(jù)的收割問(wèn)題;即分別解決基于遵循OAI-PMH協(xié)議的OA期刊源的元數(shù)據(jù)發(fā)現(xiàn)與收割問(wèn)題和基于HTrP協(xié)議的OA期刊網(wǎng)頁(yè)的源代碼解析成DOM(Document Object Model)樹(shù)和元數(shù)據(jù)的提取問(wèn)題。

3.2.1基于OAI-PMH協(xié)議的OA期刊源的元數(shù)據(jù)收割解決方案

OAI-PMH協(xié)議工作原理已經(jīng)在很多文章中都已經(jīng)闡述,這里不再贅述。對(duì)于基于OAI-PMH協(xié)議的OA期刊網(wǎng)站的元數(shù)據(jù)收割時(shí)的收割器使用的動(dòng)詞配置描述如下:

Identity:收割OA期刊相關(guān)信息,包括期刊的名稱(chēng)、ISSN號(hào)、URL、分類(lèi)信息等;

ListSets:返回期刊的分類(lèi)信息;

List Identifiers:返回滿(mǎn)足一定條件的期刊記錄;

ListRecords:收割目次級(jí)元數(shù)據(jù)。

基于OAI-PMH協(xié)議OA期刊元數(shù)據(jù)收割的流程圖如圖2所示,首先收割機(jī)器人發(fā)出收割指令,OAI服務(wù)器做出判斷,然后有選擇地返回XML格式元數(shù)據(jù),最后對(duì)得到的元數(shù)據(jù)進(jìn)行解析后存儲(chǔ)到本地?cái)?shù)據(jù)庫(kù)。

3.2.2基于HTTP協(xié)議的OA期刊的元數(shù)據(jù)收割解決方案

這種收割指的是網(wǎng)頁(yè)結(jié)構(gòu)化提取,網(wǎng)頁(yè)結(jié)構(gòu)化提取是將網(wǎng)頁(yè)中的非結(jié)構(gòu)化數(shù)據(jù)按照一定的要求提取成為結(jié)構(gòu)化數(shù)據(jù),如按需要數(shù)據(jù)收割TOC目次級(jí)別信息,甚至摘要級(jí)別信息,這樣就需要元數(shù)據(jù)收割器能做到對(duì)某一個(gè)OA期刊源站點(diǎn),做智能分析,抽期刊信息:刊名、ISSN、簡(jiǎn)介、期刊關(guān)鍵詞、期刊摘要、創(chuàng)刊年度、出版社、學(xué)科、影響因子;卷

期信息:卷、期、出版年度;目次信息:文章標(biāo)題、作者、作者聯(lián)系方式、摘要、DOI、關(guān)鍵詞、全文URL、文檔類(lèi)型等。

結(jié)構(gòu)化信息提取有三種方式可以實(shí)現(xiàn),一是模板方式,二是網(wǎng)頁(yè)特征庫(kù)方式,三是人工干預(yù)方式。

(1)模板方式:對(duì)特定網(wǎng)站事先做模板配置,收割器對(duì)配置中設(shè)定數(shù)據(jù)進(jìn)行提取,這種方式主要適合于諸如open J-Gate(http://www.open/gate.org)和PubMed Central(PMC,http://www.pubmedcentral.nih.gov)這樣網(wǎng)頁(yè)界面單一、數(shù)據(jù)量大的OA期刊數(shù)據(jù)源。

(2)網(wǎng)頁(yè)特征庫(kù)方式:先將網(wǎng)頁(yè)HTML源文件進(jìn)行DOM(Document Object Model)樹(shù)解析,然后從特征庫(kù)中提取元數(shù)據(jù)特征信息,進(jìn)行提取相應(yīng)內(nèi)容。這種方式適合于諸如BioMed Central(http://www.biomedcentral.com)以及J-Stage(hap://www.jstage.jst.go.jp)這類(lèi)界面風(fēng)格較為統(tǒng)一,數(shù)據(jù)層次結(jié)構(gòu)較深的期刊數(shù)據(jù)源。

(3)人工干預(yù)方式:元數(shù)據(jù)收割器將用戶(hù)制定網(wǎng)頁(yè)刪,源文件解析成DOM樹(shù),然后用戶(hù)根據(jù)有用信息所在節(jié)點(diǎn)(Node),進(jìn)行批量下載和批處理,最后得到有用信息。這種方式適合于諸如High Wire Press(http://highwire.stanford.edu)和Freefulltext(http://www.free—fulltext.com)這樣下級(jí)頁(yè)面多樣,采用單一方法難以獲取TOC級(jí)別元數(shù)據(jù)的期刊數(shù)據(jù)源。

目前提供HTTP服務(wù)的OA期刊網(wǎng)站多種多樣。如果需要全面獲取較為完整的信息,單獨(dú)使用其中的一種方式均不能滿(mǎn)足我們的需要,所以對(duì)結(jié)構(gòu)化信息的提取,我們采用前兩種程序化的方法并結(jié)合人工干預(yù)對(duì)網(wǎng)頁(yè)進(jìn)行抓取,以實(shí)現(xiàn)準(zhǔn)確度與自動(dòng)化的最佳平衡?;贖TTP協(xié)議OA期刊網(wǎng)站的元數(shù)據(jù)收割流程如圖3所示:

3.2.3OA期刊元數(shù)據(jù)的集成

不同OA期刊網(wǎng)站,其元數(shù)據(jù)屬性揭示的程度不同,在實(shí)現(xiàn)各類(lèi)OA期刊元數(shù)據(jù)共享集成時(shí),必須要解決不同OA期刊網(wǎng)站源元數(shù)據(jù)的統(tǒng)一描述問(wèn)題。針對(duì)這個(gè)問(wèn)題,采用DC標(biāo)準(zhǔn),DC包含有15個(gè)基本著錄項(xiàng),對(duì)于期刊的元數(shù)據(jù)表達(dá)完全夠用。對(duì)不同的期刊源的元數(shù)據(jù)(期刊網(wǎng)站)實(shí)行結(jié)構(gòu)化分布式存儲(chǔ);同時(shí)對(duì)獲取的遠(yuǎn)端元數(shù)據(jù)進(jìn)行本地化標(biāo)引后存入主數(shù)據(jù)庫(kù),來(lái)實(shí)現(xiàn)一站式整合,流程加下:

3.3OA期刊共享集成系統(tǒng)的模塊化設(shè)計(jì)與實(shí)現(xiàn)

整個(gè)系統(tǒng)基于模塊化設(shè)計(jì),分為期刊元數(shù)據(jù)的采集、本地化和發(fā)布三部分。這三個(gè)相對(duì)獨(dú)立的模塊完成各自功能,所以一旦期刊數(shù)據(jù)源發(fā)生變更或者增加新的數(shù)據(jù)源,只需要升級(jí)相應(yīng)的模塊而不要整體改變。

3.3.1OA期刊元數(shù)據(jù)采集模塊

OA期刊元數(shù)據(jù)的收割主要依靠OAI-PMH協(xié)議收割和HTTP協(xié)議抓取共同完成。開(kāi)始采集時(shí),程序首先根據(jù)OA期刊源庫(kù)中存儲(chǔ)的類(lèi)型信息決定以何種方式采集數(shù)據(jù),同時(shí)更新期刊源庫(kù)中對(duì)應(yīng)的更新時(shí)間。OA期刊元數(shù)據(jù)采集流程如圖5所示。

對(duì)于基于OAI-PMH協(xié)議的OA期刊源,通過(guò)OAI-PMH協(xié)議收割元數(shù)據(jù),首先判斷需要收割的元數(shù)據(jù)的類(lèi)型,是期刊描述信息還是期刊目次級(jí)元數(shù)據(jù);并采用不同的指令向服務(wù)器發(fā)出請(qǐng)求,對(duì)返回的XML文件進(jìn)行解析,將得到的數(shù)據(jù)以記錄方式存入數(shù)據(jù)庫(kù)中。

對(duì)于基于HTTP協(xié)議的OA期刊源,通過(guò)HTTP協(xié)議抓取元數(shù)據(jù),首先根據(jù)OA期刊源庫(kù)中存儲(chǔ)的類(lèi)型信息決定該網(wǎng)站的抓取方式,是采用模板方式還是特征庫(kù)方式抓取;在頁(yè)面逐級(jí)抓取更新過(guò)程中對(duì)比上次期刊庫(kù)中上次該頁(yè)面的更新時(shí)間,如果內(nèi)容有更新,則將新獲取的原始數(shù)據(jù)以記錄方式存入數(shù)據(jù)庫(kù),同時(shí)打上時(shí)間戳。

3.3.2元數(shù)據(jù)本地化集成化模塊

針對(duì)基于OAI協(xié)議和基于HTTP協(xié)議采集來(lái)的元數(shù)據(jù),OA期刊元數(shù)據(jù)的本地化集成在模塊設(shè)計(jì)上略有區(qū)別:由OAI-PMH途徑得到的元數(shù)據(jù)一般來(lái)說(shuō)規(guī)范性較好,簡(jiǎn)單審核后可以直接根據(jù)字段對(duì)應(yīng)關(guān)系進(jìn)行自動(dòng)標(biāo)引,納入本地庫(kù);而HTTP途徑抓取的頁(yè)面原始信息,首先需要管理員人工審核,確認(rèn)無(wú)誤后可根據(jù)字段對(duì)應(yīng)關(guān)系進(jìn)行自動(dòng)標(biāo)引,而后寫(xiě)入本地庫(kù)。數(shù)據(jù)的本地化集成是整個(gè)系統(tǒng)的核心,元數(shù)據(jù)信息的準(zhǔn)確性直接關(guān)系到不同OA期刊的揭示及用戶(hù)利用OA期刊的效率。元數(shù)據(jù)本地化集成模塊的工作流程如圖6所示。

3.3.3數(shù)據(jù)發(fā)布與服務(wù)

將本地化后的OA期刊數(shù)據(jù)以網(wǎng)頁(yè)的形式呈現(xiàn)給用戶(hù),在OA期刊共享平臺(tái)上,用戶(hù)可以按刊名、分類(lèi)瀏覽,也可以按照刊名關(guān)鍵字或期刊的ISSN進(jìn)行檢索,快速查找所需要的期刊。在期刊列表中,可以看到不同來(lái)源的OA期刊信息,包括OA的起始年卷、出版社、是否是peer review、Embargoed/no em,bargo時(shí)間標(biāo)識(shí)等信息。除了提供檢索功能和瀏覽功能外,還能以作者、篇名、關(guān)鍵詞、摘要作為檢索點(diǎn)進(jìn)行篇名目次級(jí)檢索,直接鏈接到全文。

4結(jié)論

基于上述方案,我們實(shí)現(xiàn)了不同OA期刊源的共享集成。并在實(shí)際應(yīng)用中得到了驗(yàn)證。解決了今后OA期刊的收割和發(fā)布問(wèn)題及跟蹤維護(hù)問(wèn)題,同時(shí)為OA期刊與現(xiàn)有期刊導(dǎo)航系統(tǒng)的整合奠定了基礎(chǔ),也為今后整合OA倉(cāng)儲(chǔ)資源積累了實(shí)踐經(jīng)驗(yàn)。

猜你喜歡
影響因子出版社學(xué)科
【學(xué)科新書(shū)導(dǎo)覽】
土木工程學(xué)科簡(jiǎn)介
我等待……
今日華人出版社有限公司
“超學(xué)科”來(lái)啦
基于個(gè)性化的協(xié)同過(guò)濾圖書(shū)推薦算法研究
“影響因子”是用來(lái)賺大錢(qián)的
論新形勢(shì)下統(tǒng)一戰(zhàn)線學(xué)學(xué)科在統(tǒng)戰(zhàn)工作實(shí)踐中的創(chuàng)新
石油工業(yè)出版社
威海市| 东阿县| 台南县| 枣强县| 梓潼县| 乌恰县| 永春县| 潞西市| 四子王旗| 信阳市| 小金县| 乌恰县| 和平区| 安图县| 竹山县| 安乡县| 高陵县| 内江市| 桂阳县| 通山县| 新干县| 敦化市| 西贡区| 旌德县| 屏东县| 龙南县| 简阳市| 桐乡市| 边坝县| 西平县| 河东区| 郯城县| 福海县| 侯马市| 汝南县| 钦州市| 镇坪县| 巩留县| 临桂县| 常山县| 四子王旗|