毛垣生 王 寧 常 紅 湯乃軍 鄭友紅
1.天津醫(yī)科大學(xué) 天津 300070 2.北京唯博賽科技有限公司 北京 100089
對(duì)于零散的PDF文件進(jìn)行保存在國(guó)內(nèi)外都是一個(gè)難題,圖書館參考咨詢部門對(duì)此又有強(qiáng)烈的需求。于是我們通過“電子文獻(xiàn)網(wǎng)絡(luò)結(jié)構(gòu)技術(shù)”研究,將零散的PDF文件名通過云計(jì)算自動(dòng)采集題錄入庫(kù),形成PDF文件名對(duì)照表。再將PDF文件名按照PMID編號(hào)重新命名,將PMID編號(hào)重新命名的PDF文件重新入庫(kù),建立主關(guān)鍵字索引文件和搜索引擎,實(shí)現(xiàn)PDF文件名自動(dòng)更名、自動(dòng)分類、自動(dòng)編輯、時(shí)時(shí)檢索管理工具。
要想建立數(shù)字資源即采、即編、即檢管理系統(tǒng),首先要解決好知識(shí)產(chǎn)權(quán)問題。目前電子資源即采、即編、即檢管理系統(tǒng)已經(jīng)成為世界各國(guó)十分關(guān)注的問題。用戶電子資源存檔和知識(shí)產(chǎn)權(quán)問題成為研究的焦點(diǎn)[1]。近年來,許多國(guó)際出版社考慮到用戶的核心利益,在保護(hù)知識(shí)產(chǎn)權(quán)前提下,允許圖書館在中心館和專業(yè)館進(jìn)行不同方式的電子資源存檔,作為特殊情況下館藏使用[2]。特別值得注意的是,很多數(shù)據(jù)庫(kù)廠商都授予國(guó)內(nèi)單位數(shù)據(jù)存檔權(quán),在合同中標(biāo)明在數(shù)據(jù)庫(kù)發(fā)生故障無法使用時(shí),或者合同到期訂購(gòu)關(guān)系終止時(shí),購(gòu)買單位可以啟用電子存檔數(shù)據(jù)。電子資源存檔得到出版社的許可,是電子資源進(jìn)行長(zhǎng)期合法保存的關(guān)鍵[3]。
第一種方式:允許用戶購(gòu)買電子資源停定以后,數(shù)據(jù)庫(kù)廠商將電子數(shù)據(jù)庫(kù)給用戶安裝在本地進(jìn)行存檔和長(zhǎng)期使用,給用戶安裝所有購(gòu)買過的數(shù)據(jù)并允許用戶永久使用。
第二種方式:購(gòu)買電子資源后,數(shù)據(jù)庫(kù)廠商提供給用戶一套全文光盤進(jìn)行存檔,允許單臺(tái)計(jì)算機(jī)上永久使用。
第三種方式:允許用戶購(gòu)買電子資源后,在中心館或?qū)I(yè)館由用戶自己做電子館藏。還可以提供給用戶存檔工具,存檔數(shù)據(jù)在訂購(gòu)的數(shù)據(jù)庫(kù)發(fā)生自然災(zāi)害時(shí)供給讀者使用。
第四種方式:允許用戶保存開放獲取(OA)電子資源。免費(fèi)數(shù)據(jù)庫(kù)允許用戶作為館藏永久使用。因此用戶不僅具有對(duì)所購(gòu)買的電子資源在IP范圍內(nèi)的訪問權(quán),還具有永久使用權(quán)。
在尊重知識(shí)產(chǎn)權(quán)的前提下,首先在國(guó)際互聯(lián)網(wǎng)上收集OA電子期刊全文,以及與全文相對(duì)應(yīng)的題錄。根據(jù)讀者零散保存的PDF文件PMID編號(hào),采集PubMed中的Summary題錄入庫(kù),將文獻(xiàn)PDF文件名按照PMID編號(hào)進(jìn)行更名入庫(kù),再按照PMID作為主索引字段進(jìn)行索引,最后在本地發(fā)布,提供本地檢索查詢使用。
研發(fā)使用硬件環(huán)境:P2.8 G處理器,G內(nèi)存,500G硬盤。
軟件運(yùn)行環(huán)境:WindowsXP,.Net2.0以上,Offi ce2003中的ACCESS數(shù)據(jù)庫(kù)。
通過對(duì)開放獲取和有存檔權(quán)的醫(yī)學(xué)電子資源進(jìn)行手工和自動(dòng)即采、即編、即檢管理系統(tǒng)機(jī)制的研究,通過醫(yī)學(xué)網(wǎng)絡(luò)文獻(xiàn)結(jié)構(gòu)和自動(dòng)挖掘方法,以及云計(jì)算、自動(dòng)更名、自動(dòng)分類、自動(dòng)發(fā)布等技術(shù),進(jìn)而實(shí)現(xiàn)采、編、檢一條龍文獻(xiàn)館藏查詢系統(tǒng)。
數(shù)據(jù)使用:平時(shí)師生個(gè)人、參考咨詢部門學(xué)習(xí)和科學(xué)研究;遇到不可抗拒的自然災(zāi)害及政治因素等特殊情況導(dǎo)致數(shù)字資源終端不能使用時(shí)使用;作為數(shù)字資源館藏繳存和戰(zhàn)略容災(zāi)儲(chǔ)備。
由于該系統(tǒng)建設(shè)主要采集有存檔權(quán)的OA醫(yī)學(xué)電子期刊作為圖書館的館藏,整體設(shè)計(jì)思路是教師在知道文章出處情況下在本地計(jì)算機(jī)上查找館藏,因此以查找為主設(shè)計(jì)思路。目前采用WindowsXP平臺(tái),.NET軟件,數(shù)據(jù)庫(kù)采用Office Access 2003數(shù)據(jù)庫(kù)。隨著數(shù)據(jù)庫(kù)數(shù)據(jù)量的增多,可以將數(shù)據(jù)導(dǎo)入到SQL,ORCL數(shù)據(jù)庫(kù)進(jìn)行編輯、發(fā)布使用。因此該系統(tǒng)適合個(gè)人以及大、中、小圖書館用來建設(shè)醫(yī)學(xué)圖書館電子期刊館藏使用。
按照PubMed編號(hào)對(duì)采集的PDF文件名重命名,就可以將不同期刊的電子文檔PDF文件命名統(tǒng)一化,用PMID編號(hào)作為數(shù)據(jù)庫(kù)的唯一主關(guān)鍵字字段。通過云計(jì)算和PMID編號(hào)在PubMed數(shù)據(jù)庫(kù)采集該篇文獻(xiàn)的題錄信息入庫(kù)。這樣就可以根據(jù)題錄信息中的刊號(hào)、年、卷、期、頁、作者、題名、摘要等字段查找文獻(xiàn)。由于不同出版社數(shù)據(jù)庫(kù)的PDF文件名組織形式各不相同,首先要解決PDF文件名組織形式統(tǒng)一問題,如何將各個(gè)出版社和數(shù)據(jù)庫(kù)廠商PDF文件名組織形式統(tǒng)一化是解決問題的關(guān)鍵。
如何手工和自動(dòng)對(duì)文件名進(jìn)行更名?手工對(duì)文件更名:將零散下載的文獻(xiàn)和文獻(xiàn)傳遞的PDF文件在PubMed中查找到后,每一個(gè)PubMed文獻(xiàn)都標(biāo)注了PMID編號(hào),因此很容易按照PMID重新給PDF命名。利用采集工具自動(dòng)對(duì)PDF文件更名,可以利用采集的文獻(xiàn)題錄庫(kù)自動(dòng)給不同編號(hào)PDF更名為統(tǒng)一按照PMID編號(hào)的PDF文件。
“PubMed中PMID編號(hào)自動(dòng)鏈接到PDF全文”功能。圖書館大量開放存取文獻(xiàn)如果沒有人進(jìn)行整理,全文文件則不能作為圖書館的館藏。新的讀者要索取同一個(gè)有存檔權(quán)的全文文件,只有再發(fā)出索取同一個(gè)文件的全文傳遞請(qǐng)求,造成重復(fù)傳遞。而且互聯(lián)網(wǎng)出口流量增加,需要重復(fù)花費(fèi)文獻(xiàn)傳遞費(fèi)用,文獻(xiàn)傳遞時(shí)間也很長(zhǎng)。針對(duì)上述問題,在遵守知識(shí)產(chǎn)權(quán)保護(hù)法規(guī)的基礎(chǔ)上,采用垂直搜索技術(shù),將原始PDF文件的文件名轉(zhuǎn)換PMID編號(hào)的PDF文件名,成功地實(shí)現(xiàn)了PubMed中PMID編號(hào)自動(dòng)鏈接到PDF全文功能。
第一步,采用手工方法將文獻(xiàn)傳遞來的PDF文件通過Adobe Acrobat打開,在工具欄上選取[文本]工具,選定文章“題名”,將PDF的“題名”轉(zhuǎn)換成文本文件“題名”,核對(duì)無誤后,將文本文件“題名”復(fù)制到剪貼板。再打開“PubMed”,在輸入框中粘貼“剪貼板”中的文章“題名”后,點(diǎn)擊[GO]按鈕,進(jìn)行“題名”檢索。檢索到該篇文章,在題錄中尋找如:PMID:17615536的編號(hào),將PMID的編號(hào)“17615536”復(fù)制下來,將PDF的文件名更改為PMID編號(hào)的PDF文件名。
第二步,將按PMID更名的PDF文件入庫(kù),進(jìn)行索引倒排,生成按PMID編號(hào)PDF文件的搜索引擎。然后進(jìn)行發(fā)布,讀者就可以找到的PMID編號(hào)文獻(xiàn)進(jìn)行檢索,直接下載文獻(xiàn)傳遞過的全文文件,實(shí)現(xiàn)館藏建設(shè)。
第三步,考慮如何使用垂直搜索技術(shù)實(shí)現(xiàn)PubMed中PMID編號(hào)自動(dòng)鏈接PDF全文功能。首先,分析了手工操作方法在PubMed中找到既有PMID:17615536的編號(hào),又有PDF鏈接的頁面。使用信息采集工具,按既有PMID:17615536的編號(hào),又有PDF鏈接的頁面進(jìn)行配置共有字段的主鍵,將PMID:17615536,PDF文件名、文章題名、PDF鏈接地址鏈接成一個(gè)庫(kù)。然后進(jìn)行索引倒排,將PDF文件名用PMID編號(hào)成批替換更名后,再按照PMID字段進(jìn)行索引倒排,生成新的數(shù)據(jù)庫(kù),從而實(shí)現(xiàn)PubMed中PMID編號(hào)自動(dòng)鏈接PDF全文功能。
第四步,讀者需要全文傳遞時(shí),首先在免費(fèi)的PubMed中進(jìn)行檢索,檢索到文章摘要中的PMID編號(hào),將PMID編號(hào)輸入到可以自動(dòng)鏈接PDF全文的檢索框中,只輸入PMID編號(hào)就可以進(jìn)行全文檢索,為讀者提供“立等可取”的全文文獻(xiàn)提供服務(wù)。這個(gè)檢索查詢系統(tǒng)減少了互聯(lián)網(wǎng)出口流量,節(jié)省了有存檔權(quán)的全文傳遞的成本,實(shí)現(xiàn)了PDF全文本地化建設(shè),增加了圖書館全文館藏,提高了圖書館文獻(xiàn)傳遞的速度和服務(wù)質(zhì)量。
經(jīng)天津大學(xué)、南開大學(xué)、天津高等教育文獻(xiàn)信息中心、北京大學(xué)醫(yī)學(xué)部、北京首都醫(yī)科大學(xué)、中國(guó)人民解放軍圖書館、中國(guó)醫(yī)學(xué)科學(xué)院醫(yī)學(xué)信息研究所、武漢大學(xué)圖書館、天津醫(yī)科大學(xué)總醫(yī)院、天津醫(yī)科大學(xué)第二附屬醫(yī)院、天津市人民醫(yī)院等單位測(cè)試或試用得到好評(píng)。2011年6月28日通過了天津市高新技術(shù)成果轉(zhuǎn)化中心組織的科研成果專家鑒定會(huì)。
該成果實(shí)現(xiàn)了本地允許保存零散的PDF文件再標(biāo)引,通過云計(jì)算技術(shù)實(shí)現(xiàn)了對(duì)文獻(xiàn)題錄的時(shí)時(shí)采集、時(shí)時(shí)編輯、時(shí)時(shí)發(fā)布,從而達(dá)到了即采、即編、即用的理想目標(biāo)。通過PubMed中PMID編號(hào)自動(dòng)鏈接PDF,實(shí)現(xiàn)允許保存的零散PDF電子資源即采、即編、即檢管理系統(tǒng)的館藏建設(shè)。特別適合參考咨詢部門保存、管理、查詢零散的PDF全文,是一件具有實(shí)用價(jià)值的軟件工具。
該系統(tǒng)是單機(jī)版進(jìn)而開發(fā)網(wǎng)絡(luò)版文獻(xiàn)整合管理工具,目前只適合PubMed收錄的期刊進(jìn)而擴(kuò)大到OA期刊所有期刊,用同樣方法就可以實(shí)現(xiàn)理、工、農(nóng)、醫(yī)全學(xué)科的本地PDF數(shù)據(jù)采、編、檢。
[1] 翟建雄,圖書館館際互借和文獻(xiàn)提供中的版權(quán)問題:美國(guó)的立法和司法判例介紹[J].法律文獻(xiàn)信息與研究,2006(3):1-11.
[2] 翟建雄,信息開放存取中的版權(quán)問題及圖書館的對(duì)策[J].法律文獻(xiàn)信息與研究,2006(4):1-28.
[3] 王少輝,數(shù)字館藏長(zhǎng)期保存中的版權(quán)問題研究[J].檔案管理,2006(5):37-38.