国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

科技期刊發(fā)布平臺數(shù)據(jù)遷移層次模型的構建與實踐應用

2024-05-29 05:02:48郭軍強
數(shù)字出版研究 2024年2期
關鍵詞:層次模型學術期刊

摘 要:科技期刊發(fā)布平臺遷移過程中所涉及的數(shù)據(jù),可根據(jù)數(shù)據(jù)類型劃分為期刊的基礎數(shù)據(jù)、期刊的擴展數(shù)據(jù)、期刊的用戶數(shù)據(jù)及行為數(shù)據(jù)、期刊網(wǎng)站與上下游系統(tǒng)連通數(shù)據(jù)等不同的數(shù)據(jù)層級,并據(jù)此構建相關的層次模型。層次模型可應用在實際的數(shù)據(jù)遷移實踐中,本文根據(jù)不同層級數(shù)據(jù)的特點,探討各層數(shù)據(jù)在數(shù)據(jù)遷移過程中的遷移思路、遷移方法和注意事項,并提出相應的遷移案例,以期對促進科技期刊數(shù)字化建設的健康發(fā)展提供參考。

關鍵詞:學術期刊;發(fā)布平臺;數(shù)據(jù)遷移;層次模型

DOI: 10.3969/j.issn.2097-1869.2024.02.009文獻標識碼:A

著錄格式:郭軍強.科技期刊發(fā)布平臺數(shù)據(jù)遷移層次模型的構建與實踐應用[J].數(shù)字出版研究,2024,3(2):72-76.

科技期刊發(fā)布平臺是科技期刊數(shù)字化建設的重要組成部分,國內外已有多個廠商提供相應服務,如國內的瑪格泰克、仁和匯智、中圖科信、方正、勤云、科學出版社SciEngine平臺、清華大學出版社SciOpen平臺及國外的ATYPON Literatum平臺等。期刊作為連續(xù)性出版物,根據(jù)其自身發(fā)展的需要,會不可避免地經(jīng)歷發(fā)布平臺的變更和遷移,在此過程中,數(shù)據(jù)的遷移尤為重要。當前,部分期刊對哪些數(shù)據(jù)需要遷移、如何進行遷移等缺乏較深的理解,其實際的遷移過程就如“摸著石頭過河”,容易造成不同類型的數(shù)據(jù)或多或少地被丟失。同時,也有部分發(fā)布平臺未向遷走的期刊提供相應支持。針對上述問題,本文試圖通過對科技期刊遷移數(shù)據(jù)類型進行劃分,并針對不同數(shù)據(jù)類型提出相應解決思路和方法。

1 背景及既有研究

在期刊平臺建設方面,目前大部分期刊都采用第三方技術公司提供系統(tǒng)或服務的方式構建自身系統(tǒng)平臺??萍计诳沁B續(xù)性出版物,優(yōu)秀的期刊往往為能向讀者、專家用戶提供更好的服務而進行系統(tǒng)的迭代和升級,在此過程中都需要進行數(shù)據(jù)遷移,即將舊系統(tǒng)中的數(shù)據(jù)遷移到新系統(tǒng)中,使其在新系統(tǒng)中得以正確應用,保證期刊系統(tǒng)平臺的可持續(xù)服務。

通過在文獻數(shù)據(jù)庫中進行檢索,發(fā)現(xiàn)相關的既有研究較少,其中,許山山等[1]從數(shù)據(jù)質量對數(shù)據(jù)遷移的影響、數(shù)據(jù)遷移基本架構、數(shù)據(jù)遷移方法3個方面進行梳理,分析當前熱點的架構和方法,并對常用架構模型和方法進行了綜合評價;張斯龍等[2]則以《中華急診醫(yī)學雜志》主建網(wǎng)站“中華急診網(wǎng)”的升級為案例,對期刊網(wǎng)站系統(tǒng)升級歷程中各階段的實施過程和收效進行了經(jīng)驗總結。但許山山等的研究偏向理論探索;張斯龍等的研究則側重于定制化開發(fā)的期刊數(shù)字化系統(tǒng)平臺,與大部分期刊的情況并不相同。同時,科技期刊在實際的遷移過程中,往往只注意期刊、論文數(shù)據(jù)的遷移,且容易忽略論文析出或加工出的數(shù)據(jù)、用戶數(shù)據(jù)及用戶行為數(shù)據(jù)、上下游系統(tǒng)連通數(shù)據(jù)等數(shù)據(jù)的遷移。因此構建相對完整的數(shù)據(jù)遷移層次模型并開展實踐應用是一個重要的研究課題。

2 平臺數(shù)據(jù)遷移的層次模型與實踐應用

2.1 數(shù)據(jù)遷移層次模型

本文以科技期刊發(fā)布平臺的數(shù)據(jù)遷移層次模型與實踐應用為研究對象,探討數(shù)據(jù)遷移過程中所涉及數(shù)據(jù)的層次劃分、遷移要點和注意事項等。

基于筆者對科技期刊發(fā)布平臺的多年研發(fā)經(jīng)驗,在數(shù)據(jù)遷移過程中可以按照如下方式進行遷移數(shù)據(jù)的層次劃分(見圖1)。

不同層次的數(shù)據(jù)在遷移時具有不同特點,其遷移方式也隨層次的不同而具有完全不同的遷移思路和方法,層次越高對數(shù)據(jù)的要求越高。各期刊可以根據(jù)自身實際情況向遷移前后的技術提供商提出不同的數(shù)據(jù)導出和導入需求,并要求雙方配合完成完整的數(shù)據(jù)遷移工作。

2.2 數(shù)據(jù)遷移層次模型的實踐應用

2.2.1 L1層期刊的基礎數(shù)據(jù)的遷移

L1層的數(shù)據(jù)為期刊的基礎數(shù)據(jù),主要包括期刊的核心信息展示數(shù)據(jù)和期刊文獻數(shù)據(jù)兩部分。

期刊的核心信息展示數(shù)據(jù)主要指期刊網(wǎng)站上呈現(xiàn)給用戶的靜態(tài)介紹類數(shù)據(jù),此類數(shù)據(jù)更新頻率一般較低,如期刊簡介、編委信息、期刊榮譽、投稿指南、審稿流程、版權聲明、數(shù)據(jù)共享說明、道德聲明、倫理政策等。由于各期刊的核心信息展示數(shù)據(jù)內容、標準不一,且往往長期固定,更新頻率低,對該類數(shù)據(jù)的遷移思路是直接將原系統(tǒng)中的相關數(shù)據(jù)拷貝到新平臺,同時結合新網(wǎng)站的展示需求、內容更新需求等進行調整。

期刊的基礎文獻數(shù)據(jù)一般包括論文的元數(shù)據(jù)、PDF及XML全文數(shù)據(jù)等,是期刊網(wǎng)站上最重要的內容數(shù)據(jù)。通過分析國內期刊的數(shù)據(jù)加工情況,可以將期刊為讀者提供論文閱讀的方式分為論文摘要閱讀、論文摘要+PDF下載閱讀、論文在線全文閱讀、論文在線全文+PDF下載閱讀等。針對論文摘要閱讀和PDF下載閱讀方式,文獻數(shù)據(jù)的遷移策略和思路是通過批量導出、導入方式進行數(shù)據(jù)的遷移操作,如果原系統(tǒng)不支持導出,則可以通過數(shù)據(jù)采集的方式進行數(shù)據(jù)的遷移。論文題錄數(shù)據(jù)的遷移,是目前國內主流科技期刊平臺遷移過程中的基礎部分,如勤云、瑪格泰克、仁和、方正等網(wǎng)站平臺提供論文所有題錄數(shù)據(jù)的Excel表格,只要新系統(tǒng)支持批量導入,即可完成論文數(shù)據(jù)的遷移。但這種遷移方式需要考慮導出的PDF文件與元數(shù)據(jù)的關聯(lián),可以通過對將PDF文件的文件名稱與元數(shù)據(jù)中的某字段(如唯一標識)相對應的方式進行遷移。

以某期刊網(wǎng)站的論文數(shù)據(jù)遷移為例,原網(wǎng)站上的論文只支持摘要閱讀,PDF及全文閱讀數(shù)據(jù)需要從數(shù)據(jù)庫平臺獲取。在該期刊的數(shù)據(jù)遷移過程中,以從原網(wǎng)站導出的論文題錄excel數(shù)據(jù)為基礎,對其所有文獻數(shù)據(jù)進行XML全文數(shù)據(jù)加工并完善題錄數(shù)據(jù),從而完成論文數(shù)據(jù)遷移,實現(xiàn)全刊論文在新網(wǎng)站的全文在線閱讀和PDF下載閱讀。

對于與國外合作期刊的基礎論文數(shù)據(jù),可以使用大數(shù)據(jù)采集工具采集論文的題錄數(shù)據(jù)并進行新網(wǎng)站入庫與發(fā)布,這就要求數(shù)據(jù)采集工具需具有實時更新與監(jiān)控能力,以確保所有期刊文獻數(shù)據(jù)同步更新。數(shù)據(jù)遷移后的期刊網(wǎng)站平臺樣例(見圖2)。

2.2.2 L2層期刊的擴展數(shù)據(jù)的遷移

L2層的數(shù)據(jù)為期刊的擴展數(shù)據(jù),首先需要處理的是以論文XML數(shù)據(jù)為基礎并通過解析XML的內容或通過更進一步的數(shù)據(jù)加工而形成的實體數(shù)據(jù),包括能夠獨立存儲的作者、機構、基金、關鍵詞、圖表、參考文獻等數(shù)據(jù),其未來可以作為科技期刊的數(shù)字資產進行重復利用,因此遷移該部分數(shù)據(jù)時需要確保數(shù)據(jù)的連續(xù)性。此類數(shù)據(jù)進行遷移的策略和思路為,如果其僅是從全文XML數(shù)據(jù)解析出來的數(shù)據(jù),則可以通過重新解析和治理技術完成遷移,在新的系統(tǒng)中實現(xiàn)結構化數(shù)據(jù)的獨立存儲與管理;如果在解析的基礎上還進行了更多加工,則需要進一步處理加工后的結構化數(shù)據(jù)及各實體之間的關聯(lián)。

擴展數(shù)據(jù)還包括期刊網(wǎng)站的資訊數(shù)據(jù),以期刊編輯部公告或微信公眾號等新媒體平臺的內容居多,針對該類數(shù)據(jù)可以通過技術采集的方式進行遷移,如對于編輯部公告資訊數(shù)據(jù)可采用一次性遷移方式,微信公眾號等新媒體平臺的數(shù)據(jù)則需要通過持續(xù)監(jiān)控進行采集并更新。

此外,部分科技期刊網(wǎng)站中還存在音視頻數(shù)據(jù),包括論文的增強出版數(shù)據(jù)或發(fā)布網(wǎng)址運營過程中積累的音視頻數(shù)據(jù),一般分為兩種存儲方式,一種存儲于原網(wǎng)站,可直接進行播放展示(見圖3);另一種則存儲于B站、視頻號等第三方平臺(見圖4)。針對第一種存儲方式的數(shù)據(jù)遷移需要通過整理原網(wǎng)站的音視頻資源,根據(jù)導入的元數(shù)據(jù)模板批量導入新網(wǎng)站。其中,尤其需要注意音視頻資源與論文等其他內容的關聯(lián),需要在新網(wǎng)站中進行重建。而對于存儲在第三方平臺上的音視頻數(shù)據(jù)可以采取兩種處理方式,其一是繼續(xù)將數(shù)據(jù)保留在第三方平臺,直接在新網(wǎng)站中拷貝相關鏈接即可;其二是從保證數(shù)據(jù)完整性的角度出發(fā),將相關數(shù)據(jù)收回科技期刊網(wǎng)站自行管理,可以通過分析第三方平臺的數(shù)據(jù)規(guī)則,利用技術采集工具實現(xiàn)音視頻數(shù)據(jù)的持續(xù)采集與入庫,確保新網(wǎng)站和第三方平臺的數(shù)據(jù)實現(xiàn)周期性更新。

2.2.3 L3層期刊的用戶數(shù)據(jù)及行為數(shù)據(jù)的遷移

L3層的數(shù)據(jù)為期刊的用戶數(shù)據(jù)及行為數(shù)據(jù),包括用戶信息數(shù)據(jù)、用戶行為數(shù)據(jù)或資源利用數(shù)據(jù)及系統(tǒng)訪問數(shù)據(jù)(如網(wǎng)站訪問量、訪問時長)等。

期刊的用戶信息數(shù)據(jù)主要指網(wǎng)站前臺的讀者數(shù)據(jù),通過導出已經(jīng)注冊、登錄的用戶賬號信息,在新系統(tǒng)中實現(xiàn)賬號的批量初始化,保證用戶的連續(xù)訪問。在遷移的過程中,需要特別注意保護用戶密碼等敏感數(shù)據(jù)的安全,確保用戶的隱私及保密數(shù)據(jù)不被泄露。同時,對于訂閱制期刊,其用戶的訂閱信息也需要和用戶數(shù)據(jù)一起遷移。

用戶行為數(shù)據(jù)或資源利用數(shù)據(jù)指前臺網(wǎng)站的所有內容資源,用戶在使用資源時的行為數(shù)據(jù),包括論文的瀏覽量、下載量及音視頻的瀏覽量、播放量、下載量等數(shù)據(jù),可以通過系統(tǒng)日志導出,不同的資源在導出時可以將系統(tǒng)的統(tǒng)計數(shù)據(jù)包含在內。

2.2.4 L4層期刊網(wǎng)站與上下游系統(tǒng)連通數(shù)據(jù)的遷移

L4層的數(shù)據(jù)為期刊網(wǎng)站與上下游系統(tǒng)的連通數(shù)據(jù),主要遷移的是DOI注冊信息。一些期刊在發(fā)布論文時會對其進行DOI注冊,遷移網(wǎng)站數(shù)據(jù)時也需要將DOI解析后的目標地址遷移到新網(wǎng)站,否則一旦舊網(wǎng)站下線,DOI解析就會無法被訪問??梢酝ㄟ^更新DOI注冊的相關信息來維護DOI注冊信息的持久性及DOI元數(shù)據(jù)的準確性。

針對DOI注冊信息,本文提出遷移策略和思路:將所有注冊過DOI的數(shù)字對象列表進行導出和遷移,數(shù)字對象一般包括論文、部分論文部件(如圖片、表格等)、增強出版數(shù)據(jù)(如音頻、視頻等)及其他類型的數(shù)據(jù),根據(jù)列表分門別類地在新網(wǎng)站系統(tǒng)中使用新的URL進行解析地址更新。如果舊網(wǎng)站系統(tǒng)中沒有記錄相關數(shù)據(jù)或不支持導出,則可以根據(jù)Crossref平臺提供的期刊DOI和URL列表獲取相關信息,科技期刊可以要求新網(wǎng)站平臺的技術商根據(jù)列表形成包含論文在內的各種數(shù)字對象的DOI和URL信息的新格式文件,其格式體例可參見Crossref平臺制定的包含制表符分隔列表的文本文件具體規(guī)則[3]。之后即可聯(lián)系Crossref的管理員進行批量DOI重新解析操作,或通過Crossref的管理工具批量上傳提交。

2.3 平臺遷移與數(shù)據(jù)的相關事項

為了實現(xiàn)新科技期刊平臺與上下游系統(tǒng)的連通,除完成上述數(shù)據(jù)的遷移外,還需注意與平臺遷移相關的搜索引擎收錄更新及各數(shù)據(jù)庫收錄更新等相關事項。此類事項與遷移平臺的技術功能、第三方對接平臺接口有關,雖不屬于數(shù)據(jù)遷移范疇,未列入數(shù)據(jù)遷移層次模型,但與遷入的新平臺中相關的數(shù)據(jù)關系密切。

搜索引擎收錄更新以百度和谷歌收錄更新為例。對于百度收錄更新,可參考百度的網(wǎng)站收錄工具說明[4],當科技期刊進行第一次網(wǎng)站收錄時,技術服務商可首先進行百度網(wǎng)站收錄開放平臺的注冊,然后進行網(wǎng)站的域名驗證,之后即可通過百度提供的API接口進行網(wǎng)站URL的批量收錄提交;當科技期刊進行新舊網(wǎng)站或域名切換時,則需要通過百度提供的網(wǎng)站改版工具[5]提交當前網(wǎng)站的所有URL鏈接。對于谷歌收錄更新,則需要通過谷歌開發(fā)者賬號按收錄要求[6]生成并重新提交網(wǎng)頁地圖(Sitemap)文件。

在各數(shù)據(jù)庫收錄更新方面,科技期刊收錄數(shù)據(jù)庫的數(shù)據(jù)在新舊平臺進行切換時,需要對原始數(shù)據(jù)庫——如中國科學引文數(shù)據(jù)庫(CSCD)、Pubmed、Scopus數(shù)據(jù)庫中的論文元數(shù)據(jù)及論文可觸達的URL地址進行更新。主流的數(shù)據(jù)更新方式為,數(shù)據(jù)庫平臺向期刊提供文件傳輸協(xié)議(File Transfer Protocol,F(xiàn)TP)服務,科技期刊按照數(shù)據(jù)庫的要求準備并提交數(shù)據(jù),并通過FTP服務器進行原始數(shù)據(jù)的更新,確??萍计诳屡f平臺切換后依然可以保證論文的原文獲取鏈接準確無誤。以Pubmed數(shù)據(jù)庫收錄更新為例,若期刊被Pubmed數(shù)據(jù)庫收錄,在進行科技期刊網(wǎng)站的新舊切換時需要對原始提交給Pubmed數(shù)據(jù)庫的論文原文鏈接進行批量更新,按照Pubmed數(shù)據(jù)庫的數(shù)據(jù)提交更新機制制作XML文件(見圖5),并通過Pubmed數(shù)據(jù)庫提供的FTP服務器上傳、更新該XML文件,以保證Pubmed數(shù)據(jù)庫的論文能夠準確鏈接到新的網(wǎng)站平臺。

3 結語

科技期刊發(fā)布平臺的數(shù)據(jù)遷移過程較為繁瑣,本文通過對發(fā)布平臺中需要遷移的數(shù)據(jù)進行分析,構建了科技期刊發(fā)布平臺數(shù)據(jù)遷移的層次模型,將需要遷移的數(shù)據(jù)分為期刊的基礎數(shù)據(jù)、擴展數(shù)據(jù)、用戶數(shù)據(jù)及行為數(shù)據(jù)、網(wǎng)站與上下游系統(tǒng)的連通數(shù)據(jù)四個層次,對該層次模型進行實踐應用,針對每一層數(shù)據(jù)分別提出數(shù)據(jù)遷移的策略、思路和方法,對期刊數(shù)據(jù)遷移事項的開展提供建議,拓展其執(zhí)行思路,以期促進科技期刊數(shù)字化建設的健康發(fā)展。

目前,期刊平臺技術提供商對于期刊數(shù)據(jù)遷移的認識還比較有限,實施時往往比較被動。未來若其能夠提供更好的技術支持,期刊的數(shù)據(jù)遷移將更加順暢,如可以在多平臺間通過提供接口或遷移協(xié)議的方式實現(xiàn)數(shù)據(jù)遷移,甚至更進一步,新舊平臺間可以“一鍵”實現(xiàn)所有數(shù)據(jù)的遷移,真正實現(xiàn)期刊網(wǎng)站系統(tǒng)的平滑過渡,屆時,科技期刊平臺的產品競爭力將得到飛躍式發(fā)展。

作者簡介

郭軍強,男,中圖科信數(shù)智技術(北京)有限公司產品經(jīng)理。研究方向:互聯(lián)網(wǎng)及數(shù)字出版產品與平臺設計。

參考文獻

[1]許山山,史涯晴,韓敬利,等.數(shù)據(jù)遷移研究綜述[J].軟件導刊,2023,22(7):234-246.

[2]張斯龍,鄭辛甜,馬岳峰.學術期刊網(wǎng)站的升級[J].科技期刊發(fā)展與導向,2018:118-123.

[3]Crossref.How to update your resolution URLs[EB/OL].(2022-05-20)[2023-12-27].https://www.crossref.org/documentation/register-maintain-records/maintaining-your-metadata/updating-your-metadata/#00172.

[4]百度搜索資源平臺.平臺工具使用手冊:如何使用API推送功能[EB/OL].(2020-08-14)[2023-12-27].https://ziyuan.baidu.com/college/courseinfo?id=267&page=3#h2_article_title14.

[5]百度搜索資源平臺.平臺工具使用手冊:網(wǎng)站改版工具如何使用[EB/OL].(2020-08-14)[2023-12-27].https://ziyuan.baidu.com/college/courseinfo?id=267&page=6#h2_article_title19.

[6]Google搜索中心.請求Google重新抓取您的網(wǎng)址[EB/OL].[2023-12-27].https://www.google.com/addurl.

Construction and Practical Application of Data Migration Hierarchical Model for Sci-Tech Journal Publishing Platforms

GUO Junqiang

Zhongtu Kexin Technology (Beijing) Co., Ltd., 100020, Beijing, China

Abstract: Data involved in the migration process of sci-tech journal publishing platforms can be divided into different layers according to types, such as basic data, extended data, user data and behavior data, and website and up-down-stream-connected data. Related hierarchical model can be constructed accordingly, and it can be applied in the actual data migration practice. According to the characteristics of data at different layers, this study analyzed in-depth the migration ideas, methods and precautions of data at each layer in the process of data migration, and put forward corresponding migration cases, with a view to providing references to promote the healthy development of the digitization of sci-tech journals.

Keywords: Academic journals; Publishing platform; Data migration; Hierarchical model

猜你喜歡
層次模型學術期刊
2020年百種中國杰出學術期刊獲獎證明
我刊獲評四川省社會科學優(yōu)秀學術期刊
學術期刊引證指標
學術期刊引證指標
基于層次模型分析網(wǎng)絡空間安全威脅與對策
《EDA技術》教材改革的研究
基于SOA架構的Web Service體系研究
航電系統(tǒng)數(shù)據(jù)危害的模式和原理
河海大學學術期刊創(chuàng)辦百年
三維建模流程的優(yōu)化和簡化
江华| 文登市| 凤城市| 安多县| 墨脱县| 嘉禾县| 辽源市| 武山县| 库车县| 清涧县| 正蓝旗| 东至县| 儋州市| 乌兰浩特市| 楚雄市| 历史| 固阳县| 五莲县| 微山县| 信宜市| 易门县| 沙雅县| 叶城县| 白水县| 宾阳县| 普安县| 石首市| 辽中县| 丰台区| 双峰县| 石楼县| 莒南县| 蓬安县| 遵化市| 惠安县| 综艺| 松溪县| 左贡县| 镇康县| 三台县| 同仁县|