司 莉,羅 泉
隨著“一帶一路”倡議推進,圍繞“一帶一路”的專題數(shù)據(jù)庫不斷開發(fā),典型的有中國一帶一路網(wǎng)、銳思數(shù)據(jù)“一帶一路”數(shù)據(jù)庫系列、國研網(wǎng)“一帶一路”戰(zhàn)略支撐平臺等??傮w看,“一帶一路”專題庫資源以中英文為主,小語種資源欠缺,實現(xiàn)跨語言檢索的數(shù)據(jù)庫極少,覆蓋整個經(jīng)濟管理領(lǐng)域的數(shù)據(jù)庫較缺乏。構(gòu)建以“一帶一路”沿線國家信息資源共建共享為目標的、多語種、共享型經(jīng)濟管理數(shù)據(jù)庫具有重要意義。然而,此數(shù)據(jù)庫資源具有多語種、碎片化、多源異構(gòu)等特點,采集、組織、利用等難度大[1]。同時,由于沿線國家間政治、經(jīng)濟、文化與信息化水平等差異,實現(xiàn)共享存在阻力[2],數(shù)據(jù)庫建設(shè)與推進面臨諸多障礙。筆者采用扎根理論,分析“一帶一路”沿線國家多語種共享型經(jīng)濟管理數(shù)據(jù)庫建設(shè)(以下簡稱“數(shù)據(jù)庫建設(shè)”)障礙因素,在此基礎(chǔ)上提出建議,助力數(shù)據(jù)庫建設(shè)的穩(wěn)步推進。
相關(guān)研究主要包括:(1)經(jīng)濟管理資源建設(shè)障礙。甘犁等指出經(jīng)濟管理領(lǐng)域的微觀數(shù)據(jù)通常難以獲得,此類數(shù)據(jù)主要來源于國家統(tǒng)計局等政府部門,大多不對外開放[3]。于施洋等指出“一帶一路”每個沿線國家都在經(jīng)濟等領(lǐng)域積累海量數(shù)據(jù),數(shù)據(jù)歸集存在代表性和可獲得性數(shù)據(jù)源確定、數(shù)據(jù)質(zhì)量的保證以及多語言問題處理等障礙[4]。(2)多語種信息處理障礙。Kostic指出建立多語種的人類知識因特網(wǎng)數(shù)據(jù)庫時面臨數(shù)據(jù)清晰度不足、語言較多和多語種實時翻譯等障礙,難以實現(xiàn)可持續(xù)的知識獲取、組織、評價與分類[5]。(3)共建共享障礙。趙豪邁指出,受到共享信息資源意愿以及不同國家經(jīng)濟、社會、法律、信息化水平之間的差異等影響,“一帶一路”沿線國家間信息共享是一個復雜的問題,“一帶一路”信息資源跨國合作面臨阻礙[6]。(4)標準障礙。丁波濤指出,“一帶一路”沿線國家在信息采集、加工、存儲、傳遞等環(huán)節(jié)采用的標準規(guī)范不同,不利于使分散在各個國家和地區(qū)的數(shù)據(jù)信息集聚起來,通過融合、重組或聚合等方式形成規(guī)范有序、格式統(tǒng)一的整體[2]。(5)法律問題。李玉璧等指出,在“一帶一路”建設(shè)中,隸屬法系、法治狀況等差異會引發(fā)法律風險,其中包含因知識產(chǎn)權(quán)保護產(chǎn)生的法律風險[7]。Corejova等將數(shù)據(jù)庫作為知識產(chǎn)權(quán)客體來考察,認為當數(shù)據(jù)庫成為市場產(chǎn)品,使用和傳播數(shù)據(jù)庫中的信息存在法律問題[8]。(6)資金、人才、技術(shù)等障礙。劉彩虹等指出,建數(shù)據(jù)庫是一項大工程,會受到技術(shù)、人才、資金等因素制約[9]。嚴丹等發(fā)現(xiàn),“一帶一路”專題數(shù)據(jù)庫小語種資源欠缺,小語種翻譯服務(wù)人才欠缺,阻礙多語種資源服務(wù)[10]。由此可見,相關(guān)研究認為構(gòu)建此數(shù)據(jù)庫存在語言、機制、法律等障礙。筆者運用扎根理論,結(jié)合文獻調(diào)研與專家訪談法,梳理出各種障礙因素,為推動此數(shù)據(jù)庫建設(shè)提出建議。
運用文獻調(diào)研與專家訪談做為數(shù)據(jù)獲取的主要方法,以中國知網(wǎng)為主要文獻來源,分別以“一帶一路(或者絲綢之路、海上絲綢之路)”“多語種(或者跨語種、多語言、跨語言)”“經(jīng)濟管理”“共享型”為關(guān)鍵詞,與“數(shù)據(jù)庫建設(shè)”進行組配檢索,選取近15年文獻,剔除重復與不相關(guān)的文獻,初步確定70篇文獻。通過滾雪球方式,對“一帶一路”多語種專題數(shù)據(jù)庫的資源建設(shè)、標準規(guī)范、法律問題等進一步展開檢索,共計確認126篇文獻。此外,圍繞此數(shù)據(jù)庫建設(shè)障礙,對8位經(jīng)濟管理與圖書情報領(lǐng)域資深專家進行訪談,每次訪談時間為30分鐘左右,經(jīng)訪問者同意,對其進行錄音,之后將錄音轉(zhuǎn)為文本資料,進行編碼分析。訪談主要圍繞下述問題展開:您認為此數(shù)據(jù)庫建設(shè)過程中是否存在障礙?您認為存在哪些障礙?您對此數(shù)據(jù)庫建設(shè)有何建議?
采取扎根理論[11]做為數(shù)據(jù)處理的主要方法。首先,運用扎根理論方法,對文獻資料與訪談文本進行閱讀和分析,識別關(guān)于數(shù)據(jù)庫建設(shè)障礙語句,獲取原始資料。其次,進行初始開放性編碼、主軸編碼和選擇性編碼,形成初始概念、子范疇和主范疇。最后,對上述范疇進行反復修正和提煉。為確保研究樣本符合飽和理論原則,隨機選取三分之一資料進行飽和度檢驗。
開放性編碼是將原始資料打散、編碼、標簽,進行初始的概念化和范疇化的過程。筆者以扎根理論編碼原則為基礎(chǔ),對文獻與訪談內(nèi)容逐條分析,剔除相關(guān)度低的內(nèi)容,共獲得596 條語句。之后逐句編碼分析,獲得諸如“資源采集成本高”“語言數(shù)量多”“建設(shè)資金不足”等初始概念,見表1。在此基礎(chǔ)上,對初始概念進一步分析、比較、聚類,提取有效概念,獲得S1 資源范疇界定、S2 資源獲取和S3資源采集等15個子范疇。
表1 文獻和訪談文本開放性編碼示例
基于開放性編碼結(jié)果,根據(jù)概念間的關(guān)系和邏輯次序進行類屬精細化和維度具體化,聚焦出現(xiàn)的范疇,進行主軸編碼。通過對子范疇進行分析、歸納、抽象和重新歸類,最終形成資源層障礙、物質(zhì)層障礙、機制層障礙、標準層障礙、語言層障礙與法律層障礙6個主范疇,見表2。
表2 數(shù)據(jù)庫建設(shè)的障礙因素
選擇性編碼是從主范疇中挖掘核心范疇,并圍繞核心范疇建立其與各主范疇之間的典型關(guān)系結(jié)構(gòu),再通過邏輯關(guān)系分析,構(gòu)建出理論模型[21]。筆者以“一帶一路”沿線國家多語種共享型經(jīng)濟管理數(shù)據(jù)庫建設(shè)為核心范疇,分析其與各主范疇間的邏輯關(guān)系,對比文獻與訪談資料,發(fā)掘數(shù)據(jù)庫建設(shè)的障礙因素理論框架。圍繞核心范疇的主線為:信息資源是數(shù)據(jù)庫提供服務(wù)的立足點,因此多語種經(jīng)濟管理資源建設(shè)與共享是此數(shù)據(jù)庫建設(shè)的核心[22];資金、人才與基礎(chǔ)設(shè)施是數(shù)據(jù)庫建設(shè)不可或缺的基本條件[23];共建共享可以整合各方優(yōu)勢,是數(shù)據(jù)庫建設(shè)的動力[24];數(shù)據(jù)庫的價值在于所包含的資源和內(nèi)容,定期維護更新是保持生命力的動力[25];標準化保證數(shù)據(jù)庫運行的可靠性、系統(tǒng)性、連續(xù)性、完整性、兼容性,是數(shù)據(jù)庫資源建設(shè)與共享的基礎(chǔ)[26];語種數(shù)量多與跨語言檢索增加了數(shù)據(jù)庫建設(shè)的難度[27];資源在建設(shè)與共享過程中會遇版權(quán)保護等問題,使數(shù)據(jù)庫建設(shè)面臨法律沖突[28]。因此,數(shù)據(jù)庫建設(shè)過程中,資源層障礙是核心障礙,物質(zhì)層障礙是基礎(chǔ)條件障礙,機制層障礙是動力障礙,標準層障礙是基礎(chǔ)規(guī)范障礙,語言層障礙是實現(xiàn)難點,法律層障礙是法律風險。最后,隨機選取包括訪談文本與文獻資料在內(nèi)的三分之一樣本,進行上述流程的扎根分析,沒有發(fā)現(xiàn)新的范疇,因此認為理論框架飽和。數(shù)據(jù)庫的建設(shè)障礙理論框架見圖1。
圖1 數(shù)據(jù)庫建設(shè)障礙理論框架
資源層障礙涉及資源范疇界定、資源獲取、資源采集、資源質(zhì)量、資源組織與利用。“一帶一路”沿線國家經(jīng)濟管理信息地域分布廣,涵蓋多個行業(yè)和領(lǐng)域,界定資源范疇時,確定具有代表性與可獲得性的資源面臨障礙。此數(shù)據(jù)資源建設(shè)需要確保內(nèi)容的權(quán)威性、完整性、準確性。當前這些資源呈現(xiàn)多源異構(gòu)、不連續(xù)、不系統(tǒng)、碎片化等特點,通過權(quán)威、影響力較大的渠道獲取全面可靠的資源難度較大[29]。在資源采集過程中,需從不同來源獲取國內(nèi)外經(jīng)濟管理類數(shù)據(jù)資源。然而,沿線國家對數(shù)據(jù)的管理體制和方式不統(tǒng)一,如關(guān)于個人、企業(yè)、政府等具體的經(jīng)濟管理信息,部分國家允許開放獲取,部分國家則不開放共享,這使資源采集時面臨很高的復雜度。同時,采集的資源需要經(jīng)過大量人工清洗和審核,確保數(shù)據(jù)庫中資源質(zhì)量成為又一障礙[4]。而在資源組織與利用的過程中,對多語言經(jīng)濟管理資源內(nèi)容進行深度揭示以及對關(guān)聯(lián)關(guān)系的深度挖掘與組織存在障礙[30]。
物質(zhì)層面的障礙涉及建設(shè)資金、建設(shè)人才與基礎(chǔ)設(shè)施。此數(shù)據(jù)庫的建設(shè)是一個復雜系統(tǒng)的工程,需要耗費大量資金。目前建庫資金主要依靠課題經(jīng)費,來源單一,存在缺口,不足以覆蓋多語種經(jīng)濟管理數(shù)據(jù)庫資源建設(shè)、平臺搭建以及后期維護等費用。此數(shù)據(jù)庫的建設(shè)對建庫人才要求高,需要組建熟悉“一帶一路”核心理念、沿線國家國情和語言、具備經(jīng)濟管理與圖書情報知識背景、掌握信息技術(shù)的復合型專業(yè)人才團隊。比如,精通小語種與經(jīng)濟管理領(lǐng)域?qū)<沂窃u估資源質(zhì)量的關(guān)鍵[13],然而“小語種+專業(yè)”復合型人才少,無法滿足需求[31]。共享型數(shù)據(jù)庫的建設(shè)需要軟硬件等基礎(chǔ)設(shè)施的支撐,如提供共享域的平臺。受制于經(jīng)濟、政策、信息化水平等因素,我國與沿線國家數(shù)字絲路暢通度總體較低且國別差異大,阻礙共建共享平臺建設(shè)[32]。
機制層障礙涉及合作共建機制和更新維護機制?!耙粠б宦贰背珜Ч步ü蚕恚步ㄊ枪蚕淼那疤?,共享是共建的目標[33]。因此,與沿線各國各類機構(gòu)合作共建,既可推動數(shù)據(jù)庫建設(shè),也有利于促進沿線國家軟性基礎(chǔ)設(shè)施建設(shè)與信息互聯(lián)互通。國際合作方面,對“一帶一路”戰(zhàn)略的疑慮、不愿共享資源等因素導致沿線國家缺乏共建共享動力[34]。多主體合作方面,確立合適的合作共建模式、設(shè)立合理的利益平衡機制,從而調(diào)動不同主體參與合作的積極性是一大障礙。數(shù)據(jù)庫的長期運行離不開后期更新維護[29]?!耙粠б宦贰苯?jīng)濟管理資源更新速度快,用戶在使用過程中需求亦可能轉(zhuǎn)變。為提升數(shù)據(jù)庫的長期服務(wù)價值,需要動態(tài)增加新的資源,根據(jù)用戶需求的轉(zhuǎn)變重新整合資源。然而伴隨課題組解散,后期投入不足等將阻礙其長期服務(wù)。
標準層障礙涉及多語種經(jīng)濟管理資源建設(shè)標準。此數(shù)據(jù)庫的建設(shè)涉及多語種多源異構(gòu)經(jīng)濟管理資源的整合,也包含新聞信息、視頻、音頻、圖像、研究論文等不同格式資源的整合。這要求數(shù)據(jù)庫的元數(shù)據(jù)標準要具備以下特點:一是兼容性,要能兼容通用格式(CSV、JSON、XML、XSLX、PDF 等)、專有格式(如SDMX)以及半結(jié)構(gòu)化的數(shù)據(jù)格式(如網(wǎng)頁);二是互操作性,以形成統(tǒng)一的元數(shù)據(jù)描述,促進不同來源的經(jīng)濟管理資源的整合與發(fā)現(xiàn);三是可擴展性,以便于后期數(shù)據(jù)更新。然而,“一帶一路”沿線國家采用的元數(shù)據(jù)標準規(guī)范不盡相同,不同來源的、可公開獲取的經(jīng)濟管理數(shù)據(jù)元數(shù)據(jù)標準也不完全相同,阻礙統(tǒng)一的資源建設(shè)標準確立。
語言層障礙涉及語種數(shù)量和跨語言檢索的實現(xiàn)?!耙粠б宦贰背h提出以來,中國已與138個國家、30個國際組織簽署共建“一帶一路”合作文件[34]。這些國家與地區(qū)涉及語種數(shù)量多,且大部分為非通用語言,增加了多語種資源建設(shè)的復雜度。此外,此類經(jīng)濟管理資源具有多語種特性,給數(shù)據(jù)庫的檢索服務(wù)提出了挑戰(zhàn)。為滿足用戶的多語種信息需求以及實現(xiàn)數(shù)據(jù)共享,跨語言檢索功能必不可少??缯Z言信息檢索是指以一種語言查詢檢索出另一種語言文檔信息的檢索方法[35]。目前尚未有實現(xiàn)跨語言檢索的多語言信息共享平臺,且此數(shù)據(jù)庫建設(shè)涉及的語言數(shù)量規(guī)模大,實現(xiàn)跨語言檢索難度大。
法律層障礙包括資源建設(shè)中的法律風險和資源共享中的法律風險。資源建設(shè)過程中,由于版權(quán)的地域性以及雙邊協(xié)定、國際公約等限制,存在知識產(chǎn)權(quán)沖突。比如,在數(shù)據(jù)庫版權(quán)保護方面,我國采用“選擇或編排”標準,其他國家可能存在差異,跨國采集數(shù)據(jù)時存在法律適用風險[36];收集的數(shù)據(jù)涉及大量個人信息,亦可能出現(xiàn)數(shù)據(jù)泄密與隱私侵犯等法律問題。資源共享時,存在信息復制和信息資源網(wǎng)絡(luò)傳播的法律問題。“一帶一路”沿線國家的經(jīng)濟管理信息資源在網(wǎng)絡(luò)中傳播時,在資源的下載、門戶信息的發(fā)布、情報分析和決策支持過程中存在版權(quán)風險。著作權(quán)人、數(shù)據(jù)傳播者與用戶之間的利益沖突使知識產(chǎn)權(quán)保護的主體、客體以及權(quán)利使用方式變得復雜[37]。
加強資源建設(shè)的組織規(guī)劃,分階段構(gòu)建資源體系。建設(shè)前期,應(yīng)通過廣泛調(diào)研,一方面明晰不同類型用戶的需求,聚焦此數(shù)據(jù)庫的應(yīng)用場景;另一方面確定此數(shù)據(jù)庫經(jīng)濟管理資源涵蓋范疇。在資源采集方面,應(yīng)確立采集規(guī)范,成立質(zhì)量把控小組,確定權(quán)威數(shù)據(jù)源,保證數(shù)據(jù)質(zhì)量。此外,加強已有平臺之間的資源關(guān)聯(lián)和整合。最后分步推進資源入庫、組織與利用:一是優(yōu)先采集中文資源,奠定資源基礎(chǔ);二是采集英文資源(依據(jù)獲取難易程度)入庫;三是推進區(qū)域性重點國家資源入庫;四是逐步推進其他語種資源采集[4]。同時,運用人工智能、大數(shù)據(jù)挖掘等技術(shù)提高海量經(jīng)濟管理資源的組織效率。
建庫過程中,引入外部力量,進行資金、人才、基礎(chǔ)設(shè)施等多方面合作,共同啟動數(shù)據(jù)庫建設(shè)。例如,積極獲得政府單位、科研機構(gòu)、信息機構(gòu)、企業(yè)等支持,豐富資金來源;在建庫人才隊伍中引入小語種、經(jīng)濟管理、信息技術(shù)等領(lǐng)域人才;搭建統(tǒng)一的多語種資源平臺。此外,運用市場化的方式與相關(guān)信息技術(shù)企業(yè)合作,完成此數(shù)據(jù)庫的原型搭建與平臺功能的實現(xiàn)。比如,通過與地方政府、信息機構(gòu)、社會組織合作,融合各方的資金、人才、技術(shù)等要素,廈門大學圖書館“海上絲綢之路”研究文獻數(shù)據(jù)庫成功建立,取得了較好的服務(wù)成效。
(1)將此數(shù)據(jù)庫打造成開放合作、共建共享的平臺。其一,制定科學的合作共建與共享方案,促進不同主體合作。本課題組與科研機構(gòu)提供用戶需求分析報告、專業(yè)元數(shù)據(jù)、數(shù)據(jù)專業(yè)分類等,主導數(shù)據(jù)庫建設(shè);政府通過制定應(yīng)用規(guī)范、購買服務(wù)等,實現(xiàn)數(shù)據(jù)庫建設(shè)的多贏;企業(yè)利用市場機制、整合應(yīng)用技術(shù),促進數(shù)據(jù)庫建設(shè)[38]。同時,設(shè)立合理的利益分配方案,如參與合作的主體享有優(yōu)先或優(yōu)惠享用的權(quán)利。其二,倡導“一帶一路”沿線國家間的共建共享。加強國際間合作機制研究,增強數(shù)據(jù)庫共建共享動力,推動建立國際資源交換機制,促進多語種資源共享。
(2)將此數(shù)據(jù)庫打造成長期運行的平臺,保持數(shù)據(jù)庫生命力。制定合理的更新周期與投入機制,動態(tài)增加新的數(shù)據(jù),促進資源長期建設(shè)。此外,構(gòu)建動態(tài)交互平臺,加強與用戶交流,掌握其需求變化,針對不同服務(wù)對象,開發(fā)信息產(chǎn)品,提升服務(wù)價值。
在求同存異基礎(chǔ)上確定資源建設(shè)標準。首先,充分借鑒國內(nèi)外先進的標準和規(guī)范。采用“一帶一路”沿線國家通用的數(shù)據(jù)著錄標準、數(shù)據(jù)格式標準、文獻分類標引標準及數(shù)據(jù)交換協(xié)議等作為數(shù)據(jù)庫標準化建設(shè)的基礎(chǔ)[39]。其次,確立統(tǒng)一的元數(shù)據(jù)標準。對資源進行深入挖掘,根據(jù)不同類型經(jīng)濟管理資源特點、使用目標等,確立一套適合此數(shù)據(jù)庫且具有兼容性、互操作的、可擴展的元數(shù)據(jù)標準,形成互通共享的數(shù)據(jù)格式,實現(xiàn)信息描述、組織與檢索的標準化。
多語種資源獲取方面,一是通過跨國跨語言的機構(gòu)協(xié)作,協(xié)調(diào)不同國家和地區(qū)的數(shù)據(jù)合作,以簽署備忘錄等方式來協(xié)助多語種經(jīng)濟管理資源采集;二是利用技術(shù)手段,如智能翻譯技術(shù),降低多語種資源獲取的語言壁壘。多語種資源共享方面,攻克小語種資源服務(wù)與跨語言檢索技術(shù)等障礙,提高多語種資源的共享與利用率。同時,吸納不同語言和文化背景的經(jīng)濟管理領(lǐng)域志愿者的參與,完成多語種資源翻譯入庫、后期維護等工作。在跨語言檢索實現(xiàn)方面,借鑒成功的跨語言檢索平臺(如WorldWide Science)的多語種翻譯方法,實現(xiàn)簡單一站式檢索、高級檢索等多種檢索功能,提供多語種界面。
在資源建設(shè)與共享中,主動識別并積極規(guī)避法律風險。通過整體規(guī)劃和論證、數(shù)據(jù)來源甄別、傳播權(quán)益界定、技術(shù)保護方案、關(guān)鍵資料備案、征求法制專家意見等措施處理好數(shù)據(jù)庫建設(shè)中的知識產(chǎn)權(quán)等法律問題[24]。一方面,重視和保護著作人正當權(quán)益,處理好“下載”和“復制”等可能帶來的侵權(quán)問題,注意視頻、文本、圖片、音頻及數(shù)字化紙質(zhì)文獻等不同格式信息的版權(quán)問題;另一方面,尊重和保護個人隱私權(quán),遵循數(shù)據(jù)保護的合法性、目的限制、比例、準確性、附期限與安全等原則[40]。
筆者運用扎根理論,依據(jù)文獻調(diào)研法與專家訪談法,獲得“一帶一路”沿線國家多語種共享型經(jīng)濟管理數(shù)據(jù)庫建設(shè)過程中面臨的資源、物質(zhì)、機制、標準、語言與法律6個層面的障礙因素?;趯ι鲜稣系K的分析建議,在數(shù)據(jù)庫建設(shè)過程中,本研究的局限在于建設(shè)障礙主要根據(jù)文獻資料與訪談內(nèi)容得出。為此,后續(xù)研究可以通過實際調(diào)研或根據(jù)項目推進過程中遇到的障礙展開研究,并提出相應(yīng)策略。