■陳巖
大數(shù)據(jù)和泛在知識環(huán)境下,數(shù)據(jù)主義提供了突破性的技術(shù)和強(qiáng)大的全新動力,檔案館數(shù)字化服務(wù)的外延也在不斷擴(kuò)展,形成并進(jìn)入了數(shù)據(jù)檔案時(shí)代。移動數(shù)據(jù)端的廣泛應(yīng)用與層層升級使得其不僅可以隨時(shí)隨地獲取龐大、海量的源數(shù)據(jù),而且可以對第一手?jǐn)?shù)據(jù)進(jìn)行簡易地“加工”處理,擁有綜合性的信息處理操作平臺功能[1]。若將大數(shù)據(jù)產(chǎn)業(yè)化,那么其建設(shè)的關(guān)鍵因素一是依靠計(jì)算機(jī)系統(tǒng)、云計(jì)算、海量數(shù)據(jù)分析等的先進(jìn)技術(shù)與平臺對一手?jǐn)?shù)據(jù)進(jìn)行收集、篩選、計(jì)算、分類等初步處理,另一方面通過跟蹤個(gè)體用戶的連續(xù)性信息行為對數(shù)據(jù)進(jìn)行記錄、存檔、發(fā)布、可視化、關(guān)聯(lián)化等進(jìn)一步的“增值”處理,形成該目標(biāo)用戶的具有預(yù)測性的數(shù)據(jù)檔案集合,將不同目標(biāo)群體的數(shù)據(jù)檔案相互關(guān)聯(lián)與整合,總結(jié)歸納其中的發(fā)展規(guī)律從而形成相應(yīng)領(lǐng)域的知識認(rèn)識,即可實(shí)現(xiàn)對某一事物、現(xiàn)象的科學(xué)預(yù)測,獲得預(yù)期的價(jià)值收益。大數(shù)據(jù)和泛在知識的不斷更新,為檔案事業(yè)的發(fā)展帶來了新的歷史機(jī)遇,數(shù)據(jù)檔案越來越多地應(yīng)用到各個(gè)學(xué)科領(lǐng)域及現(xiàn)實(shí)實(shí)踐當(dāng)中,但目前我國的數(shù)據(jù)檔案發(fā)展還處于初步探索階段。因此,本文就我國數(shù)據(jù)檔案的發(fā)展現(xiàn)狀進(jìn)行研究,以期為我國數(shù)據(jù)檔案建設(shè)工作的進(jìn)一步開展有所助力。
本文的數(shù)據(jù)來源分別為歐洲社會科學(xué)數(shù)據(jù)檔案委員會(Consortium of European Social Science Data Archives,CESSDA)、國際社會科學(xué)數(shù)據(jù)組織聯(lián)合會(International Federation of Data Organizationsfor the SocialScience,IFDO)、“中國知網(wǎng)”數(shù)據(jù)庫、“中國國家圖書館”數(shù)據(jù)庫、中國國家統(tǒng)計(jì)局、中國大數(shù)據(jù)、中國國家檔案館和地方各級檔案機(jī)構(gòu)的官方網(wǎng)站。通過對其中相關(guān)信息的查找、篩選,取得與數(shù)據(jù)檔案相關(guān)的政策文件和研究統(tǒng)計(jì)報(bào)告等內(nèi)容信息。在查找過程中,分別以“數(shù)據(jù)檔案”、“大數(shù)據(jù)檔案”、“檔案數(shù)字化”、“社會記憶”等作為關(guān)鍵詞在“中國知網(wǎng)”和“中國國家圖書館”數(shù)據(jù)庫中進(jìn)行全面檢索;并以各權(quán)威機(jī)構(gòu)的官方網(wǎng)站所發(fā)布的文件報(bào)告等作為完善和補(bǔ)充,以此提高對數(shù)據(jù)檔案相關(guān)信息收集的覆蓋率和準(zhǔn)確率。經(jīng)過前期的收集與整理,獲得了120余篇中外文獻(xiàn)。
本文主要運(yùn)用了citespace、鉆石模型、SWOT等分析工具,采用信息統(tǒng)計(jì)歸納和可視化的研究方法,分別從外部宏觀發(fā)展環(huán)境、內(nèi)部發(fā)展結(jié)構(gòu)及數(shù)據(jù)檔案內(nèi)容等方面對當(dāng)前我國的數(shù)據(jù)檔案發(fā)展情況進(jìn)行了梳理與分析。在數(shù)據(jù)檔案的內(nèi)容分析方面,主要利用citespace、Ucinet等工具對數(shù)據(jù)檔案的相關(guān)文獻(xiàn)進(jìn)行了詞頻統(tǒng)計(jì)和共詞分析的可視化分析處理,并運(yùn)用鉆石模型和SWOT等工具。Citespace是一款應(yīng)用于科學(xué)文獻(xiàn)中識別并顯示科學(xué)發(fā)展中的新趨勢和新動態(tài),挖掘其中蘊(yùn)含的潛在知識,是在科學(xué)計(jì)量學(xué)、數(shù)據(jù)可視化背景下逐漸發(fā)展起來的一款引文可視化分析軟件。由于是通過可視化的手段來呈現(xiàn)科學(xué)知識的結(jié)構(gòu)、規(guī)律和分布情況,因此也將通過此類方法分析得到的可視化圖形稱為“科學(xué)知識圖譜”[1]。鉆石模型,又稱波特鉆石模型(Michael Porter diamond Model),由美國哈佛商學(xué)院著名的戰(zhàn)略管理學(xué)家邁克爾·波特于1990年提出,是一種用于對如何形成整體優(yōu)勢,從而在相關(guān)領(lǐng)域具有較強(qiáng)競爭力的宏觀分析工具[2]。SWOT分析,即態(tài)勢分析,通過統(tǒng)計(jì)調(diào)查的形式,對主要的內(nèi)部優(yōu)勢與劣勢、外部的機(jī)會和威脅等因素進(jìn)行全面、系統(tǒng)的分析研究,將各種因素根據(jù)形成的矩陣相互匹配并加以分析,從而得出有決策性、指導(dǎo)性的結(jié)論[2]。
數(shù)據(jù)檔案是在大數(shù)據(jù)和泛在知識的背景下萌芽產(chǎn)生并得到進(jìn)一步發(fā)展的,因此在了解數(shù)據(jù)檔案的概念之前,有必要對其聯(lián)系緊密的兩個(gè)背景概念進(jìn)行概括闡述,以便更有利于對數(shù)據(jù)檔案的理解。
大數(shù)據(jù)(big data),指無法在一定時(shí)間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,其本質(zhì)是一種海量、多樣的高增長型信息資產(chǎn)[3],擁有大量、高速、多樣、低價(jià)值密度、真實(shí)性五大特征,但其本身并不擁有較高的價(jià)值,甚至是龐雜和無序的,需要通過新型的處理模式對其進(jìn)行價(jià)值層面的深度挖掘。泛在知識環(huán)境(Ubiquitous Knowledge Environment),指由網(wǎng)絡(luò)設(shè)施、硬件、軟件、信息資源、人等有機(jī)組成的新一代科技知識基礎(chǔ)結(jié)構(gòu),它通過全面的數(shù)字化信息基礎(chǔ)設(shè)施、云計(jì)算、云存儲和通信互聯(lián),使人、數(shù)據(jù)、信息、工具、設(shè)備等資源能夠更為完全徹底地發(fā)揮作用而構(gòu)建的一種普遍的、綜合性的知識環(huán)境[3]。
由此,我們可以得到數(shù)據(jù)檔案的概念,數(shù)據(jù)檔案是指通過運(yùn)用感應(yīng)技術(shù)、存儲技術(shù)、云計(jì)算等非常規(guī)方法獲得的,以數(shù)據(jù)形式存在的具有保存和利用價(jià)值的數(shù)據(jù)資源[1]。由于我國的數(shù)據(jù)檔案事業(yè)尚處起步階段,目前尚未有關(guān)于數(shù)據(jù)檔案分類的定義,通過對國外有關(guān)數(shù)據(jù)檔案文獻(xiàn)的整理,筆者認(rèn)為數(shù)據(jù)檔案的實(shí)質(zhì)為一種“檔案”。而檔案的概念是指國家機(jī)構(gòu)、社會組織和個(gè)人在各項(xiàng)社會活動中直接形成的具有保存價(jià)值的圖表、聲像、數(shù)碼等各種形式的原始記錄。因此,根據(jù)檔案的來源標(biāo)準(zhǔn)可以將數(shù)據(jù)檔案劃分為公共性數(shù)據(jù)檔案、商業(yè)性數(shù)據(jù)檔案和私有性數(shù)據(jù)檔案三大類[1]。公共性數(shù)據(jù)檔案是指各種不以營利為目標(biāo)的、未設(shè)置訪問限制成本的、可進(jìn)行開放獲取的各類具有國家性、公益性的數(shù)據(jù)檔案資源。商業(yè)性數(shù)據(jù)檔案是指以盈利為目標(biāo)的、需要支付訪問權(quán)限成本的、在一定范圍內(nèi)可獲取的各類商業(yè)性的數(shù)據(jù)檔案資源。私有性數(shù)據(jù)檔案是指由個(gè)人或組織機(jī)構(gòu)進(jìn)行保管的、只在其內(nèi)部進(jìn)行流通的數(shù)據(jù)檔案資源。
3.2.1 我國數(shù)據(jù)檔案建設(shè)的外部宏觀發(fā)展環(huán)境分析
為對我國目前的數(shù)據(jù)檔案發(fā)展現(xiàn)狀在宏觀層面進(jìn)行科學(xué)、全面的認(rèn)識,本文通過鉆石模型分別從數(shù)據(jù)檔案的數(shù)據(jù)來源、需求條件、相關(guān)與支持性產(chǎn)業(yè)和發(fā)展戰(zhàn)略、結(jié)構(gòu)方面對現(xiàn)有的有關(guān)數(shù)據(jù)檔案的理論與實(shí)踐表征等進(jìn)行分析研究。
(1)數(shù)據(jù)來源。我國數(shù)據(jù)檔案的來源和采集途徑主要包括:一是國家和地方各級檔案館(室)藏的各類檔案的數(shù)字化信息:將館藏的各種載體形式的傳統(tǒng)檔案進(jìn)行數(shù)字化的加工處理,運(yùn)用多種媒體、網(wǎng)絡(luò)傳輸、壓縮備份等技術(shù)[4],對檔案進(jìn)行電子化的重新整合,形成館藏范圍內(nèi)的檔案數(shù)據(jù)庫。二是具有檔案管理功能的組織機(jī)構(gòu)專項(xiàng)信息數(shù)據(jù)庫信息:通過對網(wǎng)絡(luò)收集或組織內(nèi)部存儲的檔案及有保存價(jià)值的信息記錄,如稅務(wù)登記數(shù)據(jù)庫、人口統(tǒng)計(jì)數(shù)據(jù)庫等收集到的具有分析保存價(jià)值的信息。三是網(wǎng)絡(luò)環(huán)境下的具有保存價(jià)值的各類在線交互式電子信息:此類信息主要來源于商業(yè)性企業(yè)數(shù)據(jù)平臺,特別是互聯(lián)網(wǎng)和電信企業(yè)對數(shù)據(jù)的開發(fā)利用活動,其通過實(shí)時(shí)跟蹤、云計(jì)算等方法對各種移動終端收集到的海量基礎(chǔ)數(shù)據(jù)進(jìn)行整理、組織和加工,并成為多樣、龐大的本地現(xiàn)實(shí)信息資源。
(2)需求條件。鉆石模型中,需求條件主要是指國內(nèi)市場的需求。內(nèi)需市場是產(chǎn)業(yè)發(fā)展的動力,主要包括需求的結(jié)構(gòu)、需求的規(guī)模和需求的成長[2]。而其中市場的需求結(jié)構(gòu)是最為重要的因素,通過對目標(biāo)用戶的市場細(xì)分,可以使某一行業(yè)或企業(yè)優(yōu)勢投入到主要的市場需求當(dāng)中,提升企業(yè)的核心競爭力與創(chuàng)新能力。對于數(shù)據(jù)檔案建設(shè)的市場化大數(shù)據(jù)開發(fā)利用,其主要目的是獲得預(yù)期的經(jīng)濟(jì)收益,其需求用戶以企業(yè)為主,但根據(jù)對國內(nèi)、外的各學(xué)科領(lǐng)域的組織機(jī)構(gòu)數(shù)據(jù)檔案建檔研究,可以明顯的發(fā)現(xiàn)政府、公益性組織和個(gè)人的數(shù)據(jù)檔案需求明顯上升,市場細(xì)分逐漸增多,個(gè)性化的用戶研究成為發(fā)展趨勢,如對某一城市的歷史發(fā)展變遷建檔、某一地區(qū)氣溫變化的數(shù)據(jù)建檔、個(gè)人購買行為的數(shù)據(jù)建檔等,在對形成的數(shù)據(jù)記憶進(jìn)行統(tǒng)計(jì)分析后,總結(jié)歸納發(fā)展規(guī)律以形成知識,有助于為現(xiàn)實(shí)提供可靠的數(shù)據(jù)佐證并指導(dǎo)未來的發(fā)展規(guī)劃。
(3)相關(guān)與支持性產(chǎn)業(yè)。相關(guān)與支持性產(chǎn)業(yè)。鉆石模型中,一個(gè)企業(yè)的“單打獨(dú)斗”,很難擁有持續(xù)性的發(fā)展?fàn)顟B(tài)和強(qiáng)競爭力。只有形成有效的“產(chǎn)業(yè)集群”,上游產(chǎn)業(yè)能夠提供穩(wěn)定的資源和技術(shù)支持,下游產(chǎn)業(yè)能夠提高自身的競爭力水平,使上、下游的產(chǎn)業(yè)發(fā)展形成一個(gè)良好的產(chǎn)業(yè)價(jià)值鏈,才有助于產(chǎn)業(yè)的可持續(xù)性發(fā)展、競爭優(yōu)勢的長久保持和形成“提升效應(yīng)”[2]。在正處于生命周期的初級階段或是技術(shù)聯(lián)系緊密的產(chǎn)業(yè)之間,這種“提升效應(yīng)”會更加明顯。在科技人文主義和數(shù)據(jù)主義的迅速普及下,任何現(xiàn)象或?qū)嶓w的價(jià)值就在于對數(shù)據(jù)處理的貢獻(xiàn),要連接越來越多的媒介,產(chǎn)生龐大的信息,萬物互聯(lián)使數(shù)據(jù)檔案的建設(shè)演變?yōu)橐允袌鲇脩魹閷?dǎo)向的一種信息化產(chǎn)業(yè),其上游產(chǎn)業(yè)應(yīng)是數(shù)據(jù)資源的各類收集處理平臺,如百度、谷歌、騰訊、阿里巴巴、亞馬遜等互聯(lián)網(wǎng)企業(yè)、電信企業(yè),甚至金融企業(yè)的一部分可開放獲取信息。通過設(shè)立標(biāo)準(zhǔn)化、規(guī)范化的行業(yè)規(guī)則,支付相應(yīng)的信息獲取成本,建立信息的定向、排他性輸出渠道,為數(shù)據(jù)檔案中心提供相應(yīng)的個(gè)性化信息資源。而下游產(chǎn)業(yè)則是各種面對市場用戶的數(shù)據(jù)服務(wù)提供終端,如手機(jī)APP、智能家電產(chǎn)品、各大檔案服務(wù)機(jī)構(gòu)的門戶網(wǎng)站等,提供多樣化、及時(shí)化的信息服務(wù)。由此可見,抓住初始階段的“提升效應(yīng)”機(jī)會,形成數(shù)據(jù)檔案建設(shè)的產(chǎn)業(yè)集群是發(fā)展的關(guān)鍵。
(4)發(fā)展戰(zhàn)略、結(jié)構(gòu)。波特認(rèn)為,一個(gè)行業(yè)或企業(yè)想要謀求可持續(xù)性的發(fā)展就必須善于利用本國的歷史與文化資源,根據(jù)發(fā)展的外部環(huán)境需要對內(nèi)部結(jié)構(gòu)進(jìn)行整合、調(diào)整、升級,以做到因地制宜、因時(shí)制宜。新時(shí)代背景下,國家大力支持?jǐn)?shù)據(jù)檔案的建設(shè)工作。2015年8月31日,國務(wù)院印發(fā)了《促進(jìn)大數(shù)據(jù)發(fā)展行動綱要》,新的《檔案法》修訂草案中也增設(shè)了“檔案信息化與電子檔案管理”的相關(guān)內(nèi)容。明確了檔案和數(shù)據(jù)資源建設(shè)的原則和目標(biāo),堅(jiān)持大檔案、大數(shù)據(jù)、大平臺、大服務(wù)的建設(shè)思路,堅(jiān)持社會化、法治化、標(biāo)準(zhǔn)化、網(wǎng)絡(luò)化的發(fā)展方向,堅(jiān)持真實(shí)、完整、安全、效能的原則,以需求為導(dǎo)向,通過機(jī)制創(chuàng)新和技術(shù)創(chuàng)新,積極開展資源集聚、管理集約、應(yīng)用集成等工作,建設(shè)與新形式新任務(wù)相適應(yīng)的檔案和數(shù)據(jù)資源體系,充分發(fā)揮檔案和數(shù)據(jù)資源的信息、證據(jù)和服務(wù)作用。到2025年,建立起全覆蓋、內(nèi)容豐富、形式多樣、標(biāo)準(zhǔn)統(tǒng)一的檔案和數(shù)據(jù)資源體系,進(jìn)一步提高檔案信息化和檔案信息資源的深度開發(fā)利用水平[5]。眾多舉措表明,數(shù)據(jù)檔案建設(shè)的東風(fēng)已經(jīng)吹起,奮起直上才是當(dāng)務(wù)之急。
圖1 我國數(shù)據(jù)檔案外部宏觀發(fā)展環(huán)境鉆石模型圖
3.2.2 我國數(shù)據(jù)檔案建設(shè)的內(nèi)部結(jié)構(gòu)分析
本文通過運(yùn)用SWOT分析,對我國數(shù)據(jù)檔案建設(shè)中所擁有的資源,將其內(nèi)部的優(yōu)、劣勢,結(jié)合外部環(huán)境的機(jī)會、威脅,進(jìn)行綜合性的分析與評估,進(jìn)而做出最優(yōu)的戰(zhàn)略決策。
(1)要素分析。SWOT分析中擁有四個(gè)要素,分別是內(nèi)部因素的優(yōu)勢(S)和劣勢(W),外部環(huán)境的機(jī)會(O)與威脅(T)。優(yōu)勢是一種能為企業(yè)帶來更大發(fā)展機(jī)會和更強(qiáng)競爭力的積極因素。劣勢是一種會導(dǎo)致企業(yè)發(fā)展受限、需要進(jìn)一步修正的不利因素[2]。以上兩個(gè)內(nèi)部因素主要表現(xiàn)為資金、技術(shù)設(shè)備、員工素質(zhì)、產(chǎn)品質(zhì)量、市場、管理技能等。機(jī)會是外部環(huán)境中對企業(yè)發(fā)展有助推作用的機(jī)遇。威脅則是外部環(huán)境中對企業(yè)發(fā)展有掣肘、阻礙作用的境遇[2]。兩個(gè)外因素主要體現(xiàn)在政府支持、高新技術(shù)的應(yīng)用、良好的市場需求和供應(yīng)關(guān)系等方面。
(2)劣勢——機(jī)會(WO)。對于數(shù)據(jù)檔案產(chǎn)業(yè)而言,其正屬于劣勢——機(jī)會(WO)的“問題”業(yè)務(wù)。此類業(yè)務(wù)通常處于最差的收益流量狀態(tài),一方面,所在行業(yè)的市場增長率高,市場需求巨大,需要大量的投資支持其開發(fā)、建設(shè)活動;另一方面;其相對市場占有率低,產(chǎn)品競爭力地位低,能夠生產(chǎn)的資金很小。因此,需要采用扭轉(zhuǎn)型戰(zhàn)略,利用外部機(jī)會來彌補(bǔ)內(nèi)部劣勢,改劣勢為優(yōu)勢,對進(jìn)一步投資進(jìn)行分析,判斷使其轉(zhuǎn)移到“明星”業(yè)務(wù)所需的投資量,分析其未來盈利,以達(dá)到較高的相對市場占有率,促進(jìn)產(chǎn)業(yè)的快速發(fā)展。
外部的主要有利因素:①國家政府的大力支持?!洞龠M(jìn)大數(shù)據(jù)發(fā)展行動綱要》和《檔案法修訂草案》的頒布,指引了數(shù)據(jù)檔案建設(shè)的方向、明確了發(fā)展目標(biāo),為其建設(shè)提供了政策支持。②科學(xué)技術(shù)發(fā)展迅猛?!盎ヂ?lián)網(wǎng)+”、物聯(lián)網(wǎng)、多媒體移動終端、云計(jì)算、云儲存等高新技術(shù)的應(yīng)用,為數(shù)據(jù)檔案的建設(shè)提供了技術(shù)支持。③市場需求巨大。大數(shù)據(jù)和泛在知識提升了人們對于檔案價(jià)值的認(rèn)識,數(shù)字城市、社會記憶、醫(yī)療檔案、環(huán)境檔案和國家智庫等建設(shè),使數(shù)據(jù)檔案的建設(shè)與開發(fā)利用擁有廣闊的用戶空間,為其建設(shè)提供了市場支持。
內(nèi)部的主要不利因素:①缺乏理論指導(dǎo)與實(shí)踐經(jīng)驗(yàn),開發(fā)難度大。與國外同期相比,我國的數(shù)據(jù)檔案建設(shè)尚處于萌芽階段。目前各級檔案館(室)仍是數(shù)據(jù)檔案的首要建設(shè)主體,面對高速發(fā)展的網(wǎng)絡(luò)和數(shù)據(jù)處理技術(shù),檔案學(xué)界對于檔案的信息化整合與開發(fā)利用較為滯后。近30年有關(guān)數(shù)據(jù)檔案研究的文獻(xiàn)還不足100篇,而其中更多的是以醫(yī)療、環(huán)境、不動產(chǎn)建設(shè)等機(jī)構(gòu)為主體的研究。目前檔案界并未有關(guān)于數(shù)據(jù)檔案的確切定義與詳細(xì)闡述,還處于對泊來“概念”的探索階段,未形成完善、成套的理論體系,亦無法有效指導(dǎo)實(shí)踐工作,增加了數(shù)據(jù)檔案的開發(fā)難度。②缺乏資金投入,開發(fā)動力不足。數(shù)據(jù)檔案較傳統(tǒng)檔案而言,需要支付更好的開發(fā)、管理成本,包括購買專業(yè)的軟、硬件設(shè)備,對工作人員進(jìn)行專業(yè)培訓(xùn),對系統(tǒng)的升級維護(hù),支付數(shù)據(jù)庫及數(shù)據(jù)處理平臺的權(quán)限獲取費(fèi)用等。但由于目前我國數(shù)據(jù)檔案的開發(fā)主體依然以國有、公益性質(zhì)的組織機(jī)構(gòu)為主,其資金來源多屬于財(cái)政撥款,對于龐大的費(fèi)用支出著實(shí)杯水車薪。③人員素質(zhì)偏低,難以實(shí)踐操作。認(rèn)識方面,檔案工作者對檔案所面臨的歷史性發(fā)展機(jī)遇認(rèn)識不足,面對數(shù)字化建設(shè)的高速發(fā)展,難有創(chuàng)新。能力方面,由于數(shù)據(jù)檔案的建設(shè)是一項(xiàng)涉及多類學(xué)科、多種行業(yè)的綜合性開發(fā)工作,對工作人員的知識及操作要求較高,而對于目前的檔案工作者結(jié)構(gòu)來看,普遍存在知識及年齡老化的問題,難以完成“大檔案”的數(shù)字化整合。④數(shù)據(jù)資源受限,難以適應(yīng)需求。數(shù)據(jù)檔案建設(shè)的市場導(dǎo)向決定著檔案數(shù)據(jù)信息來源應(yīng)具備有用性、及時(shí)性、完整性和全面性等特征,以提供滿足市場用戶的個(gè)性化服務(wù),增加市場占有率,獲得預(yù)期收益,以謀求可持續(xù)性發(fā)展。但目前我國的數(shù)據(jù)檔案建設(shè)存在著一對矛盾:非營利性開發(fā)主體的資源匱乏與商業(yè)性開發(fā)主體的資源封閉之間的矛盾。一方面,作為我國數(shù)據(jù)檔案建設(shè)重要主體的非營利性組織機(jī)構(gòu),如各級檔案館(室),其館(室)藏資源主要以傳統(tǒng)檔案為主,數(shù)量有限,信息陳舊,數(shù)據(jù)檔案開發(fā)工作的數(shù)據(jù)來源也僅限于館藏范圍之內(nèi),館與館之間只構(gòu)建了單個(gè)館藏的數(shù)據(jù)庫,形成了信息孤島,難以獲取市場用戶的準(zhǔn)確需求及龐大的數(shù)據(jù)信息。因此,其進(jìn)行的數(shù)據(jù)檔案建設(shè)也多以公益性、政策性的產(chǎn)品為主,難有較高的資金回流,從而限制其的發(fā)展投資成本,不良的產(chǎn)業(yè)鏈循環(huán)導(dǎo)致數(shù)據(jù)檔案建設(shè)工作難以開展。另一方面,由于擁有足夠的資金與先進(jìn)的技術(shù),商業(yè)性企業(yè)既是數(shù)據(jù)檔案的生產(chǎn)者,又是數(shù)據(jù)檔案的使用者,“買和賣”的雙重身份使其對市場需求擁有天生的敏銳感,通過移動終端、處理平臺等基礎(chǔ)設(shè)施的構(gòu)建,企業(yè)能夠獲取海量的源數(shù)據(jù)并對其進(jìn)行“加工”和“增值”處理,所生產(chǎn)的數(shù)據(jù)檔案產(chǎn)品也更能符合市場需求,擁有較高的預(yù)期收益,促進(jìn)企業(yè)對“明星產(chǎn)業(yè)”的追加投資,從而有利于數(shù)據(jù)檔案建設(shè)的進(jìn)一步完善與發(fā)展。但由于互聯(lián)網(wǎng)產(chǎn)業(yè)的崛起時(shí)間較短和企業(yè)性質(zhì)方面的限制,許多年代久遠(yuǎn)或不能公開存儲的檔案信息依然處于檔案機(jī)構(gòu)的內(nèi)部保管之中,而城市記憶、氣候變化等數(shù)據(jù)檔案的建設(shè)所需數(shù)據(jù)資源在時(shí)間和廣度上應(yīng)盡可能長遠(yuǎn),這就需要各數(shù)據(jù)庫之間的互通有無,但無成本的獲取顯然是不符合現(xiàn)實(shí)的,兩類開發(fā)主體數(shù)據(jù)庫之間的數(shù)字鴻溝阻礙了兩者的共同發(fā)展。
3.2.3 數(shù)據(jù)檔案內(nèi)容的共詞分析
本文通過利用Citespace、Ucinet等工具對數(shù)據(jù)檔案的相關(guān)文獻(xiàn)進(jìn)行了共詞、詞頻的可視化分析,以此結(jié)果生成的聚類分析圖譜如圖所示。由圖2中可看出,我國數(shù)據(jù)檔案的發(fā)展研究的涉及面并不十分廣泛,主要體現(xiàn)在大數(shù)據(jù)和檔案信息數(shù)字化方面。由圖3中可看出,我國數(shù)據(jù)檔案的發(fā)展起步較晚,自2006左右才開始出現(xiàn)零星的研究分布,直到2014、2015年才開始有較為突出的增長。由此可見,我國的數(shù)據(jù)檔案建設(shè)正是隨著大數(shù)據(jù)時(shí)代背景的到來而逐漸萌芽發(fā)展的,至今仍處于發(fā)展的起步階段。較為突出的節(jié)點(diǎn)為:“大數(shù)據(jù)”、“檔案管理”、“數(shù)據(jù)檔案”、“信息化”、“數(shù)字檔案”、“醫(yī)院檔案管理”等。
隨著大數(shù)據(jù)和泛在知識時(shí)代的到來,以管理的視角看待數(shù)據(jù)檔案建設(shè),其內(nèi)容必然圍繞大數(shù)據(jù)的處理為中心進(jìn)行,貫穿于其產(chǎn)業(yè)鏈的各個(gè)環(huán)節(jié)及產(chǎn)品的各個(gè)生命周期階段。而由于其本身的“檔案”屬性,又使其在具體的開發(fā)建設(shè)中應(yīng)以檔案信息數(shù)字化作為管理工作的重點(diǎn)。而在目前我國數(shù)據(jù)檔案的開發(fā)利用方面,醫(yī)療機(jī)構(gòu)率先進(jìn)行了基于大數(shù)據(jù)的個(gè)體化用戶建檔研究與實(shí)踐。此類數(shù)據(jù)檔案是對檔案服務(wù)的實(shí)際效果測試和規(guī)律總結(jié),以記錄歸納的測試結(jié)果推論實(shí)際檔案用戶群體的一種驗(yàn)證服務(wù)。此類服務(wù)通過樣本路徑分析的方法,發(fā)現(xiàn)醫(yī)療活動中的線性關(guān)系,根據(jù)不同的路徑和結(jié)果,探討隨著時(shí)間進(jìn)行而出現(xiàn)的一連串可能的情境,以助利于醫(yī)療衛(wèi)生事業(yè)的發(fā)展,如對某種疾病的樣本分析,預(yù)測其在某一個(gè)體中的發(fā)展情況。更重要的是,通過規(guī)模的樣本分析,這種個(gè)體數(shù)據(jù)建檔模式,可以使人們發(fā)現(xiàn)并重視事物發(fā)展過程中的非線性情況,而這種看似偶然發(fā)生的現(xiàn)象,卻可能會引發(fā)巨大的影響,如我們所知的“黑天鵝”或“蝴蝶效應(yīng)”等。有關(guān)全球變暖效應(yīng)的辯論,便是一個(gè)很有名的例子,許多科學(xué)家在全球變暖效應(yīng)發(fā)生的早期階段,并沒有注意到這件事,因?yàn)樗麄儾⑽磳鉁刈兓暾剡M(jìn)行數(shù)據(jù)建檔歸納,在收集整理中他們把溫度突升從樣本中剔除,認(rèn)為這件事不可能再度發(fā)生,但科學(xué)家們忽視了溫度突升雖然少見,卻會對冰帽的融化產(chǎn)生巨大的累積性效果。由此可見,以“檔案”的本質(zhì)屬性為依托,保持其完整的原始記錄性,數(shù)據(jù)檔案的建設(shè)把過去的歷史視為單一的同質(zhì)型樣本,并且相信觀察過去的樣本后,我們對未來的知識即可大增。
圖2 我國數(shù)據(jù)檔案發(fā)展關(guān)鍵詞共詞知識圖譜
圖3 我國數(shù)據(jù)檔案發(fā)展的時(shí)間分布圖
檔案和數(shù)據(jù)資源建設(shè)實(shí)行的是以政府指導(dǎo)、檔案部門負(fù)責(zé)、各方面共同參與的工作體制[6],雖然我國頒布與數(shù)據(jù)檔案建設(shè)相關(guān)的政策性文件,設(shè)定了宏觀的發(fā)展目標(biāo),但仍缺乏全面、統(tǒng)一的綱領(lǐng)性指導(dǎo)標(biāo)準(zhǔn)。各部門、機(jī)構(gòu)之間配合松散,不能形成合力,難以推進(jìn)檔案和數(shù)據(jù)資源的進(jìn)一步建設(shè)。因此,應(yīng)根據(jù)建設(shè)中的實(shí)際情況,建立一個(gè)在全國范圍內(nèi)統(tǒng)一的、標(biāo)準(zhǔn)化的、規(guī)范化的,具有較強(qiáng)實(shí)踐指導(dǎo)作用的數(shù)據(jù)資源建設(shè)管理體系,各部門、機(jī)構(gòu)認(rèn)真履行監(jiān)督管理職能,努力探索數(shù)據(jù)檔案的發(fā)展方式和途徑。
以市場化為導(dǎo)向的數(shù)據(jù)檔案建設(shè),可以通過增加財(cái)政撥款或接受企業(yè)投資的方式,獲得足夠的資金支持。升級產(chǎn)業(yè)鏈結(jié)構(gòu)和優(yōu)化市場細(xì)分能夠提高預(yù)期收益。由于各類移動終端的迅速普及與不斷升級,海量的第一手?jǐn)?shù)據(jù)是通過線上獲取,對于不斷細(xì)化的市場用戶群體,可以為互聯(lián)網(wǎng)上的用戶建立“數(shù)據(jù)檔案”,分別從靜態(tài)屬性、動態(tài)屬性和環(huán)境屬性對個(gè)體用戶進(jìn)行畫像,諸如年齡性別、興趣愛好、使用的APP信息等, 以優(yōu)化不同用戶的服務(wù)體驗(yàn)。
隨著國家大數(shù)據(jù)、智慧城市等建設(shè)的不斷推進(jìn),數(shù)據(jù)檔案的建設(shè)可以區(qū)域性的數(shù)據(jù)檔案中心為依托,將具有保存價(jià)值的數(shù)據(jù)進(jìn)行統(tǒng)一保管并進(jìn)行開發(fā)利用。但由于海量數(shù)據(jù)只掌握在少數(shù)幾個(gè)互聯(lián)網(wǎng)巨頭手中,因此,要加強(qiáng)各數(shù)據(jù)平臺之間的合作,通過建立協(xié)調(diào)機(jī)構(gòu)和協(xié)調(diào)機(jī)制,使數(shù)據(jù)檔案建設(shè)的產(chǎn)業(yè)形成聯(lián)盟,互通有無,明確分工,著重挖掘數(shù)據(jù)的商業(yè)價(jià)值,實(shí)現(xiàn)檔案信息的增值,將上、下游和相關(guān)產(chǎn)業(yè)同時(shí)發(fā)展,實(shí)現(xiàn)產(chǎn)業(yè)集群,拓展市場份額,增強(qiáng)市場競爭力。