国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

美夢(mèng)還是陷阱?

2019-09-10 07:22王向女袁倩
檔案與建設(shè) 2019年9期
關(guān)鍵詞:數(shù)據(jù)分析

王向女 袁倩

摘要:大數(shù)據(jù)時(shí)代催生了一門集合新理念、新方法、新技術(shù)以及全新應(yīng)用和實(shí)踐于一體的新興學(xué)科,即數(shù)據(jù)科學(xué)。數(shù)據(jù)科學(xué)的出現(xiàn)為檔案管理從數(shù)字化到數(shù)據(jù)化的轉(zhuǎn)型提供了工具、思維和理論方法上的便利,引發(fā)了檔案數(shù)據(jù)管理在管理技術(shù)、人才培養(yǎng)和實(shí)踐操作層面的創(chuàng)新發(fā)展。但同時(shí),數(shù)據(jù)科學(xué)潛藏的威脅也給檔案數(shù)據(jù)管理敲響了警鐘。數(shù)據(jù)科學(xué)背景下的檔案數(shù)據(jù)管理,既不能掉落數(shù)據(jù)陷阱,也不能滿足技術(shù)現(xiàn)狀,“美夢(mèng)”是虛幻的,“陷阱”是潛藏的,檔案數(shù)據(jù)管理要清醒地認(rèn)識(shí)到數(shù)據(jù)科學(xué)的利與弊,才能使自身發(fā)展行穩(wěn)致遠(yuǎn)。

關(guān)鍵詞:數(shù)據(jù)科學(xué);檔案數(shù)據(jù)管理;數(shù)據(jù)分析;數(shù)據(jù)生態(tài)

分類號(hào):G270.7

Dreams or traps?——Research on Archives Data Management Under the Background of Data Science

Wang Xiangnv1,2, Yuan Qian1

(1.School of Library, Information and Archives of Shanghai University, Shanghai, 200444;2.Archives Profession and Academic Evaluation Center of School of Information Management of Zhengzhou University, Zhengzhou, Henan,450001)

Abstract:The era of big data has given birth to a new discipline, namely data science, which integrates new ideas,new methods,new technologies and new applications and practices. The emergence of data science has provided the convenience of tools,thinking and theoretical methods for the transformation of archives management from digitalization to digitalization,which has led to the innovative development of archives data management in management technology,personnel training and practical operation.Meanwhile,the potential threat of data science also sounds an alarm bell for archives data management.Archives data management under the background of data science can neither fall into the data trap nor satisfy the technical status quo.Dreams are illusory and traps are hidden.Archives data management should be aware of the advantages and disadvantages of data science soberly so as to make its own development steady and far-reaching.

Keywords:Data Science; Archival Data Management; Data Analysis; Data Ecology

數(shù)據(jù)科學(xué)是當(dāng)前信息科學(xué)領(lǐng)域的熱點(diǎn)話題,是繼云計(jì)算、大數(shù)據(jù)、物聯(lián)網(wǎng)之后,對(duì)信息資源的管理、利用和服務(wù)造成極大影響的新興學(xué)科。受其影響,檔案數(shù)據(jù)管理正取代數(shù)字管理和信息管理,成為大數(shù)據(jù)時(shí)代檔案管理的新寵。面對(duì)數(shù)據(jù)科學(xué)帶來的浩如煙海的數(shù)據(jù)資源、主動(dòng)創(chuàng)新的思維方式和靈活多變的數(shù)據(jù)處理工具,檔案數(shù)據(jù)的“活化”擁有了更多的可能。

1數(shù)據(jù)科學(xué)與檔案數(shù)據(jù)管理

1.1數(shù)據(jù)科學(xué)的發(fā)展軌跡

1974年,圖靈獎(jiǎng)獲得者Peter Naur在其出版的著作Concise Survey of Computer Methods中明確提出了數(shù)據(jù)科學(xué)(Data Science)的概念,即數(shù)據(jù)科學(xué)是一門“基于數(shù)據(jù)處理的科學(xué)”。相比偏好運(yùn)用數(shù)據(jù)處理技術(shù)于教學(xué)中的“數(shù)據(jù)學(xué)”而言,他指出數(shù)據(jù)科學(xué)側(cè)重解決數(shù)據(jù)問題[1]。此后,數(shù)據(jù)科學(xué)有一段時(shí)間的“沉默期”,直到1996年,國際分類學(xué)會(huì)聯(lián)合會(huì)年度東京會(huì)議以“數(shù)據(jù)科學(xué),分類及相關(guān)方法”為議題,才再次提及“數(shù)據(jù)科學(xué)”[2]。進(jìn)入21世紀(jì)之后,數(shù)據(jù)科學(xué)的發(fā)展迎來轉(zhuǎn)機(jī)。2001年貝爾實(shí)驗(yàn)室的Cleveland在學(xué)術(shù)期刊International Statistical Review上發(fā)表了題為“Data Science: An Action Plan for Expanding the Technical Areas of the Field of Statistics”的論文,主張數(shù)據(jù)科學(xué)是統(tǒng)計(jì)學(xué)的一個(gè)重要研究方向[3]。2002年4月,Data Science創(chuàng)刊,它專門刊載科技領(lǐng)域中的數(shù)據(jù)及數(shù)據(jù)庫管理方面的文章,預(yù)示著“數(shù)據(jù)科學(xué)”逐漸成為一個(gè)獨(dú)立的研究領(lǐng)域。而這之后,《數(shù)據(jù)科學(xué)家:21世紀(jì)最性感的職業(yè)》論文的發(fā)表、2012年大數(shù)據(jù)思維幫助奧巴馬贏得總統(tǒng)選舉及2015年美國白宮設(shè)立數(shù)據(jù)科學(xué)家專門職位三件事,更是引起學(xué)界廣泛矚目,使得“數(shù)據(jù)科學(xué)”在計(jì)算機(jī)領(lǐng)域和統(tǒng)計(jì)領(lǐng)域的純“數(shù)據(jù)計(jì)算”色彩以外,增添了更多商業(yè)、社會(huì)和信息領(lǐng)域的內(nèi)容。越來越多生物醫(yī)學(xué)、社會(huì)科學(xué)、信息科學(xué)領(lǐng)域的學(xué)者開始關(guān)注這一新興學(xué)科。

國外學(xué)者針對(duì)數(shù)據(jù)科學(xué)的成長曲線、學(xué)科定位和知識(shí)體系等開展專門研究。例如,Gartner總結(jié)出數(shù)據(jù)科學(xué)及其各項(xiàng)具體技術(shù)正逐漸由初始狀態(tài)走入穩(wěn)步上升階段,整個(gè)過程中具體的技術(shù)因發(fā)展限制而處于不同時(shí)期[4];Cathy O’Neil等總結(jié)了揭示數(shù)據(jù)科學(xué)學(xué)科定位的維恩圖,指出這是一個(gè)處于統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)和領(lǐng)域知識(shí)交叉部分的學(xué)科[5]。國內(nèi)關(guān)于數(shù)據(jù)科學(xué)的研究則主要集中在具體學(xué)科領(lǐng)域的應(yīng)用,以及技術(shù)工具的討論和國外數(shù)據(jù)科學(xué)研究介紹和反思等方面,有關(guān)數(shù)據(jù)科學(xué)和檔案管理的結(jié)合研究,成果還很少。

1.2數(shù)據(jù)科學(xué)背景下檔案數(shù)據(jù)管理的興起

進(jìn)入大數(shù)據(jù)時(shí)代后,“存量數(shù)字化、增量電子化”的口號(hào)使得檔案工作需要處理海量的數(shù)據(jù)資源,同時(shí)“互聯(lián)網(wǎng)+”環(huán)境下,檔案服務(wù)的線上拓展使得檔案部門與社交媒體、新媒體的合作越來越多,原本的數(shù)據(jù)池內(nèi)又出現(xiàn)了更多類型各異、結(jié)構(gòu)分散、異地異構(gòu)的數(shù)據(jù)。這些急速增長的檔案數(shù)據(jù)給檔案管理的原有理論、方法和技術(shù)都帶來了巨大的沖擊,并引發(fā)了一系列新的管理問題,促使檔案管理不得不考慮向數(shù)據(jù)型和開放型模式轉(zhuǎn)型,檔案數(shù)據(jù)管理因此作為大數(shù)據(jù)科學(xué)和計(jì)算機(jī)科學(xué)、檔案信息化交叉的研究領(lǐng)域,成為學(xué)界研究的重點(diǎn)問題。

將檔案數(shù)據(jù)管理按照“種屬關(guān)系”分解為“檔案”+“數(shù)據(jù)管理”,或是將其拆分為“檔案數(shù)據(jù)”+“數(shù)據(jù)管理”均不會(huì)打亂核心問題,也就是檔案數(shù)據(jù)管理,仍然屬于“數(shù)據(jù)管理”的重要組成部分,可以視為數(shù)據(jù)科學(xué)中數(shù)據(jù)管理理論在檔案學(xué)中的本體化[6]。數(shù)據(jù)科學(xué)主要解決了檔案數(shù)據(jù)的快速增長和精準(zhǔn)有效利用之間的矛盾問題,創(chuàng)新之處在于數(shù)據(jù)科學(xué)實(shí)現(xiàn)了檔案數(shù)據(jù)的數(shù)量“增殖”和價(jià)值“增值”之間的和諧。

首先,數(shù)據(jù)科學(xué)是一個(gè)交叉性學(xué)科,不論是專業(yè)的數(shù)據(jù)科學(xué),還是專業(yè)中的具體數(shù)據(jù)科學(xué),都面臨著數(shù)據(jù)大量涌現(xiàn)和快速增加的現(xiàn)狀,檔案數(shù)據(jù)也呈現(xiàn)高速增長的態(tài)勢,檔案數(shù)據(jù)池的無限擴(kuò)張與數(shù)據(jù)科學(xué)的“增殖性”相輔相成。其次,為了提高處理海量數(shù)據(jù)的質(zhì)量,在數(shù)據(jù)加工環(huán)節(jié),數(shù)據(jù)科學(xué)注重融入科學(xué)家的創(chuàng)造性設(shè)計(jì)、批判性思考和好奇性提問,在尊重和認(rèn)可數(shù)據(jù)復(fù)雜性的同時(shí),加入了人的“能動(dòng)性”創(chuàng)造,為數(shù)據(jù)人為賦予價(jià)值。

對(duì)檔案數(shù)據(jù)管理而言,檔案數(shù)據(jù)面臨價(jià)值重構(gòu)的威脅。數(shù)據(jù)科學(xué)的“人賦價(jià)值”特性在一定程度上可以回答檔案數(shù)據(jù)是否有價(jià)值、有何種價(jià)值等問題,即檔案數(shù)據(jù)的價(jià)值在于海量數(shù)據(jù)基礎(chǔ)上的價(jià)值增值。在數(shù)據(jù)科學(xué)的理論、技術(shù)和思維等因素影響下,檔案數(shù)據(jù)管理要謀求發(fā)展,取得突破,數(shù)量的增加和質(zhì)量的提升是不可回避的問題。

2數(shù)據(jù)科學(xué)影響下檔案數(shù)據(jù)管理的突破口

數(shù)據(jù)科學(xué)解決的是海量數(shù)據(jù)的快速處理和精準(zhǔn)分析等問題,而檔案數(shù)據(jù)管理在數(shù)據(jù)量急速增長的現(xiàn)實(shí)環(huán)境中,亟需新技術(shù)、新方法和新理念來減輕海量數(shù)據(jù)處理的負(fù)擔(dān),數(shù)據(jù)科學(xué)的相關(guān)技術(shù)和思維則在一定程度上為檔案數(shù)據(jù)管理突破“困局”提供了便利。

2.1數(shù)據(jù)分析和加工技術(shù)促進(jìn)檔案數(shù)據(jù)管理的“有序化”

數(shù)據(jù)分析和數(shù)據(jù)加工技術(shù)是數(shù)據(jù)科學(xué)知識(shí)體系的重要組成部分。數(shù)據(jù)科學(xué)關(guān)注的是如何使混亂無序的單個(gè)數(shù)據(jù)整合成系統(tǒng)整齊的數(shù)據(jù)集,以便研究和利用。數(shù)據(jù)加工使得數(shù)據(jù)處理和準(zhǔn)備不再局限于數(shù)據(jù)的簡單清洗,而是在處理過程中注重?cái)?shù)據(jù)價(jià)值的表露和創(chuàng)造,并且通過數(shù)據(jù)打磨和柔化技術(shù),使數(shù)據(jù)呈現(xiàn)整齊的狀態(tài);數(shù)據(jù)分析則利用開源工具揭示數(shù)據(jù)之間的聯(lián)系,迅速洞見數(shù)據(jù)之間的內(nèi)在關(guān)聯(lián)和價(jià)值?!皳碛写罅康臄?shù)據(jù)本身并不會(huì)增加任何價(jià)值,數(shù)據(jù)的核心是發(fā)現(xiàn)價(jià)值,而駕馭數(shù)據(jù)的核心是分析?!盵7]依靠數(shù)據(jù)加工和數(shù)據(jù)分析技術(shù),龐雜無序的檔案數(shù)據(jù)可以在最短的時(shí)間內(nèi)呈現(xiàn)相互關(guān)聯(lián)、有序的狀態(tài),使得檔案數(shù)據(jù)管理獲得關(guān)聯(lián)清晰、邏輯清晰、價(jià)值清晰的數(shù)據(jù)序列,為檔案數(shù)據(jù)的進(jìn)一步加工、利用奠定堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ)。

2.2數(shù)據(jù)思維模式加速管理工作的“數(shù)據(jù)導(dǎo)向”

數(shù)據(jù)科學(xué)的橫空出世,使得傳統(tǒng)科學(xué)中常用的基于“知識(shí)”“目標(biāo)”或“假設(shè)”的行動(dòng)范式受到?jīng)_擊,基于數(shù)據(jù)的行動(dòng)范式成為大勢所趨[8]。傳統(tǒng)的科學(xué)研究中以DIKW層級(jí)模型“數(shù)據(jù)(D)—信息(I)—知識(shí)(K)—智慧(W)”[9]較為常見,由于數(shù)據(jù)科學(xué)的影響,使得數(shù)據(jù)和信息、知識(shí)的邊界變得更加模糊,數(shù)據(jù)可以跳過信息、知識(shí)的提取和轉(zhuǎn)化過程,直接上升為“智慧”,因此引發(fā)“數(shù)據(jù)—問題”范式的出現(xiàn)[10],即利用數(shù)據(jù)或樣本數(shù)據(jù)直接解決現(xiàn)實(shí)問題,這是一種強(qiáng)調(diào)數(shù)據(jù)不經(jīng)過知識(shí)的轉(zhuǎn)化環(huán)節(jié)而直接應(yīng)用的范式?!皵?shù)據(jù)能直接解決問題”這一顯著特征,影響了檔案數(shù)據(jù)管理的導(dǎo)向,即由內(nèi)容驅(qū)動(dòng)向數(shù)據(jù)驅(qū)動(dòng)轉(zhuǎn)變,由信息公開向開放數(shù)據(jù)轉(zhuǎn)型。當(dāng)前開放數(shù)據(jù)已成為社會(huì)各界的共識(shí),北京市政府就指出,到2020年政府部門公共數(shù)據(jù)的開放率要超過60%[11]。數(shù)據(jù)科學(xué)背景下的“數(shù)據(jù)范式”影響了檔案數(shù)據(jù)管理的思維模式,檔案數(shù)據(jù)管理正式邁入“數(shù)據(jù)驅(qū)動(dòng)”時(shí)代,并且在數(shù)據(jù)思維的引領(lǐng)下,檔案管理工作,尤其是開放數(shù)據(jù)等與數(shù)據(jù)研究、利用相關(guān)的工作會(huì)碰撞出新的火花,促進(jìn)檔案數(shù)據(jù)價(jià)值不斷增長,并真正用在實(shí)處。

2.3用戶至上理念激發(fā)檔案數(shù)據(jù)管理的“人本思想”

長久以來,不論是檔案管理和服務(wù)領(lǐng)域還是其他的信息咨詢服務(wù)行業(yè),“查全率”“查準(zhǔn)率”始終是檢驗(yàn)服務(wù)質(zhì)量和結(jié)果的重要指標(biāo)和參照。但是面對(duì)大數(shù)據(jù)時(shí)代數(shù)據(jù)量持續(xù)增長、無限擴(kuò)張的態(tài)勢,查全率和查準(zhǔn)率成為越來越難以企及的高度。即便是利用最現(xiàn)代、最快速的數(shù)據(jù)庫技術(shù)、數(shù)據(jù)加工技術(shù),也難以在滿足查全率的基礎(chǔ)上,保證數(shù)據(jù)的精準(zhǔn)投遞,抑或在保證查準(zhǔn)率的前提下,保障用戶獲取所需數(shù)據(jù)的時(shí)間可控。而數(shù)據(jù)科學(xué)的相關(guān)技術(shù)備受青睞就是因?yàn)槌浞挚紤]到用戶的使用體驗(yàn),盡可能地節(jié)約用戶搜索、瀏覽的時(shí)間,并且為其提供精準(zhǔn)結(jié)果。因此,檔案數(shù)據(jù)管理和相關(guān)的信息咨詢服務(wù)行業(yè)不妨將服務(wù)質(zhì)量的重點(diǎn)放在用戶體驗(yàn)上,切實(shí)將“以用戶為中心”理念貫徹于檔案數(shù)據(jù)管理的全過程。為了使用戶最終得到滿意的數(shù)據(jù)結(jié)果,在設(shè)計(jì)檔案數(shù)據(jù)管理流程時(shí),每一個(gè)環(huán)節(jié)都需要考慮用戶的體驗(yàn)效果,例如前端數(shù)據(jù)收集的針對(duì)性和真實(shí)性,中期數(shù)據(jù)整理的有序性和系統(tǒng)性,以及后端檔案數(shù)據(jù)庫和信息系統(tǒng)檢索利用的簡潔性和易獲取性等等。檔案數(shù)據(jù)管理的整個(gè)生命周期都圍繞用戶展開,是檔案數(shù)據(jù)價(jià)值實(shí)現(xiàn)的主要推動(dòng)力。

2.4專業(yè)人才團(tuán)隊(duì)打造檔案數(shù)據(jù)管理的“好口碑”

檔案數(shù)據(jù)管理的目的就是為了使檔案數(shù)據(jù)得到充分的開發(fā),價(jià)值得以充分挖掘。通過一系列專業(yè)的數(shù)據(jù)分析和加工,使檔案數(shù)據(jù)的價(jià)值不斷實(shí)現(xiàn),不斷創(chuàng)造新的價(jià)值,形成良性的效益反饋。實(shí)現(xiàn)這一目的關(guān)鍵就在于擁有一支高效、專業(yè)的數(shù)據(jù)管理團(tuán)隊(duì),收納專業(yè)的數(shù)據(jù)分析人才、數(shù)據(jù)收集和整合人才、數(shù)據(jù)加工人才等。傳統(tǒng)人才培養(yǎng)環(huán)節(jié)注重的是數(shù)據(jù)工程師對(duì)數(shù)據(jù)的基本處理和操作能力,但數(shù)據(jù)科學(xué)背景下,由于強(qiáng)調(diào)數(shù)據(jù)的價(jià)值增值,更多關(guān)注的是基于數(shù)據(jù)的處理、決策、研發(fā)等能力,“數(shù)據(jù)科學(xué)家”就在這一階段脫穎而出。美國國家自然科學(xué)基金會(huì)(NSF)下設(shè)的國家科學(xué)委員會(huì)將“數(shù)據(jù)科學(xué)家”定義為“信息和計(jì)算機(jī)科學(xué)家、數(shù)據(jù)庫和軟件工程師、領(lǐng)域?qū)<摇⒉哒谷藛T和標(biāo)注專家、圖書館員、檔案工作者等”[12],他們對(duì)數(shù)據(jù)的收集和成功管理起關(guān)鍵作用。檔案數(shù)據(jù)管理想要依賴頂尖、精準(zhǔn)的數(shù)據(jù)能力在新一輪產(chǎn)業(yè)革命中獲得好口碑、高評(píng)價(jià),與其單純培養(yǎng)數(shù)據(jù)人才,不如嘗試與專業(yè)的人才團(tuán)隊(duì)合作,邀請(qǐng)數(shù)據(jù)科學(xué)家和數(shù)據(jù)科學(xué)團(tuán)隊(duì)指導(dǎo)檔案數(shù)據(jù)管理工作,用專業(yè)贏得口碑,以認(rèn)真獲得認(rèn)可。

3數(shù)據(jù)科學(xué)影響下檔案數(shù)據(jù)管理的潛在威脅

數(shù)據(jù)科學(xué)雖然解決了檔案數(shù)據(jù)管理中數(shù)量和質(zhì)量的部分問題,但絕不意味著“一勞永逸”。科學(xué)技術(shù)無疑是一把雙刃劍,它能幫助檔案數(shù)據(jù)管理尋得突破,但如果缺乏對(duì)數(shù)據(jù)科學(xué)及其相關(guān)技術(shù)的正確認(rèn)識(shí),也會(huì)導(dǎo)致檔案數(shù)據(jù)管理走向發(fā)展的誤區(qū)。

3.1思維上:重?cái)?shù)量輕質(zhì)量的傾向

在大數(shù)據(jù)時(shí)代,數(shù)據(jù)所有者和管理者將“數(shù)據(jù)就是原油”奉為圭臬。但實(shí)際上,隨著數(shù)據(jù)量的持續(xù)增加,整個(gè)數(shù)據(jù)資源池內(nèi)充斥著虛假的、篡改過的、重復(fù)的數(shù)據(jù)個(gè)體。數(shù)據(jù)行業(yè)依托自身的技術(shù)優(yōu)勢,過度追求數(shù)據(jù)的抓取與擁有[13]。但實(shí)際上,從數(shù)據(jù)池中抓取數(shù)據(jù)只是對(duì)其進(jìn)行管理的最基本的操作,獲取再多的數(shù)據(jù),不用心分析其內(nèi)涵價(jià)值以挖掘其與其他數(shù)據(jù)的關(guān)聯(lián),也只是徒勞的。因此,準(zhǔn)確客觀的表述應(yīng)該為“優(yōu)質(zhì)數(shù)據(jù)才是原油”。檔案數(shù)據(jù)管理正處于起步階段,也面臨著抓取數(shù)據(jù)量大易產(chǎn)生自得自滿情緒的危機(jī),如果放任這種心態(tài)蔓延開來,整個(gè)檔案數(shù)據(jù)管理行業(yè),乃至于檔案行業(yè),僅停留在從數(shù)據(jù)池中發(fā)現(xiàn)數(shù)據(jù)或者向數(shù)據(jù)池中投放數(shù)據(jù)的程度,那么數(shù)據(jù)科學(xué)為檔案數(shù)據(jù)管理提供的技術(shù)、理論和方法上的便利都將變成“鏡花水月”,檔案管理的變革與進(jìn)步也將成為空談。檔案數(shù)據(jù)管理應(yīng)當(dāng)警惕數(shù)據(jù)科學(xué)影響下的第一重陷阱,即“數(shù)據(jù)量與質(zhì)之爭”,二者不是舍我其誰的關(guān)系。合理的做法應(yīng)當(dāng)是在充分抓取數(shù)據(jù)的基礎(chǔ)上,利用數(shù)據(jù)分析和加工技術(shù),對(duì)數(shù)據(jù)進(jìn)行清洗、處理,挖掘數(shù)據(jù)之間的關(guān)聯(lián),為用戶提供精準(zhǔn)的服務(wù)。

3.2技術(shù)上:檔案數(shù)據(jù)深度分析能力尚淺

對(duì)數(shù)據(jù)的處理和分析能力是決定檔案數(shù)據(jù)管理質(zhì)量的重要條件,一個(gè)有序、有邏輯的數(shù)據(jù)序列或集合,對(duì)于后續(xù)的整理加工和研發(fā)推廣等環(huán)節(jié)至關(guān)重要。數(shù)據(jù)之間的關(guān)聯(lián)使得檔案數(shù)據(jù)管理“牽一發(fā)而動(dòng)全身”,這是不以數(shù)據(jù)獲取方式改變而改變的事情[14]。但就目前的檔案數(shù)據(jù)管理實(shí)踐而言,數(shù)據(jù)分析能力不足。一方面是相關(guān)技術(shù)的引進(jìn)力度不夠;另一方面是檔案工作人員的技術(shù)水平未能和數(shù)據(jù)庫技術(shù)發(fā)展水平完美對(duì)接,出現(xiàn)“技術(shù)隔閡”,導(dǎo)致檔案數(shù)據(jù)分析還停留在對(duì)數(shù)據(jù)關(guān)聯(lián)性的挖掘和價(jià)值的發(fā)現(xiàn)階段,未能進(jìn)入價(jià)值的開發(fā)和增值環(huán)節(jié)。數(shù)據(jù)科學(xué)背景下,檔案數(shù)據(jù)管理要謀得長遠(yuǎn)發(fā)展,技術(shù)是核心問題。技術(shù)引進(jìn)是基礎(chǔ),技術(shù)優(yōu)選是保障,深度分析數(shù)據(jù)的能力是檔案數(shù)據(jù)管理區(qū)別于一般信息咨詢服務(wù)的重要能力,也是保障檔案數(shù)據(jù)管理向更高水平發(fā)展的條件。

3.3系統(tǒng)上:檔案數(shù)據(jù)生態(tài)系統(tǒng)不健全

數(shù)據(jù)生態(tài)系統(tǒng)指的是包括基礎(chǔ)設(shè)施、支撐技術(shù)、工具與平臺(tái)、項(xiàng)目管理以及其他外部影響因素在內(nèi)的各種組成要素構(gòu)成的完整系統(tǒng)[15]。據(jù)此,檔案數(shù)據(jù)生態(tài)系統(tǒng)就是一個(gè)由檔案數(shù)據(jù)庫基礎(chǔ)設(shè)施、數(shù)據(jù)庫技術(shù)、數(shù)據(jù)管理工具、檔案數(shù)據(jù)管理人員、管理制度和政策以及檔案數(shù)據(jù)面臨的社會(huì)環(huán)境構(gòu)成的宏觀生態(tài)系統(tǒng)。這是一個(gè)復(fù)雜的生態(tài)體系,不僅涉及資源的共建共享、數(shù)據(jù)的開放獲取、檔案制度法規(guī)的貫徹落實(shí),還牽扯到社會(huì)對(duì)檔案數(shù)據(jù)的認(rèn)同、對(duì)檔案職業(yè)的尊重、對(duì)檔案工作的滿意等一系列宏觀與微觀交織的問題。當(dāng)前,檔案數(shù)據(jù)生態(tài)系統(tǒng)的發(fā)展?fàn)顩r不容樂觀,即便社會(huì)檔案意識(shí)在一代代檔案人的努力下有所提高,但由于檔案數(shù)據(jù)處理、利用能力不足,導(dǎo)致檔案數(shù)據(jù)服務(wù)的滿意度較低,人們又重新進(jìn)入對(duì)檔案理解的“誤區(qū)”,認(rèn)為檔案管理是處理相對(duì)容易的紙質(zhì)和電子文件的簡單工作,不涉及對(duì)數(shù)據(jù)的處理和分析、對(duì)資源的建設(shè)和利用,以及對(duì)知識(shí)、智慧的創(chuàng)造與發(fā)展等方面的內(nèi)容。檔案數(shù)據(jù)生態(tài)并沒有形成一個(gè)較為濃厚的檔案數(shù)據(jù)環(huán)境,因此在其中進(jìn)行數(shù)據(jù)的處理、加工、研發(fā)和推廣工作都帶有不確定性。一個(gè)健全、協(xié)調(diào)的檔案數(shù)據(jù)生態(tài)系統(tǒng)需要檔案數(shù)據(jù)管理部門堅(jiān)定信念,努力縮短和其他學(xué)科,尤其是相鄰學(xué)科的距離,提高自身服務(wù)質(zhì)量,積極利用檔案數(shù)據(jù)的優(yōu)勢,創(chuàng)造出有利于數(shù)據(jù)生態(tài)因子和諧共生的發(fā)展環(huán)境。

4檔案數(shù)據(jù)管理在數(shù)據(jù)科學(xué)背景下的堅(jiān)守

數(shù)據(jù)科學(xué)背景下,檔案數(shù)據(jù)的活力和生命力得到了極大的開發(fā),檔案數(shù)據(jù)量與價(jià)值量的矛盾得以緩和,檔案管理向數(shù)據(jù)管理的轉(zhuǎn)型升級(jí)依賴于數(shù)據(jù)科學(xué)的技術(shù)、思維、方法等方面的幫助。數(shù)據(jù)科學(xué)似乎為檔案數(shù)據(jù)管理的發(fā)展編織了一場“美夢(mèng)”,但夢(mèng)境終究不是現(xiàn)實(shí),如果不能切實(shí)地利用好數(shù)據(jù)科學(xué)的優(yōu)勢,正確認(rèn)識(shí)到科學(xué)技術(shù)的兩面性,沉醉于“虛幻的美夢(mèng)”中,那么實(shí)踐就會(huì)在不知不覺中掉入數(shù)據(jù)科學(xué)與檔案數(shù)據(jù)管理的“夾縫”。

4.1走出夢(mèng)境:吸收經(jīng)驗(yàn)加快轉(zhuǎn)型

數(shù)據(jù)科學(xué)的技術(shù)工具和思維方式值得檔案數(shù)據(jù)管理借鑒。在由常規(guī)的檔案管理向數(shù)據(jù)管理進(jìn)階轉(zhuǎn)型的過程中,應(yīng)當(dāng)加快對(duì)數(shù)據(jù)技術(shù)的學(xué)習(xí)和引進(jìn),也可在保障自身利益和國家社會(huì)權(quán)益的基礎(chǔ)上,進(jìn)行檔案數(shù)據(jù)部分外包和眾包管理,推動(dòng)檔案數(shù)據(jù)管理的高質(zhì)、高水平發(fā)展。只有切實(shí)地將先進(jìn)的數(shù)據(jù)技術(shù)和工具、專業(yè)的人才和團(tuán)隊(duì)用到檔案數(shù)據(jù)管理的實(shí)踐中去,才能提高檔案數(shù)據(jù)服務(wù)的質(zhì)量和水平。理論只有在實(shí)踐中一遍遍檢驗(yàn),才能得以證實(shí)。數(shù)據(jù)科學(xué)的發(fā)展經(jīng)驗(yàn)?zāi)芊癯晒Φ貞?yīng)用于檔案數(shù)據(jù)管理實(shí)踐,依靠理論的演算和推理,其結(jié)果不得而知。只有觸及現(xiàn)實(shí),吸收經(jīng)驗(yàn)為檔案部門發(fā)展所用,才可以筑牢根基。

4.2警惕障礙:腳踏實(shí)地不忘初心

數(shù)據(jù)科學(xué)不能一勞永逸地解決檔案數(shù)據(jù)管理轉(zhuǎn)型中的全部問題,轉(zhuǎn)型之路會(huì)遭受不同規(guī)模攔路石的阻礙,有源自技術(shù)本身的不完美,也有來自于實(shí)踐部門自身的恐懼或大意。當(dāng)檔案數(shù)據(jù)管理走出數(shù)據(jù)科學(xué)為其編織的“夢(mèng)境”,切實(shí)地利用技術(shù)開展工作時(shí),或是由于前路坎坷,或是因?yàn)榉绞讲划?dāng),轉(zhuǎn)型之路荊棘遍布,又岔路橫生,檔案數(shù)據(jù)管理團(tuán)隊(duì)只有堅(jiān)定信念,牢記檔案數(shù)據(jù)管理轉(zhuǎn)型和發(fā)展是為了黨和國家各項(xiàng)建設(shè)服務(wù),是為了廣大人民群眾的根本利益服務(wù)的使命。一步一個(gè)腳印,準(zhǔn)確識(shí)別發(fā)展道路上的障礙物,檔案數(shù)據(jù)管理才不會(huì)掉入發(fā)展的“陷阱”。

最終,檔案部門應(yīng)當(dāng)清醒地意識(shí)到:數(shù)據(jù)科學(xué)背景下的檔案數(shù)據(jù)管理,既不是一場不切實(shí)際的“美夢(mèng)”,其發(fā)展也應(yīng)無懼道路上的“陷阱”。在數(shù)據(jù)科學(xué)的影響下,檔案數(shù)據(jù)管理轉(zhuǎn)型升級(jí)的過程是緩慢的,前途是光明的。從長遠(yuǎn)來看,檔案數(shù)據(jù)管理不會(huì)困于數(shù)據(jù)科學(xué)描繪的“美夢(mèng)”,因?yàn)樗`活地將數(shù)據(jù)科學(xué)的優(yōu)勢轉(zhuǎn)化為自身轉(zhuǎn)型的突破口,在實(shí)踐中進(jìn)一步發(fā)展;檔案數(shù)據(jù)管理自然也不會(huì)畏懼?jǐn)?shù)據(jù)科學(xué)帶來的威脅和障礙,因?yàn)樗_踏實(shí)地,穩(wěn)步前進(jìn)。

*本文系國家社會(huì)科學(xué)基金重點(diǎn)項(xiàng)目“檔案學(xué)經(jīng)典著作評(píng)價(jià)研究”(項(xiàng)目編號(hào):17ATQ011)階段性研究成果。

注釋與參考文獻(xiàn)

[1]數(shù)據(jù)分析學(xué)院.數(shù)據(jù)科學(xué)極簡史(一)[EB/OL].[2019-09-02].https://www.shujike.com/blog/10950.

[2]葉鷹,馬費(fèi)成.數(shù)據(jù)科學(xué)興起及其與信息科學(xué)的關(guān)聯(lián)[J].情報(bào)學(xué)報(bào),2015(6):575-580.

[3]Cleveland, W. S. Data Science: An Action Plan for Expanding the Technical Areas of the Field of Statistics[J].International Statistical Review/Revue Internationale de Statistique,2001(4):21-26.

[4]Gartner.Hype Cycle for Data Science,2016[EB/OL].[2019-09-02].https://www.gartner.com/en/documents/3388917.

[5]Cathy O’Neil,Rachel Schutt.Doing Data Science:Straight Talk From the Frontline[M]. Sebastopol,CA:O’Reilly Media, 2013:7.

[6]于英香.大數(shù)據(jù)視域下檔案數(shù)據(jù)管理研究的興起:概念、緣由與發(fā)展[J].檔案學(xué)研究,2018(1):44-48.

[7][美]Bill Franks.駕馭大數(shù)據(jù)[M].黃海,車皓陽,王悅,譯.北京:人民郵電出版社,2013:5.

[8]朝樂門,盧小賓.數(shù)據(jù)科學(xué)及其對(duì)信息科學(xué)的影響[J].情報(bào)學(xué)報(bào),2017(8):761-771.

[9]Jennifer Rowley.The Wisdom Hierarchy:Representations of the DIKW Hierarchy[J].Journal of Information Science, 2007(2):163-180.

[10][15]朝樂門,邢春曉,張勇.數(shù)據(jù)科學(xué)研究的現(xiàn)狀與趨勢[J].計(jì)算機(jī)科學(xué),2018(1):1-13.

[11]金波,晏秦.數(shù)據(jù)管理與檔案信息服務(wù)創(chuàng)新[J].檔案學(xué)研究,2017(6):99-104.

[12]SIMBERLOFF D,BARISH B C,DROEGEMEIER K K, et al.Long-lived Digital Data Collections:Enabling Research and Education in the 21st Century[EB/OL].[2019-09-05].http://arizona.openrepository.com/arizona/bitstream/10150/105473/1/LLDDC_report.pdf.

[13][14]劉德寰,李雪蓮.數(shù)據(jù)生態(tài)的危險(xiǎn)趨勢與數(shù)據(jù)科學(xué)的可能空間——兼談中國市場調(diào)查業(yè)的現(xiàn)狀與問題[J].現(xiàn)代傳播(中國傳媒大學(xué)學(xué)報(bào)),2016(1):21-27.

猜你喜歡
數(shù)據(jù)分析
電子物證檢驗(yàn)的數(shù)據(jù)分析與信息應(yīng)用研究
基于matlab曲線擬合的數(shù)據(jù)預(yù)測分析
分眾媒體趨勢下場景營銷的商業(yè)前景
佛山某給水管線控制測量探討
SPSS在環(huán)境地球化學(xué)中的應(yīng)用
大數(shù)據(jù)時(shí)代高校數(shù)據(jù)管理的思考
新常態(tài)下集團(tuán)公司內(nèi)部審計(jì)工作研究
淺析大數(shù)據(jù)時(shí)代對(duì)企業(yè)營銷模式的影響
基于讀者到館行為數(shù)據(jù)分析的高校圖書館服務(wù)優(yōu)化建議
寻甸| 绥滨县| 凤翔县| 恭城| 台中市| 广汉市| 黑龙江省| 木兰县| 田阳县| 澜沧| 温州市| 新郑市| 普安县| 剑川县| 马边| 新源县| 延庆县| 商都县| 库尔勒市| 尖扎县| 平陆县| 西丰县| 延庆县| 儋州市| 贺州市| 绥化市| 昌都县| 宜阳县| 多伦县| 长垣县| 肃南| 津市市| 景泰县| 桐庐县| 桑植县| 昂仁县| 定襄县| 黑龙江省| 惠东县| 齐河县| 青阳县|