国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

“NoSQL”數(shù)據(jù)管理技術(shù)在檔案大數(shù)據(jù)中的應(yīng)用探析

2022-06-22 13:50:14
管理工程師 2022年3期
關(guān)鍵詞:海量數(shù)據(jù)管理檔案館

孫 安

(河南科技大學(xué) 圖書(shū)館,河南 洛陽(yáng) 471000)

大數(shù)據(jù)時(shí)代,檔案信息化建設(shè)進(jìn)入了一個(gè)新階段,基于云服務(wù),智慧型的數(shù)字檔案館概念進(jìn)入人們視線(xiàn)中,為檔案工作指明了前進(jìn)方向。新形勢(shì)下,檔案數(shù)據(jù)收集的領(lǐng)域、范圍不斷擴(kuò)大,數(shù)據(jù)的種類(lèi)不斷增加,互聯(lián)網(wǎng)上海量社交媒體的電子數(shù)據(jù)實(shí)時(shí)歸檔,正逐漸使得檔案大數(shù)據(jù)管理與其他大數(shù)據(jù)行業(yè)一樣面臨著海量信息存儲(chǔ)、系統(tǒng)分布式部署、用戶(hù)高并發(fā)訪(fǎng)問(wèn)、數(shù)據(jù)的長(zhǎng)久保存等難題。

傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)管理系統(tǒng)(RDBMS)面對(duì)這類(lèi)問(wèn)題時(shí)遇到了性能瓶頸,在這種背景下一類(lèi)新的數(shù)據(jù)管理技術(shù)NoSQL技術(shù)應(yīng)運(yùn)而生。它突破了傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)的模式限制,遵從CAP理論[1]和BASE原則[2],數(shù)據(jù)類(lèi)型包容性和系統(tǒng)的橫向擴(kuò)展能力變得更強(qiáng),有效地解決了大數(shù)據(jù)應(yīng)用中出現(xiàn)的各類(lèi)難題。隨著NoSQL技術(shù)的成功應(yīng)用,人們開(kāi)始關(guān)注這項(xiàng)技術(shù)的最新研究動(dòng)態(tài),數(shù)據(jù)庫(kù)管理技術(shù)研究視角也由過(guò)去的層次型、網(wǎng)狀型、關(guān)系型逐漸演變?yōu)殛P(guān)系型與非關(guān)系型兩種[3],如圖1所示。

圖1 數(shù)據(jù)庫(kù)管理系統(tǒng)的分類(lèi)

通過(guò)文獻(xiàn)調(diào)查發(fā)現(xiàn),吳鵬等利用MongoDB(NoSQL的一種)技術(shù)設(shè)計(jì)企業(yè)產(chǎn)品數(shù)據(jù)信息管理系統(tǒng),較好地滿(mǎn)足了文檔、圖片、視頻等多類(lèi)型數(shù)據(jù)管理要求[4]。趙永強(qiáng)提出相較于關(guān)系型數(shù)據(jù)庫(kù),TPI特藏?cái)?shù)據(jù)庫(kù)更適合采用NoSQL數(shù)據(jù)庫(kù)產(chǎn)品,支持非結(jié)構(gòu)化數(shù)據(jù)管理和數(shù)據(jù)的分散保管及數(shù)據(jù)擴(kuò)展[5]。施曉峰分析了檔案大數(shù)據(jù)特征:格式多樣、結(jié)構(gòu)復(fù)雜、規(guī)模龐大,認(rèn)為NoSQL技術(shù)可以較好地滿(mǎn)足非結(jié)構(gòu)化數(shù)據(jù)的管理,并搭建了一個(gè)基于NoSQL系統(tǒng)的檔案數(shù)據(jù)管理原型系統(tǒng)[6]。卞咸杰采用Hadoop(NoSQL的一種)技術(shù)設(shè)計(jì)檔案信息資源共享平臺(tái),并分析檔案數(shù)據(jù)處理流程[7]。綜上發(fā)現(xiàn),目前圖情檔領(lǐng)域關(guān)于NoSQL技術(shù)研究較少,研究多以Hadoop、MapReduce、Virtuoso某一種NoSQL技術(shù)作為視角,并未整體分析NoSQL技術(shù)符合大數(shù)據(jù)應(yīng)用的內(nèi)在機(jī)理,也未發(fā)現(xiàn)闡述NoSQL技術(shù)與檔案大數(shù)據(jù)應(yīng)用的內(nèi)在機(jī)制與理論論述等相關(guān)文獻(xiàn)。由于NoSQL技術(shù)的出現(xiàn),讓大數(shù)據(jù)應(yīng)用突破了硬件性能的限制,使檔案部門(mén)駕馭大數(shù)據(jù)成為一種可能。本文擬梳理NoSQL的發(fā)展脈絡(luò)與技術(shù)特征,解析其在檔案大數(shù)據(jù)應(yīng)用中的契合機(jī)理與發(fā)展地位,為我國(guó)檔案信息化建設(shè)提供一點(diǎn)思考。

1 NoSQL技術(shù)的產(chǎn)生與發(fā)展

NoSQL泛指非關(guān)系型的數(shù)據(jù)庫(kù)(NRDBMS:No Relational-DBMS),在大數(shù)據(jù)環(huán)境下,用于解決海量數(shù)據(jù)分布部署,以提高系統(tǒng)平臺(tái)的可擴(kuò)展性、可用性、實(shí)時(shí)性的“一類(lèi)”數(shù)據(jù)管理技術(shù)。

2000年Google針對(duì)大數(shù)據(jù)環(huán)境下高并發(fā)、高可用、高性能的海量數(shù)據(jù)管理需求,重新設(shè)計(jì)了Google搜索引擎后臺(tái)數(shù)據(jù)庫(kù)管理系統(tǒng),放棄了傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù),自行研發(fā)非關(guān)系型數(shù)據(jù)庫(kù),并于2003-2006年發(fā)表了4篇關(guān)于其數(shù)據(jù)管理技術(shù)的核心論文:GFS分布式文件系統(tǒng)、MapReduce高性能計(jì)算框架、Bigtable一種分布式結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)方案、Chubby一種面向松耦合分布式系統(tǒng)的鎖服務(wù)[8-11]。Google相關(guān)論文的公開(kāi)發(fā)表引起了互聯(lián)網(wǎng)公司和開(kāi)源愛(ài)好者的廣泛關(guān)注和濃厚興趣。2006年2月Apache Hadoop開(kāi)源項(xiàng)目正式啟動(dòng)以支持MapReduce和HDFS[12]的獨(dú)立發(fā)展,同年5月雅虎建立了一個(gè)300個(gè)節(jié)點(diǎn)的Hadoop研究集群,2011年12月Hadoop1.0.0版本發(fā)布,標(biāo)志著Hadoop已經(jīng)初具規(guī)模。2007年亞馬遜公司對(duì)外展示了Dynamo分布式數(shù)據(jù)存儲(chǔ)系統(tǒng)。2008年Facebook將其研發(fā)的數(shù)據(jù)庫(kù)管理技術(shù)Cassandra開(kāi)源。2009年英國(guó)軟件開(kāi)發(fā)者Johan先生在一次非關(guān)系型數(shù)據(jù)庫(kù)討論會(huì)上,以“NoSQL”作為此次會(huì)議的主題,從此人們習(xí)慣以NoSQL命名這類(lèi)非關(guān)系型數(shù)據(jù)庫(kù)技術(shù)[13]。

從國(guó)內(nèi)實(shí)踐情況看,阿里巴巴是具有代表性的互聯(lián)網(wǎng)電子商務(wù)公司,在應(yīng)對(duì)海量淘寶交易數(shù)據(jù)管理時(shí),獨(dú)立研發(fā)了非關(guān)系型數(shù)據(jù)庫(kù)OceanBase,整個(gè)系統(tǒng)采用服務(wù)器集群架構(gòu),能夠滿(mǎn)足達(dá)10億筆日支付處理需求,系統(tǒng)對(duì)100TB的數(shù)據(jù)進(jìn)行排序只需377秒,打破了Apache Spark的紀(jì)錄23.4分鐘[14],處理速度之快可見(jiàn)一斑。不僅在電商領(lǐng)域,我國(guó)在機(jī)械制造領(lǐng)域中的大規(guī)模設(shè)備監(jiān)測(cè)數(shù)據(jù)[15]和天文領(lǐng)域中的大規(guī)模天文觀測(cè)數(shù)據(jù)也已經(jīng)成功運(yùn)用了NoSQL技術(shù)進(jìn)行管理,這些數(shù)據(jù)庫(kù)系統(tǒng)具有處理TB級(jí)和PB級(jí)海量電子數(shù)據(jù)的能力[16]。截至2022年1月,官網(wǎng)上可查的在冊(cè)NoSQL產(chǎn)品已經(jīng)超過(guò)225種,可見(jiàn)大數(shù)據(jù)背景下NoSQL技術(shù)的需求與應(yīng)用前景廣闊[17]。

2 從大數(shù)據(jù)的3V視角分析NoSQL內(nèi)在技術(shù)特征

2001年META 集團(tuán)分析師Laney在一份報(bào)告中首次提出大數(shù)據(jù)的3V概念[18],即大數(shù)據(jù)環(huán)境下,數(shù)據(jù)呈現(xiàn)類(lèi)型多樣化(Variety)、海量數(shù)據(jù)(Volume)、處理速度快(Velocity)特征。之后人們對(duì)“大數(shù)據(jù)”認(rèn)識(shí)不斷深入,在Laney的3V基礎(chǔ)上提出了4V、5V、6V等概念[19]:數(shù)據(jù)價(jià)值(Value)、可視性(Visualization)、合法性(Validity)。本文從Laney最初的3V視角解析NoSQL的技術(shù)原理與特征。

2.1 數(shù)據(jù)類(lèi)型多樣化(Variety)與NoSQL的弱模式數(shù)據(jù)模型

在傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)中,每張表都事先定義好模式,數(shù)據(jù)存放在表里。表中每一行為一條數(shù)據(jù),對(duì)應(yīng)的列是該條數(shù)據(jù)的屬性值,屬性的數(shù)據(jù)類(lèi)型具有嚴(yán)格定義。當(dāng)插入一條數(shù)據(jù),該數(shù)據(jù)項(xiàng)中某一個(gè)列值不滿(mǎn)足表的預(yù)先定義格式要求,會(huì)導(dǎo)致插入數(shù)據(jù)不成功。這種“嚴(yán)格定義”較好地保證了數(shù)據(jù)的正確性。但在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)類(lèi)型與數(shù)據(jù)結(jié)構(gòu)呈現(xiàn)多樣化特征,結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)并存。今天設(shè)計(jì)好的檔案數(shù)據(jù)庫(kù)系統(tǒng)所存放的數(shù)據(jù)類(lèi)型與數(shù)據(jù)格式,不一定能滿(mǎn)足未來(lái)工作需求。另外,當(dāng)遇到不同檔案數(shù)字資源整合時(shí),異構(gòu)系統(tǒng)之間的數(shù)據(jù)格式與數(shù)據(jù)類(lèi)型未必完全一致,作為檔案信息系統(tǒng)后臺(tái)的數(shù)據(jù)庫(kù)管理系統(tǒng)DBMS需要有更開(kāi)放的數(shù)據(jù)包容能力,以滿(mǎn)足數(shù)據(jù)類(lèi)型多樣化要求。

大部分NoSQL的數(shù)據(jù)模型采用的是一種鍵-值類(lèi)型(key-value),可細(xì)分為:鍵-值型(key-value)、鍵-列型(key-column)、鍵-文檔型(key-document)。key是數(shù)據(jù)的序號(hào),通過(guò)key查找數(shù)據(jù)庫(kù)中的數(shù)據(jù)位置。該數(shù)據(jù)模型不用事先定義其內(nèi)在的數(shù)據(jù)結(jié)構(gòu),所以NoSQL數(shù)據(jù)模型屬于弱模式或者無(wú)模式的數(shù)據(jù)模型。相對(duì)關(guān)系型數(shù)據(jù)庫(kù)的表數(shù)據(jù),NoSQL采用的數(shù)據(jù)模型弱化了數(shù)據(jù)結(jié)構(gòu)中的語(yǔ)義部分,value部分的數(shù)據(jù)結(jié)構(gòu)依每條數(shù)據(jù)要求自行定義,其語(yǔ)義特征交由應(yīng)用層解析。這種弱模式或者無(wú)模式結(jié)構(gòu)很好地支持了大數(shù)據(jù)環(huán)境下數(shù)據(jù)類(lèi)型多樣化。當(dāng)前電子文件歸檔范圍不斷擴(kuò)大:文本文件(txt、word、pdf...)、圖像文件(jpg、gif、bmp)、影音文件(flash、rmvb、avi)等都納入數(shù)據(jù)庫(kù)管理范圍,且不同類(lèi)型的文件其著錄信息也不相一致。傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)下,通常為這些不同類(lèi)型的數(shù)據(jù)構(gòu)建不同的表,一旦需求發(fā)生改變,表結(jié)構(gòu)就可能需要隨之改變,從而產(chǎn)生額外的技術(shù)沖突和成本。而在非關(guān)系型數(shù)據(jù)庫(kù)中,不同類(lèi)型結(jié)構(gòu)的數(shù)據(jù)可以統(tǒng)一保存在(key-value)的數(shù)據(jù)集中,每條數(shù)據(jù)value部分的數(shù)據(jù)結(jié)構(gòu)可以依據(jù)具體要求而自行定義,數(shù)據(jù)類(lèi)型與數(shù)據(jù)結(jié)構(gòu)的包容性更強(qiáng),異構(gòu)系統(tǒng)之間的數(shù)據(jù)整合也更為方便,滿(mǎn)足大數(shù)據(jù)對(duì)數(shù)據(jù)類(lèi)型多樣化要求。

2.2 海量數(shù)據(jù)存儲(chǔ)(volume)與NoSQL的分布式存儲(chǔ)

在傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)中,數(shù)據(jù)庫(kù)里所有表的集合構(gòu)成了一個(gè)邏輯上的整體。當(dāng)數(shù)據(jù)庫(kù)中表容量增加到一定規(guī)模,致使一臺(tái)服務(wù)器存儲(chǔ)容量無(wú)法承載其全部表集合時(shí),需要分布式承載,此時(shí)數(shù)據(jù)分割問(wèn)題便隨之而來(lái)。雖然關(guān)系型數(shù)據(jù)庫(kù)在分布式環(huán)境下給出了“表”的橫向分割和縱向分割多種方案,但每種方案的代價(jià)都是驚人的,其對(duì)“表”分割的代價(jià)無(wú)異于系統(tǒng)的二次開(kāi)發(fā)。大數(shù)據(jù)環(huán)境下的海量數(shù)據(jù)呈流數(shù)據(jù)狀態(tài),隨著時(shí)間的推移會(huì)持續(xù)增長(zhǎng),數(shù)據(jù)庫(kù)會(huì)面臨著再次分割。數(shù)據(jù)庫(kù)系統(tǒng)需要適應(yīng)這種數(shù)據(jù)膨脹環(huán)境,以低代價(jià)或者無(wú)代價(jià)方式任意擴(kuò)展自己的數(shù)據(jù)存儲(chǔ)。顯然,關(guān)系型數(shù)據(jù)庫(kù)難以滿(mǎn)足此項(xiàng)要求。

由于NoSQL的數(shù)據(jù)模型采用弱模式或者無(wú)模式的數(shù)據(jù)類(lèi)型。其數(shù)據(jù)分割不再像表數(shù)據(jù)分割那樣困難,只需依據(jù)數(shù)據(jù)集中每個(gè)數(shù)據(jù)的key值范圍“重新”劃定部署位置,便可以分布式地存放在不同服務(wù)器的存儲(chǔ)空間。目前較為流行的NoSQL數(shù)據(jù)存儲(chǔ)方案為“Master-Range”方案,如圖2所示:

圖2 Master-Range數(shù)據(jù)分布式存儲(chǔ)方案架構(gòu)

Master節(jié)點(diǎn)(MasterServer)負(fù)責(zé)管理整個(gè)數(shù)據(jù)庫(kù)系統(tǒng),同時(shí)監(jiān)視Range節(jié)點(diǎn)(RangeServer)的運(yùn)行狀態(tài),并為每一個(gè)Range節(jié)點(diǎn)分配數(shù)據(jù)存儲(chǔ)的范圍(key值范圍),形成一個(gè)key值與RangeServer的映射表tablet,通過(guò)tablet表獲取key值和RangeServer地址。Master一般采用多副本控制策略,當(dāng)主Master服務(wù)器宕機(jī)時(shí),選擇一臺(tái)副Master為新的主Master。Range節(jié)點(diǎn)是數(shù)據(jù)存放節(jié)點(diǎn),也是真正與客戶(hù)發(fā)生數(shù)據(jù)交互和數(shù)據(jù)處理的節(jié)點(diǎn)。同時(shí)Range節(jié)點(diǎn)不時(shí)向Master節(jié)點(diǎn)匯報(bào)自己的健康狀況和負(fù)載情況,當(dāng)某個(gè)Range節(jié)點(diǎn)發(fā)生故障或者負(fù)載過(guò)重時(shí),Master節(jié)點(diǎn)會(huì)執(zhí)行局部調(diào)度,將負(fù)載過(guò)重的Range數(shù)據(jù)調(diào)整到較空閑的Range節(jié)點(diǎn)上,同時(shí)相應(yīng)調(diào)整tablet表的映射關(guān)系。

通過(guò)Master-Range結(jié)構(gòu)將數(shù)據(jù)分散到多個(gè)節(jié)點(diǎn)中,當(dāng)增加新的Range節(jié)點(diǎn)時(shí),Master節(jié)點(diǎn)只需修改key值范圍與RangeSever集群的映射關(guān)系表tablet即可,擴(kuò)展代價(jià)非常低。Google的BigTable、Hadoop的Hypertable,阿里巴巴的OceanBase都是采用類(lèi)似結(jié)構(gòu)。據(jù)阿里巴巴官方報(bào)道,其增加一個(gè)數(shù)據(jù)庫(kù)服務(wù)站點(diǎn)的時(shí)間從過(guò)去1個(gè)月縮短為90分鐘。由此可見(jiàn)NoSQL在海量數(shù)據(jù)組織與數(shù)據(jù)管理上較傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)具有更好的靈活性與橫向擴(kuò)展性,滿(mǎn)足大數(shù)據(jù)環(huán)境下對(duì)海量數(shù)據(jù)存儲(chǔ)的管理要求。

2.3 處理速度快(Velocity)與NoSQL分布式計(jì)算資源

大數(shù)據(jù)環(huán)境下提高數(shù)據(jù)處理速度,一般可以通過(guò)提升性能或者增加規(guī)模來(lái)完成,也稱(chēng)為縱向擴(kuò)展方式和橫向擴(kuò)展方式兩種??v向擴(kuò)展方式是指通過(guò)提升現(xiàn)行服務(wù)器硬件的性能來(lái)提高數(shù)據(jù)處理能力。其優(yōu)點(diǎn)是方法簡(jiǎn)單,系統(tǒng)程序不需要修改,只需投入相應(yīng)的硬件更換費(fèi)用;缺點(diǎn)則是單臺(tái)硬件設(shè)備的性能存在上限,因而縱向擴(kuò)展方式存在性能提升瓶頸,且單臺(tái)硬件設(shè)備性能越高,其性?xún)r(jià)比越低。橫向擴(kuò)展方式是使用多臺(tái)廉價(jià)服務(wù)器,組成一個(gè)集群,通過(guò)并行運(yùn)算來(lái)提高系統(tǒng)的運(yùn)算速度。其優(yōu)點(diǎn)是系統(tǒng)的計(jì)算能力呈線(xiàn)性提升,隨處理速度需求增長(zhǎng)集群規(guī)模相應(yīng)擴(kuò)大;缺點(diǎn)則是針對(duì)集群服務(wù)器數(shù)量變化,系統(tǒng)程序要做相應(yīng)調(diào)整。

針對(duì)大數(shù)據(jù)環(huán)境下的各類(lèi)云服務(wù)平臺(tái)往往需要面對(duì)TB或是PB級(jí)數(shù)據(jù)存儲(chǔ),用戶(hù)數(shù)量千萬(wàn)甚至上億,日訪(fǎng)問(wèn)量百萬(wàn)次以上,并發(fā)數(shù)時(shí)常以千為數(shù)量級(jí)。由于縱向擴(kuò)展存在性能提升瓶頸,所以橫向擴(kuò)展方式將是各類(lèi)數(shù)字化平臺(tái)提升性能的首選方案。如圖2所示,實(shí)際與客戶(hù)發(fā)生數(shù)據(jù)交互的是Range節(jié)點(diǎn),而不是Master節(jié)點(diǎn)。所以當(dāng)Range節(jié)點(diǎn)數(shù)量增加時(shí),NoSQL系統(tǒng)平臺(tái)的計(jì)算資源也得到相應(yīng)提升。同時(shí)NoSQL技術(shù)引入了Map-Reduce高性能計(jì)算框架:通過(guò)映射(Map)化簡(jiǎn)(Reduce)的思想,可以把一個(gè)復(fù)雜任務(wù)分解為多個(gè)子任務(wù)交由不同Range節(jié)點(diǎn)并行執(zhí)行,再將執(zhí)行結(jié)果進(jìn)行化簡(jiǎn)歸約輸出,大大提高了數(shù)據(jù)庫(kù)系統(tǒng)的查詢(xún)、統(tǒng)計(jì)、數(shù)據(jù)分析運(yùn)算效率[20]。例如萬(wàn)方數(shù)據(jù)知識(shí)服務(wù)平臺(tái),采用自行研發(fā)的WFIRC檢索引擎(NoSQL技術(shù)的一種),將資源按照期刊、會(huì)議、學(xué)位、專(zhuān)利、標(biāo)準(zhǔn)等劃分?jǐn)?shù)據(jù)集,其中期刊數(shù)據(jù)集又可按照學(xué)科類(lèi)型繼續(xù)劃分存放在不同的服務(wù)器中,整個(gè)集群系統(tǒng)對(duì)文獻(xiàn)的查詢(xún)、統(tǒng)計(jì)、分析、論文相似性檢測(cè)等任務(wù)均分派由不同的數(shù)據(jù)集所在的服務(wù)器完成切詞、分詞、文本比對(duì)等計(jì)算任務(wù),最后將任務(wù)結(jié)果匯總輸出給用戶(hù)。一篇1萬(wàn)字的論文相似性檢測(cè),在海量文獻(xiàn)全文中比對(duì)耗時(shí)不到10秒。可見(jiàn)易于橫向擴(kuò)展的NoSQL技術(shù)滿(mǎn)足大數(shù)據(jù)對(duì)處理速度快的要求。

3 “NoSQL”技術(shù)在檔案大數(shù)據(jù)管理中的應(yīng)用分析

3.1 檔案知識(shí)服務(wù)功能實(shí)現(xiàn)

20世紀(jì)50年代知識(shí)服務(wù)就被圖情檔界提出,發(fā)展到今天其服務(wù)的內(nèi)容、形式、意義發(fā)生了巨大變化。在大數(shù)據(jù)背景下,知識(shí)服務(wù)更強(qiáng)調(diào)“知識(shí)”的自動(dòng)化生產(chǎn)[21],而不是簡(jiǎn)單的知識(shí)供給:從海量數(shù)據(jù)中提煉信息,從大量信息中挖掘知識(shí),即結(jié)構(gòu)化的數(shù)據(jù)構(gòu)成信息,有規(guī)律的信息得出經(jīng)驗(yàn)(知識(shí))過(guò)程??梢钥闯觯磥?lái)這種知識(shí)服務(wù)是建立在擁有大量信息基礎(chǔ)上,大量信息則是建立在海量數(shù)據(jù)獲取的基礎(chǔ)上。在大數(shù)據(jù)背景下,檔案知識(shí)服務(wù)被重新定義,檔案數(shù)據(jù)收集范圍從過(guò)去的經(jīng)加工、篩選、鑒別的歷史檔案數(shù)據(jù),朝著具有記錄性的人類(lèi)社會(huì)生活生產(chǎn)的全方位信息數(shù)據(jù)擴(kuò)展。檔案知識(shí)服務(wù)由過(guò)去的通過(guò)簡(jiǎn)單查詢(xún)獲取歷史檔案數(shù)據(jù)作為經(jīng)驗(yàn)知識(shí)為人們使用,演化為對(duì)海量檔案數(shù)據(jù)進(jìn)行數(shù)據(jù)分析、數(shù)據(jù)挖掘生成新的信息、新的知識(shí)過(guò)程。所以未來(lái)檔案知識(shí)服務(wù)的根基是擁有海量歸檔數(shù)據(jù)。如圖3所示:

圖3 數(shù)據(jù)—信息—知識(shí)關(guān)系

隨著檔案服務(wù)功能不斷深化,網(wǎng)絡(luò)社交媒體數(shù)據(jù)已經(jīng)納入了檔案數(shù)據(jù)收集的視野。Twitter是美國(guó)一家著名網(wǎng)絡(luò)社交媒體,該公司于2012年開(kāi)始推出“個(gè)人推文存檔”(Your Twitter Archive)服務(wù),用于保存用戶(hù)的歷史推文記錄,便于用戶(hù)查閱歷史數(shù)據(jù)信息[22]。這也開(kāi)啟了數(shù)據(jù)到信息再到知識(shí)的過(guò)程,例如:通過(guò)分析個(gè)人推文歷史數(shù)據(jù),可以得出過(guò)去5年人們所關(guān)注的生活問(wèn)題有哪些(提煉信息),通過(guò)獲取這些人們所關(guān)注“問(wèn)題”可以制定下屆政府施政方案(挖掘知識(shí))。同時(shí)我們可以看到Twitter公司于2010年棄用傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)MySQL,啟用NoSQL計(jì)劃。原因是在2009年,Twitter每天產(chǎn)生約12TB用戶(hù)數(shù)據(jù),每年產(chǎn)生約4PB數(shù)據(jù)(且數(shù)據(jù)增長(zhǎng)速度還在擴(kuò)大),MySQL已經(jīng)無(wú)法應(yīng)對(duì)如此龐大的海量數(shù)據(jù)管理。所以在大數(shù)據(jù)環(huán)境下,這類(lèi)流數(shù)據(jù)隨時(shí)間成持續(xù)性增長(zhǎng),對(duì)電子數(shù)據(jù)長(zhǎng)久保存提出了更高要求。因?yàn)槲覀儫o(wú)法使用傳統(tǒng)設(shè)置時(shí)間點(diǎn)的概念刪除老舊數(shù)據(jù),也不能將老舊數(shù)據(jù)轉(zhuǎn)儲(chǔ)至異地與系統(tǒng)分隔。檔案大數(shù)據(jù)背景下,以全數(shù)據(jù)作為知識(shí)服務(wù)的根基,其數(shù)據(jù)管理系統(tǒng)應(yīng)能滿(mǎn)足海量流數(shù)據(jù)增長(zhǎng)需求,Twitter公司的數(shù)據(jù)管理經(jīng)驗(yàn)可以借鑒。

3.2 數(shù)字檔案記憶功能拓展

人腦具有“記憶”功能屬性,且人腦記憶容量一直是一個(gè)謎。2003年,英國(guó)《獨(dú)立報(bào)》曾報(bào)道:科學(xué)家估算人腦的記憶容量約為10的后面跟8432個(gè)零個(gè)字節(jié)。2014年3月Nature刊登了一篇文章,分析小白鼠的大腦相當(dāng)于1TB存儲(chǔ)容量,據(jù)此推算人腦容量約為7.6億TB存儲(chǔ)容量,用單塊硬盤(pán)8TB,也需要9500萬(wàn)塊硬盤(pán),這說(shuō)明人類(lèi)的腦容量不是現(xiàn)存某一臺(tái)超級(jí)計(jì)算機(jī)所能比擬的[23]。上述結(jié)論雖是科學(xué)臆測(cè),但可以從側(cè)面反映出人類(lèi)記憶具有海量數(shù)據(jù)容量特征。

“檔案是典型的記憶工具”成為“檔案是一種信息”與“檔案是一種知識(shí)”之后的又一重要提法[24]。雖然檔案作為記憶工具有別于人腦記憶,在記憶實(shí)踐活動(dòng)中往往具有選擇性,選取有價(jià)值的記憶作為保存對(duì)象,但作為具有人類(lèi)記憶功能屬性的檔案記憶隨著時(shí)間推演,未來(lái)會(huì)不會(huì)趨近于人類(lèi)記憶,我們不得而知。同時(shí)在現(xiàn)代科技發(fā)展水平不斷進(jìn)步的背景下,數(shù)據(jù)價(jià)值的判斷與選擇變得模糊。比如對(duì)某一天的氣象數(shù)據(jù)記憶,似乎并無(wú)太大價(jià)值,但如果連續(xù)記憶了10年、50年、100年的氣象數(shù)據(jù),針對(duì)該記憶進(jìn)行大數(shù)據(jù)分析,就可得出地球氣象變遷的趨勢(shì),進(jìn)而預(yù)測(cè)未來(lái)地球環(huán)境演化。美國(guó)國(guó)家大氣研究中心NCAR從20世紀(jì)60年代中期開(kāi)始對(duì)大氣變化數(shù)據(jù)進(jìn)行采集、歸檔、保存、利用,通過(guò)最新數(shù)據(jù)模擬系統(tǒng)可以構(gòu)建一個(gè)3D時(shí)空大氣運(yùn)行狀態(tài)[25]。這種大記憶觀對(duì)人類(lèi)生活中產(chǎn)生的數(shù)據(jù)信息盡可能多地進(jìn)行分類(lèi)、歸檔、記錄、挖掘、利用,一些看似無(wú)價(jià)值的記憶數(shù)據(jù)組合在一起將重獲新生價(jià)值,這將是檔案記憶價(jià)值的又一重要體現(xiàn)。

馮惠玲教授在《檔案記憶觀、資源觀與“中國(guó)記憶”數(shù)字資源建設(shè)》一文中,強(qiáng)調(diào)“若舍棄泛在、實(shí)時(shí)的數(shù)字資源,必將造成當(dāng)代社會(huì)活動(dòng)記錄的殘缺不全”,在互聯(lián)網(wǎng)時(shí)代應(yīng)注重網(wǎng)絡(luò)媒體資源的鑒別、收集、描述、整合、發(fā)布,通過(guò)廣大網(wǎng)民的查詢(xún)利用與鑒別考證讓檔案資源變得更加真實(shí)可信、更加有社會(huì)價(jià)值[26]??梢?jiàn),在大數(shù)據(jù)視域下,“檔案記憶觀”與“檔案資源觀”被重新詮釋?zhuān)瑱n案工作被賦予新的使命,檔案作為人類(lèi)記憶工具必將面臨海量的數(shù)據(jù)存儲(chǔ)與大規(guī)模的數(shù)據(jù)運(yùn)算,具備大數(shù)據(jù)3V特征的NoSQL技術(shù)正是實(shí)踐上述過(guò)程的有力工具。

3.3 智慧檔案館建設(shè)

隨著“智慧城市”概念的提出,智慧檔案館也興起一股研究熱潮,近年圍繞智慧檔案館的研究涌現(xiàn)出一批科研成果。魯俊杰在“對(duì)智慧檔案館及其研究的反思性探析”一文中,嘗試對(duì)智慧檔案館下定義[27]。楊來(lái)青在“檔案館未來(lái)發(fā)展的新前景:智慧檔案館”一文中對(duì)智慧檔案館的智慧特征進(jìn)行了5點(diǎn)歸納[28]。楊智勇在“試析智慧檔案館的興起與未來(lái)發(fā)展”一文中分析了智慧檔案館關(guān)于技術(shù)使用、體系架構(gòu)、知識(shí)服務(wù)三個(gè)層面的內(nèi)容[29]。陳嘉鈺在“智慧檔案館數(shù)據(jù)化管理功能的實(shí)現(xiàn)”中強(qiáng)調(diào)應(yīng)利用數(shù)字技術(shù)實(shí)現(xiàn)智慧檔案館管理功能的全面感知[30]??偨Y(jié)以往研究,可以得出智慧檔案館有別于傳統(tǒng)檔案館,主要在資源收集、智慧感知、泛在化服務(wù)三個(gè)層面朝著大數(shù)據(jù)3V特征靠近,并與NoSQL技術(shù)擁有契合點(diǎn),如圖4所示。

圖4 智慧檔案館與NoSQL技術(shù)契合點(diǎn)

首先,檔案資源是檔案服務(wù)的基礎(chǔ),智慧檔案館是數(shù)字檔案館的繼承和發(fā)展,其資源建設(shè)更突出多元化,資源的種類(lèi)、數(shù)量、增速進(jìn)一步提升。數(shù)據(jù)類(lèi)型多樣化、歸檔數(shù)據(jù)的長(zhǎng)久保存、海量數(shù)據(jù)的云存儲(chǔ)將成為未來(lái)智慧檔案館的建設(shè)特點(diǎn)。其次,智慧檔案館引入智慧感知概念,通過(guò)數(shù)據(jù)挖掘、內(nèi)容分析等技術(shù)手段實(shí)現(xiàn)感知檔案、感知信息,使檔案信息服務(wù)功能由過(guò)去簡(jiǎn)單的題錄查詢(xún),逐漸向檔案內(nèi)容語(yǔ)義的切詞、分詞、數(shù)據(jù)分析與深度挖掘等智能化服務(wù)轉(zhuǎn)變,這將要求智慧檔案館具備大規(guī)模高效并行運(yùn)算能力。再次,智慧檔案館服務(wù)方式的泛在化,尤其移動(dòng)互聯(lián)網(wǎng)的引入,將讓智慧檔案館與用戶(hù)保持零距離。截至2020年12月,我國(guó)手機(jī)用戶(hù)規(guī)模達(dá)9.86億,網(wǎng)民使用手機(jī)上網(wǎng)比例為99.7%[31]。這說(shuō)明智慧檔案館具有龐大的潛在用戶(hù)群,屆時(shí)實(shí)時(shí)響應(yīng)將對(duì)智慧檔案館擁有的吞吐量、并發(fā)數(shù)提出更高要求。上述變化是檔案大數(shù)據(jù)對(duì)智慧檔案館提出的內(nèi)在需求,也將使得智慧檔案館對(duì)其數(shù)據(jù)管理技術(shù)提出更高要求。

4 結(jié)語(yǔ):檔案大數(shù)據(jù)管理技術(shù)發(fā)展格局

上述論述是基于檔案數(shù)字化工作與大數(shù)據(jù)應(yīng)用完全融合狀態(tài),即檔案信息化建設(shè)進(jìn)入高級(jí)階段。而當(dāng)前我國(guó)檔案數(shù)字化建設(shè)還存在發(fā)展不均衡現(xiàn)象,許多地方檔案館的檔案資源特點(diǎn)還是已加工的、滯后的、靜止的、穩(wěn)定的電子文件數(shù)據(jù),這些數(shù)據(jù)雖然體量巨大,但與真正的“大數(shù)據(jù)”“全數(shù)據(jù)”還有一定差別[32],目前階段尚不必須要使用具有大數(shù)據(jù)特征的NoSQL技術(shù)。因此,NoSQL作為異于傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)SQL的一種新技術(shù),并非是要取代SQL,而是作為SQL的一種補(bǔ)充。

未來(lái)可預(yù)見(jiàn),那些建立在互聯(lián)網(wǎng)門(mén)戶(hù)基礎(chǔ)上,后臺(tái)具有海量檔案信息數(shù)據(jù),面向全體用戶(hù)并提供深層次數(shù)據(jù)分析與數(shù)據(jù)挖掘服務(wù)的檔案數(shù)據(jù)管理平臺(tái)將會(huì)借助NoSQL技術(shù)進(jìn)行檔案大數(shù)據(jù)管理。而面向區(qū)域部門(mén)的傳統(tǒng)檔案館的檔案數(shù)據(jù)管理平臺(tái)將會(huì)繼續(xù)采用傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)。綜合分析,NoSQL與SQL在檔案數(shù)字化建設(shè)中將長(zhǎng)期并存,如圖5所示。

圖5 未來(lái)檔案信息系統(tǒng)DBMS格局

猜你喜歡
海量數(shù)據(jù)管理檔案館
一種傅里葉域海量數(shù)據(jù)高速譜聚類(lèi)方法
企業(yè)級(jí)BOM數(shù)據(jù)管理概要
定制化汽車(chē)制造的數(shù)據(jù)管理分析
海洋環(huán)境數(shù)據(jù)管理優(yōu)化與實(shí)踐
CTCS-2級(jí)報(bào)文數(shù)據(jù)管理需求分析和實(shí)現(xiàn)
海量快遞垃圾正在“圍城”——“綠色快遞”勢(shì)在必行
關(guān)于縣級(jí)檔案館館藏檔案開(kāi)發(fā)利用的思考
全省部分檔案館新館掠影
浙江檔案(2017年10期)2017-03-31 06:27:31
一個(gè)圖形所蘊(yùn)含的“海量”巧題
when與while檔案館
子长县| 巴彦县| 广平县| 高密市| 德安县| 和政县| 磐石市| 中江县| 镇原县| 时尚| 莒南县| 陇川县| 固原市| 石景山区| 无为县| 马鞍山市| 黄石市| 宁化县| 石家庄市| 长乐市| 临城县| 桑日县| 邵阳县| 宿松县| 东乡族自治县| 太仆寺旗| 介休市| 团风县| 城固县| 金门县| 太白县| 惠安县| 云安县| 无为县| 广汉市| 葵青区| 博客| 平乡县| 新源县| 宁明县| 汤原县|