朱寅
摘 要:隨著現(xiàn)代化技術(shù)的不斷發(fā)展,在數(shù)據(jù)存儲上也發(fā)生了極大變化,各行各業(yè)均開始運用大數(shù)據(jù)存儲來保障系統(tǒng)運行有效性。本文基于這一背景,簡單闡述了大數(shù)據(jù)以及存儲技術(shù)的概念,分析了大數(shù)據(jù)存儲的幾項技術(shù),并在此基礎(chǔ)上針對其標(biāo)準(zhǔn)化展開研究,旨在優(yōu)化大數(shù)據(jù)存儲方式,提升數(shù)據(jù)使用有效性。
關(guān)鍵詞:大數(shù)據(jù);存儲技術(shù);標(biāo)準(zhǔn)化
大數(shù)據(jù)指的是一種存儲、積累以及挖掘的大文件達(dá)到400GB甚至TB存儲程度的現(xiàn)象,在現(xiàn)如今信息化、網(wǎng)絡(luò)化發(fā)展時代下,大數(shù)據(jù)已經(jīng)并不罕見,且廣泛應(yīng)用于各行各業(yè)。傳統(tǒng)數(shù)據(jù)存儲及管理中,面對海量的數(shù)據(jù)存儲,其無論是存儲能力還是存儲效率,甚至是存儲安全性方面,均呈現(xiàn)出滯后狀態(tài)。目前在存儲技術(shù)上通常分為網(wǎng)絡(luò)存儲以及直接附加存儲兩種,其中網(wǎng)絡(luò)存儲又分為存儲域網(wǎng)絡(luò)以及網(wǎng)絡(luò)附屬存儲兩種。不同存儲技術(shù)適用范圍不同,本文針對其存儲方式以及標(biāo)準(zhǔn)化展開分析,現(xiàn)報告如下:
1 大數(shù)據(jù)存儲技術(shù)研究
1.1 非結(jié)構(gòu)化數(shù)據(jù)的處理
在這一方面,要數(shù)HDFS最具代表性。HDFS主要服務(wù)于系統(tǒng)中的各項應(yīng)用程序,其將一些POSIX接口開放,通過主/從結(jié)構(gòu)讓流式訪問文件的數(shù)據(jù)被允許操作。它是由不同的數(shù)據(jù)節(jié)點以及一個名字節(jié)點所組成,能夠讓數(shù)據(jù)按照一定模式分割為不同的64位數(shù)模塊,并將其安排到不同分布式集群(由不同數(shù)據(jù)節(jié)點組成)中進(jìn)行存儲。當(dāng)然,若在使用過程中大數(shù)據(jù)存儲量不斷增多,只需要增加數(shù)據(jù)節(jié)點即可輕松實現(xiàn)存儲功能,擴(kuò)展性能較強(qiáng)。另外,非結(jié)構(gòu)化數(shù)據(jù)處理在數(shù)據(jù)吞吐量方面性能較好,海量的數(shù)據(jù)處理不會明顯影響到用戶體驗。
1.2 分布式并行數(shù)據(jù)庫
分布式并行數(shù)據(jù)庫主要用于處理海量的、結(jié)構(gòu)化的數(shù)據(jù),是一種無共享、并行處理架構(gòu)的數(shù)據(jù)管理系統(tǒng)。這類型系統(tǒng)主要采用Slave或是Master架構(gòu)。Slave在運用上較多,例如用戶數(shù)據(jù)的存儲方面,多是被通過散列方式存儲在不同的Slave服務(wù)器之中,且數(shù)據(jù)在Slave的不同節(jié)點上也具有副本,在系統(tǒng)適用性上較高。Master架構(gòu)則只用于對元數(shù)據(jù)的存儲。
1.3 半結(jié)構(gòu)化數(shù)據(jù)的處理
傳統(tǒng)數(shù)據(jù)處理由于沒有使用NoSQL數(shù)據(jù)庫,當(dāng)遇到大數(shù)據(jù)存儲時往往表現(xiàn)出低性能、低擴(kuò)展性以及低靈活性缺陷。使用了NoSQL數(shù)據(jù)庫之后,云計算得以適應(yīng),目前其數(shù)據(jù)庫類型主要有以下幾種:列存儲數(shù)據(jù)庫、鍵值存儲數(shù)據(jù)庫、圖形數(shù)據(jù)庫以及文檔型數(shù)據(jù)庫。
2 大數(shù)據(jù)存數(shù)的標(biāo)準(zhǔn)化分析
2.1 云存儲服務(wù)
目前在大數(shù)據(jù)存儲上,普通用戶使用的云存儲服務(wù)大多為基于對象類型,表現(xiàn)為以下幾種模式:⑴綁定。綁定對象為特定的編程語言,表現(xiàn)為API開發(fā)包,這類型的綁定處理利用了在REST接口上的一層封裝,讓編程語言在運行效率上能夠大大提升。⑵接口設(shè)置。接口設(shè)置方面,主要采用HTTP接口或是REST接口兩種,要想實現(xiàn)云存儲服務(wù),就必須通過編程實現(xiàn)其交互功能,達(dá)到數(shù)據(jù)存儲的有效性。⑶非編程狀態(tài)下的存儲。這一種形式是由第三方軟件或是云存儲本身所在的運營商通過其門戶管理來完成的。對于使用者而言,它不需要再次編程,直接利用管理軟件調(diào)用REST接口或是圖形界面即可使用數(shù)據(jù)存儲功能。在這一形式中,使用者在后臺控制上會受到第三方軟件或者Portal的限制。
2.2 數(shù)據(jù)模型的設(shè)定及應(yīng)用接口研究
在數(shù)據(jù)存儲管理方面,應(yīng)注意對隊列對象、能力對象、域?qū)ο?、?shù)據(jù)對象以及容器對象這5個對象的管理,并實現(xiàn)對存儲數(shù)據(jù)的訪問功能。在這5個對象中,前三個屬于特殊容器對象的一種。在Key-Valuc幫助下,每個對象均能夠?qū)崿F(xiàn)元數(shù)據(jù)描述功能。這里的元數(shù)據(jù)指的是使用者自定義數(shù)據(jù)、存儲管理數(shù)據(jù)以及安全元數(shù)據(jù)等。
應(yīng)用接口方面,大數(shù)據(jù)存儲技術(shù)的應(yīng)用系統(tǒng)可分為4種,即對象存儲系統(tǒng)、分布式文件系統(tǒng)、分布式關(guān)系型數(shù)據(jù)庫系統(tǒng)以及NoSQL數(shù)據(jù)庫系統(tǒng),不同系統(tǒng)在應(yīng)用接口類型、應(yīng)用環(huán)境以及特性方面對比如下:⑴對象存儲系統(tǒng)。可適用REST或是HTTP接口,用于處理基于對象的設(shè)備操作以及數(shù)據(jù)存儲,可有效定義對象的屬性,為用戶提供基于數(shù)據(jù)對象的功能操作。⑵分布式文件系統(tǒng)。其應(yīng)用接口可使用HTTP、CIFS或是NFS,主要應(yīng)用于非結(jié)構(gòu)化數(shù)據(jù)的管理以及存儲,能夠?qū)⒃獢?shù)據(jù)有效定義,同時為用戶提供應(yīng)用及功能并管理相關(guān)數(shù)據(jù)。⑶分布式關(guān)系型數(shù)據(jù)庫系統(tǒng)??蛇m用SQL、JDBC、ODBC應(yīng)用接口,應(yīng)用于結(jié)構(gòu)化數(shù)據(jù)的管理與存儲,能夠?qū)﹃P(guān)系型數(shù)據(jù)模型有效定義,訪問時基于數(shù)據(jù)組織結(jié)構(gòu)狀態(tài)。⑷NoSQL數(shù)據(jù)庫系統(tǒng)。適用于API、REST或是HTTP接口,用于對半結(jié)構(gòu)化數(shù)據(jù)進(jìn)行管理與存儲,其不支持SQL,數(shù)據(jù)模型處理原則采用schema-free原則。
3 結(jié)束語
大數(shù)據(jù)存儲并非一項單純技術(shù),而是多種不同存儲技術(shù)的綜合。在具體操作方面,其應(yīng)用接口類型多樣化,目前應(yīng)用最為成熟的算是分布式文件系統(tǒng)。NoSQL數(shù)據(jù)庫系統(tǒng)以及對象存儲系統(tǒng)在應(yīng)用上尚未達(dá)到成熟階段,相信在今后的研究中會不斷完善,讓大數(shù)據(jù)存儲不斷趨近標(biāo)準(zhǔn)化,提升其使用可行性。
[參考文獻(xiàn)]
[1]韓晶.大數(shù)據(jù)服務(wù)若干關(guān)鍵技術(shù)研究[D].北京郵電大學(xué),2013.
[2]夏軍寶.空間科學(xué)大數(shù)據(jù)存儲模型SP-HDF及應(yīng)用研究[D].中國地質(zhì)大學(xué)(北京),2013.
[3]李海波,程耀東.大數(shù)據(jù)存儲技術(shù)和標(biāo)準(zhǔn)化[J].信息技術(shù)與標(biāo)準(zhǔn)化,2013,05:23-26.
[4]蔣海波.海量數(shù)據(jù)存儲系統(tǒng)的高可靠性關(guān)鍵技術(shù)研究與應(yīng)用[D].電子科技大學(xué),2013.