陳甜遠
摘 要:高校信息管理中心在大數(shù)據(jù)時代,面臨著存儲空間巨大、管理復雜、存儲利用率低下以及拓展數(shù)據(jù)分析新業(yè)務的諸多挑戰(zhàn)。針對大數(shù)據(jù)大量化、多樣化、快速化、不確定和價值難的特性,本文提出“高效存儲”和“云存儲”的技術(shù)來解決現(xiàn)有存儲空間不足和存儲效率低下的問題。而Apache Hadoop的開源分布式數(shù)據(jù)處理平臺對信息管理中心今后的數(shù)據(jù)分析職能指明了方向。
關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)管理中心;高效存儲;云存儲;分布式數(shù)據(jù)處理
1 前言
隨著我們進入以海量數(shù)據(jù)的結(jié)構(gòu)復雜、處理速度加快為特征的新信息化時代,“大數(shù)據(jù)”(Big Data)這個新名詞不得不被我們提上議事日程。事實上,大數(shù)據(jù)不是作為一種技術(shù)被提出,而是由于不斷增長的數(shù)據(jù)量和數(shù)據(jù)類型而逐漸衍生出的社會現(xiàn)象。這為高校帶來機遇和挑戰(zhàn),信息管理中心作為高校實施教育信息化的重要部門,如何在大數(shù)據(jù)時代,提高海量增長數(shù)據(jù)存儲處理能力、尋求新的信息服務途徑,是信息管理中心必須思考和研究的,只有理性認識“大數(shù)據(jù)”及其給我們的環(huán)境帶來的改變,分析挖掘海量數(shù)據(jù)的內(nèi)在聯(lián)系并歸納得出新的結(jié)論,才能為高校信息化建設發(fā)展提供更好的服務。
2 大數(shù)據(jù)的概述
“云計算”、“物聯(lián)網(wǎng)”等熱點的余溫還未過去,“大數(shù)據(jù)”這一概念已經(jīng)迫不及待地闖入我們的視野,并成為時下最火熱的互聯(lián)網(wǎng)信息技術(shù)行業(yè)詞匯。美國互聯(lián)網(wǎng)數(shù)據(jù)中心指出,互聯(lián)網(wǎng)上的數(shù)據(jù)每年將增長50%,每兩年便將翻一番,而目前世界上90%以上的數(shù)據(jù)是最近幾年才產(chǎn)生的。2012年,美國已經(jīng)制定了“大數(shù)據(jù)研發(fā)計劃”,可見對大數(shù)據(jù)的重視程度已經(jīng)上升為一種國家戰(zhàn)略。
最早提出“大數(shù)據(jù)”時代已經(jīng)到來的機構(gòu)是全球知名咨詢公司麥肯錫。麥肯錫在研究報告中指出,數(shù)據(jù)已經(jīng)滲透到每一個行業(yè)和業(yè)務職能領(lǐng)域,逐漸成為重要的生產(chǎn)因素;而人們對于海量數(shù)據(jù)的運用將預示著新一波生產(chǎn)率增長和消費者盈余浪潮的到來。隨著互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,數(shù)據(jù)本身就是資產(chǎn),這一點在業(yè)界已經(jīng)形成共識。事實上,全球互聯(lián)網(wǎng)巨頭都已意識到了“大數(shù)據(jù)”時代數(shù)據(jù)的重要意義。包括EMC、惠普、IBM、微軟在內(nèi)的全球IT 巨頭紛紛通過收購“大數(shù)據(jù)”相關(guān)廠商來實現(xiàn)技術(shù)整合,亦可見其對“大數(shù)據(jù)”的重視。那么到底什么是大數(shù)據(jù),業(yè)界內(nèi)還沒有一個準確的定義。中科院計算研究所給出的定義:“大數(shù)據(jù)是指無法在可容忍的時間內(nèi)用傳統(tǒng)IT技術(shù)和軟硬件工具對其進行全生命周期內(nèi)的感知、獲取、管理、挖掘和服務的數(shù)據(jù)集合”。大數(shù)據(jù)可分成大數(shù)據(jù)技術(shù)、大數(shù)據(jù)工程、大數(shù)據(jù)科學和大數(shù)據(jù)應用等領(lǐng)域。目前人們談論最多的是大數(shù)據(jù)技術(shù)和大數(shù)據(jù)應用。大數(shù)據(jù)從某種程度上說是數(shù)據(jù)分析的前沿技術(shù)。簡言之,從各種各樣類型的數(shù)據(jù)中,快速獲得有價值信息的能力,就是大數(shù)據(jù)技術(shù)。
2.1 大數(shù)據(jù)的特點
大數(shù)據(jù)區(qū)別于傳統(tǒng)數(shù)據(jù),是因為它有4V+1V的特性,即大量化(Volume)、多樣化(Variety)、快速化(Velocity)、不確定(Varacity)和價值難(Value)。
第一,數(shù)據(jù)體量巨大。數(shù)據(jù)容量從TB級別躍升到PB級別,世界數(shù)據(jù)總量已經(jīng)達到ZB的數(shù)量級,大企業(yè)的數(shù)據(jù)量已經(jīng)達到PB數(shù)量級。第二,數(shù)據(jù)類型繁多。目前非結(jié)構(gòu)化數(shù)據(jù)已經(jīng)占到世界數(shù)據(jù)總量的75%以上,數(shù)據(jù)間的互相作用使得其關(guān)聯(lián)性更加復雜。第三,數(shù)據(jù)真?zhèn)坞y辨。隨著數(shù)據(jù)量增大,數(shù)據(jù)的真實性難以辨別,例如對于網(wǎng)上發(fā)布的信息來源是否屬實都難以馬上判斷。第四,數(shù)據(jù)處理速度快,要達到秒極,許多“大數(shù)據(jù)”應用環(huán)境需要較高的IPOS性能,甚至需要實時獲取有價值的數(shù)據(jù)。第五,價值密度低。面對每時每刻產(chǎn)生的海量數(shù)據(jù),需要專業(yè)的技術(shù)工具進行篩選、分析出有價值的信息,否則,會變成不斷增長的數(shù)據(jù)垃圾。
2.2 大數(shù)據(jù)帶來的影響
一個大數(shù)據(jù)的新時代正在到來,其對商業(yè)、政府、民主和文化的影響將是巨大的。首先,以往我們進行商業(yè)判斷時,大多靠我們的經(jīng)驗和直覺,所以會出現(xiàn)不是很確定的判斷。大數(shù)據(jù)時代很多企業(yè)的正確決策是依靠數(shù)據(jù)分析得出,例如企業(yè)通過內(nèi)部數(shù)據(jù)挖掘,更精準地找到用戶,降低營銷成本,提高企業(yè)銷售率,依靠大數(shù)據(jù)技術(shù)為企業(yè)帶來巨大的運營效益。而政府可以通過收集在網(wǎng)上人們的搜索、發(fā)帖和微博消息等數(shù)據(jù)信息,分析人們的行為和情緒,從數(shù)據(jù)中找到民意所向,及時優(yōu)化策略,調(diào)整措施,提高政府辦事效率。大數(shù)據(jù)可以幫助人們開啟循“數(shù)”管理的模式,也是我們當下“大社會”的集中體現(xiàn),三分技術(shù),七分數(shù)據(jù),得數(shù)據(jù)者得天下。
3 大數(shù)據(jù)時代的信息管理中心發(fā)展
3.1 當前高校信息管理中心職能情況
伴隨著高校信息化的發(fā)展,高校信息管理中心在教育信息化建設和數(shù)據(jù)中心管理中扮演著越來越重要的角色,其名稱也是隨著職能的發(fā)展而變化,由最初的電教中心,到教育技術(shù)中心,再到現(xiàn)在的信息管理中心。目前它負責學校信息化的日常工作,信息資源的收集、制作、利用、發(fā)布的過程、方法和手段,承擔教師現(xiàn)代教育技術(shù)的培訓和指導,制定學校信息化建設發(fā)展規(guī)劃和信息化工作的各項規(guī)章制度。信息管理中心的職能大概范圍分為4個部分:
(1)校園網(wǎng)建設:負責園區(qū)網(wǎng)、互聯(lián)網(wǎng)、廣播電視網(wǎng)的建設、運行、管理和維護。
(2)信息資源建設:負責校園門戶網(wǎng)信息的建設、維護和日常更新,對信息資源的收集和采編,建立學校資源庫,建立各種資源應用系統(tǒng),為教學和辦公提供服務。
(3)電教服務:為教員進行多媒體技術(shù)、網(wǎng)絡技術(shù)和辦公軟件應用等信息化培訓工作,提教員高信息化應用技能。維護電教設備,以及安排好多媒體教室的使用。
(4)照相錄像保障:承擔校內(nèi)宣傳和教學工作的錄像和照相保障任務,以及后期的視頻采集、光盤刻錄、硬盤復制、專題片制作、視頻圖片的分類保存等。
3.2 信息管理中心面臨的問題
(1)大數(shù)據(jù)存儲管理問題。首先,存儲空間巨大給存儲硬件帶來壓力。大數(shù)據(jù)時代信息管理中心的數(shù)據(jù)管理已經(jīng)不止是簡單的網(wǎng)頁文本、照片和視頻文件。數(shù)據(jù)來源不斷增多,例如移動互聯(lián)網(wǎng)、手機、平板電腦、pc以及遍布校園內(nèi)的傳感器和監(jiān)控器等,這些都是數(shù)據(jù)的來源或者承載著,它們每天帶給我們大容量(通??梢赃_到PB級的數(shù)據(jù)規(guī)模)的數(shù)據(jù),這就需要購置大量的存儲設備去滿足不斷增長的需求,而傳統(tǒng)模式的數(shù)據(jù)存儲方式不但擴展能力有限,而且擴展方法比較麻煩。
其次,容量效率低。在高校多種應用系統(tǒng)的環(huán)境下,存儲系統(tǒng)資源相互獨立,往往造成存儲系統(tǒng)的利用率不均衡,有的存儲設備雖然已經(jīng)飽和,而有的利用率卻不到30%,這就造成存儲設備的資源浪費。
最后,對于非結(jié)構(gòu)化數(shù)據(jù)存儲管理效率低。對各種類型的數(shù)據(jù)如辦公文檔、圖像、音頻、視頻、電子郵件、超媒體等非結(jié)構(gòu)化數(shù)據(jù)來說,數(shù)據(jù)處理操作不僅需要使用不同的文件處理軟件,而且要在人工參與下才能完成。過多的人工操作會大大增加數(shù)據(jù)處理的時間,致使信息管理中心無法快速獲得重要的信息,工作效率降低。
(2)傳統(tǒng)工作流程出現(xiàn)的問題。高校信息管理中心以信息資源建設,教育技術(shù)保障為主的傳統(tǒng)職能,在大數(shù)據(jù)時代已經(jīng)不能滿足高校信息化發(fā)展的要求,信息管理中心不僅需要收集、存儲大量的數(shù)據(jù)信息,還要在這些原始數(shù)據(jù)的基礎(chǔ)上通過專業(yè)技術(shù)手段分析、挖掘數(shù)據(jù),得到更為有效的信息資源,為高校教育發(fā)展和信息化建設的決策提供數(shù)據(jù)參考。而傳統(tǒng)的數(shù)據(jù)管理方式適用于存量不大并且實時性要求不高的結(jié)構(gòu)化數(shù)據(jù),面對大容量的非結(jié)構(gòu)化數(shù)據(jù)只是杯水車薪。
3.3 怎么應對大數(shù)據(jù)的挑戰(zhàn)
面對大數(shù)據(jù)帶給我們的諸如存儲空間巨大、管理復雜、存儲利用率低下、能源消耗巨大等諸多挑戰(zhàn),為了提高數(shù)據(jù)存儲數(shù)量和效率,人們提出了“高效存儲”、“云計算”等技術(shù)來解決存儲效率方面的問題。
首先,高效存儲技術(shù)通常包括數(shù)據(jù)壓縮、重復數(shù)據(jù)刪除、自動精簡配置等。但其單一技術(shù)往往難以顯著地提高存儲利用效率、降低能耗、降低成本,實際中通常綜合運用多種技術(shù)以獲得更佳的整體效果。
(1)數(shù)據(jù)壓縮技術(shù)原理將收到的數(shù)據(jù)通過存儲算法存儲到更小的空間中去。最新研發(fā)出的在線壓縮(RACE)技術(shù),使得數(shù)據(jù)壓縮技術(shù)發(fā)生了極大的改變,它具有更快捷更準確的活躍數(shù)據(jù)判斷能力和縮減能力,在不降低性能要求的情況下,將存儲需求最多可降低80%。與傳統(tǒng)壓縮技術(shù)不同,對RACE技術(shù),當主數(shù)據(jù)在首次寫入時即被壓縮,當大量數(shù)據(jù)在主存中雜亂無章地存儲時,可以有效地控制存儲,進而降低功耗,提高存儲系統(tǒng)中的磁盤和緩存的性能和效率。
(2)重復刪除技術(shù),通過刪除存儲設備中數(shù)據(jù)集中重復的數(shù)據(jù),只保留其中一份,從而消除冗余數(shù)據(jù),對存儲容量進行優(yōu)化。其中以Dedupe技術(shù)為例,它將文件變成定長或變長的數(shù)據(jù)塊,采用MD5/SHA1等Hash(散列)算法為數(shù)據(jù)塊計算指紋。具有相同指紋的數(shù)據(jù)塊即可認為是相同的數(shù)據(jù)塊,存儲系統(tǒng)中僅需要保留一份,將數(shù)據(jù)縮減到原來的1/20-1/50。由于大幅度減少了對物理存儲空間的需求,進而減少傳輸過程中的網(wǎng)絡帶寬、節(jié)約設備成本。
(3)自動精簡配置,是一種全新的存儲空間管理技術(shù)。在傳統(tǒng)存儲空間分配過程中,系統(tǒng)往往預先給某個應用分配足夠大的空間,實際使用容量僅占其20%-30%,這是一種很大的浪費。自動精簡配置技術(shù)是利用虛擬化方法減少已分配但未使用的存儲容量的浪費,用戶需要多少存儲空間系統(tǒng)則按需分配,它不會一次性地劃分過大的空間給某項應用,而是通過塊或塊組將資源寫入特定卷。當該項應用所產(chǎn)生的數(shù)據(jù)增長、分配的容量空間已不夠的時候,系統(tǒng)會兩次從后端存儲池中補充分配一部分存儲空間。因此自動精簡配置技術(shù)優(yōu)化了存儲利用,擴展了存儲管理功能,是解決存儲過量供給的最有效方式。
其次,“大數(shù)據(jù)”的天生就與“云計算”有著密切聯(lián)系。云計算的蓬勃發(fā)展,客觀上開啟了大數(shù)據(jù)時代的大門。如果用高速公路來比喻云計算,那么大數(shù)據(jù)就是所有汽車中的貨物。云計算為大數(shù)據(jù)提供了存儲空間、訪問渠道及運算能力。云存儲是在云計算概念上延伸和發(fā)展的一個新的概念,是指通過集群應用、網(wǎng)絡技術(shù)或分布式文件系統(tǒng)等功能,將網(wǎng)絡中大量各種不同類型的存儲設備通過應用軟件集合起來協(xié)同工作,共同對外提供數(shù)據(jù)存儲和業(yè)務訪問功能的一個系統(tǒng)。信息管理中心可以通過租用云服務提供商的服務,將大部分數(shù)據(jù)遷移至云存儲上,所有的升級、維護等管理任務均由云存儲服務提供商來完成,而不必考慮存儲容量、存儲設備類型、數(shù)據(jù)存儲位置,以及更多的關(guān)于數(shù)據(jù)的可用性、可靠性和安全性等繁雜的技術(shù)層面,避免了購買硬件設備及技術(shù)維護而投入的精力,節(jié)省下來的資源可以用于更多的業(yè)務發(fā)展。
最后,迎接大數(shù)據(jù)的挑戰(zhàn),不僅僅是硬件的準備,而對海量數(shù)據(jù)進行挖掘分析,得到有價值的信息,才是大數(shù)據(jù)的真正本質(zhì)。商家可以通過與互聯(lián)網(wǎng)運營商合作從搜索引擎、Facebook的帖子和微博消息中分析人們的行為和情緒的細節(jié),挖掘用戶的行為習慣和喜好,找到更符合用戶興趣和習慣的產(chǎn)品和服務,并有針對性地調(diào)整和優(yōu)化。同樣,高校信息管理中心可以從收集到的大量數(shù)據(jù)中分析得到有效信息來優(yōu)化職能,更有效的服務。對大數(shù)據(jù)分析,需要建設非結(jié)構(gòu)化數(shù)據(jù)分析平臺,當前平臺主要有并行數(shù)據(jù)庫、MapReduce及基于兩者的混合架構(gòu)。而Apache Hadoop開源分布式數(shù)據(jù)處理平臺以其大數(shù)據(jù)特性成為業(yè)界焦點,它能夠?qū)Υ笕萘繑?shù)據(jù)進行分布式處理,具有高可靠性、高效性及高擴展性。并且用戶可以輕松地在Hadoop上開發(fā)和運行處理海量數(shù)據(jù)的應用程序。因此,要熟悉和掌握Hadoop分布式數(shù)據(jù)分析平臺,對信息管理中心的技術(shù)人員提出了更高的要求,需要及時更新知識結(jié)構(gòu),盡快熟悉和掌握分布式數(shù)據(jù)處理的原理和應用,成為大數(shù)據(jù)時代背景下高校信息管理中心的數(shù)據(jù)人才。