黃葉超,鄭庚
(廣東輕工職業(yè)技術(shù)學院,廣東廣州,510300)
在科學技術(shù)不斷革新的基礎(chǔ)上,數(shù)據(jù)量的穩(wěn)定增長促進著大數(shù)據(jù)時代的帶來,也進一步推動著大數(shù)據(jù)技術(shù)的發(fā)展,在此時代背景下,各大高校積極在教學過程中,加大對大數(shù)據(jù)技術(shù)人才培養(yǎng)的力度,而大數(shù)據(jù)技術(shù)實驗室的建設(shè)正是源于此。目前高校在人才培養(yǎng)的過程中,往往存在缺乏實驗基地以及實驗條件差的情況,這無法滿足學生實際需求,因此建設(shè)大數(shù)據(jù)技術(shù)實驗室就顯得十分重要了。
大數(shù)據(jù)是一種信息資產(chǎn),并且無法通過常規(guī)的軟件工具,進行捕捉、儲存以及管理、分析,同時大數(shù)據(jù)有著多樣化、海量以及增值量高的特點,是新時代的備受關(guān)注的基礎(chǔ)性戰(zhàn)略資源[1]。并且大數(shù)據(jù)具有高數(shù)量、速度快以及多樣性、高價值的特點,人們同對大數(shù)據(jù)的整理以及分析,能夠獲得新的需求,并持續(xù)增長新知識,對社會建設(shè)有著創(chuàng)新性價值。
大數(shù)據(jù)技術(shù)主要是對數(shù)據(jù)中蘊含的特點進行挖掘,通過建立模型、迭代驗證以及模型確立、預測實現(xiàn)這整個流程[2],能夠?qū)Ω餍袠I(yè)進行預測性分析,提出具有建設(shè)性、可行性的建議,有著一定的輔助決策作用。大數(shù)據(jù)技術(shù)主要分為計算分析技術(shù)以及數(shù)據(jù)存儲技術(shù)這兩個方面,其中數(shù)據(jù)存儲技術(shù)主要包括著MPP架構(gòu)新型數(shù)據(jù)庫集群以及非結(jié)構(gòu)化數(shù)據(jù)收集架構(gòu)等,而數(shù)據(jù)計算分析技術(shù)主要包括自然語言處理、預測模型以及模式識別技術(shù)等。
大數(shù)據(jù)技術(shù)實驗室的建設(shè),一方面可以給廣大師生搭建一個大數(shù)據(jù)技術(shù)研究與探索的重要平臺,能夠給一些工程研究生、青年教師,提供研究大數(shù)據(jù)處理技術(shù)、課題研究以及課堂教學實訓的良好環(huán)境,另一方面能夠有效的培養(yǎng)學生掌握大數(shù)據(jù)技術(shù)應(yīng)用理論、應(yīng)用能力,使得高校學生能夠具備扎實、良好的大數(shù)據(jù)處理、分析技術(shù),提高高校學生的創(chuàng)新能力、實踐能力以及動手能力,有利于高校培養(yǎng)出大數(shù)據(jù)技術(shù)型人才。
大數(shù)據(jù)技術(shù)實驗室建設(shè)需要在高校實際科研需求以及教學需求下,遵循國家建設(shè)標準,通過國內(nèi)外先進大數(shù)據(jù)技術(shù)支持,結(jié)合安全有效的技術(shù)手段,建立起有可行性、可擴展性以及實用性佳的大數(shù)據(jù)技術(shù)實驗室。在這個背景下,大數(shù)據(jù)技術(shù)實驗室硬件設(shè)施建設(shè)需要包括數(shù)據(jù)存儲與數(shù)據(jù)計算中心、數(shù)據(jù)終端以及可視化模塊[3]。數(shù)據(jù)存儲以及數(shù)據(jù)計算作為大數(shù)據(jù)技術(shù)實驗室整個核心部分,其主要包括計算資源、虛擬化以及存儲資源等基本功,常見的硬件設(shè)施多選擇HP、Dell以及IBM等。通過一些列的軟件部署以及架構(gòu),支撐起大數(shù)據(jù)技術(shù)實驗室基礎(chǔ)功能,常見的軟件設(shè)施有多種存儲模型管理系統(tǒng)等,在實際建設(shè)的過程中,高??梢苑e極借鑒國內(nèi)外有效高校的大數(shù)據(jù)技術(shù)實驗室建設(shè)經(jīng)驗,同時也可以參考一些科技公司在這方面的經(jīng)驗。
大數(shù)據(jù)技術(shù)實驗室由硬件與軟件設(shè)施整合而成的,主要包括了應(yīng)用層、云服務(wù)平臺以及虛擬資源層、基礎(chǔ)設(shè)施層。其中“應(yīng)用層”主要作為教學實驗實訓管理;“云服務(wù)平臺層”主要作為云服務(wù)運維管理;“虛擬資源層”主要作為計算資源的虛擬化管理,主要負責用戶管理,對用戶的申請、權(quán)限以及生產(chǎn)環(huán)境等配置模板進行管理,同時也針對用戶的實際需求,制作出相應(yīng)的系統(tǒng)鏡像,然后對其分配計算資源;“基礎(chǔ)設(shè)施層”則主要為服務(wù)器以及網(wǎng)絡(luò)設(shè)備,主要負責用戶VM管理以及在基礎(chǔ)設(shè)施中進行為物理服務(wù)器的維護以及添加。
大數(shù)據(jù)及時實驗室管理平臺建設(shè)主要包括知識資源庫管理平臺、協(xié)同開發(fā)服務(wù)云端平臺以及協(xié)同開發(fā)桌面云平臺。首先知識資源庫管理平臺建設(shè),一方面建設(shè)源碼庫、類庫等支持性構(gòu)件,另一方面要建設(shè)開發(fā)計劃、測試用例、實際素材以及案例庫等相關(guān)文檔,以此保障項目研發(fā)效率得到有效提升。另外,針對高校人才培養(yǎng)目標,需要建設(shè)相關(guān)的知識資源案例,提供詳細的項目案例示范、文檔撰寫示范以及編碼案例示范等。其次協(xié)同開發(fā)服務(wù)云端平臺建設(shè),需要將項目設(shè)計部分以及實際需求產(chǎn)生的項目軟件說明書,在平臺中進行系統(tǒng)導入,在此要注意的是,該說明書必須要作為注冊的初始化文檔進行導入。最后為系統(tǒng)開發(fā)桌面云平臺建設(shè),在實際建設(shè)的過程中,必須要將桌面計算機的CPU、內(nèi)存自己硬盤與計算資源在云計算數(shù)據(jù)中心機房進行部署,然后再對物理資源進行虛擬化轉(zhuǎn)變,并根據(jù)用戶的實際需求,提供符合用戶意見的虛擬桌面服務(wù)。
簡單以Spark大數(shù)據(jù)實驗室建設(shè)作為案例進行分析,Spark實驗室的建設(shè)是在基于OpenStack云平臺基礎(chǔ)上的,OpenStack主要起到一種虛擬機管理的作用,也就是說,主要對虛擬機的建設(shè)、掛起以及重啟、銷毀等操作進行管理。作為Spark實驗室的主要集群平臺,其通常由≧6臺的虛擬機配置,其中4臺虛擬機主要為工作節(jié)點,1臺虛擬機為主節(jié)點,剩余1臺虛擬機為主備份節(jié)點,組成Spark服務(wù)器集群。同時可以合理增加hadoop2.X配置,并要保障其部署結(jié)構(gòu)能夠和Spark部署結(jié)構(gòu)相一致,該配置能夠當做Spark on yarn的模式環(huán)境,這樣就能夠保障Spark集群可以提供Spark standlone以及Spark on yarn這兩種模式。在這種陪著下,Spark大數(shù)據(jù)實驗室建設(shè)具備了輕配置以及易擴展的優(yōu)勢特點,同時能夠重資源、易安裝,基本能夠滿足高校教師的課堂研究與教學需求,同時也滿足了學生的實踐需求。
對于高校來說,利用學校自身具備的多學科優(yōu)勢,積極建設(shè)大數(shù)據(jù)技術(shù)實驗室顯得十分重要,大數(shù)據(jù)技術(shù)實驗室的建設(shè),是將技術(shù)與科學的管理體系相結(jié)合,在專業(yè)優(yōu)勢背景下,使得高??蒲心芰Υ蟠筇嵘?,培養(yǎng)出更符合社會所需的技術(shù)型人才。
[1]李曉丹,劉云翔,王浩等.應(yīng)用型計算機專業(yè)大數(shù)據(jù)分析實驗室建設(shè)[J].實驗技術(shù)與管理,2017,34(09):236-238.
[2]莫瀟曉.大數(shù)據(jù)背景下計算機專業(yè)實驗室建設(shè)及管理研究[J].電子技術(shù)與軟件工程,2017,(09):151-153.
[3]崔博.院校大數(shù)據(jù)實驗室建設(shè)研究[J].才智,2017,(12):15.