趙亮
(錦州醫(yī)科大學(xué) 公共基礎(chǔ)學(xué)院,遼寧 錦州 121000)
[摘 要]隨著信息技術(shù)的不斷發(fā)展應(yīng)用,高校數(shù)字校園、智慧校園工程的持續(xù)建設(shè),高校校園環(huán)境中存儲(chǔ)的各類數(shù)據(jù)數(shù)量急劇增加,一個(gè)高校校園大數(shù)據(jù)環(huán)境已初步形成。建立基于Hadoop技術(shù)的高校校園大數(shù)據(jù)系統(tǒng),可采集、存儲(chǔ)、處理校園大數(shù)據(jù)環(huán)境中的各類數(shù)據(jù),能夠?yàn)楦咝=虒W(xué)和管理提供可靠的數(shù)據(jù)支撐?;诖?,本文分析了基于Hadoop的高校校園大數(shù)據(jù)系統(tǒng)設(shè)計(jì)。
[關(guān)鍵詞]大數(shù)據(jù);Hadoop;高校
doi:10.3969/j.issn.1673 - 0194.2017.10.142
[中圖分類號(hào)]TP333 [文獻(xiàn)標(biāo)識(shí)碼]A [文章編號(hào)]1673-0194(2017)10-0-02
大數(shù)據(jù)(Big Data)又稱為海量數(shù)據(jù)(Massive Data),數(shù)據(jù)科學(xué)家維克托·邁爾·舍恩伯格和肯尼斯.庫克耶在所著《大數(shù)據(jù)時(shí)代》中,指出大數(shù)據(jù)不采用隨機(jī)分析法而應(yīng)對(duì)所有數(shù)據(jù)進(jìn)行分析處理。研究機(jī)構(gòu)Gartner則提出大數(shù)據(jù)是一種具備多樣化、高增長率的信息資產(chǎn),在新型處理技術(shù)、處理模式下能夠?qū)崿F(xiàn)更強(qiáng)的流程優(yōu)化效率、提供更科學(xué)的決策依據(jù),且大數(shù)據(jù)具有大量、高速、多樣、價(jià)值和真實(shí)性的特點(diǎn)。高校校園中存在多類大數(shù)據(jù),通過信息化手段的采集和數(shù)據(jù)挖掘,能夠體現(xiàn)出巨大價(jià)值,這在傳統(tǒng)的高校校園教學(xué)和管理中往往被忽視了。設(shè)計(jì)構(gòu)建高校校園大數(shù)據(jù)系統(tǒng),有助于當(dāng)今信息時(shí)代高校校園大數(shù)據(jù)的采集、存儲(chǔ)、管理乃至應(yīng)用,是相關(guān)教育和科研人員正在進(jìn)行的研究之一。
1 高校大數(shù)據(jù)環(huán)境現(xiàn)狀
當(dāng)下高校校園大數(shù)據(jù)環(huán)境已初步形成,各類校園數(shù)據(jù)來源廣泛、類型復(fù)雜、數(shù)據(jù)量龐大。以高校學(xué)生為例,高校學(xué)生的大數(shù)據(jù)可以分為兩大類,一是學(xué)業(yè)大數(shù)據(jù):其包括高校生的選課數(shù)據(jù)、每門功課的出勤數(shù)據(jù)、各門功課的平時(shí)測(cè)驗(yàn)和考試成績等數(shù)據(jù);二是生活大數(shù)據(jù):其包括門禁卡通行數(shù)據(jù)、圖書館閱覽數(shù)據(jù)、校內(nèi)超市消費(fèi)數(shù)據(jù),甚至包括學(xué)生的微信、微博等數(shù)據(jù)。大規(guī)模數(shù)據(jù)集和多等級(jí)數(shù)據(jù)質(zhì)量對(duì)高校校園數(shù)據(jù)的存儲(chǔ)、分析、研究、應(yīng)用提出了挑戰(zhàn)。傳統(tǒng)的管理理念和方法漸漸無法滿足日益增長的數(shù)據(jù)處理需求,設(shè)計(jì)和構(gòu)建基于Hadoop的高校校園大數(shù)據(jù)系統(tǒng),以用來采集、存儲(chǔ)、處理高校校園中的多類數(shù)據(jù),并通過數(shù)據(jù)挖掘和數(shù)據(jù)分析,為高校教學(xué)和管理提供數(shù)據(jù)支撐,特別是為高校學(xué)生的學(xué)業(yè)、生活提供風(fēng)險(xiǎn)識(shí)別和預(yù)警功能。
2 基于Hadoop的高校校園大數(shù)據(jù)系統(tǒng)設(shè)計(jì)
2.1 Hadoop
Hadoop由開源組織Apache基金會(huì)開發(fā),是一個(gè)分布式系統(tǒng)基礎(chǔ)框架,它能夠?qū)崿F(xiàn)在多硬件集群上運(yùn)行應(yīng)用程序,組成具有高性能、高可靠性、高擴(kuò)展性、低成本的并行分布式系統(tǒng)。Hadoop由多種元素構(gòu)成,其三大核心技術(shù)包括分布式文件系統(tǒng)(Hadoop Distributed File System,HDFS),用于存儲(chǔ)集群硬件中的文件;編程模型Map Reduce,用來處理多種數(shù)據(jù)集合;分布式數(shù)據(jù)庫HBase。利用Hadoop的分布式技術(shù),設(shè)計(jì)構(gòu)建高校校園大數(shù)據(jù)系統(tǒng),能夠?qū)崿F(xiàn)對(duì)高校學(xué)生的大量多類數(shù)據(jù)進(jìn)行存儲(chǔ)、分析和高效處理,進(jìn)一步推進(jìn)高校智慧校園建設(shè)的進(jìn)程。
2.2 高校校園大數(shù)據(jù)系統(tǒng)設(shè)計(jì)
2.2.1 高校校園大數(shù)據(jù)系統(tǒng)總體框架
基于Hadoop技術(shù)的高校校園大數(shù)據(jù)系統(tǒng)的總體技術(shù)框架,可將系統(tǒng)分為三層,其中大數(shù)據(jù)采集與存儲(chǔ)層應(yīng)用HDFS文件系統(tǒng),校園數(shù)據(jù)分析層應(yīng)用Map Reduce計(jì)算模型,數(shù)據(jù)源層、大數(shù)據(jù)采集與存儲(chǔ)層的數(shù)據(jù)抽取,對(duì)接需要開發(fā)適合的底層適配接口模塊,用來采集高校校園大數(shù)據(jù)環(huán)境中的多類數(shù)據(jù)?;贖adoop技術(shù)的高校校園大數(shù)據(jù)系統(tǒng)總體框架,如圖1所示。
基于Hadoop技術(shù)的高校校園大數(shù)據(jù)系統(tǒng)分為數(shù)據(jù)源層、大數(shù)據(jù)采集與存儲(chǔ)層和校園大數(shù)據(jù)分析層。
數(shù)據(jù)源層用來采集數(shù)據(jù),包括學(xué)業(yè)數(shù)據(jù)和生活數(shù)據(jù),其中學(xué)業(yè)數(shù)據(jù)包括學(xué)生自然情況數(shù)據(jù)、選課數(shù)據(jù)、出勤數(shù)據(jù)、平時(shí)測(cè)驗(yàn)成績數(shù)據(jù)、考試成績數(shù)據(jù);生活數(shù)據(jù)包括一卡通數(shù)據(jù)(門禁卡通行數(shù)據(jù)、圖書館閱覽數(shù)據(jù)、校內(nèi)超市消費(fèi)數(shù)據(jù))、微博、微信等媒體數(shù)據(jù)。
大數(shù)據(jù)采集與存儲(chǔ)層通過數(shù)據(jù)共享接口獲取數(shù)據(jù)源層提供的各類數(shù)據(jù),校外數(shù)據(jù)需要開發(fā)商提供開放接口才能獲取。大數(shù)據(jù)采集與存儲(chǔ)層對(duì)收集到的數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換和存儲(chǔ)。
大數(shù)據(jù)分析層在Hadoop的Map Reduce編程模型上,構(gòu)建各類數(shù)據(jù)分析包,對(duì)提交的學(xué)生大數(shù)據(jù)進(jìn)行分析。從學(xué)生近些年的數(shù)據(jù)信息中得出學(xué)生的學(xué)業(yè)情況,對(duì)異常數(shù)據(jù)進(jìn)行判斷、分析和預(yù)警,為高校教學(xué)和管理人員及時(shí)關(guān)注學(xué)生、制定針對(duì)性教學(xué)策略、幫助學(xué)生全面、健康發(fā)展提供決策依據(jù)。
2.2.2 功能設(shè)計(jì)
基于Hadoop的高校校園大數(shù)據(jù)系統(tǒng),使用Java語言編寫后臺(tái)代碼,分層設(shè)計(jì)預(yù)留多個(gè)擴(kuò)展接口,方便后期添加新的校園大數(shù)據(jù)功能。前臺(tái)使用B/S模式采用ASP.NET語言開發(fā),對(duì)分析結(jié)果進(jìn)行展示。基于Hadoop的高校校園大數(shù)據(jù)系統(tǒng)的功能架構(gòu)如圖2所示。
基于Hadoop的高校校園大數(shù)據(jù)系統(tǒng)具體功能架構(gòu)分為以下3個(gè)部分:分析結(jié)果發(fā)布層、大數(shù)據(jù)分析層、管理功能層。分別提供公告和查詢等數(shù)據(jù)分析結(jié)果的發(fā)布功能;學(xué)生個(gè)體關(guān)注、歷史分析、實(shí)時(shí)分析的大數(shù)據(jù)分析功能;多用戶管理和數(shù)據(jù)管理的管理功能。
3 結(jié) 語
隨著信息技術(shù)在高校校園中的進(jìn)一步應(yīng)用,智慧校園工程的持續(xù)建設(shè),高校校園教學(xué)和管理理念的不斷發(fā)展,高校校園大數(shù)據(jù)環(huán)境一定會(huì)愈加完善。建立基于Hadoop技術(shù)的高校校園大數(shù)據(jù)系統(tǒng),能夠使原本被忽視的重要數(shù)據(jù)變廢為寶,通過科學(xué)合理的大數(shù)據(jù)管理和大數(shù)據(jù)挖掘,能為高校教學(xué)管理人員關(guān)注學(xué)生學(xué)業(yè)和生活提供數(shù)據(jù)分析依據(jù),也能為高校制定教學(xué)管理方針提供可靠的據(jù)數(shù)據(jù)支撐。
主要參考文獻(xiàn)
[1]李學(xué)龍,龔海剛.大數(shù)據(jù)系統(tǒng)綜述[J].中國科學(xué):信息科學(xué),2015(1).
[2]張?zhí)m廷.大數(shù)據(jù)的社會(huì)價(jià)值與戰(zhàn)略選擇[D].北京:中共中央黨校,2014.
[3]孫丹.基于TOE-RBV理論的大數(shù)據(jù)采納影響因素的實(shí)證研究[D].青島:中國海洋大學(xué),2015.
[4]崔杰,李陶深,蘭紅星.基于Hadoop的海量數(shù)據(jù)存儲(chǔ)平臺(tái)設(shè)計(jì)與開發(fā)[J].計(jì)算機(jī)研究與發(fā)展,2012(z1).
[5]王格芳.某金融系統(tǒng)海量數(shù)據(jù)并行處理架構(gòu)優(yōu)化設(shè)計(jì)與實(shí)現(xiàn)[D].北京:中國科學(xué)院大學(xué),2014.