文/卜南翔 徐述 王玉婷 曾海洋 王吉祥
(湖南城市學院 信息與電子工程學院 湖南省益陽市 413000)
隨著智慧校園的建設(shè),高校教學科研等各類應用中累積的大數(shù)據(jù)呈指數(shù)級規(guī)模增長,高校大數(shù)據(jù)蘊含著大量有價值的教改、科研、創(chuàng)新信息,必將在高校教學科學研究與實踐中發(fā)揮重要作用。
高校大數(shù)據(jù)既包括信息化建設(shè)以來,高校各部門信息系統(tǒng)中的結(jié)構(gòu)化數(shù)據(jù)、文本,也包括與高校相關(guān)的社交媒體、網(wǎng)頁、移動端所產(chǎn)生的非結(jié)構(gòu)化數(shù)據(jù)。這些數(shù)據(jù)缺少統(tǒng)一的數(shù)據(jù)處理平臺。在高校建立大數(shù)據(jù)收集與服務平臺,以服務為核心,通過機器學習算法分析出高校大數(shù)據(jù)中的有價值的信息為國家高等教育提供決策依據(jù),為師生提供更智能的信息指導服務,是高校優(yōu)化資源配置、增強人文氣質(zhì)、提升國家高等教育核心競爭力的重要保障。
數(shù)據(jù)倉庫之父BillInnmon 最早提出了大數(shù)據(jù)的概念,《The definitive guide》將大數(shù)據(jù)真正定義為一個詞匯。維基百科對大數(shù)據(jù)的定義如下:數(shù)據(jù)集大小與復雜性無法通過現(xiàn)有的數(shù)據(jù)處理軟件及集成開發(fā)環(huán)境,有效地進行組織、存儲、管理和處理的數(shù)據(jù)集。一般地,大數(shù)據(jù)具有4V 特征:
(1)巨量(Volume);
(2)多樣(Variety),數(shù)據(jù)不再是單一結(jié)構(gòu)化,更多的是半結(jié)構(gòu)、非結(jié)構(gòu)化;
(3)快變(Velocity),要求數(shù)據(jù)到達的速度快、實時響應速度快;
(4)價值(Value),這種價值往往是隱含的,需要挖掘的。
此外,最近IBM 還提出了大數(shù)據(jù)的第五個特征,即真實性(Veracity)。
高校范疇內(nèi)的各類數(shù)據(jù)構(gòu)成了高校大數(shù)據(jù),其形式上可以是結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化等,各種結(jié)構(gòu)的大數(shù)據(jù)中蘊含了豐富的社會科學及自然科學各門類教學科研信息與應用實踐信息。
高校在數(shù)字化建設(shè)過程中建立了各種信息管理或處理系統(tǒng),這些各自獨立的縱向系統(tǒng)產(chǎn)生了大量的結(jié)構(gòu)、非結(jié)構(gòu)數(shù)據(jù),如文本類文檔、日志等。此外,互聯(lián)網(wǎng)及物聯(lián)網(wǎng)技術(shù)支持的網(wǎng)絡和終端,也動態(tài)產(chǎn)生著大量高校數(shù)據(jù)。從數(shù)據(jù)結(jié)構(gòu)角度看高校大數(shù)據(jù)大致分兩類:第一類為七八十年代數(shù)據(jù)庫技術(shù)流行以來,高校關(guān)系數(shù)據(jù)庫中累積的關(guān)系數(shù)據(jù);第二類為高校一些非關(guān)系系統(tǒng)、移動終端所產(chǎn)生的半結(jié)構(gòu)、非結(jié)構(gòu)化數(shù)據(jù)。
高校大數(shù)據(jù)處理具有如下特點:
(1)數(shù)據(jù)加載速度快。向系統(tǒng)快速加載數(shù)據(jù)才能滿足高校大數(shù)據(jù)實時類服務快變的需求;
(2)系統(tǒng)集群易于水平擴展。根據(jù)需求靈活的擴展集群,既可以隨時滿足大數(shù)據(jù)系統(tǒng)的數(shù)據(jù)增長與處理需求,又可以控制成本;
(3)支持基于機器學習算法的多維度查詢。大數(shù)據(jù)時代下的用戶對于簡單查詢的需求并不多,更多的需求是復雜度更高的基于推薦、預測等的決策分析查詢,如專家系統(tǒng);
(4)實時處理??焖賹Π钚聰?shù)據(jù)的數(shù)據(jù)集做出合理地實時挖掘與更新分析是大數(shù)據(jù)存儲與處理的共同目標,也是兩者的瓶頸。
為了更好地挖掘高校大數(shù)據(jù)中蘊含的價值,基于高校大數(shù)據(jù)分散存放在高校各處獨立縱向數(shù)據(jù)處理系統(tǒng),缺乏統(tǒng)一的存儲平臺的現(xiàn)狀,本文對高校大數(shù)據(jù)集成與服務平臺系統(tǒng)展開研究與設(shè)計。
目前,國外高校大數(shù)據(jù)的研究可以總結(jié)為五大主題:
(1)技術(shù)環(huán)境研究。
(2)數(shù)據(jù)挖掘及應用。
(3)高校應用研究。
(4)用戶研究。
(5)開放資源與個性化教學。
國內(nèi)高校大數(shù)據(jù)的研究也可分為五大主題:
(1)高等教育教學改革。
(2)教學模式研究及應用。
(3)高校專業(yè)個性化學習研究。
(4)人才培養(yǎng)模式研究。
(5)教師發(fā)展分析與合理化推薦。
國外高校大數(shù)據(jù)分析側(cè)重應用研究,同時研究通??梢赞D(zhuǎn)化為實際應用,如美國將高校數(shù)據(jù)應用到醫(yī)療、保險、戶籍等方面。而我國對于高校大數(shù)據(jù)的研究側(cè)重于理論層面的探索以及對國外案例介紹,應用研究相對不足,處于起步階段,高校大數(shù)據(jù)生態(tài)尚未形成規(guī)模。
針對國內(nèi)高校大數(shù)據(jù)分析與服務方面的不足,高校大數(shù)據(jù)研究應該從智慧校園建設(shè)入手,為數(shù)據(jù)挖掘與分析創(chuàng)造充分條件。將高校范疇內(nèi)眾多軟件系統(tǒng)融入到校園云,實現(xiàn)高校實時數(shù)據(jù)的收集、清洗、存儲和分析,開展基于分布式存儲的大數(shù)據(jù)服務,實現(xiàn)教學、科研、產(chǎn)業(yè)的科學化、智能化管理。
同時,利用大數(shù)據(jù)技術(shù)創(chuàng)造大數(shù)據(jù)學習實驗環(huán)境,通過虛擬實驗室、虛擬仿真平臺、及各類仿真實訓系統(tǒng),使學生增加課程學習的深度與廣度,學以致用。
高校大數(shù)據(jù)統(tǒng)一存儲平臺多采用分布式文件系統(tǒng)HDFS 搭架。HDFS 將海量數(shù)據(jù)存儲在廉價計算機集群上,節(jié)約成本的同時又能保證數(shù)據(jù)的安全可靠。
分布式集群由命名節(jié)點(NameNode)和數(shù)據(jù)節(jié)點(DataNode)組成。命名節(jié)點負責數(shù)據(jù)文件的空間名稱管理以及客戶端交互操作,數(shù)據(jù)節(jié)點負責存儲數(shù)據(jù)。命名節(jié)點將數(shù)據(jù)文件分塊分配給數(shù)據(jù)節(jié)點存儲。HDFS 默認采用3 副本形式進行存儲,分放在多個機架(Rack)上。若集群中某數(shù)據(jù)節(jié)點發(fā)生故障,系統(tǒng)直接將副本拷貝過來就可以恢復故障節(jié)點數(shù)據(jù),因此系統(tǒng)穩(wěn)定可靠。基于HDFS 的高校大數(shù)據(jù)集成與服務平臺模型如圖1 所示。
高校大數(shù)據(jù)集成與服務,研究的內(nèi)容涉及(以課程體系服務為例):
(1)基于高校各類大數(shù)據(jù),構(gòu)架適合高校實際情況的大數(shù)據(jù)集群實驗平臺。常見的平臺實現(xiàn)方案有:Hadoop 集群;Spark集群;Hadoop 集群分布式存儲+Spark 分布式運算框架。其中Hadoop+Spark 集群存儲與運算框架適用于高校大數(shù)據(jù)成本規(guī)模,并且基于內(nèi)存的并行運算比Hadoop+MapReduce 速度快數(shù)十倍。
(2)高校各類大數(shù)據(jù)特征、收集方案及其分布式存儲;實現(xiàn)高?,F(xiàn)有各類結(jié)構(gòu)化、半結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)到大數(shù)據(jù)實驗平臺的復制以及流數(shù)據(jù)存儲功能。
(3)研究高校大數(shù)據(jù)服務(課程服務為例)的特征與需求。
(4)研究基于鄰域推薦算法、基于內(nèi)容推薦、基于關(guān)聯(lián)規(guī)則等各類機器學習算法,分析比較各種推薦方法的特點研究確定推薦算法組合思路,設(shè)計適用于高校大數(shù)據(jù)服務(課程服務為例,設(shè)計并實現(xiàn)課程體系服務中的選修課程推薦/參考書目推薦)的混合算法,并考慮算法改進;
(5)學習研究各類大數(shù)據(jù)可視化庫,確定適用于高校大數(shù)據(jù)服務(課程服務為例)的可視化工具;
(6)對高校大數(shù)據(jù)收集與服務平臺及其分布式存儲系統(tǒng)開展安全性研究。
(1)數(shù)據(jù)存儲與計算解耦模式。大數(shù)據(jù)計算與存儲是解耦的,數(shù)據(jù)與計算不必在同一位置,這樣的系統(tǒng)更靈活、資源利用率更高、成本更低,也更適用于高校的實際經(jīng)濟成本情況。
(2)高校大數(shù)據(jù)服務與大數(shù)據(jù)課程實驗結(jié)合的復合平臺。設(shè)計實現(xiàn)的平臺系統(tǒng)既可以實現(xiàn)高校大數(shù)據(jù)收集與服務,也可以做為大數(shù)據(jù)課程體系實驗平臺為專業(yè)學習提供服務。
(3)大數(shù)據(jù)分布式存儲的安全性研究。根據(jù)高校大數(shù)據(jù)的特點,開展適合高校具體情況的分布式存儲系統(tǒng)的安全性規(guī)劃與設(shè)計。
(1)Linux+Hadoop 構(gòu)架分布式存儲集群。Hadoop 最主要在Linux 操作系統(tǒng)環(huán)境下運行,并且適用于需要成本控制(例如高校)的大數(shù)據(jù)存儲環(huán)境,使用Linux+Hadoop 可以實現(xiàn)穩(wěn)定而易于擴展并且造價低廉的集群平臺與分布式數(shù)據(jù)存儲;
(2)Spark 分布式計算框架。Spark 是基于內(nèi)存、具有彈性的分布式集群運算框架,用來分析項目中的大數(shù)據(jù)服務,速度快。
(3)Eclipse+Python+Spark 大數(shù)據(jù)服務(以課程服務為例)開發(fā)。Eclipse 是很受歡迎的跨平臺的開發(fā)框架,具體地Spark 大數(shù)據(jù)服務應用程序通過在Eclipse IDE 中加載插件支持Python Spark 應用程序開發(fā),Python 語法簡潔、開發(fā)效率高,可以高效完成基于機器算法的課程體系服務開發(fā)任務。
系統(tǒng)體系結(jié)構(gòu)分為終端接入層、應用服務層與底層資源架構(gòu)層。
用戶使用個人微型計算機、筆記本、瘦終端、平板電腦、智能手機等接入節(jié)點接入系統(tǒng)。
圖1:高校大數(shù)據(jù)集成與服務平臺
資源推薦服務可以是課程資源搜索、課程資源推薦、以及用戶訪問教學資源統(tǒng)計等。以課程服務為例,可以向用戶進行課程選修、圖書借閱等個性化推薦并收集用戶評分,訓練改進服務算法。業(yè)務應用層中的用戶訪問的數(shù)據(jù)資源分布在分布式文件系統(tǒng)HDFS 上,根據(jù)高校大數(shù)據(jù)應用需求部署安裝大數(shù)據(jù)生態(tài)軟件包(如Hive、HBase、Flume、Azkaban、 Sqoop、MySQL 等);
將一臺物理服務器虛擬抽象為若干邏輯計算機,用戶面對一臺終端就像使用本地機器一樣,感受不到區(qū)別。在同一臺物理服務器上同時運行多臺邏輯計算機,每臺邏輯計算機獨立運行在不同的操作系統(tǒng)下,即可以有效隔離資源,又可以提高集群節(jié)點工作效率。
本文圍繞高校大數(shù)據(jù),研究了在高校大數(shù)據(jù)收集與服務系統(tǒng)的特點、開發(fā)框架與系統(tǒng)體系結(jié)構(gòu)。今后的研究可以圍繞各類高校大數(shù)據(jù)算法的效率比較,混合算法的參數(shù)設(shè)置,加權(quán)處理等方面開展。