曹素麗, 楊延廣, 張翠軒
(石家莊郵電職業(yè)技術學院 計算機系, 石家莊 050021)
截至到2018年,開設“大數(shù)據(jù)技術與應用”專業(yè)的高職院校已達到208所,越來越多的學校加入到了該專業(yè)人才培養(yǎng)中來。我校于2015年開始籌建該專業(yè),2016年正式開始招生(原名是:計算機應用技術——大數(shù)據(jù)技術應用方向),是全國最早招收該專業(yè)的高職院校之一,由于該專業(yè)是新設專業(yè),可借鑒經(jīng)驗少,各教學環(huán)節(jié)都需要教師去摸索。三年多來,我校投入大量的精力對專業(yè)建設、實驗室建設和課程建設等做了深入的調(diào)查研究與實踐,截至目前,該專業(yè)在我校即將完成一個完整的教學周期。在教學中我們堅持以學生為中心的教學理念,以學生的目標崗位需求來確定教學內(nèi)容,按照“以學生為主體,以教師為主導,充分發(fā)揮學生的主動性”原則來設計各個環(huán)節(jié)。本文將對該專業(yè)中核心課程《Hadoop大數(shù)據(jù)平臺》的教學設計與實施方案進行討論與總結。
在“大數(shù)據(jù)技術與應用”專業(yè)課程體系,“Hadoop大數(shù)據(jù)平臺”是最核心的課程,目的是讓學生在具備先修課“Linux系統(tǒng)管理”“關系數(shù)據(jù)庫”“Java開發(fā)”“大數(shù)據(jù)與云計算概論”等技術基礎課后,進一步學習分布式存儲技術、并行計算框架技術等大數(shù)據(jù)系統(tǒng)相關技術課程,本課程計劃課時為100學時。
大數(shù)據(jù)系統(tǒng)是一個龐大的生態(tài)系統(tǒng),而Hadoop是生態(tài)系統(tǒng)的典型代表,其提供的分布式存儲方案HDFS、并行計算方案MapReduce構成了大數(shù)據(jù)系統(tǒng)的基礎架構,在此框架基礎上,為了解決不同應用場景的問題又逐漸發(fā)展起了面向各種不同應用的生態(tài)組件,這就是學生畢業(yè)后要面對的主要系統(tǒng),如圖1所示。
根據(jù)高職教育的特點和目標崗位需求,我們秉承理論夠用、重在實踐的原則,通過分析企業(yè)的實際應用情況,我們精選最主流最常用的技術與組件來構成本課內(nèi)容。Hadoop體系結構、HDFS、MapReduce屬于大數(shù)據(jù)技術的基礎性知識,是學習和理解其他技術的前提;Hive是一種簡便開發(fā)MapReduce程序解決大數(shù)據(jù)離線分析的工具,能解決企業(yè)近一半應用,簡單易用廣受歡迎;HBase是適合大數(shù)據(jù)實時查詢應用的非關系數(shù)據(jù)庫,底層采用HDFS進行大數(shù)據(jù)存儲;Sqoop可以將企業(yè)已經(jīng)收集起來的大量的關系型生產(chǎn)數(shù)據(jù)導入到Hadoop中進一步處理,還可以將處理后的結果再傳回到關系數(shù)據(jù)庫,Sqoop在很多企業(yè)中有著硬性的應用需求;Spark是一種與Hadoop相似的集群計算環(huán)境,基于內(nèi)存計算,從而數(shù)據(jù)分析速度更快,有逐步替代MapReduce計算的趨勢,是Hadoop生態(tài)系統(tǒng)中重要的組成成員。由此我們將Hadoop框架和這6個功能組件共7個模塊確定為本課的核心內(nèi)容,見圖1中的灰色部分,其中的YARN與ZooKeeper是學習7個模塊過程中的輔助學習內(nèi)容。
圖1 Hadoop體系架構及教學模塊
本課程包含的內(nèi)容模塊較多,對每個模塊我們定位在初步認識和簡單使用這一層面,讓學生理解Hadoop及其各組件的基本工作機制、學會整個系統(tǒng)的安裝部署與調(diào)試,具備一定的操作、維護與應用能力,后期學生可以在MapReduce開發(fā)、Hive數(shù)據(jù)分析等方面繼續(xù)深入學習。
Hadoop是由多個相互關聯(lián)又相對獨立的功能模塊構成的,課程實踐性、操作性強,非常適合采取任務驅動教學方式。任務驅動是一種以學生為主體,以教師為主導的教學做一體化的教學形式。學習過程中,由老師提出問題布置任務,學生在完成任務的過程中學到新知識和技能。在任務驅動下,學生變被動為主動,體現(xiàn)了“以學生為中心”的原則,是一種適合于學習新知識、掌握新技能的探究式學習方式。
任務驅動學習方式下,教學組織以“任務”為載體,老師需要根據(jù)教學內(nèi)容要求,把知識、技能分解,根據(jù)學生水平和學習條件設計為一個個適當?shù)娜蝿?,讓學生逐個去完成,將教學內(nèi)容蘊含于任務之中。該課程模塊劃分清晰,我們將每個模塊設計成一項綜合任務,每個任務中又包括知識準備和實戰(zhàn)兩類多項具體子任務,即要先簡單學習基本概念、功能及原理等預備知識,之后再動手進行系統(tǒng)安裝部署,進行實際操作完成任務,最后進行總結交流,進一步加深理解、完善知識體系。
任務的先后順序主要基于該組件在Hadoop生態(tài)圈所處的層次與地位來考慮,本課程按照自底向上、自里到外,自基礎到擴展的原則來設計安排講解的次序,逐步遞進。針對7個模塊共設計了20多項學習任務,如表1所示。
表1 教學任務設計
學習模塊任務設計學習內(nèi)容和要求5.數(shù)據(jù)傳輸工具Sqoop· Sqoop安裝 · 應用實戰(zhàn)訓練:數(shù)據(jù)導入、Hive數(shù)據(jù)分析與導出· 了解Sqoop應用場合、簡單原理、與RDBMS的簡單配置 · 具備一般流程的應用分析技能,能夠正確地將初始數(shù)據(jù)庫數(shù)據(jù)導入到Hive進行分析,能將結果導出到關系數(shù)據(jù)庫6.開源數(shù)據(jù)庫HBase· 知識預備與學習 · HBase安裝 · HBase Shell基本操作 · HBase應用實戰(zhàn)訓練· 了解NoSQL及種類,MongoDB特點,HBase特點、工作機制、主要術語、應用場合,表設計的關鍵點與注意事項 · 掌握HBase安裝配置過程,了解Zookeeper安裝及其作用 · 掌握表創(chuàng)建、數(shù)據(jù)插入、查詢等主要命令用法,了解與SQL的區(qū)別 · 了解HBase應用方法,對給定任務能完成表的設計與實現(xiàn)7.內(nèi)存計算框架Spark· 知識預備與學習 · Spark安裝部署安裝 · Spark操作入門 · 應用任務實戰(zhàn)訓練· 理解Spark特點、使用場合、工作機制,理解Spark與Hadoop、MapReduce的關系 · 掌握Spark on YARN方式部署配置 · 了解Spark Shell 基本操作、Spark SQL基本操作 · 能利用Spark SQL完成實際場景任務
每個模塊對應3-4個任務,所有要求的知識技能點都有對應的子任務,任務設計由簡到繁,由易到難,循序漸進,課程知識全部涵蓋其中。完成所有任務后,學生即可完成一個大數(shù)據(jù)系統(tǒng)的完整安裝配置,同時完成其中蘊含的、課程要求的知識技能的學習任務。本課程內(nèi)容具體組織與要求如下表所示(按100學時設計)。
具體教學實施過程:
(1) 接受任務:接受老師下達的任務書,明確任務要求,成立任務小組。
(2) 定方案:學習相關預備知識,準備資料,研討確定完成步驟和方案。
(3) 學做一體化完成任務:安裝部署項目的系統(tǒng)環(huán)境,進行調(diào)測配置,利用系統(tǒng)環(huán)境完成規(guī)定任務,進行技能訓練。
(4) 總結交流:進行小組項目總結,形成PPT匯報,集中交流點評。
(5) 課程診改:對階段教學進行效果評估,設計下一步的教學任務及改革方案。
通過教學做一體化過程實踐,學生達到學知識、練技能、提能力、悟原理的目標。同時提高了學習能力、分析問題解決問題能力、動手能力和團隊精神。
實訓環(huán)境是實施任務驅動教學的必要保障條件,本課程涉及到的實訓環(huán)境復雜,這是由大數(shù)據(jù)系統(tǒng)本身的復雜性和教學實施的過程性決定的,整個學習過程是循序漸進的,這就需要根據(jù)學習進度,為學生提供不同場景、不同階段、不同層次的實訓環(huán)境。其中,既有單節(jié)點環(huán)境又有多節(jié)點的完全分布式環(huán)境,既需要有現(xiàn)成的操作訓練平臺,又需要有讓學生從零開始一步一步的系統(tǒng)搭建平臺的環(huán)境,還需要有處在不同狀態(tài)下的實訓場景和安裝好不同組件的半成品平臺,既有基本的使用操作又有應用案例的綜合操作,既有字符界面又有圖形化界面,既有小任務又有大任務(需要保留環(huán)境下次繼續(xù)操作)。
當前可以采用的實訓方案基本分兩種:一是本地機器方式,二是學生登錄校內(nèi)服務器線上操作,但前提是學校需購買專門的大數(shù)據(jù)實訓平臺軟件并搭建集群服務器環(huán)境。
1. 本地機器方式:這種方式下,每個學生需要一臺Linux機器,而且是Linux虛擬機。因為用Linux物理機會有很多問題,如:很難準備出多個安裝了不同組件進度的Hadoop環(huán)境,學生使用一臺機器必須從課程開頭一直做到尾,中間如出現(xiàn)問題很難繼續(xù)前行,即使恢復系統(tǒng)也不易控制恢復點,再有,Linux對PC機硬件的兼容性也不是太好,因此我們采用了更靈活的虛擬機方式。
但是這種方式,教師需要親自將每一種狀態(tài)的虛擬機環(huán)境準備出來,而且有時候準備并不順利、會遇到各種意外的問題或返工或排除,投入的精力會相當大,當然老師從中也能積累實踐經(jīng)驗,提高執(zhí)教能力。
2. 在線大數(shù)據(jù)實訓平臺方式:近兩年,市場上已經(jīng)出現(xiàn)一些商品化的大數(shù)據(jù)實訓平臺軟件,它部署于多節(jié)點構成的服務器集群上,專門用于大數(shù)據(jù)技術實驗教學。這個平臺提供了比較全面的實驗機類型,也提供了一些實際的應用案例,學生可以隨時隨地的線上操作練習,學生使用簡單,老師管理和備課難度降低,但是因為實驗中學生只要按規(guī)定步驟做即可完成任務,內(nèi)容死板,不夠靈活,不利于鍛煉學生的實際能力,發(fā)揮余地小。
所以經(jīng)過實踐測試和分析比較,我們最終設計的實訓環(huán)境方案是本地虛擬機方式與在線大數(shù)據(jù)實訓平臺相結合,互補進行。
根據(jù)各模塊的內(nèi)容特點、教學目標、學生學情,我們具體設計的實訓方案如下。
1. 本地虛擬機方式實訓方案:設計并提供4種虛擬機,供學生的不同實訓項目使用。由于每一種虛擬機其實就是Windows下的一些文件,因此,課前要把教師已做好的虛擬機文件,分發(fā)到每臺學生機上,實訓時學生直接打開虛擬機,即可直接進入相應的實訓環(huán)境中。
Linux虛擬機:僅安裝Linux,即一臺Linux機器,供學生完成Linux平臺下的各種實訓項目,包括Linux基本操作與應用、Hadoop本地模式安裝、Hadoop偽分布式安裝、圖形化升級、eclipse安裝、Hadoop開發(fā)插件安裝、Java 的HDFS API開發(fā)、Hadoop完全分布式安裝等實訓實驗項目;
單個Hadoop虛擬機(偽分布模式):即一臺Linux機器,并已安裝Hadoop系統(tǒng)。供Hadoop shell操作、MapReduce應用案例實驗、Hive安裝、HBase安裝、Spark安裝等;
完全分布式Hadoop虛擬機:3個虛擬機、構成3節(jié)點的Hadoop集群,供Hadoop集群運維、HA拓展實驗等;
Hadoop完全實驗機:安裝了本課程所有模塊軟件,供Hive實驗、HBase實驗、Spark實驗及應用案例等實驗。
計算機配置采用8GB內(nèi)存,4個節(jié)點時運行流暢。以上是我們的做法,實際中也可以根據(jù)需要提供更多處于不同階段的虛擬機,供學生實訓使用。這種方式的優(yōu)點是學習方便,適合進行技能學習訓練,存在的主要問題是虛擬機方式缺乏直觀性、與生產(chǎn)環(huán)境有差異。
2. 在線大數(shù)據(jù)實訓平臺方式實訓方案:根據(jù)這種方式開放性好,不受時間地點限制、環(huán)境穩(wěn)定操作簡單、方便重復的特點,在平臺上設計的實訓項目主要有:階段性技能練習項目,原理視頻的學習、課下的作業(yè)完成與實訓練習、各部分中shell命令的操作練習、單一步驟的操作實訓、平臺集成的案例操作、以及平臺提供的其他成熟實訓項目等。另外在平臺還可安排需要多次課連續(xù)操作的大任務大應用實訓、三個節(jié)點以內(nèi)的完全分布式安裝、元數(shù)據(jù)存至MySQL的Hive部署等實訓項目。
需注意的是這些平臺為了操作簡單往往會對用戶屏蔽很多內(nèi)容,做實驗的環(huán)境都是一個與之綁定的實驗機,很多東西已經(jīng)內(nèi)置好了,學生按要求步驟繼續(xù)操作下去即可,導致學生對實驗環(huán)境難以深刻了解,操作過程中程序在哪、數(shù)據(jù)在哪,總是云里霧里、心里不透亮,會影響對內(nèi)容的理解。同時教師也很難在平臺上部署個性化的教學環(huán)境,所以更靈活的拓展實訓需要結合本地虛擬機方式進行。
目前,我們已經(jīng)完成了兩個班級的教學活動,在教學過程中,根據(jù)設計方案堅持通過學生主體參與,強化能力培養(yǎng);通過教師主導,突破學習難點提高效率;通過分組分層照顧個體差異,保證所有人都能學有所獲,取得了良好效果。但教學研究永無止境,為了更好地培養(yǎng)學生,需要大家共同努力,堅持診改,不斷優(yōu)化教學方案。