于洋
摘?要:從傳統(tǒng)IT的業(yè)務(wù)驅(qū)動到大數(shù)據(jù)DT時代的數(shù)據(jù)驅(qū)動,大數(shù)據(jù)得到了前所未有的發(fā)展,相應(yīng)的人才需求也變得越來越迫切。本文從大數(shù)據(jù)人才需求出發(fā),分析各崗位的技能要求,按照大數(shù)據(jù)的“采、存、用、管”全生命周期,構(gòu)建高職院校大數(shù)據(jù)專業(yè)的課程體系。
關(guān)鍵詞:高職院校大數(shù)據(jù)專業(yè);崗位技能分析;課程體系
1 背景
隨著大數(shù)據(jù)基礎(chǔ)設(shè)施的不斷完善,各類終端、各種系統(tǒng)和各種平臺產(chǎn)生積累了海量的數(shù)據(jù)。對這些數(shù)據(jù)的采集、處理、分析和發(fā)掘的大數(shù)據(jù)應(yīng)用發(fā)展迅猛,大數(shù)據(jù)浪潮正在全球席卷而來。我國在2014年政府報告中首次提到大數(shù)據(jù),起步較晚。但在過去的幾年中,大數(shù)據(jù)產(chǎn)業(yè)呈持續(xù)地高速增長態(tài)勢,尤其是2018年,在建設(shè)“數(shù)字中國”的大趨勢下,全國上下、由內(nèi)到外、從政府到企業(yè),正在打造建立和完善大數(shù)據(jù)全產(chǎn)業(yè)鏈生態(tài)系統(tǒng)。
截至2018年,麥肯錫大數(shù)據(jù)研究報告顯示,大數(shù)據(jù)相關(guān)人才需求達(dá)400萬之巨。我國人力資源專業(yè)機構(gòu)數(shù)聯(lián)尋英在2018年7月發(fā)布《大數(shù)據(jù)人才報告》,報告顯示我國大數(shù)據(jù)人才僅46萬,未來3-5年內(nèi)大數(shù)據(jù)人才缺口將高達(dá)150萬。正是考慮到大數(shù)據(jù)人才市場的需求潛力,我國教育部在2016年增補了“大數(shù)據(jù)技術(shù)與應(yīng)用”高等職業(yè)教育專業(yè)。本文針對高職“大數(shù)據(jù)技術(shù)與應(yīng)用”專業(yè)人才崗位技能需求,按照大數(shù)據(jù)生命周期,構(gòu)建高職大數(shù)據(jù)專業(yè)的課程體系。
2 大數(shù)據(jù)生命周期技術(shù)體系
大數(shù)據(jù)在維基百科中定義為利用常用軟件工具捕獲、管理和處理數(shù)據(jù)所耗時間超過可容忍時間的數(shù)據(jù)集。它具有5V特點:Volume(大量)、Velocity(高速)、Variety(高速)、Value(低價值密度)、Veracity(真實性)。
大數(shù)據(jù)的全生命周期起始于數(shù)據(jù)源,經(jīng)過數(shù)據(jù)獲取、清洗、加工、轉(zhuǎn)換等操作,進而進入到大數(shù)據(jù)分布式存儲系統(tǒng),然后采用分布式數(shù)據(jù)分析框架對數(shù)據(jù)進行抽取、分析、建模、挖掘和可視化操作,為數(shù)據(jù)驅(qū)動提供決策依據(jù)實現(xiàn)數(shù)據(jù)資源的變現(xiàn)。
Hadoop是目前最為流行的大數(shù)據(jù)收集、存儲、計算、分析和挖掘的分布式系統(tǒng)架構(gòu)[1],它包含以下常用組件,如下圖所示。
3 大數(shù)據(jù)崗位及相關(guān)技能
按照大數(shù)據(jù)生命周期的不同階段,可以將大數(shù)據(jù)劃分為以下幾個崗位群:規(guī)劃設(shè)計崗位群、數(shù)據(jù)處理崗位群、平臺管理崗位群、分析挖掘崗位群、運營管理崗位群和大數(shù)據(jù)應(yīng)用崗位群。通過對企業(yè)和用人單位的調(diào)研,以及高職院校對學(xué)生的培養(yǎng)定位,在以上崗位群中進行抽取,最終確定一下崗位群和崗位作為高職院校大數(shù)據(jù)專業(yè)人才培養(yǎng)對口的目標(biāo)崗位[2]。
3.1 數(shù)據(jù)處理崗位群
(1)數(shù)據(jù)處理工程師:負(fù)責(zé)數(shù)據(jù)的抽取和預(yù)處理,從海量數(shù)據(jù)中提取有價值的信息;負(fù)責(zé)數(shù)據(jù)的全面處理工作,協(xié)助數(shù)據(jù)倉庫工程師處理數(shù)據(jù)。該崗位所要掌握的專業(yè)技能有:數(shù)據(jù)庫、爬蟲技術(shù)、Linux、Java/Python、Hadoop/Hive集群數(shù)據(jù)處理能力等。
(2)ETL工程師:負(fù)責(zé)數(shù)據(jù)的采集、加工、清洗、轉(zhuǎn)換;負(fù)責(zé)ETL程序的設(shè)計、開發(fā)、優(yōu)化和維護。該崗位要求熟悉數(shù)據(jù)庫、Linux、Java/Python、大數(shù)據(jù)平臺及各組件的應(yīng)用、ETL架構(gòu)和常用開發(fā)工具等。
(3)網(wǎng)絡(luò)爬蟲工程師:負(fù)責(zé)各大網(wǎng)站和網(wǎng)頁數(shù)據(jù)的提取、采集及分析;負(fù)責(zé)分布式網(wǎng)絡(luò)爬蟲程序的設(shè)計開發(fā)、優(yōu)化和維護。該崗位需精通網(wǎng)頁抓取原理及技術(shù)、精通正則表達(dá)式、從結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)中提取信息、Linux、Java/Python等。
3.2 平臺管理崗位群
(1)大數(shù)據(jù)開發(fā)工程師:負(fù)責(zé)大數(shù)據(jù)平臺的設(shè)計、開發(fā);負(fù)責(zé)集群的管理和性能調(diào)優(yōu)。需具備:Linux、Java/Python、Hadoop生態(tài)組件、Strom流式數(shù)據(jù)處理框架、Spark內(nèi)存計算框架等。
(2)數(shù)據(jù)倉庫工程師:負(fù)責(zé)數(shù)據(jù)倉庫的需求調(diào)研、分析、數(shù)據(jù)模型的設(shè)計;負(fù)責(zé)數(shù)據(jù)的采集、加工、清洗、轉(zhuǎn)換;負(fù)責(zé)數(shù)倉ETL規(guī)則的設(shè)計、開發(fā)、優(yōu)化和維護。需具備的能力有:Linux、Java/Python、數(shù)據(jù)倉庫的分層架構(gòu)、Hive/DB2/Teradata等原理知識、ETL工具等。
3.3 大數(shù)據(jù)應(yīng)用崗位群
可視化工程師:負(fù)責(zé)數(shù)據(jù)的視覺設(shè)計和可視化展示;負(fù)責(zé)可視化組件的開發(fā)。需要熟悉主流可視化工具Tableau和Echarts等、理解數(shù)據(jù)庫應(yīng)用、精通HTML5、CSS、JQuery、JS等技術(shù)。
4 高職院校大數(shù)據(jù)專業(yè)課程體系
基于以上各崗位職責(zé)和需要掌握的專業(yè)技能,將高職大數(shù)據(jù)專業(yè)課程體系分為:專業(yè)基礎(chǔ)課、專業(yè)核心課和綜合實訓(xùn)課。
(1)專業(yè)基礎(chǔ)課:Java程序設(shè)計、Linux操作系統(tǒng)、數(shù)據(jù)庫原理與應(yīng)用、網(wǎng)絡(luò)基礎(chǔ)、Web前端開發(fā)、大數(shù)據(jù)概論。
(2)專業(yè)核心課:Hadoop生態(tài)、爬蟲技術(shù)與應(yīng)用、ETL架構(gòu)和開發(fā)工具、MPP技術(shù)與應(yīng)用、數(shù)據(jù)倉庫技術(shù)與應(yīng)用、數(shù)據(jù)挖掘基礎(chǔ)、可視化工具應(yīng)用。
(3)綜合實訓(xùn)課:網(wǎng)絡(luò)爬蟲綜合實訓(xùn)、大數(shù)據(jù)開發(fā)綜合實訓(xùn)。
5 結(jié)論
本文從數(shù)據(jù)驅(qū)動下的人才需求出發(fā),立足大數(shù)據(jù)崗位工作職責(zé)和崗位技能,從高職院校培養(yǎng)高素質(zhì)技能型人才出發(fā),確定大數(shù)據(jù)專業(yè)培養(yǎng)的目標(biāo)崗位;并根據(jù)各個崗位技能,抽取、組建和成立高職大數(shù)據(jù)專業(yè)的主要課程,形成課程體系;最終,培養(yǎng)出合格的大數(shù)據(jù)專業(yè)技能人才,以滿足大數(shù)據(jù)各相關(guān)崗位的需要。
參考文獻(xiàn):
[1]呂太之,畢家欽.基于Hadoop平臺的崗位分析和推薦系統(tǒng)的構(gòu)建[J].河北軟件職業(yè)技術(shù)學(xué)院學(xué)報,2017,12(4):1-4.
[2]陶碩,劉俞.基于高職院校大數(shù)據(jù)技術(shù)應(yīng)用專業(yè)人才培養(yǎng)方案研究[J].河南科技學(xué)院學(xué)報,2017,12(12):50-53.