李姍姍 李忠
摘 要: 為了解決數(shù)據(jù)挖掘教學(xué)中教學(xué)內(nèi)容與就業(yè)需求相脫節(jié)問題,探討了以市場需求為導(dǎo)向的數(shù)據(jù)挖掘課程內(nèi)容體系。該課程體系包含三大環(huán)節(jié):基于縱向和橫向案例的理論教學(xué);包含驗證性、設(shè)計性、綜合性實驗的實驗教學(xué);基于自主學(xué)習(xí)的討論式教學(xué)。通過對教學(xué)效果的多角度分析認為,該內(nèi)容體系的設(shè)計符合目前的市場環(huán)境需求,能夠?qū)崿F(xiàn)人才培養(yǎng)和就業(yè)需求接軌。
關(guān)鍵詞: 就業(yè)需求; 數(shù)據(jù)挖掘; 課程內(nèi)容體系; 人才培養(yǎng)
中圖分類號:G642 文獻標志碼:A 文章編號:1006-8228(2015)02-60-02
Exploration on course framework of data mining in application-oriented
university driven by employment needs
Li Shanshan, Li Zhong
(Institute of Disaster Prevention, Sanhe, Hebei 065201, China)
Abstract: In order to solve the disjointed problem of teaching content of data mining course and employment needs, a market demand-oriented data mining course content framework is explored. The course content framework is comprised of three main components: the theory of teaching based on the lateral and longitudinal case, experimental teaching including verification, design, comprehensive experiments, and discussion teaching based on self-learning. Multi-angle analysis of teaching effectiveness shows that course content framework meets the needs of the current market environment and achieves the personnel training seamless integration with the employment needs.
Key words: employment needs; data mining; course content framework; personnel training
0 引言
隨著計算機軟件和硬件技術(shù)的快速發(fā)展,以及互聯(lián)網(wǎng)的急速發(fā)展和普及,企業(yè)級數(shù)據(jù)不斷膨脹,“TB級別”的數(shù)據(jù)庫存儲已并不罕見,諸如銀行、醫(yī)療、零售、電信、保險等行業(yè),正在使我們漸漸窺探到海量數(shù)據(jù)時代的特征。大數(shù)據(jù)時代已經(jīng)來臨。如何從浩如煙海的數(shù)據(jù)中挖掘出令人感興趣和有用的知識,成為各行各業(yè)急需解決的問題。
毋庸置疑,數(shù)據(jù)挖掘技術(shù)是解決這一問題的主要技術(shù),目前,它被廣泛應(yīng)用于各行各業(yè),為企業(yè)挖掘出了寶貴的知識,帶來了巨大的利潤。同時,它也廣泛應(yīng)用于科學(xué)研究中。比如,對大量的衛(wèi)星監(jiān)測數(shù)據(jù)進行挖掘分析,對海量地震數(shù)據(jù)進行挖掘分析,都可以從中發(fā)現(xiàn)新知識。數(shù)據(jù)挖掘技術(shù)的廣泛應(yīng)用,必然驅(qū)使市場對數(shù)據(jù)挖掘技術(shù)人才的迫切需求。
在這一形勢下,作為培養(yǎng)應(yīng)用型人才的本科院校,開設(shè)數(shù)據(jù)挖掘課程是非常必要的。已有很多高校開始嘗試在本科生中開設(shè)此課程[2-4]。不同的學(xué)校將該課程開設(shè)在不同的專業(yè)中,比如有計算機專業(yè)、信息管理專業(yè)、統(tǒng)計學(xué)、醫(yī)學(xué)等。然而,該課程是一門相對較新的交叉學(xué)科,涵蓋了概率統(tǒng)計,機器學(xué)習(xí),數(shù)據(jù)庫等學(xué)科知識內(nèi)容,難度較大,教學(xué)實踐中普遍存在教學(xué)內(nèi)容不合理的問題。課程的基本教學(xué)內(nèi)容是講授大量數(shù)據(jù)挖掘算法,導(dǎo)致學(xué)生單純地把數(shù)據(jù)挖掘理論看成是數(shù)學(xué)公式的堆砌,把數(shù)據(jù)挖掘系統(tǒng)編程看成是代碼的編寫,頭腦中缺乏完整的體系架構(gòu)。學(xué)生學(xué)完后,不知道學(xué)的是什么,無法將所學(xué)靈活運用解決實際問題,這必然導(dǎo)致學(xué)生的技能與軟件企業(yè)的要求有差距,造成教學(xué)內(nèi)容與就業(yè)需求相脫節(jié)。
本文從就業(yè)需求出發(fā),探討本科院校計算機專業(yè)的數(shù)據(jù)挖掘課程內(nèi)容體系,使得知識體系相對薄弱的本科生,通過課程學(xué)習(xí),能滿足企業(yè)的需求,實現(xiàn)技能和企業(yè)需求的無縫接軌。
1 就業(yè)需求分析
當(dāng)前數(shù)據(jù)挖掘應(yīng)用主要集中在電信、零售、農(nóng)業(yè)、網(wǎng)絡(luò)日志、銀行、電力、生物(基因)、天體(星體分類)、化工、醫(yī)藥等方面。主要解決以下幾個方面的問題:數(shù)據(jù)庫營銷、客戶群體劃分、背景分析、交叉銷售等市場分析行為,以及客戶流失性分析、客戶信用記分、欺詐發(fā)現(xiàn)等等[5]。我們對智聯(lián)招聘,中華英才網(wǎng)、51job等幾個大型招聘網(wǎng)站的幾百個數(shù)據(jù)挖掘相關(guān)職位進行了分析,主要分析了相關(guān)職位的工作內(nèi)容、職位要求,需求企業(yè)。目前,市場急需的數(shù)據(jù)挖掘相關(guān)職位主要分為三大類,分別是數(shù)據(jù)分析師、數(shù)據(jù)挖掘軟件開發(fā)工程師、數(shù)據(jù)挖掘算法工程師,見表1。
數(shù)據(jù)分析師主要利用數(shù)據(jù)挖掘工具對運營數(shù)據(jù)等多種數(shù)據(jù)源進行預(yù)處理、建模、挖掘、分析及優(yōu)化。該職位是受業(yè)務(wù)驅(qū)動的,特點是將現(xiàn)有數(shù)據(jù)與業(yè)務(wù)相結(jié)合,最大程度地體現(xiàn)數(shù)據(jù)價值。該職位對計算機編程等相關(guān)技術(shù)不作要求,但是需要有深厚的數(shù)據(jù)挖掘理論基礎(chǔ),能熟練使用主流的數(shù)據(jù)挖掘(或統(tǒng)計分析)工具。數(shù)據(jù)挖掘軟件開發(fā)工程師主要是開發(fā)具有數(shù)據(jù)挖掘功能的軟件。當(dāng)前主要包括如下方向:企業(yè)數(shù)據(jù)挖掘、Web數(shù)據(jù)挖掘、空間數(shù)據(jù)挖掘、多媒體數(shù)據(jù)挖掘等。該職位不但需要熟練掌握數(shù)據(jù)挖掘相關(guān)算法和理論,還需要掌握軟件開發(fā)語言,具有較強的編程能力。數(shù)據(jù)挖掘算法工程師主要偏向技術(shù)、算法層面。因現(xiàn)有算法已經(jīng)不能滿足業(yè)務(wù)要求,必須開發(fā)出新的算法。比如,對企業(yè)供應(yīng)鏈管理業(yè)務(wù)數(shù)據(jù)進行分析,針對預(yù)測及促銷模塊,改進已有算法,設(shè)計并實現(xiàn)新算法,提高數(shù)據(jù)處理速度及準確性。該職位需求與數(shù)據(jù)挖掘軟件開發(fā)工程師職位要求基本相似??梢?,企業(yè)對就業(yè)者的要求主要包含三個方面:①熟練掌握數(shù)據(jù)挖掘相關(guān)理論和算法;②掌握一種數(shù)據(jù)挖掘分析工具;③具有數(shù)據(jù)挖掘軟件開發(fā)能力。
2 數(shù)據(jù)挖掘課程內(nèi)容體系
基于企業(yè)對就業(yè)者的三大需求,我們構(gòu)建了數(shù)據(jù)挖掘課程內(nèi)容體系,整個課程由三個環(huán)節(jié)支撐,分別是理論教學(xué)、討論教學(xué)和實驗教學(xué)。
在理論教學(xué)方面,我們通過對企業(yè)對就業(yè)者關(guān)于數(shù)據(jù)挖掘算法和理論方面的要求,結(jié)合本科生的知識體系,制定了教學(xué)內(nèi)容,見表2。內(nèi)容主要包括數(shù)據(jù)挖掘的三大功能:分類與預(yù)測、聚類分析和關(guān)聯(lián)分析。共安排30學(xué)時。我們采用縱向、橫向雙向案例教學(xué)法開展理論教學(xué)。在對每種算法講解時,采用縱向深度案例教學(xué),即由小數(shù)據(jù)集案例進行一步步算法推導(dǎo),將比較抽象的算法具體化;主要解決的是“what”和“why”問題,即算法原理是什么的問題,重點是加深學(xué)生對算法的理解和吸收。比如,在學(xué)習(xí)ID3分類算法時,通過對一個只有14條用戶購買電腦的相關(guān)記錄來構(gòu)建決策樹,并對某人是否購買電腦進行預(yù)測。每個大章節(jié)后,我們采用橫向案例教學(xué)法,即由實際大數(shù)據(jù)集工程案例來進行全過程挖掘分析,使學(xué)生能夠理論聯(lián)系實際;主要解決的是“how”問題,即如何使用算法進行實際案例的建模、挖掘和分析的全過程,重點是幫助學(xué)生用所學(xué)的算法解決實際問題,加強對數(shù)據(jù)挖掘全過程的理解。所選案例如地質(zhì)調(diào)查數(shù)據(jù)的挖掘、黃河開河日期預(yù)測、購物籃商品關(guān)聯(lián)分析、衛(wèi)星數(shù)據(jù)異常分析等。
由于本課程具有一定的研究性質(zhì),因此,為了培養(yǎng)學(xué)生的自主研究能力,激發(fā)學(xué)生的學(xué)習(xí)興趣,特別安排了調(diào)研討論環(huán)節(jié)。該環(huán)節(jié)中,學(xué)生分組對數(shù)據(jù)分類、關(guān)聯(lián)分析及聚類分析的應(yīng)用案例進行課下調(diào)研分析,并安排2學(xué)時進行課上分組討論和匯報。
實驗課占16學(xué)時,主要培養(yǎng)學(xué)生基于數(shù)據(jù)挖掘軟件Spss-Clementine的數(shù)據(jù)挖掘分析能力,以及數(shù)據(jù)挖掘軟件開發(fā)能力。分為驗證性實驗、設(shè)計性實驗、綜合性實驗,見表3。驗證性實驗主要采用Spss-Clementine實現(xiàn)對數(shù)據(jù)的預(yù)處理、建模、挖掘、評估過程。設(shè)計性實驗中給定學(xué)生一組實際數(shù)據(jù)(數(shù)據(jù)主要來自與加州大學(xué)歐文分校UCI數(shù)據(jù)庫[6])進行多角度挖掘分析,培養(yǎng)學(xué)生的數(shù)據(jù)分析能力。綜合性實驗要求學(xué)生采用一種開發(fā)語言實現(xiàn)一種數(shù)據(jù)挖掘算法,并對感興趣的數(shù)據(jù)進行挖掘,進一步加強學(xué)生的軟件開發(fā)及數(shù)據(jù)分析能力。
3 結(jié)束語
應(yīng)用型本科院校的教學(xué)應(yīng)以市場驅(qū)動為導(dǎo)向。通過對數(shù)據(jù)挖掘市場需求分析,明確了市場對學(xué)生能力的要求,以此為導(dǎo)向,設(shè)計了該課程內(nèi)容體系。通過對此次教學(xué)改革前后學(xué)生的考試成績、畢業(yè)設(shè)計、就業(yè)意向和就業(yè)去向等方面進行比較分析,我們發(fā)現(xiàn)學(xué)生的期末考試成績顯著提高,表明學(xué)生對數(shù)據(jù)挖掘理論掌握有所提高;數(shù)據(jù)挖掘方面的畢業(yè)設(shè)計數(shù)量和意向從事數(shù)據(jù)挖掘工作的人數(shù)明顯增多,表明學(xué)生的學(xué)習(xí)興趣得以激發(fā);畢業(yè)后從事數(shù)據(jù)挖掘人數(shù)有所提高,表明達到企業(yè)需求技能的學(xué)生不斷增多。因此,該內(nèi)容體系的設(shè)計符合目前的市場環(huán)境需求,實現(xiàn)了人才培養(yǎng)和就業(yè)需求接軌。
參考文獻:
[1] 張艷.大數(shù)據(jù)背景下的數(shù)據(jù)挖掘課程教學(xué)新思考[J].計算機時代,
2014.4:59-61
[2] 李海林.大數(shù)據(jù)環(huán)境下的數(shù)據(jù)挖掘課程教學(xué)探索[J].計算機時代,
2014.2:54-55
[3] 宋威,李晉宏.項目驅(qū)動的數(shù)據(jù)挖掘教學(xué)模式探討[J].中國電力教育,
2011.27:116-177
[4] 徐金寶.對應(yīng)用型本科生開設(shè)數(shù)據(jù)挖掘課程的嘗試[J].計算機教育,
2007.7:27-30
[5] 范明.數(shù)據(jù)挖掘?qū)д揫M].人民郵電出版社,2011.
[6] UCI ICS. UCI machine learning repository[EB/OL],2014.