国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

數(shù)據(jù)挖掘課程教學方法探討

2018-05-14 01:45:36陳燕
教育教學論壇 2018年13期
關(guān)鍵詞:數(shù)據(jù)挖掘課程體系大數(shù)據(jù)

摘要:國內(nèi)外各大高校院所都非常重視數(shù)據(jù)倉庫與數(shù)據(jù)挖掘課程的開設(shè),尤其是在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)挖掘的重要性更加凸顯。本文詳細分析了數(shù)據(jù)挖掘課程產(chǎn)生的背景,確立數(shù)據(jù)挖掘課程在計算機及相關(guān)專業(yè)的定位,梳理數(shù)據(jù)挖掘課程的理論方法與內(nèi)容體系,強調(diào)注重理論與實際應用項目的結(jié)合,對指導數(shù)據(jù)挖掘課程的教學改革與創(chuàng)新具有重要的指導和借鑒意義。

關(guān)鍵詞:數(shù)據(jù)挖掘;教學方法;大數(shù)據(jù);課程體系

中圖分類號:G642.0 文獻標志碼:A 文章編號:1674-9324(2018)13-0146-03

一、引言

1.數(shù)據(jù)挖掘課程產(chǎn)生的背景。20世紀90年代,以美國信息工程領(lǐng)域?qū)<覕?shù)據(jù)倉庫的倡導者Willian Inmon在他對數(shù)據(jù)倉庫的定義中涵蓋了數(shù)據(jù)挖掘的概念。數(shù)據(jù)挖掘概念正式提出是在1995年的美國計算機年會(ACM)上。數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的數(shù)據(jù)中,提取隱含在其中的人們事先不知道但又是潛在有用的信息和知識的過程。目前國內(nèi)外高校、研究部門均將數(shù)據(jù)挖掘作為重要的課程開設(shè),KDD、ACM等信息科學領(lǐng)域的頂尖國際會議也將數(shù)據(jù)挖掘作為重要的內(nèi)容展開研討。

2.數(shù)據(jù)挖掘課程在計算機及相關(guān)專業(yè)的定位。數(shù)據(jù)挖掘課程屬于多個學科的重要專業(yè)課程(如圖1所示),主要包括數(shù)據(jù)庫技術(shù)、計算機應用技術(shù)、統(tǒng)計學方法、機器學習、預測技術(shù)、軟計算、信息科學、可視化、網(wǎng)絡(luò)與電子商務(wù)等。

隨著信息技術(shù)的發(fā)展與普及,如何從海量的數(shù)據(jù)中提取有用的和有價值的信息即知識,已成為信息技術(shù)研究的重要問題,數(shù)據(jù)挖掘已經(jīng)成為國內(nèi)外高層管理決策研究的重要領(lǐng)域。在各個業(yè)務(wù)領(lǐng)域都涌現(xiàn)出大量的數(shù)據(jù)挖掘應用案例,可以在大量的分散的業(yè)務(wù)數(shù)據(jù)中挖掘有價值的信息,并使信息得到增值,以提高業(yè)務(wù)管理過程的經(jīng)濟效益和社會效益。大數(shù)據(jù)也是在數(shù)據(jù)挖掘研究及應用普及的基礎(chǔ)上發(fā)展起來的,學習數(shù)據(jù)挖掘課程對今后大數(shù)據(jù)方面的應用研究將積累重要的研究基礎(chǔ)。

二、數(shù)據(jù)挖掘課程的理論方法與內(nèi)容體系

1.數(shù)據(jù)挖掘課程的理論方法。數(shù)據(jù)挖掘課程的理論方法主要包括:數(shù)據(jù)與信息的存儲理論,數(shù)據(jù)采集與整合方法,數(shù)據(jù)的泛化與標準化,多維數(shù)據(jù)組織與管理;數(shù)據(jù)庫建立與管理決策;主題數(shù)據(jù)庫與數(shù)據(jù)倉庫、多維數(shù)據(jù)庫建立;數(shù)據(jù)挖掘理論與方法、KDD(Knowledge Discovery in Database,數(shù)據(jù)庫中的知識發(fā)現(xiàn))、DSS(Decision Support System,決策支持系統(tǒng))、預測與決策方法;結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)挖掘;公共信息平臺架構(gòu)及應用環(huán)境;大數(shù)據(jù)理論技術(shù)及應用。

2.數(shù)據(jù)挖掘課程的內(nèi)容體系。數(shù)據(jù)挖掘課程由理論課程體系、教材體系與實驗體系三部分組成。(1)理論課程體系的主要內(nèi)容包括:①數(shù)據(jù)預處理階段。數(shù)據(jù)的采集技術(shù),數(shù)據(jù)清洗,數(shù)據(jù)整合標準,多維數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu),數(shù)據(jù)集成技術(shù),等等相關(guān)內(nèi)容。②面向主題數(shù)據(jù)庫的建立方法及多維數(shù)據(jù)庫的建立方法。③數(shù)據(jù)的訪問部分。數(shù)據(jù)挖掘模型系統(tǒng)(預測與決策支持系統(tǒng)),可視化、KDD、商務(wù)智能軟件系統(tǒng)等。(2)教材體系主要包括如下內(nèi)容:數(shù)據(jù)采集與存儲、數(shù)據(jù)結(jié)構(gòu)、數(shù)據(jù)庫管理、數(shù)據(jù)倉庫、數(shù)據(jù)挖掘、決策支持系統(tǒng)、智能商務(wù)決策等。(3)實驗課程體系的主要內(nèi)容包括:①數(shù)據(jù)預處理及相關(guān)工具的應用。以運輸企業(yè)動態(tài)監(jiān)控管理與決策分析為例,主要的實驗內(nèi)容是運用GPS、RFID傳輸運輸途中所產(chǎn)生的數(shù)據(jù)進行采集、存儲與處理。熟練掌握在數(shù)據(jù)挖掘過程中如何采集和處理數(shù)據(jù)的方法及全部過程。②數(shù)據(jù)整合理論與方法的實驗。通過對車載設(shè)備的GPS、RFID及運輸途中相關(guān)業(yè)務(wù)數(shù)據(jù)的整合,讓學生們熟悉掌握來自不同系統(tǒng)的數(shù)據(jù)結(jié)構(gòu)形式以及如何在計算機內(nèi)部存儲和處理。③數(shù)據(jù)的存儲管理。EDI、RFID、GPS、傳感器等相關(guān)數(shù)據(jù)及運輸途中動態(tài)產(chǎn)生的數(shù)據(jù),對整合與標準化后的數(shù)據(jù)進行存儲與管理。④對運輸車輛進行動態(tài)監(jiān)控與科學管理。通過GPS顯示在GIS上的經(jīng)緯度、車輛速度等信息,檢驗車輛運行的安全狀態(tài),車輛的超速、異常狀態(tài)報警等監(jiān)管功能。⑤數(shù)據(jù)挖掘模型系統(tǒng)的建立。快速發(fā)現(xiàn)知識算法,K均值算法,SVM算法,EM算法(最大期望算法,Expectation Maximization Algorithm),C4.5算法;PageRank算法(網(wǎng)頁排序),貝葉斯分類算法,K最近鄰(k-Nearest Neighbor,KNN)分類算法,Adaboost算法即自適應增強算法,CART算法即分類回歸樹算法。⑥常用數(shù)據(jù)挖掘工具。SPSS、SAS、R語言(R支持一系列分析技術(shù),包括統(tǒng)計檢驗、預測建模、數(shù)據(jù)可視化工具)、WEKA(集成了大量能承擔數(shù)據(jù)挖掘任務(wù)的機器學習算法,包括對數(shù)據(jù)進行預處理、分類、回歸、聚類、關(guān)聯(lián)分析以及在新的交互式界面上的可視化)、Mahout(支持一些集群算法實現(xiàn),都是使用MapReduce編寫)、Matlab商業(yè)數(shù)學軟件、Scala多范式編程語言、YALE開發(fā)工具、Python等。

三、數(shù)據(jù)挖掘課程教學方法探討

1.數(shù)據(jù)挖掘理論教學的重點。(1)理解數(shù)據(jù)挖掘及相關(guān)概念,如:數(shù)據(jù)倉庫與數(shù)據(jù)挖掘的主要特征,數(shù)據(jù)挖掘與KDD的區(qū)別,數(shù)據(jù)挖掘與商務(wù)智能的區(qū)別,數(shù)據(jù)挖掘與決策支持系統(tǒng)的區(qū)別。(2)數(shù)據(jù)采集、數(shù)據(jù)整合與集成、數(shù)據(jù)一致化標準化、多維數(shù)據(jù)存儲理論與技術(shù)。(3)公共信息平臺的架構(gòu)建立方法與相關(guān)理論。(4)數(shù)據(jù)倉庫的建立機制,面向主題數(shù)據(jù)庫的建立方法。(5)數(shù)據(jù)挖掘理論、技術(shù)、模型與方法。(6)數(shù)據(jù)挖掘工具的應用。

2.數(shù)據(jù)挖掘工具的選擇與應用。授課中應注重適合結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)挖掘應用開發(fā)工具。(1)結(jié)構(gòu)化數(shù)據(jù)挖掘的常用工具包括Matlab、SPSS、SAS、SQL、Weka等。(2)非結(jié)構(gòu)化數(shù)據(jù)挖掘的常用工具有Hadoop(MapReduce、HDFS)、Mahout、NoSql、Scala、R語言、YALE、python等。除此之外,還應該考慮當前選定工具的特點如何,需要從實際應用重點出發(fā)來選擇適合的工具,比如R語言、python語言屬于能夠勝任結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)挖掘工具,如果某個應用需要圖形界面友好且運算功能強大的工具,只需選擇python語言;如果僅是一般的運算且對運行界面要求不高,則可選擇R語言;如果僅需數(shù)值統(tǒng)計與一般的挖掘功能,則Matlab、SPSS、SAS均可勝任。

3.理順數(shù)據(jù)挖掘與知識管理之間的關(guān)聯(lián)(如圖2)。

4.區(qū)分結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)挖掘模型的建立機制。結(jié)構(gòu)化數(shù)據(jù)挖掘模型主要包括預測模型系統(tǒng)(定性與定量預測模型及系統(tǒng),如圖3)、優(yōu)化模型系統(tǒng)、決策模型系統(tǒng)、快速發(fā)現(xiàn)知識模型等內(nèi)容。非結(jié)構(gòu)化數(shù)據(jù)挖掘模型主要包括多媒體(圖形、視頻、聲音等)挖掘模型系統(tǒng)、文本挖掘模型軟件系統(tǒng)等。

5.注重理論與實際應用項目的結(jié)合。在講授數(shù)據(jù)挖掘課程時,應明晰數(shù)據(jù)挖掘、數(shù)據(jù)倉庫、公共信息平臺之間的關(guān)聯(lián),學習建立數(shù)據(jù)倉庫全過程的全部相關(guān)知識點。以科研項目作為示范應用,通過對一個實際研究項目的解析收到了良好的授課與學習效果。例如,將《東北亞航運中心公共平臺建立》項目搭建的數(shù)據(jù)倉庫架構(gòu)體系作為講課的重要內(nèi)容,詳細內(nèi)容參見文獻。該公共平臺的業(yè)務(wù)主要包括六個組成部分:3G-MIS集成,異構(gòu)數(shù)據(jù)集成,數(shù)據(jù)倉庫系統(tǒng),業(yè)務(wù)支撐體系,應用服務(wù)體系,應用工具系統(tǒng)??梢詫⒁粋€大的復雜系統(tǒng)運用形式化定義與知識描述,使其各個子系統(tǒng)之間的內(nèi)容層次分明而清晰。

四、小結(jié)

數(shù)據(jù)挖掘是一門重要的專業(yè)基礎(chǔ)課程,必須具備多學科、多領(lǐng)域的理論知識,并結(jié)合實踐應用提升學生的學習效果和專業(yè)水平。

參考文獻:

[1]陳燕.數(shù)據(jù)挖掘技術(shù)與應用[M].第2版.北京:清華大學出版社,2016.

[2]許國根,賈瑛.實戰(zhàn)大數(shù)據(jù)——MATLAB數(shù)據(jù)挖掘詳解與實踐[M].北京:清華大學出版社,2017.

[3]陳燕,張金松.大數(shù)據(jù)技術(shù)及其應用[M].大連海事大學出版社,2015.

猜你喜歡
數(shù)據(jù)挖掘課程體系大數(shù)據(jù)
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
以創(chuàng)新課程體系引領(lǐng)學生發(fā)展
輔導員(2017年18期)2017-10-16 01:14:48
民法課程體系的改進和完善思路*——以中國政法大學的民法課程體系為例
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應用
電力與能源(2017年6期)2017-05-14 06:19:37
基于大數(shù)據(jù)背景下的智慧城市建設(shè)研究
科技視界(2016年20期)2016-09-29 10:53:22
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應用
加強青少年中醫(yī)傳統(tǒng)文化教育的必要性及其課程體系構(gòu)建
論普通高校國防教育課程體系的構(gòu)建
基于GPGPU的離散數(shù)據(jù)挖掘研究
镇平县| 常州市| 巫山县| 蒲江县| 南投市| 乌拉特中旗| 新疆| 余干县| 汉阴县| 阜宁县| 大关县| 文安县| 龙山县| 通化市| 砚山县| 西乌珠穆沁旗| 共和县| 宁阳县| 富平县| 紫云| 高邑县| 拜泉县| 淅川县| 嵊泗县| 芜湖县| 关岭| 通江县| 娄底市| 灵丘县| 屏东县| 怀集县| 海林市| 彩票| 长垣县| 滦南县| 万年县| 同仁县| 青龙| 乌兰县| 克拉玛依市| 龙海市|