国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

面向新工科的數(shù)據(jù)挖掘?qū)嶒炚n程教學(xué)案例設(shè)計

2021-03-24 08:21:58賈媚媚劉泉馬曉普蘭義華李賀劉金江
現(xiàn)代計算機 2021年3期
關(guān)鍵詞:數(shù)據(jù)挖掘案例算法

賈媚媚,劉泉,馬曉普,蘭義華,李賀,劉金江

(南陽師范學(xué)院計算機科學(xué)與技術(shù)學(xué)院,南陽473061)

0 引言

隨著移動互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、人工智能等技術(shù)的不斷進步,每時每刻都在產(chǎn)生大量的數(shù)據(jù)。數(shù)據(jù)在爆炸式增長,數(shù)據(jù)收集與處理、數(shù)據(jù)分析與挖掘,探索其中隱含的規(guī)律,進而為經(jīng)濟和社會發(fā)展服務(wù)。為了順應(yīng)社會發(fā)展的需要,國內(nèi)不少高校紛紛設(shè)立了大數(shù)據(jù)相關(guān)專業(yè)。自從2016 年第一批“數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)”專業(yè)興建以來,我國本科高校已經(jīng)獲批建設(shè)五百多個大數(shù)據(jù)相關(guān)專業(yè)??v觀眾多高校的大數(shù)據(jù)專業(yè)培養(yǎng)方案可以發(fā)現(xiàn),數(shù)據(jù)挖掘課程都在其中占據(jù)重要的位置。

數(shù)據(jù)挖掘課程涉及多個學(xué)科的知識,主要包括統(tǒng)計學(xué)、機器學(xué)習(xí)、數(shù)據(jù)庫、數(shù)據(jù)倉庫、模式識別、人工智能、決策技術(shù)、可視化技術(shù)、具體的領(lǐng)域知識等多個方面[1],如圖1 所示,是一門典型的交叉性學(xué)科。目前,雖然已有眾多國內(nèi)高校開設(shè)了數(shù)據(jù)挖掘課程,但是課程的理論知識和實踐教學(xué)等方面都還同社會需求具有一定的差距,比較普遍存在重理論教學(xué)、輕實踐等教學(xué)現(xiàn)象[2]。

特別是,在新工科背景下,數(shù)據(jù)挖掘?qū)嶒炚n程應(yīng)當(dāng)以解決實際問題為導(dǎo)向,提高學(xué)生綜合運用知識的能力,以達(dá)到培養(yǎng)新工科人才的要求[3]。在新工科背景下,面對社會、經(jīng)濟、技術(shù)等發(fā)展的實際需求,需要對數(shù)據(jù)挖掘?qū)嶒炚n程的教學(xué)方式和案例設(shè)計進行改進。本文將結(jié)合筆者近年來在數(shù)據(jù)挖掘課程中的授課經(jīng)驗和教訓(xùn),對數(shù)據(jù)挖掘?qū)嶒炚n程的案例設(shè)計和教學(xué)方法進行探討。

圖1 數(shù)據(jù)挖掘涉及的學(xué)科

1 數(shù)據(jù)挖掘?qū)嶒炚n程教學(xué)現(xiàn)狀

在2015 年,我院在計算機科學(xué)與技術(shù)專業(yè)設(shè)立了云計算與大數(shù)據(jù)方向,嘗試進行大數(shù)據(jù)人才的培養(yǎng),并開始設(shè)置數(shù)據(jù)挖掘技術(shù)課程。我校計算機與信息技術(shù)學(xué)院在2019 年成功申請獲批數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè),并在當(dāng)年開始進行招生。

作為數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)的專業(yè)必修課,數(shù)據(jù)挖掘課程通常在本科高年級開設(shè),我校將該課程開設(shè)在大三下學(xué)期,共開設(shè)48 學(xué)時,其中理論教學(xué)32學(xué)時,實踐教學(xué)16 學(xué)時。數(shù)據(jù)挖掘課程的先修課程包括數(shù)據(jù)庫原理、程序設(shè)計和數(shù)據(jù)結(jié)構(gòu)等[4]。授課內(nèi)容包括數(shù)據(jù)的基本統(tǒng)計、相似性度量、數(shù)據(jù)預(yù)處理、分類、關(guān)聯(lián)分析、聚類、離群點檢測等基本知識,要求學(xué)生具有數(shù)據(jù)處理、熟練應(yīng)用各種數(shù)據(jù)挖掘經(jīng)典算法等基本能力[4]。

目前數(shù)據(jù)挖掘課程實驗教學(xué)中還存在以下的問題[5]:

(1)實驗教學(xué)環(huán)節(jié)設(shè)置不合理。目前,實踐教學(xué)還主要是通過“邊講邊學(xué)”的模式來進行數(shù)據(jù)挖掘方法實踐教學(xué)[4]。從具體的教學(xué)實際效果發(fā)現(xiàn),讓學(xué)生使用C++等語言直接編程實現(xiàn)具體的數(shù)據(jù)挖掘經(jīng)典算法,對學(xué)生來說,還具有一定的難度。

(2)目前,在數(shù)據(jù)挖掘課程的實驗教學(xué)案例,還主要是針對單個經(jīng)典算法的實現(xiàn),解決實際問題相關(guān)的實驗相對較為缺乏[5]。教學(xué)案例脫離生活實際,也會較為枯燥和晦澀,學(xué)生難以理解。

(3)單純的上機操作,實現(xiàn)單個的經(jīng)典算法,已經(jīng)很難滿足對學(xué)生數(shù)據(jù)分析能力的培養(yǎng),難以提高學(xué)生的綜合解決問題和運用知識的能力,也不符合新工科人才的培養(yǎng)目標(biāo)。

2 數(shù)據(jù)挖掘?qū)嶒炚n程的探索

通過總結(jié)近年來數(shù)據(jù)挖掘課程的在本科生中的教學(xué)經(jīng)驗,我們針對實驗課程進行了一些調(diào)整,其立足點為利用數(shù)據(jù)挖掘技術(shù)解決實際問題。通過貼近實際生活案例和企業(yè)案例的引入,提升學(xué)生的數(shù)據(jù)思維能力,提高學(xué)生學(xué)習(xí)數(shù)據(jù)挖掘課程的自信心[6],增加學(xué)生的學(xué)習(xí)興趣。

在實驗課程上課過程中,我們進行了如下的探索:

(1)將使用流行的數(shù)據(jù)挖掘軟件或軟件包同自己編寫算法代碼相結(jié)合。具體的實施方法上,建議學(xué)生首先使用SPSS 等軟件或者Python 語言調(diào)用第三方庫[6],來實現(xiàn)具體的算法,得到結(jié)果,讓學(xué)生首先能夠看到算法的結(jié)果,提高學(xué)生的自信心。在此基礎(chǔ)上,建議學(xué)生使用Java、C++等編程語言,自己編程逐步事先具體的算法,加深對算法步驟的理解,并對算法的缺陷有一點的了解,盡可能地提出改進的思路。

(2)從競賽中選取貼近實際問題的數(shù)據(jù)。近年來,大數(shù)據(jù)競賽平臺逐漸增多,例如國外的Kaggle 競賽網(wǎng)站,國內(nèi)的數(shù)據(jù)城堡競賽平臺、天池大數(shù)據(jù)競賽平臺等[7]。在這些平臺上,有很多從企業(yè)實際問題出發(fā),延伸而來的數(shù)據(jù)挖掘賽事。這些賽事目的明確,數(shù)據(jù)集規(guī)范且可得,可以根據(jù)賽事的難易程度,選取一些賽事案例作為數(shù)據(jù)挖掘?qū)嶒炚n程的教學(xué)案例來源。同時,采取學(xué)生自主參加、教師輔導(dǎo)的方式,鼓勵參與各級各類數(shù)據(jù)挖掘競賽,提高學(xué)生解決實際問題的能力[7]。對于在競賽中取得較好名次的學(xué)生,采取獎勵實驗課程成績的方式,激發(fā)學(xué)生的參賽興趣。

(3)在數(shù)據(jù)挖掘的案例教學(xué)過程中,應(yīng)當(dāng)以完成應(yīng)用問題或項目為核心,通過實施數(shù)據(jù)挖掘項目的整個流程,發(fā)現(xiàn)問題、解決問題,以技術(shù)應(yīng)用深化理論知識的理解。鼓勵學(xué)生自己從實際問題出發(fā),尋找自己感興趣的課題,同時教師稍作引導(dǎo),把所學(xué)知識運用到實際之中,促使學(xué)生自己發(fā)現(xiàn)問題、分析問題、解決問題。通過尋找課題、解決實際問題的過程,加強學(xué)生對理論知識的理解,以及綜合運用。

3 實驗課程教學(xué)案例設(shè)計

3.1 案例與知識點關(guān)系

實驗案例選取上,需要注意知識點的完備性,在難度上需要循序漸進,同時還需要有一定的挑戰(zhàn)性和區(qū)分度[8]。在實際的教學(xué)過程中,實驗課共設(shè)計了四個教學(xué)案例:春晚數(shù)據(jù)分析、城鎮(zhèn)居民生活消費規(guī)律、泰坦尼克號生還預(yù)測、基于校園卡數(shù)據(jù)的學(xué)生期末成績預(yù)測。針對實驗教學(xué)案例設(shè)計細(xì)節(jié),選取其中較為典型的春晚數(shù)據(jù)分析、泰坦尼克號船員獲救預(yù)測兩個案例在3.2 小節(jié)中進行詳細(xì)介紹。

表1 實驗教學(xué)案例及涉及知識點

3.2 具體實驗案例設(shè)計

實驗案例一:春晚數(shù)據(jù)分析

我校數(shù)據(jù)挖掘課程開設(shè)在春期。同學(xué)們剛剛過完春節(jié)回校,大多數(shù)同學(xué)都在家看過春晚節(jié)目,對春晚的余熱猶存,所以第一個試驗案例安排為春晚數(shù)據(jù)進行分析,可以提高學(xué)生的學(xué)習(xí)積極性。

試驗?zāi)康臑檎莆栈镜臄?shù)據(jù)統(tǒng)計分析方法。筆者使用Python 語言,編寫爬蟲程序,爬取了歷屆春晚的導(dǎo)演、主持人、節(jié)目、演員的等數(shù)據(jù)信息。數(shù)據(jù)集包含兩個文件:導(dǎo)演主持人數(shù)據(jù)文件、節(jié)目單數(shù)據(jù)文件。在導(dǎo)演主持人數(shù)據(jù)文件中包含年份、導(dǎo)演、主持人三列數(shù)據(jù),共含1983 至2020 年的所有數(shù)據(jù)。在節(jié)目單數(shù)據(jù)文件中包含年份、節(jié)目類型、節(jié)目名稱、節(jié)目參演演員四列數(shù)據(jù),共含1983 至2020 年的所有數(shù)據(jù)。

實驗內(nèi)容包含:①請列出前十名主持人的名字及主持的次數(shù);②列出前十位參加春晚次數(shù)最多的演員名字及參演次數(shù);③節(jié)目類型比例分析。將節(jié)目分為歌曲、舞蹈、相聲、小品、其他,共五類(除歌曲、舞蹈、相聲、小品外的類型均歸類為其他)。

試驗案例二:泰坦尼克號船員獲救預(yù)測

該數(shù)據(jù)集來自Kaggle 競賽網(wǎng)站,是一個入門項目。項目目的是預(yù)測哪些人群更容易生還。數(shù)據(jù)集包含訓(xùn)練集和測試集兩個部分。訓(xùn)練集中包含乘客姓名、性別、年齡、艙位等級、票價等船員基本特征,以及最后的獲救情況,共有891 條數(shù)據(jù)。測試集只包含基本特征,不包含獲救情況,需要訓(xùn)練模型來預(yù)測獲救情況。實驗內(nèi)容包括:①缺失值處理;②特征選擇;③模型訓(xùn)練;④模型評估。

數(shù)據(jù)集中具有缺失值,例如年齡字段列在訓(xùn)練集中有些取值為空,共有714 個有效值,需要對缺失值進行預(yù)處理。此外,某些列的數(shù)據(jù)類型變換,例如字符串轉(zhuǎn)數(shù)字。

數(shù)據(jù)挖掘中特征選擇是非常重要的步驟,對各個特征的分析研究,對于最后的預(yù)測結(jié)果起到至關(guān)重要的作用,因此該步驟需要花費一定的時間和精力。需要計算各屬性數(shù)據(jù)和Survived 標(biāo)簽的相關(guān)系數(shù)。常用的三大相關(guān)系數(shù)是pearson 相關(guān)系數(shù)、kendall 相關(guān)系數(shù)和spearman 相關(guān)系數(shù)。根據(jù)不同的數(shù)據(jù)特點,選擇合適的相關(guān)系數(shù)計算方法。使用相關(guān)系數(shù),作為特征和結(jié)果關(guān)系的參考,進而選擇合適的特征。

然后,用訓(xùn)練數(shù)據(jù)和具體的學(xué)習(xí)算法得到訓(xùn)練模型??梢允褂镁€性回歸、決策樹、支持向量機、隨機森林等訓(xùn)練預(yù)測模型。在具體的實現(xiàn)方法上,建議使用Python 語言,直接調(diào)用sklearn 中的模型。sklearn 里面封裝了絕大多數(shù)的機器學(xué)習(xí)算法模型,直接調(diào)用,使用起來簡單方便。

根據(jù)訓(xùn)練模型,用測試數(shù)據(jù)評估模型,來評估模型的準(zhǔn)確率。如果模型準(zhǔn)確率較低,可以調(diào)整模型參數(shù),或者更換算法,來提高模型的準(zhǔn)確率。

4 結(jié)語

隨著信息技術(shù)的不斷發(fā)展,掌握數(shù)據(jù)挖掘技術(shù)已成為大數(shù)據(jù)專業(yè)學(xué)生需要掌握的必備技能。在新工科背景下,人才培養(yǎng)更應(yīng)注意提高學(xué)生解決實際問題的能力、綜合運用知識的能力。面對社會、經(jīng)濟、技術(shù)等發(fā)展的實際需求,需要對數(shù)據(jù)挖掘?qū)嶒炚n程的教學(xué)方式和案例設(shè)計進行改進。筆者結(jié)合近年來在數(shù)據(jù)挖掘課程中的授課經(jīng)驗,對數(shù)據(jù)挖掘?qū)嶒炚n程教學(xué)給出了一些具體的解決方案,為數(shù)據(jù)挖掘課程的相關(guān)教學(xué)改革提供一些有益的借鑒。目前,雖取得一定成效,后續(xù)將在以下幾個方面繼續(xù)改進:建立合理的評估機制,進行代碼重復(fù)率檢測等;針對學(xué)生學(xué)習(xí)能力的不同,設(shè)置個性化的實驗案例,同一個實驗案例設(shè)置必做部分、選做部分。

猜你喜歡
數(shù)據(jù)挖掘案例算法
案例4 奔跑吧,少年!
少先隊活動(2021年2期)2021-03-29 05:40:48
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
基于MapReduce的改進Eclat算法
Travellng thg World Full—time for Rree
隨機變量分布及統(tǒng)計案例拔高卷
進位加法的兩種算法
發(fā)生在你我身邊的那些治超案例
中國公路(2017年7期)2017-07-24 13:56:38
基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
一種改進的整周模糊度去相關(guān)算法
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
深州市| 凌源市| 腾冲县| 荔波县| 荣成市| 莲花县| 林西县| 嘉义市| 当阳市| 汉阴县| 隆回县| 兴业县| 河东区| 开封市| 中牟县| 肥东县| 拜泉县| 灌云县| 泗洪县| 曲阜市| 栖霞市| 建德市| 杭锦后旗| 兴城市| 繁峙县| 华宁县| 九寨沟县| 三穗县| 时尚| 博兴县| 大连市| 望城县| 昌吉市| 常山县| 贞丰县| 微山县| 元谋县| 柳河县| 岱山县| 黄山市| 如皋市|