摘 要:為解決數(shù)據(jù)挖掘課程教學過程中,學生理論知識儲備與實際工作應(yīng)用脫節(jié)的問題,設(shè)計演示型、驗證型、案例型、項目參與型四個層次的實踐教學體系。在項目參與型實驗中,要求學生基于CRISPDM模型開展數(shù)據(jù)挖掘項目,針對具體的業(yè)務(wù)背景,依次開展提出問題、分析問題和解決問題的全過程。
關(guān)鍵詞:數(shù)據(jù)挖掘;實踐教學;項目驅(qū)動;CRISPDM模型
在大數(shù)據(jù)時代,社會各行各業(yè)都需要大量數(shù)據(jù)分析人才。許多院校正在積極探索數(shù)據(jù)分析人才的培養(yǎng)模式,在信息類、經(jīng)管類專業(yè)學生的本科階段開設(shè)“數(shù)據(jù)挖掘”課程,培養(yǎng)學生數(shù)據(jù)分析和處理的能力。然而,數(shù)據(jù)挖掘課程仍存在以課堂教學為主,沒有設(shè)置實驗課時或?qū)嶒炚n時設(shè)置過少等問題,使得學生難以在有限的教學時間內(nèi)掌握數(shù)據(jù)挖掘項目所必備的知識和技能,出現(xiàn)“理論知識儲備”與“實際工作應(yīng)用”脫節(jié)的問題。
目前,針對數(shù)據(jù)挖掘課程的教改探討有:黃嵐提出通過建設(shè)開放數(shù)據(jù)挖掘?qū)嵺`教學資源庫提升教學效果,激發(fā)學生的學習興趣。白楊依據(jù)應(yīng)用型本科院校人才培養(yǎng)目標需求,將傳統(tǒng)教學法與現(xiàn)象教學法、翻轉(zhuǎn)課堂教學法相結(jié)合,提高學生的學習興趣和實踐能力。趙曉凡針對公安高等院校學生就業(yè)狀況和數(shù)據(jù)挖掘課程實際教學效果,提出結(jié)合公安大數(shù)據(jù)業(yè)務(wù)、重點介紹數(shù)據(jù)挖掘算法的應(yīng)用、案例驅(qū)動教學等三點改革措施。胡敏指出商務(wù)智能實踐課程需要讓學生實現(xiàn)由問題找方法,進而深入理解方法的過程。
南京信息工程大學信管專業(yè)依據(jù)專業(yè)發(fā)展內(nèi)容創(chuàng)建了“大數(shù)據(jù)分析”專業(yè)方向,培養(yǎng)能做業(yè)務(wù)咨詢、商務(wù)智能的數(shù)據(jù)分析人才。在“數(shù)據(jù)挖掘”課程的教學過程中,總結(jié)出“重方法,輕算法;重應(yīng)用,輕研究”的教學理念,培養(yǎng)學生數(shù)據(jù)分析能力、文字表達和人際溝通等能力。
一、 實踐教學思路
在實驗課設(shè)計過程中,根據(jù)信管專業(yè)人才培養(yǎng)的特點和要求,從企業(yè)大數(shù)據(jù)分析的實際應(yīng)用出發(fā),培養(yǎng)學生將實際的商業(yè)問題轉(zhuǎn)化為數(shù)據(jù)挖掘目標、理解和收集數(shù)據(jù)、應(yīng)用數(shù)據(jù)挖掘工具建模、評估模型以判斷是否符合商業(yè)目的,并將發(fā)現(xiàn)的結(jié)果組織成可讀文本的能力,使學生的理論知識和實踐技能得到共同發(fā)展。
在此基礎(chǔ)上,從系統(tǒng)演示、軟件模擬、案例教學、項目驅(qū)動四個方面開展實踐教學,設(shè)計演示型、驗證型、案例型、項目參與型等四個層次的實踐教學體系(見表1)。在鞏固和理解理論知識的基礎(chǔ)上,培養(yǎng)學生的分析能力、動手能力和綜合運用知識的能力,解決教學中的“理論知識”與“實際動手”、“算法設(shè)計”與“工具實用”的兩個嚴重脫節(jié)的問題。
設(shè)計數(shù)據(jù)挖掘軟件認識的演示型實驗,對數(shù)據(jù)挖掘軟件的基本操作和環(huán)境進行講解,使學生對數(shù)據(jù)挖掘軟件有一個初步的認識。設(shè)計數(shù)據(jù)預(yù)處理、關(guān)聯(lián)規(guī)則挖掘、分類挖掘和聚類挖掘幾個驗證型實驗,實驗和數(shù)據(jù)挖掘的理論知識模塊一一對應(yīng),使得學生夯實理論知識。通過案例型實驗使學生掌握數(shù)據(jù)挖掘的方法論,初步理解數(shù)據(jù)挖掘過程,為學生獨立完成數(shù)據(jù)挖掘項目打好基礎(chǔ)。通過項目參與型實驗使學生深刻理解數(shù)據(jù)挖掘的全過程。
項目參與型實驗采用項目的形式,將學生分為若干項目組,將相對獨立的數(shù)據(jù)挖掘項目交予學生獨立完成。從業(yè)務(wù)目標的確定、數(shù)據(jù)的處理、算法的選擇,到模型的評價、商業(yè)的部署,都由學生具體負責。選題主要結(jié)合學院教師現(xiàn)有的縱向和橫向科研項目,由教師擬出一個或者多個可供選擇的課題,同時也鼓勵學生根據(jù)自己的想法并在教師的幫助下擬定課題。
二、 項目驅(qū)動的“數(shù)據(jù)挖掘”課程實踐教學設(shè)計
跨行業(yè)數(shù)據(jù)挖掘標準流程CRISPDM(crossindustry standard process for data mining)是業(yè)界認可的用于指導(dǎo)數(shù)據(jù)挖掘全過程的方法。通過近幾年的發(fā)展,CRISPDM模型在各種KDD過程模型中占據(jù)領(lǐng)先位置,2014年統(tǒng)計表明,采用量達到43%。
因此,在項目驅(qū)動的“數(shù)據(jù)挖掘”課程實踐教學設(shè)計中,要求學生基于CRISPDM模型開展數(shù)據(jù)挖掘項目,針對具體的業(yè)務(wù)背景,依次開展提出問題、分析問題和解決問題的全過程。
(一) 業(yè)務(wù)理解
在開展數(shù)據(jù)挖掘項目之前,先要確定業(yè)務(wù)目標,確定想通過數(shù)據(jù)挖掘項目達到什么目標。在這個階段,需要學生收集有關(guān)業(yè)務(wù)情況的背景信息,從應(yīng)用角度討論具體的業(yè)務(wù)目標,并把這些理解轉(zhuǎn)換成數(shù)據(jù)挖掘問題的定義;最后確定從業(yè)務(wù)角度判定的數(shù)據(jù)挖掘成功與否的標準。業(yè)務(wù)目標的定義非常重要,如果開始方向錯了,那么無論模型多么準確都只能得出錯誤的結(jié)論。
(二) 數(shù)據(jù)理解
學生在數(shù)據(jù)理解階段需要理解項目相關(guān)的數(shù)據(jù)資源以及這些資源的特征。如購物籃分析項目中需要確定:哪些數(shù)據(jù)可以用來進行購物籃分析和識別客戶群體的購物偏好?這些數(shù)據(jù)是否已經(jīng)獲得?還有哪些數(shù)據(jù)資源還沒有獲得,用什么方法可以得到這些數(shù)據(jù)資源?獲得所需數(shù)據(jù)資源之后,學生用表格、圖表和其他可視化工具探索數(shù)據(jù),為關(guān)鍵屬性計算基本的統(tǒng)計數(shù)據(jù),并對數(shù)據(jù)資源的質(zhì)量進行評估。
(三) 數(shù)據(jù)準備
數(shù)據(jù)準備階段要求學生選擇和數(shù)據(jù)挖掘項目相關(guān)的數(shù)據(jù),并對數(shù)據(jù)進行預(yù)處理,為建模做好準備。由于現(xiàn)實世界中的數(shù)據(jù)不可避免地存在不完整、不一致和包含噪聲等情況,因此需要對數(shù)據(jù)進行數(shù)據(jù)清理、數(shù)據(jù)集成等預(yù)處理工作,從而提高數(shù)據(jù)挖掘的質(zhì)量。
(四) 建模
學生根據(jù)數(shù)據(jù)挖掘項目的目標和數(shù)據(jù)的實際情況,選擇合適的算法,設(shè)置合理的參數(shù),構(gòu)建模型。建模的過程通常情況下要進行多次迭代,可能會進行算法的調(diào)整、參數(shù)的調(diào)整,甚至是重新準備數(shù)據(jù)。
(五) 評估
在這個階段,評估數(shù)據(jù)挖掘的結(jié)果是否明確,是否滿足之前確立的業(yè)務(wù)目標。為了保證項目評估的客觀性,評估工作可以交叉進行,每一個項目組對另外一個項目組的數(shù)據(jù)挖掘結(jié)果進行評估。
(六) 部署
這個階段是數(shù)據(jù)挖掘結(jié)果的實際應(yīng)用階段。項目組要基于數(shù)據(jù)挖掘的結(jié)果設(shè)計策略進行模型的應(yīng)用及預(yù)演。如可以基于購物籃分析得出的關(guān)聯(lián)規(guī)則設(shè)計交叉銷售策略、貨架陳放方案等。
三、 基于CRISPDM模型的零售公司客戶價值提升應(yīng)用
以FoodMart公司的客戶價值提升項目為例,闡述基于CRISPDM模型的數(shù)據(jù)挖掘項目全過程。數(shù)據(jù)挖掘工具使用IBM SPSS Modeler,它是一款基于CRISPDM模型的商業(yè)數(shù)據(jù)挖掘軟件。
(一) 業(yè)務(wù)理解
1. 業(yè)務(wù)背景:FoodMart公司在美國、加拿大、墨西哥的連鎖店銷售商品,目前面臨來自其他零售公司的競爭日益加劇。公司老板提出一個解決方案是培養(yǎng)現(xiàn)有客戶關(guān)系,以便最大化現(xiàn)有客戶的價值。
2. 業(yè)務(wù)目標:通過提供更好的推薦增加交叉銷售的數(shù)量;通過提供更個性化的服務(wù)提高客戶的忠誠度。
3. 數(shù)據(jù)挖掘目標:基于客戶購物數(shù)據(jù)識別商品之間的關(guān)聯(lián)規(guī)則;基于客戶購物數(shù)據(jù)和客戶人口統(tǒng)計數(shù)據(jù)確定不同的客戶群體,并識別客戶群體的購物偏好。
(二) 數(shù)據(jù)理解
FoodMart數(shù)據(jù)庫中有食品連鎖店經(jīng)營業(yè)務(wù)所產(chǎn)生的數(shù)據(jù),本項目中需要的客戶數(shù)據(jù)、購物交易數(shù)據(jù)、產(chǎn)品數(shù)據(jù)都可以在數(shù)據(jù)庫中找到。IBM SPSS Modeler的數(shù)據(jù)審核、表格等節(jié)點可以用來對數(shù)據(jù)資源進行探索性分析和質(zhì)量評估。
(三) 數(shù)據(jù)準備
以識別商品之間的關(guān)聯(lián)規(guī)則為例,闡述數(shù)據(jù)準備工作。
1. 不同數(shù)據(jù)源數(shù)據(jù)的合并
表sale_fact_1998(1998年交易數(shù)據(jù)表)中只有產(chǎn)品號字段,不利于用戶對挖掘出的關(guān)聯(lián)規(guī)則的理解,因此需要再添加表product(商品列表),從而獲得產(chǎn)品名稱。在IBM SPSS Modeler中添加兩個數(shù)據(jù)庫源節(jié)點,分別導(dǎo)入表sale_fact_1998和表product,并通過合并節(jié)點合并和過濾數(shù)據(jù)。
2. 挖掘算法所需新字段的生成
SPSS Modeler軟件中關(guān)聯(lián)規(guī)則模型使用的數(shù)據(jù)可能是事務(wù)處理格式,也可能是表格格式。事務(wù)處理格式數(shù)據(jù)對于每個交易或項目具有一個單獨的記錄,要求有一個交易標識字段TID。交易數(shù)據(jù)表sale_fact_1998是事物處理格式的,但它缺少交易標識字段TID。因此,根據(jù)time_id字段和customer_id字段生成交易標識字段TID,將同一個客戶在同一個時間的紀錄視為一個交易。
3. 字段的過濾和重排
用過濾器節(jié)點去掉建模不需要的字段,用字段重排節(jié)點調(diào)整字段的前后順序。
(四) 建模
選擇Aprior節(jié)點,設(shè)置規(guī)則的最低條件支持度和最小規(guī)則置信度,執(zhí)行數(shù)據(jù)流。從使用默認的參數(shù)開始挖掘,不能找到有效的關(guān)聯(lián)規(guī)則,調(diào)整參數(shù)重新挖掘,仍不能得到理想的挖掘結(jié)果。結(jié)果發(fā)現(xiàn)在原始層數(shù)據(jù)中進行挖掘,得不到理想的挖掘結(jié)果。
重新回到數(shù)據(jù)準備節(jié)點,對數(shù)據(jù)進行泛化,將商品的低層概念(product)用對應(yīng)的高層概念(product subcategory或product category等)替換,挖掘高層概念的關(guān)聯(lián)規(guī)則。在商品的高層概念層次上挖掘,可以得到較好的結(jié)果。
(五) 評估和部署
在商品的高層概念上挖掘,得到商品之間的關(guān)聯(lián)規(guī)則。使用這些規(guī)則設(shè)計交叉銷售策略,從而提供更好的商品推薦,增加交叉銷售的數(shù)量。
四、 結(jié)語
在數(shù)據(jù)挖掘課程的教學過程中,實行基于項目實踐的綜合實習,可以使學生能夠從工程的角度,對數(shù)據(jù)挖掘的全過程有深入地了解,理論知識和實踐技能得到共同發(fā)展,解決“理論知識儲備”與“實際工作應(yīng)用”脫節(jié)的問題。
參考文獻:
[1]白楊.應(yīng)用型本科“數(shù)據(jù)挖掘”課程的構(gòu)建研究[J].無線互聯(lián)科技,2018(5):95-96.
[2]趙曉凡.公安高等院校數(shù)據(jù)挖掘課程教改研究[J].計算機教育,2018(1):39-42.
[3]黃嵐.數(shù)據(jù)挖掘課程實踐教學資源庫建設(shè)[J].計算機教育,2014(12):89-92.
[4]胡敏.商務(wù)智能實踐教學內(nèi)容設(shè)計與方法研究[J].教育現(xiàn)代化,2016,3(23):127-128.
[5]百度百科.CRISPDM[EB/OL].[2018-5-9]https://baike.baidu.com/item/CRISPDM/7002457?fr=aladdin.
[6]IBM SPSS Modeler 18.0建模節(jié)點[EB/OL]. [2018-5-22]. http://bbs.pinggu.org/thread-4463720-1-1.html.
作者簡介:朱慧云,江蘇省南京市,南京信息工程大學管理工程學院。