譚征 孫紅霞 王立宏 任滿杰
摘要:分析數(shù)據(jù)挖掘原理與算法課程在教學(xué)中存在的弊端,并基于數(shù)據(jù)挖掘課程的本質(zhì),闡述在以培養(yǎng)應(yīng)用型人才為主的大學(xué)中,如何以實例為主線,貫穿教學(xué)過程,開設(shè)本課程的,思路和做法。
關(guān)鍵詞:數(shù)據(jù)挖掘原理與算法;實例;教學(xué)探索
0.引言
隨著經(jīng)濟(jì)、科技和信息技術(shù)的飛速發(fā)展,特別是網(wǎng)絡(luò)技術(shù)的發(fā)展,數(shù)據(jù)的產(chǎn)生和存儲能力有了很大程度的提高。數(shù)據(jù)挖掘的出現(xiàn),為人們提供了一條解決“數(shù)據(jù)豐富而知識貧乏”困境的有效途徑Ⅲ。所以很多高校,包括世界上一些著名高校都開設(shè)了數(shù)據(jù)挖掘課程。課程的基礎(chǔ)理論部分一般包括數(shù)據(jù)預(yù)處理、關(guān)聯(lián)規(guī)則、分類、聚類、時間序列挖掘、Web挖掘等內(nèi)容。該課程使學(xué)生學(xué)會分析研究數(shù)據(jù)挖掘中數(shù)據(jù)預(yù)處理、常用算法、結(jié)果的可視化等技術(shù),并培養(yǎng)學(xué)生的數(shù)據(jù)抽象能力,幫助學(xué)生形成科學(xué)思維和專業(yè)素養(yǎng),使他們畢業(yè)后在就業(yè)上有更多的選擇。
筆者將探討基于實例教學(xué)的數(shù)據(jù)挖掘課程的教學(xué)內(nèi)容安排,強(qiáng)調(diào)淡化學(xué)科背景,加強(qiáng)算法的應(yīng)用性訓(xùn)練,將實際的例子貫穿于教學(xué)中,并重新組織授課內(nèi)容、安排實踐環(huán)節(jié),教會學(xué)生學(xué)以致用。
1.教學(xué)現(xiàn)狀分析
1.1課程本質(zhì)
數(shù)據(jù)挖掘原理與算法涉及的學(xué)科領(lǐng)域很寬泛。其最終目的是在數(shù)據(jù)中挖掘出可供人們利用的知識和信息,因此數(shù)據(jù)挖掘技術(shù)要從數(shù)據(jù)庫技術(shù)、統(tǒng)計學(xué)、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、知識系統(tǒng)、信息檢索、高性能計算和可視化等領(lǐng)域汲取營養(yǎng)。另外,每個學(xué)科都在進(jìn)行著日新月異的發(fā)展變化,數(shù)據(jù)挖掘技術(shù)遇到的挑戰(zhàn)也為相關(guān)學(xué)科領(lǐng)域的深入研究提供了新的契機(jī)。由于課程難度較大,很多高校把這門課程作為研究生的專業(yè)課程,也有院校將此課作為本科生高年級選修課開設(shè)腳。但是本科生開設(shè)這門課程的普通院校較少,我們能借鑒的教學(xué)經(jīng)驗有限。
1.2數(shù)據(jù)挖掘課程教學(xué)環(huán)節(jié)的弊端
①某些學(xué)校對本科生開設(shè)的數(shù)據(jù)挖掘課程,其教學(xué)過程對理論的探討過多,與應(yīng)用存在距離,沒有體現(xiàn)出這門課程面向應(yīng)用的特質(zhì),缺少對學(xué)生工程能力的訓(xùn)練,存在學(xué)生在學(xué)了這門課程后不知道能干什么的現(xiàn)象。
②教學(xué)形式呆板單一。傳統(tǒng)的教師講、學(xué)生聽的教學(xué)模式,很難引起學(xué)生的探究興趣,不利于發(fā)揮他們自身的能動性和創(chuàng)新動機(jī)。
2.選擇恰當(dāng)實例貫穿數(shù)據(jù)挖掘課程的教學(xué)過程
煙臺大學(xué)計算機(jī)學(xué)院所開設(shè)的數(shù)據(jù)挖掘課程在教學(xué)上安排了6章內(nèi)容,涉及3個實例(其中兩個是實際生活中的項目課題):第1個是用于房產(chǎn)信息調(diào)查的房產(chǎn)客戶關(guān)系管理系統(tǒng);第2個是用于煙臺大學(xué)督評中心評教文本分類的中文文本數(shù)據(jù)挖掘系統(tǒng);第3個是用于國家葡萄酒檢測中心的數(shù)據(jù)分析的葡萄酒成分?jǐn)?shù)據(jù)挖掘系統(tǒng)。
2.1房產(chǎn)客戶關(guān)系管理系統(tǒng)
在講述房產(chǎn)客戶關(guān)系管理系統(tǒng)時內(nèi)容涵蓋緒論、知識發(fā)現(xiàn)過程和關(guān)聯(lián)規(guī)則3章,重點講授內(nèi)容包括:
(1)數(shù)據(jù)倉庫。住房管理數(shù)據(jù)倉庫中的數(shù)據(jù)是按主題組織的,可從歷史觀點提供信息。數(shù)據(jù)挖掘技術(shù)能按知識工程的方法完成高層次需求,可以發(fā)現(xiàn)蘊(yùn)藏在數(shù)據(jù)內(nèi)部的知識模式。挖掘后形成的知識表示模式可為企業(yè)決策提供支持。
(2)通過對客戶信息進(jìn)行分析,闡述關(guān)聯(lián)規(guī)則的參數(shù):support、confidence、expected confidence,并簡單介紹關(guān)聯(lián)規(guī)則中的多維、多層次等拓展知識。
(3)關(guān)聯(lián)規(guī)則挖掘。①講授關(guān)聯(lián)規(guī)則挖掘的Apriori算法;②講述布爾關(guān)聯(lián)規(guī)則的概念,對處理后形成的交易數(shù)據(jù)庫進(jìn)行布爾關(guān)聯(lián)規(guī)則挖掘,將問題轉(zhuǎn)化為尋找以決策屬性為結(jié)果的規(guī)則;③將關(guān)聯(lián)規(guī)則挖掘應(yīng)用于客戶關(guān)系管理的最終目的是努力將潛在客戶轉(zhuǎn)變?yōu)楝F(xiàn)實客戶,將滿意客戶轉(zhuǎn)變?yōu)橹艺\的終生客戶,提高客戶滿意程度,降低市場銷售及宣傳成本,增加利潤率。
(4)設(shè)minsup=10%,minconf=70%。在統(tǒng)計的各類人群中獵取咨詢的渠道主要是雜志、報紙、互聯(lián)網(wǎng)和電視。經(jīng)試驗統(tǒng)計后得到以下有關(guān)知識:①滿足age>50 AND職業(yè)=“工人”的客戶占所統(tǒng)計總?cè)藬?shù)的9.7%;其中滿足age>50 AND職業(yè)=“工人”AND渠道=“TV”的客戶占92%。②符合學(xué)歷=“大?!盇ND職業(yè)=“工人”的客戶占所統(tǒng)計總?cè)藬?shù)的24.8%,其中滿足學(xué)歷=“大?!盇ND職業(yè)=“工人”AND渠道=“newspaper”的客戶占82%。③被統(tǒng)計人群中滿足income=“5000-9000”AND職業(yè)=“教師、醫(yī)生、公務(wù)員”的客戶占所統(tǒng)計總?cè)藬?shù)的32.7%;其中滿足income=“4000-6000”AND職業(yè)=“教師、醫(yī)生、公務(wù)員”AND渠道=“雜志”的客戶占83%。④被統(tǒng)計人群中滿足學(xué)歷=“本科”AND income≥“10000”的客戶占所統(tǒng)計總?cè)藬?shù)的占11.6%;其中符合學(xué)歷=“本科”ANDincome≥“8000”AND職業(yè)=“公司經(jīng)理”AND渠道=“雜志”的客戶占86.5%。
(5)教師要分析Apriori算法的瓶頸和改進(jìn),介紹Close算法和FP-樹算法,并且要求學(xué)生們掌握這3種經(jīng)典算法。
2.2中文文本數(shù)據(jù)挖掘系統(tǒng)
中文文本數(shù)據(jù)挖掘系統(tǒng)圍繞評教分類模型的建立講述特征選擇和主要分類算法。根據(jù)煙臺大學(xué)教學(xué)督評中心提供的學(xué)生對教師的中文評教文本,利用分類的方法找出其評價的傾向性,結(jié)合教材,重點講授了以下內(nèi)容:
1)特征選擇。
①介紹有監(jiān)督、無監(jiān)督和半監(jiān)督的特征選擇方法。②介紹使用分詞軟件后,統(tǒng)計詞頻,去掉小于閾值的低頻詞。③對比詞頻率、IG值(信息增益)、期望值差異對分類結(jié)果的影響留取特征詞。
部分?jǐn)?shù)據(jù)示例如下:用特征選擇的方法對重要的屬性進(jìn)行抽取,略去對分類影響不大的屬性,達(dá)到降維的目的,把特征選擇作為預(yù)處理。我們選用517條主觀評價作為訓(xùn)練樣本,其中233條留言是一般評價,采用以下3種方式進(jìn)行特征選擇:詞頻率、IG值(信息增益)、期望值差異。不同方式特征選擇對分類準(zhǔn)確性的影響如表1所示。
2)分類。
在介紹常用的分類基礎(chǔ)知識和決策樹、ID3、樸素貝葉斯分類、最近鄰分類算法之后,又介紹了基于潛在語義分析的降維技術(shù),講授了支持向量機(jī)(SVM)適用于文本分類的原因。布置給學(xué)生的任務(wù)是用爬蟲獲取網(wǎng)評,作傾向性分析。
評教文本分類統(tǒng)計后的結(jié)論是:將降維技術(shù)和支持向量機(jī)算法結(jié)合在評教模型的建立過程中,研究討論的主要內(nèi)容有:①各個指標(biāo)取不同值對分類的影響,這些指標(biāo)主要集中在特征抽取和選擇、保留詞性和降維維數(shù)等幾方面;②對分詞后的文本進(jìn)行特征選擇,篩去了詞頻數(shù)小于4的文本;③降維至30維,并適當(dāng)設(shè)置SVM中的可變參數(shù),找到合適的訓(xùn)練一測試樣本的比例,最后綜合出一個現(xiàn)有條件下的最佳分類模型。
2.3葡萄酒成份數(shù)據(jù)挖掘系統(tǒng)
葡萄酒成份數(shù)據(jù)挖掘系統(tǒng)介紹數(shù)值數(shù)據(jù)的預(yù)處理和聚類2章內(nèi)容。對葡萄酒成份的分析是根據(jù)所提供的酒中各成份的含量數(shù)據(jù),采用聚類或分類的方法確定某種葡萄酒的種類,比如是紅葡萄酒、白葡萄酒還是甜葡萄酒。圍繞這個問題我們介紹了如下內(nèi)容:
1)數(shù)值數(shù)據(jù)的預(yù)處理。
①介紹葡萄酒中各個屬性的含義和取值范圍;②講授數(shù)據(jù)的離散化技術(shù),如等深、等寬、聚類技術(shù);③講授本例中使用的m一估值計算對數(shù)值屬,1生的離散化技術(shù);④講述本例中如何避免0值出現(xiàn)及去噪聲技術(shù)。
葡萄酒中各成份的含量數(shù)據(jù)如表2所示。
2)聚類。
在介紹聚類的基本知識和常用算法(如k均值、k中心點、DBSCAN技術(shù))之后,講解了:①本課題使用的層次聚類算法。在測試結(jié)果時通過測試樣本和分類樣本的不同比例,對結(jié)果進(jìn)行了對比。②講述了用樸素貝葉斯分類計數(shù)對這一問題的分類處理,同時對比了聚類和分類算法在同一問題上的結(jié)論差異。利用樸素的貝葉斯分類器可以完成預(yù)測目標(biāo),根據(jù)訓(xùn)練樣本建立分類器,對待測樣本進(jìn)行預(yù)測,準(zhǔn)確率可達(dá)到90%以上。③引導(dǎo)學(xué)生思考對問題的處理可以聯(lián)合使用各種算法,并分析各種算法對結(jié)果的影響,從而找出解決問題的最佳方案。
2.4利用已知算法和實例講授Web挖掘技術(shù)
因特網(wǎng)規(guī)模龐大、結(jié)構(gòu)復(fù)雜、動態(tài)變化性大,蘊(yùn)含大量的信息。將Web上豐富的信息轉(zhuǎn)變成有用的知識正是Web挖掘的意義所在。用之前中文文本分類的方法引導(dǎo)學(xué)生在一些購物網(wǎng)站中下載對商品評論的中文文本,抽取特征詞,進(jìn)行傾向性分析,使學(xué)生熟悉支持向量機(jī)的分類方法,分詞軟件的使用及文本挖掘的整個過程。
3.結(jié)語
文章在前期制定應(yīng)用型本科生數(shù)據(jù)挖掘課程教學(xué)大綱的基礎(chǔ)上,針對數(shù)據(jù)挖掘課程內(nèi)容多學(xué)科交叉的特點,在教學(xué)中提出淡化學(xué)科背景,注重算法應(yīng)用與實踐,以客戶關(guān)系管理、葡萄酒數(shù)據(jù)分析、中文評教文本分類等實例作為授課內(nèi)容主線,讓實例教學(xué)始終圍繞著典型的算法和前沿知識展開的教學(xué)方式。在今后的教學(xué)工作中,我們還應(yīng)該不斷站在學(xué)科發(fā)展的前列,經(jīng)常更新實例,使其更好地融入教學(xué),將教與學(xué)有機(jī)統(tǒng)一,取得更好的教學(xué)效果。因此我們還有大量的工作需要探索研究。
參考文獻(xiàn):
[1]宋成,李晉宏,項目驅(qū)動的數(shù)據(jù)挖掘教學(xué)模式探討[J],中國電力教育,2011(27):116-177.
[2]劉云霞,統(tǒng)計學(xué)專業(yè)本科生開設(shè)“數(shù)據(jù)挖掘”課程的探討[J],吉林工程技術(shù)師范學(xué)院學(xué)報,2010(6),20-22.
[3]徐金寶,對應(yīng)用型本科生開設(shè)數(shù)據(jù)挖掘課程的嘗試[J],計算機(jī)教育,2007(7):27-29.
[4]高園園,呂慶文,數(shù)據(jù)挖掘課程的教學(xué)思考[J],醫(yī)學(xué)信息,2009,22(11):23-24.
[5]譚征,孫紅霞,王立宏,普通院校本科生開設(shè)數(shù)據(jù)挖掘課程的教學(xué)研究[J],福建電腦,2011,27(10):38-39.
[6]曾志強(qiáng),本科數(shù)據(jù)挖掘教學(xué)研究[J],科教文匯(上旬刊),2009(10):26-27.
(見習(xí)編輯:劉麗麗)