国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于實(shí)證分析的數(shù)據(jù)挖掘在家庭經(jīng)濟(jì)困難學(xué)生精準(zhǔn)識別過程中的應(yīng)用探索

2016-11-24 17:42:39李書翔張沂紅
2016年32期
關(guān)鍵詞:家庭經(jīng)濟(jì)困難學(xué)生決策樹

李書翔張沂紅

摘 要:通過建立基于家庭經(jīng)濟(jì)困難學(xué)生數(shù)據(jù)庫的數(shù)據(jù)挖掘模型對困難生精準(zhǔn)識別進(jìn)行實(shí)證角度的探索,通過數(shù)據(jù)預(yù)處理后的數(shù)據(jù)選取決策樹模型進(jìn)行學(xué)生識別,評估模型顯示,該數(shù)據(jù)挖掘模型預(yù)測具有較高的準(zhǔn)確率,能夠從一定程度上解決家庭經(jīng)濟(jì)困難學(xué)生認(rèn)定過程中存在的主觀性、片面性等問題。

關(guān)鍵詞:數(shù)據(jù)挖掘模型;家庭經(jīng)濟(jì)困難學(xué)生;精準(zhǔn)識別;決策樹

數(shù)據(jù)挖掘(Data Mining,DM)又稱數(shù)據(jù)庫中的知識發(fā)現(xiàn)(Knowledge Discover in Database,KDD),是指從數(shù)據(jù)庫的大量數(shù)據(jù)中揭示出隱含的、先前未知的并有潛在價(jià)值的信息的過程[1]。數(shù)據(jù)挖掘在很多領(lǐng)域都是一個很時髦的詞,尤其是在如銀行、電信、保險(xiǎn)、交通、零售等商業(yè)領(lǐng)域。但是,數(shù)據(jù)挖掘在教育領(lǐng)域的應(yīng)用尚處于理論探索階段,其他研究中已經(jīng)證明,數(shù)據(jù)挖掘在高校家庭經(jīng)濟(jì)困難學(xué)生精準(zhǔn)識別的過程中具有理論上的可行性,本文通過建立基于家庭經(jīng)濟(jì)困難學(xué)生數(shù)據(jù)庫的數(shù)據(jù)挖掘模型對困難生精準(zhǔn)識別進(jìn)行實(shí)證角度的探索,以期能夠解決家庭經(jīng)濟(jì)困難學(xué)生認(rèn)定過程中存在的主觀性、片面性等問題。

本研究通過運(yùn)用數(shù)據(jù)挖掘技術(shù),對家庭經(jīng)濟(jì)困難學(xué)生的數(shù)據(jù)進(jìn)行量化分析、建模評價(jià)、以及結(jié)果分析。本文的主要設(shè)計(jì)思路為:針對學(xué)生的一系列評價(jià)家庭經(jīng)濟(jì)困難程度的指標(biāo)劃分學(xué)生困難等級,有利于簡化家庭經(jīng)濟(jì)困難學(xué)生的認(rèn)定程序,降低錯誤率。一個完整的數(shù)據(jù)挖掘過程主要包括數(shù)據(jù)準(zhǔn)備、建立模型進(jìn)行挖掘、模型的評價(jià)與修正三個階段。借助數(shù)據(jù)庫中已有學(xué)生信息,使用數(shù)據(jù)挖掘方法開發(fā)出困難等級評分模型從已有數(shù)據(jù)中分析歸納出困難生識別的規(guī)則和標(biāo)準(zhǔn)。然后,將這些規(guī)則或標(biāo)準(zhǔn)應(yīng)用于困難生認(rèn)定過程。本文所采用的數(shù)據(jù)挖掘軟件為SPSS Clementine 12.0。該軟件操作簡單、無需編程、界面人性化,是一款十分適用的數(shù)據(jù)挖掘軟件。圖1展示了基于數(shù)據(jù)挖掘的困難生精準(zhǔn)識別所構(gòu)建的模型。

一、數(shù)據(jù)預(yù)處理

數(shù)據(jù)預(yù)處理主要包括原始數(shù)據(jù)整理與數(shù)據(jù)分割兩部分。

本研究采用原始數(shù)據(jù)來自2015年度某高校某學(xué)院家庭經(jīng)濟(jì)困難學(xué)生數(shù)據(jù)庫,該數(shù)據(jù)庫共有數(shù)據(jù)496條。從學(xué)生《家庭情況調(diào)查表》以及家庭經(jīng)濟(jì)困難申請表中原因陳述結(jié)果可以看到,涉及到學(xué)生的特征指標(biāo)包括戶籍性質(zhì)(HJ)(農(nóng)村、城鎮(zhèn)),戶口所在地(HK)(東部、西部、中部),家庭人口數(shù)(RK),是否孤殘(GC),是否單親(DQ),家庭人均年收入(SR),家庭健康情況(JK),家庭負(fù)債情況(FJ)等一系列指標(biāo)。數(shù)據(jù)經(jīng)整理后能夠滿足Clementine對數(shù)據(jù)挖掘的要求。

數(shù)據(jù)分割的目的主要是為了驗(yàn)證數(shù)據(jù)挖掘模型,根據(jù)一般原則,數(shù)據(jù)分割的比例配比為訓(xùn)練集(40%),測試集(30%),驗(yàn)證集(30%)。分割方法為簡單隨機(jī)抽樣,利用Clementine 12.0的Partition節(jié)點(diǎn)完成。分割后的三個數(shù)據(jù)集用新增變量Partition的取值標(biāo)識,但仍合并在同一個數(shù)據(jù)文件里。

二、建立模型

家庭經(jīng)濟(jì)困難的等級與困難學(xué)生本身的特性是緊密相關(guān)的,經(jīng)由這些特性能夠細(xì)分學(xué)生困難等級,常用的特征識別方法是分類樹。分類樹著眼于從一組無次序、無規(guī)則的事例中推理出分類樹表示的分類規(guī)則。現(xiàn)在比較常見的算法是基于信息論的方法的決策樹。本文選取決策樹模型來分析處于不同困難等級的學(xué)生所共有的一些個人信息,并對困難生認(rèn)定提出相應(yīng)的一些建議。

符合以下幾條規(guī)則之一的,可以認(rèn)定為家庭經(jīng)濟(jì)條件特殊困難:(1)人均年收入少于2250元,家庭人口少于3.5;(2)家庭人口多于3.5,人均年收入少于950元;(3)人均年收入高于2250元,家中有負(fù)債,人口數(shù)少于5人,家庭存在不健康因素。

符合以下幾條規(guī)則之一的,可以認(rèn)定為家庭經(jīng)濟(jì)條件困難:(1)人均年收入大于1250元,家中有負(fù)債,農(nóng)村戶口;(2)人均年收入大于1250元,戶籍所在地為中西部地區(qū);(3)人均年收入大于1250,家中人口多于5人,且有負(fù)債;(4)收入多于2250,人口數(shù)多于6人且家中不健康因素的。

符合以下幾條規(guī)則之一的,可以認(rèn)定為家庭經(jīng)濟(jì)條件一般困難:(1)收入多于1250,家住農(nóng)村,無負(fù)債;(2)收入在2250到2450之間,家住中東部,人口少于6人;(3)收入大于2450元。

三、模型評估

完成模型的制定以后,下一步就是對模型進(jìn)行評估,檢驗(yàn)其預(yù)測能力的強(qiáng)弱。一般來說,模型的檢驗(yàn)有兩種方式:樣本內(nèi)檢驗(yàn)和樣本外檢驗(yàn)。在Clementine中,模型評估主要采用圖形展示,例如Gain圖、Lift圖等。另外,也常用分類矩陣來比較預(yù)測結(jié)果與實(shí)際結(jié)果的吻合程度,分析結(jié)果如圖2。

首先,從收益圖可以明顯的看出,利用決策樹得到預(yù)測模型準(zhǔn)確率非常高,幾乎與理想模型重合,而基于客戶特征的細(xì)分變量的準(zhǔn)確率也比較高。

為了更好的評判預(yù)測效果,利用Clementine 12.0中的Analysis節(jié)點(diǎn),可以得到如下關(guān)于決策樹模型在三個部分的數(shù)據(jù)集中的預(yù)測準(zhǔn)確率。在大小為40%的訓(xùn)練數(shù)據(jù)集中,模型的預(yù)測準(zhǔn)確率達(dá)到86.03%;在大小為30%的檢驗(yàn)數(shù)據(jù)集中預(yù)測準(zhǔn)確率為86.1%;在大小為30%的驗(yàn)證數(shù)據(jù)集中,其預(yù)測準(zhǔn)確率達(dá)到86.18%??梢?,利用決策樹模型已經(jīng)達(dá)到了相當(dāng)好的估計(jì)效果。

四、結(jié)論

數(shù)據(jù)挖掘模型的運(yùn)行結(jié)果在理論與實(shí)踐層面都得出了有益的結(jié)論。

首先,數(shù)據(jù)挖掘的運(yùn)行結(jié)果給出了困難生認(rèn)定的一些普遍規(guī)則,這些規(guī)則基于困難生認(rèn)定的原始數(shù)據(jù)所表現(xiàn)出來的困難生的特性,反映學(xué)生的方方面面。這些規(guī)則在困難生認(rèn)定過程中將會是非常好的參考條件,甚至對困難生認(rèn)定的準(zhǔn)確度起決定作用。

其次,數(shù)據(jù)挖掘應(yīng)用于家庭經(jīng)濟(jì)困難學(xué)生精準(zhǔn)識別,對于數(shù)據(jù)挖掘在教育領(lǐng)域尤其是在學(xué)生管理與服務(wù)工作中的應(yīng)用提供了有益的借鑒,這種借鑒也不應(yīng)止步于此,應(yīng)當(dāng)進(jìn)行更加深入的研究與應(yīng)用,一遍提高高等學(xué)校學(xué)生工作的科學(xué)化水平。(作者單位:1.濟(jì)南大學(xué)外國語學(xué)院;2.濟(jì)南大學(xué)黨委學(xué)生工作部)

參考文獻(xiàn):

[1] 謝邦昌等. 數(shù)據(jù)挖掘基礎(chǔ)與應(yīng)用(SQL Server 2008)[M]. 機(jī)械工業(yè)出版社, 2012, (1).

[2] 呂紅胤等. 大數(shù)據(jù)引領(lǐng)教育未來—從成績預(yù)測談起[J]. 電子科技大學(xué), 2015, (4).

猜你喜歡
家庭經(jīng)濟(jì)困難學(xué)生決策樹
一種針對不均衡數(shù)據(jù)集的SVM決策樹算法
決策樹和隨機(jī)森林方法在管理決策中的應(yīng)用
電子制作(2018年16期)2018-09-26 03:27:06
基于改進(jìn)決策樹的故障診斷方法研究
家庭經(jīng)濟(jì)困難學(xué)生心理現(xiàn)狀及應(yīng)對方式研究
東方教育(2016年10期)2017-01-16 20:37:29
高職院校家庭經(jīng)濟(jì)困難學(xué)生思想現(xiàn)狀及對策研究
亞太教育(2016年35期)2016-12-21 19:20:35
家庭經(jīng)濟(jì)困難學(xué)生職業(yè)價(jià)值觀特征與職業(yè)指導(dǎo)研究
淺析高校家庭經(jīng)濟(jì)困難學(xué)生認(rèn)定存在的問題及對策研究
高校家庭經(jīng)濟(jì)困難學(xué)生的公益服務(wù)意識培養(yǎng)研究
中國市場(2016年38期)2016-11-15 23:45:17
淺析新常態(tài)下高職院校家庭經(jīng)濟(jì)困難學(xué)生的人文素質(zhì)教育
考試周刊(2016年50期)2016-07-12 23:27:16
基于決策樹的出租車乘客出行目的識別
临夏县| 宕昌县| 景谷| 大丰市| 呼玛县| 桦甸市| 瓦房店市| 灵寿县| 衡阳县| 库车县| 丹棱县| 循化| 孝昌县| 琼中| 莲花县| 喜德县| 陈巴尔虎旗| 凤山县| 西和县| 湟中县| 桦川县| 成武县| 盐池县| 从化市| 改则县| 两当县| 渝北区| 万盛区| 通河县| 新乐市| 甘泉县| 铁力市| 万山特区| 绥化市| 阆中市| 沁阳市| 合水县| 武川县| 舞阳县| 新龙县| 云霄县|