国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

聚類(lèi)分析數(shù)據(jù)挖掘技術(shù)在成人招生中的應(yīng)用

2018-11-17 07:10:18傅振南
關(guān)鍵詞:字段類(lèi)別數(shù)據(jù)挖掘

傅振南

(福建教育學(xué)院,福建 福州 350025)

大數(shù)據(jù)時(shí)代,數(shù)據(jù)挖掘被廣泛應(yīng)用于新零售、金融商業(yè)、科學(xué)研究、數(shù)據(jù)云服務(wù)、高校管理等領(lǐng)域。隨著教育改革的進(jìn)一步深化,成人高等教育面臨著諸多挑戰(zhàn),在普通高等教育擴(kuò)招的沖擊下,生源萎縮相當(dāng)嚴(yán)重,競(jìng)爭(zhēng)日趨白熱化,在招生高校數(shù)量不變而生源急劇減少的情況下,拿出更管用更精準(zhǔn)的招生宣傳方法是制勝的關(guān)鍵點(diǎn)。文章以F院校成人招生錄取數(shù)據(jù)為例,通過(guò)聚類(lèi)分析數(shù)據(jù)挖掘技術(shù)對(duì)相關(guān)數(shù)據(jù)進(jìn)行挖掘分析,為招生宣傳工作提供有力決策支持。

一、聚類(lèi)分析數(shù)據(jù)挖掘技術(shù)概述

1.聚類(lèi)分析數(shù)據(jù)挖掘技術(shù)

常用的數(shù)據(jù)挖掘技術(shù)包括:神經(jīng)網(wǎng)絡(luò)、決策樹(shù)、聚類(lèi)分析、統(tǒng)計(jì)分析、關(guān)聯(lián)規(guī)則、粗糙集方法、支持向量機(jī)、遺傳算法等。數(shù)據(jù)挖掘?qū)嶋H上是挖掘算法的選擇、執(zhí)行階段。文章首先根據(jù)挖掘任務(wù),從常用的技術(shù)中選擇適合數(shù)據(jù)分析提取的聚類(lèi)分析技術(shù)算法。聚類(lèi)分析被廣泛應(yīng)用于模式識(shí)別、市場(chǎng)研究、數(shù)據(jù)分析等眾多應(yīng)用領(lǐng)域,是數(shù)據(jù)挖掘研究領(lǐng)域一個(gè)重要分支。它適合探討樣本數(shù)據(jù)的內(nèi)部關(guān)系,因?yàn)槊總€(gè)樣本數(shù)據(jù)的類(lèi)別都是未知的,它是用一定的關(guān)聯(lián)標(biāo)準(zhǔn)將所提供的樣本數(shù)據(jù)劃分成不同的族,同一族內(nèi)的樣本數(shù)據(jù)相似度較高,相似度用距離作為度量方式,根據(jù)對(duì)象的屬性值來(lái)進(jìn)行分析評(píng)估。K-Means是典型的基于劃分的一種聚類(lèi)算法。其中K表示類(lèi)別數(shù),Means表示均值,因此K-Means不難理解是一種通過(guò)均值對(duì)數(shù)據(jù)單元進(jìn)行聚類(lèi)的算法。下面利用K-means 聚類(lèi)算法的特性,去分析招生宣傳對(duì)象所在單位類(lèi)型存在不同的特征,并加以分析應(yīng)用。

2.使用聚類(lèi)分析數(shù)據(jù)挖掘技術(shù)的主要流程

做任何工作首先都要確定它的目的任務(wù),數(shù)據(jù)挖掘也不例外,確定任務(wù)后再細(xì)分選擇數(shù)據(jù),清洗一些屬性缺失、錯(cuò)誤數(shù)據(jù)值、違反完整約束規(guī)則的數(shù)據(jù),并搜集遺漏數(shù)據(jù),然后進(jìn)行數(shù)據(jù)整合,整合完有重復(fù)記錄須清洗去除。接著做數(shù)據(jù)預(yù)處理分析,進(jìn)一步考證數(shù)據(jù)質(zhì)量,為進(jìn)一步分析做好準(zhǔn)備,根據(jù)事先確定的分析任務(wù),從準(zhǔn)備好的數(shù)據(jù)中提取與任務(wù)相關(guān)的數(shù)據(jù),并選擇挖掘操作類(lèi)型。最后將數(shù)據(jù)轉(zhuǎn)換成針對(duì)挖掘算法建立的分析模型,這也是數(shù)據(jù)挖掘成功與否的關(guān)鍵。

二、聚類(lèi)分析數(shù)據(jù)挖掘過(guò)程和分析——以F院校2017年錄取數(shù)據(jù)為例

1.收集樣本數(shù)據(jù)

從成人高校招生系統(tǒng)導(dǎo)出F院校2017年19張錄取數(shù)據(jù)表,主要包括考生投檔單表、專(zhuān)業(yè)代碼表、職業(yè)類(lèi)別表、性別代碼表等。

2.?dāng)?shù)據(jù)預(yù)處理

(1)數(shù)據(jù)提取。根據(jù)原先確定的分析目標(biāo)提取出樣本數(shù)據(jù)字段,主要從主表——考生的投檔單表(T_TDD.DBF)中提取分析目標(biāo)相關(guān)的樣本數(shù)據(jù)字段,主要是考生的畢業(yè)學(xué)校、所在單位、從業(yè)類(lèi)別、性別等。由于數(shù)據(jù)庫(kù)設(shè)計(jì)的原因,T_TDD.DBF表中有些字段是用代碼表示,無(wú)法直接讀取它的真正表達(dá)意思,如性別用“0”和“1”代碼表示,民族、政治面貌、招生類(lèi)別、招生層次、招生專(zhuān)業(yè)等字段也均用數(shù)字代碼標(biāo)記,因此需要先做好這些代碼的轉(zhuǎn)換工作,將其整理成一目了然的標(biāo)識(shí),表達(dá)出它的實(shí)際意思。轉(zhuǎn)換好相關(guān)樣本數(shù)據(jù)表的格式,將其用SQL Server 2000或ACCESS 2003以及更高版本的數(shù)據(jù)庫(kù)操作軟件進(jìn)行表間的數(shù)據(jù)關(guān)聯(lián)操作,然后通過(guò)菜單操作或SQL語(yǔ)句進(jìn)行連接。

(2)數(shù)據(jù)清洗。連接整合處理后的考生投檔單表(T_TDD.DBF)由68個(gè)字段組成,要進(jìn)行有效的邏輯轉(zhuǎn)換前需要根據(jù)分析目標(biāo)所需的相關(guān)樣本數(shù)據(jù)字段,可使用可視化分析技術(shù)工具如分布圖、條形圖、直方圖去除對(duì)目標(biāo)分析不存在任何意義的字段。比如招生類(lèi)別字段,99.6%的字段值都為“統(tǒng)一考試”,對(duì)目標(biāo)分析結(jié)果無(wú)任何意義,如圖1,另如果一個(gè)表內(nèi)的字段值超過(guò)97%都為“NULL”,該字段對(duì)目標(biāo)分析結(jié)果也毫無(wú)意義,將這些字段及跟分析結(jié)果不相關(guān)的考生號(hào)、準(zhǔn)考證號(hào)、政治面貌等字段去除,經(jīng)前后對(duì)照考慮,選取考生投檔單表(T_TDD.DBF)中的與任務(wù)挖掘高度關(guān)聯(lián)的教學(xué)站點(diǎn)、畢業(yè)學(xué)校、錄取專(zhuān)業(yè)、職業(yè)類(lèi)別、性別、成績(jī)等6個(gè)字段。

圖1 招生類(lèi)別字段分布圖

(3)數(shù)據(jù)邏輯轉(zhuǎn)換。通過(guò)這個(gè)步驟,將考生投檔單表(T_TDD.DBF)的考生數(shù)據(jù)按歸屬教學(xué)站點(diǎn)進(jìn)行聚合,根據(jù)以往錄取直觀經(jīng)驗(yàn)考慮,不同教學(xué)站點(diǎn)分布的專(zhuān)業(yè)不同,增加專(zhuān)業(yè)錄取人數(shù)、錄取平均分等字段信息,整合轉(zhuǎn)換后的探索性數(shù)據(jù)集字段如下:教學(xué)站點(diǎn)、錄取人數(shù)、錄取平均分、人力資源管理人數(shù)、行政管理人數(shù)、學(xué)前教育人數(shù)、會(huì)計(jì)人數(shù)、工商企業(yè)管理人數(shù)、小學(xué)教育人數(shù)、電子商務(wù)人數(shù)、市場(chǎng)營(yíng)銷(xiāo)人數(shù)、工程造價(jià)人數(shù)、機(jī)電一體化技術(shù)人數(shù)、建筑工程技術(shù)人數(shù)、計(jì)算機(jī)應(yīng)用技術(shù)人數(shù)、電氣自動(dòng)化技術(shù)人數(shù)、電子信息工程技術(shù)人數(shù)、數(shù)控技術(shù)人數(shù)、各畢業(yè)學(xué)校人數(shù)、各職業(yè)類(lèi)別人數(shù)。

(4)數(shù)據(jù)規(guī)范化。不同教學(xué)站點(diǎn)樣本數(shù)據(jù)屬性的度量單位不致相同,特別是職業(yè)類(lèi)別、投檔成績(jī)和專(zhuān)業(yè)人數(shù),采用Max-MAX規(guī)范化方式對(duì)此類(lèi)樣本數(shù)據(jù)集進(jìn)行線性變換標(biāo)準(zhǔn)化操作,可防止初始值域的屬性權(quán)重兩極化。。

3.結(jié)果可視化

K-means聚類(lèi)算法產(chǎn)生教學(xué)站點(diǎn)探索性數(shù)據(jù)集時(shí),重點(diǎn)要將學(xué)生所在教學(xué)站點(diǎn)分成幾個(gè)簇,因?yàn)樗鞬-means算法中k的確定。本方案采用探索性方法,分別創(chuàng)建了包含4,5,6,7,8,9,10個(gè)簇的聚類(lèi)模型,對(duì)結(jié)果進(jìn)行分析比較,綜合可用性、可解釋性原則,發(fā)現(xiàn)6個(gè)簇聚類(lèi)模型信息提供最多,也相對(duì)容易將結(jié)果進(jìn)行展示。

為便于對(duì)聚類(lèi)挖掘結(jié)果進(jìn)行解釋和分析,采用可視化技術(shù)工具條形圖,找出各簇所表示的獨(dú)特性質(zhì),比較各簇在不同字段上的分布情況,以便提取有用的信息,共生成10幅條形圖,因?yàn)槠拗?,文章只選取圖2展示聚類(lèi)1在學(xué)前教育和會(huì)計(jì)相對(duì)于其他聚類(lèi)的顯著特性,表1顯示了各個(gè)聚類(lèi)簇的特征。

圖2 聚類(lèi)1在學(xué)前教育和會(huì)計(jì)相對(duì)于其他聚類(lèi)的顯著特性展示

表1 各簇的特征匯總

三、結(jié)果研究與應(yīng)用

通過(guò)聚類(lèi)結(jié)果分析得出1-6簇的特征匯總,結(jié)合筆者日常招生宣傳的經(jīng)驗(yàn)總結(jié)、實(shí)際情況,可在以下幾方面進(jìn)行精準(zhǔn)招生宣傳工作:1.族1可以看出職業(yè)中專(zhuān)學(xué)校對(duì)這兩個(gè)專(zhuān)業(yè)提升學(xué)歷有需求,此類(lèi)專(zhuān)業(yè)重點(diǎn)宣傳對(duì)象為職業(yè)中專(zhuān)學(xué)校學(xué)生。2.族2可以看出技工類(lèi)學(xué)校對(duì)理工類(lèi)專(zhuān)業(yè)提升學(xué)歷有需求,此類(lèi)專(zhuān)業(yè)重點(diǎn)宣傳對(duì)象為技工類(lèi)學(xué)?;蚬た祁?lèi)學(xué)校學(xué)生。3.族3可以看出這些教學(xué)站點(diǎn)生源主要是在城鄉(xiāng)結(jié)合部或農(nóng)村的男性打工或務(wù)農(nóng)人員,文化水平不高,可重點(diǎn)在這些區(qū)域的地方媒介進(jìn)行宣傳,為這類(lèi)人群進(jìn)行考前輔導(dǎo),避免想學(xué)沒(méi)考上的問(wèn)題出現(xiàn)。4.族4可以看出負(fù)責(zé)電子商務(wù)、工程造價(jià)的教學(xué)站點(diǎn)對(duì)這兩個(gè)專(zhuān)業(yè)招生宣傳不夠,沒(méi)針對(duì)性在行業(yè)里進(jìn)行招生宣傳,須加強(qiáng)。5.族5可以看出這個(gè)教學(xué)站點(diǎn)報(bào)考專(zhuān)業(yè)很集中,考生的職業(yè)類(lèi)別大部分為“辦事人員”,對(duì)專(zhuān)業(yè)要求不高,招生宣傳時(shí)統(tǒng)一引導(dǎo)到一個(gè)專(zhuān)業(yè),以便更好教學(xué)管理,節(jié)省人力物力。

綜上,通過(guò)對(duì)成人招生錄取數(shù)據(jù)的挖掘分析,為招生宣傳決策提供了一定的參考。但未對(duì)分析結(jié)果適用高校的范圍進(jìn)行挖掘,通用性值得進(jìn)一步研究。

猜你喜歡
字段類(lèi)別數(shù)據(jù)挖掘
圖書(shū)館中文圖書(shū)編目外包數(shù)據(jù)質(zhì)量控制分析
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
服務(wù)類(lèi)別
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
CNMARC304字段和314字段責(zé)任附注方式解析
無(wú)正題名文獻(xiàn)著錄方法評(píng)述
論類(lèi)別股東會(huì)
商事法論集(2014年1期)2014-06-27 01:20:42
中醫(yī)類(lèi)別全科醫(yī)師培養(yǎng)模式的探討
基于GPGPU的離散數(shù)據(jù)挖掘研究
安平县| 聊城市| 前郭尔| 疏附县| 丹棱县| 界首市| 伊宁县| 南乐县| 牙克石市| 荥经县| 沙雅县| 黄山市| 肥东县| 岳阳市| 思南县| 托克托县| 广昌县| 德庆县| 招远市| 偃师市| 万安县| 大丰市| 赤峰市| 永清县| 昌黎县| 德昌县| 漠河县| 日喀则市| 许昌县| 叶城县| 新昌县| 屯门区| 梅州市| 台东县| 泗阳县| 土默特右旗| 杭锦旗| 汤原县| 忻州市| 浪卡子县| 隆德县|