国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于數(shù)據(jù)挖掘技術(shù)的大學(xué)生上課考勤管理

2019-10-15 00:04:44楊旸
關(guān)鍵詞:數(shù)據(jù)處理數(shù)據(jù)挖掘

摘 要:校園大數(shù)據(jù)分析是目前大數(shù)據(jù)研究的重要領(lǐng)域,針對(duì)歷年積累的大量學(xué)生考勤數(shù)據(jù),傳統(tǒng)的數(shù)據(jù)庫(kù)技術(shù)幾乎無(wú)法完成全量的數(shù)據(jù)分析,串行的計(jì)算方法很難在短時(shí)間內(nèi)計(jì)算出分析結(jié)果。大數(shù)據(jù)技術(shù)是解決此類問(wèn)題的一種較好的方法,本文基于數(shù)據(jù)挖掘技術(shù)的條件下,通過(guò)對(duì)大學(xué)生上課考勤數(shù)據(jù)進(jìn)行提取、轉(zhuǎn)換與加載,挖掘分析大學(xué)生上課考勤數(shù)據(jù)是否存在考勤行為異常的現(xiàn)象,對(duì)大學(xué)生上課考勤管理的完善與發(fā)展具有一定的參考借鑒意義。

關(guān)鍵詞:數(shù)據(jù)挖掘;考勤管理;數(shù)據(jù)處理

引言:

20世紀(jì)80年代以來(lái),隨著計(jì)算機(jī)信息技術(shù)產(chǎn)業(yè)的快速發(fā)展,數(shù)據(jù)庫(kù)技術(shù)得到了廣泛的應(yīng)用,存儲(chǔ)在各個(gè)領(lǐng)域的信息和數(shù)據(jù)類型也在迅速增長(zhǎng)。在過(guò)去,僅僅依靠數(shù)據(jù)庫(kù)管理系統(tǒng)和統(tǒng)計(jì)方法來(lái)搜索和分析信息的機(jī)制和模型遠(yuǎn)遠(yuǎn)不能滿足現(xiàn)實(shí)社會(huì)的需要。因此,如何從海量數(shù)據(jù)中獲取有價(jià)值的信息或知識(shí),將是當(dāng)前一項(xiàng)極其艱巨的任務(wù)。為了滿足這一需求,消除傳統(tǒng)數(shù)據(jù)庫(kù)操作的弊端,數(shù)據(jù)挖掘技術(shù)得到了飛速的發(fā)展和進(jìn)步,改變了數(shù)據(jù)內(nèi)部使用的新思路。采用數(shù)字化手段進(jìn)行高校大學(xué)生上課考勤管理日益普遍,大量的考勤數(shù)據(jù)中隱含了可用于指導(dǎo)教學(xué)的信息,如何將這些信息挖掘出來(lái)是值得關(guān)注的問(wèn)題。本文以數(shù)據(jù)挖掘技術(shù)為基礎(chǔ),對(duì)大學(xué)生上課考勤數(shù)據(jù)進(jìn)行處理與分析,對(duì)大學(xué)生上課考勤管理具有重要的意義。

一、數(shù)據(jù)挖掘概述

(一)數(shù)據(jù)挖掘的定義

數(shù)據(jù)挖掘技術(shù)是基于高科技的先進(jìn)統(tǒng)計(jì)技術(shù),學(xué)術(shù)界對(duì)數(shù)據(jù)挖掘技術(shù)沒有明確的定義。但它可以從廣義上定義,換句話說(shuō),數(shù)據(jù)挖掘的過(guò)程就是提取大量不完整的模糊數(shù)據(jù)。簡(jiǎn)而言之,數(shù)學(xué)方法被用于從數(shù)據(jù)中提取知識(shí)。數(shù)據(jù)挖掘是另一種知識(shí)研究的方法和手段,數(shù)據(jù)挖掘是一門跨學(xué)科的技術(shù),它不僅應(yīng)用了高等數(shù)學(xué)中的概率論和統(tǒng)計(jì)學(xué)知識(shí),而且還應(yīng)用于數(shù)據(jù)庫(kù)和計(jì)算機(jī)中的數(shù)據(jù)存儲(chǔ)。數(shù)據(jù)挖掘過(guò)程還包括機(jī)器學(xué)習(xí)內(nèi)容。大量數(shù)據(jù)的分析和研究模式化,需要各個(gè)領(lǐng)域的知識(shí)相互對(duì)照。從數(shù)據(jù)中提取的知識(shí)有助于有效地解決一些問(wèn)題。數(shù)據(jù)挖掘技術(shù)包括數(shù)據(jù)預(yù)處理、與主題相關(guān)的數(shù)據(jù)匹配、數(shù)據(jù)集成和數(shù)據(jù)轉(zhuǎn)換,以及使用智能方法收集數(shù)據(jù)以發(fā)現(xiàn)其中包含的規(guī)則。

(二)數(shù)據(jù)挖掘的流程

一般的數(shù)據(jù)挖掘步驟是確定數(shù)據(jù)挖掘的目標(biāo)、收集數(shù)據(jù)、提取目標(biāo)數(shù)據(jù)、數(shù)據(jù)預(yù)處理、構(gòu)建挖掘模型、模型評(píng)估、知識(shí)表示等過(guò)程,具體介紹如下:

1.建立立項(xiàng)目目標(biāo):挖掘項(xiàng)目必須包括完成項(xiàng)目的價(jià)值所在。

2.數(shù)據(jù)收集:以既定的系統(tǒng)方式收集和測(cè)量有針對(duì)性的變量的信息,來(lái)源可以是網(wǎng)絡(luò)提取、業(yè)務(wù)調(diào)查。

3.數(shù)據(jù)預(yù)處理:將收集的數(shù)據(jù)“格式化”,以便于之后的模型訓(xùn)練與統(tǒng)計(jì)。

4.數(shù)據(jù)挖掘:通過(guò)一些算法模型或者分析方法,將收集到的原始數(shù)據(jù)轉(zhuǎn)換成有用信息的過(guò)程。

5.模型評(píng)價(jià):數(shù)據(jù)挖掘結(jié)果的綜合評(píng)價(jià),數(shù)據(jù)挖掘模型、挖掘結(jié)果的判定,算法執(zhí)行時(shí)間及穩(wěn)定性等。

6.知識(shí)表示:它以易于理解的形式呈現(xiàn)給用戶,將學(xué)習(xí)規(guī)則轉(zhuǎn)化為人們能夠理解的知識(shí)。

(三)數(shù)據(jù)挖掘的算法

數(shù)據(jù)挖掘常用算法主要包括以下幾種:

1.決策樹算法。決策樹是一個(gè)樹結(jié)構(gòu)的算法模型,可以是二叉樹,也可以是非二叉樹,樹中的根節(jié)點(diǎn)表示整個(gè)樣本數(shù)據(jù)集,非葉子節(jié)點(diǎn)表示樣本集中的屬性,葉子節(jié)點(diǎn)表示樣本集所屬的類別,樹中的每個(gè)分支表示樣本集在該分支節(jié)點(diǎn)上的輸出。

2.K-Means算法。K-Means算法主要過(guò)程是根據(jù)數(shù)據(jù)集的特征將數(shù)據(jù)劃分為不同的類別,它與處理混合正態(tài)分布的最大期望算法很相似。

3.SVM算法。SVM算法把樣本集中的每個(gè)樣本都看成一個(gè)個(gè)獨(dú)立的向量。找到一個(gè)最優(yōu)的超平面H(d),將不同類別的向量分別開來(lái),使類別之間的間隔最大。

4.Ada Boost集成算法。Ada Boost算法是Boosting集成學(xué)習(xí)算法中的一種,除此之外還有Gardient Boosting算法。其核心是針對(duì)一個(gè)學(xué)習(xí)模型,同時(shí)使用多個(gè)弱學(xué)習(xí)器進(jìn)行訓(xùn)練學(xué)習(xí)。

二、大學(xué)生上課考勤數(shù)據(jù)處理

將大學(xué)生上課考勤歷史數(shù)據(jù)從高校大學(xué)生上課考勤管理系統(tǒng)中提取,經(jīng)轉(zhuǎn)換后加載到數(shù)據(jù)倉(cāng)庫(kù)的考勤業(yè)務(wù)事實(shí)表中。下面將利用SSIS完成數(shù)據(jù)的提取、轉(zhuǎn)換和加載功能。

(一)數(shù)據(jù)提取

登錄到高校大學(xué)生上課考勤管理系統(tǒng)后,將查詢條件設(shè)置為2018年4月1日至2018年4月31日的考勤數(shù)據(jù),査詢報(bào)表生成后,以Excel文件格式導(dǎo)出數(shù)據(jù)。高校大學(xué)生上課考勤管理系統(tǒng)導(dǎo)出的數(shù)據(jù)源包括學(xué)號(hào)、姓名、考勤時(shí)間、考勤地點(diǎn)四列。為確保學(xué)生隱私,本文將姓名刪除,學(xué)號(hào)也不是實(shí)際值。由于從高校大學(xué)生上課考勤管理系統(tǒng)導(dǎo)出的數(shù)據(jù)是Excel格式文件,要對(duì)數(shù)據(jù)進(jìn)行轉(zhuǎn)換加載,首先要將考勤歷史數(shù)據(jù)從Excel文件中提取,因此選擇SSIS提供的數(shù)據(jù)流組件Excel源。

(二)數(shù)據(jù)轉(zhuǎn)換

為了與學(xué)生基本信息維度、日期維度、考勤機(jī)地點(diǎn)維度關(guān)聯(lián),要對(duì)數(shù)據(jù)源中的學(xué)號(hào)、考勤時(shí)間、考勤地點(diǎn)列進(jìn)行數(shù)據(jù)轉(zhuǎn)換。

1.類型轉(zhuǎn)換。指定要轉(zhuǎn)換的數(shù)據(jù)的列和數(shù)據(jù)轉(zhuǎn)換的類型,指定轉(zhuǎn)換輸出列是使用SSIS提供的不區(qū)分區(qū)域設(shè)置的較快分析例程,使用標(biāo)準(zhǔn)的區(qū)分區(qū)域設(shè)置的分析例程。設(shè)置字符串?dāng)?shù)據(jù)的列長(zhǎng)度和數(shù)值數(shù)據(jù)的精度及小數(shù)位數(shù)時(shí),如字輸出列長(zhǎng)度小于其對(duì)應(yīng)的輸入列長(zhǎng)度,則輸出數(shù)據(jù)將被截?cái)唷?/p>

2.查找轉(zhuǎn)換。查找轉(zhuǎn)換通過(guò)連接輸入列中的數(shù)據(jù)和引用數(shù)據(jù)集中的列來(lái)執(zhí)行查找。可以使用該查找在基于于通用列的值的相關(guān)表中訪問(wèn)其他信息。引用數(shù)據(jù)集可以是緩存文件、現(xiàn)有的表或視圖、新表或SQL查詢的結(jié)果。查找轉(zhuǎn)換使用OLEDB連接管理器或緩存連接管理器來(lái)連接到引用數(shù)據(jù)集。

3.排序轉(zhuǎn)換。排序轉(zhuǎn)換按升序或降序?qū)斎霐?shù)據(jù)進(jìn)行排序,并將排序后的數(shù)據(jù)復(fù)制到轉(zhuǎn)換輸出??梢詫?duì)一個(gè)輸入應(yīng)用多個(gè)排序;每個(gè)排序都由確定排序順序的一個(gè)數(shù)字來(lái)標(biāo)識(shí)。首先對(duì)具有最小數(shù)字的列進(jìn)行排序,然后對(duì)具有第二小數(shù)字的排序列進(jìn)行排序,依此類推。

4.聚合轉(zhuǎn)換。聚合在信息科學(xué)中是指對(duì)有關(guān)的數(shù)據(jù)進(jìn)行內(nèi)容挑選、分析、歸類,最后分析得到人們想要的結(jié)果,主要是指任何能夠從數(shù)組產(chǎn)生標(biāo)量值的數(shù)據(jù)轉(zhuǎn)換過(guò)程。聚合轉(zhuǎn)換不傳遞任何列,而是在數(shù)據(jù)流中為發(fā)布的數(shù)據(jù)創(chuàng)建新列。只有應(yīng)用聚合函數(shù)的輸入列或轉(zhuǎn)換用于分組的輸入列才復(fù)制到轉(zhuǎn)換輸出。

5.派生轉(zhuǎn)換。派生列轉(zhuǎn)換通過(guò)對(duì)轉(zhuǎn)換輸入列應(yīng)用表達(dá)式來(lái)創(chuàng)建新列值??梢允褂么宿D(zhuǎn)換執(zhí)行下列任務(wù):將不同列的數(shù)據(jù)連接到一個(gè)派生列中。通過(guò)使用SUBSTRING之類的函數(shù)從字符串?dāng)?shù)據(jù)中提取字符,然后將結(jié)果存儲(chǔ)到派生列中。對(duì)數(shù)值數(shù)據(jù)應(yīng)用數(shù)學(xué)函數(shù),然后將結(jié)果存儲(chǔ)到派生列中。創(chuàng)建比較輸入列和變量的表達(dá)式,提取日期時(shí)間值的某部分。

(三)數(shù)據(jù)加載

由于數(shù)據(jù)倉(cāng)庫(kù)基于SQL Server數(shù)據(jù)庫(kù)構(gòu)建,要將數(shù)據(jù)加載到數(shù)據(jù)庫(kù)中的考勤數(shù)據(jù)事實(shí)表,我們選擇OLEDB目標(biāo)。目標(biāo)是將數(shù)據(jù)流中的數(shù)據(jù)加載到不同類型的數(shù)據(jù)源或創(chuàng)建內(nèi)存中數(shù)據(jù)集的數(shù)據(jù)流組件。目標(biāo)具有一個(gè)輸入和一個(gè)錯(cuò)誤輸出。

三、大學(xué)生上課考勤數(shù)據(jù)挖掘

完成了上述對(duì)考勤業(yè)務(wù)數(shù)據(jù)的提取、轉(zhuǎn)換、加載,接下來(lái)的任務(wù)是對(duì)大學(xué)生上課考勤歷史數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘分析。

(一)數(shù)據(jù)準(zhǔn)備

我們選擇2018年4月份的大學(xué)生上課考勤歷史數(shù)據(jù)進(jìn)行分析,首先利用Excel數(shù)據(jù)挖掘客戶端瀏覽數(shù)據(jù)源,結(jié)果顯示2018年4月份的考勤總量呈先升高再下降的趨勢(shì),這是因?yàn)樵鲁跏乔迕鞴?jié)放假,月底開始放五一假期,學(xué)生在學(xué)校上課的頻率逐漸減少。

(二)多維分析

使用Analysis Services對(duì)數(shù)據(jù)倉(cāng)庫(kù)中的考勤數(shù)據(jù)進(jìn)行分析,從不同地點(diǎn)的考勤機(jī)考勤統(tǒng)計(jì)數(shù)據(jù),可以知道哪些學(xué)生沒有到指定教室上課。

學(xué)生的日??记谛袨榫哂幸欢ㄒ?guī)律性,偶爾會(huì)有些變化,如果想了解這些異??记谇闆r,需要使用數(shù)據(jù)挖掘工具對(duì)考勤數(shù)據(jù)進(jìn)行異常檢測(cè)。

(三)異常檢測(cè)

SQL Server 2008數(shù)據(jù)挖掘外接程序提供的“突出顯示異常值”工具能夠?qū)?shù)據(jù)進(jìn)行異常檢測(cè),異常檢測(cè)算法基于聚類算法。“突出顯示異常值”工具的工作步驟如下:(1)根據(jù)表中的當(dāng)前數(shù)據(jù)創(chuàng)建數(shù)據(jù)挖掘結(jié)構(gòu);(2)使用Microsoft聚類分析算法創(chuàng)建新的數(shù)據(jù)挖掘模型;(3)按照模式創(chuàng)建預(yù)測(cè)查詢,以確定工作表中的任何值是否是小可能的。由于該工具分析的是整體趨勢(shì),因此可能會(huì)發(fā)現(xiàn)行中的大多數(shù)值是正常的,并將只突出顯示該行的一個(gè)單元格。

利用“突出顯示異常值”工具對(duì)大學(xué)生上課考勤數(shù)據(jù)中的考勤時(shí)間和考勤地點(diǎn)列進(jìn)行異常檢測(cè)。“異常閾值”指示特定單元格包含異常值的概率,將該值增大可降低篩除錯(cuò)誤概率,減小該值將顯示更多突出顯示的單元格。異常閾值的初始值式中為75,這表示算法計(jì)算的突出顯示數(shù)據(jù)的有錯(cuò)幾率為75%,大學(xué)生上課考勤數(shù)據(jù)的“異常閾值”設(shè)置為80。

“突出顯示異常值”工具完成分析時(shí)創(chuàng)建的新工作表,是考勤時(shí)間和考勤地點(diǎn)列中找到的離群值的匯總報(bào)表。該工具還會(huì)在考勤數(shù)據(jù)原始表中突出顯示異常值。深色突出顯示表示需要注意該行,淺色突出顯示表示特定單元格中的值很可疑。

結(jié)束語(yǔ):

對(duì)于大學(xué)生上課考勤管理數(shù)據(jù),采用數(shù)據(jù)挖掘進(jìn)行數(shù)據(jù)處理和分析,可以判斷學(xué)生考勤行為異?,F(xiàn)象。為進(jìn)行全局?jǐn)?shù)據(jù)分析,對(duì)于數(shù)據(jù)源中關(guān)系數(shù)據(jù)庫(kù)的數(shù)據(jù)可按類型轉(zhuǎn)換、查找轉(zhuǎn)換、排序轉(zhuǎn)換、聚合轉(zhuǎn)換、派生轉(zhuǎn)換的步驟進(jìn)行數(shù)據(jù)處理,同時(shí)還要處理好數(shù)據(jù)加載及樣本選取問(wèn)題。實(shí)踐證明,基于數(shù)據(jù)挖掘的大學(xué)生上課考勤管理是合理且可行的,并且取得較好的效果,后續(xù)還需在數(shù)據(jù)分析方法和算法優(yōu)化方面繼續(xù)深入研究。

作者簡(jiǎn)介:

楊旸;女;1986年12月18日;寧夏;漢族;在職研究生;對(duì)外經(jīng)濟(jì)貿(mào)易大學(xué)統(tǒng)計(jì)學(xué)院在職人員高級(jí)課程研修班學(xué)員;大數(shù)據(jù)分析與應(yīng)用

猜你喜歡
數(shù)據(jù)處理數(shù)據(jù)挖掘
認(rèn)知診斷缺失數(shù)據(jù)處理方法的比較:零替換、多重插補(bǔ)與極大似然估計(jì)法*
ILWT-EEMD數(shù)據(jù)處理的ELM滾動(dòng)軸承故障診斷
探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
電力與能源(2017年6期)2017-05-14 06:19:37
數(shù)據(jù)挖掘技術(shù)在中醫(yī)診療數(shù)據(jù)分析中的應(yīng)用
MATLAB在化學(xué)工程與工藝實(shí)驗(yàn)數(shù)據(jù)處理中的應(yīng)用
一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
Matlab在密立根油滴實(shí)驗(yàn)數(shù)據(jù)處理中的應(yīng)用
數(shù)據(jù)挖掘的分析與探索
河南科技(2014年23期)2014-02-27 14:18:43
基于GPGPU的離散數(shù)據(jù)挖掘研究
404 Not Found

404 Not Found


nginx
内黄县| 泌阳县| 周口市| 大渡口区| 南昌县| 通江县| 凌云县| 民县| 磴口县| 浏阳市| 昌图县| 浦北县| 裕民县| 南投县| 兖州市| 杨浦区| 当涂县| 松溪县| 天柱县| 隆德县| 车致| 定结县| 龙陵县| 白河县| 华阴市| 通渭县| 阆中市| 常州市| 芷江| 湖南省| 乌兰浩特市| 清水河县| 镇远县| 阿荣旗| 凯里市| 青河县| 海伦市| 德兴市| 城口县| 安多县| 呈贡县|