国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于邏輯回歸算法的校園一卡通數(shù)據(jù)挖掘與應(yīng)用

2020-10-21 05:26陳云川劉發(fā)穩(wěn)
昆明冶金高等??茖W校學報 2020年3期
關(guān)鍵詞:因變量一卡通算子

陳云川,宋 浩,趙 燁,劉發(fā)穩(wěn)

(昆明冶金高等??茖W校計算機信息學院,云南 昆明 650033)

0 引 言

隨著校園一卡通系統(tǒng)的不斷完善,學生不僅可以用一卡通食堂就餐,還可以在校內(nèi)進行各種類別的消費與活動:超市購物、洗衣、洗澡、借閱圖書、進出教室、進出宿舍、點名簽到、查閱個人成績——一卡通有了越來越多的使用場景。一卡通系統(tǒng)的不斷升級完善,使校園管理日趨智能化和高效化。收集學生的一卡通刷卡記錄[1],從這些海量的數(shù)據(jù)中分析出一些“有用信息”,可以幫助學校更好地為學生服務(wù)。本文將數(shù)據(jù)挖掘技術(shù)應(yīng)用于學生一卡通數(shù)據(jù)的分析,借助Rapidminer平臺,采用邏輯回歸算法構(gòu)建訓練數(shù)據(jù)集模型。模型不斷被修調(diào)優(yōu)化后,將用于預(yù)測分析測試數(shù)據(jù)集[2],挖掘分析一卡通數(shù)據(jù),精準識別品學兼優(yōu)但家境貧寒的學生并提供幫助。

1 數(shù)據(jù)挖掘分析流程

數(shù)據(jù)挖掘技術(shù)可以從海量的數(shù)據(jù)中,通過建立相關(guān)的分析模型,找出數(shù)據(jù)中蘊藏的“有用信息”,對現(xiàn)實中的某個事物進行解釋,或者對某個目標進行預(yù)測。一般數(shù)據(jù)挖掘需要經(jīng)過如下幾個步驟[3]:

1)數(shù)據(jù)獲取與目標確定。在數(shù)據(jù)挖掘分析之前需要得到建模所需的原始數(shù)據(jù)集,并明確本次挖掘分析的目標。

2)數(shù)據(jù)清洗與屬性規(guī)約。由于原始數(shù)據(jù)集中有很多缺失數(shù)據(jù)和噪聲數(shù)據(jù),會導(dǎo)致模型不穩(wěn)定且準確度下降,這樣的數(shù)據(jù)集是不滿足挖掘建模條件的。所以在正式建模之前,需要先對數(shù)據(jù)集進行清洗:可以采用過濾的方式也可以采用中值填充或者特定值填充的方式處理缺失數(shù)據(jù);而對于噪聲數(shù)據(jù),則需要結(jié)合具體的挖掘需求與數(shù)據(jù)集特征,認真分析它們出現(xiàn)的原因,并謹慎處理。若原始數(shù)據(jù)屬性值太多,會加大直接建模難度,且模型的準確度不高。這個時候需要進行屬性規(guī)約,根據(jù)挖掘任務(wù)及數(shù)據(jù)集內(nèi)部結(jié)構(gòu)特點,對數(shù)據(jù)集進行屬性約減,一般采用主成分分析法和關(guān)聯(lián)分析方法,觀察各屬性值與目標屬性值之間的關(guān)系,將重要的屬性篩選出來;最后根據(jù)挖掘模型對數(shù)據(jù)格式的要求,對原始數(shù)據(jù)按照模型要求進行歸一化處理——這樣就得到了挖掘建模所需的訓練數(shù)據(jù)集。

3)挖掘建模。根據(jù)挖掘目標及訓練數(shù)據(jù)集情況,選擇合適的算法建模。根據(jù)任務(wù),挖掘模型一般分為:分類、估計、預(yù)測、關(guān)聯(lián)、聚類5種。分類模型可以將數(shù)據(jù)集按照需要,分為若干個類別;估計與預(yù)測模型可以為用戶預(yù)測某一屬性值并給出可能的相關(guān)概率;關(guān)聯(lián)模型主要用來尋找多個屬性變量之間取值的規(guī)律性和相關(guān)性;聚類和分類很像,但是聚類的簇不是事先人為設(shè)定的,而是根據(jù)數(shù)據(jù)集本身的內(nèi)部結(jié)構(gòu)和關(guān)系,主要依賴相似度計算來實現(xiàn)簇的劃分。在選擇算法進行建模時,一定要明確挖掘的目標和功能需求,然后用訓練數(shù)據(jù)集構(gòu)建模型,并進行多次修調(diào)。

4)模型應(yīng)用。將訓練集建模得到的挖掘模型,應(yīng)用于測試集的分析預(yù)測。這個過程可以進一步檢驗和評估挖掘模型,判斷預(yù)測分析結(jié)果是否符合最終的需求,并進一步評估模型的性能。

2 建模采用的挖掘分析算法——邏輯回歸算法

用函數(shù)表達式擬合數(shù)據(jù)集的方法有很多,應(yīng)用比較廣的是線性回歸算法與邏輯回歸算法。線性回歸算法主要是對屬性的數(shù)值進行預(yù)測,而邏輯回歸算法主要是用于屬性的分類問題。邏輯回歸算法屬于典型的分類算法,類似于決策樹算法或貝葉斯算法[4]。

線性回歸模型,是通過尋找一個函數(shù)表達式f(x),使數(shù)據(jù)點盡可能多地落在f(x)確定的圖像上。表達式中,自變量x與因變量y之間是滿足線性關(guān)系的,即隨著x的變化y呈線性變化,并且訓練得到的線性回歸模型可以對新數(shù)據(jù)點進行屬性值的預(yù)測[5]。在線性回歸模型中,不論是自變量還是因變量都是連續(xù)型數(shù)據(jù)。線性回歸圖像如圖1所示,隨著自變量x的增加,因變量y也會增加。

圖1 線性回歸圖像Fig.1 Linear regression image

當面臨的數(shù)據(jù)是離散型數(shù)據(jù)時,采用線性回歸擬合數(shù)據(jù)如圖2所示:雖然自變量的值是連續(xù)的可以取任意數(shù)值,但是因變量值只有2個。自變量與因變量之間的關(guān)系不像線性回歸模型那樣是漸進式的,因變量y的取值有了跳變[6]。這時,如果還是采用線性回歸的方式用一條直線來擬合數(shù)據(jù)集,那么絕大部分的數(shù)據(jù)點并不能落在這條直線上,這樣一來訓練得到的模型準確度就非常低了。為了解決這個問題,可以采用S型曲線對數(shù)據(jù)點進行擬合,采用邏輯回歸擬合數(shù)據(jù)如圖3所示,這樣數(shù)據(jù)集中的絕大部分點就落在了這條S型曲線上了,這時只需要尋找到這條曲線的函數(shù)表達式,那么這個函數(shù)就能描述數(shù)據(jù)集了。邏輯回歸算法就是用來解決離散型數(shù)據(jù)問題的。

圖2 線性回歸擬合數(shù)據(jù)

圖3 邏輯回歸擬合數(shù)據(jù)

在邏輯回歸模型中,因變量是一個二元型的數(shù)據(jù),即因變量只有2種取值——是或否、通過或不通過等。建立邏輯回歸的目的是找到一個函數(shù),將二元型因變量y和自變量x聯(lián)系起來。在線性回歸模型中,以一元線性回歸為例,要找到一條直線擬合所給數(shù)據(jù)集,那么只要找到準確的斜率b1和截距b0這條直線就確定了。在邏輯回歸中,需要找到的是曲線方程,用來描述因變量y與自變量x之間的關(guān)系。

其實,只要將因變量y出現(xiàn)的概率值取對數(shù),得到新的因變量,那么這個新因變量和自變量x之間就是線性相關(guān)的。此時的新因變量y表示y=1或者y=0時的概率。詳細過程如下。

1)邏輯回歸模型中y為某一事件,是一個二元型數(shù)據(jù),即y的取值是:通過或不通過,回應(yīng)或拒絕、出現(xiàn)或不出現(xiàn);

2)當y=1時,認為事件發(fā)生,概率為p;

3)當y=0時,認為事件不發(fā)生,概率為1-p;

4)那么該事件發(fā)生的概率就是p/1-p;

5)將p/1-p取對數(shù),得到的新因變量log(p/1-p),是與自變量x線性相關(guān)的,這個概率對數(shù)函數(shù)就稱為logit函數(shù),他們之間滿足如下線性關(guān)系:

(1)

當數(shù)據(jù)集包含多個屬性時則為:

(2)

通過式(3),可以得到p的求解方式:

(3)

根據(jù)所給數(shù)據(jù)集,結(jié)合公式(3)(4),可以比較方便地計算出p值。為了實現(xiàn)這一目標,需要事先假定一組參數(shù)b1,b2,b3,…,b0。讀入一個訓練樣本,先計算下列表達式:

py·(1-p)(1-y)

(4)

式(4)中,y表示實際數(shù)據(jù)集中的具體數(shù)值;p可以根據(jù)式(3)求出。假設(shè)某個數(shù)據(jù)點的實際y=0,但是根據(jù)邏輯回歸模型預(yù)測的y=1且概率是0.9,即模型預(yù)測錯誤,那么根據(jù)式(4),計算值= 0.1。當邏輯回歸模型預(yù)測出的y值準確,但是概率很小比如0.1,那么根據(jù)式(4),計算值=0.9。式(4)是似然函數(shù)的一種形式,當模型對某個數(shù)據(jù)集的預(yù)測結(jié)果越正確,所求得的似然函數(shù)值越大;當模型對某個數(shù)據(jù)集的預(yù)測結(jié)果越錯誤,所求得的似然函數(shù)值越小;當數(shù)據(jù)集中所有點的似然函數(shù)值相加,如果和越大意味著模型訓練的準確度越高,反之亦然。

3 仿真實驗驗證

3.1 實驗環(huán)境、平臺、數(shù)據(jù)集描述

本文的實驗環(huán)境為:Win7 64位系統(tǒng),8G RAM,intel Core i7 cpu。實驗平臺是:Rapidminer Studio 6.0。實驗數(shù)據(jù)集為網(wǎng)上開源的一卡通實驗數(shù)據(jù),包含 7 000 條一卡通原始數(shù)據(jù),每條數(shù)據(jù)有25個屬性,包含每個學生的食堂消費記錄、圖書借閱記錄、學習成績、進出宿舍記錄等信息。特別說明:本文實驗仿真中會多次提到算子,在Rapidminer Studio 6.0平臺中是完成特定功能的函數(shù)。這些算子是使用JAVA語言編寫的功能模塊,可以完成數(shù)據(jù)轉(zhuǎn)換、數(shù)據(jù)過濾、交叉驗證、數(shù)據(jù)讀寫等功能。

3.2 邏輯回歸模型仿真實驗

為了應(yīng)用邏輯回歸算法對pingkunsheng標簽屬性值進行預(yù)測,需要進行以下幾個步驟:

1)通過對訓練集的數(shù)據(jù)進行分析清洗、屬性規(guī)約,從而構(gòu)建邏輯回歸模型;

2)評估構(gòu)建的邏輯回歸模型性能;

3)對邏輯回歸模型的相關(guān)參數(shù)進行修調(diào);

4)將得到的邏輯回歸模型應(yīng)用于測試集上,從而預(yù)測測試集數(shù)據(jù)的標簽屬性值。

邏輯回歸模型詳細仿真流程如圖4所示。

圖4 邏輯回歸模型詳細仿真流程Fig.4 Detailed simulation flow of logical regression model

詳細仿真流程介紹如下:

1)采用import csv file算子,導(dǎo)入原始數(shù)據(jù)集。

2)采用select attributes 算子,進行屬性約減,約去消費方式和圖書借閱時所在圖書館的序號等屬性,留下建模用的16個屬性。

3)缺失值過濾。由于在原始數(shù)據(jù)中,每一個屬性下都有很多空白數(shù)據(jù),會影響模型的生成。如果用均值或者某一個特定值填充這些空白數(shù)據(jù),會造成模型的失真。所以對于含有缺失值的數(shù)據(jù)條目采取缺失值過濾的方式進行,最終得到 6 305 條數(shù)據(jù)。

4)引入set role角色設(shè)置算子,將pingkunsheng改為標簽屬性。

圖5 邏輯回歸模型AUC與ROC曲線 Fig.5 Logical regression model AUC and ROC curve

5)split validation劃分驗證算子是一個帶有嵌套功能的算子,雙擊split validation算子可以進入嵌套設(shè)置界面。這個界面由左右2個窗口組成,在左邊模型訓練窗口添加logistic regression 邏輯回歸算子,在右側(cè)模型測試窗口添加apply model模型應(yīng)用算子與performance模型性能表現(xiàn)算子,點擊performance算子,勾選accuracy(準確率)、AUC、precision、recall這幾個參數(shù)。

6)訓練集建模結(jié)果:邏輯回歸模型準確率、模型精度、模型召回率如表1所示,邏輯回歸模型AUC與ROC曲線如圖5所示。

7)測試集結(jié)果驗證。為了保證測試數(shù)據(jù)屬性個數(shù)、屬性取值范圍等與建模數(shù)據(jù)一致,測試數(shù)據(jù)也經(jīng)過了與建模數(shù)據(jù)一致的數(shù)據(jù)清洗過程:屬性約減與缺失值過濾的條件都一致,測試集中屬性約減多刪除pingkunsheng一項,因為這項屬性是要預(yù)測的;然后選取其中的100個數(shù)據(jù)進行模型驗證。sample算子:從清洗后的測試數(shù)據(jù)中選出100個來進行試驗。apply model算子:將邏輯回歸模型應(yīng)用于測試集上,來預(yù)測測試集所屬的類別,最終測試集標簽屬性被成功預(yù)測,而且每一條數(shù)據(jù)的標簽后都有模型預(yù)測的相關(guān)概率值,邏輯回歸模型性能如表1所示。

表1 邏輯回歸模型與貝葉斯模型性能比較Tab.1 Performance comparion between logical regression model and Bayes model

8)對比試驗。將建模算法改為經(jīng)典的貝葉斯算法進行對比試驗,對訓練集數(shù)據(jù)的預(yù)處理和之前邏輯回歸模型基本一致,也是經(jīng)過了缺失數(shù)據(jù)的過濾和噪音數(shù)據(jù)的清洗,并根據(jù)主成分分析法進行了屬性的規(guī)約,在split validation算子中選擇貝葉斯算子,參數(shù)設(shè)置選擇默認方式,仿真結(jié)果(貝葉斯模型準確率、模型精度、模型召回率如表1所示),模型AUC與ROC曲線如圖6所示。

圖6 貝葉斯模型AUC與ROC曲線Fig.6 AUC and ROC curves of Bayes model

邏輯回歸算法實驗結(jié)論:邏輯回歸算法屬于數(shù)據(jù)挖掘分類算法中的一種,作用是對標簽屬性值進行預(yù)測,從而實現(xiàn)數(shù)據(jù)集的分類。本次試驗為了進行試驗結(jié)果的對比驗證,在仿真時引入了經(jīng)典的貝葉斯算法。用邏輯回歸算法和貝葉斯算法進行訓練集建模,原始數(shù)據(jù)的處理都經(jīng)過了屬性約減、缺失值過濾和噪聲數(shù)據(jù)清洗,最終得到如下結(jié)果:邏輯回歸算法在準確度、精度、RUC值方面要優(yōu)于貝葉斯算法,但是在召回率方面比貝葉斯算法要弱一些;將訓練集建模得到的邏輯回歸模型應(yīng)用于測試集數(shù)據(jù),可以成功預(yù)測標簽屬性pingkunsheng,而且每一條預(yù)測出的標簽屬性還提供了置信度這一指標。

4 結(jié) 語

校園一卡通建設(shè)是“智慧校園”的重要一環(huán),一卡通中包含有食堂消費記錄、圖書借閱記錄、超市消費記錄、進出校園記錄等數(shù)據(jù)。對這些數(shù)據(jù)進行數(shù)據(jù)挖掘和分析,可以得到一些“有用信息”,用以評估學生的生活方式、作息規(guī)律、消費情況、學習狀況等,幫助學校更好地服務(wù)學生。本文提出挖掘一卡通數(shù)據(jù)、分析從而找出符合助學金認定的學生,只是理論層面的嘗試和應(yīng)用,在實際情況中還需要多方面多角度進行綜合評判;接下來在對一卡通數(shù)據(jù)進行建模分析時,還需要引入聚類算法、關(guān)聯(lián)算法等機器學習理論,在建模時采用交叉驗證等集成建模方式進一步完善和改進分析預(yù)測模型。

猜你喜歡
因變量一卡通算子
與由分數(shù)階Laplace算子生成的熱半群相關(guān)的微分變換算子的有界性
調(diào)整有限因變量混合模型在藥物經(jīng)濟學健康效用量表映射中的運用
Domestication or Foreignization:A Cultural Choice
QK空間上的疊加算子
偏最小二乘回歸方法
談?wù)勅绾沃v解多元復(fù)合函數(shù)的求導(dǎo)法則
精心設(shè)計課堂 走進學生胸膛
基于“一卡通”開發(fā)的員工信息識別系統(tǒng)
向心加速度學習一卡通
长丰县| 烟台市| 江孜县| 香河县| 手游| 凤台县| 忻城县| 四平市| 新邵县| 成都市| 玛沁县| 杭州市| 南川市| 渭南市| 民乐县| 霍山县| 湘乡市| 松潘县| 阿克苏市| 隆化县| 呼玛县| 休宁县| 密山市| 嘉荫县| 红桥区| 普宁市| 成武县| 安泽县| 墨玉县| 石门县| 牡丹江市| 那曲县| 洮南市| 大渡口区| 杨浦区| 西和县| 江源县| 张家港市| 盘锦市| 瑞金市| 桐庐县|