国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于馬爾科夫模型的就餐人數(shù)預(yù)測(cè)①

2017-05-17 10:00徐彭娜林志興江育娥福建師范大學(xué)軟件學(xué)院福州35008福建三明學(xué)院現(xiàn)代教育技術(shù)中心三明365004
關(guān)鍵詞:馬爾科夫一卡通晚餐

徐彭娜, 林志興, 林 劼, 江育娥(福建師范大學(xué) 軟件學(xué)院, 福州 35008)(福建三明學(xué)院 現(xiàn)代教育技術(shù)中心, 三明 365004)

基于馬爾科夫模型的就餐人數(shù)預(yù)測(cè)①

徐彭娜1, 林志興2, 林 劼1, 江育娥11(福建師范大學(xué) 軟件學(xué)院, 福州 350108)2(福建三明學(xué)院 現(xiàn)代教育技術(shù)中心, 三明 365004)

準(zhǔn)確預(yù)測(cè)就餐人數(shù)能夠降低學(xué)校食堂的運(yùn)行成本, 提高學(xué)生對(duì)食堂的滿(mǎn)意度. 根據(jù)校園一卡通的消費(fèi)情況, 提出一種基于馬爾科夫模型的就餐人數(shù)預(yù)測(cè)研究方法. 首先, 通過(guò)計(jì)算早餐就餐行為得到初始概率; 其次,分別通過(guò)計(jì)算早、午餐和午、晚餐就餐行為得到早餐午餐概率轉(zhuǎn)移矩陣和午餐晚餐概率轉(zhuǎn)移矩陣; 最后, 根據(jù)初始概率和概率轉(zhuǎn)移矩陣構(gòu)建的模型預(yù)測(cè)三餐的就餐人數(shù). 該方法的就餐人數(shù)預(yù)測(cè)的平均預(yù)測(cè)誤差率為1.31%, 具有良好的預(yù)測(cè)效果. 實(shí)驗(yàn)結(jié)果表明, 該方法能夠反映學(xué)生的就餐行為, 從而可以為學(xué)校后勤部門(mén)提供一些參考意見(jiàn), 有助于學(xué)校的建設(shè)和管理也有助于滿(mǎn)足學(xué)生的需要.

數(shù)據(jù)挖掘; 馬爾科夫模型; 就餐人數(shù); 預(yù)測(cè); 概率轉(zhuǎn)移矩陣

數(shù)字化校園發(fā)展迅速, 其中校園一卡通系統(tǒng)是其重要的組成部分[1]. 校園一卡通憑借一卡多用、圈存消費(fèi)、實(shí)時(shí)管理、數(shù)據(jù)共享等特征, 已成為學(xué)生、老師不可或缺的使用工具, 成為學(xué)校不可或缺的管理工具.大量用戶(hù)使用一卡通就餐、洗浴、出勤、借書(shū)等, 每天都將產(chǎn)生大量流水?dāng)?shù)據(jù). 其中就餐數(shù)據(jù)是最易獲取且最具有代表性的數(shù)據(jù). 校園一卡通還與校園的相關(guān)系統(tǒng)相結(jié)合[2], 如校園網(wǎng)的繳費(fèi)、消費(fèi)等. 所以, 如何從海量就餐數(shù)據(jù)中挖掘出能給予學(xué)校、老師、后勤部門(mén)有用的信息具有實(shí)際意義.

目前一卡通數(shù)據(jù)多采用聚類(lèi)[3]、關(guān)聯(lián)規(guī)則、決策樹(shù)、數(shù)據(jù)倉(cāng)庫(kù)等方法, 對(duì)數(shù)據(jù)進(jìn)行統(tǒng)計(jì)分析處理. 但是一卡通數(shù)據(jù)在預(yù)測(cè)方面多數(shù)處于理論層面的描述, 實(shí)際的具體實(shí)現(xiàn)比較少. 本文通過(guò)對(duì)傳統(tǒng)一卡通數(shù)據(jù)進(jìn)行數(shù)據(jù)統(tǒng)計(jì)分析, 在挖掘過(guò)程中采用基于馬爾科夫模型(Markov Model)對(duì)就餐人數(shù)進(jìn)行預(yù)測(cè)研究. 即通過(guò)計(jì)算早餐的初始概率、早餐午餐概率轉(zhuǎn)移矩陣和午餐晚餐概率轉(zhuǎn)移矩陣, 在已有數(shù)據(jù)的基礎(chǔ)上預(yù)測(cè)校園內(nèi)早、中、晚餐的就餐總?cè)藬?shù). 馬爾科夫模型能較好的預(yù)測(cè)就餐人數(shù), 為學(xué)校后勤提供決策支持, 有效的防止供餐不足或過(guò)多剩余的現(xiàn)象; 對(duì)早、中、晚的人數(shù)預(yù)測(cè), 能夠結(jié)合用戶(hù)或?qū)W校的其他數(shù)據(jù), 為之后更具體的學(xué)生行為分析提供借鑒和實(shí)驗(yàn)基礎(chǔ).

本文總共分為四個(gè)部分. 第一部分介紹了校園一卡通的相關(guān)工作和近年來(lái)的成果; 第二部分詳細(xì)介紹了馬爾科夫的概念和用于就餐預(yù)測(cè)研究的馬爾科夫模型; 第三部分介紹了使用某高校的校園一卡通就餐流水?dāng)?shù)據(jù)的預(yù)測(cè)實(shí)驗(yàn)和實(shí)驗(yàn)結(jié)果; 第四部分是對(duì)本文的總結(jié).

1 相關(guān)研究

數(shù)據(jù)挖掘在校園一卡通數(shù)據(jù)上的理論分析和技術(shù)研究日益成熟. 研究的相關(guān)問(wèn)題有: 消費(fèi)行為如食堂就餐、熱水使用情況、水電費(fèi)管理等; 教學(xué)輔助如貧困生補(bǔ)助、勵(lì)志獎(jiǎng)學(xué)金評(píng)比、出勤率等; 行為特征分析如根據(jù)消費(fèi)情況分析學(xué)生行為.

在消費(fèi)行為方面, 王德才[4]使用支持向量機(jī)分類(lèi)器將消費(fèi)者分成三類(lèi), 在分類(lèi)基礎(chǔ)上使用關(guān)聯(lián)規(guī)則分析消費(fèi)行為, 了解學(xué)生的消費(fèi)模式和消費(fèi)類(lèi)別, 對(duì)貧困生管理提供決策支持, 但是算法的效率不高,尚待優(yōu)化. 張碩[5]利用WEKA數(shù)據(jù)挖掘平臺(tái), 使用K-Means算法和J48決策樹(shù)算法對(duì)在校就餐流水?dāng)?shù)據(jù)分析就餐周期性情況、就餐高峰、學(xué)生消費(fèi)水平等情況, 有助于學(xué)校對(duì)學(xué)生的了解, 在勵(lì)志獎(jiǎng)學(xué)金評(píng)比中做出相應(yīng)的決策, 但是使用的數(shù)據(jù)較單一, 只針對(duì)消費(fèi)數(shù)據(jù)進(jìn)行分析. 羅華群[6]對(duì)校園一卡通的消費(fèi)數(shù)據(jù)在消費(fèi)時(shí)間和消費(fèi)金額上的差異進(jìn)行統(tǒng)計(jì)、分析, 對(duì)學(xué)校后勤部門(mén)提供決策支持, 但是在數(shù)據(jù)預(yù)處理階段沒(méi)有對(duì)異常情況進(jìn)行預(yù)先處理, 這對(duì)統(tǒng)計(jì)結(jié)果產(chǎn)生一定的影響.

在教學(xué)影響方面, 歐陽(yáng)圣[7]基于數(shù)據(jù)挖掘構(gòu)建一個(gè)校園行為分析系統(tǒng), 結(jié)合聚類(lèi)方法對(duì)學(xué)生行為統(tǒng)計(jì)分析, 將理論應(yīng)用于實(shí)踐, 并反作用于理論, 但是分析結(jié)果的準(zhǔn)確性不夠理想. 陳建兵[8]使用關(guān)聯(lián)規(guī)則的方法對(duì)數(shù)據(jù)進(jìn)行分析貧困學(xué)生的消費(fèi)情況、參與勤工助學(xué)活動(dòng)、學(xué)習(xí)成績(jī)之間的關(guān)系, 給學(xué)校和學(xué)生部門(mén)提供了決策支持, 但是在分析過(guò)程中只使用少量數(shù)據(jù),有一定的局限性. 李齊光[9]發(fā)明了一種基于一卡通消費(fèi)行為分析識(shí)別經(jīng)濟(jì)困難生的方法和裝置, 通過(guò)數(shù)據(jù)統(tǒng)計(jì)等技術(shù)手段識(shí)別經(jīng)濟(jì)困難生, 以便于為經(jīng)濟(jì)困難生提供生活幫助,提高經(jīng)濟(jì)困難生判斷的客觀性, 減少人為主觀判斷, 并減少?gòu)?fù)雜的申請(qǐng)程序, 真正把幫助落實(shí)到經(jīng)濟(jì)有困難的學(xué)生上.

在行為分析方面, Fan[10]根據(jù)所收集的信息數(shù)字化校園卡, 提出一個(gè)基于網(wǎng)絡(luò)探索學(xué)生成就和其研究伙伴關(guān)系的方法, 結(jié)果表明, 優(yōu)秀學(xué)生的學(xué)習(xí)有更多樣化的成果, 更擅長(zhǎng)與同學(xué)們合作學(xué)習(xí), 通過(guò)優(yōu)秀學(xué)生的行為給學(xué)校的教學(xué)決策提供支持. 徐劍[11]對(duì)大學(xué)生的消費(fèi)習(xí)慣進(jìn)行聚類(lèi),將消費(fèi)水平分為三類(lèi), 從早餐就餐情況判定學(xué)生的消費(fèi)習(xí)慣是否具有不規(guī)律性, 將學(xué)生的成績(jī), 消費(fèi)習(xí)慣和學(xué)生的消費(fèi)水平進(jìn)行關(guān)聯(lián)性分析, 結(jié)論表明學(xué)生成績(jī)與消費(fèi)習(xí)慣有一定關(guān)系, 為教學(xué)老師提供決策支持, 但由于學(xué)生的行為多樣化, 僅僅分為三類(lèi)不能夠充分體現(xiàn)學(xué)生行為的特征.

綜上所述, 在校園一卡通數(shù)據(jù)的統(tǒng)計(jì)分析以及系統(tǒng)的理論和實(shí)現(xiàn)上都頗有成果, 但是在數(shù)據(jù)預(yù)測(cè)方面的研究還是比較少的. 本文提出基于馬爾科夫模型,預(yù)測(cè)高校就餐人數(shù), 給學(xué)校相關(guān)部門(mén)提供決策支持.

2 基于馬爾科夫模型的就餐預(yù)測(cè)研究

2.1 馬爾科夫模型

給定離散時(shí)間ti+1∈T, {0<=t1<t2<...<tn∈T} 和離散狀態(tài)空間Ii+1, {I0, I1, …, It+1∈I}, 設(shè)有隨機(jī)過(guò)程Xt+1, {Xt, t∈T}, 其Xt+1時(shí)刻的條件概率如公式(1)所示:

符合公式(1)的隨機(jī)過(guò)程被稱(chēng)為馬爾科夫鏈. 馬爾科夫鏈主要用于離散變量的隨機(jī)模擬, 在實(shí)際中有著廣泛的應(yīng)用[12].

公式(2)表示了馬爾科夫鏈{Xt, t∈T}在時(shí)刻t向時(shí)刻t+1變化的一階轉(zhuǎn)移概率.

其中, i, j∈I, 條件概率P{Xt+1=j|Xt=i}表示在時(shí)刻t發(fā)生i事件的條件下(當(dāng)前狀態(tài)), t+1時(shí)刻發(fā)生j事件的概率(將來(lái)狀態(tài)), 這里假設(shè)t+1時(shí)刻事件j發(fā)生概率只與t時(shí)刻事件i發(fā)生概率有關(guān), 與已過(guò)去的其他時(shí)刻的事件無(wú)關(guān). 假設(shè)已知t時(shí)刻過(guò)程概率為Si(t), 那么第t+1時(shí)刻發(fā)生j事件的概率為Sj(t+1), 公式如下所示:

公式(3)中, k表示集合I的事件個(gè)數(shù). 對(duì)于t時(shí)刻的事件集合I的過(guò)程概率向量S(t)=(S1(t), S2(t),…, Sk(t)),有S(t+1)=S(t)P, 其中P為一階概率轉(zhuǎn)移矩陣[13].

使用馬爾科夫模型的前提條件是, 在任何期間或任何狀態(tài)下, 變量的下一個(gè)期間或下一個(gè)狀態(tài)的轉(zhuǎn)移概率是符合某一概率分布的隨機(jī)值, 下一個(gè)狀態(tài)僅僅依賴(lài)于最近期間的狀態(tài), 而不依賴(lài)于在此之前的狀態(tài). 2.2 馬爾科夫模型就餐預(yù)測(cè)研究

馬爾科夫模型體現(xiàn)馬爾科夫性質(zhì), 滿(mǎn)足t+1時(shí)刻系統(tǒng)狀態(tài)的概率分布只與t時(shí)刻的狀態(tài)有關(guān), 與t時(shí)刻以前的狀態(tài)無(wú)關(guān). 文獻(xiàn)[14]證實(shí)了午餐消費(fèi)和晚餐消費(fèi)具有較強(qiáng)的正相關(guān)性, 即午餐是否就餐的行為只與早餐有關(guān), 晚餐是否就餐的行為只與午餐的行為有關(guān).就餐類(lèi)型分為三類(lèi): 早餐、午餐、晚餐, 用A、B、C依次表示早、午、晚有就餐行為, a、b、c依次表示早、午、晚的無(wú)就餐行為. 馬爾科夫過(guò)程中, 某過(guò)程的狀態(tài)根據(jù)一定的概率分布在各個(gè)狀態(tài)間轉(zhuǎn)換, 未來(lái)時(shí)間的狀態(tài)是不確定的, 一卡通用戶(hù)就餐行為可以認(rèn)為在特定餐(如早中晚餐)的就餐狀態(tài)(用餐/不用餐)與下一餐的就餐狀態(tài)之間的轉(zhuǎn)移, 這樣的狀態(tài)轉(zhuǎn)移是完全隨機(jī)的, 因此應(yīng)用馬爾科夫模型可以較好地表示一卡通用戶(hù)的就餐行為.

公式(5)和公式(6)是一階概率轉(zhuǎn)移矩陣. 其中公式(5)中表示訓(xùn)練集中每個(gè)用戶(hù)星期i的早餐午餐概率轉(zhuǎn)移矩陣, 公式(6)中表示訓(xùn)練集中每個(gè)用戶(hù)星期i的午餐晚餐概率轉(zhuǎn)移矩陣.

以上介紹的條件概率和概率轉(zhuǎn)移矩陣是預(yù)測(cè)模型的基礎(chǔ). 選取模擬隨機(jī)值r, 應(yīng)用r對(duì)是否就餐進(jìn)行模擬預(yù)測(cè).

模擬方法如下:

(1) 在直線(xiàn)上將[0,1]區(qū)間劃分成兩個(gè)子區(qū)間, 其分點(diǎn)記為p, p為就餐概率. 如下所示.

(2) 在計(jì)算機(jī)上取隨機(jī)模擬值r.

(3) 判定r在x軸上所落的位置, 若r∈[0,p],則可以認(rèn)為有就餐行為.

午餐預(yù)測(cè)方法: 根據(jù)預(yù)測(cè)的早餐就餐行為和隨機(jī)模擬值r2來(lái)預(yù)測(cè)午餐的就餐行為, 若早餐的就餐類(lèi)型為A, 此時(shí)p=(AB), 當(dāng)r2<p時(shí)預(yù)測(cè)午餐有就餐行為,反之則無(wú), 若早餐的就餐類(lèi)型為a, 此時(shí)p=(aB), 當(dāng)r2<p時(shí)預(yù)測(cè)午餐有就餐行為, 反之則無(wú).

晚餐預(yù)測(cè)方法: 根據(jù)預(yù)測(cè)的午餐就餐行為和隨機(jī)模擬值r3來(lái)預(yù)測(cè)晚餐的就餐行為, 若午餐的就餐類(lèi)型為B, 此時(shí)p=(BC), 當(dāng)r3<p時(shí)預(yù)測(cè)晚餐有就餐行為,反之則無(wú), 若午餐的就餐類(lèi)型為b, 此時(shí)p=(bC), 當(dāng)r3<p時(shí)預(yù)測(cè)晚餐有就餐行為, 反之則無(wú).

統(tǒng)計(jì)真實(shí)值與預(yù)測(cè)集的早、午、晚就餐人數(shù)數(shù)量,計(jì)算就餐總?cè)藬?shù)誤差率.

3 實(shí)驗(yàn)與結(jié)果分析

3.1 數(shù)據(jù)來(lái)源

本實(shí)驗(yàn)采用的數(shù)據(jù)是某高校2015年12月的食堂就餐流水?dāng)?shù)據(jù)共76萬(wàn)條. 經(jīng)過(guò)數(shù)據(jù)預(yù)處理, 把每個(gè)用戶(hù)的系列就餐行為提取為一個(gè)時(shí)間序列. 這些時(shí)間序列數(shù)據(jù)總條數(shù)為12442. 也即, 總?cè)藬?shù)為12442人, 其中性別為男的人數(shù)為5651, 性別為女的人數(shù)為6791.教職工人數(shù)為753, 學(xué)生11689.

3.2 數(shù)據(jù)預(yù)處理

在實(shí)驗(yàn)開(kāi)始之前, 需將獲取到的76萬(wàn)條就餐流水?dāng)?shù)據(jù)使用數(shù)據(jù)庫(kù)和R工具對(duì)數(shù)據(jù)進(jìn)行預(yù)處理. 預(yù)處理步驟如下:

① 清洗數(shù)據(jù): 將學(xué)號(hào)缺失、就餐時(shí)間不在食堂營(yíng)業(yè)時(shí)間的錯(cuò)誤數(shù)據(jù)剔除.

② 為早午晚三餐分段: 將6:00:00-10:00:00置為早餐時(shí)間, 如有刷卡記錄則將就餐行為置為A, 將10:00:01-15:00:00置為午餐時(shí)間, 如有刷卡記錄則將就餐類(lèi)型置為B, 將15:00:01-20:00:00置為晚餐時(shí)間,如有刷卡記錄則將就餐類(lèi)型置為C.

③ 記錄合并: 將同一個(gè)學(xué)號(hào)的日期相同且就餐類(lèi)型也相同的記錄合并, 記作一次就餐行為(如同一天的多次早餐刷卡行為合并為一次早餐刷卡行為).

④ 形成時(shí)間序列: 將每個(gè)用戶(hù)u的無(wú)就餐行為用小寫(xiě)字母(a, b, c)補(bǔ)全后按照時(shí)間排序形成就餐類(lèi)型序列Yu, Yu={yu,1, yu,2,…,yu,t,…,yu,m}. 其中m表示用戶(hù)u共有m次就餐行為, yu,t表示用戶(hù)u的第t次就餐行為.

預(yù)處理結(jié)果為n個(gè)用戶(hù)的就餐信息MESS={mess1, mess2,…messu,…,messn}, 其中n為用戶(hù)數(shù)量, messu表示用戶(hù)u的就餐信息. messu=(stdu, Yu), 其中stdu表示用戶(hù)u的學(xué)號(hào), Yu表示用戶(hù)u的就餐行為序列.

3.3 預(yù)測(cè)模型和預(yù)測(cè)方法

本實(shí)驗(yàn)使用軟件R對(duì)數(shù)據(jù)建模進(jìn)行預(yù)測(cè). 本實(shí)驗(yàn)使用一卡通的就餐流水?dāng)?shù)據(jù), 基于馬爾科夫模型對(duì)每個(gè)用戶(hù)u在星期i對(duì)就餐人數(shù)進(jìn)行預(yù)測(cè)研究. 將數(shù)據(jù)的前三周的數(shù)據(jù)作為訓(xùn)練集, 第四周的數(shù)據(jù)作為測(cè)試集.

使用訓(xùn)練集建立模型, 具體過(guò)程如下:

① 對(duì)每一個(gè)用戶(hù)u在星期i(1≤i≤7)的基礎(chǔ)上建立7天的訓(xùn)練模型;

② 從就餐行為序列Yu中提取用戶(hù)u前三周的星期i的總就餐行為構(gòu)成的時(shí)間序列集合, 作為用戶(hù)u的訓(xùn)練集trainui={yu,1, yu,2,…,yu,z}, yu,z表示前三周中星期i的第z次就餐行為;

③ 根據(jù)公式(4)計(jì)算用戶(hù)u在訓(xùn)練集中的初始概率;

④ 根據(jù)公式(5)、公式(6)計(jì)算概率轉(zhuǎn)移矩陣, 建立訓(xùn)練模型.

具體流程如圖1所示.

圖1 基于馬爾科夫模型預(yù)測(cè)流程圖

在已有的馬爾科夫模型上, 對(duì)用戶(hù)的早餐、午餐、晚餐進(jìn)行預(yù)測(cè), 具體過(guò)程如下:

① 早餐預(yù)測(cè): 選取一個(gè)0-1之間的隨機(jī)模擬值r1,若r1<Pi(A), 則早餐有就餐行為, 反之則無(wú)就餐行為;

u

② 午餐預(yù)測(cè): 選取一個(gè)0-1之間的隨機(jī)模擬值r2,根據(jù)早餐的就餐行為結(jié)果和r2來(lái)預(yù)測(cè)午餐的就餐行為,若早餐的就餐類(lèi)型為A且r2<(AB), 則預(yù)測(cè)午餐有就餐行為, 反之則無(wú), 若早餐的就餐類(lèi)型為a且r2<(aB), 則預(yù)測(cè)午餐有就餐行為, 反之則無(wú);

③ 晚餐預(yù)測(cè): 選取一個(gè)0-1之間的隨機(jī)模擬值r3,根據(jù)午餐的就餐行為結(jié)果和r3來(lái)預(yù)測(cè)晚餐的就餐行為,若午餐的就餐類(lèi)型為B且r3<(bC), 則預(yù)測(cè)晚餐有就餐行為, 反之則無(wú), 若午餐的就餐類(lèi)型為b且r3<(bC), 則預(yù)測(cè)晚餐有就餐行為, 反之則無(wú).

3.4 實(shí)驗(yàn)結(jié)果

在實(shí)驗(yàn)過(guò)程中使用隨機(jī)模擬值預(yù)測(cè)三餐就餐行為,進(jìn)行 20 次實(shí)驗(yàn), 分別形成 20 組不同實(shí)驗(yàn)結(jié)果, 最終的算法評(píng)價(jià)是基于這 20 組實(shí)驗(yàn)結(jié)果的平均值.

本實(shí)驗(yàn)采用就餐人數(shù)預(yù)測(cè)誤差率err作為預(yù)測(cè)評(píng)估指標(biāo):

其中, Pik表示預(yù)測(cè)值, TiA表示真實(shí)值, i表示星期中的某天(i=1,2,…,7), k表示就餐類(lèi)型(k=A,B,C), N表示就餐總?cè)藬?shù). 平均誤差值表示真實(shí)值和預(yù)測(cè)值之間的誤差. 平均誤差率越小, 表示預(yù)測(cè)效果越準(zhǔn)確. 就餐人數(shù)預(yù)測(cè)誤差率如表1所示.

表1 就餐人數(shù)預(yù)測(cè)誤差率表

真實(shí)值 1413 4607 5006周日預(yù)測(cè)值 1448 4371 46961.56誤差率(%)0.28 1.90 2.50平均值(%)1.04 1.33 1.57 1.31

表1描述了某高校2015年12月的星期i的三餐就餐人數(shù)的真實(shí)值和預(yù)測(cè)值, 并計(jì)算真實(shí)值和預(yù)測(cè)值之間的誤差率. 為了直觀描述在星期i的就餐人數(shù)的分布情況, 如圖2所示.

圖2 基于馬爾科夫模型預(yù)測(cè)人數(shù)對(duì)比圖

圖3 基于馬爾科夫模型預(yù)測(cè)誤差率

圖3 中橫坐標(biāo)表示星期i, 縱坐標(biāo)表示平均誤差率.由圖3可知, 星期一和星期三的預(yù)測(cè)誤差率偏大, 均大于2%. 經(jīng)調(diào)查表明, 星期一請(qǐng)假和曠課情況較多,周三下午沒(méi)有課程安排, 學(xué)生在此階段行為比較隨機(jī),這說(shuō)明周末和不排課的客觀情況會(huì)對(duì)學(xué)生就餐情況產(chǎn)

圖2中橫坐標(biāo)表示星期一至星期日的真實(shí)值和預(yù)測(cè)值; 縱坐標(biāo)表示就餐人數(shù). 從圖2中可以發(fā)現(xiàn)早餐的就餐人數(shù)普遍比午餐和晚餐的就餐人數(shù)低, 周末的三餐就餐人數(shù)均偏低; 預(yù)測(cè)人數(shù)與真實(shí)人數(shù)相近. 為了直觀描述預(yù)測(cè)誤差情況, 如圖3所示.生影響(也影響實(shí)驗(yàn)結(jié)果).

實(shí)驗(yàn)結(jié)果表明, 星期四的人數(shù)預(yù)測(cè)誤差率最小,為0.4%, 一周的平均人數(shù)預(yù)測(cè)誤差率為1.31%. 周末的就餐人數(shù)相對(duì)普遍較低, 尤其是早餐的就餐人數(shù)大大減少, 但人數(shù)穩(wěn)定, 早餐預(yù)測(cè)誤差率低, 說(shuō)明周末早起人數(shù)少, 外出就餐人數(shù)多. 除去周末, 周三、周五晚餐的就餐人數(shù)相對(duì)較少, 調(diào)查表明周三下午沒(méi)有安排課程, 周五晚上課程安排的較少, 部分學(xué)生在周五晚上開(kāi)啟“周末模式”, 即和周末行為相似.

本文對(duì)就餐人數(shù)的總體預(yù)測(cè), 在用戶(hù)總數(shù)為12442人的情況下, 平均誤差總?cè)藬?shù)僅為160人左右,這可以為學(xué)校食堂的后勤提供很大的備貨依據(jù)和備餐依據(jù), 有效的防止供餐不足或過(guò)多剩余的現(xiàn)象; 對(duì)早、中、晚的人數(shù)預(yù)測(cè), 能夠結(jié)合用戶(hù)的其他屬性, 為之后更具體的學(xué)生行為分析提供借鑒和實(shí)驗(yàn)基礎(chǔ).

4 總結(jié)

本文對(duì)一卡通數(shù)據(jù)采用了基于馬爾科夫模型的就餐人數(shù)預(yù)測(cè)研究. 通過(guò)對(duì)用戶(hù)的前三周就餐數(shù)據(jù)計(jì)算概率建立訓(xùn)練模型, 預(yù)測(cè)第四周的就餐行為, 預(yù)測(cè)就餐總?cè)藬?shù)和預(yù)測(cè)早、中、晚餐人數(shù). 實(shí)驗(yàn)結(jié)果表明, 基于馬爾科夫模型的就餐數(shù)據(jù)預(yù)測(cè)模型平均誤差率為1.31%, 平均早餐預(yù)測(cè)誤差率為1.04%, 平均午餐預(yù)測(cè)誤差率為1.33%, 平均晚餐預(yù)測(cè)誤差率為1.57%, 預(yù)測(cè)結(jié)果較為準(zhǔn)確. 準(zhǔn)確的預(yù)測(cè)能更好地為學(xué)校食堂的后勤提供很大的備貨依據(jù)和備餐依據(jù), 有效的防止供餐不足或過(guò)多剩余的現(xiàn)象; 對(duì)早、中、晚的人數(shù)預(yù)測(cè), 能夠結(jié)合用戶(hù)的其他屬性, 為之后更具體的學(xué)生行為分析提供借鑒和實(shí)驗(yàn)基礎(chǔ). 但由于只有就餐數(shù)據(jù), 存在數(shù)據(jù)單一的缺點(diǎn)[15], 如何進(jìn)行更全面的學(xué)生行為分析是下一步要做的工作.

1 Feng JW. Study on the campus smart card system based on SaaS. International Conference on Information Sciences. Machinery, Materials and Energy. 2015.

2 Shi Q, Qian Y, Gong Y, et al. The analysis and data mining of students’ oline data based on digital campus. Applied Mechanics & Materials, 2013, 397-400: 2326–2329.

3 Shi Q, Xu L, Shi Z, et al. Analysis and research of the campus network user’s behavior based on k-means clustering algorithm. International Conference on Digital Manufacturing & Automation. IEEE Computer Society. 2013. 196–201.

4 王德才.數(shù)據(jù)挖掘在校園卡消費(fèi)行為分析中的研究與應(yīng)用[學(xué)位論文].哈爾濱:哈爾濱工程大學(xué),2010.

5 張碩.基于WEKA的校園一卡通數(shù)據(jù)挖掘與分析[學(xué)位論文].武漢:華中師范大學(xué),2014.

6 羅華群.校園一卡通數(shù)據(jù)的挖掘與應(yīng)用[學(xué)位論文].上海:華東師范大學(xué), 2009.

7 歐陽(yáng)圣.數(shù)據(jù)挖掘在消費(fèi)行為分析中的應(yīng)用[學(xué)位論文].長(zhǎng)沙:湖南大學(xué), 2011.

8 陳建兵.利用校園一卡通數(shù)據(jù)優(yōu)化高校貧困生認(rèn)定系統(tǒng)[學(xué)位論文].成都:成都電子科技大學(xué),2012.

9 李齊光,張平,趙鑫.基于一卡通消費(fèi)行為分析識(shí)別經(jīng)濟(jì)困難生的方法和裝置,2014.

10 Fan S, Li P, Liu T, et al. Population behavior analysis of Chinese university students via digital campus cards. IEEE International Conference on Data Mining Workshop. IEEE. 2015. 72–77.

11 徐劍.基于一卡通數(shù)據(jù)的消費(fèi)行為與成績(jī)的關(guān)聯(lián)性研究分析[碩士學(xué)位論文].南昌:南昌大學(xué),2011.

12 Ching WK, Ng MK. Markov Chains: Models, Algorithms and Applications. Springer Berlin, 2012, 83(483): xiv.

13 韓忠明,張晨,李斌.基于Markov模型的異常用戶(hù)檢測(cè).計(jì)算機(jī)仿真,2014,31(6):316–320.

14 馬千.基于校園卡消費(fèi)流水?dāng)?shù)據(jù)的大學(xué)生就餐行為分析[碩士學(xué)位論文].長(zhǎng)春:東北師范大學(xué),2015.

15 金培莉,王曉震.校園一卡通系統(tǒng)決策支持實(shí)例分析.華東師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2015(S1):525–529.

Repast Number Prediction Based on Markov Model

XU Peng-Na1, LIN Zhi-Xing2, LIN Jie1, JIANG Yu-E11(Faculty of Software, Fujian Normal University, Fuzhou 350108, China)2(Center of Modern Education Technology, Sanming University, Sanming 365004, China)

To predict the repast number accurately can reduce the cost of school canteen and improve students’satisfaction. A novel method based on Markov model to predict repast number is proposed according to the consumption situation of campus card system. Firstly, an initial probability is obtained by calculating the eating behavior of breakfast. Secondly, two transfer probability matrices are computed, one is the transfer probability between the behaviors of students having breakfast and having lunch; the other is the transfer probability between the behaviors of students having lunch and having supper. Finally, a Markov model is constructed according to the initial probability and the two probability transfer matrices to forecast the number of diners. The average prediction error of the proposed method is 1.31%, which has a good prediction performance. The experimental results show that the proposed Markov method can capture the students’ dining behavior accurately. It may provide valuable information for the school logistics department, contribute to the construction and management of school and meet the needs of students better.

data mining; Markov models; repast number; prediction; transfer probability matrix

福建省自然科學(xué)基金(2014J01220);三明學(xué)院科研基金(B201201/G);福建省教育廳科技基金(JB13187)

2016-08-01;收到修改稿時(shí)間:2016-08-29

10.15888/j.cnki.csa.005685

猜你喜歡
馬爾科夫一卡通晚餐
基于三維馬爾科夫模型的5G物聯(lián)網(wǎng)數(shù)據(jù)傳輸協(xié)議研究
一卡通失卡招領(lǐng)系統(tǒng)設(shè)計(jì)
馬爾科夫鏈驅(qū)動(dòng)的帶停時(shí)的超前倒向隨機(jī)微分方程的適應(yīng)解
基于疊加馬爾科夫鏈的邊坡位移預(yù)測(cè)研究
我做晚餐
晚餐怎么吃?
馬爾科夫鏈在企業(yè)沙盤(pán)模擬教學(xué)質(zhì)量評(píng)價(jià)中的應(yīng)用
馬爾科夫鏈在企業(yè)沙盤(pán)模擬教學(xué)質(zhì)量評(píng)價(jià)中的應(yīng)用
健康晚餐“四不過(guò)”
向心加速度學(xué)習(xí)一卡通