国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

基于校園點(diǎn)餐數(shù)據(jù)的學(xué)生消費(fèi)偏好敏感性分析

2020-03-13 08:13張武康等銀王德方
甘肅科技縱橫 2020年1期
關(guān)鍵詞:詞頻決策樹算法

張武 康等銀 王德方

【摘要】本文基于移動(dòng)端的校園點(diǎn)餐系統(tǒng)所收集的數(shù)據(jù),采用Excel及PMT工具對(duì)數(shù)據(jù)進(jìn)行了性狀分析和算法研究,通過決策樹模型給出了校園學(xué)生用餐的消費(fèi)偏好及敏感因素,對(duì)校園經(jīng)營(yíng)者及政策決策者具有一定的參考價(jià)值。

關(guān)鍵字:移動(dòng)消費(fèi)、消費(fèi)偏好,敏感性,決策樹

中圖分類號(hào): C913.33???? 文獻(xiàn)標(biāo)志碼:A

在當(dāng)前移動(dòng)消費(fèi)日益昌盛的今天,校園移動(dòng)消費(fèi)也在不斷發(fā)展,基于此環(huán)境,以雙創(chuàng)學(xué)生為主體課題組開發(fā)了“美美校園生活服務(wù)平臺(tái)”,通過運(yùn)營(yíng),效果良好,并取得了一定的數(shù)據(jù)量。通過大數(shù)據(jù)思維的數(shù)據(jù)挖掘,對(duì)校園學(xué)生的消費(fèi)偏好及因素敏感度進(jìn)行了性狀分析和算法研究,其目的在于不僅能為校園店鋪經(jīng)營(yíng)者給出提高銷售額的有效辦法,也能為學(xué)校調(diào)整后勤保障政策提供決策信息。

數(shù)據(jù)、工具、方法說明

本課題所采用的數(shù)據(jù)來自于學(xué)生自主開發(fā)的移動(dòng)點(diǎn)餐系統(tǒng)“美美校園生活服務(wù)平臺(tái)”的實(shí)際數(shù)據(jù),該移動(dòng)點(diǎn)餐程序采用Android系統(tǒng)開發(fā),微信小程序發(fā)布,數(shù)據(jù)與程序部署于“阿里云”服務(wù)器。數(shù)據(jù)時(shí)間范圍為2018年10月至2019年4月,經(jīng)整理后的實(shí)例數(shù)達(dá)3548條,主要數(shù)據(jù)屬性為店鋪名、訂單id、時(shí)間、樓房、餐品名、價(jià)格等。

本課題主要采用Excel2013及PMT大數(shù)據(jù)挖掘分析工具。研究采用的主要方法為詞頻分類、決策樹等數(shù)據(jù)分析算法及大數(shù)據(jù)的可視化分析方法。

與課題相關(guān)的技術(shù)與研究方法

數(shù)據(jù)的預(yù)處理

高質(zhì)量的決策必須依賴于高質(zhì)量的數(shù)據(jù),但是初始數(shù)據(jù)中存在部分的臟數(shù)據(jù),例如數(shù)據(jù)的不完整(感興趣的屬性沒有),含噪聲(數(shù)據(jù)中存在錯(cuò)誤、或異常(偏離期望值)的數(shù)據(jù)),不一致(數(shù)據(jù)內(nèi)含出現(xiàn)不一致的情況)。數(shù)據(jù)預(yù)處理包括數(shù)據(jù)清洗,缺省值填充,數(shù)據(jù)選擇,數(shù)據(jù)變換,數(shù)據(jù)集成。處理過程中需要將時(shí)間格式分類定位至年、月、日、時(shí)等不同分類;商品品名是字符串格式,需要編程分割并列入不同屬性以便詞頻分類。

詞頻分析

詞頻分析的目的是從商品品名中辨識(shí)出葷菜、素菜及米食、面食四種屬性。目前,詞頻分析的方法主要分為兩類:一種是基于詞典的方法;一種是基于機(jī)器學(xué)習(xí)的方法,如基于大規(guī)模語料庫(kù)的機(jī)器學(xué)習(xí)。前者需要用到標(biāo)注好的類別詞典,英文的詞典有很多,中文主要有知網(wǎng)整理的情感詞典Hownet和臺(tái)灣大學(xué)整理發(fā)布的NTUSD 兩個(gè)分類詞典,還有哈工大信息檢索研究室開源的《同義詞詞林》可以用于詞典的擴(kuò)充。基于機(jī)器學(xué)習(xí)的方法則需要大量的人工標(biāo)注的語料作為訓(xùn)練集,通過提取文本特征,構(gòu)建分類器來實(shí)現(xiàn)分類。

決策樹

決策樹是一種通過對(duì)歷史數(shù)據(jù)進(jìn)行測(cè)算實(shí)現(xiàn)對(duì)新數(shù)據(jù)進(jìn)行分類和預(yù)測(cè)的算法。簡(jiǎn)單來說決策樹算法就是通過對(duì)已有明確結(jié)果的歷史數(shù)據(jù)進(jìn)行分析,尋找數(shù)據(jù)中的特征。并以此為依據(jù)對(duì)新產(chǎn)生的數(shù)據(jù)結(jié)果進(jìn)行預(yù)測(cè)。它代表的是對(duì)象屬性與對(duì)象值之間的一種映射關(guān)系。數(shù)據(jù)挖掘中決策樹是一種經(jīng)常要用到的技術(shù),可以用于分析數(shù)據(jù),同樣也可以用來作預(yù)測(cè)。

決策樹既可以用于分類問題,也可以用于回歸問題。決策樹的優(yōu)點(diǎn)是可讀性強(qiáng),分類速度快。通常采用損失函數(shù)最小化原則。我們采用的事scikit-learn 中的回歸決策樹(Decision TreeRegressor),主要用于回歸問題。這個(gè)決策樹采用的是優(yōu)化的CART 決策樹算法,而雜質(zhì)度量方法常用Gini 指標(biāo),,其中表示屬于類的概率。

數(shù)據(jù)基本性狀

經(jīng)處理后的數(shù)據(jù)共3545個(gè)實(shí)例,無缺失值。因?yàn)樗奶卣髯兞枯^多,故將店鋪名設(shè)定為目標(biāo)變量(target),在此基礎(chǔ)上,將特征變量(feature)分為二個(gè)變量群,分別為:餐品價(jià)格屬性、時(shí)間地理屬性。通過這二個(gè)方面的性狀呈現(xiàn),可以大致刻畫出整個(gè)校園學(xué)生餐食偏好的數(shù)字肖像。

餐品價(jià)格屬性

餐品價(jià)格屬性的特征變量定義為:金額、素量、葷量、米食、面食。通過PMT的可視化數(shù)據(jù)呈現(xiàn),其中金額與素葷米面的性狀關(guān)系如圖3-1所示:

以上圖可看出:米食相對(duì)面食品種多,且價(jià)格也繁多。素食相對(duì)葷食品種多,也價(jià)格繁多;米食和素食更偏向低價(jià)區(qū),而面食和葷食對(duì)價(jià)格相對(duì)不敏感,只要口味好,學(xué)生不太計(jì)較高價(jià)格;玉枝園4樓5灶出售份額多,更受學(xué)生青睞。

米面葷素的占比情況如圖3-2所示:

以上圖可看出:素食占比略大于葷食,米食占比顯大于面食,這與學(xué)生消費(fèi)能力有限,米食出餐速度快且配送方便有關(guān)。

時(shí)間地理屬性

時(shí)間地理屬性的特征變量定義為:月、日、時(shí)、樓名、房號(hào)。通過PMT的可視化數(shù)據(jù)呈現(xiàn),時(shí)間地理屬性的性狀關(guān)系如圖3-3所示:

以上圖可看出:士官公寓的點(diǎn)餐時(shí)間集中度略早,在上午10點(diǎn)就開始,兩個(gè)女生公寓(槐香、榆繁)點(diǎn)餐時(shí)間集中在上午11點(diǎn)至13點(diǎn),下午基本不再點(diǎn)餐,其他公寓(柳蔭、柏盛、松鳴)點(diǎn)餐時(shí)間正常;男生偏愛4樓4灶,女生偏愛5樓7灶;點(diǎn)餐更集中于10-12月,樓層越高點(diǎn)餐份額越多。

學(xué)生消費(fèi)偏好的敏感性分析

學(xué)生消費(fèi)偏好的敏感度分析的主要目的是想通過算法的進(jìn)一步深入應(yīng)用,以數(shù)據(jù)分析來模擬學(xué)生的視角,了解學(xué)生通過哪些因素的判斷來訂購(gòu)餐品的,從而為餐品提供者提高銷售收入給出數(shù)據(jù)依據(jù)。

模型采用的是決策樹分類算法,我們依然選擇店鋪名為目標(biāo)變量,特征變量選定為單價(jià)、葷量、素量、米食、面食,即我們認(rèn)為影響學(xué)生選擇的主要因素有三個(gè):價(jià)格、葷素、米面。

經(jīng)過運(yùn)算,共有239個(gè)節(jié)點(diǎn),120個(gè)葉子節(jié)點(diǎn),顯然由于數(shù)據(jù)量較小,且未經(jīng)過剪枝處理,樹的性狀不是優(yōu)良狀態(tài),為簡(jiǎn)化計(jì)算,我們?nèi)?層樹進(jìn)行分析。決策樹的可視化圖如圖4-1。

由圖中可以判斷:學(xué)生的第一判斷因素是價(jià)格,如果餐品價(jià)格小于7元,有35.3%的學(xué)生會(huì)選擇玉枝園4樓5灶,如果餐品價(jià)格大于7元,此時(shí)學(xué)生將開啟第二判斷因素,即米面偏好因素,學(xué)生更多地轉(zhuǎn)向玉枝園4樓4灶的米食;然后再次判斷價(jià)格,轉(zhuǎn)向玉枝園5樓6灶;最后開啟第三判斷因素,即葷素偏好因素,再次轉(zhuǎn)向玉枝園4樓5灶的素食食品。

結(jié)論

總體來看,學(xué)生的因素判斷順序?yàn)閮r(jià)格(低價(jià))——米面(米食)——價(jià)格(低價(jià))——葷素(素食),玉枝園4樓5灶的節(jié)點(diǎn)更多,表明該節(jié)點(diǎn)價(jià)格低、蓋澆飯品種多且素菜品種多,更受學(xué)生偏愛。同時(shí),建議商家在目前學(xué)生消費(fèi)能力不高的情況下,要多提高素食品種并提升出餐速度,才是增長(zhǎng)銷售額的有效手段。

參考文獻(xiàn):

[1] 孫琳.基于電商企業(yè)運(yùn)營(yíng)數(shù)據(jù)的商品定價(jià)策略研究.2017大數(shù)據(jù)分析專業(yè)競(jìng)賽作品集上冊(cè).2017.

猜你喜歡
詞頻決策樹算法
簡(jiǎn)述一種基于C4.5的隨機(jī)決策樹集成分類算法設(shè)計(jì)
Travellng thg World Full—time for Rree
學(xué)習(xí)算法的“三種境界”
算法框圖的補(bǔ)全
算法初步知識(shí)盤點(diǎn)
決策樹學(xué)習(xí)的剪枝方法
毛澤東話語的詞語特征
詞頻,一部隱秘的歷史
決策樹在施工項(xiàng)目管理中的應(yīng)用
舟曲县| 乌鲁木齐市| 琼结县| 山阳县| 正安县| 翁牛特旗| 普安县| 吉林省| 崇义县| 新营市| 克山县| 吉安县| 黄梅县| 会宁县| 突泉县| 抚宁县| 固安县| 凉城县| 双鸭山市| 泸定县| 太白县| 西峡县| 锡林浩特市| 专栏| 百色市| 萍乡市| 米泉市| 海阳市| 深泽县| 浦北县| 玉田县| 广水市| 泽库县| 曲阜市| 同心县| 兰西县| 喀什市| 阿城市| 绥化市| 五大连池市| 邵东县|