(山東工藝美術(shù)學(xué)院公共課教學(xué)部 山東 濟(jì)南 250000)
“分享經(jīng)濟(jì)”是通過(guò)大數(shù)據(jù)技術(shù)以及互聯(lián)網(wǎng)技術(shù)進(jìn)行資源配合,整和重構(gòu)資源所誕生的一種全新商業(yè)模式,降低了消費(fèi)者的購(gòu)買成本和提高了生產(chǎn)效率。隨著分享經(jīng)濟(jì)的興起,將會(huì)使商業(yè)和社會(huì)帶來(lái)翻天覆地的變化。從15年滴滴打車與快的打車的合并,再到16年滴滴收購(gòu)Uber,移動(dòng)出行巨頭——滴滴出行,為人們的城市交通出行帶來(lái)了巨大的變化。滴滴出行作為移動(dòng)互聯(lián)網(wǎng)背景下“分享經(jīng)濟(jì)”的領(lǐng)軍人物,它利用GPS、移動(dòng)互聯(lián)網(wǎng)、大數(shù)據(jù)等技術(shù),充分利用了閑置的交通資源,使出行更加高效便捷,解決了緊張的交通資源,節(jié)約了人們等車的時(shí)間,使人們的出行方式由普通的打車變?yōu)榱爽F(xiàn)在利用互聯(lián)網(wǎng)智慧出行,推動(dòng)了互聯(lián)網(wǎng)和傳統(tǒng)產(chǎn)業(yè)的創(chuàng)新融合。
移動(dòng)出行平臺(tái)發(fā)揮了“分享經(jīng)濟(jì)”的低成本優(yōu)勢(shì),它們通過(guò)運(yùn)營(yíng)管理,有效地解決了信息不對(duì)稱,通過(guò)技術(shù)手段,連接了車主和乘客,并且對(duì)每個(gè)人都有信用記錄,在交易平臺(tái)上給出一個(gè)清晰透明的價(jià)格,使服務(wù)順利達(dá)成,原本閑置的資源被利用起來(lái),釋放了分享經(jīng)濟(jì)的低成本優(yōu)勢(shì)。
近年來(lái),隨著通訊技術(shù)的發(fā)展和空間定位的普及和應(yīng)用,我國(guó)大多數(shù)車上都安設(shè)了GPS系統(tǒng),通過(guò)GPS的定位功能,產(chǎn)生了大量車輛連續(xù)性的時(shí)間和空間的軌跡數(shù)據(jù),這些數(shù)據(jù)獲取的成本低,覆蓋范圍廣,擁有動(dòng)態(tài)特性,使得這些數(shù)據(jù)成為研究人們出行的新數(shù)據(jù)來(lái)源。
目前,我國(guó)移動(dòng)出行應(yīng)用主要有專車、打車、拼車和租車四種類型,這使人們出行選擇多種多樣,也滿足了各個(gè)年齡階段、各個(gè)地域以及各個(gè)階層的需求,表1顯示了四種移動(dòng)出行的代表應(yīng)用及其主要特點(diǎn)。
表1 移動(dòng)出行市場(chǎng)主流軟件及其特點(diǎn)
2016年下半年移動(dòng)出行應(yīng)用排名如圖1所示,滴滴出行的市場(chǎng)份額和用戶活躍度遠(yuǎn)高于其他應(yīng)用,其原當(dāng)然離不開(kāi)各大公司背后強(qiáng)大的資金支持以及技術(shù)支持。而更主要的是,滴滴出行與快的打車合并后,又收購(gòu)了Uber中國(guó),其業(yè)務(wù)拓展速度非常之快,占據(jù)了中國(guó)超過(guò)75%的市場(chǎng)用戶。而其經(jīng)常采取的補(bǔ)貼戰(zhàn)略,更是吸引了一大批消費(fèi)者。
圖1 移動(dòng)出行領(lǐng)域榜單
圖2 各專車應(yīng)用的活躍用戶量及啟動(dòng)次數(shù)
從圖2中可以看出,滴滴出行APP占據(jù)了絕大部分市場(chǎng)份額,活躍用戶數(shù)量以及啟動(dòng)次數(shù)遠(yuǎn)遠(yuǎn)高于其他幾個(gè)專車應(yīng)用。從圖3中可以看出,在日均活躍用戶量、日均啟動(dòng)次數(shù)和日均使用時(shí)長(zhǎng)上看,占據(jù)領(lǐng)先地位的是Uber和神州專車。
用戶選擇出行軟件的時(shí)候,往往考慮以下幾個(gè)因素:首先,在價(jià)格方面,用軟件打車的價(jià)格是否合理,是否比打普通出租車要便宜。其次,是否能及時(shí)到達(dá)自己所在的地點(diǎn)。因此商家為了留住顧客,經(jīng)常采取一些補(bǔ)貼優(yōu)惠政策,使價(jià)格方面盡量讓人們接受,甚至用白菜價(jià)吸引那些潛在的客戶,再利用其便捷的優(yōu)點(diǎn),使?jié)撛诳蛻舭l(fā)展為長(zhǎng)期客戶。隨著注冊(cè)的車主越來(lái)越多,打車也越來(lái)越便捷,打車的人也變得越來(lái)越多。因此打車的效率和速度就提高了。
如圖3顯示的人均行為,我們可以得出人均啟動(dòng)次數(shù)和人均使用時(shí)長(zhǎng)最多的是滴滴出行,其次是Uber和神州專車。
圖3 人均行為分析圖
移動(dòng)出行類應(yīng)用的主要用戶主要集中在20-30歲以下的青年人士,這些年輕人對(duì)互聯(lián)網(wǎng)接觸了解的較多,并且樂(lè)于嘗試新型的出行方式。而41歲以上的人群只占了10%的份額。
從使用的領(lǐng)域來(lái)看,一線城市的市場(chǎng)份額占據(jù)了50%以上,這與一線城市人群有較高的收入水平有關(guān)系,他們的出行頻次也比較高。而隨著年齡的遞增,收入檔次的提高,移動(dòng)出行用戶數(shù)量逐漸減少,其原因主要有以下兩點(diǎn):一是我國(guó)高收入者占總?cè)丝诘谋戎剌^??;二是高收入者一般有自己的汽車。隨著移動(dòng)出行應(yīng)用的普及,將會(huì)有更多的年輕人進(jìn)入這個(gè)市場(chǎng),也會(huì)逐步有中年人士放棄自己開(kāi)車而選擇專車和拼車,這將是綠色出行,實(shí)現(xiàn)節(jié)約能源的第一步。
近年來(lái),在我們生活在互聯(lián)網(wǎng)海洋的每時(shí)每刻,都會(huì)產(chǎn)生海量的數(shù)據(jù)。而面對(duì)這些海量的數(shù)據(jù),人們的肉眼和手工方法很難去處理這些數(shù)據(jù)并發(fā)現(xiàn)其中的價(jià)值,在這些數(shù)據(jù)的海洋中,人們急切需要更有效的方法來(lái)處理這些數(shù)據(jù)來(lái)獲得有用的知識(shí)。數(shù)據(jù)挖掘正是在這種強(qiáng)烈需求的背景下應(yīng)運(yùn)而生的,為我們從大量數(shù)據(jù)中提煉出有價(jià)值的只是提供了可行有效地方法。
數(shù)據(jù)挖掘結(jié)合了多個(gè)領(lǐng)域的技術(shù),如人工智能、概率學(xué)、數(shù)據(jù)庫(kù)技術(shù)、機(jī)器學(xué)習(xí)等。數(shù)據(jù)挖掘是在不完全的數(shù)據(jù)信息中,去除噪聲、重復(fù)數(shù)據(jù)、不一致數(shù)據(jù),發(fā)現(xiàn)那些對(duì)人們有價(jià)值的信息。數(shù)據(jù)挖掘技術(shù)還可以用于預(yù)測(cè)信息,發(fā)現(xiàn)數(shù)據(jù)之間的規(guī)律,推測(cè)出將來(lái)可能的行為。
數(shù)據(jù)挖掘也往往用來(lái)解決商業(yè)的實(shí)際問(wèn)題,首先從商業(yè)角度理解問(wèn)題,將這些問(wèn)題轉(zhuǎn)化為數(shù)據(jù),對(duì)這些數(shù)據(jù)進(jìn)行建模,然后對(duì)模型進(jìn)行評(píng)估,最后發(fā)布模型得出目標(biāo)結(jié)果。
數(shù)據(jù)挖掘的整個(gè)行程是為了發(fā)現(xiàn)在最初的數(shù)據(jù)中,所隱含著的對(duì)我們有價(jià)值的信息,所以在進(jìn)行數(shù)據(jù)挖掘前,我們首先要知道,我們要解決的問(wèn)題是什么以及想達(dá)到什么樣的目的。只有這樣將問(wèn)題和目的結(jié)合起來(lái)才能得到我們想要的結(jié)果。數(shù)據(jù)挖掘的過(guò)程分為以下幾個(gè)階段:數(shù)據(jù)預(yù)處理、數(shù)據(jù)挖掘和模型最終效果的評(píng)估。
1.大數(shù)據(jù)預(yù)處理
我們剛開(kāi)始收集的原始數(shù)據(jù)往往具有復(fù)雜和多樣等特性,為了將這些最初的數(shù)據(jù)轉(zhuǎn)化為我們最終需要的數(shù)據(jù),我們要對(duì)數(shù)據(jù)進(jìn)行一些處理,使原本不完整的數(shù)據(jù)變得完整,使數(shù)據(jù)變得一致起來(lái)。我們要對(duì)數(shù)據(jù)進(jìn)行清洗來(lái)消除數(shù)據(jù)的噪聲和重復(fù)的觀測(cè)值。數(shù)據(jù)預(yù)處理過(guò)程又分為以下四個(gè)子階段:
數(shù)據(jù)清理:數(shù)據(jù)清理包括消除數(shù)據(jù)的噪聲、填補(bǔ)那些遺缺的數(shù)據(jù),使數(shù)據(jù)變得平滑起來(lái)。車輛軌跡數(shù)據(jù)存在的主要問(wèn)題是軌跡點(diǎn)經(jīng)緯度坐標(biāo)越界和異常的軌跡點(diǎn),需要對(duì)這些異常數(shù)據(jù)進(jìn)行處理。
數(shù)據(jù)合成:數(shù)據(jù)合成是將各不相同的數(shù)據(jù)在某些特征上讓它們有機(jī)的集中起來(lái)。
數(shù)據(jù)選擇和分析:是指在大量的數(shù)據(jù)中取出一些相關(guān)數(shù)據(jù),在不損失有效信息的情況下,對(duì)數(shù)據(jù)的范圍進(jìn)行合理的選擇,以減少不必要的時(shí)間浪費(fèi)。
數(shù)據(jù)變換:是指通過(guò)離散化、平滑處理以及標(biāo)準(zhǔn)規(guī)則化處理等方法,將數(shù)據(jù)變化成適合進(jìn)行數(shù)據(jù)挖掘的形式。
其中對(duì)GPS測(cè)數(shù)據(jù)的數(shù)據(jù)剔除方法我們可以使用萊茵達(dá)準(zhǔn)則法和羅曼洛夫斯基準(zhǔn)則,這種GPS載波相位差分技術(shù)的運(yùn)用,極大地降低了如衛(wèi)星相關(guān)誤差及電離層折射延遲、對(duì)流層折射延遲等主要誤差源的影響。為了盡可能可靠地提高GPS定位的精度,必須對(duì)測(cè)量數(shù)據(jù)進(jìn)行粗差剔除。
(1)萊茵達(dá)準(zhǔn)則
(2)羅曼洛夫斯基準(zhǔn)則
2.大數(shù)據(jù)挖掘
數(shù)據(jù)挖掘是為了在初始不規(guī)則的數(shù)據(jù)中發(fā)現(xiàn)對(duì)我們有用的信息,數(shù)據(jù)挖掘的模式有兩種,其中一種是描述性模型,用特征化分析、聚類分析、關(guān)聯(lián)分析等方法描述數(shù)據(jù)的一般特征,再用數(shù)學(xué)統(tǒng)計(jì)模型對(duì)隱含在這些數(shù)據(jù)中的信息進(jìn)行解釋;另一種是預(yù)測(cè)性模式,通過(guò)分類、孤立點(diǎn)分析、回歸等方法,在預(yù)測(cè)和推斷這些數(shù)據(jù)。
3.模型最終效果的評(píng)估
在數(shù)據(jù)挖掘階段之后,挖掘到的數(shù)據(jù)是需要我們進(jìn)行分析的,要用恰當(dāng)?shù)脑u(píng)價(jià)標(biāo)準(zhǔn)來(lái)衡量結(jié)果的正確與否。
數(shù)據(jù)挖掘有兩種方法類型,一種是統(tǒng)計(jì)型的,常用的方法包括聚類分析和相關(guān)性分析,這種類型旨在發(fā)現(xiàn)數(shù)據(jù)中藏匿的一般規(guī)律。另一種類型是機(jī)器學(xué)習(xí)類型,它通過(guò)大量的數(shù)據(jù)樣本得到模型,然后對(duì)未知的樣本進(jìn)行預(yù)測(cè)。本論文使用的是第二種類型,通過(guò)乘客和司機(jī)的出行數(shù)據(jù),對(duì)乘客和司機(jī)的歷史行為進(jìn)行分析。這種結(jié)合了概率學(xué)、人工智能、數(shù)據(jù)庫(kù)等技術(shù)的綜合性方法,減少了只在單個(gè)分析方法中的缺點(diǎn)和不足,將多重分析方法的優(yōu)勢(shì)結(jié)合起來(lái),更好的分析數(shù)據(jù)得出結(jié)論。下面介紹四種數(shù)據(jù)挖掘任務(wù)。
1.預(yù)測(cè)建模
預(yù)測(cè)建模有回歸建模形式和分類建模形式,它們通過(guò)提取數(shù)據(jù)的普通模式來(lái)預(yù)測(cè)未來(lái)的變化趨勢(shì)?;貧w建模的函數(shù)模型是連續(xù)的,可以用線性回歸的方式來(lái)解決許多問(wèn)題,而通過(guò)變換,我們也可以將許多非線性問(wèn)題轉(zhuǎn)化為線性問(wèn)題來(lái)解決。分類建模是預(yù)測(cè)離散的數(shù)值。這兩種建模形式都是預(yù)測(cè)問(wèn)題。分類和回歸預(yù)測(cè)的經(jīng)典方法有決策樹(shù)、貝葉斯、支持向量機(jī)、人工神經(jīng)網(wǎng)絡(luò)、組合學(xué)習(xí)方法和K鄰域。
2.關(guān)聯(lián)分析
關(guān)聯(lián)分析方法是為了發(fā)現(xiàn)數(shù)據(jù)集中的關(guān)聯(lián)性和相關(guān)性。但是,在海量的數(shù)據(jù)中要發(fā)現(xiàn)它們的聯(lián)系要耗費(fèi)大量的時(shí)間和資源,同時(shí),發(fā)現(xiàn)的這些相關(guān)性也會(huì)有偶然的情況和錯(cuò)誤的情況,為了解決這兩個(gè)問(wèn)題,在關(guān)聯(lián)分析中,要使用規(guī)則的支持度和置信度,使得去除那些偶然出現(xiàn)的規(guī)則,得到最可靠的信息。利用關(guān)聯(lián)分析的算法主要有FP-growth和Apriori等。
3.聚類分析
聚類分析是一種沒(méi)有監(jiān)督的方法,它通過(guò)合理劃分那些未標(biāo)注的樣本,對(duì)不同類別使用顯式或隱式的方法進(jìn)行描述,層次方法、劃分方法、基于網(wǎng)絡(luò)的方法等都是聚類分析的主要方法。
4.異常檢測(cè)
異常檢測(cè)的目的是為了發(fā)現(xiàn)那些特征明顯不同于其他數(shù)據(jù)的對(duì)象,從而避免將正常的觀測(cè)對(duì)象標(biāo)記為異常數(shù)值。異常檢測(cè)在公共損失檢測(cè)、網(wǎng)絡(luò)攻擊、疾病的不尋常模式、醫(yī)療處理等方面都有重要作用。