張蕾,邢治河,高魯營,顧曦
中國石油天然氣股份有限公司規(guī)劃總院
加油站的銷售潛力是指在現(xiàn)有的軟硬件條件下,加油站可能達到的最大銷售量在外部條件允許時可以轉(zhuǎn)化為加油站的實際銷售能力[1]。從實際應用來看,對加油站進行精確的潛力測算有兩方面的意義:一是可以對正在運營的加油站進行測算,作為加油站提高量效的標準或者參考,也可以作為加油站轉(zhuǎn)讓或者運行評估的重要指標;二是對于準備規(guī)劃或者建設的加油站進行虛擬測算,可以作為加油站建設可行性的重要參考。
加油站的潛力測算是成品油銷售企業(yè)在站點投資、實際經(jīng)營等方面非常重要的參考工具,是企業(yè)決策的重要依據(jù)。但從應用情況來看,當前常用的潛力測算方法存在較為明顯的問題。一方面是投資決策的影響因素復雜:從國內(nèi)外已有文獻來看,全部影響因素指標可能達到50 個甚至上百個;對于不同的站點之間,其影響因素的權(quán)重存在差異,甚至同一個站點的影響因素也會隨時間和周邊環(huán)境而變化。另一方面則是數(shù)據(jù)客觀性不足:一是人工取數(shù)導致客觀性不足,如道路車流量的估計一般由當?shù)毓芾砣藛T手工統(tǒng)計,可能由于地點、時間、人為操作等情況出現(xiàn)誤差,導致數(shù)據(jù)不能反映周邊道路的真實情況;二是調(diào)研數(shù)據(jù)存在滯后性,由于當前對周邊環(huán)境、站前道路、站址條件等數(shù)據(jù)獲取主要采取走訪調(diào)研的方式,數(shù)據(jù)獲取渠道不固定,指標權(quán)威性欠缺,且數(shù)據(jù)更新不夠及時,導致站點投資的基礎數(shù)據(jù)準確性不足,無法滿足動態(tài)評估需求。因此,在愈加激烈的成品油零售市場競爭中,如何充分利用內(nèi)外部數(shù)據(jù)信息和先進分析技術(shù)精確測算銷售潛力,是當前亟需解決的重要問題。
過去幾十年,不斷有新的預測理論和算法被提出,從傳統(tǒng)的線性模型到現(xiàn)在廣泛使用的機器學習、深度學習[2],各種線性與非線性模型層出不窮。國內(nèi)外用于能源領域的主流預測方法有各類基于回歸模型[3-4]、時間序列模型預測的方法[5],灰色預測的方法以及基于BP 神經(jīng)網(wǎng)絡模型的預測方法[6],等等。近些年來LSTM(長短期記憶網(wǎng)絡)已被廣泛應用于能源領域的預測問題中:Tulensalo 等[7]使用LSTM 學習電力市場與天氣之間的關系,并對電力系統(tǒng)的總網(wǎng)損進行預測;Laib 等[8]使用LSTM 模型來對不同地區(qū)的天然氣消耗量進行預測;Li 等[9]提出結(jié)合LSTM 模型與特征選擇技術(shù)來對電價進行預測。眾多的模型與其他領域的預測案例也為加油站潛在銷量預測提供了方法思路和參考經(jīng)驗。
傳統(tǒng)的加油站銷量預測一般轉(zhuǎn)化為時間序列的預測問題,使用時間序列的滑動平均模型、指數(shù)平滑模型、ARIMA(差分整合移動平均自回歸)模型等預測方法對銷量進行預測。李艷東等[10]提出了一種采用指數(shù)平滑對加油站銷量進行預測的方法,該方法預測速度快但精度相對較低,對銷量數(shù)據(jù)的平穩(wěn)性有很高的要求,并且無法刻畫其他因素對于銷量的影響;楊慶等[11]基于線性判定將銷量序列分為是否線性,對于非線性的銷量序列則使用BP神經(jīng)網(wǎng)絡對未來銷量進行預測;張晨等[12]基于決策樹與集成學習,使用混合決策樹的方法,將隨機森林與梯度提升樹的預測結(jié)果進行加權(quán)作為對加油站銷量的預測;盧晨輝等[13]與潘詩元等[14]都使用LSTM 結(jié)合其他對銷量影響的特征構(gòu)建加油站銷量預測模型,對銷量序列進行預測。
上述銷量預測方法主要是基于單個加油站銷量的時間序列數(shù)據(jù)對其未來銷量進行預測,因此納入的特征也主要是天氣、油價、氣溫等對銷量有影響的時間序列數(shù)據(jù),而對于反映加油站自身屬性的特征(如加油站分類、站點類型、占地面積等)以及所處的地理空間信息均沒有納入考慮,例如:占地大小不同的加油站之間銷售能力存在差異;高速公路沿線加油站的銷售能力也與城區(qū)內(nèi)加油站的銷售能力存在差異。因此上述方法無法適用于不同地點、不同特征的加油站的銷售潛力預測。
地理信息數(shù)據(jù)在國民經(jīng)濟各個領域都有著十分廣泛的應用,POI(Point of Interest,興趣點)數(shù)據(jù)作為一種代表地理實體的點狀地理空間數(shù)據(jù),反映了實體所承載的人類活動與地理位置之間的相互關聯(lián)性。通過POI 數(shù)據(jù)與其他地理信息數(shù)據(jù)的應用,能夠在商業(yè)設施建設前綜合考慮資源配置、交通條件、地理特征等當?shù)氐氖袌鰸摿σ蛩?,輔助設施建設的選址工作[15]。杜蘭等[16]結(jié)合景區(qū)內(nèi)道路網(wǎng)與POI 信息,對景區(qū)游客接待中心的最優(yōu)選址進行了研究。此外,帥春燕等[17]也曾結(jié)合換電數(shù)據(jù)、外賣數(shù)據(jù)和POI 數(shù)據(jù),使用線性回歸與K-Means 聚類算法,研究換電柜的需求與周邊POI 之間的關系,提出電動自行車換電柜的選址策略。
本文結(jié)合加油站自身的屬性、運營數(shù)據(jù)以及周邊的地理空間信息,通過因子分析的方法構(gòu)建指數(shù),并通過聚類、分類等方法對影響加油站銷售的周邊地理空間環(huán)境進行建模,從而實現(xiàn)對不同地點、不同特征的已有加油站的銷售情況的評價以及對新建加油站的銷售潛力的預測,解決當前實際測算中遇到的問題,是利用大數(shù)據(jù)技術(shù)實現(xiàn)站點管理精細化的有益探索。
考慮到影響加油站銷售的變量較多,本文通過客觀數(shù)據(jù)對加油站周邊信息進行分解,如:用車流量數(shù)據(jù)來實現(xiàn)對汽車保有情況的估計;用網(wǎng)格內(nèi)的人口、活動、道路、光強度等反映經(jīng)濟發(fā)展、消費需求、交通發(fā)展等;用POI 數(shù)據(jù)反映周邊的人流、車流、商業(yè)服務、競爭對手、能源替代等。
本文所使用數(shù)據(jù)包括空間信息數(shù)據(jù)及運營數(shù)據(jù),其中:空間信息數(shù)據(jù)包括道路環(huán)境數(shù)據(jù)、地理POI數(shù)據(jù)及車流量數(shù)據(jù);運營數(shù)據(jù)包括加油站自身明細數(shù)據(jù)及銷售數(shù)據(jù)(汽油銷量、柴油銷量及非油品收入)。通過研究加油站周邊的地理空間信息對加油站銷售水平的影響,構(gòu)建指數(shù)體系與預測模型對加油站的銷售潛力進行預測。由于包頭市是呼包鄂城市群中心城市之一,具有發(fā)達的公路交通,代表性較強,因此以包頭市為例對預測方法進行闡述。
道路環(huán)境數(shù)據(jù)來源于中國科學院地理科學與資源研究所(簡稱地理資源所),包括調(diào)查和計算所得的人口數(shù)(POP)、活動指數(shù)(DAI、NAI)、道路密度(RD)、夜光強度(LI)和建筑地表面積(BSA)。
地理POI 數(shù)據(jù)來源于百度地圖開放平臺提供的API(接口),通過基于Python 2.7 的爬蟲程序爬取獲得。POI 通常包含名稱、地址、坐標、類別等4個屬性,一個POI 可以是一個小區(qū)、一家商場、一個公交站等。加油站周邊的POI 信息可以反映各個加油站所在區(qū)域的地理特征,側(cè)面反映人流量和車流量,對加油站的銷售情況起到重要影響。
車流量數(shù)據(jù)采用年度月平均道路車流量,包括汽油汽車、柴油汽車、摩托車。對于沒有記錄車流量的加油站,采用反距離加權(quán)插值法對其車流量進行插補處理,即該加油站的道路車流量是所有有記錄加油站道路車流量的加權(quán)和,權(quán)重與距離成反比。
加油站自身內(nèi)部數(shù)據(jù)多為分類變量和定序變量,轉(zhuǎn)化變量類型后可直接使用。銷售數(shù)據(jù)中非油品收入采用當年日平均收入;汽油銷量和柴油銷量均采用當年日平均銷量,且已合并油品型號。即使是同一個加油站,汽油、柴油和非油品的銷售水平也并不一致。圖1 為各加油站3 類商品銷量對比,圖中每一行代表一個加油站,每一列分別代表汽油、柴油與非油品的銷售情況,網(wǎng)格中顏色越深表示該加油站該類商品的銷量(或收入)越高??梢钥吹剑浩秃头怯推返匿N售水平比較相似,汽油銷量較高的加油站傾向于有較高的非油品銷量;而柴油銷售水平則與二者不太一致,柴油銷售高的加油站往往汽油與非油品的銷售水平較低。
圖1 各加油站3 種商品銷量對比
原始的POI 數(shù)據(jù)以每個POI 作為個體,包括每個POI 的名稱、地址、地理坐標、所屬類別等屬性,數(shù)據(jù)量十分龐大,且不利于以加油站為個體分析周邊地理環(huán)境對銷售水平的影響。本研究認為加油站的銷售水平只會受周邊的地理環(huán)境影響,因此,為方便后續(xù)的數(shù)據(jù)分析,以加油站為中心檢索周邊的POI 數(shù)據(jù),并據(jù)此整理出每個加油站周邊各類POI的分布,以便用于接下來的數(shù)據(jù)分析。
基于地理資源所提供的網(wǎng)格(邊長為1/600 的經(jīng)度或緯度,約合160 m),以加油站所在網(wǎng)格為中心,附近的n×n個小網(wǎng)格組成網(wǎng)格單元,根據(jù)圖2 所示A、B、C、D 這4 個邊界點的經(jīng)緯度確定檢索范圍,將網(wǎng)絡單元內(nèi)n2個網(wǎng)格的道路環(huán)境數(shù)據(jù)及POI 數(shù)據(jù)匯總。
圖2 確定檢索區(qū)域范圍示意(以n=5 為例)
POI 數(shù)據(jù)提供的信息由檢索范圍的大小控制,若搜索范圍過小,提供的信息太少;反之則會使得各加油站周邊存在交叉,減小了各加油站之間的地理差異。為了探索合適的搜索范圍,分別嘗試以多個檢索范圍(n=5,n=9 和n=15)獲取各個加油站的地理POI 數(shù)據(jù),得到對應的POI 數(shù)據(jù)分布。最終確定以n=15(即2 400 m×2 400 m)為檢索范圍進行POI 數(shù)據(jù)的獲取,得到83 個POI 變量,其中每個變量的數(shù)據(jù)代表相應關鍵詞下的POI 個數(shù)。
由于數(shù)據(jù)中存在某些變量全部單一取值或是取值0 的比例很高,這些變量無法在數(shù)據(jù)分析中提供有效的信息,為了提高后續(xù)數(shù)據(jù)分析結(jié)果的準確性,采取了兩步預處理去除質(zhì)量不佳的冗余變量,即去掉單一取值的變量以及取值為0 的比例超過80%的POI 變量。
為了探究影響加油站銷售情況的因素,結(jié)合清洗后的數(shù)據(jù),將各加油站的銷售情況作為響應變量,將能夠?qū)ζ洚a(chǎn)生影響的解釋變量用于解釋與說明加油站銷售情況的變化。解釋變量主要分為以下3 類:反映加油站自身屬性信息的變量,如資產(chǎn)性質(zhì)、所在道路等;有關加油站各類面積的變量,如占地面積、便利店面積等;反映加油站周邊區(qū)域空間信息的道路環(huán)境變量和POI 變量。由于變量個數(shù)眾多,達到109 個,且POI 變量取值較為稀疏,因此考慮在第二類和第三類原始變量的基礎上構(gòu)建指數(shù),增強模型的效果與可解釋性,同時也可以通過指數(shù)來反映加油站區(qū)域范圍內(nèi)潛在客戶群體的規(guī)模。
為構(gòu)建指數(shù),需要先將原始變量按照一定的特征(如都是反映加油站周邊商業(yè)服務設施的變量,或都是對加油站自身規(guī)模的變量等)分成幾類,然后在每一類原始變量的基礎上構(gòu)建一個因子反映這一類變量中的信息,其作為一個指數(shù)變量,用于后續(xù)的分析。
本文首先構(gòu)造了6 個連續(xù)型的指數(shù)。將預處理后的變量根據(jù)意義相近的原則,參考GB 50137—2011《城市用地分類與規(guī)劃建設用地標準》劃分成了6 個指數(shù)類,分別為活動指數(shù)、公共管理服務設施、商業(yè)服務設施、交通道路、綠地廣場和加油站綜合面積。各指數(shù)類包括變量如下:
1)活動指數(shù):POP、DAI、NAI、RD、LI、BSA、AREA。
2)公共管理服務設施:廁所、療養(yǎng)院、養(yǎng)老院、大學、中學、小學、幼兒園、圖書館、培訓、科研、博物館、高爾夫球場、滑雪場、賽馬場、體育館、羽毛球館、網(wǎng)球場、溜冰場、健身房、醫(yī)院、郵局。
3)商業(yè)服務設施:移動、聯(lián)通、電信、小區(qū)、美容、商場、超市、便利店、煙酒、特產(chǎn)、服裝店、體育用品、家具、建材、電器、度假村、農(nóng)家樂、餐飲、銀行、典當、證券、保險、影院、KTV、夜總會、棋牌室、網(wǎng)吧、婚慶、彩票、雜志社、報社、出版社、商務寫字樓、工業(yè)園、工廠。
4)交通道路:汽車銷售、汽車服務、汽車維修、駕校、汽車租賃、高速服務區(qū)、停車場、檢測站、火車站、地鐵站、客運站、公交車站、碼頭、汽油汽車道路車數(shù)量合計、柴油汽車道路車數(shù)量合計、摩托車道路車數(shù)量合計。
5)綠地廣場:公園、教堂、寺廟、釣魚、動物園、植物園、水族館、游樂園。
6)加油站綜合面積:占地面積、罩棚面積、停車場面積、便利店面積。
基于上述分類,使用因子分析方法對每個指數(shù)類分別構(gòu)建因子作為指數(shù),通過方差貢獻率反映變量對因子的依賴程度,包頭市每個指數(shù)因子的方差貢獻率見表1。
表1 包頭市各指數(shù)因子方差貢獻率
其次,各加油站周邊競品加油站數(shù)量轉(zhuǎn)化為0-1 變量作為競品指數(shù),以反映加油站周邊是否存在競爭,即在加油站周邊不存在競品加油站時將競品指數(shù)記為0,反之記為1。
最后將上述構(gòu)建的指數(shù)變量與原始解釋變量中第一類反映加油站自身屬性的變量合并,共同作為后續(xù)建模分析所使用的解釋變量。
建立大數(shù)據(jù)模型的目的是對加油站的潛在銷售能力進行測算?;跇?gòu)建的指數(shù)因子,通過聚類分析評價現(xiàn)有的加油站銷售水平,再通過判別分析實現(xiàn)對新加油站銷售潛能的預測。圖3 為建模流程示意,主要分為超高銷量(收入)甄別、非超高銷量(收入)加油站的聚類分析、基于聚類結(jié)果判別新加油站的所屬類別等3 個步驟。
圖3 模型主要流程示意
進行超高銷量甄別的主要原因是,一個城市內(nèi)存在個別加油站的銷量(收入)遠高于其他加油站的情況,為保障模型的穩(wěn)定性,需要對這些特殊加油站進行專門的分析。依據(jù)加油站經(jīng)驗分布圖中是否存在斷層現(xiàn)象識別這類特殊加油站是否存在,若無斷層現(xiàn)象則不存在超高銷量(收入)的加油站。若一個加油站被判斷為超高銷量(收入)加油站,則其銷量(收入)預測值為所有超高銷量(收入)加油站的均值;若其被判斷為非超高銷量(收入)加油站,進行后續(xù)的分析。
根據(jù)包頭市67 個加油站汽油銷量的經(jīng)驗分布中的斷層,將超高銷量的加油站記為1,非超高銷量的加油站記為0。如圖4 所示,汽油銷量在8 000 L處存在斷層,因此將汽油銷量超過8 000 L 的8 個加油站標注為超高銷量的加油站。
圖4 包頭市加油站汽油銷量的經(jīng)驗分布
根據(jù)人工標注的結(jié)果,基于原始解釋變量訓練了隨機森林分類器,參考隨機森林分類器給出的重要變量和樹的劃分準則確定甄別準則。需要注意的是,由于超高銷量與非超高銷量的加油站數(shù)目過于懸殊,為了提高模型對于前者的識別能力,在訓練隨機森林模型前,先對超高銷量加油站的數(shù)據(jù)進行了過采樣處理,即通過有放回地抽取超高銷量加油站,提高超高銷量加油站的占比以構(gòu)建一個平衡的數(shù)據(jù)集進行建模。根據(jù)隨機森林分類器,找到重要性排名前三的變量,分別是便利店、培訓、特產(chǎn)。圖5 為重要變量分布圖,其中較深的藍色反映了超高銷量加油站汽油銷量的分布,反之則反映了非超高銷量加油站汽油銷量的分布。
圖5 重要變量分布
綜合選出的重要變量以及隨機森林分類器中樹的分節(jié)點情況,最終得到甄別為超高銷量的標準為:便利店數(shù)量大于30 個,培訓機構(gòu)數(shù)量大于55 個,且特產(chǎn)店數(shù)量大于7 個。
使用超高銷量加油站銷量的平均值10 583 L 作為包頭市超高銷量加油站銷量的預測值,即:對于一個加油站,若其被甄別為超高銷量的加油站,則使用10 583 L 作為對其日均銷量的預測;對于其他非超高銷量的加油站則繼續(xù)進行建模分析。
考慮到特征上相近的加油站應當具有類似的銷售潛力,因此對于其他未被甄別為超高銷量的加油站,通過上文合成的指數(shù)及自身屬性所構(gòu)造的解釋變量對加油站進行聚類分析。
為了在對加油站聚類時能夠充分考慮加油站在特征上的差異以及在地理空間分布上的差異,本文采用加油站之間的Gower(高爾)距離和空間距離的加權(quán)距離進行聚類。Gower 距離是一種可以同時處理特征中連續(xù)性變量、分類型變量及定序型變量的距離計算方法。設Gower 距離為dg,空間距離為ds,則加權(quán)距離dw為:
式中權(quán)重w使用遍歷搜索來確定最優(yōu)權(quán)重,即令權(quán)重從0.30 到1.00,以0.05 的間隔逐步增加,選擇使得聚類效果最佳的權(quán)重作為最終用于構(gòu)造距離的權(quán)重。
為了評價、比較不同權(quán)重下的聚類效果,使用“中位數(shù)差/標準差”指標(MS 指標)。該指標取值越大,表示各個類別的中位數(shù)之間存在差異越大且類別內(nèi)部標準差較小,說明各個類別的銷售水平差距越大,解釋變量對銷售水平的差異刻畫得越好。因此選擇使MS 指標達到最大的權(quán)重。
若聚為2 類,MS 指標取值的定義為:
若聚為3 類,MS 指標取值的定義為:
式中:MMS——MS 指標的值;m1,m2和m3——從小到大排列后的各類中位數(shù);s1,s2和s3——對應各類內(nèi)的標準差。
MS 指標只能用在確定類數(shù)K之后選出最優(yōu)的距離權(quán)重,無法直接比較不同類別個數(shù)對應的聚類結(jié)果。為了確定最優(yōu)的類別個數(shù),研究使用DBI(Davies-Bouldin Index,戴維森堡丁指數(shù))指標,DBI 越小表示類內(nèi)的樣本距離類中心的距離越近,同時類間距離越遠,即聚類效果越好。由于包括包頭市在內(nèi)的6 個城市的加油站數(shù)量較少,只需要考慮類別個數(shù)是2 或3 的情況,選擇使得DBI 最小的類別個數(shù)。
因此,在對加油站進行聚類時,首先固定類別個數(shù)為2 和3,通過MS 指標分別選擇聚成2 類與聚成3 類的最優(yōu)權(quán)重,再通過DBI 指標對比以上兩個結(jié)果,確定最終的類別個數(shù)。
去掉8 個超高銷量的加油站,將剩下的59 個非超高銷量加油站按照解釋變量進行聚類。根據(jù)DBI指標,確定最優(yōu)類別個數(shù)為3 類。
當聚成3 類時:MS 指標隨權(quán)重的變化情況見圖6,最終選擇能夠使MS 指標取值最大的權(quán)重w=0.9;按照加權(quán)后的距離,將剩下的59 個加油站聚成3 類,將這3 類按銷量中位數(shù)從高到低分別命名為高銷量(1 類)、中銷量(2 類)、低銷量(3類),各類加油站的汽油銷量箱線圖見圖7。
圖6 MS 指標隨Gower 距離權(quán)重變化情況
對于現(xiàn)有的加油站,將每個銷量分類的銷量的10%分位數(shù)作為對其銷售水平評價的指標,銷量低于該值的加油站評價為銷量不達標。最終可以得到3 個銷量分類10%分位數(shù)分別為1 362、265 和217,即對于高銷量分類的加油站,若其汽油月均銷量低于1 362 L 則判定其銷量不達標。
為了探索解釋變量對銷售水平影響的重要性,研究比較了不同類加油站之間變量分布的差異。在不同銷量分類中差異越大的變量,說明其對聚類的影響越大,也即對汽油銷量的影響越大。圖8 為6 個連續(xù)型指數(shù)在不同銷量分類中分布的箱線圖,可以從中比較這些指數(shù)在聚類后所得不同分類中的分布差異。
圖8 各因子在不同銷量組別中的分布箱線圖
對于8 個非連續(xù)型的解釋變量(1 個競品指數(shù)和7 個描述加油站自身屬性的變量),則可使用卡方檢驗法檢驗變量與分類之間的獨立性,利用卡方檢驗法的P值來反映解釋變量對于聚類的影響,P值越小反映變量與分類之間的相關越強。各變量卡方檢驗P值見表2。
若要在一個給定的坐標點建立一個新的加油站,也可使用本模型對該加油站的銷售潛能進行預測。
首先,在前述聚類結(jié)果的基礎上訓練隨機森林和支持向量機(SVM)作為分類模型,對新加油站所屬的類別進行判別;其次,根據(jù)判別結(jié)果將其劃分到上一步聚類所得到的高銷量、中銷量、低銷量類別之中;最后,以其所屬類別的銷量分類的中位數(shù)作為對該加油站的預期銷售潛能。
此外,對于每一類加油站,都可使用Bootstrap方法構(gòu)建其銷量中位數(shù)的99%置信區(qū)間。這樣,新加油站可以使用分類模型給出其所屬類別銷量中位數(shù)的99%置信區(qū)間作為新加油站銷量的預測區(qū)間。各銷量分類中汽油銷量的預測區(qū)間見圖9,圖中顏色部分表示中位數(shù)的置信區(qū)間即預測區(qū)間,紅色字體標注中位數(shù)置信區(qū)間覆蓋這一類樣本的占比。
圖9 各銷量分類中汽油銷量的預測區(qū)間
為了驗證模型的有效性,另選了5 個城市對模型進行驗證,分別是呼和浩特、巴彥淖爾、哈爾濱、太原和運城。模型建立和運行結(jié)果與包頭模型基本一致,僅在最終的建議結(jié)果方面存在一定的差異。
本文對6 個城市加油站模型的結(jié)果進行了評估。對于超高銷量(收入)甄別部分,按“甄別正確的加油站數(shù)量/總加油站數(shù)量”計算準確率,6 個城市3 類商品的甄別準確率均達到90%以上。對于新加油站銷售預測部分,分別使用留一法交叉驗證、5折交叉驗證法及10 折交叉驗證法對分類模型的準確率進行評估,準確率均達到85%以上。結(jié)果顯示,本研究能夠合理準確地對加油站的銷售水平進行評價和預測。
本文提出了一種基于地理信息數(shù)據(jù)的加油站銷售潛力預測模型。該模型基于加油站地理信息數(shù)據(jù)使用因子分析構(gòu)建了指數(shù),并作為后續(xù)分析的解釋變量,同時反映加油站區(qū)域范圍內(nèi)的客戶群體規(guī)模。為了對不同加油站的銷售潛力進行評價,采用聚類分析將銷售潛力非超高的加油站聚成幾類,并使用類中位數(shù)作為對加油站銷售潛力評價的標準。
對于新建加油站則通過其所處區(qū)域的地理特征及加油站本身特征,使用分類模型將其分到聚類所得到的幾類加油站中,并使用類中位數(shù)的置信區(qū)間作為銷售潛力的區(qū)間預測,盡管對預測精度有所犧牲,但提高了預測的穩(wěn)定性及可解釋性。結(jié)果顯示,本文提出的預測模型能夠?qū)佑驼镜匿N售潛力進行合理評價和準確預測。從業(yè)人員能夠根據(jù)預測結(jié)果進行運營決策,也能夠?qū)⒛P蛯︿N售潛力的預測作為新建加油站選址決策的量化依據(jù)。目前來看,實際經(jīng)營中,將潛在銷量作為加油站經(jīng)營能力提升參考值的做法較多,且多個站點均取得了較為明顯的效果,例如2018 年應用該指標并優(yōu)化的加油站單站日銷量平均提升0.6 t。在新站選址中,本文給出的方法可以作為一種客觀的參考值,但目前還沒有實際的數(shù)據(jù)進行佐證。
本文是對加油站潛力數(shù)據(jù)測算的一種方法探索,還有進一步深化的空間:一是在實際應用中,將本方法進行工程化后,可以實現(xiàn)對線上數(shù)據(jù)的自動采集和實時動態(tài)更新,保證數(shù)據(jù)測算的準確性;二是可以在不同區(qū)域考慮大樣本的聚類分析,并加入對不同區(qū)域站點的異質(zhì)性討論,能夠?qū)嶋H的站點經(jīng)營和站點選址實現(xiàn)精確化的測算;三是本方法探索中給出的中位數(shù)等參數(shù),也可以根據(jù)市場和公司整體戰(zhàn)略需求進行調(diào)整,以實現(xiàn)對實際經(jīng)營的支撐。