摘 要:當前,數(shù)據(jù)化經(jīng)營成為生產(chǎn)力發(fā)展的重要方向,但以線下運營為主體的煙草行業(yè),其數(shù)據(jù)采集能力仍有待進一步提高。隨著行業(yè)市場分析的緊迫性日益加劇,煙草行業(yè)需要找到一條兼顧數(shù)據(jù)采集工作量與分析結(jié)果準確性的數(shù)據(jù)化市場規(guī)模評估機制。文章從門店抽樣出發(fā),在樣本設(shè)計、樣本檢驗、還原算法等層面進行了深入研究,提出了完整的市場評估方案并采用真實數(shù)據(jù)通過了方案測試,為今后煙草行業(yè)的市場規(guī)模研究提供了行之有效的解決辦法。
關(guān)鍵詞:分層抽樣;還原算法;市場評估
中圖分類號:F416.8文獻標識碼:A文章編號:1005-6432(2022)14-0184-07
DOI:10.13939/j.cnki.zgsc.2022.14.184
近年來,隨著全行業(yè)推進供給側(cè)結(jié)構(gòu)性改革、加強市場監(jiān)管和內(nèi)部管理、完善專賣體制等政策,我國煙草行業(yè)整體保持良好穩(wěn)定發(fā)展[1]。但在不同地區(qū)由于市場特點各不相同,其市場表現(xiàn)、發(fā)展模式、管理形式也不可避免的有所差異。因此,精準的地區(qū)市場狀態(tài)的反映及評估,是進一步深化地市級煙草公司發(fā)展的有力武器。
市場狀態(tài)評估主要受兩個維度的影響:市場數(shù)據(jù)采集與還原算法。一個市場的狀態(tài)是否良好,需要通過市場狀態(tài)指標對投放效果進行回顧分析,從而予以判斷。當前,卷煙市場狀態(tài)指標主要包括條毛利率、社會庫存與周存銷比。筆者以西安市為例,由于門店機器采集普及率較低,大部分門店仍為人工采集,又由于人工采集受環(huán)境、人為因素的影響較大,人工操作的不確定性使得市場狀態(tài)計算科學(xué)性存在一定的提升空間。
同時,在還原算法層面,現(xiàn)行方法也存在一些問題。當前還原算法根據(jù)樣本門店的存銷比對社會庫存進行推估,這樣并沒有很好地考量樣本可能包含的多維度特征,致使市場狀態(tài)計算存在一定誤差。
因此,本文從細化市場數(shù)據(jù)采集、改進還原算法的角度出發(fā),以西安市為例對目前煙草行業(yè)市場狀態(tài)評估所采用的抽樣策略系統(tǒng)進行了細致探討與優(yōu)化設(shè)計,旨在為后續(xù)市場狀態(tài)分析打好基礎(chǔ),用更有效的“系統(tǒng)大數(shù)據(jù)”幫助業(yè)務(wù)人員掌握更準確的“市場活情況”。
1 抽樣方案設(shè)計
1.1 方案重點概述
當下,中國數(shù)據(jù)產(chǎn)業(yè)蓬勃發(fā)展,各行業(yè)紛紛擁抱數(shù)據(jù)化所帶來的精細化管理、預(yù)判、執(zhí)行等業(yè)務(wù)賦能。但目前國內(nèi)商業(yè)數(shù)據(jù)采集尚未成熟,部分行業(yè)仍然極大地依賴人工采集,從而在數(shù)據(jù)精確度與可用性方面存在不足。面對煙草行業(yè)線下運營數(shù)據(jù)采集能力的不充分發(fā)展與行業(yè)市場分析的緊迫性之間的矛盾,探索出適合當下市場發(fā)展條件的數(shù)據(jù)修正一體化方案,對于煙草市場規(guī)模評估具有很強的實用與輔助指導(dǎo)意義。
為此,首先,根據(jù)煙草市場規(guī)模評估所需數(shù)據(jù)的處理過程,制定了“修正市場狀態(tài)數(shù)據(jù)源+升級抽樣還原算法”的兩步走方案。筆者規(guī)范了樣本門店選取規(guī)則,同時重新設(shè)計門店抽樣方案:①設(shè)計分層抽樣算法,確??沙闃有缘耐瑫r提高抽樣效率;②采用非等比例抽樣,分配中心城區(qū)和非中心城區(qū)樣本數(shù);③生成檔位合集,提升抽樣代表性;④利用卡方檢驗,保證樣本能夠合理反映市場情況;⑤分布指數(shù)檢驗,檢查樣本門店地理分布的可操作性。
其次,在完成數(shù)據(jù)修正后,根據(jù)抽樣方案對還原算法進行相應(yīng)調(diào)整:①細化還原計算層級;②設(shè)計科學(xué)推總還原算法。筆者根據(jù)上述策略方案在西安市進行了可行性驗證,其誤差率與可操作性均達到并超過預(yù)期水平。
1.2 方案流程設(shè)計
本方案從門店抽樣的代表性與準確性出發(fā),針對目前抽樣中遇到的問題,諸如權(quán)重分配過于單一、樣本框劃分只依賴地區(qū)因素等,重點對樣本數(shù)量與樣本點進行設(shè)計與優(yōu)化[2],從而在低成本的前提下實現(xiàn)了提高評估精度、改善評估描述力、增強抽樣系統(tǒng)可維護性等目標。方案流程如圖1所示。
1.3 方案測試范圍
筆者選取了西安市數(shù)據(jù)進行抽樣策略測試:①全量門店訂購數(shù)據(jù):2020年8月1日至9月6日;②全量門店靜態(tài)標簽數(shù)據(jù)(行政區(qū)、地址、門店編號、門店經(jīng)緯度、門店檔位),門店檔位更新時間為2020年8月28日;③商品數(shù)據(jù)字典(卷煙代碼,卷煙名稱,品牌等)。
2 方案詳述與結(jié)果
2.1 確認抽樣層級并構(gòu)建樣本框
2.1.1 城區(qū)劃分
西安市行政區(qū)劃可分為中心城區(qū)和非中心城區(qū):
中心城區(qū):未央?yún)^(qū)、新城區(qū)、碑林區(qū)、蓮湖區(qū)、灞橋區(qū)、雁塔區(qū)、高新區(qū)。
非中心城區(qū):閻良區(qū)、臨潼區(qū)、長安區(qū)、高陵區(qū)、鄠邑區(qū)、藍田縣、周至縣。
為了精準分析市場行情,抽樣店鋪需要充分考慮市場需求分布。傳統(tǒng)抽樣方法多采用簡單直接的等比方式,即依照中心/非中心城區(qū)店鋪總數(shù)比例分配抽樣店鋪,忽略了不同城區(qū)的商業(yè)發(fā)展狀態(tài)。因此選擇了考慮訂購量貢獻的非等比抽樣[3]。圖2對比了傳統(tǒng)等比抽樣和非等比抽樣的抽樣比例差異。
2.1.2 檔位合并
除了地區(qū)屬性外,門店同時還具有檔位屬性。傳統(tǒng)抽樣方法會直接對每一檔進行抽樣,導(dǎo)致分類過多,不利于后續(xù)分析。因此,需要在抽樣前對檔位進行優(yōu)化合并處理。
由圖3可以看出,全市總體訂購數(shù)量和檔位數(shù)呈正相關(guān),并隨檔位數(shù)遞增。曲線平滑說明臨近檔位的訂貨量相近。因各區(qū)縣內(nèi)趨勢和西安市整體趨勢一致,故后續(xù)變異系數(shù)只針對全市計算。
各檔位的原始變異系數(shù)(變異系數(shù) = 標準差/均值)如圖4所示。變異系數(shù)能夠量化檔位零售店訂購量的離散程度,可看到檔位1和檔位10訂購量離散程度大。但檔位1是訂購表現(xiàn)差的門店集合,檔位10則為新入市門店集合。 由于后續(xù)會對抽樣門店進行事前控制篩選,且僅抽取開店6個月以上的門店,因此可忽略這兩個檔位的異常分布。
后對異常分布進行平滑處理,即用檔位2、11的變異系數(shù)分別替換檔位1、10,如圖4虛線所示。
合并檔位時,檔位集合總數(shù)和集合中的檔位數(shù)量會顯著影響數(shù)據(jù)采集工作量與后續(xù)分析。筆者在測試后選擇了“三檔合一”為主的方案,即按照1-3,4-6,7-9,10-12,13-15,16-18,19-21,22-24,25-30合并檔位。一方面可以契合圖4平滑變異系數(shù)呈現(xiàn)的階梯分布;另一方面平衡了抽樣精確性與總?cè)斯すぷ髁俊?/p>
2.1.3 抽樣框設(shè)置
第一,抽樣框1:中心城區(qū)。表1、表2為分區(qū)域和檔位的門店計數(shù)占比。
第二,抽樣框2:非中心城區(qū)。表3、表4為分區(qū)域和檔位的門店計數(shù)占比。
2.2 抽樣樣本數(shù)及誤差估算
計算需抽取的樣本量n0:
其中,d為抽樣絕對誤差,本方案取值2%;α為顯著性水平,通常可以取α=0.05,此時置信度1-α=0.95;uα為標準正態(tài)分布在置信度為1-α?xí)r的分位數(shù),在置信度為0.95時為1.96;p(0<p<1)是樣本成數(shù),一般在未知時,p通常取0.5,即p(1-p)可取0.25。按上述取值,可得n0=1536。
關(guān)于抽樣設(shè)計的效率,可通過設(shè)計效應(yīng) (deff) 來確定[4]。對于本方案,分層設(shè)計效應(yīng)可表示為:
當抽樣方式為按比例的分層抽樣時,nin=Wi , 分層設(shè)計效應(yīng)為:
其中ρiccst=σ2bσ2是層間變差在總變差中所占的比重??梢姳境闃拥脑O(shè)計效應(yīng)小于1,說明設(shè)計效率高于不放回的簡單隨機抽樣。
綜上,本抽樣方案總樣本需求個數(shù)在1500左右,符合西安煙草發(fā)展1500戶樣本的需求,故設(shè)定為1500;同時抽樣誤差控制在2%,顯著低于省級文件要求的3%。
2.3 樣本分配
確定樣本總量后,筆者將樣本等比例分配至各樣本框。抽樣框1(中心城區(qū))需要抽出956個樣本。
從銷售部門來看,見表5。
從檔位來看,見表6。
抽樣框2(非中心城區(qū))需要抽出553個樣本。從銷售部門的分布來看,見表7。
從檔位的分布來看,見表8。
2.4 事前控制
事前控制的目的是在選點前進行數(shù)據(jù)測算,確保所選樣本點的個體對整體市場具有代表性及可操作性。
2.4.1 卡方檢驗
卡方檢驗是非參數(shù)檢驗的一種,可以統(tǒng)計樣本的實際觀測值和理論推斷值之間的偏離程度,如果卡方值越大,則兩者的偏差程度越大,反之則越小??ǚ綑z驗可以幫助選出與總體差異最小的樣本,常用于分層抽樣結(jié)果的檢驗[5]。
首先提出檢驗的原假設(shè)和備選假設(shè):
原假設(shè):該客戶與該區(qū)域總體客戶訂購量,在半年與價類的分布保持一致。
備選假設(shè):該客戶與該區(qū)域總體客戶訂購量,在半年與價類的分布保持不一致。
卡方值表達式為:
其中,q代表的是每個客戶的訂購量的歸一化值,Q代表的是每個區(qū)域×合并檔位的總銷售情況的歸一化值,卡方值度量了每個客戶的銷售情況與其所在區(qū)域×合并檔位的訂購量差異大小。
χ20.95是常用的95%置信區(qū)間的卡方分布臨界值,當計算出來的卡方值小于χ20.95(k-1),則在統(tǒng)計學(xué)意義上可以接受原假設(shè)。在本方案中,自由度k指代訂購的煙類計數(shù)。
以未央?yún)^(qū)2檔位為例,其每個店鋪一共只有1-3類煙,自由度為2,卡方臨界值為0.102587。未央?yún)^(qū)2檔位應(yīng)抽取12個樣本,挑選卡方最低的前12個非新店鋪,其卡方值都小于臨界值,即證明試抽的樣本店與區(qū)域×檔位總體的訂購量分布是一致的。
2.4.2 樣本位置分布指數(shù)檢驗
為了保證抽取的樣本店鋪在地理位置上分布合理,利于客戶經(jīng)理進行實地操作,還需要進行經(jīng)緯度分布的檢驗。
筆者通過觀察店鋪經(jīng)緯度散點圖來直觀判斷,但為了定量判斷位置分布的一致性,仍需要繼續(xù)計算樣本分布指數(shù)。這里引入矩量母函數(shù)(mgf)的概念。mgf值對分布有唯一代表性,當mgf值相等時,這兩個分布也相等。通過這個原理,就可以簡單的利用二階矩來進行檢驗[6]。
定義一個隨機變量X的二階距中心距為:
可以看到,二階距就是X的方差。只需要比較抽樣的樣本和總體的經(jīng)緯度的方差-協(xié)方差矩陣,即可判斷兩者的位置分布是否大致相近。
某區(qū)域經(jīng)度方差=∑i(經(jīng)度i-某區(qū)域經(jīng)度的均值)2某區(qū)域店鋪的個數(shù)-1
某區(qū)域緯度方差=∑i(緯度i-某區(qū)域緯度的均值)2某區(qū)域店鋪的個數(shù)-1
某區(qū)域經(jīng)緯度協(xié)方差=∑i(經(jīng)度i-某區(qū)域經(jīng)度的均值)(緯度i-某區(qū)域緯度的均值)某區(qū)域店鋪的個數(shù)-1
由此,繼續(xù)計算樣本分布指數(shù):
總體與樣本的經(jīng)度誤差=總體經(jīng)度方差-樣本經(jīng)度方差總體經(jīng)度方差
總體與樣本的緯度誤差=總體緯度方差-樣本緯度方差總體緯度方差
總體與樣本的經(jīng)緯度協(xié)方差誤差=總體經(jīng)緯度協(xié)方差-樣本經(jīng)緯度協(xié)方差總體經(jīng)緯度協(xié)方差
樣本分布指數(shù)=總體與樣本的經(jīng)度誤差+總體與樣本的緯度誤差+總體與樣本的經(jīng)緯度協(xié)方差誤差3
最終,筆者得到了每個區(qū)域的經(jīng)緯度坐標的方差-協(xié)方差矩陣和樣本分布指數(shù),并發(fā)現(xiàn)其均小于100%。再結(jié)合每個區(qū)域的店鋪散點圖,可認為抽取的樣本店鋪位置分布大致符合原本店鋪的位置分布情況。
2.5 樣本推總
2.5.1 推總方法
采用分層抽樣后,整體零售店鋪可以按區(qū)縣分公司×合并檔位這兩個維度進行劃分。每一個區(qū)縣分公司×合并檔位,通常將其定義為一個MBD,其中包含的若干店鋪的總訂購量推總可由其中的樣本訂購量除以樣本比例得到。
在表9中,實際訂購量是新城區(qū)所有店鋪的總訂購量,誤差=(推總訂購量-實際訂購量)/實際訂購量。在誤差較低時,可認為抽取的樣本店與總體訂購量情況一致。所得推總步驟如下。
(1)算出每個區(qū)域×合并檔位的實際樣本比例:
樣本比例=此區(qū)域×合并檔位的樣本店鋪數(shù)量此區(qū)域×合并檔位總體店鋪數(shù)
(2)總區(qū)域×合并檔位的零售銷量,其中N是某區(qū)域×合并檔位的樣本數(shù):
推總的某區(qū)域×合并檔位的總體零售銷量=∑Ni樣本店鋪i的零售銷量樣本比例
(3)推總某區(qū)域的零售銷量,其中n是某區(qū)域內(nèi)合并檔位的個數(shù):
推總的某區(qū)域零售銷量=∑ni某區(qū)域×合并檔位i的零售銷量
(4)推總西安市總體店鋪的零售銷量:
推總的西安市零售銷量=∑14i區(qū)域i的零售銷量
2.5.2 最細統(tǒng)計顆粒度
由于受到樣本個數(shù)的限制,并非每一個MBD推總時都擁有足夠的樣本點。當MBD中樣本個數(shù)較低時,該MBD的推估結(jié)果將不具有統(tǒng)計意義。在當前樣本量級的基礎(chǔ)上可以接受的最細顆粒度為:區(qū)縣分公司×合并檔位。
2.6 樣本更新和退出邏輯
從數(shù)據(jù)來源穩(wěn)定性出發(fā),樣本來源最好保持穩(wěn)定,但由于卷煙銷售是一個動態(tài)過程,為了獲取市場的最新情況,建議樣本一年刷新一次,或根據(jù)實際執(zhí)行情況反饋判定。
在一年之中,如果抽中的樣本店鋪經(jīng)營異常,如關(guān)店、不配合數(shù)據(jù)采集,應(yīng)該查詢本年度制定抽樣方案時,該店鋪所在的區(qū)域×合并檔位的未抽中店鋪,按照卡方值從小到大的原則,選擇卡方值最小的1個店鋪作為替代樣本。
3 結(jié)論
高質(zhì)量的數(shù)據(jù)是高質(zhì)量分析的保證,在了解西安煙草當前樣本門店選取和省級信息采集示范方案后,制定了當前的分層抽樣方案,在可操作的前提下,有效提升了樣本選擇的代表性、覆蓋面和準確性。該方案緊扣西安煙草當前數(shù)據(jù)執(zhí)行現(xiàn)狀,通過應(yīng)用分層抽樣算法,控制門店抽樣誤差率在2%,相比省級文件要求的3%誤差率,提升了門店抽樣準確率。另外通過對樣本進行訂購量結(jié)構(gòu)、地理坐標位置驗證,確保樣本代表性及可操作性。
考慮到西安煙草目前使用樣本門店銷售數(shù)據(jù)進行市場銷售狀況還原,科學(xué)樣本點選取可以提升市場還原精度,最大程度地復(fù)現(xiàn)市場卷煙營銷現(xiàn)狀,服務(wù)后續(xù)市場營銷指標分析。
參考文獻:
[1]王煒.精益管理理念在煙草專賣市場監(jiān)管的應(yīng)用研究[J].現(xiàn)代商貿(mào)工業(yè),2019,40(29):118-119.
[2]方文玉. 抽樣技術(shù)在煙草需求量調(diào)查中的應(yīng)用[J].市場統(tǒng)計與信息, 2000(8):12-14.
[3]劉愛芹, 吳玉香. 分層抽樣中樣本量的分配方法研究[J].山東財政學(xué)院學(xué)報, 2007(4):49-53.
[4]L.基什.抽樣調(diào)查[M].倪加勛,譯.北京:中國統(tǒng)計出版社,1997.
[5]陳子玥,譚銀亮,石芳慧,等. 上海市大學(xué)生電子煙和卷煙的使用現(xiàn)狀及其影響因素[J].環(huán)境與職業(yè)醫(yī)學(xué),2020(8).
[6]劉文. 隨機條件概率的一個極限性質(zhì)與條件矩母函數(shù)方法[J].應(yīng)用數(shù)學(xué)學(xué)報,2000, 23(2):275-279.
[作者簡介]劉佳,女,漢族,陜西西安人,碩士研究生,工程師,現(xiàn)就職于陜西省煙草公司西安市公司信息中心,研究方向:通信與信息系統(tǒng)、網(wǎng)絡(luò)安全與信息化。