王圣鳴 楊文國 陳燕 劉東陽
摘 要:“拍照賺錢”本質上是一種新興的基于移動互聯(lián)網的自助式勞務眾包模式。本文選取計算任務點與最近會員的距離、周圍會員數、任務聚集程度等指標,并通過多元逐步回歸,得出定價與上述因素的關系,進而通過Logistic回歸,得出任務完成情況和各指標的關系模型;再用層次分析法對建立的各項指標建立3個判斷矩陣和3個對應的定價模型,并以提高任務完成概率、降低平臺出價總和為依據,最終采用的打包方案是按編號順序,確定一個任務位置的圓心和半徑,將圓內出現的各任務,視為一個打包發(fā)布,以包內所有坐標的均值表示其經緯度坐標。
關鍵詞:逐步回歸 Logistic回歸 層次分析法 功效系數法
中圖分類號:F71 文獻標識碼:A 文章編號:1672-3791(2018)06(a)-0244-05
“拍照賺錢”是移動互聯(lián)網下的一種自助式服務模式,實際上是一種新興的基于移動互聯(lián)網的自助式勞務眾包模式,它能夠為企業(yè)提供各種商業(yè)檢查和信息搜集,且相比傳統(tǒng)的市場調查方式可以大大節(jié)省調查成本,并有效地保證了調查數據的真實性,縮短調查的周期。因此APP成為該平臺運行的核心,而APP中的任務定價又是其核心要素。如果定價不合理,有的任務就會無人問津,而導致商品檢查的失敗。本文主要解決定價機制問題。
1 模型的假設及符號的使用
1.1 模型的假設(本論文基于2017年全國大學生數學建模B題而作,附件是B題所連帶的。)
假設附件二中,會員的經緯度信息是附件一中任務發(fā)布時刻的經緯度。
假設附件三中,任務發(fā)布時會員的經緯度等信息不發(fā)生改變,和附件二相同。
假設交通、天氣等環(huán)境因素和社交因素對會員選擇任務干擾性很小,可以忽略。
假設每個會員拍照任務的復雜程度相同。
1.2 符號的使用及說明
為處理問題方便,將文中常用量設置符號如表1所示。
2 模型的準備
根據Google地圖提供的公式模型,通過兩地經緯度來確定其直線距離,見公式(1):
⑴
其中,、表示第一、二個點的緯度,、表示第一、二個點的經度,6378.137表示地球半徑(單位:km)。下文涉及到求兩點距離的,均使用該公式,其誤差不超過0.2m,滿足本題的要求。
3 問題的求解
為處理問題方便,將文中常用量設置符號如表1所示。
3.1 問題1
任務的定價是一個系統(tǒng)性的問題,單純研究附件一中任務的地理位置過于簡單,利用附件一、二提供的信息,找出以下相關關系:任務點與距離其最近會員之間的距離、任務的聚集程度、周圍會員數、任務點周圍會員的信譽均值。再從這些因素中,分析研究定價規(guī)律。
3.1.1 周圍會員數的計算
首先定義周圍人數:對每個會員而言,都有距離其最近的一個任務地點可選擇,每當一個任務點成為一個會員最近的任務點,該任務點附近的會員數就累加1,直到該任務點對任何會員都不是最近任務點為止,最終累加形成的值即周圍會員人數,見公式⑵。
, (2)
且當時,;當時,,其中:表示第個任務點到第個會員的距離,表示會員到所有任務點的最短距離。
3.1.2 任務點與距其距離最近的會員之間的距離
表示第個任務到第個會員的直線距。表示附件一給出的各任務點的任務號碼,在[1,835]中取整;表示附件二給出的各個會員的會員號碼,在[1,1877]中取整;求解第個任務點與距離其最近的會員之間的距離, 并將結果存在835行1列的矩陣中,公式表示見公式⑶(其中:且):
,
(3)
3.1.3 任務聚集程度
發(fā)布的任務集中或分散,當某任務與其他任務較分散時,說明其位置偏僻,此時定價,若和任務相對聚集處任務的價格相似,就可能很難吸引會員前來完成。因而,以任務聚集程度來表示任務的這種空間分布特征。
原理:選定一個任務作為原點,劃定一個距離(單位:km)作為半徑,計算周邊其他任務的個數,見公⑷。
, (4)
且當時,;當時,,其中表示第個任務點到第個任務點的直線距離。
顯然的取值會嚴重影響每個任務點對應該值的大小,因而在后續(xù)編程計算時,我們會多次取值。為更好地理解該變量,我們令,其中表示人的行動速度,單位為。通過對進行不同的取值,可以得到不同的半徑范圍。事實上,人的行動速度不可能過快,根據資料,我們將的范圍限定為,即V8到V23。
3.1.4 周邊會員信譽度
根據會員人群在任務的周邊密集程度,對每個任務點同所有會員的坐標進行匹配,利用距離公式,以同一任務為中心,利用sort()函數對所有會員進行距離升序處理,將最近、次近等會員歸類,求出會員的信譽度均值。在進行后續(xù)步驟前,我們還分別計算了周邊5~20個會員的信譽度均值,即均5~均20。
3.1.5 建立多元線性的逐步回歸模型并發(fā)現定價規(guī)律
在本題中, 我們希望從對因變量y有影響的諸多變量中,選擇全部或者一部分變量作為自變量, 應用多元回歸分析的方法建立“最優(yōu)”回歸方程,以便預報或控制因變量。
在研究定價規(guī)律的這部分中,因變量即任務標價,可能影響定價的因素即前文提及的四個主要因素和不同取值(包括v不同取值下的任務聚集程度等)。通過Spss軟件可以很快得出系數并進行檢驗,結果見表2。
四個指標都通過了檢驗,由此得到附件一中定價規(guī)律適用的逐步回歸模型:
3.1.6 通過Logistic逐步回歸探究影響任務完成情況的因素
本題中的任務完成度為最典型的0-1二值因變量,可運用Logistic回歸模型,以附件一中任務完成度為因變量,4個指標和實際標價為解釋變量。因為四個特征值經過逐步回歸處理過,Logistic回歸時也應進行逐步處理。通過Spss軟件得出結果見表3。
⑴在步驟1中輸入的變量:周圍人數;⑵在步驟2中輸入的變量: 任務標價,得到Logistic回歸模型:
通過上述式子,不難發(fā)現任務完成情況與5個解釋變量中的周圍會員數成負相關,與價格成正相關。將附件一中完成度為1、0的數據分為兩組觀察結果,見表4。
表4中的數據大小差異與Logistic模型中解釋變量的系數正負相關一致,可以用于分析任務未完成的原因:(1)未完成的任務其定價較低;(2)未完成的任務其周圍的會員數較多;(3)可能會存在一些特殊情況,產生隨機誤差。
3.2 問題2定價模型的建立及比較
3.2.1 運用層次分析法建立定價模型
根據問題1的結果可以看到,從會員的角度來說,在任務發(fā)布后,該任務最終完成與否,只和該任務的定價及該任務地點周邊人數有關。任務周邊人數是隨著任務發(fā)布,由周邊會員地理信息位置直接決定的,定價則和商家的定價模型如何有關。因而定價的模型對任務完成與否有著重要影響,由此對已有的定價模型進行改進。
已有的模型實際上已經考慮到了前文的4個因素,我們通過層次分析法及其判斷矩陣,分別給四個因素賦予權重,通過∑權重·權數給定價格,并選出滿足“任務完成概率提高,且給出價格之和降低”的方案。根據前文,確立定價體系,見圖1。
構造判斷矩陣,構建矩陣時首先要明確兩個指標相比,誰比誰重要,由問題一的結論分析定下以下原則:周圍會員數和任務聚集程度同等重要且程度最高,最小距離的重要程度稍次,周邊會員的信譽度均值最次。由此可以構建3個判斷矩陣,如下所示:
通過運算后的結果見表5。
3.2.2 使用功效系數法對數據進行標準化
每個任務發(fā)布后,求出來的四個參數值的大小差異可能非常巨大,因此通過使用功效系數法,對每一個數據進都進行標準化,結果如下:
其中分別表示指標的最大值和最小值,此時取值范圍是[0,1],表示附件一中第個任務的標價。
3.2.3 定價模型的確立
將各個標準化后的指標值與其權重相乘求和,可以得出定價模型:
其中為指標的編號,取1,2,3,4依次表示周邊會員數、最小距離、任務聚集程度、周邊會員信譽度。
3.2.4 與原方案進行比較
由問題1得到完成情況的Logistic回歸模型:
Logistic回歸實質為發(fā)生概率除以沒有發(fā)生概率再取對數,可以將其進行l(wèi)ogit轉換:
,
得到第件任務完成的概率如上。
一般,以50%為界限,當>50%,判斷此時的任務完成情況更可能為1,用>50%的任務個數占總任務數比來表示不同定價方式下的任務完成情況,即有百分之多少的任務被完成的可能性在50%以上。某個定價方案被確定后,如果在此方案下,總的定價和小于附件一給出的定價總和,且任務完成概率高于附件一的完成度,則說明此方案優(yōu)于原方案,其具體情況見表6。
由表6結果發(fā)現矩陣下的定價方式>50%的任務數占比最高,且它的總定價最低,選取由矩陣構造的權重所組成的定價模型,新的定價方式為:
3.3 問題3的求解
圖2中十字星即表示任務,每個圈都是以一個任務為中心,根據標準劃分打包,一個圈里的任務群即最后打包成的一個任務。該思路以貪心算法為思路,每次選取此任務周圍最符合距離限制條件的任務進行打包。
注:有一個及以上表示此包內除選定的圓心點外,還有一個及以上的其他點,其他依此類推。
根據上述表7的數據分析可知,由不同的任務作為起始點、按照不同順序對任務進行依次分析對最后的結果雖有差距,但對得出的幾組未參與打包任務進行排序:723 689 681 656 655,其平均差值為17,平均數為680.8,出錯率為2.497%,在可接受范圍,則表明選取起始任務點與依次參與任務的順序對最后的結果無太大影響,可以忽視。最終我們選取按序號升序作為打包標準。
當某幾個任務被打包發(fā)布時,原則上就將這幾個任務看成是一個任務,此時根據原有的這幾個任務的經緯度,轉換為一個新的經緯度,以此表示這個被打包發(fā)布的任務的經緯度。轉換方法如下:
其中,表示第i組被打包發(fā)布任務的緯度和經度,表示第組中第個任務的緯度和經度,表示第組被打包的發(fā)布任務中包含的任務個數。
根據上述打包方法,并對每組的經緯度用上面的方法重新計算,可以得到一組新的任務排列,當定價通過定價模型確定后,再利用的logit轉化值,求出任務完成情況的概率,問題即得解見表8。
由表8結果發(fā)現矩陣下的定價方式>50%的任務數占比最高,且它的總定價最低,選取由矩陣構造的權重所組成的定價模型,新的定價方式為:
最終完成情況為,97.09%的任務被完成的可能性在50%以上,優(yōu)于第二問中的定價方案和原始定價方案。
3.4 問題4的求解
通過問題3的分析,可以發(fā)現將任務打包發(fā)布能夠明顯提高任務的完成情況。因此,將附件三中的任務也進行打包處理,其打包方法同問題3。
根據問題三打包方法,并對每組的經緯度用上面的方法重新計算,可以得到一組新的任務排列,當定價通過定價模型確定后,再利用的logit轉化值,求出任務完成情況的概率,問題即得解見表9。
由表9結果發(fā)現矩陣下的定價方式>50%的任務數占比最高,且它的總定價最低,選取由 矩陣構造的權重所組成的定價模型,新的定價方式為:
實施效果:
(1)此方案明顯提高任務的完成情況,所有的任務都有50%以上的可能性被完成。
(2)此方案價格控制的較為合理,在三個指標體系中價格最低。
4 模型的驗證
在問題1中得到定價規(guī)律模型后,代入每個任務的、、、值,可以反向計算出附件一中每個任務的理論定價,對理論定價和實際定價進行方差分析,得到結果見表10~表11。
P兩組數據無顯著差異,證明了問題1中的發(fā)現定價規(guī)律符合實際情況。
5 模型的改進
(1)利用“Google地球”,所有任務集中分布在廣州、東莞、佛山、深圳.在解決問題1時,可以在問題1中,我們將每個任務的經緯度按城市分成四類。按每個城市的經濟水平(如將四個城市2016年GDP總量,比值歸一化),設置一個新的參數,重新進行定價關于五個因素的多元逐步回歸和完成情況、關于六個因素的Logistic回歸,得到新的定價規(guī)律。
(2)關于附件二中提到的預定任務限額和預定任務開始時間,考慮到這兩個因素都是由會員信譽值參考得出的,所以選擇影響定價和完成概率的四個指標時,未納入預定任務限額和預定任務時間這兩個因素,僅考慮會員的信譽值。而實際情況中,不應只簡單地考慮信譽值,任務限額和開始時間也應進行分析。
參考文獻
[1] 劉震,吳廣.Spss統(tǒng)計分析和應用[M].北京:中國中醫(yī)藥出版社,2016.
[2] 劉仁權.Spss統(tǒng)計分析教程[M].北京:電子工業(yè)出版社, 2011.