凌雪岷
(安徽新華學院 通識教育部,安徽 合肥 230088)
隨著互聯網普及率的提高以及web2.0時代網絡虛擬產品交易的興起,眾包的電子商務模式得到了廣泛的運用并占據了越來越重要的市場地位.“拍照賺錢”是企業(yè)用移動互聯網下的自助式服務模式,用戶則通過提供商業(yè)調查和信息搜集的數據來獲取相應的任務報酬.這種新穎的調查方式比傳統(tǒng)的方式節(jié)省了調查成本且更加有效,但定價不合理,任務完成率降低,往往會導致商品檢查的失敗.為了設計出合理定價方案,本文根據已完成任務的相關數據[1],運用K-means算法,初步觀測定價大致的分布規(guī)律,采用兩種方法建立了不同位置的任務定價模型[2,3].
通過對文獻[1]附件1中任務的定價與任務位置,用spss進行初步分析,發(fā)現在區(qū)域中心位置上任務標價比較低,然后以逐漸遞增的方式向邊緣擴散.
選取4個區(qū)域,將這些任務位置對應于地圖上,發(fā)現其對應4個城市,分別是廣州、深圳、佛山和東莞,再運用K-means算法對每一個區(qū)域找出它們的中心.因此,對于附件1中給出的樣本數據,對廣東地區(qū)中的所有樣本做方差,以及同一區(qū)域所有樣本間的距離均值為R,初步把選擇位于樣本分布密集區(qū)域,且相距較遠的樣本為K-means的初始聚類中心.最初的選擇過程為:
(1)選擇方差最小的那個樣本為第一個類簇的初始中心,以R為半徑做圓;
(2)在圓之外的樣本中,尋找方差最小的樣本作為第二個類簇的初始中心,直到第k個類簇的初始中心選擇到.
此時,得到了K-means算法的初始聚類中心向量,其他3個區(qū)域以此類推,以下用距離來度量樣品之間的相似性程度.
圖1 任務定價分布圖
假設待聚類數據集為:x={xi|xi∈RP,i=1,2,…,n},k個初始聚類中心分別為C1,C2,…,Ck,用A1,A2,…,Ak表示k個類簇所包含的樣本的集合為A.定義:樣本xi,xj之間的歐氏距離為
(1)
樣本xi到所有樣本的距離的平均值為:
(2)
則樣本xi的方差為:
(3)
那么有數據集樣本的平均距離為:
(4)
這樣,找到聚類誤差平方和公式:
(5)
確定其算法的步驟:
(6)
A=A-A1
(7)
A=A-Ac
否則,找到k個初始聚類中心C1,C2,…,Ck轉入步驟b.
②構造初始劃分:a.根據(1)計算數據集中每個樣本到各個初始聚類中心的距離,根據相似性原理將樣本分配到距離最近,即最相似的類簇中,得到初始劃分;b.計算每一個類簇中所有樣本的均值,作為該類簇的新中心;c.根據(5)計算當前聚類結果的聚類誤差平方和E;
③ 重新分配樣本并更新聚類中心:a.根據(1)計算數據集中每個樣本到各個類簇中心的距離,根據相似性原理將樣本分配到距離最近的類簇中;b.計算每一個類簇中所有樣本的均值,作為該類簇的新中心;c.根據定義5計算當前聚類結果的聚類誤差平方和E′;d.如果E′-E<10-10,即聚類中心不再變化,則算法結束,輸出聚類結果.否則,令E′=E,轉向步驟③.
將樣本數據代入,觀察數據集的大致情況.發(fā)現可以用曲線擬合來判定位置與定價的關系,于是對某區(qū)域中價格最低的點的位置取一個均值(記為r),將任務定價記為W,可以模擬出一個關于(r,W)的二次曲線.有
W=a+br+qr2
(8)
圖2 位置與定價關系曲線模擬圖
從任務位置中任意選取100個,用計算器來近似確定a,b,q的值.
a=39.037 7,b=5.756 6,q=65.809 0
得到W=39.037 7+5.756 6r+65.809 0r2,則得出了任務定價的一般規(guī)律,即:以(23.125 35,113.298 9)為任務定價中心,周圍定價與其到該中心位置的距離滿足上述二次函數關系,驗證了剛開始觀測到的現象.將k-means算法與任務定價位置一一對應起來.
將定價為65的點的位置取均值記為o,定價為66 的點作為一類,取這些點位置的平均值記為o1,再記這個平均值點到o點的距離為r1.再對定價為67的點作為集合取平均值記為o2,到o點的距離為r2.當r2>r1時,將其納入定價為67的集合; 當r2≤r1時,將其歸入定價為66 的分類中.再對定價為68的點作為一個集合取其位置的平均值記為o3,到o點的距離為r3.當r3>r2時,將其納入定價為68的集合中,保持不變; 當r3≤r2時,將其納入定價為67 的集合中.后該定價以此類推,直到定價為85的點.
對于區(qū)域,各點定價按遞增方式排列m0 ① 查找定價為m0元的點,得到(α01,β01),(α02,β02),…,(α0k0,β0k0),記 (10) (11) 得(α0,β0),認定該點為該區(qū)域中心; ② 查找定價為m1元的點,得到(α11,β11),(α12,β12),…,(α1k1,β1k1),記 (12) ③ 查找定價為m2元的點,得到(α21,β21),(α22,β22),…,(α2k2,β2k2),記 (13) ○n 查找定價為mn元的點,得到(αn1,βn1),(αn2,βn2),…,(αnkn,βnkn),記 (14) 圖3 價格與完成率關系圖 (15) (16) (17) 其中 (18) 注1 插入價格與任務完成情況線性關系的圖片來反映價格越高完成率越高. 未完成的任務多集中在深圳和廣州(見圖4),這是因為: 圖4 完成與未完成任務分布圖 ① 城市中心任務定價低于邊緣,定價本身沒有滿足接包方的要求; ② 考慮到是交通擁擠、物價水平高,任務完成過程中接包方對于信息取材所花費的成本與心中期望值有落差,導致有些任務沒有被接手; ③ 任務難度較大,不易完成; ④ 任務復雜性較大,完成過程過于繁瑣; ⑤ 部分接包方馬虎對工作不夠認真,導致任務無法完成. 對文獻[1]中的位置與完成度圖進行觀察和分析后發(fā)現,未完成的任務多數集中在深圳、廣州較中心地區(qū). 圖5 任務完成與會員分布情況 圖6 任務與價格情況 以附件二中會員的位置為考量,將會員位置與完成及未完成的位置進行一個散點分析.發(fā)現有些地區(qū)附近會員雖然很少、路程遠,但還是被完成了.而有些是會員離任務很近卻沒有完成,還有一些是比較大眾的情況,任務多會員多,但還是沒有完成.這其中,就考慮那些路程遠、附近會員少,已完成的是不是任務的定價比較高、任務比較簡單?而任務多、會員多,沒有完成的是不是與任務定價低有關呢?而恰巧這些區(qū)域是在經濟發(fā)達的東莞、廣州,交通擁擠、物價過高造成會員投入成本的增加也成了考慮的一個因素.帶著前面兩個問題,對照著任務定價的分布位置進行分析,發(fā)現有以下特征: ① 在會員比較集中的地方多是任務價格低區(qū),任務未完成; ② 在會員比較集中的位置有些任務定價高的也沒有完成; ③ 在一些會員比較少、距離任務近的位置定價高的也沒有完成; ④ 在一些會員少、距離較遠,定價或低或高均被完成. 圖7 未完成任務與會員位置 圖8 任務完成情況與信譽高會員情況 圖9 已完成任務與會員位置情況 這在很大程度上印證了之前的猜想,任務未完成與交通擁擠造成會員投入成本的增加使得任務標價與其心中期望值不吻合,造成未完成率的升高.再將附件二中信譽高的會員與完成情況作分析,發(fā)現靠近深圳與東莞的那一大片區(qū)域,雖然有許多信譽高的會員,但是任務未完成率還是很高;在東莞中心區(qū)域,信譽高的會員雖然比較少,但是任務完成情況非??捎^;而在廣州一些中心區(qū)域,許多信譽高的會員周邊任務也沒有完成.因此在對比這會員的已完成情況來分析綜合得出: ① 信譽高的會員的完成情況與會員的已完成情況基本吻合,說明信譽高的會員執(zhí)行能力高,任務完成度高; ② 對于深圳與東莞的那部分區(qū)域完成率低的原因應該是任務難度大、任務比較復雜,對比著任務定價來看,這一塊的定價普遍不高. 由上述附件一與附件二數據的整合分析.針對問題一解決方案的不足,設計一種改進方案,綜合考慮了會員位置與任務完成情況的影響和人口稠密地區(qū)經濟較發(fā)達、交通堵塞等造成會員拍照成本較高情況這兩個方面,建立相關模型關系.設會員總數為S1,(ξg,ηg),表示第g個會員的位置.(γk,τk)表示第k個任務點的位置,對應的任務定價為Mk,設任務點為S2個,(k=1,2,…,S2),設會員到任務點的位置為 (19) (20) (21) 與原方案進行比較分析:新方案中對一些任務集中且會員集中情況下任務定價過高,進行了消減,對一些離會員比較遠、任務定價低的點進行舍棄.通過這兩種手段節(jié)省的資金用作會員集中因任務定價比較低導致任務未完成的資金補貼,以此來提高任務的完成率. 微量隨機舍棄算法另外,也可以對會員集中且任務未完成集中的區(qū)域隨機刪去某些任務點,通過這種方式籌集流動資金用以對別的未完成任務的定價提高上,用計算機模擬結果,一定程度上提高完成率,即微量隨機舍棄算法. 表1 價格與完成率情況表 注3 ① 這里的P1是根據65元完成的任務率計算的; ② 這里的P2是根據85元完成的任務率計算的; ③ 大概提高了6個百分點. 本文根據已知項目數據給出兩種定價方案:即以位置偏差為變量,建立偏差與任務定價之間的函數關系和采用倒推方法給出任務定價規(guī)律,并在此基礎上提出微量隨機舍棄算法,在一定程度上提高了任務完成率,但城市人口擁擠如何量化等還需要更進一步的研究優(yōu)化.1.5 分析任務未完成原因
2 定價模型建立與求解
2.1 分析
2.2 模型的建立與求解
3 結 語