摘要:現場促銷是促進業(yè)務發(fā)展的重要方式之一。但是基于促銷的圖片進行酬金結算涉及到很多問題,例如促銷經緯度、促銷圖片、促銷時長是否符合要求等,基于人工稽核將是非常繁瑣的過程?;诖?,提出了基于面向渠道促銷場景多維分析的方法研究,大幅提升稽核效率,促進業(yè)務健康發(fā)展。
一、引言
每個流通企業(yè)都有自己渠道促銷的手段,其核心點也大同小異。在產品嚴重同質化、促銷手段也大體類同的情況下,有效的促銷策略顯得非常重要,畢竟,從產品的本質和市場上來看,還有季節(jié)性、地域性等等之分。目前家寬發(fā)展已經到了同質化競爭的階段,用戶對資費的敏感度下降了,如何打造優(yōu)質的售后服務,才是保持競爭力的有力手段。公司通過下達任務,讓渠道點完成一定數量場次的促銷活動,同時也會結算相應的酬金,但是如何避免渠道虛假促銷,這就是本項目研究的重點工作了。
二、現有稽核技術的缺點
目前的圖片稽核技術方案采用的是直方圖算法。直方圖能夠描述一幅圖像中顏色的全局分布,而且容易理解和實現,所以入門級的圖像相似度計算都是使用它的。
直方圖算法是對源圖像與要篩選的圖像進行直方圖數據采集,對采集的各自圖像直方圖進行歸一化再使用巴氏系數算法對直方圖數據進行計算,最終得出圖像相似度值,其值范圍在[0,1]之間0表示極其不同,1表示極其相似(相同)。
算法步驟大致可以分為兩步,根據源圖像與候選圖像的像素數據,生成各自直方圖數據。第二步:使用第一步輸出的直方圖結果,運用巴氏系數(Bhattacharyya coefficient)算法,計算出相似程度值。
現有的技術方案是根據兩個圖像的直方圖數據來計算相似度值,直方圖反應的是圖像灰度值得概率分布,并沒有圖像的空間位置信息在里面,因此,會出現誤判;比如紋理結構相同,但明暗不同的圖像,應該相似度很高,但實際結果是相似度很低,而紋理結構不同,但明暗相近的圖像,相似度卻很高。
為了解決這一問題,本技術方案采用的是孿生神經網絡模型,可以提取圖像的局部特征變量,從全局的角度進行綜合比較,Siamese Network有兩個結構相同,且共享權值的子網絡。分別接收兩個輸入X1與X2,將其轉換為向量Gw(X1)與Gw(X2),再通過某種距離度量的方式計算兩個輸出向量的距離Ew。這種方式可以克服圖像明暗度不同造成的誤判,提高了相似度計算的準確性。
同時構建全方位、多層次的稽核方式,能夠更好的識別渠道是否虛假促銷。具體如下:
三、構建多層次立體化審核體系
1、構建圖像識別模塊
孿生神經網絡(Siamese Network)是一種特殊類型的神經網絡架構,是一種相似性度量的方法。與一個學習對其輸入進行分類的模型不同,孿生神經網絡學習在兩個輸入中進行區(qū)分,從數據中去學習一個相似性的度量。孿生網絡由兩個完全相同的神經網絡組成,每個都輸入一個圖像,然后依次饋送到卷積層、池化層和全連接層,最后輸出一個特征向量到對比損失函數中,來計算兩個圖像之間的相似度。孿生神經網絡可廣泛用于簽名驗證、人臉識別等領域。網絡結構如下:
caffe的孿生神經網絡采用的損失函數(Contrastive Loss function)是
其中:
① Ew被定義為姐妹孿生網絡輸出之間的歐氏距離(euclidean distance),Gw是其中一個姐妹網絡的輸出,X1和X2是輸入數據對。
② Y值為1或0:如果模型預測輸入是相似的,那么Y的值為0,否則Y為1。
③ m是閾值。
我們通過以下方式來理解一下損失函數:①當輸入圖像相似時,歐式距離越大,損失值越大;②當輸入圖像不同時,歐式距離越小,損失值越大,而歐式距離大于某個閾值m后將不再產生損失。
1.1、制作數據集
1.1.1、我們從系統(tǒng)上的促銷工單中批量導出圖像,然后對這些圖片進行分類,將相似的圖片分成一組,不相似的歸為另一組,共制作100對樣本。
1.1.2、讀取數據,劃分輸入數據集(圖片信息列)和輸出數據集(label列),同時劃分訓練集和測試集
1.2、搭建孿生神經網絡模型
1.2.1、對圖像進行灰度化處理
1.2.2、調整輸入圖像為100*100,同時接受2張圖片作為輸入。
1.2.3、子網絡包括3個卷積層和3個全連接層,卷積層的卷積核大小分別為3,3,3,每一個卷積層后均添加一個批量歸一化層。歸一化的引入是為了減少internal covariatie shift現象,其具體表現是在訓 練深層網絡的過程中,前面層參數的變化會影響后面每層的參數分布,導致了訓練時只能選用較低的學習速率以及小心謹慎的參數初始化。而Batch Normalization層(BN)的引入允許我們使用更高的學習率以及不用太擔心參數初始化的問題。
1.3、自定義損失函數
在孿生神經網絡(siamese network)中,其采用的損失函數是contrastive loss,這種損失函數可以有效的處理孿生神經網絡中的paired data的關系。
W代表兩個樣本特征X1和X2的歐氏距離(二范數),P 表示樣本的特征維數,Y 為兩個樣本是否匹配的標簽,Y=0 代表兩個樣本相似或者匹配,Y=1 則代表不匹配,m 為設定的閾值,N 為樣本個數。
1.4、模型訓練
1.4.1、讀取訓練集的數據,定義圖像dataset,生成8維的圖像數據。
1.4.2、實例化模型,設置學習率,定義優(yōu)化器,lr設置為0.0005,訓練100輪。
1.4.3、保存訓練好的模型,下次加載模型即可直接使用,不需要再次訓練。
1.5、圖片預測
1.5.1、輸入2張測試集的圖片,進行實際的預測。
2、構建經緯度距離審核模塊。
2.1 在距離計算方面,采取了原始數據分離抽取的技術,單獨將每一個促銷地點的經度和緯度分離出來,然后再利用距離計算函數(利用sin和cos函數進行球面弧長的計算)進行經緯度的計算,根據業(yè)務規(guī)則進行下一步的判斷,輸出不符合要求的促銷工單號,進行退單處理。
2.2 提單密集度檢測:
(1)根據執(zhí)行人所屬單位名稱、日期輸出分組數據
(2)根據分組后的結果,對于統(tǒng)計數據大于等于6的進行二次分析,先對每一組按照時間進行升序排序,然后
判斷第一個時間與第六個時間是否在10分鐘以內,如果是的話就判斷第一個與第七個是否在10分鐘以內,以此類推,
直到將第一個10分鐘以內提交的單搜索出來。然后繼續(xù)下一輪判斷
(3)遍歷所有的分組后,將不合規(guī)的工單編號輸出,進行進一步的審核。
3、構建軌跡分析模塊
根據渠道進行聚類分析,抽取出對應的渠道名稱、經度、緯度等信息,設置定位的中心點,然后將該渠道對應的所有經緯度可視化在地圖上,并繪制軌跡圖。
通過距離判斷,可以對可疑的渠道進行深入分析,探索是否出現不合理的促銷地點,如活動距離遠遠超過促銷的平均距離,則可判斷該促銷異常,需做進一步的核實處理。
4、構建數據可視化模塊。
根據統(tǒng)計出來的數據,經過進一步的處理,通過可視化技術顯示在數據大屏上,方便進一步做分析處理。主要包括以下幾個子模塊。
4.1 每日執(zhí)行單量統(tǒng)計圖,根據執(zhí)行日期和發(fā)布日期,統(tǒng)計單日的工單量,通過散點圖的方式繪制圖形,并輔助以氣泡圖的形式形象的表示單量的多少。
4.2 各縣促銷場次分布圖,從全量列表中分析出各縣的促銷場次,并用地圖的方式來展現數據,輔助以顏色區(qū)間對數量做映射。
4.3 各類網點促銷情況圖,各類網點的等級和規(guī)模大小不一,因此開展的促銷場次也有較大的差異,通過餅圖的方式來展現各類網點的分布情況。
4.4 網格促銷情況圖,通過直方圖的方式可以很直觀地看到各個網格的促銷情況,以便根據實際需要做進一步調整。
4.5 現場促銷反饋詞云圖,每場促銷都會將當次的促銷情況用文字的方式進行反饋,但是這種方式不太直觀,不能很好的了解整體的促銷情況。根據文字生成詞云圖,可以大體的了解促銷中反饋的問題情況,反饋問題越多的詞語將會突出顯示,便于管理員抓住重點問題進行整改。
4.6 個人促銷數量排行榜,以上都是針對一個群體進行統(tǒng)計分析的,該模塊是針對個人的一個統(tǒng)計情況,根據個人促銷場次的統(tǒng)計數量,并排序輸出,可以明顯的看到促銷較為積極的人員。
5、視圖探索
根據圖片審核結果,依照文件路徑進行可視化展示,將對應的兩張圖片顯示在軟件上,避免了手工查找圖片和比對的繁瑣流程。
操作步驟:5.1、點擊初始化,將所有不符合的組合重新編排,錄入到系統(tǒng)中。
5.2、通過查看圖片,或者點擊上一組、下一組快速比對圖片。
5.3、對于人工審核確實不符合條件的工單編號錄入系統(tǒng),導出到本地電腦,便于后續(xù)退單處理。
6、數據和圖像處理模塊。
6.1通過pandas來進行excel數據的處理,包括從excel數據加載到系統(tǒng)中,并且對日期、經緯度等字段進行切片處理,提取出有用的信息,同時對缺失值、異常值進行檢測和處理,同時根據渠道點進行匯總統(tǒng)計,排序和篩選,進一步清洗數據,保證 系統(tǒng)接收到的是可以正常使用的數據。
6.2、圖像URL下載模塊。
首先從系統(tǒng)中批量獲取圖片的URL地址,然后放入循環(huán)體中進行逐一解析,獲取響應數據并將數據存儲在本地。由于下載的數據是一個壓縮包,因此還需要進行解壓操作,便于系統(tǒng)讀取數據,節(jié)約了人工解壓的時間。
四、總結
該項目采用孿生神經網絡深度學習模型,孿生神經網絡(Siamese network)就是“連體的神經網絡”,神經網絡的“連體”是通過共享權值來實現的。所謂權值共享就是當神經網絡有兩個輸入的時候,這兩個輸入使用的神經網絡的權值是共享的(可以理解為使用了同一個神經網絡)。
創(chuàng)新點總結如下:
一、首次將孿生神經網絡應用于圖像識別,解決了樣本量少的模型訓練問題
二、改進排列組合算法,采用渠道點為核心的新算法,減少90%的計算量
三、開發(fā)了熱力圖和軌跡圖展示模塊,相比傳統(tǒng)的圖表展示方式,更加直觀地查看促銷點的分布和異常促銷情況
通過對模型的數據采集、建模分析等,建立了一整套完整的體系,能夠對渠道虛假促銷場景進行精準識別,有力規(guī)避了渠道虛假套利現象,為公司的業(yè)務健康發(fā)展提供了有力保障。
作者簡介:曾劍明,籍貫:廣東省梅州市,廣東移動梅州分公司,系統(tǒng)維護管理,高級工程師,大學本科,人工智能與軟件開發(fā)。