曹陽 陳永當
【摘 要】隨著互聯(lián)網的飛速發(fā)展,網絡信息以指數形式爆炸式增長,大數據時代隨之到來,廣告形式也發(fā)生了變化,互聯(lián)網廣告的比重越來越大。本文采用聚類分析的方法研究了互聯(lián)網廣告定向精準投放問題,從而可以降低廣告成本,也可達到有效的宣傳效果。
【關鍵詞】聚類分析;互聯(lián)網廣告;精準廣告
Internet Advertising Based on Clustering Analysis
CAO Yang CHEN Yong-dang
(School of Mechanical&Electrical Engineering, Xian Polytechnic University, Xian Shaanxi 710048, China)
【Abstract】With the rapid development of the Internet,the network information in the form of index explosive growth. The era of big data to follow. Advertising forms have changed, too. The proportion of Internet advertising is bigger and bigger. This article adopts the method of cluster analysis studies the Internet advertising directed their problems, in order to decrease the cost of advertising, also can achieve effective publicity.
【Key words】Clustering analysis; Internet advertising; Precision advertising
1 研究背景與意義
近幾年來,互聯(lián)網爆炸式發(fā)展。據艾瑞咨詢研究調查,預計到2016年,中國網絡經濟的市場規(guī)模將達到13500億元?;ヂ?lián)網的快速發(fā)展,產生了海量數據,大數據時代隨之到來。2014年,中國大數據市場規(guī)模已達23億以上,并且以很高的速率增長,大數據中蘊含無限大的商機。
廣告是一種公開傳遞信息、具有一定目的的宣傳手段。廣告的媒體形式從報紙、雜志到廣播、電視再到互聯(lián)網。目前,互聯(lián)網廣告已經成為一種新的廣告投放模式,并且具有以下幾個顯著的優(yōu)勢:范圍廣、消耗少、易計量及靈活性強。因此互聯(lián)網廣告發(fā)展異常迅猛,已經成為僅次于電視廣告的第二大媒體廣告。
但是,隨著大數據時代的到來,傳統(tǒng)互聯(lián)網廣告投放的粗獷性和無指定性弊端越來越明顯,使得市場迫切需求一種精準的互聯(lián)網廣告,于是在此背景下誕生了一種新的廣告模式一大數據環(huán)境下的互聯(lián)網精準廣告。精準廣告將廣告內容與潛在受眾進行匹配,有針對性的進行廣告投放,這樣可以提高廣告的投放精準性。
2 聚類分析
數據挖掘技術是對未來人類產生重大影響的十大新興技術之一,聚類分析是數據挖掘中的一個功能。聚類就是將數據對象根據相似性劃分為若干個組或簇,同組相似性高,異組差異性大。與分類不同的是,聚類操作要劃分的類事先是未知的,類的形式完全是數據導向的,屬于一種無指導學習。聚類分析也看作是一種數學工具,像數據如何分布、數據的組成特征都可以通過它來獲取。傳統(tǒng)的統(tǒng)計聚類分析方法包括系統(tǒng)聚類法、分解法、加入法、動態(tài)聚類法、有序樣品聚類、重疊聚類和模糊聚類等。
聚類分析在數據挖掘中主要有以下幾個應用:①可以作為其他算法的預處理步驟;②可以作為一個獨立的工具來獲得數據的分布情況;③可以完成孤立點挖掘。
聚類分析的基本過程:選擇聚類變量→聚類分析→找出各類用戶的重要特征→聚類解釋、命名。
現在普遍的分類方法是用數據樣本間的距離對數據樣本分組。聚類分析中使用的數據集表示為X={xi|i=1,2,…,n},其中xi用d維特征向量xi=(xi1,xi2,…,xid)來表示,xik(k=1,2,…,d)分別對應d個描述屬性A1,A2,… ,Ad的具體值。描述屬性可以是連續(xù)型、離散型或者混合型的屬性。計算不同描述屬性的相似度的方法不同。像年齡、收入和距離這樣的屬性就是連續(xù)性的屬性,它們的取值是連續(xù)的。
普遍使用樣本間的距離描述樣本之間相似呈度。兩個樣本xi和xj之間的距離表示為d(xi,xj)。常用的距離有如下三種計算方式:
(1)歐氏距離
(2)曼哈頓距離
(3)明可夫斯基距離
以上三種距離滿足如下性質:
(1),即數據樣本之間的距離是非負值—最小性。
(2),即數據樣本與自身的距離為0,樣本與自身的相似性最大—自相似性。
(3),即數據樣本之間的距離是對稱的—對稱性。
(4),即數據樣本之間的距離滿足三角不等式的性質—三角不等性。
樣本的距離可以度量樣本之間的相異性。當距離的取值很小時,x和y相似;當距離的取值很大時,x和y相異。給距離設定一個閾值,小于閾值時可以看成一類,從而達成相似性聚類的目的。
3 廣告受眾的指向性
一種產品或服務只能滿足部分人的需求,因此產品或服務的廣告就有一定的目標受眾,不是所有人群都適合。我們可知廣告受眾據有這些特征:針對性、復雜性、多變性、集群性、自主性和互動性。如何從海量的人群中找出廣告的目標群體是廣告投放者所關心的一個重要問題,這樣可以提高廣告的投放精準性。
互聯(lián)網廣告受眾有多種差別,基本可以從以下幾個維度進行分析:基本屬性、購買能力、行為特征、社交網絡、心理特征、興趣愛好等。廣告人必須在一定范圍內選擇受眾的共同興趣作為廣告的訴求點。
聚類算法能夠將受眾按照某種規(guī)則進行分類,將特征相同或相近的受眾聚成一類,將特征不同或相似度低的受眾分成不同的類群,通過分析不同類群廣告受眾的特征,進而確定廣告產品的目標受眾,實現廣告的精確性投放,實現廣告投放有的放矢,減少廣告的投入費用。
4 基于聚類分析的互聯(lián)網廣告投放模型構建
互聯(lián)網廣告精準投放其核心內容就是根據用戶的固有屬性和訪問網站的動態(tài)屬性進行分類,也就是把用戶定位在對用戶興趣度最高的那類廣告上。具體來說就是首先根據用戶上網的綜合行為來分析他的特征,包括用戶注冊時的一些基本信息、他搜索過什么廣告、瀏覽過什么樣的網頁以及在頁面的停留時間等。通過對這些信息的提取和分析,可以準確識別用戶特征,獲得用戶消費需求,從而鎖定目標用戶,進行精準廣告投放。聚類分析可以對用戶進行相似性分類,也可以對網頁按相似性進行分類,以下是基于聚類分析的互聯(lián)網廣告投放模型。
5 小結
廣告網絡是通過集中采集各類網絡媒體的媒介資源,通過技術手段實現分布投放的虛擬運營平臺,幫助廣告主實現多種媒體資源組合投放的廣告服務網絡。廣告網絡負責對大量頁面進行分析、聚集,完成廣告投放轉換的過程。其優(yōu)勢體現在對網站媒介資源的整合能力、受眾數據獲取和挖掘的能力以及精準匹配廣告主營銷需求的能力。投放流程要包含以下幾個方面:廣告位所屬網頁的內容分析、用戶受眾定向、廣告匹配、廣告選擇與投放、展示跟蹤與報告等。本文主要介紹了一種基于聚類分析的互聯(lián)網廣告精準投放模型,算法利用用戶網頁瀏覽等行為信息進行聚類分析,并在通過這種方法將真實用戶的行為模型轉化為興趣模型從而進行了更高精度的廣告投放。
【參考文獻】
[1]李娜,李愛軍. 基于用戶特征分類的精準廣告投放研究[J].電腦知識與技術,2010,01:196-198.
[2]李朝娟.基于聚類技術的客戶細分模型研究與實現[D].哈爾濱工業(yè)大學,2006.
[3]俞淑平,陳剛.一種高效的行為定向廣告投放算法[J].計算機應用與軟件,2011,01:4-7.
[4]丁青,周留根,朱愛兵,張義東.基于K-means聚類算法的校園網用戶行為分析研究[J].微計算機應用,2010,06:74-80.
[5]陳艷燕,許曉昕.模糊聚類算法EFCM及其在上下文廣告關鍵詞提取中的應用[J].計算機與現代化,2009,03:81-83.
[6]黃詩瑤.聚類分析在移動通信用戶行為分析中的研究與應用[D].廣東工業(yè)大學,2013.
[7]郭心語,劉鵬,周敏奇,周傲英.網絡廣告定向技術綜述[J].華東師范大學學報:自然科學版,2013,03:93-105.