国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

混合異構(gòu)營銷數(shù)據(jù)平臺實踐

2018-06-01 18:11:56盧億雷
大數(shù)據(jù) 2018年3期
關鍵詞:開源軟件系統(tǒng)

盧億雷

精碩科技(北京)股份有限公司,北京 100192

1 引言

隨著大數(shù)據(jù)技術(shù)的飛速發(fā)展,越來越多的企業(yè)采用了開放架構(gòu)和開源軟件。企業(yè)利用大數(shù)據(jù)技術(shù)及其各類應用組件,以自建團隊的方式進行信息化建設非常普遍。筆者所在團隊在整個數(shù)據(jù)平臺實施過程中,嘗試并使用了大量最新的業(yè)界開源技術(shù),并自行研發(fā)了數(shù)據(jù)治理、數(shù)據(jù)生命周期管理、多租戶使用和實時監(jiān)控以及針對客戶行業(yè)本身的自然語言處理算法及圖像識別、深度學習算法,提供廣告監(jiān)控、輿情分析、人群畫像等多方面的技術(shù)支持,每天處理的數(shù)據(jù)包含廣告數(shù)據(jù)、輿情數(shù)據(jù)、第三方數(shù)據(jù)等多樣化且數(shù)量較大的數(shù)據(jù)。為了保證公司多方數(shù)據(jù)源的對接和融合,滿足公司多業(yè)務、多產(chǎn)品線的需求,如何利用先進的大數(shù)據(jù)技術(shù)把每天上百億的數(shù)據(jù)進行整合和計算是現(xiàn)在面臨的主要挑戰(zhàn)。

2 存在的問題及解決方案

2.1 現(xiàn)有技術(shù)方案存在的問題

針對大數(shù)據(jù)整合和計算問題,國內(nèi)外有很多同類型的產(chǎn)品平臺,基本可以分為兩大類:一類是購買的商業(yè)平臺;一類是基于開源軟件搭建并附加自己的產(chǎn)品邏輯構(gòu)建的平臺。這些產(chǎn)品平臺存在以下幾方面的問題。

(1)系統(tǒng)資源方面

購買的平臺一般成本較高,與公司規(guī)模成正比。開源軟件也并不是完全免費的,其可能涉及意料之外的實施、管理和支持成本,也可能由于缺乏人員維護而陷入停頓和死亡狀態(tài)。另外,開源軟件也要與自己平臺上的其他軟件兼容。

(2)功能特點方面

購買的平臺一般功能較強,能滿足當時的業(yè)務要求。但是由于是商業(yè)產(chǎn)品,如果接下來業(yè)務發(fā)展變化,原來的功能不滿足需求,需要二次購買。開源軟件一般也可以達到要求,但是需要組合使用多種軟件。

(3)技術(shù)指標方面

購買的軟件技術(shù)指標固定,系統(tǒng)一般較穩(wěn)定,但也僅限于中規(guī)中矩,不適用于多樣的數(shù)據(jù)營銷業(yè)務。開源軟件開源產(chǎn)品質(zhì)量差別較大,需要在技術(shù)選型時就做好判斷,一般需要有專業(yè)的技術(shù)人員支撐其穩(wěn)定性。對于數(shù)據(jù)營銷行業(yè)來說,沒有現(xiàn)成的正好滿足需求的產(chǎn)品。

(4)擴展和維護方面

商業(yè)購買的軟件一般由廠商專門的維護人員負責維護,但是維護人員一般不負責擴展。而且,有的維護是另外收取費用的。雖然開源社區(qū)的支持能解決一些共通的問題,但周期相對較長,因此,開源軟件基本上靠使用者自身維護。

(5)市場反饋方面

商業(yè)購買的軟件增加了公司成本,因此相應地,公司的產(chǎn)品價格會較高,而且對市場需求的變化反饋會較慢。開源軟件雖然成本低,可以隨意切換技術(shù)架構(gòu),相對靈活,但是每一次技術(shù)的革新都是對整個系統(tǒng)的一次考驗。

2.2 解決方案

針對現(xiàn)有技術(shù)平臺的不足,筆者團隊提出了分布式混合異構(gòu)大數(shù)據(jù)系統(tǒng)平臺,對開源軟件進行了改造和整合。平臺利用先進的大數(shù)據(jù)技術(shù)幫助品牌指導營銷策略、預先測算、量化營銷效果,實現(xiàn)每月處理超過2 000億筆數(shù)據(jù)、迭代超過100種數(shù)據(jù)模型的目標。該平臺具有以下特點。

● 基本沒有買入成本,雖然需要投入研發(fā)成本,但這部分投入可以轉(zhuǎn)化為自主知識產(chǎn)權(quán)。

● 高度整合了開源軟件和公司的業(yè)務,甚至可以形成新的產(chǎn)品作為收益的來源。由于對開源軟件做了相應的修改,相比簡單使用軟件來說更加合理和高效,目前國內(nèi)像百度、騰訊、阿里巴巴這樣的大型互聯(lián)網(wǎng)公司都采用這樣的方式。

● 由于整個系統(tǒng)平臺是公司技術(shù)人員做出來的,因此公司了解系統(tǒng)的每個細節(jié),可以按業(yè)務要求做出各種調(diào)整,可謂量身定做。

● 平臺的建設和擴展維護是貫穿系統(tǒng)整個生命周期的。一直隨著公司業(yè)務的變化而進化,并且可以選擇性地吸收開源社區(qū)的各種改進。該平臺的數(shù)據(jù)處理流程如圖1所示。

由于針對業(yè)務做了系統(tǒng)構(gòu)建,該平臺可以充分利用所有資源,性價比較高,而且能夠快速地反饋市場需求。

3 平臺架構(gòu)與關鍵技術(shù)

3.1 整體架構(gòu)

圖1 數(shù)據(jù)處理流程

平臺整體架構(gòu)如圖2所示。該平臺針對不同行業(yè)領域的信息進行爬取,可以支撐電商、微信、微博、新聞、論壇、問答等多種渠道每天數(shù)十億的互聯(lián)網(wǎng)頁面信息的爬取,是大數(shù)據(jù)平臺和業(yè)務需求中不可或缺的文本型半結(jié)構(gòu)化數(shù)據(jù)。圖2中,Blue Air是反作弊系統(tǒng),Zing是為數(shù)據(jù)科學家提供的支持多種語言的計算平臺。

在多維度、多結(jié)構(gòu)的數(shù)據(jù)源和大數(shù)據(jù)平臺強大的數(shù)據(jù)處理能力的支持下,系統(tǒng)中人工智能(artificial intelligence,AI)和商業(yè)智能(business intelligence,BI)的經(jīng)驗和模型發(fā)揮了極大作用,數(shù)據(jù)聚類算法、自然語言識別技術(shù)(neurolinguistic programming,NLP)、數(shù)據(jù)關聯(lián)分析、受眾畫像建模等技術(shù)得以快速發(fā)展,提升了公司的技術(shù)水準和服務效率,也幫助客戶獲得了更好的營銷效果。

3.2 關鍵技術(shù)

3.2.1 大數(shù)據(jù)存儲與管理技術(shù)

(1)分布式存儲技術(shù)

攻關元數(shù)據(jù)管理、系統(tǒng)彈性擴展技術(shù)、存儲層級內(nèi)的優(yōu)化技術(shù)、應用和負載的存儲優(yōu)化技術(shù),針對營銷活動的各環(huán)節(jié),采用不同的方案,從最底層優(yōu)化存儲,并為后續(xù)的計算優(yōu)化打下基礎。

(2)存儲方案

根據(jù)不同行業(yè)的特性,針對數(shù)據(jù)的管理、查詢以及分析的性能需求,數(shù)據(jù)規(guī)模和吞吐量的增長需求,主要采用關系型數(shù)據(jù)庫、非關系型數(shù)據(jù)庫、實時數(shù)據(jù)庫、列式數(shù)據(jù)庫等存儲方案。

3.2.2 數(shù)據(jù)可視化技術(shù)

傳統(tǒng)的數(shù)據(jù)可視化工具僅將數(shù)據(jù)進行組合,通過不同的展現(xiàn)方式提供給用戶,用于發(fā)現(xiàn)數(shù)據(jù)之間的關聯(lián)信息。采用可視化開發(fā)工具Spark、GraphX、Zeppelin、Matplotlib、recharts和moojnn等解決方案或技術(shù),保證營銷數(shù)據(jù)可視化應用效果,能夠快速地收集分析數(shù)據(jù)并對數(shù)據(jù)信息進行實時更新。數(shù)據(jù)可視化展現(xiàn)包括表格、圖表、圖形、示意圖、地圖和標簽云圖,從而使用戶能夠創(chuàng)建簡單的儀表板或監(jiān)管信息圖表和可視化效果。

圖2 平臺整體架構(gòu)

通過最新的HTML5、React、Redux等前端技術(shù),最大化呈現(xiàn)豐富的數(shù)據(jù)內(nèi)容,使用響應式設計,可同時兼容平板電腦、智能手機和個人計算機,實現(xiàn)隨時隨地的移動監(jiān)管。

3.2.3 大數(shù)據(jù)分析與挖掘技術(shù)

采用統(tǒng)計分析技術(shù),把計算推向數(shù)據(jù)并且并行處理,使Hadoop獲得了強大的深度分析能力。經(jīng)過算法的并行化,突破原有的可處理數(shù)據(jù)的技術(shù)瓶頸,利用并行計算模式大幅度提高了工具的計算性能,同時賦予了系統(tǒng)技術(shù)深度分析的能力。

3.2.4 人工智能和商業(yè)智能技術(shù)

在人工智能方面,在NLP、圖像模式識別、跨設備多ID用戶識別等方向取得了可喜成果,并運用在了社交情感分析、數(shù)據(jù)管理平臺(data management platform,DMP)和受眾分析等商業(yè)產(chǎn)品。可以在上百億條的數(shù)據(jù)上分析客戶關注的關鍵詞的社會反響,涵蓋新聞、論壇、微信和微博等公眾平臺。經(jīng)過歷史驗證,情感分析的準確度已經(jīng)可以達到70%以上,熱點事件發(fā)現(xiàn)時延在1 h以內(nèi),讓客戶可以第一時間知道自己產(chǎn)品的社會影響,同時也可以知道競爭產(chǎn)品的相關情況。

在圖像模式識別方面,采用了深度學習算法,筆者所在單位應用于Snap監(jiān)播實錄的特定廣告識別技術(shù),使用自研的特征識別和匹配算法,部署在40多臺服務器的計算集群上,全天候不停歇地對已經(jīng)投放的廣告進行識別,每天監(jiān)控的廣告數(shù)在5億次以上。不僅可以識別簡單的橫幅廣告,還可以對視頻廣告進行有效的識別。這項技術(shù)的應用,代替了以往占用了大量人力的“人肉廣告作弊識別”,為廣告代理公司和顧問團大大降低了成本,而且監(jiān)控的范圍也比以前有了100倍以上的提升。隨著手機和各種移動電子設備的普及,擁有兩部以上的手機或電腦和其他智能設備已經(jīng)變得相當普遍,如果可以實現(xiàn)跨設備多ID用戶識別,無疑可以更好地幫助廣告主識別受眾。筆者團隊充分利用多年數(shù)字營銷的經(jīng)驗,以超過200億條的廣告數(shù)據(jù)為基礎,基于每秒400萬次并發(fā)查詢的高效key-value查詢系統(tǒng),研發(fā)了多ID識別算法,很好地實現(xiàn)了一人多機的識別。

在商業(yè)智能方面,主要致力于多維數(shù)據(jù)組合查詢、用戶自定義數(shù)據(jù)分析、基于“人—事件”的受眾人群分析等方向。具體來說,多維數(shù)據(jù)組合查詢主要應用于廣告數(shù)據(jù)分析。筆者團隊的大數(shù)據(jù)分析平臺,每天分析100億條以上的廣告數(shù)據(jù),從50多個維度的各種組合來透視這些廣告數(shù)據(jù)的價值,每天早上5:00以前為所有廣告主提供準確的報表。使用HTTP 2.0及WebSocket技術(shù),動態(tài)平滑升級,可以做到用戶無感知。數(shù)據(jù)查詢速度也在秒級完成。作為固定多維度查詢的補充,廣告系統(tǒng)還支持用戶自定義數(shù)據(jù)分析:通過提供一整套的可視化數(shù)據(jù)處理接口,用戶只需要在頁面上用鼠標點幾下,就可以按自己熟悉的語言來定制特殊的數(shù)據(jù)處理邏輯。筆者團隊提供近100個營銷數(shù)據(jù)維度作為原材料,用戶可以按時間、地域、廣告媒體、廣告位置、廣告創(chuàng)意等多個細分維度計算數(shù)據(jù)的相關性,計算數(shù)據(jù)分布和其他多種指標,1 TB數(shù)據(jù)的處理時延在10 s以內(nèi)。基于“人—事件”模型的受眾人群分析系統(tǒng),則按“以人為本”的使用方法提供全方位的支持。

本系統(tǒng)綜合了廣告產(chǎn)品線、社交產(chǎn)品線、調(diào)研產(chǎn)品線和數(shù)據(jù)交換產(chǎn)品線等多條產(chǎn)品線的所有數(shù)據(jù),以受眾為中心,把所有信息串聯(lián)起來,建立了一套基于廣告受眾數(shù)據(jù)的類Siri智能問答系統(tǒng),除了可以回答“這個ID在什么時間什么地方上過哪些網(wǎng)站”這類簡單問題,還能回答諸如“這個ID是什么性別”“這個ID大概什么年紀”“這個ID喜歡足球嗎”“這個ID家里有嬰幼兒嗎”等問題,結(jié)合上文提到的多ID識別,它還可以回答“這兩個ID是同一個人嗎”這樣的問題。這一系統(tǒng)已經(jīng)作為筆者團隊的一項獨立對外業(yè)務開放。

3.2.5 數(shù)據(jù)質(zhì)量控制技術(shù)

從業(yè)務系統(tǒng)中獲取的數(shù)據(jù)首先進入操作數(shù)據(jù)存儲(operational data store,ODS),抽取—轉(zhuǎn)換—加載(extracttransform-load,ETL)引擎根據(jù)元數(shù)據(jù)規(guī)范和業(yè)務規(guī)則對ODS數(shù)據(jù)進行整合處理,正常數(shù)據(jù)進入主題數(shù)據(jù)庫完成整合,異常數(shù)據(jù)進入數(shù)據(jù)質(zhì)量管理系統(tǒng)進行人工干預。數(shù)據(jù)質(zhì)量管理系統(tǒng)對異常數(shù)據(jù)進行人工干預,通過人工干預可處理的批量數(shù)據(jù)進入臨時庫,由ETL根據(jù)新的規(guī)則進行處理。通用的干預措施形成元數(shù)據(jù)規(guī)范,進入元數(shù)據(jù)規(guī)范標準;無法處理的數(shù)據(jù)暫存到臨時庫,通知業(yè)務單位處理。

4 應用場景

4.1 廣告效果分析

筆者團隊的廣告效果分析業(yè)務每天有百億以上的數(shù)據(jù)增量,需要同時提供“天”級別的準確報表和秒級別的實時報表,并支持用戶自定義的各種維度的組合查詢。應用了以上系統(tǒng)后,完美地支撐了廣告分析的全線業(yè)務,真正做到了準確又實時、靈活又高效。

4.2 受眾標簽計算

在混合異構(gòu)大數(shù)據(jù)平臺上,以多種格式海量數(shù)據(jù)為支撐,運用機器學習的方法,受眾標簽計算得以高效運行。其中綜合了用戶的行為數(shù)據(jù)、第三方的標簽數(shù)據(jù)、多ID的打通、社交數(shù)據(jù)分析等在百億級數(shù)據(jù)集上的運算,為各產(chǎn)品線提供穩(wěn)定可靠的服務。

4.3 定向廣告投放

依托于混合異構(gòu)大數(shù)據(jù)平臺的廣告投放系統(tǒng),可以對復雜多樣的投放要求提供100 ms以內(nèi)的快速響應,每一個需求的滿足都整合了最新的數(shù)據(jù)變化,而這個新數(shù)據(jù)的量級在每秒3萬次以上,正所謂“線上一秒鐘,線下十年功”,正是這個平臺的支撐,才使SmartServing 系統(tǒng)運行如此輕快。

5 應用效果

該應用平臺部署之后,達到了非常理想的效果。

● 高并發(fā)數(shù)據(jù)采集服務端單個采集節(jié)點可以支持每秒12 000次的數(shù)據(jù)采集請求,并且支持分布式部署,從而支持全國范圍的營銷數(shù)據(jù)采集服務。滿足全國多機房實時數(shù)據(jù)收集匯總的管理平臺需求,數(shù)據(jù)匯總時延不超過3 min,兼顧備災容錯,保證數(shù)據(jù)不錯不漏。自動識別服務器和數(shù)據(jù)結(jié)構(gòu)的差異,并自動優(yōu)化配置。

● 針對數(shù)據(jù)結(jié)構(gòu)復雜、數(shù)據(jù)源多的業(yè)務特點,采用消息隊列架構(gòu),為多種渠道的數(shù)據(jù)源對接提供了實時和穩(wěn)定的消息收發(fā)支撐平臺,實現(xiàn)了系統(tǒng)間協(xié)作的零時延。

● 混合異構(gòu)大數(shù)據(jù)平臺還提供了交互式的數(shù)據(jù)分析平臺,支持數(shù)據(jù)建模團隊使用R、SQL、Spark、Python等多種方式,進行實時的交互式數(shù)據(jù)分析和圖表展示。數(shù)據(jù)科學家和數(shù)據(jù)工程師可以同時使用同一平臺處理上千億條的數(shù)據(jù)。

● 信息爬取系統(tǒng)可以支撐電商、微信、微博、新聞、論壇、問答等多種渠道每天數(shù)十億的互聯(lián)網(wǎng)頁面信息的爬取。

● 采集大量地理經(jīng)緯度和地理信息點(point of information,POI)信息。對于這些數(shù)據(jù),混合異構(gòu)大數(shù)據(jù)平臺會自動進行曲面幾何轉(zhuǎn)換,再進行存儲利用。

● 利用多數(shù)據(jù)源的整合和復雜數(shù)據(jù)結(jié)構(gòu)的兼容,全方位地分析和整理多維度的數(shù)據(jù)、自動化調(diào)度優(yōu)先級、智能調(diào)配計算資源,為業(yè)務決策提供有效支持。

● 計算任務瓶頸的輔助分析工具,為研發(fā)、測試、建模等團隊提供代碼級的優(yōu)化建議。

● 利用頁面仿真錄屏系統(tǒng),可以對用戶瀏覽頁面乃至廣告的過程進行模擬并錄屏,通過圖像識別及深度學習,真實地還原頁面瀏覽、廣告播放的過程,也是重要的網(wǎng)頁采樣和信息留檔數(shù)據(jù)。

● 構(gòu)建了基于大數(shù)據(jù)的自動分析和建模體系,并在數(shù)據(jù)入庫前的清洗階段引入了虛假數(shù)據(jù)過濾模型(反作弊技術(shù)),模型可以動態(tài)自動學習和更新識別模式庫,從而在第一時間發(fā)現(xiàn)異常數(shù)據(jù),并可以自動向各相關業(yè)務系統(tǒng)發(fā)出異常預警。

混合異構(gòu)大數(shù)據(jù)平臺項目深度整合了多個開源大數(shù)據(jù)平臺,并融入了自己的技術(shù)基因,真正把開源技術(shù)靈活運用,一方面解決了公司在技術(shù)研發(fā)過程中遇到的問題,另一方面回饋開源,為大數(shù)據(jù)的綜合應用方案提供了可行的案例。

6 結(jié)束語

本文介紹了混合異構(gòu)大數(shù)據(jù)平臺的關鍵技術(shù)與應用。在平臺開發(fā)過程中,筆者總結(jié)了一些技術(shù)經(jīng)驗和教訓,具體如下。

● 多個開源軟件整合時,需注意不同軟件依賴的版本,從而提高開發(fā)效率,盡量少走彎路。

● 操作系統(tǒng)級別要盡量做到環(huán)境一致,比如Openfiles、HugePage等的配置,需要由運維部門統(tǒng)一提供最優(yōu)的配置。

● 選擇開源系統(tǒng)時,盡量根據(jù)最簡單、用戶最多、自身團隊較熟悉所使用語言的原則選擇合適的開源系統(tǒng)。

● 開源軟件也可能存在錯誤或不支持某些需求,必要時需根據(jù)自身需求更改源代碼。

● 需經(jīng)過多次迭代,方可搭建穩(wěn)定高效的數(shù)據(jù)平臺。

[1]DEAN J, GHEMAWAT S. MapReduce:simplified data processing on large clusters[C]//The 6th conference on Symposium on Opearting Systems Design& Implementation,December 6-8, 2004,San Francisco, USA. New York: ACM Press, 2004, 51(1): 10.

[2]CHANGF, DEAN J, GHEMAWAT S, et al.Bigtable: a distributed storage system for structured data[J]. ACM Transactions on Computer Systems, 2008, 26(2): 1-26.

[3]POLYZOTIS N, ROY S, WHANG S, et al.Data management challenges in production machine learning[C]//ACM International Conference on Management of Data, May 14-19, 2017, Chicago, USA. New York:ACM Press, 2017: 1723-1726.

[4]VENKATARAMANS, YANG Z H, LIU D.SparkR: scaling R programs with Spark[C]//International Conference on Management of Data, June 26-July 1,2016, San Francisco, USA. New York:ACM Press, 2016: 1099-1104.

[5]LI H Y, GHODSI A,ZAHARIA M, et al.Tachyon: reliable, memory speed storage for cluster computing frameworks[C]//ACM Symposium on Cloud Computing,November 3-5, 2014, Seattle, USA. New York: ACM Press. 2014: 1-15.

[6]BAILISP, DAVIDSON A, FEKETE A,et al. Highly available transactions:virtues and limitations[J]. Proceedings of the VLDB Endowment, 2013, 7(3):181-192.

[7]SHUTE J, OANCEA M, ELLNER S, et al.F1: the fault-tolerant distributed RDBMS supporting Google's Ad business[C]//AcmSigmod International Conference on Management, May 20-24, 2012,Scottsdale, USA. New York: ACM Press,2012: 777-778.

猜你喜歡
開源軟件系統(tǒng)
Smartflower POP 一體式光伏系統(tǒng)
禪宗軟件
英語文摘(2021年10期)2021-11-22 08:02:26
WJ-700無人機系統(tǒng)
ZC系列無人機遙感系統(tǒng)
北京測繪(2020年12期)2020-12-29 01:33:58
五毛錢能買多少頭牛
軟件對對碰
連通與提升系統(tǒng)的最后一塊拼圖 Audiolab 傲立 M-DAC mini
大家說:開源、人工智能及創(chuàng)新
開源中國開源世界高峰論壇圓桌會議縱論開源與互聯(lián)網(wǎng)+創(chuàng)新2.0
開源計算機輔助翻譯工具研究
凤凰县| 余干县| 松潘县| 鹤庆县| 新宁县| 滁州市| 耿马| 临武县| 怀仁县| 原阳县| 府谷县| 东台市| 巨野县| 扶绥县| 谢通门县| 泰州市| 抚州市| 珠海市| 郸城县| 晋江市| 古交市| 民丰县| 邵阳县| 邯郸县| 姚安县| 济宁市| 香格里拉县| 湟中县| 太湖县| 留坝县| 阜南县| 中江县| 乐都县| 绥棱县| 原阳县| 弥渡县| 黔南| 香河县| 吴忠市| 铜川市| 新田县|