李昊原
算法并真正的壁壘,而是根據(jù)用戶(hù)特征和產(chǎn)品定位來(lái)設(shè)計(jì)結(jié)構(gòu),然后把算法應(yīng)用在結(jié)構(gòu)中去提升效率。
你要去哪里,或許你的手機(jī)比你還清楚。只要打開(kāi)App,看著推送的信息,點(diǎn)擊你感興趣的,慢慢你就會(huì)有主意——當(dāng)10個(gè)推送中5個(gè)開(kāi)始和海島有關(guān)時(shí)。那么,是去巴厘島還是普吉島?連名字都分不清的你有些苦惱,卻發(fā)現(xiàn)下面及時(shí)推送了這兩個(gè)地方的旅行產(chǎn)品和攻略。從那一閃而過(guò)的念頭開(kāi)始,你就被大數(shù)據(jù)技術(shù)感知了,從而平穩(wěn)的開(kāi)始了你的旅行,從路線景點(diǎn)到吃喝玩樂(lè)的建議,甚至你完全沒(méi)有想到的都被呈現(xiàn)在你眼前,這是大數(shù)據(jù)應(yīng)用的一個(gè)開(kāi)始。
連接用戶(hù)與內(nèi)容
螞蜂窩曾經(jīng)是知名的旅游攻略UGC社區(qū),而現(xiàn)在,全球旅行服務(wù)平臺(tái)會(huì)是更全面的定位,這個(gè)改變與螞蜂窩在數(shù)據(jù)應(yīng)用上的進(jìn)化是分不開(kāi)的。
作為元老級(jí)人物,陳惠印象中最早的數(shù)據(jù)應(yīng)用,是伴隨著移動(dòng)端螞蜂窩App而出現(xiàn)的?!澳菚r(shí)我們有了手機(jī)App后,特別想知道用戶(hù)都在看什么樣的攻略、在找什么樣的內(nèi)容,所以我們的大數(shù)據(jù)最早的起源,其實(shí)就從手機(jī)APP里數(shù)據(jù)的采集開(kāi)始的?!睌?shù)據(jù)收集的出發(fā)點(diǎn)是為了了解用戶(hù)的需求,從而滿(mǎn)足需求,但在移動(dòng)端大數(shù)據(jù)真正的應(yīng)用,卻要等到2013年。
最早,螞蜂窩的攻略是分散在小組之中的,比如北京同城的小組中,會(huì)有去西安、普吉島和廈門(mén)的帖子,而“查找攻略”也是一件不容易的事情,想去廈門(mén),可能意味著要在十多個(gè)小組中翻看幾十篇游記來(lái)搜索信息。旅游在絕大多數(shù)情況下,是人為了新鮮的體驗(yàn)而去一個(gè)陌生的地方,因此信息的不透明幾乎是絕對(duì)的,如何讓用戶(hù)找到自己真實(shí)需要的信息,就變成了核心的問(wèn)題。
UGC出身的螞蜂窩并不缺內(nèi)容,但海量的內(nèi)容多為照片和游記,是非結(jié)構(gòu)化的,怎么樣才能讓它們和用戶(hù)高效率地連接在一起呢?在大數(shù)據(jù)部門(mén)的技術(shù)總監(jiān)韓鑫看來(lái),可以簡(jiǎn)單的分成三個(gè)部分:一個(gè)是內(nèi)容,一個(gè)是用戶(hù),最后是推薦系統(tǒng)。而螞蜂窩做的事情,就是將前兩者的數(shù)據(jù)結(jié)構(gòu)化,最后通過(guò)算法匹配到一起。
2013年,螞蜂窩開(kāi)始搭建了目的地分類(lèi)系統(tǒng),讓所有的內(nèi)容可以在一個(gè)系統(tǒng)中呈現(xiàn),這是內(nèi)容結(jié)構(gòu)化的基礎(chǔ)?!芭e一個(gè)例子,比如對(duì)一家酒店,有許多用戶(hù)評(píng)論和游記,我們會(huì)從中提取有用的信息?!表n鑫介紹,游客往往會(huì)關(guān)注酒店的價(jià)格、環(huán)境、特色、餐飲和交通等信息,這些信息意味著不同的維度,將影響用戶(hù)的旅行決策。比如對(duì)一家酒店一共有1000篇游記,其中有500篇游記涉及了交通的維度,在游記中可能是“距離機(jī)場(chǎng)不遠(yuǎn)”“在機(jī)場(chǎng)快線上”“去機(jī)場(chǎng)很方便”等不同的說(shuō)法,而螞蜂窩通過(guò)構(gòu)建自然語(yǔ)言的平臺(tái),將評(píng)論和游記中原本發(fā)散的內(nèi)容集中在一起。“首先是基于詞庫(kù)中的關(guān)鍵詞去搜索,然后是語(yǔ)義分析和數(shù)據(jù)挖掘技術(shù)。” 游記的內(nèi)容被分解為句子,然后句子分為句式,句式再分為詞組,在系統(tǒng)中跑模型,最終被歸納成用戶(hù)易于理解的結(jié)果。韓鑫用知識(shí)圖譜的形式展示了日本的目的地信息,在眾多維內(nèi)容中有溫泉,點(diǎn)擊溫泉后又會(huì)出現(xiàn)泉質(zhì)等不同的內(nèi)容,點(diǎn)擊泉質(zhì)后又會(huì)有綠礬泉、單純?nèi)⒚⑾跞?,“這都是根據(jù)內(nèi)容解析出來(lái)的,完全靠機(jī)器的話可能也不足夠準(zhǔn)確,但這會(huì)是很好的基礎(chǔ),在這個(gè)基礎(chǔ)上,再靠人工去校驗(yàn)?!表n鑫說(shuō),通過(guò)這種方式UGC的內(nèi)容得以結(jié)構(gòu)化,從而形成螞蜂窩印象等產(chǎn)品。
在用戶(hù)畫(huà)像上,基于使用場(chǎng)景,螞蜂窩會(huì)將用戶(hù)分為四個(gè)階段。第一個(gè)階段是旅行空窗期,這個(gè)階段的用戶(hù)沒(méi)有明顯的旅行傾向,瀏覽的內(nèi)容也相對(duì)分散;第二個(gè)階段是旅行發(fā)酵期,用戶(hù)已經(jīng)有了一些模糊的出行需求,比如是國(guó)內(nèi)游還是出國(guó)、會(huì)和誰(shuí)一起旅行、有多少預(yù)算等,但假如是海島游,那是去巴厘島、普吉島還是馬爾代夫?這個(gè)階段的用戶(hù),瀏覽攻略的內(nèi)容開(kāi)始集中,也會(huì)出現(xiàn)目的地搜索的行為。第三個(gè)階段是旅行準(zhǔn)備期,用戶(hù)已經(jīng)有了明確的目的地、旅行方式等;第四個(gè)階段是正在旅行。
在這四個(gè)階段,通過(guò)對(duì)用戶(hù)瀏覽、點(diǎn)擊和搜索數(shù)據(jù)的收集分析,時(shí)間、地理位置信息的實(shí)時(shí)獲取,以及對(duì)用戶(hù)行為的引導(dǎo),比如在用戶(hù)界面,會(huì)有國(guó)內(nèi)、國(guó)外、帶娃旅行、海島游、情侶出行等不同的分類(lèi),螞蜂窩會(huì)勾勒出精準(zhǔn)的用戶(hù)畫(huà)像,并在這個(gè)過(guò)程中給予不同場(chǎng)景下的推薦信息?!拔抑懒四阍谑裁吹胤剑惺裁礃拥穆眯行枨?,也對(duì)內(nèi)容有了解,包括多少個(gè)目的地、場(chǎng)景和標(biāo)簽。”馬蜂窩旅行網(wǎng)副總裁陳惠說(shuō),推薦系統(tǒng)的搭建,讓用戶(hù)和內(nèi)容間得以匹配,但在今天的行業(yè)中,推薦的算法并不是壁壘。真正重要的是,根據(jù)自身的用戶(hù)特征和產(chǎn)品定位,設(shè)計(jì)一個(gè)結(jié)構(gòu),然后把算法應(yīng)用在結(jié)構(gòu)中去提升效率?!盎ヂ?lián)網(wǎng)時(shí)代,每一次的流量,背后都是用戶(hù)的一次需求,所以了解好用戶(hù)的每一次訪問(wèn),才能服務(wù)好用戶(hù),而這個(gè)核心就是大數(shù)據(jù)的能力?!倍浄涓C對(duì)旅行階段和場(chǎng)景的判定,再配合不同的標(biāo)簽和維度,可以讓用戶(hù)的需求細(xì)分,從而精準(zhǔn)的匹配到同樣細(xì)分的內(nèi)容資源上。
小團(tuán)隊(duì)大賦能
在2017年的12月12日,螞蜂窩宣布獲得1.33億美元的D輪融資,快速擴(kuò)張中的螞蜂窩團(tuán)隊(duì)目前有700名員工。談到具體的大數(shù)據(jù)團(tuán)隊(duì),作為負(fù)責(zé)人的韓鑫卻笑著說(shuō),只有十幾個(gè)人,“但能夠利用和使用大數(shù)據(jù)的人,(在公司員工中)超過(guò)了70%”。
在線旅游擁有著豐富的場(chǎng)景和業(yè)務(wù),尤其是螞蜂窩主打的“自由行”,因追求個(gè)性化而更顯得復(fù)雜,這給技術(shù)上帶來(lái)的挑戰(zhàn)是,如果靠傳統(tǒng)的方式去做大數(shù)據(jù),那需要的工程師就太多了?!八苑浅V匾囊稽c(diǎn)是去賦能,用大數(shù)據(jù)賦能別人?!表n鑫說(shuō)。
以基礎(chǔ)的數(shù)據(jù)采集工作為例,傳統(tǒng)的做法是,由公司的數(shù)據(jù)團(tuán)隊(duì)去對(duì)接不同部門(mén)的各個(gè)系統(tǒng)做數(shù)據(jù)歸集,這涉及了大量的業(yè)務(wù)對(duì)接和標(biāo)準(zhǔn)化的問(wèn)題,人力和時(shí)間成本都很高。而螞蜂窩的數(shù)據(jù)團(tuán)隊(duì)在App的基礎(chǔ)上,搭建了統(tǒng)一標(biāo)準(zhǔn)化的數(shù)據(jù)采集系統(tǒng),“哪怕是剛畢業(yè)的一個(gè)應(yīng)屆生,只要做一個(gè)簡(jiǎn)單的培訓(xùn),就可以十分鐘時(shí)間內(nèi)自己去上報(bào)一條可能是千萬(wàn)量級(jí)的數(shù)據(jù)。”
韓鑫對(duì)大數(shù)據(jù)能力的一個(gè)看法是,大多數(shù)公司不是做不到,而是效率太低。進(jìn)行一項(xiàng)統(tǒng)計(jì)分析,比如哪些景點(diǎn)旅游人數(shù)最多,第一、第二、第三分別是哪里,用戶(hù)都在看什么美食,在螞蜂窩的系統(tǒng)上,無(wú)需工程師去專(zhuān)門(mén)對(duì)接需求,只需要按照可視化的規(guī)則配置,就能夠以分鐘級(jí)的速度實(shí)現(xiàn)?!皩?duì)業(yè)務(wù)使用者來(lái)講,他只需要理清楚自己到底要分析什么,統(tǒng)計(jì)什么,運(yùn)算規(guī)則可能五分鐘就建立,之后所有的數(shù)據(jù)運(yùn)維由數(shù)據(jù)團(tuán)隊(duì)承接,關(guān)注這個(gè)運(yùn)算規(guī)則能否很好地去執(zhí)行,而統(tǒng)計(jì)結(jié)果會(huì)直接對(duì)接到產(chǎn)品內(nèi)容上。”韓鑫告訴記者,這樣的規(guī)則在螞蜂窩有5萬(wàn)多個(gè),僅2017年一年就形成2萬(wàn)多個(gè),而傳統(tǒng)方式需要最少幾小時(shí)甚至一個(gè)周的時(shí)間。
“我們非常強(qiáng)調(diào)分享,也強(qiáng)調(diào)人人都是分析師,每個(gè)人都可以利用工具平臺(tái)去輸出自己的數(shù)據(jù),分享給別人?!倍唧w的實(shí)現(xiàn)方式,就是將整個(gè)數(shù)據(jù)流程從最底端采集到最前端呈現(xiàn)全部產(chǎn)品化,這樣,一個(gè)人只需要一個(gè)小時(shí)就能配置完成。而效率的提升也促進(jìn)了對(duì)敏捷型業(yè)務(wù)的提升,韓鑫舉了一個(gè)例子,假如一個(gè)活動(dòng)只有三天,很多公司不會(huì)愿意為此而做數(shù)據(jù)研發(fā),而如果只需要花費(fèi)一個(gè)小時(shí)就可以完成,那就值得做了。“我們的一個(gè)基本的思路就是賦能。”他說(shuō):“通過(guò)產(chǎn)品化,讓每一個(gè)人都有能力去處理數(shù)據(jù)、加工數(shù)據(jù),能夠根據(jù)自己的實(shí)際需求,來(lái)決定到底哪些東西是需要被處理的,盡可能降低大數(shù)據(jù)技術(shù)的門(mén)檻,然后讓更多人能利用大數(shù)據(jù)技術(shù),去給他自己的產(chǎn)品和業(yè)務(wù)帶來(lái)幫助?!眅ndprint