文‖《上海國(guó)資》記者 金琳
陳運(yùn)文:只要有足夠的數(shù)據(jù),這個(gè)世界沒有偶然
文‖《上海國(guó)資》記者 金琳
他為公司新入職的同事下發(fā)了一套題,如何預(yù)測(cè)泰坦尼克號(hào)上的幸存者
在絕大多數(shù)人尚未聽說(shuō)過大數(shù)據(jù)這個(gè)名字的時(shí)候,陳運(yùn)文就已經(jīng)浸淫其中。如今大數(shù)據(jù)如火如荼,離職創(chuàng)業(yè)對(duì)于他來(lái)說(shuō)是一件水到渠成的事情。良好的教育和職業(yè)背景使陳運(yùn)文創(chuàng)辦的達(dá)觀數(shù)據(jù)在張江高科“895創(chuàng)業(yè)營(yíng)”中脫穎而出。
著名投資人巴菲特曾經(jīng)說(shuō),對(duì)投資高科技行業(yè)不感興趣,因?yàn)檫@個(gè)行業(yè)變化太快,競(jìng)爭(zhēng)激烈,難以把握。對(duì)此,陳運(yùn)文則自信地表示,大數(shù)據(jù)領(lǐng)域競(jìng)爭(zhēng)相對(duì)較少,自己的團(tuán)隊(duì)一直處于技術(shù)研發(fā)一線,這是別人難以逾越的核心競(jìng)爭(zhēng)力。
正因?yàn)榇?,“達(dá)觀數(shù)據(jù)科技”成立短短幾個(gè)月,就獲得了來(lái)自真格基金領(lǐng)投的1000萬(wàn)人民幣天使輪融資,眾米資本和掌門科技集團(tuán)跟投。
數(shù)據(jù)應(yīng)用已經(jīng)滲透到當(dāng)今每一個(gè)行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)因素。
達(dá)觀數(shù)據(jù)抓住潮流。
2008年獲得復(fù)旦大學(xué)計(jì)算機(jī)博士學(xué)位的陳運(yùn)文有著讓旁人羨慕的履歷,畢業(yè)后的第一份工作就是百度核心技術(shù)研發(fā)工程師,后進(jìn)入盛大創(chuàng)新院擔(dān)任大數(shù)據(jù)團(tuán)隊(duì)負(fù)責(zé)人,成為盛大文學(xué)、騰訊文學(xué)首席數(shù)據(jù)官。
“在復(fù)旦掌握了學(xué)術(shù)界前沿的數(shù)據(jù)挖掘技術(shù),在百度是從學(xué)術(shù)界進(jìn)入產(chǎn)業(yè)界,理論轉(zhuǎn)化為實(shí)踐。在盛大開拓了視野,結(jié)識(shí)了很多互聯(lián)網(wǎng)各個(gè)方向的精英。在騰訊鍛煉和提升了團(tuán)隊(duì)管理能力。每一份經(jīng)歷都是一次收獲,不過最難忘的還是盛大研究院?!标愡\(yùn)文說(shuō)。
陳運(yùn)文一直對(duì)盛大網(wǎng)絡(luò)心存感激,他告訴記者,“盛大網(wǎng)絡(luò)放手讓技術(shù)人員去探索,讓我們?nèi)⒓痈?jìng)賽”。正是這種敢于投入,敢于涉足前沿研究的魄力,讓陳運(yùn)文成為國(guó)內(nèi)第一批接觸大數(shù)據(jù)領(lǐng)域的人。
陳運(yùn)文與盛大網(wǎng)絡(luò)結(jié)緣于2010年。那一年,還在北京百度工作的陳運(yùn)文在一次聚會(huì)上結(jié)識(shí)了當(dāng)時(shí)的盛大創(chuàng)新院一位副院長(zhǎng),他向陳運(yùn)文介紹了盛大創(chuàng)新院的規(guī)劃:既要進(jìn)行創(chuàng)新項(xiàng)目的孵化,又可以結(jié)合盛大內(nèi)部的應(yīng)用需求來(lái)做一些有意思的工作。那時(shí)盛大正處于巔峰狀態(tài),盛大游戲一騎絕塵,管理層希望在其他領(lǐng)域有所拓展,據(jù)說(shuō)盛大創(chuàng)新院最初是要模仿普林斯頓大學(xué)高級(jí)研究院,在這種思路下,盛大以業(yè)內(nèi)一流的薪水,從全國(guó)各地招聘了很多一流的互聯(lián)網(wǎng)人才。陳運(yùn)文是江蘇人,去百度工作之前,他在復(fù)旦計(jì)算機(jī)系攻讀了碩士和博士,盛大網(wǎng)絡(luò)描繪的藍(lán)圖讓有意向回上海發(fā)展的陳運(yùn)文非常心動(dòng)。很快,他就接到了邀請(qǐng)加入盛大創(chuàng)新院的電話。
陳運(yùn)文說(shuō),創(chuàng)新院聚集了各行各業(yè)的技術(shù)牛人,沒有經(jīng)營(yíng)壓力,沒有KPI考核,沒有部門之間的隔閡,有的是腦洞大開和激情四射?!坝邢敕ǖ娜硕加泻軓?qiáng)的內(nèi)在驅(qū)動(dòng)力?!痹朴?jì)算、多媒體、大數(shù)據(jù)……,那些當(dāng)時(shí)聽上去有點(diǎn)兒玄的技術(shù),現(xiàn)在都成了最熱的名詞。
創(chuàng)新院的氛圍讓陳運(yùn)文感觸頗深?!皠?chuàng)新院有兩項(xiàng)獨(dú)特的制度,一個(gè)是技術(shù)分享會(huì),每周開一次講座,大牛們輪流上陣,有助于大家開闊眼界。另一個(gè)制度是項(xiàng)目評(píng)審會(huì),如果有好的想法可以提出,大家?guī)兔Τ鲋饕猓煌獾目梢浴拇u’。”這些制度看起來(lái)平等、民主、公開。陳運(yùn)文說(shuō),創(chuàng)新院總是鼓勵(lì)大家去試一試,志同道合的幾位小伙伴很容易就聚在一起把點(diǎn)子實(shí)現(xiàn)出來(lái),例如現(xiàn)在用戶規(guī)模達(dá)7個(gè)億的Wi-Fi萬(wàn)能鑰匙當(dāng)時(shí)也只是創(chuàng)新院里一個(gè)初創(chuàng)的項(xiàng)目。
在盛大創(chuàng)新院,陳運(yùn)文負(fù)責(zé)大數(shù)據(jù)研究。在創(chuàng)新院寬松的氛圍下,2011年,陳運(yùn)文所在的大數(shù)據(jù)團(tuán)隊(duì)開發(fā)出了一套個(gè)性化的推薦系統(tǒng),這個(gè)系統(tǒng)涵蓋了獲取新聞、深度分析、用戶個(gè)性化口味的建模和精準(zhǔn)推薦等一系列服務(wù)。
值得一提的是,因?yàn)樵谑⒋蟠髷?shù)據(jù)挖掘方面的優(yōu)異成績(jī),他作為隊(duì)長(zhǎng)代表創(chuàng)新院參加了各項(xiàng)國(guó)際比賽,在國(guó)際計(jì)算機(jī)學(xué)會(huì)的大數(shù)據(jù)挖掘競(jìng)賽中,拿到過國(guó)際亞軍,創(chuàng)下中國(guó)大陸企業(yè)參賽的歷史最好成績(jī)。在2012年倫敦大數(shù)據(jù)黑客馬拉松大賽和2013年ACMCIKM舉辦的國(guó)際數(shù)據(jù)挖掘競(jìng)賽中,他又連奪兩個(gè)冠軍,并受到盛大集團(tuán)最高層的親自嘉獎(jiǎng)。如今,這些獎(jiǎng)狀被擺放在陳運(yùn)文辦公室的顯眼位置。讓陳運(yùn)文記憶最深刻的是2012年在倫敦舉辦的EMI數(shù)據(jù)黑客競(jìng)賽,“我們對(duì)500萬(wàn)聽歌用戶的數(shù)據(jù)進(jìn)行了挖掘,開發(fā)了系統(tǒng)分析用戶偏好模型,形成了500萬(wàn)個(gè)預(yù)測(cè)模型,從數(shù)十萬(wàn)首曲庫(kù)中預(yù)測(cè)每個(gè)用戶最有可能接下來(lái)收聽的歌曲,精度超過了其他300支參賽隊(duì)獲得了冠軍。競(jìng)賽過程中我們和劍橋大學(xué)代表隊(duì)的算法交替領(lǐng)先,在競(jìng)賽截止前1分鐘才最終鎖定勝局”。
“聚是一團(tuán)火,散是滿天星。”盡管最后盛大創(chuàng)新院解散了,但是陳運(yùn)文認(rèn)為,“這是創(chuàng)業(yè)人才的黃埔軍?!薄j愡\(yùn)文說(shuō),盛大創(chuàng)新院走出去的團(tuán)隊(duì)在上海創(chuàng)業(yè)圈形成了巨大的影響。
在盛大創(chuàng)新院解散后,陳運(yùn)文和他的團(tuán)隊(duì)加入了盛大文學(xué),擔(dān)任首席數(shù)據(jù)官。
在盛大文學(xué),他開發(fā)了針對(duì)文本的自動(dòng)審核系統(tǒng),搭建了文學(xué)搜索引擎和推薦系統(tǒng)。正是有了這些系統(tǒng),讀者才能從浩瀚的書籍中找到自己想看的內(nèi)容。盛大文學(xué)被騰訊并購(gòu)后,陳運(yùn)文又加入騰訊擔(dān)任數(shù)據(jù)中心的負(fù)責(zé)人。他領(lǐng)銜開發(fā)的這些系統(tǒng)還在繼續(xù)沿用。
2015年年底,陳運(yùn)文和他的團(tuán)隊(duì)正式創(chuàng)業(yè),很順利地拿到了投資,天使輪一共融到了1000萬(wàn)元。公司業(yè)務(wù)主要面向企業(yè),已與多家企業(yè)建立了合作關(guān)系,幫助企業(yè)挖掘大數(shù)據(jù),并與一些媒體展開合作,開發(fā)了針對(duì)讀者的個(gè)性化推薦系統(tǒng)。公司還服務(wù)兩萬(wàn)多家新媒體,推出了新媒體大數(shù)據(jù)排行榜。
大數(shù)據(jù)產(chǎn)業(yè)鏈大致可分為上游大數(shù)據(jù)資源、中游大數(shù)據(jù)儲(chǔ)存與分析以及下游大數(shù)據(jù)應(yīng)用三個(gè)環(huán)節(jié)。其中,數(shù)據(jù)資源是大數(shù)據(jù)發(fā)展的基礎(chǔ)和前提,目前主要掌握在政府部門、國(guó)有企業(yè)以及BAT等大型互聯(lián)網(wǎng)公司手中。數(shù)據(jù)加工、處理、流通以及應(yīng)用是實(shí)現(xiàn)數(shù)據(jù)價(jià)值的終點(diǎn)和驅(qū)動(dòng)力,也是陳運(yùn)文等創(chuàng)業(yè)企業(yè)大展身手的戰(zhàn)場(chǎng)。
達(dá)觀數(shù)據(jù)人才濟(jì)濟(jì),陳運(yùn)文任CEO,CTO紀(jì)達(dá)麒是原騰訊文學(xué)數(shù)據(jù)中心高級(jí)研究員、搜狗廣告系統(tǒng)架構(gòu)師;COO馮佳妮是原盛大云計(jì)算公司運(yùn)營(yíng)總監(jiān);首席科學(xué)家段如冰也是原盛大創(chuàng)新院資深研究員,美國(guó)南加州大學(xué)博士后……不過,在創(chuàng)辦公司的過程中,陳運(yùn)文覺得最大的困難是尋找人才。“應(yīng)聘者一般希望選擇大的平臺(tái),我們希望招到大數(shù)據(jù)領(lǐng)域最好的工程師,最有潛力的畢業(yè)生,就要做好說(shuō)服工作?!标愡\(yùn)文說(shuō),公司通過提供有競(jìng)爭(zhēng)力的薪酬,小而美的特色來(lái)吸引人才?!拔覀儠?huì)給員工提供全面的鍛煉機(jī)會(huì)?!?/p>
關(guān)于大數(shù)據(jù),陳運(yùn)文的理解是,數(shù)據(jù)要落地,產(chǎn)生價(jià)值,才是真正有用的大數(shù)據(jù)應(yīng)用?!斑@里的落地,既可以是對(duì)歷史數(shù)據(jù)的總結(jié),生成報(bào)表,更可以是對(duì)未來(lái)數(shù)據(jù)的預(yù)測(cè),并提供自動(dòng)化的服務(wù)。達(dá)觀數(shù)據(jù)就在這些落地的方向深耕?!彼麑?duì)記者說(shuō),“通過大數(shù)據(jù),很多事情都是可以預(yù)測(cè)的。”
他為公司新入職的同事下發(fā)了一套題——如何預(yù)測(cè)泰坦尼克號(hào)上的幸存者。整套題通過獲取泰坦尼克號(hào)上所有乘客的真實(shí)信息,包括性別、年齡、職業(yè)、票價(jià)、艙位等,然后編寫程序來(lái)預(yù)測(cè)這2000余名乘員中哪些人最終得以生還。
在陳運(yùn)文眼里,將所有信息加以綜合挖掘,就能夠推演出最終的答案——“705名生還者都可以準(zhǔn)確預(yù)測(cè)?!?/p>
預(yù)測(cè)這樣的事件只是數(shù)據(jù)挖掘的一個(gè)案例,對(duì)于極客而言,只要給他們足夠的信息,這個(gè)世界就沒有意外和偶然。
現(xiàn)在,陳運(yùn)文用自己的技術(shù)幫助企業(yè)進(jìn)行商業(yè)決策。陳運(yùn)文將第一批客戶瞄準(zhǔn)為自媒體人,通過數(shù)據(jù)分析,為自媒體提供可以引發(fā)熱議的話題,并告訴這些作者,什么人喜愛看他們的文章、會(huì)關(guān)注什么話題。讓機(jī)器自己學(xué)會(huì)分析信息早就在商業(yè)行為中廣泛存在。在百度工作期間,陳運(yùn)文負(fù)責(zé)搜索引擎的核心算法研究,主要“為用戶提供最有價(jià)值的信息”。工作的難點(diǎn)不在于搜索信息,而在于讓機(jī)器認(rèn)知用戶的搜索意圖。
用戶經(jīng)常會(huì)在搜索框中輸入“口語(yǔ)詞匯或者模糊的語(yǔ)句”,服務(wù)器要從人們的搜索語(yǔ)句中判斷真正的需求。陳運(yùn)文就需要設(shè)計(jì)算法讓搜索引擎理解用戶的語(yǔ)義,從數(shù)百億的網(wǎng)頁(yè)中迅速找到對(duì)用戶最有價(jià)值的結(jié)果。這種“算法”就屬于人工智能。百度每天的搜索有數(shù)十億次,每當(dāng)陳運(yùn)文改進(jìn)了算法都能看到用戶點(diǎn)擊的滿意度在上升。
達(dá)觀數(shù)據(jù)已經(jīng)形成了清晰的商業(yè)模式,按照數(shù)據(jù)規(guī)模、模塊功能、使用時(shí)長(zhǎng)收取技術(shù)服務(wù)費(fèi)。公司在創(chuàng)立四個(gè)月后已經(jīng)實(shí)現(xiàn)盈虧平衡,計(jì)劃在今年下半年起在全國(guó)擴(kuò)大銷售和市場(chǎng)規(guī)模。
達(dá)觀數(shù)據(jù)利用在推薦系統(tǒng)和機(jī)器學(xué)習(xí)等領(lǐng)域的技術(shù)優(yōu)勢(shì),專注于為企業(yè)提供大數(shù)據(jù)挖掘服務(wù),服務(wù)對(duì)象不僅有目前活躍的新媒體行業(yè),也包括電商、金融、傳統(tǒng)企業(yè)等。在895創(chuàng)業(yè)營(yíng)的培養(yǎng)下,達(dá)觀數(shù)據(jù)快速成長(zhǎng),現(xiàn)已針對(duì)電商、新媒體和服務(wù)企業(yè)開發(fā)了多個(gè)大數(shù)據(jù)解決方案,其提供的大數(shù)據(jù)預(yù)測(cè)、搜索引擎、個(gè)性化推薦等產(chǎn)品服務(wù)能夠幫助客戶更好地提升點(diǎn)擊率,實(shí)現(xiàn)廣告營(yíng)銷。
陳運(yùn)文說(shuō):“我們面向這些企業(yè)的收費(fèi)是階梯性設(shè)置的,根據(jù)用戶的數(shù)據(jù)規(guī)模、調(diào)用接口的數(shù)量和頻次等指標(biāo)來(lái)定價(jià)?!倍麄兎?wù)過的企業(yè),除了可提供已經(jīng)開通使用的功能,還會(huì)根據(jù)所采集的反饋數(shù)據(jù),持續(xù)優(yōu)化系統(tǒng)。
“雖然我們現(xiàn)在還是一個(gè)很小的公司,但目標(biāo)遠(yuǎn)大。希望未來(lái)大家討論大數(shù)據(jù)的時(shí)候,都能想到‘達(dá)觀’。我覺得這樣我們就成功了。”中國(guó)互聯(lián)網(wǎng)都會(huì)以國(guó)際上成功的企業(yè)為范本,達(dá)觀也是如此,達(dá)觀對(duì)標(biāo)的是一家美國(guó)大數(shù)據(jù)服務(wù)公司Taboola,這家公司通過幫助發(fā)行商網(wǎng)站提升流量并通過廣告盈利,發(fā)展極為迅速,已成為僅次于Google的北美第二大流量公司。
陳運(yùn)文的耐心和親和力讓人印象深刻。他認(rèn)為,老板的親和力能讓團(tuán)隊(duì)更有“韌性”,尤其逆境的時(shí)候大家能沉得住氣,能一起團(tuán)隊(duì)起來(lái)想辦法。“我希望自己能身先士卒,讓員工打心眼里佩服我、信任我,愿意跟著我一起堅(jiān)持到底?!?/p>
回顧創(chuàng)業(yè)來(lái)的歷程。他說(shuō):“事實(shí)上,大數(shù)據(jù)應(yīng)用的需求很多,出發(fā)之前你會(huì)發(fā)現(xiàn)這個(gè)領(lǐng)域很多條路都能走。但你其實(shí)不知道哪條路能走到終點(diǎn)?!标愡\(yùn)文一直很和緩的語(yǔ)氣忽然加重了點(diǎn),“但我們會(huì)沿著現(xiàn)在的路堅(jiān)定走下去?!?/p>