本刊記者|劉勝男
1月20日,今日頭條在北京國家會議中心舉辦了“算數(shù)·年度數(shù)據(jù)發(fā)布會”。作為國內(nèi)領(lǐng)先的資訊客戶端,今日頭條在過去兩年多的時間里,總估值超過了5億美元,已經(jīng)積累了超過2.2億用戶,每天有超過2000萬用戶在今日頭條上閱讀自己感興趣的文章。同時,這些用戶的每一次刷新、點擊也為今日頭條帶來了海量的數(shù)據(jù)。
今日頭條本身就是基于數(shù)據(jù)挖掘的推薦引擎產(chǎn)品,通過對海量數(shù)據(jù)的深度挖掘,今日頭條不僅能夠為每一個人按興趣推薦信息,還能夠從宏觀的角度得到大眾群體的閱讀趨勢。
那么,今日頭條到底是如何猜中每位用戶喜好什么、關(guān)心什么的呢?今日頭條創(chuàng)始人張一鳴回答了一個詞:機器學習。
什么是機器學習?今日頭條技術(shù)副總裁楊震原解釋說:“其實移動互聯(lián)網(wǎng)時代是一個提供服務的時代,就也可以把算法理解成,是一種讓機器能夠給人提供服務的方法。”
楊震原舉了一個特別簡單、特別Q的例子:聰明伶俐會心算的小明和笨到只會數(shù)豆子的阿呆同時做一道“100+100=?”的算術(shù)題,誰先算出來誰就是聰明人,可以吃雪糕。結(jié)果是阿呆取得了勝利,這是為什么?楊震原介紹說,這個例子非常能夠說明計算機學科的原理,就是如何去考慮用計算機去解決問題這個過程。小明心算3秒鐘就可以算出來,但是問題在于阿呆一秒鐘可以數(shù)4萬顆豆子,他數(shù)200顆豆子只需要0.005秒,顯然阿呆勝出了。
這個例子充分解釋了計算機是如何戰(zhàn)勝人的,或者機器如何變得更加聰明的?!皩嶋H上很多時候,我們做工程師的會覺得機器非常非常傻,我們寫的很簡單的程序,機器都會搞錯。但當你從某一些角度去看的時候,又會發(fā)現(xiàn)機器非常強大,它可以算的非??欤梢杂浀臇|西非常多,所以這種量變就會積累,讓他變得很不一樣。”
目前,今日頭條積累的用戶評論,閱讀,展示,刷新,停留時長等等各種用戶的行為數(shù)據(jù),用5號字體打印在A4紙上,可以鋪滿地球兩層。數(shù)據(jù)非常大的時候,就會產(chǎn)生不一樣的效果,這就是一個計算機科學中非常經(jīng)典的領(lǐng)域,有這樣的一句話叫做More data beats better algorithms(大數(shù)據(jù)勝過好算法)。機器學習實際上就是說工程師給機器一個計算的方法,當把這些豆子,把這些數(shù)據(jù)交給機器,機器會用這樣的算法去計算,機器雖然很笨,但是最后算出來的結(jié)果表現(xiàn)的非常聰明,而且機器能夠從海量的數(shù)據(jù)中總結(jié)出一些人們平時未曾發(fā)現(xiàn)的,這個過程就是機器學習的過程。在移動互聯(lián)網(wǎng)時代,用戶的每個行為都會被記下來產(chǎn)生數(shù)據(jù),也就有源源不斷的豆子產(chǎn)生。
當把越來越多的豆子給阿呆,把越來越多的數(shù)據(jù)給機器時,阿呆和機器就會顯得越來越聰明?!皺C器學習是今日頭條的核心,我們今天所有的數(shù)據(jù)也都是基于機器學習”張一鳴的這句話足可見“機器學習”的重要性。
同時,張一鳴還指出:隨著物理世界中產(chǎn)生的信息正在被越來越多地投映到虛擬世界中,越來越多的數(shù)據(jù)被記錄下來,計算機也會越來越懂用戶,它扮演的不僅僅是助理角色,它更像是世界共享的一個大腦,網(wǎng)絡空間的“上帝”,俯視觀察所有用戶。
知道用戶喜歡吃什么,喜歡做什么,喜歡哪些公司,哪些明星,并且都會主動推薦給用戶。而且數(shù)據(jù)和機器是不會說謊的。
機器學習真正到達這一步,對人類而言是一個美好的世界還是一個可怕的世界?張一鳴認為會是一個更加美好與高效率的世界。因為機器是為人類服務的,大規(guī)模信息被記錄,被連接,將產(chǎn)生前所未有的互動規(guī)模,這樣就會有更多的人類的知識與智慧被沉淀下來。不過,張一鳴也認為,通用綜合型計算機大腦,至少在短期內(nèi)不會涌現(xiàn)出來。但是在中短期內(nèi),在垂直領(lǐng)域,無論是新聞領(lǐng)域的今日頭條,還是工具類應用天氣、導航等,機器本身的智能性不會比人類強多少,但是由于時間長,記憶的內(nèi)容和數(shù)據(jù)夠多,經(jīng)過長年積累,將能夠大規(guī)模抹平信息鴻溝。
就如北京大學新聞與傳播學院副院長陳剛教授暢想的,今日頭條目前提供的還只是一個簡單化的基于信息的服務。但未來,他相信今日頭條一定會從信息服務走向生活服務,尤其是移動生活的服務。未來,今日頭條不是媒體,它是我們在移動生活空間里,生活服務上不可缺少的一個最好的朋友。而要做到這些,離不開大數(shù)據(jù)和機器學習的支持。
在夜深人靜的時候,享受一篇機器為你推薦的你最感興趣的文章,或是給你提供的一個令你舒適的服務,減輕下人腦的負擔,放松放松,何樂而不為呢?