DeepSeek,太火了。
2月16日,廣東、江蘇、內(nèi)蒙古、江西等多地宣布,其政務(wù)服務(wù)系統(tǒng)接入DeepSeek系列大模型。三大電信運(yùn)營商、中石油、中石化、百度、騰訊等中企巨頭也紛紛宣布,與DeepSeek展開合作。無論是行業(yè)內(nèi)的專家,還是普通人,都在爭相使用這款A(yù)I產(chǎn)品。在資本市場上,多只DeepSeek“概念股”連續(xù)漲停。DeepSeek背后的人物—公司創(chuàng)始人、85后廣東小伙梁文鋒,自然也成為輿論關(guān)注焦點。
有業(yè)內(nèi)專家估算,中國AI企業(yè)DeepSeek的估值可能高達(dá)1500億美元,公司創(chuàng)始人梁文鋒的身家有望躋身全球富豪榜前列,甚至可能超越英偉達(dá)創(chuàng)始人黃仁勛。在接受媒體采訪時,梁文鋒曾表示,“我們不是有意成為一條鲇魚,只是不小心成了一條鲇魚”。
如果說梁文鋒的鲇魚效應(yīng),在于證明了用低成本也能高效率訓(xùn)練出AI大模型,無意卷到了BAT。去年一年,黃仁勛則在制造另一種鲇魚效應(yīng),即以每6個月為周期,更新更高性能的芯片,使得害怕?lián)尣坏阶钚翯PU而掉隊的巨頭們,瘋搶英偉達(dá)GPU,微軟、谷歌、Meta、馬斯克,都被拽進(jìn)了這場GPU大作戰(zhàn)游戲里。
一年后,DeepSeek成為硅谷眼中“神秘的東方力量”,Scale AI創(chuàng)始人亞歷山大·王(Alexandr Wang)評價道,“過去十年來,美國可能一直在人工智能競賽中領(lǐng)先于中國,但DeepSeek的AI大模型發(fā)布可能會‘改變一切’”。
1月20日下午,中共中央政治局常委、國務(wù)院總理李強(qiáng)主持召開專家、企業(yè)家和教科文衛(wèi)體等領(lǐng)域代表座談會,聽取對《政府工作報告(征求意見稿)》的意見建議。其中,梁文鋒的出席,刷屏科技圈。
從一位普通的湛江少年,到震撼硅谷的AI創(chuàng)新者。梁文鋒的故事,是一段關(guān)于技術(shù)、勇氣和堅持的傳奇。梁文鋒,1985年出生于廣東湛江的一個普通家庭,父親是一名小學(xué)老師,自幼,他就是大家眼中的“學(xué)霸”,對數(shù)字與邏輯的敏感性遠(yuǎn)超同齡人。
初中時,梁文鋒就喜歡拆裝電腦,并學(xué)完了高中的數(shù)學(xué)課程,甚至學(xué)到了大學(xué)的微積分。
2002年,17歲的梁文鋒以優(yōu)異成績考入浙江大學(xué)電子信息工程專業(yè),成為家族中第一個進(jìn)入頂尖高校的孩子。當(dāng)時的電子信息工程是浙大的王牌學(xué)科。
據(jù)上海艾麒信息創(chuàng)始人、董事長周朝恩回憶,讀研期間,梁文鋒以實習(xí)生身份加入艾麒,后經(jīng)推薦直接擔(dān)任新技術(shù)部經(jīng)理,給予月薪16000元,算是高薪特別聘請。周朝恩稱,“初見梁文鋒時,他戴著一副眼鏡,斯文有禮,身材清瘦,給人一種文靜內(nèi)斂的印象。入職后,他便全身心投入到人工智能視頻與圖像技術(shù)的研究中,常常一整天都待在辦公室里,專注地鉆研技術(shù)難題,甚至半天都不出來一次?!迸c梁文鋒深入接觸后,周朝恩發(fā)現(xiàn)“他雖不善言辭,但在技術(shù)交流中卻能清晰地表達(dá)自己的觀點,展現(xiàn)出強(qiáng)大的邏輯思維能力?!?/p>
梁文鋒和幻方的故事始于2008年。
那一年,全球金融危機(jī)爆發(fā)。畢業(yè)后的梁文鋒沒有像同齡人一樣進(jìn)入大廠當(dāng)碼農(nóng),而是一個人跑到成都,蝸居在出租屋里。幾番折騰下來,他決定下場做量化投資,梁文鋒敏銳地察覺到技術(shù)和數(shù)據(jù)或許能打開市場突破口。但這個決定并不容易,畢竟當(dāng)時量化在國內(nèi)還是個新事物。很多人并不相信量化可以賺錢。
于是,他拉上幾個同學(xué),嘗試著用各種算法模型來預(yù)測股市走勢,沒日沒夜地寫代碼、調(diào)參數(shù),經(jīng)常熬夜到凌晨。每當(dāng)遇到困難時,梁文鋒總會想起量化投資之父西蒙斯的一句話:一定有辦法對價格建模。股指期貨推出后,他們利用模型預(yù)測股指期貨的漲跌,進(jìn)行高頻交易,交易很快就獲得了豐厚的回報。
2010年,滬深300股指期貨推出,量化投資迎來了春天。乘著這股東風(fēng),梁文鋒和他的團(tuán)隊大賺一筆,自營資金超過5億元。同年,30歲的梁文鋒與徐進(jìn)正式創(chuàng)辦幻方量化(High-Flyer)。短短一年內(nèi),幻方量化成立了20只產(chǎn)品,迅速成為量化投資領(lǐng)域的佼佼者。
2015年12月1日,水木社區(qū)轉(zhuǎn)發(fā)了一則招聘啟事,講了一個創(chuàng)業(yè)故事:“2008年,L先生帶著8萬元本金,開始了自己獨立的量化交易之路。2015年,經(jīng)歷過7年熊市牛市大輪回的L先生,以每年超過100%的復(fù)合收益率邁入了億元富豪的隊伍。‘幻方’取自于中國古代洛書《九宮圖》,是一種特殊的矩陣,是科學(xué)的結(jié)晶與吉祥的象征。L先生的理想是有朝一日能夠與世界級的量化交易泰斗——西蒙斯的文藝復(fù)興公司相媲美?!?/p>
隨后幾年,梁文鋒不斷擴(kuò)大AI算法研究團(tuán)隊,將人工智能技術(shù)深度融入量化策略。2021年8月,幻方量化的資金管理規(guī)模一度突破千億元,與九坤投資、明汯投資、靈均投資一起,被業(yè)界稱為量化私募領(lǐng)域的“四大天王”。這一年,梁文鋒在金牛獎頒獎典禮上發(fā)表演講,指出“量化投資的未來,是用技術(shù)讓市場更有效率”。
“不求他人,不靠資本,就自己干,有錢了給新事業(yè)融資?!绷何匿h曾斷言,“中國必然需要有人站到技術(shù)的前沿”。而這一次,DeepSeek先踏上浪頭。在鲇魚的外觀之下,DeepSeek在梁文鋒眼中,內(nèi)里則滿是技術(shù)理想主義的敘事。
2023年,38歲的梁文鋒在杭州投資創(chuàng)辦了深度求索(DeepSeek),這是一家專注于AI大模型研發(fā)的公司,目標(biāo)是用低成本、高性能的技術(shù),打破國際巨頭在人工智能領(lǐng)域的壟斷。而后來故事是,DeepSeek在未有任何頂流資本加持下,仍然堅強(qiáng)地活了下來。
2024年5月,DeepSeek-V2憑借出色的性能和性價比,引發(fā)了一場大模型價格戰(zhàn),引發(fā)國內(nèi)巨頭紛紛降價;真正爆發(fā)點,出現(xiàn)在2024年12月。
梁文鋒帶領(lǐng)團(tuán)隊發(fā)布了新一代大模型DeepSeek-V3,并且還公開了由梁文鋒、羅福莉等人撰寫的53頁論文《DeepSeek-V3 Technical Report》。這款模型不僅在數(shù)學(xué)運(yùn)算、代碼生成和中文問答等方面表現(xiàn)出色,更令人震驚的是,它的訓(xùn)練成本僅為557.6萬美元,而OpenAI的GPT-4o訓(xùn)練成本高達(dá)7800萬美元。
更有網(wǎng)友調(diào)侃,“DeepSeek活成了真OpenAI(開放模型),而OpenAI活成了close AI(封閉模型)”。在梁文鋒看來,中國要逐步成為創(chuàng)新貢獻(xiàn)者,而不是一直搭便車。早在上大學(xué)時,梁文鋒就篤定:AI一定會改變世界。畢業(yè)后,他在量化投資上賺了足夠多的錢。這使得他有足夠的資本聽從內(nèi)心的聲音,去做自己喜歡的事情,而不是首先權(quán)衡利弊得失。
曾經(jīng)有業(yè)內(nèi)人士表示:梁文鋒是中國AI界非常罕見的人,他擁有恐怖的學(xué)習(xí)能力,兼具強(qiáng)大的infra工程和模型研究能力,又能調(diào)動資源。在內(nèi)部員工看來,梁文鋒則完全不像老板,更像一個極客。時至今日,他仍然延續(xù)著低調(diào)作風(fēng),和公司其他研究員一樣,每天看論文,寫代碼,參與小組討論。
選人標(biāo)準(zhǔn)更是與主流格格不入。DeepSeek的成功并非偶然,他組建的一支本土年輕程序員團(tuán)隊,不依賴海歸或高級技術(shù)專家。團(tuán)隊成員大多是應(yīng)屆畢業(yè)生或工作經(jīng)驗不超過5年的年輕人,大多是數(shù)學(xué)競賽一等獎、拿過國際金牌的算法人才。梁文鋒認(rèn)為,“創(chuàng)新需要擺脫慣性,經(jīng)驗有時會成為包袱”。
在梁文鋒看來,如果追求短期目標(biāo),找現(xiàn)成有經(jīng)驗的人是對的。但如果看長遠(yuǎn),經(jīng)驗就沒那么重要,基礎(chǔ)能力、創(chuàng)造性、熱愛等更重要。
在這點上,奧爾特曼與梁文鋒有著一致的想法?!癘penAI早期投資人投錢時,想的一定不是我要拿回多少回報,而是真的想做這個事?!?/p>
在梁文鋒看來,中國要逐步成為創(chuàng)新貢獻(xiàn)者,而不是一直搭便車。畢業(yè)后,他在量化投資上賺了足夠多的錢。這使得他有足夠的資本聽從內(nèi)心的聲音,去做自己喜歡的事情,而不是首先權(quán)衡利弊得失。
在采訪中,梁文鋒面對大模型燒錢的相關(guān)提問表示,如果一定要找一個商業(yè)上的理由,(一個商業(yè)公司去做一種無限投入的研究性探索)可能是找不到的,因為劃不來。從商業(yè)角度來講,基礎(chǔ)研究投入回報比很低。但“一件激動人心的事,或許不能單純用錢衡量。就像家里買鋼琴,一來買得起,二來是因為有一群急于在上面彈奏樂曲的人”。
爆火之下,梁文鋒還需要回答更多的新問題。
有媒體嘗試讓DeepSeek作為一名記者,對梁文鋒提一個問題,這是DeepSeek的回答:“DeepSeek宣稱其模型訓(xùn)練成本僅為行業(yè)1/10,但有開發(fā)者指出,這可能是通過大幅縮減模型參數(shù)規(guī)?;蛞蕾嚮梅皆缙诙诜e的廉價算力實現(xiàn)的,而非真正的技術(shù)突破。您是否承認(rèn)這種‘成本優(yōu)勢’本質(zhì)是金融資源套利,而非算法創(chuàng)新?”
令人驚訝的是,這個由DeepSeek問出的問題,幾乎可以概括如今圍繞著DeepSeek的大部分爭議。正如ChatGPT橫空出世讓OpenAI成為當(dāng)之無愧的AI頭部企業(yè),英偉達(dá)的GPU憑借高性能成為算力基礎(chǔ),讓黃仁勛享盡高光,現(xiàn)在,DeepSeek的R1模型,卻只能證明梁文鋒有能力做出一個和OpenAI最新模型相差無幾的模型。
當(dāng)有媒體提問:“為什么DeepSeek V2會讓硅谷許多人感到意外?”梁文鋒認(rèn)為,在美國,每天都有各種創(chuàng)新出現(xiàn),從這個角度看,我們的突破并不算特別。但他們驚訝的是,一家中國公司不僅僅是跟隨者,而是以創(chuàng)新者的身份加入了他們的競爭。
這與大多數(shù)中國企業(yè)習(xí)慣的模式完全不同。
一方面我們不可否認(rèn),不想成為鲇魚的理想主義者梁文鋒,意外“卷到了”所有人。周朝恩說,DeepSeek不需要注冊,可以免費(fèi)使用,極大地降低了用戶使用AI技術(shù)的門檻。DeepSeek主動向全球開發(fā)者社區(qū)分享核心技術(shù)成果,這種開放態(tài)度不僅贏得了國際認(rèn)可,也推動了行業(yè)技術(shù)生態(tài)的快速發(fā)展。
另一方面,又要看到,做一個和OpenAI最新模型相差無幾的模型,還遠(yuǎn)談不上真正的超越。需要肯定的是,站在OpenAI這個巨人的肩上,梁文鋒帶領(lǐng)DeepSeek實現(xiàn)了一場頗為驚艷的突圍,但什么時候能夠趕在OpenAI前面推出未來一代模型,如GPT-5,那時才是梁文鋒技術(shù)理想的AHA時刻。
在梁文鋒身上,我們依稀看到了喬布斯、馬斯克、黃仁勛的影子。“中國AI不可能永遠(yuǎn)處在跟隨的位置!”“真正的差距不是一年或兩年,而是原創(chuàng)與模仿之差。”
這兩句從梁文鋒口中喊出的話,不僅事關(guān)AI產(chǎn)業(yè),也是中國企業(yè)在跟隨、模仿了西方幾十年后,不得不面對的突破方向。
低垂的果子都被摘完了,只有敢于突破,才能找到新的出路。梁文鋒并不孤單。今天,從大疆無人機(jī)汪滔,到宇樹機(jī)器人王興興……一大批新生代企業(yè)家,正將中國科技產(chǎn)業(yè)帶向無人區(qū)。