AI新“王炸”，來自東方的神秘力量

2025-01-16 00:00:00朱秋雨

南風(fēng)窗 2025年2期

2024年末，一個中國AI小廠，憑借過硬的技術(shù)，獲得了全球鋪天蓋地的關(guān)注。

圣誕節(jié)過后，海外社交媒體以及技術(shù)論壇Github都在討論一個最新發(fā)布的開源大模型，DeepSeek-V3。它被外國網(wǎng)友冠以名號——“來自東方的神秘力量”。

多個評測報告里，DeepSeek-V3在世界開源模型之中處在第一梯隊，超過扎克伯格的LLaMa3.1。拿它比GPT-4o以及Claude3.5兩個最頂尖大模型也毫不遜色，甚至，其在數(shù)學(xué)推理、代碼生成和長文本處理等指標(biāo)上，表現(xiàn)更強。

這還不是中國AI公司DeepSeek（中文名：深度求索）全部的“拿手好戲”。更讓美國硅谷等同行摸不著頭腦的是，DeepSeek公布的53頁技術(shù)報告顯示，其訓(xùn)練頂尖大模型只用了2048張H100的GPU集群，花費53天，共計耗費557.6萬美元。有專業(yè)人員指出，同等水平之下，世界AI大廠至少要用1.6萬張以上的GPU，有的甚至需要10萬張GPU并行訓(xùn)練。

OpenAI早期成員安德烈·卡帕西感慨，DeepSeek-V3的出現(xiàn)意味著，今后也許不需要大型GPU集群來訓(xùn)練前沿的大語言模型了。ScaleAI的華裔CEO亞歷山大·王更感慨道，DeepSeek-V3帶給美國最大的教訓(xùn)是，“當(dāng)美國人休息時，中國正在努力工作，最終以更低的成本、更快的速度迎頭趕上，變得更強”。

這一以低成本聞名的小團隊顛覆了國外AI巨頭發(fā)展的固定范式，是被外界認(rèn)為最像（早期）OpenAI的開源機構(gòu)。事實上，這家小廠位于杭州，創(chuàng)始人從浙江大學(xué)畢業(yè)，2015年創(chuàng)立了公司幻方量化，幾年之間，成為中國少有的突破千億規(guī)模的量化私募機構(gòu)。

一家金融公司搞出了一個最有氣質(zhì)的AI大模型公司，本身已經(jīng)令人稱奇。與此同時，DeepSeek堅持技術(shù)開源，每次模型發(fā)布后，都會公布細節(jié)滿滿的技術(shù)報告。多年來，他們在AI大模型領(lǐng)域默默斬棘，不談商業(yè)化，不發(fā)布新產(chǎn)品，對外保持低調(diào)。

“神秘的東方力量”，到底想做什么？

AI界拼多多，來了

2024年末，一則“雷軍千萬年薪挖角‘95后’AI天才少女”的熱帖火遍全網(wǎng)。人們驚訝地發(fā)現(xiàn)，名為羅福莉的天才少女，此前供職于在公眾面前寂寂無聞的AI公司——DeepSeek深度求索。

事實上，早在這之前，成立剛滿一年的DeepSeek就已經(jīng)在AI業(yè)內(nèi)出了圈。半年多前，2024年5月，DeepSeek發(fā)布開源第二代MoE大模型DeepSeek-V2。這是它進入業(yè)界主流視野的標(biāo)志事件。

在這個誠意到位的開源大模型中，DeepSeek-V2沒有沿用國際主流的“類LLaMA的Dense結(jié)構(gòu)”和“類Mistral的Sparse結(jié)構(gòu)”，而是對模型框架進行創(chuàng)新，采用MLA（Multi-headLatentAttention，多頭潛在注意力）架構(gòu)。

創(chuàng)新提高了計算效率，降低了AI運行的高昂成本。作為開源大模型，DeepSeek同時公布了使用其API的價目表：每百萬tokens輸入1元、輸出2元（32K上下文）。作為對比，GPT-4Turbo每百萬tokens的輸入、輸出價格分別為72元、217元。

“真正的國產(chǎn)之光出現(xiàn)了。”AI圈內(nèi)人士驚喜地評價。從此，DeepSeek有了“AI界拼多多”的外號。

如此低的價格，令國內(nèi)AI巨頭紛紛降價。

與“高大上”的實力形成鮮明反差的是，幻方量化內(nèi)部人員對南風(fēng)窗透露，DeepSeek管理“非常扁平”，以技術(shù)人員為主。

誰也沒能預(yù)料到的是，這個重塑業(yè)界生態(tài)的AI公司，背后是一家量化基金公司?！拔覀兊脑瓌t是不貼錢，也不賺取暴利。這個價格也是在成本之上稍微有點利潤?！被梅搅炕瘜嵖厝恕eepSeek創(chuàng)始人梁文鋒在受訪時解釋。

這是深度求索在2024年第一次引發(fā)AI行業(yè)震動。OpenAI前政策主管、Anthropic聯(lián)合創(chuàng)始人JackClark評價：“（DeepSeek）雇傭了一批高深莫測的奇才?！?/p>

主要操盤手梁文鋒，來自廣東五線城市，“80后”，畢業(yè)于浙江大學(xué)電子工程系人工智能方向。2015年，他成立了量化基金公司幻方量化，創(chuàng)始成員多來自浙大。他們共同堅信，利用AI進行風(fēng)險對沖，計算機也可以像人類一樣投資。

梁文鋒曾為“量化投資之父”西蒙斯的傳記作序。他寫道：“每當(dāng)在工作中遇到困難時，我都想起西蒙斯說的，‘一定有辦法對價格建?！！?018年，量化私募因高頻交易策略在股市迅速崛起，幻方成為了中國“量化四大天王”之一，一度管理資金規(guī)模超過千億。

對AI大模型的堅定部署，來自創(chuàng)始人對AI技術(shù)的相信，也源于現(xiàn)實業(yè)務(wù)的需要。2020年，幻方聯(lián)合創(chuàng)始人徐進在知乎發(fā)招募帖，回顧了幻方AI的發(fā)展歷程：早在2008年開始，幻方創(chuàng)始團隊通過AILab招募全球頂尖人工智能專家，在經(jīng)濟金融領(lǐng)域開展研究。

隨著數(shù)據(jù)量的爆發(fā)式增長，模型越來越龐大，傳統(tǒng)的計算集群已經(jīng)很難適應(yīng)大型神經(jīng)網(wǎng)絡(luò)模型訓(xùn)練的需求。

2020年3月，幻方量化推出了超級計算機“螢火一號”，占地面積相當(dāng)于一個籃球場，由一個存儲集群和一個計算集群組成，并開出百萬年薪招聘深度學(xué)習(xí)工程師。

一年后，2021年，幻方推出了“螢火二號”，投資增加到10億元，搭載了約1萬張英偉達顯卡。這一大手筆的投入后來被外界認(rèn)為，是幻方最有前瞻性的部署之一。

畢竟，僅僅一年后，2022年8月，美國宣布其停止向中國出口A100和H100兩款芯片。成立于2023年的DeepSeek，成為了除字節(jié)跳動、商湯科技等大廠以外，少有的擁有萬卡集群的中國公司。

與“高大上”的實力形成鮮明反差的是，幻方量化內(nèi)部人員對南風(fēng)窗透露，DeepSeek管理“非常扁平”，以技術(shù)人員為主。公司沒有正式的公關(guān)人員，也沒有對外“融過錢”。創(chuàng)始人梁文鋒基本不接受采訪，公司也沒有對外公關(guān)的需求。

團隊也秉承著小而美的設(shè)計?！霸然梅搅炕蟾庞袃砂偃俗笥?，（DeepSeek）其實財務(wù)、法務(wù)、行政都是幻方量化支持的，大模型團隊算法工程團隊有八九十人。”該內(nèi)部人士介紹。

創(chuàng)新的秘訣

是時候看一看這個驚艷國內(nèi)外的全新開源大模型了。

南風(fēng)窗記者通過實測發(fā)現(xiàn)，DeepSeek-V3在數(shù)學(xué)、編程領(lǐng)域展示出較好的答題能力，打破過去人們對“AI不擅長數(shù)學(xué)”的印象。除了傳統(tǒng)的文本對話，DeepSeek-V3有一個相比其他AI大模型更特別的功能——“深度思考”。意思是，在AI生成正式答案之前，DeepSeek-V3會展示機器進行推理、“思考”的過程。

例如，對著DeepSeek-V3，記者輸入了問題：“請給我影響人們工作積極性的分析框架，并提出面對職業(yè)倦怠的解決方案?！?/p>

DeepSeek在11秒間生成了答案的思考過程：“嗯。首先，我得想想工作積極性受哪些因素影響?？赡苡袃?nèi)部因素和外部因素吧。內(nèi)部因素比如個人的興趣、價值觀、情緒狀態(tài)等。外部因素包括工作環(huán)境、薪酬福利、晉升機會、同事關(guān)系、領(lǐng)導(dǎo)風(fēng)格……”

這些“思考”頗具人類的思維過程。它繼續(xù)生成道：“我記得馬斯洛的需求層次理論，生理、安全、社交、尊重和自我實現(xiàn)需求，都可能影響工作積極性。還有赫茲伯格的雙因素理論，區(qū)分了保健因素和激勵因素。保健因素如工資、工作條件，如果不好會引起不滿，但即使好也不會直接激勵；激勵因素如認(rèn)可、責(zé)任、成長機會，這些才能真正提升工作積極性……”

經(jīng)歷這番“思考”后，DeepSeek-V3生成了八個方面的內(nèi)容，供人參考。其中也不乏套話，也有些給人靈感的內(nèi)容。比如，它寫道：“‘生活不是我們活過的日子，而是我們記住的日子?！R爾克斯提醒著我們，生活的意義在于我們?nèi)绾钨x予它意義。工作亦是如此。”

涌現(xiàn)的智能不只是大參數(shù)暴力美學(xué)的體現(xiàn)，更重要的是，這是一個效率奇高、由眾多前所未有的設(shè)計組合而成的超級工程。

簡單而言，DeepSeek實現(xiàn)降本增效，并沒有提出前所未有的新技術(shù)，而是首次成功將各個技術(shù)，通過巧妙地設(shè)計與優(yōu)化，完美地搭配并實現(xiàn)落地。這是一次來自工程層面的勝利。

人們閱讀一篇文章時，眼睛和大腦會自然地關(guān)注文章中的關(guān)鍵句和段落，忽略不那么重要的信息。多層注意力機制在AI中的作用也非常類似。在模型處理大量數(shù)據(jù)時，它能夠更加有效地識別和處理關(guān)鍵信息和特征。

用該團隊自己的話來解釋，幫助DeepSeek-V3實現(xiàn)降本的方法無非兩個，一是算力需求降低，二是訓(xùn)練AI時間減少。

所謂算力需求降低，一個主要的辦法是在訓(xùn)練模型時，對數(shù)據(jù)進行壓縮。壓縮之后，運算單元（GPU和CPU）進行運算的數(shù)據(jù)量就會減少，運算速率也會提升。為此，DeepSeek運用的一個主要辦法是——MLA多層注意力架構(gòu)。

簡單的一個例子是，人們閱讀一篇文章時，眼睛和大腦會自然地關(guān)注文章中的關(guān)鍵句和段落，忽略不那么重要的信息。多層注意力機制在AI中的作用也非常類似。在模型處理大量數(shù)據(jù)時，它能夠更加有效地識別和處理關(guān)鍵信息和特征。一旦AI確定了關(guān)鍵特征，它就可以將特征壓縮成一個更小的向量，從而節(jié)省運算需求。

除此之外，據(jù)騰訊科技報道，DeepSeek-V3還引入了一種名叫FP8混合精度訓(xùn)練的框架，并首次在超大模型上驗證了其有效性。

所謂FP8，就是用8個二進制位來表示數(shù)字的格式，相比傳統(tǒng)的32位（FP32）和16位（FP16）格式，精度低了很多，但是占用空間小，計算快。

而在節(jié)約計算時間上，DeepSeek也很有一手。DeepSeek-V3的預(yù)訓(xùn)練階段僅需要266.4萬個GPU小時。相較之下，LLaMa3405B的大模型預(yù)訓(xùn)練花費了共計3080萬個GPU小時，大約是DeepSeek-V3的11倍。

這其中的一個創(chuàng)新在于，DeepSeek克服了傳統(tǒng)GPU運算中的“計算氣泡”。所謂氣泡，是指GPU在流水線并行處理中，不同的神經(jīng)網(wǎng)絡(luò)層有不同的處理時間。當(dāng)一個階段完成其計算任務(wù)后，如果另一個階段還在運算，沒準(zhǔn)備好接收數(shù)據(jù)，就會產(chǎn)生等待時間，即“氣泡”?！坝嬎銡馀荨睍?dǎo)致GPU資源的浪費。

而DeepSeek采用了DualPipe跨節(jié)點通信優(yōu)化流水線流程，簡單而言，便是通過雙重流水線的并行設(shè)計，讓多個計算任務(wù)同時進行，計算氣泡大大減少。

DeepSeek-V3與同類產(chǎn)品的基準(zhǔn)性能比較（圖/DeepSeek官網(wǎng)）

DeepSeek一系列操作，仿佛一個本身成績不錯的尖子生，在一些無人在意但重要的細節(jié)上，追求極致，死磕到底。最終，經(jīng)過全方位的小步提升，它的水平又上了一個新臺階，如同DeepSeek在官方微信號上的介紹：“不做中庸的事。”

技術(shù)理想主義者的追求

憑借硬實力，DeepSeek正吸引著全球的目光與關(guān)注。前英偉達機器學(xué)習(xí)專家BojanTunguz公開評價，DeepSeek讓人可以看到，所有針對高端半導(dǎo)體的出口禁令，實際上可能以可以想象到的“最壞”方式產(chǎn)生了反效果?！八鼈兯坪跗仁怪袊芯咳藛T變得比正常情況下更加聰明和資源高效?！?/p>

一位AI從業(yè)人員告訴南風(fēng)窗，DeepSeek最驚人的是讓AI業(yè)界認(rèn)識到，大模型的ScalingLaw（規(guī)模效應(yīng)）不完全意味著燒錢堆資源，通過不算太復(fù)雜的優(yōu)化之后，1/10的開銷就能做出大模型。

“所以現(xiàn)在（多數(shù)AI大廠）訓(xùn)大語言模型（LLM）的資源利用率是很低的，優(yōu)化一下，就有機會以相同的開銷把規(guī)模再擴大10倍?！?/p>

小廠的實力，讓Meta、谷歌、xAI等不缺資源、不缺顯卡的超級大廠相形見絀。2024年，多家硅谷大廠都進入了AI算力的軍備競賽之中。

“大部分中國公司習(xí)慣follow，而不是創(chuàng)新。中國創(chuàng)新缺的不是資本，而是缺乏信心以及不知道怎么組織高密度的人才?！?/blockquote>
2024年10月，馬斯克在田納西州僅耗時19天，就建設(shè)了史上最大超級計算機廠，內(nèi)部配備了10萬塊液冷英偉達芯片。而早在2024年3月，微軟和OpenAI聯(lián)合宣布，將建造一臺名為“星門”的超級計算機，預(yù)計將使用數(shù)百萬專用服務(wù)器芯片，總投資高達1000億美元。
這些資金充足、“儲備”同樣充足的頭部公司，在AI的進程上理應(yīng)先人一步。而事實上，它們中許多陷入了表現(xiàn)為效率低下、內(nèi)部混亂的“大公司病”之中。
扎克伯格的Meta是其中最典型的例證。2023年，Meta的首席技術(shù)官（CTO）約翰·卡馬克辭任前，在公司的內(nèi)部信中大篇幅地傾吐了對小扎管理的不滿。他說，Meta效率低下，只有“5%的GPU利用率”；內(nèi)斗嚴(yán)重，即便他“在這擁有最高等級的聲音”，依舊力不從心。
相比之下，對于中國AI初創(chuàng)公司而言，資源匱乏已經(jīng)是板上釘釘。在有限的GPU和芯片集群中，他們中很多只能將資源與研究重心，放在第一重要的事情上。
只是，不同于多數(shù)中國公司強調(diào)商業(yè)化、做爆款產(chǎn)品，DeepSeek創(chuàng)始人梁文鋒在接受“暗涌wave”采訪時說：“我們覺得現(xiàn)在最重要的是，參與到全球創(chuàng)新的浪潮里去?！?/p>
他強調(diào)，團隊希望實現(xiàn)的是一種原始性創(chuàng)新。
“過去很多年，中國公司習(xí)慣了別人做技術(shù)創(chuàng)新，我們拿過來做應(yīng)用變現(xiàn)，但這并非是一種理所當(dāng)然。這一波浪潮里，我們的出發(fā)點，就不是趁機賺一筆，而是走到技術(shù)的前沿，去推動整個生態(tài)發(fā)展。”梁文鋒說。
這個保持低調(diào)和神秘的創(chuàng)新團隊，鮮少對外發(fā)聲，只在開源大模型公布時，發(fā)布了技術(shù)細節(jié)報告和人才招攬?zhí)?。但?chuàng)始人梁文鋒透露，在DeepSeek團隊里，“并沒有什么高深莫測的奇才，都是一些Top高校的應(yīng)屆畢業(yè)生、沒畢業(yè)的博四、博五實習(xí)生，還有一些畢業(yè)才幾年的年輕人”。團隊沒有海外回來的人，員工都是本土的人才。
而據(jù)科技媒體《量子位》爆料，DeepSeek的員工很多都是畢業(yè)于清華北大的應(yīng)屆生，“最大的特點是年輕”。
“大部分中國公司習(xí)慣follow，而不是創(chuàng)新。中國創(chuàng)新缺的不是資本，而是缺乏信心以及不知道怎么組織高密度的人才。前50名頂尖人才可能不在中國，但也許，我們能自己打造這樣的人。”他說。
年輕的團隊將如何實現(xiàn)AGI夢想？這一次，是中國小廠開始讓人期待了。

猜你喜歡

幻方開源模型

一半模型
童話王國·奇妙邏輯推理(2024年5期)2024-06-19 16:03:38
奇妙的“惡魔幻方”
數(shù)學(xué)小靈通·3-4年級(2022年6期)2022-06-17 01:09:08
重要模型『一線三等角』
中學(xué)生數(shù)理化·七年級數(shù)學(xué)人教版(2020年10期)2020-11-26 08:24:50
神奇的幻方
學(xué)生天地(2020年35期)2020-06-09 03:01:12
重尾非線性自回歸模型自加權(quán)M-估計的漸近分布
數(shù)學(xué)物理學(xué)報(2020年2期)2020-06-02 11:29:24
五毛錢能買多少頭牛
創(chuàng)新作文(1-2年級)(2019年3期)2019-09-03 05:14:07
3D打印中的模型分割與打包
光學(xué)精密工程(2016年6期)2016-11-07 09:07:19
大家說：開源、人工智能及創(chuàng)新
辦公自動化(2016年18期)2016-08-20 12:50:20
開源中國開源世界高峰論壇圓桌會議縱論開源與互聯(lián)網(wǎng)+創(chuàng)新2.0
辦公自動化(2016年18期)2016-08-20 12:50:18
開源計算機輔助翻譯工具研究
上海理工大學(xué)學(xué)報(社會科學(xué)版)(2015年3期)2015-11-30 03:02:13

南風(fēng)窗2025年2期

南風(fēng)窗的其它文章
重組與突破，一本重慶改革故事
“反增長理論”是怎么回事？
關(guān)稅大棒嚇不倒中國
《百年孤獨》拍成劇，一次拉美文學(xué)重讀
失落的合作藝術(shù)
戰(zhàn)爭中的騙子

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

AI新“王炸”，來自東方的神秘力量

AI界拼多多，來了

創(chuàng)新的秘訣

技術(shù)理想主義者的追求

AI新“王炸”，來自東方的神秘力量

AI界拼多多，來了