AI圈又領(lǐng)教了一回“神秘的東方力量”。
繼去年12月的V3模型之后,1月20日,國內(nèi)人工智能技術(shù)企業(yè)深度求索(以下稱“DeepSeek”)官宣了其最新AI推理模型DeepSeek R1。該模型在數(shù)學(xué)、代碼和自然語言推理等任務(wù)上表現(xiàn)優(yōu)異,性能直接對標(biāo)美國OpenAI最新的推理模型o1。
消息一出,AI圈幾近沸騰。社交平臺X上,有國外大廠工程師直白表示,其所在生成式模型研發(fā)部門“處于恐慌之中”。英偉達(dá)資深科學(xué)家Jim Fan給予R1極高評價,稱其不僅開源,還分享了所有模型訓(xùn)練細(xì)節(jié),做了OpenAI“一直聲稱要做卻沒做到的事”。據(jù)統(tǒng)計(jì),DeepSeek僅在1月的最后一周內(nèi),用戶激增就超過一億。由于服務(wù)器不堪重負(fù),官方甚至不得不在2月6日宣布暫停面向開發(fā)者的充值服務(wù)。
作為應(yīng)對,OpenAI公司在1月31日緊急發(fā)布其尚未官宣的大模型版本o3的小型版本o3-mini。2月6日,在全球最大的開源社區(qū)GitHub上,DeepSeek項(xiàng)目的評價星數(shù)首次超越了OpenAI,這被業(yè)內(nèi)視為開源勝過閉源的“歷史性事件”。
多位業(yè)內(nèi)人士指出,DeepSeek此次最大的貢獻(xiàn),是向世界展示了快速、低成本實(shí)現(xiàn)o1同等模型能力的可能性。清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系副教授劉知遠(yuǎn)告訴《中國新聞周刊》,“東方力量”其實(shí)就是工程創(chuàng)新加持下的追趕能力。在算力吃緊的情況下,DeepSeek打了一場以少勝多的仗。
DeepSeek R1有多厲害?
有測試者讓R1詳細(xì)解釋勾股定理,R1在不到30秒的時間內(nèi)生成了完整的圖形動畫,給出了傳統(tǒng)的面積法證明過程,沒有出現(xiàn)差錯。另一個常用的測試問題是碰撞檢測,測試者要求大模型編寫一個程序,使得一顆小球在某個緩慢旋轉(zhuǎn)的幾何形狀內(nèi)彈跳,并保持小球停留在形狀內(nèi)。碰撞檢測十分考驗(yàn)?zāi)P偷耐评砟芰?,稍有不慎就會?dǎo)致肉眼可見的物理錯誤。這項(xiàng)測試?yán)?,R1的表現(xiàn)明顯優(yōu)于OpenAI o1 pro模式。
OpenAI于2024年9月發(fā)布了推理模型o1,首次實(shí)現(xiàn)真正的通用推理能力,相比其前作GPT-4o有巨大的性能提升,能在“博士級別”的科學(xué)問答環(huán)節(jié)上超越人類專家。新加坡南洋理工大學(xué)計(jì)算機(jī)學(xué)院助理教授劉子緯向《中國新聞周刊》解釋,傳統(tǒng)的ChatGPT模型屬于感知模型,擅長提取事件信息。但真實(shí)世界的很多任務(wù)不能僅靠感知完成,需要一定的決策推理,而且越復(fù)雜的任務(wù)決策成分越多,比如編程、數(shù)據(jù)分析等。因此,推理模型是業(yè)界公認(rèn)的通往通用人工智能(AGI)不可或缺的模型形態(tài)。
同為推理模型,在很多方面,R1都與o1的性能持平。在美國數(shù)學(xué)邀請賽AIME2024的測試中,R1取得了79.8%的成績,甚至略高于o1,甩開其他開源模型一大截。編碼類任務(wù)方面,R1也展現(xiàn)出專家級水平,在算法競賽平臺Codeforces上的表現(xiàn)超過了96.3%的人類參賽者。
DeepSeek公開的22頁技術(shù)報告中,有一個展示R1能力的直觀案例。在解決一道復(fù)雜數(shù)學(xué)表達(dá)式問題時,R1在解題步驟中突然停下來說“等等,這是個值得標(biāo)記的啊哈時刻”,隨后自主修正了解題過程?!鞍」鳖愃朴谌祟惖念D悟,R1的這種行為完全是自發(fā)產(chǎn)生的,而非預(yù)先設(shè)定。這也意味著,它已經(jīng)擁有了相當(dāng)程度的思考和自悟能力。
看上去R1已經(jīng)走出了“題海戰(zhàn)術(shù)”,轉(zhuǎn)而進(jìn)入了探究性學(xué)習(xí)的領(lǐng)域。事實(shí)上,這正是它的核心技術(shù)強(qiáng)化學(xué)習(xí)與傳統(tǒng)監(jiān)督學(xué)習(xí)的差別。劉知遠(yuǎn)指出,傳統(tǒng)大模型特別是o1以前的GPT系列模型,都采用監(jiān)督學(xué)習(xí)的訓(xùn)練方法,意味著模型學(xué)習(xí)的目標(biāo)有標(biāo)準(zhǔn)答案。比如讓模型根據(jù)一篇文章的部分文字,去預(yù)測下一個詞。由于用于訓(xùn)練的文章是完整的,因此這個詞是固定的,預(yù)測結(jié)果也有明確的對錯。人類就像嚴(yán)厲的老師,對模型的預(yù)測行為反復(fù)規(guī)訓(xùn)。
而強(qiáng)化學(xué)習(xí)則是在開放環(huán)境中進(jìn)行的任務(wù)訓(xùn)練,開發(fā)者只會告訴模型,它走出的每一步會得到外部環(huán)境怎樣的反饋。模型需要根據(jù)反饋,自己學(xué)會如何接近最終目標(biāo)。“這個世界沒有那么多純數(shù)學(xué)題,因此無法永遠(yuǎn)通過給標(biāo)準(zhǔn)答案的方式,讓模型完成監(jiān)督學(xué)習(xí)。”劉知遠(yuǎn)說。從監(jiān)督學(xué)習(xí)向強(qiáng)化學(xué)習(xí)的范式轉(zhuǎn)變,是實(shí)現(xiàn)推理模型的關(guān)鍵。
劉子緯指出,o1可視作大模型強(qiáng)化學(xué)習(xí)的鼻祖,但其沒有公開技術(shù)文件,因此其強(qiáng)化學(xué)習(xí)的具體技術(shù)路線和占比,只能靠業(yè)內(nèi)猜測,但可以推測其采用了預(yù)訓(xùn)練、監(jiān)督微調(diào)、強(qiáng)化學(xué)習(xí)的流程。預(yù)訓(xùn)練類似“背書自學(xué)”基礎(chǔ)知識,監(jiān)督微調(diào)類似學(xué)生模仿教師的示范來解例題,最后強(qiáng)化學(xué)習(xí)相當(dāng)于“模擬考試”。而R1則拋棄了監(jiān)督學(xué)習(xí),僅憑基礎(chǔ)語言能力和數(shù)學(xué)規(guī)則,在持續(xù)解題試錯中自悟方法論,考出高分,這一點(diǎn)得到了絕大多數(shù)從業(yè)者的贊嘆。
R1提出的純強(qiáng)化學(xué)習(xí)讓模型自主學(xué)習(xí)成為可能。劉子緯認(rèn)為,這可以類比AlphaGo,其早期模型也是混合模型,類似于監(jiān)督學(xué)習(xí)加上搜索,從人類的棋譜中學(xué)習(xí)。2017年的AlphaGo Zero模型則完全拋棄了人類棋譜,通過強(qiáng)化學(xué)習(xí)完成自我對弈訓(xùn)練,產(chǎn)生眾多“妙招”,最終完全超越人類棋手?!氨O(jiān)督學(xué)習(xí)向強(qiáng)化學(xué)習(xí)的過渡正在大模型領(lǐng)域發(fā)生?!眲⒆泳曊f。
而除了性能外,R1更令人震撼的優(yōu)點(diǎn)在于便宜。2024年底,DeepSeek推出V3模型,作為R1的前體,訓(xùn)練成本僅為557.6萬美元,而2020年發(fā)布的GPT-3的訓(xùn)練成本接近1200萬美元,GPT-4更是超1億美元。技術(shù)報告顯示,R1面向開發(fā)者的服務(wù)定價為每百萬輸入字符串(token)1—4元,這一價格只有o1的1/30左右。不過,DeepSeek團(tuán)隊(duì)目前仍未公開R1確切的開發(fā)成本。
R1怎么能如此便宜?劉子緯認(rèn)為,在算力達(dá)到一定量級的情況下,可以通過工程創(chuàng)新把性能差距抹平。在堆算力的“大力出奇跡”路線進(jìn)入瓶頸后,DeepSeek選擇在底層算法、訓(xùn)練模式和數(shù)據(jù)三個層面進(jìn)行了工程迭代。基于混合專家模型、注意力機(jī)制等方面的創(chuàng)新,R1做到了“用50次運(yùn)算達(dá)成別人做100次運(yùn)算的效果”,效能提升明顯。而在拋棄監(jiān)督學(xué)習(xí)后,計(jì)算資源的需求也大幅減少。
截至2月1日,DeepSeek日活躍用戶突破3000萬大關(guān)。有業(yè)內(nèi)人士稱,R1已成為美國頂尖高校研究人員的首選模型。一位不愿具名的來自澳門大學(xué)的AI研究者向《中國新聞周刊》表示,R1完全可以取代日??蒲袑PT模型的使用需求,在對科研文章的錯誤識別、修改潤色、語言轉(zhuǎn)換上都表現(xiàn)出色。
盡管R1展現(xiàn)出了驚人的推理能力,但它的思維過程可能難以被人理解。技術(shù)報告指出,純強(qiáng)化學(xué)習(xí)訓(xùn)練出來的模型存在可讀性差和語言混雜問題,有用戶反映多語言輸入可能會造成模型輸出混亂,有時中文的提問也可能得到英文回答。這一現(xiàn)象更多出現(xiàn)在純強(qiáng)化學(xué)習(xí)的R1-Zero模型中。
劉子緯將R1形容為“有些偏科的數(shù)理天才”。R1在他眼中雖然很聰明,但給出的文字回復(fù)相比于o1缺乏流暢性和情緒價值,顯得笨拙?!肮径ㄎ粫?dǎo)致其偏重模型性能?!眲⒆泳曊f。由于DeepSeek還在提升模型能力,尚未開始優(yōu)化用戶體驗(yàn),因此用戶親和度方面還有待提升。在這一點(diǎn)上,OpenAI涉足較早。
當(dāng)創(chuàng)作任務(wù)涉及推演和類比時,R1的表現(xiàn)仍可圈可點(diǎn)。有測試者用簡單的幾個提示詞,就讓R1在極短時間內(nèi)創(chuàng)作了一篇情節(jié)精彩的科幻小說。社交平臺上,有電影評論賬號喂給R1《出師表》,讓其仿照該文體創(chuàng)作一篇影評,R1給出了符合文言文規(guī)范,且“超越一般影評人”的洞見。劉子緯認(rèn)為,模型的推理能力可以遷移到文學(xué),令其產(chǎn)生通過邏輯思辨的方式創(chuàng)作議論文的能力。
用戶使用R1的過程中,偶爾會得到錯誤答案,甚至有用戶發(fā)現(xiàn)詢問R1身份時,其有可能自稱o1。這種混亂廣泛出現(xiàn)在現(xiàn)有大模型中,有業(yè)內(nèi)人士認(rèn)為,這源于大多數(shù)模型對OpenAI基礎(chǔ)模型的蒸餾。蒸餾操作將訓(xùn)練過的“教師模型”的知識傳遞給“學(xué)生模型”,從而在最大程度保存原模型性能的同時,大幅縮減計(jì)算資源消耗。“有模型做到了60分,我想迅速達(dá)到55分的水平,比較快的方式就是去蒸餾一個‘教師模型’,可以迅速拿到模型反饋,暴露思維過程,得到可貴的數(shù)據(jù)基礎(chǔ)。研發(fā)初期,許多企業(yè)都依靠或者部分依靠模型蒸餾。”劉子緯坦言。
由于原模型只能提供60分的答案,要漲到70分就得靠模型努力找一條新路。因此蒸餾無法形成模型的真正迭代。劉知遠(yuǎn)認(rèn)為,強(qiáng)化學(xué)習(xí)是通向AGI的重要版圖之一,已成為大模型未來發(fā)展的業(yè)內(nèi)共識。強(qiáng)化學(xué)習(xí)的技術(shù)成熟也需要時間,蒸餾遺存的問題有待發(fā)展過程中解決。
劉子緯指出,R1使用了一些GPT-4o產(chǎn)生的數(shù)據(jù)去做“熱啟動”,讓模型先形成對現(xiàn)有問題的基本認(rèn)知。完全“冷啟動”讓模型立刻進(jìn)入強(qiáng)化學(xué)習(xí)狀態(tài)是非常困難的?!耙粋€小學(xué)生學(xué)習(xí)知識也得先學(xué)課本,達(dá)到一定的智力水平后,再進(jìn)入實(shí)踐中學(xué)習(xí)?!庇谜鎸?shí)數(shù)據(jù)而非模型數(shù)據(jù)訓(xùn)練模型是開發(fā)者的共識,但真實(shí)數(shù)據(jù)的篩選、清洗、降噪等并不容易。
“即使用模型輸出數(shù)據(jù)也很難保證訓(xùn)練結(jié)果,這取決于人類給模型創(chuàng)造了怎樣的問題,以及提供怎樣的答案?!眲⒆泳曊f。例如,DeepSeek使用了大量代碼數(shù)據(jù)、數(shù)學(xué)題甚至奧數(shù)題用于訓(xùn)練R1。“如何將這些數(shù)據(jù)喂給模型,需要大量創(chuàng)新?!?/p>
從這一意義上說,R1的表現(xiàn)已足夠出色,而它的創(chuàng)造者的主業(yè)甚至不是AI。DeepSeek背后的投資公司為幻方量化,是一家依靠數(shù)學(xué)與計(jì)算機(jī)科學(xué)進(jìn)行量化投資的基金公司。該公司從2016年起將深度學(xué)習(xí)模型應(yīng)用于實(shí)盤交易,囤積了大量算力,正式成立大模型團(tuán)隊(duì)DeepSeek的時間則是2023年。“也算是副業(yè)做得比主業(yè)出圈的典型了。”劉子緯說。
DeepSeek的出圈很快在芯片、云計(jì)算等領(lǐng)域產(chǎn)生了溢出效應(yīng)。國內(nèi)外許多芯片廠商都開始致力于搭載DeepSeek模型或者其精簡、蒸餾模型。1月29日,美國芯片廠商AMD上線了基于其芯片的DeepSeek模型部署指南。而在云領(lǐng)域,華為云、騰訊云等國內(nèi)云廠商在春節(jié)期間“緊急加更”,均上線了DeepSeek R1的部署工具。
盡管如此,大模型企業(yè)仍需審慎研判模型的商業(yè)價值,也就是能不能賺錢。劉知遠(yuǎn)指出,國內(nèi)外企業(yè)都還在尋找大模型的最佳變現(xiàn)方式。目前,市場上已有多家企業(yè)具備做出GPT水平大模型的能力,接下來要考慮區(qū)分度是什么,落地的用戶App是什么,以及在價格戰(zhàn)的前提下如何收回上億元的研發(fā)成本。這些問題的答案都還相對模糊。
劉子緯認(rèn)為,大模型已足夠強(qiáng),但在垂類上跟用戶需求還沒有緊密貼合,未來AGI的核心交互形態(tài)也尚無定論。目前,國內(nèi)外大模型企業(yè)一部分繼續(xù)高舉高打AGI,保證模型能力,通過用戶來試探落地方式。比如有學(xué)生用大模型來備考、寫論文等等。另一部分企業(yè)則專注于做垂類應(yīng)用,比如醫(yī)療大模型。劉子緯預(yù)計(jì),2025年會涌現(xiàn)一大批大模型應(yīng)用,是真正的“強(qiáng)化學(xué)習(xí)之年”。
多位業(yè)內(nèi)人士表示,DeepSeek真正的價值,在于展示了工程實(shí)踐和理論創(chuàng)新之間的平衡點(diǎn),開創(chuàng)了一條符合現(xiàn)實(shí)算力約束的技術(shù)迭代道路?!癛1說明開源 AI 僅落后于閉源 AI 不到 6 個月?!痹趧⒅h(yuǎn)看來,GPT階段也就是2023年初的時候, OpenAI模型發(fā)布之后,國內(nèi)團(tuán)隊(duì)需要一年的時間才能趕上。但是到了文生視頻模型Sora,以及后來的GPT-4o和o1,國內(nèi)的追趕時間縮短到半年以內(nèi)。
R1發(fā)布后的幾天內(nèi),美國芯片巨頭英偉達(dá)股價大跌,市值蒸發(fā)達(dá)數(shù)十億美元。美國總統(tǒng)特朗普在采訪中將DeepSeek的成果形容為“對美國企業(yè)的警鐘”。
過去一段時間,DeepSeek陸續(xù)出現(xiàn)各大端口不可用的情況,一度無法注冊賬號。DeepSeek于1月28日發(fā)布公告稱,其線上服務(wù)正遭受大規(guī)模惡意攻擊。這一現(xiàn)象到2月1日才有所緩解。當(dāng)?shù)貢r間7日,特朗普最新表態(tài)稱,DeepSeek不會對國家安全構(gòu)成威脅,美國最終可以從這家初創(chuàng)公司的AI創(chuàng)新中“受益”。
OpenAI也嘗試與DeepSeek爭風(fēng)頭。1月31日,o3-mini和o3-mini-high兩大版本在ChatGPT正式上線。o3-mini可以視為其最新一代大模型o3的更小、更高效版本。與R1類似,o3-mini也擅長復(fù)雜的推理任務(wù),包括科學(xué)、數(shù)學(xué)和編碼,響應(yīng)速度比o1快20%以上。谷歌也于2月6日發(fā)布了最新系列大模型Gemini 2.0。
這一次的碰撞檢測中,o3-mini的表現(xiàn)明顯優(yōu)于R1,特別是在多球碰撞的情景下,o3-mini展現(xiàn)出了非常精準(zhǔn)的物理推理能力,沒有出現(xiàn)R1中出現(xiàn)過的反重力現(xiàn)象,其構(gòu)建的小球碰撞模型,也令人咋舌。
不僅如此,OpenAI還在2月2日突然開啟直播,介紹了下一代智能體產(chǎn)品Deep Research。該產(chǎn)品基于優(yōu)化版o3打造,可以在互聯(lián)網(wǎng)上進(jìn)行多步驟研究,進(jìn)行綜合推理。根據(jù)直播內(nèi)容,Deep Research思考時間可能長達(dá)半小時,但返回結(jié)果可能是一篇完整的、引用翔實(shí)的科研論文。多位受訪者認(rèn)為,如果性能穩(wěn)定,Deep Research會將大模型的“專家級科研”能力向前推進(jìn)一大步。
不過,o3-mini仍然沒有擺脫語言混亂的問題。許多用戶在社交媒體X上反映,o3-mini有時會在面對英文提問時用中文進(jìn)行一長串思考,而此前的對話中從未出現(xiàn)過中文或使用中文的提示。這讓用戶懷疑o3-mini是否使用了DeepSeek的訓(xùn)練數(shù)據(jù)。劉知遠(yuǎn)認(rèn)為,大可不必“談?wù)麴s色變”。事實(shí)上,用多種語言訓(xùn)練模型,使其了解不同語言習(xí)慣和文化,也是訓(xùn)練必不可少的一部分。目前,大模型語言混亂的問題尚待解決。
多位業(yè)內(nèi)人士表示,由于DeepSeek的沖擊,o3-mini對所有 ChatGPT 用戶免費(fèi),面向開發(fā)者時,其收費(fèi)為每百萬token輸入1.1美元、輸出4.4美元。這一價格比OpenAI o1-mini便宜63%,比完整版o1便宜93%,但仍是GPT-4o mini的7倍左右,也超過R1。而緊隨谷歌Gemini 2.0的發(fā)布,2月6日,OpenAI宣布完全開放ChatGPT的搜索功能。也就是說,無須注冊登錄,所有用戶現(xiàn)在都可以像用普通搜索引擎一樣使用ChatGPT搜索了。
在劉知遠(yuǎn)看來,DeepSeek橫空出世,引發(fā)的不僅是價格戰(zhàn),更是一種開源技術(shù)的“平權(quán)運(yùn)動”。他認(rèn)為,AI本身源于互聯(lián)網(wǎng)場景的支持性技術(shù),從其發(fā)展歷程來看,AI領(lǐng)域基本由學(xué)術(shù)界、產(chǎn)業(yè)界共同推進(jìn),開源共享是“默認(rèn)設(shè)置”?!白鳛檠芯空吆蛷臉I(yè)者,從踏入AI領(lǐng)域開始,我們受到的就是開源熏陶。論文要接受全世界的檢驗(yàn),方法和數(shù)據(jù)要公開,模型要能被別人復(fù)現(xiàn)。這樣才能評斷好壞,從而形成對未來正確發(fā)展道路的共識?!?/p>
當(dāng)技術(shù)開始變得有商業(yè)價值之后,自然就會有企業(yè)開始構(gòu)建技術(shù)壁壘,放棄開源。在劉知遠(yuǎn)看來,閉源終將是不可持續(xù)的。DeepSeek的爆火讓非從業(yè)者看到了行業(yè)的“部分真相”。現(xiàn)在普通人也知道,打算力陣地戰(zhàn)不明智。有數(shù)據(jù)顯示,采用DeepSeek優(yōu)化架構(gòu)后,同等任務(wù)下,華為昇騰芯片的能效比提升41%,AMD也借助DeepSeek實(shí)現(xiàn)了32%的推理效率躍升。“算法和架構(gòu)能夠顛覆算力壟斷,通過芯片禁運(yùn)等方式來遏制國內(nèi)大模型發(fā)展難以行通。這就是開源的力量。”劉知遠(yuǎn)說。
2月6日,國家超算互聯(lián)網(wǎng)發(fā)布官方消息,目前R1等系列模型已登陸超算互聯(lián)網(wǎng)平臺,涵蓋從1.5B到14B大小的蒸餾模型,后續(xù)還會陸續(xù)上線32B、70B等更多版本。劉知遠(yuǎn)指出,DeepSeek模型進(jìn)駐國家超算平臺,證明普惠、可靠的AI大模型時代將要來臨?!澳P投x硬件”的新范式下,有業(yè)內(nèi)人士表示,DeepSeek的影響可能進(jìn)一步觸及國家智算、超算領(lǐng)域,通過改變算力需求,來重構(gòu)算力部署和建設(shè)。
“當(dāng)然,閉源也有它的生命力。企業(yè)需要一套具備充足保密性和安全性的體系,來實(shí)現(xiàn)自身的穩(wěn)定發(fā)展,從而保證其研究實(shí)力和銳度。很長一段時間內(nèi),開源和閉源大模型仍會共存。”劉子緯說。但無可否認(rèn)的是,DeepSeek正構(gòu)建出一種更加健康的業(yè)態(tài)。