當(dāng)人們回憶起2025年春節(jié)的時(shí)候,一定不會(huì)忘記兩件事:橫空出世的DeepSeek與不斷刷新全球影史票房紀(jì)錄的動(dòng)畫電影《哪吒之魔童鬧?!?。這本來(lái)是風(fēng)馬牛不相及的兩件事,但卻罕見(jiàn)地引發(fā)全球關(guān)注,至今熱度不減。
這是中國(guó)制造再一次帶給全球的震撼。從1月20日,國(guó)內(nèi)的AI初創(chuàng)公司深度求索推出了大模型DeepSeek R1,以“低成本、高性能”震撼了整個(gè)AI界。在之后相當(dāng)長(zhǎng)的一段時(shí)間內(nèi),全世界“滿城盡帶DeepSeek”,DeepSeek登頂全球140個(gè)國(guó)家應(yīng)用商店下載榜,引發(fā)全球AI生態(tài)的巨大改變。全球科技公司包括英偉達(dá)、微軟、亞馬遜、華為、騰訊等迅速推出基于DeepSeek的相關(guān)產(chǎn)品服務(wù),OpenAI、百度紛紛改弦易轍,宣布免費(fèi)、開(kāi)源。
自1月29日正式上映以來(lái),動(dòng)畫電影《哪吒之魔童鬧?!芬褎?chuàng)造多項(xiàng)紀(jì)錄:2月6日登頂我國(guó)影史票房榜,2月7日登頂全球影史單一市場(chǎng)票房榜……如今,影片票房勢(shì)如破竹突破百億元,并在全球展開(kāi)熱映,意味著它在全球影史票房榜上挺進(jìn)前十,且排名將進(jìn)一步提升。
DeepSeek的創(chuàng)始人梁文鋒和《哪吒之魔童鬧?!返膶?dǎo)演餃子帶領(lǐng)團(tuán)隊(duì),以“我命由我不由天”的反叛精神和純粹極致的本土原創(chuàng),形成了足以載入史冊(cè)的重大突破。特別是DeepSeek,以開(kāi)源模型和長(zhǎng)上下文窗口技術(shù),突破傳統(tǒng)AI研發(fā)范式,使得推理成本僅為同類產(chǎn)品的幾十分之一,卻實(shí)現(xiàn)了與OpenAI最新模型相近的性能,大幅降低AI應(yīng)用門檻,加速技術(shù)普惠化,使得更多開(kāi)源模型能夠“站在巨人的肩膀上”加速迭代。
一款A(yù)I產(chǎn)品和一部動(dòng)畫電影,皆以“叛逆者”的姿態(tài),挑戰(zhàn)既有規(guī)則,彰顯了“不妥協(xié)”的韌性??此品謱俨煌I(lǐng)域,卻在精神內(nèi)核、時(shí)代意義與產(chǎn)業(yè)影響上形成共振,成為解碼中國(guó)創(chuàng)新力量的密鑰。它們的爆火,本質(zhì)上正是科技與文藝興盛的“一體兩面”,它們以反叛精神突破桎梏,以本土智慧定義標(biāo)準(zhǔn),以協(xié)同創(chuàng)新開(kāi)辟新路徑,讓中國(guó)從“文化被解釋者”向“規(guī)則定義者”轉(zhuǎn)型,最終在全球化浪潮中刻畫出嶄新的“中國(guó)臉譜”,書寫出新時(shí)代的中國(guó)故事!
由于DeepSeek的出圈太過(guò)驚艷,大家形容它是“橫空出世”。其實(shí),DeepSeek的崛起并非突如其來(lái)。在此之前的一年多時(shí)間里,DeepSeek已經(jīng)陸續(xù)推出了數(shù)個(gè)大模型。
2024年1月5日,DeepSeek發(fā)布了首個(gè)大模型DeepSeek LLM,邁出了在大模型領(lǐng)域的重要一步。同年5月,其宣布開(kāi)源第二代模型 DeepSeek-V2,憑借出色的性能和極具優(yōu)勢(shì)的價(jià)格,被眾人稱為 “AI界拼多多”。不過(guò)在當(dāng)時(shí),中國(guó)的大模型行業(yè)正處于“百模大戰(zhàn)”的混戰(zhàn)之中,大廠們呼風(fēng)喚雨,出盡風(fēng)頭,并沒(méi)有太多人注意到這家從量化基金行業(yè)“跨界”而來(lái)的“小公司”。
2024年9月5日,DeepSeek升級(jí)推出新模型DeepSeek V2.5。同年12月13日,發(fā)布用于高級(jí)多模態(tài)理解的專家混合視覺(jué)語(yǔ)言模型——DeepSeek-VL2。12月26日晚,正式上線全新模型DeepSeek-V3首個(gè)版本,并同步開(kāi)源。DeepSeek在技術(shù)報(bào)告中透露其訓(xùn)練成本(不包括前期研發(fā)成本)僅為 558萬(wàn)美元,遠(yuǎn)遠(yuǎn)低于 OpenAI 用于訓(xùn)練 GPT-4o 所用的1億多美元,只用了 2048 張 H100 的 GPU 集群,再疊加其出色的性能,開(kāi)始引起全球同行的熱議,影響力開(kāi)始逐步擴(kuò)大、發(fā)酵。
但是,這次DeepSeek的正式大規(guī)?!俺鋈Α?,則是源自于在2025年1月20日發(fā)布的 DeekSeek-R1 推理大模型。該模型以更加出色的邏輯推理能力,達(dá)到了接近甚至超過(guò) OpenAI 最新產(chǎn)品 o1 的能力。這一消息瞬間在全球范圍內(nèi)激起千層浪,硅谷的科技媒體開(kāi)始將其稱為新時(shí)代的 “斯普特尼克時(shí)刻”(1957年10月4日,蘇聯(lián)成功發(fā)射世界上第一顆人造衛(wèi)星“斯普特尼克1號(hào)”后,引發(fā)美國(guó)及西方世界在科技和軍事領(lǐng)域感受到的巨大危機(jī)感與緊迫感的時(shí)刻)。
那么,DeepSeek到底厲害在哪?主要得益于三大突出優(yōu)勢(shì):開(kāi)源、性能、成本。
清華大學(xué)博士、浙江大學(xué)金融學(xué)系校外導(dǎo)師崔偉指出,跟作為業(yè)界性能標(biāo)桿的OpenAI、ChatGPT 和 Antroupic Claude 相比,DeepSeek-R1 的最大區(qū)別在于開(kāi)源。
所謂“開(kāi)源”,是一種相對(duì)于閉源的軟件產(chǎn)品發(fā)布方式,即把自己的產(chǎn)品代碼通過(guò) Github 等平臺(tái)全部公開(kāi)。過(guò)去的開(kāi)源模型總體性能欠佳,而DeepSeek改變了這一點(diǎn),讓全世界的用戶、開(kāi)發(fā)者和科研機(jī)構(gòu),以極低的技術(shù)門檻,享受到以接近甚至超過(guò)閉源的效果。這一舉措徹底打破了以往大型語(yǔ)言模型被少數(shù)公司壟斷的局面,真正將AI技術(shù)的力量交到了廣大開(kāi)發(fā)者和研究人員的手中,極大地推動(dòng)了AI技術(shù)的創(chuàng)新。AI界的領(lǐng)軍人物之一、Meta 公司首席 AI 科學(xué)家、圖靈獎(jiǎng)得主楊立昆在社交媒體上評(píng)論說(shuō):不是中國(guó)超越了美國(guó),而是開(kāi)源模式正在超越閉源。
上海市人工智能行業(yè)協(xié)會(huì)秘書長(zhǎng)鐘俊浩指出,DeepSeek 的團(tuán)隊(duì)來(lái)自量化交易領(lǐng)域,擅長(zhǎng)通過(guò)算法優(yōu)化實(shí)現(xiàn)“低資源高回報(bào)”。他們從一開(kāi)始就目標(biāo)明確地將這種量化基因巧妙地運(yùn)用到了AI開(kāi)發(fā)中,使 DeepSeek 在模型訓(xùn)練和優(yōu)化方面獨(dú)具特色,實(shí)際性能對(duì)標(biāo)GPT-o1,有些能力甚至超過(guò)o1。
崔偉進(jìn)一步指出,DeepSeek 在技術(shù)上有許多創(chuàng)新。比如說(shuō)全球首個(gè)全開(kāi)源的混合專家模型(MoE)。這種模型在遇到用戶提出的問(wèn)題時(shí),先拆解、分類,再由相應(yīng)領(lǐng)域的專家來(lái)解答,各司其職,而不需要所有專家集體會(huì)診,從而極大降低計(jì)算量。
通過(guò)知識(shí)蒸餾的方式,將大模型的高級(jí)能力有效地轉(zhuǎn)移到更小的模型中,不用堆參數(shù)、卷算力,小公司也有了入局參與 AI 競(jìng)爭(zhēng)的可能。
DeepSeek 采用的是純強(qiáng)化學(xué)習(xí),而不是 GPT 所采用的“人類反饋強(qiáng)化學(xué)習(xí)”。它純粹讓模型在獎(jiǎng)勵(lì)指引下自我演化,也就是說(shuō),完全不需要人類參與。簡(jiǎn)單來(lái)說(shuō),你可以把它想象成老師出題,每道題讓模型同時(shí)回答多次,然后用上面的獎(jiǎng)懲規(guī)則給每個(gè)答案打分,根據(jù)追求高分、避免低分的邏輯更新模型。在完全沒(méi)有人工標(biāo)注數(shù)據(jù)的情況下,模型展現(xiàn)出了持續(xù)的自我進(jìn)化能力,出現(xiàn)了所謂的“頓悟時(shí)刻”(Aha moment)。
“這一點(diǎn)其實(shí)是非常重要的突破。過(guò)去限制大模型發(fā)展、升級(jí)的一個(gè)重要瓶頸,就是需要人類的參與,包括數(shù)據(jù)標(biāo)注和獎(jiǎng)勵(lì),現(xiàn)在 DeepSeek 擺脫了這個(gè)‘鐐銬’,讓大模型可以通過(guò)自我推理持續(xù)進(jìn)化,那么剩下的就完全是機(jī)器效率問(wèn)題了。這就仿佛是,從過(guò)去彎彎曲曲的羊腸小道,走上了一馬平川的高速公路。”崔偉說(shuō)。
DeepSeek 在 R1 技術(shù)報(bào)告中,專門介紹了自己在蒸餾方面的成果,標(biāo)題為《小模型也可以干大事》,即用 R1 模型生成的數(shù)據(jù),對(duì)業(yè)界一些主流的開(kāi)源模型進(jìn)行調(diào)優(yōu),獲得體積較小的模型。通過(guò)知識(shí)蒸餾的方式,將大模型的高級(jí)能力有效地轉(zhuǎn)移到更小的模型中,不用堆參數(shù)、卷算力,小公司也有了入局參與 AI 競(jìng)爭(zhēng)的可能。
DeepSeek 還有一個(gè)大殺器——成本低廉。從參數(shù)上看,R1是一個(gè)比較小的大模型,總共有6710億個(gè)參數(shù),而且一次推理調(diào)用的參數(shù)只有370億個(gè)。與之相對(duì)應(yīng)的是,GPT-4的參數(shù)有1.76萬(wàn)億個(gè)。調(diào)用數(shù)據(jù)量變小,計(jì)算變少,一個(gè)最直接的結(jié)果就是成本下降。
鐘俊浩說(shuō),外界盛傳DeepSeek的成本只有不到幾百萬(wàn)美元,這是不準(zhǔn)確的。確切地說(shuō)這只是模型的預(yù)訓(xùn)練成本。早在2021年,梁文鋒所在的幻方量化就意識(shí)到AI在金融之外的潛力,所以花費(fèi)巨資購(gòu)買了GPU計(jì)算卡,再加上搭配服務(wù)器等各類系統(tǒng)以及運(yùn)營(yíng)成本等,研究機(jī)構(gòu)SemiAnalysis出具的報(bào)告估算大約在26億美元。當(dāng)然,這些硬件還將繼續(xù)使用,不能全算在R1這個(gè)模型身上?!斑@是一家公司持續(xù)幾年的大規(guī)模投入,一群富有極客精神的頂尖人才持續(xù)研發(fā)的結(jié)果。”
但即便是這樣,R1模型600萬(wàn)美元的訓(xùn)練成本,也已經(jīng)比市面上的同類模型低了一個(gè)數(shù)量級(jí)。比如,Meta去年7月發(fā)布的Llama 3.1大模型,訓(xùn)練費(fèi)用是6000萬(wàn)美元,這在當(dāng)年已經(jīng)算是很便宜的大模型了,但它的訓(xùn)練成本依然是R1的10倍。
拋開(kāi)商業(yè)化應(yīng)用,對(duì)于普通人來(lái)說(shuō),DeepSeek-R1 在對(duì)話中可以方便地啟動(dòng)“深度思考”功能,用戶既可以看到它的思考過(guò)程,又能夠獲得更加全面、深入的對(duì)話結(jié)果,畢竟之前沒(méi)有任何一款大語(yǔ)言模型,讓你看到 AI 是如何思考的。就是這一點(diǎn),讓 DeepSeek R1 看起來(lái)像真正的 AI。再對(duì)比記者自己使用豆包和kimi等其他大模型時(shí),感覺(jué)它們的大多數(shù)回答就像整理搜索引擎的結(jié)果一樣無(wú)趣,撰寫的文章也大多是非常程式化的車轱轆話,完全沒(méi)有體現(xiàn)出智能性,甚至還一本正經(jīng)地造了很多子虛烏有的人物和事件出來(lái),讓記者不得不花費(fèi)大量時(shí)間去核實(shí)真?zhèn)巍.?dāng)然,DeepSeek 也被爆出造假,但它仍然是目前市面上我們能夠用到的最好使的免費(fèi)AI。
AI 將帶來(lái)新一代的技術(shù)革命,科技將以指數(shù)級(jí)增長(zhǎng),從算力到算法,AI 不再是線性的累加,而是幾何級(jí)的爆發(fā)?,F(xiàn)在的AI已經(jīng)越過(guò)了1.0聊天機(jī)器人時(shí)代、2.0推理時(shí)代,來(lái)到了3.0智能體時(shí)代。
在AI這場(chǎng)全球科技競(jìng)爭(zhēng)中,中美兩國(guó)無(wú)疑處于最為聚光的舞臺(tái)中心。隨著 ChatGPT、Sora 等AI產(chǎn)品的火爆,美國(guó)一度在全球人工智能的發(fā)展方面遙遙領(lǐng)先。但隨著DeepSeek的橫空出世,一場(chǎng)關(guān)乎全球技術(shù)、市場(chǎng)、政治領(lǐng)域的三重沖擊波被引爆。
在全球AI競(jìng)賽陷入算力軍備競(jìng)賽的背景下,DeepSeek 通過(guò)“技術(shù)瘦身+開(kāi)源共享”的創(chuàng)新,開(kāi)辟出高性價(jià)比的突圍路徑。這是一條區(qū)別于OpenAI等封閉式AI公司的發(fā)展路徑。與依賴私有數(shù)據(jù)和算力壟斷的傳統(tǒng)路線不同,DeepSeek選擇將大模型技術(shù)開(kāi)源,允許全球開(kāi)發(fā)者自由使用、改進(jìn)和部署其模型。這一策略不僅繼承了Transformer架構(gòu)的技術(shù)紅利,更充分激活了開(kāi)源社區(qū)的力量——正如GitHub上超2萬(wàn)次代碼提交所展現(xiàn)的,全球開(kāi)發(fā)者的集體智慧正在取代傳統(tǒng)實(shí)驗(yàn)室,成為算法優(yōu)化和系統(tǒng)迭代的新引擎。
正如Scale AI創(chuàng)始人亞歷山大·王(Alexander Wang)在社交平臺(tái)所言:這標(biāo)志著全球AI競(jìng)賽進(jìn)入效率革命新紀(jì)元。這種低成本替代高投入的創(chuàng)新范式,使得美國(guó)精心構(gòu)筑的技術(shù)壁壘遭遇雙重瓦解:既無(wú)法徹底阻斷硬件流通,更難以遏制算法層面的效率躍升。
實(shí)際上,自2022年起拜登政府對(duì)我國(guó)實(shí)施史上最嚴(yán)芯片禁令以來(lái),美國(guó)不僅禁止英偉達(dá)A100/H100等高端GPU對(duì)華出口,更將中國(guó)AI公司列入實(shí)體清單,試圖通過(guò)精準(zhǔn)打擊遏制中國(guó)人工智能發(fā)展。然而這場(chǎng)科技圍堵卻意外觸發(fā)反向創(chuàng)新——中國(guó)企業(yè)被迫從堆算力轉(zhuǎn)向摳效率。DeepSeek以低成本復(fù)現(xiàn)最先進(jìn)模型,以開(kāi)源對(duì)抗閉源,以算法優(yōu)化對(duì)抗算力限制的“三板斧”,僅需中端GPU集群即可運(yùn)行頂級(jí)模型的新范式,引發(fā)美國(guó)科技界對(duì)行業(yè)戰(zhàn)略方向的重新審視。
中美兩國(guó)在大模型的發(fā)展上,從一開(kāi)始就采取了不同的策略。在“政策護(hù)航+資源整合”的模式下,使得中國(guó)在短期內(nèi)實(shí)現(xiàn)了大模型數(shù)量的爆發(fā)式增長(zhǎng)。截至2025年,國(guó)內(nèi)10億級(jí)以上參數(shù)大模型超過(guò)80個(gè),并在醫(yī)療、教育等垂直領(lǐng)域形成比較優(yōu)勢(shì)。相比之下,美國(guó)更多依賴市場(chǎng)機(jī)制與資本活力來(lái)驅(qū)動(dòng)創(chuàng)新,并且因?yàn)樵谒惴▌?chuàng)新與算力基礎(chǔ)設(shè)施上占據(jù)優(yōu)勢(shì),而在技術(shù)生態(tài)中占據(jù)主導(dǎo)權(quán)。中國(guó)大模型則聚焦“技術(shù)實(shí)用主義”,注重場(chǎng)景適配,在應(yīng)用研究和技術(shù)落地方面表現(xiàn)突出。
短期內(nèi),美國(guó)仍將主導(dǎo)基礎(chǔ)技術(shù)創(chuàng)新,而中國(guó)憑借應(yīng)用場(chǎng)景與數(shù)據(jù)資源,有望在垂直領(lǐng)域?qū)崿F(xiàn)“彎道超車”。雙方在數(shù)據(jù)、算力和算法上的博弈,將更加激烈。長(zhǎng)期看,中美兩國(guó)的競(jìng)爭(zhēng)將推動(dòng)全球AI生態(tài)向“雙極化”演進(jìn):美國(guó)聚焦通用智能與基礎(chǔ)研究,中國(guó)深耕行業(yè)賦能與本土化創(chuàng)新。
沒(méi)有國(guó)家愿意在這場(chǎng)新的競(jìng)賽中被拋棄。2月11日歐盟委員會(huì)主席馮德萊恩在巴黎人工智能行動(dòng)峰會(huì)上發(fā)言聲稱,不認(rèn)為歐洲在AI競(jìng)賽中失敗,并宣布將籌資2000億歐元,放松對(duì)AI技術(shù)開(kāi)發(fā)的監(jiān)管,助力歐洲AI行業(yè)發(fā)展,追趕全球AI發(fā)展的步伐。法國(guó)總統(tǒng)馬克龍則表示,法國(guó)將在人工智能領(lǐng)域投入超過(guò)千億歐元,以避免在競(jìng)爭(zhēng)中處于劣勢(shì)。
事實(shí)上,隨著DeepSeek的快速崛起,全球不少先進(jìn)的科技公司紛紛開(kāi)始改變公司策略。 OpenAI和百度作為閉源模型最堅(jiān)定的踐行者,相繼宣布開(kāi)源。2月13日,薩姆·奧爾特曼宣布GPT-5將向免費(fèi)用戶開(kāi)放基礎(chǔ)功能,同時(shí)將o3模型融入GPT-5體系。同一天,百度宣布文心一言4月1日起全面免費(fèi),6月30日起開(kāi)源4.5系列模型。
一天之后,騰訊微信搜一搜被曝正灰度測(cè)試接入DeepSeek。被灰度到的用戶,可免費(fèi)使用DeepSeek-R1滿血版模型。緊接著,百度搜索和文心智能體宣布全面接入DeepSeek。日新月異的AI正在以迅雷不及掩耳之勢(shì)全面進(jìn)入各行各業(yè)。全國(guó)多地宣布已將DeepSeek應(yīng)用于政務(wù)系統(tǒng)。深圳迅速上線了70名“AI公務(wù)員”,覆蓋公文處理、民生服務(wù)、應(yīng)急管理、招商引資等多元場(chǎng)景。個(gè)性化定制生成時(shí)間從5天壓縮至分鐘級(jí)。公文格式修正準(zhǔn)確率超95%,審核時(shí)間縮短90%,錯(cuò)誤率控制在5%以內(nèi)……
站在馬斯克背后的女人、方舟基金創(chuàng)始人木頭姐(Cathy Wood)近日發(fā)布了一份信息含量巨大的科技報(bào)告,她說(shuō),AI 將帶來(lái)新一代的技術(shù)革命,科技將以指數(shù)級(jí)增長(zhǎng),從算力到算法,AI 不再是線性的累加,而是幾何級(jí)的爆發(fā)。一個(gè)由AI 驅(qū)動(dòng)的超級(jí)加速器時(shí)代正在撲面而來(lái)。人工智能體(AI Agent)是能夠理解人類意圖、自主推理、迭代學(xué)習(xí)和完成復(fù)雜任務(wù)的AI系統(tǒng)?,F(xiàn)在的AI已經(jīng)越過(guò)了1.0聊天機(jī)器人時(shí)代、2.0推理時(shí)代,來(lái)到了3.0智能體時(shí)代。
正如網(wǎng)友所說(shuō):“技術(shù)不該是少數(shù)人的水晶塔,而是普羅大眾的風(fēng)火輪?!盌eepSeek 為世界各地的小型人工智能公司帶來(lái)了新的希望,這些公司曾將自己排除在競(jìng)爭(zhēng)之外。如今,DeepSeek 證明,你可能只需要幾千萬(wàn)美元(而不是幾千億美元)即可跟上AI前沿的步伐,所有國(guó)家都可以成為人工智能的一部分?,F(xiàn)在,全世界都開(kāi)始追趕。