盧志武，最難是思想的突破

2025-01-01 00:00:00向治霖

南風(fēng)窗 2025年1期

年度科學(xué)家到了AI時(shí)代，中國(guó)科學(xué)家大有可為。

人工智能，容易唬人。業(yè)內(nèi)的一眾人等，樂(lè)于為自己打造故事，或者說(shuō)一些驚世之論，“重寫一切代碼”已經(jīng)只是起步水準(zhǔn)，“超強(qiáng)AI威脅人類”早就屢聽(tīng)不鮮。

盧志武沒(méi)有這樣的故事，也不會(huì)講這樣的話，甚至看上去，他是一個(gè)訥言的人。

收起鋒芒，在人群中，他只是行色匆匆的普通人。與他交談時(shí)，他的語(yǔ)言也很樸素，音量不大。不同的是他的眼神，沉靜，清醒，似乎不怎么眨眼，能讓人感受到它的穿透力。

不像外表那樣的憨厚，盧志武是“有刺”的，尤其是提到團(tuán)隊(duì)成果與OpenAI的Sora“撞車”的時(shí)候。

2024年2月，美國(guó)最強(qiáng)的人工智能公司OpenAI，發(fā)布它新一代視頻生成模型Sora。就像它的上一個(gè)產(chǎn)品ChatGPT那樣，Sora對(duì)視頻生成領(lǐng)域作出顛覆性改變，拋棄業(yè)界傳統(tǒng)的U-Net架構(gòu)，改用擴(kuò)展性更好的Diffusion Transformer（縮寫為DiT）。

就在世人驚呼Sora生成的視頻效果之好、DiT技術(shù)的前途無(wú)限時(shí)，業(yè)內(nèi)赫然發(fā)現(xiàn)，在Sora發(fā)布的10個(gè)月前，在中國(guó)人民大學(xué)高瓴人工智能學(xué)院，盧志武教授的團(tuán)隊(duì)早就公開發(fā)布了“幾乎一模一樣”視頻生成技術(shù)的研究成果。

科學(xué)史上，一項(xiàng)成果的首發(fā)者身份歸誰(shuí)所有，是為數(shù)不多能讓“巨人們”爭(zhēng)得面紅耳赤的問(wèn)題。盧志武的團(tuán)隊(duì)領(lǐng)先10個(gè)月，沒(méi)什么“口水仗”可打。

不過(guò)，提到這個(gè)“撞車”事件，盧志武并不得意，也沒(méi)有笑容。他平淡的語(yǔ)氣反而變得嘲弄起來(lái)?！凹夹g(shù)上我們是第一個(gè)提出的，但把產(chǎn)品做出來(lái)，我們?yōu)槭裁床荒苁堑谝粋€(gè)呢？”

“一口氣”與“一根刺”

時(shí)勢(shì)造英雄。盧志武得“時(shí)”，也得“勢(shì)”。

2019年，中國(guó)人民大學(xué)的校友、高瓴資本創(chuàng)始人張磊捐資，網(wǎng)羅了“一大批很牛的人”，建設(shè)專門做AI研究的學(xué)院。從此，他們盯住了業(yè)內(nèi)的一切風(fēng)吹草動(dòng)。

更關(guān)鍵的是2020年，那是“大模型”剛剛被命名的一年。當(dāng)年10月，北京智源人工智能研究院向時(shí)任北京市市長(zhǎng)陳吉寧報(bào)告了“百人大模型計(jì)劃”，預(yù)備“煉大模型”，北京市決定大力支持。這一項(xiàng)目，就是后來(lái)被稱為中國(guó)第一個(gè)系列大模型的“悟道大模型”。

今天來(lái)看，悟道大模型是中國(guó)AI發(fā)展的轉(zhuǎn)折點(diǎn)，它也培養(yǎng)了中國(guó)第一批大模型人才。

煉大模型需要錢，“（北京市）一下子批了幾十億做大模型。所以，中國(guó)的大模型沒(méi)有掉隊(duì)得很厲害，都要感謝陳市長(zhǎng)”。盧志武如此評(píng)價(jià)。

悟道項(xiàng)目中，最重要的高校力量是“清華隊(duì)”和“人大隊(duì)”。就這樣，盧志武隨“人大隊(duì)”加入了這個(gè)元老級(jí)的大模型項(xiàng)目。

而那個(gè)時(shí)候，美國(guó)是AI絕對(duì)的主陣地，國(guó)內(nèi)的種種動(dòng)向，也不過(guò)是聞風(fēng)而起。

結(jié)合AI在美國(guó)的發(fā)展路線，會(huì)看得更清楚：2018年，谷歌發(fā)表著名的BERT論文，真正地將“預(yù)訓(xùn)練”的潛能發(fā)揮出來(lái)，AI開始顯現(xiàn)出“一模多用”的可能；2020年，OpenAI的GPT-3模型問(wèn)世，強(qiáng)大的性能震驚業(yè)內(nèi)，其1750億的參數(shù)量，遠(yuǎn)遠(yuǎn)超過(guò)當(dāng)時(shí)主流模型1億到10億的參數(shù)量，研究人員第一次感受到“暴力美學(xué)”。

從那時(shí)算，再過(guò)2年，由OpenAI領(lǐng)銜的新一代AI就將震撼世人。從未見(jiàn)過(guò)的玩法和產(chǎn)品，如生命演化中的寒武紀(jì)時(shí)期一般，有如神跡，至今層出不窮。

但作為AI學(xué)者，盧志武的眼中，“硅基生物的寒武紀(jì)”有跡可循，其演化也有邏輯存在。在2020年，雖然這一切還看不清楚，但他直覺(jué)到，大模型是真正的未來(lái)。

“肯定有理性的分析（來(lái)判斷），但是首先，這是一種直覺(jué)，你能立刻決定這個(gè)（大模型）能做?！北R志武說(shuō)。

那時(shí)他判斷，在此之前的上一代AI雖然很火，但已經(jīng)顯現(xiàn)出疲態(tài)來(lái)。舊版“AI四小龍”已經(jīng)走到茍延殘喘之時(shí)，有一些任務(wù)以及場(chǎng)景始終做不好，“說(shuō)明那一代AI的技術(shù)有缺陷”。盧志武的話語(yǔ)直白簡(jiǎn)單。

悟道大模型項(xiàng)目是一個(gè)他珍視的機(jī)會(huì)?！拔也恢绖e人是怎么想的，其實(shí)在我們自己心里，大家心里都有一口氣?！北R志武解釋，“我們”，也想做出世界范圍內(nèi)的重要工作，說(shuō)俗一點(diǎn)，我們也想青史留名。

他的語(yǔ)氣依然平實(shí)，又補(bǔ)充道：“你看歷史上的霍去病。你去當(dāng)武將，肯定都想做霍去病這樣的人。”

沒(méi)人走過(guò)的路

盧志武是幸運(yùn)的。谷歌的Bert與OpenAI的GPT-3，都是公開發(fā)表之作，或許令當(dāng)時(shí)AI圈的人都有“直覺(jué)”。但在參與悟道大模型的項(xiàng)目后，盧志武有機(jī)會(huì)親自驗(yàn)證直覺(jué)。

但是探索也從來(lái)是艱難的。正如今天的OpenAI被嘲笑為“CloseAI”，原因就在于，GPT-3之后，它不再公布任何旗下研究的技術(shù)文檔與細(xì)節(jié)。

大家開始了摸黑前進(jìn)。

悟道大模型有4個(gè)項(xiàng)目，對(duì)應(yīng)4個(gè)不同的大模型。“人大隊(duì)”由高瓴人工智能學(xué)院院長(zhǎng)文繼榮帶隊(duì)，負(fù)責(zé)其中的“多模態(tài)大模型”研究任務(wù)，盧志武是團(tuán)隊(duì)中的模型組的負(fù)責(zé)人。對(duì)應(yīng)的大模型，后來(lái)被命名為“文瀾”。

“多模態(tài)”的概念不難理解。無(wú)論是Bert還是GPT-3，以至于最早的ChatGPT，它們屬于語(yǔ)言大模型，只能通過(guò)對(duì)語(yǔ)言的認(rèn)知和理解能力完成任務(wù)，而“多模態(tài)大模型”既能理解文字，也能理解視覺(jué)（圖片、視頻等）。

上一代AI技術(shù)中的計(jì)算機(jī)視覺(jué)（CV），與多模態(tài)大模型有著繼承關(guān)系。不過(guò)，盧志武認(rèn)為舊的范式在落地時(shí)有天然的缺陷，“它的通用性、泛化能力不強(qiáng)，這就是上一代AI公司盈利難的原因”。

時(shí)鐘撥回2020年，那時(shí)，沒(méi)幾個(gè)人相信一個(gè)AI模型能夠具有泛化能力。

盧志武團(tuán)隊(duì)很快決定增加模型的參數(shù)量?！斑@個(gè)方向，我也不是100%確認(rèn)，但如果有50%的把握，我就敢投入”，這是他一直以來(lái)的研究態(tài)度。

過(guò)程中，心中的把握逐漸切入80%，這讓盧志武和團(tuán)隊(duì)都興奮不已。它是全新的創(chuàng)舉—2023年以前，多模態(tài)模型一直是“無(wú)人區(qū)”。而早在2020年，盧志武就想用圖文數(shù)據(jù)來(lái)訓(xùn)練一個(gè)具有圖文能力的大模型，這是從未有人做過(guò)、甚至很少有人想到的。

2021年，盧志武曾對(duì)媒體說(shuō)：“完全是在一片黑暗之中摸索的?！?/p>

關(guān)鍵在于原理設(shè)計(jì)。舊的計(jì)算機(jī)視覺(jué)時(shí)代，研究的都是專用小模型，相關(guān)經(jīng)驗(yàn)不可參考。而在大模型研究的早期，包括領(lǐng)先者谷歌，都采取主流的“圖文對(duì)”訓(xùn)練視覺(jué)模型。意思是說(shuō)，訓(xùn)練數(shù)據(jù)只能由圖文對(duì)組成，圖文對(duì)是指一張圖片和一段對(duì)該圖片解釋說(shuō)明的文字所組成的“對(duì)子”。通過(guò)將大量“對(duì)子”輸入機(jī)器，來(lái)訓(xùn)練機(jī)器內(nèi)部的神經(jīng)網(wǎng)絡(luò)，最終，期待機(jī)器能理解圖片和文字。

因此，當(dāng)盧志武決定煉多模態(tài)大模型時(shí)，緊隨而來(lái)的問(wèn)題就是，如何獲取巨量的、新的訓(xùn)練數(shù)據(jù)？

他們只好從網(wǎng)絡(luò)上爬圖，并且默認(rèn)“一個(gè)圖片附近位置的文字，大概率是與它有關(guān)的，但是關(guān)系沒(méi)有（圖文對(duì)）那么強(qiáng)”，以此獲取了訓(xùn)練數(shù)據(jù)。

新的問(wèn)題又來(lái)了，弱聯(lián)系的“圖文對(duì)”，顯然不能按主流架構(gòu)來(lái)訓(xùn)練，會(huì)把機(jī)器越訓(xùn)越傻。盧志武設(shè)計(jì)了“雙塔結(jié)構(gòu)”來(lái)使用新的訓(xùn)練數(shù)據(jù)。他們不再像主流做法那樣，對(duì)“圖文對(duì)”進(jìn)行整體編碼，而是分別將圖片和文字都進(jìn)行編碼，再作匹配等進(jìn)一步的訓(xùn)練。

這與機(jī)器學(xué)習(xí)中“自監(jiān)督”或“無(wú)監(jiān)督”的概念相似，但不完全是一回事。何況，“當(dāng)時(shí)自監(jiān)督、無(wú)監(jiān)督，都是很新鮮的概念，還沒(méi)什么人提”，盧志武說(shuō)。

它完全是新的訓(xùn)練方法。

2021年3月，首個(gè)中文通用多模態(tài)預(yù)訓(xùn)練大模型文瀾問(wèn)世。在此兩個(gè)月前，OpenAI的第一個(gè)多模態(tài)大模型CLIP出爐?！澳憧碈LIP，它跟我們的架構(gòu)是一模一樣的，只是一些細(xì)節(jié)上有差異?！北R志武說(shuō)。

最難突破的

文瀾與CLIP，是盧志武團(tuán)隊(duì)與OpenAI的第一次“撞車”，類似的事情，又發(fā)生過(guò)兩次。

一次是多模態(tài)的應(yīng)用產(chǎn)品，盧志武團(tuán)隊(duì)、AI創(chuàng)企智子引擎，在2023年3月8日推出了全球第一個(gè)多模態(tài)對(duì)話應(yīng)用“元乘象”。就在6天后，3月14日，OpenAI發(fā)布GPT-4，宣布它是一個(gè)多模態(tài)模型及應(yīng)用。

另一次就是著名“撞車”事件，盧志武團(tuán)隊(duì)在2023年5月公開發(fā)布的VDT（Video Diffusion Transformer）技術(shù)，與2024年2月Sora的底層架構(gòu)DiT（Diffusion Transformer）撞車。盧志武把話又說(shuō)了一遍，“幾乎一模一樣”。他補(bǔ)充說(shuō)：“我甚至懷疑它（OpenAI）參考了我們的論文?！?/p>

“撞車”的描述來(lái)自媒體，談及對(duì)這個(gè)詞的看法，盧志武沉默了會(huì)兒，說(shuō)道：“應(yīng)該說(shuō)是幾乎同時(shí)，或者（除了文瀾與CLIP），我們比它還稍微領(lǐng)先一些。”

不過(guò)，盧志武自己不能夠很好地解釋，為什么他能夠接二連三地做出全新的學(xué)術(shù)成果。

他的回答，頗有煉大模型的一種“暴力美學(xué)”范兒。他說(shuō)：要在世界范圍內(nèi)領(lǐng)先，當(dāng)然是挺難的一個(gè)事情，有各種機(jī)緣巧合，跟人的認(rèn)知有關(guān)，跟團(tuán)隊(duì)的水平有關(guān)，跟當(dāng)時(shí)所處的環(huán)境有關(guān)，這些得湊在一起。

成敗只是從事兒來(lái)看。盧志武也強(qiáng)調(diào)，做學(xué)術(shù)，做創(chuàng)新，“你認(rèn)為（找到了）是這條路，但是沒(méi)成之前，你就是在黑暗中”。

即便邏輯理順了，要得到最終好的結(jié)果，中間其實(shí)有九九八十一難。

文瀾時(shí)期，他們的工作沒(méi)有任何經(jīng)驗(yàn)借鑒，“代碼都是一行一行重新敲的”。當(dāng)時(shí)，團(tuán)隊(duì)的人每天一睜眼，就要面臨全方位的問(wèn)題，可能數(shù)據(jù)出問(wèn)題，可能編程上出問(wèn)題，可能算法上出問(wèn)題，系統(tǒng)調(diào)用也會(huì)出問(wèn)題……全靠團(tuán)隊(duì)的人自己應(yīng)付。

身處高校，盧志武和他的團(tuán)隊(duì)，不會(huì)沒(méi)有論文考核的壓力。他記得訓(xùn)文瀾時(shí)，一位特別年輕的女學(xué)生，入組三個(gè)月就弄出了高血壓。另有一位14歲上大學(xué)的“天才少年”，是訓(xùn)練的主力，壓力之下，頭發(fā)都白了，“當(dāng)然（文瀾項(xiàng)目）結(jié)束之后，頭發(fā)黑回來(lái)了，高血壓也消失了”。

做創(chuàng)新，最難的當(dāng)然不是身體疲勞，是“沒(méi)有人告訴你該怎么做”。盧志武說(shuō)：“我覺(jué)得最難的是思想上的難，實(shí)踐的時(shí)候肯定會(huì)有難度，但是那個(gè)難度是可克服的。”

思想上的難，第一難可能是，敢于不同。

無(wú)論是訓(xùn)練文瀾，還是與Sora撞車的VDT，都與眾不同。盧志武說(shuō)：“我是喜歡反著來(lái)的?！?/p>

于是，2022年，做多模態(tài)對(duì)話的盧志武轉(zhuǎn)入AI視頻生成的研究，技術(shù)上是很自然的。另一方面，他回憶，“當(dāng)時(shí)聽(tīng)到硅谷的消息，據(jù)傳2023年應(yīng)該是AI視頻技術(shù)的一年”。

與文瀾時(shí)期類似，他不想走主流的路。當(dāng)時(shí)，視頻AI創(chuàng)企一片火熱，如Pika、Runway等等，它們都用了傳統(tǒng)的技術(shù)架構(gòu)U-Net。盧志武解釋說(shuō)：“我一直想做有影響力的工作，不想跟著別人屁股后面走。你要說(shuō)初心，要說(shuō)真實(shí)的原因，就是這么簡(jiǎn)單。”

盧志武并不覺(jué)得自己很特殊。他說(shuō)，就像在Sora之前，要使用DiT架構(gòu)做視頻生成，這件事不可能只有他想過(guò)，“肯定也有人想過(guò)做過(guò)但是沒(méi)成。只是我的執(zhí)行力強(qiáng)而已”。

活下去

2024年初春時(shí)節(jié)，就在Sora的“宣傳片”掀起全網(wǎng)的浪潮時(shí)，中關(guān)村的人大系初創(chuàng)公司智子引擎也迎來(lái)戲劇性的一幕：從前這里門可羅雀，此后拜訪的人絡(luò)繹不絕。

在盧志武眼中，這一幕卻有悲劇的意味。

此時(shí)，他悄然露出鋒芒，“就是這樣，我們老是干這種事”，他譏誚道：“中間近一年的時(shí)間差，沒(méi)人愿意支持我們。大部分投資人不相信我們能做出來(lái)，可能也不相信中國(guó)人能做出來(lái)。假如我是一個(gè)美國(guó)人，他們馬上就信了?！?/p>

盧志武看得清楚，從悟道到具體的文瀾，再到視頻生成技術(shù)，與OpenAI“幾乎同時(shí)”，但是影響力完全不是一個(gè)量級(jí)。

與Sora“撞車”前，他也找過(guò)很多投資人，“他們聽(tīng)得挺興奮的，但都是不敢出手”。即使撞車后，來(lái)訪的投資背景的人多了，盧志武也覺(jué)得“沒(méi)有太大意義，他們找我不是要投，只是想知道Sora的技術(shù)細(xì)節(jié)到底是什么樣的”。何況，Sora已經(jīng)做出第一個(gè)產(chǎn)品來(lái)。

“（心里）肯定是不平?！北R志武說(shuō)，但這沒(méi)有辦法，當(dāng)前學(xué)術(shù)圈或者科技創(chuàng)新的圈子里，不公平的事有很多，這也不是頭一起了。

投資環(huán)境的不友好，疊加競(jìng)爭(zhēng)對(duì)手的瘋狂“內(nèi)卷”，令A(yù)I行業(yè)迅速進(jìn)入淘汰期，活下去是第一訴求。

“現(xiàn)在的六小虎，明年可能要死一半?！边@是盧志武的判斷。當(dāng)然，他也無(wú)法逃離激烈的內(nèi)卷，好在智子引擎“船小好調(diào)頭”，員工約50人，能夠控制住成本。

盧志武介紹，現(xiàn)在團(tuán)隊(duì)的主力產(chǎn)品和服務(wù)，還是以多模態(tài)大模型為核心。客戶粗略分為大客戶和小客戶兩類，大客戶如地方政府、央國(guó)企等。

小客戶方面，盧志武著重介紹了“影樓”的例子。許多愛(ài)美的女性會(huì)到影樓拍寫真，影樓提供攝像以及搭建場(chǎng)景、搭配衣裝的服務(wù)。“可能拍攝100張照片，最后選出20張左右，做成集子”，其中大部分作品被浪費(fèi)了。團(tuán)隊(duì)想到的辦法是，經(jīng)客戶同意，將有瑕疵的廢片制作成AI視頻，自由度高，風(fēng)格多樣。結(jié)果證明，許多用戶愿意為此掏錢。

另一邊，影樓本身需要在各大論壇處引流，智子引擎還為其提供AI生成宣傳物料的服務(wù)，人力成本下降了，制作的物料卻成倍增長(zhǎng)，營(yíng)銷對(duì)象更加多樣、精細(xì)。

想用AI掙錢，必須要真正深入場(chǎng)景。盧志武介紹說(shuō)，其實(shí)圖片生成、視頻生成的應(yīng)用很多，智子引擎團(tuán)隊(duì)用了大半年的時(shí)間，吃透場(chǎng)景，目前已經(jīng)合作了數(shù)十家影樓。而影樓及其客戶，稱得上是對(duì)圖片質(zhì)量要求最苛刻的人群，這反過(guò)來(lái)訓(xùn)練了團(tuán)隊(duì)和模型的基本功。

或許是因?yàn)橐?jiàn)過(guò)上一代AI創(chuàng)企的窘迫，盧志武不愿賺自降身價(jià)的錢。比如，只是賣通用大模型，會(huì)因?yàn)殚_源模型的井噴導(dǎo)致模型逐漸廉價(jià)，走不通。一味強(qiáng)調(diào)定制化，針對(duì)每個(gè)場(chǎng)景都深度定制，成本太高，單純是個(gè)力氣活，也走不通。

訓(xùn)練AI時(shí)，算法、架構(gòu)的迭代演化，有時(shí)不只是為了實(shí)現(xiàn)，還為了更優(yōu)雅地實(shí)現(xiàn)。做AI的生意，類似于此，不是為了眼前而涸澤而漁，內(nèi)卷致死。

活下去，蟄伏，或許就能等到競(jìng)爭(zhēng)環(huán)境的改善，等到理想主義的資本入場(chǎng)，等到高校與企業(yè)“產(chǎn)學(xué)研”架構(gòu)更進(jìn)一步的釋放。這些同樣需要思想上的突破，很難。

南風(fēng)窗2025年1期

南風(fēng)窗的其它文章: “開夫妻店”越來(lái)越難了？; 技術(shù)現(xiàn)實(shí)主義者宣言; 在歐洲，保護(hù)加密通信服務(wù); 為什么要追求共同富裕; 提前大選卻逢慘案，朔爾茨還有戲？; “雙總統(tǒng)”時(shí)期的美國(guó)權(quán)力奇觀

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

盧志武，最難是思想的突破

“一口氣”與“一根刺”

沒(méi)人走過(guò)的路

最難突破的

活下去

盧志武，最難是思想的突破