陳徐毅
大模型的落地不能僅僅認為是“最后一公里”的事,而是從工程整體上檢驗案例項目的突破和進展。
以GPT為代表的生成式預訓練大語言模型這兩年在人工智能領域各項任務中表現(xiàn)出色,這是一種現(xiàn)今看來具有十億以上權重或參數(shù)的由人工神經(jīng)網(wǎng)絡組成,使用自監(jiān)督學習或半監(jiān)督學習對大量未標記文本進行訓練的深度學習模型。關于大模型的訓練所需總算力,業(yè)內(nèi)有一個公式:6×模型的參數(shù)量×訓練數(shù)據(jù)的token數(shù)=總算力(Flops),這里的模型參數(shù)量指的是構建和訓練大規(guī)模機器學習或深度學習模型時所使用的各種可調(diào)整的設置和數(shù)值,參數(shù)的數(shù)量級越大,模型的潛在體量與規(guī)模越大。而大模型參數(shù)數(shù)量級從一開始的過億級、十億級,發(fā)展到GPT—3的1750億、文心一言的2600億等,如今朝著萬億級的趨向演進。
2024年初,Sora的橫空出世讓原本僵持在千億參數(shù)級別的業(yè)內(nèi)各方大模型瞬間有了危機感,一時間競逐加速。首先是初創(chuàng)公司Anthropic宣布Claude?3超越OpenAI的GPT—4稱王,旋即谷歌升級了Gemini系列模型并開放測試,國內(nèi)月之暗面的Kimi助手也以不俗的表現(xiàn)贏得業(yè)界聚焦。值得注意的是,盡管面臨Sora(文生視頻)的壓力,業(yè)內(nèi)各方仍決定從NLP(自然語言處理)產(chǎn)品的升級著手展開備戰(zhàn),原因也許是Sora本身也只發(fā)布了預覽效果,且并未公開和組織規(guī)模性的測試,在AI視頻方面仍有較長的時間窗口。
內(nèi)卷升級,賽道競逐日趨白熱化
由于過去一年生成式人工智能突飛猛進了一整年,在產(chǎn)業(yè)層面,國內(nèi)外科技巨頭圍繞AI大模型打響了“百模大戰(zhàn)”;在資本市場,AI概念成為市場主線之一。因此2024年,業(yè)界觀點認為大模型領域的競爭將進一步白熱化,行業(yè)與資本的輪番交互將有望推動本輪AI行情進一步擴散。
當前國際市場自然語言生成式人工智能以OpenAI的ChatGPT(GPT—4)為代表,其主要競爭對手為谷歌DeepMind的Gemini(前身是Bard)、Meta的LLaMA模型、Anthropic的Claude?3以及正在進場的xAI等。大模型的主流框架則由TensorFlow和PyTorch二分天下。文生圖方面,DALL-E、Midjourney和Stable?Diffusion依然是主流三家,擴散模型在該領域運用得到了迅速發(fā)展。
國內(nèi)方面,過去的AI四小龍商湯、曠視、依圖、云從由于生長在資本膨脹時期,趕上了AI風口,前期成長較好,在視覺CV領域各領風騷。然而進入到第二輪賽道競逐時,意識到訓練成本高昂,只有巨頭加碼燒錢,回報周期又長,故事就不好講了。資本退潮之后,無一不面臨著從模型應用到商業(yè)化落地的困境。
但隨著GPT—4的壓力和Sora的鲇魚效應,國內(nèi)巨頭開始逐步發(fā)力。百度文心、阿里通義、騰訊混元模型升級并朝著多模態(tài)進軍;訊飛星火、百川智能、360智腦、日日新等逐漸殺出一條血路,還有初創(chuàng)新秀月之暗面Kimi逆風崛起。
經(jīng)歷了大半年的僵持,資本從觀望開始向進場轉(zhuǎn)變,對大模型的加注也在持續(xù)升溫,初創(chuàng)的融資金額從千萬到數(shù)億不等;從融資輪次來看,70%的初創(chuàng)處于A輪及A輪前融資階段,B輪以上融資階段的企業(yè)總數(shù)接近30%,整個賽道朝著白熱化的趨勢變化。
AGI是終點,多模態(tài)是方向
目前大模型市場仍以自然語言處理NLP為主,這主要是因為NLP領域的應用需求巨大,且近年來在技術上取得了顯著的進展。NLP大模型如GPT系列、BERT、XLNet等在語義理解、文字生成和翻譯等任務上展現(xiàn)出卓越的性能,推動了智能助手、聊天機器人、內(nèi)容推薦、搜索引擎優(yōu)化等多個行業(yè)的革新。NLP大模型的框架成熟度、參數(shù)和token量級也是其他類模型目前所無法比擬的。
但是業(yè)界不會止步于此,首先就框架來說,Transformer架構已經(jīng)在NLP領域取得了巨大成功,類似的結構可能會被擴展到多模態(tài)學習中,以更有效地處理和融合多種類型的數(shù)據(jù)。其次是跨模態(tài)學習深度,多模態(tài)大模型的核心挑戰(zhàn)之一是如何實現(xiàn)不同模態(tài)之間的有效交互和信息融合,未來的研究可能會探索新的跨模態(tài)學習技術,如注意力機制、聯(lián)合嵌入空間的構建等,以提高模型對多模態(tài)數(shù)據(jù)的理解和生成能力。還有就是數(shù)據(jù)集和基準的豐富,應用場景的拓寬(自動駕駛、健康醫(yī)療等等)對多模態(tài)理解復雜環(huán)境和用戶需求有著較高的要求。因此,大模型由單模態(tài)向多模態(tài)升級已然成為行業(yè)共識。
通用人工智能AGI作為AI的終極目標,現(xiàn)在去討論顯然是不合適的。目前AGI的發(fā)展還處于初級階段,雖然已有AI在某些特定領域表現(xiàn)出了超越人類的智能水平,但仍有很多局限性,如只能處理特定類型的任務,缺乏泛化能力,且不具備真正的自主學習和自動推理的能力。之前Sora引發(fā)的AGI論也只是資本市場短暫的泡沫和高調(diào)而已。
落地與盈利,觸手可及的希望
雖然研發(fā)和資本游戲仍在內(nèi)卷,大模型的落地和盈利不論從商用還是消費來看,絕對不僅僅是“最后一公里”的事。除了少數(shù)AI開發(fā)者開放API賣升級服務之外,在更多資本可以想象的場景和市場仍然是一片空白。盡管如此,業(yè)界依然寄予厚望,多年來在經(jīng)歷了區(qū)塊鏈、元宇宙等概念的泡沫和熱潮褪去之后,人工智能深度學習的崛起和大模型的表現(xiàn)讓人們看到了扎實的技術革新和觸手可及的希望。
正因為如此,隨著大模型落地拐點將近,科技巨頭開始為之奔走尋求行業(yè)支持,初創(chuàng)公司亦如雨后春筍而且精準啟動。蘋果CEO庫克今年3月現(xiàn)身上海首談生成式AI,諸如Apple?Watch的摔倒檢測以及iPhone的預測性文本輸入等功能,蘋果公司正在尋求為自家產(chǎn)品線引入大模型的支持。促使蘋果加速AI落地的往往來自同行的壓力,谷歌宣布用于取代Google?Assistant的Gemini也即將登陸各類安卓應用,而微軟作為OpenAI的金主,早已布局了自家生產(chǎn)力工具和產(chǎn)品的方方面面。國內(nèi)大模型也緊跟趨勢,在多個行業(yè)如教育、醫(yī)療、金融、汽車等方面表現(xiàn)活躍,如星火認知大模型在智能座艙應用場景展現(xiàn)出強大的溝通和理解能力;日日新SenseNova在專業(yè)文本理解、代碼生成和輔助初步醫(yī)療問診方面表現(xiàn)亮眼。
大模型的落地和盈利要面對的挑戰(zhàn)是一個多維度的問題。首先算法和數(shù)據(jù)處理方面雖取得了顯著進展,但算法參數(shù)量激增,訓練成本高昂,對模型優(yōu)化和微調(diào)提出了更高的要求。其次AI性能很大程度上取決于高質(zhì)量的數(shù)據(jù),數(shù)據(jù)的獲取、清洗、標注和處理是一大挑戰(zhàn),尤其是在保護數(shù)據(jù)隱私和符合法規(guī)要求的前提下。還有場景和應用經(jīng)驗、多模態(tài)任務的挑戰(zhàn)等等,所以大模型的落地不能僅僅認為是“最后一公里”的事,而是從工程整體上檢驗案例項目的突破和進展。隨著技術的迭代革新和市場逐步成熟,這些挑戰(zhàn)最后都能得到有效解決。