中國大模型，什么水平？

2023-09-29 03:07:12榮智慧

南風(fēng)窗 2023年20期

榮智慧

半年多以前，ChatGPT橫空出世，熱錢奔涌。如今，當(dāng)時(shí)的押注迎來了第一批收獲。

8月的最后一天，中國多家人工智能大語言模型拿到許可備案，包括百度的文心一言、抖音的云雀、智譜AI的智譜清言、中科院的紫東太初等。此前，這些大模型一直處于內(nèi)測階段，即使下載應(yīng)用也沒法注冊使用；備案后，它們真正面向社會(huì)開放，經(jīng)受用戶的花樣考驗(yàn)。

同一天，阿聯(lián)酋人工智能公司G42推出了Jais大模型，以阿拉伯語和英語數(shù)據(jù)為基礎(chǔ)，供全球4億多名操阿拉伯語者使用。Jais名字源自阿聯(lián)酋海拔最高的山峰。G42的投資伙伴包括阿布扎比國家石油公司、財(cái)富基金穆巴達(dá)拉和阿提哈德航空公司。

全球各個(gè)語言文化圈，都為“自己的”大語言模型苦心經(jīng)營。

更不消說大模型的發(fā)源地—硅谷，Meta正在憋一個(gè)據(jù)說足以挑戰(zhàn)ChatGPT的“大招”、比LLAMA-2還“強(qiáng)大幾倍”；蘋果每個(gè)月在人工智能研發(fā)上砸下數(shù)百萬美元；谷歌和微軟各自為旗下“王牌”Anthropic和OpenAI招兵買馬。

大模型之戰(zhàn)，呈現(xiàn)出國家、地區(qū)以及內(nèi)部競爭的火熱局面—畢竟肩負(fù)著帶領(lǐng)全球經(jīng)濟(jì)走出低迷的浪漫期待。因此，它是什么，如何運(yùn)作，以及怎樣變現(xiàn)，成為人們最關(guān)心的問題。

“注意力是必需”

人工智能時(shí)代，本質(zhì)是大模型時(shí)代。

大模型，也叫大語言模型（Large Language Model，LLM）、多模態(tài)模型（multimodal model）。最火爆的GPT，是大模型的一種形態(tài)，G代表生成性的（generative），P代表預(yù)訓(xùn)練（pre-trained），T代表變換器（transformer）。

大模型的“大”，是指模型參數(shù)至少達(dá)到1億以上。像GPT-3的參數(shù)規(guī)模是1750億。大模型之外，還有“超大模型”，通常擁有數(shù)萬億到數(shù)千萬億參數(shù)。大模型和超大模型的主要區(qū)別，就在于模型參數(shù)數(shù)量的多寡、計(jì)算資源的需求和性能表現(xiàn)。

如今絕大多數(shù)大模型，都算得上“超大模型”，比如1.6萬億參數(shù)的谷歌switch transformer，1.9萬億參數(shù)的快手推薦精排模型，1萬億參數(shù)的阿里達(dá)摩院M6等等。

因?yàn)閰?shù)規(guī)模膨脹得比較厲害，“超大模型”都不大有人叫了，一律都用“大模型”概括。

模型，通常是一個(gè)函數(shù)或者一組函數(shù)，以線性函數(shù)、非線性函數(shù)、決策樹、神經(jīng)網(wǎng)絡(luò)等各種形式呈現(xiàn)。模型的實(shí)質(zhì)，就是對(duì)這個(gè)/組函數(shù)映射的描述和抽象。訓(xùn)練和優(yōu)化各種模型，就能夠得到更加準(zhǔn)確和有效的函數(shù)映射。模型的目的，是為了從數(shù)據(jù)中找出一些規(guī)律和模式，好預(yù)測未來。

而且參數(shù)越多，模型就越“高端”，就可以處理更豐富的信息，具備更高的準(zhǔn)確性。大模型一般用來解決自然語言處理、電腦視覺和語音辨識(shí)等復(fù)雜任務(wù)。

大模型是人工智能領(lǐng)域“聯(lián)結(jié)學(xué)派”的“勝利”。

七十年來，人工智能研究者大概分為三個(gè)派別：符號(hào)學(xué)派、聯(lián)結(jié)學(xué)派和行為學(xué)派。符號(hào)學(xué)派，也叫邏輯主義學(xué)派，主張通過電腦符號(hào)操作來類比人的認(rèn)知過程和大腦抽象邏輯思維。聯(lián)結(jié)學(xué)派，又稱仿生學(xué)派，強(qiáng)調(diào)對(duì)人類大腦的直接類比，認(rèn)為神經(jīng)網(wǎng)絡(luò)間的連接機(jī)制與學(xué)習(xí)方法能夠產(chǎn)生人工智能。聯(lián)結(jié)學(xué)派日后的技術(shù)突破最大，神經(jīng)網(wǎng)絡(luò)、深度學(xué)習(xí)都來自這一派。行為學(xué)派的思想理論源自進(jìn)化論和控制論。它的目標(biāo)在于預(yù)見和控制行為。

一直到20世紀(jì)80年代，符號(hào)學(xué)派都占主流。聯(lián)結(jié)學(xué)派自1986年以來，在機(jī)器學(xué)習(xí)、深度學(xué)習(xí)領(lǐng)域，綜合應(yīng)用了心理學(xué)、生物學(xué)、神經(jīng)生物學(xué)、數(shù)學(xué)、自動(dòng)化和計(jì)算機(jī)科學(xué)理論，取得較大進(jìn)展。

特別是2017年6月，谷歌團(tuán)隊(duì)的瓦斯瓦尼等人發(fā)表論文《注意力是必需》（“Attention Is All You Need”），系統(tǒng)提出了Transformer的原理、構(gòu)建和大模型演算法，將預(yù)訓(xùn)練模型推而廣之。

Transformer一舉擊敗了卷積神經(jīng)網(wǎng)絡(luò)、遞歸神經(jīng)網(wǎng)絡(luò)，成為最受歡迎的神經(jīng)網(wǎng)絡(luò)架構(gòu)，主要優(yōu)勢就是“注意力機(jī)制”。

自此，Transformer一舉擊敗了卷積神經(jīng)網(wǎng)絡(luò)、遞歸神經(jīng)網(wǎng)絡(luò)，成為最受歡迎的神經(jīng)網(wǎng)絡(luò)架構(gòu)，主要優(yōu)勢就是“注意力機(jī)制”。

簡單而言，就是它知道該把注意力放在哪里—通過“理解”上下文，Transformer會(huì)準(zhǔn)確預(yù)測“重點(diǎn)”，從而做出判斷：輸入的序列再長、相關(guān)信息隔得再遠(yuǎn)，都沒有關(guān)系。

淘金先要有“鏟子”

大模型再神奇，也建立在“過硬的”硬件基礎(chǔ)之上。

先不要爭論OpenAI的ChatGPT是不是最火爆，或者M(jìn)idjourney、Anthropic的Claude更有人緣，賣芯片的英偉達(dá)才是最大贏家—?jiǎng)e人淘金時(shí)，他靠賣鏟子暴富。

根據(jù)第二季度財(cái)報(bào)，英偉達(dá)該季度收入67.0億美元，凈收入飆升至6.56億美元。在ChatGPT帶來的人工智能熱潮之前，英偉達(dá)靠賣礦卡—“挖”比特幣的高性能GPU而聞名；再之前，它是PC游戲玩家的心頭好。

東風(fēng)壓倒西風(fēng)。現(xiàn)在人人都說，沒有英偉達(dá)，就沒有ChatGPT。財(cái)報(bào)顯示，英偉達(dá)人工智能硬件部門的收入達(dá)到了創(chuàng)紀(jì)錄的10億美元—超過總銷售額的3/4，遠(yuǎn)超加密幣和游戲的收入。

英偉達(dá)最炙手可熱的旗艦產(chǎn)品，是GPUH100，人稱“世界上第一塊為生成型AI設(shè)計(jì)的芯片”。只要想在人工智能、大模型的餡餅上切一塊的人，都得盡可能多地囤貨。假如買不到供不應(yīng)求的H100，它的前身A100也行。

最惹眼的客戶是微軟，其花費(fèi)數(shù)億美元為OpenAI購買了上千塊A100芯片。2019年，微軟投資了OpenAI，投資協(xié)議就包含了“買芯片”的內(nèi)容。正是由于這項(xiàng)投資，以及英偉達(dá)的硬件，OpenAI才能夠打造舉世矚目的ChatGPT。

所以，每塊售價(jià)4萬美元的籌碼必須“先下手為強(qiáng)”：沙特阿拉伯已經(jīng)購買了3000塊H100芯片，阿聯(lián)酋也買了數(shù)千塊。兩個(gè)海灣國家的領(lǐng)導(dǎo)人表態(tài)，他們的目標(biāo)是在人工智能領(lǐng)域取得領(lǐng)導(dǎo)地位，以推動(dòng)雄心勃勃的經(jīng)濟(jì)發(fā)展計(jì)劃。

誰不是呢？中國的科技巨頭，包括騰訊和阿里巴巴，也在尋求購買英偉達(dá)高性能芯片的機(jī)會(huì)。

據(jù)悉，英偉達(dá)現(xiàn)在已經(jīng)占據(jù)高達(dá)95%的人工智能GPU市場。

不過，縱觀芯片發(fā)展史，一直坐在寶座的王者不多。AMD和英特爾等芯片巨頭，已投入數(shù)十億美元開發(fā)自己的機(jī)器學(xué)習(xí)處理器。谷歌和亞馬遜也不甘人后。就算是買得多的微軟，也不想命脈系于人手，正創(chuàng)建一個(gè)內(nèi)部AI芯片項(xiàng)目。

這些競爭對(duì)手都看到了英偉達(dá)“落后”的產(chǎn)能：去年9月才發(fā)布的H100，2024年就會(huì)售罄。英偉達(dá)計(jì)劃將其產(chǎn)量增加兩倍，近日又推出了名為TensorRTLLM的新型開源軟件，預(yù)計(jì)將令H100的性能翻倍，更快運(yùn)行大模型。

B端變現(xiàn)路漫漫

由于高性能GPU芯片短缺，采購受限，以及中文數(shù)據(jù)庫質(zhì)量參差不齊，中國今年發(fā)布的100多個(gè)大模型，普遍與ChatGPT存在差距。

優(yōu)質(zhì)大模型開源已久，Meta的LLAMA-2近日又宣布開源，導(dǎo)致整個(gè)行業(yè)的技術(shù)門檻不高，且逐漸降低。

客觀來看，中國在大模型開發(fā)方面，起步比美國晚，研制大模型的單位和企業(yè)比美國多，但數(shù)量不能代表質(zhì)量和研發(fā)水平。一些模型的參數(shù)量已經(jīng)超過1萬億，高于GPT-4，而同臺(tái)評(píng)測的數(shù)據(jù)和報(bào)道，一般都顯示出了它們?nèi)庋劭梢姷哪芰Σ町悺?/p>

當(dāng)然，評(píng)價(jià)大模型也需要多維度的標(biāo)準(zhǔn)。中國企業(yè)在獲得中文語料和對(duì)中國文化的理解方面比外國企業(yè)有天然的優(yōu)勢，中國制造業(yè)門類最全，具有面向?qū)嶓w產(chǎn)業(yè)訓(xùn)練產(chǎn)業(yè)大模型的有利條件。

從技術(shù)上看，中國企業(yè)做企業(yè)級(jí)的大模型已經(jīng)相對(duì)容易；從應(yīng)用上看，在商業(yè)化上推陳出新，路徑尚不清晰。

先行一步、面向C端（個(gè)體消費(fèi)者）的ChatGPT，正在開啟商業(yè)化模式。OpenAI宣布，預(yù)計(jì)在未來12個(gè)月內(nèi)通過銷售人工智能軟件及其計(jì)算能力，將獲得超過10億美元的收入。

微軟聯(lián)合OpenAI發(fā)布的企業(yè)級(jí)Azure OpenAI GPT-4云服務(wù)，擁有11000名客戶。今年以來，微軟智能云收入超過了1100億美元，其中Azure占比首次超過50%。

相較于頭部的OpenAI的良好前景，到目前為止，市場還沒有觀察到中國企業(yè)級(jí)大模型明顯的營收增長。即便是360公司獲得近2000萬元，也屬于軟件會(huì)員費(fèi)用和企業(yè)安全云的SaaS服務(wù)。其他發(fā)布大模型的公司，也沒有單獨(dú)披露大模型技術(shù)所帶來的收入數(shù)據(jù)。

從技術(shù)上看，中國企業(yè)做企業(yè)級(jí)的大模型已經(jīng)相對(duì)容易；從應(yīng)用上看，在商業(yè)化上推陳出新，路徑尚不清晰。

商業(yè)價(jià)值的增加則有正向反饋。科大訊飛半年報(bào)顯示，自訊飛星火大模型發(fā)布并完成首次升級(jí)以來，5月至6月，公司AI學(xué)習(xí)機(jī)的GMV（商品交易總額）分別同比增長136%、217%；訊飛AI硬件（AI學(xué)習(xí)、AI辦公、AI健康）在“618”期間銷售額同比增長125%。

此外，大模型也可以為內(nèi)部賦能，提升整條產(chǎn)品鏈的商業(yè)價(jià)值。據(jù)訊飛星火介紹，其一開始就確認(rèn)了“1+N”的體系。“1”就是通用的基礎(chǔ)認(rèn)知大模型，“N”就是訊飛星火在教育、辦公、汽車、人機(jī)交互、醫(yī)療等領(lǐng)域進(jìn)行應(yīng)用落地。截至2023年8月15日，訊飛星火已經(jīng)在訊飛AI學(xué)習(xí)機(jī)、訊飛智能辦公本、訊飛聽見APP、星火語伴APP、iFLYCode等C端軟硬件及教育、醫(yī)療、工業(yè)、辦公、汽車等B端業(yè)務(wù)賽道落地應(yīng)用。

B端（企業(yè)用戶）大模型賽道，比C端更具吸引力。

6月20日、9月1日，兩批境內(nèi)深度合成服務(wù)算法備案清單公布，其中包括360智腦文本生成算法、網(wǎng)易有道機(jī)器翻譯算法、快手生成合成算法、天工大語言模型算法、愛奇藝生成合成算法、云雀大模型算法、華為云盤古多模態(tài)大模型算法等。

2023全球數(shù)字經(jīng)濟(jì)大會(huì)人工智能高峰論壇上，周鴻祎表示，大模型真正的機(jī)會(huì)在企業(yè)級(jí)市場，中國做大模型，最應(yīng)該抓住產(chǎn)業(yè)發(fā)展的機(jī)會(huì)。但目前的公有大模型用在政府、城市、行業(yè)等企業(yè)級(jí)場景時(shí)，存在四點(diǎn)不足，包括缺乏行業(yè)深度、數(shù)據(jù)安全隱患、無法保障內(nèi)容可信、訓(xùn)練和部署成本過高等。

當(dāng)下B端大模型商業(yè)模式，可以分為三種：出售大模型API（應(yīng)用程序接口），向公司或開發(fā)者按照調(diào)用次數(shù)收費(fèi)；直接賣大模型開發(fā)服務(wù)，向傳統(tǒng)企業(yè)輸出大模型行業(yè)解決方案；使用大模型改造現(xiàn)有業(yè)務(wù)，提高產(chǎn)品的競爭力，獲得更多商業(yè)回報(bào)，即Model-As-AService（MaaS），模型即服務(wù)。

在人工智能領(lǐng)域，復(fù)制比亞迪趕超特斯拉的經(jīng)驗(yàn)也并非不可能。

中國工程院院士鄔賀銓就表示，基于訓(xùn)練ChatGPT的原理，利用行業(yè)與企業(yè)的知識(shí)圖譜進(jìn)行深度訓(xùn)練，有可能開發(fā)出企業(yè)專用的大模型。

他說，在ChatGPT出現(xiàn)之前，有人認(rèn)為中國在AI方面的論文與專利數(shù)與美國不相上下，ChatGPT的上線使我們看到了中美的差距。現(xiàn)在需要清楚認(rèn)識(shí)和重視我們面對(duì)的挑戰(zhàn)，做實(shí)實(shí)在在的創(chuàng)新，將挑戰(zhàn)化為機(jī)遇，在新一輪的AI賽道上做出中國的貢獻(xiàn)。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

中國大模型，什么水平？

“注意力是必需”

淘金先要有“鏟子”

B端變現(xiàn)路漫漫

中國大模型，什么水平？