讓國產(chǎn)大模型產(chǎn)業(yè)更好賦能經(jīng)濟社會發(fā)展

2025-02-18 00:00:00鄧志東

人民論壇 2025年2期

【關(guān)鍵詞】大模型產(chǎn)業(yè) 生成式人工智能通用智能體

【中圖分類號】TP18 【文獻標(biāo)識碼】A

生成式人工智能的大型語言模型通常分為基礎(chǔ)（基座或底座）大模型、下游任務(wù)微調(diào)優(yōu)化大模型等，目的是通過自監(jiān)督學(xué)習(xí)方法，實現(xiàn)對文本、圖像、視頻、語音等多模態(tài)序列訓(xùn)練數(shù)據(jù)的語言建模、理解與生成。具有下一個語義符（token）預(yù)測能力的大模型通過模仿人類的語言智能，不但對各種模態(tài)具有統(tǒng)一的語義對齊表達(dá)、學(xué)習(xí)與記憶，同時嵌入了數(shù)據(jù)驅(qū)動的人類一般性世界知識模型，因此能夠以數(shù)據(jù)智能新物種的形態(tài)完成過去僅有人類才能完成的、從簡單到復(fù)雜的多樣化任務(wù)。自2022年11月30日ChatGPT問世以來，生成式人工智能在全球范圍進入到爆發(fā)式發(fā)展階段，已初具產(chǎn)業(yè)落地的應(yīng)用條件與生態(tài)。目前，基礎(chǔ)大模型需要進一步提升其完成復(fù)雜任務(wù)的能力，同時提高準(zhǔn)確率，增強其安全與價值對齊，尤其是聚焦于如何大幅提高大模型的復(fù)雜邏輯推理能力。

近年來，國內(nèi)大模型發(fā)展如火如荼。據(jù)統(tǒng)計，截至2024年4月底，國內(nèi)總共推出305個大模型，其中參數(shù)規(guī)模超過10億的國產(chǎn)大模型達(dá)到了100多個，并且相當(dāng)一部分來自于國內(nèi)外的開源代碼，如美國Meta公司的Llama系列開源大模型等。從原理上來講，目前生成式預(yù)訓(xùn)練模型面向自回歸或受損文本重建語言建模主任務(wù)，大多采用Transformer注意力神經(jīng)網(wǎng)絡(luò)架構(gòu)，同時使用基于隨機梯度下降的自監(jiān)督學(xué)習(xí)方法。從使用的網(wǎng)絡(luò)架構(gòu)與預(yù)訓(xùn)練方法來說，各種大模型都相差不大，存在的不同之處主要涉及網(wǎng)絡(luò)結(jié)構(gòu)參數(shù)與超參數(shù)，各種（層）歸一化或尺度變換的策略有所不同，預(yù)訓(xùn)練的策略也可能存在差異，但這些本質(zhì)上屬于工程實現(xiàn)問題。顯然，基于Transformer架構(gòu)的基礎(chǔ)大語言模型及從頭開始的預(yù)訓(xùn)練算法的研究，實際上并沒有多少創(chuàng)新之處，相應(yīng)的開源代碼也難以較大程度地進行調(diào)整和修改。此外，預(yù)訓(xùn)練所采用的大規(guī)模文本語料庫，如Pile等都屬于公開數(shù)據(jù)集，對應(yīng)的預(yù)訓(xùn)練算力也通常使用各種云服務(wù)器來完成。

在幾十億到幾十萬億參數(shù)規(guī)模的眾多大模型中，部分企業(yè)或研發(fā)機構(gòu)僅解決了大模型的“發(fā)布”問題，并未針對大型語言模型亟需解決的準(zhǔn)確率、幻覺與復(fù)雜邏輯推理能力等科學(xué)問題與技術(shù)落地“痛點”，開展實質(zhì)性的原始創(chuàng)新或關(guān)鍵技術(shù)突破。一些企業(yè)甚至還涉嫌套牌使用。事實上，一年多來，我國大模型的融資案例超過了100起，新增投入達(dá)到了200億元以上，其中大部分資金主要用來購買或創(chuàng)建相應(yīng)的AI算力或智算中心。

大模型的價值在于應(yīng)用

只有在多樣化的實際應(yīng)用場景中賦能智能經(jīng)濟與智能社會的發(fā)展，才能體現(xiàn)生成式人工智能的產(chǎn)業(yè)價值，也才能成就大模型本身。如果說自2012年至2022年的人工智能是所謂的弱人工智能，相應(yīng)的應(yīng)用落地與產(chǎn)業(yè)發(fā)展較為艱難，那目前的生成式人工智能則邁入了完全嶄新的階段，其對經(jīng)濟社會的影響與應(yīng)用價值已不可同日而語。生成式人工智能作為新質(zhì)生產(chǎn)力的典型代表，需要重點關(guān)注“人工智能+”或“+人工智能”，需要聚焦多模態(tài)大模型、具身智能與交互式人工智能在各個細(xì)分垂直領(lǐng)域與實際場景中的多樣化應(yīng)用。

我國移動互聯(lián)網(wǎng)快速發(fā)展，不僅建設(shè)了全球規(guī)模最大的5G基礎(chǔ)設(shè)施，而且在移動支付、電子商務(wù)、數(shù)字經(jīng)濟等方面始終位列全球第一梯隊。這為我國生成式人工智能產(chǎn)業(yè)的加速落地，提供了全球最具多樣化的應(yīng)用需求與實際賦能場景。事實上，我國在弱人工智能的應(yīng)用上長期走在世界前列。在政策加持與各種應(yīng)用場景創(chuàng)新的引領(lǐng)下，我國在弱人工智能的應(yīng)用落地速度、應(yīng)用場景多樣性、標(biāo)簽大數(shù)據(jù)體量和商業(yè)模式創(chuàng)新等方面，被普遍認(rèn)為居于全球領(lǐng)先地位。實踐表明，在目前的全球創(chuàng)新生態(tài)中，相對于“從0到1”的原始性創(chuàng)新，加速大模型的落地應(yīng)用是我們最擅長且最有可能支撐我國繼續(xù)占據(jù)全球人工智能第一陣營，并保持世界人工智能應(yīng)用領(lǐng)先優(yōu)勢，賦能經(jīng)濟社會發(fā)展的關(guān)鍵變量。

在大模型快速發(fā)展的多樣化行業(yè)應(yīng)用中，基礎(chǔ)或基座大型語言模型發(fā)揮著核心支撐作用，但面向多樣化任務(wù)需求進行的下游模型的微調(diào)顯得更為重要。這里的微調(diào)既包括模型中全部或部分參數(shù)的微小調(diào)整，也可以直接利用提示詞進行更為簡單自然的優(yōu)化。微調(diào)學(xué)習(xí)方法既可以使用監(jiān)督微調(diào)（SFT）方法，也可以采用強大的深度強化學(xué)習(xí)算法。針對AI輔助教育、AI輔助醫(yī)療、AI輔助金融以及智能問答、智能咨詢、智能推薦、智能總結(jié)、智能寫作、智能翻譯、智能決策、低代碼產(chǎn)業(yè)和人工智能生成內(nèi)容（AIGC）、人工智能搜索引擎等各種下游任務(wù)，結(jié)合行業(yè)微調(diào)數(shù)據(jù)，基于思維鏈（CoT）等提示工程改變提問或遵從指令的技巧，同時通過將大模型與檢索增強生成（RAG）等技術(shù)進行結(jié)合，利用外部搜索工具及行業(yè)的知識庫或知識圖譜，可以進一步減少大模型的幻覺與偏見，提升其準(zhǔn)確率與復(fù)雜的邏輯推理能力。不僅可以帶來更好的用戶體驗，而且可以強化對行業(yè)私有數(shù)據(jù)及專業(yè)知識庫的數(shù)據(jù)安全、數(shù)據(jù)隱私及知識產(chǎn)權(quán)保護。

在“大模型+RAG”中，通過對任務(wù)的理解，利用檢索引擎進行搜索，之后基于PageRank等網(wǎng)頁排序算法獲得相關(guān)知識的排序，再將搜索且排序的檢索結(jié)果匯合形成新的提示詞進行提問或發(fā)出指令，最后再利用各種大、小語言模型，以期獲得更加精準(zhǔn)與合理的回答。大量實驗結(jié)果表明，這種創(chuàng)新的技術(shù)解決方案不僅無須上載私有的行業(yè)文檔資料及專業(yè)知識庫，克服對數(shù)據(jù)安全與知識產(chǎn)權(quán)保護的應(yīng)用焦慮，而且可以有效地緩解幻覺，提高準(zhǔn)確率與用戶體驗，還能提升大模型的時效性、邏輯推理能力、長期記憶及對各種外部或外掛工具的復(fù)用能力等。

除了上述大型語言模型（LLM），目前小型語言模型（SLM）或稱小模型以其高效、輕量、緊湊與低成本的特點，持續(xù)得到全球頭部企業(yè)的高度關(guān)注，并不斷得到發(fā)展。如微軟的Phi-2、Phi-3序列，又如谷歌的Gemma和英國的Mistral等。這些小模型通常僅有幾十個億的參數(shù)規(guī)模，由于采用了高質(zhì)量數(shù)據(jù)進行從頭開始的預(yù)訓(xùn)練，同時充分蒸餾、量化了Transformer架構(gòu)的冗余參數(shù)，因而可以在單卡甚至在手機移動端側(cè)進行推斷部署。結(jié)合知識儲備與邏輯推理能力等在內(nèi)的許多基準(zhǔn)測試結(jié)果表明，輕量化小模型的性能甚至可以超越規(guī)模大其數(shù)十倍以上的大模型，這讓多模態(tài)智能體的開發(fā)與應(yīng)用更加高效、實時與靈活。因此，“小模型+RAG”在具身智能體與交互式人工智能的應(yīng)用落地實踐中，同樣需要得到重視。

綜上所述，一方面，應(yīng)繼續(xù)大力發(fā)展行業(yè)大模型與應(yīng)用場景大模型，保持其良好發(fā)展勢頭，深耕“人工智能+”與“+人工智能”的垂域應(yīng)用；另一方面，應(yīng)聚焦大模型產(chǎn)業(yè)應(yīng)用中的高質(zhì)量數(shù)據(jù)集構(gòu)建、大規(guī)模分布式AI算力網(wǎng)的一體化部署、混合專家模型（MoE）、高效微調(diào)、大/小模型+RAG、知識增強、邏輯增強、大模型的壓縮及量化技術(shù)，提示工程以及大、小模型與強化學(xué)習(xí)、圖神經(jīng)網(wǎng)絡(luò)及長期記憶的結(jié)合等，為我國大模型產(chǎn)業(yè)的應(yīng)用落地提供源源不斷的技術(shù)創(chuàng)新動能與共性關(guān)鍵技術(shù)新突破。

我國大模型產(chǎn)業(yè)發(fā)展迎來重要窗口期

通用人工智能目前正經(jīng)歷如下迭代演化路徑，即從早期的GPT等文本語料大型語言模型（包括基礎(chǔ)/基座模型與下游微調(diào)模型），然后通過增加視、聽、說以及移動與操作能力等，迭代升級到目前正蓬勃發(fā)展中的多模態(tài)大型語言模型和多模態(tài)具身智能體，并將進一步發(fā)展到多模態(tài)交互式通用人工智能新階段。

在架構(gòu)方面，Transformer注意力神經(jīng)網(wǎng)絡(luò)主要涉及編碼器和解碼器兩個部分，前者用于對輸入token序列進行掩碼預(yù)測與編碼表達(dá)，后者則可以進一步實現(xiàn)對大規(guī)模訓(xùn)練序列或?qū)ξ锢硎澜绲淖曰貧w逼近與生成。需要注意的是，GPT等生成式預(yù)訓(xùn)練大模型或生成式人工智能通常僅由多層解碼器組成。簡單來說，生成式人工智能就是模仿學(xué)習(xí)，這里的生成實際就是模仿。而通用人工智能的路徑演化則是“模仿學(xué)習(xí)+交互式學(xué)習(xí)”。

2023年下半年以來，可直接賦能人形機器人和自動駕駛的多模態(tài)大模型、多模態(tài)具身智能體得以迅猛發(fā)展，人工智能的應(yīng)用逐步從互聯(lián)網(wǎng)空間走向真實的物理世界，開始更加重視與實體經(jīng)濟的融合發(fā)展，并賦能新制造、新能源與新零售等垂直領(lǐng)域或行業(yè)的產(chǎn)業(yè)部署與跨界應(yīng)用。人工智能的應(yīng)用在全球范圍呈現(xiàn)爆發(fā)性增長態(tài)勢，我國大模型產(chǎn)業(yè)發(fā)展迎來重要窗口期。

隨著GPT-4V等的正式發(fā)布，多模態(tài)大模型已具有“讀圖”“讀音”或直接看懂圖像、視頻與聽懂語音的能力。例如，基于單段式端到端視覺語言動作大模型的智能體，利用少量編程即可構(gòu)建出視覺神經(jīng)網(wǎng)絡(luò)，然后通過直接觀看人類移動或操作視頻就可進行直覺或本能的“快思維”自主學(xué)習(xí)，從而獲得在真實物理世界中的相應(yīng)技能?？傮w來看，相對于過去分段式的人工智能方法，單段式或單模型的端到端視覺語言動作大模型及其解決方案是自動駕駛與人形機器人研發(fā)范式的一個根本性改變，是真正的全自主學(xué)習(xí)人工智能解決方案。正是由于上述新范式、新導(dǎo)向的出現(xiàn)，我們有理由相信自動駕駛將有可能實現(xiàn)L4級別，甚至達(dá)到完全人類水平的L5級別。具身智能體人形機器人將滲透到實體經(jīng)濟的千行百業(yè)，成為智能制造的主力，同時走入千家萬戶，完成精神陪護、家政服務(wù)與養(yǎng)老服務(wù)等。人機共融社會的未來景象或?qū)⒉辉偈且环N科幻般的憧憬。這種顛覆性技術(shù)變革所帶來的生產(chǎn)力與生產(chǎn)效率躍升及人類文明進步，有望創(chuàng)建數(shù)十萬億美元的產(chǎn)業(yè)想象空間，必將具有“改變世界”的重大意義與巨大的產(chǎn)業(yè)帶動作用。為此，我們必須未雨綢繆，在戰(zhàn)略性新興產(chǎn)業(yè)與未來產(chǎn)業(yè)的國家戰(zhàn)略安排與產(chǎn)業(yè)布局上給予足夠的重視。

總體上，包括單段式端到端純視覺方案在內(nèi)，多模態(tài)大模型與具身智能體賦能通用人形機器人和自動駕駛等的快速發(fā)展，不僅構(gòu)筑了國家重大戰(zhàn)略發(fā)展的價值新高地，而且是發(fā)展新質(zhì)生產(chǎn)力與顛覆性技術(shù)創(chuàng)新的典型代表；不僅是助推智能經(jīng)濟與智能社會發(fā)展的新機遇、新引擎和新動能，也是國際競爭與合作的新陣地、新賽道和新風(fēng)口。

我國大模型產(chǎn)業(yè)發(fā)展面臨挑戰(zhàn)

在某種意義上，人類似乎找到了一條可行的人工智能實現(xiàn)路徑，即以數(shù)據(jù)智能的形態(tài)模仿并交互式學(xué)習(xí)人類的外部智能行為，以完成過去僅有人類才能完成的一系列復(fù)雜任務(wù)。從整個迭代演化路徑來看，目前通用人工智能的發(fā)展才剛剛拉開序幕。在邁向更高水平的通用人工智能，甚至走向強人工智能“奇點”時刻的征途上，前方的道路充滿了挑戰(zhàn)。

人工智能涉及數(shù)據(jù)、算力、模型與算法、應(yīng)用場景和垂直整合五個維度，其中數(shù)據(jù)是基礎(chǔ)，芯片是高地，算法是核心，人才是關(guān)鍵，選定垂直細(xì)分領(lǐng)域最重要。我國大模型產(chǎn)業(yè)在基礎(chǔ)算法創(chuàng)新、基座大模型預(yù)訓(xùn)練數(shù)據(jù)、公共算力占比等方面需要進一步提升。由于大模型產(chǎn)業(yè)的資源投入較大、產(chǎn)業(yè)鏈條較長、應(yīng)用場景多樣復(fù)雜，企業(yè)普遍面臨著高端人才不足、資金與技術(shù)匱乏等難題。一方面需要降低從頭開始的基礎(chǔ)模型的分布式預(yù)訓(xùn)練成本，特別是大幅減少垂直行業(yè)大模型的推斷應(yīng)用部署成本；另一方面還需要推動傳統(tǒng)企業(yè)數(shù)字化轉(zhuǎn)型升級，賦能企業(yè)提質(zhì)增效，進一步改善用戶體驗與提高市場滲透率。

為此，我們需要首先針對行業(yè)與實際應(yīng)用場景獲取高質(zhì)量預(yù)訓(xùn)練數(shù)據(jù)與微調(diào)數(shù)據(jù)。在大模型的應(yīng)用實踐中普遍存在著數(shù)據(jù)的碎片化、“孤島”、冗余、野值和非均衡等難題，不僅需要發(fā)展高質(zhì)量的數(shù)據(jù)采集與清洗技術(shù)，如面向語言建模主任務(wù)的數(shù)十萬億token的大規(guī)模語料庫，以及行業(yè)預(yù)訓(xùn)練數(shù)據(jù)、結(jié)合特定任務(wù)從數(shù)十萬至百萬量級的短視頻訓(xùn)練數(shù)據(jù)；還需要有效利用各種專業(yè)知識庫的搜索與知識增強、邏輯增強，并著力解決數(shù)據(jù)安全、隱私保護、知識產(chǎn)權(quán)和數(shù)據(jù)合規(guī)等應(yīng)用落地問題，推進人工智能治理的國際合作。與此同時，為了提高智能體的學(xué)習(xí)效率與質(zhì)量，應(yīng)進一步引入Sora、空間智能等世界模擬器，用于提供合成視頻訓(xùn)練數(shù)據(jù)，以彌補人類視頻訓(xùn)練數(shù)據(jù)的不足，并提高訓(xùn)練效能。

其次，在AI算力基礎(chǔ)設(shè)施的需求與產(chǎn)業(yè)化部署方面，隨著多模態(tài)大模型與具身智能體的發(fā)展，尤其是單段式端到端視覺語言動作大模型的范式變革，由于涉及時空像素空間的物理學(xué)規(guī)律模擬，因此對分布式預(yù)訓(xùn)練的AI算力需求巨大。視覺作為高階模態(tài)（時空上下文長序列），同時考慮到生成式人工智能的規(guī)?；桑⊿caling Law）與涌現(xiàn)能力，因此發(fā)展基礎(chǔ)大型語言模型、行業(yè)大模型、多模態(tài)視覺語言動作大模型與通用世界模擬器作為合成視頻數(shù)據(jù)等，均需要極大的AI算力作為支撐。為此，我們需要有效構(gòu)建并充分利用10—100個E量級的全國一體化AI算力基礎(chǔ)設(shè)施，以泛在的智慧云方式，大幅減少重復(fù)建設(shè)與資源浪費，補齊短板，發(fā)揮優(yōu)勢。

在模型與算法創(chuàng)新方面，針對長尾應(yīng)用與邊緣事件，前述單段式端到端視覺語言動作大模型帶來了歷史性機遇，極有可能成為技術(shù)突破的有效方案。目前圍繞多模態(tài)大模型與具身智能體的理論與技術(shù)創(chuàng)新，如Transformer模型的平替與升級換代已成為全球科技界、產(chǎn)業(yè)界共同關(guān)注的創(chuàng)新焦點?？紤]到Transformer模型通常具有二次方的計算復(fù)雜度，因此各種具有線性復(fù)雜度，乃至常數(shù)復(fù)雜度的新一代注意力模型與在線學(xué)習(xí)模型，成為當(dāng)前學(xué)術(shù)研究的重點。此外，基礎(chǔ)大模型的性能上限在哪里？規(guī)?；墒欠窬哂懈蟪潭鹊钠者m性？如何突破符號水平的復(fù)雜邏輯推理能力？有關(guān)數(shù)據(jù)智能新物種的自主意圖、自我意識與自我進化等是否應(yīng)設(shè)定為人類發(fā)展通用人工智能的紅線？這些已成為有關(guān)模型與算法創(chuàng)新的熱點問題。

最后，開放域的人工智能應(yīng)用場景落地自2012年以來一直是一個重要問題，原因是面對長尾與邊緣挑戰(zhàn)，人們不能通過感知—決策列舉的方式，全面探索和嘗試所有可能的路徑和方法。因而在相當(dāng)程度上降低了多模態(tài)智能體的環(huán)境適應(yīng)性與自主能力。在高AI算力的支撐下，大模型落地應(yīng)用場景以學(xué)習(xí)解決一切問題，通過遠(yuǎn)比人類強大的高效的自監(jiān)督學(xué)習(xí)，實現(xiàn)了對人類全部文本語料數(shù)據(jù)的模擬，基于多模態(tài)方式完成對人類各種感知與行為動作能力的模仿學(xué)習(xí)，并最終利用多模態(tài)智能體與真實物理世界的交互式強化學(xué)習(xí)，獲得從“形似到神似”的性能躍升。在此過程中，大模型方法本質(zhì)上構(gòu)建并利用了某種意義上的人類語言智能與知識驅(qū)動模型，獲得了時空場景的理解能力與邏輯推理能力，也進行了結(jié)合虛實平行世界的交互式自主探索與最優(yōu)策略遷移。這些不僅為大模型面向開放域長尾與邊緣挑戰(zhàn)的真實場景的落地應(yīng)用，提供了一種更加類似人類視覺技能學(xué)習(xí)的嶄新范式，而且為多模態(tài)智能體的迭代演化指明了前行的方向。

總之，我國大模型產(chǎn)業(yè)的發(fā)展在數(shù)據(jù)、算力、算法與應(yīng)用場景創(chuàng)新方面，正經(jīng)歷前所未有的歷史性機遇與挑戰(zhàn)。面對席卷而來的生成式人工智能發(fā)展浪潮，我國生成式人工智能與通用人工智能作為新質(zhì)生產(chǎn)力，一定能夠賦能經(jīng)濟社會發(fā)展。通過政策引領(lǐng)、體制機制創(chuàng)新、更高質(zhì)量數(shù)據(jù)集的構(gòu)建與開放使用、全國一體化AI算力基礎(chǔ)設(shè)施建設(shè)以及場景創(chuàng)新等的合力支撐，充分發(fā)揮我國大模型產(chǎn)業(yè)的規(guī)模優(yōu)勢，塑造我國生成式人工智能產(chǎn)業(yè)發(fā)展的全球競爭優(yōu)勢，讓中國的人工智能發(fā)展為增進人類福祉作出更大的貢獻。

（作者為清華大學(xué)計算機科學(xué)與技術(shù)系教授，人工智能研究院視覺智能研究中心主任）

責(zé)編/銀冰瑤美編/楊玲玲

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

讓國產(chǎn)大模型產(chǎn)業(yè)更好賦能經(jīng)濟社會發(fā)展

大模型的價值在于應(yīng)用

我國大模型產(chǎn)業(yè)發(fā)展迎來重要窗口期

我國大模型產(chǎn)業(yè)發(fā)展面臨挑戰(zhàn)