文/郭全中 楊元昭
大模型作為新一代信息技術(shù),近年來備受關(guān)注。在AI 浪潮下,國(guó)內(nèi)外企業(yè)紛紛加速對(duì)大模型產(chǎn)業(yè)布局的推進(jìn),并在模型和算力等層面推動(dòng)技術(shù)變革和產(chǎn)業(yè)轉(zhuǎn)型。同時(shí),為促進(jìn)大模型產(chǎn)業(yè)落地,各個(gè)企業(yè)和機(jī)構(gòu)在大規(guī)模、高質(zhì)量的數(shù)據(jù)積累基礎(chǔ)上,著力推進(jìn)大模型的應(yīng)用。然而,隨著大模型的發(fā)展,數(shù)據(jù)安全和內(nèi)容治理成為監(jiān)管的重點(diǎn),如何在保障人工智能可持續(xù)發(fā)展的同時(shí),確保技術(shù)創(chuàng)新成為大模型發(fā)展面臨的新問題。
隨著GPT 系列的發(fā)布,國(guó)內(nèi)外大模型及其相關(guān)產(chǎn)業(yè)持續(xù)引發(fā)熱議。大模型產(chǎn)業(yè)鏈可基本分為:算力、模型、應(yīng)用三個(gè)環(huán)節(jié),芯片廠商及服務(wù)器廠商提供算力支持,科技企業(yè)及互聯(lián)網(wǎng)公司提供模型支持,模型在學(xué)習(xí)特定數(shù)據(jù)后完成功能落地。大模型技術(shù)逐步成熟、應(yīng)用場(chǎng)景不斷擴(kuò)充,大模型在互聯(lián)網(wǎng)企業(yè)與各行業(yè)逐步接軌,火熱程度不減。
在大模型及其相關(guān)產(chǎn)業(yè)占據(jù)行業(yè)焦點(diǎn)的同時(shí),國(guó)內(nèi)外相關(guān)企業(yè)迅速擴(kuò)張,加速大模型相關(guān)產(chǎn)業(yè)布局,完成技術(shù)變革與企業(yè)轉(zhuǎn)型。
盡管國(guó)內(nèi)大模型起步較晚,但整體成長(zhǎng)迅速。2023 年以來,阿里千問大模型、百度文心大模型、商湯日日新大模型、訊飛星火認(rèn)知大模型、華為盤古大模型等國(guó)產(chǎn)大模型相繼發(fā)布。國(guó)產(chǎn)大模型成長(zhǎng)迅速,且對(duì)大模型的應(yīng)用具有持續(xù)探索潛力。阿里巴巴在第六屆數(shù)字中國(guó)建設(shè)峰會(huì)上將千問大模型接入工業(yè)機(jī)器人,實(shí)現(xiàn)遠(yuǎn)程機(jī)器人交互控制;訊飛星火認(rèn)知大模型在教育、辦公、汽車、數(shù)字員工等領(lǐng)域完成成果落地,模型應(yīng)用于學(xué)習(xí)機(jī)、智能辦公本、智慧駕艙以及開放平臺(tái)等多項(xiàng)業(yè)務(wù),賦能公司收益,c 端硬件業(yè)務(wù)率先受益;華為盤古大模型在氣象、藥物分子、海浪檢測(cè)、煤礦綜采等場(chǎng)景完成大模型實(shí)踐,其中,氣象大模型精度超過傳統(tǒng)預(yù)報(bào)方式。
國(guó)外大模型種類豐富,多維拓展,垂直落地。海外大模型模態(tài)豐富,在文本、圖像、音頻多方面均有涉及。以O(shè)penAI、Google、Anthropic 等科技公司為代表,通過閉源模型形成了強(qiáng)大的龍頭效應(yīng),而Meta 等則通過開源模型構(gòu)建了合作共創(chuàng)的生態(tài)系統(tǒng)。微軟將OpenAI 整合于辦公軟件、搜索、操作系統(tǒng)、云服務(wù)等ToC、ToB 產(chǎn)品服務(wù)中,同時(shí)提供閉源模型支持,API 付費(fèi)調(diào)用也成為部分公司的服務(wù)類型;Meta 引領(lǐng)著開源模型的發(fā)展,模型形態(tài)逐漸豐富,文本到圖像、圖像到文本以及多模態(tài)統(tǒng)一到單一模型等領(lǐng)域都有所突破。
在大模型產(chǎn)業(yè)鏈中,提供算力的硬件部分扮演著更為基礎(chǔ)的角色。作為大模型的核心,算力在訓(xùn)練和推理階段都發(fā)揮著重要作用。芯片作為算力的心臟,為大模型提供了硬件支持,也成為國(guó)內(nèi)外企業(yè)競(jìng)相爭(zhēng)奪的領(lǐng)域。
在AI 浪潮下,算力相關(guān)企業(yè)美股全面暴漲,如:高通、AMD、超微電腦、博通、麥維爾科技等。與此同時(shí),英偉達(dá)在行業(yè)內(nèi)遙遙領(lǐng)先,成為美股首家市值觸及1 萬億美元的芯片公司。英偉達(dá)憑借著CUDA 框架,成為全球最大GPU 供應(yīng)商,結(jié)合CPU、GPU、DPU 形成生態(tài)閉環(huán),并通過推出AI Foundations 完成從硬件向算力云服務(wù)MaaS 的轉(zhuǎn)型。除英偉達(dá)外,谷歌自主研發(fā)了TPU 芯片,大幅降低功耗、加快運(yùn)算速度,為Anthropic 提供大規(guī)模TPU 和GPU 加速支持;Meta 推出定制AI 芯片MTIA,采用開源芯片架構(gòu)RISC-V,功耗僅有25 瓦,遠(yuǎn)低于英偉達(dá)等主流芯片。
國(guó)內(nèi)各互聯(lián)網(wǎng)企業(yè)自主研發(fā),芯片市場(chǎng)百花齊放。阿里自主研發(fā)芯片含光800、倚天710,為大模型提供強(qiáng)大算力支持;百度實(shí)現(xiàn)兩代通用AI 芯片量產(chǎn)及應(yīng)用,其產(chǎn)品在百度搜索等業(yè)務(wù)場(chǎng)景中得到應(yīng)用;騰訊推出AI 推理芯片“紫霄”、視頻轉(zhuǎn)碼芯片“滄?!币约爸悄芫W(wǎng)卡芯片“玄靈”三款自研芯片;華為自研芯片昇騰310 和910 芯片,為模型提供算力支持。
數(shù)據(jù)與算力是大模型發(fā)展的兩大核心,大模型的訓(xùn)練和推理對(duì)大量、可靠的計(jì)算資源和存儲(chǔ)空間具有一定的依賴。在大模型的訓(xùn)練過程中,通常采用無標(biāo)注、自監(jiān)督的訓(xùn)練方法,通過海量數(shù)據(jù)進(jìn)行超大規(guī)模模型訓(xùn)練,從而對(duì)數(shù)據(jù)和算力提出了更高的要求。在模型推理的過程中,也需要借助高質(zhì)量、大規(guī)模的數(shù)據(jù)基礎(chǔ)來實(shí)現(xiàn)模型的應(yīng)用和落地。因此大模型的研發(fā)本身就是對(duì)公司數(shù)據(jù)、資金以及人才儲(chǔ)備的考驗(yàn)。
從SaaS(Software as a service,軟件即服務(wù))到MaaS(Model as a Service)模型即服務(wù),模型架構(gòu)不斷升級(jí),訓(xùn)練模型數(shù)據(jù)需求不斷提升。
模型架構(gòu)升級(jí),海量數(shù)據(jù)助力大模型訓(xùn)練。隨著Transformer 架構(gòu)的提出,深度學(xué)習(xí)模型參數(shù)規(guī)模達(dá)到上億級(jí)別。2018 年谷歌提出基于Transformer 的大規(guī)模預(yù)訓(xùn)練語言模型BERT,參數(shù)規(guī)模首次超過3 億,此后在Transformer架構(gòu)的推動(dòng)下,自然語言處理領(lǐng)域得到廣泛發(fā)展。目前,國(guó)外大模型中,谷歌大模型參數(shù)規(guī)模達(dá)到千億級(jí)別,meta 提供70 億、130 億、330 億和650 億等多種參數(shù)規(guī)模模型。國(guó)內(nèi)大模型中,百度文心一言的大模型參數(shù)規(guī)模超過2600 億,阿里通義千里的大模型參數(shù)規(guī)模超過10 萬億,華為盤古大模型、騰訊混元模型的參數(shù)規(guī)模均超萬億。
模型即服務(wù),高質(zhì)量數(shù)據(jù)助力高質(zhì)量模型。隨著大模型的快速發(fā)展,國(guó)內(nèi)外以微軟、谷歌、阿里、華為、商湯等為代表的互聯(lián)網(wǎng)公司逐步自主研發(fā)出相應(yīng)的大模型產(chǎn)品,而隨著大模型的商業(yè)價(jià)值逐步提高,其可適用場(chǎng)景逐步擴(kuò)大。大模型本身作為產(chǎn)品服務(wù)各行各業(yè),高質(zhì)量的數(shù)據(jù)內(nèi)容對(duì)提高模型質(zhì)量和服務(wù)質(zhì)量起到強(qiáng)有力的推動(dòng)作用。
除模型訓(xùn)練外,大模型在內(nèi)容落地上對(duì)高質(zhì)量、高數(shù)量的數(shù)據(jù)也有極強(qiáng)的依賴性。
大模型垂直領(lǐng)域落地,專業(yè)數(shù)據(jù)推進(jìn)模型專業(yè)性發(fā)展。隨著模型質(zhì)量逐步提升,其應(yīng)用也逐步推廣。大模型垂直類知識(shí)的積累訓(xùn)練有助于其在醫(yī)療、安全、能源、工業(yè)等垂直領(lǐng)域的落地。Salesforce 研究院Ali Madani 團(tuán)隊(duì)通過將蛋白質(zhì)氨基酸序列與表示蛋白質(zhì)功能屬性的標(biāo)簽拼接,使用語言模型進(jìn)行建模,提出可控蛋白質(zhì)序列語言模型ProGen,成功利用該模型預(yù)測(cè)并合成功能與自然界蛋白質(zhì)相近的人工溶菌酶。華為將盤古大模型3.0 運(yùn)用于氣象預(yù)測(cè),Pangu-Weather 精度超過傳統(tǒng)數(shù)值預(yù)報(bào)方法,預(yù)測(cè)速度提升10000倍;將盤古大模型運(yùn)用于生物領(lǐng)域,通過藥物分子大模型找到替代Gp46 蛋白的小分子化合物,進(jìn)而研發(fā)出超級(jí)抗菌藥DrugX,大模型將先導(dǎo)化合物研發(fā)周期大大縮短,降低了研發(fā)成本。
融合了垂直領(lǐng)域知識(shí)的大語言模型有望提升各產(chǎn)業(yè)的效益,但同時(shí)也對(duì)高質(zhì)量數(shù)據(jù)有著較強(qiáng)的依賴性。只有擁有豐富高質(zhì)量、高數(shù)量數(shù)據(jù)積累的行業(yè)和企業(yè),才能在大模型的支持下具有更強(qiáng)的發(fā)展?jié)摿Α?/p>
隨著大模型的發(fā)展,生成式人工智能取得了技術(shù)革命同時(shí)也帶來了新的發(fā)展機(jī)遇,也在一定程度上為虛假信息和危害用戶信息安全的內(nèi)容提供了滋生與傳播的土壤。因此在生成式人工智能發(fā)展的同時(shí),國(guó)內(nèi)外相關(guān)管理政策也在逐步落地。國(guó)外各國(guó)對(duì)以ChatGPT 為代表的生成式人工智能采取了緊急措施。2023 年4 月11 日,美國(guó)商務(wù)部下屬國(guó)家電信和信息管理局就“存在潛在風(fēng)險(xiǎn)的大模型在發(fā)布前是否應(yīng)該通過一項(xiàng)認(rèn)證程序”發(fā)出了征求意見的請(qǐng)求。2023年4 月12 日,意大利個(gè)人數(shù)據(jù)保護(hù)局圍繞數(shù)據(jù)安全,要求ChatGPT 公開數(shù)據(jù)處理邏輯、對(duì)用戶年齡進(jìn)行篩查、明確數(shù)據(jù)主體擁有的權(quán)利,并在達(dá)標(biāo)后被允許恢復(fù)在意大利使用。2023 年4 月13 日,歐洲數(shù)據(jù)保護(hù)委員會(huì)(EDPB)宣布成立特別工作組,以加強(qiáng)監(jiān)管機(jī)構(gòu)之間的合作;國(guó)內(nèi)也對(duì)生成式人工智能進(jìn)行了及時(shí)監(jiān)管,促進(jìn)生成式人工智能健康生態(tài)發(fā)展。2023 年4 月11 日,我國(guó)互聯(lián)網(wǎng)信息辦公室起草了《生成式人工智能服務(wù)管理辦法(征求意見稿)》。2023 年7 月13 日,國(guó)家網(wǎng)信辦聯(lián)合國(guó)家發(fā)展改革委、教育部、科技部、工業(yè)和信息化部、公安部、廣電總局公布《生成式人工智能服務(wù)管理暫行辦法》(以下簡(jiǎn)稱《辦法》)。2023 年8 月15 日《辦法》正式施行。2023 年8 月31 日,以百度、字節(jié)、商湯、中國(guó)科學(xué)院旗下紫東太初為代表的首批八家通過《辦法》備案的企業(yè)與機(jī)構(gòu)大模型正式上線,并逐步向公眾提供服務(wù)。目前,國(guó)內(nèi)已有十一家大模型獲批,并將陸續(xù)向公眾開放。
自2019 年以來,我國(guó)在數(shù)據(jù)安全治理上不斷出臺(tái)相關(guān)政策,完善數(shù)據(jù)要素市場(chǎng)制度與頂層設(shè)計(jì)。2022 年12 月,中共中央、國(guó)務(wù)院印發(fā)《關(guān)于構(gòu)建數(shù)據(jù)基礎(chǔ)制度更好發(fā)揮數(shù)據(jù)要素作用的意見》從數(shù)據(jù)產(chǎn)權(quán)、流通交易、收益分配和安全治理四方面,提出相關(guān)政策措施,為我國(guó)數(shù)據(jù)治理的長(zhǎng)遠(yuǎn)發(fā)展提供基礎(chǔ)指南。2023 年7 月13 日《辦法》對(duì)生成式人工智能服務(wù)中的數(shù)據(jù)安全、模型算法安全進(jìn)行了進(jìn)一步細(xì)化。
《辦法》就生成式人工智能數(shù)據(jù)安全層面,明確了訓(xùn)練數(shù)據(jù)處理活動(dòng)和數(shù)據(jù)標(biāo)注的各項(xiàng)要求?!掇k法》對(duì)大模型服務(wù)過程中的責(zé)任主體進(jìn)行了說明,并對(duì)大模型的數(shù)據(jù)安全、數(shù)據(jù)來源問題進(jìn)行了強(qiáng)調(diào),對(duì)數(shù)據(jù)來源中的肖像權(quán)、名譽(yù)權(quán)、個(gè)人隱私權(quán)、知識(shí)產(chǎn)權(quán)進(jìn)行了特別說明,對(duì)用戶及數(shù)據(jù)來源信息安全進(jìn)行監(jiān)管保護(hù)。
數(shù)據(jù)安全、數(shù)據(jù)來源的監(jiān)管是促進(jìn)生成式人工智能健康發(fā)展的重要前提,也是防范生成式人工智能服務(wù)風(fēng)險(xiǎn)的現(xiàn)實(shí)需要。
針對(duì)生成式人工智能這一新內(nèi)容,如何在把握人工智能新科技革命浪潮的同時(shí)實(shí)施內(nèi)容治理是生成式人工智能監(jiān)管的重點(diǎn)。《辦法》對(duì)其生成內(nèi)容、模型算法設(shè)計(jì)、運(yùn)營(yíng)規(guī)范也進(jìn)行了相關(guān)約束。
《辦法》通過對(duì)提供生成式人工智能服務(wù)的公司進(jìn)行服務(wù)前模型算法、數(shù)據(jù)來源的評(píng)估備案,服務(wù)時(shí)生成內(nèi)容合法性、合理性的監(jiān)管要求,服務(wù)后用戶投訴接受處理機(jī)制的監(jiān)管完成對(duì)生成式人工智能的管理。目前,國(guó)內(nèi)已有部分提供生成式人工智能服務(wù)的相關(guān)企業(yè)機(jī)構(gòu)完成備案,《辦法》的出臺(tái)將對(duì)生成式人工智能內(nèi)容治理及健康生態(tài)提供發(fā)展基礎(chǔ)。
生成式人工智能作為新一代信息技術(shù)引領(lǐng)下的新興產(chǎn)業(yè)具有很大的發(fā)展?jié)摿?。隨著模型數(shù)據(jù)規(guī)模和質(zhì)量的不斷提升以及算力的增強(qiáng),模型水平逐步提高,其在各垂直領(lǐng)域的應(yīng)用逐漸呈現(xiàn)出專業(yè)化和精細(xì)化趨勢(shì)。目前各行業(yè)對(duì)大模型的熱情依然高漲,生成式人工智能的監(jiān)管面臨一定挑戰(zhàn)。在《辦法》的指導(dǎo)下,政府、企業(yè)及研究機(jī)構(gòu)需要共同探尋,在確保人工智能的可持續(xù)健康發(fā)展下,保障技術(shù)創(chuàng)新。