国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

大型語(yǔ)言模型:原理、實(shí)現(xiàn)與發(fā)展

2024-02-20 08:21:54舒文韜李睿瀟孫天祥黃萱菁邱錫鵬
關(guān)鍵詞:語(yǔ)言能力模型

舒文韜 李睿瀟 孫天祥 黃萱菁 邱錫鵬

(復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院 上海 200433)

(wtshu20@fudan.edu.cn)

語(yǔ)言模型(language model, LM),也稱為統(tǒng)計(jì)語(yǔ)言模型(statistical language model),意在建模自然語(yǔ)言的概率分布,并估計(jì)任意語(yǔ)言序列的概率. 語(yǔ)言模型可以充分利用互聯(lián)網(wǎng)上大規(guī)模無(wú)標(biāo)注語(yǔ)料作為訓(xùn)練數(shù)據(jù),并廣泛應(yīng)用于機(jī)器翻譯、語(yǔ)音識(shí)別等任務(wù). 隨著深度學(xué)習(xí)算法和算力的迅速發(fā)展,研究人員發(fā)現(xiàn),語(yǔ)言模型的表現(xiàn)可以隨著模型參數(shù)量和訓(xùn)練數(shù)據(jù)的增長(zhǎng)而持續(xù)提升[1],并對(duì)自然語(yǔ)言處理領(lǐng)域中的諸多任務(wù),例如文本分類、命名實(shí)體識(shí)別、詞性標(biāo)注等有顯著提升. 因此,近年來語(yǔ)言模型,特別是大型語(yǔ)言模型(large language model, LLM)逐漸成為自然語(yǔ)言處理領(lǐng)域發(fā)展的主流,甚至展現(xiàn)出通向通用人工智能的潛能.

本文主要圍繞大型語(yǔ)言模型的基本定義、發(fā)展路徑、能力涌現(xiàn)和發(fā)展前景等4 個(gè)方面展開討論:

1) 基本定義. 闡述了語(yǔ)言模型的基本定義和發(fā)展,從模型表現(xiàn)和算力需求的角度提供了“大型”語(yǔ)言模型的界定標(biāo)準(zhǔn).

2) 發(fā)展路徑. 從數(shù)據(jù)、算法、模型3 個(gè)維度回顧了語(yǔ)言模型的發(fā)展歷程和重要工作,闡述了大型語(yǔ)言模型的規(guī)模定律,總結(jié)了近年來語(yǔ)言模型的發(fā)展規(guī)律.

3) 能力涌現(xiàn). 闡述了大型語(yǔ)言模型的能力涌現(xiàn)現(xiàn)象及可能的解釋,重點(diǎn)介紹了情景學(xué)習(xí)、思維鏈和指令遵循3 種關(guān)鍵涌現(xiàn)能力的有關(guān)研究和應(yīng)用領(lǐng)域.

4) 發(fā)展前景. 總結(jié)了大型語(yǔ)言模型在不同領(lǐng)域的技術(shù)發(fā)展方向和未來應(yīng)用前景,闡述并分析了大型語(yǔ)言模型未來研究所面臨的諸多技術(shù)挑戰(zhàn).

本文就大型語(yǔ)言模型的關(guān)鍵研究要素和主要技術(shù)問題進(jìn)行了回顧和綜述,以幫助讀者深入了解這一領(lǐng)域的最新發(fā)展及未來展望.

1 大型語(yǔ)言模型的定義

1.1 語(yǔ)言模型

語(yǔ)言模型的目標(biāo)在于建模自然語(yǔ)言的概率分布.具體地,語(yǔ)言模型可以通過多種方式實(shí)現(xiàn),例如ngram 語(yǔ)言模型[2]將自然語(yǔ)言序列建模為馬爾可夫過程(Markov process)從而簡(jiǎn)化自然語(yǔ)言的概率建模難度. 目前被廣泛使用的語(yǔ)言模型通常采用自左向右逐個(gè)預(yù)測(cè)單詞的方式訓(xùn)練得到,即:

其中w0為起始符,wT為結(jié)束符. 在訓(xùn)練完成后,語(yǔ)言模型可以自回歸(auto-regressive)地自左向右生成文本.

顯然,由于自然語(yǔ)言的歧義性和句法的模糊性,通過上述方式建模自然語(yǔ)言的概率相當(dāng)困難,需要參數(shù)化模型Pθ具有極大的容量. 因此,目前的語(yǔ)言模型普遍采用Transformer 模型架構(gòu)[3],它通過注意力機(jī)制建模,輸入文本中的長(zhǎng)距離語(yǔ)義依賴,具有優(yōu)秀的規(guī)模化能力和并行化計(jì)算能力[4].

1.2 大型語(yǔ)言模型的界定標(biāo)準(zhǔn)

雖然大型語(yǔ)言模型的概念已經(jīng)深入人心,但目前尚無(wú)明確的界定標(biāo)準(zhǔn)來判斷多大參數(shù)規(guī)模的語(yǔ)言模型才算作“大型”語(yǔ)言模型. 一方面,“大型”語(yǔ)言模型應(yīng)當(dāng)具備某些“小型”語(yǔ)言模型不具備的能力;另一方面,大型語(yǔ)言模型的界定標(biāo)準(zhǔn)也隨著算力的發(fā)展而變化,例如許多在今天看來規(guī)模不大的語(yǔ)言模型在五年前就可以算作大型語(yǔ)言模型. 本節(jié)我們從模型表現(xiàn)和算力需求的角度討論大型語(yǔ)言模型的界定標(biāo)準(zhǔn).

1)模型表現(xiàn). 隨著模型參數(shù)量的增長(zhǎng),研究人員發(fā)現(xiàn)許多過去性能處于隨機(jī)水平的任務(wù)取得了顯著提升. 我們將這類隨著模型參數(shù)規(guī)模增長(zhǎng)而迅速習(xí)得的能力稱為大型語(yǔ)言模型的涌現(xiàn)能力(emergent abilities)[5]. 在不同的任務(wù)上觀測(cè)到涌現(xiàn)能力所需的參數(shù)量差異極大,目前仍然有大量困難任務(wù)未觀測(cè)到模型性能的涌現(xiàn). 在目前受關(guān)注較多的大模型評(píng)測(cè)任務(wù)中,最小的涌現(xiàn)能力所需的參數(shù)量約為百億左右,例如毒性分類能力的涌現(xiàn)所需的參數(shù)量約為71 億,3 位數(shù)加減能力的涌現(xiàn)所需參數(shù)量約為130億[5]. 因此,從模型表現(xiàn)的角度,把百億參數(shù)規(guī)模作為大型語(yǔ)言模型的界定標(biāo)準(zhǔn)是較為合適的.

2)算力需求. 訓(xùn)練大型語(yǔ)言模型的算力需求應(yīng)當(dāng)略微超過當(dāng)前廣泛可得的硬件條件. 以當(dāng)前較流行的單臺(tái)配備了8 張消費(fèi)級(jí)顯卡NVIDIA 3090 GPU的服務(wù)器測(cè)算,使用ZeRO 模型并行計(jì)算方案[6]和Adam優(yōu)化器[7],能夠啟動(dòng)訓(xùn)練的模型規(guī)模約為百億參數(shù).因此,從算力需求的角度,超過百億參數(shù)的語(yǔ)言模型可以被認(rèn)為是常規(guī)計(jì)算資源難以完成訓(xùn)練的大型語(yǔ)言模型.

綜上,不管從模型表現(xiàn)還是算力需求的角度,百億參數(shù)量都是一個(gè)較為合適的大型語(yǔ)言模型的界定標(biāo)準(zhǔn). 值得注意的是,參數(shù)量并不是界定大型語(yǔ)言模型的唯一標(biāo)準(zhǔn),模型架構(gòu)、訓(xùn)練數(shù)據(jù)量、訓(xùn)練所需FLOPs 等也是衡量大型語(yǔ)言模型的重要因素[8]. 例如,一個(gè)包含千億參數(shù)但訓(xùn)練嚴(yán)重不充分的語(yǔ)言模型也難以被認(rèn)為是一般意義上的大型語(yǔ)言模型. 考慮到大規(guī)模語(yǔ)言模型訓(xùn)練成本高昂以及人們對(duì)語(yǔ)言模型規(guī)模定律(scaling law)[1]的認(rèn)識(shí),目前絕大多數(shù)大型語(yǔ)言模型都具備與其參數(shù)量相匹配的模型配置和訓(xùn)練數(shù)據(jù),因而以參數(shù)量作為大型語(yǔ)言模型的界定標(biāo)準(zhǔn)是一種較為方便且合理的做法.

1.3 大型語(yǔ)言模型介紹

自GPT-3[9]問世以來,國(guó)內(nèi)外多家機(jī)構(gòu)加大對(duì)大型語(yǔ)言模型的研發(fā)投入,近3 年來涌現(xiàn)了一批具有競(jìng)爭(zhēng)力的大型語(yǔ)言模型. 目前已有的大型語(yǔ)言模型總體呈現(xiàn)出以工業(yè)界投入為主,以英文為主,以及以閉源為主等特點(diǎn). 表1 中列舉了當(dāng)前常見大型語(yǔ)言模型的基本信息.

Table 1 Comparison of Existing Large Language Models表1 已有大型語(yǔ)言模型對(duì)比

2 大型語(yǔ)言模型的發(fā)展路徑

語(yǔ)言模型本是自然語(yǔ)言處理領(lǐng)域中的一個(gè)分支任務(wù),近年來研究人員發(fā)現(xiàn)訓(xùn)練一個(gè)好的語(yǔ)言模型對(duì)提升諸多自然語(yǔ)言處理任務(wù),例如情感分析、文本分類、序列標(biāo)注等的性能具有顯著幫助,因而其重要性逐漸得到重視,成為如今自然語(yǔ)言處理領(lǐng)域的發(fā)展主流.

歷史上,語(yǔ)言模型有許多變種,例如將自然語(yǔ)言序列預(yù)測(cè)假設(shè)為馬爾可夫過程(Markov process)的n-gram 語(yǔ)言模型、最大熵(maximum entropy)語(yǔ)言模型等. 在本文中,我們僅考慮當(dāng)下流行的通過預(yù)測(cè)下一個(gè)單詞訓(xùn)練得到的語(yǔ)言模型及其簡(jiǎn)單變體,例如word2vec 模型[10],這類模型的訓(xùn)練任務(wù)可以概括為Pθ(wt|context),其中Pθ通常通過神經(jīng)網(wǎng)絡(luò)來建模,context可以是單詞wt之前的文本w0,w1,…,wt?1(如GPT 模型[11]),也可以是單詞wt的上下文w0,w1,…,wt?1,wt+1,…,wT(如BERT 模型[12]),還可以是單詞wt的周圍一定窗口范圍的詞wt?k,wt?k+1,…,wt?1,wt+1,…,wt+k(如word2vec CBOW 模型[10]).

圖1 展示了語(yǔ)言模型的主要發(fā)展路徑:2008 年,Collobert 等人[13]發(fā)現(xiàn)將語(yǔ)言模型作為輔助任務(wù)預(yù)先訓(xùn)練,可以顯著提升各個(gè)下游任務(wù)上的性能,初步展示了語(yǔ)言模型的通用性;2013 年,Mikolov 等人[10]在更大語(yǔ)料上進(jìn)行語(yǔ)言模型預(yù)訓(xùn)練得到一組詞向量,接著通過遷移學(xué)習(xí)的手段,以預(yù)訓(xùn)練得到的詞向量作為初始化,使用下游任務(wù)來訓(xùn)練任務(wù)特定模型;2018 年,Google 公司的Devlin 等人[12]將預(yù)訓(xùn)練參數(shù)從詞向量擴(kuò)增到整個(gè)模型,同時(shí)采用Transformer 架構(gòu)作為骨干模型,顯著增大了模型容量,在諸多自然語(yǔ)言處理任務(wù)上僅需少量微調(diào)即可取得很好的效果;隨后,研究人員繼續(xù)擴(kuò)增模型參數(shù)規(guī)模和訓(xùn)練數(shù)據(jù)量,同時(shí)采取一系列對(duì)齊算法使得語(yǔ)言模型具備更高的易用性、忠誠(chéng)性、無(wú)害性,在許多場(chǎng)景下展現(xiàn)出極強(qiáng)的通用能力,OpenAI 于2022 年底發(fā)布的ChatGPT以及2023 年發(fā)布的GPT-4[14]是其中的代表. 縱觀近十余年來語(yǔ)言模型的發(fā)展歷程,不難發(fā)現(xiàn)2 個(gè)規(guī)律:

Fig. 1 Development path of language models圖1 語(yǔ)言模型發(fā)展路徑

1)以語(yǔ)言模型及其變體為訓(xùn)練任務(wù),從多個(gè)維度實(shí)現(xiàn)規(guī)?;? 從2008 年至今,語(yǔ)言模型的訓(xùn)練任務(wù)變化很小,而其訓(xùn)練數(shù)據(jù)逐漸從6 億單詞增長(zhǎng)到如今的超萬(wàn)億單詞,算法從傳統(tǒng)的多任務(wù)學(xué)習(xí)范式發(fā)展到更適合大規(guī)模預(yù)訓(xùn)練的遷移學(xué)習(xí)范式,模型從容量較小的CNN/RNN 模型發(fā)展為包含超過千億參數(shù)的Transformer 模型.

2)將更多模型參數(shù)和訓(xùn)練任務(wù)從下游轉(zhuǎn)移到上游. 從模型參數(shù)的角度,2013 年以前的大多數(shù)模型要從頭訓(xùn)練(training from scratch)所有參數(shù);2013~2018年主要基于預(yù)訓(xùn)練的詞向量訓(xùn)練參數(shù)隨機(jī)初始化的任務(wù)特定模型;2018~2020 年逐漸轉(zhuǎn)向“預(yù)訓(xùn)練+微調(diào)”范式,即使用預(yù)訓(xùn)練模型作為下游任務(wù)初始化,僅需添加少量任務(wù)特定參數(shù),例如在預(yù)訓(xùn)練模型上添加一個(gè)隨機(jī)初始化的線性分類器;2020 年前后,基于提示(prompt)的方法得到了很大發(fā)展,通常直接使用包括語(yǔ)言模型分類頭(language modeling head)在內(nèi)的整個(gè)預(yù)訓(xùn)練語(yǔ)言模型,通過調(diào)整其輸入內(nèi)容來得到任務(wù)特定輸出. 從訓(xùn)練任務(wù)的角度,語(yǔ)言模型從與其他下游任務(wù)聯(lián)合多任務(wù)訓(xùn)練逐漸發(fā)展成為獨(dú)立的上游任務(wù),通過數(shù)據(jù)、模型、算法等多個(gè)維度的規(guī)?;饾u降低對(duì)下游任務(wù)訓(xùn)練的需求,近年來的大型語(yǔ)言模型通常在已有的上千個(gè)指令化自然語(yǔ)言處理任務(wù)(例如FLAN[15])上訓(xùn)練,從而可以在未經(jīng)下游任務(wù)訓(xùn)練的情況下很好地泛化到未見任務(wù)上.

下面我們分別從數(shù)據(jù)、算法、模型3 個(gè)維度闡述語(yǔ)言模型的發(fā)展路徑.

2.1 數(shù) 據(jù)

由于語(yǔ)言模型直接對(duì)文本的數(shù)據(jù)分布進(jìn)行建模,無(wú)需人工標(biāo)注,因此可以充分利用互聯(lián)網(wǎng)上海量的文本數(shù)據(jù). 2008 年Collobert 等人[13]構(gòu)造的語(yǔ)言模型訓(xùn)練在來自維基百科的約6.3 億單詞上進(jìn)行訓(xùn)練;2013 年Mikolov 等人[10]提出的word2vec 在包含約60億單詞的Google News 語(yǔ)料上進(jìn)行詞向量預(yù)訓(xùn)練;2018 年發(fā)布的BERT 在約8 億個(gè)單詞的BooksCorpus和約25 億個(gè)單詞的英文維基百科,共約33 億個(gè)單詞上進(jìn)行預(yù)訓(xùn)練,雖然訓(xùn)練數(shù)據(jù)量較更早的word2vec有所下降,但由于其所采用的Transformer 模型參數(shù)量大幅度增加,訓(xùn)練成本和效果均顯著提升[12];2023年的最新語(yǔ)言模型,例如GPT-4 和LLaMA[16],通常在超過萬(wàn)億個(gè)語(yǔ)言單詞上進(jìn)行預(yù)訓(xùn)練.

隨著預(yù)訓(xùn)練模型的規(guī)模化,維基百科、Books-Corpus 等高質(zhì)量語(yǔ)料的規(guī)模和多樣性逐漸無(wú)法滿足訓(xùn)練需求,因而研究人員開始尋找更加廣泛的數(shù)據(jù)來源,例如CommonCrawl,Github,ArXiv 等,而這些數(shù)據(jù)質(zhì)量和格式參差不齊,通常需要細(xì)粒度去重、低質(zhì)量文本過濾、格式處理等繁雜的數(shù)據(jù)清洗步驟才能用于模型訓(xùn)練. 此外,互聯(lián)網(wǎng)語(yǔ)料中還存在大量包含歧視性、刻板印象、事實(shí)性錯(cuò)誤的文本,若用于訓(xùn)練將顯著影響模型性能,導(dǎo)致模型產(chǎn)生帶有毒性或幻覺的輸出.

除預(yù)訓(xùn)練數(shù)據(jù)外,帶標(biāo)簽的特定任務(wù)數(shù)據(jù)仍然具有極高的利用價(jià)值. 研究人員發(fā)現(xiàn),為已有的大量自然語(yǔ)言處理任務(wù)編寫描述指令并在大量此類指令化數(shù)據(jù)集上訓(xùn)練后,語(yǔ)言模型可以很好地根據(jù)輸入的任務(wù)描述指令完成訓(xùn)練階段未見過的任務(wù). 為了增強(qiáng)語(yǔ)言模型的易用性、誠(chéng)實(shí)性、安全性,通常還需要少量對(duì)齊數(shù)據(jù)進(jìn)行訓(xùn)練,該部分?jǐn)?shù)據(jù)通常包括人工編寫的指令及其回復(fù)和對(duì)模型回復(fù)的偏好數(shù)據(jù),前者與指令化任務(wù)數(shù)據(jù)類似,但通常具有更高的多樣性,用于語(yǔ)言模型的監(jiān)督微調(diào);后者通常體現(xiàn)為多條模型回復(fù)的排序或兩兩比較結(jié)果,用于訓(xùn)練偏好模型(也稱為反饋模型). 此外,模型部署后收集的真實(shí)用戶數(shù)據(jù)也常常作為對(duì)齊數(shù)據(jù)的一部分,用于訓(xùn)練偏好模型和調(diào)優(yōu)語(yǔ)言模型. 通過對(duì)齊數(shù)據(jù),語(yǔ)言模型可以與人類世界價(jià)值觀進(jìn)行對(duì)齊,顯著降低模型毒性和幻覺問題. 最近一段時(shí)間,使用ChatGPT 等能力較強(qiáng)的語(yǔ)言模型生成的合成數(shù)據(jù)因其獲取成本低、數(shù)據(jù)質(zhì)量高等優(yōu)勢(shì)得到了廣泛應(yīng)用,基于合成數(shù)據(jù)訓(xùn)練得到的語(yǔ)言模型取得了不俗的性能. 相較于人工標(biāo)注的數(shù)據(jù),合成數(shù)據(jù)的質(zhì)量評(píng)估、潛在風(fēng)險(xiǎn),以及更加多樣的生成方法仍然需要大量研究工作.

2.2 算 法

在學(xué)習(xí)算法上,語(yǔ)言模型的發(fā)展大致經(jīng)歷了4 個(gè)階段:

1) 多任務(wù)學(xué)習(xí). 這一階段的語(yǔ)言模型通常作為學(xué)習(xí)過程中一個(gè)可選的輔助任務(wù),通過在少量無(wú)標(biāo)簽數(shù)據(jù)上訓(xùn)練語(yǔ)言模型任務(wù)來增益其他下游任務(wù)性能.

2) 預(yù)訓(xùn)練+單任務(wù)學(xué)習(xí). 隨著語(yǔ)言模型任務(wù)的重要性受到越來越多的關(guān)注,研究人員開始在大規(guī)模無(wú)標(biāo)注語(yǔ)料上預(yù)先訓(xùn)練一組詞向量[10],以此作為下游任務(wù)中模型詞向量的初始化,使用任務(wù)特定數(shù)據(jù)訓(xùn)練模型參數(shù). 其中詞向量可以繼續(xù)使用任務(wù)數(shù)據(jù)微調(diào)也可以保持不變而僅訓(xùn)練模型其余部分參數(shù).該階段中單任務(wù)學(xué)習(xí)仍然是一個(gè)需要精心設(shè)計(jì)的環(huán)節(jié),研究人員需要針對(duì)任務(wù)特性選擇合適的模型結(jié)構(gòu)和訓(xùn)練方法.

3) 預(yù)訓(xùn)練+微調(diào). 雖然通過語(yǔ)言模型任務(wù)預(yù)訓(xùn)練詞向量的方式取得了巨大成功,但預(yù)訓(xùn)練詞向量存在固有的缺陷:難以處理一詞多義問題,例如“蘋果”一詞既可以指蘋果這一水果,也可以指蘋果公司. 一種卓有成效的解決方案就是將模型與詞向量一同進(jìn)行預(yù)訓(xùn)練,由此可以得到某個(gè)單詞在特定語(yǔ)境下的表示,例如,通過預(yù)訓(xùn)練模型編碼后,蘋果一詞在“蘋果很好吃”和“蘋果手機(jī)很好用”2 種不同語(yǔ)境下得到完全不同的表示. Peters 等人[17]首先使用LSTM 模型證明了這一做法的有效性,BERT,GPT 等模型則采用容量更大、更適合并行計(jì)算的Transformer 模型.經(jīng)過大規(guī)模參數(shù)預(yù)訓(xùn)練之后,人們發(fā)現(xiàn)在下游任務(wù)上只需要對(duì)參數(shù)進(jìn)行微調(diào)即可取得很好的效果.

4) 預(yù)訓(xùn)練+對(duì)齊. 隨著訓(xùn)練數(shù)據(jù)規(guī)模和模型參數(shù)規(guī)模的增長(zhǎng),研究人員發(fā)現(xiàn)保持模型參數(shù)不變而僅需調(diào)整模型輸入的提示就可以得到不錯(cuò)的效果. 通過與人類對(duì)齊,包括使用自然語(yǔ)言指令化的任務(wù)數(shù)據(jù)訓(xùn)練和基于人類反饋學(xué)習(xí),大型語(yǔ)言模型可以顯著提高其易用性和安全性,用戶通過簡(jiǎn)單的提示語(yǔ)即可得到期望的回復(fù),實(shí)用性顯著增強(qiáng). 此外,相比過去主要基于監(jiān)督學(xué)習(xí)方式,在對(duì)齊階段還普遍引入了強(qiáng)化學(xué)習(xí):首先訓(xùn)練反饋模型建模人類反饋數(shù)據(jù),接著使用該反饋模型通過強(qiáng)化學(xué)習(xí)手段提升語(yǔ)言模型性能,使其更加符合人類偏好.

2.3 模 型

過去的語(yǔ)言模型訓(xùn)練常?;诰矸e神經(jīng)網(wǎng)絡(luò)(convolutional neural network, CNN)、循環(huán)神經(jīng)網(wǎng)絡(luò)(recurrent neural network, RNN)及其變體,例如LSTM、GRU[18]等. 其中,CNN 具有優(yōu)秀的并行計(jì)算能力,能夠處理較長(zhǎng)的輸入序列,但其受限于感受野的大小,難以處理自然語(yǔ)言中廣泛存在的長(zhǎng)距離依賴問題;RNN 及其變體將歷史序列信息選擇性地壓縮進(jìn)隱狀態(tài),據(jù)此預(yù)測(cè)下一個(gè)單詞,這一結(jié)構(gòu)上的先驗(yàn)非常符合自然語(yǔ)言序列的特點(diǎn),因而在諸多自然語(yǔ)言處理任務(wù)上具有廣泛的應(yīng)用. 然而,由于RNN 在訓(xùn)練過程中對(duì)輸入序列中每個(gè)單詞的處理都依賴其前序計(jì)算結(jié)果,因而無(wú)法充分利用GPU 的并行計(jì)算能力[19].2017 年,Vaswani 等人[3]提出了Transformer 模型,使用注意力機(jī)制對(duì)輸入序列進(jìn)行全局建模,能夠充分利用GPU 的并行計(jì)算能力,在機(jī)器翻譯任務(wù)上取得了成功. 隨后,Radford等人[11]和Devlin等人[12]使用Transformer 作為語(yǔ)言模型訓(xùn)練的骨干模型,取得了突破性進(jìn)展,從此Transformer 模型及其變體逐漸成為語(yǔ)言模型的主流.

2.4 規(guī)模定律

大型語(yǔ)言模型訓(xùn)練難度大、訓(xùn)練成本高,如果能夠根據(jù)已有小規(guī)模試驗(yàn)來提前預(yù)測(cè)為達(dá)到某種性能水平需要多少參數(shù)量、數(shù)據(jù)量、計(jì)算量,則可以顯著降低大模型訓(xùn)練試錯(cuò)成本. 這種模型性能與參數(shù)量、數(shù)據(jù)量、計(jì)算量等變量的經(jīng)驗(yàn)關(guān)系就被稱為“規(guī)模定律”.

OpenAI 的Kaplan 等人[1]通過大量實(shí)驗(yàn)表明這樣的規(guī)模定律是存在的,即語(yǔ)言模型的性能(通過損失函數(shù)值衡量)是可以被參數(shù)量、數(shù)據(jù)量、計(jì)算量等變量預(yù)測(cè)的. 具體地,他們發(fā)現(xiàn)語(yǔ)言模型的性能與3 個(gè)因素均呈現(xiàn)冪律關(guān)系:

其中L為損失函數(shù)值,X為參數(shù)量、數(shù)據(jù)量或計(jì)算量(FLOPs),Xc和 αX為與參數(shù)量、數(shù)據(jù)量或計(jì)算量相關(guān)的常量. 當(dāng)參數(shù)量和數(shù)據(jù)量按比例增長(zhǎng)時(shí),語(yǔ)言模型的損失函數(shù)值是可以被預(yù)測(cè)的,具體地,在給定計(jì)算量情況下為達(dá)到語(yǔ)言模型最優(yōu)性能,模型參數(shù)量每增長(zhǎng)8 倍,訓(xùn)練數(shù)據(jù)量應(yīng)當(dāng)增長(zhǎng)5 倍. 此外,還發(fā)現(xiàn):相比訓(xùn)練數(shù)據(jù)和參數(shù)規(guī)模,模型的寬度和深度等超參數(shù)對(duì)性能影響相對(duì)較?。荒P陀?xùn)練曲線同樣遵循冪律變化,可以通過早期訓(xùn)練曲線預(yù)測(cè)訓(xùn)練時(shí)間較長(zhǎng)時(shí)模型的損失函數(shù)值,且該冪律函數(shù)的參數(shù)與模型大小無(wú)關(guān);相較于小模型,大模型需要更少的訓(xùn)練步數(shù)和更少的訓(xùn)練數(shù)據(jù)即可達(dá)到相同的性能水平.這些經(jīng)驗(yàn)規(guī)律大大降低了大型語(yǔ)言模型的試錯(cuò)成本,對(duì)其后幾年大型語(yǔ)言模型的發(fā)展起到了重要指導(dǎo)作用.

然而,DeepMind 的Hoffmann 等人[20]在2022 年通過訓(xùn)練參數(shù)量從7 千萬(wàn)到160 億的超過400 個(gè)語(yǔ)言模型,給出了不同的規(guī)模定律:給定計(jì)算量情況下為達(dá)到語(yǔ)言模型最優(yōu)性能,應(yīng)當(dāng)?shù)缺壤鲩L(zhǎng)訓(xùn)練數(shù)據(jù)量和模型參數(shù)量. 按照這一規(guī)模定律訓(xùn)練出的Chinchilla 模型包含700 億個(gè)參數(shù),在包含約1.4 萬(wàn)億單詞的語(yǔ)料上進(jìn)行訓(xùn)練,其在多任務(wù)理解評(píng)測(cè)基準(zhǔn)MMLU 上的性能超越了2 800 億個(gè)參數(shù)的Gopher 和5 300 億個(gè)參數(shù)的MT-NLG,驗(yàn)證了其規(guī)模定律的有效性. 2023 年Meta 推出的開源語(yǔ)言模型LLaMA 采用了類似的訓(xùn)練配比,使用1.4 萬(wàn)億個(gè)單詞訓(xùn)練了650 億個(gè)參數(shù),取得了與Chinchilla 可比的性能.

圖2 給出了當(dāng)前常見的大型語(yǔ)言模型的參數(shù)量和訓(xùn)練計(jì)算量,不難發(fā)現(xiàn),較近的語(yǔ)言模型,如Chinchilla和LLaMA 通常采用相對(duì)較大的訓(xùn)練數(shù)據(jù)和相對(duì)較小的參數(shù)規(guī)模,這在下游微調(diào)和推理部署時(shí)具有顯著的效率優(yōu)勢(shì).

Fig. 2 Number of parameters and training FLOPs of common LLMs圖2 常見大型語(yǔ)言模型的參數(shù)量和訓(xùn)練計(jì)算量

到目前為止,規(guī)模定律仍然是一個(gè)非常重要且值得探索的方向,特別是中文語(yǔ)言模型的規(guī)模定律尚未有公開研究. 此外,已有的對(duì)規(guī)模定律的研究主要為通過大量實(shí)驗(yàn)得出的經(jīng)驗(yàn)性規(guī)律,而缺乏對(duì)其理論機(jī)理的解釋.

3 大型語(yǔ)言模型的涌現(xiàn)能力

規(guī)模定律展示了語(yǔ)言模型的性能可以隨著模型和數(shù)據(jù)規(guī)??深A(yù)測(cè)地增長(zhǎng),然而,當(dāng)對(duì)應(yīng)到具體任務(wù)時(shí),研究人員發(fā)現(xiàn)并非所有任務(wù)上的性能都是隨著模型和數(shù)據(jù)規(guī)模平滑地、可預(yù)測(cè)地增長(zhǎng),其中很多任務(wù)上的表現(xiàn)是當(dāng)模型和數(shù)據(jù)規(guī)模到達(dá)某個(gè)閾值后突然提升的. 這種較小規(guī)模模型不具備而大型語(yǔ)言模型具備的完成某些任務(wù)的能力就被稱為“涌現(xiàn)能力”. 例如,在少樣本提示設(shè)定下進(jìn)行三位數(shù)加減任務(wù)時(shí),當(dāng)GPT-3 達(dá)到130 億個(gè)參數(shù)、2×1022計(jì)算量時(shí)準(zhǔn)確率出現(xiàn)迅速提升,而在此之前模型準(zhǔn)確率一直接近零. 值得注意的是,即使同一任務(wù)的涌現(xiàn)閾值也不是放之四海皆準(zhǔn)的,而是與模型架構(gòu)、訓(xùn)練方法等因素有關(guān)聯(lián),例如三位數(shù)加減任務(wù)對(duì)于LaMDA 則需要680 億個(gè)參數(shù)、1023計(jì)算量才能取得顯著提升[5].

目前,關(guān)于大型語(yǔ)言模型涌現(xiàn)能力的研究主要為實(shí)證研究,其背后的理論機(jī)理仍然有待探索. 不過,我們?nèi)匀豢梢詮囊恍┎煌囊暯莵砀玫乩斫獯笮驼Z(yǔ)言模型的涌現(xiàn)能力. 例如,Wei 等人[5]發(fā)現(xiàn)當(dāng)把一些表現(xiàn)出涌現(xiàn)現(xiàn)象的任務(wù)的性能衡量指標(biāo)從粗粒度指標(biāo)(如準(zhǔn)確率)替換為細(xì)粒度指標(biāo)(如模型預(yù)測(cè)與真實(shí)標(biāo)簽的交叉熵)后,這些任務(wù)上的表現(xiàn)曲線不再呈現(xiàn)出相變性,而是可預(yù)測(cè)的平滑曲線. 然而,值得注意的是,并不是所有任務(wù)都能夠找到使其性能曲線變得平滑的衡量指標(biāo). 此外,Michaud 等人[21]提出了量子化模型(quantization model)來解釋語(yǔ)言模型的規(guī)模定律和涌現(xiàn)現(xiàn)象,他們假設(shè)模型的整體能力由許多量子化的能力組成,由于數(shù)據(jù)分布常常呈現(xiàn)Zipf 分布,因此這些量子化能力的習(xí)得曲線自然地符合冪律分布. 在實(shí)驗(yàn)中他們觀測(cè)到單個(gè)量子化能力的習(xí)得是涌現(xiàn)的,即當(dāng)模型參數(shù)規(guī)模達(dá)到某個(gè)閾值后在該能力相關(guān)單詞的預(yù)測(cè)上損失值迅速下降;而大多數(shù)單詞的預(yù)測(cè)需要多個(gè)不同的量子化能力,這些能力在不同的模型規(guī)模下涌現(xiàn),因此宏觀表現(xiàn)為模型損失值隨著規(guī)模增加而平滑地下降. 這也為理解某些任務(wù)性能的涌現(xiàn)提供了一個(gè)視角,即解決某些較復(fù)雜任務(wù)所需的能力可以分解為多個(gè)子能力,只有當(dāng)所有子能力均被習(xí)得才能解決原任務(wù),因而在所有子能力均被習(xí)得后才能觀測(cè)到任務(wù)性能的迅速提升.

相比于較小規(guī)模語(yǔ)言模型,大型語(yǔ)言模型具備一些較為關(guān)鍵的涌現(xiàn)能力,大大加強(qiáng)了其在真實(shí)場(chǎng)景下的可用性,包括情景學(xué)習(xí)、思維鏈和指令學(xué)習(xí).

3.1 情景學(xué)習(xí)

情景學(xué)習(xí)(in-context learning)[9]是指將一部分樣本及其標(biāo)簽作為示例拼接在待預(yù)測(cè)樣本之前,大型語(yǔ)言模型能夠根據(jù)這小部分示例樣本習(xí)得如何執(zhí)行該任務(wù). 具體地,語(yǔ)言模型接受x1,y1,…,xk,yk,xquery為輸入,輸出xquery對(duì)應(yīng)的標(biāo)簽yquery. 相較于傳統(tǒng)的基于梯度更新的學(xué)習(xí)方式,情景學(xué)習(xí)無(wú)需更新模型參數(shù)即可學(xué)習(xí)輸入樣本中的模式,顯著降低了學(xué)習(xí)成本,使得“語(yǔ)言模型即服務(wù)(language-model-as-a-service,LMaaS)”[22]變得可行.

盡管情景學(xué)習(xí)與一般的機(jī)器學(xué)習(xí)過程差別甚大,例如情景學(xué)習(xí)中不存在顯式的學(xué)習(xí)算法和參數(shù)更新,但其輸入輸出形式又與機(jī)器學(xué)習(xí)相仿,即可以認(rèn)為輸入中的{x1,y1,…,xk,yk}為訓(xùn)練集,待預(yù)測(cè)的x’為測(cè)試樣本. 目前已有一些工作試圖建立情景學(xué)習(xí)與機(jī)器學(xué)習(xí)的聯(lián)系. Akyürek 等人[23]通過在線性回歸任務(wù)上的實(shí)驗(yàn)發(fā)現(xiàn),基于 Transformer 的語(yǔ)言模型在進(jìn)行情景學(xué)習(xí)時(shí)能夠隱式地實(shí)現(xiàn)梯度下降,即示例樣本在輸入到語(yǔ)言模型后在前饋傳播過程中已經(jīng)執(zhí)行了與傳統(tǒng)機(jī)器學(xué)習(xí)類似的學(xué)習(xí)過程,從而能夠習(xí)得訓(xùn)練集中的模式并給出測(cè)試樣本的預(yù)測(cè)結(jié)果. 同時(shí),Dai 等人[24]通過分析Transformer 中的注意力計(jì)算與梯度下降計(jì)算的對(duì)偶關(guān)系,將語(yǔ)言模型解釋為元優(yōu)化器(meta optimizer),并從多個(gè)角度展示了情景學(xué)習(xí)與傳統(tǒng)語(yǔ)言模型微調(diào)的相似性. 基于該觀察,他們還設(shè)計(jì)了一種帶有動(dòng)量的注意力機(jī)制,提升了情景學(xué)習(xí)能力,這表明針對(duì)情景學(xué)習(xí)能力優(yōu)化的模型架構(gòu)研究仍有較大的探索空間. 值得注意的是,盡管已有不少研究從理論和實(shí)證的層面展示了情景學(xué)習(xí)與梯度下降的聯(lián)系,但情景學(xué)習(xí)的工作機(jī)理仍不完全明確,從優(yōu)化的角度如何有效地提升語(yǔ)言模型情景學(xué)習(xí)的能力也是亟待探索的方向.

從應(yīng)用的角度,已有不少研究探索了情景學(xué)習(xí)的特性以及提升語(yǔ)言模型情景學(xué)習(xí)能力的方法. 例如,Min 等人[25]發(fā)現(xiàn)情景學(xué)習(xí)的表現(xiàn)對(duì)特定上下文設(shè)置很敏感,包括提示模板、上下文示例的選擇與分布,以及示例的順序. 他們的實(shí)驗(yàn)表明,示例樣本對(duì)性能的影響主要來自4 個(gè)方面:輸入-標(biāo)簽的配對(duì)格式、標(biāo)簽的分布、輸入的分布以及輸入-標(biāo)簽的映射關(guān)系. Wei 等人[26]在 PaLM-540B 上得出了相反的結(jié)論,即錯(cuò)誤的映射關(guān)系會(huì)顯著降低模型在二分類任務(wù)上的準(zhǔn)確率,這表明大型語(yǔ)言模型以一種異于小模型的方式進(jìn)行情景學(xué)習(xí). Zhao 等人[27]發(fā)現(xiàn),多數(shù)標(biāo)簽和近因偏差也是導(dǎo)致情景學(xué)習(xí)結(jié)果出現(xiàn)偏見的重要因素:語(yǔ)言模型更加傾向于與示例中占據(jù)多數(shù)的答案保持一致,并且順序越靠后的示例樣本對(duì)預(yù)測(cè)結(jié)果的影響越大. 對(duì)此,他們?cè)O(shè)計(jì)了一種校準(zhǔn)方法用于消除示例標(biāo)簽及其位置分布可能導(dǎo)致的偏差.

目前,情景學(xué)習(xí)已經(jīng)成為大型語(yǔ)言模型能力的重要評(píng)測(cè)方法. 例如在被廣泛用于大型語(yǔ)言模型評(píng)測(cè)的基準(zhǔn)數(shù)據(jù)集MMLU 上,研究人員通常通過小樣本情景學(xué)習(xí)的方式評(píng)測(cè)語(yǔ)言模型的表現(xiàn). 因此,情景學(xué)習(xí)作為大型語(yǔ)言模型的基礎(chǔ)能力之一,其理論機(jī)理和標(biāo)準(zhǔn)化應(yīng)用方式是極為重要的研究方向.

3.2 思維鏈

思維鏈(chain-of-thought)[28]是提升大型語(yǔ)言模型推理能力的常見提示策略,它通過提示語(yǔ)言模型生成一系列中間推理步驟來顯著提升模型在復(fù)雜推理任務(wù)上的表現(xiàn). 其中,最直接的提示語(yǔ)言模型生成思維鏈的方法就是通過情景學(xué)習(xí),即對(duì)少量樣本{x1,y1,…,xk,yk}手工編寫其中間推理過程,形成{x1,t1,y1,…,xk,tk,yk,xquery}作為語(yǔ)言模型的輸入,使語(yǔ)言模型生成xquery對(duì)應(yīng)的推理步驟和答案{tquery,yquery}. Kojima 等人[29]發(fā)現(xiàn)無(wú)需手工編寫示例樣本的推理步驟,僅需簡(jiǎn)單的提示詞,例如“Let’s think step by step”即可使得語(yǔ)言模型生成中間推理過程及最終答案,這一提示策略稱為“零樣本思維鏈提示”.通過思維鏈方法可以顯著提升語(yǔ)言模型在常識(shí)問答、數(shù)學(xué)推理等任務(wù)上的性能. 隨后,研究人員提出了一些基于思維鏈提示方法的改進(jìn)策略,例如Least-to-Most[30]、Self-consistency[31]、Diverse[32]等策略,通過這些策略可以進(jìn)一步提升語(yǔ)言模型推理能力.

值得注意的是,在較小規(guī)模,如小于百億參數(shù)語(yǔ)言模型上應(yīng)用思維鏈提示策略反而會(huì)降低其在推理任務(wù)上的準(zhǔn)確率,這是由于較小的語(yǔ)言模型通常會(huì)生成通順但不合邏輯的思維鏈. 為了增強(qiáng)較小語(yǔ)言模型的思維鏈能力,一種被證明有效的做法是使用大型語(yǔ)言模型生成的思維鏈作為較小模型的訓(xùn)練信號(hào)[33]. 然而,這種方式通常會(huì)降低較小語(yǔ)言模型的通用能力.

CoT 為何能提示激發(fā) LLM 的推理能力尚未得到解釋. 有一種觀點(diǎn)認(rèn)為在預(yù)訓(xùn)練數(shù)據(jù)中加入代碼可以幫助 LLM 具備 CoT 推理能力,但不少實(shí)驗(yàn)現(xiàn)象表明代碼預(yù)訓(xùn)練和 CoT 推理能力并非完全掛鉤. 事實(shí)上,BLOOM-176B[34]在預(yù)訓(xùn)練過程中加入了大量GitHub 代碼,但并未展現(xiàn)出 CoT 推理能力;與之對(duì)應(yīng)的是沒有經(jīng)過大量代碼預(yù)訓(xùn)練的 UnifiedQA[33,35]和微軟 KOSMOS[36-37],表現(xiàn)出了較好的 CoT 乃至多模態(tài)CoT 推理能力.

3.3 指令遵循

指令遵循(instruction-following)能力是指語(yǔ)言模型根據(jù)用戶輸入的自然語(yǔ)言指令執(zhí)行特定任務(wù)的能力. 相較情景學(xué)習(xí)需要通過少量示例樣本提示語(yǔ)言模型執(zhí)行特定任務(wù),指令遵循的方式更為直接高效.然而,指令遵循能力通常需要語(yǔ)言模型在指令數(shù)據(jù)集上進(jìn)行訓(xùn)練而獲得. 一種直接的構(gòu)造指令數(shù)據(jù)集的手段是為已有的大量自然語(yǔ)言處理任務(wù)數(shù)據(jù)集編寫自然語(yǔ)言指令,這種指令可以是對(duì)任務(wù)的描述,還可以包含少量示例樣本. 研究人員發(fā)現(xiàn),在大量指令化的自然語(yǔ)言處理任務(wù)數(shù)據(jù)集上訓(xùn)練后,語(yǔ)言模型可以根據(jù)用戶輸入的指令較好地完成未見任務(wù).

然而,雖然已有的自然語(yǔ)言處理任務(wù)數(shù)據(jù)質(zhì)量較高,但其多樣性難以覆蓋真實(shí)場(chǎng)景下用戶的需求.為此,InstructGPT[38]和ChatGPT 采用人工標(biāo)注的指令數(shù)據(jù),具有更高的多樣性且更加符合真實(shí)用戶需求.隨著大型語(yǔ)言模型能力越來越強(qiáng),研究人員發(fā)現(xiàn)可以通過編寫少量種子指令(seed instruction)來提示語(yǔ)言模型生成大量高質(zhì)量、多樣化的指令數(shù)據(jù)集[39]. 近年來,使用較強(qiáng)的大型語(yǔ)言模型的輸出來訓(xùn)練較小規(guī)模語(yǔ)言模型已經(jīng)成為一種被廣泛使用的方法,通過這種方式可以較容易地使得較小語(yǔ)言模型具備基本的指令遵循能力[40-41]. 然而,這種通過蒸餾獲得的較小語(yǔ)言模型仍難以具備復(fù)雜指令遵循能力,且仍然存在嚴(yán)重的幻覺問題.

4 未來發(fā)展與挑戰(zhàn)

以ChatGPT、GPT-4 為代表的大型語(yǔ)言模型已經(jīng)在社會(huì)各界引起了很大反響,其中GPT-4 已經(jīng)具備通用人工智能的雛形. 一方面,大型語(yǔ)言模型的強(qiáng)大能力向人們展現(xiàn)了其廣闊的研究和應(yīng)用空間;而另一方面,這類模型的快速發(fā)展也帶來了許多挑戰(zhàn)和應(yīng)用風(fēng)險(xiǎn).

雖然通過簡(jiǎn)單的規(guī)?;?,大型語(yǔ)言模型已經(jīng)取得了令人印象深刻的效果,但其仍有巨大的改進(jìn)和擴(kuò)展空間.

1) 高效大型語(yǔ)言模型. 當(dāng)前大型語(yǔ)言模型主要采用Transformer 架構(gòu),能夠充分利用GPU 的并行計(jì)算能力并取得不俗的性能表現(xiàn). 但由于其計(jì)算和存儲(chǔ)復(fù)雜度與輸入文本長(zhǎng)度呈平方關(guān)系,因此存在推理效率慢、難以處理長(zhǎng)文本輸入等缺陷. 對(duì)此,研究人員從稀疏注意力機(jī)制[42]、高效記憶模塊[43]、新型架構(gòu)[44]等角度探索計(jì)算高效的大型語(yǔ)言模型. 然而,已有高效模型架構(gòu)的工作尚未在大規(guī)模參數(shù)量下進(jìn)行驗(yàn)證,高效架構(gòu)在大規(guī)模語(yǔ)言模型預(yù)訓(xùn)練下的表現(xiàn)及其改進(jìn)是未來大型語(yǔ)言模型的重要發(fā)展方向.

2) 插件增強(qiáng)的語(yǔ)言模型. 集成功能插件已經(jīng)成為大型語(yǔ)言模型快速獲得新能力的重要手段[45]. 例如,通過集成搜索引擎可以允許模型訪問互聯(lián)網(wǎng)實(shí)時(shí)信息,通過集成計(jì)算器可以幫助模型更精確地執(zhí)行數(shù)學(xué)推理,通過集成專業(yè)數(shù)據(jù)庫(kù)可以使得模型具備專業(yè)知識(shí)問答能力. 因此,如何通過訓(xùn)練或者提示的手段增強(qiáng)大型語(yǔ)言模型使用第三方插件甚至發(fā)明新插件的能力,如何使得模型能夠根據(jù)插件反饋改進(jìn)自身行為,最終解決較復(fù)雜推理問題成為飽受關(guān)注的研究方向. 此外,插件開發(fā)與模型能力的協(xié)同演化和生態(tài)建設(shè)也是值得重視、多方共建的重要議題.

3) 實(shí)時(shí)交互學(xué)習(xí). 目前語(yǔ)言模型仍以靜態(tài)方式提供服務(wù),即僅根據(jù)用戶指令生成對(duì)應(yīng)回復(fù)而無(wú)法實(shí)時(shí)動(dòng)態(tài)更新自身知識(shí),使得語(yǔ)言模型能夠在與用戶交互過程中完成實(shí)時(shí)學(xué)習(xí),特別是能夠根據(jù)用戶輸入的自然語(yǔ)言指令更新自身知識(shí),是邁向通用人工智能的重要步驟. 目前元學(xué)習(xí)、記憶網(wǎng)絡(luò)、模型編輯等領(lǐng)域的進(jìn)展初步揭示了該方向的可行性,但面向大規(guī)模輸入和參數(shù)的高效實(shí)時(shí)學(xué)習(xí)仍然是極重要與具有挑戰(zhàn)性的研究方向.

4) 語(yǔ)言模型驅(qū)動(dòng)的具身智能. 具身智能與物理世界交互并在環(huán)境中完成任務(wù)的智能,意味著智能從被動(dòng)觀察學(xué)習(xí)到探索真實(shí)環(huán)境、影響真實(shí)環(huán)境的轉(zhuǎn)變. 語(yǔ)言模型擁有相當(dāng)?shù)氖澜缰R(shí)儲(chǔ)備和一定的邏輯推理、因果建模和長(zhǎng)期規(guī)劃等高級(jí)認(rèn)知功能,因而被廣泛用于具身任務(wù),并參與環(huán)境理解、任務(wù)理解、任務(wù)序列生成與分發(fā)等諸多環(huán)節(jié). 通過多模態(tài)深度融合、強(qiáng)化邏輯推理與計(jì)劃能力等手段,打造具備強(qiáng)大認(rèn)知智能的具身系統(tǒng)正在成為大型語(yǔ)言模型和機(jī)器人領(lǐng)域的研究熱點(diǎn).

大型語(yǔ)言模型能力的迅速增長(zhǎng)也對(duì)其落地應(yīng)用帶來了許多風(fēng)險(xiǎn)與挑戰(zhàn).

1) 檢測(cè). 大型語(yǔ)言模型生成的文本高度復(fù)雜甚至相當(dāng)精致,在很多場(chǎng)景下難以與人類創(chuàng)作的文本區(qū)分開. 這引發(fā)了對(duì)語(yǔ)言模型生成文本濫用的擔(dān)憂,例如虛假文本生成在醫(yī)學(xué)、法律、教育等領(lǐng)域的濫用可能導(dǎo)致巨大的隱患. 因而,語(yǔ)言模型生成文本的檢測(cè)和監(jiān)管成為亟待解決的問題,而現(xiàn)有的文本檢測(cè)技術(shù)或模型水印等技術(shù)尚不能完全可靠地判斷一段文本是否為模型生成. 從數(shù)據(jù)、訓(xùn)練、推理、產(chǎn)品等全鏈路進(jìn)行設(shè)計(jì)和監(jiān)管以提高模型生成文本的檢測(cè)準(zhǔn)確率,是確保大型語(yǔ)言模型不被濫用的重要條件.

2) 安全性. 大型語(yǔ)言模型的訓(xùn)練數(shù)據(jù)大量來自互聯(lián)網(wǎng)上未經(jīng)標(biāo)注的文本,因而不可避免地引入了有害、不實(shí)或歧視性內(nèi)容. 此外,蓄意攻擊者也可利用提示詞注入等手段欺騙模型產(chǎn)生錯(cuò)誤的輸出,從而干擾系統(tǒng)運(yùn)行、傳播虛假信息或進(jìn)行其他非法活動(dòng)[46]. 盡管當(dāng)前已經(jīng)可以通過清洗訓(xùn)練數(shù)據(jù)、強(qiáng)化學(xué)習(xí)與社會(huì)價(jià)值觀進(jìn)行對(duì)齊等途徑顯著提升語(yǔ)言模型應(yīng)用的安全性,但實(shí)際使用時(shí)安全性隱患仍層出不窮. 如何構(gòu)造適合中文環(huán)境的安全性評(píng)估標(biāo)準(zhǔn)及其相應(yīng)的訓(xùn)練數(shù)據(jù)仍然是中文語(yǔ)言模型大規(guī)模落地應(yīng)用的重要挑戰(zhàn).

3) 幻覺. 目前ChatGPT 和GPT-4 等高性能語(yǔ)言模型仍然存在較嚴(yán)重的幻覺問題,即經(jīng)常生成包含事實(shí)性錯(cuò)誤、似是而非的文本,這嚴(yán)重影響了其在部分專業(yè)領(lǐng)域應(yīng)用的可靠性. 盡管通過接入搜索引擎、使用基于人類反饋的強(qiáng)化學(xué)習(xí)等手段可以顯著降低模型生成的幻覺,但由于語(yǔ)言模型的黑箱性,有效識(shí)別模型的內(nèi)部知識(shí)和能力邊界仍舊是極具挑戰(zhàn)性的未解難題.

總之,大型語(yǔ)言模型給自然語(yǔ)言處理乃至人工智能領(lǐng)域帶來了巨大的范式變革,將原來按不同任務(wù)進(jìn)行橫向劃分的領(lǐng)域設(shè)定轉(zhuǎn)變?yōu)榘戳鞒屉A段進(jìn)行縱向劃分的新型研究分工,并構(gòu)建了以大型語(yǔ)言模型為中心的人工智能新生態(tài).

作者貢獻(xiàn)聲明:舒文韜和李睿瀟完成論文的撰寫;孫天祥列舉提綱,并校改論文;黃萱菁和邱錫鵬提出指導(dǎo)意見.

猜你喜歡
語(yǔ)言能力模型
一半模型
消防安全四個(gè)能力
重要模型『一線三等角』
重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
語(yǔ)言是刀
文苑(2020年4期)2020-05-30 12:35:30
大興學(xué)習(xí)之風(fēng) 提升履職能力
讓語(yǔ)言描寫搖曳多姿
你的換位思考能力如何
累積動(dòng)態(tài)分析下的同聲傳譯語(yǔ)言壓縮
3D打印中的模型分割與打包
栾川县| 宜昌市| 裕民县| 富锦市| 红原县| 丰台区| 河津市| 永宁县| 洛阳市| 辽阳县| 郁南县| 大厂| 洪洞县| 新余市| 枞阳县| 绥宁县| 黎川县| 犍为县| 剑阁县| 新郑市| 响水县| 宜兰县| 岳池县| 长乐市| 曲阳县| 托里县| 濮阳县| 武义县| 梁河县| 闽侯县| 东莞市| 淮安市| 五河县| 平邑县| 陕西省| 金坛市| 泰安市| 筠连县| 仙居县| 武山县| 吐鲁番市|