国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

自然語言處理新范式:基于預(yù)訓(xùn)練模型的方法

2022-05-20 09:23:58車萬翔CHEWanxiang劉挺LIUTing
中興通訊技術(shù) 2022年2期
關(guān)鍵詞:機(jī)器向量算法

車萬翔/CHE Wanxiang,劉挺/LIU Ting

(哈爾濱工業(yè)大學(xué),中國哈爾濱150001)

1 自然語言處理的背景

自然語言通常指的是人類語言(本文特指文本符號,而非語音信號),是人類思維的載體和交流的基本工具,也是人類區(qū)別于動物的根本標(biāo)志,更是人類智能發(fā)展的外在體現(xiàn)形式之一。自然語言處理(NLP)主要研究用計算機(jī)來理解和生成自然語言的各種理論和方法,屬于人工智能領(lǐng)域的一個重要甚至核心的分支。人工智能應(yīng)用領(lǐng)域的快速拓展對自然語言處理提出了巨大的應(yīng)用需求。同時,自然語言處理研究為人們更深刻地理解語言的機(jī)理和社會的機(jī)制提供了一條重要的途徑,因此具有重要的科學(xué)意義。

目前,人們普遍認(rèn)為人工智能的發(fā)展先后經(jīng)歷了運(yùn)算智能、感知智能、認(rèn)知智能3個階段。其中,運(yùn)算智能關(guān)注的是機(jī)器的基礎(chǔ)運(yùn)算和存儲能力。在這方面,機(jī)器已經(jīng)完勝人類。感知智能則強(qiáng)調(diào)機(jī)器的模式識別能力,如語音的識別和圖像的識別,目前機(jī)器在感知智能上的水平基本達(dá)到甚至超過了人類的水平。然而,在涉及自然語言處理以及常識建模和推理等研究的認(rèn)知智能上,機(jī)器與人類還有很大的差距。

為什么計算機(jī)在處理自然語言時會如此困難呢?這主要是因?yàn)樽匀徽Z言具有高度的抽象性、近乎無窮變化的語義組合性、無處不在的歧義性和持續(xù)的進(jìn)化性,并且理解語言通常需要背景知識和推理能力等。由于面臨以上問題,自然語言處理已成為目前制約人工智能取得更大突破和更廣泛應(yīng)用的瓶頸之一。包括圖靈獎得主在內(nèi)的多位知名學(xué)者都很關(guān)注自然語言處理,甚至圖靈本人,也將驗(yàn)證機(jī)器是否具有智能的手段(即“圖靈測試”)應(yīng)用在自然語言處理上。因此,自然語言處理又被譽(yù)為“人工智能皇冠上的明珠”。

2 自然語言處理問題的解決之道

自然語言處理的本質(zhì)是形式與意義的多對多映射關(guān)系。其中,形式和意義的空間都近乎無限。那么,如何才能找到正確的映射關(guān)系呢?利用“知識”進(jìn)行約束是唯一有效的辦法。因此,如何獲取和利用“知識”成為解決自然語言處理問題的關(guān)鍵科學(xué)問題。

應(yīng)用于自然語言處理的知識來源主要有三大類:狹義知識、算法和數(shù)據(jù)。表1對這三大類知識來源進(jìn)行了總結(jié)。

表1 自然語言處理中的三大類知識來源

第一大類知識是狹義知識,即通過規(guī)則或詞典等形式由人工定義的顯性知識,也就是人們通常所理解的知識類型。具體來講,狹義知識又包括3類,即語言知識、常識知識和世界知識。其中,語言知識是指對語言的詞法、句法或語義進(jìn)行的定義或描述。例如,WordNet是由普林斯頓大學(xué)編寫的英文語義詞典,其主要特色是定義了同義詞集合。每個同義詞集合由具有相同意義的詞組成。此外,WordNet還為每個同義詞集合提供簡短的釋義,同時不同同義詞集合之間還具有一定的語義關(guān)系。常識知識是指人們基于共同經(jīng)驗(yàn)而獲得的基本知識。常識往往是不言自明的,并沒有記錄為文字,所以很難從文本中挖掘到。著名的Cyc項(xiàng)目試圖將上百萬條知識編碼成機(jī)器可用的形式,用以表示人類常識。世界知識包括實(shí)體、實(shí)體屬性、實(shí)體之間的關(guān)系等。這類知識往往通過知識圖譜的形式加以描述和存儲。

第二大類知識是算法。算法的本質(zhì)是解決問題的過程或者方法,它也是一種知識類型。機(jī)器學(xué)習(xí)算法則可以看作人為定義的函數(shù)。雖然這種函數(shù)的參數(shù)是由機(jī)器自動學(xué)習(xí)獲得的,但是函數(shù)的類型仍然由人類來定義。這在某種程度上反映了設(shè)計者對待解決問題的認(rèn)知,具有一定的歸納偏執(zhí)性。例如,卷積神經(jīng)網(wǎng)絡(luò)(CNN)就利用了識別對象的平移不變性質(zhì)。面向各種自然語言處理問題的算法更是和語言知識密切相關(guān)。與狹義知識相比,算法知識具有更好的靈活性和動態(tài)性。

第三大類知識是數(shù)據(jù)。數(shù)據(jù)是機(jī)器學(xué)習(xí)算法的基礎(chǔ)。機(jī)器學(xué)習(xí)算法通常會依賴有標(biāo)注的數(shù)據(jù),需要借助人工方式來為每個輸入標(biāo)注出相應(yīng)的輸出結(jié)果。由于并沒有具體指明如何從輸入轉(zhuǎn)換到輸出,因此數(shù)據(jù)是一種隱性的知識。然而,由人工進(jìn)行數(shù)據(jù)標(biāo)注的方式費(fèi)時又費(fèi)力,導(dǎo)致標(biāo)注數(shù)據(jù)量往往較小,不足以訓(xùn)練一個性能優(yōu)異的機(jī)器學(xué)習(xí)算法。為了解決這一問題,預(yù)訓(xùn)練語言模型可直接利用大量未標(biāo)注的原始語料,將語言模型作為訓(xùn)練的目標(biāo),即根據(jù)歷史的詞序列來預(yù)測下一個單詞是什么,或者根據(jù)周圍的詞來預(yù)測當(dāng)前的詞是什么。由于未標(biāo)注數(shù)據(jù)量近乎無限,因此可以訓(xùn)練一個性能較好的語言模型,并將該模型的參數(shù)作為下游任務(wù)模型的初始參數(shù)。這樣便可以減少模型對標(biāo)注數(shù)據(jù)量的依賴,大幅提高下游任務(wù)的準(zhǔn)確率。

3 自然語言處理技術(shù)的發(fā)展歷史

自然語言處理技術(shù)自從誕生以來經(jīng)歷了以狹義知識、算法和數(shù)據(jù)為主的3個時期(如圖1所示)。

圖1 自然語言處理的發(fā)展歷史

3.1 狹義知識為主時期

早期的自然語言處理(20世紀(jì)50年代到90年代)主要采用基于小規(guī)模專家知識的方法(規(guī)則、詞典等狹義知識),通過專家總結(jié)的符號邏輯知識來處理通用的自然語言。然而,由于自然語言的復(fù)雜性,基于理性主義的規(guī)則方法在實(shí)際應(yīng)用場景中仍存在一些不足。

3.2 算法為主時期

20世紀(jì)90年代開始,計算機(jī)運(yùn)算速度和存儲容量的快速增加,以及統(tǒng)計學(xué)習(xí)(淺層機(jī)器學(xué)習(xí))算法的大量普及,均使得基于小規(guī)模語料庫的淺層機(jī)器學(xué)習(xí)算法在自然語言處理領(lǐng)域得以大規(guī)模應(yīng)用。由于語料庫中包含了一些關(guān)于語言的知識,基于淺層機(jī)器學(xué)習(xí)算法的自然語言處理方法能夠更加客觀、準(zhǔn)確、細(xì)致地捕獲語言規(guī)律。這一時期,詞法分析、句法分析、信息抽取、機(jī)器翻譯、自動問答等領(lǐng)域的研究均取得了一定程度的突破。

盡管如此,基于淺層機(jī)器學(xué)習(xí)算法的自然語言處理技術(shù)仍存在明顯的局限性,即需要事先利用經(jīng)驗(yàn)性規(guī)則將原始的自然語言輸入轉(zhuǎn)化為機(jī)器能夠處理的向量形式。這一轉(zhuǎn)化過程(也稱為特征提?。┬枰?xì)致的人工操作和一定的專業(yè)知識,因此也被稱為特征工程。

2010年以后,基于深度神經(jīng)網(wǎng)絡(luò)的表示學(xué)習(xí)方法(也稱深度學(xué)習(xí)方法)逐漸興起,可以直接端到端地完成各種自然語言處理任務(wù),不再依賴人工設(shè)計。這里,表示學(xué)習(xí)是指機(jī)器能根據(jù)輸入自動發(fā)現(xiàn)可用于識別或分類等任務(wù)的表示。具體來講,深度學(xué)習(xí)模型在結(jié)構(gòu)上通常包含多個處理層。最底層的處理層會接收原始輸入,并對原始輸入進(jìn)行抽象處理,然后該層后面的每一層都會在前一層的結(jié)果上進(jìn)行更深層次的抽象處理。最后一層的抽象處理結(jié)果即為輸入的一個表示,以用于最終的目標(biāo)任務(wù)。其中,抽象處理是由模型內(nèi)部的參數(shù)來控制的,而參數(shù)的更新值則是由反向傳播算法根據(jù)訓(xùn)練數(shù)據(jù)中模型的表現(xiàn)來學(xué)習(xí)得到的。由此可以看出,深度學(xué)習(xí)可以有效避免統(tǒng)計學(xué)習(xí)方法中的人工特征提取操作,自動地發(fā)現(xiàn)對目標(biāo)任務(wù)有效的表示。

深度學(xué)習(xí)方法還能打破不同任務(wù)之間的壁壘。傳統(tǒng)淺層機(jī)器學(xué)習(xí)方法需要為不同任務(wù)設(shè)計不同的特征,而這些特征往往是不通用的。然而,深度學(xué)習(xí)方法卻能夠?qū)⒉煌蝿?wù)在相同的向量空間內(nèi)進(jìn)行表示,從而具備跨任務(wù)遷移的能力。此外,深度學(xué)習(xí)方法還可以實(shí)現(xiàn)跨語言甚至跨模態(tài)的遷移,可以綜合利用多項(xiàng)任務(wù)、多種語言、多個模態(tài)的數(shù)據(jù),使得人工智能向更通用的方向邁進(jìn)一步。

同樣,得益于深度學(xué)習(xí)技術(shù)的快速發(fā)展,自然語言處理的另一個主要研究方向——自然語言生成也取得了長足進(jìn)步。長期以來,自然語言生成的研究幾乎處于停滯狀態(tài):除了使用模板生成一些簡單的語句外,并沒有獲得其他有效的解決辦法。隨著基于深度學(xué)習(xí)的序列到序列生成框架的提出,這種逐詞文本生成方法全面提升了生成技術(shù)的靈活性和實(shí)用性,完全革新了機(jī)器翻譯、文本摘要、人機(jī)對話等技術(shù)范式。

雖然深度學(xué)習(xí)技術(shù)能夠大幅提高自然語言處理系統(tǒng)的準(zhǔn)確率,但是基于深度學(xué)習(xí)的算法仍有一個致命的缺點(diǎn):過度依賴大規(guī)模標(biāo)注數(shù)據(jù)。對于語音識別、圖像處理等感知類任務(wù),標(biāo)注數(shù)據(jù)相對容易獲得。例如,在圖像處理領(lǐng)域,人們已經(jīng)為上百萬幅圖像標(biāo)注了相應(yīng)的類別(如Image Net數(shù)據(jù)集)。用于語音識別的“語音和文本”平行語料庫標(biāo)注的時間也有幾十萬小時。然而,自然語言處理具有主觀性特點(diǎn),它所面對的任務(wù)和領(lǐng)域又眾多。這些均使得大規(guī)模語料庫標(biāo)注的時間和人力成本變得很高。因此,自然語言處理的標(biāo)注數(shù)據(jù)往往不夠充足,很難滿足深度學(xué)習(xí)模型訓(xùn)練的需要。

3.3 數(shù)據(jù)為主時期

早期的靜態(tài)詞向量預(yù)訓(xùn)練模型和后來的動態(tài)詞向量預(yù)訓(xùn)練模型,特別是自2018年以來以BERT、GPT為代表的超大規(guī)模預(yù)訓(xùn)練語言模型,都很好地彌補(bǔ)了自然語言處理標(biāo)注數(shù)據(jù)不足的缺點(diǎn)。這些模型大大促進(jìn)了自然語言處理技術(shù)的發(fā)展,使得包括閱讀理解在內(nèi)的幾乎所有自然語言處理任務(wù)性能都得到了大幅提高,在有些數(shù)據(jù)集上的性能表現(xiàn)達(dá)到甚至超過了人類水平。

模型預(yù)訓(xùn)練是指,首先在一個源任務(wù)上訓(xùn)練一個初始模型,然后在下游任務(wù)(也稱目標(biāo)任務(wù))上繼續(xù)對該模型進(jìn)行精調(diào),從而達(dá)到提高下游任務(wù)準(zhǔn)確率的目的。模型預(yù)訓(xùn)練本質(zhì)上是遷移學(xué)習(xí)思想的一種應(yīng)用。然而,由于同樣需要人工標(biāo)注,源任務(wù)標(biāo)注數(shù)據(jù)的規(guī)模往往非常有限。那么,如何獲得更大規(guī)模的標(biāo)注數(shù)據(jù)呢?

實(shí)際上,文本自身的順序就是一種天然的標(biāo)注數(shù)據(jù)。通過若干連續(xù)出現(xiàn)的詞語來預(yù)測下一個詞語(又稱語言模型)就可以構(gòu)成一項(xiàng)源任務(wù)。由于圖書、網(wǎng)頁等文本數(shù)據(jù)的規(guī)模近乎無限,因此模型可以非常容易地獲得超大規(guī)模的預(yù)訓(xùn)練數(shù)據(jù)。有人將這種不需要人工標(biāo)注數(shù)據(jù)的預(yù)訓(xùn)練學(xué)習(xí)方法稱為無監(jiān)督學(xué)習(xí)方法。其實(shí),這種叫法并不準(zhǔn)確。這是因?yàn)檫@種方法的學(xué)習(xí)過程仍然是有監(jiān)督的。更準(zhǔn)確的叫法應(yīng)該是自監(jiān)督學(xué)習(xí)。

為了能夠刻畫大規(guī)模數(shù)據(jù)中復(fù)雜的語言現(xiàn)象,深度學(xué)習(xí)模型的容量需要足夠大?;谧宰⒁饬C(jī)制的Transformer模型能夠顯著提升自然語言建模能力,是近年來具有里程碑意義的進(jìn)展之一。要想在可容忍的時間內(nèi)在如此大規(guī)模的數(shù)據(jù)上訓(xùn)練一個超大規(guī)模的Transformer模型,就離不開以圖形處理器(GPU)、張量處理器(TPU)為代表的現(xiàn)代并行計算硬件??梢哉f,超大規(guī)模預(yù)訓(xùn)練語言模型完全依賴“蠻力”,在大數(shù)據(jù)、大模型和大計算資源的加持下,使自然語言處理取得了長足的進(jìn)步。例如,OpenAI推出的GPT-3擁有1 750億個參數(shù),無須接受任何特定任務(wù)的訓(xùn)練,便可通過小樣本學(xué)習(xí)來完成10余種文本生成任務(wù)(如風(fēng)格遷移、網(wǎng)頁生成等)。

目前,預(yù)訓(xùn)練模型已經(jīng)成為了自然語言處理的新范式。它甚至影響了整個人工智能的研究和應(yīng)用,開啟了人工智能領(lǐng)域“大規(guī)模預(yù)訓(xùn)練模型”時代的大門。

4 幾種具有代表性的預(yù)訓(xùn)練語言模型

4.1 詞嵌入預(yù)訓(xùn)練語言模型

在基于淺層機(jī)器學(xué)習(xí)的自然語言處理時期,人們使用高維、離散的向量來表示自然語言。其中,每個詞用獨(dú)熱向量來表示,向量維度表示詞的大?。ㄖ挥幸晃粸?,其余均為0)。然而,這種獨(dú)熱向量表示方法無法解決“多詞一義”的問題。也就是說,即便兩個詞含義相近,它們的表示也是截然不同的。例如,“馬鈴薯”和“土豆”會使用兩個不同的獨(dú)熱向量表示。假如訓(xùn)練數(shù)據(jù)中只出現(xiàn)“土豆”,那么當(dāng)測試系統(tǒng)中出現(xiàn)“馬鈴薯”時,模型就無法進(jìn)行正確加權(quán)。

語言學(xué)家J.R.FIRTH在1957年指出,通過一個詞周圍的詞便可理解該詞的含義,即“觀其伴知其義”。例如,“馬鈴薯”和“土豆”的周圍經(jīng)常出現(xiàn)“吃”“烹飪”“種植”等,所以這兩個詞就比較相似。因此,可以將一個詞周圍出現(xiàn)過的詞收集起來,構(gòu)建一個相對更稠密的向量,然后用該向量來表示這個詞。當(dāng)然,還可以使用降維等技術(shù),用更低維、更稠密的向量來表示詞。

2003年,圖靈獎得主Y.BENGIO首次提出詞嵌入的概念,即直接使用一個低維、稠密、連續(xù)的向量來表示詞。那么,如何獲得(即預(yù)訓(xùn)練)一個好的詞嵌入表示呢?對此,可以通過其在下游任務(wù)上表現(xiàn),對向量每一維的數(shù)值進(jìn)行自動設(shè)置。除了需要一個下游任務(wù)外,還需要針對該任務(wù)的大規(guī)模訓(xùn)練數(shù)據(jù),以保證模型能覆蓋足夠多的語言現(xiàn)象。然而,由于自然語言的主觀性,很難獲得大規(guī)模的標(biāo)注數(shù)據(jù)。比如,情感分析數(shù)據(jù)最多也就幾萬條。好在語言具有“觀其伴知其義”的性質(zhì),因此可以通過一個詞周圍的詞,來預(yù)測當(dāng)前的詞,這樣就自然構(gòu)成了一個“下游任務(wù)”。具體的任務(wù)可以分為兩類:一類是通過歷史詞序列來預(yù)測下一個詞,這類任務(wù)又被稱作“語言模型”任務(wù);另一類是利用周圍的詞來預(yù)測中間的詞,這類任務(wù)類似于“完形填空”任務(wù)。各種電子文檔、圖書乃至整個互聯(lián)網(wǎng)上的文本數(shù)據(jù),都可以作為訓(xùn)練數(shù)據(jù),從而大大增強(qiáng)了詞嵌入表示的學(xué)習(xí)能力。雖然Y.BENGIO等早在2003年便提出了詞向量概念,并通過語言模型任務(wù)對詞向量進(jìn)行了預(yù)訓(xùn)練,但是直到2013年谷歌的T.MIKOLOV等提出Word2vec模型后,該思想才開始普及。

4.2 上下文相關(guān)詞嵌入預(yù)訓(xùn)練語言模型

雖然詞嵌入表示可以處理“多詞一義”現(xiàn)象,但是其本身仍然存在一個致命的缺點(diǎn),即無法處理“一詞多義”現(xiàn)象。詞嵌入的一個基本假設(shè)是:每一個詞都對應(yīng)唯一一個詞嵌入表示。如果一個詞有多種詞義,那么用哪個詞義的向量來表示這個詞呢?這里我們?nèi)匀灰浴巴炼埂边@個詞為例進(jìn)行說明。作為一種蔬菜時,“土豆”應(yīng)該和“馬鈴薯”等詞的表示相似;而作為一個視頻網(wǎng)站時,“土豆”又應(yīng)該和“愛奇藝”等詞的表示相似。那么,最終“土豆”的詞嵌入表示必將是個“四不像”。

為解決上述問題,AllenNLP于2018年提出了ELMo模型。該模型的核心思想是將語言模型的輸出作為詞向量表示。這種表示是上下文相關(guān)的。例如,在句子“我喜歡吃土豆”中,“土豆”的表示應(yīng)該和“馬鈴薯”相似;而在句子“我在土豆上看電影”中,“土豆”的表示則應(yīng)該和“愛奇藝”相似。將ELMo輸出的詞向量作為特征,大大提高了下游任務(wù)的性能。

4.3 大規(guī)模預(yù)訓(xùn)練語言模型

在ELMo模型提出后不久,OpenAI便提出了第1代GPT模型,正式將自然語言處理技術(shù)帶入“預(yù)訓(xùn)練”時代。和ELMo一樣,GPT也把語言模型任務(wù)作為預(yù)訓(xùn)練任務(wù)??偟膩碚f,GPT模型主要有三大創(chuàng)新點(diǎn):首先,它使用了性能更強(qiáng)大的Transformer模型;其次,它在目標(biāo)任務(wù)上精調(diào)整個模型,而不是只將模型的輸出結(jié)果作為固定的詞向量特征;最后,由于預(yù)訓(xùn)練模型自身非常復(fù)雜,因此接入的下游任務(wù)模型可以非常簡單,這極大降低了自然語言處理的技術(shù)門檻。

在GPT提出后不久,谷歌便提出了著名的BERT模型。與GPT相比,BERT最大的改進(jìn)在于它能利用詞兩邊的上下文來預(yù)測中間的詞,即使用“完形填空”作為預(yù)訓(xùn)練任務(wù)。由于使用了更為豐富的上下文,因此BERT能夠獲得更好的預(yù)訓(xùn)練效果。BERT一問世便刷新了各大自然語言處理任務(wù)記錄,在有些任務(wù)上的表現(xiàn)甚至超越了人類。

隨后,微軟也建造了自己的超大規(guī)模人工智能計算平臺,并同OpenAI聯(lián)合訓(xùn)練了GPT-3模型。

GTP-3含有1 750億個超大規(guī)模參數(shù)。由于模型參數(shù)太大,研究人員無法再對它進(jìn)行精調(diào)。為了滿足不同的任務(wù)需求,模型需要針對不同任務(wù)提供相應(yīng)的“提示語”。例如,只輸入任務(wù)描述“Translate English to French:cheese=>”,GPT-3就能夠直接輸出翻譯結(jié)果。如果在輸入任務(wù)描述之后再給出一個或幾個示例,那么任務(wù)完成的效果會更好。這種技術(shù)也被稱為“提示學(xué)習(xí)”,并被認(rèn)為是自然語言處理的一種新技術(shù)范式。

在GPT、BERT模型提出以后,各種預(yù)訓(xùn)練模型如雨后春筍般涌現(xiàn),并從各個方面提升了預(yù)訓(xùn)練模型的效果,例如更大規(guī)模的預(yù)訓(xùn)練模型、多語言多模態(tài)預(yù)訓(xùn)練模型、面向各種領(lǐng)域的預(yù)訓(xùn)練模型等,其中也包括新的預(yù)訓(xùn)練任務(wù)、各種預(yù)訓(xùn)練模型壓縮與加速方法。文獻(xiàn)[9-10]對此做了詳細(xì)描述。

5 自然語言處理的未來展望

5.1 預(yù)訓(xùn)練模型亟待解決的關(guān)鍵技術(shù)問題

目前,大規(guī)模預(yù)訓(xùn)練模型的發(fā)展勢頭非常強(qiáng)勁。模型規(guī)模不斷擴(kuò)大,模型滲透的領(lǐng)域也在不斷增加。因此,短期內(nèi)自然語言處理仍將沿著大規(guī)模預(yù)訓(xùn)練模型的道路繼續(xù)前進(jìn)。不過,若要取得更好的效果并實(shí)現(xiàn)模型的應(yīng)用落地,在開展大規(guī)模預(yù)訓(xùn)練模型研究時仍需要解決以下幾個關(guān)鍵的研究問題:

(1)模型的高效性。大規(guī)模預(yù)訓(xùn)練模型的訓(xùn)練和部署都需要消耗大量的計算資源。考慮到大規(guī)模預(yù)訓(xùn)練模型在訓(xùn)練時產(chǎn)生的大量碳排放對環(huán)境的影響,研制計算效率更高的模型將是未來研究的重要方向。另外,還可以通過蒸餾、剪枝等技術(shù)將大模型壓縮為規(guī)模更小的模型,以便于模型實(shí)現(xiàn)更大規(guī)模的部署應(yīng)用。

(2)模型的易用性。自然語言處理任務(wù)和應(yīng)用領(lǐng)域?qū)映霾桓F。為了能夠滿足新任務(wù)和新領(lǐng)域的需求,預(yù)訓(xùn)練模型還需要解決小樣本甚至零樣本學(xué)習(xí)問題。另外,還需要構(gòu)建大規(guī)模預(yù)訓(xùn)練模型的工程化開發(fā)能力,建設(shè)通用的開發(fā)工作流,減少專家干預(yù)及人為調(diào)整參數(shù),構(gòu)建一整套數(shù)據(jù)、代碼、模型、應(yīng)用程序接口(API)等服務(wù)的平臺,從而支撐工業(yè)、醫(yī)療、城市、金融、物流、科學(xué)研究等領(lǐng)域,拓展人工智能的應(yīng)用范圍,并對人類生產(chǎn)和生活產(chǎn)生更廣泛的影響。

(3)模型的可解釋性。深度學(xué)習(xí)模型一直存在可解釋性差的問題,而預(yù)訓(xùn)練模型也并沒有解決這一問題。醫(yī)療診斷、法律判案等需要證據(jù)的應(yīng)用場合仍無法直接利用該技術(shù)。即便在一些不需要提供證據(jù)的應(yīng)用中,如垃圾郵件識別,模型如果能夠解釋自身如何是做出預(yù)測的,那么這將對提高模型的可信性大有裨益。

(4)模型的魯棒性。雖然在很多數(shù)據(jù)集上,預(yù)訓(xùn)練模型已經(jīng)取得不錯的性能突破,在有些方面甚至已經(jīng)超過人類,但有時只要測試數(shù)據(jù)稍加變動,即便語義不發(fā)生變化,之前能夠被正確預(yù)測的數(shù)據(jù)也可能會獲得錯誤的預(yù)測結(jié)果。這就是目前模型遇到的典型的魯棒性(也稱健壯性)問題,導(dǎo)致模型很容易被別有用心者攻擊。此外,由于預(yù)訓(xùn)練模型極度依賴大規(guī)模未標(biāo)注數(shù)據(jù),如果所收集的數(shù)據(jù)中存在錯誤或陳舊的信息,甚至被人為地植入后門數(shù)據(jù),模型可能會被誤導(dǎo)或誤用。

(5)模型的推理能力。目前預(yù)訓(xùn)練模型擁有的強(qiáng)大性能主要來自對數(shù)據(jù)的記憶能力。模型能夠很容易地回答曾經(jīng)見過的知識,但是對于不曾見過尤其需要多步推理才能解答的問題,往往不具有很好的解決能力。推理能力恰恰是人類解決問題的重要手段,是智能的重要體現(xiàn)形式,因此也是預(yù)訓(xùn)練模型需要重點(diǎn)解決的問題。

那么,自然語言處理是否會沿著預(yù)訓(xùn)練模型這條路一直發(fā)展下去呢?對此,本文首先分析一下人工智能的發(fā)展趨勢。

5.2 自然語言處理的歷史發(fā)展趨勢

經(jīng)過60余年的發(fā)展,自然語言處理經(jīng)歷了小規(guī)模專家知識、淺層機(jī)器學(xué)習(xí)算法、深度學(xué)習(xí)算法、基于大規(guī)模預(yù)訓(xùn)練模型的方法等階段,呈現(xiàn)了明顯的“同質(zhì)化”和“規(guī)?;眱蓚€相輔相成的發(fā)展趨勢。

5.2.1 模型“同質(zhì)化”的趨勢明顯

自然語言處理的發(fā)展呈現(xiàn)出明顯的“同質(zhì)化”趨勢。早期利用專家知識的自然語言處理系統(tǒng)需要針對不同的任務(wù)編寫不同的規(guī)則,因此不具有通用性和可移植性。后來,淺層機(jī)器學(xué)習(xí)算法需要根據(jù)不同的任務(wù)來編寫特定的邏輯,以便將原始文本(也可以是聲音、圖像等)轉(zhuǎn)換為更高級別的特征,然后使用相對“同質(zhì)化”的機(jī)器學(xué)習(xí)算法(如支持向量機(jī))進(jìn)行結(jié)果預(yù)測。此后,深度學(xué)習(xí)技術(shù)能夠使用更加“同質(zhì)化”的模型架構(gòu)(包括卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)等),直接將原始文本作為學(xué)習(xí)模型的輸入,并在學(xué)習(xí)的過程中自動“涌現(xiàn)”出用于預(yù)測的更高級別的特征。大規(guī)模預(yù)訓(xùn)練模型“同質(zhì)化”的特性更加明顯。例如,幾乎所有新的自然語言處理模型都源自少數(shù)大規(guī)模預(yù)訓(xùn)練模型(比如BERT、RoBERTa、BART、T5等)。GPT-3模型只需要進(jìn)行一次預(yù)訓(xùn)練就可以直接(或僅使用極少量的訓(xùn)練樣本)完成特定的下游任務(wù)。“同質(zhì)化”還體現(xiàn)在跨數(shù)據(jù)模態(tài)上?;赥ransformer的序列建模方法和預(yù)訓(xùn)練模型在被成功應(yīng)用于自然語言處理后,現(xiàn)已在圖像、視頻、語音、表格數(shù)據(jù)、蛋白質(zhì)序列、有機(jī)分子等模態(tài)數(shù)據(jù)上取得優(yōu)異的效果。這使得未來構(gòu)建一個能夠統(tǒng)一各種模態(tài)的大規(guī)模預(yù)訓(xùn)練模型成為可能。

5.2.2 “規(guī)?;笔侵悄苡楷F(xiàn)的必要條件

雖然預(yù)訓(xùn)練模型只是遷移學(xué)習(xí)的簡單應(yīng)用,但是它涌現(xiàn)出了令人驚訝的“智能”。其中“規(guī)?;笔潜夭豢缮俚臈l件?!耙?guī)?;毙枰?個必要前提目前皆已成熟。

(1)計算機(jī)硬件的升級。例如,GPU吞吐量和存儲容量在過去4年中增加了10倍。

(2)Transformer模型架構(gòu)的發(fā)明。該模型能直接對序列中的遠(yuǎn)程依賴關(guān)系進(jìn)行建模,還能充分利用硬件的并行性。

(3)更多可用的數(shù)據(jù)。過去,使用人工標(biāo)注的數(shù)據(jù)進(jìn)行有監(jiān)督模型訓(xùn)練是標(biāo)準(zhǔn)的做法。然而,較高的標(biāo)注成本限制了模型優(yōu)勢的發(fā)揮。預(yù)訓(xùn)練模型能夠充分利用超大規(guī)模的未標(biāo)注數(shù)據(jù)進(jìn)行自監(jiān)督學(xué)習(xí),從而比在有限標(biāo)注數(shù)據(jù)上進(jìn)行訓(xùn)練的模型能獲得更好的泛化性能。

正是由于“規(guī)?;钡闹匾?,越來越多的科研機(jī)構(gòu)不斷推出規(guī)模越來越大的預(yù)訓(xùn)練模型。例如,與GPT-2的15億個參數(shù)相比,OpenAI的GPT-3模型參數(shù)規(guī)模達(dá)到了驚人的1 750億。谷歌、微軟、北京智源、華為、阿里、鵬城實(shí)驗(yàn)室等也相繼推出了同等甚至更大規(guī)模的預(yù)訓(xùn)練模型,如圖2所示。

圖2 大規(guī)模預(yù)訓(xùn)練模型模型參數(shù)的發(fā)展趨勢

5.3 自然語言處理的未來技術(shù)趨勢

基于自然語言處理的歷史發(fā)展趨勢來判斷,自然語言處理將沿著“同質(zhì)化”和“規(guī)?;钡牡缆防^續(xù)前進(jìn)。

首先,以Transformer為代表的自注意力模型具有非常好的“同質(zhì)化”性質(zhì)。也就是說,該類模型不會對所處理的問題進(jìn)行約束和限制,因此適用于自然語言、圖像、語音等各類數(shù)據(jù)的處理。未來,也許會出現(xiàn)性能更優(yōu)異的模型,但是該模型一定是更加“同質(zhì)化”的。

其次,模型規(guī)模的發(fā)展速度已經(jīng)遠(yuǎn)遠(yuǎn)超過摩爾定律限制的硬件發(fā)展速度。然而,無論是神經(jīng)元還是它們之間連接的數(shù)量,都遠(yuǎn)遠(yuǎn)不及人腦。因此,“規(guī)?;钡陌l(fā)展趨勢仍不會改變。期待新的能夠突破摩爾定律的硬件形態(tài)的出現(xiàn)。

最后,人類習(xí)得語言所需的知識并非僅僅是規(guī)則、算法以及文本數(shù)據(jù)這3種類型,還包括大量其他模態(tài)的知識,如聲音、視頻、圖像等。多模態(tài)預(yù)訓(xùn)練模型(如文本、圖像、視頻、音頻之間的聯(lián)合預(yù)訓(xùn)練)已成為目前研究的熱點(diǎn)。此外,如要實(shí)現(xiàn)真正的自然語言處理,甚至通用人工智能,那么智能體就需要從物理世界中獲得反饋,這樣才能真正理解“冷暖”“軟硬”等概念,即擁有具身的能力。另外,語言作為一種人類交流的工具,具有極強(qiáng)的社會屬性。因此,智能體還需要與其他人進(jìn)行交流,在應(yīng)用中真正習(xí)得語言。在未來,自然語言處理模型一定需要融合這些更廣義的知識?!巴|(zhì)化”和“規(guī)模化”的模型也為融合這些知識提供了必要的支撐條件。

6 結(jié)束語

在大數(shù)據(jù)、大模型和大算力的加持下,基于預(yù)訓(xùn)練的模型完全革新了自然語言處理的研究范式。在未來,自然語言處理,乃至整個人工智能領(lǐng)域,仍將沿著“同質(zhì)化”和“規(guī)?;钡牡缆防^續(xù)前進(jìn),并將融入更多的“知識”源,包括多模態(tài)數(shù)據(jù)、具身行為數(shù)據(jù)、社會交互數(shù)據(jù)等,從而實(shí)現(xiàn)真正的通用人工智能。

猜你喜歡
機(jī)器向量算法
機(jī)器狗
向量的分解
機(jī)器狗
聚焦“向量與三角”創(chuàng)新題
基于MapReduce的改進(jìn)Eclat算法
Travellng thg World Full—time for Rree
進(jìn)位加法的兩種算法
未來機(jī)器城
電影(2018年8期)2018-09-21 08:00:06
一種改進(jìn)的整周模糊度去相關(guān)算法
向量垂直在解析幾何中的應(yīng)用
临猗县| 航空| 海晏县| 延长县| 灌阳县| 新河县| 盐边县| 沾益县| 江达县| 商都县| 宝丰县| 邯郸县| 将乐县| 腾冲县| 铁岭县| 浙江省| 民县| 陆丰市| 肥城市| 长乐市| 武乡县| 望都县| 牙克石市| 乌恰县| 景洪市| 寿宁县| 乾安县| 财经| 洛阳市| 星座| 思茅市| 阿荣旗| 梁山县| 资源县| 平谷区| 漯河市| 汉中市| 北辰区| 五台县| 岳普湖县| 廊坊市|