王海峰/WANG Haifeng,孫宇/SUN Yu,吳華/WU Hua
(北京百度網(wǎng)訊科技有限公司,中國(guó)北京100193)
自然語(yǔ)言處理中的預(yù)訓(xùn)練模型與語(yǔ)言模型的建立密切相關(guān)。語(yǔ)言模型是自然語(yǔ)言處理的一個(gè)重要分支。早期的語(yǔ)言模型能夠?qū)τ蓡卧~組成的文本序列進(jìn)行概率建模,并計(jì)算句子的聯(lián)合概率。該模型技術(shù)被廣泛應(yīng)用于自然語(yǔ)言處理任務(wù)中,例如語(yǔ)音識(shí)別、機(jī)器翻譯等。
2003年,隨著深度學(xué)習(xí)技術(shù)的發(fā)展,Y.BENGIO等提出神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型NNLM。該模型被用來(lái)學(xué)習(xí)詞的分布式表示以解決詞表示的維數(shù)災(zāi)難問(wèn)題。2013年,詞表示訓(xùn)練技術(shù)Word2Vec被提出。該技術(shù)可使用詞的上下文來(lái)對(duì)當(dāng)前詞進(jìn)行建模,從而學(xué)習(xí)單詞的分布式向量表示。隨后,一系列詞表示技術(shù)如雨后春筍般涌現(xiàn),例如基于詞匯共現(xiàn)矩陣的GloVe、基于字符級(jí)別N-Gram的FastText等。詞表示技術(shù)的提出是深度學(xué)習(xí)在自然語(yǔ)言處理方向應(yīng)用的一座里程碑。這種技術(shù)極大地加速了自然語(yǔ)言處理領(lǐng)域的發(fā)展進(jìn)程。
由于Word2Vec詞表示技術(shù)僅能將語(yǔ)言中的詞語(yǔ)映射到一個(gè)靜態(tài)的、與上下文無(wú)關(guān)的語(yǔ)義表示空間上,因此該技術(shù)無(wú)法解決語(yǔ)言中的一詞多義問(wèn)題。2018年,ELMo模型采用了雙向長(zhǎng)短期記憶(LSTM)網(wǎng)絡(luò)對(duì)文本序列的上下文進(jìn)行建模。該模型能夠?qū)㈦p向語(yǔ)言模型中的不同層表示進(jìn)行融合,并計(jì)算上下文相關(guān)的詞表示,在一定程度上解決了一詞多義問(wèn)題。緊接著,BERT模型使用雙向Transformer網(wǎng)絡(luò)對(duì)文本序列進(jìn)行建模,并采用預(yù)訓(xùn)練-微調(diào)方法一舉刷新眾多自然語(yǔ)言理解任務(wù)的基準(zhǔn)紀(jì)錄。預(yù)訓(xùn)練模型技術(shù)的成熟進(jìn)一步推動(dòng)了自然語(yǔ)言處理的發(fā)展。
與傳統(tǒng)監(jiān)督學(xué)習(xí)方法不同,基于自監(jiān)督學(xué)習(xí)方法的預(yù)訓(xùn)練-微調(diào)首先對(duì)大規(guī)模無(wú)標(biāo)注數(shù)據(jù)進(jìn)行學(xué)習(xí),然后再對(duì)小規(guī)模任務(wù)標(biāo)注數(shù)據(jù)進(jìn)行微調(diào),如圖1所示。由于能同時(shí)對(duì)未標(biāo)注文本和標(biāo)注文本進(jìn)行學(xué)習(xí),預(yù)訓(xùn)練-微調(diào)方法取得了遠(yuǎn)超傳統(tǒng)監(jiān)督學(xué)習(xí)的效果,并且顯著縮小了任務(wù)標(biāo)注數(shù)據(jù)的規(guī)模。因此,預(yù)訓(xùn)練-微調(diào)方法逐漸成為自然語(yǔ)言處理領(lǐng)域的應(yīng)用范式。近期,基于超大規(guī)模預(yù)訓(xùn)練模型的預(yù)訓(xùn)練-提示方法取得了能夠與預(yù)訓(xùn)練-微調(diào)方法相媲美的效果,并逐漸成為自然語(yǔ)言處理領(lǐng)域的又一范式。該方法可將下游任務(wù)改造為自然語(yǔ)言表達(dá)形式,使下游任務(wù)的建模形式更接近預(yù)訓(xùn)練模型的學(xué)習(xí)過(guò)程,從而挖掘出預(yù)訓(xùn)練模型強(qiáng)大的零樣本和小樣本學(xué)習(xí)能力。
圖1 傳統(tǒng)監(jiān)督學(xué)習(xí)(上)與預(yù)訓(xùn)練-微調(diào)(下)的對(duì)比
得益于深度學(xué)習(xí)技術(shù)和硬件算力的飛速發(fā)展,以BERT、GPT-3、ERNIE 3.0為代表的預(yù)訓(xùn)練語(yǔ)言模型在自然語(yǔ)言理解、語(yǔ)言生成、機(jī)器翻譯、人機(jī)對(duì)話等領(lǐng)域取得了突破性進(jìn)展。預(yù)訓(xùn)練模型的出現(xiàn)使得人們對(duì)自然語(yǔ)言處理領(lǐng)域的研究重點(diǎn)從過(guò)去的結(jié)構(gòu)工程轉(zhuǎn)移到目標(biāo)工程上,即從設(shè)計(jì)不同的網(wǎng)絡(luò)結(jié)構(gòu)并引入相應(yīng)的歸納偏置,轉(zhuǎn)移到基于統(tǒng)一的Transformer模型來(lái)設(shè)計(jì)啟發(fā)式的預(yù)訓(xùn)練目標(biāo)。預(yù)訓(xùn)練模型憑借自監(jiān)督學(xué)習(xí)方法和預(yù)訓(xùn)練-微調(diào)應(yīng)用方法,已逐步占據(jù)自然語(yǔ)言處理領(lǐng)域的主導(dǎo)地位。
當(dāng)前的預(yù)訓(xùn)練模型主要依賴大量無(wú)結(jié)構(gòu)化數(shù)據(jù)的學(xué)習(xí)。由于缺少外部知識(shí)指導(dǎo),這些模型存在學(xué)習(xí)效率不高、模型效果不佳和知識(shí)推理能力受限等問(wèn)題。因此,如何使用知識(shí)來(lái)增強(qiáng)預(yù)訓(xùn)練模型的表示能力,是預(yù)訓(xùn)練模型研究和應(yīng)用的難點(diǎn)之一。目前,主流的知識(shí)增強(qiáng)預(yù)訓(xùn)練模型主要分為兩類。一類模型可通過(guò)弱監(jiān)督方法,對(duì)文本中蘊(yùn)含的知識(shí)進(jìn)行標(biāo)注,然后設(shè)計(jì)知識(shí)類預(yù)訓(xùn)練任務(wù),以便對(duì)文本中的知識(shí)進(jìn)行學(xué)習(xí)。例如,ERNIE 1.0通過(guò)對(duì)數(shù)據(jù)中的短語(yǔ)和實(shí)體進(jìn)行標(biāo)注并掩碼,來(lái)學(xué)習(xí)文本中的知識(shí)。文獻(xiàn)[16]對(duì)實(shí)體知識(shí)進(jìn)行替換,使語(yǔ)言模型能夠根據(jù)上下文信息對(duì)知識(shí)圖譜中的實(shí)體和關(guān)系進(jìn)行推斷,從而加強(qiáng)對(duì)文本序列知識(shí)的學(xué)習(xí)。另一類模型可對(duì)構(gòu)建好的結(jié)構(gòu)化知識(shí)庫(kù)和無(wú)結(jié)構(gòu)化文本進(jìn)行聯(lián)合預(yù)訓(xùn)練學(xué)習(xí),例如K-BERT、CoLAKE和ERNIE 3.0。通過(guò)對(duì)結(jié)構(gòu)化知識(shí)和海量無(wú)結(jié)構(gòu)化數(shù)據(jù)的聯(lián)合學(xué)習(xí),知識(shí)增強(qiáng)的預(yù)訓(xùn)練模型可以很好地提升知識(shí)記憶能力和推理能力。
根據(jù)融合知識(shí)的類型和作用,本文將預(yù)訓(xùn)練模型分為3類:融合語(yǔ)言知識(shí)的預(yù)訓(xùn)練模型、融合世界知識(shí)的預(yù)訓(xùn)練模型和融合領(lǐng)域知識(shí)的預(yù)訓(xùn)練模型。
語(yǔ)言知識(shí)是理解自然語(yǔ)言的基礎(chǔ),主要包含詞法知識(shí)、句法結(jié)構(gòu)知識(shí)、語(yǔ)義知識(shí)等。預(yù)訓(xùn)練模型對(duì)語(yǔ)言知識(shí)的融合方法有兩種:一種是通過(guò)自動(dòng)標(biāo)記無(wú)標(biāo)注文本中的語(yǔ)言知識(shí)來(lái)指導(dǎo)預(yù)訓(xùn)練模型的學(xué)習(xí),另外一種是融合人工構(gòu)建的語(yǔ)言知識(shí)庫(kù)。ERNIE-Gram通過(guò)構(gòu)建基于N-Gram的多粒度掩碼語(yǔ)言模型,可同時(shí)學(xué)習(xí)N-Gram內(nèi)部和N-Gram之間的語(yǔ)義關(guān)系,使模型能夠同時(shí)捕獲細(xì)粒度和粗粒度語(yǔ)言知識(shí),顯著提升了模型的語(yǔ)義表示能力。除了融合語(yǔ)言粒度知識(shí)外,也有工作研究如何學(xué)習(xí)句子中的語(yǔ)義關(guān)系。通過(guò)在預(yù)訓(xùn)練的過(guò)程中對(duì)指代消解進(jìn)行建模,CorefBERT增強(qiáng)了模型對(duì)語(yǔ)義知識(shí)的學(xué)習(xí)能力。其中,“指代”是自然語(yǔ)言表達(dá)中的常見現(xiàn)象。基于在一段文本中多次出現(xiàn)的命名實(shí)體是同一個(gè)事物的假設(shè),CorefBERT提出提及指代預(yù)測(cè)算法。通過(guò)預(yù)測(cè)文本中被掩蓋的、重復(fù)出現(xiàn)的命名實(shí)體,該算法提升了模型對(duì)指代關(guān)系的建模能力。
上述方法主要對(duì)無(wú)標(biāo)注數(shù)據(jù)中蘊(yùn)含的人類知識(shí)進(jìn)行標(biāo)注,讓模型通過(guò)學(xué)習(xí)標(biāo)注信息來(lái)融合語(yǔ)言知識(shí)。此外,也有研究將人工構(gòu)建的語(yǔ)言知識(shí)庫(kù)融合到預(yù)訓(xùn)練模型中。其中,WordNet和HowNet是具有代表性的語(yǔ)言知識(shí)庫(kù)。這些知識(shí)庫(kù)含有豐富的語(yǔ)言知識(shí)。以WordNet為例,它將不同詞性的單詞各自組成一個(gè)同義詞集合。每個(gè)同義詞集合各表示一個(gè)基本的語(yǔ)義概念。WordNet利用語(yǔ)義關(guān)系將這些集合連接成網(wǎng)絡(luò)。其中,每個(gè)詞語(yǔ)均有對(duì)應(yīng)的解釋和例句。Sense-BERT融合了WordNet中的超義等概念知識(shí)。通過(guò)還原被掩蓋的詞并預(yù)測(cè)其對(duì)應(yīng)的超義,該模型可以顯式學(xué)習(xí)詞語(yǔ)在給定語(yǔ)境下的語(yǔ)義信息。SenseBERT在詞義消歧等任務(wù)上的效果取得了顯著提升。LIBERT利用WordNet中詞語(yǔ)與詞語(yǔ)間的同義關(guān)系和上下位關(guān)系設(shè)計(jì)了詞匯關(guān)系分類預(yù)訓(xùn)練任務(wù)過(guò)程,增強(qiáng)了預(yù)訓(xùn)練模型對(duì)語(yǔ)義信息的建模能力,在大部分自然語(yǔ)言處理任務(wù)上的效果均有提升。
人類在認(rèn)識(shí)世界的過(guò)程中產(chǎn)生了大量的世界知識(shí)。其中,部分知識(shí)可以利用實(shí)體以及實(shí)體之間的關(guān)系進(jìn)行描述,比如“安徒生”創(chuàng)作了“《夜鶯》”。研究者通過(guò)知識(shí)圖譜來(lái)表達(dá)這些世界知識(shí)。在知識(shí)圖譜中,實(shí)體表示網(wǎng)絡(luò)中的一個(gè)節(jié)點(diǎn),實(shí)體間的關(guān)系則表示對(duì)應(yīng)節(jié)點(diǎn)間的邊。利用知識(shí)圖譜存儲(chǔ)世界知識(shí),并讓模型顯式學(xué)習(xí)人類對(duì)世界的認(rèn)知,是融合世界知識(shí)的預(yù)訓(xùn)練模型采用的重要方法。KEPLER將預(yù)訓(xùn)練上下文編碼器與知識(shí)模型相結(jié)合,使得預(yù)訓(xùn)練模型不僅可以將圖譜三元組中的事實(shí)知識(shí)更好地融合到模型中,而且還可以通過(guò)豐富的實(shí)體描述,有效地學(xué)習(xí)實(shí)體和關(guān)系的知識(shí)表示。不同于KEPLER,有的模型將語(yǔ)言和知識(shí)進(jìn)行統(tǒng)一表示。CoLAKE將文本序列視為一個(gè)全鏈接的詞圖,并以每個(gè)實(shí)體為錨點(diǎn),將文本中實(shí)體所對(duì)應(yīng)的知識(shí)圖譜中的子圖進(jìn)行連接,以構(gòu)成一個(gè)同時(shí)包含詞語(yǔ)、實(shí)體和關(guān)系的詞語(yǔ)-知識(shí)圖。通過(guò)學(xué)習(xí)詞語(yǔ)-知識(shí)圖,模型能夠同時(shí)融合訓(xùn)練語(yǔ)料中的語(yǔ)言知識(shí)和圖譜中的世界知識(shí)。然而,CoLAKE主要側(cè)重實(shí)體在知識(shí)圖譜中的建模,卻忽視了實(shí)體在訓(xùn)練語(yǔ)料中的表述。為此,ERNIE 3.0提出知識(shí)圖譜與文本平行預(yù)訓(xùn)練的方法,使用文本來(lái)表述知識(shí)。ERNIE 3.0突破了異構(gòu)結(jié)構(gòu)化知識(shí)表示與無(wú)結(jié)構(gòu)文本表示難以統(tǒng)一建模的瓶頸。
人工智能行業(yè)應(yīng)用存在著豐富的、由眾多行業(yè)專家積累的專業(yè)知識(shí)。當(dāng)前的預(yù)訓(xùn)練模型主要依賴互聯(lián)網(wǎng)數(shù)據(jù)進(jìn)行訓(xùn)練。數(shù)據(jù)中缺乏行業(yè)相關(guān)的領(lǐng)域知識(shí),導(dǎo)致預(yù)訓(xùn)練模型在專業(yè)領(lǐng)域的自然語(yǔ)言處理任務(wù)上的表現(xiàn)不佳。以醫(yī)療領(lǐng)域?yàn)槔珻BLUE的應(yīng)用表明,通用預(yù)訓(xùn)練模型處理該類任務(wù)的效果差于人類。為了增強(qiáng)預(yù)訓(xùn)練模型在專業(yè)領(lǐng)域的應(yīng)用效果,研究者們對(duì)如何將領(lǐng)域知識(shí)融入到預(yù)訓(xùn)練模型進(jìn)行了探索。BioBERT是一個(gè)生物醫(yī)學(xué)領(lǐng)域的預(yù)訓(xùn)練模型。實(shí)驗(yàn)表明,在生物醫(yī)學(xué)語(yǔ)料庫(kù)上的預(yù)訓(xùn)練可以顯著提高模型在生物醫(yī)療領(lǐng)域任務(wù)上的性能。針對(duì)領(lǐng)域知識(shí)的預(yù)訓(xùn)練方法,ERNIE-Health利用醫(yī)療實(shí)體掩碼算法對(duì)專業(yè)術(shù)語(yǔ)等實(shí)體知識(shí)進(jìn)行學(xué)習(xí)。同時(shí),通過(guò)醫(yī)療問(wèn)答匹配任務(wù),該模型能對(duì)病狀描述與醫(yī)生專業(yè)治療方案的對(duì)應(yīng)關(guān)系進(jìn)行學(xué)習(xí),可獲得醫(yī)療實(shí)體知識(shí)之間的內(nèi)在聯(lián)系,在包含醫(yī)學(xué)信息抽取、醫(yī)學(xué)術(shù)語(yǔ)歸一化等中文醫(yī)療文本處理任務(wù)上的效果取得了顯著提升。進(jìn)一步地,結(jié)合世界知識(shí)和領(lǐng)域知識(shí)的學(xué)習(xí)方法,BERT-MK基于醫(yī)療知識(shí)圖譜的子圖進(jìn)行學(xué)習(xí),提高了預(yù)訓(xùn)練模型在醫(yī)療領(lǐng)域任務(wù)上的應(yīng)用效果。
為了充分地融合領(lǐng)域知識(shí),以FLAN、ExT5和T0為代表的模型分別收集了60、107、171個(gè)領(lǐng)域的任務(wù)數(shù)據(jù),并針對(duì)每項(xiàng)任務(wù)設(shè)計(jì)了任務(wù)模板。將多種多樣的任務(wù)轉(zhuǎn)化為由文本至文本生成的統(tǒng)一格式,使模型在預(yù)訓(xùn)練階段就能融合并使用多領(lǐng)域、多任務(wù)的知識(shí),可顯著提高模型的通用能力與泛化性能。PPT延續(xù)了將多種任務(wù)通過(guò)模板轉(zhuǎn)化為統(tǒng)一格式的方式,在預(yù)訓(xùn)練階段就可對(duì)連續(xù)提示詞進(jìn)行領(lǐng)域知識(shí)的學(xué)習(xí),提升了模型在訓(xùn)練樣本匱乏的下游任務(wù)上的少樣本遷移能力。
知識(shí)增強(qiáng)預(yù)訓(xùn)練模型通過(guò)融合多種類型的外部知識(shí)來(lái)顯著提升自身性能。然而,在學(xué)習(xí)知識(shí)的過(guò)程中,模型通常存在知識(shí)遺忘問(wèn)題,即在學(xué)習(xí)新的知識(shí)后會(huì)忘記之前學(xué)過(guò)的知識(shí)。因此,如何解決知識(shí)遺忘問(wèn)題顯得非常重要。為了避免知識(shí)遺忘,ERNIE 2.0構(gòu)建了持續(xù)預(yù)訓(xùn)練的框架。在該框架下,每當(dāng)引入新任務(wù)時(shí),該框架可在學(xué)習(xí)該任務(wù)的同時(shí)仍記住之前學(xué)過(guò)的知識(shí)。此外,K-ADAPTER通過(guò)不同的適配器來(lái)學(xué)習(xí)世界知識(shí)和語(yǔ)言知識(shí)。在下游任務(wù)中,該方法能夠?qū)⒉煌m配器產(chǎn)生的特征表示進(jìn)行拼接,并生成同時(shí)具有各種知識(shí)的表示,從而將多種知識(shí)同時(shí)應(yīng)用到任務(wù)中,有效解決了知識(shí)遺忘問(wèn)題。
本文中,我們將以百度文心(ERNIE)知識(shí)增強(qiáng)預(yù)訓(xùn)練模型為例,詳細(xì)闡述知識(shí)增強(qiáng)預(yù)訓(xùn)練模型的模型結(jié)構(gòu)、知識(shí)融合方法,以及該模型在知識(shí)增強(qiáng)跨語(yǔ)言預(yù)訓(xùn)練模型、知識(shí)增強(qiáng)跨模態(tài)預(yù)訓(xùn)練模型上的擴(kuò)展。文心是最早探索預(yù)訓(xùn)練模型融入知識(shí)的工作之一,并在文獻(xiàn)[14]和文獻(xiàn)[34]等工作中逐步迭代。其中,最新的ERNIE 3.0 Titan模型使用2 600億個(gè)參數(shù),在海量的未標(biāo)注文本數(shù)據(jù)和大規(guī)模知識(shí)圖譜中持續(xù)學(xué)習(xí),突破了多源異構(gòu)數(shù)據(jù)難以統(tǒng)一表示與學(xué)習(xí)的瓶頸,在60余項(xiàng)任務(wù)上的表現(xiàn)是最好的。
文心使用了一種通用語(yǔ)義表示與任務(wù)語(yǔ)義表示相結(jié)合的模型框架,如圖2所示。該框架融合了自編碼和自回歸等不同的任務(wù)語(yǔ)義表示網(wǎng)絡(luò)。因此,文心既可以同時(shí)完成語(yǔ)言理解和語(yǔ)言生成任務(wù),又能進(jìn)行無(wú)標(biāo)注數(shù)據(jù)的零樣本學(xué)習(xí)和有標(biāo)注數(shù)據(jù)的微調(diào)訓(xùn)練。該模型結(jié)構(gòu)共包括兩層:第1層是通用語(yǔ)義表示網(wǎng)絡(luò),該網(wǎng)絡(luò)主要學(xué)習(xí)數(shù)據(jù)中的基礎(chǔ)知識(shí)和通用知識(shí);第2層是任務(wù)語(yǔ)義表示網(wǎng)絡(luò),該網(wǎng)絡(luò)可基于通用語(yǔ)義表示來(lái)學(xué)習(xí)與任務(wù)相關(guān)的知識(shí)。不同任務(wù)語(yǔ)義表示網(wǎng)絡(luò)可通過(guò)自編碼結(jié)構(gòu)或者自回歸結(jié)構(gòu)來(lái)實(shí)現(xiàn)。底層共享有助于這些任務(wù)語(yǔ)義表示網(wǎng)絡(luò)實(shí)現(xiàn)交互和增強(qiáng)。在學(xué)習(xí)過(guò)程中,任務(wù)語(yǔ)義表示網(wǎng)絡(luò)只學(xué)習(xí)對(duì)應(yīng)類別的預(yù)訓(xùn)練任務(wù),而通用語(yǔ)義表示網(wǎng)絡(luò)則學(xué)習(xí)所有的預(yù)訓(xùn)練任務(wù)。
圖2 文心模型結(jié)構(gòu)
文心將Transformer作為基礎(chǔ)的模型結(jié)構(gòu),通過(guò)多層統(tǒng)一的自注意力機(jī)制,采用并行計(jì)算的方式來(lái)獲得詞與詞之間的關(guān)系權(quán)重,并根據(jù)所得到的權(quán)重來(lái)生成每個(gè)詞在整段語(yǔ)義單元的動(dòng)態(tài)詞表示。為了增強(qiáng)模型對(duì)長(zhǎng)距離語(yǔ)義知識(shí)的建模能力,文心引入了遞歸性記憶單元,并在此基礎(chǔ)上形成了一種增強(qiáng)記憶力機(jī)制,使模型能夠?qū)ΤL(zhǎng)文本進(jìn)行建模。
ERNIE 2.0擁有一種持續(xù)學(xué)習(xí)的預(yù)訓(xùn)練框架,可增量學(xué)習(xí)海量數(shù)據(jù)中的知識(shí),持續(xù)提升語(yǔ)義理解效果。如圖3所示,知識(shí)可通過(guò)預(yù)訓(xùn)練任務(wù)的形式加入訓(xùn)練框架。每當(dāng)引入新的預(yù)訓(xùn)練任務(wù)時(shí),該框架可在學(xué)習(xí)新任務(wù)的同時(shí)學(xué)習(xí)之前的任務(wù)。新任務(wù)與舊任務(wù)之間通過(guò)多任務(wù)進(jìn)行學(xué)習(xí)可避免知識(shí)遺忘?;谠摽蚣埽P涂梢钥焖賹W(xué)習(xí)詞法、結(jié)構(gòu)、語(yǔ)義層面的語(yǔ)言知識(shí)、實(shí)體-關(guān)系世界知識(shí)等。模型的通用能力可得到大幅提升。ERNIE 2.0將這種學(xué)習(xí)方式與傳統(tǒng)的持續(xù)學(xué)習(xí)及多任務(wù)學(xué)習(xí)進(jìn)行對(duì)比,結(jié)果證明了該方法的有效性。
圖3 文心模型中的持續(xù)學(xué)習(xí)語(yǔ)義理解框架
2.3.1 語(yǔ)言知識(shí)融合方法
ERNIE 1.0模型提出了知識(shí)增強(qiáng)的預(yù)訓(xùn)練方法,即知識(shí)掩碼預(yù)訓(xùn)練方法。該模型通過(guò)對(duì)海量數(shù)據(jù)中的字、詞、實(shí)體等不同語(yǔ)言單元和知識(shí)進(jìn)行建模,來(lái)學(xué)習(xí)不同粒度語(yǔ)言知識(shí)的完整語(yǔ)義。圖4給出了傳統(tǒng)預(yù)訓(xùn)練模型和ERNIE 1.0學(xué)習(xí)方法的對(duì)比。在預(yù)測(cè)還原過(guò)程中,傳統(tǒng)預(yù)訓(xùn)練模型通過(guò)諸如“哈爾濱”“黑龍江”等短距離固定記憶對(duì)被掩碼的字進(jìn)行還原,難以學(xué)習(xí)到“哈爾濱”“黑龍江”等命名實(shí)體的完整語(yǔ)義。而在ERNIE 1.0的學(xué)習(xí)過(guò)程中,只有學(xué)習(xí)到“哈爾濱”“黑龍江”等命名實(shí)體的關(guān)系,“哈爾濱”這一命名實(shí)體的屬性才能正確預(yù)測(cè)被掩蓋的知識(shí)。ERNIE 1.0本身可基于字特征輸入完成建模,在應(yīng)用時(shí)不需要依賴其他信息,具有很強(qiáng)的通用性和可擴(kuò)展性。例如,在對(duì)紅色、綠色、藍(lán)色等表示顏色的詞語(yǔ)進(jìn)行建模時(shí),ERNIE 1.0通過(guò)相同字的語(yǔ)義組合可以學(xué)習(xí)詞之間的語(yǔ)義關(guān)系。
圖4 文心語(yǔ)言知識(shí)學(xué)習(xí)方法
在語(yǔ)義知識(shí)融合方面,短句中的連詞往往準(zhǔn)確地表示了它們的細(xì)分邏輯語(yǔ)義關(guān)系。例如,在“因?yàn)槿藗兊臑E砍亂伐,所以今年以來(lái)洪澇不斷”中,“人們的濫砍亂伐”和“近年來(lái)洪澇不斷”就是因果關(guān)系;“盡管風(fēng)雨交加,但是同學(xué)們還是堅(jiān)持按時(shí)到校上課”中的“風(fēng)雨交加”和“同學(xué)們還是堅(jiān)持按時(shí)到校上課”之間就是轉(zhuǎn)折關(guān)系。為了能夠?qū)崿F(xiàn)短句間的邏輯關(guān)系建模,文心構(gòu)建了邏輯關(guān)系知識(shí):首先將具有邏輯關(guān)系的句子挖掘出來(lái),然后再將句子中的連詞去掉,最后讓模型進(jìn)行無(wú)監(jiān)督的邏輯關(guān)系分類。
2.3.2 世界知識(shí)融合方法
ERNIE 3.0在引入蘊(yùn)含豐富世界知識(shí)的大規(guī)模知識(shí)圖譜后,實(shí)現(xiàn)了海量無(wú)監(jiān)督文本與大規(guī)模知識(shí)圖譜的平行預(yù)訓(xùn)練。以圖5為例,ERNIE 3.0在訓(xùn)練過(guò)程中會(huì)將文本端信息和知識(shí)端信息同時(shí)輸入到模型中進(jìn)行訓(xùn)練。知識(shí)端信息會(huì)輸入圖譜中的三元組。例如,“安徒生”“作品”“《夜鶯》”三元組代表了《夜鶯》是安徒生的作品這一世界知識(shí)。文本端就會(huì)使用三元組中的“安徒生”和“《夜鶯》”在海量文本中檢索出與之相關(guān)的句子。ERNIE 3.0在訓(xùn)練過(guò)程中使用聯(lián)合掩碼進(jìn)行訓(xùn)練。訓(xùn)練過(guò)程主要包括兩個(gè)方面:在知識(shí)端方面,由于知識(shí)圖譜中的世界知識(shí)片段會(huì)被掩蓋,模型需要通過(guò)文本中的信息對(duì)知識(shí)端被掩蓋的信息進(jìn)行推理;在文本端方面,由于無(wú)標(biāo)注文本的語(yǔ)言知識(shí)片段也會(huì)被掩蓋,模型需要通過(guò)圖譜中的結(jié)構(gòu)化信息對(duì)文本端被掩蓋的信息進(jìn)行還原。這種方式促進(jìn)了結(jié)構(gòu)化的知識(shí)和無(wú)結(jié)構(gòu)文本之間的信息共享,大幅提升了模型對(duì)知識(shí)的記憶和推理能力。
圖5 文心中的文本與知識(shí)平行預(yù)訓(xùn)練
與 CoLAKE、K-BERT、KG-BART、KnowBert等融入知識(shí)圖譜的工作原理不同,ERNIE 3.0利用知識(shí)圖譜中三元組文本表述和對(duì)應(yīng)的文本信息,在統(tǒng)一的空間同時(shí)對(duì)知識(shí)端和文本端進(jìn)行平行學(xué)習(xí)。而先前的知識(shí)增強(qiáng)方法在融合知識(shí)與文本時(shí)使用了不同的編碼結(jié)構(gòu),使得知識(shí)與文本只能在不同的表示空間中被學(xué)習(xí)。大部分研究工作只強(qiáng)調(diào)知識(shí)對(duì)文本的增強(qiáng),卻忽略文本對(duì)知識(shí)的作用,致使文本與知識(shí)的交互不充分。ERNIE 3.0增強(qiáng)了結(jié)構(gòu)化知識(shí)與無(wú)結(jié)構(gòu)文本間的雙向交互,提升了模型對(duì)知識(shí)的理解與推理能力。
文心所使用的一系列知識(shí)增強(qiáng)方法顯著提升了模型效果和學(xué)習(xí)效率,增強(qiáng)了知識(shí)推理能力。
知識(shí)增強(qiáng)預(yù)訓(xùn)練模型顯著提升了下游任務(wù)效果。通過(guò)知識(shí)融合,相對(duì)于其他預(yù)訓(xùn)練模型,ERNIE 3.0模型在包括情感分析、信息抽取、對(duì)話生成、數(shù)學(xué)計(jì)算、閱讀理解等21類54個(gè)自然語(yǔ)言理解和生成數(shù)據(jù)集上的效果是最好的。表1表明,在語(yǔ)義匹配、文本摘要等任務(wù)上,只用3%的參數(shù)量,知識(shí)增強(qiáng)預(yù)訓(xùn)練模型就可以達(dá)到甚至超過(guò)百億參數(shù)非知識(shí)增強(qiáng)預(yù)訓(xùn)練模型的效果。同時(shí),百億參數(shù)的知識(shí)增強(qiáng)預(yù)訓(xùn)練模型效果可以得到進(jìn)一步提升。
表1 傳統(tǒng)模型與知識(shí)增強(qiáng)模型效果對(duì)比
知識(shí)增強(qiáng)預(yù)訓(xùn)練模型的知識(shí)推理能力也得到了進(jìn)一步提升。圖6給出了ERNIE 3.0 Titan模型和GPT-3模型在知識(shí)問(wèn)答數(shù)據(jù)集上的對(duì)比效果。其中,ERNIE 3.0 Titan的準(zhǔn)確率比GPT-3高8%。
圖6 GPT-3和ERNIE 3.0 Titan知識(shí)問(wèn)答效果
在單語(yǔ)言理解與生成預(yù)訓(xùn)練模型的基礎(chǔ)上,為了融合更多維度的知識(shí),文心進(jìn)一步衍生出知識(shí)增強(qiáng)跨語(yǔ)言模型和知識(shí)增強(qiáng)跨模態(tài)模型。
2.5.1 知識(shí)增強(qiáng)跨語(yǔ)言預(yù)訓(xùn)練模型
不同語(yǔ)言中的語(yǔ)料蘊(yùn)含了不同地區(qū)的人們?cè)跉v史發(fā)展過(guò)程中收集的不同知識(shí)。受限于語(yǔ)料的不完備性,模型從單一語(yǔ)言的語(yǔ)料中難以完全學(xué)到跨語(yǔ)言知識(shí)。因此,我們需要探索將多種語(yǔ)言數(shù)據(jù)中的知識(shí)進(jìn)行融合的方法,以提升模型能力,解決單一語(yǔ)言數(shù)據(jù)的知識(shí)稀疏性問(wèn)題。
知識(shí)增強(qiáng)跨語(yǔ)言預(yù)訓(xùn)練模型實(shí)現(xiàn)了從多種語(yǔ)言數(shù)據(jù)中進(jìn)行跨語(yǔ)言知識(shí)學(xué)習(xí)的目標(biāo)。在預(yù)訓(xùn)練過(guò)程中,ERNIEM會(huì)使用統(tǒng)一的模型同時(shí)對(duì)海量未標(biāo)注的多語(yǔ)言數(shù)據(jù)進(jìn)行建模,從而統(tǒng)一學(xué)習(xí)跨語(yǔ)言知識(shí)和跨語(yǔ)言語(yǔ)義表示。如圖7所示,對(duì)于DNA這一知識(shí),不同語(yǔ)言的語(yǔ)料蘊(yùn)含了不同的信息。因此,模型可以從不同語(yǔ)言中學(xué)到跨語(yǔ)言知識(shí)的不同側(cè)面。在跨語(yǔ)言預(yù)訓(xùn)練模型使用某種語(yǔ)言的任務(wù)數(shù)據(jù)進(jìn)行訓(xùn)練后,其他語(yǔ)言的相同任務(wù)無(wú)須進(jìn)行進(jìn)一步訓(xùn)練,即可實(shí)現(xiàn)跨語(yǔ)言遷移。這種跨語(yǔ)言遷移方式能夠解決低資源語(yǔ)言任務(wù)數(shù)據(jù)稀疏性問(wèn)題,有助于實(shí)現(xiàn)任務(wù)知識(shí)在不同語(yǔ)言間的遷移。從單語(yǔ)語(yǔ)料中學(xué)習(xí)多語(yǔ)間的隱式語(yǔ)義對(duì)齊知識(shí)的方法,能夠突破雙語(yǔ)平行語(yǔ)料規(guī)模對(duì)跨語(yǔ)言模型的限制。ERNIE-M對(duì)96種語(yǔ)言進(jìn)行統(tǒng)一建模,并在5項(xiàng)跨語(yǔ)言任務(wù)中取得了最好的效果。
圖7 知識(shí)增強(qiáng)跨語(yǔ)言模型ERNIE-M
2.5.2 知識(shí)增強(qiáng)跨模態(tài)模型
跨模態(tài)表示學(xué)習(xí)的目標(biāo)是,通過(guò)對(duì)齊語(yǔ)料學(xué)習(xí)跨模態(tài)的通用聯(lián)合表示,將各個(gè)模態(tài)之間的語(yǔ)義對(duì)齊信號(hào)融合到聯(lián)合表示中,從而提升下游任務(wù)效果。目前的視覺-語(yǔ)言跨模態(tài)預(yù)訓(xùn)練方法,例如ViLBERT等,在預(yù)訓(xùn)練過(guò)程中無(wú)法區(qū)分普通詞和與場(chǎng)景相關(guān)的詞,學(xué)到的聯(lián)合表示也無(wú)法實(shí)現(xiàn)模態(tài)間細(xì)粒度語(yǔ)義(如物體、物體屬性、物體間關(guān)系)的對(duì)齊。
ERNIE-ViL將包含細(xì)粒度語(yǔ)義信息的場(chǎng)景圖先驗(yàn)知識(shí)融入視覺-語(yǔ)言跨模態(tài)預(yù)訓(xùn)練過(guò)程中,如圖8所示?;趫?chǎng)景圖的結(jié)構(gòu)化知識(shí),ERNIE-ViL創(chuàng)建物體預(yù)測(cè)、屬性預(yù)測(cè)、關(guān)系預(yù)測(cè)3個(gè)預(yù)訓(xùn)練任務(wù),在預(yù)訓(xùn)練過(guò)程中更加關(guān)注細(xì)粒度語(yǔ)義的跨模態(tài)對(duì)齊,從而可以學(xué)習(xí)到能夠刻畫更好跨模態(tài)語(yǔ)義對(duì)齊信息的聯(lián)合表示,并提升自身在視覺問(wèn)答、視覺常識(shí)推理、引用表達(dá)式理解、跨模態(tài)文本-圖像檢索等5個(gè)多模態(tài)典型任務(wù)上的應(yīng)用效果。
圖8 跨模態(tài)知識(shí)增強(qiáng)模型ERNIE-ViL
隨著預(yù)訓(xùn)練技術(shù)的快速發(fā)展,知識(shí)增強(qiáng)預(yù)訓(xùn)練模型有著非常廣闊的應(yīng)用場(chǎng)景,例如搜索引擎、推薦系統(tǒng)、智能創(chuàng)作、人機(jī)對(duì)話、文檔分析、金融風(fēng)控、智慧醫(yī)療等。這里,我們將從搜索引擎、人機(jī)對(duì)話、行業(yè)領(lǐng)域應(yīng)用3個(gè)方面,詳細(xì)闡述知識(shí)增強(qiáng)預(yù)訓(xùn)練模型的應(yīng)用。
搜索引擎通過(guò)對(duì)網(wǎng)頁(yè)內(nèi)容和用戶查詢請(qǐng)求進(jìn)行分析和理解,讓用戶可以在海量的互聯(lián)網(wǎng)數(shù)據(jù)中查詢到所需的信息。通用的預(yù)訓(xùn)練模型很好地提升了搜索引擎效果,例如:谷歌在BERT問(wèn)世一年之際宣布將預(yù)訓(xùn)練模型應(yīng)用到搜索引擎中,并稱BERT比以往任何技術(shù)都能更好地理解用戶搜索意圖;微軟將Turing-NLG模型應(yīng)用在必應(yīng)搜索方案中,使得搜索引擎在搜索框內(nèi)即可輔助用戶完成查詢?cè)~的輸入;在中文搜索引擎中,百度將知識(shí)增強(qiáng)的文心模型運(yùn)用到搜索引擎的不同檢索階段,包括端到端的大規(guī)模語(yǔ)義索引系統(tǒng)、精細(xì)化語(yǔ)義相關(guān)性建模、智能問(wèn)答等。得益于基于大規(guī)模文本和大規(guī)模知識(shí)的自監(jiān)督訓(xùn)練,文心模型可以幫助搜索引擎更加準(zhǔn)確地理解網(wǎng)頁(yè)內(nèi)容和用戶查詢語(yǔ)句,從而提升搜索結(jié)果的準(zhǔn)確性。傳統(tǒng)的搜索引擎通過(guò)文章中的詞語(yǔ)建立倒排索引,并通過(guò)統(tǒng)計(jì)相同詞語(yǔ)的個(gè)數(shù)等方式來(lái)計(jì)算查詢?cè)~與網(wǎng)頁(yè)的相關(guān)性。這種方式只能為用戶返回字面上匹配的內(nèi)容?;谥R(shí)增強(qiáng)預(yù)訓(xùn)練模型的搜索引擎,通過(guò)查詢請(qǐng)求和網(wǎng)頁(yè)內(nèi)容的統(tǒng)一語(yǔ)義表示,實(shí)現(xiàn)了基于語(yǔ)義理解與匹配的搜索,使搜索效果顯著提升。
除了應(yīng)用于搜索引擎的檢索階段和排序階段之外,文心知識(shí)增強(qiáng)模型也能對(duì)用戶搜索查詢的意圖進(jìn)行分析與識(shí)別。用戶搜索意圖識(shí)別的準(zhǔn)確性將直接影響用戶使用搜索引擎的滿意度。傳統(tǒng)的用戶意圖識(shí)別方法多基于監(jiān)督學(xué)習(xí)方法,受限于標(biāo)注數(shù)據(jù)的覆蓋度,對(duì)冷門知識(shí)信息搜索查詢的識(shí)別準(zhǔn)確率并不高。而基于文心的用戶搜索意圖識(shí)別方法,能夠?qū)W習(xí)大量的數(shù)據(jù)和知識(shí),具備更強(qiáng)的泛化性,使得冷門知識(shí)信息搜索意圖準(zhǔn)確率比傳統(tǒng)方法高12%。
讓機(jī)器像人一樣有邏輯、有知識(shí)、有情感地與人對(duì)話,是人機(jī)交互的重要發(fā)展方向之一。知識(shí)增強(qiáng)的對(duì)話預(yù)訓(xùn)練模型通過(guò)對(duì)海量無(wú)標(biāo)注數(shù)據(jù)和大規(guī)模知識(shí)的學(xué)習(xí),使人機(jī)對(duì)話系統(tǒng)可以更容易模仿人與人的交互方式,讓人使用更加自然的方式與機(jī)器交流。典型的應(yīng)用包括智能音箱、智能客服、智能車載等。
文心系列模型包含了基于知識(shí)增強(qiáng)的對(duì)話預(yù)訓(xùn)練模型PLATO?;赑LATO模型,我們探索了知識(shí)內(nèi)化和知識(shí)外用兩種知識(shí)增強(qiáng)技術(shù),如圖9所示。知識(shí)內(nèi)化是指,在訓(xùn)練階段,模型將知識(shí)信息內(nèi)化到模型參數(shù)中。通過(guò)多階段的模型訓(xùn)練方式來(lái)引入大規(guī)模通用領(lǐng)域問(wèn)答知識(shí),可使PLATO融入生成問(wèn)答能力,進(jìn)而將問(wèn)答準(zhǔn)確率從3.2%提升至90%。知識(shí)外用是指,在推理階段,模型動(dòng)態(tài)地引入外部知識(shí)以指導(dǎo)回復(fù)生成。這兩種方式能夠有效提升PLATO多輪對(duì)話的內(nèi)容豐富度和主題連貫性。
圖9 知識(shí)增強(qiáng)的對(duì)話預(yù)訓(xùn)練模型
知識(shí)增強(qiáng)預(yù)訓(xùn)練模型在醫(yī)療、金融、媒體等人工智能行業(yè)中表現(xiàn)出極大的應(yīng)用價(jià)值。
在醫(yī)療行業(yè)中,中國(guó)的醫(yī)療衛(wèi)生事業(yè)存在醫(yī)療資源不平衡、醫(yī)生人力短缺等問(wèn)題?;谥R(shí)增強(qiáng)預(yù)訓(xùn)練模型構(gòu)建的臨床醫(yī)療輔助技術(shù)是解決這些問(wèn)題的關(guān)鍵技術(shù)之一。知識(shí)增強(qiáng)的醫(yī)療語(yǔ)義理解與圖推理模型,可實(shí)現(xiàn)醫(yī)學(xué)知識(shí)的計(jì)算,并通過(guò)患者場(chǎng)景化子圖推斷,實(shí)現(xiàn)可循證的醫(yī)學(xué)決策。該技術(shù)突破了以往數(shù)據(jù)驅(qū)動(dòng)的深度學(xué)習(xí)技術(shù)不可解釋的局限,大幅提升了推理決策效果,具備貼合醫(yī)學(xué)臨床診療思維的優(yōu)點(diǎn),改善了臨床輔助決策和智能診前助手等場(chǎng)景應(yīng)用效果,提高了醫(yī)護(hù)人員臨床工作效率。
在金融行業(yè)中,知識(shí)增強(qiáng)的文心模型被用于金融文本分析,提高了企業(yè)對(duì)金融信息的處理與決策效率。金融行業(yè)需要處理大量的文本信息,例如企業(yè)新聞、行業(yè)報(bào)道、招股書、財(cái)報(bào)、合同等。在傳統(tǒng)模式下,金融從業(yè)人員很難從海量文本中獲得有效信息。而基于文心模型構(gòu)建的金融知識(shí)計(jì)算引擎能夠幫助他們從海量的金融文本中快速查找到有用的關(guān)鍵信息。例如,文心模型能夠?qū)ΡkU(xiǎn)合同中的條款文本進(jìn)行解析,可實(shí)現(xiàn)39個(gè)維度的關(guān)鍵信息抽取,使單份合同的處理時(shí)間從30 min降低到1 min,能顯著提升金融從業(yè)人員的工作效率和決策能力。
在媒體行業(yè)中,知識(shí)增強(qiáng)的文心模型對(duì)語(yǔ)言、知識(shí)和創(chuàng)作成果進(jìn)行持續(xù)學(xué)習(xí),能夠?qū)崿F(xiàn)智能輔助創(chuàng)作。在文章撰寫的過(guò)程中,基于文心模型的智能創(chuàng)作引擎會(huì)對(duì)全網(wǎng)熱點(diǎn)資訊進(jìn)行系統(tǒng)分析與計(jì)算,為撰稿人提供素材推薦、智能糾錯(cuò)、標(biāo)題生成、用詞潤(rùn)色、文章審校等全方位的幫助。除了自動(dòng)創(chuàng)作文本外,知識(shí)增強(qiáng)的跨模態(tài)文心模型實(shí)現(xiàn)了以文生圖。文心模型可根據(jù)文章的文字內(nèi)容輸出具有原創(chuàng)性和藝術(shù)性的圖片,并將其作為文章的配圖使用,進(jìn)一步豐富內(nèi)容創(chuàng)作。在知識(shí)增強(qiáng)預(yù)訓(xùn)練模型的幫助下,智能創(chuàng)作平臺(tái)將人類從重復(fù)勞動(dòng)中解放出來(lái),有效提升了內(nèi)容生產(chǎn)的效率和效果。
本文系統(tǒng)闡述了知識(shí)增強(qiáng)預(yù)訓(xùn)練模型的發(fā)展脈絡(luò),分析了現(xiàn)有知識(shí)增強(qiáng)預(yù)訓(xùn)練模型對(duì)語(yǔ)言知識(shí)、世界知識(shí)、領(lǐng)域知識(shí)等知識(shí)的融合方法,重點(diǎn)介紹了文心知識(shí)增強(qiáng)預(yù)訓(xùn)練模型的原理、方法和應(yīng)用效果。通過(guò)搜索引擎、人機(jī)對(duì)話、行業(yè)應(yīng)用3個(gè)方面詳細(xì)介紹了知識(shí)增強(qiáng)預(yù)訓(xùn)練模型的應(yīng)用。
知識(shí)增強(qiáng)預(yù)訓(xùn)練模型已經(jīng)取得長(zhǎng)足發(fā)展,但諸多研究方向依然面臨巨大挑戰(zhàn)。例如,由于知識(shí)的稀疏性,現(xiàn)有知識(shí)增強(qiáng)預(yù)訓(xùn)練模型依舊難以解決邏輯、常識(shí)等問(wèn)題;由于模型是基于深度神經(jīng)網(wǎng)絡(luò)方法來(lái)建立的,模型的可解釋性、可靠性和可控性仍然較差。因此,如何使模型更具常識(shí)性,如何提升模型的可解釋性和可靠性,以及如何將跨模態(tài)知識(shí)、符號(hào)化知識(shí)與深度學(xué)習(xí)進(jìn)行深度融合,都是知識(shí)增強(qiáng)預(yù)訓(xùn)練模型未來(lái)發(fā)展的重要方向。