王 剛 李 晟
(四川師范大學 哲學學院,四川 成都 610066)
大型語言模型ChatGPT(Chat Generative Pre-trained Transformer)是由美國人工智能研究公司OpenAI研發(fā)的一款自然語言處理工具;更直觀地講,ChatGPT是一款人工智能聊天機器人程序,它能夠根據(jù)對話語境對提問者的問題作出較為精確的理解,從而針對相關問題生成具有合理性的自然語言文本[1]。正是基于上述性能優(yōu)勢,該程序一經(jīng)推出,就引起社會各界的廣泛關注和討論。我們將從邏輯學視角對這一語言模型背后的邏輯機制進行探討,并以該模型的局限性為出發(fā)點,對機器學習和自然語言處理的未來可能研究路徑加以分析和展望。
從人工智能應用研究的領域來看,語言模型ChatGPT屬于自然語言處理的范疇;但從技術層面來看,ChatGPT是一種機器學習系統(tǒng),這是因為,ChatGPT背后的關鍵技術是建立在深度學習算法的基礎上。因此,為了探討ChatGPT背后的邏輯機制,需要對機器學習的基本原理作出必要的解釋。
機器學習不僅是當代人工智能研究領域的一個重要分支,而且已經(jīng)發(fā)展成為一門具有廣泛而深刻影響的獨立計算機學科,并被成功應用于模式識別、自然語言處理、數(shù)據(jù)挖掘、生物信息學等各個領域。機器學習的廣泛應用標志著人工智能研究在經(jīng)歷了以“邏輯理論家”等程序為代表的“推理期”和以“專家系統(tǒng)”為代表的“知識期”之后,進入到了又一具有廣闊前景的發(fā)展階段。所謂的機器學習,是指“通過對計算機進行編程,使計算機能夠從可用的輸入數(shù)據(jù)中進行‘學習’;簡而言之,機器學習就是將經(jīng)驗轉化為專業(yè)知識的過程,給學習算法輸入的是代表經(jīng)驗的訓練數(shù)據(jù),學習算法輸出的是專業(yè)知識”[2]。機器學習最早可追溯至20世紀50年代,并在此之后經(jīng)歷了聯(lián)結主義(connectionism)、符號主義(symbolism)、統(tǒng)計學習(statistical learning)等發(fā)展階段[3]10-12。
從本質上看,機器學習的目標是使計算機系統(tǒng)具備人類的學習能力。具體來說,機器學習旨在使計算機系統(tǒng)從經(jīng)驗數(shù)據(jù)中學習一般性規(guī)則,進而構建出簡單實用的數(shù)學模型,并運用這些模型對新情況作出預測或從經(jīng)驗數(shù)據(jù)中獲取知識,以此優(yōu)化系統(tǒng)自身的任務處理性能。例如,為了了解某一商品的潛在客戶,計算機系統(tǒng)可以憑借現(xiàn)有客戶的數(shù)據(jù)信息(如年齡、性別、職業(yè)、個人收入等)推斷出能夠反映潛在客戶特征的一般性規(guī)則,并基于該規(guī)則在海量人群中初步判斷其是否為潛在客戶。
機器學習的學習路徑可以概括如下:首先,選擇訓練數(shù)據(jù)的類型,使計算機系統(tǒng)從中進行學習;其次,確定計算機系統(tǒng)的學習任務,即確定系統(tǒng)所要學習的目標函數(shù)(target function);再次,選擇一種表示(representation),用于描述目標函數(shù);最后,確定學習算法,使計算機系統(tǒng)能夠學到與目標函數(shù)近似的函數(shù)[4]?;谏鲜鰧W習路徑,我們可以對機器學習的基本原理進行簡要闡釋。
機器學習致力于研究計算機系統(tǒng)如何從經(jīng)驗數(shù)據(jù)中進行學習,因此,根據(jù)經(jīng)驗數(shù)據(jù)是否擁有標記,可以對以下兩種基本的學習問題作出區(qū)分,即監(jiān)督學習(supervised learning)問題和無監(jiān)督學習(unsupervised learning)問題。
在監(jiān)督學習中,涉及兩種類型的空間,即輸入空間(input space)X和輸出空間(output space)Y。具體來說,計算機系統(tǒng)從數(shù)據(jù)中學習的過程也被稱為訓練(traning),為了學習,首先需要為系統(tǒng)提供一組示例(instance)或樣本(sample)xi,這些示例構成的集合X={x1,x2,…,xm}就是所謂的輸入空間或樣本空間(sample space)。每一個示例xi都擁有相應的標記(label)yi,用于表明xi的某種特征;所有標記構成的集合就是所謂的輸出空間或標記空間(label space)。擁有標記yi的示例xi被稱為樣例(example),可以記作(xi,yi)。在訓練過程中,所有樣例構成的訓練數(shù)據(jù)集合{(x1,y1),(x2,y2),…,(xm,ym) }被稱為訓練集(traning set)。就監(jiān)督學習而言,學習的任務是從訓練集中學習由輸入到輸出之間的映射,即示例與標記之間的函數(shù)關系f:X→Y。根據(jù)具體的學習情況,所學得的函數(shù)關系可以用決策函數(shù)Y=f(X)或條件概率分布P(Y|X)來表示[5]。從本質上看,上述函數(shù)反映了已知樣例的一般性規(guī)則或潛在規(guī)律,這種規(guī)則又被稱為模型(mo-del)、假設(hypothesis)或預測規(guī)則(prediction rule)。
不同于監(jiān)督學習,在無監(jiān)督學習中,訓練集僅僅由不擁有標記的示例構成。也就是說,學習過程中所使用的訓練數(shù)據(jù)僅僅由一組輸入的示例組成,至于這些示例屬于哪一種類別,則是未知的。因此無監(jiān)督學習無法像監(jiān)督學習那樣,學習輸入到輸出之間的函數(shù)關系,而只能從輸入的示例中概括和提取某種潛在的規(guī)律或內在的結構。例如,作為非監(jiān)督學習的一種常見方法,聚類(clustering)的學習任務是,將訓練集中具有相似特征的示例歸為一類,并在此基礎上將所有示例劃分為若干個組。
由于機器學習旨在基于所學得的模型或規(guī)律“解釋已被發(fā)現(xiàn)的樣例以及類推到先前未見過的新樣例”[6]652,因此,在學得模型或規(guī)律之后,需要使用該模型或規(guī)律對新樣本進行預測,從而分析該模型或規(guī)律是否能夠很好地適用于新樣本,并反映出所有潛在樣本的普遍規(guī)律。運用模型或規(guī)律進行預測的過程被稱為測試(testing),而所學得的模型或規(guī)律對新樣本的預測能力則被稱為泛化能力(generalization ability)。一般而言,所學得的模型或規(guī)律在泛化能力方面經(jīng)常會出現(xiàn)兩種情況:第一種情況是“過擬合”(overfitting),即所學得的模型或規(guī)律能夠很好地反映出訓練數(shù)據(jù)的特性,但對新樣本的預測能力較弱;第二種情況是“欠擬合”(underfitting),即所學得的模型或規(guī)律未能充分習得訓練數(shù)據(jù)的一般特性,無法對訓練數(shù)據(jù)作出較好的解釋,進而也無法對新樣本作出較好的預測。
計算機系統(tǒng)從經(jīng)驗數(shù)據(jù)中進行學習的整個過程是通過執(zhí)行某一具體的學習算法(learning algorithm)來實現(xiàn)的[3]2。換言之,計算機系統(tǒng)需要利用學習算法從經(jīng)驗數(shù)據(jù)中學習模型。因此,學習算法在機器學習中起著至關重要的作用,在學習過程中,計算機系統(tǒng)最終有可能獲得與訓練集一致的多個模型,這些模型都可以對訓練集的所有訓練數(shù)據(jù)作出正確的解釋。由此造成的后果是,當運用這些不同的模型對同一個新樣本進行預測時,可能獲得截然不同的預測結果。這一事實表明,如果同時面對多個模型,那么計算機系統(tǒng)無法對未知樣本作出確切的預測。為了避免上述情況的發(fā)生,學習算法需要從多個模型中選擇一個,以此作為計算機系統(tǒng)從經(jīng)驗數(shù)據(jù)中學到的最優(yōu)模型。此時,學習算法自身對某類模型的偏好(bias)決定了它最終將從訓練數(shù)據(jù)中產(chǎn)生哪一個模型。問題在于,怎樣的偏好才可以被視作合理呢?在機器學習中,對于學習算法的偏好,需要遵循一個基本原則,即“奧卡姆剃刀”(Occam’s Razor)原則:給定可比較的經(jīng)驗誤差,簡單模型相較于復雜模型而言,泛化能力更優(yōu),對數(shù)據(jù)的解釋也更加可信,因此對簡單模型的偏好應當勝過復雜模型[7]。也就是說,在面對眾多模型時,應當選擇更簡單的模型,而非更復雜的模型?;谶@一原則,似乎可以推斷出,偏好簡單模型的學習算法優(yōu)于偏好復雜模型的學習算法。然而,根據(jù)“沒有免費的午餐”定理(No Free Lunch Theorem)可知,在某一數(shù)據(jù)集上表現(xiàn)出良好性能的學習算法,在面對其他數(shù)據(jù)集時可能會表現(xiàn)出極差的性能,因此所有學習算法的平均性能都是相同的[6]692-693。這一定理表明,不存在某一學習算法的性能優(yōu)于另一學習算法的情況;或者說,并不存在性能最優(yōu)的學習算法。由此可見,為了使機器學習成為可能,需要設立一個前提條件,即“每一個學習問題僅僅通過合適的算法才能夠被解決,而該算法無法處理其他的學習問題”[8]722。
隨著機器學習的迅猛發(fā)展,基于神經(jīng)網(wǎng)絡的預訓練語言模型已成為自然語言處理領域的研究重點。在人工智能自然語言處理研究領域中,目前最具代表性的預訓練語言模型當屬ChatGPT。作為大規(guī)模預訓練語言模型,ChatGPT的創(chuàng)建得益于深度學習技術的不斷迭代和升級。深度學習是機器學習理論的一種研究進路,同時也是一種具有代表性的機器學習方法和技術;事實上,深度學習是一種基于深度神經(jīng)網(wǎng)絡的機器學習理論。進而言之,深度學習是運用深層非線性網(wǎng)絡結構“將觀測數(shù)據(jù)進行分層特征表示,從而將底層特征抽象為高級特征表示的過程”[9]。從本質上看,ChatGPT是一種深度學習模型;更進一步地講,ChatGPT是基于GPT-3.5模型而構建的人工智能語言模型。GPT-3.5模型是GPT系列模型中的一種,GPT的全稱為生成式預訓練語言模型(Generative Pre-trained Transformer),該語言模型經(jīng)過改進,衍生出一大批GPT系列模型,例如GPT-2、GPT-3、GPT-3.5和GPT-4。GPT系列模型的核心在于,采用預訓練加微調(fine-tuning)的學習模式。換言之,GPT系列模型的訓練過程可以分為兩個階段,即無監(jiān)督的預訓練階段和有監(jiān)督的微調階段。預訓練階段的目標是從數(shù)據(jù)中訓練出一個通用的預訓練語言模型,因此,在該階段,運用預訓練技術,通過無監(jiān)督學習在大規(guī)模無標記語料庫數(shù)據(jù)上訓練深層的網(wǎng)絡結構,并由此獲得一組訓練參數(shù),這種訓練出的多層網(wǎng)絡結構就是所謂的“預訓練語言模型”[10]。需要指出的是,GPT系列模型都是建立在神經(jīng)網(wǎng)絡模型Transformer的基礎上,原因在于,它們在預訓練階段都需要使用Transformer來完成預訓練任務。也就是說,GPT系列模型都需要將編碼后的數(shù)據(jù)輸入到Transformer中并產(chǎn)生相應的輸出,并在此基礎上訓練出更加通用的預訓練語言模型。在完成預訓練階段之后,隨即進入有監(jiān)督的微調階段,即根據(jù)特定任務的需求,通過監(jiān)督學習對預訓練后的語言模型進行微調,從而使模型能夠應用于各種任務中。
ChatGPT的前身是InstructGPT,兩者的區(qū)別僅僅在于前者是由GPT-3.5提供支持的語言模型,而后者是基于GPT-3所創(chuàng)建的語言模型。由于ChatGPT與InstructGPT的訓練方式基本上相同,因此我們可以基于InstructGPT來討論ChatGPT的訓練過程。具體而言,InstructGPT的訓練過程大致可以分為三個步驟[1]:
第一步,使用有監(jiān)督的微調訓練初始模型。即利用人工標注數(shù)據(jù)對GPT-3模型進行有監(jiān)督的微調,從而獲得有監(jiān)督微調(supervised fine-tuning,以下簡稱SFT)模型。
第二步,訓練獎勵模型(reward model)。為SFT模型輸入數(shù)據(jù)并獲得不同的輸出結果,標注人員基于人類的偏好對這些輸出結果按照質量的好壞程度進行排序,然后根據(jù)這些排序的結果訓練獎勵模型。獎勵模型的目標是:評估SFT模型的輸出是否符合人類的偏好。
第三步,基于強化學習(reinforcement learning)對初始模型進行優(yōu)化。再次為SFT模型輸入數(shù)據(jù)并獲得不同的輸出結果,同時運用訓練好的獎勵模型為這些輸出結果打分,根據(jù)分數(shù)的高低對這些結果進行排序。根據(jù)排序結果,更新SFT模型的參數(shù),從而進一步優(yōu)化SFT模型。從本質上看,上述整個過程就是所謂的強化學習。通過循環(huán)往復地進行強化學習,SFT模型不斷地迭代升級和優(yōu)化。
根據(jù)上文對機器學習和ChatGPT的基本原理所作的探討,我們發(fā)現(xiàn),從邏輯學視角來看,ChatGPT是一種建立在歸納邏輯基礎上的自然語言處理模型。一般而言,歸納邏輯是對以下兩種命題之間的關系加以刻畫的推理系統(tǒng),即基于給定數(shù)據(jù)的命題與超出這些數(shù)據(jù)范圍之外的命題。例如,基于給定數(shù)據(jù)對未來的數(shù)據(jù)進行預測,或從給定數(shù)據(jù)中推導出超越這些數(shù)據(jù)的一般性結論[11]。顯然,無論是機器學習,還是依賴于機器學習技術的大型語言模型ChatGPT,它們采用的推理手段都是歸納推理,因而它們都屬于廣義的“歸納學習”(inductive learning)或“從樣例中學習”(learning from example),即從特殊性知識中概括出一般性結論的學習。這是因為:第一,機器學習在學習的過程中運用了統(tǒng)計學理論和概率理論,通過收集、觀測并分析經(jīng)驗數(shù)據(jù),從各種具體的經(jīng)驗數(shù)據(jù)中推導出通用的數(shù)學模型,以此提取出一般性規(guī)則。機器學習能通過邏輯推理從給定的經(jīng)驗數(shù)據(jù)中學到新的知識。事實上,這種基于個別的經(jīng)驗數(shù)據(jù)推斷一般性知識的推理路徑屬于歸納推理。第二,基于深度學習機制的ChatGPT融合了統(tǒng)計學習理論和深度學習的基本觀點。一方面,運用統(tǒng)計學習理論,ChatGPT從單一類型、結構化的數(shù)據(jù)樣本中學習并抽取模型;另一方面,憑借深度學習機制,ChatGPT從復雜異構的大數(shù)據(jù)中學習和提取各種知識?;谏鲜龇治?我們認為,ChatGPT的推理機制本質上屬于歸納邏輯的范疇,這種推理機制融合了統(tǒng)計推理和概率推理的思想。
ChatGPT號稱是目前自然語言處理領域中最先進的人工智能程序。不可否認的是,ChatGPT的強大性能使其可以出色地完成大量任務、成功地生成令人滿意的文本,但ChatGPT亦具有諸多局限性,其中最為嚴重的缺陷就是其自身的“黑箱”問題。
具體來說,在人類看來,ChatGPT輸出的答案可能與輸入的問題是南轅北轍、毫無實際關聯(lián)的,但在ChatGPT看來,這些答案卻是正確的,由此造成了ChatGPT有時會“一本正經(jīng)地胡說八道”。這一現(xiàn)象表明,ChatGPT缺乏深度理解能力,無法理解自己生成的內容,它僅僅能夠依據(jù)大規(guī)模語料庫中的數(shù)據(jù)生成具有邏輯連貫性、符合人類思維以及沒有語法錯誤的文本,但卻無法識別數(shù)據(jù)中所蘊含的信息之真?zhèn)蝃12]。進一步言之,ChatGPT在生成文本的過程中,只依靠概率與統(tǒng)計的思想,針對特定問題生成最符合人類偏好的答案,但是難以從海量數(shù)據(jù)中推導出不同對象之間的因果關系,進而無法對問題與答案之間的因果關系作出合理的判斷,以致經(jīng)常給出錯誤的答案。歸根結底,造成這一現(xiàn)象的根本原因在于,“ChatGPT并沒有探索人腦結構和認知機制,它仍然是一種基于統(tǒng)計學習神經(jīng)網(wǎng)絡的黑箱模型,不能夠解釋其內部的工作機制”[13]。換句話說,由于ChatGPT的“黑箱”問題,ChatGPT既無法理解自己的生成內容,也無法正確識別模型的輸入與輸出之間的因果關系。
鑒于ChatGPT的上述局限性,我們嘗試從因果推理的視角出發(fā),為這一問題的解決提供一些思路。
近年來,隨著計算機技術的發(fā)展和大數(shù)據(jù)時代的來臨,因果關系研究愈發(fā)受到人工智能和機器學習領域研究者的重視,如何從海量數(shù)據(jù)中有效地發(fā)現(xiàn)因果關系,已經(jīng)成為一個研究熱點。著名人工智能專家朱迪亞·珀爾(Judea Pearl)曾指出,“因果關系是客觀世界的實在性和人類理解這種實在性的基本構件”[14],因此“因果關系才是我們理解世界的基礎和推動力”[14]?;谶@一認識,珀爾認為,機器具備發(fā)現(xiàn)因果關系的能力是實現(xiàn)強人工智能的突破口[15]。從本質上看,因果關系是客觀事物或現(xiàn)象中普遍存在的一種內在關系,“原因”和“結果”的概念可以用來解釋事物或現(xiàn)象之間的必然聯(lián)系。從各種數(shù)據(jù)中發(fā)現(xiàn)特定事物或現(xiàn)象之間的因果關系,這不僅有助于揭示和理解事物背后的本質規(guī)律,同時還對人們的預測、決策、判斷等行為起到指導作用。
然而,在運用經(jīng)驗數(shù)據(jù)學習和提取知識的過程中,以ChatGPT為代表的機器學習技術更多關注的是數(shù)據(jù)之間的相關關系,而非因果關系。那么,相關關系和因果關系有何聯(lián)系與區(qū)別呢?相關關系是指兩個特定對象之間存在一定的關聯(lián)性;這種關聯(lián)性的特點在于,當其中一個對象發(fā)生變動時,另一個對象也會隨之發(fā)生變動[16]。大數(shù)據(jù)時代的到來使得一些學者認為,相關關系可以取代因果關系,“在大數(shù)據(jù)基礎上建立起來的模型沒有關于‘為什么’的理解,只有‘是什么’”[17]。顯然,這種觀點有待進一步商榷。事實上,相關關系與因果關系之間存在本質差別:因果關系是一種必然性的聯(lián)系,而相關關系則不是。對于具有因果關系的兩個特定對象而言,它們之間通常也具有相關關系;但對于具有相關關系的兩個對象而言,則不一定具有因果關系。相關關系不擁有必然性聯(lián)系的事實表明,數(shù)據(jù)之間的相關關系不一定可靠,這種相關關系有可能是一種虛假的相關關系。換言之,盡管一些數(shù)據(jù)看上去似乎具有相關關系,但實質上可能并不存在任何關聯(lián)性。因此,如果忽視數(shù)據(jù)之間的因果關系,只重視相關關系,那么極有可能導致憑借數(shù)據(jù)之間的虛假相關關系而獲得錯誤的知識。正因如此,ChatGPT有時會“一本正經(jīng)地胡說八道”的現(xiàn)象實則可以歸因于它從數(shù)據(jù)中獲得了一種虛假的相關關系。前文已經(jīng)提到,機器學習的目標在于從數(shù)據(jù)中獲取知識,以便在面對新情況時用這些知識進行預測。通常而言,這種知識是建立在相關關系的基礎上,而不是因果關系的基礎上。相較于相關關系,因果關系能夠反映出數(shù)據(jù)之間的本質聯(lián)系和內在規(guī)律,因此,基于因果關系所作的預測比基于相關關系所作的預測更加準確和可靠。由此可見,為了最大限度避免ChatGPT的上述缺陷,機器學習領域需要進一步加強對因果關系的研究,將關注的重心從相關關系的發(fā)現(xiàn)向因果關系的發(fā)現(xiàn)傾斜。
如何發(fā)現(xiàn)因果關系呢?一般而言,傳統(tǒng)的因果關系發(fā)現(xiàn)方法和基于觀測數(shù)據(jù)的因果關系發(fā)現(xiàn)方法是兩種用來推斷因果關系的主流方法[18]。傳統(tǒng)的因果關系發(fā)現(xiàn)方法是通過隨機控制實驗來推斷因果關系,但由于該方法的局限性過多,人們更傾向于從觀測數(shù)據(jù)中推斷不同變量之間的因果關系。從邏輯學視角來看,這種從觀測數(shù)據(jù)中發(fā)現(xiàn)因果關系的推理方式本質上屬于因果推理。從觀測數(shù)據(jù)中發(fā)現(xiàn)因果關系的方法還可以進一步細分為兩種常見的類型,即基于約束的因果發(fā)現(xiàn)方法和基于函數(shù)因果模型的因果發(fā)現(xiàn)方法[19]。
基于約束的因果發(fā)現(xiàn)方法主要是利用貝葉斯網(wǎng)絡模型進行因果推斷。具體來說,憑借貝葉斯網(wǎng)絡,基于約束的因果發(fā)現(xiàn)方法構建了因果貝葉斯網(wǎng)絡。因果貝葉斯網(wǎng)絡通過有向無環(huán)圖來表示變量(或對象)之間的因果關系結構。有向無環(huán)圖由一組節(jié)點和若干條帶有箭頭的邊(即有向邊)組成,其中,每一個節(jié)點表示一個隨機變量,每一條有向邊表示兩個變量之間的因果關系。如果兩個節(jié)點被一條有向邊連接起來,則表示變量之間存在因果關系,其中箭頭指向的節(jié)點表示結果變量,與之對應的另一個節(jié)點則表示原因變量。反之,如果兩個節(jié)點之間不存在有向邊,則表示變量相互之間是條件獨立的。基于約束的因果發(fā)現(xiàn)方法的基本步驟可以概括為:在訴諸有向無環(huán)圖的基礎上,首先判斷變量之間是否具有條件獨立性,以便確定變量之間的因果關系;然后依據(jù)一系列規(guī)則確定變量之間的因果方向,從而構建出因果網(wǎng)絡結構。
基于約束的因果發(fā)現(xiàn)方法存在一個很大的缺陷,即難以完全確定所有變量之間的因果方向,而基于函數(shù)因果模型的因果發(fā)現(xiàn)方法可以有效地解決這一問題?;诤瘮?shù)因果模型的因果發(fā)現(xiàn)方法是一種將函數(shù)因果模型引入到因果網(wǎng)絡中的因果推斷方法。函數(shù)因果模型假設原因變量x和結果變量y之間具有一種函數(shù)映射關系,即y=f(x,n),x⊥n。其中,f可以是任意形式的函數(shù),x表示原因變量,y表示結果變量,n表示噪聲變量(即擾動變量),x⊥n表示x與n相互獨立?;诤瘮?shù)因果模型的因果發(fā)現(xiàn)方法規(guī)定,如果x是原因變量、y是結果變量(即x→y),則它們必定滿足以下條件:即,當x→y時,x⊥n成立;且當y→x時,x⊥n不成立。這表明,基于函數(shù)因果模型的因果發(fā)現(xiàn)方法主要通過判斷原因變量與噪聲變量是否相互獨立來確定變量x和y之間的因果方向。
因果發(fā)現(xiàn)方法可以有效地推斷出數(shù)據(jù)之間的因果關系,提取數(shù)據(jù)中蘊含的知識,解釋數(shù)據(jù)的產(chǎn)生機制,這些顯著的優(yōu)勢讓這個方法在人工智能和機器學習領域獲得了越來越廣泛的應用。在因果發(fā)現(xiàn)方法的眾多應用中,最具代表性的應用當屬半監(jiān)督學習(semi-supervised learning)與因果推理的融合。
半監(jiān)督學習是一種將監(jiān)督學習和無監(jiān)督學習的思想結合起來的學習方法,其基本原理可以歸結為:在缺乏足夠數(shù)量的有標記樣本時,同時使用有標記樣本集{(x1,y1),(x2,y2),…,(xl,yl) }和未標記樣本集{xl+1,xl+2,…,xl+u}來訓練模型,以此學習輸入到輸出之間的函數(shù)關系f:X→Y。需要指出的是,這些樣本都服從一個未知的分布。
從本質上看,因果發(fā)現(xiàn)方法對半監(jiān)督學習任務具有極大的影響。如果x對應于原因變量、y對應于結果變量,那么P(x)和P(y|x)彼此獨立。這意味著,P(x)不能告訴人們關于P(y|x)的額外信息。在這種情況下,半監(jiān)督學習無法進行下去。反之,如果y對應于原因變量、x對應于結果變量,那么P(y)和P(x|y)之間彼此獨立。這意味著,P(x)和P(y|x)之間并非相互獨立。在這種情況下,半監(jiān)督學習可以起到作用[20]72-74。由此可見,為了使半監(jiān)督學習有效,首先需要運用因果發(fā)現(xiàn)方法推斷出數(shù)據(jù)背后的因果結構。
因果發(fā)現(xiàn)方法在半監(jiān)督學習中的應用為我們反思ChatGPT的局限性提供了一些啟示。以發(fā)現(xiàn)相關關系為目標的機器學習雖然能夠從數(shù)據(jù)中獲取不同對象之間的相關關系,并基于該關系來預測未來,但是這些相關關系缺乏可解釋性,也就是說,其無法合理地解釋不同對象之間的關聯(lián)性,比如難以解釋為什么兩個對象之間具有相似的屬性。從某種意義上講,ChatGPT的黑箱式生成機制正是源于機器學習的上述缺陷。相對于ChatGPT的黑箱式生成機制而言,建立在因果推理機制上的因果發(fā)現(xiàn)方法具備更好的可解釋性,它可以有效地揭示數(shù)據(jù)之間產(chǎn)生相互影響的內在機制,發(fā)現(xiàn)蘊含在數(shù)據(jù)背后的因果關系和本質規(guī)律,從而確保計算機系統(tǒng)能夠從數(shù)據(jù)中學到正確的知識。正因如此,我們認為,基于因果推理的因果發(fā)現(xiàn)方法有助于增強ChatGPT的生成過程及其內容的可解釋性,進而在一定程度上避免ChatGPT“一本正經(jīng)地胡說八道”的現(xiàn)象。
總之,通過上文的分析,我們發(fā)現(xiàn),與統(tǒng)計推理和概率推理相比,機器學習領域對因果推理的運用和討論相對較少。事實證明,因果推理能夠讓以相關關系學習為基礎的機器學習技術變得更加完善、更具合理性。在機器學習領域,無論是統(tǒng)計推理、概率推理,還是因果推理,都是必不可少的推理手段。因果推理在機器學習算法中同樣可以起到至關重要的作用,盡管學界對“如何將因果推理有效地應用于機器學習算法”這一問題的研究還有待進一步深化,但毫無疑問,運用因果推理來思考和理解機器學習中的難題是一個具有廣闊前景的研究方向。有鑒于此,我們認為,為了克服ChatGPT這一目前最具代表性的機器學習技術所面臨的局限性,訴諸于因果推理顯然是一種值得嘗試的選擇。如何將因果推理、統(tǒng)計推理和概率推理這三種推理手段有機地結合,是包括ChatGPT在內的機器學習理論和技術未來應當努力的方向。
ChatGPT令人印象深刻的原因在于,它可以針對相關問題從經(jīng)驗數(shù)據(jù)中提取出具有一定合理性的知識或答案。顯然,這些知識并非從白板中自動產(chǎn)生,而是ChatGPT借助機器學習的基本原理獲得的。
根據(jù)前文的論述,我們認識到,機器學習的基本原理可以歸結為從經(jīng)驗數(shù)據(jù)中推斷出一般性模型,這種推理是一種基于經(jīng)驗的歸納推理。而推斷出的結論(即模型)之所以具有合理性,是因為它建立在奧卡姆剃刀原則的基礎上,即對于從經(jīng)驗數(shù)據(jù)中推斷出的多個模型,偏好并選擇其中最簡單的一個。然而,“沒有免費的午餐”定理已經(jīng)表明,奧卡姆剃刀原則“并非唯一可行的原則”[3]7?;趭W卡姆剃刀原則來選擇簡單模型的事實并不能證明偏好簡單模型的學習算法在性能方面比偏好復雜模型的學習算法更優(yōu),學習算法在性能方面的優(yōu)劣需要視具體的學習問題而定。換言之,即使依據(jù)奧卡姆剃刀原則挑選的簡單模型在某一學習問題中的泛化能力非常強,但在另一些學習問題中的泛化能力卻不一定比復雜模型強。有鑒于此,我們是否真的能夠信任基于奧卡姆剃刀原則所選出的模型?顯然,答案是否定的。僅僅依據(jù)奧卡姆剃刀原則就對計算機系統(tǒng)憑借歸納推理所學到的模型產(chǎn)生信任,這種做法缺乏充分的說服力。歸根結底,在歸納推理中,前提與結論之間不具有必然的聯(lián)系,而是僅具有或然的聯(lián)系。這表明,歸納推理的前提和結論之間的推理關系不具有保真性,歸納推理的結論只有一定程度的可靠性。因此,盡管機器學習運用歸納邏輯可以從經(jīng)驗數(shù)據(jù)中輕易地推斷出一般性規(guī)則,但是由于歸納推理自身的缺陷,這種規(guī)則的真實性和可靠性無法得到保證。正因如此,機器學習雖然在眾多領域被廣泛應用,人們卻始終難以完全信任計算機系統(tǒng)的學習結果。
由于ChatGPT是建立在機器學習機制的基礎上,因而它不可避免地需要面對上述提到的問題。換言之,ChatGPT憑借歸納推理從經(jīng)驗數(shù)據(jù)中提取的知識不具備完全的可靠性。從某種意義上講,ChatGPT自身的局限性在很大程度上源于其背后的機器學習機制僅僅將歸納推理作為唯一可靠的推理手段。正是基于這一認識,在下文中,我們將試圖跳出歸納推理的窠臼,從演繹推理的視角出發(fā),來思考上述問題的破解方案。
作為一種大規(guī)模預訓練語言模型,ChatGPT代表了自然語言處理領域的最新研究進展和成果。從研究方法來看,ChatGPT采用的是自然語言處理中的一種基本研究進路,即經(jīng)驗主義。一般而言,在自然語言處理的研究領域中,存在兩種截然不同的研究進路,即理性主義進路和經(jīng)驗主義進路。理性主義進路認為,計算機系統(tǒng)可以根據(jù)人工構造的規(guī)則和推理程序將自然語言理解為符號結構;而經(jīng)驗主義進路主張使用統(tǒng)計學、機器學習等方法從經(jīng)驗數(shù)據(jù)中構建數(shù)學模型,以此學習復雜的語言結構[21]。從邏輯學視角來看,經(jīng)驗主義進路的實質是憑借歸納推理機制來研究語言;相比之下,理性主義進路則傾向于運用演繹推理機制來研究語言。
鑒于ChatGPT代表了自然語言處理領域的最新技術,因此它的創(chuàng)建表明,基于歸納推理機制的經(jīng)驗主義進路是現(xiàn)階段自然語言處理研究中的一種主流進路。事實上,在自然語言處理領域的不同發(fā)展階段,基于演繹推理機制的理性主義研究進路也曾占據(jù)主導地位,究其原因,主要是演繹推理機制在人工智能中同樣具有不可替代的優(yōu)勢。例如,在機器學習領域,雖然基于歸納推理的學習算法在大量任務中具有優(yōu)良的表現(xiàn),但難以對學得的模型作出理解;盡管學習算法能夠基于學得的模型對新樣本作出正確的預測,但對于人類而言,要想理解學習算法依據(jù)何種標準來實現(xiàn)這一點,并非易事,而演繹推理在這一方面具有極大的優(yōu)勢[8]719。就ChatGPT而言,演繹推理對其“黑箱”問題的解決亦有裨益。前文提到,“黑箱”問題引發(fā)了一種現(xiàn)象,即盡管ChatGPT“能夠針對人類的輸入產(chǎn)生類似于人類的反應,然而,它并不知道它知道什么,也不知道它不知道什么,并不能真正地理解自然語言”[22];實際上,除了這種現(xiàn)象之外,“黑箱”問題還導致人們目前尚無法完全理解ChatGPT的運行機制與工作原理。在應對這些因“黑箱”問題造成的困境時,演繹推理同樣具有獨特的優(yōu)勢。
關于演繹推理機制在自然語言處理中所體現(xiàn)出來的優(yōu)勢,可以通過短語結構語法(phrase structure grammar)加以說明。短語結構語法是自然語言處理領域中一種以演繹推理機制為基礎的方法,該方法被廣泛用來構建自然語言處理的形式模型。在運用短語結構語法構建的眾多形式模型中,美國著名語言學家喬姆斯基(N. Chomsky)的短語結構語法是最具代表性的模型之一。從本質上看,短語結構語法是一種旨在對人類語言的語法結構作出形式化描述的形式語法,這種形式語法是一個由若干條重寫規(guī)則構成的集合,根據(jù)這些規(guī)則,可以生成各種具體的自然語言語句。
一般而言,短語結構語法涉及四個參數(shù):由非終極符號構成的集合N、由終極符號構成的集合T、由重寫規(guī)則構成的集合P,以及初始符號S。在此基礎上,一個短語結構語法G可以被定義為一個四元組:G=(T,N,S,P)。根據(jù)語法G,可以生成自然語言LG[23]。需要指出的是,終極符號被用來表示語言LG中的詞(例如圖1中的符號“中學”),它只能出現(xiàn)在最終生成的語句中,因此無法基于重寫規(guī)則而被繼續(xù)重寫。非終極符號是指不能出現(xiàn)在最終生成的語句中的符號(例如圖1中的符號“NP”),這種符號能夠基于重寫規(guī)則而被再次重寫。重寫規(guī)則的形式為α→β,其中α和β表示符號串,即由符號構成的有窮序列。根據(jù)重寫規(guī)則,可以從一個符號串推導出另一個符號串,或者說,可以將一個符號串重寫為另一個符號串。此外,一個短語語法結構必須有一個指定的初始符號,該初始符號源自集合N。
短語結構語法的基本原理是,運用重寫規(guī)則從初始符號串推導出新的符號串,再運用重寫規(guī)則從新的符號串推導出另一個新的符號串,以此類推,直至推導出由終極符號構成的符號串,該終極符號串就是語言LG中的一個語句。作為對這一原理的說明,以下提供一個簡單的短語結構語法[24]80-81:
G=(T,N,S,P)
其中,T={教材,中學,研究,教師,撰寫,語文,……};N={NP,VP,N},且NP表示名詞短語,VP表示動詞短語,N表示名詞;S=S,且初始符號S可以解釋為一個語句;P包含五條重寫規(guī)則,分別是:①S→NP+VP,②NP→N+N,③VP→V+NP,④N→{中學,教師,語文,教材……},⑤V→{撰寫,研究,……},且規(guī)則①表示“一個句子可以由一個名詞短語和一個動詞短語組成”,其他四條規(guī)則的含義以此類推。
根據(jù)上述短語結構語法,可以生成語句“中學教師撰寫語文教材”,該語句的生成過程可以用圖1中的剖析樹來表示。
圖1 根據(jù)G生成的語句“中學老師撰寫語文教材”的剖析樹
通過對短語結構語法的分析,我們發(fā)現(xiàn),基于演繹推理機制的理性主義進路在自然語言處理領域同樣具有自身的優(yōu)勢。具體而言,該進路的一大特點就是用形式化方法來描述和解決自然語言處理中的問題,而形式化方法具有很多優(yōu)點:其一,它可以使自然語言處理中的相關問題獲得較強的解釋力;其二,它簡潔明了且易于操作,對相關問題的描述和表達非常明確,因而“很多語言事實都可以使用語言模型的結構和組成成分直接地、明顯地表示出來”[24]635;其三,它保證了推理的結論具有可靠性。正是憑借自身的優(yōu)點,基于演繹推理機制的理性主義進路可以處理基于歸納推理機制的經(jīng)驗主義進路無法解決的難題。然而,不可否認的是,基于演繹推理機制的理性主義進路同樣具有局限性,該進路的一個典型缺陷是:形式化方法無法涵蓋自然語言中的全部現(xiàn)象,因而難以靈活且全面地描述自然語言處理中的所有問題。這意味著,運用形式化方法處理大規(guī)模的真實文本是難以實現(xiàn)的任務。
基于演繹推理機制的理性主義進路在自然語言處理中所體現(xiàn)出來的優(yōu)勢表明,在面對以ChatGPT為代表的自然語言處理技術時,演繹推理機制同樣可以發(fā)揮重要作用,它可以輕而易舉地克服歸納推理機制的某些局限性,完成歸納推理機制無法處理的任務。誠然,歸納推理機制具有獨特的優(yōu)勢,因而這一推理機制極大地促進了自然語言處理研究的發(fā)展。然而ChatGPT自身的局限性表明,僅僅憑借歸納推理機制,并不能解決自然語言處理研究中的各種問題。這是因為,自然語言處理是一門涉及計算機科學、語言學、邏輯學、認知心理學、控制論等多個領域的交叉學科,其需要面對和處理各種復雜的問題與任務,但無論是單憑歸納邏輯,還是單憑演繹邏輯,都無法充分應對。從自然語言處理領域的研究歷程來看,基于歸納推理機制的經(jīng)驗主義進路和基于演繹推理機制的理性主義進路都推動了自然語言處理在理論上和應用上的不斷發(fā)展,兩種研究進路并非處于非此即彼的不相容關系中。我們認為,自然語言處理的研究,甚至是機器學習的研究,都應當克服理性主義和經(jīng)驗主義的二元對立[9],基于歸納推理機制的經(jīng)驗主義研究進路和基于演繹推理機制的理性主義研究進路應當是相輔相成的關系。無論是在自然語言處理領域,還是在機器學習領域,經(jīng)驗主義進路和理性主義進路都不是截然二分的對立面,要想在自然語言處理和機器學習領域取得突破性進展,應當在經(jīng)驗主義進路和理性主義進路之間保持必要的張力。對于上述兩個領域而言,歸納推理和演繹推理都是基本的推理方法,因此應當充分發(fā)揮這兩種方法的積極作用。然而,對于自然語言處理和機器學習而言,歸納推理和演繹推理都具有自身的局限性,如何將歸納推理和演繹推理融合起來,利用兩種推理機制的優(yōu)勢來彌補雙方的不足,進而找到一條將歸納推理機制與演繹推理機制有機結合起來的研究進路,這是自然語言處理和機器學習取得突破性進展的關鍵,也是其在未來可能的發(fā)展方向。有鑒于此,我們認為,對于自然語言處理在現(xiàn)階段的代表性技術ChatGPT而言,只有以上述思想為出發(fā)點,其局限性才有獲得破解的可能,其性能才有可能得到進一步改進和提升。
從邏輯學視角來看,基于機器學習機制的大型語言模型ChatGPT本質上屬于廣義歸納學習的范疇,這是一種從特殊性知識中概括出一般性結論的相關性學習,其推理機制建立在歸納邏輯的基礎上。然而,ChatGPT還面臨著諸多局限性。一方面,ChatGPT的局限性可歸因于一個事實,即機器學習僅以發(fā)現(xiàn)數(shù)據(jù)之間的相關關系為主要目標,因而只將統(tǒng)計推理和概率推理作為主要的推理手段。從因果推理的視角來看,因果發(fā)現(xiàn)方法可以為其局限性的消解提供有益的啟示。另一方面,ChatGPT的局限性源于機器學習僅將歸納推理作為唯一可靠的推理手段,基于這一點,我們認為僅從因果推理的視角出發(fā)是不夠的,還應當跳出歸納邏輯的窠臼,從演繹邏輯的視角出發(fā),這亦可以為突破ChatGPT的局限性提供啟示??傊?我們認為,無論是對于ChatGPT而言,還是對于自然語言處理而言,抑或是對于機器學習而言,只有將統(tǒng)計推理、概率推理、因果推理和演繹推理有機地結合起來,才能取得突破性進展。