提 要 當今以深度學習為核心的人工智能催生了科學研究的第五范式,本文呼吁,語言學研究也要擁抱數(shù)據(jù)/計算密集型的第四/五范式,并通過介紹和評論人工智能研究與技術開發(fā)過程中,有關專家對于跟語言學有關的問題的見解,來支持上述倡議。本文主張或贊成的主要觀點為:(1)語言的主要功用是交際,思考往往是內心的對話與問答。(2)語言和思維并不完全等同,基于語言運用的智能水平的圖靈測試并不完全有效。(3)語法這種智能并不是人類獨有的,語法的原理還適用于語言之外的軀體、物品及其圖像等組合性系統(tǒng)。(4)現(xiàn)有能力超強的大規(guī)模語言模型不能用作人與機器人交談的技術界面,有效的語言運用必須是一種具身智能,包括具身認知的詞語接地和環(huán)境可供性等內容;相應地,必須考慮不同類型的具身性圖靈測試。(5)ChatGPT的成功說明了大模型、大數(shù)據(jù)和強算力能夠捕獲語言的統(tǒng)計規(guī)律和運用模式,語言學要采用數(shù)據(jù)/計算密集型的第四/五范式來探索語言的統(tǒng)計結構。
關鍵詞 深度學習;人工智能;第四/五范式;語言與思維;(具身性)圖靈測試
中圖分類號 H002 文獻標識碼 A 文章編號 2096-1014(2023)04-0007-12
DOI 10.19689/j.cnki.cn10-1361/h.20230401
Theoretical Reflections on Linguistic Studies Against the Background of AI Great Leap Forward
Yuan Yulin
Abstract In view that artificial intelligence (AI), with deep learning as its core technology, is bringing about the fifth paradigm in scientific research, this paper argues that linguistic studies also need to embark upon the fourth or the fifth paradigm for pursuing a data-intensive and computation-intensive approaches. To further this suggestion, insights from linguistic experts on linguistics-related issues in AI study, which are often encountered in the scientific research and technical development of AI, are introduced and examined with an aim to support my argument. To engage with this topic, the current paper advocates the following points of view, namely: (1) While language functions primarily to communicate, thoughts usually happen in form of dialoguing and questioning-answering in the mind. (2) As language and reasoning are not totally equivalent, the Turing test cannot be fully valid. (3) Grammaticalization is not an intelligence unique to mankind, so the functional principles of grammaticalization also apply to composite systems other than language, including bodies, objects, and images. (4) Any existing super-capacity large language model (LLM) is not adequate to be used as a technological interface for the communication between human beings and robots, because any effective use of language should be an embodied intelligence, including lexical grounding and environmental affordance in embodied cognition; accordingly, different types of embodied Turing tests should be taken into consideration. (5) The success of ChatGPT shows that large models, big data and powerful computability work to capture statistical rules and operating modes of language. In this sense, linguistic studies should adopt data- and computation-intensive methodologies as a fourth or a fifth paradigm to probe into the algorithmic structure of language.
Keywords deep learning; artificial intelligence (AI); fourth/fifth paradigm; language and mind; (embodied) Turing test
一、引言:語言學研究要不要呼喚第四/五范式?
目前,以深度學習為技術核心的人工智能,已經對科學研究、技術創(chuàng)新和日常生活帶來了顛覆性的影響。由于當今的人工智能技術可以在差異巨大的時間與空間尺度上,對自然現(xiàn)象和社會現(xiàn)象進行比較精準的建模與預測,比如著名的游戲程序AlphaGo能夠打敗人類圍棋世界冠軍,語言模型AlphaFold能夠預測2萬多種生物蛋白。因而,有人提出:這種人工智能技術與能力,是否代表著科學發(fā)現(xiàn)新范式的曙光?比如,圖靈獎獲得者、前微軟技術院士吉姆·蓋瑞(Jim Gary)用“四種范式”描述了科學發(fā)現(xiàn)的歷史演變。第一范式的起源可以追溯到幾千年前,它純粹是經驗性的,基于對自然現(xiàn)象的直接觀察。雖然在這些觀察中,有許多規(guī)律是顯而易見的,但沒有系統(tǒng)性的方法來捕獲或表達這些規(guī)律。第二范式以自然理論模型為特征,例如17世紀的牛頓運動定律,或19世紀的麥克斯韋電動力學方程。這些方程由經驗觀察、歸納推導得出,可以推廣到比直接觀察更為廣泛的情形。雖然這些方程可以在簡單場景下解析求解,但直到20世紀,因為電子計算機的發(fā)展,它們才得以在更廣泛的情形下求解,從而產生了基于數(shù)值計算的第三范式。21世紀初,計算再次改變了科學,這一次則是通過收集、存儲和處理大量數(shù)據(jù)的能力,催生了數(shù)據(jù)密集型科學發(fā)現(xiàn)的第四范式。機器學習是第四范式中日益重要的組成部分,它能夠對大規(guī)模實驗科學數(shù)據(jù)進行建模和分析。這四種范式是相輔相成、并存不悖的。
在此基礎上,微軟技術院士、微軟研究院科學智能中心負責人克里斯·畢曉普(Chris Bishop)倡導科學發(fā)現(xiàn)的“第五范式”:把深度學習作為兼顧科學發(fā)現(xiàn)的速度與準確性的強大工具,用科學基本方程的數(shù)值解(而非經驗觀察)來訓練神經網絡;將科學方程的數(shù)值解看作自然界的模擬器,以較高的計算成本,對眾多我們感興趣的應用項目進行計算,例如預測天氣、模擬星系碰撞、優(yōu)化聚變反應堆設計,或計算候選藥物分子與目標蛋白的結合自由能。
如果簡單類比一下,那么語言學研究的第一范式是基于經驗的傳統(tǒng)語法,第二范式是講求操作程序的結構主義描寫語言學,第三范式是探索結構模式及其背后心智過程的轉換生成語法,以及基于認知科學的功能語言學。那么,在目前人工智能的自然語言處理領域捷報頻傳、模式鋒出的今天,語言學界要不要呼喚和擁抱語言學研究的第四范式和第五范式呢?
為了更好地回答上述問題,我們首先需要了解目前人工智能研究與技術開發(fā)過程中,有關專家對于下列問題的見解:(1)語言與思維關系怎樣?語言的主要功用是思考而不是交際嗎?(2)從語言運用看智能水平的圖靈測試有效嗎?(3)語法這種智能是人類獨有的嗎?語法的原理只適用于語言嗎?(4)現(xiàn)有的能力超強的大規(guī)模語言模型能否用作人與機器人交談的技術界面?有效的語言運用為什么必須是一種具身智能?具身認知的詞語接地和環(huán)境可供性為什么重要?相應地,為什么必須考慮具身性圖靈測試?(5)ChatGPT的驚艷表現(xiàn)對語言學研究的范式選擇有什么啟發(fā)?
下面,我們分別對這些問題進行概述性介紹,也做出一些必要的評論;希望能夠說明:語言學應該擁抱數(shù)據(jù)/計算密集型的第四/五范式,探索語言的顯式的統(tǒng)計結構,為通用性人工智能的發(fā)展做出自己的貢獻。
二、語言與思維的可分性和圖靈測試的局限性
這一節(jié)首先介紹關于語言與思維關系的同一性假設及其反對意見,然后介紹喬姆斯基“語言的主要功用是思考而不是交際”的觀點并提出質疑,接著通過介紹巴赫金的“對話”與“多聲性”理論來說明思考與交際并不截然分開,最后介紹圖靈測試所隱含的語言與思維等同假設和有關人工智能學者的批評意見。
2.1 “語言與思維的關系”是語言學理論的一個聚訟紛紜、長盛不衰的話題。其中,最有名的莫過于“薩丕爾-沃爾夫假設”。粗略地說,薩丕爾強調,需要注意語言如何將世界分割為不同類別方面的差異。他的學生沃爾夫則把上面這個見解擴充成著名的“語言決定論假設”:
我們對自然進行劃分,將其組織成概念,并根據(jù)我們的想法賦予其意義,這樣做主要是因為我們就此達成了一致的協(xié)議——將它融入我們的語言,并編入語言的特定模式。當然,該協(xié)議是含蓄的、隱晦的,但其條款卻帶有絕對的強制性。
諸如此類的把語言等同于思維的學說,在哲學界也大有市場。比如,尼采曾經寫道:“如果我們不愿借語言法則思維,我們就會停止思維。”更加有名的是維特根斯坦的斷言:“我的語言的界限也即我的世界的界限。”在德里達等后現(xiàn)代主義大師們的作品中,也充斥著“擺脫語言的桎梏是不可能的”“文本就是自我參照”“文本之外一無所有”等危言聳聽式的警句。然而,正如平克(Pinker 2002)所指出的:
認為語言就是牢獄的看法實際上過高估計了語言本身的力量,從而貶低了語言主體的能力。語言是一種非常了不起的能力,我們運用它來從不同的人那里獲取思想,還可以通過多種方式對它進行更改和選擇,以促進思想的進步。然而語言不同于思維本身,也并非人類區(qū)別于動物的唯一標志。它并不是所有文化的基石,也并非一個不可逃離的牢獄。語言不是強制性的協(xié)議,更不是我們世界的極限,也并非影響我們想象內容的決定因素。(中譯本第245頁)
2.2 近年來,喬姆斯基提出“語言的主要功用是思考而不是交際”的觀點。他20年前在跟一個生物學家對答的視頻中說:
關于語言的通常假設是,它的功能是促進交流。對的,這一點我從來沒有相信過?!Z言的典型使用是為了思考,而不是為了交流。幾乎所有的語言使用,接近100%是內在的。從統(tǒng)計學上講,語言的用途幾乎都是內在的。……但壓倒性的證據(jù)表明,內在思維正在為我們發(fā)揮著某種功能,規(guī)劃,苦惱,或者用來做其他的事情,其中只有一小部分最終用來交流?!聦嵣希词故峭饣牟糠?,溝通也只是一種非常奇怪的感覺。……你和某人站在公共汽車站,……所以你和他們談論天氣或棒球比賽,那不是交流。有時這也被稱為寒暄?!@只是一種建立人際關系的社交方式,并不是傳遞信息或其他意義上的溝通?!行┩饣?,在外化的部分中,很多只是寒暄的交流。
可見,喬氏認為語言的內在性使用就是思考(內在思維)。那么,言下之意是不是說:思考必須在內在語言的基礎上進行呢?另外,他刻意把寒暄之類的情感交流排除在交流(或溝通)之外,似乎只有傳遞信息之類的有意義的溝通才算是交流。于是,得出結論:語言的典型功能是思考而不是交流。其實,思考跟交流并不一定能夠截然分開。因為,所謂的“內心思考”往往是一個“內心對話、自我爭辯、設問擬答、自問自答”式的交談過程。例如:
首先,我們要曉得,學問有兩個部分,一個是“學”,一個是“問”。這個問題兩千多年前孔子就說:“學而不思則罔,思而不學則殆。”思考其實就是問,思考與問問題差不了太遠,要問就必須思考,思考就會提出問題,這是分不開的。
提問質量決定我們的生活質量。為什么會這樣呢?因為我們一直都處于一個自我對話的場景中。我們的大腦不斷地拋出問題,然后自己回答問題。
當然這些都是非語言學專業(yè)的成功人士的直覺性認識。關于語言與思維的關系,還是平克(Pinker 2002)說得通透:
感知和分類提供了使我們與現(xiàn)實發(fā)生聯(lián)系的概念。而語言使概念與詞語聯(lián)系起來,使我們聯(lián)系現(xiàn)實的渠道得以擴展。……語言就是一個渠道,通過它人們可以互相交流思想和意圖,并由此掌握周圍的知識、習俗和價值觀?!俗鳛橐环N交流媒介,語言還可以作為大腦儲存和處理信息的載體?!Z言起到的是作為中央系統(tǒng)的子系統(tǒng)的功能,而并非是所有思維的媒介。(中譯本第246~247頁)
2.3 諸如上述丘成桐“思考就是提問”的直覺是極具洞察力的。上升到理論層面,就有了巴赫金的“對話”與“多聲性”理論:
語言只能存在于使用者之間的對話交際之中。對話交際才是語言的生命真正所在之處。語言的整個生命,不論在哪一個運用領域里(日常生活、公事交往、科學、文藝等等),無不滲透著對話關系。……這種對話關系存在于話語領域之中,因為話語就其本質來說便具有對話的性質。(巴赫金1988:252)
在陀思妥耶夫斯基后期作品中,主人公所有重要的自我表述,也都可以擴展為對話,因為它們好像都是兩種對語融合的產物。但是不同聲音的交鋒卻隱藏得很深,滲透到語言和思想的精微之處?!@仍是兩種意識、兩種觀點、兩種評價在一個意識和語言的每一成分中的交鋒和交錯,亦即不同聲音在每一內在因素中的交鋒。(巴赫金1988:288~289)
可見,巴赫金在相當程度上把對話與思想等量齊觀,看作人類最基本的一種生存方式;于是,一個人的“言談”往往就是其某種意識與觀點的表達。但是,這種表達不是一種固定不變的思想立場,而是一個發(fā)展與開放的過程,是在跟潛在對手的對話與交鋒中實現(xiàn)的;并且,跟其他“言談”一起構建了話語的公共空間,各種不同的聲音借此匯聚成一個充滿張力的“多聲性”的復合體。這也為歐洲的互文本性(intertextuality)理論開辟了道路。
2.4 雖然在語言運用上內部的思考與外部的交流是密切相連、不可徹底分割的,但是,這并不意味著語言與思維具有同一性。要正確地認識到這一點也并不容易。比如,圖靈(Turing 1950)認為“機器會思考嗎?”這個問題是無法回答的,倒是可代之以“我們能否區(qū)分回答問題的是機器還是人類?”,即通過會話能力來測試機器是否具有跟人類一樣的智能。這就是著名的“圖靈測試”??梢?,圖靈測試隱含的假設是:語言代表著人類智慧的頂峰,能夠進行對話的機器一定是智能的。其實,智力遠不止于語言。當前自然語言處理等人工智能系統(tǒng)所犯的許多錯誤(比如,聊天機器人的答非所問),說明了這種系統(tǒng)在語義、因果推理和常識方面的根本缺乏。
布朗寧和楊立昆(Browning & LeCun 2022)直截了當?shù)胤裾J了圖靈測試的有效性。他們的論證邏輯大致如下:圖靈測試的基礎是,如果一臺機器說出它要說的一切,就意味著它知道自己在說什么;因為知道正確的句子以及何時使用這些句子會耗盡它們的知識。但是,機器可以談論任何事情,這并不意味著它理解自己在說什么,因為語言并不會窮盡知識。相反,語言只是一種高度具體且非常有限的知識表征。另外還有一些非語言的表征方式,它們可以用一種更易于理解的方式來傳達信息。比如,象征性的知識,包括圖像、錄音、圖表和地圖等等。在語言之外,這個世界本身就向人類展示了大量的信息,可供人類探索并使用。人類有了深刻的非語言理解,才使得語言有用武之地。正是因為我們對世界有深刻的理解,所以我們可以很快地理解別人在談論什么。也就是說,語言只承載了人類知識的一小部分,大部分人類知識和所有動物的知識都是非語言的(非象征符號性的)。因此,大規(guī)模語言模型(large language model,LLD)無法接近人類水平的智能。
可見,在人工智能這種技術背景上思考語言與思維的關系,不僅具有理論意義,而且具有實際的指引人工智能發(fā)展方向的應用價值。
三、語法作為一種古老智能的直觀性質及其認知資源
這一節(jié)首先從人類心智的樸素性質上質疑當代復雜的句法結構理論的合理性,然后介紹人工智能專家關于“語法是一種古老的分析、規(guī)劃與構想智能”的思想及其在場景建模上的運用,接著介紹他們關于“語法是把組件組裝成整件的裝配圖”的思想及其在圖像識別工程上的實踐,最后介紹心理學家提出的包括語法在內的人類認知能力所依托的核心直覺知識。
3.1 傳統(tǒng)上認為語法是組詞成句的規(guī)律,或者說是構詞造句的法則。但是,以喬姆斯基為代表的生成語法學派相信“語言獨異說”:語言是人類的一個獨立的認知系統(tǒng),人類有獨特的語言官能,語言機理構成了一種跟我們的身體性質無關的更加高級的官能。喬姆斯基等生成語法學者相信,語言可以分為內在性和外在性兩種形式。他們主張:內在性的語言系統(tǒng)是一個不同于其他心理系統(tǒng)的獨立的認知系統(tǒng);因此,必須假設普遍語法這種高度抽象的自主原則系統(tǒng)制約內在性語言,而不是訴諸語義、交際功能等外部條件。
對此,我們一直半信半疑,懷疑這是不是一種神秘主義的教條或迷思(袁毓林2019,2022a)。因為,根據(jù)平克(Pinker 1997),人類“心智是一套由計算器官組成的系統(tǒng),它經自然選擇的設計來解決我們祖先在茹毛飲血的生活中所面對的那類問題,具體包括:理解和操控物體、動物、植物以及他人”(中譯本第22~23頁)。正是在這一過程中,逐步積累和形成了下文要介紹的直覺物理學、直覺生物學乃至直覺語言學之類的知識。
正如平克(Pinker 2002)所指出的,“人類大腦適應的是一個已經不存在的世界”(中譯本第286頁)。認知能力進化的最初意圖與當前人類賦予它們的新意圖之間不相協(xié)調,這可能是我們某些困惑(甚至痛苦、悲?。┊a生的根源。對許多知識領域來說,人腦還沒有進化出適用于該領域的組織結構,大腦和基因組并沒有顯示出任何專業(yè)分化的跡象。我們并不具有直觀理解這些領域的知識的心智工具(中譯本第259~262頁)。因此,我們從根本上懷疑形式語法學者設想的由多個VP-shell疊床架屋堆砌出來的句法結構是否具有心理現(xiàn)實性;或者坦率地說,我們樸素簡陋的心智還沒有合適的工具來處理這種既抽象又繁復的結構。
3.2 值得注意的是,也有科學家從技術層面提出了跟語言獨異說不同的語法觀點,并且在工程實踐中取得了成效。比如,美國布朗大學人工智能專家芒福德(D. Mumford)指出:
在所有智能動物的大腦中都由來已久地建立了語法模型,這些語法模型的作用是去分析各種感知信息,規(guī)劃智能動物接收信息后的動作行為,甚至幫助其形成思想;而語言的語法,只是這些更加古老的語法的一種近期的擴展。
在諸如此類理念的指導下,加州大學洛杉磯分校的朱純松教授與他攻讀博士學位期間的導師芒福德等學者,在研究計算機視覺(圖像識別)的時候,用概率語法圖模型來為場景建模,因為他們發(fā)現(xiàn)場景跟話語一樣具有下面3種特性:
(1)構成性(compositionality),比如:場景可以分解成物體,物體可以分解成部件,部件可以分解成圖像的基本元素(primitives, textures, textons);
(2)多樣性(alternative)和可配置性(reconfigurability),比如:各種分解的成分可以有多種選擇,從而以少量的元素組會產生大量的模式結構(configuration);
(3)關聯(lián)性(dependency relations),比如:部件之間相對位置的連接和關節(jié)變化(articulation)。
這些原則體現(xiàn)在與或圖(and-or graph)等傳統(tǒng)的概率圖模型中,在可解釋性、魯棒性和基于小數(shù)據(jù)的學習方面,比多層神經網絡模型有明顯的優(yōu)勢。而上述特性,在語言學教科書上的表述是:語言符號的離散性、組合性、聚合性、層級性、遞歸性、依存性等等。
在朱純松和芒福德(Zhu & Mumford 2006)有關思想的啟發(fā)下,吳田富(2019)研究and-or grammar(AOG)building block,提出使用一種最簡單的語法來實現(xiàn)多層次、組成式的拆分-變換-聚合。他用與或圖的原理來設計神經網絡的結構,提出了一個與或圖網絡AOGNet,不僅在當前主要的數(shù)據(jù)集如ImageNet任務中,性能超越了ResNet、DenseNet和DualPathNets;而且具有更好的可解釋性,找到了當前深度學習的判別式模型(CNN)與概率圖模型(AOG)可能的聯(lián)系。
3.3 人工智能學者的科學訓練和技術修養(yǎng),使得他們對于語法的認識更加一針見血、返璞歸真。除了上面介紹的芒福德、朱純松和吳田富三代學者的觀點與實踐外,薩巴(Saba 2022)的下列觀點也頗有可觀之處:
在符號系統(tǒng)中,有定義明確的組合語義函數(shù),它們根據(jù)成分的意義計算復合詞的意義。但是這種組合是可逆的,也就是說,人們總是可以得到產生該輸出的(輸入)組件,并且正是因為在符號系統(tǒng)中,人們可以訪問一種“句法結構”,這一結構含有如何組裝組件的裝配圖。而這在神經網絡中都并非如此。一旦向量(張量)在神經網絡中組合,它們的分解就無法確定,因為向量(包括標量)可以分解的方式是無限的!
這篇文章意在重溫30年前對于神經網絡的批判,說明當今的多層神經網絡依然無法實現(xiàn)可解釋的人工智能。其中,把句法結構看作指引人們把組件組裝成整體物品的裝配圖的思想,既樸素又透徹。親自動手組裝過從宜家買回來的家具(或者從商場買回來的可折疊兒童推車)的人,對于裝配圖的語法功能(指示你:什么先跟什么怎樣組裝在一起,然后再跟什么怎樣組裝在一起),應該都有真切的體會。
3.4 當然,上文把語言的組詞成句跟物品的部件組裝成整件相類比,有失簡單和粗疏。因為,語言中的單詞、短語和句子都是有意思的。這樣,語法還要涉及怎樣從單詞的意思及其組合方式上綜括出短語和句子的意思這一任務。在這方面,從句法結構到語義結構的映射、弗雷格的語義組合性原理之類的原則,肯定是起作用的。其中,語言成分之間的意合(即據(jù)意思撮合詞語,concatenate by sense)和意會(即憑直覺領會意思,sense by insight)、語義蘊涵、語義的語用推理之類的原則也會起作用。此外,語句中還有缺失的成分),其語義也需要由其他成分激活,然后整合到整個句子的語義解釋中(比如:這個房間[面積]大vs. 這個箱子[體積]大)(袁毓林1994)。在這種種語義組合和語義識解背后,離不開人類的概念結構、直覺知識等各種后臺認知資源的支持(袁毓林2015,2022b)。比如,下面這些直覺知識,對于語句的組成與解讀,應該有重要的支撐作用。并且,人工智能系統(tǒng)也必須具備和擁有這些常識。
根據(jù)平克(Pinker 2002),人類對于不同事物的推理能力依托于不同的核心直覺,這些直覺非常適用于分析人類進化時所處的環(huán)境。他嘗試性地提出了人類認知能力所依托的核心直覺的下列清單:
(1)直覺物理學:我們用它來觀察物體如何跌落、彈起以及彎曲等運動和變化。
(2)直覺生物學:對事物或自然史的直觀看法,我們用它來理解整個生物世界。
(3)直覺工程學:我們用它來制作、了解工具和其他人造物的結構與功用等。
(4)直覺心理學:我們用它來了解自己和他人的愿望、信念、動機和情緒等內心世界。
(5)直覺邏輯學:一種心理數(shù)據(jù)庫和心智邏輯,我們用它們來表達觀念,從舊觀念中推導出新觀念。它們建立在對發(fā)生了什么事情、在哪里發(fā)生,或者誰對誰做了什么事情、在什么地方、什么時間及什么原因等問題加以判斷的基礎上。這種判斷與心理網絡相連,可以用“和、或、否則、全部、一些、必須、可能、原因”等一些邏輯運算符號和因果運算符號進行重新組合。
(6)直覺語言學:我們用語言來跟他人分享那些源于心智邏輯的觀念。語言建立在心理詞典的基礎上,而心理詞典是由我們識記的單詞和一套組合規(guī)則的心理語法組成的。這些規(guī)則將元音與輔音組合成單詞,又將單詞組合成詞組和短語,最終組合成句子。通過這樣一種方式,我們就可以從被組合的各個部分的意思以及它們的組合方式推斷出新組合的意思。
此外,還有直覺經濟學和空間感知、數(shù)字感知、概率感知、跟恐懼(或厭惡等)相對應的關于危險(或污染等)的評價系統(tǒng)、道德感等方面的直覺知識。
對照有關的語言學理論,我們可以發(fā)現(xiàn):這種直覺物理學,正好是泰爾米(Talmy 2000)認知語義學中“力動態(tài)”心智模式的概念基礎,可以用來解釋因果條件句和反事實條件句的語義構造與概念動因;這種直覺工程學,正好是名詞的“功用”(telic)、“施成”(agentive)等物性角色的概念基礎;這種直覺心理學,正好是語用學關于交際意圖、關聯(lián)推理的概念基礎;這種直覺邏輯學,正好是論元結構理論、事件語義性、量化結構等形式語義學、模態(tài)語義學等的概念基礎;而這種直覺語言學,正好是直覺生物學、直覺工程學、直覺邏輯學在語言上的翻版。這些直覺知識為我們對語言中詞語的組合(以意撮合)與語義解讀(憑心會意)提供了必要的概念基礎和認知資源。
四、破解跟機器人交談的具身認知難題和具身圖靈測試
這一節(jié)首先介紹聊天機器人的強大能力及其成功的原因,接著指出大規(guī)模語言模型用在機械機器人上的具身認知困難,然后介紹跟機器人的語言運用相關的兩個具身認知維度:符號接地和環(huán)境可供性,最后介紹超越圖靈測試的具身圖靈測試。
4.1 2022年夏天,谷歌的工程師布萊克·勒莫因(Blake Lemoine)聲稱:谷歌的AI聊天機器人系統(tǒng)LaMDA具有跟人一樣的意識,引發(fā)了輿論一片嘩然,最終被谷歌解雇。那么,他為什么會有這種感覺呢?這可以從這個系統(tǒng)本身和這個工程師本人兩個方面做出解釋。
首先,稱LaMDA為機器人只是為了通俗和方便,未必合適。確切地說,它只是一個大規(guī)模語言模型,能夠基于任何給定的文本預測出接下來最可能出現(xiàn)的單詞是什么。由于人類語言運用中詞語的出現(xiàn)概率遵循“齊夫定律”(詳見袁毓林2021),再加上許多人類的對話都不太復雜;因此,在一定程度上比較容易根據(jù)前面的話語來預測到后面的話語,結果使得這種系統(tǒng)可以推動并且保持對話流暢地進行。正因為LaMDA在對話的流暢性方面表現(xiàn)出色,勒莫因情不自禁地以為它真的具有跟人類一樣的直覺和意識。
其次,人類在語言交際過程中具有主動配合的積極性?;诤献髟碇惖臅捯?guī)約,聽話人在跟機器人系統(tǒng)交談時會主動合作,進行包容性理解與關聯(lián)性解釋,使得機器人系統(tǒng)說的幾乎每一句話都具有在當下語境中的意義(詳見袁毓林2021)。并且,聽話人在跟機器人系統(tǒng)交談時還會把自己的情緒與感覺投射到機器人系統(tǒng)上,賦予它跟真人一樣的情感與意識。勒莫因就是這樣入戲太深,一發(fā)而不可收拾。
4.2 既然聊天機器人系統(tǒng)這么聰明伶俐,幾乎可以跟人隨心所欲地交談逗樂;那么,把這種系統(tǒng)配置到一般的機器人上,豈不就成了既能說會道、逗樂解悶,又可以任勞任怨地幫助人類干活操勞的好幫手了?其實,目前的機器人理解人類語言還很困難;否則,機器人進入人類的日常生活將會更加容易自如。當下的機械機器人最擅長干的活兒是抓取和放置。但是,機械機器人不像人那樣善解人意,會主動地見機行事。你想要機械機器人完成一個特定的抓?。◤N房鍋臺上的一杯咖啡)和放置(到客廳的茶幾上)任務,需要由人來下達指令,即由用戶告訴它才行。這就涉及真正的“人機交互”或“人機對話”了。
顯然,用戶和機器人交互的最理想的界面是自然語言,但是目前自然語言理解技術的水平不高,不足以讓機器人理解用戶的命令,從而完成用戶希望的任務。對此,通常采用獨熱條件(one-hot conditioning)這種硬編碼的辦法。比如,對于機器人可以執(zhí)行的100個任務,用00~99來分別進行編碼。每次要機器人執(zhí)行某一個任務,就提供給機器人某一個相應的編號。不難想象,要用戶記住這么一個任務編碼表,無疑是一個極大的智力挑戰(zhàn)。因此,合適的發(fā)展方向還是使用人類自然語言來向機器人發(fā)號施令。問題是,許多聊天機器人系統(tǒng)貌似很聰明,可以跟人機智地交談說笑;但是,往往缺乏常識,很容易胡說八道,即說出不合邏輯、不著邊際的話,或者說一些雖然邏輯不錯、但是沒有用處的話語。用到要完成特定的工作任務的機器人上就不解決問題。比如,谷歌大腦的機器人團隊進行了這樣一個問答測試:向3個大規(guī)模語言模型發(fā)出下面的請求,看它們如何回應。
Q: I spilled my drink, can you help?(我把飲料弄灑了,你能幫我一下嗎?)
GPT-3: You could try using a vacuum cleaner.(你可以試著用一個吸塵器。)
LaMDA: Do you want me to find a cleaner?(你是想讓我找一個清潔工嗎?)
FLAN: Im sorry, I didnt mean to spill it.(對不起,我不是故意的。)
顯然,GPT-3的回答不完全正確,因為吸塵器不能清理液體。LaMDA的回答如果作為尬聊是沒有問題的,但是作為真正的人與機器人互動,并且想驅動機器人工作,這樣回答是毫無用處的。FLAN的回答有點驢唇不對馬嘴,它根本沒有理解用戶的交談意圖:到底是要聊天、對話,還是要解決問題?可見,機器人的語言運用是有其特殊性的,必須解決語言符號的接地(grounding)和環(huán)境可供性(affordance)等具身認知(embodied cognition)問題,而不能簡單地使用基于網絡語料訓練的大規(guī)模語言模型。下面,我們簡單討論一下符號接地和環(huán)境可供性這兩種具身智能(embodied intelligence)問題。
4.3 大家知道,雖然語言符號的意義是抽象的,但是在現(xiàn)實的語言交際中,語言使用者會自然而然地把語言符號的所指索引到(指向)語境中的有關事物上。比如,我說“把水給我!”,你會默契地把桌子上的一瓶礦泉水遞給我,而不會舍近就遠地跑出去找水。這就是語言符號的接地問題,也就是讓語言符號跟語境中的相關事物建立起索引關系。
正是在這一方面,將大規(guī)模語言模型直接用在機器人身上會出現(xiàn)問題。因為一般的大規(guī)模語言模型是根據(jù)網絡上的人類自然語言文本(對話或語篇)進行訓練的,并沒有在機器人的數(shù)據(jù)上進行訓練。也就是說,大規(guī)模語言模型沒有親身經歷機器人所處的物理環(huán)境,缺少具身信息(embodied information):既不知道機器人所處的環(huán)境中有什么東西,也不知道機器人可以從中做什么。所以會出現(xiàn)上面介紹的答非所問、不著邊際等問題。
此外,大規(guī)模語言模型在生成任務步驟時,根本不知道機器人目前能夠做什么。比如,機器人面前沒有蘋果,它就無法完成去抓取蘋果的任務;房間里沒有吸塵器,就沒有辦法去完成清潔地板的任務。因此,必須讓用于機器人的語言模型知道機器人在當前環(huán)境和狀態(tài)下可以做什么(完成什么任務)。這就是機器人的可供性(robotic affordance)問題。這實際上是指:讓機器人知道其所處的環(huán)境的可供性。
一種解決辦法采用強化學習的方法,訓練機器人在有關環(huán)境(房間)中抓取各種東西,然后讓機器人在房間中搜索;當它看到前面有物品的時候,撿起該物品的值函數(shù)就會變得很高,從而代替了對環(huán)境可供性的預測。這樣,通過讓機器人探索環(huán)境的可供性,彌補了語言模型和真實世界的鴻溝。這樣做,在一定程度上相當于讓機器人具有了具身智能,可以在感知和動作之間形成一個閉環(huán)——根據(jù)感知到的結果來決定下一步的動作。
4.4 人通過跟外部世界(自然界與人類社會)的互動,來形成具身智能和擁有具身認知。我們從兒童時期就開始借助玩耍與游戲來接觸外部世界,在跟世界萬物和社會人群親身打交道的過程中,學習了§3. 4所述的通俗物理學、生物學、工程學、心理學、語言學等知識,為語言運用(包括生成與理解)奠定了具身認知的基礎。而大規(guī)模語言模型及聊天軟件、機器人系統(tǒng)等,不具有人那樣的肉身及其所具有的感覺-運動界面;顯然,也不具備這種跟環(huán)境互動的具身智能。問題是,這種不擁有具身智能的機器智能是不是真正的智能?或者說,在這種認識與質疑的背景上,圖靈測試還站得住嗎?
發(fā)人深省的是,DeepMind的創(chuàng)始人德米斯·哈薩比斯(Demis Hassabis)最近在做客萊克斯·弗里德曼(Lex Fridman)的播客節(jié)目時,對于人工智能超乎想象的能力談了許多有趣的觀點。在訪談的一開始,哈薩比斯就直言不諱地說:
圖靈測試已經過時,因為這是數(shù)十年前提出來的一個基準;而且圖靈測試是根據(jù)人的行動與反應來作判斷,這就容易出現(xiàn)類似前段時間谷歌一工程師稱AI系統(tǒng)已有意識的“鬧劇”:研究者與一個語言模型對話,將自己的感知映射在對模型的判斷上,有失客觀。
對于圖靈測試,扎多爾等(Zador et al. 2022)指出,圖靈測試背后隱含著這樣一種信念:語言代表著人類智慧的頂峰,能夠與人對話的機器一定是智能的。其實,這種觀點并不完全正確。一方面,基于大規(guī)模語言模型的語言系統(tǒng)的成功,依賴于人類對話者的智力、能動性甚至意識;另一方面,這些系統(tǒng)在某些推理任務上仍然很差。顯然,圖靈忽視了一個基本事實:智力遠不止于語言。當前自然語言處理系統(tǒng)所犯的許多錯誤,說明了這種人工智能系統(tǒng)在語義、因果推理和常識等方面的根本缺乏。詞匯只有在統(tǒng)計上共同出現(xiàn)時才對模型有意義,而不是基于對現(xiàn)實世界的經驗;所以,即便是最先進的語言模型,即便其功能越來越強,但它們仍無法具備一些基本的物理常識。因此,最初制定的圖靈測試,并沒有探索像動物一樣以靈活的方式理解物理世界的能力。
作為替代方案,扎多爾等(Zador et al. 2022)提出了一個拓展的圖靈測試,包括高級感覺運動能力的測試。比較而言,最初的圖靈測試建立了一個定性標準,使我們可以判斷人工智能的進展程度,而拓展的“具身圖靈測試”將對人工系統(tǒng)與人類和其他動物的交互進行基準測試和比較。于是,可以依據(jù)每種動物自己獨特的能力來定義各自的圖靈測試:人造海貍可以測試其筑壩的能力,人造松鼠可以測試其穿越樹木的能力。事實上,幾乎所有動物都有許多核心的感覺運動能力,這些核心技能為動物快速進化適應新環(huán)境提供了堅實的基礎。
據(jù)此,不同應用場景下的自然語言處理系統(tǒng)也應該有不同的“具身圖靈測試”。比如,對于聊天機器人系統(tǒng),只要讓人們覺得好像在跟一個真人聊天貧嘴,就可以說是通過了圖靈測試;而對于運用在機械機器人上的自然語言處理系統(tǒng),必須能夠聽懂并且驅動機器人實施抓取和放置動作的自然語言指令,才可以說是通過了圖靈測試。
五、結語:從ChatGPT的表現(xiàn)看AI離語言學有多遠?
上文的介紹和討論說明:語法是人類的一種古老的、把部分拼裝成整體的組成性智能。并且,這種語言智能是一種具身智能,具有自動地符號接地和搜索環(huán)境可供性的能力,從而使符號所指與語境中的特定事物關聯(lián)起來,最終使語言表達不僅具有交際意義,而且可以獲得面向特定語境的語義解釋。正是在這一方面,目前的人工智能語言模型離真正理解語言的結構和意義,可能還有相當大的距離。下面,我們從目前風靡全網的ChatGPT的有關表現(xiàn)談起。
ChatGPT是一種專注于對話生成的語言模型,可用于生成回答、摘要、文章、翻譯、程序代碼等各類內容。因此,它不僅是一個由AI驅動的聊天機器人,更是一個自然語言處理平臺,可以完成多種自然語言處理任務。對于語言學者來說,最引人入勝的是,SunCH(2022)讓ChatGPT分析語言學經典例句。比如:
(1)SunCH:“去年,王冕死了父親,在家守喪。”這句話中,誰死了?
ChatGPT:在這句話中,王冕的父親死了。這句話描述了一件事情,即王冕的父親死了,并且王冕在家里守喪。
(2)SunCH:“這兩個孕婦,一個是男孩,一個是女孩?!边@句話是什么意思?
ChatGPT:這句話描述了兩個孕婦的性別,指出一個是男孩,另一個是女孩。這句話的意思是,這兩個孕婦分別是男孩和女孩。
SunCH:孕婦的性別怎么會是男孩呢?
ChatGPT:對于這個問題,我們需要明確一點,孕婦是指懷孕的女性,因此孕婦不可能是男孩。在這個問題中,可能是上文描述不清楚,導致了混淆。孕婦是指懷孕的女性,它們可能會生男孩或女孩,但它們自己不可能是男孩。
(3)SunCH:“咬死了獵人的狗”是什么意思?
ChatGPT:“咬死了獵人的狗”指的是一只狗咬死了一個獵人。這個狗可能是獵人的寵物,也可能是陌生的狗。
SunCH:還有其他理解方式嗎?……[中間有5輪SunCH的提醒與ChatGPT的回應]……在“咬死了獵人的狗”這個片段前面再加一個主語,那么完整的句子就可能有其他意思。
ChatGPT:是的,如果在這個片段前面加上一個主語,那么這個完整的句子可能就有其他意思了。例如,如果加上“它”這個主語,那么句子就變成了“它咬死了獵人的狗”,這個句子的意思就是“它(指某種生物或物體)咬死了獵人的狗”。如果加上“獵人”這個主語,那么句子就變成了“獵人咬死了獵人的狗”,這個句子的意思就是“獵人(指一個人)咬死了他自己的狗”。
從(1)可見,ChatGPT能夠理解“王冕死了父親”這種領主屬賓句的語義關系。從(2)可見,ChatGPT起先不能理解轉喻表達;在人類啟發(fā)下,可以進行語義一致性的核查、辯證分析與辯解。從(3)可見,ChatGPT傾向于進行先到先得式的語義解釋(“咬死了獵人+的+狗”,中心語“狗”是“咬死了獵人”的潛主語);經過5輪啟發(fā),強制“咬死了獵人的狗”的主語“它”出現(xiàn),堵死了“狗”作“咬死了獵人”的潛主語這條解釋通道,ChatGPT才舍棄語義上可能占優(yōu)的述賓組合“咬死了獵人”,而把“獵人的狗”捆在一起。這也體現(xiàn)出ChatGPT能夠在跟人類互動時,從用戶的反饋中對回答進行修正的能力。
從上述ChatGPT對于語言學經典例句的分析來看,即使是在語言符號體系的內部,它也沒有摸到語言學遞歸性組合規(guī)律的暗門;更不要說把語言符號跟語境中的所指物建立起接地性鏈接,或者搜索與利用環(huán)境可供性等具身性智能了。因此,我們可以說,ChatGPT等先進的人工智能離基于規(guī)則的語言學還很遠很遠。但是,從技術本質看,ChatGPT是一種基于統(tǒng)計的神經網絡模型,它善于從高頻數(shù)據(jù)中習得相關模式,來正確地預測盡可能符合人類期望的下文。因此,ChatGPT的成功啟示我們:在大數(shù)據(jù)、大算力和強算法的支持下,調查語言的分布模式、挖掘語言的統(tǒng)計規(guī)律、發(fā)現(xiàn)語言的統(tǒng)計結構,可能是未來語言學研究的又一種新的選擇。果真如此,那么ChatGPT等先進的人工智能將離基于統(tǒng)計的語言學很近很近。換句話說,在基于統(tǒng)計學習的人工智能飛躍發(fā)展的背景下,語言學研究也應該擁抱和投身于數(shù)據(jù)/計算密集型的第四/五范式。這是技術的催促,也是時代的召喚!
參考文獻
巴赫金 1988 《陀思妥耶夫斯基詩學問題》,白春仁,顧亞鈴,譯,北京:生活·讀書·新知三聯(lián)書店。
戴一鳴 2022 《谷歌科學家親講:具身推理如何實現(xiàn)?讓大模型“說”機器人的語言》,“機器學習算法與自然語言處理”公眾號,2022-09-25,https://mp.weixin.qq.com/s?__biz。
史有為 2022 《從喬氏對答談語言的思維功能》,“西去東來中傳站”公眾號,2022-10-25,https://mp.weixin.qq.com/s/7mZ7VqreXHl20xNHHJGZBA。
吳田富 2019 《與或圖網絡:組成式語法的深度神經網絡結構》,“視覺求索”公眾號,2019-04-02,https://mp.weixin.qq.com/s/jlh8tJGp8xKqZqfDb-HUEg。
袁毓林 1994 《一價名詞的認知研究》,《中國語文》第4期。
袁毓林 2015 《漢語意合語法的認知機制和描寫體系》,〔日〕《中國語學》第262號。
袁毓林 2019 《為什么要給語言建造一座宮殿?——從符號系統(tǒng)的轉喻本質看語言學的過度附魅》,《語言戰(zhàn)略研究》第4期。
袁毓林 2020 《敘實性和事實性:語言推理的兩種導航機制》,《語文研究》第1期。
袁毓林 2021 《“人機對話-聊天機器人”與話語修辭》,《當代修辭學》第3期。
袁毓林 2022a 《在人類生境約束下思考語言的設計原理和運作機制》,《語言戰(zhàn)略研究》第6期。
袁毓林 2022b 《基于認知并面向計算的語言學研究進路——走向人文精神與科技理性的有機結合》,〔日〕《現(xiàn)代中國語研究》第24期。
Bishop, C. 2022.《科學智能(AI4Science)賦能科學發(fā)現(xiàn)的第五范式》,“微軟亞洲研究院”公眾號,2022-07-07,https://mp.weixin.qq.com/s/o7LCvBFvHK_QD2XJYuISeQ。
Browning, J. & Y. LeCun. 2022. AI and the limits of language: An artificial intelligence system trained on words and sentences alone will never approximate human understanding. Noema. 2022-08-23. https://www.noemamag.com/ai-and-the-limits-of-language/.
Hey, T., S. Tansley & K. Tolle. 2009. The Fourth Paradigm: Data-Intensive Scientific Discovery. Redmond, Washington: Microsoft Research.
Mumford, D. 2016. Grammar isnt merely part of language. http://www.dam.brown.edu/people/ mumford/blog/2016/grammar.html.
Pinker, S. 1997. How the Mind Works. New York: W. W. Norton & Company. 中譯本:《心智探奇:人類心智的起源與進化》,郝耀偉,譯,浙江人民出版社,2016。
Pinker, S. 2002. The Blank Slate: The Modern Denial of Human Nature. New York: W. W. Norton & Company. 中譯本:《白板:科學和常識所揭示的人性奧秘》,袁冬華,譯,浙江人民出版社,2016。
Pinker, S. 2007. The Stuff of Thought: Language as a Window into Human Nature. New York: Penguin Groups, Viking Press. 中譯本:《思想本質:語言洞察人類天性之窗》,張旭紅,梅德明,譯,浙江人民出版社,2015。
Saba, S. W. 2022.《重溫三十年前對于NN的批判:神經網絡無法實現(xiàn)可解釋AI》,“圖靈人工智能”公眾號,2022-09-27,https://mp.weixin.qq.com/s/YIATTwrinWuNUH3mwZKFkQ。
SunCH. 2022.《ChatGPT分析語言學經典例句》,“語言與心智”公眾號,2022-12-09,https://mp.weixin.qq.com/s/dye1sQtlCRU9T05Hfm-Hdw。
Talmy, L. 2000. Toward a Cognitive Semantics. Cambridge Mass.: MIT Press.
Turing, A. M. 1950. Computing machinery and intelligence. Mind 59, 433–460.
Zador, A., B. Richards, B. ?lveczky, et al. 2022. Toward next-generation artificial intelligence: Catalyzing the NeuroAI revolution. https://arxiv.org/abs/2210.08340. 中譯文:《NeuroAI:邁向下一代的人工智能》,趙凱,譯,“集智俱樂部”公眾號,2022-11-14,https://mp.weixin.qq.com/s/RF5o59RxFdQw6AavGU0iuw,https://m.thepaper.cn/baijiahao_20732120。
Zhu, S.-C. & D. Mumford. 2006. A stochastic grammar of images. Foundations and Trends in Computer Graphics and Vision 2(4), 259–362.
責任編輯:王 飆