国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

人工智能時代下語言學研究的理念與取徑*

2022-11-24 09:07尹嘉怡
關鍵詞:心智語言學人工智能

鄭 偉 尹嘉怡

一 人工智能、心智與語言

1956 年,“人工智能”(artificial intelligence,簡稱“AI”)這一概念在美國達特茅斯會議上被正式提出,在此之后的近七十年里,人工智能已經(jīng)由一個新生領域迅速成長為21 世紀的時代主題之一。人工智能的出現(xiàn)和崛起伴隨著計算機科學各領域的高速發(fā)展,短短幾十年間,它們共同打造了這個時代的特殊行為方式,甚至塑造了帶有鮮明時代特征的思維模式。如今,弱人工智能階段結下的碩果使得人們對于強人工智能時代的到來充滿了幻想。然而,擁有心智的強人工智能可能不會如期而至,通往通用人工智能的道路尚不明晰,其中最關鍵的原因就是人類對于自身智能和心智的了解還十分有限。

另一方面,在人類對于自身智能的探索中,語言問題始終是其核心之一。就目前的知識水平而言,我們認為語言不但是人區(qū)別于其他動物的“高級”行為,更是人的思維工具,同時還是人反觀自身心智(mind)的窗口。只有人類了解清楚自身的運行方式,機器對人的模擬才能有據(jù)可依。達特茅斯夏季人工智能研究項目提案中曾明確表示,(人工智能)這項研究是在這樣一個假設的基礎上開展的,即假設學習的每一個方面或智能的任何其他特征原則上都可以被精確地描述,從而使得機器可以模擬它。(1)② McCarthy, J., Minsky, M. L., Rochester, N., & Shannon, C. E., “A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence”, August 31, 1955.AI Magazine, vol.27, no.4, 2006, p.2.因此,無論是為了賦予機器智能,還是為了探索人類自身,語言始終是人類的重要課題之一。

(一)何謂人工智能?

要對人工智能下一個精準的定義,無疑是有點困難的。人工智能在短短幾十年間經(jīng)歷了高速發(fā)展,它從機器模擬人類智能這一設想出發(fā),經(jīng)過數(shù)學、計算機科學、生理學、認知科學、語言學等學科的推動,發(fā)展為橫跨多個研究領域、遍布各個應用場景的一項技術。

人工智能的概念往往會伴隨其自身發(fā)展水平以及人類的期望發(fā)生變化。起初,人工智能的目標是使計算機使用語言,形成抽象的概念,解決人類的各種問題,以及提升自身。②如今看來,機器語言的發(fā)展已經(jīng)較為成熟,計算機提取和分析信息的能力也大大提升,機器學習的效果有所提高,計算機針對特定任務的表現(xiàn)也令人驚喜。但是,這些成果在今天大多被歸結為計算而非智能。人工智能在上一階段取得的成果往往很快被排除在人工智能的新定義之外,這一現(xiàn)象被稱為“人工智能效應”。因此,對于“計算機所表現(xiàn)出的智能”這一議題,當下存在兩種大相徑庭的理解:一種認為人工智能指的是一個系統(tǒng)正確地解釋外部數(shù)據(jù),從這些數(shù)據(jù)中學習,并通過靈活的適應使用這些學習來實現(xiàn)特定目標和任務的能力,(2)Haenlein, M., & Kaplan, A., “A Brief History of Artificial Intelligence: On the Past, Present, and Future of Artificial Intelligence”,California Management Review, vol.61, no.4, 2019, pp.5-14.即弱人工智能;另一種則認為人工智能可以達到與人類擁有同等或超越人類智慧的水平,即強人工智能,又名通用人工智能。(3)Kurzweil, R.,The Singularity Is Near: When Humans Transcend Biology, London: Viking Penguin, 2005, p.204.在前者的含義中,人工智能只能實現(xiàn)人類智能的部分內(nèi)容;而后者則認為人工智能最終可以復現(xiàn)甚至超越人類智能。目前人工智能領域的成果與工作都屬于弱人工智能,而強人工智能僅僅是一個頗具科幻色彩的愿景。當然,強人工智能的到來對于人類來說無疑是充滿吸引力的。當被問及人工智能的目標是否是人類水平的智能時,人工智能之父麥卡錫(John McCarthy)對此表示認同,他說道:“最終的努力是制造出能解決問題并且達成世界和人類的目標的計算機程序?!?4)此段話英文原文引自麥卡錫于2007 年一篇題為“What is artificial intelligence”的訪談錄(第5 頁),可參看以下網(wǎng)頁:wwwformal.stanford.edu/jmc/。這意味著人工智能還有很長的路要走。

人工智能的進步與人類對自身智能的認識的增長是密不可分、相輔相成的。作為啟蒙人工智能的天才設想,圖靈機的形象也啟發(fā)了人類對于自身心智構造的想象。在對信息的處理過程中,人腦和計算機都可以通過符號進行表征,進一步進行邏輯推理和計算。基于這一符號主義的思想,人工智能一路高歌猛進,最終在模擬人的計算推理能力上取得了重大突破。2017 年,人工智能機器人阿爾法圍棋(AlphaGo)戰(zhàn)勝了圍棋世界冠軍。在涉及大規(guī)模計算和推理的任務中,人工智能已經(jīng)可以實現(xiàn)比人腦更出色的性能。然而,正好像日行千里的飛機并不等同或者優(yōu)于鳥類,同樣地,在智能的其他方面,人工智能的表現(xiàn)甚至不如一個孩童。當符號主義帶來的狂歡逐漸落幕,近年來人工智能重新將視線投向聯(lián)結主義(connectionism),即另一副人類心智構造的理論形象,這也帶來了當前以深度人工神經(jīng)網(wǎng)絡為代表的新一輪人工智能發(fā)展浪潮。

此外,基于行為主義和控制論的另一派從人工智能與外部環(huán)境的交互這一角度出發(fā),也在探索著心智的來源??傊?,無論從哪個方向推進人工智能,其目標都是更多地將人類智能遷移到人工智能上,其中的關鍵就在于人類對于心智這一黑箱的解密??梢哉f,人工智能的形象是變化的,而人工智能的目標是永恒的。

(二)心智與智能

無可否認的是,人類這一物種與自然界其他產(chǎn)物的最大區(qū)別就是人類是有意識的。人可以調(diào)動思維協(xié)調(diào)自身的感知與外部世界互動,并對這些經(jīng)驗進行加工,產(chǎn)生記憶、智力、想象、情感、語言等能力。正如同笛卡爾(Rene? Descartes)所經(jīng)歷的那樣,他無法懷疑他自己作為一個有自我意識的存在正在思考,我們也無時無刻處在思考之中。自從發(fā)現(xiàn)自身的這些機制起,人就一直在嘗試著定義和描述它們。但相比于描述物理世界中其他作為客體的存在,對人的精神層面的要素、結構、運作方式等進行描述是更加困難的。在科學尚未建立的年代,先哲們多采用“心靈”(soul)一詞來概括人的這種機制,是否擁有心靈這一屬性也被認為是判斷物體有無生命的依據(jù)。隨著人進一步探索自身的心理狀態(tài)和思維活動,“心智”(mind)一詞在心理學中被廣泛接受。對于心智的研究包括與認知相關的部分,例如意識、思維、記憶、想象、推理、語言等能力。人的注意、感覺、情緒、情感、潛意識等屬性也是心理學關注和研究的對象。

當年麥卡錫選擇“人工智能”這個名稱來命名這一新生學科,但比起“心智”這一廣泛的概念,“智能”幾乎不關注人的知覺、情緒、潛意識、情感等部分,而是著眼于人類心智中理性的部分,這種西方的理性主義傳統(tǒng)在人工智能的進程中也得到了彰顯。智能的概念還包含著進化主義的色彩,即人類的心智能力同其他能力一樣,是人類在漫長的進化進程中獲得的,因此,可以假設機器也能夠獲得這種能力,甚至能夠循著人類進化的軌跡,通過模仿人的結構和行為以獲得智能。據(jù)戴維斯(Randall Davis)的觀點,與本能和刺激—反應關聯(lián)相比,智能行為具有以下特征:(1)預測;(2)對變化的反應;(3)意向性的行動;(4)推理。(5)Davis, Randall, “What Are Intelligence? and Why?” , 1996 AAAI Presidential Address,Ai Magazine, vol.19, no.1, 1998, pp. 91-110.除意向性問題外,目前人工智能已經(jīng)基本具備了預測、對變化作出反應以及推理的能力,但我們依然不能承認人工智能已經(jīng)具備了全面的智能,其中的緣由就包括意向性問題難以得到解決。塞爾(John Searle)認為:“意向性是某些心理狀態(tài)和事件的特征,它是心理狀態(tài)和事件(在以下這些詞的特殊含義上)指向、關于、涉及或表現(xiàn)某些其他客體和事態(tài)的特征?!?6)[ 美 ]約翰·塞爾:《心、腦與科學》,楊音萊譯,上海:上海譯文出版社,2016 年,第110 頁。意向性是比意圖、意識更為基礎的結構,意圖只是意向性的一種,并非所有的意向狀態(tài)都是有意識的。(7)陶鋒:《人工智能語言的哲學闡釋》,《南開學報(哲學社會科學版)》 2020 年第3 期,第80 頁。也就是說,人類的行動都處于意向狀態(tài)中,即使機器實現(xiàn)了多種智能行為,但它仍然是由人操控的,其行動并不具有意向性。但是,就人的意向性從何而來這一問題我們還無從下手。

除了上述對于智能行為本身研究的困難,隨著人工智能技術的廣泛應用以及人工智能的升級需要,現(xiàn)今對于所謂“智能”的構想中已經(jīng)包含了心智的其他部分。除了高性能計算外,人工智能的發(fā)展前景中大量涉及其對人類心智中其他部分的理解,例如機器感知、情緒識別、語義理解以及人機交互的各類情景??梢灶A見,未來對于人類智能的研究將會繼續(xù)深入,人工智能的質(zhì)變也將取決于我們對心智的突破性認識。作為人類恒久而又強烈的疑問,心智問題是當代所有學科共同面對的課題。

(三)機器語言與自然語言

笛卡爾的貢獻之一,是提出了人類心理與動物心理比較的可能性,并正確地認識到,人類“擁有能夠表現(xiàn)發(fā)射性的理性思維的創(chuàng)造性語言”,同時也把“語言看作人類一種獨有的天生的能力”。(8)[ 美 ]黎黑(T. H. Leahey):《心理學史:心理學思想的主要趨勢》,劉恩久等譯,上海:上海譯文出版社,1990 年,第124 頁。思維使得人在與世界的互動中具有獨特性。它使得人類在與世界互動、獲得經(jīng)驗時具有自我意識,也使得人可以采取相較于動物更有靈活性的行動。最重要的是,思維使人能夠運用語言。在人類心智的各個組成部分中,語言具有無可替代的特殊地位。語言是我們組織和建構自身心智其他成分的工具。通過語言,心智的其他部分得以顯現(xiàn),人類得以傳遞感受、表達思想。在個體和其他個體的交流中,語言是重要的媒介。最后,語言在社群中的廣泛使用使得語言成為一種建構社會文化、形成社會經(jīng)驗、塑造社會思維方式的力量。正是基于對人類語言的觀察和思考,1710 年萊布尼茨(G. W. Leibniz)提出建立一種人工的普遍語言的設想,這種由符號和數(shù)理邏輯建構起來的語言比自然語言更為簡潔和明確。(9)劉輝:《普遍語言與人工智能——萊布尼茨的語言觀探析》,《外語學刊》 2020 年第1 期,第124 頁。這一構想在日后隨著計算機的誕生和發(fā)展衍生成為程序語言。因此,我們可以將程序語言看作人類自然語言的一個變種。對于機器來說,程序語言的出現(xiàn)賦予了它進行邏輯思維的工具。與人類語言的性能和表現(xiàn)類似,程序語言使計算機能夠組織和調(diào)用內(nèi)部的各個要素,同時它使得計算機可以反饋信息處理的結果,機器與機器之間也可以傳遞信號,最終在計算機領域形成特定的運作模式和文化。程序語言已經(jīng)發(fā)展成熟,成為了計算機的基本組成部分之一。從使用機器語言到產(chǎn)出邏輯思維結果來看,如今人工智能確實已經(jīng)了達到了多種和人近似的表現(xiàn)。除了上文提到超出人類的計算表現(xiàn),語音識別、機器翻譯以及各類人工智能終端產(chǎn)品中的人機交互都仿佛顯示了人工智能可以成功理解和模擬人的行為。

但是,當我們從另一個角度理解人的語言與機器的語言,進而探討人工智能是否能獲得思維能力時,人工智能的“進化”或許并不十分順利。笛卡爾假設人類心靈中有一種內(nèi)在語言,這區(qū)別于不同族群所使用的特定的語言,這是人類特有的心智屬性。(10)[ 美 ]黎黑:《心理學史:心理學思想的主要流派》(第6 版),蔣柯等譯,上海:上海人民出版社,2013 年,第120 頁。從這一觀點來看,語言并不只是人為的產(chǎn)物,它是根植于人類這一物種的特有的機制和能力。這種人類語言“內(nèi)在主義”(internalist)的觀念在喬姆斯基(Noam Chomsky)那里得到了繼承,進而影響至今。喬姆斯基將這種人類特有的能力稱為“語言官能”(11)或譯作“語言器官”“語言機能”等。(language faculty)。他還區(qū)分了語言能力(linguistic competence)和語言運用(linguistic performance),語言能力是內(nèi)化語言規(guī)則所形成的認知能力,語言運用則是一個人調(diào)用語言能力的外在表現(xiàn)。兒童可以理解一句從未聽過的話并快速習得,人在日常的語言使用中也可以創(chuàng)造和運用各種“不合文法”的口頭禪。隨著互聯(lián)網(wǎng)和人工智能深入我們的日常生活,人類的語言運用中驚人的創(chuàng)造力也回應了海德格爾(Martin Heidegger)對于“語言機器”的擔憂。1957 年,海德格爾就可以進行思考和翻譯的機器展開討論,他認為語言機器從“機器的能量和功能中已經(jīng)規(guī)整并限定了我們語言的可能使用方式”。(12)陶鋒:《人工智能語言的哲學闡釋》,《南開學報(哲學社會科學版)》 2020 年第3 期,第82 頁。

目前我們看到的是,計算機和互聯(lián)網(wǎng)的發(fā)展非但沒有限制人類的語言運用,它們反而給使用網(wǎng)絡語言的流行文化提供了一片沃土。同時,一個人可以一邊使用程序語言與機器交流,一邊和身邊的人輕松地對話,這證明了人類對于符號的操縱能力遠遠高出機器的能力。我們認為,當前的主要議題應該是機器對自然語言的存儲、理解以及反饋,而非擔心人類特有的“詩的語言”的消亡。

總之,人的自然語言難以被計算機完全“習得”,一方面是由于人類語言運用所產(chǎn)出的語言事實是海量的、復雜的、不完全受規(guī)則限制的;另一方面,人的語言能力的內(nèi)部結構和生理基礎尚不明確。由于心智對人來說仍然是一個巨大的謎團,因此,當下人工智能學科的性質(zhì)仍然是智能化機器建造的工程學科與對人類智能計算建模的經(jīng)驗學科。我們認為,未來很長一段時間,機器語言需要學習的仍然是人類自然語言中可以被符號化、形式化、結構化的部分,其目標是提升性能和表現(xiàn),而非模仿人的方方面面。

二 探索語言的兩種路徑:語言學和人工智能

語言是介于人類思想與外部世界中間的一扇窗,也是人類認識心智和改造世界的鎖鑰??梢哉f,對語言的發(fā)問和求索是有關整個人類歷史最重要的主題之一。在人類對語言的探索過程中,語言學與人工智能從不同的觀察視角和研究路徑出發(fā)。在這條道路上,這兩個學科對彼此的進程也產(chǎn)生了深刻的影響。

語言的系統(tǒng)研究并非始于對心智的好奇。起初,語言對人來說是一套約定俗成的規(guī)范。隨著語言材料的大量積累,19 世紀的歷史比較語言學開始系統(tǒng)地對語言展開研究,并從中發(fā)現(xiàn)了不同語言之間的發(fā)生學關系,語言的共性(universal)研究開始浮現(xiàn)。在那些被觀察到的語言事實中,一部分是符合規(guī)范的、穩(wěn)定的,而另一部分是隨意的、多變的?!艾F(xiàn)代語言學之父”索緒爾(F. D. Saussure)將人類語言活動中的這兩者定義為語言(langue)和言語(parole)。他將語言看作一個獨立的系統(tǒng),大力倡導從共時(synchronic)角度分析語言系統(tǒng)內(nèi)部要素的關系和規(guī)律。索緒爾一反歷史比較語言學之研究傳統(tǒng),拋棄了“言語、外部、歷時、實體”等研究對象,力主以“語言、內(nèi)部、共時、形式”為中心建立起現(xiàn)代語言學理論。自此,結構主義學派對于語言系統(tǒng)內(nèi)部的分析描繪出了人類語言的成分、結構和關系。這一時期對于語言的關注,無疑使人獲得了觀察和理解語言的新視角,在不同的地域和種族內(nèi),語言系統(tǒng)如同初始設置一樣伴隨著人類存在。

20 世紀50 年代,隨著人工智能、認知心理學等學科逐步建立與發(fā)展,人們對心智的好奇心被重新喚醒。在語言問題上,人也不僅僅滿足于對語言事實的描寫和分析,開始更關心語言究竟從何而來、又何以至此。喬姆斯基是這一轉(zhuǎn)向的代表人物,他堅定地將其理論基點定位于“語言與心智”的關系上,這從其專著《語言與心智》(13)Chomsky, Noam,Language and Mind, New York: Harcourt Brace Jovanovich, 1968 (Extended Edition 1972);[ 美 ]喬姆斯基:《語言學對心智研究的貢獻》,《喬姆斯基語言哲學文選》,徐烈炯、尹大貽、程雨民譯,北京:商務印書館,1992 年,第13—123 頁。中可見一斑。他的名言“語言是心智的窗口”是這一立場的具體反映。喬姆斯基力圖描繪人類語言能力中的規(guī)則,他將之命名為普遍語法(universal grammar)。普遍語法并不是規(guī)則的集合,相反地,它討論了人類語言中“有限規(guī)則的無限使用”,即語言的生成性。對于生成性的解釋,喬姆斯基受到了圖靈(Alan M. Turing)的啟發(fā)。圖靈在心智的計算理論上的一個重要貢獻就是清晰地提出了遞歸函數(shù)理論用以刻畫心智的計算操作,這對喬姆斯基的影響無疑是巨大的。(14)李曙光:《喬姆斯基語言心智理論中的計算主義思想:源頭、實質(zhì)與影響》,《南京師范大學學報(社會科學版)》 2020 年第1 期,第146 頁。遞歸性的發(fā)現(xiàn)使得我們能夠理解人類語言的生成性。由此可見,計算理論的發(fā)展也極大地啟發(fā)了人類對于語言和心智的理解。蘊藏在句法背后的,不僅僅是一套規(guī)則,而是無窮的動態(tài)性和創(chuàng)造性。直到今天,人工智能模擬和學習人的語言,不僅僅帶來了各種人工智能技術及產(chǎn)品,更重要的是它向人類展示了它們所擁有的自然語言的潛力與深度。在機器與人的競賽中,它可以在計算這一單元遠勝人類,卻無法成功應對來自語言的挑戰(zhàn)。從這個角度來說,未來人工智能在自然語言分析方面的努力仍然有著漫長的道路要走。

雖然轉(zhuǎn)換生成語法學派帶來的影響力不可忽視,在對人類語言的理性闡釋中仍然占據(jù)著主流地位,但隨著科技和認知的發(fā)展,語義問題與語言的體驗性逐漸進入科學的視線。20 世紀50、60 年代以來,認知功能語言學派從認知和體驗的角度對轉(zhuǎn)換生成語言學派展開批判和補充。這一學科的出現(xiàn)拓寬了語言學的研究視野,使得人們可以分別從內(nèi)省和經(jīng)驗兩個方向來研究語言及心智。事實上,認知語言學與未來人工智能所關心的課題是十分相近的。從研究主題上來說,認知語言學中許多理論與當下人工智能的發(fā)展需求不謀而合。例如,原型范疇、概念、隱喻—轉(zhuǎn)喻理論與自然語言理解的需求聯(lián)系非常緊密;具身性(embodied)經(jīng)驗、互動經(jīng)驗也與人工智能機器人的研究理念相契合。

理想化的情況,當然是語言學理論可直接應用于人工智能發(fā)展,但現(xiàn)狀并非如此。過去,語言學確實為人工智能語言的構建提供了理想的參照。例如,喬姆斯基的語言學研究成果推動了早期人工智能的發(fā)展。在機器翻譯的早期研究中,美國的METAL(MEchanical Translation and Analysis of Language)充分利用了喬姆斯基的轉(zhuǎn)換生成語法和短語結構理論。(15)王巍、寇世琪:《喬姆斯基與人工智能》,《自然辯證法研究》 1996 年第10 期,第39 頁。他所提出的管轄與約束理論(Government and Binding Theory)也被認為對機器翻譯的提升非常有意義。

正如許多學科所關注的,語言學也在因循著挖掘人類心智的奧秘前進。在語言學的視角中,語言早已不只是簡單的符號和規(guī)則的堆砌,相反,它所暗藏的是人類理解自身和世界的方式。更何況,在機器學習人類語言這一“實驗”中,人的語言的復雜性和靈活性早已經(jīng)不言自明。因此,今天的語言學理論并不局限于描述的、分析的,更多的是抽象的、辯證的,而使用符號和規(guī)則的機器注定無法直接理解這些內(nèi)容。但與之相對的是,人工智能并不是一門純理論的學科。相反,它是一門從經(jīng)驗中成長起來的學科。在有了一定的理論基礎后,人工智能需要處理應對的是大量復雜的數(shù)據(jù)。因此,出于實用主義,語言學理論往往不是人工智能的首選??傊煌膶W科特性和需求注定了當前語言學與人工智能兩個學科存在著分道揚鑣、各說各話的局面。

現(xiàn)今人工智能為語言學帶來了強大的技術支持,但它對語言學研究的傳統(tǒng)所造成的沖擊也不容小覷??的螤柎髮W語言學系主任約翰·惠特曼(John Whitman)教授在一次采訪中表示:“我認為語言學理論面臨的挑戰(zhàn)并不是轉(zhuǎn)換生成語法與認知語言學的競爭,而是語言學理論日益受到計算語言學的挑戰(zhàn)?!?16)③ 鄭國鋒、John Whitman:《語言學、語言學流派、語言學教育:康奈爾大學語言學系主任約翰·惠特曼(John Whitman)教授訪談錄》,《外國語》 2020 年第5 期,第123 頁;第123—124 頁。隨著計算機語言處理技術的發(fā)展,計算語言學逐漸發(fā)展為一門獨立的學科。它使用計算機研究語言,關注語言中可計算的部分?;萏芈岬剑嬎阏Z言學依賴于大規(guī)模的語料庫和統(tǒng)計分析。轉(zhuǎn)換生成語法與認知語言學的共同之處在于建構語言表征,語言學家們都在討論語義或者結構的表征。與此不同,計算語言學家們對表征沒有興趣,他們對通過統(tǒng)計方法預測語言模式感興趣。③

總的來看,現(xiàn)代語言學的各種研究學派之間的論爭圍繞語言研究的不同前提(形式或功能)和哲學基礎(理性主義或經(jīng)驗主義)展開。然而計算機和人工智能時代對語言研究的挑戰(zhàn)是顛覆性的,算法、算力的發(fā)展促使越來越多的研究者關注一般的而非特殊的、現(xiàn)象的而非本質(zhì)的問題。不僅僅是計算語言學內(nèi)部熱衷于采取這種研究方式,語言學的其他各個分支也受到了不同程度的影響。為了迎合機器的理解需求,我們傾向于挑選語言中一般性的、已知的、易被機器理解的語言材料,隨后把它們丟進模型中即可。如果語言學研究普遍轉(zhuǎn)向采取這種方法而非分析,那么這種經(jīng)驗主義色彩的做法相當于使我們看待語言的方式回到了現(xiàn)代語言學建立之前的狀態(tài),區(qū)別僅僅是我們可同時處理的語言材料數(shù)量更大、處理速度更快而已。這種做法的流行很可能使一些語言學研究者偏離正確的軌道,進而偏離了對語言本質(zhì)的探索。

因此,語言學需要謹慎地追隨人工智能的浪潮,并始終保持語言學研究的初心??茖W對普遍真理的追求是建立在對特殊事物的觀察基礎上的,(17)[ 美 ]黎黑:《心理學史: 心理學思想的主要流派》(第6 版),蔣柯等譯,第120 頁。這一點對于語言學研究來說也是適用的?;萏芈鼘Υ顺钟型瑯拥目捶?,“我們應該記取:一位語言學工作者不僅僅要致力于弄明白漢語或者英語的基本事實,更應該引導人們明白人類語言的可能事實。也正是這個原因,我們致力于少數(shù)民族語言研究、拯救瀕危語言”。(18)鄭國鋒、John Whitman:《語言學、語言學流派、語言學教育:康奈爾大學語言學系主任約翰·惠特曼(John Whitman)教授訪談錄》,《外國語》 2020 年第5 期,第124 頁。同時,計算主義下的語言學研究本身也面臨著巨大的挑戰(zhàn),我國計算語言學發(fā)展中存在著對于深度學習算法本身迷信、忽視語言本體研究、人工智能尚未達到應有的理解水平等問題。(19)耿立波、酆格斐、詹衛(wèi)東、楊亦鳴:《中國計算語言學研究現(xiàn)狀與展望》,《語言科學》 2021 年第5 期,第195 頁??梢?,以理論建設、問題導向為核心的語言學研究與以技術驅(qū)動的計算語言學研究應該相互助益、協(xié)同發(fā)展。關注真實的語言材料,繼續(xù)深入挖掘語言中反映人的特質(zhì)和特定行為的部分,在嚴謹假設和堅實理論的基礎上合理借助計算技術,以獲得補充和佐證,從而推動語言學理論的構建和發(fā)展,是語言學家最根本的使命。

三 語言學研究的人工智能與跨學科取徑

21 世紀見證了18 世紀那只名為“普遍語言”的蝴蝶所帶來的颶風般的效應。如今,機器語言所寫就的程序搭載著豐厚的物質(zhì)基礎,創(chuàng)造了包圍著這個時代的技術和產(chǎn)品。正如同人類最初得以借助飛機抵達高空時那般的興奮,我們現(xiàn)在也沉浸在人工智能所帶來的驚喜和震撼之中。但機器語言僅僅表現(xiàn)和延伸了人類語言中簡潔且充滿秩序的一面,隨著人類對人工智能的需求和期待的增長,人類自身對自然語言的探索也必將不斷深入。

(一)語言數(shù)據(jù)與語言事實

語言學作為能夠接觸到自然語言第一手材料的學科,它已經(jīng)擁有大量語言事實的記錄和積累,并且已經(jīng)形成了成熟的工作方法,對于自然語言的直接調(diào)查仍然是語言學工作的重要部分。這些語言材料可以為人工智能提供數(shù)據(jù)集,作為機器的最佳學習素材,保證了人工智能可獲得系統(tǒng)的、可靠的、動態(tài)發(fā)展的語言數(shù)據(jù)。對語言學來說,這不僅僅是為了獲得統(tǒng)計學意義上的數(shù)據(jù),更重要的是,語言學要回答語言提出的真正的問題,研究者必須要收集和探究真實語料,力圖從中找到人類語言的共性或個性。

以語音學為例,語音學的研究成果能夠為語音識別與合成提供理論基礎。早期的語音識別由于忽略了聲調(diào)這一最顯著的區(qū)別特征,識別效果并不理想。如今語音識別與合成技術已經(jīng)廣泛應用于日常場景中,但其表現(xiàn)還有待提高。例如,在面對使用方言的用戶時,語音識別的準確率降低。另外,語音合成中更加豐富的擬人的語調(diào)和語氣仍然是需要重點攻克的問題,以提升用戶的體驗感。計算機對語音材料的預處理會大大簡化人輸入的語音。更關鍵的是,用以使計算機更好地“理解”不同的方言或個人的語音模型尚待開發(fā)。語音學研究者收集最真實的語音材料,能夠比機器更加準確細致地識別、提取、分析人的語音特點,從而幫助建立計算機可用的聲學模型。

對于語言學自身來說,人工智能帶來的挑戰(zhàn)使語言學研究者意識到已經(jīng)不能回避復雜的、特殊的語言事實。谷歌公司于2021 年1 月推出的語言模型Switch Transformer 的參數(shù)量已達到1.6 萬億。2021 年6 月基于中文的語言模型“悟道2.0”推出后,其參數(shù)量已達到1.75 萬億。隨著算力投入和模型提升,在面對符合規(guī)范的、普遍的語言材料時,人腦早已無法企及計算機的計算能力。如果把語言研究工作簡單地視作數(shù)據(jù)處理,那么機器已經(jīng)可以接管人的工作了。但在面對語言最精巧的內(nèi)核時,只有人類才能發(fā)揮有效的作用。因此,“要用真實的語言材料,而且不能只用主謂賓齊全的簡單陳述句做研究。我們要用人類各種真實場景下用于傳遞信息的語料去研究,從這些語料中挖掘語言的特點,而不是挖空心思地去找自圓其說的普遍性”。(20)劉海濤、鄭國鋒:《大數(shù)據(jù)時代語言學理論研究的路徑與意義》,《當代外語研究》 2021 年第2 期,第9 頁。

符號化、形式化、結構化的語言的誘惑力在我們這個時代尤為強烈,它是優(yōu)雅而高效的。但正如維特根斯坦(L. Wittgenstein)所說:“我們的表達式把我們送上了獵取奇獸的道路,多方面地妨礙了我們看清句子符號是在和尋常的東西打交道?!?21)[ 英 ]維特根斯坦:《哲學研究》,陳嘉映譯,上海:上海人民出版社,2005 年,第51 頁。未來,語言學研究仍要堅持田野調(diào)查,著眼于最真實和最靈活的語言事實,致力于揭示語言中本真的奧秘。

(二)計算機與人腦的語言處理

人類對語言的分析和處理從理性主義出發(fā)。在語言學的發(fā)展歷程中,大量語言規(guī)則被總結出來,這為早期計算機對語言的處理提供了參考。隨著語言數(shù)據(jù)規(guī)模的極速增長,計算機對自然語言處理的能力獲得提升。然而在近幾十年自然語言處理的發(fā)展中,語言學知識和理論向計算機的遷移受阻。

一方面,通過人力進行標注和分析會帶來高昂的成本,規(guī)則的數(shù)量、內(nèi)容與實際處理的文本不能對應時,計算機對語言處理的表現(xiàn)不佳。另一方面,經(jīng)驗主義的崛起與 20 世紀 70 年代計算機硬件技術的飛速發(fā)展和統(tǒng)計學中重要概念的提出(如隱馬爾可夫模型)息息相關,這些技術使得基于統(tǒng)計的自然語言處理方法具有可行性。目前,計算機對于語言的處理呈現(xiàn)出高度依賴統(tǒng)計的特點。統(tǒng)計方法不僅被應用于對詞匯和句法的處理中,基于大數(shù)據(jù)和大模型的語義處理也成為了當下的主流。深度學習(deep learning)在自然語言處理領域的代表作Word2vec 通過模型產(chǎn)生成詞向量,詞向量所包含的語義和語法信息則通過大量數(shù)據(jù)集訓練獲取。在這種方法中,語言成分得到了數(shù)學表示,語言信息的獲得則是由數(shù)據(jù)和模型驅(qū)動的。計算機可以快速處理海量數(shù)據(jù)、獲得基本的語義信息,從而迅速提升性能。深度學習的方法是內(nèi)部封閉的“黑匣子”,語言材料被分解、轉(zhuǎn)換為實數(shù),成為計算模型的參數(shù)?;谝陨咸卣鳎M管深度學習可以提供可喜的預測結果,但仍然難以解釋其結果所得向量的每一維的具體語義。單純依靠統(tǒng)計方法無法繼續(xù)取得跨越性的突破,想要真正解決語義理解問題,必須依靠語言學的理論成果。(22)張樂、唐亮:《人工智能時代語言學家面臨的機遇和挑戰(zhàn)》,《電腦知識與技術》 2020 年第24 期,第197 頁。因此,對于句法、語義以及語用規(guī)則的研究和表征是語言研究的重要任務。語言學研究者要繼續(xù)堅持深入挖掘和闡明語言內(nèi)部的規(guī)則,主動構建語言知識庫。一方面,語言知識庫的建立幫助計算機理解和學習語言規(guī)則,解決語義理解的困難。另一方面,與時俱進的語言學研究應當充分利用人工智能時代所提供的數(shù)據(jù)承載能力和強大計算能力。大型語料庫的建立可以幫助拓寬語言學研究的廣度,也提升了我們處理語言材料的速度。

言語知覺(perception)和產(chǎn)出(production)是人類大腦處理語言信息的兩項核心任務。語言信息包括語音單位(如輔音與元音的邊界、單字調(diào)或變調(diào)等)、音系單位(如音節(jié)作為自然知覺單位、輔音和元音的協(xié)同發(fā)音等)、詞匯—語義、句法等信息的加工(process)等。將形式主義和功能主義研究相結合的語言學家杰肯道夫(Ray Jackendoff)基于喬姆斯基提出的語言能力(語言結構)和語言行為(語言處理)之間的潛在關聯(lián),提出了句法為中心的語言處理的“平行架構”(parallel competence architecture)模型作為語言處理的基礎。該模型對詞匯的處理,與語言知覺和產(chǎn)出研究中的“詞匯通達”(lexical access)分析若合符節(jié)。(23)Jackendoff, Ray,Foundations of Language: Brain, Meaning, Grammar, Evolution, Oxford: Oxford University Press, 2002, p.196.事實上,關于人腦對語言信息的處理機制,語言的認知神經(jīng)科學研究領域已有不少重要的分析模型。例如言語知覺的研究可依據(jù)“雙流模型”(Dual Stream Model,由Gregory Hickok 和David Poeppel 提出);閱讀過程中對字母串的處理,具有“局部整合探測”(Local Combination Detector)模型;抽象詞和具體的認知差別有“雙重編碼模型”(Dual Coding Model)和“語境有效性模型”等(Context Availability Model)。(24)Kemmerer, David,Cognitive Neuroscience of Language, New York: Psychology Press, 2015, p.217, p.335, p.379.

(三)語言知識與語言能力

除了實現(xiàn)語言知識的表征,研究語言內(nèi)部的成分與規(guī)則,語言學還始終關心人類語言與心智之間的關系。喬姆斯基還為語言學研究設定了以下任務:(1)語言知識是什么?(2)語言知識是如何獲得的?(3)語言知識是如何使用的?(4)語言知識的生物基礎是什么?(25)李曙光:《喬姆斯基語言心智理論中的計算主義思想:源頭、實質(zhì)與影響》,《南京師范大學學報(社會科學版)》 2020 年第1 期,第149 頁。在語言學研究中,這些問題應該始終牽動著語言學家的思考。也就是說,我們所研究的語言不僅是靜態(tài)的語言知識,更包括動態(tài)的語言能力,以及它所產(chǎn)生的豐富的語言現(xiàn)象。因此,語言學研究依然要關注兒童語言的習得,從中探索語言知識獲取的機制。語言學還應該始終將機器語言看作人類語言中的一個新品種,考量機器語言與人類語言之間的互動關系和相互作用。前文提到,海德格爾擔憂語言機器“控制了人類的本質(zhì)”,人類與語言的關系發(fā)生了變化,人們無法估量這種變化的后果。(26)陶鋒:《人工智能語言的哲學闡釋》,《南開學報(哲學社會科學版)》 2020 年第3 期,第82 頁。

我們認為,在日常語言使用中,機器語言完全不足以威脅人類語言的創(chuàng)造性和生命力,互聯(lián)網(wǎng)反而成為人類語言新的“游樂園”。但對學術研究來說,如今程序語言及其背后的符號主義思想已經(jīng)對各個學科造成了不可逆轉(zhuǎn)的影響,越來越多的注意力被高效的、一致的人工語言所吸引。這種思潮如今對本應富于濃厚人文特質(zhì)的語言學科所造成的撼動尤為明顯,使得當今的理論語言學研究似乎陷入了迷惘和停滯狀態(tài)。從這一點來看,海德格爾的預言并非妄想。因此,在面對人工智能時,語言學研究者當如大鵬,憑借數(shù)據(jù)與算力的風力扶搖直上,當人工智能無法回答語言提出的本質(zhì)問題時,語言學的理論與智慧“猶能簸卻滄溟水”。

(四)人類語言與生理基礎

喬姆斯基關于語言的“內(nèi)在性”假說,促使其研究視野從語言學擴大到心理學,最終再到生物學和神經(jīng)科學。于是,出現(xiàn)了將語言作為生物性研究對象(biological object)的分支學科“生物語言學”。(27)Jenkins, Lyle,Biolinguistics: Exploring the Biology of Language, Cambridge: Cambridge University Press, 1991.如果說,理論語言學在未來的人工智能發(fā)展的大背景下繼續(xù)做出努力的話,語言與語言能力背后的神經(jīng)生理學、認知神經(jīng)科學等跨學科層面的探索,便顯得尤為重要。因此,神經(jīng)語言學、心理語言學等分支學科無疑將作為現(xiàn)代語言學構建語言理論的“生力軍”。

20 世紀90 年代初,喬姆斯基從語言的“自然性”(naturalism)出發(fā),提出探討語言與大腦的關系。對大腦的研究,可以從原子、細胞、細胞組合、神經(jīng)網(wǎng)絡和計算—表達(computational-representational,簡稱C-R)系統(tǒng)等層面展開。事件相關電位技術(event-related potentials,ERPs)研究與電位活動和C-R 系統(tǒng)相關聯(lián)。(28)Chomsky, Noam, “Explaining Language Use”,Philosophical Topics, vol.20, no.1, 1992, pp. 205-231.有些因先天腦部缺損或后天腦部損傷的患者,在語言能力上表現(xiàn)異常,產(chǎn)生了不同類型的“偏離”(deviant)的語言結構。ERP 技術(時間分辨率為1 毫秒)可以幫助判定受損部位,從而了解不同語言功能的生物基礎。失匹配負波(mismatch negativity, MMN)、N400、N200 等誘發(fā)成分,是語音加工、語義加工和詞匯產(chǎn)生等人腦對語言信息處理時的生理反應。(29)羅躍嘉主編:《認知神經(jīng)科學教程》,北京:北京大學出版社,2006 年,第302—307 頁。到了21 世紀,人類語言的生理基礎的研究,期待著更多學科領域(如演化生物學、人類學、心理學、神經(jīng)科學等)的實質(zhì)性合作。(30)Hauser, Marc D., Noam Chomsky, & W. Tecumseh Fitch, “The Faculty of Language: What Is It, Who Has It, and How Did It Evolve?”,Science, vol.298, November 22, 2002, pp. 1569-1579.盡管有關于人類大腦對語言處理的相關電生理學(electrophysiological)的系統(tǒng)理論尚未形成,但終究已有不少值得注意的成果問世,語言生理機制的分子生物學探索也已邁出可喜的步伐。(31)可參看以下一些文獻:Mariacristina Musso et al., “Broca’s Area and the Language Instinct”,Nature Neuroscience, vol.6, no.7,2003, pp. 774-781;Wolfgang, Enard, et al., “Molecular Evolution ofFOXP2, a Gene Involved in Speech and Language”,Nature, vol.418,August 22, 2002, pp. 869-872;Sahin, Ned T. et al, “Sequential Processing of Lexical, Grammatical, and Phonological Information within Broca's Area”,Science, vol.326, October 16, 2009, pp. 445-449;Heather, K. J. van der Lely & Steven Pinker, “The Biological Basis of Language: Insight from Developmental Grammatical Impairments”,Trends in Cognitive Sciences, vol.18, no.11, 2014, pp.586-595.在探究語言獲得與發(fā)展機制的驅(qū)動下,兒童語言的獲得與腦發(fā)育、二語學習的腦機制、語言發(fā)展的基因研究等將是未來語言發(fā)展認知神經(jīng)科學研究的重要課題。

結合生物學技術和理論,語言學研究者可以由人類個體與群體所產(chǎn)生的語言事實出發(fā)對語言的生理機制展開探究。傳統(tǒng)語言學研究通常由觀察語言事實出發(fā),提出假設并從語言本身加以驗證,從而得出結論,進而發(fā)展為理論?,F(xiàn)如今,學科間合作不斷深化。一方面,研究者可以進一步通過觀察人本身來校驗語言理論、探究語言機制。許多語言學理論可以結合實驗科學的思路,借助現(xiàn)代先進的影像學技術觀察人的語言行為。近20 年來, 隨著我國經(jīng)濟實力增長和對科學研究投入的增長,我國在腦電、近紅外、磁共振成像等儀器設備的配置上有了巨大改善,但先進成像設備要真正在研究中起到推動作用, 離不開持續(xù)的方法培訓和技術支撐。(32)陶沙等:《語言發(fā)展認知神經(jīng)科學研究:重要進展、趨勢與規(guī)劃建議》,《中國科學:生命科學》 2021 年第6 期,第679—690 頁。另一方面,語言作為人類群體的能力,人類進化史中也包含著人類語言的演化史。歷時的語言數(shù)據(jù)反映了人類語言機制的發(fā)育成熟。因此,當代語言學研究可以以生物學的研究眼光重新審視歷史的和當下的語言事實,這就要求語言學重整和歸納海量的語言數(shù)據(jù),并以現(xiàn)代科學的實驗方法重新觀察、驗證。

猜你喜歡
心智語言學人工智能
默:從人生態(tài)度到審美心智
語言學研究的多元化趨勢分析
書蟲來襲 《少有人走的路:心智成熟的旅程》 一本人人可讀,人人可受益的經(jīng)典心理讀物
美國現(xiàn)代語言學會版《〈紅樓夢〉教學法》:要覽與反思
2019:人工智能
人工智能與就業(yè)
為領導干部薦書
大學生心智的二次構建
數(shù)讀人工智能
下一幕,人工智能!
巴中市| 磴口县| 宜阳县| 南昌县| 呼图壁县| 巴中市| 博白县| 大宁县| 南丹县| 轮台县| 怀仁县| 夏邑县| 离岛区| 威宁| 阿荣旗| 多伦县| 宣武区| 洛浦县| 通海县| 阿合奇县| 紫阳县| 桂林市| 恩施市| 牡丹江市| 河曲县| 伊吾县| 会同县| 手机| 保康县| 宁晋县| 武宣县| 浮山县| 岳池县| 新绛县| 蓬莱市| 庆城县| 大洼县| 文成县| 辽中县| 偏关县| 深泽县|