饒高琦
語(yǔ)言智能被稱作人工智能皇冠上的明珠。自然語(yǔ)言的理解和生成被視作由計(jì)算智能、感知智能邁向認(rèn)知智能所必須實(shí)現(xiàn)的重要能力。語(yǔ)言之于人類的關(guān)鍵作用,決定了掌握語(yǔ)言是人工智能融入人類社會(huì)、落地生產(chǎn)應(yīng)用不可或缺的環(huán)節(jié)。作為術(shù)語(yǔ),“語(yǔ)言智能”與“自然語(yǔ)言處理”“計(jì)算語(yǔ)言學(xué)”等高度關(guān)聯(lián),并且在發(fā)展過程中深度融合。這3個(gè)術(shù)語(yǔ)現(xiàn)今常被視作近義詞,在很多語(yǔ)境中可以互相替代。
人類對(duì)機(jī)器擁有語(yǔ)言智能的渴求由來已久,東西方古代神話中都曾出現(xiàn)過能說會(huì)寫的人造物。利用機(jī)器處理語(yǔ)言的嚴(yán)肅思想實(shí)驗(yàn)則在近代出現(xiàn)。到20世紀(jì)中葉,圖靈測(cè)試的提出、人工智能學(xué)科的誕生以及機(jī)器翻譯工程的實(shí)現(xiàn)等共同催生了語(yǔ)言智能。同時(shí),隨著當(dāng)代語(yǔ)言學(xué)、邏輯學(xué)的高速發(fā)展,語(yǔ)言模型的理論,句法、語(yǔ)義形式化表示的方法,在很大程度上使語(yǔ)言智能發(fā)展成為可能??梢哉f,語(yǔ)言智能一誕生就具有語(yǔ)言學(xué)、數(shù)學(xué)和計(jì)算機(jī)科學(xué)的交叉學(xué)科屬性。
伴隨著人工智能學(xué)科的發(fā)展,語(yǔ)言智能也經(jīng)歷了低谷和復(fù)興。1950年,圖靈提出了依靠語(yǔ)言行為檢測(cè)智能的“圖靈測(cè)試”,標(biāo)志著語(yǔ)言智能研究的開始,同一時(shí)期,美蘇兩國(guó)的機(jī)器翻譯工程吹響了語(yǔ)言智能研究的號(hào)角。ELIZA等早期人機(jī)對(duì)話系統(tǒng)也在這一階段問世,基于規(guī)則和詞典的方法是這一時(shí)期的主流。然而,1966年美國(guó)科學(xué)院發(fā)布《語(yǔ)言與機(jī)器》報(bào)告,宣稱“在近期或可以預(yù)見的未來,開發(fā)出實(shí)用的機(jī)器翻譯系統(tǒng)是沒有指望的”,建議停止對(duì)機(jī)器翻譯和相關(guān)項(xiàng)目的支持。語(yǔ)言智能研究由此陷入蕭條。
然而在隨后的10年中,計(jì)算機(jī)軟硬件技術(shù)和形式語(yǔ)言學(xué)的研究并沒有停止。在這一時(shí)期,以賈里尼克為代表的學(xué)者開始嘗試使用統(tǒng)計(jì)方法進(jìn)行語(yǔ)言建模。20世紀(jì)70年代中期,統(tǒng)計(jì)機(jī)器翻譯系統(tǒng)和統(tǒng)計(jì)語(yǔ)音識(shí)別方法取得進(jìn)展,這些都標(biāo)志著語(yǔ)言智能研究開始復(fù)蘇,并出現(xiàn)統(tǒng)計(jì)方法轉(zhuǎn)向。從20世紀(jì)70年代末到21世紀(jì)第二個(gè)十年,計(jì)算能力按摩爾定律飛速提升,互聯(lián)網(wǎng)出現(xiàn)并迅速普及。語(yǔ)言智能的需求快速增長(zhǎng),其發(fā)展所需的數(shù)據(jù)、技術(shù)也日益完善,新算法層出不窮。對(duì)人類語(yǔ)言進(jìn)行統(tǒng)計(jì)建模的思想在理論和實(shí)踐上都取得了輝煌的成就。機(jī)器翻譯、人機(jī)對(duì)話、信息抽取、語(yǔ)音識(shí)別與生成等任務(wù)上的系統(tǒng)性能快速提升。幾乎所有信息產(chǎn)業(yè)巨頭都參與到語(yǔ)言智能技術(shù)和產(chǎn)品的研發(fā)中。技術(shù)進(jìn)步和資源投入反過來刺激了數(shù)據(jù)、算法和算力的進(jìn)一步發(fā)展,形成了正反饋效應(yīng)。基于聯(lián)結(jié)主義的深度神經(jīng)網(wǎng)絡(luò)建模思想在這一時(shí)期逐步完善。2012年,卷積神經(jīng)網(wǎng)絡(luò)助力文字識(shí)別取得突破性進(jìn)展,并由此揭開持續(xù)至今的深度神經(jīng)網(wǎng)絡(luò)時(shí)代。卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、注意力機(jī)制和轉(zhuǎn)換器模型等技術(shù)持續(xù)推動(dòng)語(yǔ)言智能各項(xiàng)任務(wù)的性能提升,語(yǔ)音識(shí)別和語(yǔ)音合成、機(jī)器翻譯、人機(jī)對(duì)話和文本生成都在這一時(shí)期快速達(dá)到商用程度。語(yǔ)言智能技術(shù)滲透進(jìn)語(yǔ)言生活的方方面面。深度神經(jīng)網(wǎng)絡(luò)方法中,網(wǎng)絡(luò)結(jié)構(gòu)、數(shù)據(jù)特征和參數(shù)之間的關(guān)系極其復(fù)雜,模型訓(xùn)練存在隨機(jī)過程,這些因素導(dǎo)致其呈現(xiàn)“黑箱效應(yīng)”,輸出結(jié)果的可解釋性較差。
今天,學(xué)界相信語(yǔ)言智能已進(jìn)入大規(guī)模語(yǔ)言模型(以下簡(jiǎn)稱大模型)時(shí)代。大模型是一種預(yù)訓(xùn)練語(yǔ)言模型,是深度神經(jīng)網(wǎng)絡(luò)技術(shù)發(fā)展的高峰。它使用大規(guī)模語(yǔ)料進(jìn)行預(yù)訓(xùn)練,然后使用面向特定任務(wù)的小規(guī)模語(yǔ)料,根據(jù)遷移學(xué)習(xí)的原理進(jìn)行微調(diào),形成面向具體語(yǔ)言智能任務(wù)的模型。其中基于轉(zhuǎn)換器的生成式預(yù)訓(xùn)練模型(GPT)成為當(dāng)前語(yǔ)言智能研究的核心技術(shù)。GPT利用轉(zhuǎn)換器模型的編碼器和解碼器,從語(yǔ)言大數(shù)據(jù)中獲取了豐富的語(yǔ)言知識(shí),在語(yǔ)言生成任務(wù)上達(dá)到了相當(dāng)高的水平,被視為從感知智能邁向認(rèn)知智能的標(biāo)志性成果,并引發(fā)了社會(huì)各界對(duì)通用人工智能的遐想。
縱觀語(yǔ)言智能的發(fā)展史,算法、算力和數(shù)據(jù)三大要素起到了至關(guān)重要的作用。它們彼此促進(jìn)又互相制約。人類對(duì)語(yǔ)言的顯性認(rèn)識(shí)體現(xiàn)為形式化建模中所使用的算法,更多的隱性知識(shí)則蘊(yùn)含于語(yǔ)言數(shù)據(jù)之中。算法得以運(yùn)行,數(shù)據(jù)得到運(yùn)用,都取決于算力的大小。神經(jīng)網(wǎng)絡(luò)的觀念誕生于20世紀(jì)中期,到20世紀(jì)末已獲得了相當(dāng)程度的發(fā)展,但未能成為語(yǔ)言智能或人工智能中的主流方法,其重要原因就是數(shù)據(jù)和算力無法對(duì)其運(yùn)行形成有效支持。而規(guī)則和詞典方法在20世紀(jì)長(zhǎng)期居于主流,很大程度上也是因其對(duì)算力和數(shù)據(jù)的需求較小,適應(yīng)于當(dāng)時(shí)的生產(chǎn)力水平。語(yǔ)言智能的性能及其能調(diào)配的算力、使用的算法、擁有的語(yǔ)言數(shù)據(jù)息息相關(guān)。大模型的優(yōu)異表現(xiàn)正源于“能力涌現(xiàn)”現(xiàn)象,而這一現(xiàn)象是大數(shù)據(jù)、大算力和深層網(wǎng)絡(luò)交織產(chǎn)生的。
面對(duì)大模型這一“工程奇跡”,人類對(duì)其背后的工程機(jī)理和科學(xué)奧秘都所知有限。在這一歷史時(shí)刻,收獲確定的答案還為時(shí)尚早,提出恰當(dāng)?shù)膯栴}顯得更有價(jià)值。在工程上,如何有效評(píng)估大模型的能力已成為學(xué)界熱點(diǎn),人類語(yǔ)言測(cè)試的理論和實(shí)踐有多少可以借鑒,大模型評(píng)測(cè)如何開展,都成了當(dāng)今“顯學(xué)”。國(guó)內(nèi)高校、科研院所和部分企業(yè),在測(cè)試集模式、人工體驗(yàn)?zāi)J健⑦^程檢測(cè)模式等研究路線上開展了大量富有成效的研究。另外,大模型如何“瘦身”,如何適應(yīng)低算力、低資源場(chǎng)景,是令其在各細(xì)分領(lǐng)域落地的關(guān)鍵。
在科學(xué)發(fā)展方面,大模型的能力涌現(xiàn)現(xiàn)象必將引導(dǎo)語(yǔ)言學(xué)、復(fù)雜科學(xué)等學(xué)科展開全新的探索。如何從海量無標(biāo)注、少標(biāo)注語(yǔ)言數(shù)據(jù)中萃取知識(shí)?多語(yǔ)種數(shù)據(jù)聯(lián)合建模如何形成多語(yǔ)能力?數(shù)學(xué)題、程序代碼等非傳統(tǒng)語(yǔ)言數(shù)據(jù)如何被語(yǔ)言模型所“習(xí)得”?大模型能力和人類能力的相同與相異之處在哪里?為了更加安全地使用大模型,如何提高深度學(xué)習(xí)的可解釋性?這些問題共同構(gòu)成了大模型時(shí)代語(yǔ)言智能的科學(xué)基礎(chǔ)問題。并且我們還應(yīng)注意,今天的語(yǔ)言智能,更多依賴于海量數(shù)據(jù),以無監(jiān)督和少監(jiān)督方式獲取知識(shí)。人類積累的顯性知識(shí)若能有效融合使用,實(shí)現(xiàn)“數(shù)據(jù)-知識(shí)雙輪驅(qū)動(dòng)”,將顯著改善現(xiàn)有語(yǔ)言智能可解釋性、安全性、領(lǐng)域適應(yīng)性、綠色節(jié)能等方面的問題。
在社會(huì)應(yīng)用方面,對(duì)新生事物的有效治理和向善使用也是無可回避的話題。以下議題已經(jīng)成為語(yǔ)言智能落地過程中的關(guān)鍵:智能體治理(尤其是語(yǔ)言治理),確保語(yǔ)言智能安全、向善使用;引導(dǎo)智能技術(shù)助力信息無障礙、語(yǔ)言應(yīng)急、語(yǔ)言保護(hù)等事業(yè),增強(qiáng)公益屬性;促進(jìn)“人機(jī)共生”的語(yǔ)言生活和諧繁榮發(fā)展。具體到語(yǔ)言文字工作者,工程上的語(yǔ)言資源構(gòu)建、科學(xué)上的語(yǔ)言知識(shí)表示,治理上的語(yǔ)言倫理和語(yǔ)言安全研究,應(yīng)當(dāng)成為數(shù)智時(shí)代最重要的研究話題。
總之,在新時(shí)代,我們所面臨的問題、所產(chǎn)生的需求,總是多于我們新增的知識(shí),但這也恰恰是推動(dòng)人類不斷探索前行的動(dòng)力。本專欄的幾篇文章和多人談,就是在這種思路上展開的。在深層科學(xué)基礎(chǔ)方面,我們特別關(guān)注大模型的流利語(yǔ)言表達(dá)對(duì)圖靈測(cè)試構(gòu)成的直接挑戰(zhàn),以及它背后的語(yǔ)言哲學(xué)問題。在應(yīng)用方面,我們重視大模型的治理和管理問題,大模型和語(yǔ)言資源的關(guān)系決定了它也適用于語(yǔ)言資源治理的原則和方法。語(yǔ)言智能技術(shù)轉(zhuǎn)換為生產(chǎn)力,離不開人的教育,而技術(shù)本身也向教育提出了挑戰(zhàn),更帶來了機(jī)遇,所以語(yǔ)言智能教育是我們不能忽視的話題。在社會(huì)實(shí)踐中,語(yǔ)言無障礙是語(yǔ)言智能發(fā)展的重要目標(biāo),也是科技向善的重要提醒,然而現(xiàn)實(shí)情況仍不盡如人意,其中數(shù)據(jù)問題是最大瓶頸之一。對(duì)此本期也特別刊文加以探討。希望本專欄能進(jìn)一步推動(dòng)各界對(duì)語(yǔ)言智能研究的關(guān)注,也期盼能得到學(xué)界的呼應(yīng)和社會(huì)的支持。