“語言智能”多人談

2023-08-01 07:23:37宋柔李斌王寶鑫楊子清伍大勇李辰荀恩東蘇祺

語言戰(zhàn)略研究 2023年4期

宋柔李斌王寶鑫楊子清伍大勇李辰荀恩東蘇祺

語言學(xué)能為大規(guī)模語言模型的完善做些什么

宋柔（北京語言大學(xué)信息科學(xué)學(xué)院）雖然大規(guī)模語言模型（以下簡稱“大模型”）的出色表現(xiàn)震動了社會，但是也暴露出了一些根本性的不足，比如：生成的文本會有事實(shí)性錯誤和邏輯謬誤；缺少正誤判斷能力；規(guī)模過于龐大，消耗太多的算力；不具備人腦的深度抽象能力和由之而來的創(chuàng)新能力。隨著大模型的數(shù)據(jù)量和參數(shù)量不斷擴(kuò)充，這些缺陷會有所改善，但大模型的系統(tǒng)架構(gòu)決定了不可能完全消除這些不足。

為了幫助大模型克服這些缺陷，語言研究可以做如下工作：第一，研究話語理解的難點(diǎn)，從語言學(xué)的角度提供專項(xiàng)的正例和反例，使大模型以較小的代價學(xué)到更多更精的語言知識，減少話語生成中的錯誤。第二，將邏輯規(guī)則和數(shù)學(xué)公式與其自然語言表述成對地輸入給大模型，提高大模型的邏輯推理能力。第三，研究話語單位上下文相關(guān)性的范圍和約束，使大模型輕量化。比如，根據(jù)對小句復(fù)合體的研究，語篇具有小句內(nèi)、小句復(fù)合體內(nèi)、小句復(fù)合體間的三維結(jié)構(gòu)，不同維度的上下文關(guān)系完全不一樣。遵循這種結(jié)構(gòu)，大模型的轉(zhuǎn)換器輸入窗口的寬度為小句即可，注意力機(jī)制無需關(guān)注跨小句的詞語關(guān)系，如此可以減少參數(shù)。第四，通過話語研究來揭示人腦語言理解與生成的機(jī)制，為大模型的根本改造提供啟示。

大模型的應(yīng)用使語言教學(xué)的目的和方式發(fā)生了改變。因?yàn)椴煌刚Z者交流的語言障礙基本不復(fù)存在，以培養(yǎng)語言技能為目標(biāo)的語言教學(xué)需求將大為減少。這種情勢下，語言教學(xué)應(yīng)向兩個方向分化。一是高級語言人才的培養(yǎng)。除了精通語言使用外，還要深入學(xué)習(xí)語言規(guī)律、語言比較、語言認(rèn)知、語言文化等等。二是普及型的自然語言學(xué)教學(xué)。應(yīng)將自然語言學(xué)設(shè)為大學(xué)基礎(chǔ)課，講授各種語言單位的概念和在復(fù)雜對象中提取概念的方法，培養(yǎng)學(xué)生的聯(lián)想、類比、歸納、抽象、演繹的邏輯思維能力，這些能力是人工智能時代從事各種工作都需要的基本能力。培養(yǎng)這些能力的課程需要讓學(xué)生熟悉研究對象，但語言使用是他們早已熟悉的，無需另外學(xué)習(xí)，這是自然語言學(xué)課程的獨(dú)特優(yōu)勢。

語言智能要重視高質(zhì)量基礎(chǔ)數(shù)據(jù)研發(fā)

李斌（南京師范大學(xué)文學(xué)院）作為人工智能的一個重要領(lǐng)域，語言智能需要依托大量的基礎(chǔ)數(shù)據(jù)進(jìn)行研發(fā)和應(yīng)用。這些基礎(chǔ)數(shù)據(jù)包括語料庫、詞典、語言模型等，它們?yōu)檎Z言智能的算法和應(yīng)用提供了必要的支撐和基礎(chǔ)。從ChatGPT來看，它所使用的GPT3.0和3.5版，只有570GB的純文本語料，約4000億字（tokens）。相比于互聯(lián)網(wǎng)上的海量數(shù)據(jù)，這個規(guī)模并不算巨大，而其使用的語料主要為英文數(shù)據(jù)，中文語料比例不足1/20，中文GPT還有很大的研發(fā)空間。

在當(dāng)前的語言智能領(lǐng)域，中文語言數(shù)據(jù)的質(zhì)量和數(shù)量仍然存在不足，因此，語言智能研發(fā)者需要加強(qiáng)對基礎(chǔ)數(shù)據(jù)——語料庫的研發(fā)。語料分為生語料和熟語料。生語料是指從原始數(shù)據(jù)源中直接獲取的未加工、未清洗、未分類的文本數(shù)據(jù)，規(guī)模通常是海量的，包括新聞、社交媒體、論壇、博客等。生語料常常含有大量的噪聲、錯別字以及不同的拼寫、語法和語言習(xí)慣，需要經(jīng)過預(yù)處理和清洗才能用于分析和建模。熟語料是經(jīng)過預(yù)處理和清洗之后得到的高質(zhì)量的文本數(shù)據(jù)，可用于訓(xùn)練和測試自然語言處理模型。熟語料可以是標(biāo)注的和非標(biāo)注的，標(biāo)注的熟語料是在文本數(shù)據(jù)中給出相應(yīng)的標(biāo)簽或注釋，用于監(jiān)督學(xué)習(xí)；非標(biāo)注的熟語料則是沒有任何標(biāo)簽或注釋的文本數(shù)據(jù)，用于無監(jiān)督學(xué)習(xí)。

然而，目前的困境在于，無論是學(xué)術(shù)界還是工業(yè)界都需要熟語料，但是很少機(jī)構(gòu)或企業(yè)愿意標(biāo)注文本數(shù)據(jù)。因?yàn)閿?shù)據(jù)加工成本高、難度大，建設(shè)周期長，難以產(chǎn)生直接的經(jīng)濟(jì)效益。由于缺乏數(shù)據(jù)發(fā)布平臺和良好的版權(quán)保護(hù)機(jī)制等因素，數(shù)據(jù)標(biāo)注出來也面臨著被低價收購甚至盜用等不利局面。因此，需要從根本上理順數(shù)據(jù)標(biāo)注的研發(fā)機(jī)制，借鑒歐美的成熟機(jī)制，結(jié)合國內(nèi)實(shí)際，在知識產(chǎn)權(quán)保護(hù)與共享、數(shù)據(jù)發(fā)布與商業(yè)模式、數(shù)據(jù)標(biāo)注相關(guān)的諸學(xué)科布局（數(shù)據(jù)科學(xué)、語料庫、計(jì)算語言學(xué)等）方面建立良好的平臺與生態(tài)，促進(jìn)高質(zhì)量熟語料的基礎(chǔ)數(shù)據(jù)研究與生產(chǎn)，推動語言智能研究與產(chǎn)業(yè)發(fā)展。

國家社科基金項(xiàng)目“中文抽象語義庫的構(gòu)建及自動分析研究”（18BYY127）

認(rèn)知智能大模型對語言信息處理技術(shù)及應(yīng)用的四大影響

王寶鑫、楊子清、伍大勇（科大訊飛股份有限公司北京研究院）隨著ChatGPT、GPT–4等為代表的大型語言模型的發(fā)布，人們無不為其驚人的理解和生成能力所折服。這些認(rèn)知智能大模型可以理解絕大多數(shù)的自然語言指令，生成和人類水平相當(dāng)?shù)拈L篇文章，這預(yù)示著人工智能將在各個領(lǐng)域產(chǎn)生深遠(yuǎn)影響。

認(rèn)知智能大模型在智能語言信息處理能力上實(shí)現(xiàn)了重大突破，具體包括5個方面：記憶并處理海量語言數(shù)據(jù)，實(shí)現(xiàn)信息的全量記憶和參數(shù)化處理；理解自然語言中的語義和上下文，實(shí)現(xiàn)任意任務(wù)的自然語言處理和對話式理解；進(jìn)行邏輯思考和推理，完成復(fù)雜邏輯的思維鏈推理；生成多種風(fēng)格和角色的長文本，實(shí)現(xiàn)多角色多風(fēng)格長文本生成；及時根據(jù)用戶的反饋進(jìn)行交互修正，提高了對話交互的準(zhǔn)確性和流暢度。

基于上述突破性進(jìn)展，認(rèn)知智能大模型將在4個方面對語言信息處理技術(shù)及應(yīng)用產(chǎn)生巨大影響。第一，改變信息獲取方式，讓人們更快找到所需信息。認(rèn)知大模型可以直接理解用戶需求并生成相關(guān)內(nèi)容，大幅提高信息獲取效率。第二，革新內(nèi)容生產(chǎn)模式，高效創(chuàng)作高質(zhì)量內(nèi)容。認(rèn)知大模型可以在短時間內(nèi)自動生成各種類型的文本，徹底改變內(nèi)容創(chuàng)作的生產(chǎn)模式，給各類文字工作者帶來極大的便利。第三，通過對話完成各類任務(wù)，提高用戶體驗(yàn)和工作效率。在辦公場景中，認(rèn)知大模型可以協(xié)助員工處理日常工作，提高效率；在教育領(lǐng)域中，可以提供個性化輔導(dǎo)，促進(jìn)教育公平和質(zhì)量。第四，提高科研領(lǐng)域工作效率并推動創(chuàng)新。認(rèn)知大模型可以幫助研究人員快速查找文獻(xiàn)，提出新思路，并輔助編寫研究報告等，降低科研門檻，加速科研創(chuàng)新。

認(rèn)知智能大模型技術(shù)的出現(xiàn)與發(fā)展，為人們的生活帶來了巨大便利，也帶來了一些挑戰(zhàn)。在未來的發(fā)展過程中，我們應(yīng)關(guān)注該技術(shù)在倫理、隱私和社會影響等方面的問題，努力降低其潛在風(fēng)險。同時，我們也需要不斷探索和創(chuàng)新，讓認(rèn)知智能大模型在未來的應(yīng)用中發(fā)揮更加重要的作用。

文本糾錯技術(shù)發(fā)展的三大關(guān)鍵要素

李辰（阿里巴巴達(dá)摩院）隨著人工智能技術(shù)的快速發(fā)展，文本糾錯技術(shù)成為自然語言處理領(lǐng)域的一個重要分支。通過對文本的分析和理解，計(jì)算機(jī)可以自動識別和糾正文本中的拼寫、語法、邏輯等錯誤，從而提高文本的準(zhǔn)確性和可讀性。使用文本糾錯技術(shù)可以幫助避免語言錯誤，提高文本的準(zhǔn)確性和可讀性，從而讓文本更易于理解和處理。

文本糾錯技術(shù)的發(fā)展歷程可以分為3個階段：基于規(guī)則、基于統(tǒng)計(jì)和基于深度學(xué)習(xí)的糾錯技術(shù)。糾錯技術(shù)從使用人工編寫的規(guī)則進(jìn)行文本糾錯和修正，發(fā)展為自動從大量語言數(shù)據(jù)中學(xué)到糾錯規(guī)律和模式；從需要大量的人力和時間進(jìn)行規(guī)則的編寫和維護(hù)，轉(zhuǎn)變?yōu)樾枰罅康挠?xùn)練數(shù)據(jù)和計(jì)算資源進(jìn)行訓(xùn)練和優(yōu)化。

在推動文本糾錯技術(shù)發(fā)展的過程中，3個關(guān)鍵要素起著至關(guān)重要的作用：算法的創(chuàng)新、用戶體驗(yàn)的改進(jìn)和產(chǎn)品服務(wù)質(zhì)量的提升。

首先，文本糾錯技術(shù)的發(fā)展得益于評測帶動算法研究的模式。大量的高質(zhì)量評測數(shù)據(jù)被用于訓(xùn)練文本糾錯模型，數(shù)據(jù)的豐富性和質(zhì)量推動了算法的研究和優(yōu)化。文本糾錯算法的開源也為研究人員提供了更加開放的平臺，使得從業(yè)人員和技術(shù)研究者能夠更加便捷地進(jìn)行研究和開發(fā)。

其次，文本糾錯技術(shù)使得用戶體驗(yàn)得到了明顯的改進(jìn)。通過深度學(xué)習(xí)技術(shù)，文本糾錯算法能夠更加準(zhǔn)確地識別和修復(fù)錯誤，從而使其可用性大幅加強(qiáng)。此外，一些文本糾錯應(yīng)用也采用了交互式界面和用戶反饋機(jī)制，為用戶提供更加便捷和個性化的使用體驗(yàn)。

再次，文本糾錯的產(chǎn)品服務(wù)質(zhì)量得到了持續(xù)提升。通過開源和大模型技術(shù)的應(yīng)用，研究人員能夠構(gòu)建更加強(qiáng)大和高效的文本糾錯算法，提供更加準(zhǔn)確的糾錯服務(wù)。同時，越來越多的機(jī)構(gòu)和企業(yè)成功應(yīng)用文本糾錯技術(shù)，通過產(chǎn)品和服務(wù)提升其在線服務(wù)的質(zhì)量和效率。

通過評測、數(shù)據(jù)、開源和算力等多方面因素的推動，文本糾錯技術(shù)得到了不斷進(jìn)步。隨著大語言模型技術(shù)的發(fā)展，文本糾錯模型可以處理更加復(fù)雜和龐大的語言數(shù)據(jù)，在大語言模型時代迎來新的發(fā)展機(jī)遇。

語言智能技術(shù)賦能第二語言智慧教育

荀恩東（北京語言大學(xué)信息科學(xué)學(xué)院/語言資源高精尖創(chuàng)新中心）智慧教育的核心是智慧教學(xué)。智慧教學(xué)有兩個含義：一個是“智能地教學(xué)”，強(qiáng)調(diào)智能技術(shù)賦能教學(xué)全過程；一個是“智慧的教學(xué)”，強(qiáng)調(diào)教學(xué)的結(jié)果。

“智能地教學(xué)”包括兩個方面的內(nèi)容。第一，通過智能技術(shù)更好地建設(shè)數(shù)字化教學(xué)資源，提供給教師和學(xué)生，推進(jìn)教育資源的供給側(cè)改革；第二，采用智能技術(shù)研發(fā)具有教學(xué)功能、可以充當(dāng)教師角色的智能工具，直接賦能學(xué)生，實(shí)現(xiàn)無師值守的個性化學(xué)習(xí)。

構(gòu)建面向第二語言的智慧教育教學(xué)資源，一方面要重視教師的經(jīng)驗(yàn)，更好地發(fā)揮傳統(tǒng)教學(xué)模式的作用；另一方面也要重視大數(shù)據(jù)的作用，建設(shè)語言要素庫、教學(xué)課件和學(xué)生語言練習(xí)題庫等，這些是教學(xué)資源的基礎(chǔ)。對于語言數(shù)據(jù)，既要重視非母語數(shù)據(jù)，也要重視母語數(shù)據(jù)。非母語數(shù)據(jù)包含學(xué)習(xí)者的行為數(shù)據(jù)，其中蘊(yùn)含著學(xué)習(xí)過程、學(xué)習(xí)偏誤等信息；母語語言生活數(shù)據(jù)更不可偏廢。讓構(gòu)建的語言教學(xué)內(nèi)容能夠被學(xué)習(xí)者更好地理解和掌握，更符合學(xué)習(xí)者未來語言生活的實(shí)際情況，實(shí)現(xiàn)對學(xué)生成長的價值引導(dǎo)，是智慧教育的目標(biāo)之一。

研發(fā)智能語言教學(xué)工具，則應(yīng)圍繞聽、說、讀、寫、譯5個主要技能，研發(fā)具有單項(xiàng)或多項(xiàng)功能的專門工具，實(shí)現(xiàn)服務(wù)于學(xué)習(xí)的人機(jī)交互，打造智能語伴。其中采用的語言智能技術(shù)應(yīng)包括：語音合成技術(shù)，讓計(jì)算機(jī)發(fā)出自然標(biāo)準(zhǔn)的語音；語音評測技術(shù)，讓計(jì)算機(jī)自動檢測學(xué)習(xí)者的發(fā)音偏誤，給出發(fā)音訓(xùn)練指導(dǎo)；漢字書寫評測技術(shù)，讓計(jì)算機(jī)檢測學(xué)習(xí)者漢字書寫的正確性，實(shí)現(xiàn)規(guī)范化漢字書寫；作文寫作輔導(dǎo)和評測技術(shù)，提升學(xué)生寫作能力和水平；機(jī)器翻譯技術(shù)，幫助學(xué)生更好完成翻譯學(xué)習(xí)；分級閱讀素材推薦，為學(xué)生提供難易適中的閱讀素材；等等。這些技術(shù)都已成熟，但仍要面向二語學(xué)習(xí)場景進(jìn)行專門的適配性開發(fā)。

“智慧的教學(xué)”體現(xiàn)在教學(xué)模式和教學(xué)方法兩個方面。在教學(xué)模式方面，與傳統(tǒng)的語言教學(xué)相比，智慧化的語言教學(xué)打破了時空的限制，利用數(shù)字化教學(xué)平臺實(shí)現(xiàn)了數(shù)據(jù)驅(qū)動的聯(lián)通互動教學(xué)，順應(yīng)了教學(xué)樣態(tài)的改變。因此，教學(xué)模式也需要做調(diào)整和優(yōu)化，例如，改變一位教師一門課的傳統(tǒng)的模式，發(fā)展為“1 + N”的團(tuán)隊(duì)教學(xué)模式，即一位主講老師，多位助教協(xié)作完成課程教學(xué)。在教學(xué)方法方面，教師采用數(shù)據(jù)驅(qū)動的智能技術(shù)，利用學(xué)習(xí)者學(xué)習(xí)行為信息，對學(xué)習(xí)者學(xué)情進(jìn)行自動畫像，量體裁衣，有針對性地因材施教，實(shí)現(xiàn)個性化教學(xué)。

語言智能加速跨學(xué)科融通和人才培養(yǎng)模式革新

蘇祺（北京大學(xué)外國語學(xué)院/人工智能研究院）在學(xué)科建設(shè)日漸強(qiáng)調(diào)打破專業(yè)壁壘，推行新工科、新醫(yī)科、新農(nóng)科和新文科的背景下，語言智能技術(shù)將成為引發(fā)多學(xué)科知識聚變的重要抓手。

強(qiáng)大的語言理解能力使語言智能系統(tǒng)在知識獲取和生產(chǎn)方面展現(xiàn)出巨大優(yōu)勢。結(jié)合其廣泛的底層知識庫，語言智能系統(tǒng)能夠回答各種學(xué)科的基礎(chǔ)知識性問題，并提供充分的信息細(xì)節(jié)，使教學(xué)轉(zhuǎn)向更具創(chuàng)造力的思維活動。在知識交流方面，其角色可類比為一個無所不知的家庭教師，在知識廣度上大大超越了傳統(tǒng)單一學(xué)科的認(rèn)知能力。以數(shù)字技術(shù)與人文學(xué)科融合的數(shù)字人文為例，語言智能可提供大量實(shí)例，輔助文科學(xué)生更為平滑地掌握程序設(shè)計(jì)等技術(shù)方法，培養(yǎng)計(jì)算思維和工具理性；也可助力理工科學(xué)生快速建立起人文基礎(chǔ)知識體系，提升人文素養(yǎng)，重塑價值理性。語言智能系統(tǒng)能夠充當(dāng)學(xué)科之間的粘結(jié)劑，有效拉近學(xué)科距離，促進(jìn)跨學(xué)科視野和思維方式的轉(zhuǎn)變。

語言智能系統(tǒng)的“1對1”交互模式，也使其順應(yīng)了現(xiàn)代社會對教育形態(tài)和人才培養(yǎng)的需求，有助于突破現(xiàn)有工業(yè)化教育模式，實(shí)現(xiàn)全流程自我導(dǎo)向?qū)W習(xí)。語言智能系統(tǒng)能夠通過推薦學(xué)習(xí)材料、輔助閱讀、規(guī)劃自學(xué)路線、優(yōu)化知識推理等提供個性化教學(xué)服務(wù)與學(xué)習(xí)支持，并進(jìn)一步提升了教育的公平性。其多語言理解和語言生成能力，使學(xué)習(xí)者和研究者可以突破語言障礙，在獲取信息時可以更便捷廣泛地吸收國外資源，在知識生產(chǎn)中可以更專注于思維本身的創(chuàng)新，從而帶來學(xué)習(xí)和生產(chǎn)效率的提升。伴隨而來的則是教師對語言智能環(huán)境下教學(xué)定位和方式的再思考。對于某些基礎(chǔ)課程的教學(xué)與評估，如語言學(xué)習(xí)、寫作、程序設(shè)計(jì)等，教師有必要調(diào)整已有課程設(shè)計(jì)，探索課堂內(nèi)外與語言智能工具的有效結(jié)合。

現(xiàn)有通用語言智能系統(tǒng)在回答準(zhǔn)確性和深度等方面仍有不足，未來需要在領(lǐng)域?qū)＜业闹笇?dǎo)和領(lǐng)域數(shù)據(jù)的訓(xùn)練下，積極倡導(dǎo)研發(fā)垂直領(lǐng)域的語言智能系統(tǒng)，提升其專業(yè)性。同時，也應(yīng)積極發(fā)揮教師在語言智能工具使用中的引導(dǎo)作用，敦促和啟發(fā)使用者提高提問和甄別回答質(zhì)量的能力，保持謹(jǐn)慎與批判性思維，警惕語言智能工具阻礙人的主體創(chuàng)造性，確保其成為思維的延伸，促進(jìn)知識的創(chuàng)造性建構(gòu)與轉(zhuǎn)化。

責(zé)任編輯：逯琳琳

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

“語言智能”多人談