国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

“語言智能”多人談

2023-08-01 07:23:37宋柔李斌王寶鑫楊子清伍大勇李辰荀恩東蘇祺
語言戰(zhàn)略研究 2023年4期
關(guān)鍵詞:語料文本智能

宋柔 李斌 王寶鑫 楊子清 伍大勇 李辰 荀恩東 蘇祺

語言學(xué)能為大規(guī)模語言模型的完善做些什么

宋 柔(北京語言大學(xué)信息科學(xué)學(xué)院) 雖然大規(guī)模語言模型(以下簡稱“大模型”)的出色表現(xiàn)震動了社會,但是也暴露出了一些根本性的不足,比如:生成的文本會有事實(shí)性錯誤和邏輯謬誤;缺少正誤判斷能力;規(guī)模過于龐大,消耗太多的算力;不具備人腦的深度抽象能力和由之而來的創(chuàng)新能力。隨著大模型的數(shù)據(jù)量和參數(shù)量不斷擴(kuò)充,這些缺陷會有所改善,但大模型的系統(tǒng)架構(gòu)決定了不可能完全消除這些不足。

為了幫助大模型克服這些缺陷,語言研究可以做如下工作:第一,研究話語理解的難點(diǎn),從語言學(xué)的角度提供專項(xiàng)的正例和反例,使大模型以較小的代價學(xué)到更多更精的語言知識,減少話語生成中的錯誤。第二,將邏輯規(guī)則和數(shù)學(xué)公式與其自然語言表述成對地輸入給大模型,提高大模型的邏輯推理能力。第三,研究話語單位上下文相關(guān)性的范圍和約束,使大模型輕量化。比如,根據(jù)對小句復(fù)合體的研究,語篇具有小句內(nèi)、小句復(fù)合體內(nèi)、小句復(fù)合體間的三維結(jié)構(gòu),不同維度的上下文關(guān)系完全不一樣。遵循這種結(jié)構(gòu),大模型的轉(zhuǎn)換器輸入窗口的寬度為小句即可,注意力機(jī)制無需關(guān)注跨小句的詞語關(guān)系,如此可以減少參數(shù)。第四,通過話語研究來揭示人腦語言理解與生成的機(jī)制,為大模型的根本改造提供啟示。

大模型的應(yīng)用使語言教學(xué)的目的和方式發(fā)生了改變。因?yàn)椴煌刚Z者交流的語言障礙基本不復(fù)存在,以培養(yǎng)語言技能為目標(biāo)的語言教學(xué)需求將大為減少。這種情勢下,語言教學(xué)應(yīng)向兩個方向分化。一是高級語言人才的培養(yǎng)。除了精通語言使用外,還要深入學(xué)習(xí)語言規(guī)律、語言比較、語言認(rèn)知、語言文化等等。二是普及型的自然語言學(xué)教學(xué)。應(yīng)將自然語言學(xué)設(shè)為大學(xué)基礎(chǔ)課,講授各種語言單位的概念和在復(fù)雜對象中提取概念的方法,培養(yǎng)學(xué)生的聯(lián)想、類比、歸納、抽象、演繹的邏輯思維能力,這些能力是人工智能時代從事各種工作都需要的基本能力。培養(yǎng)這些能力的課程需要讓學(xué)生熟悉研究對象,但語言使用是他們早已熟悉的,無需另外學(xué)習(xí),這是自然語言學(xué)課程的獨(dú)特優(yōu)勢。

語言智能要重視高質(zhì)量基礎(chǔ)數(shù)據(jù)研發(fā)

李 斌(南京師范大學(xué)文學(xué)院) 作為人工智能的一個重要領(lǐng)域,語言智能需要依托大量的基礎(chǔ)數(shù)據(jù)進(jìn)行研發(fā)和應(yīng)用。這些基礎(chǔ)數(shù)據(jù)包括語料庫、詞典、語言模型等,它們?yōu)檎Z言智能的算法和應(yīng)用提供了必要的支撐和基礎(chǔ)。從ChatGPT來看,它所使用的GPT3.0和3.5版,只有570GB的純文本語料,約4000億字(tokens)。相比于互聯(lián)網(wǎng)上的海量數(shù)據(jù),這個規(guī)模并不算巨大,而其使用的語料主要為英文數(shù)據(jù),中文語料比例不足1/20,中文GPT還有很大的研發(fā)空間。

在當(dāng)前的語言智能領(lǐng)域,中文語言數(shù)據(jù)的質(zhì)量和數(shù)量仍然存在不足,因此,語言智能研發(fā)者需要加強(qiáng)對基礎(chǔ)數(shù)據(jù)——語料庫的研發(fā)。語料分為生語料和熟語料。生語料是指從原始數(shù)據(jù)源中直接獲取的未加工、未清洗、未分類的文本數(shù)據(jù),規(guī)模通常是海量的,包括新聞、社交媒體、論壇、博客等。生語料常常含有大量的噪聲、錯別字以及不同的拼寫、語法和語言習(xí)慣,需要經(jīng)過預(yù)處理和清洗才能用于分析和建模。熟語料是經(jīng)過預(yù)處理和清洗之后得到的高質(zhì)量的文本數(shù)據(jù),可用于訓(xùn)練和測試自然語言處理模型。熟語料可以是標(biāo)注的和非標(biāo)注的,標(biāo)注的熟語料是在文本數(shù)據(jù)中給出相應(yīng)的標(biāo)簽或注釋,用于監(jiān)督學(xué)習(xí);非標(biāo)注的熟語料則是沒有任何標(biāo)簽或注釋的文本數(shù)據(jù),用于無監(jiān)督學(xué)習(xí)。

然而,目前的困境在于,無論是學(xué)術(shù)界還是工業(yè)界都需要熟語料,但是很少機(jī)構(gòu)或企業(yè)愿意標(biāo)注文本數(shù)據(jù)。因?yàn)閿?shù)據(jù)加工成本高、難度大,建設(shè)周期長,難以產(chǎn)生直接的經(jīng)濟(jì)效益。由于缺乏數(shù)據(jù)發(fā)布平臺和良好的版權(quán)保護(hù)機(jī)制等因素,數(shù)據(jù)標(biāo)注出來也面臨著被低價收購甚至盜用等不利局面。因此,需要從根本上理順數(shù)據(jù)標(biāo)注的研發(fā)機(jī)制,借鑒歐美的成熟機(jī)制,結(jié)合國內(nèi)實(shí)際,在知識產(chǎn)權(quán)保護(hù)與共享、數(shù)據(jù)發(fā)布與商業(yè)模式、數(shù)據(jù)標(biāo)注相關(guān)的諸學(xué)科布局(數(shù)據(jù)科學(xué)、語料庫、計(jì)算語言學(xué)等)方面建立良好的平臺與生態(tài),促進(jìn)高質(zhì)量熟語料的基礎(chǔ)數(shù)據(jù)研究與生產(chǎn),推動語言智能研究與產(chǎn)業(yè)發(fā)展。

國家社科基金項(xiàng)目“中文抽象語義庫的構(gòu)建及自動分析研究”(18BYY127)

認(rèn)知智能大模型對語言信息處理技術(shù)及應(yīng)用的四大影響

王寶鑫、楊子清、伍大勇(科大訊飛股份有限公司北京研究院) 隨著ChatGPT、GPT–4等為代表的大型語言模型的發(fā)布,人們無不為其驚人的理解和生成能力所折服。這些認(rèn)知智能大模型可以理解絕大多數(shù)的自然語言指令,生成和人類水平相當(dāng)?shù)拈L篇文章,這預(yù)示著人工智能將在各個領(lǐng)域產(chǎn)生深遠(yuǎn)影響。

認(rèn)知智能大模型在智能語言信息處理能力上實(shí)現(xiàn)了重大突破,具體包括5個方面:記憶并處理海量語言數(shù)據(jù),實(shí)現(xiàn)信息的全量記憶和參數(shù)化處理;理解自然語言中的語義和上下文,實(shí)現(xiàn)任意任務(wù)的自然語言處理和對話式理解;進(jìn)行邏輯思考和推理,完成復(fù)雜邏輯的思維鏈推理;生成多種風(fēng)格和角色的長文本,實(shí)現(xiàn)多角色多風(fēng)格長文本生成;及時根據(jù)用戶的反饋進(jìn)行交互修正,提高了對話交互的準(zhǔn)確性和流暢度。

基于上述突破性進(jìn)展,認(rèn)知智能大模型將在4個方面對語言信息處理技術(shù)及應(yīng)用產(chǎn)生巨大影響。第一,改變信息獲取方式,讓人們更快找到所需信息。認(rèn)知大模型可以直接理解用戶需求并生成相關(guān)內(nèi)容,大幅提高信息獲取效率。第二,革新內(nèi)容生產(chǎn)模式,高效創(chuàng)作高質(zhì)量內(nèi)容。認(rèn)知大模型可以在短時間內(nèi)自動生成各種類型的文本,徹底改變內(nèi)容創(chuàng)作的生產(chǎn)模式,給各類文字工作者帶來極大的便利。第三,通過對話完成各類任務(wù),提高用戶體驗(yàn)和工作效率。在辦公場景中,認(rèn)知大模型可以協(xié)助員工處理日常工作,提高效率;在教育領(lǐng)域中,可以提供個性化輔導(dǎo),促進(jìn)教育公平和質(zhì)量。第四,提高科研領(lǐng)域工作效率并推動創(chuàng)新。認(rèn)知大模型可以幫助研究人員快速查找文獻(xiàn),提出新思路,并輔助編寫研究報告等,降低科研門檻,加速科研創(chuàng)新。

認(rèn)知智能大模型技術(shù)的出現(xiàn)與發(fā)展,為人們的生活帶來了巨大便利,也帶來了一些挑戰(zhàn)。在未來的發(fā)展過程中,我們應(yīng)關(guān)注該技術(shù)在倫理、隱私和社會影響等方面的問題,努力降低其潛在風(fēng)險。同時,我們也需要不斷探索和創(chuàng)新,讓認(rèn)知智能大模型在未來的應(yīng)用中發(fā)揮更加重要的作用。

文本糾錯技術(shù)發(fā)展的三大關(guān)鍵要素

李 辰(阿里巴巴達(dá)摩院) 隨著人工智能技術(shù)的快速發(fā)展,文本糾錯技術(shù)成為自然語言處理領(lǐng)域的一個重要分支。通過對文本的分析和理解,計(jì)算機(jī)可以自動識別和糾正文本中的拼寫、語法、邏輯等錯誤,從而提高文本的準(zhǔn)確性和可讀性。使用文本糾錯技術(shù)可以幫助避免語言錯誤,提高文本的準(zhǔn)確性和可讀性,從而讓文本更易于理解和處理。

文本糾錯技術(shù)的發(fā)展歷程可以分為3個階段:基于規(guī)則、基于統(tǒng)計(jì)和基于深度學(xué)習(xí)的糾錯技術(shù)。糾錯技術(shù)從使用人工編寫的規(guī)則進(jìn)行文本糾錯和修正,發(fā)展為自動從大量語言數(shù)據(jù)中學(xué)到糾錯規(guī)律和模式;從需要大量的人力和時間進(jìn)行規(guī)則的編寫和維護(hù),轉(zhuǎn)變?yōu)樾枰罅康挠?xùn)練數(shù)據(jù)和計(jì)算資源進(jìn)行訓(xùn)練和優(yōu)化。

在推動文本糾錯技術(shù)發(fā)展的過程中,3個關(guān)鍵要素起著至關(guān)重要的作用:算法的創(chuàng)新、用戶體驗(yàn)的改進(jìn)和產(chǎn)品服務(wù)質(zhì)量的提升。

首先,文本糾錯技術(shù)的發(fā)展得益于評測帶動算法研究的模式。大量的高質(zhì)量評測數(shù)據(jù)被用于訓(xùn)練文本糾錯模型,數(shù)據(jù)的豐富性和質(zhì)量推動了算法的研究和優(yōu)化。文本糾錯算法的開源也為研究人員提供了更加開放的平臺,使得從業(yè)人員和技術(shù)研究者能夠更加便捷地進(jìn)行研究和開發(fā)。

其次,文本糾錯技術(shù)使得用戶體驗(yàn)得到了明顯的改進(jìn)。通過深度學(xué)習(xí)技術(shù),文本糾錯算法能夠更加準(zhǔn)確地識別和修復(fù)錯誤,從而使其可用性大幅加強(qiáng)。此外,一些文本糾錯應(yīng)用也采用了交互式界面和用戶反饋機(jī)制,為用戶提供更加便捷和個性化的使用體驗(yàn)。

再次,文本糾錯的產(chǎn)品服務(wù)質(zhì)量得到了持續(xù)提升。通過開源和大模型技術(shù)的應(yīng)用,研究人員能夠構(gòu)建更加強(qiáng)大和高效的文本糾錯算法,提供更加準(zhǔn)確的糾錯服務(wù)。同時,越來越多的機(jī)構(gòu)和企業(yè)成功應(yīng)用文本糾錯技術(shù),通過產(chǎn)品和服務(wù)提升其在線服務(wù)的質(zhì)量和效率。

通過評測、數(shù)據(jù)、開源和算力等多方面因素的推動,文本糾錯技術(shù)得到了不斷進(jìn)步。隨著大語言模型技術(shù)的發(fā)展,文本糾錯模型可以處理更加復(fù)雜和龐大的語言數(shù)據(jù),在大語言模型時代迎來新的發(fā)展機(jī)遇。

語言智能技術(shù)賦能第二語言智慧教育

荀恩東(北京語言大學(xué)信息科學(xué)學(xué)院/語言資源高精尖創(chuàng)新中心) 智慧教育的核心是智慧教學(xué)。智慧教學(xué)有兩個含義:一個是“智能地教學(xué)”,強(qiáng)調(diào)智能技術(shù)賦能教學(xué)全過程;一個是“智慧的教學(xué)”,強(qiáng)調(diào)教學(xué)的結(jié)果。

“智能地教學(xué)”包括兩個方面的內(nèi)容。第一,通過智能技術(shù)更好地建設(shè)數(shù)字化教學(xué)資源,提供給教師和學(xué)生,推進(jìn)教育資源的供給側(cè)改革;第二,采用智能技術(shù)研發(fā)具有教學(xué)功能、可以充當(dāng)教師角色的智能工具,直接賦能學(xué)生,實(shí)現(xiàn)無師值守的個性化學(xué)習(xí)。

構(gòu)建面向第二語言的智慧教育教學(xué)資源,一方面要重視教師的經(jīng)驗(yàn),更好地發(fā)揮傳統(tǒng)教學(xué)模式的作用;另一方面也要重視大數(shù)據(jù)的作用,建設(shè)語言要素庫、教學(xué)課件和學(xué)生語言練習(xí)題庫等,這些是教學(xué)資源的基礎(chǔ)。對于語言數(shù)據(jù),既要重視非母語數(shù)據(jù),也要重視母語數(shù)據(jù)。非母語數(shù)據(jù)包含學(xué)習(xí)者的行為數(shù)據(jù),其中蘊(yùn)含著學(xué)習(xí)過程、學(xué)習(xí)偏誤等信息;母語語言生活數(shù)據(jù)更不可偏廢。讓構(gòu)建的語言教學(xué)內(nèi)容能夠被學(xué)習(xí)者更好地理解和掌握,更符合學(xué)習(xí)者未來語言生活的實(shí)際情況,實(shí)現(xiàn)對學(xué)生成長的價值引導(dǎo),是智慧教育的目標(biāo)之一。

研發(fā)智能語言教學(xué)工具,則應(yīng)圍繞聽、說、讀、寫、譯5個主要技能,研發(fā)具有單項(xiàng)或多項(xiàng)功能的專門工具,實(shí)現(xiàn)服務(wù)于學(xué)習(xí)的人機(jī)交互,打造智能語伴。其中采用的語言智能技術(shù)應(yīng)包括:語音合成技術(shù),讓計(jì)算機(jī)發(fā)出自然標(biāo)準(zhǔn)的語音;語音評測技術(shù),讓計(jì)算機(jī)自動檢測學(xué)習(xí)者的發(fā)音偏誤,給出發(fā)音訓(xùn)練指導(dǎo);漢字書寫評測技術(shù),讓計(jì)算機(jī)檢測學(xué)習(xí)者漢字書寫的正確性,實(shí)現(xiàn)規(guī)范化漢字書寫;作文寫作輔導(dǎo)和評測技術(shù),提升學(xué)生寫作能力和水平;機(jī)器翻譯技術(shù),幫助學(xué)生更好完成翻譯學(xué)習(xí);分級閱讀素材推薦,為學(xué)生提供難易適中的閱讀素材;等等。這些技術(shù)都已成熟,但仍要面向二語學(xué)習(xí)場景進(jìn)行專門的適配性開發(fā)。

“智慧的教學(xué)”體現(xiàn)在教學(xué)模式和教學(xué)方法兩個方面。在教學(xué)模式方面,與傳統(tǒng)的語言教學(xué)相比,智慧化的語言教學(xué)打破了時空的限制,利用數(shù)字化教學(xué)平臺實(shí)現(xiàn)了數(shù)據(jù)驅(qū)動的聯(lián)通互動教學(xué),順應(yīng)了教學(xué)樣態(tài)的改變。因此,教學(xué)模式也需要做調(diào)整和優(yōu)化,例如,改變一位教師一門課的傳統(tǒng)的模式,發(fā)展為“1 + N”的團(tuán)隊(duì)教學(xué)模式,即一位主講老師,多位助教協(xié)作完成課程教學(xué)。在教學(xué)方法方面,教師采用數(shù)據(jù)驅(qū)動的智能技術(shù),利用學(xué)習(xí)者學(xué)習(xí)行為信息,對學(xué)習(xí)者學(xué)情進(jìn)行自動畫像,量體裁衣,有針對性地因材施教,實(shí)現(xiàn)個性化教學(xué)。

語言智能加速跨學(xué)科融通和人才培養(yǎng)模式革新

蘇 祺(北京大學(xué)外國語學(xué)院/人工智能研究院) 在學(xué)科建設(shè)日漸強(qiáng)調(diào)打破專業(yè)壁壘,推行新工科、新醫(yī)科、新農(nóng)科和新文科的背景下,語言智能技術(shù)將成為引發(fā)多學(xué)科知識聚變的重要抓手。

強(qiáng)大的語言理解能力使語言智能系統(tǒng)在知識獲取和生產(chǎn)方面展現(xiàn)出巨大優(yōu)勢。結(jié)合其廣泛的底層知識庫,語言智能系統(tǒng)能夠回答各種學(xué)科的基礎(chǔ)知識性問題,并提供充分的信息細(xì)節(jié),使教學(xué)轉(zhuǎn)向更具創(chuàng)造力的思維活動。在知識交流方面,其角色可類比為一個無所不知的家庭教師,在知識廣度上大大超越了傳統(tǒng)單一學(xué)科的認(rèn)知能力。以數(shù)字技術(shù)與人文學(xué)科融合的數(shù)字人文為例,語言智能可提供大量實(shí)例,輔助文科學(xué)生更為平滑地掌握程序設(shè)計(jì)等技術(shù)方法,培養(yǎng)計(jì)算思維和工具理性;也可助力理工科學(xué)生快速建立起人文基礎(chǔ)知識體系,提升人文素養(yǎng),重塑價值理性。語言智能系統(tǒng)能夠充當(dāng)學(xué)科之間的粘結(jié)劑,有效拉近學(xué)科距離,促進(jìn)跨學(xué)科視野和思維方式的轉(zhuǎn)變。

語言智能系統(tǒng)的“1對1”交互模式,也使其順應(yīng)了現(xiàn)代社會對教育形態(tài)和人才培養(yǎng)的需求,有助于突破現(xiàn)有工業(yè)化教育模式,實(shí)現(xiàn)全流程自我導(dǎo)向?qū)W習(xí)。語言智能系統(tǒng)能夠通過推薦學(xué)習(xí)材料、輔助閱讀、規(guī)劃自學(xué)路線、優(yōu)化知識推理等提供個性化教學(xué)服務(wù)與學(xué)習(xí)支持,并進(jìn)一步提升了教育的公平性。其多語言理解和語言生成能力,使學(xué)習(xí)者和研究者可以突破語言障礙,在獲取信息時可以更便捷廣泛地吸收國外資源,在知識生產(chǎn)中可以更專注于思維本身的創(chuàng)新,從而帶來學(xué)習(xí)和生產(chǎn)效率的提升。伴隨而來的則是教師對語言智能環(huán)境下教學(xué)定位和方式的再思考。對于某些基礎(chǔ)課程的教學(xué)與評估,如語言學(xué)習(xí)、寫作、程序設(shè)計(jì)等,教師有必要調(diào)整已有課程設(shè)計(jì),探索課堂內(nèi)外與語言智能工具的有效結(jié)合。

現(xiàn)有通用語言智能系統(tǒng)在回答準(zhǔn)確性和深度等方面仍有不足,未來需要在領(lǐng)域?qū)<业闹笇?dǎo)和領(lǐng)域數(shù)據(jù)的訓(xùn)練下,積極倡導(dǎo)研發(fā)垂直領(lǐng)域的語言智能系統(tǒng),提升其專業(yè)性。同時,也應(yīng)積極發(fā)揮教師在語言智能工具使用中的引導(dǎo)作用,敦促和啟發(fā)使用者提高提問和甄別回答質(zhì)量的能力,保持謹(jǐn)慎與批判性思維,警惕語言智能工具阻礙人的主體創(chuàng)造性,確保其成為思維的延伸,促進(jìn)知識的創(chuàng)造性建構(gòu)與轉(zhuǎn)化。

責(zé)任編輯:逯琳琳

猜你喜歡
語料文本智能
在808DA上文本顯示的改善
智能前沿
文苑(2018年23期)2018-12-14 01:06:06
基于doc2vec和TF-IDF的相似文本識別
電子制作(2018年18期)2018-11-14 01:48:06
智能前沿
文苑(2018年19期)2018-11-09 01:30:14
智能前沿
文苑(2018年17期)2018-11-09 01:29:26
智能前沿
文苑(2018年21期)2018-11-09 01:22:32
基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
華語電影作為真實(shí)語料在翻譯教學(xué)中的應(yīng)用
《苗防備覽》中的湘西語料
军事| 塔城市| 庆安县| 罗定市| 蒙城县| 彭阳县| 南平市| 大理市| 汾西县| 永新县| 湟中县| 上杭县| 揭阳市| 久治县| 临夏县| 永济市| 兴国县| 老河口市| 府谷县| 琼结县| 阳朔县| 自治县| 昂仁县| 丰都县| 平度市| 波密县| 常州市| 永平县| 仙游县| 曲松县| 集贤县| 虞城县| 历史| 湄潭县| 视频| 绥棱县| 重庆市| 洛川县| 白朗县| 新丰县| 社旗县|