国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

語(yǔ)言資源視角下的大規(guī)模語(yǔ)言模型治理

2023-08-01 07:23:37饒高琦胡星雨易子琳
語(yǔ)言戰(zhàn)略研究 2023年4期

饒高琦 胡星雨 易子琳

提 要 近半年來(lái),柴語(yǔ)生(ChatGPT)等大規(guī)模生成式語(yǔ)言模型的應(yīng)用,引發(fā)了全社會(huì)的關(guān)注和反思。對(duì)這種大模型,應(yīng)以工具觀(guān)加以正視,認(rèn)可其技術(shù)發(fā)展帶來(lái)的益處,同時(shí)盡量規(guī)避其風(fēng)險(xiǎn)。對(duì)它們的治理,應(yīng)減少對(duì)技術(shù)本身的干預(yù),將目標(biāo)定位于大模型賴(lài)以研發(fā)的語(yǔ)言資源和投放之后的使用。對(duì)大模型研發(fā)中的語(yǔ)言資源治理,應(yīng)著力打破中文數(shù)據(jù)孤島:發(fā)展以聯(lián)邦學(xué)習(xí)為代表的分布式模型構(gòu)建技術(shù),建立國(guó)家知識(shí)數(shù)據(jù)開(kāi)放機(jī)制,盡快健全開(kāi)放、高效的語(yǔ)言數(shù)據(jù)交換市場(chǎng);提倡世界知識(shí)中文表達(dá),助推中文大模型研發(fā):盡快實(shí)現(xiàn)中文精華知識(shí)資源面向網(wǎng)絡(luò)開(kāi)放,完善中文概念、術(shù)語(yǔ)資源,做大、做全領(lǐng)域中文資源。對(duì)大模型使用領(lǐng)域的治理,則因大模型本身也是一種重要的語(yǔ)言資源,故應(yīng)強(qiáng)調(diào)其基礎(chǔ)資源地位,從標(biāo)準(zhǔn)化、評(píng)測(cè)和倫理規(guī)制的角度進(jìn)行。

關(guān)鍵詞 柴語(yǔ)生;語(yǔ)言資源;大規(guī)模語(yǔ)言模型;語(yǔ)言治理

中圖分類(lèi)號(hào) H002 文獻(xiàn)標(biāo)識(shí)碼 A 文章編號(hào) 2096-1014(2023)04-0019-11

DOI 10.19689/j.cnki.cn10-1361/h.20230402

Governance of Large Language Models from the Perspective of Language Resources

Rao Gaoqi, Hu Xingyu and Yi Zilin

Abstract Over the past six months, the application of large language models such as ChatGPT has drawn international attention and sparked critical reflection in the whole world. In this paper, it is argued that these large language models should be viewed as instrumental tools that bring about benefits with their technological development as well as risks in the application. Consequently, their governance should be focused less on technological intervention, and more on language resources vital for their development and application. Regarding the governance of language resources in large language model development, efforts should be made to break down the data silos of Chinese language resources, develop distributed model construction technologies through federated learning, establish open-accessed national knowledge data mechanisms, and expand the open and efficient language data exchange markets. These efforts are aimed to promote Chinese expression of world knowledge and facilitate the development of Chinese large language models. Since the large language models are an important language resource in nature, their fundamental resource status should be emphasized in the application, and perspectives of standardization, evaluation, and ethical regulation should be taken in their governance.

Keywords ChatGPT; language resources; large language model; language governance

2022年末,以柴語(yǔ)生為代表的一批基于大規(guī)模語(yǔ)言模型的智能應(yīng)用進(jìn)入公眾視野,并引起了全社會(huì)的關(guān)注和眾多行業(yè)的焦慮。然而如同人類(lèi)歷史上所有重要的技術(shù)突破,大規(guī)模語(yǔ)言模型帶來(lái)的沖擊必須被正視,也應(yīng)以工具視角審視,進(jìn)而推動(dòng)技術(shù)本身的發(fā)展,以獲取紅利,并減少實(shí)踐風(fēng)險(xiǎn)。作為依賴(lài)語(yǔ)言數(shù)據(jù)資源,并以語(yǔ)言服務(wù)為主的技術(shù),大規(guī)模語(yǔ)言模型的研發(fā)依賴(lài)語(yǔ)言資源治理的支持,其自身也具有語(yǔ)言資源屬性,適用于語(yǔ)言資源治理的諸多側(cè)面。

一、柴語(yǔ)生應(yīng)用落地與治理需求

(一)柴語(yǔ)生與大規(guī)模語(yǔ)言模型

柴語(yǔ)生是2022年11月投放市場(chǎng)的新型聊天機(jī)器人,支持多任務(wù)連續(xù)對(duì)話(huà)和問(wèn)答,其特點(diǎn)為:可進(jìn)行多輪對(duì)話(huà)、語(yǔ)言自然流暢、會(huì)承認(rèn)錯(cuò)誤、能質(zhì)疑不正確的前提等。柴語(yǔ)生由大規(guī)模語(yǔ)言模型GPT–3.5支持,并在2023年3月升級(jí)到GPT–4,其服務(wù)也相應(yīng)升級(jí)。GPT全稱(chēng)為生成式預(yù)訓(xùn)練轉(zhuǎn)換器模型(Generative Pre-trained Transformer),是一種大規(guī)模語(yǔ)言模型(Large Language Model,LLM,以下簡(jiǎn)稱(chēng)大模型)。典型的大模型還包括BERT、RoBERTa、T5、XLNet和悟道等規(guī)模不一、技術(shù)路線(xiàn)各異的模型。與一般語(yǔ)言模型相比,大模型的訓(xùn)練語(yǔ)料規(guī)模巨大,參數(shù)急劇膨脹。GPT–3的參數(shù)規(guī)模達(dá)到1750億,GPT–4已突破萬(wàn)億,悟道2.0和Switch Transformer則達(dá)到了驚人的1.75萬(wàn)億和1.6萬(wàn)億。

超大規(guī)模的訓(xùn)練數(shù)據(jù)和參數(shù)量,使得大模型產(chǎn)生了知識(shí)涌現(xiàn)能力。在面對(duì)提問(wèn)時(shí)只需給出幾個(gè)任務(wù)實(shí)例,大模型即可通過(guò)推理給出舉一反三式的回答,且具備將復(fù)雜問(wèn)題拆分開(kāi)來(lái)的步驟推理能力。因此,它在閱讀、答問(wèn)、摘要、翻譯等173項(xiàng)語(yǔ)言相關(guān)測(cè)試上均有優(yōu)異表現(xiàn),甚至在編程和畫(huà)圖上也可圈可點(diǎn)(Wei et al. 2022;Nanda et al. 2023)。

(二)大模型落地引發(fā)使用熱潮和行業(yè)反思

柴語(yǔ)生上線(xiàn)僅5天,用戶(hù)數(shù)量就突破100萬(wàn),發(fā)布后兩個(gè)月達(dá)到1億,成為史上用戶(hù)量增長(zhǎng)最快的應(yīng)用程序。但柴語(yǔ)生收集實(shí)時(shí)信息的能力較弱,且中文知識(shí)能力顯著弱于英文,更會(huì)經(jīng)常出現(xiàn)“一本正經(jīng)地胡說(shuō)八道”的問(wèn)題。雖然如此,依然有眾多用戶(hù)用它寫(xiě)作。用戶(hù)給出大致框架和主題,柴語(yǔ)生即可生成文章,其流暢程度強(qiáng)于一般寫(xiě)作者。用戶(hù)只需在此基礎(chǔ)上簡(jiǎn)單修改即可使用,大大提高了寫(xiě)作效率。

眾多行業(yè)都在不同程度上感受到了來(lái)自大模型的沖擊和挑戰(zhàn)。教育行業(yè)對(duì)大模型的濫用提出不少擔(dān)憂(yōu)與顧慮,認(rèn)為它干擾了教學(xué)和科研秩序。美國(guó)在線(xiàn)教育平臺(tái)的調(diào)研數(shù)據(jù)顯示,89%的美國(guó)大學(xué)生使用柴語(yǔ)生寫(xiě)作業(yè),48%的學(xué)生借助它完成考試。喬姆斯基批評(píng)柴語(yǔ)生正在破壞教育系統(tǒng),認(rèn)為它本質(zhì)上是一個(gè)高科技剽竊系統(tǒng)。但是,也有許多人主張擁抱新技術(shù)。沃頓商學(xué)院有老師要求學(xué)生必須使用柴語(yǔ)生完成作業(yè),認(rèn)為正確使用人工智能工具有助于學(xué)生思維能力提高。

在學(xué)術(shù)界,包括《自然》(Nature)在內(nèi)的一些期刊規(guī)定大模型不得被列為文章作者,僅可出現(xiàn)在致謝或參考文獻(xiàn)中。《暨南學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版)》與《天津師范大學(xué)學(xué)報(bào)(基礎(chǔ)教育版)》等刊物要求暫不將語(yǔ)言模型工具列為單獨(dú)或共同署名作者。張華平等(2023)指出,科研工作者使用柴語(yǔ)生等工具,有助于提高科研效率,但可能導(dǎo)致文章質(zhì)量和透明度降低。

面對(duì)柴語(yǔ)生和深度合成技術(shù)引發(fā)的沖擊和爭(zhēng)議,國(guó)家互聯(lián)網(wǎng)信息辦公室、工業(yè)和信息化部、公安部于2022年11月聯(lián)合發(fā)布《互聯(lián)網(wǎng)信息服務(wù)深度合成管理規(guī)定》,規(guī)范了包括語(yǔ)言合成在內(nèi)的深度合成技術(shù)的使用規(guī)范,嚴(yán)格要求生成內(nèi)容必須合法合規(guī),并對(duì)使用場(chǎng)景進(jìn)行約束。

(三)大模型的治理觀(guān)

大模型與其他發(fā)明的不同之處,是人類(lèi)第一次無(wú)法完全理解其具體運(yùn)行機(jī)制。大模型的優(yōu)異性能很大程度上依靠大數(shù)據(jù)中的涌現(xiàn)效應(yīng)。這一現(xiàn)象如同黑盒遮蔽了其內(nèi)部工作路徑,造成了其結(jié)果的不可解釋和一定程度的不可控制。這是前文所述各種倫理焦慮的根源。其本質(zhì)是語(yǔ)言資源及其使用方式帶來(lái)的科學(xué)、工程問(wèn)題。然而大模型依然擁有作為技術(shù)發(fā)明的工具屬性,而人與工具協(xié)同發(fā)展是歷史的常態(tài),如同搜索引擎革新了知識(shí)獲取方式,大模型的應(yīng)用將重塑“獲取答案”和“獲得陪伴”的方式,且使其大大簡(jiǎn)化。

在實(shí)踐上,將大模型工具化要求我們以工具觀(guān)對(duì)其進(jìn)行治理。其要義在于尊重技術(shù)發(fā)展的客觀(guān)規(guī)律,減少對(duì)技術(shù)本身的干預(yù),而將規(guī)劃和治理目標(biāo)放在技術(shù)使用的行為與場(chǎng)景上。正如語(yǔ)言規(guī)劃重在規(guī)劃語(yǔ)言生活而不是語(yǔ)言本身(李宇明2022),大模型的主要治理對(duì)象也是大模型的研發(fā)者、研發(fā)要素、使用者、使用行為和使用環(huán)境(王春輝2022b)。在治理過(guò)程中應(yīng)認(rèn)可、正視工具化所帶來(lái)的益處,盡量規(guī)避其風(fēng)險(xiǎn),促進(jìn)工具本身的發(fā)展。

基于這樣的思想,我們認(rèn)為,面對(duì)大模型,在技術(shù)之外有兩種重要的治理實(shí)踐:大模型研發(fā)階段的語(yǔ)言資源治理和大模型投放之后的使用治理。大模型本身也是一種新型語(yǔ)言資源,因而其使用治理在一定程度上也可采用語(yǔ)言資源的視角。

二、大模型研發(fā)中的語(yǔ)言資源治理

(一)柴語(yǔ)生背后的語(yǔ)言資源

語(yǔ)言智能基于對(duì)大規(guī)模語(yǔ)言數(shù)據(jù)的加工利用而得以實(shí)現(xiàn)。語(yǔ)言模型對(duì)語(yǔ)言資源的利用能力是其性能的重要指標(biāo)。自20世紀(jì)90年代統(tǒng)計(jì)機(jī)器學(xué)習(xí)成為主流后,從機(jī)器翻譯到語(yǔ)言生成,語(yǔ)言大數(shù)據(jù)的加工和利用能力與語(yǔ)言智能的應(yīng)用能力彼此促進(jìn)(馮志偉,等2023)。

2022年,柴語(yǔ)生的研發(fā)機(jī)構(gòu)OpenAI公布了柴語(yǔ)生背后語(yǔ)言模型GPT–3的訓(xùn)練數(shù)據(jù)集規(guī)模,約為2045億詞。極端巨大的語(yǔ)言模型,使柴語(yǔ)生可以將語(yǔ)言大數(shù)據(jù)中所蘊(yùn)含的語(yǔ)言知識(shí)以統(tǒng)計(jì)方法提取出來(lái)。人類(lèi)絕大多數(shù)的知識(shí)和信息以語(yǔ)言形式存在。而語(yǔ)言所蘊(yùn)含的知識(shí)又一定存在于某個(gè)或某幾個(gè)具體的語(yǔ)種之中。因而語(yǔ)言資源的語(yǔ)種分布,在大模型時(shí)代具有了更加巨大的重要性。GPT–3的訓(xùn)練語(yǔ)料語(yǔ)種已經(jīng)公開(kāi),其分布如表1所示。

在GPT–3的訓(xùn)練數(shù)據(jù)中,英文占比超過(guò)92%,擁有絕對(duì)優(yōu)勢(shì),而其他語(yǔ)言占比極低,這使得GPT–3在英語(yǔ)答問(wèn)中表現(xiàn)驚艷,而在其他語(yǔ)言答問(wèn)中則表現(xiàn)欠佳,錯(cuò)誤較多。此外,眾多非英語(yǔ)答問(wèn)內(nèi)容由英語(yǔ)生成后經(jīng)機(jī)器翻譯形成,更多體現(xiàn)了英語(yǔ)世界中的看法和解讀,這無(wú)疑對(duì)非英語(yǔ)使用者十分不利,使其只能獲得單一語(yǔ)種所蘊(yùn)含的文化、知識(shí)和態(tài)度??梢?jiàn),語(yǔ)種信息繭房在大模型時(shí)代中依然存在。對(duì)我們而言,解決該問(wèn)題的關(guān)鍵在于做大中文語(yǔ)言資源。其路徑是充分利用已有資源,打破中文資源數(shù)據(jù)孤島;快速建設(shè)優(yōu)質(zhì)資源,實(shí)現(xiàn)世界知識(shí)中文表達(dá)。

(二)大模型研發(fā)需要打破數(shù)據(jù)孤島

數(shù)據(jù)孤島指一個(gè)組織內(nèi)部,不同業(yè)務(wù)之間由于缺少信息共享,導(dǎo)致各自擁有的數(shù)據(jù)處于孤立狀態(tài),無(wú)法被其他業(yè)務(wù)利用(Davenport 1998)。還可以進(jìn)一步把它抽象概括為,在數(shù)據(jù)集的形成、分析、使用過(guò)程中,由于技術(shù)、政策等不完備而形成的封閉、半封閉式現(xiàn)象(李希明,等2003)。

數(shù)據(jù)孤島現(xiàn)象廣泛存在。隨著數(shù)據(jù)生產(chǎn)速度的加快,對(duì)通用的語(yǔ)言智能服務(wù)而言,一般數(shù)據(jù)的供給問(wèn)題并不明顯,數(shù)據(jù)問(wèn)題集中出現(xiàn)在精加工數(shù)據(jù)的規(guī)模和質(zhì)量上。但在大模型時(shí)代,情況開(kāi)始發(fā)生變化。在算力提升的刺激下,大模型對(duì)語(yǔ)言數(shù)據(jù)的駕馭能力迅速提升,需求顯著增加。GPT–3使用了約2000億詞的語(yǔ)料,類(lèi)似的PaLM使用的語(yǔ)料達(dá)到7800億詞。據(jù)估計(jì),整個(gè)互聯(lián)網(wǎng)上的可用數(shù)據(jù)資源在4.6萬(wàn)億~17.2萬(wàn)億詞之間。也就是說(shuō),目前人類(lèi)已使用的文本數(shù)據(jù)已經(jīng)和存量處在同一數(shù)量級(jí)上,且未來(lái)大模型的技術(shù)發(fā)展對(duì)文本的需求量很可能遠(yuǎn)高于文本數(shù)據(jù)的增長(zhǎng)速度(1%~7% /年)(王昊2023)??色@取文本數(shù)據(jù)的規(guī)模與普遍認(rèn)為的互聯(lián)網(wǎng)數(shù)據(jù)規(guī)模(4ZB字節(jié))相去甚遠(yuǎn),主要原因在于可公開(kāi)獲取數(shù)據(jù)(姑且不論版權(quán)歸屬)只占整個(gè)互聯(lián)網(wǎng)的一小部分,多媒體數(shù)據(jù)、電子郵件和聊天等私人數(shù)據(jù)、行業(yè)或企業(yè)的業(yè)務(wù)數(shù)據(jù)庫(kù)數(shù)據(jù)等占據(jù)了互聯(lián)網(wǎng)的絕大部分,這還沒(méi)有算上未接入互聯(lián)網(wǎng)的大量數(shù)據(jù),如行業(yè)局域網(wǎng)的業(yè)務(wù)數(shù)據(jù)、安全類(lèi)數(shù)據(jù)等??梢哉f(shuō)在大模型時(shí)代,數(shù)據(jù)孤島造成的數(shù)據(jù)困窘已經(jīng)開(kāi)始出現(xiàn)。

這一問(wèn)題在中文語(yǔ)言資源中尤為嚴(yán)重。截至2022年,中文互聯(lián)網(wǎng)使用者已突破10億,占全球使用者的20%;而互聯(lián)網(wǎng)中,中文網(wǎng)頁(yè)信息占比則只有1.4%。這一巨大反差是由于網(wǎng)頁(yè)數(shù)據(jù)在中文互聯(lián)網(wǎng)數(shù)據(jù)中所占比例很低,而中文數(shù)據(jù)中占比較大的文本、語(yǔ)音交互主要發(fā)生在即時(shí)通信軟件、社交平臺(tái)、電子商務(wù)平臺(tái)中,出于法規(guī)、技術(shù)和市場(chǎng)等原因,這些數(shù)據(jù)無(wú)法有效獲取和匯聚。

此外,一般文本數(shù)據(jù)的開(kāi)放程度也不理想。如中文數(shù)據(jù)中知識(shí)價(jià)值最高的兩類(lèi)——當(dāng)代科研、學(xué)術(shù)文獻(xiàn)和數(shù)字化古籍,都無(wú)法在線(xiàn)開(kāi)放獲取。前者被控制在知網(wǎng)、超星等圖情服務(wù)商手中;后者則由各大科研單位、圖書(shū)館占有,多處于不公開(kāi)的狀態(tài)。

嚴(yán)重的中文數(shù)據(jù)孤島現(xiàn)象,使得任何機(jī)構(gòu)(甚至政府)都難以整合中文語(yǔ)言數(shù)據(jù)資源,因而在數(shù)據(jù)基礎(chǔ)層面,對(duì)大模型研發(fā)造成了嚴(yán)重的障礙。對(duì)此,本文提出以下幾點(diǎn)建議。

1.發(fā)展以聯(lián)邦學(xué)習(xí)為代表的分布式模型構(gòu)建技術(shù)

大模型研發(fā)方法的核心是各類(lèi)機(jī)器學(xué)習(xí)算法。聯(lián)邦學(xué)習(xí)(Federated Machine Learning)是一種分布式機(jī)器學(xué)習(xí)框架,即一種算法可以在多處設(shè)備或數(shù)據(jù)儲(chǔ)存地進(jìn)行語(yǔ)言模型構(gòu)建和參數(shù)調(diào)試,而后再將各處分散模型有效融合為功能更強(qiáng)大的統(tǒng)一語(yǔ)言模型。在這個(gè)過(guò)程中,原始數(shù)據(jù)并不共享,因而具有更強(qiáng)的安全性和私密性(Yang et al. 2019;譚作文,張連福2020)。這一技術(shù)路線(xiàn)可以兼顧數(shù)據(jù)隱私和模型規(guī)模。然而,由于設(shè)備、數(shù)據(jù)的異構(gòu)性,不同設(shè)備間通信的速率受限,以及參數(shù)融合和參數(shù)更新等問(wèn)題,該路線(xiàn)在當(dāng)前大模型研制中的作用還十分有限。然而,結(jié)合聯(lián)邦學(xué)習(xí)技術(shù)的思想,深挖多種分布式技術(shù),仍可以期待其進(jìn)一步提高性能,在兼顧數(shù)據(jù)隱私的情況下,匯聚中文語(yǔ)言資源,構(gòu)建大規(guī)模語(yǔ)言模型。

2.建立國(guó)家知識(shí)數(shù)據(jù)開(kāi)放機(jī)制

面對(duì)中文數(shù)據(jù)困窘,僅有技術(shù)支持是不夠的?;陂_(kāi)放、共享的互聯(lián)網(wǎng)精神,遵循尊重版權(quán)、善意使用的原則,促進(jìn)優(yōu)質(zhì)內(nèi)容上網(wǎng),是助力中文在數(shù)智化知識(shí)管理時(shí)代占據(jù)優(yōu)勢(shì)的重要抓手。經(jīng)典知識(shí)迅速開(kāi)放,新增知識(shí)中文表達(dá),應(yīng)成為當(dāng)下中文語(yǔ)言資源治理的一條主線(xiàn)。我們認(rèn)為,應(yīng)盡快建立中文資源的國(guó)家數(shù)據(jù)開(kāi)放機(jī)制,尤其是高知識(shí)價(jià)值的科研論文、古籍資源等。這類(lèi)資源大多由公共資金資助生產(chǎn),因而向全社會(huì)開(kāi)放具有內(nèi)在合理性。為避免形成新的數(shù)據(jù)孤島,公共知識(shí)數(shù)據(jù)的開(kāi)放應(yīng)由國(guó)家或相關(guān)公立機(jī)構(gòu)穩(wěn)步協(xié)調(diào)完成,以統(tǒng)一有序的標(biāo)準(zhǔn)和共享協(xié)議,服務(wù)社會(huì)使用。

近年來(lái),國(guó)家語(yǔ)言文字工作委員會(huì)、中國(guó)科學(xué)院、中國(guó)社會(huì)科學(xué)院等單位,以國(guó)家語(yǔ)言資源服務(wù)平臺(tái)、中國(guó)科學(xué)院知識(shí)服務(wù)平臺(tái)、國(guó)家哲學(xué)社會(huì)科學(xué)文獻(xiàn)中心等方式,大力推動(dòng)語(yǔ)言資源、科技論文開(kāi)放獲取,取得良好反響。然而由于起步較晚,數(shù)據(jù)規(guī)模和服務(wù)能力仍十分有限。期待全社會(huì)在有關(guān)部門(mén)的統(tǒng)籌協(xié)調(diào)下,積極投入到中文知識(shí)資源上網(wǎng)、開(kāi)放、匯聚的行列中來(lái)。

3.盡快健全開(kāi)放、高效的語(yǔ)言數(shù)據(jù)交換市場(chǎng)

資源知識(shí)開(kāi)放機(jī)制是基礎(chǔ),而在更大范圍內(nèi)服務(wù)多樣化需求的大規(guī)模資源供給,仍需依靠開(kāi)放、高效的語(yǔ)言資源市場(chǎng)。2020年在《中共中央 國(guó)務(wù)院關(guān)于構(gòu)建更加完善的要素市場(chǎng)化配置體制機(jī)制的意見(jiàn)》(以下簡(jiǎn)稱(chēng)《意見(jiàn)》)中,數(shù)據(jù)作為一種新型生產(chǎn)要素寫(xiě)入文件中,與土地、勞動(dòng)力、資本、技術(shù)等傳統(tǒng)要素并列為要素之一。文件指出,要加快培育數(shù)據(jù)要素市場(chǎng),推進(jìn)政府?dāng)?shù)據(jù)開(kāi)放共享,提升社會(huì)數(shù)據(jù)資源價(jià)值,加強(qiáng)數(shù)據(jù)資源整合和安全保護(hù)。構(gòu)建開(kāi)放、高效的語(yǔ)言數(shù)據(jù)交換市場(chǎng)是《意見(jiàn)》精神的應(yīng)有之義。

在實(shí)踐上,應(yīng)對(duì)大模型需求,語(yǔ)言數(shù)據(jù)應(yīng)做好確權(quán)、脫敏和開(kāi)放三方面的工作。語(yǔ)言數(shù)據(jù)確權(quán),指對(duì)語(yǔ)言數(shù)據(jù)的所有權(quán)和使用權(quán)進(jìn)行確定并加以保護(hù),使之清晰分離,以便語(yǔ)言數(shù)據(jù)擺脫單一機(jī)構(gòu)控制,為全社會(huì)所使用。語(yǔ)言數(shù)據(jù)脫敏是所有權(quán)和使用權(quán)分離過(guò)程中必然進(jìn)行的操作,指在保證語(yǔ)言數(shù)據(jù)可用的前提下,對(duì)其中的個(gè)人身份、隱私和其他敏感信息進(jìn)行去標(biāo)識(shí)化或加密處理,以確保語(yǔ)言數(shù)據(jù)的安全性和私密性。在此基礎(chǔ)上,應(yīng)大力做好語(yǔ)言數(shù)據(jù)開(kāi)放工作,加速中文語(yǔ)言數(shù)據(jù)以合法、標(biāo)準(zhǔn)、可控的方式實(shí)現(xiàn)善意使用。最大受益者將是各類(lèi)大模型和基于此開(kāi)發(fā)的語(yǔ)言智能應(yīng)用。

(三)大模型研發(fā)要求世界知識(shí)中文表達(dá)

如果說(shuō)打破數(shù)據(jù)孤島解決了已有數(shù)據(jù)的聚合和聯(lián)通問(wèn)題,針對(duì)的是已有資源(存量)的充分利用和有效開(kāi)發(fā)問(wèn)題,那么,強(qiáng)調(diào)和落實(shí)世界知識(shí)中文表達(dá)則是要進(jìn)一步做大中文資源(增量)。

不可否認(rèn),柴語(yǔ)生代表了人類(lèi)知識(shí)管理和知識(shí)使用的新樣態(tài)。它和類(lèi)似的產(chǎn)品極有可能成為如同搜索引擎和圖書(shū)館一樣的信息基礎(chǔ)設(shè)施,為全社會(huì)提供基礎(chǔ)知識(shí)服務(wù)。在面向全球和全社會(huì)的知識(shí)服務(wù)中,中文和中文承載的知識(shí)可以占據(jù)多大席位,決定了在未來(lái)知識(shí)服務(wù)中可以體現(xiàn)多少中文世界的事實(shí)、觀(guān)點(diǎn)、立場(chǎng)、態(tài)度和情感。

在以國(guó)際學(xué)術(shù)期刊為代表的世界學(xué)術(shù)領(lǐng)域中,經(jīng)過(guò)幾十年的努力,中文論文代表的中文知識(shí)表達(dá)已躋身第二集團(tuán)中游(饒高琦,等2020)。然而,如上文所述,在互聯(lián)網(wǎng)中,中文網(wǎng)頁(yè)信息占比只有1.4%。在已經(jīng)到來(lái)的數(shù)智化知識(shí)管理時(shí)代中,過(guò)低的占比無(wú)疑令中文處在十分不利的首發(fā)位置。近年來(lái),有學(xué)者不斷重申“世界知識(shí),中文表達(dá)”的理念(李宇明,等2018,2020),呼吁防范中文作為科學(xué)語(yǔ)言步“印地語(yǔ)在印度”的后塵(汪品先2015;饒高琦,等2020),即在科研領(lǐng)域被邊緣化,母語(yǔ)社群的知識(shí)獲取成本更高、時(shí)效性更差。如果無(wú)所作為,聽(tīng)之任之,長(zhǎng)此以往,將導(dǎo)致中文逐步喪失表達(dá)前沿概念、承載科學(xué)知識(shí)的能力,國(guó)民的知識(shí)獲取將主要依賴(lài)外語(yǔ),民族振興便無(wú)從期待。

過(guò)去一段時(shí)間,學(xué)術(shù)界和政府都積極倡導(dǎo)在知識(shí)生產(chǎn)中重視語(yǔ)言的層級(jí)分布,提高研究者使用母語(yǔ)的自覺(jué)意識(shí),這些討論和舉措都集中于知識(shí)生產(chǎn)密集的學(xué)術(shù)、科研領(lǐng)域,而以大模型為基礎(chǔ)的新知識(shí)管理模式涉及全方位的知識(shí)生產(chǎn)(包括人文、藝術(shù)、商業(yè)、教育、意識(shí)形態(tài)等)和加工。在大模型上,不同語(yǔ)言的提問(wèn)和交互帶來(lái)顯著的質(zhì)量差距,可以說(shuō),這一新型知識(shí)管理模式加速了對(duì)語(yǔ)言知識(shí)承載能力的篩選。因而使用母語(yǔ)進(jìn)行知識(shí)生產(chǎn)、信息溝通,不僅僅是語(yǔ)言尊嚴(yán)和文脈賡續(xù)的問(wèn)題,更成為語(yǔ)言安全和知識(shí)安全的現(xiàn)實(shí)問(wèn)題,關(guān)乎知識(shí)可否被觸達(dá)、可否以中文直接觸達(dá),關(guān)乎有多少知識(shí)能以中文使用。

因此,“世界知識(shí)中文表達(dá)”不僅在學(xué)術(shù)、科研領(lǐng)域具有指導(dǎo)價(jià)值,如今看來(lái)對(duì)整個(gè)中文世界知識(shí)的積累和發(fā)展都有重要意義?;诖?,我們認(rèn)為這一理念的具體落地需要注意以下幾點(diǎn)。

1.中文精華知識(shí)資源盡快實(shí)現(xiàn)網(wǎng)絡(luò)開(kāi)放

中文知識(shí)資源規(guī)模浩大,種類(lèi)繁多。應(yīng)以核心的知識(shí)密集資源為先導(dǎo),探索知識(shí)資源的開(kāi)放使用路徑。這類(lèi)資源以當(dāng)代各學(xué)科的中文科技、學(xué)術(shù)文獻(xiàn)和傳世古籍為主。此兩類(lèi)資源分別代表了當(dāng)代中國(guó)的知識(shí)貢獻(xiàn)和古代中國(guó)的思想文化精髓。對(duì)于前者,有關(guān)部門(mén)已具有多年成熟的文獻(xiàn)服務(wù)平臺(tái)開(kāi)發(fā)和運(yùn)營(yíng)經(jīng)驗(yàn),需要中國(guó)知網(wǎng)等運(yùn)營(yíng)商踐行其國(guó)家知識(shí)基礎(chǔ)服務(wù)工程的初心使命,實(shí)現(xiàn)公益轉(zhuǎn)型,促進(jìn)已有學(xué)術(shù)資源數(shù)據(jù)化、開(kāi)放化。對(duì)于后者,則應(yīng)加大對(duì)古籍修復(fù)、整理和數(shù)字化的投入,集成多種智能技術(shù)手段,推動(dòng)古籍?dāng)?shù)字化工作提質(zhì)增效,以發(fā)揮傳世古籍助力數(shù)字中國(guó)發(fā)展的積極作用(黃少安,等2022)。

2.完善中文概念、術(shù)語(yǔ)資源

語(yǔ)言具有文化和思維屬性,蘊(yùn)含該語(yǔ)言社團(tuán)獨(dú)特的歷史和世界觀(guān),且集中由該語(yǔ)言獨(dú)特的概念、術(shù)語(yǔ)體系所承載(韓震2023)。完善中文概念、術(shù)語(yǔ)體系是構(gòu)建中國(guó)特色話(huà)語(yǔ)體系和傳承中華文化知識(shí)的基礎(chǔ)工作。在應(yīng)用層面,當(dāng)前機(jī)器翻譯在規(guī)范文本上的表現(xiàn)已接近直接可用的水平。但在正確、恰當(dāng)使用中文概念和中國(guó)思想文化術(shù)語(yǔ),精準(zhǔn)表達(dá)中式思想方面,卻還遠(yuǎn)遠(yuǎn)達(dá)不到原生中文的水平。正確、恰當(dāng)使用中文概念和中華思想文化術(shù)語(yǔ)可以說(shuō)是優(yōu)質(zhì)中文語(yǔ)言資源的重要標(biāo)志。為此,相關(guān)部門(mén)應(yīng)加速中文思想文化術(shù)語(yǔ)體系建構(gòu)、闡釋工作,快速整理優(yōu)秀的相關(guān)文獻(xiàn),并匯聚這類(lèi)術(shù)語(yǔ)的經(jīng)典應(yīng)用,形成高度體現(xiàn)中國(guó)文化特色的數(shù)據(jù)資源和知識(shí)資源。

3.做大、做全領(lǐng)域中文資源

基于任務(wù)目標(biāo)領(lǐng)域數(shù)據(jù)進(jìn)行訓(xùn)練,對(duì)語(yǔ)言智能落地起到至關(guān)重要的作用,在預(yù)訓(xùn)練模型范式下,尤其如此。大模型是一種預(yù)訓(xùn)練模型。預(yù)訓(xùn)練模型是已經(jīng)在大規(guī)模通用語(yǔ)料庫(kù)上進(jìn)行過(guò)訓(xùn)練的模型,通常涉及不同領(lǐng)域的通用功能學(xué)習(xí)(李舟軍,等2020)。預(yù)訓(xùn)練模型形成后,就可以作為其他自然語(yǔ)言處理任務(wù)的起點(diǎn)。微調(diào)(fine-tune)是將預(yù)訓(xùn)練模型放到小的特定領(lǐng)域數(shù)據(jù)集上,進(jìn)一步進(jìn)行訓(xùn)練,以在特定任務(wù)上實(shí)現(xiàn)更高的性能。特定領(lǐng)域的數(shù)據(jù)集被用于微調(diào)預(yù)訓(xùn)練模型,因?yàn)樗鼈儼颂囟ㄈ蝿?wù)或行業(yè)的數(shù)據(jù),這些數(shù)據(jù)可以幫助模型學(xué)習(xí)與該領(lǐng)域相關(guān)的特征(車(chē)萬(wàn)翔,等2021)。這一方式極大節(jié)約了計(jì)算資源,提高了數(shù)據(jù)復(fù)用率。

目前,除了面向公眾展示的柴語(yǔ)生系統(tǒng)和GPT–4外,大模型的產(chǎn)業(yè)落地都需要行業(yè)級(jí)和企業(yè)級(jí)的領(lǐng)域、業(yè)務(wù)數(shù)據(jù)。如金融業(yè)的摩根士丹利和彭博社都依托自身業(yè)務(wù)數(shù)據(jù),構(gòu)建了精準(zhǔn)服務(wù)金融問(wèn)答、情緒分析等任務(wù)的大模型;斯坦福大學(xué)依托PubMed醫(yī)學(xué)文獻(xiàn)數(shù)據(jù)集構(gòu)建了專(zhuān)門(mén)服務(wù)生物醫(yī)藥領(lǐng)域的BioMedLM模型。

大模型在具體行業(yè)中實(shí)現(xiàn)提質(zhì)增效,同樣需要優(yōu)質(zhì)、豐富的領(lǐng)域語(yǔ)言資源。目前中國(guó)通用語(yǔ)言資源建設(shè)逐步加速,而領(lǐng)域語(yǔ)言資源的質(zhì)量良莠不齊,規(guī)模大小不一。數(shù)字化程度較高的行業(yè)如信息產(chǎn)業(yè)、金融業(yè)等具有較為豐富的積累,而人文領(lǐng)域、傳統(tǒng)制造業(yè)、農(nóng)林漁牧、基礎(chǔ)教育等行業(yè)的數(shù)據(jù)化程度較低,相應(yīng)的語(yǔ)言資源積累也較為貧乏。因而,強(qiáng)化關(guān)鍵領(lǐng)域語(yǔ)言資源建設(shè),補(bǔ)全空白領(lǐng)域語(yǔ)言資源,應(yīng)成為當(dāng)前階段資源建設(shè)的重點(diǎn)。

領(lǐng)域語(yǔ)言資源不限于語(yǔ)言數(shù)據(jù)、標(biāo)注語(yǔ)料庫(kù),還應(yīng)建設(shè)涵蓋行業(yè)知識(shí)、規(guī)則的領(lǐng)域知識(shí)庫(kù),以提高領(lǐng)域特征學(xué)習(xí)的速度和精度。大部分行業(yè)知識(shí)本身也以語(yǔ)言數(shù)據(jù)的形式呈現(xiàn),所以也可納入語(yǔ)言資源的行列,加以推進(jìn)和規(guī)劃。

三、作為語(yǔ)言資源的大模型使用治理

(一)大模型是一種重要的語(yǔ)言資源

魯伊斯(Ruiz 1984)首創(chuàng)了語(yǔ)言作為資源的規(guī)劃理念。陳章太(2008)更深入地從語(yǔ)言能夠產(chǎn)生社會(huì)效益、經(jīng)濟(jì)效益入手,將其定義為一種可利用的社會(huì)資源。邱質(zhì)樸(1981)等也特別提到語(yǔ)言的資源性與語(yǔ)言能力息息相關(guān)。顯然,這種能力由人經(jīng)語(yǔ)言教育,機(jī)器經(jīng)語(yǔ)言工程所獲得。在信息時(shí)代,這種能力也越來(lái)越多地在語(yǔ)言智能上體現(xiàn)。李宇明(2012)和徐大明(2008)指出,語(yǔ)言及其知識(shí)已經(jīng)成為信息工業(yè)的重要資源,是支撐多樣化語(yǔ)言服務(wù)、形成社會(huì)和國(guó)家語(yǔ)言能力的重要基礎(chǔ)。在信息產(chǎn)業(yè)中,以數(shù)據(jù)形式呈現(xiàn)的資源正在扮演越來(lái)越重要的角色。依照這些研究,語(yǔ)料庫(kù)、語(yǔ)言知識(shí)庫(kù)等被認(rèn)為是重要的語(yǔ)言資源。這些資源仍然以較為自然的語(yǔ)言文字物質(zhì)外殼存在。隨著信息技術(shù)對(duì)標(biāo)注數(shù)據(jù)的需求日益擴(kuò)大,很多語(yǔ)料庫(kù)中的數(shù)據(jù)被以各種形式、按照目標(biāo)任務(wù)需求進(jìn)行標(biāo)注加工。對(duì)文本數(shù)據(jù)而言,常見(jiàn)的分詞、詞性標(biāo)注、命名實(shí)體識(shí)別等是最基本的標(biāo)注,情感、語(yǔ)義、事件、偏誤等復(fù)雜標(biāo)注任務(wù)需求也在快速增長(zhǎng)。對(duì)語(yǔ)音數(shù)據(jù)而言,文本轉(zhuǎn)寫(xiě)、韻律標(biāo)記、話(huà)者分離等也是重要的標(biāo)注項(xiàng)目。這些標(biāo)注工作在原始自然狀態(tài)的語(yǔ)言文字上疊加了標(biāo)注者所給予的任務(wù)知識(shí)。兩者共同發(fā)揮作用,為各類(lèi)自然語(yǔ)言處理算法、模型所利用,最終用以提供語(yǔ)言智能服務(wù)。

在這個(gè)過(guò)程中,語(yǔ)言資源的屬性未被改變,而標(biāo)注資源已經(jīng)逐步脫離了語(yǔ)言文字的自然狀態(tài)。將大規(guī)模語(yǔ)言文字?jǐn)?shù)據(jù)進(jìn)一步抽象、加工,提取其特征和規(guī)律,即構(gòu)成基于語(yǔ)言數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò)。進(jìn)一步,這一神經(jīng)網(wǎng)絡(luò)可以在具體任務(wù)中代替自然形態(tài)的語(yǔ)言數(shù)據(jù),成為開(kāi)發(fā)者使用的基礎(chǔ),并再基于此進(jìn)行微調(diào)。在此過(guò)程中,神經(jīng)網(wǎng)絡(luò)就充當(dāng)了傳統(tǒng)自然語(yǔ)言處理任務(wù)中訓(xùn)練語(yǔ)料的角色。因而,神經(jīng)網(wǎng)絡(luò)在此也就可以被視作一種特殊的語(yǔ)言資源:它是語(yǔ)言資源,因其依賴(lài)于語(yǔ)言數(shù)據(jù)而形成,蘊(yùn)含語(yǔ)言特征、規(guī)律和知識(shí),并服務(wù)語(yǔ)言智能;它又較為特殊,因?yàn)樗淹耆撾x了語(yǔ)言文字的自然狀態(tài),呈現(xiàn)為一種僅對(duì)機(jī)器可讀的狀態(tài)。

今天的大模型正是這種神經(jīng)網(wǎng)絡(luò)集成后的形態(tài)。大模型作為一種高級(jí)的語(yǔ)言資源加工形式,在實(shí)踐中成為更多上層應(yīng)用的基礎(chǔ)資源,具體表現(xiàn)為知識(shí)中間件和語(yǔ)言服務(wù)中間件兩種形式。(1)作為知識(shí)中間件。大模型以神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的形式包含了從語(yǔ)言資源中獲取的特征、規(guī)律和知識(shí),可以被視作“語(yǔ)言知識(shí)壓縮包”。相較于傳統(tǒng)搜索引擎,大模型支持以自然語(yǔ)言的形式進(jìn)行交互,并可以將其訓(xùn)練語(yǔ)料中離散的信息,加以銜接和重組,生成合適的知識(shí)反饋。各類(lèi)知識(shí)服務(wù)可以基于這一功能進(jìn)行開(kāi)發(fā),如智能問(wèn)答、輔助決策、摘要匯總等。(2)作為語(yǔ)言服務(wù)中間件。從語(yǔ)言服務(wù)的角度來(lái)看,大型深度學(xué)習(xí)模型又可以發(fā)揮中間件的作用,利用其強(qiáng)大的語(yǔ)言理解和生成能力,在其上搭建面向具體任務(wù)的語(yǔ)言服務(wù)項(xiàng)目,如翻譯、文案撰寫(xiě)、陪聊等。

(二)大模型是國(guó)家語(yǔ)言能力的重要體現(xiàn)

語(yǔ)言信息處理技術(shù)和相關(guān)智能服務(wù)是國(guó)家語(yǔ)言能力的重要組成部分(李宇明2021;文秋芳2016),相應(yīng)地,語(yǔ)言智能服務(wù)的質(zhì)量和規(guī)模也是國(guó)家語(yǔ)言能力的體現(xiàn)。且大模型對(duì)語(yǔ)料、數(shù)據(jù)化能力、算力、算法提出了巨大挑戰(zhàn),涉及語(yǔ)言人才、產(chǎn)業(yè)、教育和規(guī)劃、技術(shù)等諸多方面,是綜合國(guó)力的體現(xiàn)。具體而言,大規(guī)模語(yǔ)言模型背后凸顯了對(duì)語(yǔ)言資源、算力和算法等方面的要求。

首先,語(yǔ)言資源是大模型研制的基礎(chǔ)。大模型需要包含大量的語(yǔ)言表達(dá)和場(chǎng)景,具備足夠的廣度和深度,來(lái)為大模型提供充足的訓(xùn)練數(shù)據(jù)。其次,大模型需要龐大的算力支撐。高達(dá)萬(wàn)億參數(shù)規(guī)模的模型訓(xùn)練、迭代,需要強(qiáng)大的計(jì)算資源來(lái)訓(xùn)練和優(yōu)化這些參數(shù)。例如,使用大規(guī)模集群和分布式算法確保模型能夠高效地訓(xùn)練和優(yōu)化。此過(guò)程中耗費(fèi)的GPU芯片數(shù)量、服務(wù)器機(jī)時(shí)乃至電力,都已進(jìn)入“大科學(xué)工程”的范疇,考驗(yàn)國(guó)家的工業(yè)化和信息化實(shí)力。最后,大模型對(duì)算法的要求也更高。對(duì)于大規(guī)模多源異構(gòu)數(shù)據(jù),需要使用更為先進(jìn)的算法來(lái)提高模型的性能。

(三)大模型使用的治理

作為語(yǔ)言資源的大模型同樣也需要作為語(yǔ)言資源來(lái)治理,以發(fā)揮其最大紅利。資源治理包括資源的標(biāo)準(zhǔn)化與共享、資源的評(píng)價(jià)和資源使用的倫理法規(guī)建設(shè)等重要方面。我們也按此簡(jiǎn)要探討大模型治理的方向和路徑。

1.大模型的標(biāo)準(zhǔn)化

大模型研制成本高昂,由業(yè)務(wù)單位或個(gè)人自行開(kāi)發(fā)并不現(xiàn)實(shí)。以云端服務(wù),調(diào)用接口(API)的形式提供服務(wù),是目前和未來(lái)一段時(shí)間的主流模式。同時(shí),大模型技術(shù)在主要工業(yè)化國(guó)家間擴(kuò)散,面向各種技術(shù)方案、領(lǐng)域服務(wù)、語(yǔ)種、資源的多樣化實(shí)踐將在短時(shí)間內(nèi)快速出現(xiàn)。各類(lèi)大模型的基礎(chǔ)理論上差異較小,技術(shù)實(shí)現(xiàn)各具特色,訓(xùn)練數(shù)據(jù)的語(yǔ)種、領(lǐng)域、規(guī)模各有選擇,大模型產(chǎn)品市場(chǎng)由此快速形成。這對(duì)大模型接口和服務(wù)的標(biāo)準(zhǔn)化提出了要求。

大模型服務(wù)的標(biāo)準(zhǔn)化應(yīng)著重于服務(wù)接口的調(diào)用方式、模型微調(diào)方式、數(shù)據(jù)格式和系統(tǒng)交互方法等方面,應(yīng)豐富面向各種編程語(yǔ)言的標(biāo)準(zhǔn)接口和標(biāo)準(zhǔn)庫(kù)。基于此,還應(yīng)尋求構(gòu)建協(xié)議框架,開(kāi)發(fā)各具特色的服務(wù)接口,推動(dòng)建立行業(yè)標(biāo)準(zhǔn),在最大程度上助力基于大模型的智能技術(shù)的二次開(kāi)發(fā)工作。

2.大模型的評(píng)測(cè)

大規(guī)模預(yù)訓(xùn)練模型的評(píng)測(cè)是評(píng)估這些模型效果的關(guān)鍵環(huán)節(jié),也是形成大模型應(yīng)用服務(wù)時(shí)長(zhǎng)的重要基礎(chǔ)。預(yù)訓(xùn)練模型的評(píng)測(cè)可以通過(guò)兩種方法:人工評(píng)測(cè)和基準(zhǔn)測(cè)試。前者可以深入了解用戶(hù)體驗(yàn),并對(duì)模型的交互性能進(jìn)行全面評(píng)估,更全面地評(píng)價(jià)模型的表現(xiàn),但耗時(shí)長(zhǎng),效率低?,F(xiàn)在更多采取基準(zhǔn)測(cè)試的方式,即使用一系列可自動(dòng)評(píng)價(jià)的測(cè)試任務(wù),例如自然語(yǔ)言推理任務(wù)、問(wèn)答任務(wù)、閱讀理解、錯(cuò)誤修改等常見(jiàn)的任務(wù),并在這些任務(wù)上比較不同模型之間的精度和效率。基準(zhǔn)測(cè)試的優(yōu)勢(shì)在于可以快速確定模型的主要性能。此外,基準(zhǔn)測(cè)試問(wèn)題集的使用將使各種模型之間的比較具有客觀(guān)性。

在逐步形成的大模型應(yīng)用服務(wù)市場(chǎng)中,基礎(chǔ)模型性能的評(píng)測(cè)應(yīng)以客觀(guān)基準(zhǔn)評(píng)測(cè)為主,在具體服務(wù)項(xiàng)目上引入主觀(guān)人工評(píng)測(cè)。在安全、能源、交通等關(guān)鍵領(lǐng)域應(yīng)結(jié)合兩者。對(duì)評(píng)測(cè)事務(wù)的規(guī)劃應(yīng)著力于基準(zhǔn)評(píng)測(cè)中的任務(wù)項(xiàng)目規(guī)劃與任務(wù)數(shù)據(jù)集建設(shè)。任務(wù)項(xiàng)目應(yīng)充分覆蓋(中文)語(yǔ)言能力的主要側(cè)面,如推理、問(wèn)答、糾錯(cuò)、陪聊等。各項(xiàng)目的測(cè)試數(shù)據(jù)集應(yīng)采樣科學(xué)、平衡,具有代表性,注意隨時(shí)更新維護(hù)(董青秀,等2021)。此外,評(píng)測(cè)中不可缺少的是安全倫理測(cè)試。大模型生成內(nèi)容中不應(yīng)包含帶有歧視性、侮辱性等倫理風(fēng)險(xiǎn)的內(nèi)容,不能生成有違國(guó)家法律法規(guī)和社會(huì)公序良俗的內(nèi)容。

3.大模型使用的倫理

隨著大規(guī)模預(yù)訓(xùn)練模型的普及,其所涉及的倫理問(wèn)題也越來(lái)越受到關(guān)注。大部分倫理問(wèn)題與數(shù)據(jù)相關(guān),并適用于語(yǔ)言數(shù)據(jù)安全的相關(guān)理論(王春輝2022a)。當(dāng)前較為主要的問(wèn)題有以下幾類(lèi)。(1)隱私問(wèn)題:大模型依賴(lài)海量訓(xùn)練數(shù)據(jù),這就需要收集眾多用戶(hù)數(shù)據(jù)。其中可能包含用戶(hù)的私人信息,如郵件、密碼、地址等,這涉及隱私泄露問(wèn)題。(2)偏見(jiàn)和歧視問(wèn)題:大規(guī)模預(yù)訓(xùn)練模型可以學(xué)習(xí)到語(yǔ)言的模式和結(jié)構(gòu),但也可能學(xué)習(xí)到語(yǔ)言中帶有偏見(jiàn)、歧視等的不良信息,進(jìn)而在模型服務(wù)中產(chǎn)生隱患。(3)安全問(wèn)題:大模型的功能越來(lái)越強(qiáng)大,攻擊者可能會(huì)利用大模型進(jìn)行惡意活動(dòng),如網(wǎng)絡(luò)釣魚(yú)、社交攻擊、認(rèn)知作戰(zhàn)等。(4)社會(huì)分工問(wèn)題:大模型的廣泛應(yīng)用必然會(huì)取代眾多人力勞動(dòng)。如何化解“羊吃人”問(wèn)題,嚴(yán)重依賴(lài)大模型是否會(huì)削弱人類(lèi)語(yǔ)言能力,都值得探討。

對(duì)于這些倫理爭(zhēng)議,我們認(rèn)為應(yīng)當(dāng)將倫理規(guī)制主要集中于開(kāi)發(fā)者、使用者、使用行為和使用場(chǎng)景4個(gè)方面。

在開(kāi)發(fā)者方面,大模型應(yīng)在互聯(lián)網(wǎng)開(kāi)放、共享精神的激勵(lì)下,以適宜的商業(yè)模式,盡量擴(kuò)大知識(shí)服務(wù)人群的范圍。全社會(huì)的語(yǔ)言和知識(shí)資源是大模型存在的基礎(chǔ)。利用這些開(kāi)放資源研發(fā)的大模型,理應(yīng)以服務(wù)形式回饋全社會(huì)。大模型的開(kāi)發(fā)應(yīng)彌合而非加大知識(shí)鴻溝。

在使用者方面,大模型應(yīng)為全社會(huì)所有適齡成員使用。但使用者仍需明確了解大模型的工具屬性和目的,以及善意、良好的使用方式。他們需要被告知大模型背后的數(shù)據(jù)來(lái)源、處理方式,以及可能存在的倫理問(wèn)題,并承擔(dān)相應(yīng)的使用后果。

在使用行為方面,政府、企業(yè)和機(jī)構(gòu)應(yīng)積極引導(dǎo)制定規(guī)范,預(yù)防大模型的誤用、濫用和惡意使用。中國(guó)學(xué)者2019年發(fā)出的《推進(jìn)智能寫(xiě)作健康發(fā)展宣言》和政府2023年1月實(shí)施的《互聯(lián)網(wǎng)信息服務(wù)深度合成管理規(guī)定》就規(guī)定,生成式模型在使用時(shí)應(yīng)當(dāng)進(jìn)行顯著標(biāo)識(shí),避免公眾將生成模型產(chǎn)生的結(jié)果與人類(lèi)行為相混淆;不得制作、復(fù)制、發(fā)布、傳播法律和行政法規(guī)禁止的信息等。這是對(duì)使用行為規(guī)制的具體落實(shí),為后續(xù)探索更加全面的大模型治理奠定了基礎(chǔ)。

在使用場(chǎng)景方面,大模型的使用需要至少遵循公平、安全、以人類(lèi)為中心等原則。大模型不得用于對(duì)人類(lèi)能力進(jìn)行篩選和考評(píng)的場(chǎng)合,以免破壞公平性。“以人類(lèi)為中心”的原則尤其需要強(qiáng)調(diào):大模型不應(yīng)干擾人類(lèi)能力的發(fā)展,如不得在兒童和青少年關(guān)鍵能力發(fā)育和養(yǎng)成期,代替他們進(jìn)行有關(guān)能力發(fā)展的實(shí)踐等。

四、結(jié) 論

大模型的出現(xiàn)和應(yīng)用,對(duì)語(yǔ)言學(xué)、語(yǔ)言產(chǎn)業(yè)都提出了挑戰(zhàn)。大模型的出現(xiàn)要求語(yǔ)言研究更多關(guān)注語(yǔ)言資源建設(shè)、語(yǔ)言知識(shí)表達(dá)和相應(yīng)的語(yǔ)言倫理問(wèn)題。這些將共同構(gòu)成數(shù)智時(shí)代最重要的語(yǔ)言研究話(huà)題。而在大模型幫助下,人機(jī)共生的語(yǔ)言生活快速發(fā)展。這進(jìn)一步拓寬了語(yǔ)言治理研究的視野,增添新的研究議題,并將在一定程度上改變其研究范式。

在眾多研究取向中,我們采取了語(yǔ)言資源的視角關(guān)注大模型治理的問(wèn)題。大模型作為未來(lái)重要的知識(shí)服務(wù)基礎(chǔ)設(shè)施,其訓(xùn)練數(shù)據(jù)的規(guī)模、質(zhì)量決定了其服務(wù)性能。這也在很大程度上影響了中國(guó)語(yǔ)言文化在未來(lái)語(yǔ)言生活中的地位。破除中文數(shù)據(jù)孤島、強(qiáng)化世界知識(shí)中文表達(dá)應(yīng)引起全社會(huì)的重視。此外,大模型自身也是一種基礎(chǔ)語(yǔ)言資源,提供知識(shí)服務(wù)和語(yǔ)言服務(wù)。因此,對(duì)大模型的治理應(yīng)遵循語(yǔ)言資源治理的諸多原則,即從標(biāo)準(zhǔn)化、評(píng)價(jià)和倫理規(guī)制等方面入手。李宇明等(2020)曾提出應(yīng)創(chuàng)立機(jī)器語(yǔ)言行為學(xué)。這極具先見(jiàn)之明,值得學(xué)術(shù)界和產(chǎn)業(yè)界同人進(jìn)行更深入的探索。

參考文獻(xiàn)

車(chē)萬(wàn)翔,郭 江,崔一鳴 2021 《自然語(yǔ)言處理:基于預(yù)訓(xùn)練模型的方法》,北京:電子工業(yè)出版社。

陳章太 2008 《論語(yǔ)言資源》,《語(yǔ)言文字應(yīng)用》第1期。

董青秀,穗志方,詹衛(wèi)東,等 2021 《自然語(yǔ)言處理評(píng)測(cè)中的問(wèn)題與對(duì)策》,《中文信息學(xué)報(bào)》第6期。

馮志偉,張燈柯,饒高琦 2023 《從圖靈測(cè)試到ChatGPT——人機(jī)對(duì)話(huà)的里程碑及啟示》,《語(yǔ)言戰(zhàn)略研究》第2期。

韓 震 2023 《從思想文化術(shù)語(yǔ)看中國(guó)語(yǔ)言文化的傳承發(fā)展》,《中國(guó)科技術(shù)語(yǔ)》第2期。

黃少安,汪張龍,宋 暉,等 2022 《“語(yǔ)言數(shù)據(jù)與數(shù)字經(jīng)濟(jì)”多人談》,《語(yǔ)言戰(zhàn)略研究》第4期。

李希明,梁蜀忠,蘇春萍 2003 《淺談信息孤島的消除對(duì)策》,《情報(bào)雜志》第3期。

李宇明 2012 《當(dāng)代中國(guó)語(yǔ)言生活中的問(wèn)題》,《中國(guó)社會(huì)科學(xué)》第9期。

李宇明 2021 《試論個(gè)人語(yǔ)言能力和國(guó)家語(yǔ)言能力》,《語(yǔ)言文字應(yīng)用》第3期。

李宇明 2022 《語(yǔ)言規(guī)劃學(xué)說(shuō)略》,《辭書(shū)研究》第1期。

李宇明,王春輝 2018 《全球視域中的漢語(yǔ)功能》,《云南師范大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版)》第5期。

李宇明,王春輝 2020 《科研生產(chǎn)力與中文首發(fā)制度》,《語(yǔ)言戰(zhàn)略研究》第2期。

李宇明,朱海平 2020 《論中國(guó)語(yǔ)言測(cè)試學(xué)的發(fā)展》,《語(yǔ)言文字應(yīng)用》第3期。

李舟軍,范 宇,吳賢杰 2020 《面向自然語(yǔ)言處理的預(yù)訓(xùn)練技術(shù)研究綜述》,《計(jì)算機(jī)科學(xué)》第3期。

邱質(zhì)樸 1981 《試論語(yǔ)言資源的開(kāi)發(fā)——兼論漢語(yǔ)面向世界問(wèn)題》,《語(yǔ)言教學(xué)與研究》第3期。

饒高琦,夏恩賞,李 琪 2020 《近10年國(guó)際學(xué)術(shù)論文中的語(yǔ)言選擇和中文使用情況分析研究》,《語(yǔ)言文字應(yīng)用》第2期。

譚作文,張連福 2020 《機(jī)器學(xué)習(xí)隱私保護(hù)研究綜述》,《軟件學(xué)報(bào)》第7期。

汪品先 2015 《漢語(yǔ)被擠出科學(xué),還是科學(xué)融入漢語(yǔ)?》,《文匯報(bào)》2月27日第6版。

王春輝 2022a 《語(yǔ)言數(shù)據(jù)安全論》,《語(yǔ)言戰(zhàn)略研究》第7期。

王春輝 2022b 《數(shù)字時(shí)代語(yǔ)言倫理的新形態(tài)和新表現(xiàn)》,《社會(huì)科學(xué)戰(zhàn)線(xiàn)》第12期。

王 昊 2023 《可用數(shù)據(jù)存量不足,還能怎樣向AI模型注入人類(lèi)智能?》,CSDN,2023年3月21日。https://mp.weixin.qq.com/s/GZ5t7QSY7kivZwA8KO3M_A。

文秋芳 2016 《國(guó)家語(yǔ)言能力的內(nèi)涵及其評(píng)價(jià)指標(biāo)》,《云南師范大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版)》第2期。

徐大明 2008 《語(yǔ)言資源管理規(guī)劃及語(yǔ)言資源議題》,《鄭州大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版)》第1期。

張華平,李林翰,李春錦 2023 《ChatGPT中文性能測(cè)評(píng)與風(fēng)險(xiǎn)應(yīng)對(duì)》,《數(shù)據(jù)分析與知識(shí)發(fā)現(xiàn)》第3期。

Davenport, T. H. 1998. Putting the enterprise into the enterprise system. Harvard Business Review 76(4), 121–131.

Nanda, N., L. Chan, T. Lieberum, et al. Progress measures for grokking via mechanistic interpretability. arXiv:2301.05217v2.

Ruiz, R. 1984. Orientations in language planning. NABE Journal 8(2), 15–34.

Wei, J., Y. Tay, R. Bommasani, et al. 2022. Emergent abilities of large language models. Transactions on Machine Learning Research. arXiv:2206.07682.

Yang, Q., Y. Liu, T. Chen, et al. 2019. Federated machine learning: Concept and applications. ACM Transactions on Intelligent Systems and Technology 10(2), 1–19.

責(zé)任編輯:魏曉明

古丈县| 东安县| 钟山县| 三台县| 桂阳县| 永清县| 大方县| 红桥区| 中方县| 隆德县| 克什克腾旗| 昭通市| 乌兰县| 淄博市| 安徽省| 郎溪县| 东阳市| 南京市| 大港区| 桑日县| 龙门县| 松阳县| 武功县| 瑞丽市| 许昌市| 太原市| 咸阳市| 浦江县| 玉门市| 曲阜市| 土默特左旗| 贞丰县| 沿河| 泰顺县| 汶川县| 确山县| 米易县| 朝阳区| 禄劝| 嘉义县| 连南|