李宇明
( 首都師范大學(xué) 文學(xué)院,北京,100089 )
數(shù)據(jù)(data)是觀察客觀世界和人類社會得到的各種原始素材,通過對素材的加工處理獲取信息、建構(gòu)知識、生發(fā)思想。人類社會自形成以來就有數(shù)據(jù)存在,并為人類知識體系和思想觀念的形成發(fā)展不斷作出貢獻(xiàn)。隨著計算機(jī)的產(chǎn)生和發(fā)展,數(shù)據(jù)的作用更加重要,科學(xué)地位更加凸顯,社會也對其更加重視。在計算機(jī)科學(xué)中,所有能輸入計算機(jī)并被計算機(jī)程序處理的符號,都可稱之為數(shù)據(jù),包括數(shù)字、文字、符號、語音、圖像、視頻,等等。計算機(jī)所形成的網(wǎng)絡(luò),為社會構(gòu)建了一個虛擬的網(wǎng)絡(luò)空間;計算機(jī)在數(shù)據(jù)收集、處理上表現(xiàn)出強(qiáng)大功能,特別是通過大數(shù)據(jù)學(xué)習(xí)而不斷挖掘知識、獲取智能,促進(jìn)人工智能的快速發(fā)展和廣泛的社會應(yīng)用,突出了數(shù)據(jù)的科學(xué)意義。2019年10月,黨的十九屆四中全會將數(shù)據(jù)與勞動、資本、土地、知識、技術(shù)、管理并列為第七大生產(chǎn)要素,作為生產(chǎn)要素的數(shù)據(jù)可以通過市場“按貢獻(xiàn)取酬”。這是重大的理論創(chuàng)新,體現(xiàn)著對信息化社會的本質(zhì)認(rèn)識,也是社會進(jìn)入“數(shù)據(jù)時代”的標(biāo)志。本文討論數(shù)據(jù)作為生產(chǎn)要素的意義、語言數(shù)據(jù)與生產(chǎn)要素的關(guān)系、語言智能與人類正在建造的“第三空間”、數(shù)據(jù)時代的語言產(chǎn)業(yè)問題等。目的在于認(rèn)識語言數(shù)據(jù)在數(shù)字經(jīng)濟(jì)發(fā)展中的意義,語言學(xué)要以新文科的思路為數(shù)據(jù)時代培養(yǎng)人才。
數(shù)據(jù)的價值首先被科學(xué)家所認(rèn)識,特別是被計算機(jī)專家和信息專家所認(rèn)識。計算機(jī)與信息科學(xué)是當(dāng)今的先鋒學(xué)科,對社會發(fā)展影響巨大,當(dāng)今政府常會關(guān)注這類學(xué)科的發(fā)展動向,并及時利用公權(quán)力支持這些學(xué)科的發(fā)展,以便為本國的經(jīng)濟(jì)社會發(fā)展贏得機(jī)遇。因此,政府也會從這些學(xué)科領(lǐng)域認(rèn)識到數(shù)據(jù)的價值,數(shù)據(jù)的意義由此從科技領(lǐng)域轉(zhuǎn)入社會領(lǐng)域。
政府對于數(shù)據(jù)的認(rèn)識,可以分為兩個層面:第一,推進(jìn)科學(xué)技術(shù)發(fā)展;第二,推進(jìn)經(jīng)濟(jì)社會發(fā)展。第一層認(rèn)識的結(jié)果是加大科技投入,改進(jìn)科技政策;第二層認(rèn)識會在第一層認(rèn)識和行動的基礎(chǔ)上,進(jìn)而改進(jìn)經(jīng)濟(jì)發(fā)展政策和社會經(jīng)濟(jì)分配政策。政府的這兩個認(rèn)識層面,也代表著數(shù)據(jù)認(rèn)識的兩個階段。當(dāng)政府有了第二個層面的認(rèn)識,看到數(shù)據(jù)的生產(chǎn)要素性質(zhì)時,社會就進(jìn)入了“數(shù)據(jù)時代”。
在移動網(wǎng)絡(luò)和人工智能快速發(fā)展的時代,各國政府都十分關(guān)注數(shù)據(jù)及其相關(guān)問題,積極采取一系列與數(shù)據(jù)相關(guān)的政府行動。有學(xué)者曾較為全面地介紹過這方面的情況(1)陸儉明:《順應(yīng)科技發(fā)展的大趨勢語言研究必須逐步走上數(shù)字化之路》,《外國語》2020年第4期。:
2017年3月,英國發(fā)布《英國數(shù)字化戰(zhàn)略》,提出要釋放數(shù)據(jù)在英國經(jīng)濟(jì)中的重要力量,提高公眾對數(shù)據(jù)使用的信心。2018年,英國又發(fā)布《數(shù)字憲章》《產(chǎn)業(yè)戰(zhàn)略:人工智能領(lǐng)域行動》《國家計量戰(zhàn)略實施計劃》等。2018年,美國發(fā)布《數(shù)據(jù)科學(xué)戰(zhàn)略計劃》《美國國家網(wǎng)絡(luò)戰(zhàn)略》《美國先進(jìn)制造業(yè)領(lǐng)導(dǎo)力戰(zhàn)略》等;歐盟發(fā)布《歐盟人工智能戰(zhàn)略》《通用數(shù)據(jù)保護(hù)條例》《非個人數(shù)據(jù)在歐盟境內(nèi)自由流動框架條例》《促進(jìn)人工智能在歐洲發(fā)展和應(yīng)用的協(xié)調(diào)行動計劃》等;法國發(fā)布《法國人工智能發(fā)展戰(zhàn)略》《5G發(fā)展路線圖》《利用數(shù)字技術(shù)促進(jìn)工業(yè)轉(zhuǎn)型的方案》等;德國發(fā)布《聯(lián)邦政府人工智能戰(zhàn)略要點(diǎn)》《人工智能德國制造》《高技術(shù)戰(zhàn)略2025》等。
2015年7月,印度提出“數(shù)字印度”倡議,計劃以“印度制造”和“數(shù)字印度”兩駕馬車馱載國家未來。2017年7月,俄羅斯發(fā)布《俄羅斯聯(lián)邦數(shù)字經(jīng)濟(jì)規(guī)劃》。韓國早就提出要建設(shè)“數(shù)字政府”,要求管理網(wǎng)絡(luò)化、辦公自動化、政務(wù)公開化、運(yùn)行程序優(yōu)化,從而使政府決策科學(xué)化、社會治理精準(zhǔn)化、公共服務(wù)高效化、政府治理民主化。2017年,韓國行政自治部和信息化振興院共同發(fā)布《2017年電子政府10大技術(shù)趨勢》,宣布將數(shù)字政府逐漸發(fā)展成為結(jié)合數(shù)據(jù)分析、機(jī)器人技術(shù)、提供更周到服務(wù)的“以數(shù)據(jù)為中心的政府”。2018年,日本發(fā)布《日本制造業(yè)白皮書》《綜合創(chuàng)新戰(zhàn)略》《集成創(chuàng)新戰(zhàn)略》《第2期戰(zhàn)略性創(chuàng)新推進(jìn)計劃(SIP)》等,詳細(xì)闡述了推動數(shù)字科技和數(shù)字經(jīng)濟(jì)發(fā)展的行動方案。這些行動方案,充滿著“數(shù)據(jù)、數(shù)字、智能”等字眼。
前述各國政府的“數(shù)據(jù)行動”,其認(rèn)識基本上還都在推進(jìn)科學(xué)技術(shù)發(fā)展的第一層面,但也開始觸及推進(jìn)經(jīng)濟(jì)社會發(fā)展的第二層面,但并未明確把數(shù)據(jù)列入生產(chǎn)要素。生產(chǎn)要素的認(rèn)定,與生產(chǎn)力發(fā)展水平和經(jīng)濟(jì)制度密切相關(guān),也與人們的思想認(rèn)識水平相關(guān)。一方面,數(shù)據(jù)具有生產(chǎn)要素的性質(zhì),只有信息化發(fā)展到一定階段才能成為現(xiàn)實,才能被人認(rèn)識;另一方面,只有對信息化社會經(jīng)濟(jì)發(fā)展形態(tài)具有洞察力的社會集團(tuán),才能率先認(rèn)識,及早布局。
2017年12月8日,習(xí)近平同志在中共中央政治局第二次集體學(xué)習(xí)時提出:“要構(gòu)建以數(shù)據(jù)為關(guān)鍵要素的數(shù)字經(jīng)濟(jì)。建設(shè)現(xiàn)代化經(jīng)濟(jì)體系離不開大數(shù)據(jù)發(fā)展和應(yīng)用。我們要堅持以供給側(cè)結(jié)構(gòu)性改革為主線,加快發(fā)展數(shù)字經(jīng)濟(jì),推動實體經(jīng)濟(jì)和數(shù)字經(jīng)濟(jì)融合發(fā)展,推動互聯(lián)網(wǎng)、大數(shù)據(jù)、人工智能同實體經(jīng)濟(jì)深度融合,繼續(xù)做好信息化和工業(yè)化深度融合這篇大文章,推動制造業(yè)加速向數(shù)字化、網(wǎng)絡(luò)化、智能化發(fā)展。要深入實施工業(yè)互聯(lián)網(wǎng)創(chuàng)新發(fā)展戰(zhàn)略,系統(tǒng)推進(jìn)工業(yè)互聯(lián)網(wǎng)基礎(chǔ)設(shè)施和數(shù)據(jù)資源管理體系建設(shè),發(fā)揮數(shù)據(jù)的基礎(chǔ)資源作用和創(chuàng)新引擎作用,加快形成以創(chuàng)新為主要引領(lǐng)和支撐的數(shù)字經(jīng)濟(jì)。”(2)《習(xí)近平主持中共中央政治局第二次集體學(xué)習(xí)》,中華人民共和國中央人民政府網(wǎng)站:http://www.gov.cn/guowuyuan/2017-12/09/content_5245520.htm。這段話有兩層意思:第一,數(shù)據(jù)是數(shù)字經(jīng)濟(jì)的關(guān)鍵要素;第二,如何發(fā)展數(shù)字經(jīng)濟(jì)。這些論述已經(jīng)超越了為推進(jìn)科學(xué)技術(shù)發(fā)展而關(guān)注數(shù)據(jù),而是將數(shù)據(jù)問題向經(jīng)濟(jì)制度方向引領(lǐng)。
2018年4月13日,“首屆數(shù)字中國建設(shè)峰會”的數(shù)字經(jīng)濟(jì)分論壇在福州召開。2018年5月26—29日,中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會在貴陽舉行。2018年9月25日,江蘇互聯(lián)網(wǎng)大會在南京舉行。2019年12月10日,第六屆中國國際大數(shù)據(jù)大會在北京舉行。這些會議都突出了“數(shù)據(jù)是數(shù)字經(jīng)濟(jì)的關(guān)鍵要素”這一話題。特別是2018江蘇互聯(lián)網(wǎng)大會,工業(yè)和信息化部總經(jīng)濟(jì)師王新哲到會致辭。王新哲在致辭中強(qiáng)調(diào):“以數(shù)據(jù)作為關(guān)鍵生產(chǎn)要素的數(shù)字經(jīng)濟(jì)正在成為繼農(nóng)業(yè)經(jīng)濟(jì)、工業(yè)經(jīng)濟(jì)之后的新型經(jīng)濟(jì)形態(tài)。”至此,人們確認(rèn)了兩個基本認(rèn)識:第一,數(shù)字經(jīng)濟(jì)是繼農(nóng)業(yè)經(jīng)濟(jì)、工業(yè)經(jīng)濟(jì)之后的新型經(jīng)濟(jì)形態(tài);第二,數(shù)字經(jīng)濟(jì)的關(guān)鍵生產(chǎn)要素是數(shù)據(jù)。
2019年10月28—31日,黨的十九屆四中全會召開。全會提出,“健全勞動、資本、土地、知識、技術(shù)、管理、數(shù)據(jù)等生產(chǎn)要素由市場評價貢獻(xiàn)、按貢獻(xiàn)決定報酬的機(jī)制”。這是對數(shù)據(jù)具有生產(chǎn)要素性質(zhì)的首次明確表述,把數(shù)據(jù)與勞動、資本、土地、知識、技術(shù)、管理并列為第七大生產(chǎn)要素,可以通過市場按貢獻(xiàn)取酬。這是重大的理論創(chuàng)新,體現(xiàn)著對信息化社會的本質(zhì)認(rèn)識,是在數(shù)字經(jīng)濟(jì)快速發(fā)展背景下經(jīng)濟(jì)制度的與時俱進(jìn)。
2020年3月30日,《中共中央國務(wù)院關(guān)于構(gòu)建更加完善的要素市場化配置體制機(jī)制的意見》(以下簡稱《意見》)發(fā)布,主要對土地、勞動力、資本、技術(shù)、數(shù)據(jù)等要素的市場配置提出了要求。(3)中共中央、國務(wù)院:《關(guān)于構(gòu)建更加完善的要素市場化配置體制機(jī)制的意見》,中華人民共和國中央人民政府網(wǎng)站:http://www.gov.cn/zhengce/2020-04/09/content_5500622.htm。在第六款“加快培育數(shù)據(jù)要素市場”中,《意見》提出了三條:“(二十)推進(jìn)政府?dāng)?shù)據(jù)開放共享。”“(二十一)提升社會數(shù)據(jù)資源價值。培育數(shù)字經(jīng)濟(jì)新產(chǎn)業(yè)、新業(yè)態(tài)和新模式,支持構(gòu)建農(nóng)業(yè)、工業(yè)、交通、教育、安防、城市管理、公共資源交易等領(lǐng)域規(guī)范化數(shù)據(jù)開發(fā)利用的場景。發(fā)揮行業(yè)協(xié)會商會作用,推動人工智能、可穿戴設(shè)備、車聯(lián)網(wǎng)、物聯(lián)網(wǎng)等領(lǐng)域數(shù)據(jù)采集標(biāo)準(zhǔn)化。”“(二十二)加強(qiáng)數(shù)據(jù)資源整合和安全保護(hù)。探索建立統(tǒng)一規(guī)范的數(shù)據(jù)管理制度,提高數(shù)據(jù)質(zhì)量和規(guī)范性,豐富數(shù)據(jù)產(chǎn)品。研究根據(jù)數(shù)據(jù)性質(zhì)完善產(chǎn)權(quán)性質(zhì)。制定數(shù)據(jù)隱私保護(hù)制度和安全審查制度。推動完善適用于大數(shù)據(jù)環(huán)境下的數(shù)據(jù)分類分級安全保護(hù)制度,加強(qiáng)對政務(wù)數(shù)據(jù)、企業(yè)商業(yè)秘密和個人數(shù)據(jù)的保護(hù)。”第七款第二十五條規(guī)定,“充分體現(xiàn)技術(shù)、知識、管理、數(shù)據(jù)等要素的價值”;第八款第二十六條規(guī)定,“引導(dǎo)培育大數(shù)據(jù)交易市場,依法合規(guī)開展數(shù)據(jù)交易”。
《意見》是在“數(shù)據(jù)是生產(chǎn)要素”的判斷之下作出的生產(chǎn)要素市場化的安排,不僅為數(shù)據(jù)作用的充分發(fā)揮創(chuàng)造了有利的市場配置的體制機(jī)制與環(huán)境,而且也加固、加深了“數(shù)據(jù)是生產(chǎn)要素”的認(rèn)識。
人類觀察世界所形成的數(shù)據(jù),可供計算機(jī)處理的數(shù)據(jù),80%都是語言數(shù)據(jù),故而語言數(shù)據(jù)是最為重要的數(shù)據(jù)。語言與其他生產(chǎn)要素,如勞動、資本、知識、技術(shù)、管理等,也有密切關(guān)系。認(rèn)識語言與生產(chǎn)要素的關(guān)系,有利于在數(shù)據(jù)時代自覺地、最大限度地獲取語言紅利,對于語言學(xué)研究和語言學(xué)人才培養(yǎng)也具有重大意義。
數(shù)據(jù)是信息的表現(xiàn)形式,亦是信息載體。隨著科技與社會的進(jìn)步,數(shù)據(jù)的內(nèi)涵和外延都在發(fā)生變化,甚至是重大變化。但有一點(diǎn)可以肯定,那就是多數(shù)數(shù)據(jù)都是語言數(shù)據(jù)。語言數(shù)據(jù)主要包括如下4類內(nèi)容:1.語言的符號系統(tǒng)。包括:語音系統(tǒng)、語匯系統(tǒng)、語法系統(tǒng);文字系統(tǒng);標(biāo)點(diǎn)符號;注音符號等。2.語言負(fù)載的信息。語言包括口語、書面語、語言參與的音頻、視頻文件等,它們記錄、負(fù)載各種信息。3.由語言延伸的各種符號與代碼。如盲文、聾啞人的手語、旗語、燈語、電報代碼等。4.生活、藝術(shù)與科學(xué)技術(shù)符號。如電話號碼、身份證編碼、銀行卡號碼、樂譜、數(shù)學(xué)符號、化學(xué)符號、公式、計算機(jī)編程語言等。其中,前兩項是自然語言數(shù)據(jù);后兩項是人工語言數(shù)據(jù)。人工語言有時單獨(dú)使用,有時與自然語言一同使用;它們或是自然語言的符號化,或是需要自然語言輔助理解,或是可以用自然語言進(jìn)行闡釋。
計算機(jī)所要處理的數(shù)據(jù),除語言數(shù)據(jù)外還有人面、人體動作、聲音、氣味、顏色、物象等數(shù)據(jù),但毫無疑問,語言數(shù)據(jù)是最為重要的數(shù)據(jù)。其一,語言數(shù)據(jù)的數(shù)據(jù)量大;其二,語言數(shù)據(jù)與人類的關(guān)系較為密切;其三,語言是人類最常用、最能反映人類心智的符號系統(tǒng)。語言數(shù)據(jù)的計算機(jī)處理,較難也是最重要的是自然語言數(shù)據(jù)處理。計算機(jī)對語言數(shù)據(jù)的處理,如漢字識別、詞語檢索、自動翻譯、自動寫作、客戶的機(jī)器語言服務(wù)等,每前進(jìn)一步,就會產(chǎn)生新的語言產(chǎn)業(yè),推進(jìn)社會前進(jìn)一大步。
數(shù)據(jù)是生產(chǎn)要素,那么,語言數(shù)據(jù)是最為重要的數(shù)據(jù),也應(yīng)當(dāng)屬于生產(chǎn)要素范疇。2019年12月17日,“第二屆語言智能與社會發(fā)展論壇”在北京語言大學(xué)舉行,論壇主題為“智能寫作的社會影響及其倫理、法律問題”。閉幕式上,筆者就曾談及“作為生產(chǎn)要素的語言數(shù)據(jù)”問題。(4)北京語言大學(xué)語言資源高精尖創(chuàng)新中心:《推進(jìn)智能寫作健康發(fā)展宣言》,第二屆語言智能與社會發(fā)展論壇,2019年12月17日。2020年5月17日,那順烏日圖領(lǐng)銜成立“東北亞語言資源數(shù)字化平臺”,筆者作為平臺學(xué)術(shù)委員會主任在“主任寄語”中指出:“語言數(shù)據(jù)是信息時代的生產(chǎn)要素,如同土地之于農(nóng)民,機(jī)器之于工人,計算機(jī)通過對語言數(shù)據(jù)的加工學(xué)習(xí)可以獲得知識與智能,從而去創(chuàng)造人類的新生活?!薄豆饷魅請蟆?020年7月4日第12版,刊載李宇明《語言數(shù)據(jù)是信息時代的生產(chǎn)要素》一文,這是中國的重要媒體首次發(fā)表語言數(shù)據(jù)是生產(chǎn)要素的觀點(diǎn)。(5)李宇明:《語言數(shù)據(jù)是信息時代的生產(chǎn)要素》,《光明日報》2020年7月4日。
語言是人類最為重要的交際工具和思維工具,是人類文化和信息的最為重要的負(fù)載者,同時也是文化最為重要的建構(gòu)者和闡釋者。所以,不僅語言數(shù)據(jù)是“數(shù)據(jù)”這一生產(chǎn)要素的組成部分,而且語言也與其他一些生產(chǎn)要素發(fā)生各種各樣的關(guān)系,發(fā)揮各種各樣的作用。
語言與勞動、知識、技術(shù)、管理等生產(chǎn)要素的關(guān)系十分密切。語言經(jīng)濟(jì)學(xué)把語言看作人力資本,語言能力是重要的勞動力,特別是智力為主的勞動崗位,尤其是服務(wù)產(chǎn)業(yè),語言能力是比體力更為重要的勞動力。(6)張衛(wèi)國:《作為人力資本、公共產(chǎn)品和制度的語言:語言經(jīng)濟(jì)學(xué)的一個基本分析框架》,《經(jīng)濟(jì)研究》2008年第2期;王海蘭:《個體語言技能資本投資研究》,博士學(xué)位論文,山東大學(xué),2012年;王海蘭:《語言人力資本推動經(jīng)濟(jì)增長的作用機(jī)制研究》,《語言戰(zhàn)略研究》2018年第2期;趙穎:《語言能力對勞動者收入貢獻(xiàn)的測度分析》,《經(jīng)濟(jì)學(xué)動態(tài)》2016年第1期。語言能力薄弱或有語言障礙的人群,常常會形成社會貧困群體。
語言不僅是如索緒爾所說的“符號系統(tǒng)”,語言也是“知識”的載體。(7)李宇明 :《中國語言資源的理論與實踐》,《語言戰(zhàn)略研究》2019年第3期。知識學(xué)習(xí)需要通過語言,知識儲備需要腦神經(jīng)語言系統(tǒng)的運(yùn)作,知識的運(yùn)用與創(chuàng)造也主要是通過語言。就技術(shù)而言,語言技術(shù)本身就是技術(shù)的一部分,特別是以信息化為主的現(xiàn)代語言技術(shù),在技術(shù)體系中的地位更為重要,越是智能化的技術(shù),越是與語言的關(guān)系密切;各技術(shù)門類的名詞術(shù)語、各個產(chǎn)業(yè)的技術(shù)規(guī)范,都是用語言制定、表現(xiàn)出來的,用語言進(jìn)行傳授的;語言對于技術(shù)的擴(kuò)散與創(chuàng)新,也具有很大影響。語言與“管理”的關(guān)系就更為密切,因為語言能力是管理能力的重要組成部分,也是管理能力的體現(xiàn);管理的具體實施,幾乎離不開語言。
語言與“土地、資本”仿佛沒有多大關(guān)系。但是,張振興在2018年9月“世界語言資源保護(hù)大會”上所作的《漢語方言資源應(yīng)用隨想》報告,揭示了語言與資本流動的關(guān)系,說明語言也是一種投資環(huán)境(8)張振興:《漢語方言資源應(yīng)用隨想》,世界語言資源保護(hù)大會會議報告,2018年9月19-20日。:
1.據(jù)國家統(tǒng)計報告1987年數(shù)據(jù):香港地區(qū)投資內(nèi)地,65%資金流向珠江三角洲地區(qū),12%流向潮汕地區(qū);臺灣地區(qū)投資內(nèi)地,78.9%資金流向福建,閩南地區(qū)占其48%。
2.據(jù)《福建省統(tǒng)計年鑒2017》報告,福建省實際利用外資,2015年為768,339萬美元,2016年為819,465萬美元,其中來自臺灣、香港、印度尼西亞、新加坡的外資2015年占68.9%,2016年占64.5%。反向投資情況也大致如此,福建省對外投資,2015年是128,640萬美元,其中投向印度尼西亞、新加坡等東南亞國家為72.43%。
3.據(jù)《2016年度中國對外直接投資統(tǒng)計公報》數(shù)據(jù):2016年,中國向亞洲地區(qū)直接投資流量為1302.7億美元,占當(dāng)年對外直接投資流量的66.4%;其中對香港的投資為1142.3億美元,占對亞洲投資的87.7%;對東盟10國的投資為102.8億美元,占對亞洲投資的7.9%。
張振興分析這些數(shù)字背后的語言原因:中國香港地區(qū)與珠江三角洲言語相通;中國臺灣地區(qū)與閩南地區(qū)同言同語;東南亞地區(qū),尤其新加坡、印度尼西亞等地到處都有說閩南話的華人華僑,福建人在那里做生意很少有語言障礙。
語言與各生產(chǎn)要素都有密切關(guān)系,既是多個生產(chǎn)要素的構(gòu)成部分,又是生產(chǎn)要素發(fā)揮作用的重要助力,甚至是基礎(chǔ)條件。隨著數(shù)字經(jīng)濟(jì)的發(fā)展和語言智能水平的不斷提高,語言數(shù)據(jù)的生產(chǎn)要素屬性會越來越清晰,語言對各生產(chǎn)要素的影響也會越來越顯著。
語言智能是人工智能的重要組成部分,是讓計算機(jī)擁有人類的語言智能。人工智能是對人類智能的模仿。人類智能主要表現(xiàn)在思維能力上。語言是人類思維活動的憑借,是思維成果貯存、傳播的載體,故而語言能力決定著思維水平。人類自幼成長,通過獲取語言促進(jìn)思維發(fā)展,因各種原因而未能較好獲得自然語言者,如聾啞人,其思維水平便嚴(yán)重受限。人類的書面語學(xué)習(xí)和外語學(xué)習(xí),大大提升了思維品質(zhì),掌握了書面語、外語的人比文盲和單語者更具思維優(yōu)勢。盡管學(xué)界對思維與語言的關(guān)系還有不少爭論,但語言在思維中的重要地位不容否認(rèn)。語言智能是人類最為重要的智能,讓計算機(jī)獲取人類的語言智能是人工智能的重要任務(wù)。
人工語言智能(以下稱為“語言智能”)是人工智能皇冠上的明珠。20世紀(jì)50年代,人類進(jìn)行機(jī)器翻譯的嘗試,由此開始了訓(xùn)練機(jī)器進(jìn)行語言信息處理的進(jìn)程。中文信息處理經(jīng)過字處理、詞處理階段的艱難行進(jìn),現(xiàn)已順利步入句處理、篇章處理的話語處理階段,努力讓計算機(jī)具有語言智能。(9)劉云、肖辛格:《中文信息處理發(fā)展簡史》,北京:科學(xué)出版社,2019年。這些語言信息技術(shù),促進(jìn)著信息檢索、自動翻譯、機(jī)器寫作、作文自動批改、人機(jī)對話等的快速發(fā)展。語言智能發(fā)展的水平,可以智能寫作為例窺其全貌。
智能寫作可細(xì)分為輔助寫作和自動寫作兩類。輔助寫作是從素材收集、文章撰寫、文本檢校三個方面輔助人類寫作,提升寫作效率,如提供領(lǐng)域熱點(diǎn)事件、引文推薦、寫作潤色、文本糾錯、自動摘要等。自動寫作是機(jī)器自主完成文章寫作。2018年6月30日,中國智能寫作產(chǎn)業(yè)聯(lián)盟在北京成立,首批理事單位有中國聲谷、科大訊飛、金山軟件等17家。(10)張?。骸吨袊悄軐懽鳟a(chǎn)業(yè)聯(lián)盟成立》,《中國新聞》2018年6月30日,https://baijiahao.baidu.com/s?id=1604702204279770381&wfr=spider&for=pc。當(dāng)時,幾乎所有互聯(lián)網(wǎng)和AI巨頭都投入智能寫作市場。據(jù)分析,智能寫作需求最強(qiáng)的有4大市場:內(nèi)容資訊、金融財經(jīng)分析、數(shù)字營銷、行政辦公。(11)北京恒州博智國際信息咨詢有限公司(QYResearch):《2020-2026中國人工智能寫作輔助軟件市場現(xiàn)狀及未來發(fā)展趨勢》,https://www.qyresearch.com.cn/reports/AI_Writing_Assistant_Software-p167680.html。下面,從6個方面來描述智能寫作的應(yīng)用情況:
1.新聞智能寫作
新聞智能寫作的軟件,有新華社的“快筆小新”、第一財經(jīng)的“DT稿王”、今日頭條的“張小明”、騰訊的“Dreamwriter”、創(chuàng)作大腦、Giiso、SoccerBot等。新聞智能寫作,不僅提供新聞寫作的智能機(jī)器人,而且結(jié)合多種技術(shù),在新聞生產(chǎn)的策劃、采編、發(fā)稿的全流程中為新聞從業(yè)者提供輔助支撐。新聞從業(yè)者結(jié)合機(jī)器撰稿的優(yōu)勢,進(jìn)行更有創(chuàng)造力的工作。
2.應(yīng)用文智能寫作
應(yīng)用文智能寫作的范圍很廣,如通知通告、總結(jié)匯報、招投標(biāo)文件、專利文件、規(guī)范標(biāo)準(zhǔn)文件等。當(dāng)前主要的應(yīng)用文智能寫作軟件,有微軟、金山、搜狗等企業(yè)的產(chǎn)品,還有妙筆、世通亨奇、Giiso等。
3.詩歌智能創(chuàng)作
詩歌(包括對聯(lián))的創(chuàng)作需具備三大要素:情感表達(dá);字眼搜尋;文句表達(dá)。計算機(jī)與之對應(yīng)的技術(shù)是:情感計算;語義計算;文本生成。當(dāng)然還離不開一定規(guī)模的語料庫。當(dāng)前較為有名的寫詩能手有:清華九歌、微軟小冰、薇薇寫詩、小封詩歌、春聯(lián)機(jī)等。其中有寫古體詩的,有寫新詩的,有寫春聯(lián)的。詩歌智能創(chuàng)作仍處在模仿階段,但所寫詩歌常有出人意料之句。詩歌智能創(chuàng)作或?qū)⒋呱碌娜斯ぶ悄荛T類。
4.小說智能創(chuàng)作
小說智能創(chuàng)作的軟件有:壹寫作、星達(dá)、小蜜蜂、神碼AI、捏勺AI、《XXX》寫作神器、“狗屁不通”文章生成器等。2016年3月,日本公立函館未來大學(xué)的松原仁團(tuán)隊,根據(jù)預(yù)設(shè)內(nèi)容自動生成了小說《機(jī)器寫小說的那一天》。這部小說參賽,竟然瞞過了當(dāng)時的人類評委,成功入圍第三屆日經(jīng)新聞社“星新一獎”比賽?!肮菲ú煌ā蔽恼律善鳎?019年竟然火遍網(wǎng)絡(luò)。
5.用戶評論
用戶評論也可歸入應(yīng)用文智能寫作,但因其在當(dāng)今網(wǎng)絡(luò)上使用廣泛,故可以單獨(dú)立目。這方面的軟件有:藍(lán)色光標(biāo)、Persado、Phrasee、返利機(jī)器人、vatti(華帝)小V等。用戶評論是應(yīng)用情感計算,批量生成可定制的評論,通過評論來塑造商品、企業(yè)、組織等形象的應(yīng)用。用戶評論往往不是真正的用戶發(fā)出的評論,這是一個灰色地帶,逐步形成灰色產(chǎn)業(yè),對社會生活存在威脅。(12)饒高琦:《給智能寫作的快馬套上科技倫理籠頭》,《光明日報》2019年 12月24日。
6.社交機(jī)器人
社交機(jī)器人是具有智能寫作能力的社交網(wǎng)絡(luò)賬號,以“人”的身份在社交網(wǎng)絡(luò)中活動,與人進(jìn)行商務(wù)、聊天等社交活動。社交機(jī)器人是智能寫作技術(shù)在語言應(yīng)用上自主性最強(qiáng)的一種形式,目前集中用于商業(yè)營銷、客戶服務(wù)、兒童教育等領(lǐng)域。值得注意的是,它也開始涉足政治宣傳,可能會影響到人類的政治生活,比如選舉態(tài)度等。
智能寫作受制于預(yù)設(shè)的算法和數(shù)據(jù)庫,具有結(jié)構(gòu)化、模式化、同質(zhì)化的表現(xiàn)。其語言特點(diǎn)是:字句堆砌復(fù)疊,段落連接不暢;數(shù)據(jù)詳盡冗雜,常愛引經(jīng)據(jù)典,行文缺乏生活常識,缺乏情感色彩;長于場景描摹,拙于議論敘事,事實與觀點(diǎn)常出現(xiàn)邏輯錯位。智能寫作盡管離人類寫作、閱讀習(xí)慣還有很大距離,但已經(jīng)呈現(xiàn)把人類從“筆耕口傳”、高創(chuàng)作成本、高傳播壁壘中解放出來的曙光。當(dāng)然,智能寫作技術(shù)在工商業(yè)、公共管理和文化傳承等領(lǐng)域不加限制地應(yīng)用,也將造成現(xiàn)實損失,產(chǎn)生倫理焦慮,因而必須直面智能寫作帶來的語言不規(guī)范、語言暴力、語言偏見、傳播虛假信息、擾亂日常生活乃至社會秩序等問題。(13)北京語言大學(xué)語言資源高精尖創(chuàng)新中心:《推進(jìn)智能寫作健康發(fā)展宣言》,第二屆語言智能與社會發(fā)展論壇,2019年12月17日。
機(jī)器具有語言智能了嗎?這是較難回答的哲學(xué)層面的問題。第一,何謂智能?第二,如何判定機(jī)器具有語言智能?依照圖靈測試原理,會發(fā)現(xiàn)機(jī)器在許多語言行為上可以“蒙人過關(guān)”,達(dá)到圖靈測試的某種要求,比如機(jī)器寫的一些新聞、詩歌、小說、用戶評論,機(jī)器翻譯的一些作品等。因此可以說,目前機(jī)器已經(jīng)具備了初步的語言智能,隨著人工智能技術(shù)的發(fā)展,機(jī)器的語言智能會逐步提升,不斷地接近人類。
語言是人類獨(dú)有的符號系統(tǒng),這是語言學(xué)家的經(jīng)典認(rèn)識。當(dāng)然,他也有關(guān)于動物語言的研究,動物界的確存在信息交換系統(tǒng),但與人類語言相比,可謂云泥之別。擱置動物語言不論,可以說,語言信息處理之前的語言學(xué),皆把語言看作人類獨(dú)有的。但是語言智能的發(fā)展,使語言已為或?qū)槿祟惡蜋C(jī)器這兩個“物種”共同享有。
過去的語言生活,多數(shù)都是“人-人”交際,其間一般不使用交際工具。這種“裸裝備”的直接的“人-人”交際,現(xiàn)在還在應(yīng)用,但是重要的語言交際大都采用“人-機(jī)-人”交際。其實,“人-機(jī)-人”交際是概括的說法,其內(nèi)涵包括A、B兩大類4小類交際模式:
A.“人-機(jī)-機(jī)-人”交際;B1.“人-機(jī)”交際;B2.“機(jī)-機(jī)”交際;B3.“機(jī)-人”交際;A是B的混成,可以分解為“人-機(jī)”交際、“機(jī)-機(jī)”交際、“機(jī)-人”交際三個類型。這些交際都離不開具有語言智能的機(jī)器,如果這些機(jī)器是“人形機(jī)器人”,那么,機(jī)器擁有語言智能這一現(xiàn)象,就會看得更為明顯。故而,現(xiàn)代的語言學(xué)應(yīng)當(dāng)把語言看作人與機(jī)器兩個“物種”所有,是“雙物種”的語言學(xué)。這是語言學(xué)可以超越過往獲得大發(fā)展的學(xué)理基礎(chǔ)。
人類形成之前,世界就是自然界,只是一個物理空間。人類的形成與發(fā)展,在物理空間中生長出一個社會空間。語言與社會空間一起成長,大約距今3—5萬年前的舊石器時代,人類已有較成熟的口頭語言,口語的載體是聲波。大約距今5,000—5,500前,文字在兩河流域產(chǎn)生,語言有了新載體光波。20世紀(jì)20年代,廣播、電視相繼出現(xiàn),有聲媒體使語言有了第三大載體電波。20世紀(jì)末,互聯(lián)網(wǎng)商業(yè)化,語言信息處理出人意料地快速進(jìn)步,人類開始建構(gòu)一個新空間——網(wǎng)絡(luò)空間。(14)李宇明:《語言技術(shù)對語言生活及社會發(fā)展的影響》,《中國社會科學(xué)》2017年第2期。
網(wǎng)絡(luò)空間也常稱為“虛擬空間”“信息空間”。稱為虛擬空間,是強(qiáng)調(diào)其虛擬性質(zhì),網(wǎng)名可以再命,性別可以隱匿甚至更換,地點(diǎn)可以主觀臆擬。早期,虛擬空間與現(xiàn)實空間的確有較大不同,由實入虛,如同轉(zhuǎn)世,人的行為方式可以脫離現(xiàn)實空間再行塑造。但隨著網(wǎng)絡(luò)實名化措施的實施,隨著虛擬空間對現(xiàn)實空間的影響加大,虛擬空間與現(xiàn)實空間的關(guān)系越來越密切,故而有人覺得虛擬空間并不虛,不主張再叫虛擬空間。稱為信息空間,是強(qiáng)調(diào)這個空間的特性是信息化的產(chǎn)物,主要是進(jìn)行信息的運(yùn)行與傳播,與信息化時代也很契合。也有專家認(rèn)為,信息不是某一空間所獨(dú)有,社會空間也依賴信息,甚至物理世界也需要信息交換,同類動物之間、不同動物之間都有信息交換,同類植物之間有信息,甚至天體之間也存在信息,所以也有專家認(rèn)為信息空間的名稱也不合適。
圖1 “三元空間”生成圖
圖2 三元空間的語言、信息關(guān)系圖
名稱之爭往往伴隨著對于“實”的認(rèn)識分歧。一個新事物的問世常會伴有多個名稱,隨著事物的發(fā)展,隨著認(rèn)識的深化,名稱就會逐步約定俗成,固定下來。筆者也曾經(jīng)使用過虛擬空間等多個名稱,這里姑且從眾,稱之為信息空間。把信息空間獨(dú)立出人類的社會空間、與物理空間和人類社會并行而立,這便是人類正在生活的“三元空間”,如圖1所示。
首先提出三元空間的,就我所掌握的資料看是潘云鶴。2019年11月3日,潘云鶴在中國人民大學(xué)作《人工智能2.0與數(shù)字經(jīng)濟(jì)》報告,指出人類正由傳統(tǒng)的物理空間、人類社會二元空間,逐步進(jìn)入物理空間、人類社會、信息空間所構(gòu)成的三元空間。2019年12月,劉挺在“第二屆語言智能與社會發(fā)展論壇”上也闡述了信息空間的問題。2020年5月,筆者也向趙沁平請教三元空間的問題。對如何看待這個第三空間,趙沁平有他的看法。
總之,信息空間是一個正在發(fā)展的空間,其結(jié)構(gòu)和運(yùn)行機(jī)理還在被逐步認(rèn)識中,也還在被逐漸完善中。但有一點(diǎn)相對明確,那就是信息空間主要是被數(shù)字化、智能化了的語言空間;除卻語言,信息空間不可能存在,即使存在也無意義。語言過去是在社會空間中使用,如今是在社會空間、信息空間中使用。語言不僅具有雙物種性,而且還具有雙空間性。
就發(fā)展趨勢看,語言并不滿足于它的雙空間性,它還將跨入物理空間。物聯(lián)網(wǎng)和語言智能的進(jìn)一步發(fā)展,只要在需要驅(qū)動的目的物上植入語言感應(yīng)器,人就可以通過具有語言智能的機(jī)器與萬物關(guān)聯(lián)、與萬物對話,使萬物具有語言智能,如圖2所示。無人駕駛的汽車、輪船、飛機(jī),已經(jīng)展示了人與物對話的雛形。
筆者認(rèn)為,“語言產(chǎn)業(yè)是以生產(chǎn)和提供語言產(chǎn)品為主的行業(yè)。語言產(chǎn)品的形態(tài)、語言產(chǎn)業(yè)的業(yè)態(tài)決定著語言產(chǎn)業(yè)的基本面貌,是語言產(chǎn)業(yè)研究的基礎(chǔ)范疇”。當(dāng)時,把語言產(chǎn)品的形態(tài)歸納為七種:語言、文字及相關(guān)符號;語言知識產(chǎn)品;語言文字藝術(shù)產(chǎn)品;語言技術(shù)產(chǎn)品;語言醫(yī)療康復(fù)產(chǎn)品;語言咨詢培訓(xùn)服務(wù);語言人才。當(dāng)時也指出:“語言產(chǎn)品的形態(tài),還可以有其他描述方式。同時,隨著時代的發(fā)展也可能還會出現(xiàn)新的語言產(chǎn)品形態(tài)。比如,信息化時代,語言數(shù)據(jù)顯得特別重要,機(jī)器翻譯需要大量的雙語數(shù)據(jù),機(jī)器語言理解需要大數(shù)據(jù)的訓(xùn)練等。語言數(shù)據(jù)也可能成為一種語言產(chǎn)品形態(tài)?!?15)李宇明:《語言產(chǎn)業(yè)研究的若干問題》,《江蘇師范大學(xué)學(xué)報(哲學(xué)社會科學(xué)版)》2019年第2期?,F(xiàn)在看來,的確應(yīng)有語言數(shù)據(jù)產(chǎn)品,應(yīng)有生產(chǎn)這種產(chǎn)品的語言數(shù)據(jù)行業(yè)。
語言數(shù)據(jù)產(chǎn)業(yè),是對語言數(shù)據(jù)進(jìn)行收集庫存、管理經(jīng)營、加工應(yīng)用的行業(yè)。語言數(shù)據(jù)產(chǎn)業(yè)涉及許多業(yè)態(tài),如語言數(shù)據(jù)的收集、語言數(shù)據(jù)庫的建設(shè)、語言數(shù)據(jù)的云存儲、語言數(shù)據(jù)的計算機(jī)應(yīng)用、語言數(shù)據(jù)產(chǎn)品的營銷、語言數(shù)據(jù)及其各種規(guī)范標(biāo)準(zhǔn)、語言數(shù)據(jù)產(chǎn)業(yè)人才的培養(yǎng)等。這些業(yè)態(tài)代表著對這一新興產(chǎn)業(yè)的當(dāng)下認(rèn)識,其中蘊(yùn)含并催生著諸多語言數(shù)據(jù)的職業(yè),通過這些產(chǎn)業(yè)和職業(yè),可以生產(chǎn)出各種形態(tài)的語言信息產(chǎn)品。
語言數(shù)據(jù)產(chǎn)業(yè)的發(fā)展,首先需要有語言意識。需從語言經(jīng)濟(jì)學(xué)、語言產(chǎn)業(yè)經(jīng)濟(jì)學(xué)等角度看待語言數(shù)據(jù)和語言產(chǎn)業(yè),看到語言數(shù)據(jù)、語言數(shù)據(jù)產(chǎn)業(yè)在數(shù)字經(jīng)濟(jì)發(fā)展中的重要作用。其次,需要市場驅(qū)動。自動翻譯及前述智能寫作的發(fā)展,便顯示出市場的作用;中共中央、國務(wù)院的《意見》也有許多制度安排。市場運(yùn)作需要對語言數(shù)據(jù)產(chǎn)品進(jìn)行分類與規(guī)范,以便將其貨幣化。通過市場滿足供求關(guān)系,實現(xiàn)語言數(shù)據(jù)作用的最大化和語言數(shù)據(jù)產(chǎn)業(yè)效益的最大化。
比如語料庫,現(xiàn)在各有關(guān)研究單位幾乎都有語料庫,甚至每個語言研究課題都有語料庫,但是這些語料庫基本不能與同行分享,不能與社會共享。個中原因很多,最重要的原因有二:
第一,產(chǎn)權(quán)不好確定。語料庫收集的都是他人的“語言成品”,或是作家著作,或是網(wǎng)絡(luò)言論,或是發(fā)音合作人的話語,或是使用某種軟件生成的語言數(shù)據(jù)等。語料庫制作者即便是免費(fèi)與同行或社會共享,也可能發(fā)生產(chǎn)權(quán)官司。
第二,沒有統(tǒng)一的語料庫標(biāo)注規(guī)范。比如語料庫應(yīng)有哪些元數(shù)據(jù)、字形規(guī)范、詞語切分規(guī)范、詞性標(biāo)注規(guī)范,等等。
一個像樣的語料庫,其建構(gòu)成本巨大,但發(fā)揮作用有限,他人需要重復(fù)建設(shè),造成巨大浪費(fèi)。語料庫只是一例,語言數(shù)據(jù)產(chǎn)業(yè)此類問題甚多,亟需研究解決。要建立語言數(shù)據(jù)產(chǎn)品名錄、語言數(shù)據(jù)產(chǎn)品規(guī)范、語言數(shù)據(jù)產(chǎn)業(yè)與市場的法規(guī)政策、語言數(shù)據(jù)職業(yè)規(guī)范及倫理道德等。社會已經(jīng)進(jìn)入信息時代,過去的很多規(guī)矩都是平面媒體時代的,需要與時俱進(jìn),需要有創(chuàng)新意識。創(chuàng)新與失誤是一根藤上的瓜,有創(chuàng)新意識還需有容錯意識,能夠容錯才敢于創(chuàng)新。
語言數(shù)據(jù)適應(yīng)計算機(jī)應(yīng)用是重要的學(xué)術(shù)問題。語言數(shù)據(jù)與計算機(jī)的接口是形式化,形式化是解決語言數(shù)據(jù)與計算機(jī)處理“最后一公里”的問題。信息時代,網(wǎng)絡(luò)已經(jīng)是最為龐大的語言數(shù)據(jù)庫,利用網(wǎng)絡(luò)獲取語言數(shù)據(jù)是可能的也是必要的。但是,網(wǎng)絡(luò)數(shù)據(jù)是不同時代、不同文化、不同領(lǐng)域的集聚,甚至還有機(jī)器生產(chǎn)的大量數(shù)據(jù)。要利用網(wǎng)絡(luò)數(shù)據(jù),就有一個“潔洗”的問題,通過潔洗去除數(shù)據(jù)的意識形態(tài)偏見、文化偏見以及不良用語?,F(xiàn)在,許多數(shù)據(jù)公司都在數(shù)據(jù)潔洗方面花了不少功夫。
此外,需要明晰語言數(shù)據(jù)的知識產(chǎn)權(quán),保護(hù)語言數(shù)據(jù)涉及的各方權(quán)益。重視語言數(shù)據(jù)的隱私權(quán),妥善處理語言數(shù)據(jù)可能出現(xiàn)的隱私泄露問題。
任何產(chǎn)業(yè)都有一定的業(yè)態(tài)。賀宏志、陳鵬《語言產(chǎn)業(yè)導(dǎo)論》是我國最早研究語言產(chǎn)業(yè)的著作,該書把語言產(chǎn)業(yè)劃分為九大業(yè)態(tài):(1)語言培訓(xùn)業(yè);(2)語言出版業(yè);(3)語言翻譯業(yè);(4)語言文字信息處理業(yè);(5)語言藝術(shù)業(yè);(6)語言康復(fù)業(yè);(7)語言會展業(yè);(8)語言創(chuàng)意業(yè);(9)語文能力測評業(yè)。(16)賀宏志、陳鵬:《語言產(chǎn)業(yè)導(dǎo)論》,北京:首都師范大學(xué)出版社,2012年??梢灶A(yù)見,在數(shù)據(jù)時代,這些語言產(chǎn)業(yè)也會有更濃厚的語言數(shù)據(jù)意識。
第一,更好地獲得語言數(shù)據(jù)。語言產(chǎn)業(yè)的生產(chǎn)往往離不開語言數(shù)據(jù),語言數(shù)據(jù)是許多語言產(chǎn)業(yè)的生產(chǎn)資料。比如,語言培訓(xùn)需要教材,教師需要參考資料;自動語言翻譯需要雙語數(shù)據(jù)庫;語言會展業(yè)展出的都是語言產(chǎn)品,其中包括語言數(shù)據(jù)、語言數(shù)據(jù)服務(wù)等。語言產(chǎn)業(yè)的發(fā)展,需要利用網(wǎng)絡(luò)、現(xiàn)代語言信息技術(shù)和語言數(shù)據(jù)市場去更及時、更便利地獲取最適合的語言數(shù)據(jù)。
第二,利用好自己產(chǎn)出的語言數(shù)據(jù)。語言產(chǎn)業(yè)生產(chǎn)的語言產(chǎn)品,有許多就是語言數(shù)據(jù)。比如辭書,看起來是在編纂一條條詞語,其實每個詞條都是優(yōu)質(zhì)的語言數(shù)據(jù),詞條整合起來就是某一方面優(yōu)質(zhì)的知識系統(tǒng)。這些優(yōu)質(zhì)的語言數(shù)據(jù),辭書編輯反復(fù)加工過,經(jīng)過最為嚴(yán)格的“潔洗”,是訓(xùn)練計算機(jī)提升智能的珍貴數(shù)據(jù),也是計算機(jī)進(jìn)行知識挖掘的珍貴數(shù)據(jù)。再如語言教學(xué)、語言測試等,都能生成有特殊作用的語言數(shù)據(jù),比如經(jīng)過批改的語言試卷,對于促進(jìn)機(jī)器獲取語言智能、促進(jìn)自動評分技術(shù)的發(fā)展,都具有重要意義。但是,這些語言數(shù)據(jù)并沒有得到很好利用,甚至被丟入廢紙堆中。
瑞士語言產(chǎn)業(yè)對該國GDP的貢獻(xiàn)近10%;我國正值數(shù)據(jù)可以成為生產(chǎn)要素的時代,語言數(shù)據(jù)產(chǎn)業(yè)將有較大發(fā)展,其他語言產(chǎn)業(yè)亦可借數(shù)據(jù)之便,大幅提升經(jīng)濟(jì)能量。可以預(yù)測,語言產(chǎn)業(yè)、語言職業(yè)將能夠創(chuàng)造更為顯著的經(jīng)濟(jì)成果,成為數(shù)字經(jīng)濟(jì)的一方重要支柱。
2018年12月19—21日,中央經(jīng)濟(jì)工作會議在北京舉行。會議重新定義了基礎(chǔ)設(shè)施建設(shè),把5G、人工智能、工業(yè)互聯(lián)網(wǎng)、物聯(lián)網(wǎng)定義為“新型基礎(chǔ)設(shè)施建設(shè)”,簡稱“新基建”。此后,新基建的內(nèi)容不斷豐富,面貌也逐漸清晰。
在各種基礎(chǔ)設(shè)施建設(shè)中,重視信息網(wǎng)絡(luò)、數(shù)據(jù)中心的建設(shè),能夠讓數(shù)據(jù)像交流電、自來水、天然氣一樣在千家萬戶奔流。但是,就三元空間的發(fā)展前景來看,新基建僅有“聯(lián)通”是不夠的,還需要智能;不僅做到“萬物關(guān)聯(lián)”,還要向“萬物關(guān)聯(lián)對話”的方向努力。也就是說,在新基建中,不僅重視“聯(lián)通”,還要重視“智能”,重視“對話”,亦即讓基建物具有“智能”,特別是應(yīng)當(dāng)具有語言智能,以便實現(xiàn)人與萬物的關(guān)聯(lián)對話,構(gòu)建有智能的物聯(lián)網(wǎng)。
具有智能、特別是語言智能的基建,才是名副其實的新基建,為強(qiáng)調(diào)起見,或可稱為“智能新基建”。如果說目前的“新基建”還主要是為數(shù)據(jù)、為智能鋪設(shè)通道,那么,“智能新基建”更看重的是讓基建物具有智能,促進(jìn)“人-機(jī)-物”三者的互動,特別是通過語言進(jìn)行互動。語言交際由“人-人”交際、“人-機(jī)-人”交際進(jìn)一步發(fā)展為“人-機(jī)-物-人”的更為復(fù)雜的交際。在“智能新基建”的思維框架中,語言產(chǎn)業(yè)將發(fā)揮更為顯著的作用。
語言已經(jīng)不僅僅是人文現(xiàn)象,它是“具有聲光電三大媒介、為人類與機(jī)器兩個‘物種’共享、將應(yīng)用在社會、信息、物理三元空間中”的事物。語言學(xué)作為研究語言及其相關(guān)問題的科學(xué),也應(yīng)當(dāng)是橫跨文理工的綜合學(xué)科,由此可以說,“語言學(xué)是一個學(xué)科群”(17)李宇明:《語言學(xué)是一個學(xué)科群》,《語言戰(zhàn)略研究》2018年第1期。。
2017年10月,美國希拉姆學(xué)院提出“新文科”的教育理念,對其29個專業(yè)實行重組,把新技術(shù)融入哲學(xué)、文學(xué)、語言等課程中。這反映了學(xué)科交叉融合的時代大趨勢。我國也在積極推進(jìn)“新工科、新醫(yī)科、新農(nóng)科、新文科”建設(shè),很多高校推進(jìn)“學(xué)部制”改革,在體制上實現(xiàn)學(xué)科交叉。根據(jù)語言的性質(zhì),就應(yīng)當(dāng)依照“新文科”的思路發(fā)展語言學(xué)。綜合、交叉、融入新技術(shù)的語言學(xué),能夠更好地適應(yīng)“數(shù)據(jù)是數(shù)字經(jīng)濟(jì)的關(guān)鍵生產(chǎn)要素”的時代命題和經(jīng)濟(jì)制度,促進(jìn)知識經(jīng)濟(jì)的發(fā)展,推進(jìn)智能化“新基建”的發(fā)展。
2020年7月29日,全國研究生教育視頻會議召開,部署新技術(shù)時代高端人才培養(yǎng)問題。會后出臺文件,把交叉學(xué)科新增為第14個學(xué)科門類,說明了對人才進(jìn)行大交叉、大融合培養(yǎng)的重要性和急迫性。語言智能是諸多學(xué)科的交叉,需要交叉學(xué)科培養(yǎng)出來的人才作支撐,而語言學(xué)人才培養(yǎng)方面存在的問題不少,應(yīng)引起學(xué)界和學(xué)科規(guī)劃者的重視。當(dāng)然,新基建和知識經(jīng)濟(jì)的謀劃者,也應(yīng)當(dāng)充分重視語言和語言學(xué),獲取語言學(xué)的科學(xué)紅利和社會紅利。
由于數(shù)據(jù)是人工智能、數(shù)字經(jīng)濟(jì)的關(guān)鍵要素,近些年世界各國都在開展“數(shù)據(jù)行動”。數(shù)據(jù)的重要性由科學(xué)家傳遞給政府,政府的數(shù)據(jù)意識由“推進(jìn)科學(xué)技術(shù)發(fā)展”到“推進(jìn)經(jīng)濟(jì)社會發(fā)展”,把數(shù)據(jù)看作可與勞動、資本、土地、知識、技術(shù)、管理并列的生產(chǎn)要素。認(rèn)識到數(shù)據(jù)的生產(chǎn)要素性質(zhì),人類就開始進(jìn)入數(shù)據(jù)時代。
語言數(shù)據(jù)主要包括:語言的符號系統(tǒng);語言負(fù)載的信息;由語言延伸的各種符號與代碼;生活、藝術(shù)與科學(xué)技術(shù)符號。這些類型無論是量上還是質(zhì)上都是最為重要的數(shù)據(jù),故而也是重要的生產(chǎn)要素。語言還與勞動、資本、知識、技術(shù)、管理等生產(chǎn)要素具有密切關(guān)系。語言及語言數(shù)據(jù)將成為數(shù)據(jù)時代的重要生產(chǎn)力。
過去,語言為人類一個物種所獨(dú)有。隨著語言智能的發(fā)展,機(jī)器逐漸在獲取人類的語言智能,“人-人”交際發(fā)展為“人-機(jī)-人”的混成交際,語言逐漸為人與機(jī)器兩個“物種”所有。在人類形成之前,世界就只有物理空間。人類的形成與發(fā)展,在物理空間中生長出社會空間。而今,人類正在建造出第三空間——信息空間。語言過去只在社會空間中使用,現(xiàn)在是在社會空間、信息空間雙空間中使用。隨著語言智能和物聯(lián)網(wǎng)的發(fā)展,語言還將跨入物理空間,在三元空間中發(fā)揮信息交互作用。數(shù)據(jù)時代,由于語言數(shù)據(jù)的數(shù)據(jù)性質(zhì),由于語言與勞動、資本、知識、技術(shù)、管理等生產(chǎn)要素的關(guān)系,語言產(chǎn)業(yè)會得到更大發(fā)展。首先發(fā)展的是對語言數(shù)據(jù)進(jìn)行收集庫存、管理經(jīng)營、加工應(yīng)用的語言數(shù)據(jù)產(chǎn)業(yè),其他語言產(chǎn)業(yè)也會有更濃厚的語言數(shù)據(jù)意識,更好地獲得語言數(shù)據(jù),更好地利用自己產(chǎn)出的語言數(shù)據(jù)。當(dāng)前的基本建設(shè)是“新基建”,為數(shù)據(jù)鋪設(shè)通道,促進(jìn)萬物關(guān)聯(lián)。但僅重視“聯(lián)通”遠(yuǎn)遠(yuǎn)不夠,還要讓基建物具有“智能”,特別是應(yīng)當(dāng)具有語言智能,以便實現(xiàn)人與萬物的關(guān)聯(lián)對話,促進(jìn)“人-機(jī)-物”三者的語言智能互動。這種新基建是智能新基建,是新基建的發(fā)展方向。
語言學(xué)常常被看作是人文科學(xué),而且與“文學(xué)”組成一個一級學(xué)科。嚴(yán)格來講,語言學(xué)人才是在碩士階段才開始進(jìn)行專業(yè)培養(yǎng)的。在人工智能快速發(fā)展、語言數(shù)據(jù)成為重要生產(chǎn)要素的今天,在語言發(fā)展為人與機(jī)器“雙物種”所有,將在社會、信息、物理三空間中運(yùn)作的今天,為適應(yīng)語言智能、語言產(chǎn)業(yè)和智能新基建的發(fā)展,語言學(xué)必須樹立“新文科”意識,通過學(xué)科交叉培養(yǎng)數(shù)據(jù)時代所需要的人才??梢灶A(yù)測,語言產(chǎn)業(yè)、語言職業(yè)將能夠創(chuàng)造更為顯著的經(jīng)濟(jì)成果。語言學(xué)不僅要自覺適應(yīng)新形勢,新基建和知識經(jīng)濟(jì)的謀劃者也應(yīng)當(dāng)加強(qiáng)語言意識,像重視數(shù)據(jù)那樣重視語言和語言學(xué)問題。
(本文寫作得到王海蘭、饒高琦的幫助,特此感謝)