提 要:數(shù)字人是人類(lèi)前沿技術(shù)的集中地,也是當(dāng)前學(xué)術(shù)研究的熱點(diǎn)之一。數(shù)字人的語(yǔ)言能力涉及支撐它們的語(yǔ)言結(jié)構(gòu)能力和它們使用語(yǔ)言的能力。在交互特征方面,數(shù)字人在自然流暢性、上下文意識(shí)、互動(dòng)度、情感識(shí)別、多模態(tài)互動(dòng)性、信息檢索和知識(shí)整合能力等多個(gè)維度都具有很好的表現(xiàn),相比傳統(tǒng)聊天機(jī)器人更是有較大躍升。從醫(yī)療保健、教育培訓(xùn)到垂直領(lǐng)域口播視頻、智能客服再到政務(wù)服務(wù)、新聞播報(bào)再到城市治理、安全領(lǐng)域,數(shù)字人的應(yīng)用場(chǎng)景越來(lái)越廣泛。作為一種新現(xiàn)象,數(shù)字人的進(jìn)場(chǎng)在帶來(lái)便捷和機(jī)遇的同時(shí),也帶來(lái)了一些問(wèn)題和挑戰(zhàn),比如理解與響應(yīng)的局限性、方言與口音的適應(yīng)性問(wèn)題、可能會(huì)影響人類(lèi)的溝通能力、各類(lèi)應(yīng)用場(chǎng)景中的可能問(wèn)題、法律的和倫理與隱私問(wèn)題等。與此相對(duì)應(yīng)的語(yǔ)言治理策略,則包括提升數(shù)字人的理解與響應(yīng)能力、多方式提高方言與口音適應(yīng)性、多路徑促進(jìn)人類(lèi)溝通能力、增強(qiáng)適應(yīng)各類(lèi)應(yīng)用場(chǎng)景、加強(qiáng)法律和倫理與隱私保護(hù)、整合多方參與的語(yǔ)言治理、進(jìn)一步加強(qiáng)研究等。
關(guān)鍵詞:數(shù)字人;人工智能;語(yǔ)言生活;語(yǔ)言治理
中圖分類(lèi)號(hào):H0 """"文獻(xiàn)標(biāo)識(shí)碼:A """"文章編號(hào):1000-0100(2024)06-0041-10
DOI編碼:10.16263/j.cnki.23-1071/h.2024.06.006
Language Life with the Emergence of" Digital Humans
Wang Chun-hui
(Language Governance Research Center, Capital Normal University, Beijing 100089, China)
Digital humans constitute a key site of cutting-edge human technologies and also one of the hot topics in current academic research. The language ability of digital humans includes both the language structure ability that supports them and their ability to use language. In terms of interactive features, digital humans perform well on many dimensions including natural fluency, contextual awareness, interactivity, emotion recognition, multimodal interactivity, information retrieval and knowledge integration capabilities, and" their performance has made a big leap compared to that of traditional chatbots. Digital humans have been widely used in various application scenarios from healthcare, educational training, oral video of vertical field, intelligent customer service, government services, news broadcasts, urban governance to security. While emerging as a new phenomenon by bringing convenience and opportunities, digital humans have brought some problems and challenges" such as their limitations in understanding and responding, adaptability issues of dialects and accents, possible impacts on human communication ability, possible problems in various application scenarios, legal, ethical and privacy issues, etc. The corresponding language governance strategies include improving the understanding and responding capabilities of digital humans, improving dialect and accent adaptability in multiple ways, promoting human communication capabilities through multiple paths, enhancing adaptability to various application scenarios, strengthening legal, ethical and privacy protection, integrating language governance of multiple parties, and strengthening interdisciplinary research.
Key words:digital humans; artificial intelligence; language life; language governance
1 引言
數(shù)字人(digital human/digital people)①,是指通過(guò)計(jì)算機(jī)圖形學(xué)、語(yǔ)音合成技術(shù)、深度學(xué)習(xí)、類(lèi)腦科技、計(jì)算機(jī)科學(xué)等聚合科技創(chuàng)設(shè)的,具有多重人類(lèi)特征(如人的外觀、行為,甚至思想或價(jià)值觀)的虛擬形象。它具有3個(gè)重要特征:具有人的虛擬形象、具備獨(dú)特的人設(shè)、具備互動(dòng)的能力。(陳龍強(qiáng)" 張麗錦" 2022:6-7)數(shù)字人是虛擬存在的人格化數(shù)字實(shí)體,通常是通過(guò)計(jì)算機(jī)技術(shù)模擬出來(lái)的。數(shù)字人可以是虛擬世界中的虛擬角色,也可以是通過(guò)人工智能技術(shù)賦予了某種程度的智能和自主性的程序?qū)嶓w。數(shù)字人可以擁有自己的思維、情感和行為,但其存在是基于計(jì)算機(jī)系統(tǒng)和算法,不同于自然人的生物基礎(chǔ)。(王春輝2024)數(shù)字人可以是真人的數(shù)字雙胞胎(基于他們的解剖、物理和生物特征),也可以是虛構(gòu)的角色(基于演員的外表或完全由計(jì)算機(jī)生成)。其背后涉及數(shù)字孿生、TTS(文字生成語(yǔ)音)、NLP(自然語(yǔ)言處理)、ASR(語(yǔ)音識(shí)別技術(shù))、NMT(神經(jīng)機(jī)器翻譯)、知識(shí)圖譜、大模型等AI技術(shù)構(gòu)建等多種前沿科技。
正因如此,數(shù)字人似乎越來(lái)越成為學(xué)術(shù)研究的熱點(diǎn)。以“數(shù)字人”為“主題”和“篇關(guān)摘”雙重精準(zhǔn)檢索“中國(guó)知網(wǎng)”,可以搜到中文文獻(xiàn)1478條,外文文獻(xiàn)2369條。②中文文獻(xiàn)最早大致出現(xiàn)于2002年,2022年在數(shù)量上是重要轉(zhuǎn)折點(diǎn);外文文獻(xiàn)最早大致是2000年,2012年在數(shù)量上是重要轉(zhuǎn)折點(diǎn)。兩類(lèi)的歷時(shí)發(fā)展如下兩圖所示。
雖然數(shù)字人的研究熱度日增,但是聚焦于數(shù)字人語(yǔ)言方面的研究一方面是還不多見(jiàn),另一方面是近幾年才剛剛興起?!爸袊?guó)知網(wǎng)”的中文文獻(xiàn)目前不到二十篇:嚴(yán)通(2023)分析了ChatGPT語(yǔ)言模型在虛擬數(shù)字人的語(yǔ)音交互場(chǎng)景中優(yōu)化用戶(hù)的體驗(yàn)和提高交互的效果;王妍(2023)考察了面向數(shù)字人交互的視覺(jué)跨模態(tài)學(xué)習(xí)問(wèn)題;郭亞軍等(2024)提出了ChatGPT賦能圖書(shū)館虛擬數(shù)字人的主要應(yīng)用場(chǎng)景,基本上是語(yǔ)言使用問(wèn)題;梁向東、梁楚怡(2023)認(rèn)為人工智能和數(shù)字人技術(shù)可促進(jìn)漢語(yǔ)課程的發(fā)展,需要進(jìn)一步擴(kuò)大應(yīng)用范圍和功能類(lèi)型;彭冬雪(2023)發(fā)現(xiàn)為AI虛擬數(shù)字人進(jìn)行前期語(yǔ)音和面部動(dòng)作數(shù)據(jù)采集的發(fā)音人,在實(shí)際工作中為實(shí)驗(yàn)語(yǔ)音學(xué)的研究帶來(lái)諸多思考,多方面共同參與到AI虛擬數(shù)字人與用戶(hù)的關(guān)系建構(gòu)中;韓家偉、朱妍(2024)提出了一個(gè)可以對(duì)孿生數(shù)字人的語(yǔ)言和行為進(jìn)行授權(quán)的框架,并分析了其可能效果;魏小東、習(xí)鵬飛(2024)對(duì)大語(yǔ)言模型驅(qū)動(dòng)下的虛擬數(shù)字人在第二語(yǔ)言教育中的應(yīng)用進(jìn)行了較為詳細(xì)的闡述;王春輝(2024)指出地球似乎正在加速進(jìn)入一個(gè)自然人、機(jī)器人、數(shù)字人“三人”共生的新時(shí)代,并簡(jiǎn)單分析了數(shù)字人與自然人互動(dòng)的語(yǔ)言生活;鄭璇(2024)針對(duì)手語(yǔ)數(shù)字人研發(fā)現(xiàn)狀進(jìn)行了思考,并提出一些對(duì)策和建議;劉鴻宇等(2024)呈現(xiàn)了手語(yǔ)數(shù)字人的相關(guān)技術(shù)及其智能應(yīng)用;張?jiān)梗?024)考察了留守兒童父母數(shù)字人的交互設(shè)計(jì)及輔助養(yǎng)育APP應(yīng)用設(shè)計(jì);林一民、鄧香蓮(2024)對(duì)數(shù)字人有聲閱讀內(nèi)容的生產(chǎn)技術(shù)機(jī)理與人機(jī)互動(dòng)特征及其機(jī)制進(jìn)行了考察。英文文獻(xiàn)方面:Sung等(2022)的研究發(fā)現(xiàn)數(shù)字人講故事是技術(shù)增強(qiáng)環(huán)境中有效的長(zhǎng)期營(yíng)銷(xiāo)策略;Bates(2023)分析了數(shù)字人作為復(fù)雜會(huì)話式人工智能區(qū)別于上一代聊天機(jī)器人的幾個(gè)特征,并展望了其在醫(yī)療行業(yè)中的應(yīng)用前景;Clarke(2023)簡(jiǎn)單分析了多語(yǔ)機(jī)器人在幾種商業(yè)場(chǎng)景中的應(yīng)用;Newman和Gopalkrishnan(2023)通過(guò)比較探討了公司使用數(shù)字人來(lái)發(fā)布公司公告的優(yōu)勢(shì);Lazer(2023)呈現(xiàn)了數(shù)字人在醫(yī)療保健領(lǐng)域的應(yīng)用;SolutionsHub(2024)呈現(xiàn)了數(shù)字人在商業(yè)中的多種應(yīng)用場(chǎng)景,并分析了其優(yōu)勢(shì)與挑戰(zhàn);Ram(2024)簡(jiǎn)單勾勒了從聊天式機(jī)器人到對(duì)話式人工智能的數(shù)字人的發(fā)展歷程;Konkel(2024)報(bào)道了數(shù)字人Emma在對(duì)話型城市建構(gòu)中的獨(dú)特作用;Kumar(2024)介紹了一種將數(shù)字人體作為教學(xué)助理的高級(jí)框架,利用了圖像動(dòng)畫(huà)、神經(jīng)渲染和語(yǔ)音克隆方面的最新技術(shù);Chen等(2024)的研究顯示了互動(dòng)性增強(qiáng)的數(shù)字人在歷史文化傳播中發(fā)揮了積極作用,多樣化的互動(dòng)方式更有利于公眾對(duì)歷史文化內(nèi)容的吸收;Zhou等(2024)探討了數(shù)字人在人機(jī)協(xié)作教學(xué)系統(tǒng)框架內(nèi)的應(yīng)用,重點(diǎn)關(guān)注了其在英語(yǔ)口語(yǔ)教學(xué)和微課教學(xué)中提高互動(dòng)性、參與度和個(gè)性化學(xué)習(xí)的潛力。
盡管如此,目前對(duì)于數(shù)字人進(jìn)場(chǎng)之后宏觀、中觀和微觀各維度的語(yǔ)言生活,仍然缺乏廣泛而深入的研究。本文嘗試勾勒數(shù)字人的語(yǔ)言能力和交互特征(第2部分),數(shù)字人進(jìn)場(chǎng)人類(lèi)語(yǔ)言生活的各類(lèi)場(chǎng)景(第3部分),數(shù)字人進(jìn)場(chǎng)后帶來(lái)的各種問(wèn)題以及相關(guān)治理策略(第4和第5部分)。
2 數(shù)字人的語(yǔ)言能力和交互特征
2.1 語(yǔ)言能力
數(shù)字人的語(yǔ)言能力涉及兩個(gè)方面,一方面是支撐數(shù)字人的語(yǔ)言結(jié)構(gòu)能力,比如自然語(yǔ)言處理、語(yǔ)音識(shí)別和語(yǔ)音合成、語(yǔ)音到文本翻譯、語(yǔ)言識(shí)別和檢測(cè)、上下文對(duì)話響應(yīng)、上下文識(shí)別等;另一方面是數(shù)字人的語(yǔ)言使用能力,比如使用語(yǔ)種的數(shù)量和多語(yǔ)種能力、文本生成和會(huì)話管理、理解和說(shuō)出多層推理的話語(yǔ)、上下文理解甚至語(yǔ)義理解的歧義和含混、語(yǔ)言翻譯、命名和專(zhuān)業(yè)發(fā)音、語(yǔ)音交互中適當(dāng)調(diào)整語(yǔ)調(diào)和語(yǔ)速、信息檢索和知識(shí)整合等。
這些語(yǔ)言能力的綜合,體現(xiàn)了數(shù)字人與用戶(hù)之間的互動(dòng)質(zhì)量,對(duì)提升用戶(hù)體驗(yàn)和滿(mǎn)足不同場(chǎng)景的需求至關(guān)重要。
2.2 交互特征
交互能力是數(shù)字人的核心優(yōu)勢(shì)之一。它深度融合了自然語(yǔ)言處理、語(yǔ)音識(shí)別、圖像識(shí)別、情感分析及神經(jīng)網(wǎng)絡(luò)等尖端技術(shù),實(shí)現(xiàn)了全方位、多模態(tài)的溝通體驗(yàn)。隨著人工智能的加持,數(shù)字人在與自然人或機(jī)器人交流時(shí),呈現(xiàn)出一些新的交互特征。(任繼福 2023,王春輝" 2024,王國(guó)慶等" 2024)自然人和數(shù)字人的互動(dòng),或?qū)⒁l(fā)關(guān)于身份、自我認(rèn)識(shí)和社會(huì)互動(dòng)等方面的深刻哲學(xué)危機(jī)。(甘蒞豪" 王豪" 2024)
2.2.1 一般性特征
從整體上來(lái)說(shuō),數(shù)字人的交互特征至少包括以下一些方面:(1)有較好的自然流暢性,能夠進(jìn)行連貫且自然的對(duì)話,模仿人類(lèi)的交談方式,使用適當(dāng)?shù)恼Z(yǔ)氣和表達(dá);甚至能夠適應(yīng)非正式的語(yǔ)言風(fēng)格,如使用俚語(yǔ)、縮寫(xiě)和表情符號(hào);(2)有較好的上下文意識(shí),能夠在多輪對(duì)話中維持上下文,理解用戶(hù)的問(wèn)題和需求,也能根據(jù)對(duì)話場(chǎng)景的變化調(diào)整語(yǔ)言風(fēng)格;(3)有較好的互動(dòng)度,能夠迅速響應(yīng)用戶(hù)的提問(wèn)或請(qǐng)求,保持對(duì)話的活躍性和互動(dòng)性,也能根據(jù)用戶(hù)的個(gè)人喜好和歷史交互記錄提供定制化的回應(yīng),增強(qiáng)用戶(hù)體驗(yàn);(4)有較好的情感識(shí)別能力,能夠識(shí)別用戶(hù)的情感狀態(tài),并根據(jù)情感變化調(diào)整回答的內(nèi)容和語(yǔ)氣;(5)有較好的多模態(tài)互動(dòng)性,在交互中能結(jié)合文字、語(yǔ)音、圖像和視頻等多種形式,提升信息傳達(dá)的效果和用戶(hù)參與感;能夠在不同的平臺(tái)(如聊天應(yīng)用、語(yǔ)音助手、虛擬現(xiàn)實(shí)等)中進(jìn)行交互,提供相對(duì)一致的用戶(hù)體驗(yàn);(6)有較好的信息檢索和知識(shí)整合能力,數(shù)字人能夠快速檢索相關(guān)信息,并在對(duì)話中提供準(zhǔn)確的答案或建議,并且能夠及時(shí)獲取并整合最新的信息和知識(shí),以保持內(nèi)容的時(shí)效性和準(zhǔn)確性。
上述是數(shù)字人的一般交互特征,而它們?cè)诓煌膱?chǎng)景中會(huì)呈現(xiàn)出一些各自的特征,比如Kumar(2024)對(duì)教育場(chǎng)景數(shù)字人的分析、Chen等(2024)對(duì)數(shù)字人在歷史文化傳播領(lǐng)域作用的分析等。隨著數(shù)字人交互的不斷發(fā)展,人們對(duì)數(shù)字化體驗(yàn)的期望發(fā)生深刻變化,更加重視人際交往過(guò)程中的情感表達(dá)和共鳴。(王澤亞" 2024)此外,數(shù)字人交互仍然缺乏許多對(duì)人類(lèi)互動(dòng)來(lái)說(shuō)很重要的微妙社交線索,比如微表情——短暫、微妙和無(wú)意識(shí)的面部表情。(Tastemirova" et al. 2022)
2.2.2 比較性特征
與早期的聊天機(jī)器人相比,數(shù)字人至少具有以下比較優(yōu)勢(shì):(1)它們能夠理解口頭和非口頭形式的交流,因此數(shù)字人不僅會(huì)分析對(duì)方說(shuō)了什么,還會(huì)分析對(duì)方說(shuō)話的方式、臉部的表情和身體的位置等信息;(2)它們擅長(zhǎng)理解上下文和詞匯語(yǔ)義,比如對(duì)話式人工智能Amelia⑤就表現(xiàn)出很強(qiáng)的語(yǔ)境理解能力,能夠正確解釋信息的順序或多重含義;(3)它們能夠智能地對(duì)查詢(xún)提供合理響應(yīng),目前市場(chǎng)上的商用數(shù)字人大都可以“即插即用”地處理地球上的幾乎任何數(shù)據(jù)集;(4)數(shù)字人通常與數(shù)字“頭像”配對(duì),能夠擁有照片般逼真的面孔,面對(duì)如此栩栩如生的對(duì)話者,人類(lèi)往往會(huì)更加投入、信任和滿(mǎn)意他們的數(shù)字互動(dòng)。(Bates" 2023)
隨著生成式人工智能的崛起,帶來(lái)一種新的人機(jī)交互的范式,可稱(chēng)為“數(shù)字人智能對(duì)話系統(tǒng)”。根據(jù)其功能,整個(gè)系統(tǒng)大概由五大塊組成:(1)自動(dòng)語(yǔ)音識(shí)別(ASR),將用戶(hù)的語(yǔ)音輸入轉(zhuǎn)換為文本;(2)大型語(yǔ)言模型(LLM),負(fù)責(zé)理解用戶(hù)的輸入并生成合適的回應(yīng);(3)文本到語(yǔ)音轉(zhuǎn)換(TTS)/語(yǔ)音克隆 (Voice Clone),將系統(tǒng)生成的文本回應(yīng)轉(zhuǎn)換為語(yǔ)音;(4)數(shù)字人生成(TFG),結(jié)合語(yǔ)音特征與數(shù)字人技術(shù)生成數(shù)字人的形象和動(dòng)作;(5)音視頻流式服務(wù)(streaming),利用流式服務(wù)提高交互體驗(yàn)。(鄧愷俊2024)比如智信數(shù)字人的互動(dòng)過(guò)程就是:用戶(hù)與數(shù)字人對(duì)話時(shí)通過(guò)識(shí)別用戶(hù)提出的問(wèn)題,然后問(wèn)題被發(fā)送給數(shù)字人大腦獲取相應(yīng)的答案,再通過(guò)TTS技術(shù)⑥將答案轉(zhuǎn)換成音頻,經(jīng)由音頻驅(qū)動(dòng)數(shù)字人的唇部和面部,形成數(shù)字人說(shuō)話視頻,從而實(shí)現(xiàn)真人與數(shù)字人的對(duì)話。⑦
3 數(shù)字人進(jìn)入各種場(chǎng)景語(yǔ)言生活舉隅
在大模型的加持下,作為為數(shù)不多能落地、被應(yīng)用且可以看得到效果的AI應(yīng)用,數(shù)字人的熱度越來(lái)越高。從央視數(shù)字人主播到杭州亞運(yùn)會(huì)數(shù)字人火炬手,從各種數(shù)字人員工入職政務(wù)大廳到已故著名人物的數(shù)字人復(fù)活,數(shù)字人技術(shù)越來(lái)越受到市場(chǎng)的追捧。數(shù)字人在垂直領(lǐng)域口播視頻、IP打造、品牌宣傳、智能客服、教育培訓(xùn)、政務(wù)服務(wù)、醫(yī)療健康、新聞播報(bào)、心理咨詢(xún)、法律行業(yè)、文化旅游、金融保險(xiǎn)、視頻帶貨、直播銷(xiāo)售、跨境電商和短視頻出海等多樣場(chǎng)景中都已實(shí)現(xiàn)了較豐富的應(yīng)用。⑧下文略舉幾例。
(1)醫(yī)療保健領(lǐng)域。⑨數(shù)字人的加入,使得醫(yī)生在遇到患者時(shí),能夠以患者自己的語(yǔ)言進(jìn)行參與和互動(dòng),并在需要時(shí)呈現(xiàn)其所用語(yǔ)言的適當(dāng)文化表示;患者的后續(xù)護(hù)理和跟進(jìn)對(duì)于確保任何手術(shù)或治療的成功結(jié)果至關(guān)重要,利用數(shù)字人隨時(shí)隨地與他們互動(dòng)或提供支持會(huì)大大提高后續(xù)護(hù)理的合規(guī)性;數(shù)字人的使用可以為抑郁癥患者或無(wú)人陪護(hù)的老人提供陪伴和交流。(Lazer 2023)數(shù)字人體建模在培訓(xùn)醫(yī)護(hù)人員應(yīng)用復(fù)雜、可滴定形式的醫(yī)療護(hù)理以及評(píng)估他們?cè)谶@些領(lǐng)域的認(rèn)知能力方面具有獨(dú)特的潛力。(Hotchkiss" et al." 2015)此外,數(shù)字人在生成式人工智能的加持下,可以為患者提供個(gè)性化的健康建議和咨詢(xún);能夠作為虛擬醫(yī)生參與遠(yuǎn)程醫(yī)療,幫助患者進(jìn)行初步診斷、解答健康問(wèn)題或提供心理支持,這種方式打破了地理限制,提高了醫(yī)療資源的可及性;在心理健康領(lǐng)域,數(shù)字人可以提供情感支持,通過(guò)傾聽(tīng)和互動(dòng)幫助緩解焦慮和抑郁情緒;也可以用于醫(yī)生和護(hù)士的培訓(xùn),模擬真實(shí)的患者互動(dòng)情境,幫助醫(yī)療從業(yè)者提升溝通技巧和應(yīng)對(duì)能力;數(shù)字人還可以較輕松地適應(yīng)不同語(yǔ)言和文化背景的患者,提供更廣泛的語(yǔ)言服務(wù),減少語(yǔ)言障礙帶來(lái)的醫(yī)療問(wèn)題。
(2)教育培訓(xùn)領(lǐng)域。虛擬數(shù)字人的吸引力、擬人化特征通過(guò)用戶(hù)對(duì)虛擬數(shù)字人的態(tài)度和學(xué)習(xí)滿(mǎn)意度的鏈?zhǔn)街薪樽饔梅e極影響在線學(xué)習(xí)效果,而準(zhǔn)社會(huì)互動(dòng)對(duì)學(xué)習(xí)滿(mǎn)意度有積極影響。(趙一鳴等" 2024)由復(fù)雜的人工智能模型驅(qū)動(dòng)的數(shù)字人提供了一個(gè)豐富口語(yǔ)學(xué)習(xí)體驗(yàn)的獨(dú)特機(jī)會(huì),從而為數(shù)字時(shí)代的創(chuàng)新教學(xué)方法提供了條件。(Zhou" et al." 2024)教育數(shù)字人可以根據(jù)學(xué)生的學(xué)習(xí)進(jìn)度和興趣,提供量身定制的學(xué)習(xí)內(nèi)容和反饋,幫助學(xué)生以適合自己的節(jié)奏進(jìn)行學(xué)習(xí);它們可以與學(xué)生進(jìn)行實(shí)時(shí)互動(dòng),解答問(wèn)題、進(jìn)行討論,從而增強(qiáng)學(xué)習(xí)的參與感和趣味性;還可以充當(dāng)虛擬教師或助教,提供24/7的學(xué)習(xí)支持,幫助學(xué)生隨時(shí)獲取知識(shí),減輕教師的工作負(fù)擔(dān);在技能培訓(xùn)和職業(yè)教育中,數(shù)字人可以模擬真實(shí)場(chǎng)景,幫助學(xué)生進(jìn)行實(shí)戰(zhàn)演練,例如模擬面試或客戶(hù)服務(wù)場(chǎng)景,提高實(shí)踐能力;它們能夠整合不同學(xué)科的知識(shí),促進(jìn)跨學(xué)科的學(xué)習(xí),幫助學(xué)生建立全面的知識(shí)體系;也可以支持多種語(yǔ)言和文化背景,促進(jìn)全球范圍內(nèi)的教育交流與合作,打破地理限制。雖然有這些便利和優(yōu)勢(shì),但是教育數(shù)字人的技術(shù)支撐仍存在智能有限、交互性弱等特點(diǎn),還面臨算力保障不足、數(shù)字版權(quán)不明確、教育稀釋或?qū)W習(xí)惰性潛在風(fēng)險(xiǎn)、倫理道德?lián)鷳n(yōu)等諸多挑戰(zhàn)。(Zhai" et al. 2023)
(3)企業(yè)公司管理領(lǐng)域。許多公司越來(lái)越多地使用數(shù)字人技術(shù)來(lái)改善溝通參與度。有學(xué)者進(jìn)行過(guò)一個(gè)3組的混合測(cè)試,以測(cè)驗(yàn)數(shù)字人在公司中的溝通效用:一組人親自聽(tīng)取公司公告,第二組人通過(guò)電子郵件閱讀同一份公告,最后一組人則聽(tīng)取由人工智能生成的數(shù)字人發(fā)出的消息。結(jié)果顯示,公司可以開(kāi)始使用數(shù)字人來(lái)發(fā)布公司公告,甚至最好使用交互式數(shù)字人。(Newman, Gopalkrishnan 2023)對(duì)于跨國(guó)企業(yè)來(lái)說(shuō),培訓(xùn)來(lái)自不同語(yǔ)言背景的新員工也會(huì)有挑戰(zhàn)。借助多語(yǔ)數(shù)字人,可以有效提升對(duì)公司政策的一致理解,用當(dāng)?shù)貑T工最熟悉的語(yǔ)言講述企業(yè)的傳統(tǒng)和規(guī)章制度,是一種激勵(lì)客戶(hù)的有力工具。(Clarke" 2023)此外,數(shù)字人可以在招聘流程中參與初步篩選和面試,通過(guò)自動(dòng)化的對(duì)話評(píng)估候選人,提高招聘效率;也可以提供心理健康服務(wù),幫助員工管理壓力和情緒,促進(jìn)整體的工作幸福感。
(4)零售業(yè)服務(wù)領(lǐng)域。人們傾向于接受在線商店中使用數(shù)字人(Taglinger" et al. 2023),而且數(shù)字人講故事是技術(shù)增強(qiáng)環(huán)境中有效的長(zhǎng)期營(yíng)銷(xiāo)策略(Sung" et al. 2022)。數(shù)字人可以通過(guò)提供個(gè)性化互動(dòng)來(lái)徹底改變零售業(yè),而個(gè)性化互動(dòng)曾經(jīng)是高端面對(duì)面購(gòu)物體驗(yàn)的專(zhuān)屬領(lǐng)域。通過(guò)利用有關(guān)個(gè)人客戶(hù)偏好、行為和過(guò)去互動(dòng)的數(shù)據(jù),由人工智能驅(qū)動(dòng)的數(shù)字人可以推薦產(chǎn)品、建議替代方案甚至預(yù)測(cè)需求,讓每次互動(dòng)都感覺(jué)是為購(gòu)物者量身定制的;數(shù)字人可以使用多種語(yǔ)言進(jìn)行交流,使其成為希望擴(kuò)大覆蓋范圍的全球零售商的寶貴資產(chǎn),此功能可確保語(yǔ)言障礙不會(huì)妨礙購(gòu)物體驗(yàn),使品牌能夠以相同水平的個(gè)性化服務(wù)迎合多樣化的國(guó)際受眾,比如擁有全球客戶(hù)群的美容品牌可以雇用數(shù)字人類(lèi)以各種語(yǔ)言提供化妝建議和產(chǎn)品推薦;數(shù)字人還可以理解并回應(yīng)購(gòu)物者的情緒和語(yǔ)氣,從而有助于建立更深層次的情感聯(lián)系。(Firework" 2024)數(shù)字人也可以作為顧客的購(gòu)物向?qū)?,提供產(chǎn)品推薦、實(shí)時(shí)咨詢(xún)和購(gòu)買(mǎi)建議,提升顧客的購(gòu)物體驗(yàn);在社交平臺(tái)上,數(shù)字人可以與顧客進(jìn)行互動(dòng),回答問(wèn)題、分享產(chǎn)品信息,提高品牌的曝光率和參與度。
(5)城市治理領(lǐng)域。數(shù)字人在助力城市和社區(qū)治理方面的作用也不容小覷,比如政務(wù)服務(wù)機(jī)器人就在信息豐富性、服務(wù)可供性和交互同步性等方面具有顯著優(yōu)勢(shì)(韓嘯等 2024)。它們可以作為虛擬助手,為市民提供實(shí)時(shí)的信息查詢(xún)和問(wèn)題解答,幫助居民了解政策、辦理手續(xù),提升服務(wù)效率;也可以搭建社區(qū)交流平臺(tái),促進(jìn)居民間的互動(dòng)和溝通,收集意見(jiàn)和建議,增強(qiáng)社區(qū)參與感;在突發(fā)事件中,數(shù)字人可以快速向市民發(fā)布重要信息、指導(dǎo)應(yīng)急措施,提高公眾的安全感和反應(yīng)能力;甚至可以通過(guò)語(yǔ)音識(shí)別技術(shù)監(jiān)控公共安全,提供交通流量信息,幫助市民規(guī)避擁堵和危險(xiǎn)區(qū)域。比如美國(guó)德克薩斯州的阿馬里洛市就開(kāi)發(fā)了Emma這一在線數(shù)字助理。它使用生成式人工智能技術(shù)與該市二十多萬(wàn)居民進(jìn)行語(yǔ)音交流。市政府官員希望數(shù)字助理能夠使用60多種語(yǔ)言進(jìn)行多語(yǔ)言交流、熟練地回答問(wèn)題、檢索信息,并在必要時(shí)將他們與合適的真人聯(lián)系起來(lái)。Emma 的多語(yǔ)言能力至關(guān)重要,因?yàn)楝F(xiàn)代的阿馬里洛是多語(yǔ)社區(qū),近四分之一的阿馬里洛居民不以英語(yǔ)為母語(yǔ),阿馬里洛的學(xué)校至少使用 62 種語(yǔ)言和方言。Emma 背后的理念是市民無(wú)需輸入或搜索信息,只需用他說(shuō)的語(yǔ)言與她交談即可獲得非緊急城市服務(wù)和信息。Emma 目前的迭代才剛剛開(kāi)始,未來(lái)更先進(jìn)的 Emma 可能會(huì)在阿馬里洛公共圖書(shū)館幫助向居民教授英語(yǔ)或其他語(yǔ)言,或者用于總結(jié)市議會(huì)會(huì)議并向居民傳達(dá)主要信息,也可能會(huì)根據(jù)居民之前的詢(xún)問(wèn)主動(dòng)與他們互動(dòng),例如向詢(xún)問(wèn)相關(guān)內(nèi)容的居民推薦可用的城市計(jì)劃。最終,Emma將幫助城市治理者打造一個(gè)對(duì)話型城市。(Konkel 2024)
(6)安全領(lǐng)域。在安全領(lǐng)域,數(shù)字人可以通過(guò)語(yǔ)音廣播系統(tǒng)快速傳播緊急通知和安全指引,確保信息及時(shí)傳達(dá)給公眾,減少混亂;支持多種語(yǔ)言,使得不同語(yǔ)言背景的用戶(hù)能夠輕松獲取安全信息,確保所有人都能理解和響應(yīng)安全指示;也可以在社交平臺(tái)上與用戶(hù)進(jìn)行實(shí)時(shí)互動(dòng),解答安全相關(guān)的問(wèn)題,傳播安全知識(shí),增強(qiáng)社區(qū)的安全意識(shí);甚至通過(guò)語(yǔ)音分析,數(shù)字人能夠識(shí)別用戶(hù)的情緒,從而提供適當(dāng)?shù)男睦碇С只虬踩ㄗh。例如Guildhawk是一家生產(chǎn)多語(yǔ)言數(shù)字人的公司,有的采礦業(yè)企業(yè)使用他們的多語(yǔ)言數(shù)字人來(lái)提供安全培訓(xùn)計(jì)劃的關(guān)鍵模塊,不僅可以提高理解力,還可以讓人類(lèi)培訓(xùn)師有更多時(shí)間進(jìn)行一對(duì)一培訓(xùn);有家進(jìn)行安全檢查的全球公司為其中一位高級(jí)主管創(chuàng)建數(shù)字人類(lèi),用于以當(dāng)?shù)卣Z(yǔ)言向檢查員提供簡(jiǎn)報(bào)信息,客戶(hù)就能夠快速輕松地提供信息,并消除易混淆和誤解的風(fēng)險(xiǎn)。(Clarke" 2023)
4 數(shù)字人進(jìn)場(chǎng)語(yǔ)言生活產(chǎn)生的相關(guān)問(wèn)題
數(shù)字人進(jìn)入各種應(yīng)用場(chǎng)景,給人們的生活帶來(lái)各種便利和機(jī)遇,但與此同時(shí)也產(chǎn)生一些新問(wèn)題和新挑戰(zhàn)。
4.1 理解與響應(yīng)的局限性
首先是語(yǔ)境理解不足。有時(shí)是因?yàn)檎Z(yǔ)言的復(fù)雜性或多義性所致。數(shù)字人在理解語(yǔ)言時(shí)通常依賴(lài)于預(yù)設(shè)的模型和算法,而人類(lèi)語(yǔ)言的復(fù)雜性和多義性使得這些模型在處理隱喻、俚語(yǔ)和雙關(guān)語(yǔ)時(shí)常常顯得力不從心。在面對(duì)面交流中,人類(lèi)能夠依賴(lài)非語(yǔ)言信號(hào)(如肢體語(yǔ)言、語(yǔ)音語(yǔ)調(diào)等)來(lái)理解對(duì)方的意圖和情感。數(shù)字人在這一點(diǎn)上往往缺乏上下文的感知,特別是在長(zhǎng)時(shí)間對(duì)話中,可能會(huì)失去對(duì)話的連貫性和邏輯性,從而導(dǎo)致響應(yīng)不相關(guān)或不恰當(dāng)。
其次是情感識(shí)別不足。一方面,它們的情感分析有局限,即盡管有些數(shù)字人通過(guò)自然語(yǔ)言處理和機(jī)器學(xué)習(xí)技術(shù)能夠通過(guò)分析用戶(hù)的語(yǔ)言來(lái)識(shí)別情感,但這種分析往往依賴(lài)于特定的關(guān)鍵詞和語(yǔ)氣。這意味著數(shù)字人可能錯(cuò)過(guò)更復(fù)雜的情感表達(dá),比如諷刺或微妙的悲傷,導(dǎo)致反饋的情感不夠準(zhǔn)確。另一方面是它們?nèi)狈φ鎸?shí)的共情能力,即雖然數(shù)字人可以模仿情感響應(yīng),比如使用安慰性語(yǔ)言或積極的反饋,但它們并不具備真實(shí)的情感體驗(yàn),因此無(wú)法提供真正的共情。這可能使得用戶(hù)在面對(duì)情感問(wèn)題時(shí),可能感到孤獨(dú)或無(wú)助,因?yàn)樗麄儫o(wú)法獲得來(lái)自數(shù)字人的真正理解和共情。
4.2 方言與口音的適應(yīng)性問(wèn)題
數(shù)字人訓(xùn)練通常是基于標(biāo)準(zhǔn)語(yǔ)言模型,這就導(dǎo)致它們對(duì)地方方言和俚語(yǔ)的理解能力有限。例如,中國(guó)不同地區(qū)的方言(如粵方言、四川話)具有獨(dú)特的表達(dá)方式和詞匯,數(shù)字人可能無(wú)法準(zhǔn)確理解這些方言的語(yǔ)境或情感。不同地區(qū)的用戶(hù)在交流時(shí)可能會(huì)使用不同的口音,這使得數(shù)字人在語(yǔ)音識(shí)別上面臨挑戰(zhàn)。例如,英國(guó)口音與美國(guó)口音之間的差異可能導(dǎo)致數(shù)字人無(wú)法正確理解用戶(hù)的意圖,影響溝通效率。對(duì)于來(lái)自多樣文化背景的用戶(hù),數(shù)字人的這種方言與口音的適應(yīng)性缺乏可能使他們感到被排斥,進(jìn)而影響了數(shù)字人作為交流工具的普遍適用性。
4.3 可能會(huì)影響人類(lèi)的溝通能力
長(zhǎng)期依賴(lài)數(shù)字人進(jìn)行交流有可能使人們?cè)诿鎸?duì)面溝通時(shí)感到不適應(yīng)。例如,年輕一代在與數(shù)字人交流時(shí)傾向于使用表情符號(hào)和縮寫(xiě)符號(hào),但在實(shí)際社交場(chǎng)合中可能缺乏應(yīng)對(duì)復(fù)雜對(duì)話的能力和技巧。這種依賴(lài)性還可能影響到人際交往能力,減弱他們的傾聽(tīng)和情感共鳴。例如在與朋友或同事交流時(shí),缺乏面對(duì)面交流的經(jīng)驗(yàn)可能導(dǎo)致對(duì)他人情緒和非語(yǔ)言信號(hào)的誤解,從而影響人際關(guān)系的建立與維持。
4.4 各類(lèi)應(yīng)用場(chǎng)景中的可能問(wèn)題
比如在直播帶貨領(lǐng)域,數(shù)字人主播回答消費(fèi)者問(wèn)題的時(shí)候會(huì)莫名其妙地說(shuō)教,回復(fù)的內(nèi)容有時(shí)候驢唇不對(duì)馬嘴,道歉套用的是AI模板,給不了讓人滿(mǎn)意的解決措施。(李燕京 2024b)在客服和醫(yī)療場(chǎng)景中,可能存在交互時(shí)使用行業(yè)特定術(shù)語(yǔ)的情況,數(shù)字人可能無(wú)法準(zhǔn)確理解或解釋這些術(shù)語(yǔ),導(dǎo)致用戶(hù)感到不被理解或無(wú)法理解患者的癥狀描述并提供有效的建議。在教育和培訓(xùn)場(chǎng)景中,數(shù)字人可能無(wú)法根據(jù)學(xué)生的不同需求提供深入的語(yǔ)言指導(dǎo),進(jìn)而可能影響學(xué)習(xí)效果;學(xué)生在提問(wèn)時(shí)通常希望得到個(gè)性化和互動(dòng)性的回答,而數(shù)字人往往只能提供標(biāo)準(zhǔn)化的回復(fù),無(wú)法滿(mǎn)足學(xué)生的求知欲。在娛樂(lè)和游戲場(chǎng)景中,數(shù)字人可能無(wú)法準(zhǔn)確模仿某個(gè)角色的語(yǔ)言風(fēng)格或語(yǔ)氣,影響沉浸感和游戲體驗(yàn);玩家可能在游戲中使用快速、非正式的語(yǔ)言進(jìn)行交流,而數(shù)字人可能無(wú)法及時(shí)做出反應(yīng),導(dǎo)致游戲節(jié)奏被打斷。這些場(chǎng)景中的語(yǔ)言問(wèn)題可能導(dǎo)致用戶(hù)的體驗(yàn)下降、誤解或溝通障礙。
4.5 法律、倫理和隱私問(wèn)題
數(shù)字時(shí)代引發(fā)了語(yǔ)言倫理的一些新形態(tài)和新趨勢(shì)。(王春輝" 2022)數(shù)字人在與用戶(hù)互動(dòng)時(shí),通常會(huì)收集個(gè)人信息和交流數(shù)據(jù),以改善其響應(yīng)質(zhì)量。這些數(shù)據(jù)可能包括用戶(hù)的個(gè)人喜好、行為模式、甚至情感狀態(tài)。例如,社交媒體平臺(tái)的數(shù)字助手在用戶(hù)提問(wèn)時(shí)可能記錄用戶(hù)的興趣和習(xí)慣,從而推薦內(nèi)容或服務(wù)。(李燕京" 2024a)由于數(shù)據(jù)存儲(chǔ)和傳輸過(guò)程中的安全隱患,用戶(hù)可能擔(dān)心自己的個(gè)人信息會(huì)被泄露或?yàn)E用。比如,某個(gè)在線客服數(shù)字人在與用戶(hù)互動(dòng)時(shí)不小心泄露了用戶(hù)的個(gè)人信息,就可能會(huì)引發(fā)公眾對(duì)該服務(wù)的信任危機(jī)。此外,一旦這些數(shù)據(jù)被黑客攻擊或錯(cuò)誤使用,用戶(hù)的隱私可能面臨嚴(yán)重風(fēng)險(xiǎn)。數(shù)字人的回答基于其訓(xùn)練數(shù)據(jù),這些數(shù)據(jù)可能包含偏見(jiàn)或不準(zhǔn)確的信息。例如,如果訓(xùn)練數(shù)據(jù)中包含性別或種族的偏見(jiàn),數(shù)字人在回答相關(guān)問(wèn)題時(shí)可能無(wú)意中強(qiáng)化這些偏見(jiàn),從而誤導(dǎo)用戶(hù)。再比如在健康咨詢(xún)場(chǎng)景中,數(shù)字人可能會(huì)基于不全面的數(shù)據(jù)提供不恰當(dāng)?shù)慕ㄗh,這可能導(dǎo)致用戶(hù)對(duì)健康問(wèn)題產(chǎn)生錯(cuò)誤的認(rèn)識(shí),甚至延誤治療。
此外值得注意的是,包括數(shù)字人在內(nèi)的整個(gè)人工智能系統(tǒng)行業(yè)都卷入了全球社會(huì)政治權(quán)力等級(jí)制度,即“人工智能系統(tǒng)的建立是為了以主要使其服務(wù)的國(guó)家、機(jī)構(gòu)和公司受益的方式觀察和干預(yù)世界。從這個(gè)意義上說(shuō),人工智能系統(tǒng)是權(quán)力的表現(xiàn),這種權(quán)力來(lái)自更廣泛的經(jīng)濟(jì)和政治力量,其創(chuàng)建目的是增加利潤(rùn),并將控制權(quán)集中到那些擁有這些權(quán)力的人身上”(Crawford" 2021:211)。
5 相應(yīng)的治理對(duì)策
數(shù)字人及其參與的虛擬空間會(huì)豐富未來(lái)人類(lèi)的生存狀態(tài)與體驗(yàn),這些虛擬中包含種種實(shí)在性,但人類(lèi)還是需要防止對(duì)數(shù)字人和虛擬空間的過(guò)度依賴(lài),防范虛擬空間本身秩序的惡化。(彭蘭" 2024)面對(duì)數(shù)字人在語(yǔ)言溝通和使用中出現(xiàn)的各種問(wèn)題,當(dāng)下和未來(lái)需要多主體的融合協(xié)作,來(lái)提供相應(yīng)的語(yǔ)言治理和語(yǔ)言規(guī)劃。
5.1 提升數(shù)字人的理解與響應(yīng)能力
持續(xù)改進(jìn)自然語(yǔ)言處理技術(shù),使數(shù)字人能夠更好地理解復(fù)雜語(yǔ)境、隱喻和情感,提高響應(yīng)的準(zhǔn)確性和相關(guān)性。為了讓數(shù)字人更好地理解復(fù)雜的語(yǔ)境,可以采用上下文記憶技術(shù),讓數(shù)字人在對(duì)話中“記住”先前的交流內(nèi)容,幫助其更流暢地進(jìn)行多輪對(duì)話。例如,在醫(yī)療場(chǎng)景中,用戶(hù)可能在咨詢(xún)過(guò)程中提到癥狀,數(shù)字人應(yīng)該能夠在后續(xù)的對(duì)話中引用這些信息,從而提供更精準(zhǔn)的建議。通過(guò)分析用戶(hù)的歷史對(duì)話數(shù)據(jù),數(shù)字人可以學(xué)習(xí)用戶(hù)的溝通風(fēng)格和偏好。例如,在教育場(chǎng)景中,若某學(xué)生傾向于提問(wèn)某些具體問(wèn)題,數(shù)字人應(yīng)調(diào)整其回答方式,提供更具針對(duì)性的輔導(dǎo),而不是泛泛而談的標(biāo)準(zhǔn)化回復(fù)。
5.2 方言與口音適應(yīng)性
在訓(xùn)練數(shù)字人時(shí),應(yīng)包括來(lái)自不同地區(qū)的語(yǔ)言樣本和方言,增強(qiáng)其理解能力。例如,針對(duì)中國(guó)市場(chǎng),數(shù)字人應(yīng)接受來(lái)自粵方言、閩方言等多種方言的訓(xùn)練,從而在與地方用戶(hù)互動(dòng)時(shí),能更自然地溝通。開(kāi)發(fā)機(jī)器學(xué)習(xí)算法,使數(shù)字人能夠在對(duì)話中不斷學(xué)習(xí)和調(diào)整。當(dāng)用戶(hù)使用特定方言或口音時(shí),數(shù)字人可以實(shí)時(shí)適應(yīng)并逐步提高對(duì)該方言的理解和響應(yīng)能力。
5.3 促進(jìn)人類(lèi)溝通能力
讓用戶(hù)了解與數(shù)字人互動(dòng)的最佳實(shí)踐,提醒他們使用清晰、準(zhǔn)確的語(yǔ)言。在用戶(hù)教育中強(qiáng)調(diào)面對(duì)面溝通的重要性,開(kāi)展活動(dòng)鼓勵(lì)人們減少對(duì)數(shù)字人的依賴(lài)。例如,學(xué)??梢栽O(shè)立“人際交流日”,鼓勵(lì)學(xué)生進(jìn)行面對(duì)面的交流練習(xí),從而增強(qiáng)社交技能。為用戶(hù)提供關(guān)于如何與數(shù)字人有效溝通的建議,幫助他們?cè)谌粘=涣髦斜3终Z(yǔ)言能力。在學(xué)校和社區(qū)開(kāi)展社交技能課程,教授如何進(jìn)行有效的對(duì)話、傾聽(tīng)他人和識(shí)別非語(yǔ)言信號(hào)等。這些措施都可以幫助年輕人提高面對(duì)面交流的自信心和能力,避免長(zhǎng)期依賴(lài)數(shù)字人而導(dǎo)致的溝通能力退化。
5.4 適應(yīng)各類(lèi)應(yīng)用場(chǎng)景
針對(duì)特定領(lǐng)域,可以通過(guò)與行業(yè)專(zhuān)家合作構(gòu)建包含行業(yè)專(zhuān)業(yè)術(shù)語(yǔ)的數(shù)據(jù)庫(kù),從而確保它們能夠理解并正確使用這些術(shù)語(yǔ)。例如,在醫(yī)療領(lǐng)域,數(shù)字人應(yīng)該能正確解釋醫(yī)學(xué)術(shù)語(yǔ),而不是用模糊的語(yǔ)言混淆患者。在娛樂(lè)和游戲中,數(shù)字人可以通過(guò)使用多樣的角色語(yǔ)氣和風(fēng)格,增強(qiáng)用戶(hù)的沉浸感;也可以根據(jù)角色的背景和性格特點(diǎn)調(diào)整其對(duì)話風(fēng)格,使其更具真實(shí)性。
5.5 加強(qiáng)法律、倫理與隱私保護(hù)
政府需加強(qiáng)法律法規(guī)的制定和出臺(tái)。企業(yè)應(yīng)制定和公開(kāi)透明的數(shù)據(jù)使用政策,明確用戶(hù)的數(shù)據(jù)如何被收集、存儲(chǔ)和使用,并確保用戶(hù)可以隨時(shí)查看和刪除其數(shù)據(jù)。引入數(shù)據(jù)加密、匿名化和安全傳輸協(xié)議,保護(hù)用戶(hù)數(shù)據(jù)的安全。同時(shí),定期進(jìn)行安全審計(jì),確保系統(tǒng)免受網(wǎng)絡(luò)攻擊,并及時(shí)修復(fù)潛在的漏洞。定期審查數(shù)字人的輸出,檢查是否存在性別、種族或其他偏見(jiàn),并根據(jù)用戶(hù)反饋不斷優(yōu)化訓(xùn)練數(shù)據(jù)和算法。制定明確的數(shù)據(jù)隱私政策,確保用戶(hù)對(duì)數(shù)據(jù)的使用有知情權(quán)和選擇權(quán),增強(qiáng)用戶(hù)信任。在數(shù)字人開(kāi)發(fā)過(guò)程中,宜引入倫理審查機(jī)制,確保數(shù)字人不會(huì)傳播偏見(jiàn)或誤導(dǎo)性信息。
5.6 多方參與的語(yǔ)言治理
一方面是進(jìn)行跨領(lǐng)域合作。語(yǔ)言學(xué)家、技術(shù)專(zhuān)家和用戶(hù)的共同參與能夠確保數(shù)字人語(yǔ)言治理的全面性與有效性。語(yǔ)言學(xué)家可以提供關(guān)于語(yǔ)言結(jié)構(gòu)和使用的專(zhuān)業(yè)知識(shí),幫助數(shù)字人更好地理解和生成自然語(yǔ)言;技術(shù)專(zhuān)家可以評(píng)估數(shù)字人系統(tǒng)的技術(shù)能力和限制,提出切實(shí)可行的解決方案;而用戶(hù)的反饋則能提供實(shí)際使用中的問(wèn)題和需求,確保治理措施貼近用戶(hù)體驗(yàn)。另一方面可以建立一個(gè)多方參與的平臺(tái)或論壇,讓各方利益相關(guān)者定期交流意見(jiàn)和經(jīng)驗(yàn),討論數(shù)字人在不同場(chǎng)景中的表現(xiàn)和問(wèn)題。此外,通過(guò)多方協(xié)作,形成關(guān)于數(shù)字人語(yǔ)言使用的共同標(biāo)準(zhǔn)和最佳實(shí)踐,確保不同類(lèi)型的數(shù)字人在設(shè)計(jì)和應(yīng)用過(guò)程中遵循相同的語(yǔ)言治理原則。
5.7 加強(qiáng)多維度研究
對(duì)數(shù)字人語(yǔ)言使用影響的學(xué)術(shù)研究應(yīng)涵蓋語(yǔ)言學(xué)、社會(huì)學(xué)、心理學(xué)和人機(jī)交互等多個(gè)領(lǐng)域。這種多維度的研究可以深入分析數(shù)字人對(duì)語(yǔ)言使用、溝通方式和社會(huì)交往的影響,提供更為全面的視角。研究應(yīng)著眼于數(shù)字人對(duì)語(yǔ)言生活的長(zhǎng)遠(yuǎn)影響,包括對(duì)傳統(tǒng)語(yǔ)言使用的改變、溝通能力的演變以及社會(huì)互動(dòng)模式的變化。例如,研究如何通過(guò)數(shù)字人影響年輕一代的語(yǔ)言表達(dá)和社交習(xí)慣,從而為政策制定者提供依據(jù),以應(yīng)對(duì)潛在的語(yǔ)言能力退化問(wèn)題。通過(guò)定期收集和分析用戶(hù)與數(shù)字人互動(dòng)的數(shù)據(jù),識(shí)別出語(yǔ)言使用中的趨勢(shì)和問(wèn)題,評(píng)估數(shù)字人對(duì)用戶(hù)語(yǔ)言能力和溝通質(zhì)量的具體影響。這些數(shù)據(jù)可以為未來(lái)的語(yǔ)言治理和技術(shù)改進(jìn)提供重要參考。研究成果應(yīng)與政策制定相結(jié)合,形成針對(duì)數(shù)字人語(yǔ)言治理的具體建議和指導(dǎo)方針。
上述治理和規(guī)劃策略將有助于提升數(shù)字人的交流能力,提升其在各個(gè)應(yīng)用場(chǎng)景中的有效性與用戶(hù)體驗(yàn),同時(shí)維護(hù)用戶(hù)的隱私與權(quán)益。通過(guò)這些措施,可以更好地治理和規(guī)劃數(shù)字人引發(fā)的語(yǔ)言問(wèn)題,從而促進(jìn)更健康的語(yǔ)言生活和更高效的語(yǔ)言溝通。
6 結(jié)束語(yǔ)
Gartner公司預(yù)測(cè),到2035年數(shù)字人經(jīng)濟(jì)的規(guī)模將達(dá)到1250億美元,并會(huì)持續(xù)增長(zhǎng)。⑩iiMedia Research(艾媒咨詢(xún))數(shù)據(jù)顯示,2022年中國(guó)虛擬人核心市場(chǎng)規(guī)模為120.8億元,同比增長(zhǎng)94.2%,預(yù)計(jì)2025年將達(dá)480.6億元。在傳統(tǒng)行業(yè)數(shù)字化轉(zhuǎn)型及降本增效的需求推動(dòng)下,中國(guó)AI數(shù)字人業(yè)務(wù)需求進(jìn)一步釋放,預(yù)計(jì)市場(chǎng)規(guī)模將持續(xù)增長(zhǎng)。B11
從基于任務(wù)的聊天機(jī)器人到情境感知型對(duì)話式人工智能,再到情感智能的數(shù)字生物,技術(shù)創(chuàng)新不斷重新定義碳基人類(lèi)與世界的互動(dòng)方式。數(shù)字人和人工智能等技術(shù)不僅是語(yǔ)言進(jìn)化敘事中的旁觀者,更是積極的參與者,塑造、影響、有時(shí)甚至挑戰(zhàn)我們交流方式的本質(zhì)。當(dāng)我們站在更多人工智能突破的風(fēng)口浪尖時(shí),思考我們的語(yǔ)言下一步將走向何方,以及在一個(gè)與機(jī)器人和數(shù)字人緊密交織的世界中,它們將如何改變?nèi)祟?lèi)的語(yǔ)言,這是一個(gè)有意思更有意義的話題。人類(lèi)智能和人工智能的共同努力,將決定地球語(yǔ)言生活的未來(lái)。
注釋
①又稱(chēng)“虛擬人”(virtual human)或“虛擬數(shù)字人”(Virtual Digital Human)甚至“元宇宙人”(Metahuman)。有些學(xué)者對(duì)這些不同名目進(jìn)行了區(qū)分,比如 Cui和Liu(2023)等,但鑒于目前的區(qū)分主要是技術(shù)上的而非社會(huì)功能上的,而且這種區(qū)分并不影響本文的討論,所以本文用“數(shù)字人”來(lái)統(tǒng)稱(chēng)。對(duì)于“數(shù)字人”的不同界定,可以參看 Burden, Savin-Baden(2019)。關(guān)于數(shù)字人研究的歷史以及相關(guān)應(yīng)用場(chǎng)景,可以參看Magnenat-Thalmann, Thalmann(2005)、Cui, Liu(2023)、Rekik" et al.(2024)等。
②檢索時(shí)間:2024年9月23日。需要說(shuō)明的是,尤其對(duì)于外文文獻(xiàn)來(lái)說(shuō),數(shù)字不一定精準(zhǔn),只是反映大致趨勢(shì)。
③2021年還只有67篇,2022年猛增到252篇,之后繼續(xù)攀升。
④之前每年文獻(xiàn)產(chǎn)量低于50篇,2012年達(dá)到103篇,之后繼續(xù)攀升。
⑤公司網(wǎng)址:https://amelia.ai/
⑥這項(xiàng)技術(shù)將文字轉(zhuǎn)化為語(yǔ)音,讓虛擬人能夠“說(shuō)話”。它不僅能發(fā)出清晰自然的聲音,還能模仿多種語(yǔ)言和語(yǔ)調(diào)。
⑦“數(shù)字賦能專(zhuān)家”微信公眾號(hào):https://mp.weixin.qq.com/s/IGZKz6rLdxxwU5X_KqdfsQ(2024年9月5日)。
⑧“硬核AIGC”微信公眾號(hào):https://mp.weixin.qq.com/s/a_moqJHKDuqd0lqlFKET9g(2024年06月17日)。
⑨從“中國(guó)知網(wǎng)”的搜索來(lái)看,醫(yī)療醫(yī)學(xué)領(lǐng)域應(yīng)該是數(shù)字人最早進(jìn)入的應(yīng)用場(chǎng)景之一(2020年之前)。
⑩https://www.gartner.com/en/newsroom/press-releases/2022-09-14-gartner-highlights-seven-disruptions-cios-might-not-s.
B11艾媒網(wǎng):《2023年中國(guó)AI數(shù)字人產(chǎn)業(yè)研究報(bào)告》(https://www.iimedia.cn/c400/96607.html)。
參考文獻(xiàn)
陳龍強(qiáng) 張麗錦. 虛擬數(shù)字人3.0:人“人”共生的元宇宙大時(shí)代[M]. 北京:中譯出版社, 2022.‖Chen, L.-Q., Zhang, L.-J. Virtual Digital Human 3.0: The Metaverse Era of Human and Human Symbiosis[M]. Beijing: Chinese Translation Publishing House, 2022.
鄧愷俊. 深度剖析AI機(jī)會(huì),數(shù)字人智能對(duì)話系統(tǒng):未來(lái)的人機(jī)交互新范式[OL]. “Datawhale”微信公眾號(hào), 2024-06-09.‖Deng, K.-J. In-depth Analysis of AI Opportunities, Digital Human Intelligent Dialogue System: A New Paradigm for Human-computer Interaction in the Future[OL]. “Datawhale” WeChat Public Account, 2024-06-09.
甘蒞豪 王 豪. 從情感投射到數(shù)碼情感:數(shù)字景觀中人機(jī)交往的情感嬗變[J]. 現(xiàn)代出版, 2024(3).‖Gan, L.-H., Wang, H. From Emotional Projection to Digital Emotion: The Emotional Transformation of" Human-computer Interaction in Digital Landscape[J]. Modern Publishing, 2024(3).
郭亞軍 龐義偉 周家華 馬慧芳. ChatGPT賦能圖書(shū)館虛擬數(shù)字人:技術(shù)優(yōu)勢(shì)、應(yīng)用場(chǎng)景與實(shí)踐路徑[J]. 圖書(shū)館論壇, 2024(8).‖Guo, Y.-J.," Pang, Y.-W.," Zhou, J.-H.," Ma, H.-F. ChatGPT Empowers Digital Humans in Libraries:Technological Advantages,Application Scenarios,and Practical Pathways[J]. Library Tribune, 2024(8).
韓家偉 朱 妍." 孿生數(shù)字人的形象與語(yǔ)言授權(quán)框架研究[J]. 軟件導(dǎo)刊, 2024(7).‖Han, J.-W., Zhu, Y. A Study on the Image and Language Empowerment Framework of Twin Digital People[J]. Software Guide, 2024(7).
韓 嘯 李靜怡 馬 亮." 政務(wù)服務(wù)數(shù)字人:理論詮釋、實(shí)踐困境與因應(yīng)路徑[J/OL]. 電子科技大學(xué)學(xué)報(bào)(社科版) .‖Han, X., Li, J.-Y., Ma, L. Digital Humans for Government Service: Theoretical Interpretation, Practical Dilemmas and Corresponding Paths[J]. Journal of" University of" Electronic Science and Technology of China(Social Science Edition). DOI:10.14071/j.1008-8105(2024)-5010.
李燕京. 數(shù)字人變身虛擬社交弄潮兒[N]. 中國(guó)消費(fèi)者報(bào), 2024a-04-08.‖ Li, Y.-J. Digital People Become Virtual Social Trendsetters[N]. China Consumer News, 2024a-04-08.
李燕京. 數(shù)字人直播帶貨亟待規(guī)范[N]. 中國(guó)消費(fèi)者報(bào), 2024b-06-24.‖Li, Y.-J. Digital People Live Sreaming Sales Ugently Needs to Be Rgulated[N]. China Consumer News, 2024b-06-24.
梁向東 梁楚怡. 基于人工智能和數(shù)字人技術(shù)的對(duì)外漢語(yǔ)課程系統(tǒng)開(kāi)發(fā)探索[J]. 互聯(lián)網(wǎng)周刊, 2023(19).‖Liang, X.-D., Liang, C.-Y. Exploration on the Development of" Chinese as a Foreign Language Course System Based on Artificial Intelligence and Digital Human Technology[J]. China Internet Week, 2023(19).
林一民 鄧香蓮. 聲起數(shù)字人:有聲閱讀中的人機(jī)互動(dòng)、情感依戀與可能關(guān)切[J]. 數(shù)字出版研究, 2024(1).‖Lin, Y.-M., Deng, X.-L. Voice from Digital Human: Human-Machine Interaction, Emotional Attachment and Possible Concerns in Audio Reading[J]. Digital Publis-hing Research, 2024(1).
劉鴻宇 付繼林 王珍珍. 手語(yǔ)數(shù)字人技術(shù)及智能應(yīng)用研究[J]. 價(jià)值工程, 2024(2).‖Liu, H.-Y.," Fu, J.-L., Wang, Z.-Z. Sign Language Avatar Technology and Its AI Application[J]. Value Engineering, 2024(2).
彭冬雪. AI虛擬數(shù)字人與用戶(hù)的關(guān)系建構(gòu)——發(fā)音人的視角[J]. 中國(guó)傳媒科技, 2023(12).‖Peng, D.-X. The Construction of" the Relationship Between AI Virtual Digital People and Users — The Perspective of the Speaker[J]. Media Science and Technology of China, 2023(12).
彭 蘭. 與數(shù)字人共存將帶來(lái)什么?[J/OL]. 新聞界, 2024, DOI:10.15897/j.cnki.cn51-1046/g2.20240808.001.‖Peng, L. The Impact of Coexistence With Digital Humans[J/OL]. Journalism and Mass Communication, 2024, DOI:10.15897/j.cnki.cn51-1046/g2.20240808.001.
任繼福. 自然人、機(jī)器人與數(shù)字人的情感交互[J]. 高科技與產(chǎn)業(yè)化, 2023(5).‖Ren, J.-F. Emotional Interaction Between Natural People, Robots and Digital People[J]. High-Technology amp; Commercialization, 2023(5).
王春輝. 數(shù)字時(shí)代語(yǔ)言倫理的新形態(tài)和新表現(xiàn)[J]. 社會(huì)科學(xué)戰(zhàn)線, 2022(12).‖Wang, C.-H. New Forms and Manifestations of" Language Ethics in the Digital Age[J]. Social Science Front, 2022(12).
王春輝. 自然人、機(jī)器人、數(shù)字人“三人”共生時(shí)代的語(yǔ)言生活[J]. 語(yǔ)言戰(zhàn)略研究, 2024(3).‖Wang, C. -H. Language Life in the Era of “Natural Human-Robot-Di-gital Human Symbiosis”[J]. Chinese Journal of Language Policy and Planning, 2024(3).
王國(guó)慶 裴云強(qiáng) 楊 陽(yáng) 徐 行 汪 政 申恒濤. 多??尚沤换ィ簭亩嗄B(tài)信息融合到人—機(jī)器人—數(shù)字人三位一體式交互模型[J]. 中國(guó)科學(xué):信息科學(xué), 2024(4).‖Wang, G.-Q., Pei, Y.-Q., Yang, Y., Xu, X., Wang," Z., Shen, H.-T. Multimodal Trustworthy Interaction: From Multimodal Information Fusion to a Tri-nitarian Human-robot-digital Human Interaction Model[J]. Scientia Sinica (Informationis), 2024(4).
王 妍. 面向數(shù)字人交互的視覺(jué)跨模態(tài)學(xué)習(xí)研究[D]. 安徽大學(xué)碩士學(xué)位論文, 2023.‖Wang, Y. Research on Visual Cross-modal Learning for Digital Human Inte-raction[D]. Anhui University, 2023.
王澤亞. 社會(huì)表演學(xué)在數(shù)字人交互中的應(yīng)用[J]. 文化產(chǎn)業(yè), 2024(10).‖Wang, Z.-Y. Application of" Social Performance Studies in Digital Human Interaction[J]. Culture Industry, 2024(10).
魏小東 習(xí)鵬飛. 大語(yǔ)言模型驅(qū)動(dòng)下的虛擬數(shù)字人第二語(yǔ)言教育應(yīng)用研究[J]. 電化教育研究, 2024(5).‖Wei, X.-D., Xi, P.-F. A Study on Application of Virtual Digital Human for Second Language Education Dri-ven by Large Language Model[J]. e-Education Research, 2024(5).
嚴(yán) 通. 基于ChatGPT語(yǔ)言模型的虛擬數(shù)字人語(yǔ)音交互應(yīng)用[J]. 電視技術(shù), 2023(8).‖Yan, T. Virtual Digital Person Voice Interaction Application Based on ChatGPT Language Model[J]. Video Engineering, 2023(8).
張?jiān)? 留守兒童父母數(shù)字人的交互設(shè)計(jì)及輔助養(yǎng)育APP應(yīng)用設(shè)計(jì)[D]. 北京郵電大學(xué)碩士學(xué)位論文, 2024.‖Zheng. Y.-L. Interaction Design of" Digital Human for Parents of" Left-behind Children and Design of APP Application for Assisting Parenting[D]. Beijing University of Posts and Telecommunications, 2024.
趙一鳴 鄭喬治 沈校亮. 虛擬數(shù)字人對(duì)用戶(hù)在線學(xué)習(xí)效果的影響研究[J/OL]. 現(xiàn)代情報(bào). https://link.cnki.net/urlid/22.1182.G3.20240611.0847.002.‖Zhao, Y.-M., Zheng, Q.-Z., Shen, X. -L. Research on the Influence of Virtual Digital Human on Users’Online Learning Performance[J/OL]. Journal of Modern Information. https://link.cnki.net/urlid/22.1182.G3.20240611.0847.002.
鄭 璇. 手語(yǔ)數(shù)字人研發(fā)現(xiàn)狀與思考[J]. 語(yǔ)言戰(zhàn)略研究, 2024(3).‖Zheng, X. The Development of Signing Avatars: Current Situation and Reflections[J]. Chinese Journal of Language Policy and Planning, 2024(3).
Bates, Andrée. Using Digital Humans to Cut Costs, Provide Stronger Customer Experiences and Grow Faster[OL]. https://www.linkedin.com/pulse/using-digital-humans-cut-costs-provide-stronger-customer-bates, 2023.
Burden, D., Savin-Baden, M. Virtual Humans: Today and Tomorrow[M]. Boca Raton: CRC Press, 2019.
Chen, S., Zhang, D., Shi, W., Ding, X., Chang, L. Exploring the Efficacy of Interactive Digital Humans in Cultu-ral Communication[A]. In: Zhai, G., Zhou, J., Ye, L., Yang, H., An, P., Yang, X.(Eds.), Digital Multimedia Communications. IFTC 2023. Communications in Computer and Information Science, vol 2066[C]. Springer: Singapore, 2024.
Clarke, D. How Global Businesses Use Multilingual Digital Humans[OL]. https://www.guildhawk.com/blog/how-global-businesses-use-multilingual-digital-humans, 2023.
Crawford," K. Atlas of AI[M]. New Haven: Yale University Press, 2021.
Cui," L.-P., Liu, J.-R. Virtual Human: A Comprehensive Survey on Academic and Applications[J]. IEEE Access, 2023(11).
Firework.The" Five Areas Where Digital Humans Will Help Win Retail[OL]. https://firework.com/blog/what-is-a-digital-human/#The_Five_Areas_Where_Digital_Humans_Will_Help_Win_Retail, 2024.
Hotchkiss, J.R., Paladino, J.D., Brackney, C.W., Kaynar, A.M.,"" Crooke, P.S." The Language of Caring: Digital Human Modeling, Practice Patterns, and Performance Assessment[J]. Procedia Manufacturing, 2015(3).
Konkel, F. Meet Emma, Amarillo’s AI assistant and ‘Digital Human’[OL]. https://www.route-fifty.com/digital-government/2024/05/meet-emma-amarillos-ai-assistant-and-digital-human/396884/, 2024.
Kumar, S. Advancements in Real-time Interactive Digital Humans as TeachingAssistants[OL]. https://www.researchgate.net/profile/Sahil-Kumar-119/publication/382968818_Advancements_in_Real-time_Interactive_Digital_Humans_as_Teaching_Assistants/links/66b52d7151aa0775f274fb74/Advancements-in-Real-time-Interactive-Digital-Humans-as-Teaching-Assistants.pdf, 2024.
Lazer, S. Transforming Patient-Centric Healthcare with Digital Humans[OL]. https://www.healthcareittoday.com/2023/08/17/transforming-patient-centric-healthcare-with-digital-humans/, 2023.
Magnenat-Thalmann, N., Thalmann," D. Virtual Humans: Thirty Years of" Research, What Next?[J]. Visual Com-put, 2005(21).
Newman, S.A., Gopalkrishnan, S. The Prospect of" Digital Human Communication for Organizational Purposes[J]. Front. Commun, 2023(8).
Ram, M. From Chatbots to Digital Humans: The Evolution of" Conversational AI[OL]. https://overtdigitalmarketing.com.au/from-chatbots-to-digital-humans-the-evolution-of-conversational-ai/, 2024.
Rekik, R., Wuhrer," S., Hoyet, L., Zibrek, K.," Olivier, A.H. A Survey on Realistic Virtual Human Animations: Definitions, Features and Evaluations[J]. Computer Graphics Forum, 2024(2).
SolutionsHub. Digital Human in Business: The Potential and Challenges[OL]. https://solutionshub.epam.com/blog/post/digital-human, 2024.
Sung, E.C., Han, D.I.D., Bae, S.," Kwon, O. What Drives Technology-enhanced Storytelling Immersion? The Role of" Digital Humans[J]. Computers in Human Behavior, 2022.
Taglinger, M., Jordan, S., Kracklauer, A.H. Acceptance of Artificially Intelligent Digital Humans in Online Shops: A Modelling Approach[J]. Journal of Applied Interdisciplinary Research, 2023(1).
Tastemirova, A., Schneider, J., Kruse, L.C. et al. Mic-roexpressions in Digital Humans: Perceived Affect, Since-rity, and Trustworthiness[J]. Electron Markets, 2022(32).
Zhai, X.-S., Wu, T.-H., Li, C.-X., Chou, T.-T.," Li, Y. Digital Human in Educational Research: Evolution, Trends and Challenges[OL]. https://www.researchgate.net/publication/382869896_Digital_Human_in_Educational_Research_Evolution_Trends_and_Challenges, 2023.
Zhou, Y., Xu, K., Yin, B.," Liu, N. Research on the Application of" Digital Humans in English Oral Teaching Based on AI Models[R]. In" Proceedings of the 2024 9th International Conference on Distance Education and Lear-ning, 2024.
定稿日期:2024-10-10【責(zé)任編輯 孫 穎】