揭秘數(shù)字人，讓教師解放出來

2024-12-18 00:00:00倪俊杰

中國信息技術(shù)教育 2024年23期

編者按：近年來，尤其是在生成式人工智能爆火之后，數(shù)字人技術(shù)如一顆璀璨的星星在科技領(lǐng)域迅速崛起，正以前所未有的影響力改變多個行業(yè)的格局。從最初的概念萌芽到如今令人矚目的發(fā)展，數(shù)字人技術(shù)已經(jīng)逐漸成為一種重要力量。本期文章將深入揭秘數(shù)字人技術(shù)的起源、內(nèi)在原理以及在教育領(lǐng)域的應(yīng)用，探尋數(shù)字人是如何為教師“減負(fù)”，釋放教師精力，創(chuàng)造更多教育價值，也關(guān)注其可能帶來的新挑戰(zhàn)。下期，我們將關(guān)注如何具體實現(xiàn)數(shù)字人，為教師所用。

摘要：數(shù)字人技術(shù)作為科技領(lǐng)域的新興力量，融合了多種技術(shù)實現(xiàn)模擬真人，能在多場景中與人類交互，應(yīng)用范圍廣泛。本文闡述了數(shù)字人技術(shù)原理，并提出，大模型與數(shù)字人的結(jié)合為教育帶來新可能，其能拓展學(xué)生學(xué)習(xí)能力，增強(qiáng)學(xué)習(xí)交互性，提升知識共創(chuàng)力，為教師“減負(fù)”。同時文章也指出，數(shù)字人應(yīng)用也存在安全隱憂，如引發(fā)倫理法律問題、數(shù)據(jù)隱私保護(hù)問題等，未來人類與數(shù)字人共存將面臨新挑戰(zhàn)。

關(guān)鍵詞：數(shù)字人；語音克隆；大模型；教師

中圖分類號：G434 文獻(xiàn)標(biāo)識碼：A 論文編號：1674-2117（2024）23-0000-05

認(rèn)識數(shù)字人

數(shù)字人（又稱虛擬數(shù)字人，本文統(tǒng)稱“數(shù)字人”）是一種通過計算機(jī)圖形學(xué)、深度學(xué)習(xí)等多種技術(shù)手段，高精度模擬真人外貌、聲音、動作和表情，并且能夠在一定程度上實現(xiàn)自主交互和智能反應(yīng)的虛擬人物。它可以在眾多場景中與人類互動，提供多樣化的服務(wù)或娛樂體驗。2023年9月，杭州亞運會開幕式上的“數(shù)字人”點火儀式，引發(fā)了廣大網(wǎng)友的贊嘆和好奇。在主火炬點燃前，全球超過1億位“數(shù)字火炬手”組成了一個巨大數(shù)字人。這是亞運會史上第一次“數(shù)字點火”，也是裸眼3D技術(shù)、增強(qiáng)現(xiàn)實和人工智能技術(shù)的完美結(jié)合。如今，數(shù)字人幾乎進(jìn)入了生活的各個角落，在刷視頻、聽音樂、看新聞的時候，你都可能邂逅數(shù)字人的“作品”。據(jù)媒體預(yù)測，到2025年中國虛擬人市場規(guī)模有望達(dá)480.6億元，用戶群體主要為中小型企業(yè)，需求主要集中在電商、衛(wèi)生、社會保障和社會福利業(yè)、教育、金融和運輸業(yè)等行業(yè)，產(chǎn)品類型以數(shù)字員工和定制化數(shù)字人為主。

從內(nèi)涵界定來看，數(shù)字人目前并沒有一個嚴(yán)格的定義。按照中國人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟《2020虛擬數(shù)字人白皮書》中的定義，數(shù)字人需要滿足三點：一是要擁有人的外觀；二是要擁有人的行為，如語言、口型、面部表情、肢體動作等；三是要擁有人的思想，如能識別外部環(huán)境、與人交互等。按照以上標(biāo)準(zhǔn)，我們常見的一些動畫片、電影中的虛擬形象并不能算作數(shù)字人，因為它們雖然擁有人的外觀和行為，但是不能識別外部環(huán)境，更不能與人進(jìn)行交互。數(shù)字人形象是由多項技術(shù)綜合集合而成的。其中，語音合成技術(shù)可以生成數(shù)字人的語音，表情生成技術(shù)可以生成數(shù)字人的表情，動作生成技術(shù)可以生成數(shù)字人的動作。隨著技術(shù)的不斷發(fā)展，數(shù)字人將變得更加逼真、自然、智能，越來越像真的“人”。

從實現(xiàn)效果來看，數(shù)字人可分為2D和3D兩類。2D數(shù)字人應(yīng)用廣泛，如新京報貝殼財經(jīng)的“AI小貝”、虛擬數(shù)字人“Ada”等。3D數(shù)字人中比較有名的是虛幻引擎的meta human，其背后涉及blendShape（混合形狀動畫）等先進(jìn)技術(shù)。2024年5月17日，湖南博物院首次公開發(fā)布“辛追夫人”3D數(shù)字人形象，他們以馬王堆漢墓出土的辛追為原型，進(jìn)行數(shù)字形象建立和互動智能體打造，高度還原其容貌，展示了3D數(shù)字人的高超技藝。當(dāng)人工智能技術(shù)快速發(fā)展之后，數(shù)字人作為數(shù)字技術(shù)的前沿產(chǎn)物，正以前所未有的形態(tài)融入我們的日常生活。AIGC技術(shù)的發(fā)展，使得諸如Midjourney、Sora、騰訊智影等數(shù)字人生成的門檻越來越低，也激發(fā)了人們對數(shù)字人的強(qiáng)烈需求。

從應(yīng)用范圍來看，數(shù)字人技術(shù)已經(jīng)在各行各業(yè)發(fā)揮著重要作用。例如，虛擬主播可以應(yīng)用于新聞、直播、娛樂等領(lǐng)域；虛擬導(dǎo)購在商場、超市、博物館等領(lǐng)域隨處可見，一些旅游景區(qū)或者博物館之類的地方，也會采用數(shù)字講解員，其服務(wù)效果比冷冰冰的語音講解器更有感染力，讓人覺得更親切；虛擬客服主要應(yīng)用在銀行、電信、運營商等領(lǐng)域，一個具有人類形象的數(shù)字客服會讓咨詢者感覺更為溫暖，更愿意溝通交流解決問題；虛擬教師在教育、培訓(xùn)等領(lǐng)域也有很多應(yīng)用。

數(shù)字人技術(shù)的基本原理

數(shù)字人技術(shù)并非新興事物，其發(fā)展歷程可追溯至四五十年前。早在20世紀(jì)60年代，波音公司就開始試運用數(shù)字化的人體模型來研究飛機(jī)駕駛艙的人體工程學(xué)設(shè)計。當(dāng)時的“波音人”具備人類的外形，能夠模仿人類的常見動作，而且還能在人們設(shè)置的場景中模擬人的動作，與環(huán)境進(jìn)行交互。那么，如何理解數(shù)字人技術(shù)的原理？用一個簡單公式來說，數(shù)字人=形象生成+語音克隆+智能交互。具體而言，包括以下關(guān)鍵技術(shù)。

1.形象生成

形象生成是數(shù)字人技術(shù)的基石。它需要用計算機(jī)圖形學(xué)、計算機(jī)視覺、語音合成等技術(shù)，構(gòu)建逼真的圖像、動作和聲音，以塑造擬人形象。為了創(chuàng)建不同的虛擬形象，數(shù)字人可以用真人的2D視頻或3D模型，也可借助生成對抗網(wǎng)絡(luò)（GAN）等方法。GAN是一種用兩個神經(jīng)網(wǎng)絡(luò)（生成器和判別器）互相對抗，從噪聲中生成高質(zhì)量圖像的技術(shù)。數(shù)字人的人體建模，與人工智能模型不同，專業(yè)的人體建模涉及數(shù)據(jù)采集、特征提取、模型構(gòu)建、姿態(tài)估計等復(fù)雜操作。目前，短視頻制作多采用2D平面人體，僅僅是一個拍攝的視頻。真正的3D人體建模因受制于成本、終端性能和應(yīng)用場景等因素而應(yīng)用較少。

數(shù)字人形象生成的關(guān)鍵技術(shù)有兩個：一是面部表情捕捉，即通過高精度攝像頭和傳感器捕捉人臉的細(xì)微表情變化，并將這些數(shù)據(jù)轉(zhuǎn)化為數(shù)字信號。具體方法包括使用各種細(xì)節(jié)數(shù)據(jù)和3D面部網(wǎng)格技術(shù)，通過深度學(xué)習(xí)模型生成高度逼真的面部表情。二是動作捕捉，即利用動作捕捉技術(shù)記錄人類的身體動作，并將這些動作應(yīng)用到數(shù)字人身上，使其表現(xiàn)出自然的肢體語言。兩種技術(shù)常常結(jié)合使用標(biāo)記點和無標(biāo)記點捕捉系統(tǒng)，以及機(jī)器學(xué)習(xí)算法，來精確模擬人體運動。

例如，K R Prajwal團(tuán)隊在2020年的ACM國際多媒體會議上發(fā)表文章介紹了一款由倫敦帝國理工學(xué)院的研究團(tuán)隊開發(fā)的人工智能模型——Wav2Lip，主要為了實現(xiàn)音頻與視頻口型的高度同步。Wav2Lip的出現(xiàn)可以在電影、電視劇、教育視頻等制作中，對演員的口型進(jìn)行精確匹配，提高制作效率和質(zhì)量，也可以結(jié)合數(shù)字人模型制作出具有高度自然感的虛擬主播，幫助那些在語言學(xué)習(xí)中用來生成具有正確口型的發(fā)音示例。Wav2Lip的核心是一個條件生成對抗網(wǎng)絡(luò)（Conditional Generative Adversarial Network，cGAN），通過特征提取——條件生成——對抗訓(xùn)練——循環(huán)一致性，生成與條件一致的輸出。cGAN的訓(xùn)練一共有一個生成器（下頁圖1左邊大框，Generator）和兩個判別器（圖1右邊兩個小框，分別是pre-trained lip-sync expert和visual quality discriminator）。[1]

設(shè)置兩個判別器是因為設(shè)計者認(rèn)為之前的唇音同步效果不佳，需要一個額外的判別器來判斷唇音同步，這種做法使得唇音同步達(dá)到91%比例。講完唇音同步判別器，剩下的一個生成器和一個判別器就跟常規(guī)的GAN差不多了。生成器由身份編碼器、語音編碼器和面部解碼器三部分組成，其主要原理是通過一個專家鑒別器來訓(xùn)練，從真實視頻學(xué)習(xí)的唇同步概念來強(qiáng)制生成器實現(xiàn)逼真的唇同步。[1]

2.語音克隆

語音克隆是數(shù)字人“說話”的關(guān)鍵技術(shù)，基于神經(jīng)網(wǎng)絡(luò)的語音合成技術(shù)（如Tacotron和WaveNet），將文字轉(zhuǎn)化為自然流暢的語音，其邏輯關(guān)系為：聲音數(shù)據(jù)樣本→克隆算法→訓(xùn)練模型→模型推理（文本生成語音）。在完成語音克隆后，數(shù)字人就擁有了自己的聲音模型，我們就可以輸入文字，讓模型幫你生成一段“模仿”你的語音，這個過程也叫TTS（Text To Speech，文本轉(zhuǎn)語音）。同時，為使數(shù)字人講話更真實，還需要同步口型，使語音與視頻中的人物口型匹配。

目前，許多公司的技術(shù)只需要通過參考一個小片段的音頻，就能夠精準(zhǔn)復(fù)刻語音的情感、重音、節(jié)奏和語調(diào)，甚至能夠跨越不同國家的語言，如MyShell AI開發(fā)的開源項目OpenVoice就是其中之一。OpenVoice語音克隆原理主要用到了一個TTS（）模型+音色特征提取器（如圖2），使用這種編碼器+解碼器的結(jié)構(gòu)能夠控制音頻的合成，根據(jù)參考音頻，最終實現(xiàn)復(fù)刻音色。

3.智能交互

智能交互是數(shù)字人核心技術(shù)之一，賦予數(shù)字人“靈魂”和生命力。它深度融合了自然語言處理、語音識別、圖像識別及情感分析等尖端技術(shù)，實現(xiàn)了全方位、多模態(tài)的溝通體驗。智能交互是數(shù)字人與用戶進(jìn)行溝通和對話的能力，它需要用自然語言處理、語音識別、圖像識別、情感分析等技術(shù)，實現(xiàn)多模態(tài)的交互，包括語音、文字、圖像、視頻等。以某智能公司的數(shù)字人為例，在用戶與數(shù)字人對話時通過ASR識別用戶提出的問題，然后問題被發(fā)送給數(shù)字人大腦（FAQ+大模型）獲取相應(yīng)的答案，再通過TTS技術(shù)將答案轉(zhuǎn)換成音頻，經(jīng)由音頻驅(qū)動數(shù)字人的唇部和面部動作，形成數(shù)字人說話視頻，從而實現(xiàn)真人與數(shù)字人的對話（如圖3）。

數(shù)字人可以通過構(gòu)建知識系統(tǒng)（如知識圖譜），實現(xiàn)數(shù)字人的實時交互和自主學(xué)習(xí)，但在知識獲取、知識融合、知識質(zhì)量等方面仍面臨著諸多挑戰(zhàn)。

數(shù)字人制作工具

為自己定制數(shù)字分身，也成為人們應(yīng)對多重任務(wù)挑戰(zhàn)的一種策略：直播帶貨主播，讓數(shù)字分身接替了自己的工作；媒體也開發(fā)了數(shù)字主持人、數(shù)字記者等。目前，國內(nèi)外可選的數(shù)字人制作工具也有很多。

1.國外數(shù)字人制作工具

國外數(shù)字人制作工具發(fā)展比較早，且種類豐富。英偉達(dá)（NVIDIA）的Omniverse平臺通過利用GPU技術(shù)和深度學(xué)習(xí)算法，提供了先進(jìn)的AI數(shù)字人生成工具。該平臺能夠生成高度逼真的虛擬形象，廣泛應(yīng)用于影視制作、虛擬現(xiàn)實（VR）等領(lǐng)域。Unity Technologies公司推出的虛擬人物生成工具主要面向游戲和影視行業(yè)，支持高精度的面部和動作捕捉技術(shù)。通過深度學(xué)習(xí)和機(jī)器學(xué)習(xí)算法，能夠生成逼真的虛擬角色，提升用戶的沉浸式體驗。Epic Games公司創(chuàng)立的Unreal Engine虛擬角色生成工具支持多種面部表情捕捉和語音合成功能，廣泛應(yīng)用于游戲開發(fā)、虛擬現(xiàn)實等領(lǐng)域。MetaHuman-Stream作為開源實時交互流式數(shù)字人項目，能將數(shù)字人類虛擬形象與真實世界無縫融合。通過集成多種AI模型，該技術(shù)能夠?qū)崿F(xiàn)高度逼真的聲音模擬和流暢的對話交互。用戶可以自定義數(shù)字人的外觀和聲音，無論是在線教育還是虛擬客服，都提供了一種新穎、沉浸式的互動體驗，推動了虛擬數(shù)字人在多樣化應(yīng)用場景中的普及和應(yīng)用。

2.國內(nèi)數(shù)字人制作工具

近年來，國內(nèi)數(shù)字人技術(shù)發(fā)展迅猛，涌現(xiàn)出眾多優(yōu)秀的制作工具。阿里巴巴達(dá)摩院推出的虛擬形象生成工具，運用深度學(xué)習(xí)和計算機(jī)視覺技術(shù)，實現(xiàn)高精度的面部表情捕捉和語音合成，廣泛應(yīng)用于電商直播、虛擬客服等領(lǐng)域，提高了用戶的互動體驗。騰訊AI Lab的虛擬形象生成工具，支持多語言語音識別和自然語言處理技術(shù)。通過深度學(xué)習(xí)模型生成逼真的虛擬角色，應(yīng)用于游戲和社交媒體，提升了用戶的沉浸感。字節(jié)跳動的AI Lab推出了多個虛擬主播和虛擬助手應(yīng)用。這些工具不僅支持高精度的面部表情捕捉，還具備強(qiáng)大的自然語言處理能力，廣泛應(yīng)用于短視頻平臺和內(nèi)容創(chuàng)作。此外，平民化的剪映軟件支持公模數(shù)據(jù)的數(shù)字人，也支持上傳聲音驅(qū)動，深受用戶喜愛。

大模型+數(shù)字人給教師帶來無限可能

隨著用戶需求和產(chǎn)品要求的不斷提升，數(shù)字人的發(fā)展面臨著一系列技術(shù)挑戰(zhàn)。如何在實時交互中生成高質(zhì)量的虛擬形象，如何提高語音合成的自然度和表達(dá)能力，這些都是當(dāng)前技術(shù)亟待解決的問題。而隨著大模型的橫空出世，數(shù)字人領(lǐng)域迎來前所未有的發(fā)展機(jī)遇。在大模型的加持下，數(shù)字人將能夠通過自我學(xué)習(xí)和創(chuàng)造，生成自己的形象、語言、知識和情感，形成自己的個性和風(fēng)格。

那么問題來了，如果將大模型技術(shù)和數(shù)字人技術(shù)聯(lián)合起來，并應(yīng)用于教育領(lǐng)域，又會給教師帶來哪些影響？在此之前，數(shù)字人已發(fā)揮一定的作用，如互動教學(xué)，提供個性化的學(xué)習(xí)內(nèi)容和反饋，輔助教師教學(xué)，使學(xué)生可以在任何時間、任何地點與數(shù)字人教師互動，獲得即時的學(xué)習(xí)幫助。然而，早期的數(shù)字人還不夠“聰明”，其對復(fù)雜問題的推理和解釋能力還比較欠缺。隨著大模型技術(shù)日趨成熟，數(shù)字人的能力也顯著提升。浙江大學(xué)的翟雪松等提出數(shù)字人可以從三個方面賦能教學(xué)，分別是拓展學(xué)生學(xué)習(xí)能力、增強(qiáng)具身交互性、提升知識共創(chuàng)力。[2]陳衛(wèi)東等認(rèn)為數(shù)字人可以通過扮演人類的朋友、伴侶和寵物等多種角色，給用戶帶來親切感和陪伴感，減少其對陌生場景的恐懼和排斥，提供個性化情感服務(wù)，滿足其情感需求，從而提升學(xué)習(xí)者的學(xué)習(xí)效率與積極性。[3]而吳長城等研究指出，新一代生成式人工智能技術(shù)驅(qū)動的新一代教育數(shù)字人為師生教育場景創(chuàng)設(shè)、智慧問答、智能反饋等帶來了質(zhì)的飛躍，可以讓每位教師和學(xué)習(xí)者打造個人的數(shù)字分身，生成自己的個性化教育數(shù)字人。能夠模擬真人教師，與學(xué)習(xí)者進(jìn)行互動，提供個性化的學(xué)習(xí)資源，有效提高學(xué)習(xí)者的學(xué)習(xí)體驗、學(xué)習(xí)興趣、社會存在感和學(xué)習(xí)成績。[4]“大模型+數(shù)字人”的組合能夠充分發(fā)揮兩者優(yōu)勢，大模型提供數(shù)據(jù)驅(qū)動的內(nèi)容創(chuàng)作，給數(shù)字人“裝”上智慧的大腦，使其能夠模擬人類行為和思維，實現(xiàn)智能化交互，給學(xué)習(xí)者提供實時的反饋與互動，有利于實現(xiàn)個性化教育、自適應(yīng)學(xué)習(xí)，積極賦能學(xué)生自主學(xué)習(xí)。當(dāng)大模型+數(shù)字人技術(shù)的疊加應(yīng)用后，將會給教師帶來無限可能，為教師“減負(fù)”，成為其得力的教學(xué)助手。

數(shù)字人技術(shù)的潛在隱憂

數(shù)字人應(yīng)用的盛行，也引發(fā)了諸多擔(dān)憂。人們不禁要問，當(dāng)數(shù)字人脫離了真人控制，人們應(yīng)如何對待其分身？每個人都可能因各種需要產(chǎn)生自己的數(shù)字分身，人們是否真的愿意他人任意處置自己的數(shù)字分身？

數(shù)字人將與人類形成更深層次的互動和共生，引發(fā)新的倫理和法律問題。目前，數(shù)字人主要以一種工具或玩具的角色與人類交往，受到人類的控制和約束；未來，數(shù)字人將以一種伙伴或同伴的角色與人類相處，享有人類的權(quán)利和義務(wù)。數(shù)字人將不僅僅是一種機(jī)器或玩偶，還是一種“生命”，這將需要更多的信任和尊重、更多的理解和溝通、更多的規(guī)范和保護(hù)。值得注意的是，數(shù)字人在使用過程中會涉及大量用戶數(shù)據(jù)，如面部表情、語音信息等。如何保護(hù)用戶數(shù)據(jù)隱私，防止數(shù)據(jù)泄露和濫用，是一個重要的挑戰(zhàn)。同時，數(shù)字人的廣泛應(yīng)用可能引發(fā)一系列倫理和法律問題，如虛擬形象的濫用、虛假信息的傳播等，這些問題都是不可回避的，需要各方共同努力，確保數(shù)字人技術(shù)的健康發(fā)展。

結(jié)語

未來，人類與數(shù)字人必將共存共生，數(shù)字人將繼續(xù)推動科技與藝術(shù)的融合，成為人類生活中不可或缺的一部分。技術(shù)的飛速發(fā)展和應(yīng)用拓展，將會使數(shù)字人為社會帶來更多的創(chuàng)新和價值，引領(lǐng)我們進(jìn)入一個全新的智能時代。隨著AIGC和數(shù)字人技術(shù)的不斷發(fā)展，數(shù)字人員工將成為人類的親密伙伴。那么，我們該如何與數(shù)字人共存？數(shù)字人會如何改變?nèi)藗兊纳媾c社會交往？這將是智能時代生存的新命題，我們拭目以待。

參考文獻(xiàn)：

[1] Prajwal K R， Mukhopadhyay R， Namboodiri V P， et al. A lip sync expert is all you need for speech to lip generation in the wild[C]//Proceedings of the 28th ACM International Conference on Multimedia. New York： ACM，2020：484-492.

[2]翟雪松，吳庭輝，李翠欣，等.數(shù)字人教育應(yīng)用的演進(jìn)、趨勢與挑戰(zhàn)[J].現(xiàn)代遠(yuǎn)程教育研究，2023，35（06）：41-50.

[3]陳衛(wèi)東，鄭巧蕓，褚樂陽，等.智情雙驅(qū)：數(shù)字人的教育價值與應(yīng)用研究[J].遠(yuǎn)程教育雜志，2023，41（03）：42-54.

[4]吳長城，胡雙武，蔣雨江，等.GenAI驅(qū)動的教育數(shù)字人架構(gòu)設(shè)計與實證研究[J].現(xiàn)代教育技術(shù)，2024，34（09）：26-36.

中國信息技術(shù)教育2024年23期

中國信息技術(shù)教育的其它文章: 數(shù)智技術(shù)背景下C語言課程的教學(xué)設(shè)計與實施; 生成式AI規(guī)范賦能科學(xué)研究的歐盟借鑒; 基于時序控制優(yōu)化計算思維訓(xùn)練的策略與實踐; 打造公共服務(wù)平臺助推教育數(shù)字化轉(zhuǎn)型; 用XEduHub實現(xiàn)零樣本圖像分類; 基于虛擬現(xiàn)實技術(shù)的小學(xué)科學(xué)項目式學(xué)習(xí)模式的構(gòu)建與實施

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

揭秘數(shù)字人，讓教師解放出來