国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

?

揭秘數(shù)字人,讓教師解放出來

2024-12-18 00:00:00倪俊杰
中國信息技術(shù)教育 2024年23期

編者按:近年來,尤其是在生成式人工智能爆火之后,數(shù)字人技術(shù)如一顆璀璨的星星在科技領(lǐng)域迅速崛起,正以前所未有的影響力改變多個行業(yè)的格局。從最初的概念萌芽到如今令人矚目的發(fā)展,數(shù)字人技術(shù)已經(jīng)逐漸成為一種重要力量。本期文章將深入揭秘數(shù)字人技術(shù)的起源、內(nèi)在原理以及在教育領(lǐng)域的應(yīng)用,探尋數(shù)字人是如何為教師“減負(fù)”,釋放教師精力,創(chuàng)造更多教育價值,也關(guān)注其可能帶來的新挑戰(zhàn)。下期,我們將關(guān)注如何具體實現(xiàn)數(shù)字人,為教師所用。

摘要:數(shù)字人技術(shù)作為科技領(lǐng)域的新興力量,融合了多種技術(shù)實現(xiàn)模擬真人,能在多場景中與人類交互,應(yīng)用范圍廣泛。本文闡述了數(shù)字人技術(shù)原理,并提出,大模型與數(shù)字人的結(jié)合為教育帶來新可能,其能拓展學(xué)生學(xué)習(xí)能力,增強(qiáng)學(xué)習(xí)交互性,提升知識共創(chuàng)力,為教師“減負(fù)”。同時文章也指出,數(shù)字人應(yīng)用也存在安全隱憂,如引發(fā)倫理法律問題、數(shù)據(jù)隱私保護(hù)問題等,未來人類與數(shù)字人共存將面臨新挑戰(zhàn)。

關(guān)鍵詞:數(shù)字人;語音克隆;大模型;教師

中圖分類號:G434 文獻(xiàn)標(biāo)識碼:A 論文編號:1674-2117(2024)23-0000-05

認(rèn)識數(shù)字人

數(shù)字人(又稱虛擬數(shù)字人,本文統(tǒng)稱“數(shù)字人”)是一種通過計算機(jī)圖形學(xué)、深度學(xué)習(xí)等多種技術(shù)手段,高精度模擬真人外貌、聲音、動作和表情,并且能夠在一定程度上實現(xiàn)自主交互和智能反應(yīng)的虛擬人物。它可以在眾多場景中與人類互動,提供多樣化的服務(wù)或娛樂體驗。2023年9月,杭州亞運會開幕式上的“數(shù)字人”點火儀式,引發(fā)了廣大網(wǎng)友的贊嘆和好奇。在主火炬點燃前,全球超過1億位“數(shù)字火炬手”組成了一個巨大數(shù)字人。這是亞運會史上第一次“數(shù)字點火”,也是裸眼3D技術(shù)、增強(qiáng)現(xiàn)實和人工智能技術(shù)的完美結(jié)合。如今,數(shù)字人幾乎進(jìn)入了生活的各個角落,在刷視頻、聽音樂、看新聞的時候,你都可能邂逅數(shù)字人的“作品”。據(jù)媒體預(yù)測,到2025年中國虛擬人市場規(guī)模有望達(dá)480.6億元,用戶群體主要為中小型企業(yè),需求主要集中在電商、衛(wèi)生、社會保障和社會福利業(yè)、教育、金融和運輸業(yè)等行業(yè),產(chǎn)品類型以數(shù)字員工和定制化數(shù)字人為主。

從內(nèi)涵界定來看,數(shù)字人目前并沒有一個嚴(yán)格的定義。按照中國人工智能產(chǎn)業(yè)發(fā)展聯(lián)盟《2020虛擬數(shù)字人白皮書》中的定義,數(shù)字人需要滿足三點:一是要擁有人的外觀;二是要擁有人的行為,如語言、口型、面部表情、肢體動作等;三是要擁有人的思想,如能識別外部環(huán)境、與人交互等。按照以上標(biāo)準(zhǔn),我們常見的一些動畫片、電影中的虛擬形象并不能算作數(shù)字人,因為它們雖然擁有人的外觀和行為,但是不能識別外部環(huán)境,更不能與人進(jìn)行交互。數(shù)字人形象是由多項技術(shù)綜合集合而成的。其中,語音合成技術(shù)可以生成數(shù)字人的語音,表情生成技術(shù)可以生成數(shù)字人的表情,動作生成技術(shù)可以生成數(shù)字人的動作。隨著技術(shù)的不斷發(fā)展,數(shù)字人將變得更加逼真、自然、智能,越來越像真的“人”。

從實現(xiàn)效果來看,數(shù)字人可分為2D和3D兩類。2D數(shù)字人應(yīng)用廣泛,如新京報貝殼財經(jīng)的“AI小貝”、虛擬數(shù)字人“Ada”等。3D數(shù)字人中比較有名的是虛幻引擎的meta human,其背后涉及blendShape(混合形狀動畫)等先進(jìn)技術(shù)。2024年5月17日,湖南博物院首次公開發(fā)布“辛追夫人”3D數(shù)字人形象,他們以馬王堆漢墓出土的辛追為原型,進(jìn)行數(shù)字形象建立和互動智能體打造,高度還原其容貌,展示了3D數(shù)字人的高超技藝。當(dāng)人工智能技術(shù)快速發(fā)展之后,數(shù)字人作為數(shù)字技術(shù)的前沿產(chǎn)物,正以前所未有的形態(tài)融入我們的日常生活。AIGC技術(shù)的發(fā)展,使得諸如Midjourney、Sora、騰訊智影等數(shù)字人生成的門檻越來越低,也激發(fā)了人們對數(shù)字人的強(qiáng)烈需求。

從應(yīng)用范圍來看,數(shù)字人技術(shù)已經(jīng)在各行各業(yè)發(fā)揮著重要作用。例如,虛擬主播可以應(yīng)用于新聞、直播、娛樂等領(lǐng)域;虛擬導(dǎo)購在商場、超市、博物館等領(lǐng)域隨處可見,一些旅游景區(qū)或者博物館之類的地方,也會采用數(shù)字講解員,其服務(wù)效果比冷冰冰的語音講解器更有感染力,讓人覺得更親切;虛擬客服主要應(yīng)用在銀行、電信、運營商等領(lǐng)域,一個具有人類形象的數(shù)字客服會讓咨詢者感覺更為溫暖,更愿意溝通交流解決問題;虛擬教師在教育、培訓(xùn)等領(lǐng)域也有很多應(yīng)用。

數(shù)字人技術(shù)的基本原理

數(shù)字人技術(shù)并非新興事物,其發(fā)展歷程可追溯至四五十年前。早在20世紀(jì)60年代,波音公司就開始試運用數(shù)字化的人體模型來研究飛機(jī)駕駛艙的人體工程學(xué)設(shè)計。當(dāng)時的“波音人”具備人類的外形,能夠模仿人類的常見動作,而且還能在人們設(shè)置的場景中模擬人的動作,與環(huán)境進(jìn)行交互。那么,如何理解數(shù)字人技術(shù)的原理?用一個簡單公式來說,數(shù)字人=形象生成+語音克隆+智能交互。具體而言,包括以下關(guān)鍵技術(shù)。

1.形象生成

形象生成是數(shù)字人技術(shù)的基石。它需要用計算機(jī)圖形學(xué)、計算機(jī)視覺、語音合成等技術(shù),構(gòu)建逼真的圖像、動作和聲音,以塑造擬人形象。為了創(chuàng)建不同的虛擬形象,數(shù)字人可以用真人的2D視頻或3D模型,也可借助生成對抗網(wǎng)絡(luò)(GAN)等方法。GAN是一種用兩個神經(jīng)網(wǎng)絡(luò)(生成器和判別器)互相對抗,從噪聲中生成高質(zhì)量圖像的技術(shù)。數(shù)字人的人體建模,與人工智能模型不同,專業(yè)的人體建模涉及數(shù)據(jù)采集、特征提取、模型構(gòu)建、姿態(tài)估計等復(fù)雜操作。目前,短視頻制作多采用2D平面人體,僅僅是一個拍攝的視頻。真正的3D人體建模因受制于成本、終端性能和應(yīng)用場景等因素而應(yīng)用較少。

數(shù)字人形象生成的關(guān)鍵技術(shù)有兩個:一是面部表情捕捉,即通過高精度攝像頭和傳感器捕捉人臉的細(xì)微表情變化,并將這些數(shù)據(jù)轉(zhuǎn)化為數(shù)字信號。具體方法包括使用各種細(xì)節(jié)數(shù)據(jù)和3D面部網(wǎng)格技術(shù),通過深度學(xué)習(xí)模型生成高度逼真的面部表情。二是動作捕捉,即利用動作捕捉技術(shù)記錄人類的身體動作,并將這些動作應(yīng)用到數(shù)字人身上,使其表現(xiàn)出自然的肢體語言。兩種技術(shù)常常結(jié)合使用標(biāo)記點和無標(biāo)記點捕捉系統(tǒng),以及機(jī)器學(xué)習(xí)算法,來精確模擬人體運動。

例如,K R Prajwal團(tuán)隊在2020年的ACM國際多媒體會議上發(fā)表文章介紹了一款由倫敦帝國理工學(xué)院的研究團(tuán)隊開發(fā)的人工智能模型——Wav2Lip,主要為了實現(xiàn)音頻與視頻口型的高度同步。Wav2Lip的出現(xiàn)可以在電影、電視劇、教育視頻等制作中,對演員的口型進(jìn)行精確匹配,提高制作效率和質(zhì)量,也可以結(jié)合數(shù)字人模型制作出具有高度自然感的虛擬主播,幫助那些在語言學(xué)習(xí)中用來生成具有正確口型的發(fā)音示例。Wav2Lip的核心是一個條件生成對抗網(wǎng)絡(luò)(Conditional Generative Adversarial Network,cGAN),通過特征提取——條件生成——對抗訓(xùn)練——循環(huán)一致性,生成與條件一致的輸出。cGAN的訓(xùn)練一共有一個生成器(下頁圖1左邊大框,Generator)和兩個判別器(圖1右邊兩個小框,分別是pre-trained lip-sync expert和visual quality discriminator)。[1]

設(shè)置兩個判別器是因為設(shè)計者認(rèn)為之前的唇音同步效果不佳,需要一個額外的判別器來判斷唇音同步,這種做法使得唇音同步達(dá)到91%比例。講完唇音同步判別器,剩下的一個生成器和一個判別器就跟常規(guī)的GAN差不多了。生成器由身份編碼器、語音編碼器和面部解碼器三部分組成,其主要原理是通過一個專家鑒別器來訓(xùn)練,從真實視頻學(xué)習(xí)的唇同步概念來強(qiáng)制生成器實現(xiàn)逼真的唇同步。[1]

2.語音克隆

語音克隆是數(shù)字人“說話”的關(guān)鍵技術(shù),基于神經(jīng)網(wǎng)絡(luò)的語音合成技術(shù)(如Tacotron和WaveNet),將文字轉(zhuǎn)化為自然流暢的語音,其邏輯關(guān)系為:聲音數(shù)據(jù)樣本→克隆算法→訓(xùn)練模型→模型推理(文本生成語音)。在完成語音克隆后,數(shù)字人就擁有了自己的聲音模型,我們就可以輸入文字,讓模型幫你生成一段“模仿”你的語音,這個過程也叫TTS(Text To Speech,文本轉(zhuǎn)語音)。同時,為使數(shù)字人講話更真實,還需要同步口型,使語音與視頻中的人物口型匹配。

目前,許多公司的技術(shù)只需要通過參考一個小片段的音頻,就能夠精準(zhǔn)復(fù)刻語音的情感、重音、節(jié)奏和語調(diào),甚至能夠跨越不同國家的語言,如MyShell AI開發(fā)的開源項目OpenVoice就是其中之一。OpenVoice語音克隆原理主要用到了一個TTS()模型+音色特征提取器(如圖2),使用這種編碼器+解碼器的結(jié)構(gòu)能夠控制音頻的合成,根據(jù)參考音頻,最終實現(xiàn)復(fù)刻音色。

3.智能交互

智能交互是數(shù)字人核心技術(shù)之一,賦予數(shù)字人“靈魂”和生命力。它深度融合了自然語言處理、語音識別、圖像識別及情感分析等尖端技術(shù),實現(xiàn)了全方位、多模態(tài)的溝通體驗。智能交互是數(shù)字人與用戶進(jìn)行溝通和對話的能力,它需要用自然語言處理、語音識別、圖像識別、情感分析等技術(shù),實現(xiàn)多模態(tài)的交互,包括語音、文字、圖像、視頻等。以某智能公司的數(shù)字人為例,在用戶與數(shù)字人對話時通過ASR識別用戶提出的問題,然后問題被發(fā)送給數(shù)字人大腦(FAQ+大模型)獲取相應(yīng)的答案,再通過TTS技術(shù)將答案轉(zhuǎn)換成音頻,經(jīng)由音頻驅(qū)動數(shù)字人的唇部和面部動作,形成數(shù)字人說話視頻,從而實現(xiàn)真人與數(shù)字人的對話(如圖3)。

數(shù)字人可以通過構(gòu)建知識系統(tǒng)(如知識圖譜),實現(xiàn)數(shù)字人的實時交互和自主學(xué)習(xí),但在知識獲取、知識融合、知識質(zhì)量等方面仍面臨著諸多挑戰(zhàn)。

數(shù)字人制作工具

為自己定制數(shù)字分身,也成為人們應(yīng)對多重任務(wù)挑戰(zhàn)的一種策略:直播帶貨主播,讓數(shù)字分身接替了自己的工作;媒體也開發(fā)了數(shù)字主持人、數(shù)字記者等。目前,國內(nèi)外可選的數(shù)字人制作工具也有很多。

1.國外數(shù)字人制作工具

國外數(shù)字人制作工具發(fā)展比較早,且種類豐富。英偉達(dá)(NVIDIA)的Omniverse平臺通過利用GPU技術(shù)和深度學(xué)習(xí)算法,提供了先進(jìn)的AI數(shù)字人生成工具。該平臺能夠生成高度逼真的虛擬形象,廣泛應(yīng)用于影視制作、虛擬現(xiàn)實(VR)等領(lǐng)域。Unity Technologies公司推出的虛擬人物生成工具主要面向游戲和影視行業(yè),支持高精度的面部和動作捕捉技術(shù)。通過深度學(xué)習(xí)和機(jī)器學(xué)習(xí)算法,能夠生成逼真的虛擬角色,提升用戶的沉浸式體驗。Epic Games公司創(chuàng)立的Unreal Engine虛擬角色生成工具支持多種面部表情捕捉和語音合成功能,廣泛應(yīng)用于游戲開發(fā)、虛擬現(xiàn)實等領(lǐng)域。MetaHuman-Stream作為開源實時交互流式數(shù)字人項目,能將數(shù)字人類虛擬形象與真實世界無縫融合。通過集成多種AI模型,該技術(shù)能夠?qū)崿F(xiàn)高度逼真的聲音模擬和流暢的對話交互。用戶可以自定義數(shù)字人的外觀和聲音,無論是在線教育還是虛擬客服,都提供了一種新穎、沉浸式的互動體驗,推動了虛擬數(shù)字人在多樣化應(yīng)用場景中的普及和應(yīng)用。

2.國內(nèi)數(shù)字人制作工具

近年來,國內(nèi)數(shù)字人技術(shù)發(fā)展迅猛,涌現(xiàn)出眾多優(yōu)秀的制作工具。阿里巴巴達(dá)摩院推出的虛擬形象生成工具,運用深度學(xué)習(xí)和計算機(jī)視覺技術(shù),實現(xiàn)高精度的面部表情捕捉和語音合成,廣泛應(yīng)用于電商直播、虛擬客服等領(lǐng)域,提高了用戶的互動體驗。騰訊AI Lab的虛擬形象生成工具,支持多語言語音識別和自然語言處理技術(shù)。通過深度學(xué)習(xí)模型生成逼真的虛擬角色,應(yīng)用于游戲和社交媒體,提升了用戶的沉浸感。字節(jié)跳動的AI Lab推出了多個虛擬主播和虛擬助手應(yīng)用。這些工具不僅支持高精度的面部表情捕捉,還具備強(qiáng)大的自然語言處理能力,廣泛應(yīng)用于短視頻平臺和內(nèi)容創(chuàng)作。此外,平民化的剪映軟件支持公模數(shù)據(jù)的數(shù)字人,也支持上傳聲音驅(qū)動,深受用戶喜愛。

大模型+數(shù)字人給教師帶來無限可能

隨著用戶需求和產(chǎn)品要求的不斷提升,數(shù)字人的發(fā)展面臨著一系列技術(shù)挑戰(zhàn)。如何在實時交互中生成高質(zhì)量的虛擬形象,如何提高語音合成的自然度和表達(dá)能力,這些都是當(dāng)前技術(shù)亟待解決的問題。而隨著大模型的橫空出世,數(shù)字人領(lǐng)域迎來前所未有的發(fā)展機(jī)遇。在大模型的加持下,數(shù)字人將能夠通過自我學(xué)習(xí)和創(chuàng)造,生成自己的形象、語言、知識和情感,形成自己的個性和風(fēng)格。

那么問題來了,如果將大模型技術(shù)和數(shù)字人技術(shù)聯(lián)合起來,并應(yīng)用于教育領(lǐng)域,又會給教師帶來哪些影響?在此之前,數(shù)字人已發(fā)揮一定的作用,如互動教學(xué),提供個性化的學(xué)習(xí)內(nèi)容和反饋,輔助教師教學(xué),使學(xué)生可以在任何時間、任何地點與數(shù)字人教師互動,獲得即時的學(xué)習(xí)幫助。然而,早期的數(shù)字人還不夠“聰明”,其對復(fù)雜問題的推理和解釋能力還比較欠缺。隨著大模型技術(shù)日趨成熟,數(shù)字人的能力也顯著提升。浙江大學(xué)的翟雪松等提出數(shù)字人可以從三個方面賦能教學(xué),分別是拓展學(xué)生學(xué)習(xí)能力、增強(qiáng)具身交互性、提升知識共創(chuàng)力。[2]陳衛(wèi)東等認(rèn)為數(shù)字人可以通過扮演人類的朋友、伴侶和寵物等多種角色,給用戶帶來親切感和陪伴感,減少其對陌生場景的恐懼和排斥,提供個性化情感服務(wù),滿足其情感需求,從而提升學(xué)習(xí)者的學(xué)習(xí)效率與積極性。[3]而吳長城等研究指出,新一代生成式人工智能技術(shù)驅(qū)動的新一代教育數(shù)字人為師生教育場景創(chuàng)設(shè)、智慧問答、智能反饋等帶來了質(zhì)的飛躍,可以讓每位教師和學(xué)習(xí)者打造個人的數(shù)字分身,生成自己的個性化教育數(shù)字人。能夠模擬真人教師,與學(xué)習(xí)者進(jìn)行互動,提供個性化的學(xué)習(xí)資源,有效提高學(xué)習(xí)者的學(xué)習(xí)體驗、學(xué)習(xí)興趣、社會存在感和學(xué)習(xí)成績。[4]“大模型+數(shù)字人”的組合能夠充分發(fā)揮兩者優(yōu)勢,大模型提供數(shù)據(jù)驅(qū)動的內(nèi)容創(chuàng)作,給數(shù)字人“裝”上智慧的大腦,使其能夠模擬人類行為和思維,實現(xiàn)智能化交互,給學(xué)習(xí)者提供實時的反饋與互動,有利于實現(xiàn)個性化教育、自適應(yīng)學(xué)習(xí),積極賦能學(xué)生自主學(xué)習(xí)。當(dāng)大模型+數(shù)字人技術(shù)的疊加應(yīng)用后,將會給教師帶來無限可能,為教師“減負(fù)”,成為其得力的教學(xué)助手。

數(shù)字人技術(shù)的潛在隱憂

數(shù)字人應(yīng)用的盛行,也引發(fā)了諸多擔(dān)憂。人們不禁要問,當(dāng)數(shù)字人脫離了真人控制,人們應(yīng)如何對待其分身?每個人都可能因各種需要產(chǎn)生自己的數(shù)字分身,人們是否真的愿意他人任意處置自己的數(shù)字分身?

數(shù)字人將與人類形成更深層次的互動和共生,引發(fā)新的倫理和法律問題。目前,數(shù)字人主要以一種工具或玩具的角色與人類交往,受到人類的控制和約束;未來,數(shù)字人將以一種伙伴或同伴的角色與人類相處,享有人類的權(quán)利和義務(wù)。數(shù)字人將不僅僅是一種機(jī)器或玩偶,還是一種“生命”,這將需要更多的信任和尊重、更多的理解和溝通、更多的規(guī)范和保護(hù)。值得注意的是,數(shù)字人在使用過程中會涉及大量用戶數(shù)據(jù),如面部表情、語音信息等。如何保護(hù)用戶數(shù)據(jù)隱私,防止數(shù)據(jù)泄露和濫用,是一個重要的挑戰(zhàn)。同時,數(shù)字人的廣泛應(yīng)用可能引發(fā)一系列倫理和法律問題,如虛擬形象的濫用、虛假信息的傳播等,這些問題都是不可回避的,需要各方共同努力,確保數(shù)字人技術(shù)的健康發(fā)展。

結(jié)語

未來,人類與數(shù)字人必將共存共生,數(shù)字人將繼續(xù)推動科技與藝術(shù)的融合,成為人類生活中不可或缺的一部分。技術(shù)的飛速發(fā)展和應(yīng)用拓展,將會使數(shù)字人為社會帶來更多的創(chuàng)新和價值,引領(lǐng)我們進(jìn)入一個全新的智能時代。隨著AIGC和數(shù)字人技術(shù)的不斷發(fā)展,數(shù)字人員工將成為人類的親密伙伴。那么,我們該如何與數(shù)字人共存?數(shù)字人會如何改變?nèi)藗兊纳媾c社會交往?這將是智能時代生存的新命題,我們拭目以待。

參考文獻(xiàn):

[1] Prajwal K R, Mukhopadhyay R, Namboodiri V P, et al. A lip sync expert is all you need for speech to lip generation in the wild[C]//Proceedings of the 28th ACM International Conference on Multimedia. New York: ACM,2020:484-492.

[2]翟雪松,吳庭輝,李翠欣,等.數(shù)字人教育應(yīng)用的演進(jìn)、趨勢與挑戰(zhàn)[J].現(xiàn)代遠(yuǎn)程教育研究,2023,35(06):41-50.

[3]陳衛(wèi)東,鄭巧蕓,褚樂陽,等.智情雙驅(qū):數(shù)字人的教育價值與應(yīng)用研究[J].遠(yuǎn)程教育雜志,2023,41(03):42-54.

[4]吳長城,胡雙武,蔣雨江,等.GenAI驅(qū)動的教育數(shù)字人架構(gòu)設(shè)計與實證研究[J].現(xiàn)代教育技術(shù),2024,34(09):26-36.

韶关市| 南宫市| 新巴尔虎左旗| 梧州市| 崇明县| 湟源县| 淅川县| 威宁| 政和县| 盖州市| 江安县| 行唐县| 兴业县| 兴义市| 游戏| 黄骅市| 凉城县| 临猗县| 鄂伦春自治旗| 修武县| 益阳市| 晋江市| 封丘县| 安丘市| 长春市| 思茅市| 东山县| 碌曲县| 云浮市| 乡宁县| 台江县| 博白县| 左权县| 安康市| 宜都市| 九江市| 武山县| 扎赉特旗| 突泉县| 元氏县| 于田县|