摘要:聲音作為一種媒介,影響著人與場(chǎng)景之間的關(guān)系,讓人感知并涉入世界。當(dāng)下,迅速發(fā)展的智能語音合成技術(shù)不僅可以用于人機(jī)協(xié)作、自然語言理解等領(lǐng)域,而且在改善語音交互體驗(yàn)、服務(wù)于特定人群等方面也具有廣泛的應(yīng)用價(jià)值。作為AIGC(人工智能生產(chǎn)內(nèi)容)的分支之一,AI配音在短視頻領(lǐng)域也迎來了極大的發(fā)展和創(chuàng)新。一方面,智能音色在語音轉(zhuǎn)換、音效增強(qiáng)、畫面配音等方面能夠起到增益效果,促進(jìn)內(nèi)容創(chuàng)作的繁榮。另一方面,基于技術(shù)創(chuàng)造的標(biāo)簽、話題、熱梗開辟了網(wǎng)絡(luò)傳播的新形式。低成本、效果優(yōu)、差異化的優(yōu)點(diǎn)讓智能語音在某種程度上代替甚至超越真人人聲,以一種貼合大眾的視點(diǎn)轉(zhuǎn)述用戶的表達(dá)并提供全新的聽覺審美體驗(yàn)。為了進(jìn)一步探索AI配音在短視頻領(lǐng)域所凸顯的功能,本研究采用文獻(xiàn)調(diào)查法、觀察法等,分析短視頻中AI配音所呈現(xiàn)的特征,將其總結(jié)為資源預(yù)置化、聲音賽博化、聽覺審美化三點(diǎn)。文章以使用與滿足理論為依據(jù),從技術(shù)手段、語音符號(hào)、聽覺方式、傳播模因多角度入手,探討短視頻AI配音對(duì)受眾的娛樂、情感、認(rèn)知、整合等需求的滿足。文章認(rèn)為,對(duì)于短視頻AI配音應(yīng)保持關(guān)注和反思,雖然AI配音存在同質(zhì)化、版權(quán)等問題,但是相信隨著社會(huì)技術(shù)的變革,智能語音的發(fā)展會(huì)適配更多短視頻場(chǎng)景,為更便捷高效的生活方式創(chuàng)造更多可能。
關(guān)鍵詞:AI配音;人工智能;使用與滿足;聽覺文化;模因傳播
中圖分類號(hào):TP18;G206 文獻(xiàn)標(biāo)志碼:A 文章編號(hào):1674-8883(2024)04-0001-03
基金項(xiàng)目:本論文為2023年度中共遼寧省委黨校國(guó)家社科辦社科基金項(xiàng)目“數(shù)據(jù)驅(qū)動(dòng)國(guó)家治理現(xiàn)代化的內(nèi)在機(jī)理與實(shí)現(xiàn)路徑”研究成果,項(xiàng)目編號(hào):23BZZ084
智能語音即實(shí)現(xiàn)人與機(jī)器以語言為紐帶的通信[1]。AI配音是基于語音合成技術(shù),運(yùn)用計(jì)算機(jī)采集人類聲音樣本生成語言模型以此完成配音任務(wù)的過程。TTS(語音合成)能夠?qū)⑽淖洲D(zhuǎn)化為聲音(朗讀出來),是AI配音的技術(shù)支撐。抖音短視頻對(duì)應(yīng)的剪輯軟件“剪映”、快手短視頻的“快影”,都提供各式各樣的AI配音。如今技術(shù)的發(fā)展與賦權(quán)使得眾多UGC進(jìn)入短視頻市場(chǎng),AI配音的使用主體迅速下沉到各個(gè)圈層,極大地豐富了視聽元素。聲音比影視更具滲透力、爆破力,正常人可以將眼睛長(zhǎng)時(shí)間閉上,卻無法長(zhǎng)時(shí)間把耳朵捂著[2]。短視頻作為視聽藝術(shù)的載體,畫面配音直接或間接地影響受眾對(duì)視頻內(nèi)容的解讀,能夠滿足用戶不同的視聽需求。
(一)資源預(yù)置化
正如保羅·萊文森所說:“一切媒介的性能終將越來越人性化?!盵3]AI配音的聲音是通過“爬數(shù)據(jù)”來組成,迭代速度快。只要采集到足夠多的聲音樣本,其在不同的場(chǎng)景就可以隨意變換音色。對(duì)聲音來說,可選擇的原聲、預(yù)置的音色,為用戶提供了一種模式化、可復(fù)制的表演前臺(tái),人們?cè)矩S富多彩的個(gè)性被劃分為了不同的“人設(shè)”[4]。
AI配音現(xiàn)象在短視頻平臺(tái)隨處可見,小到生活記錄、大到主流媒體玩“?!保砻嫔鲜遣煌挠耙暯巧?、地域方言講述著不符合他們形象的故事,實(shí)際上是大眾通過網(wǎng)絡(luò)切換身份向世界袒露心聲、表達(dá)傾向。如剪映APP從最初的通用基礎(chǔ)男女聲,到現(xiàn)在擁有百余種音色選擇,主要包括影視人物、動(dòng)漫角色、地域方言等。這些一鍵生成的預(yù)設(shè)選項(xiàng)降低了視頻創(chuàng)作成本,滿足了不愿出鏡或不想使用同期聲的用戶的需求,保護(hù)了用戶隱私,給予了用戶足夠的自由。
(二)聲音賽博化
約斯·德·穆爾總結(jié)了數(shù)字媒介的三種特性:多媒體性、互動(dòng)性、虛擬性[5]。19世紀(jì)七八十年代,留聲機(jī)、唱片的發(fā)明和使用讓人聲脫離了身體實(shí)在。隨著互聯(lián)網(wǎng)時(shí)代的到來,人們只需輕點(diǎn)指尖便可游離于形形色色的場(chǎng)景之中,當(dāng)身體被隱藏,聲音作為一種物理現(xiàn)象在網(wǎng)絡(luò)中呈現(xiàn)出賽博化的特征。
短視頻功能的開發(fā)和細(xì)化不斷挖掘著聲音的價(jià)值和魅力,平衡了視與聽之間的關(guān)系,也在無形中改變了大眾的生活方式與感知模式。對(duì)于用戶而言,在視頻中發(fā)聲也屬于一種情感實(shí)踐。
在講述相關(guān)故事的過程中,智能音色發(fā)揮了重要作用,“猴哥”開始進(jìn)行知識(shí)科普、“主持人”吐槽起了日常瑣碎。如果說一般的真人配音是對(duì)文本內(nèi)容的物理加工,那么AI配音作用于文本,帶來的則是熟悉而又陌生的化學(xué)反應(yīng)。
(三)聽覺審美化
人們?cè)诮佑|視聽作品的過程中,由于視覺的直觀性,審美對(duì)象仍以承載意義的文字為主,而聲音的審美價(jià)值可能被有意無意地忽略?;谥悄芤羯a(chǎn)生的信息產(chǎn)品雖難以被納入繪畫、音樂等藝術(shù)范疇,但也會(huì)在一定程度上影響受眾的認(rèn)知、態(tài)度、行為等。不同的音色呈現(xiàn)多元的個(gè)性風(fēng)格和審美特征:動(dòng)漫音活潑、年輕化;播音腔莊重,凸顯專業(yè)度;方言親切,消解距離感。和能夠辨別方向的眼睛相比,耳朵是一種情感性媒介[6]。
AI配音正以全新的聽覺方式塑造新的聲音景觀。短視頻能夠直接抓取用戶眼球,并產(chǎn)生指向性讓用戶投入畫面當(dāng)中,開啟第一次內(nèi)容解讀,而聲音揭示了另一層解讀意義,引導(dǎo)用戶跟隨博主的步調(diào)繼續(xù)了解視頻內(nèi)容。一般來說,真人人聲聽起來更加親切,但帶有科技紋理的AI配音未嘗不能響應(yīng)用戶的心聲。
1974年,美國(guó)社會(huì)學(xué)家卡茨提出,“使用與滿足”理論,把受眾看作有特定需求的個(gè)人,把他們的媒介接觸活動(dòng)看作基于特定需求的動(dòng)機(jī)“使用”媒介,從而使這些需求得到“滿足”的過程[7]。
新媒體時(shí)代,傳受雙方的地位發(fā)生了“融合性”變化,用戶既是生產(chǎn)者也是傳播者。短視頻AI配音讓用戶與內(nèi)容之間的聯(lián)系更加緊密,逐漸影響用戶的使用習(xí)慣,滿足不同的使用需求。
(一)賽博聲音滿足情感需求
聲音不像目光那樣帶有方向性地向其對(duì)象投射,卻總是形成一個(gè)將聽覺主體沉浸其中的環(huán)境[8]。AI配音的特質(zhì)提高了用戶講故事的能力,助力個(gè)人表達(dá)內(nèi)心情感。
如果說短視頻打開了人們抒發(fā)情感的另一扇門,那么AI配音就是他們細(xì)化喜怒哀樂的窗口。不管是虛擬世界還是現(xiàn)實(shí)世界,總有“沉默的大多數(shù)”,AI配音授予那些在現(xiàn)實(shí)世界中“開不了口”的用戶開口的權(quán)限,讓那些在虛擬世界中“開不了口”的用戶有了開口的勇氣。
當(dāng)智能語音技術(shù)加入口語傳播行列后,有聲語言傳播便可擺脫人的限制,進(jìn)行非器官發(fā)聲[9]。熱門的“猴哥”“譯制片男”語音包,不論是用于個(gè)人日常Vlog創(chuàng)作,還是評(píng)論其他熱點(diǎn)現(xiàn)象,僅僅通過一鍵生成,靈動(dòng)、厚重的聲音能為單薄的文本增色添彩,視頻創(chuàng)作也更加便捷和富有表現(xiàn)力?;ヂ?lián)網(wǎng)自帶的趣緣性特征讓用戶交際處于弱關(guān)系狀態(tài),而賽博化的聲音提高了人們表達(dá)情感的自由度,從而加強(qiáng)對(duì)自我世界的“強(qiáng)建構(gòu)”。
(二)語言質(zhì)感滿足娛樂需求
美國(guó)社會(huì)學(xué)家戈夫曼在《日常生活中的自我呈現(xiàn)》一書中提出擬劇理論。他指出,人生是一場(chǎng)表演,社會(huì)是一個(gè)舞臺(tái),社會(huì)成員通過運(yùn)用各種符號(hào)按照事先準(zhǔn)備的腳本進(jìn)行表演[10]。用戶通過這些預(yù)置的音色即刻達(dá)到配音效果,扮演不同的角色。
對(duì)于生活類短視頻來說,受眾使用AI配音更多的是想嘗試喜愛的風(fēng)格來釋放情緒、卸下偽裝,聽眾也不需要過多思考,二者互為陪伴。在分享的過程中,人們被重視、被認(rèn)可、被崇拜的需要得到了滿足[11]。
泛娛樂化媒體有自身的聲音標(biāo)識(shí),統(tǒng)一聲音風(fēng)格也是樹立創(chuàng)作者形象的標(biāo)準(zhǔn)之一。如抖音“會(huì)火”“巨星火火”等百萬級(jí)資訊媒體多使用甜美音、溫柔音來輸出豐富的生活信息,既適應(yīng)短視頻平臺(tái)的調(diào)性,也滿足了目標(biāo)受眾的視聽習(xí)慣和娛樂需求。如今,媒體和用戶互為內(nèi)容素材,通過視頻中各種有趣的聲音符號(hào)來傳播,活化了平凡的生活文本,訴說著嚴(yán)肅,又消解著嚴(yán)肅。
(三)高效生成滿足認(rèn)知需求
對(duì)于專業(yè)性內(nèi)容生產(chǎn)而言,畫面與聲音具有強(qiáng)烈的相關(guān)性和匹配度。短視頻中的影視解說往往以沉穩(wěn)聲、播音腔為標(biāo)志,配合劇情的畫面片段和BGM(背景音樂),造就一部高質(zhì)量短片。
對(duì)于短視頻新聞而言,音色或磁性沉穩(wěn),或溫柔輕快,在沒有人工配音的基礎(chǔ)上能做到與畫面有機(jī)配合、智能產(chǎn)出,滿足用戶需求。從當(dāng)前的情況來看,AI配音作為輔助工具,可能會(huì)在一定程度上代替人類進(jìn)行新聞報(bào)道[12]。
值得注意的是,當(dāng)這樣一種文本朗讀模式被套用在文學(xué)讀物中時(shí),也別有一番滋味。在文字還沒有成熟之時(shí),以口語傳誦的荷馬史詩、《詩經(jīng)》等詩歌作品,就已經(jīng)開始傳達(dá)人們的思想與情感,記錄人們的生活與文化[13]。AI配音能夠模仿抑揚(yáng)頓挫的人聲,將相關(guān)內(nèi)容以歌唱的形式表現(xiàn)出來。抖音短視頻中#AI讀詩#有8000萬次播放量,理性的人工智能把感性的文藝詩詞唱出來之后,在某種程度上強(qiáng)化了人們對(duì)文化的感知。
(四)網(wǎng)絡(luò)模因滿足整合需求
模因是通過模仿而傳播的文化基因,由于模仿而導(dǎo)致的大規(guī)模傳播行為,被稱為“模因傳播”[14]。在技術(shù)賦權(quán)時(shí)代,網(wǎng)絡(luò)傳播的內(nèi)容、形式、范圍和速度都發(fā)生了變化,人們往往更傾向于模因傳播來引發(fā)網(wǎng)絡(luò)狂歡,重視創(chuàng)新參與和趣味互動(dòng)。
由于生產(chǎn)中不同的編碼意圖和傳播中不同的改進(jìn)意愿,同一音色能建構(gòu)龐大的內(nèi)容矩陣。雖表不同意,然聲從同源。曾經(jīng)流行的“鼠鼠文學(xué)”便是大眾通過“鼠鼠”這個(gè)意象來進(jìn)行自我消解,配上“譯制片聲”,講述自己微不足道的底層經(jīng)驗(yàn)。相比于真人人聲,配音能夠更好地傳達(dá)平等交流的理念,這既是對(duì)自我信心的強(qiáng)化,也能夠加強(qiáng)個(gè)人與群體的連接。除此之外,AI音色與特定內(nèi)容的綁定,也可成為視頻創(chuàng)作和傳播的模因,如短視頻平臺(tái)大量涌現(xiàn)的“在校大學(xué)生宿舍好物分享”“買家秀與賣家秀”等主題內(nèi)容,該類模因已具備語言模因的性質(zhì)。聲音不僅具有解釋畫面的功能,更能夠呈現(xiàn)人的回憶與想象[15]。
短視頻AI配音改變了人們的視聽體驗(yàn),拓展了用戶創(chuàng)作和網(wǎng)絡(luò)傳播的邊界。多元音色不僅能滿足用戶基本的娛樂需求,還能起到替代性作用,為“沉默的大多數(shù)”打開與外界交流的窗口。專業(yè)領(lǐng)域?qū)υ摷夹g(shù)的應(yīng)用客觀上也加強(qiáng)了圈層之間的交流,促進(jìn)了社會(huì)的整合。AI配音在AIGC領(lǐng)域扮演著越來越重要的角色,提供各式資源供大眾娛樂和訴情,同時(shí)也在塑造著新的聽覺方式和聲音景觀。盡管AI配音目前存在一些問題,如內(nèi)容同質(zhì)、聲音版權(quán)等,但這些都沒能阻止它在各個(gè)領(lǐng)域的廣泛應(yīng)用。相信隨著社會(huì)技術(shù)的變革,智能語音會(huì)適配更多的短視頻場(chǎng)景,為人們的休閑娛樂創(chuàng)造更多的可能,讓人們獲取信息更加便捷高效。
參考文獻(xiàn):
[1] 2020年中國(guó)智能語音行業(yè)研究報(bào)告[R].艾瑞咨詢,2020-02-10.
[2] 廖賈克·阿達(dá)利.噪音:音樂的政治經(jīng)濟(jì)學(xué)[M].宋素鳳,翁桂堂,譯.開封:河南大學(xué)出版社,2017:3.
[3] 保羅·萊文森.軟利器:信息革命的自然歷史與未來[M].何道寬,譯.上海:復(fù)旦大學(xué)出版社,2011:5.
[4] 王洋溢.短視頻聲音創(chuàng)作中“網(wǎng)感”的生成模式研究[J].新聞研究導(dǎo)刊,2023,14(2):1-4.
[5] 約斯·德·穆爾.賽博空間的奧德賽[M].麥永雄,譯.南寧:廣西師范大學(xué)出版社,2007:89.
[6] 許加彪,張宇然.耳朵的蘇醒:場(chǎng)景時(shí)代下的聲音景觀與聽覺文化[J].編輯之友,2021(8):12-17,23.
[7] 郭慶光.傳播學(xué)教程[M].北京:中國(guó)人民大學(xué)出版社,2011:167-168.
[8] 季凌霄.從“聲景”思考傳播:聲音、空間與聽覺感官文化[J].國(guó)際新聞界,2019,41(3):24-41.
[9] 白貴,任青青.人工智能環(huán)境下有聲語言傳播創(chuàng)新的趨向及影響[J].海河傳媒,2020(3):1-6.
[10] 歐文·戈夫曼.日常生活中的自我呈現(xiàn)[M].馮鋼,譯.北京:北京大學(xué)出版社,2016:103-107.
[11] 董晨宇,丁依然.當(dāng)戈夫曼遇到互聯(lián)網(wǎng):社交媒體中的自我呈現(xiàn)與表演[J].新聞與寫作,2018(1):56-62.
[12] 劉慧君. AI配音的優(yōu)勢(shì)與劣勢(shì)探究:以《創(chuàng)新中國(guó)》中解說詞配音的功能為例[J].新聞研究導(dǎo)刊,2023,14(7):7-9.
[13] 炸糕. AI讀詩:浪漫而空寂的回音,不是詩的回音[EB/OL].微信公眾號(hào)“知著網(wǎng)”,(2022-11-29)[2023-12-18]. https:// mp.weixin.qq.com/s/T9Y5a744K4_lD7MJAoUuag.
[14] 理查德·道金斯.自私的基因[M].盧允中,等譯.北京:中信出版社,2012:217-227.
[15] 王珍,胡銳.聲音景觀建構(gòu)視角下短視頻AI配音濫用行為研究[J].電聲技術(shù),2022,46(10):31-33,46.
作者簡(jiǎn)介 夏春秋,研究方向:網(wǎng)絡(luò)與新媒體。