短視頻AI配音的使用與滿足研究

2024-03-17 11:31夏春秋

新聞研究導(dǎo)刊 2024年4期

摘要：聲音作為一種媒介，影響著人與場(chǎng)景之間的關(guān)系，讓人感知并涉入世界。當(dāng)下，迅速發(fā)展的智能語音合成技術(shù)不僅可以用于人機(jī)協(xié)作、自然語言理解等領(lǐng)域，而且在改善語音交互體驗(yàn)、服務(wù)于特定人群等方面也具有廣泛的應(yīng)用價(jià)值。作為AIGC（人工智能生產(chǎn)內(nèi)容）的分支之一，AI配音在短視頻領(lǐng)域也迎來了極大的發(fā)展和創(chuàng)新。一方面，智能音色在語音轉(zhuǎn)換、音效增強(qiáng)、畫面配音等方面能夠起到增益效果，促進(jìn)內(nèi)容創(chuàng)作的繁榮。另一方面，基于技術(shù)創(chuàng)造的標(biāo)簽、話題、熱梗開辟了網(wǎng)絡(luò)傳播的新形式。低成本、效果優(yōu)、差異化的優(yōu)點(diǎn)讓智能語音在某種程度上代替甚至超越真人人聲，以一種貼合大眾的視點(diǎn)轉(zhuǎn)述用戶的表達(dá)并提供全新的聽覺審美體驗(yàn)。為了進(jìn)一步探索AI配音在短視頻領(lǐng)域所凸顯的功能，本研究采用文獻(xiàn)調(diào)查法、觀察法等，分析短視頻中AI配音所呈現(xiàn)的特征，將其總結(jié)為資源預(yù)置化、聲音賽博化、聽覺審美化三點(diǎn)。文章以使用與滿足理論為依據(jù)，從技術(shù)手段、語音符號(hào)、聽覺方式、傳播模因多角度入手，探討短視頻AI配音對(duì)受眾的娛樂、情感、認(rèn)知、整合等需求的滿足。文章認(rèn)為，對(duì)于短視頻AI配音應(yīng)保持關(guān)注和反思，雖然AI配音存在同質(zhì)化、版權(quán)等問題，但是相信隨著社會(huì)技術(shù)的變革，智能語音的發(fā)展會(huì)適配更多短視頻場(chǎng)景，為更便捷高效的生活方式創(chuàng)造更多可能。

關(guān)鍵詞：AI配音；人工智能；使用與滿足；聽覺文化；模因傳播

中圖分類號(hào)：TP18；G206 文獻(xiàn)標(biāo)志碼：A 文章編號(hào)：1674-8883（2024）04-0001-03

基金項(xiàng)目：本論文為2023年度中共遼寧省委黨校國(guó)家社科辦社科基金項(xiàng)目“數(shù)據(jù)驅(qū)動(dòng)國(guó)家治理現(xiàn)代化的內(nèi)在機(jī)理與實(shí)現(xiàn)路徑”研究成果，項(xiàng)目編號(hào)：23BZZ084

一、引言

智能語音即實(shí)現(xiàn)人與機(jī)器以語言為紐帶的通信[1]。AI配音是基于語音合成技術(shù)，運(yùn)用計(jì)算機(jī)采集人類聲音樣本生成語言模型以此完成配音任務(wù)的過程。TTS（語音合成）能夠?qū)⑽淖洲D(zhuǎn)化為聲音（朗讀出來），是AI配音的技術(shù)支撐。抖音短視頻對(duì)應(yīng)的剪輯軟件“剪映”、快手短視頻的“快影”，都提供各式各樣的AI配音。如今技術(shù)的發(fā)展與賦權(quán)使得眾多UGC進(jìn)入短視頻市場(chǎng)，AI配音的使用主體迅速下沉到各個(gè)圈層，極大地豐富了視聽元素。聲音比影視更具滲透力、爆破力，正常人可以將眼睛長(zhǎng)時(shí)間閉上，卻無法長(zhǎng)時(shí)間把耳朵捂著[2]。短視頻作為視聽藝術(shù)的載體，畫面配音直接或間接地影響受眾對(duì)視頻內(nèi)容的解讀，能夠滿足用戶不同的視聽需求。

二、短視頻AI配音的應(yīng)用特征

（一）資源預(yù)置化

正如保羅·萊文森所說：“一切媒介的性能終將越來越人性化?！盵3]AI配音的聲音是通過“爬數(shù)據(jù)”來組成，迭代速度快。只要采集到足夠多的聲音樣本，其在不同的場(chǎng)景就可以隨意變換音色。對(duì)聲音來說，可選擇的原聲、預(yù)置的音色，為用戶提供了一種模式化、可復(fù)制的表演前臺(tái)，人們?cè)矩S富多彩的個(gè)性被劃分為了不同的“人設(shè)”[4]。

AI配音現(xiàn)象在短視頻平臺(tái)隨處可見，小到生活記錄、大到主流媒體玩“?！保砻嫔鲜遣煌挠耙暯巧?、地域方言講述著不符合他們形象的故事，實(shí)際上是大眾通過網(wǎng)絡(luò)切換身份向世界袒露心聲、表達(dá)傾向。如剪映APP從最初的通用基礎(chǔ)男女聲，到現(xiàn)在擁有百余種音色選擇，主要包括影視人物、動(dòng)漫角色、地域方言等。這些一鍵生成的預(yù)設(shè)選項(xiàng)降低了視頻創(chuàng)作成本，滿足了不愿出鏡或不想使用同期聲的用戶的需求，保護(hù)了用戶隱私，給予了用戶足夠的自由。

（二）聲音賽博化

約斯·德·穆爾總結(jié)了數(shù)字媒介的三種特性：多媒體性、互動(dòng)性、虛擬性[5]。19世紀(jì)七八十年代，留聲機(jī)、唱片的發(fā)明和使用讓人聲脫離了身體實(shí)在。隨著互聯(lián)網(wǎng)時(shí)代的到來，人們只需輕點(diǎn)指尖便可游離于形形色色的場(chǎng)景之中，當(dāng)身體被隱藏，聲音作為一種物理現(xiàn)象在網(wǎng)絡(luò)中呈現(xiàn)出賽博化的特征。

短視頻功能的開發(fā)和細(xì)化不斷挖掘著聲音的價(jià)值和魅力，平衡了視與聽之間的關(guān)系，也在無形中改變了大眾的生活方式與感知模式。對(duì)于用戶而言，在視頻中發(fā)聲也屬于一種情感實(shí)踐。

在講述相關(guān)故事的過程中，智能音色發(fā)揮了重要作用，“猴哥”開始進(jìn)行知識(shí)科普、“主持人”吐槽起了日常瑣碎。如果說一般的真人配音是對(duì)文本內(nèi)容的物理加工，那么AI配音作用于文本，帶來的則是熟悉而又陌生的化學(xué)反應(yīng)。

（三）聽覺審美化

人們?cè)诮佑|視聽作品的過程中，由于視覺的直觀性，審美對(duì)象仍以承載意義的文字為主，而聲音的審美價(jià)值可能被有意無意地忽略?；谥悄芤羯a(chǎn)生的信息產(chǎn)品雖難以被納入繪畫、音樂等藝術(shù)范疇，但也會(huì)在一定程度上影響受眾的認(rèn)知、態(tài)度、行為等。不同的音色呈現(xiàn)多元的個(gè)性風(fēng)格和審美特征：動(dòng)漫音活潑、年輕化；播音腔莊重，凸顯專業(yè)度；方言親切，消解距離感。和能夠辨別方向的眼睛相比，耳朵是一種情感性媒介[6]。

AI配音正以全新的聽覺方式塑造新的聲音景觀。短視頻能夠直接抓取用戶眼球，并產(chǎn)生指向性讓用戶投入畫面當(dāng)中，開啟第一次內(nèi)容解讀，而聲音揭示了另一層解讀意義，引導(dǎo)用戶跟隨博主的步調(diào)繼續(xù)了解視頻內(nèi)容。一般來說，真人人聲聽起來更加親切，但帶有科技紋理的AI配音未嘗不能響應(yīng)用戶的心聲。

三、短視頻AI配音的使用與滿足

1974年，美國(guó)社會(huì)學(xué)家卡茨提出，“使用與滿足”理論，把受眾看作有特定需求的個(gè)人，把他們的媒介接觸活動(dòng)看作基于特定需求的動(dòng)機(jī)“使用”媒介，從而使這些需求得到“滿足”的過程[7]。

新媒體時(shí)代，傳受雙方的地位發(fā)生了“融合性”變化，用戶既是生產(chǎn)者也是傳播者。短視頻AI配音讓用戶與內(nèi)容之間的聯(lián)系更加緊密，逐漸影響用戶的使用習(xí)慣，滿足不同的使用需求。

（一）賽博聲音滿足情感需求

聲音不像目光那樣帶有方向性地向其對(duì)象投射，卻總是形成一個(gè)將聽覺主體沉浸其中的環(huán)境[8]。AI配音的特質(zhì)提高了用戶講故事的能力，助力個(gè)人表達(dá)內(nèi)心情感。

如果說短視頻打開了人們抒發(fā)情感的另一扇門，那么AI配音就是他們細(xì)化喜怒哀樂的窗口。不管是虛擬世界還是現(xiàn)實(shí)世界，總有“沉默的大多數(shù)”，AI配音授予那些在現(xiàn)實(shí)世界中“開不了口”的用戶開口的權(quán)限，讓那些在虛擬世界中“開不了口”的用戶有了開口的勇氣。

當(dāng)智能語音技術(shù)加入口語傳播行列后，有聲語言傳播便可擺脫人的限制，進(jìn)行非器官發(fā)聲[9]。熱門的“猴哥”“譯制片男”語音包，不論是用于個(gè)人日常Vlog創(chuàng)作，還是評(píng)論其他熱點(diǎn)現(xiàn)象，僅僅通過一鍵生成，靈動(dòng)、厚重的聲音能為單薄的文本增色添彩，視頻創(chuàng)作也更加便捷和富有表現(xiàn)力?；ヂ?lián)網(wǎng)自帶的趣緣性特征讓用戶交際處于弱關(guān)系狀態(tài)，而賽博化的聲音提高了人們表達(dá)情感的自由度，從而加強(qiáng)對(duì)自我世界的“強(qiáng)建構(gòu)”。

（二）語言質(zhì)感滿足娛樂需求

美國(guó)社會(huì)學(xué)家戈夫曼在《日常生活中的自我呈現(xiàn)》一書中提出擬劇理論。他指出，人生是一場(chǎng)表演，社會(huì)是一個(gè)舞臺(tái)，社會(huì)成員通過運(yùn)用各種符號(hào)按照事先準(zhǔn)備的腳本進(jìn)行表演[10]。用戶通過這些預(yù)置的音色即刻達(dá)到配音效果，扮演不同的角色。

對(duì)于生活類短視頻來說，受眾使用AI配音更多的是想嘗試喜愛的風(fēng)格來釋放情緒、卸下偽裝，聽眾也不需要過多思考，二者互為陪伴。在分享的過程中，人們被重視、被認(rèn)可、被崇拜的需要得到了滿足[11]。

泛娛樂化媒體有自身的聲音標(biāo)識(shí)，統(tǒng)一聲音風(fēng)格也是樹立創(chuàng)作者形象的標(biāo)準(zhǔn)之一。如抖音“會(huì)火”“巨星火火”等百萬級(jí)資訊媒體多使用甜美音、溫柔音來輸出豐富的生活信息，既適應(yīng)短視頻平臺(tái)的調(diào)性，也滿足了目標(biāo)受眾的視聽習(xí)慣和娛樂需求。如今，媒體和用戶互為內(nèi)容素材，通過視頻中各種有趣的聲音符號(hào)來傳播，活化了平凡的生活文本，訴說著嚴(yán)肅，又消解著嚴(yán)肅。

（三）高效生成滿足認(rèn)知需求

對(duì)于專業(yè)性內(nèi)容生產(chǎn)而言，畫面與聲音具有強(qiáng)烈的相關(guān)性和匹配度。短視頻中的影視解說往往以沉穩(wěn)聲、播音腔為標(biāo)志，配合劇情的畫面片段和BGM（背景音樂），造就一部高質(zhì)量短片。

對(duì)于短視頻新聞而言，音色或磁性沉穩(wěn)，或溫柔輕快，在沒有人工配音的基礎(chǔ)上能做到與畫面有機(jī)配合、智能產(chǎn)出，滿足用戶需求。從當(dāng)前的情況來看，AI配音作為輔助工具，可能會(huì)在一定程度上代替人類進(jìn)行新聞報(bào)道[12]。

值得注意的是，當(dāng)這樣一種文本朗讀模式被套用在文學(xué)讀物中時(shí)，也別有一番滋味。在文字還沒有成熟之時(shí)，以口語傳誦的荷馬史詩、《詩經(jīng)》等詩歌作品，就已經(jīng)開始傳達(dá)人們的思想與情感，記錄人們的生活與文化[13]。AI配音能夠模仿抑揚(yáng)頓挫的人聲，將相關(guān)內(nèi)容以歌唱的形式表現(xiàn)出來。抖音短視頻中#AI讀詩#有8000萬次播放量，理性的人工智能把感性的文藝詩詞唱出來之后，在某種程度上強(qiáng)化了人們對(duì)文化的感知。

（四）網(wǎng)絡(luò)模因滿足整合需求

模因是通過模仿而傳播的文化基因，由于模仿而導(dǎo)致的大規(guī)模傳播行為，被稱為“模因傳播”[14]。在技術(shù)賦權(quán)時(shí)代，網(wǎng)絡(luò)傳播的內(nèi)容、形式、范圍和速度都發(fā)生了變化，人們往往更傾向于模因傳播來引發(fā)網(wǎng)絡(luò)狂歡，重視創(chuàng)新參與和趣味互動(dòng)。

由于生產(chǎn)中不同的編碼意圖和傳播中不同的改進(jìn)意愿，同一音色能建構(gòu)龐大的內(nèi)容矩陣。雖表不同意，然聲從同源。曾經(jīng)流行的“鼠鼠文學(xué)”便是大眾通過“鼠鼠”這個(gè)意象來進(jìn)行自我消解，配上“譯制片聲”，講述自己微不足道的底層經(jīng)驗(yàn)。相比于真人人聲，配音能夠更好地傳達(dá)平等交流的理念，這既是對(duì)自我信心的強(qiáng)化，也能夠加強(qiáng)個(gè)人與群體的連接。除此之外，AI音色與特定內(nèi)容的綁定，也可成為視頻創(chuàng)作和傳播的模因，如短視頻平臺(tái)大量涌現(xiàn)的“在校大學(xué)生宿舍好物分享”“買家秀與賣家秀”等主題內(nèi)容，該類模因已具備語言模因的性質(zhì)。聲音不僅具有解釋畫面的功能，更能夠呈現(xiàn)人的回憶與想象[15]。

四、結(jié)語

短視頻AI配音改變了人們的視聽體驗(yàn)，拓展了用戶創(chuàng)作和網(wǎng)絡(luò)傳播的邊界。多元音色不僅能滿足用戶基本的娛樂需求，還能起到替代性作用，為“沉默的大多數(shù)”打開與外界交流的窗口。專業(yè)領(lǐng)域?qū)υ摷夹g(shù)的應(yīng)用客觀上也加強(qiáng)了圈層之間的交流，促進(jìn)了社會(huì)的整合。AI配音在AIGC領(lǐng)域扮演著越來越重要的角色，提供各式資源供大眾娛樂和訴情，同時(shí)也在塑造著新的聽覺方式和聲音景觀。盡管AI配音目前存在一些問題，如內(nèi)容同質(zhì)、聲音版權(quán)等，但這些都沒能阻止它在各個(gè)領(lǐng)域的廣泛應(yīng)用。相信隨著社會(huì)技術(shù)的變革，智能語音會(huì)適配更多的短視頻場(chǎng)景，為人們的休閑娛樂創(chuàng)造更多的可能，讓人們獲取信息更加便捷高效。

參考文獻(xiàn)：

[1] 2020年中國(guó)智能語音行業(yè)研究報(bào)告[R].艾瑞咨詢，2020-02-10.

[2] 廖賈克·阿達(dá)利.噪音：音樂的政治經(jīng)濟(jì)學(xué)[M].宋素鳳，翁桂堂，譯.開封：河南大學(xué)出版社，2017：3.

[3] 保羅·萊文森.軟利器：信息革命的自然歷史與未來[M].何道寬，譯.上海：復(fù)旦大學(xué)出版社，2011：5.

[4] 王洋溢.短視頻聲音創(chuàng)作中“網(wǎng)感”的生成模式研究[J].新聞研究導(dǎo)刊，2023，14（2）：1-4.

[5] 約斯·德·穆爾.賽博空間的奧德賽[M].麥永雄，譯.南寧：廣西師范大學(xué)出版社，2007：89.

[6] 許加彪，張宇然.耳朵的蘇醒：場(chǎng)景時(shí)代下的聲音景觀與聽覺文化[J].編輯之友，2021（8）：12-17，23.

[7] 郭慶光.傳播學(xué)教程[M].北京：中國(guó)人民大學(xué)出版社，2011：167-168.

[8] 季凌霄.從“聲景”思考傳播：聲音、空間與聽覺感官文化[J].國(guó)際新聞界，2019，41（3）：24-41.

[9] 白貴，任青青.人工智能環(huán)境下有聲語言傳播創(chuàng)新的趨向及影響[J].海河傳媒，2020（3）：1-6.

[10] 歐文·戈夫曼.日常生活中的自我呈現(xiàn)[M].馮鋼，譯.北京：北京大學(xué)出版社，2016：103-107.

[11] 董晨宇，丁依然.當(dāng)戈夫曼遇到互聯(lián)網(wǎng)：社交媒體中的自我呈現(xiàn)與表演[J].新聞與寫作，2018（1）：56-62.

[12] 劉慧君. AI配音的優(yōu)勢(shì)與劣勢(shì)探究：以《創(chuàng)新中國(guó)》中解說詞配音的功能為例[J].新聞研究導(dǎo)刊，2023，14（7）：7-9.

[13] 炸糕. AI讀詩：浪漫而空寂的回音，不是詩的回音[EB/OL].微信公眾號(hào)“知著網(wǎng)”，（2022-11-29）[2023-12-18]. https：// mp.weixin.qq.com/s/T9Y5a744K4_lD7MJAoUuag.

[14] 理查德·道金斯.自私的基因[M].盧允中，等譯.北京：中信出版社，2012：217-227.

[15] 王珍，胡銳.聲音景觀建構(gòu)視角下短視頻AI配音濫用行為研究[J].電聲技術(shù)，2022，46（10）：31-33，46.

作者簡(jiǎn)介夏春秋，研究方向：網(wǎng)絡(luò)與新媒體。

国产日韩欧美一区二区三区三州_亚洲少妇熟女av_久久久久亚洲av国产精品_波多野结衣网站一区二区_亚洲欧美色片在线91_国产亚洲精品精品国产优播av_日本一区二区三区波多野结衣 _久久国产av不卡

短視頻AI配音的使用與滿足研究

一、引言

二、短視頻AI配音的應(yīng)用特征

三、短視頻AI配音的使用與滿足

四、結(jié)語

二、短視頻AI配音的應(yīng)用特征

三、短視頻AI配音的使用與滿足

四、結(jié)語