孫艷華
【摘要】智能合成語音具有智能化、標準化、制作門檻低等優(yōu)點,越來越成為閱讀聽書平臺信息有聲化道路上的新寵。評價觀察和聽審實驗結果均表明,閱讀聽書平臺AI合成語音的質量還存在較大提升空間,針對情感表現(xiàn)力弱、通順性差、部分作品語速快等問題,可通過AI語音技術和人工的結合、強化標點的作用、1倍語速設計為270字/分~290字/分、審校等方式完善。從播放量和評分看,AI主播版作品的用戶接受度優(yōu)于人工主播版,這與AI主播版更新及時、斷更現(xiàn)象少、價格優(yōu)勢有關。通過AI語音產(chǎn)品的二次開發(fā)為用戶提供更加豐富的產(chǎn)品和優(yōu)質的服務,將成為閱讀聽書平臺后期的工作重心。
【關鍵詞】閱讀聽書 智能合成語音 應用 質量 用戶接受
【中圖分類號】G206 【文獻標識碼】A 【文章編號】1003-6687(2021)12-081-08
【DOI】 10.13786/j.cnki.cn14-1066/g2.2021.12.012
由于音頻能更好地解放我們的雙手、雙眼,滿足特殊時段(如做飯、開車)、特殊人群(如視力障礙群體)的讀書需求,越來越多的網(wǎng)絡信息服務提供商加入有聲化的行列。中廣聯(lián)合會有聲閱讀委員會會長王秋指出,2022年我國有聲書用戶將達到5.6億,[1]“耳朵經(jīng)濟”正在成為一個新風口。
2021年是人工智能提出的第65年,智能語音(以下簡稱AI語音)已經(jīng)成為人工智能發(fā)展到今天最成熟、最重要的板塊之一。AI語音是我國為數(shù)不多具有自主知識產(chǎn)權且達到國際先進水平的產(chǎn)業(yè),且最近5年的發(fā)展超過了過去50年的發(fā)展。[2]
AI語音的多項子技術中,作為關鍵技術的語音合成技術成熟最早,它是指將文本信息自動轉換成語音信息(如銀行排隊叫號機),其應用場景包括閱讀聽書、資訊播報、訂單播報、智能硬件,①本文對其中的閱讀聽書場景展開研究。
一、調研平臺
參照艾瑞數(shù)據(jù)提供的平臺類別,提供閱讀聽書服務的平臺類別有在線閱讀、有聲聽書、有聲音頻。根據(jù)艾瑞數(shù)據(jù)“移動APP獨立設備使用量”2021年6月榜,筆者選取月度獨立設備使用量超1 000萬臺的平臺為調研對象,結果如下。
在線閱讀平臺方面:符合條件的在線閱讀平臺共10個,分別為掌閱、QQ閱讀、番茄免費小說、七貓免費小說、書旗小說、咪咕閱讀、搜狗閱讀、米讀小說、連尚免費讀書、微信讀書。
有聲平臺方面:符合條件的有聲聽書平臺為懶人暢聽,符合條件的有聲音頻平臺為喜馬拉雅、蜻蜓FM、荔枝①,共計4個有聲平臺。
在研究過程中,首先,基于平臺樣本對在線閱讀平臺AI合成語音的應用進程進行縱向梳理;其次,立足當下,對AI合成語音應用中的熱點——質量展開調查;再次,從效用的視角,分析AI合成語音的用戶接受。
二、AI合成語音在閱讀聽書平臺的應用進展
1. 在線閱讀平臺
各在線閱讀平臺上線后,相繼開通了智能語音朗讀服務。據(jù)筆者統(tǒng)計,截至目前,10個在線閱讀平臺的AI入局率為100%。各平臺中,除開通AI語音最晚的連尚免費讀書平臺有較多作品不支持AI語音,掌閱、七貓免費小說等平臺有少量作品未獲得音頻版權外,其他作品均提供AI語音服務。
2. 有聲平臺
筆者在4個有聲平臺通過搜索詞“AI”“智能語音”對“專輯”“聲音”“用戶”“節(jié)目”“書籍”“主播”等進行搜索。首先,4個平臺均存在AI語音作品,AI入局率為100%。其次,截至2021年7月31日,有效結果共計597部。其中,喜馬拉雅481部,占比80.6%;懶人暢聽113部,占比18.9%;蜻蜓FM2部;荔枝1部。對597部作品的發(fā)布時間、主播、主題等信息進行統(tǒng)計梳理,結果如下。
(1)AI合成語音的應用源起——AI導讀。有聲平臺最早的AI語音作品形態(tài)為喜馬拉雅和懶人暢聽平臺的AI導讀。AI導讀為國內首個實現(xiàn)智能濃縮書的產(chǎn)品,通過智能、客觀提取一定比例(通常為10%)全書干貨,②用AI語音朗讀,起到導讀的作用。
喜馬拉雅平臺方面。AI導讀作品共計283部,上傳時間集中于2019年1月至2019年6月。其中,最早的作品為2019年1月29日上傳的《AI導讀︱全球通史(中)》和《AI導讀︱全球通史(下)》。作品播放量在
1~2.8萬之間,超過1萬的作品僅2部——《AI導讀︱十人以下小團隊管理》(2.8萬)和《AI導讀︱邁向權利巔峰的希拉里》(1.1萬)。平均播放量688,多為付費收聽(少量免費),收費區(qū)間為0喜點/部~19.21喜點/部。③
懶人暢聽平臺方面。AI導讀作品共計98部,上傳時間集中于2019年2月至2019年12月。其中,最早的作品為2019年2月26日上傳的《AI導讀:全球通史》《AI導讀:誰是下一個中國首富》《AI導讀:75分鐘塑造高情商領導》。播放量介于1萬~243萬之間,平均值為5.9萬,遠超喜馬拉雅。收費區(qū)間為0.99元/部~22.99元/部。
喜馬拉雅和懶人暢聽可謂有聲平臺AI合成語音的試水者。根據(jù)統(tǒng)計結果,兩平臺的AI導讀作品數(shù)量變化趨勢如圖1所示。所有AI導讀作品的主播均為“AI導讀”“谷臻小簡”,音頻技術均由訊飛有聲提供。遺憾的是,這一具有歷史突破意義的AI產(chǎn)品形態(tài)于2019年12月12日退出歷史舞臺。
(2)AI主播、作品內容、作品數(shù)量不斷豐富。主播“AI導讀”“谷臻小簡”自2019年6月13日起,停更喜馬拉雅平臺的AI導讀作品,自2019年12月12日起,停更懶人暢聽平臺的AI導讀作品。但這并不意味著AI語音退出有聲平臺,接踵而至的是AI語音主體的多元化、合成內容的豐富和作品數(shù)量的逐漸增多。
最早的非導讀AI作品為2019年6月5日主播“華章有聲讀物”在喜馬拉雅平臺分享的作品《學會決斷AI版》。之后,“陽光科技AI”“任性_ae”“虛擬鏡像”“有聲小于”“AI合成”“愛閱讀de電子書”等AI主播紛紛入駐有聲平臺,其中不僅有專業(yè)的AI團隊,也有普通網(wǎng)民個人。AI語音開始被較廣泛地應用于小說、商業(yè)、生活等各類主題的作品朗讀中,作品數(shù)量變化趨勢如下頁圖2所示。可以看出,近兩年來,AI語音在有聲平臺的應用總體呈上升趨勢,特別是2021年7月達到歷史峰值。需要說明的是,在調研過程中發(fā)現(xiàn),AI語音作品的實際數(shù)量遠不止圖2所列,特別是喜馬拉雅平臺,近一年來的AI語音服務已經(jīng)較為普遍,但由于大部分缺少AI標識,因此搜索到的樣本有限。
3. 應用進展分析
無論是在線閱讀平臺,還是有聲平臺,AI合成語音的應用趨勢向好,主要有以下兩方面原因。
(1)在線閱讀平臺的主播有專業(yè)播音員、名人(如專家)、AI,有聲平臺的主播有專業(yè)播音員、網(wǎng)民、名人、AI。與專業(yè)播音員、網(wǎng)民、名人等人工主播相比,各平臺的AI語音雖然技術提供商不同(如喜馬拉雅、QQ閱讀平臺為科大訊飛開放平臺的合作伙伴,掌閱、七貓免費小說平臺由百度語音提供AI語音支持,微信讀書的AI合成語音由微信團隊提供①),但均具有生產(chǎn)效率高、成本低、標準化程度高、發(fā)音穩(wěn)定、語速可調、音色優(yōu)美干凈、無情緒波動、隨時在崗、不疲勞、無須備稿等優(yōu)點。
(2)市面上有聲書的數(shù)量遠少于電子書數(shù)量,通過AI合成語音技術,用戶端輸入文本,就可以7×24小時無間斷合成語音,大大緩解了由于人工錄播效率低而導致的有聲內容供給端產(chǎn)能不足的問題。特別是對于網(wǎng)民而言,AI語音合成技術可謂其福音。人工錄播門檻高,對主播的自身條件、水平、時間、精力都有很高的要求,大部分網(wǎng)民苦于自身沒有好的音色或音準條件,亦缺少聘請專業(yè)主播的條件或意愿,而通過AI語音合成軟件,普通網(wǎng)民可以將感興趣的文章轉化為AI語音進行傳播,而且音頻質量優(yōu)于自產(chǎn)。百度語音技術接口永久免費開放更是為“人人都可當主播”創(chuàng)造了更多的可能性。[3]而大量網(wǎng)民的加入,獻聲門檻的降低,進一步豐富了聽書資料來源,對于推動全民閱讀具有重要意義。
三、閱讀聽書平臺AI合成語音質量現(xiàn)狀
達到專業(yè)人工主播的質量水準一直是AI合成語音的奮斗目標,閱讀聽書平臺AI語音質量現(xiàn)狀如何?筆者通過觀察用戶評價和開展聽審實驗展開探索。
評價方面。通過觀察閱讀聽書平臺評論區(qū)的文字評論來了解聽眾對AI語音質量的評價。
實驗方面。為了客觀地呈現(xiàn)閱讀聽書平臺AI語音的質量現(xiàn)狀,開展對照文稿審校AI語音的實驗??紤]到對照與音頻內容相同的文稿更有助于聽審實驗的開展,且符合音頻審校實際,而有聲平臺無對照文本,因此,以10個在線閱讀平臺為實驗素材庫,選取各平臺2021年7月31日推薦閱讀的前5本提供AI語音服務的圖書的第1章為聽審對象,總計50個樣本,約12萬字。
1. 整體質量不達標
從評論看,類似“被這平淡不帶感情但又機械板正的聲音圈粉了”“微信讀書的AI男聲有點拽,AI女聲像實驗課上老師放過的20世紀錄像課程的聲音”的好評和中性評論相對較少,不少用戶抱怨AI語音在流水播報中“多音字從來沒有念對過,斷句奇奇怪怪,語流鈍澀,邏輯不清”,頻率較高的差評詞為:沒情感、不通順、速度快。
從實驗統(tǒng)計結果看,10個在線閱讀平臺的AI語音出錯率區(qū)間為0.8‰~15.8‰,參考圖書質量合格標準(差錯率≤0.2‰),出錯率均超標,平均出錯率4.1‰,為標準值的20.5倍。從分項統(tǒng)計結果看,AI語音錯誤主要集中在語氣不當(占比32.9%)、多音字讀錯(占比34.3%)、停頓位置不當(占比27.2%)三個方面,其他錯誤如多讀(如將“注”的編號讀出)、發(fā)音錯誤(如“娘”錯發(fā)為一聲)、英文發(fā)音磕磕絆絆等。
2. 情感表現(xiàn)力弱是最大痛點
評論中,抱怨AI語音沒感情者居多。實驗結果亦表明,兒化音、輕聲、感嘆或問話等語氣不當,以及重音出錯引發(fā)的情感不足是AI語音的主要問題之一,諸如“那玩意兒”的“兒”錯發(fā)二聲、“丈夫”的“夫”錯發(fā)一聲、“不怕死?”錯為陳述語氣等錯誤非常普遍。情感表現(xiàn)力弱成為AI語音的質量短版,從技術角度看,亦為最難攻克的關卡。究其原因,AI語音合成技術催生了見字出聲、語氣生硬的讀字,而情感是一個復雜的心理活動,相同的字、詞、句在不同的語境中含義不同,情感色彩有異,專業(yè)人工主播能夠充滿情感、富于變化地將其準確朗讀出來,是基于主播對文本的準確理解和用心感受,而AI主播情感匱乏,缺少變化,不會理解,也無法感受。[4]
有些主播為了提高AI語音的情感,置入了背景音樂,但并未因此收獲好評。從評論看,有不少聽眾抱怨背景音樂影響了收聽體驗。樣本統(tǒng)計結果顯示,大部分AI作品并未置入背景音樂,配樂版和無配樂版比例約為1:9。AI語音的機械式播報使聽眾對內容的理解難度加大,因此,要均衡考量背景音樂對內容情感的促進作用,及背景音樂對內容理解和接收的負面影響之間的關系,背景音樂的處理要謹慎,在決定置入時,要注意控制音量,以免得不償失。
2021年4月上旬,AI合成語音情感控制取得一項突破,使AI語音在接近人類情感方面又邁進了一步。微軟發(fā)布支持輕松調節(jié)情感程度的AI合成語音技術,將情感分為平靜、開心、溫柔、撒嬌、尷尬、嚴厲、憤怒、悲傷、恐懼、不滿、沮喪11個類別,以平靜語氣為零點,以1%為情感程度量化單元,使情感更加細膩豐富。[5]另外,建議AI語音技術商和內容商強化標點符號的情感表現(xiàn)作用,如問號為上揚語氣,嘆號對應為加深語氣,要表現(xiàn)重音可借助著重號等。
3. 通順性差是普遍現(xiàn)象
多音字讀錯、停頓位置不當是引起AI語音表達不通順的主要原因。首先,關于多音字,錯讀現(xiàn)象普遍,且與難易關聯(lián)不大,如長、重、背、行、發(fā)、悶、干、倒、得、覺、暈、看、都、著、落、相、少、沖、喝等簡單常見的多音字讀錯率都很高,因此,聽起來特別“刺耳”。其次,關于停頓位置,除了各平臺普遍存在的錯誤,如將“讓人討厭”讀成“讓#人討厭”,還包括個別平臺的特有錯誤,如七貓免費小說平臺標題中的空格(如“第一章 我的女兒”)、章標題與段之間缺少停頓,微信讀書平臺破折號沒有停頓作用,書旗小說平臺的語句在跨頁處停頓等。
無論是閱讀聽書平臺的內容生產(chǎn)者還是用戶,都對網(wǎng)絡小說投入了很高的熱情,50個質量調查樣本均為此類。網(wǎng)絡小說多采用大眾化表達,AI語音的通順性況且如此,如果遇到句式復雜、表達晦澀、語義多變、邏輯性強的內容,AI語音更難像人聲那樣自如、流暢和準確。
實際上,當前已經(jīng)具備解決影響AI語音通順性的多音字、停頓問題的技術條件??拼笥嶏w推出的“訊飛快讀”,在制作語音時,不僅可以進行多音字糾正,還可以插入停頓,停頓時長可設置為0.2秒、0.5秒、1秒、2秒。百度提供的“百度AI”也支持在合成語音時進行多音字標注。因此,在AI語音技術的加持下,如果想獲得通順的AI音頻,可以采用智能與人工相結合的方式,對內容進行細加工。另外,AI語音合成軟件應進一步完善通用設置,如所有點號,標號中的破折號、省略號、間隔號,空格,回車都有停頓作用;跨頁不是停頓的標識。
4. 部分作品語速偏快
從評論看,有不少作品被指出AI語速太快。實驗中,為了方便聽審,根據(jù)需要調整播放速度,因此,并未將速度納入出錯范疇,但有些作品采用默認1倍語速收聽時,確實有和網(wǎng)友一樣的感受。雖然速度可調,但要考慮到一些網(wǎng)友不方便或不會調速,為了提升服務質量,建議重視1倍語速的設計。通過測算,不滿度較高的1倍AI語速區(qū)間為290字/分~320字/分(其中,起停頓作用的標點符號計1字符)。中央廣播電臺播音員語速不超過300字/分,[6]人工主播結合文本語境和情感進行語音播報,抑揚頓挫,有利于信息的接收和理解,而AI語音的每一句話采用基本相同的情感,還附帶多音字等錯誤,290字/分~320字/分的速度確實給人偏快的感覺。參考多部評價高作品的AI語速的做法,經(jīng)測算,發(fā)現(xiàn)1倍語速區(qū)間為270字/分~290字/分時聽眾接受度最高。
無論是語速,還是前文提到的情感表現(xiàn)力、通順性問題的解決,建議AI語音借鑒人工錄播的質量控制方法——審校。閱讀聽書平臺多為大部頭作品,人工錄音工作量大,AI合成語音質量雖然遜色些,但省時省力省成本,因此,各平臺的常見做法是:為暢銷書、經(jīng)典長銷書錄制人工主播版(以下簡稱人工版),或全部只提供AI主播版(以下簡稱AI版),AI版音頻未審校。其實,考慮到AI語音出錯類型和出錯點比較固定,有規(guī)律可循,容易識別,發(fā)音的標準化也使錯誤更容易被客觀評判,所以,AI語音的審校難度比人工語音小很多,一次審校就能起到很好的質量提升效果。因此,對于有競爭力的作品,建議對AI語音進行至少一次審校,在質量和效率間尋找平衡點。
四、閱讀聽書平臺AI合成語音的用戶接受
通過AI版作品和人工版作品的對比,可以看出聽眾對AI合成語音的接受情況。對于在線閱讀平臺,常常較難判斷讀者對作品的評價是基于文本還是AI語音,因此,筆者從不提供文本的有聲平臺入手,對597部AI樣本信息進行統(tǒng)計,播放量超過10萬的73部作品中,有13部能在同一平臺搜索到人工版,且均為喜馬拉雅平臺的作品,這13部作品的播放量、評分、上傳時間等信息見表1。
1. AI版的用戶接受優(yōu)于人工版
從表1中的播放量看,人工版超過AI版的作品只有3部(分別為“梅花六有聲小說”的《小地主(梅花六演播)》、“播小文”的《〈大秦賦〉全集劇情解說》、“拔刀問情”的《三國之宅行天下》),其中2部上傳時間早于AI版。其余10部中,AI版播放量更高,其中7部是在上傳時間晚于人工版的情況下依然勝出,彰顯了AI版強大的競爭力。
從表1中的評分看,首先,從平均分看,兩個版本有評分者均為8部,AI版平均分為9.1,人工版平均分為8.7,AI版勝出。其次,從高分作品數(shù)量看,考慮到可比性,選取表中AI版和人工版均有評分者,即序號為3、4、5、6、7、13的6部作品做對比。4部AI版得分高于人工版(分別為《唐朝工科生》《無敵大魔王反派》《深海直播間》《我是林正英的僵尸徒弟》),2部AI版得分低于人工版(分別為《KN之我不是蛇精病》《我真的不是氣運之子》),AI版勝出。
2. AI版用戶接受優(yōu)于人工版的原因
以上統(tǒng)計結果表明,聽眾對AI版作品的接受度高于人工版。這一統(tǒng)計結果超出預期,但細致觀察分析后,不難發(fā)現(xiàn)其中一些深層的原因。
(1)更新頻率。通過表1中的上傳時間跨度和集數(shù)可以分別計算出AI版及人工版的更新頻率平均值,結果為AI版更新頻率9.1集/天,人工版1.1集/天??梢钥闯觯珹I版的更新頻率更快、更及時,這與AI語音合成技術的優(yōu)勢有關。人工錄播模式下,一部有聲書的制作周期通常為數(shù)月,對于精品有聲書,甚至長達數(shù)年,而AI語音的生產(chǎn)效率可達同水平人工的500倍。[7]在催更的呼聲中,AI版更能滿足用戶的需求。
(2)集數(shù)。根據(jù)表1中的集數(shù)統(tǒng)計結果,首先,從單部作品看,除“拔刀問情”的《三國之宅行天下》外,其他作品的人工版集數(shù)均少于(且大部分遠少于)AI版。其次,從綜合對比看,通過表中的集數(shù)和作品數(shù)量可以分別計算出13部AI版及24部人工版作品集數(shù)的平均值,結果為AI版794集/部,人工版209集/部,前者為后者的近4倍。而無論是AI版還是人工版,每集的時長均為10分鐘左右。因此可以看出,人工版不能善終、半途斷更現(xiàn)象非常普遍,AI版的集數(shù)通常更完整。
(3)價格。從表1中的價格數(shù)據(jù)可以看出,付費作品共4部,均為人工版,AI版均免費,價格優(yōu)勢是AI版的又一競爭力 。
AI語音技術提供商角度。語音合成技術投資大,但在科技向善和普惠的愿景下,技術免費、增值服務收費,開放平臺尋求軟硬件及內容合作成為主要商業(yè)模式,收益并不高。因此,小公司的發(fā)展較為困難,需形成規(guī)模優(yōu)勢。國際上,AI語音專業(yè)公司基本都被Nuance收購。國內反壟斷管制嚴格,情況好很多,形成了專業(yè)公司(如標桿企業(yè)科大訊飛)+互聯(lián)網(wǎng)公司(如百度語音、騰訊、搜狗、思必馳、出門問問)+創(chuàng)業(yè)公司(如智能360、云知聲、阿里巴巴)+高校和科研機構(如清華大學、中國科學技術大學、北京大學、中科院聲學所)競爭發(fā)展的產(chǎn)業(yè)布局。[2]根據(jù)《2020年中國智能語音行業(yè)研究報告》,我國已有約250家企業(yè)參與智能語音市場。閱讀聽書平臺要借此東風,加快有聲內容智能化轉型的步伐。
有聲內容提供方角度。專業(yè)的人工錄播投入成本高,首先需要編導、設備技術人員、主播等多角色參與,且按時計費,其次需要采用專用的設備、專業(yè)的錄播場地。對于普通網(wǎng)民而言,聲音錄制對設備、場地要求低,但音頻質量也低。因此,要保證人工語音的質量,就需要投入高昂的成本,而AI的成本為同水平人類的1/80000。[7]對于閱讀聽書平臺而言,可以充分發(fā)揮AI版的優(yōu)勢,或將AI版作品作為探試市場的工具,以考慮后期是否出人工版。
3. 用戶高點播、高評分與以貶為主的評論間的矛盾
需要說明的是,用戶評論是評判用戶接受的重要指標之一,但在評論觀測過程中,筆者發(fā)現(xiàn)用戶評論內容聚焦于質量方面,故將其置于上一節(jié)質量現(xiàn)狀部分。根據(jù)該節(jié)的用戶評論觀測結果,用戶對AI語音質量褒貶不一,甚至以貶為主。但從表1的分析結果看,實際上大部分用戶選擇收聽AI版作品,且給出了高分。點播、評分、評論的主體均為用戶,而三者表現(xiàn)出的用戶接受為何會出現(xiàn)矛盾之處?
仔細觀察后發(fā)現(xiàn),差評用戶以AI語音的新聽眾為主?!霸瓉硎菣C器人??!”“主播能帶點感情就好了”“這速度,主播是要趕著下班嗎?”“這主播肺活量真好,感覺一口氣能讀完一本書啊”,從評論內容和語氣看,這些聽眾剛知道甚至還不知道AI語音的存在。由于是AI語音新接觸者,不習慣這一新事物,給出差評也是可以理解的。用戶對AI語音的接受需要一個過程,相應地,新聽眾對AI語音也要多點耐心。目前的AI語音合成技術總體還處在初級智能階段,進入閱讀聽書平臺時間尚短,但質量已經(jīng)有了較大的提升,老用戶已經(jīng)越來越習慣,有人甚至“愛上了這個寶藏聲音”,而且“已經(jīng)不習慣聲情并茂、戲份過多的真人演繹”。例如《首席醫(yī)官后傳(AI有聲書)》有些用戶甚至聽了3~6遍。①雖然依然有人吐槽AI語音像無感情的讀書機器人,但今天AI合成語音的違和感已經(jīng)很低了,自然度甚至達到并超過普通人水平,[8]技術服務提供商也在加大前進的步伐,并將質量提升作為重中之重,使AI合成語音不斷向人性化邁進。
五、前景預測
綜上,閱讀聽書平臺的AI合成語音呈現(xiàn)多元化發(fā)展態(tài)勢,用戶接受趕超人工語音,但質量有待進一步提升。根據(jù)AI合成語音應用于閱讀聽書平臺以來的走勢,以及AI語音技術的發(fā)展方向,不難做出如下判斷:閱讀聽書平臺在保證基礎服務,特別是產(chǎn)品質量的基礎上,后期的工作重心將放在AI語音產(chǎn)品的二次開發(fā)上,力求通過文化和發(fā)展模式的創(chuàng)新,為用戶帶來更豐富的產(chǎn)品和體驗。
1. AI主播類型進一步豐富
首先,豐富AI主播選項成為閱讀聽書平臺的開發(fā)空間。在線閱讀平臺方面,各平臺主播可選范圍區(qū)別較大,如連尚免費讀書平臺只有一個AI主播,而掌閱、QQ閱讀等平臺有十多個AI主播選項;有聲平臺方面,目前用戶端AI主播不可選,此場景下,大眾音、普通話是保證播放量的做法,但這不利于聽眾個性化需求的滿足。其次,方言成為滿足用戶個性化需求的新入口。方言作為可選項,有利于增進聽眾的親切感。內容方角度上,目前提供方言服務的平臺有掌閱、QQ閱讀、咪咕閱讀、米讀小說;技術方角度上,方言領域走在前端的訊飛有聲支持200種聲音,但大部分的方言還不行。再次,個性化語音定制將成為趨勢。早在2013年,科大訊飛為高德地圖定制了林志玲、郭德綱的導航語音包,[9]這種專業(yè)定制聲音的方式,現(xiàn)在普通網(wǎng)民用戶也可以輕易實現(xiàn)。2018年9月,訊飛閱讀推出定制聲音功能,用戶按要求朗讀1 000字左右的指定文本,上傳聲音后,系統(tǒng)會自動采集音色,使用戶成為主播。2020年5月,與科大訊飛合作的咪咕閱讀開始推出定制朗讀語言包。相信語音定制服務在各閱讀聽書平臺的普及指日可待,未來,每個人都可以自己當主播。
2. 場景服務理念進一步加強
首先,有望實現(xiàn)智能區(qū)分內容場景,分角色匹配AI語音。語音合成可以發(fā)展到根據(jù)文本內容,或人工對文本做特殊標識,AI自動區(qū)分情景,并為各發(fā)言人匹配對應的AI角色語音,甚至匹配適合該場景的情感,通過情景代入演繹出更完美的聲音。其次,有望實現(xiàn)場景分發(fā)機制,為聽眾提供基于“場景+興趣”的AI語音推薦。用戶在不同時間、地點、場合,傾向于選擇收聽的內容、AI主播類型、音量等均可通過該用戶的大數(shù)據(jù)分析得出,通過繪制千人千面的個人場景圖譜,完成場景分發(fā),逐步實現(xiàn)從感知智能向認知智能的跨越。
3. 智能融合思維進一步深化
首先,通過融入AI語音識別理解技術方便聽眾互動可能會成為閱讀聽書平臺的剛需性應用。人們聽書常處于雙手、雙眼不便時,所以,交互操作如果能通過語音喚醒、語音交互、人機對話指令來完成,聽書將能適應更多的場景,而這可以通過融入AI語音識別理解技術來實現(xiàn)。該技術是指將語音信息自動轉換成數(shù)字設備可理解的文本信息,并給出正確的回應。[10]目前,語音識別系統(tǒng)對普通話的識別準確率可達98%,方言準確率可達80%,[11]且支持中英語音混合輸入,語音識別理解技術已被應用于智能客服、智能電子設備(如小愛音箱)等領域。因此,閱讀聽書平臺已經(jīng)具備通過語音指令實現(xiàn)人機交互的技術條件。其次,為了迎接“5G+物聯(lián)網(wǎng)”的時代變革,閱讀聽書平臺已經(jīng)開始對接智能家居、智能穿戴、智能車載系統(tǒng)等聲音驅動設備,未來,融合將進一步加深,AI語音系統(tǒng)格局將被拓寬,閱讀場景越來越豐富,聽書越來越便捷。
結語
AI合成語音改變了閱讀聽書的方向,為語音信息的生成和傳播提供了新的選擇,且更加高效、便捷。用戶的支持和熱情使閱讀聽書越來越成為AI合成語音技術重要的應用場景,但AI語音質量提升需要技術商和內容商的共同發(fā)力。作為具有顛覆性的技術,AI合成語音帶來的影響是深遠的。作為初入局的閱讀聽書平臺,對其輕視可能意味著與強者地位失之交臂。[12]在AI語音技術取得日新月異發(fā)展的當下,閱讀聽書平臺要做好靈活應對甚至切換賽道的準備。相信在價值堅守與創(chuàng)新驅動的雙重加持下,AI語音與閱讀聽書的融合可以更好地服務社會,促進文化的傳播。
參考文獻:
[1] 王秋:2022年中國將成有聲書市場第一大國 用戶將達5.62億[EB/OL].[2020-10-20].http://finance.sina.com.cn/meeting/2020-10-21/doc-iiznezxr7205015.shtml.
[2] 牛祿青. 智能語音時代來臨——專訪清華大學電子工程系副教授吳及[J]. 新經(jīng)濟導刊,2013(7):32-37.
[3] 郝麗娜. 新媒體形勢下智能語音的發(fā)展[J]. 新媒體研究,2018(5):35-36.
[4] 姚爭,劉力軍,張樹楠. 智能語音技術視域下播音與主持專業(yè)應變策略研究——基于申報國家一流專業(yè)建設點的數(shù)據(jù)分析[J]. 吉林藝術學院學報,2020(4):48-59.
[5] IT之家. 微軟人工智能語音技術支持“多情感程度”調節(jié),細膩演繹“人聲”[EB/OL].[2021-04-12].https://baijiahao.baidu.com/s?id=1696822476206922372&wfr=spider&for=pc.
[6] 喻國明,王文軒,馮菲,等. 合成語音新聞的傳播效果評測——關于語速影響的EEG證據(jù)[J]. 國際新聞界,2021(2):6-26.
[7] 劉一鳴,高玥. 人工智能語音在有聲讀物中的應用研究[J]. 出版發(fā)行研究,2019(11):35-39.
[8] 張建中. 聲音作為下一個平臺:智能語音新聞報道的創(chuàng)新與實踐[J]. 現(xiàn)代傳播,2018(1):148-153.
[9] 于繼棟,劉勝男. 當傳媒業(yè)遇到智能語音技術[J]. 中國傳媒科技,2015(7):14-17.
[10] 李剛. 智能語音識別技術的架構與設計[J]. 電腦知識與技術,2018(18):175-177.
[11] 朱飛虎,徐康生. 智能語音平臺上媒體的發(fā)展邏輯[J]. 新聞世界,2018(10):36-38.
[12] 石群峰. 智能語音催生傳媒發(fā)展新機遇[J]. 中國傳媒科技,2015(7):18.
Application Progress, Quality Status and User Acceptance of? AI Synthetic Voice on Reading and Listening Platforms
SUN Yan-hua(College of Communication, Qingdao University of Science and Technology, Qingdao 266061, China)
Abstract: AI synthetic voice has the advantages of intelligence, standardization and low production threshold, and increasingly become a new favorite on the audiolization of reading and listening platforms. The evaluation observation, listening and proofreading experiment results show that there is still much room to improve the AI synthetic voice quality on the reading and listening platforms. As to the problems of weak emotion, a lack of smoothness and fast speed, we can improve them by the combination of AI technology and manual labor, emphasizing the role of punctuation, designing original speed as 270-290 words / min, proofreading and so on. Judging from the playback volume and rating, the users' acceptance of the AI versions is better than that of the manual version, which is related to the timely updating, less interruption and price advantage of the AI version. Providing users with richer products and better services through the secondary development of AI voice products will become the focus of the reading and listening platforms in the future stage.
Key words: reading and listening platform; AI synthetic voice; application; quality; user acceptance